解释性项目反应理论模型：理论与应用

doi:10.3724/SP.J.1042.2019.00937

[1]

刘红云, 骆方 . ( 2008).

多水平项目反应理论模型在测验发展中的应用

心理学报, 40( 1), 92-100.

[本文引用: 1]

[2]

聂旭刚, 陈平, 张缨斌, 何引红 . ( 2018).

题目位置效应的概念及检测

心理科学进展, 26( 2), 368-380.

[本文引用: 3]

[3]

詹沛达, 王文中, 王立君 . ( 2013).

项目反应理论新进展之题组反应理论

心理科学进展, 21( 12), 2265-2280.

[本文引用: 1]

[4]

Adams

R. J

., Wu

M. L

., & Wilson

M. R

. ( 1988).

ACER ConQuest: Generalised item response modelling software [Computer software]

Melbourne, Victoria, Australia: Australian Council for Educational Research.

[本文引用: 1]

[5]

Baghaei

P

., Ravand

H

., . ( 2016).

Modeling local item dependence in cloze and reading comprehension test items using testlet response theory

Psicologica: International Journal of Methodology and Experimental Psychology, 37( 1), 85-104.

[本文引用: 2]

[6]

Bates

D

., Mächler

M

., Bolker

B. M

., & Walker

S. C

( 2015).

Fitting linear mixed-effects models using LME4

Journal of Statistical Software, 67( 1), 1-48.

[本文引用: 1]

[7]

Bechger T.

M

Maris

G

., ( 2015).

A statistical test for differential item pair functioning

Psychometrika, 80( 2), 317-340.

DOI:10.1007/s11336-014-9408-y URL [本文引用: 1]

[8]

Binet

A.

, & Simon

T.

, ( 1904).

Méthodes nouvelles pour le diagnostic du niveau intellectuel des anormaux

L'année Psychologique, 11( 1), 191-244.

[本文引用: 1]

[9]

Birnbaum

A.

, , ( 1968).

Some latent trait models and their use in inferring an examinee’s ability

In F. M. Lord & M. R. Novick (Eds.), Statistical theories of mental test scores( pp. 392-479). Reading, MA: Addison-Wesley.

[本文引用: 1]

[10]

Bock R.

D

., & Aitkin

M.

, ( 1981).

Marginal maximum likelihood estimation of item parameters: Application of an EM algorithm

Psychometrika, 46( 4), 443-459.

[本文引用: 1]

[11]

Bock R.

D

., & Lieberman

M.

, ( 1970).

Fitting a response model for n dichotomously scored items

Psychometrika, 35(2), 179-197.

[本文引用: 1]

[12]

Bolker

B. M

., Brooks

M. E

., Clark

C. J

., Geange

S. W

., Poulsen

J. R

., Stevens

M. H. H

& White

J. S. S

., ( 2009).

Generalized linear mixed models: A practical guide for ecology and evolution

Trends in Ecology & Evolution, 24( 3), 127-135.

[本文引用: 1]

[13]

Bolt D.

M

. ( 2002).

A Monte Carlo comparison of parametric and nonparametric polytomous DIF detection methods

Applied Measurement in Education, 15( 2), 113-141.

DOI:10.1207/S15324818AME1502_01 URL [本文引用: 1]

[14]

Cosgrove

J.

, & Cartwright

F.

, ( 2014).

Changes in achievement on PISA: The case of Ireland and implications for international assessment practice

Large Scale Assessments in Education, 2( 2), 1-17.

[本文引用: 1]

[15]

Debeer

D.

& Janssen

R.

, ( 2013).

Modeling item-position effects within an IRT framework

Journal of Educational Measurement, 50( 2), 164-185.

DOI:10.1111/jedm.2013.50.issue-2 URL [本文引用: 2]

[16]

Debeer

D

., Buchholz

J

., Hartig

J

., & Janssen

R

. ( 2014).

Student, school, and country differences in sustained test-taking effort in the 2009 PISA reading assessment

Journal of Educational and Behavioral Statistics, 39( 6), 502-523.

DOI:10.3102/1076998614558485 URL [本文引用: 1]

[17]

De Boeck

P

., Bakker

M

., Zwitser

R

., Nivard

M

., Hofman

A

., Tuerlinckx

F

., & Partchev

I

. ( 2011).

The estimation of item response models with the lmer function from the lme4 package in R

Journal of Statistical Software, 39( 12), 1-28.

[本文引用: 2]

[18]

De Boeck

P.

, & Wilson

M.

, ( 2004).

Explanatory item response models: A generalized linear and nonlinear approach

New York, NY: Springer.

[本文引用: 5]

[19]

De Boeck

P.

, Wilson M.

R

. ( 2016).

Explanatory response models

In W. J. van der Linden (Ed.), Handbook of Item Response Theory, Volume One: Models( pp. 565-580). New York, NY: Chapman and Hall/CRC.

[本文引用: 1]

[20]

Eyre

J

., Berg

M

., Mazengarb

J

., & Lawes

E

. ( 2017).

Mode equivalency in PAT: Reading comprehension

Wellington: NZCER.

[21]

Fujimoto K.

A

. ( 2018).

A general Bayesian multilevel multidimensional IRT model for locally dependent data

British Journal of Mathematical and Statistical Psychology, 71( 3), 536-560.

DOI:10.1111/bmsp.2018.71.issue-3 URL [本文引用: 1]

[22]

Fukuhara

H.

& Kamata

A.

, ( 2011).

A bifactor multidimensional item response theory model for differential item functioning analysis on testlet-based items

Applied Psychological Measurement, 35( 8), 604-622.

DOI:10.1177/0146621611428447 URL [本文引用: 1]

[23]

Gamerman

D

., Gonçalves

F. B

., Soares

T. M

. ( 2018).

Differential item functioning

In W. J. van der Linden (Ed.), Handbook of Item Response Theory, Volume Three: Applications( pp. 67-86). New York, NY: Chapman and Hall/CRC.

[本文引用: 1]

[24]

Gill

J

. ( 2000).

Generalized linear models: A unified approach

(Vol. 134). Thousand Oaks, CA: Sage Publications.

[本文引用: 1]

[25]

Hartig

J.

, & Buchholz

J.

, ( 2012).

A multilevel item response model for item position effects and individual persistence

Psychological Test and Assessment Modeling, 54( 4), 418-431.

[本文引用: 1]

[26]

Hohensinn

C

., Kubinger

K. D

., Reif

M

., Schleicher

E

., & Khorramdel

L

. ( 2011).

Analyzing item position effects due to test booklet design within large-scale assessment

Educational Research and Evaluation, 17( 6), 497-509.

DOI:10.1080/13803611.2011.632668 URL [本文引用: 1]

[27]

, , Hoskens

M.

, & De Boeck

P.

, ( 1997).

A parametric model for local dependence among test items

Psychological Methods, 2( 3), 261-277.

[本文引用: 1]

[28]

Ip E.

H

. ( 2000).

Adjusting for information inflation due to local dependency in moderately large item clusters

Psychometrika, 65( 1), 73-91.

DOI:10.1007/BF02294187 URL [本文引用: 1]

[29]

Janssen

R

.( 2016).

Linear Logistic Models

In W. J. van der Linden (Ed.), Handbook of Item Response Theory, Volume One: Models ( pp. 211-224). New York, NY: Chapman and Hall/CRC.

[30]

Jeon

M

., Rijmen

F

., & Rabe-Hesketh

S

. ( 2013).

Modeling differential item functioning using a generalization of the multiple-group bifactor model

Journal of Educational and Behavioral Statistics, 38( 1), 32-60.

DOI:10.3102/1076998611432173 URL

[31]

Jeon

M

., Rijmen

F

., & Rabe-Hesketh

S

. ( 2014).

Flexible item response theory modeling with FLIRT

Applied Psychological Measurement, 38( 5), 404-405.

[本文引用: 1]

[32]

Jerrim

J

.( 2016).

PISA 2012: How do results for the paper and computer tests compare?

Assessment in Education: Principles, Policy & Practice, 23( 4), 495-518.

[本文引用: 1]

[33]

Jerrim

J

., Micklewright

J

., Heine

J. H

., Salzer

C

., & McKeown

C

. ( 2018).

PISA 2015: How big is the ‘mode effect’ and what has been done about it?

Oxford Review of Education, 44( 4), 476-493.

[本文引用: 1]

[34]

Jiao

H

., Kamata

A

., Wang

S

., & Jin

Y

. ( 2012).

A multilevel testlet model for dual local dependence

Journal of Educational Measurement, 49( 1), 82-100.

DOI:10.1111/jedm.2012.49.issue-1 URL [本文引用: 1]

[35]

Jiao

H

., Kamata

A

. & Xie

C

. , ( 2015).

Multilevel cross-classified testlet model for complex item and person clustering in item response data analysis

In J. R. Harring, L. M. Stapleton & S. N. Beretvas (Eds.), Advances in multilevel modeling for educational research: Addressing practical issues found in real-world applications (pp. 139-161). Charlotte, NC: Information Age Publishing Inc.

[本文引用: 4]

[36]

Jiao

H

., Wang

S. D

., & Kamata

A

. ( 2005).

Modeling local item dependence with the hierarchical generalized linear model

Journal of Applied Measurement, 6( 3), 311-321.

[本文引用: 1]

[37]

Jiao

H

.,Zhang

Y

, ( 2015).

Polytomous multilevel testlet models for testlet-based assessments with complex sampling designs

British Journal of Mathematical and Statistical Psychology, 68( 1), 65-83.

DOI:10.1111/bmsp.2015.68.issue-1 URL

[38]

Jin

Y

.,Kang

M

, ( 2016).

Comparing DIF methods for data with dual dependency

Large-scale Assessments in Education, 4( 1), 18.

DOI:10.1186/s40536-016-0033-3 URL [本文引用: 1]

[39]

Kamata

A

. , ( 2001).

Item analysis by the hierarchical generalized linear model

Journal of Educational Measurement, 38( 1), 79-93.

DOI:10.1111/jedm.2001.38.issue-1 URL [本文引用: 1]

[40]

Kang

C

. , ( 2014).

Linear and nonlinear modeling of item position effects (Unpublished master’s thesis)

University of Nebraska-Lincoln.

[本文引用: 1]

[41]

Klein Entink

R. H

., Kuhn

J. T

., Hornke

L. F

., & Fox

J. P

. ( 2009).

Evaluating cognitive theory: A joint modeling approach using responses and response times

Psychological methods, 14( 1), 54-75.

[本文引用: 1]

[42]

Koziol N.

A

. ( 2016).

Parameter recovery and classification accuracy under conditions of testlet dependency: A comparison of the traditional 2PL, testlet, and bi-factor models

Applied Measurement in Education, 29( 3), 184-195.

DOI:10.1080/08957347.2016.1171767 URL [本文引用: 1]

[43]

Lee

Y

.( 2004).

Examining passage-related local item dependence (LID) and measurement construct using Q3 statistics in an EFL reading comprehension test

Language Testing, 21( 1), 74-100.

DOI:10.1191/0265532204lt260oa URL [本文引用: 2]

[44]

Logan

T

. ( 2015).

The influence of test mode and visuospatial ability on mathematics assessment performance

Mathematics Education Research Journal, 27(4), 423-441.

DOI:10.1007/s13394-015-0143-1 URL [本文引用: 1]

[45]

Mislevy R.

J

. ( 2016).

How developments in psychology and technology challenge validity argumentation

Journal of Educational Measurement, 53( 3), 265-292.

[本文引用: 1]

[46]

OECD. ( 2017a).

PISA 2015 technical report

Pairs: OECD Publishing.

[本文引用: 1]

[47]

OECD. ( 2017b).

PISA 2015 assessment and analytical framework: Science, reading, mathematic, financial literacy and collaborative problem solving, Paris: OECD Publishing

Retrieved from http://dx.doiorg/10.1787/9789264281820-en.

[本文引用: 1]

[48]

Osterlind S.

J

., & Everson H.

T

. ( 2009).

Differential item functioning

(Vol. 161). Thousand Oaks, CA: Sage Publications.

[本文引用: 2]

[49]

Paek

I

., Fukuhara

H

. ( 2015).

Estimating a DIF decomposition model using a random-weights linear logistic test model approach

Behavior Research Methods, 47( 3), 890-901.

DOI:10.3758/s13428-014-0512-9 URL [本文引用: 1]

[50]

Plummer

M

. ( 2017).

JAGS version 4

3.0 user manual [Software manual]. Retrieved from

URL

[51]

Rabe-Hesketh

S

., Skrondal

A

. ( 2016).

Generalized linear latent and mixed modeling

In W. J. van der Linden (Ed.), Handbook of Item Response Theory, Volume One: Models( pp. 503-526). New York, NY: Chapman and Hall/CRC.

[本文引用: 1]

[52]

Rabe-Hesketh

S.

, Skrondal

A.Pickles

, & Pickles

A.

, , ( 2004).

GLLAMM manual [Software manual]

(U. C. Berkeley Division of Biostatistics Working Paper Series, 160)

[本文引用: 1]

[53]

Raudenbush

S. W

., Bryk

A. S

., Cheong

Y. F

., Congdon Jr

R. T

., & Toit

M. D

. ( 2011).

HLM7 hierarchical linear and nonlinear modeling manual [Software manual]

Lincolnwood, IL: SSI Scientific Software International Inc.

[本文引用: 1]

[54]

Ravand

H

. ( 2015).

Assessing testlet effect, impact, differential testlet, and item functioning using cross-classified multilevel measurement modeling

SAGE Open, 5( 2).

[本文引用: 3]

[55]

Rijmen

F

. ( 2006).

BNL: A Matlab toolbox for Bayesian networks with logistic regression( Tech. Rep.)

Amsterdam, the Netherlands: VU University Medical Center.

[本文引用: 3]

[56]

Rijmen

F

., Tuerlinckx

F

., De Boeck

P

., & Kuppens

P

. ( 2003).

A nonlinear mixed model framework for item response theory

Psychological Methods, 8( 2), 185-205.

DOI:10.1037/1082-989X.8.2.185 URL [本文引用: 1]

[57]

SAS

Institute

. ( 2015).

SAS/STAT 14.1: user's guide [Software manual]

Cary, NC: SAS Institute Inc.

[58]

Spiegelhalter

D

., Thomas

A

., Best

N

., & Lunn

D

. ( 2014). OpenBUGS (Version 3.2.3) [Software manual]. Retrieved from, .

URL [本文引用: 1]

[59]

Stroup W.

W

. ( 2012).

Generalized linear mixed models: Modern concepts, methods and applications

Boca Raton, FL: CRC press.

[本文引用: 2]

[60]

Su

Y

, Yajima

M

( 2015). R2jags: A Package for Running JAGS from R [Computer software]. Retrieved from

URL [本文引用: 1]

[61]

Teker G.

T

Dogan

N

., ( 2015).

The Effects of testlets on reliability and differential item functioning

Educational Sciences: Theory and Practice, 15( 4), 969-980.

[本文引用: 1]

[62]

Thissen

D

., ( 1991).

MULTILOG [Software manual]

Lincolnwood, IL: Scientific Software.

[本文引用: 1]

[63]

Trendtel

M

., Robitzsch

A

., ( 2018).

Modeling item position effects with a Bayesian item response model applied to PISA 2009-2015 data

Psychological Test and Assessment Modeling, 60( 2), 241-263.

[本文引用: 1]

[64]

Tutz

G

., Berger

M

., ( 2016).

Item-focussed trees for the identification of items in differential item functioning

Psychometrika, 81( 3), 727-750.

DOI:10.1007/s11336-015-9488-3 URL [本文引用: 1]

[65]

Tutz

G

., Schauberger

G

., ( 2015).

A penalty approach to differential item functioning in Rasch models

Psychometrika, 80( 1), 21-43.

DOI:10.1007/s11336-013-9377-6 URL [本文引用: 1]

[66]

van der Linden

W.J

, . ( 2016).

Handbook of Item Response Theory, Volume One

New York, NY: Chapman and Hall/ CRC.

[本文引用: 1]

[67]

van der Linden

W.J

, . ( 2018).

Handbook of Item Response Theory, Volume Three: Applications

New York, NY: Chapman and Hall/CRC.

[68]

Vansteelandt

K

, .( 2000).

Formal models for contextualized personality psychology (Unpublished doctoral dissertation)

K.U. Leuven, Belgium.

[本文引用: 1]

[69]

Wainer

H.

, & Lukhele

R.

, ( 1997).

How reliable are TOEFL scores?

Educational and Psychological Measurement, 57( 5), 741-758.

DOI:10.1177/0013164497057005002 URL [本文引用: 1]

[70]

Wainer

H

., Sireci

S. G

., & Thissen

D

. ( 1991).

Differential testlet functioning definitions and detection

(Research Rep. 91-21). Princeton NJ: ETS.

[本文引用: 1]

[71]

Wang W.

C

., & Wilson

M.

,( 2005).

Assessment of differential item functioning in testlet-based items using the Rasch testlet model

Educational and Psychological Measurement, 65( 4), 549-576.

[本文引用: 1]

[72]

Weirich

S

., Hecht

M

., Böhme

K

. ( 2014).

Modeling item position effects using generalized linear mixed models

Applied Psychological Measurement, 38( 7), 535-548.

DOI:10.1177/0146621614534955 URL [本文引用: 1]

[73]

Weirich

S

., Hecht

M

., Penk

C

., Roppelt

A

., Böhme

K

. ( 2017).

Item position effects are moderated by changes in test-taking effort

Applied psychological measurement, 41( 2), 115-129.

DOI:10.1177/0146621616676791 URL [本文引用: 1]

[74]

Wilson

M

., Zheng

X. H

., & McGuire

L

. ( 2012).

Formulating latent growth using an explanatory item response model approach

Journal of Applied Measurement, 13( 1), 1-22.

[本文引用: 1]

[75]

Xie

C

. ( 2014).

Cross-classified modeling of dual local item dependence (Unpublished doctoral dissertation)

University of Maryland, College Park, MD.

[本文引用: 1]

[76]

Xie

C

., & Jiao

H.

, ( 2014, April).

Cross-classified modeling of dual local item dependence

Paper presented at the Annual Meeting of the American Educational Research Association, Phliadelphia, PA.

[本文引用: 1]

多水平项目反应理论模型在测验发展中的应用

1

2008

... 最后, 应用EIRTM的最大优势在于对预测变量的直接建模和估计, 即“一步法”.虽然在实际应用中也可以采用“两步法”进行分析(即第一步先使用IRT模型得到不同测验情境² (2 不同的测验情境是指不同的题本、不同的被试群体或者不同的测验形式等等, 本质上就是IRT研究中的多组分析(multiple group analysis).)的参数估计值; 第二步再对不同情境得到的参数估计值进行显著性检验, 或者以参数估计值为因变量进行回归分析), 但是“一步法”要优于“两步法”：(1)“两步法”容易低估测量误差, 尤其是第一步分析中产生的测量误差经常会被忽视, 从而导致犯第一类错误的概率增大(刘红云, 骆方, 2008); (2) 相比于事先采用等组设计或事后采用多组比较的“两步法”, 采用“一步法”的EIRTM更为简便、也能处理更复杂的情况(Debeer & Janssen, 2013); (3) 使用EIRTM可将预测变量的效应与题目难度、被试能力分离, 这有助于对预测变量进行分析和解释(聂旭刚, 陈平, 张缨斌, 何引红, 2018). ...

题目位置效应的概念及检测

3

2018

... 最后, 应用EIRTM的最大优势在于对预测变量的直接建模和估计, 即“一步法”.虽然在实际应用中也可以采用“两步法”进行分析(即第一步先使用IRT模型得到不同测验情境² (2 不同的测验情境是指不同的题本、不同的被试群体或者不同的测验形式等等, 本质上就是IRT研究中的多组分析(multiple group analysis).)的参数估计值; 第二步再对不同情境得到的参数估计值进行显著性检验, 或者以参数估计值为因变量进行回归分析), 但是“一步法”要优于“两步法”：(1)“两步法”容易低估测量误差, 尤其是第一步分析中产生的测量误差经常会被忽视, 从而导致犯第一类错误的概率增大(刘红云, 骆方, 2008); (2) 相比于事先采用等组设计或事后采用多组比较的“两步法”, 采用“一步法”的EIRTM更为简便、也能处理更复杂的情况(Debeer & Janssen, 2013); (3) 使用EIRTM可将预测变量的效应与题目难度、被试能力分离, 这有助于对预测变量进行分析和解释(聂旭刚, 陈平, 张缨斌, 何引红, 2018). ...

... IPE是指同一个题目在不同测验间因题目位置的变化而导致题目参数的变化(聂旭刚等人, 2018).IPE违背了IRT的参数不变性(parameter invariance)特征, 使得基于IRT的测验公平性分析、计算机化自适应测验(Computerized Adaptive Testing, CAT)以及矩阵抽样设计(matrix sampling design)等重要应用都受到影响.因此, 很有必要对IPE进行检测及解释. ...

... 用于检测IPE的EIRTM可以分为三类(聂旭刚等人, 2018)：第1类模型记为模型IPE-1 (Hohensinn, Kubinger, Reif, Schleich, & Khorramdel, 2011)： ...

项目反应理论新进展之题组反应理论

1

2013

... 局部独立性(Local Independence, LI)是IRT理论的基本假设之一, 与LI对立的概念是LD.LD可分为局部被试依赖性(Local Person Dependence, LPD)和局部题目依赖性(Local Item Dependence, LID).LPD是指在给定被试能力时, 被试在不同题目的作答反应之间存在相依性; LID指题目参数已知时, 不同能力的被试在该题目上的作答反应间存在相依性(詹沛达, 王文中, 王立君, 2013). ...

ACER ConQuest: Generalised item response modelling software [Computer software]

1

1988

... EIRTM的参数估计方法有很多, 但都涉及复杂的统计知识, 此处仅做简单介绍：(1)全似然分析(full-likelihood analysis), 即对EIRTM的边际似然函数进行数值逼近(numerical approximation)以求得估计值使边际似然函数达到最大值.此类方法包括高斯-厄尔米特求积(Gauss-Hermite quadrature)与蒙特卡罗积分(Monte Carlo integration)等直接最大法[对应的统计软件(包)为SAS PROC NLMIXED (SAS Institute, 2015)、STATA的GLLAMM (Rabe-Hesketh, Skrondal, & Pickles, 2004)和HLM (Raudenbush, Bryk, Cheong, Congdon Jr, & Toit, 2011)]以及使用EM算法的间接最大法[对应的软件有MULTILOG (Thissen, 1991)和ConQuest (Adams, Wu, & Wilson, 1988)]; (2)线性分析近似(linearized analytical approximations), 即对EIRTM的边际似然函数中含有的积分求近似解, 包括拉普拉斯近似(Laplace approximation)、带惩罚的拟似然法(Penalized Quasi-Likelihood Method, PQL)和边际拟似然法(Marginal Quasi-Likelihood Approach, MQL), 对应的软件(包)有R语言的lme4包(Bates, Mächler, Bolker, & Walker, 2015)、HLM和SAS PROC GLIMMIX (SAS Institute, 2015); (3)贝叶斯方法, 即采用马尔科夫链蒙特卡洛 (Markov chain Monte Carlo, MCMC)方法, 典型的分析软件有OpenBUGS (Spiegelhalter, Thomas, Best, & Lunn, 2014).更详细的算法介绍与比较可以参见Bolker等(2009)的综述. ...

Modeling local item dependence in cloze and reading comprehension test items using testlet response theory

2

2016

... IPE-1假设$\gamma $由题目难度分解得到, 而且不同题目的$\gamma $相同.本质上, $\gamma $是预测变量${{X}_{i0}}$的固定效应：${{X}_{i0}}$对于所有题目都取1, $\gamma $就是所有题目IPE的均值.IPE-2加入的${{\gamma }_{i}}$是基于题目的随机效应, 表示不同题目的IPE可以不同.IPE-3加入的${{\theta }_{pk}}$, 则是基于被试的随机效应, 它表示不同被试的IPE可以不同.其实, 固定效应和随机效应的选择完全基于研究者的需要, 类似于“HLM中设定斜率和截距是固定还是随机”.如果研究者认为IPE具有跨题目一致性, 就可将IPE设定为固定效应; 如果IPE在不同题目上不同, 则可以用一个概率分布(随机效应)来表示IPE.所以在EIRTM中, 设定效应为固定或随机是非常灵活的：通常作为固定效应处理的题目也可以视为随机效应(De Boeck et al., 2011), 这等于带误差项的线性逻辑斯蒂克测验模型(Linear Logistic Test Models, LLTM; Janssen, 2016; Weirich, Hecht, & Böhme, 2014). ...

... 首先, 这里仅展示基于Rasch模型的EIRTM, 实际上LID模型可以轻易拓展至两参数逻辑斯蒂克(two parameter logistic, 2PL)模型(Fukuhara & Kamata, 2011), 多级记分模型(Jiao & Zhang, 2015), 以及多维模型(Fujimoto, 2018).其次, 不同测量情境可以自由组合, LD-1是结合LID和LPD而得到.还可以在DIF-1上加入TE或PCE, 此类EIRTM相比传统DIF方法更具有优势(Jin & Kang, 2016; Teker & Dogan, 2015), 甚至可估计题组水平的DIF (Paek & Fukuhara, 2015; Ravand, 2015).此外, 已有研究基于真实数据进行分析完形填空和阅读理解(Baghaei & Ravand, 2016).总之, EIRTM的应用非常灵活, 研究者可以基于自身需要与前文提到的IPE、TME、DIF模型相结合, 构建功能更为强大的模型. ...

Fitting linear mixed-effects models using LME4

1

2015

... EIRTM的参数估计方法有很多, 但都涉及复杂的统计知识, 此处仅做简单介绍：(1)全似然分析(full-likelihood analysis), 即对EIRTM的边际似然函数进行数值逼近(numerical approximation)以求得估计值使边际似然函数达到最大值.此类方法包括高斯-厄尔米特求积(Gauss-Hermite quadrature)与蒙特卡罗积分(Monte Carlo integration)等直接最大法[对应的统计软件(包)为SAS PROC NLMIXED (SAS Institute, 2015)、STATA的GLLAMM (Rabe-Hesketh, Skrondal, & Pickles, 2004)和HLM (Raudenbush, Bryk, Cheong, Congdon Jr, & Toit, 2011)]以及使用EM算法的间接最大法[对应的软件有MULTILOG (Thissen, 1991)和ConQuest (Adams, Wu, & Wilson, 1988)]; (2)线性分析近似(linearized analytical approximations), 即对EIRTM的边际似然函数中含有的积分求近似解, 包括拉普拉斯近似(Laplace approximation)、带惩罚的拟似然法(Penalized Quasi-Likelihood Method, PQL)和边际拟似然法(Marginal Quasi-Likelihood Approach, MQL), 对应的软件(包)有R语言的lme4包(Bates, Mächler, Bolker, & Walker, 2015)、HLM和SAS PROC GLIMMIX (SAS Institute, 2015); (3)贝叶斯方法, 即采用马尔科夫链蒙特卡洛 (Markov chain Monte Carlo, MCMC)方法, 典型的分析软件有OpenBUGS (Spiegelhalter, Thomas, Best, & Lunn, 2014).更详细的算法介绍与比较可以参见Bolker等(2009)的综述. ...

A statistical test for differential item pair functioning

1

2015

... 一些研究者基于贝叶斯方法估计DIF-1模型, 因此称之为整合的贝叶斯DIF模型(Integrated Bayesian DIF models, IBDM), IBDM的估计结果优于传统的DIF方法(Gamerman, Gonçalves, & Soares, 2018).还有研究将此类DIF模型应用于不同的情景和算法中, 侦测出不同组别之间的DIF效应(Bechger & Maris, 2015; Tutz & Berger, 2016; Tutz & Schauberger, 2015).总之, 虽然此类DIF模型的应用情境有所不同, 但是DIF-1模型最大的优势就是能够自由估计来自不同组别(协变量)的DIF效应. ...

Méthodes nouvelles pour le diagnostic du niveau intellectuel des anormaux

1

1904

... 以Binet和Simon (1904)的开创性工作为起点, 项目反应理论(Item Response Theory, IRT)经过百余年发展, 已广泛用于题目的标定与分析、被试的拟合与评分、测验的设计以及大规模教育评价等领域中(van der Linden, 2018), 是心理与教育测量领域最为重要的分析方法之一.虽然研究者针对作答评分、测验维度以及层级数据(hierarchical data)等实际问题提出一系列不同的模型并拓展IRT的应用情境, 但是绝大部分IRT模型只能刻画被试与题目之间的关系, 限制了IRT模型在心理与教育研究中的应用. ...

Some latent trait models and their use in inferring an examinee’s ability

1

1968

... 其次, EIRTM提出一个综合的模型构建观点.现有的IRT模型采用不同的术语标注和建模方法, 使得研究者很难意识到IRT模型之间存在的共性(Rabe-Hesketh & Skrondal, 2016).但是, 绝大部分IRT模型实际上可以等价地构建为GLMM和NLMM的形式¹ (1 不包括以三参数逻辑斯蒂克模型(Birnbaum, 1968)为代表的混合模型(mixture models).) (De Boeck & Wilson, 2004, 2016; Rijmen, Tuerlinckx, De Boeck, & Kuppens, 2003).另外, EIRTM体现IRT和回归分析的统一, 是一个更为广义的分析框架.广义线性模型(Generalized Linear Models, GLM)涵盖以logit回归、probit回归和基本线性模型(basic linear models)为代表的常用回归模型(Gill, 2000), 而且GLM和大部分IRT模型都是GLMM和NLMM的特例(Stroup, 2012).因此通过引入EIRTM的框架, 研究者能够将回归模型和IRT模型涵盖在一个更为广义的分析框架之下, 从而形成更为完备的统计测量观. ...

Marginal maximum likelihood estimation of item parameters: Application of an EM algorithm

1

1981

... 在预测变量与观测值建立连接之前使用连接函数(link function)进行转换的模型, 即GLM.GLM实际上就是经典回归模型的普遍化, 之所以称为“广义(generalized)”是因为连接函数可以任意选取.公式(1)所示的线性回归模型即用线性函数连接预测变量和观察值, 即本身连接函数(identity link function).如果GLM中还包含随机效应(random effect), 那么模型就被称为GLMM (Stroup, 2012).随机效应是指预测变量的效应不是一个常数, 而是来源于一个概率分布, 具有期望和方差³ (3 在IRT模型中引入随机效应看似不常见, 但EM算法的最大边际似然估计(Maximum Marginal Likelihood Estimation with EM, MMLE/EM)就是将伴随参数(incidental parameter, 即能力参数)视为随机效应(Bock & Aitkin, 1981; Bock & Lieberman, 1970).); 与之对应的是固定效应(fixed effect), 是指预测变量的效应是一个常数, 没有测量误差⁴ (4 这些概念经常用于多层线性模型(Hierarchical Linear Model, HLM)中.本质上, 随机效应对应的随机系数回归方法(random coefficients approach)也被称为分层回归方法或多水平回归方法(hierarchical or multilevel regression approach).).在公式(1)中, 截距${{\beta }_{0}}$和斜率${{\beta }_{1}}$都是固定效应. ...

Fitting a response model for n dichotomously scored items

1

1970

... 在预测变量与观测值建立连接之前使用连接函数(link function)进行转换的模型, 即GLM.GLM实际上就是经典回归模型的普遍化, 之所以称为“广义(generalized)”是因为连接函数可以任意选取.公式(1)所示的线性回归模型即用线性函数连接预测变量和观察值, 即本身连接函数(identity link function).如果GLM中还包含随机效应(random effect), 那么模型就被称为GLMM (Stroup, 2012).随机效应是指预测变量的效应不是一个常数, 而是来源于一个概率分布, 具有期望和方差³ (3 在IRT模型中引入随机效应看似不常见, 但EM算法的最大边际似然估计(Maximum Marginal Likelihood Estimation with EM, MMLE/EM)就是将伴随参数(incidental parameter, 即能力参数)视为随机效应(Bock & Aitkin, 1981; Bock & Lieberman, 1970).); 与之对应的是固定效应(fixed effect), 是指预测变量的效应是一个常数, 没有测量误差⁴ (4 这些概念经常用于多层线性模型(Hierarchical Linear Model, HLM)中.本质上, 随机效应对应的随机系数回归方法(random coefficients approach)也被称为分层回归方法或多水平回归方法(hierarchical or multilevel regression approach).).在公式(1)中, 截距${{\beta }_{0}}$和斜率${{\beta }_{1}}$都是固定效应. ...

Generalized linear mixed models: A practical guide for ecology and evolution

1

2009

... EIRTM的参数估计方法有很多, 但都涉及复杂的统计知识, 此处仅做简单介绍：(1)全似然分析(full-likelihood analysis), 即对EIRTM的边际似然函数进行数值逼近(numerical approximation)以求得估计值使边际似然函数达到最大值.此类方法包括高斯-厄尔米特求积(Gauss-Hermite quadrature)与蒙特卡罗积分(Monte Carlo integration)等直接最大法[对应的统计软件(包)为SAS PROC NLMIXED (SAS Institute, 2015)、STATA的GLLAMM (Rabe-Hesketh, Skrondal, & Pickles, 2004)和HLM (Raudenbush, Bryk, Cheong, Congdon Jr, & Toit, 2011)]以及使用EM算法的间接最大法[对应的软件有MULTILOG (Thissen, 1991)和ConQuest (Adams, Wu, & Wilson, 1988)]; (2)线性分析近似(linearized analytical approximations), 即对EIRTM的边际似然函数中含有的积分求近似解, 包括拉普拉斯近似(Laplace approximation)、带惩罚的拟似然法(Penalized Quasi-Likelihood Method, PQL)和边际拟似然法(Marginal Quasi-Likelihood Approach, MQL), 对应的软件(包)有R语言的lme4包(Bates, Mächler, Bolker, & Walker, 2015)、HLM和SAS PROC GLIMMIX (SAS Institute, 2015); (3)贝叶斯方法, 即采用马尔科夫链蒙特卡洛 (Markov chain Monte Carlo, MCMC)方法, 典型的分析软件有OpenBUGS (Spiegelhalter, Thomas, Best, & Lunn, 2014).更详细的算法介绍与比较可以参见Bolker等(2009)的综述. ...

A Monte Carlo comparison of parametric and nonparametric polytomous DIF detection methods

1

2002

... 在IRT领域中, LID出现的主要原因是题组效应(testlet effect, TE).题组是一组共用相同刺激材料的题目(Wang & Wilson, 2005), 因此被试对同一题组中不同题目的作答不再LI, 而存在TE.忽视TE会对测验信度、被试能力、题目难度、题目区分度参数以及DIF分析造成影响(Bolt, 2002; Ip, 2000; Lee, 2004; Wainer & Lukhele, 1997; Wainer, Sireci, & Thissen, 1991).包含TE的IRT模型如图2的右侧三列所示, 记为LID-1 (Jiao, Wang, & Kamata, 2005)： ...

Changes in achievement on PISA: The case of Ireland and implications for international assessment practice

1

2014

... PISA采用真实数据对上述三个模型进行比较, 结果发现：TME-3的相对拟合指标最好, TME-2的结果接近TME-3, TME-1的拟合最差; 综合考虑模型的复杂性和数据拟合情况, TME-2的表现最优.基于TME-2的结果还有：绝大多数的题目满足强测量不变性(strong measurement invariance), 即斜率和难度参数在不同测验模式下不变; 部分题目满足弱测量不变性(weak measurement invariance), 即斜率参数不变、难度参数发生变化.可见, CBA的使用确实会对评估学生成绩造成影响(Cosgrove & Cartwright, 2014; Logan, 2015).值得注意的是, Jerrim (2016)发现中国上海的学生在PISA 2015出现显著的成绩降低, 并且原因很可能就是CBA的使用.无独有偶, 新西兰教育研究委员会(New Zealand Council for Educational Research, NZCER)对PBA和CBA进行比较, 也发现学生成绩出现显著下降(Eyre, Berg, Mazengarb, & Lawes, 2017).总之, TME的存在已被证实, 考虑TME相比不考虑修正TME能够更好地提升测验质量(Jerrim, Micklewright, Heine, Salzer, & McKeown, 2018). ...

Modeling item-position effects within an IRT framework

2

2013

... 最后, 应用EIRTM的最大优势在于对预测变量的直接建模和估计, 即“一步法”.虽然在实际应用中也可以采用“两步法”进行分析(即第一步先使用IRT模型得到不同测验情境² (2 不同的测验情境是指不同的题本、不同的被试群体或者不同的测验形式等等, 本质上就是IRT研究中的多组分析(multiple group analysis).)的参数估计值; 第二步再对不同情境得到的参数估计值进行显著性检验, 或者以参数估计值为因变量进行回归分析), 但是“一步法”要优于“两步法”：(1)“两步法”容易低估测量误差, 尤其是第一步分析中产生的测量误差经常会被忽视, 从而导致犯第一类错误的概率增大(刘红云, 骆方, 2008); (2) 相比于事先采用等组设计或事后采用多组比较的“两步法”, 采用“一步法”的EIRTM更为简便、也能处理更复杂的情况(Debeer & Janssen, 2013); (3) 使用EIRTM可将预测变量的效应与题目难度、被试能力分离, 这有助于对预测变量进行分析和解释(聂旭刚, 陈平, 张缨斌, 何引红, 2018). ...

... 第2类模型记为模型IPE-2 (Debeer & Janssen, 2013)： ...

Student, school, and country differences in sustained test-taking effort in the 2009 PISA reading assessment

1

2014

... 此时, IPE可以被视为一个新的维度, 有研究者将它解释为毅力(persistence)或考生努力(examinee effort; Debeer, Buchholz, Hartig, & Janssen, 2014).此模型假设IPE与被试有关, 即不同位置的题目难度受到被试的影响(Weirich, Hecht, Penk, Roppelt, & Böhme, 2017).Debeer和Janssen (2013)对上述三类模型进行比较后认为第三类模型更有优势, 即将IPE解释为被试层面的属性更符合实际. ...

The estimation of item response models with the lmer function from the lme4 package in R

2

2011

... IPE-1假设$\gamma $由题目难度分解得到, 而且不同题目的$\gamma $相同.本质上, $\gamma $是预测变量${{X}_{i0}}$的固定效应：${{X}_{i0}}$对于所有题目都取1, $\gamma $就是所有题目IPE的均值.IPE-2加入的${{\gamma }_{i}}$是基于题目的随机效应, 表示不同题目的IPE可以不同.IPE-3加入的${{\theta }_{pk}}$, 则是基于被试的随机效应, 它表示不同被试的IPE可以不同.其实, 固定效应和随机效应的选择完全基于研究者的需要, 类似于“HLM中设定斜率和截距是固定还是随机”.如果研究者认为IPE具有跨题目一致性, 就可将IPE设定为固定效应; 如果IPE在不同题目上不同, 则可以用一个概率分布(随机效应)来表示IPE.所以在EIRTM中, 设定效应为固定或随机是非常灵活的：通常作为固定效应处理的题目也可以视为随机效应(De Boeck et al., 2011), 这等于带误差项的线性逻辑斯蒂克测验模型(Linear Logistic Test Models, LLTM; Janssen, 2016; Weirich, Hecht, & Böhme, 2014). ...

... 用于DIF分析的EIRTM描述如下, 记为DIF-1 (De Boeck et al., 2011)： ...

Explanatory item response models: A generalized linear and nonlinear approach

5

2004

... 其次, EIRTM提出一个综合的模型构建观点.现有的IRT模型采用不同的术语标注和建模方法, 使得研究者很难意识到IRT模型之间存在的共性(Rabe-Hesketh & Skrondal, 2016).但是, 绝大部分IRT模型实际上可以等价地构建为GLMM和NLMM的形式¹ (1 不包括以三参数逻辑斯蒂克模型(Birnbaum, 1968)为代表的混合模型(mixture models).) (De Boeck & Wilson, 2004, 2016; Rijmen, Tuerlinckx, De Boeck, & Kuppens, 2003).另外, EIRTM体现IRT和回归分析的统一, 是一个更为广义的分析框架.广义线性模型(Generalized Linear Models, GLM)涵盖以logit回归、probit回归和基本线性模型(basic linear models)为代表的常用回归模型(Gill, 2000), 而且GLM和大部分IRT模型都是GLMM和NLMM的特例(Stroup, 2012).因此通过引入EIRTM的框架, 研究者能够将回归模型和IRT模型涵盖在一个更为广义的分析框架之下, 从而形成更为完备的统计测量观. ...

... GLMM由三个部分组成(De Boeck & Wilson, 2004)： ...

... 目前尚未发现不同方法得到的估计结果之间会存在显著差异.(De Boeck和Wilson (2004)对6种统计软件的估计结果进行比较, 发现差异不大, 而且采用同一类估计方法的软件的估计结果更加接近.(Jeon, Rijmen和Rabe-Hesketh (2013)基于模拟数据对WinBUGS⁸ (8上文所述的OpenBUGS是WinBUGS的后续开源版本, 两者几乎相同, 详见https://www.mrc-bsu.cam.ac.uk/software/bugs/.)、PROC NLMIXED、GLLAMM以及含逻辑斯蒂回归节点的贝叶斯网络(Bayesian Networks with Logistic Regression Nodes, BNL; Rijmen, 2006)进行比较, 结果发现：不同软件估计的结果相似, 差别在于BNL的估计速度远快于其他软件.另外, Jeon, Rijmen和Rabe-Hesketh (2014)还在BNL的基础上, 开发了R语言的FLIRT包.总之, 目前用于分析EIRTM的软件种类繁多, 但是不同软件估计结果接近, 研究者可以根据自己的需要进行选择. ...

... (10 原始公式基于多层广义线性模型(Hierarchical Generalized Linear Model, HGLM), 对GLMM增加限制条件就能得到HGLM (De Boeck & Wilson, 2004).此处保留了HGLM使用“+”连接被试和题目参数(此时$\underset{q=0}{\overset{Q-1}{\mathop \sum }}\,{{\beta }_{q}}{{X}_{iq}}$解释为题目容易度), 并使用其中一个题目作为参照(故下标从0开始, $Q-1$结束)的习惯.此外, 用${{\varepsilon }_{pg}}$替换了文献中表示PCE的${{\text{ }\!\!\omega\!\!\text{ }}_{00g}}$.这样处理的目的是希望读者能够理解EIRTM框架和HGLM的共性和符号注释上的细微差异.由于HGLM从属于GLMM的框架, 也就是说多水平IRT模型(Multilevel Item Response Theory Model)都可通过EIRTM构建.) ...

... EIRTM提供一个统一而灵活的IRT模型框架, 并且越来越受到研究者重视.受限于篇幅和主旨, 本文没法更全面地展示EIRTM与现有IRT模型的转换关系, 除本文涉及的模型外, 使用EIRTM还可以建构多级记分的IRT模型和多维IRT模型、动态Rasch模型(Dynamic Rasch Models)、纵向IRT模型以及含反应时的IRT模型等等(参见De Boeck & Wilson, 2004; Klein Entink, Kuhn, Hornke, & Fox, 2009; Rijmen et al., 2003; Wilson, Zheng, & McGuire, 2012).以EIRTM为代表的广义建模方法(Generalized Modeling Approaches)具有诸多优越性, 目前已经得到业内研究者的重视.在新编著的《项目反应理论手册(第一卷)：模型》(Handbook of Item Response Theory, Volume One: Models; van der Linden, 2016)的最后一部分, 专门介绍了4种广义建模方法, 这值得国内研究者重视. ...

Explanatory response models

1

2016

... 其次, EIRTM提出一个综合的模型构建观点.现有的IRT模型采用不同的术语标注和建模方法, 使得研究者很难意识到IRT模型之间存在的共性(Rabe-Hesketh & Skrondal, 2016).但是, 绝大部分IRT模型实际上可以等价地构建为GLMM和NLMM的形式¹ (1 不包括以三参数逻辑斯蒂克模型(Birnbaum, 1968)为代表的混合模型(mixture models).) (De Boeck & Wilson, 2004, 2016; Rijmen, Tuerlinckx, De Boeck, & Kuppens, 2003).另外, EIRTM体现IRT和回归分析的统一, 是一个更为广义的分析框架.广义线性模型(Generalized Linear Models, GLM)涵盖以logit回归、probit回归和基本线性模型(basic linear models)为代表的常用回归模型(Gill, 2000), 而且GLM和大部分IRT模型都是GLMM和NLMM的特例(Stroup, 2012).因此通过引入EIRTM的框架, 研究者能够将回归模型和IRT模型涵盖在一个更为广义的分析框架之下, 从而形成更为完备的统计测量观. ...

Mode equivalency in PAT: Reading comprehension

0

2017

A general Bayesian multilevel multidimensional IRT model for locally dependent data

1

2018

... 首先, 这里仅展示基于Rasch模型的EIRTM, 实际上LID模型可以轻易拓展至两参数逻辑斯蒂克(two parameter logistic, 2PL)模型(Fukuhara & Kamata, 2011), 多级记分模型(Jiao & Zhang, 2015), 以及多维模型(Fujimoto, 2018).其次, 不同测量情境可以自由组合, LD-1是结合LID和LPD而得到.还可以在DIF-1上加入TE或PCE, 此类EIRTM相比传统DIF方法更具有优势(Jin & Kang, 2016; Teker & Dogan, 2015), 甚至可估计题组水平的DIF (Paek & Fukuhara, 2015; Ravand, 2015).此外, 已有研究基于真实数据进行分析完形填空和阅读理解(Baghaei & Ravand, 2016).总之, EIRTM的应用非常灵活, 研究者可以基于自身需要与前文提到的IPE、TME、DIF模型相结合, 构建功能更为强大的模型. ...

A bifactor multidimensional item response theory model for differential item functioning analysis on testlet-based items

1

2011

... 首先, 这里仅展示基于Rasch模型的EIRTM, 实际上LID模型可以轻易拓展至两参数逻辑斯蒂克(two parameter logistic, 2PL)模型(Fukuhara & Kamata, 2011), 多级记分模型(Jiao & Zhang, 2015), 以及多维模型(Fujimoto, 2018).其次, 不同测量情境可以自由组合, LD-1是结合LID和LPD而得到.还可以在DIF-1上加入TE或PCE, 此类EIRTM相比传统DIF方法更具有优势(Jin & Kang, 2016; Teker & Dogan, 2015), 甚至可估计题组水平的DIF (Paek & Fukuhara, 2015; Ravand, 2015).此外, 已有研究基于真实数据进行分析完形填空和阅读理解(Baghaei & Ravand, 2016).总之, EIRTM的应用非常灵活, 研究者可以基于自身需要与前文提到的IPE、TME、DIF模型相结合, 构建功能更为强大的模型. ...

Differential item functioning

1

2018

... 一些研究者基于贝叶斯方法估计DIF-1模型, 因此称之为整合的贝叶斯DIF模型(Integrated Bayesian DIF models, IBDM), IBDM的估计结果优于传统的DIF方法(Gamerman, Gonçalves, & Soares, 2018).还有研究将此类DIF模型应用于不同的情景和算法中, 侦测出不同组别之间的DIF效应(Bechger & Maris, 2015; Tutz & Berger, 2016; Tutz & Schauberger, 2015).总之, 虽然此类DIF模型的应用情境有所不同, 但是DIF-1模型最大的优势就是能够自由估计来自不同组别(协变量)的DIF效应. ...

Generalized linear models: A unified approach

1

2000

... 其次, EIRTM提出一个综合的模型构建观点.现有的IRT模型采用不同的术语标注和建模方法, 使得研究者很难意识到IRT模型之间存在的共性(Rabe-Hesketh & Skrondal, 2016).但是, 绝大部分IRT模型实际上可以等价地构建为GLMM和NLMM的形式¹ (1 不包括以三参数逻辑斯蒂克模型(Birnbaum, 1968)为代表的混合模型(mixture models).) (De Boeck & Wilson, 2004, 2016; Rijmen, Tuerlinckx, De Boeck, & Kuppens, 2003).另外, EIRTM体现IRT和回归分析的统一, 是一个更为广义的分析框架.广义线性模型(Generalized Linear Models, GLM)涵盖以logit回归、probit回归和基本线性模型(basic linear models)为代表的常用回归模型(Gill, 2000), 而且GLM和大部分IRT模型都是GLMM和NLMM的特例(Stroup, 2012).因此通过引入EIRTM的框架, 研究者能够将回归模型和IRT模型涵盖在一个更为广义的分析框架之下, 从而形成更为完备的统计测量观. ...

A multilevel item response model for item position effects and individual persistence

1

2012

... 第3类模型记为IPE-3 (Hartig & Buchholz, 2012)： ...

Analyzing item position effects due to test booklet design within large-scale assessment

1

2011

... 用于检测IPE的EIRTM可以分为三类(聂旭刚等人, 2018)：第1类模型记为模型IPE-1 (Hohensinn, Kubinger, Reif, Schleich, & Khorramdel, 2011)： ...

A parametric model for local dependence among test items

1

1997

... 综上所述, 上述模型都是基于随机效应处理LD.无论是LPD-1, 还是LID-1、LID-2, 实际上都是通过随机效应处理不同的LD, 这样可以提高IRT模型参数估计的准确性(Koziol, 2016).实际上, 也可以通过固定效应处理题组造成的LID (参见Hoskens & De Boeck, 1997).比如, 研究者也可以构建类似3.1和3.2节呈现的三类模型, 以系统地讨论TE的影响. ...

Adjusting for information inflation due to local dependency in moderately large item clusters

1

2000

... 在IRT领域中, LID出现的主要原因是题组效应(testlet effect, TE).题组是一组共用相同刺激材料的题目(Wang & Wilson, 2005), 因此被试对同一题组中不同题目的作答不再LI, 而存在TE.忽视TE会对测验信度、被试能力、题目难度、题目区分度参数以及DIF分析造成影响(Bolt, 2002; Ip, 2000; Lee, 2004; Wainer & Lukhele, 1997; Wainer, Sireci, & Thissen, 1991).包含TE的IRT模型如图2的右侧三列所示, 记为LID-1 (Jiao, Wang, & Kamata, 2005)： ...

Linear Logistic Models

0

2016

Modeling differential item functioning using a generalization of the multiple-group bifactor model

0

2013

Flexible item response theory modeling with FLIRT

1

2014

... 目前尚未发现不同方法得到的估计结果之间会存在显著差异.(De Boeck和Wilson (2004)对6种统计软件的估计结果进行比较, 发现差异不大, 而且采用同一类估计方法的软件的估计结果更加接近.(Jeon, Rijmen和Rabe-Hesketh (2013)基于模拟数据对WinBUGS⁸ (8上文所述的OpenBUGS是WinBUGS的后续开源版本, 两者几乎相同, 详见https://www.mrc-bsu.cam.ac.uk/software/bugs/.)、PROC NLMIXED、GLLAMM以及含逻辑斯蒂回归节点的贝叶斯网络(Bayesian Networks with Logistic Regression Nodes, BNL; Rijmen, 2006)进行比较, 结果发现：不同软件估计的结果相似, 差别在于BNL的估计速度远快于其他软件.另外, Jeon, Rijmen和Rabe-Hesketh (2014)还在BNL的基础上, 开发了R语言的FLIRT包.总之, 目前用于分析EIRTM的软件种类繁多, 但是不同软件估计结果接近, 研究者可以根据自己的需要进行选择. ...

PISA 2012: How do results for the paper and computer tests compare?

1

2016

... PISA采用真实数据对上述三个模型进行比较, 结果发现：TME-3的相对拟合指标最好, TME-2的结果接近TME-3, TME-1的拟合最差; 综合考虑模型的复杂性和数据拟合情况, TME-2的表现最优.基于TME-2的结果还有：绝大多数的题目满足强测量不变性(strong measurement invariance), 即斜率和难度参数在不同测验模式下不变; 部分题目满足弱测量不变性(weak measurement invariance), 即斜率参数不变、难度参数发生变化.可见, CBA的使用确实会对评估学生成绩造成影响(Cosgrove & Cartwright, 2014; Logan, 2015).值得注意的是, Jerrim (2016)发现中国上海的学生在PISA 2015出现显著的成绩降低, 并且原因很可能就是CBA的使用.无独有偶, 新西兰教育研究委员会(New Zealand Council for Educational Research, NZCER)对PBA和CBA进行比较, 也发现学生成绩出现显著下降(Eyre, Berg, Mazengarb, & Lawes, 2017).总之, TME的存在已被证实, 考虑TME相比不考虑修正TME能够更好地提升测验质量(Jerrim, Micklewright, Heine, Salzer, & McKeown, 2018). ...

PISA 2015: How big is the ‘mode effect’ and what has been done about it?

1

2018

... PISA采用真实数据对上述三个模型进行比较, 结果发现：TME-3的相对拟合指标最好, TME-2的结果接近TME-3, TME-1的拟合最差; 综合考虑模型的复杂性和数据拟合情况, TME-2的表现最优.基于TME-2的结果还有：绝大多数的题目满足强测量不变性(strong measurement invariance), 即斜率和难度参数在不同测验模式下不变; 部分题目满足弱测量不变性(weak measurement invariance), 即斜率参数不变、难度参数发生变化.可见, CBA的使用确实会对评估学生成绩造成影响(Cosgrove & Cartwright, 2014; Logan, 2015).值得注意的是, Jerrim (2016)发现中国上海的学生在PISA 2015出现显著的成绩降低, 并且原因很可能就是CBA的使用.无独有偶, 新西兰教育研究委员会(New Zealand Council for Educational Research, NZCER)对PBA和CBA进行比较, 也发现学生成绩出现显著下降(Eyre, Berg, Mazengarb, & Lawes, 2017).总之, TME的存在已被证实, 考虑TME相比不考虑修正TME能够更好地提升测验质量(Jerrim, Micklewright, Heine, Salzer, & McKeown, 2018). ...

A multilevel testlet model for dual local dependence

1

2012

... 在IRT领域中, LPD出现的主要原因是被试群组效应(Person Clustering Effect, PCE).选取的被试嵌套于不同的群体, 属于同一群体的被试可能受到相同的外部支持或干扰、具有同样的学习机会和采用相同的解题策略, 因而有理由认为他们的作答相似, 即存在PCE (Jiao, Kamata, Wang, & Jin, 2012).PCE的存在使得样本量的影响变小, 从而导致有偏的参数估计.为处理PCE导致的LPD, Kamata (2001)提出三水平IRT模型, 对应的层级关系如图1所示.在EIRTM框架下进行重新公式化后, 可以得到LPD-1： ...

Multilevel cross-classified testlet model for complex item and person clustering in item response data analysis

4

2015

... 注：图片翻译自Jiao, Kamata和Xie (2015, p. 145) 图5.3 ...

... 最后, 还可以将LPD和LID相结合, 即在图2右侧的被试上再加入群体, 从而构成最完整的LD模型, 记为LD-1 (Jiao et al., 2015)： ...

... 其中的参数含义同上.假设题目j属于题组1且属于内容1, 于是被试p在j (j≠I)上的线性成分为：${{\eta }_{pj}}={{\theta }_{p1}}+{{\beta }_{0}}+{{\beta }_{j}}+{{\gamma }_{p1}}+{{{\gamma }'}_{p1}}+{{\varepsilon }_{pg}}$.${{\varepsilon }_{pg}}$的表示与${{\gamma }_{pd}}$和${{{\gamma }'}_{pc}}$略有不同, 这是因为PCE与TE、CCE不属于同一个水平(层次)：(1) 对于PCE而言, 一个合理的抽样设计不会出现“某些被试属于特定群体, 而另外一些被试不属于任何群体”的情况, 这样本身就会造成被试的异质性; (2) 对于TE和CCE而言, 一个被试可能受到多个TE和CCE的影响, 因此需要通过引入指示变量${{T}_{id}}$和${{{T}'}_{ic}}$来表示某个题目上的作答是否受到TE和CCE的影响以及受到哪个题组或内容的影响.当然, 若整个测验只涉及一个题组和一个内容, 那么LD-1可以简化为：${{\eta }_{pi}}={{\theta }_{p1}}+\underset{q=0}{\overset{Q-1}{\mathop \sum }}\,{{\beta }_{q}}{{X}_{iq}}+{{\gamma }_{pd}}{{T}_{id}}+{{{\gamma }'}_{pc}}{{{T}'}_{ic}}+{{\varepsilon }_{pg}}$.Jiao等人(2015)基于PISA 2006的数据对LPD-1、LID-1、LID-2以及LD-1进行系统的比较, 结果发现：(1) LD-1模型的相对拟合指标最好; (2)在PCE、TE和CCE的影响中, TE影响最大, PCE最小. ...

... 首先, 这里仅展示基于Rasch模型的EIRTM, 实际上LID模型可以轻易拓展至两参数逻辑斯蒂克(two parameter logistic, 2PL)模型(Fukuhara & Kamata, 2011), 多级记分模型(Jiao & Zhang, 2015), 以及多维模型(Fujimoto, 2018).其次, 不同测量情境可以自由组合, LD-1是结合LID和LPD而得到.还可以在DIF-1上加入TE或PCE, 此类EIRTM相比传统DIF方法更具有优势(Jin & Kang, 2016; Teker & Dogan, 2015), 甚至可估计题组水平的DIF (Paek & Fukuhara, 2015; Ravand, 2015).此外, 已有研究基于真实数据进行分析完形填空和阅读理解(Baghaei & Ravand, 2016).总之, EIRTM的应用非常灵活, 研究者可以基于自身需要与前文提到的IPE、TME、DIF模型相结合, 构建功能更为强大的模型. ...

Modeling local item dependence with the hierarchical generalized linear model

1

2005

... 在IRT领域中, LID出现的主要原因是题组效应(testlet effect, TE).题组是一组共用相同刺激材料的题目(Wang & Wilson, 2005), 因此被试对同一题组中不同题目的作答不再LI, 而存在TE.忽视TE会对测验信度、被试能力、题目难度、题目区分度参数以及DIF分析造成影响(Bolt, 2002; Ip, 2000; Lee, 2004; Wainer & Lukhele, 1997; Wainer, Sireci, & Thissen, 1991).包含TE的IRT模型如图2的右侧三列所示, 记为LID-1 (Jiao, Wang, & Kamata, 2005)： ...

Polytomous multilevel testlet models for testlet-based assessments with complex sampling designs

0

2015

Comparing DIF methods for data with dual dependency

1

2016

... 首先, 这里仅展示基于Rasch模型的EIRTM, 实际上LID模型可以轻易拓展至两参数逻辑斯蒂克(two parameter logistic, 2PL)模型(Fukuhara & Kamata, 2011), 多级记分模型(Jiao & Zhang, 2015), 以及多维模型(Fujimoto, 2018).其次, 不同测量情境可以自由组合, LD-1是结合LID和LPD而得到.还可以在DIF-1上加入TE或PCE, 此类EIRTM相比传统DIF方法更具有优势(Jin & Kang, 2016; Teker & Dogan, 2015), 甚至可估计题组水平的DIF (Paek & Fukuhara, 2015; Ravand, 2015).此外, 已有研究基于真实数据进行分析完形填空和阅读理解(Baghaei & Ravand, 2016).总之, EIRTM的应用非常灵活, 研究者可以基于自身需要与前文提到的IPE、TME、DIF模型相结合, 构建功能更为强大的模型. ...

Item analysis by the hierarchical generalized linear model

1

2001

... 在IRT领域中, LPD出现的主要原因是被试群组效应(Person Clustering Effect, PCE).选取的被试嵌套于不同的群体, 属于同一群体的被试可能受到相同的外部支持或干扰、具有同样的学习机会和采用相同的解题策略, 因而有理由认为他们的作答相似, 即存在PCE (Jiao, Kamata, Wang, & Jin, 2012).PCE的存在使得样本量的影响变小, 从而导致有偏的参数估计.为处理PCE导致的LPD, Kamata (2001)提出三水平IRT模型, 对应的层级关系如图1所示.在EIRTM框架下进行重新公式化后, 可以得到LPD-1： ...

Linear and nonlinear modeling of item position effects (Unpublished master’s thesis)

1

2014

... 其中p表示被试, i表示题目($i=1,2,\cdots ,I$), q表示变量(q=1,2,...,Q), 且Q = I; ${{\theta }_{p1}}$为能力参数,${{\theta }_{p1}}\tilde{\ }N\left( 0,\text{ }\!\!\sigma\!\!\text{ }_{{{\theta }_{p1}}}^{2} \right);{{X}_{iq}}$为指示变量, 当i = q时, ${{X}_{iq}}=1$,否则取0; $\underset{q=1}{\overset{Q}{\mathop \sum }}\,{{\beta }_{q}}{{X}_{iq}}$如前文所述, 对应题目难度; $\gamma $表示的是IPE.此时$\gamma $为固定效应, 它只与题目位置k有关, 所有题目在同一位置的难度变化都相同9 (9 此处仅假设IPE为线性变化, 更复杂的非线性情况可以表示为k的二次函数等(参见Kang, 2014; Trendtel & Robitzsch, 2018)).此模型本质上是对题目难度进行分解, 从而得出IPE. ...

Evaluating cognitive theory: A joint modeling approach using responses and response times

1

2009

... EIRTM提供一个统一而灵活的IRT模型框架, 并且越来越受到研究者重视.受限于篇幅和主旨, 本文没法更全面地展示EIRTM与现有IRT模型的转换关系, 除本文涉及的模型外, 使用EIRTM还可以建构多级记分的IRT模型和多维IRT模型、动态Rasch模型(Dynamic Rasch Models)、纵向IRT模型以及含反应时的IRT模型等等(参见De Boeck & Wilson, 2004; Klein Entink, Kuhn, Hornke, & Fox, 2009; Rijmen et al., 2003; Wilson, Zheng, & McGuire, 2012).以EIRTM为代表的广义建模方法(Generalized Modeling Approaches)具有诸多优越性, 目前已经得到业内研究者的重视.在新编著的《项目反应理论手册(第一卷)：模型》(Handbook of Item Response Theory, Volume One: Models; van der Linden, 2016)的最后一部分, 专门介绍了4种广义建模方法, 这值得国内研究者重视. ...

Parameter recovery and classification accuracy under conditions of testlet dependency: A comparison of the traditional 2PL, testlet, and bi-factor models

1

2016

... 综上所述, 上述模型都是基于随机效应处理LD.无论是LPD-1, 还是LID-1、LID-2, 实际上都是通过随机效应处理不同的LD, 这样可以提高IRT模型参数估计的准确性(Koziol, 2016).实际上, 也可以通过固定效应处理题组造成的LID (参见Hoskens & De Boeck, 1997).比如, 研究者也可以构建类似3.1和3.2节呈现的三类模型, 以系统地讨论TE的影响. ...

Examining passage-related local item dependence (LID) and measurement construct using Q3 statistics in an EFL reading comprehension test

2

2004

... 本文将基于广义线性混合模型(Generalized Linear Mixed Models, GLMM)和非线性混合模型(Nonlinear Mixed Models, NLMM)构建的IRT模型, 定义为解释性项目反应理论模型(Explanatory IRT Models, EIRTM; De Boeck & Wilson, 2004).EIRTM是一个综合的解释性模型框架, 它允许在IRT模型的基础上加入预测变量, 在刻画被试和题目间关系的基础上, 进一步解释相关变量影响, 因而拓展IRT模型的应用范围.EIRTM之所以重要, 主要有以下几个方面的原因： ...

... 在IRT领域中, LID出现的主要原因是题组效应(testlet effect, TE).题组是一组共用相同刺激材料的题目(Wang & Wilson, 2005), 因此被试对同一题组中不同题目的作答不再LI, 而存在TE.忽视TE会对测验信度、被试能力、题目难度、题目区分度参数以及DIF分析造成影响(Bolt, 2002; Ip, 2000; Lee, 2004; Wainer & Lukhele, 1997; Wainer, Sireci, & Thissen, 1991).包含TE的IRT模型如图2的右侧三列所示, 记为LID-1 (Jiao, Wang, & Kamata, 2005)： ...

The influence of test mode and visuospatial ability on mathematics assessment performance

1

2015

... PISA采用真实数据对上述三个模型进行比较, 结果发现：TME-3的相对拟合指标最好, TME-2的结果接近TME-3, TME-1的拟合最差; 综合考虑模型的复杂性和数据拟合情况, TME-2的表现最优.基于TME-2的结果还有：绝大多数的题目满足强测量不变性(strong measurement invariance), 即斜率和难度参数在不同测验模式下不变; 部分题目满足弱测量不变性(weak measurement invariance), 即斜率参数不变、难度参数发生变化.可见, CBA的使用确实会对评估学生成绩造成影响(Cosgrove & Cartwright, 2014; Logan, 2015).值得注意的是, Jerrim (2016)发现中国上海的学生在PISA 2015出现显著的成绩降低, 并且原因很可能就是CBA的使用.无独有偶, 新西兰教育研究委员会(New Zealand Council for Educational Research, NZCER)对PBA和CBA进行比较, 也发现学生成绩出现显著下降(Eyre, Berg, Mazengarb, & Lawes, 2017).总之, TME的存在已被证实, 考虑TME相比不考虑修正TME能够更好地提升测验质量(Jerrim, Micklewright, Heine, Salzer, & McKeown, 2018). ...

How developments in psychology and technology challenge validity argumentation

1

2016

... EIRTM具有广阔的应用前景, 可以广泛应用于心理和教育测量领域中.除了上文所述的通过EIRTM建构合理的测量模型以外, EIRTM还可用于分析复杂表现任务(complex performance task).对于复杂表现任务进行评价, 是教育与心理测量领域面临的新挑战(Mislevy, 2016).比如, PISA 2015就使用合作问题解决任务, 以展示学生在动态、交互情景中的表现(OECD, 2017b).EIRTM以其灵活的框架为评价复杂表现任务提供了一种解决思路, 通过EIRTM可以将涉及的任务属性的特征纳入模型, 从而得到被试能力的准确估计. ...

PISA 2015 technical report

1

2017a

... 国际大规模测评项目正在经历由纸笔测验(Paper-Based Assessment, PBA)形式向计算机化测验(Computer-Based Assessment, CBA)形式的转变.在国际学生能力评估项目(Programme for International Student Assessment, PISA) 2015的技术报告中(OECD, 2017a)将TME定义为：被试在一种测验模式(如PBA)中的表现与在同一个测验的另一种测验模式(如CBA)中的表现相比, 出现的功能性差异.TME反映的是同一测验在不同测验模式下的结果不可比问题, 它本质上是对测量不变性(measurement invariance)的研究. ...

PISA 2015 assessment and analytical framework: Science, reading, mathematic, financial literacy and collaborative problem solving, Paris: OECD Publishing

1

2017b

... EIRTM具有广阔的应用前景, 可以广泛应用于心理和教育测量领域中.除了上文所述的通过EIRTM建构合理的测量模型以外, EIRTM还可用于分析复杂表现任务(complex performance task).对于复杂表现任务进行评价, 是教育与心理测量领域面临的新挑战(Mislevy, 2016).比如, PISA 2015就使用合作问题解决任务, 以展示学生在动态、交互情景中的表现(OECD, 2017b).EIRTM以其灵活的框架为评价复杂表现任务提供了一种解决思路, 通过EIRTM可以将涉及的任务属性的特征纳入模型, 从而得到被试能力的准确估计. ...

Differential item functioning

2

2009

... 注意此模型同时加入两个固定效应：(1) ${{\zeta }_{focal}}$用于控制目标组和参照组的能力均值差异, 即被试群体间的真实能力差异, Osterlind和Evenson (2009)称之为“影响(impact)”.由于${{\zeta }_{focal}}$基于被试的组别得到, 所以它是基于被试的固定效应.如果有证据支持两组之间没有能力差异或者已经通过匹配等手段进行控制, 则可以移除此效应; (2)$~{{\delta }_{ig}}$是被试组别和题目交互的固定效应, 反映题目难度在组别上的变化.公式(12)假定参照组中所有题目都可能存在DIF (通过指示变量${{X}_{iq}}$定义), 实际上也可以自定义需要估计DIF的题目(如果不需要估计题目j的DIF, 则从$\underset{q=1}{\overset{Q}{\mathop \sum }}\,{{\delta }_{ig}}{{X}_{iq}}{{Z}_{p}}$中移除含${{X}_{ij}}$的项即可).如何选取需要估计DIF的题目以及是否需要将有DIF嫌疑的题目从匹配标准中排除, 则属于纯化(purification)的问题. ...

... 将原始的三类作答(“不”、“也许”以及“是”), 转换为0(“不”与“也许”)和1(“是”)评分后, 基于JAGS (Just Another Gibbs Sampler; Plummer, 2017)软件, 采用R 语言“R2jags”包(Su & Yajima, 2015)调用控制, 对此数据进行分析.如需相关代码, 可与作者联系.出于解释的方便, 所有模型基于Rasch模型簇, 主要结果如表2所示. ...

Estimating a DIF decomposition model using a random-weights linear logistic test model approach

1

2015

... 首先, 这里仅展示基于Rasch模型的EIRTM, 实际上LID模型可以轻易拓展至两参数逻辑斯蒂克(two parameter logistic, 2PL)模型(Fukuhara & Kamata, 2011), 多级记分模型(Jiao & Zhang, 2015), 以及多维模型(Fujimoto, 2018).其次, 不同测量情境可以自由组合, LD-1是结合LID和LPD而得到.还可以在DIF-1上加入TE或PCE, 此类EIRTM相比传统DIF方法更具有优势(Jin & Kang, 2016; Teker & Dogan, 2015), 甚至可估计题组水平的DIF (Paek & Fukuhara, 2015; Ravand, 2015).此外, 已有研究基于真实数据进行分析完形填空和阅读理解(Baghaei & Ravand, 2016).总之, EIRTM的应用非常灵活, 研究者可以基于自身需要与前文提到的IPE、TME、DIF模型相结合, 构建功能更为强大的模型. ...

JAGS version 4

0

2017

Generalized linear latent and mixed modeling

1

2016

... 其次, EIRTM提出一个综合的模型构建观点.现有的IRT模型采用不同的术语标注和建模方法, 使得研究者很难意识到IRT模型之间存在的共性(Rabe-Hesketh & Skrondal, 2016).但是, 绝大部分IRT模型实际上可以等价地构建为GLMM和NLMM的形式¹ (1 不包括以三参数逻辑斯蒂克模型(Birnbaum, 1968)为代表的混合模型(mixture models).) (De Boeck & Wilson, 2004, 2016; Rijmen, Tuerlinckx, De Boeck, & Kuppens, 2003).另外, EIRTM体现IRT和回归分析的统一, 是一个更为广义的分析框架.广义线性模型(Generalized Linear Models, GLM)涵盖以logit回归、probit回归和基本线性模型(basic linear models)为代表的常用回归模型(Gill, 2000), 而且GLM和大部分IRT模型都是GLMM和NLMM的特例(Stroup, 2012).因此通过引入EIRTM的框架, 研究者能够将回归模型和IRT模型涵盖在一个更为广义的分析框架之下, 从而形成更为完备的统计测量观. ...

GLLAMM manual [Software manual]

1

2004

... EIRTM的参数估计方法有很多, 但都涉及复杂的统计知识, 此处仅做简单介绍：(1)全似然分析(full-likelihood analysis), 即对EIRTM的边际似然函数进行数值逼近(numerical approximation)以求得估计值使边际似然函数达到最大值.此类方法包括高斯-厄尔米特求积(Gauss-Hermite quadrature)与蒙特卡罗积分(Monte Carlo integration)等直接最大法[对应的统计软件(包)为SAS PROC NLMIXED (SAS Institute, 2015)、STATA的GLLAMM (Rabe-Hesketh, Skrondal, & Pickles, 2004)和HLM (Raudenbush, Bryk, Cheong, Congdon Jr, & Toit, 2011)]以及使用EM算法的间接最大法[对应的软件有MULTILOG (Thissen, 1991)和ConQuest (Adams, Wu, & Wilson, 1988)]; (2)线性分析近似(linearized analytical approximations), 即对EIRTM的边际似然函数中含有的积分求近似解, 包括拉普拉斯近似(Laplace approximation)、带惩罚的拟似然法(Penalized Quasi-Likelihood Method, PQL)和边际拟似然法(Marginal Quasi-Likelihood Approach, MQL), 对应的软件(包)有R语言的lme4包(Bates, Mächler, Bolker, & Walker, 2015)、HLM和SAS PROC GLIMMIX (SAS Institute, 2015); (3)贝叶斯方法, 即采用马尔科夫链蒙特卡洛 (Markov chain Monte Carlo, MCMC)方法, 典型的分析软件有OpenBUGS (Spiegelhalter, Thomas, Best, & Lunn, 2014).更详细的算法介绍与比较可以参见Bolker等(2009)的综述. ...

HLM7 hierarchical linear and nonlinear modeling manual [Software manual]

1

2011

... EIRTM的参数估计方法有很多, 但都涉及复杂的统计知识, 此处仅做简单介绍：(1)全似然分析(full-likelihood analysis), 即对EIRTM的边际似然函数进行数值逼近(numerical approximation)以求得估计值使边际似然函数达到最大值.此类方法包括高斯-厄尔米特求积(Gauss-Hermite quadrature)与蒙特卡罗积分(Monte Carlo integration)等直接最大法[对应的统计软件(包)为SAS PROC NLMIXED (SAS Institute, 2015)、STATA的GLLAMM (Rabe-Hesketh, Skrondal, & Pickles, 2004)和HLM (Raudenbush, Bryk, Cheong, Congdon Jr, & Toit, 2011)]以及使用EM算法的间接最大法[对应的软件有MULTILOG (Thissen, 1991)和ConQuest (Adams, Wu, & Wilson, 1988)]; (2)线性分析近似(linearized analytical approximations), 即对EIRTM的边际似然函数中含有的积分求近似解, 包括拉普拉斯近似(Laplace approximation)、带惩罚的拟似然法(Penalized Quasi-Likelihood Method, PQL)和边际拟似然法(Marginal Quasi-Likelihood Approach, MQL), 对应的软件(包)有R语言的lme4包(Bates, Mächler, Bolker, & Walker, 2015)、HLM和SAS PROC GLIMMIX (SAS Institute, 2015); (3)贝叶斯方法, 即采用马尔科夫链蒙特卡洛 (Markov chain Monte Carlo, MCMC)方法, 典型的分析软件有OpenBUGS (Spiegelhalter, Thomas, Best, & Lunn, 2014).更详细的算法介绍与比较可以参见Bolker等(2009)的综述. ...

Assessing testlet effect, impact, differential testlet, and item functioning using cross-classified multilevel measurement modeling

3

2015

... 其中i对应题目, p对应被试; Q和J分别()表示固定效应${{\beta }_{q}}$和随机效应${{\theta }_{pj}}$的个数, ${{X}_{iq}}$和${{Z}_{ij}}$为预测变量.此处假设${{X}_{iq}}$为题目的指示变量(indicator variable), 即题目的虚拟编码(dummy code)变量, 当i = q时, ${{X}_{iq}}$ = 1, 当i ≠ q, ${{X}_{iq}}$ = 0; ${{Z}_{ij}}$同理, 也可视为维度的指示变量.记${{\theta }_{p}}={{\left( {{\theta }_{p1}},{{\theta }_{p2}},\cdots ,{{\theta }_{pJ}} \right)}^{T}}$, 有${{\theta }_{p}}\tilde{\ }N\left( 0,\mathbf{\Sigma } \right)$, 即${{\theta }_{p}}$服从均值向量为0、协方差矩阵为$\mathbf{\Sigma }$的多元正态分布⁶ (6据此, 公式(2)可以表示成更简洁的矩阵形式：
x${{\eta }_{p}}=$ $X\beta +Z{{\theta }_{p}}$.虽然矩阵形式在统计领域更为常见, 但考虑到解释的便利和研究的实际, 本文统一使用指示变量(虚拟变量)组织公式.).在GLMM中, ${{\eta }_{pi}}$只由线性成分构成, 对应Rasch模型簇.但是对于包含区分度参数的IRT模型来说, 还包括非线性成分(参数相乘), 属于NLMM7 (7 其实也可以说, GLMM是NLMM的特例(Rijmen et al, 2003), 因为NLMM既能刻画非线性关系又能描述线性关系.).因此, 通过GLMM和NLMM构建EIRTM, 就能从更一般的视角拓展IRT模型, 详见第4节的EIRTM实例部分. ...

... 首先, 这里仅展示基于Rasch模型的EIRTM, 实际上LID模型可以轻易拓展至两参数逻辑斯蒂克(two parameter logistic, 2PL)模型(Fukuhara & Kamata, 2011), 多级记分模型(Jiao & Zhang, 2015), 以及多维模型(Fujimoto, 2018).其次, 不同测量情境可以自由组合, LD-1是结合LID和LPD而得到.还可以在DIF-1上加入TE或PCE, 此类EIRTM相比传统DIF方法更具有优势(Jin & Kang, 2016; Teker & Dogan, 2015), 甚至可估计题组水平的DIF (Paek & Fukuhara, 2015; Ravand, 2015).此外, 已有研究基于真实数据进行分析完形填空和阅读理解(Baghaei & Ravand, 2016).总之, EIRTM的应用非常灵活, 研究者可以基于自身需要与前文提到的IPE、TME、DIF模型相结合, 构建功能更为强大的模型. ...

... EIRTM提供一个统一而灵活的IRT模型框架, 并且越来越受到研究者重视.受限于篇幅和主旨, 本文没法更全面地展示EIRTM与现有IRT模型的转换关系, 除本文涉及的模型外, 使用EIRTM还可以建构多级记分的IRT模型和多维IRT模型、动态Rasch模型(Dynamic Rasch Models)、纵向IRT模型以及含反应时的IRT模型等等(参见De Boeck & Wilson, 2004; Klein Entink, Kuhn, Hornke, & Fox, 2009; Rijmen et al., 2003; Wilson, Zheng, & McGuire, 2012).以EIRTM为代表的广义建模方法(Generalized Modeling Approaches)具有诸多优越性, 目前已经得到业内研究者的重视.在新编著的《项目反应理论手册(第一卷)：模型》(Handbook of Item Response Theory, Volume One: Models; van der Linden, 2016)的最后一部分, 专门介绍了4种广义建模方法, 这值得国内研究者重视. ...

BNL: A Matlab toolbox for Bayesian networks with logistic regression( Tech. Rep.)

3

2006

... EIRTM的参数估计方法有很多, 但都涉及复杂的统计知识, 此处仅做简单介绍：(1)全似然分析(full-likelihood analysis), 即对EIRTM的边际似然函数进行数值逼近(numerical approximation)以求得估计值使边际似然函数达到最大值.此类方法包括高斯-厄尔米特求积(Gauss-Hermite quadrature)与蒙特卡罗积分(Monte Carlo integration)等直接最大法[对应的统计软件(包)为SAS PROC NLMIXED (SAS Institute, 2015)、STATA的GLLAMM (Rabe-Hesketh, Skrondal, & Pickles, 2004)和HLM (Raudenbush, Bryk, Cheong, Congdon Jr, & Toit, 2011)]以及使用EM算法的间接最大法[对应的软件有MULTILOG (Thissen, 1991)和ConQuest (Adams, Wu, & Wilson, 1988)]; (2)线性分析近似(linearized analytical approximations), 即对EIRTM的边际似然函数中含有的积分求近似解, 包括拉普拉斯近似(Laplace approximation)、带惩罚的拟似然法(Penalized Quasi-Likelihood Method, PQL)和边际拟似然法(Marginal Quasi-Likelihood Approach, MQL), 对应的软件(包)有R语言的lme4包(Bates, Mächler, Bolker, & Walker, 2015)、HLM和SAS PROC GLIMMIX (SAS Institute, 2015); (3)贝叶斯方法, 即采用马尔科夫链蒙特卡洛 (Markov chain Monte Carlo, MCMC)方法, 典型的分析软件有OpenBUGS (Spiegelhalter, Thomas, Best, & Lunn, 2014).更详细的算法介绍与比较可以参见Bolker等(2009)的综述. ...

... )、HLM和SAS PROC GLIMMIX (SAS Institute, 2015); (3)贝叶斯方法, 即采用马尔科夫链蒙特卡洛 (Markov chain Monte Carlo, MCMC)方法, 典型的分析软件有OpenBUGS (Spiegelhalter, Thomas, Best, & Lunn, 2014).更详细的算法介绍与比较可以参见Bolker等(2009)的综述. ...

... 目前尚未发现不同方法得到的估计结果之间会存在显著差异.(De Boeck和Wilson (2004)对6种统计软件的估计结果进行比较, 发现差异不大, 而且采用同一类估计方法的软件的估计结果更加接近.(Jeon, Rijmen和Rabe-Hesketh (2013)基于模拟数据对WinBUGS⁸ (8上文所述的OpenBUGS是WinBUGS的后续开源版本, 两者几乎相同, 详见https://www.mrc-bsu.cam.ac.uk/software/bugs/.)、PROC NLMIXED、GLLAMM以及含逻辑斯蒂回归节点的贝叶斯网络(Bayesian Networks with Logistic Regression Nodes, BNL; Rijmen, 2006)进行比较, 结果发现：不同软件估计的结果相似, 差别在于BNL的估计速度远快于其他软件.另外, Jeon, Rijmen和Rabe-Hesketh (2014)还在BNL的基础上, 开发了R语言的FLIRT包.总之, 目前用于分析EIRTM的软件种类繁多, 但是不同软件估计结果接近, 研究者可以根据自己的需要进行选择. ...

A nonlinear mixed model framework for item response theory

1

2003

... 其次, EIRTM提出一个综合的模型构建观点.现有的IRT模型采用不同的术语标注和建模方法, 使得研究者很难意识到IRT模型之间存在的共性(Rabe-Hesketh & Skrondal, 2016).但是, 绝大部分IRT模型实际上可以等价地构建为GLMM和NLMM的形式¹ (1 不包括以三参数逻辑斯蒂克模型(Birnbaum, 1968)为代表的混合模型(mixture models).) (De Boeck & Wilson, 2004, 2016; Rijmen, Tuerlinckx, De Boeck, & Kuppens, 2003).另外, EIRTM体现IRT和回归分析的统一, 是一个更为广义的分析框架.广义线性模型(Generalized Linear Models, GLM)涵盖以logit回归、probit回归和基本线性模型(basic linear models)为代表的常用回归模型(Gill, 2000), 而且GLM和大部分IRT模型都是GLMM和NLMM的特例(Stroup, 2012).因此通过引入EIRTM的框架, 研究者能够将回归模型和IRT模型涵盖在一个更为广义的分析框架之下, 从而形成更为完备的统计测量观. ...

SAS/STAT 14.1: user's guide [Software manual]

0

2015

1

2014

... EIRTM的参数估计方法有很多, 但都涉及复杂的统计知识, 此处仅做简单介绍：(1)全似然分析(full-likelihood analysis), 即对EIRTM的边际似然函数进行数值逼近(numerical approximation)以求得估计值使边际似然函数达到最大值.此类方法包括高斯-厄尔米特求积(Gauss-Hermite quadrature)与蒙特卡罗积分(Monte Carlo integration)等直接最大法[对应的统计软件(包)为SAS PROC NLMIXED (SAS Institute, 2015)、STATA的GLLAMM (Rabe-Hesketh, Skrondal, & Pickles, 2004)和HLM (Raudenbush, Bryk, Cheong, Congdon Jr, & Toit, 2011)]以及使用EM算法的间接最大法[对应的软件有MULTILOG (Thissen, 1991)和ConQuest (Adams, Wu, & Wilson, 1988)]; (2)线性分析近似(linearized analytical approximations), 即对EIRTM的边际似然函数中含有的积分求近似解, 包括拉普拉斯近似(Laplace approximation)、带惩罚的拟似然法(Penalized Quasi-Likelihood Method, PQL)和边际拟似然法(Marginal Quasi-Likelihood Approach, MQL), 对应的软件(包)有R语言的lme4包(Bates, Mächler, Bolker, & Walker, 2015)、HLM和SAS PROC GLIMMIX (SAS Institute, 2015); (3)贝叶斯方法, 即采用马尔科夫链蒙特卡洛 (Markov chain Monte Carlo, MCMC)方法, 典型的分析软件有OpenBUGS (Spiegelhalter, Thomas, Best, & Lunn, 2014).更详细的算法介绍与比较可以参见Bolker等(2009)的综述. ...

Generalized linear mixed models: Modern concepts, methods and applications

2

2012

... 其次, EIRTM提出一个综合的模型构建观点.现有的IRT模型采用不同的术语标注和建模方法, 使得研究者很难意识到IRT模型之间存在的共性(Rabe-Hesketh & Skrondal, 2016).但是, 绝大部分IRT模型实际上可以等价地构建为GLMM和NLMM的形式¹ (1 不包括以三参数逻辑斯蒂克模型(Birnbaum, 1968)为代表的混合模型(mixture models).) (De Boeck & Wilson, 2004, 2016; Rijmen, Tuerlinckx, De Boeck, & Kuppens, 2003).另外, EIRTM体现IRT和回归分析的统一, 是一个更为广义的分析框架.广义线性模型(Generalized Linear Models, GLM)涵盖以logit回归、probit回归和基本线性模型(basic linear models)为代表的常用回归模型(Gill, 2000), 而且GLM和大部分IRT模型都是GLMM和NLMM的特例(Stroup, 2012).因此通过引入EIRTM的框架, 研究者能够将回归模型和IRT模型涵盖在一个更为广义的分析框架之下, 从而形成更为完备的统计测量观. ...

... 在预测变量与观测值建立连接之前使用连接函数(link function)进行转换的模型, 即GLM.GLM实际上就是经典回归模型的普遍化, 之所以称为“广义(generalized)”是因为连接函数可以任意选取.公式(1)所示的线性回归模型即用线性函数连接预测变量和观察值, 即本身连接函数(identity link function).如果GLM中还包含随机效应(random effect), 那么模型就被称为GLMM (Stroup, 2012).随机效应是指预测变量的效应不是一个常数, 而是来源于一个概率分布, 具有期望和方差³ (3 在IRT模型中引入随机效应看似不常见, 但EM算法的最大边际似然估计(Maximum Marginal Likelihood Estimation with EM, MMLE/EM)就是将伴随参数(incidental parameter, 即能力参数)视为随机效应(Bock & Aitkin, 1981; Bock & Lieberman, 1970).); 与之对应的是固定效应(fixed effect), 是指预测变量的效应是一个常数, 没有测量误差⁴ (4 这些概念经常用于多层线性模型(Hierarchical Linear Model, HLM)中.本质上, 随机效应对应的随机系数回归方法(random coefficients approach)也被称为分层回归方法或多水平回归方法(hierarchical or multilevel regression approach).).在公式(1)中, 截距${{\beta }_{0}}$和斜率${{\beta }_{1}}$都是固定效应. ...

1

2015

... 将原始的三类作答(“不”、“也许”以及“是”), 转换为0(“不”与“也许”)和1(“是”)评分后, 基于JAGS (Just Another Gibbs Sampler; Plummer, 2017)软件, 采用R 语言“R2jags”包(Su & Yajima, 2015)调用控制, 对此数据进行分析.如需相关代码, 可与作者联系.出于解释的方便, 所有模型基于Rasch模型簇, 主要结果如表2所示. ...

The Effects of testlets on reliability and differential item functioning

1

2015

... 首先, 这里仅展示基于Rasch模型的EIRTM, 实际上LID模型可以轻易拓展至两参数逻辑斯蒂克(two parameter logistic, 2PL)模型(Fukuhara & Kamata, 2011), 多级记分模型(Jiao & Zhang, 2015), 以及多维模型(Fujimoto, 2018).其次, 不同测量情境可以自由组合, LD-1是结合LID和LPD而得到.还可以在DIF-1上加入TE或PCE, 此类EIRTM相比传统DIF方法更具有优势(Jin & Kang, 2016; Teker & Dogan, 2015), 甚至可估计题组水平的DIF (Paek & Fukuhara, 2015; Ravand, 2015).此外, 已有研究基于真实数据进行分析完形填空和阅读理解(Baghaei & Ravand, 2016).总之, EIRTM的应用非常灵活, 研究者可以基于自身需要与前文提到的IPE、TME、DIF模型相结合, 构建功能更为强大的模型. ...

MULTILOG [Software manual]

1

1991

... EIRTM的参数估计方法有很多, 但都涉及复杂的统计知识, 此处仅做简单介绍：(1)全似然分析(full-likelihood analysis), 即对EIRTM的边际似然函数进行数值逼近(numerical approximation)以求得估计值使边际似然函数达到最大值.此类方法包括高斯-厄尔米特求积(Gauss-Hermite quadrature)与蒙特卡罗积分(Monte Carlo integration)等直接最大法[对应的统计软件(包)为SAS PROC NLMIXED (SAS Institute, 2015)、STATA的GLLAMM (Rabe-Hesketh, Skrondal, & Pickles, 2004)和HLM (Raudenbush, Bryk, Cheong, Congdon Jr, & Toit, 2011)]以及使用EM算法的间接最大法[对应的软件有MULTILOG (Thissen, 1991)和ConQuest (Adams, Wu, & Wilson, 1988)]; (2)线性分析近似(linearized analytical approximations), 即对EIRTM的边际似然函数中含有的积分求近似解, 包括拉普拉斯近似(Laplace approximation)、带惩罚的拟似然法(Penalized Quasi-Likelihood Method, PQL)和边际拟似然法(Marginal Quasi-Likelihood Approach, MQL), 对应的软件(包)有R语言的lme4包(Bates, Mächler, Bolker, & Walker, 2015)、HLM和SAS PROC GLIMMIX (SAS Institute, 2015); (3)贝叶斯方法, 即采用马尔科夫链蒙特卡洛 (Markov chain Monte Carlo, MCMC)方法, 典型的分析软件有OpenBUGS (Spiegelhalter, Thomas, Best, & Lunn, 2014).更详细的算法介绍与比较可以参见Bolker等(2009)的综述. ...

Modeling item position effects with a Bayesian item response model applied to PISA 2009-2015 data

1

2018

... 以Binet和Simon (1904)的开创性工作为起点, 项目反应理论(Item Response Theory, IRT)经过百余年发展, 已广泛用于题目的标定与分析、被试的拟合与评分、测验的设计以及大规模教育评价等领域中(van der Linden, 2018), 是心理与教育测量领域最为重要的分析方法之一.虽然研究者针对作答评分、测验维度以及层级数据(hierarchical data)等实际问题提出一系列不同的模型并拓展IRT的应用情境, 但是绝大部分IRT模型只能刻画被试与题目之间的关系, 限制了IRT模型在心理与教育研究中的应用. ...

Item-focussed trees for the identification of items in differential item functioning

1

2016

... 一些研究者基于贝叶斯方法估计DIF-1模型, 因此称之为整合的贝叶斯DIF模型(Integrated Bayesian DIF models, IBDM), IBDM的估计结果优于传统的DIF方法(Gamerman, Gonçalves, & Soares, 2018).还有研究将此类DIF模型应用于不同的情景和算法中, 侦测出不同组别之间的DIF效应(Bechger & Maris, 2015; Tutz & Berger, 2016; Tutz & Schauberger, 2015).总之, 虽然此类DIF模型的应用情境有所不同, 但是DIF-1模型最大的优势就是能够自由估计来自不同组别(协变量)的DIF效应. ...

A penalty approach to differential item functioning in Rasch models

1

2015

... 一些研究者基于贝叶斯方法估计DIF-1模型, 因此称之为整合的贝叶斯DIF模型(Integrated Bayesian DIF models, IBDM), IBDM的估计结果优于传统的DIF方法(Gamerman, Gonçalves, & Soares, 2018).还有研究将此类DIF模型应用于不同的情景和算法中, 侦测出不同组别之间的DIF效应(Bechger & Maris, 2015; Tutz & Berger, 2016; Tutz & Schauberger, 2015).总之, 虽然此类DIF模型的应用情境有所不同, 但是DIF-1模型最大的优势就是能够自由估计来自不同组别(协变量)的DIF效应. ...

Handbook of Item Response Theory, Volume One

1

2016

... EIRTM提供一个统一而灵活的IRT模型框架, 并且越来越受到研究者重视.受限于篇幅和主旨, 本文没法更全面地展示EIRTM与现有IRT模型的转换关系, 除本文涉及的模型外, 使用EIRTM还可以建构多级记分的IRT模型和多维IRT模型、动态Rasch模型(Dynamic Rasch Models)、纵向IRT模型以及含反应时的IRT模型等等(参见De Boeck & Wilson, 2004; Klein Entink, Kuhn, Hornke, & Fox, 2009; Rijmen et al., 2003; Wilson, Zheng, & McGuire, 2012).以EIRTM为代表的广义建模方法(Generalized Modeling Approaches)具有诸多优越性, 目前已经得到业内研究者的重视.在新编著的《项目反应理论手册(第一卷)：模型》(Handbook of Item Response Theory, Volume One: Models; van der Linden, 2016)的最后一部分, 专门介绍了4种广义建模方法, 这值得国内研究者重视. ...

Handbook of Item Response Theory, Volume Three: Applications

0

2018

Formal models for contextualized personality psychology (Unpublished doctoral dissertation)

1

2000

... 此处使用言语攻击数据(Vansteelandt, 2000)对EIRTM的使用进行说明.数据包括316名学生(73名男生和243名女生)在24道题目上的作答.每个题目对应一个情境, 由3个因素决定：情境类型(本人责任, 他人责任)、行为类型(诅咒, 责备, 怒骂)和行为模式(做, 想).共有$2\times 2\times 3=12$种情境, 每种情境有2道题.具体如表1所示. ...

How reliable are TOEFL scores?

1

1997

... 在IRT领域中, LID出现的主要原因是题组效应(testlet effect, TE).题组是一组共用相同刺激材料的题目(Wang & Wilson, 2005), 因此被试对同一题组中不同题目的作答不再LI, 而存在TE.忽视TE会对测验信度、被试能力、题目难度、题目区分度参数以及DIF分析造成影响(Bolt, 2002; Ip, 2000; Lee, 2004; Wainer & Lukhele, 1997; Wainer, Sireci, & Thissen, 1991).包含TE的IRT模型如图2的右侧三列所示, 记为LID-1 (Jiao, Wang, & Kamata, 2005)： ...

Differential testlet functioning definitions and detection

1

1991

... 在IRT领域中, LID出现的主要原因是题组效应(testlet effect, TE).题组是一组共用相同刺激材料的题目(Wang & Wilson, 2005), 因此被试对同一题组中不同题目的作答不再LI, 而存在TE.忽视TE会对测验信度、被试能力、题目难度、题目区分度参数以及DIF分析造成影响(Bolt, 2002; Ip, 2000; Lee, 2004; Wainer & Lukhele, 1997; Wainer, Sireci, & Thissen, 1991).包含TE的IRT模型如图2的右侧三列所示, 记为LID-1 (Jiao, Wang, & Kamata, 2005)： ...

Assessment of differential item functioning in testlet-based items using the Rasch testlet model

1

2005

... 在IRT领域中, LID出现的主要原因是题组效应(testlet effect, TE).题组是一组共用相同刺激材料的题目(Wang & Wilson, 2005), 因此被试对同一题组中不同题目的作答不再LI, 而存在TE.忽视TE会对测验信度、被试能力、题目难度、题目区分度参数以及DIF分析造成影响(Bolt, 2002; Ip, 2000; Lee, 2004; Wainer & Lukhele, 1997; Wainer, Sireci, & Thissen, 1991).包含TE的IRT模型如图2的右侧三列所示, 记为LID-1 (Jiao, Wang, & Kamata, 2005)： ...

Modeling item position effects using generalized linear mixed models

1

2014

... IPE-1假设$\gamma $由题目难度分解得到, 而且不同题目的$\gamma $相同.本质上, $\gamma $是预测变量${{X}_{i0}}$的固定效应：${{X}_{i0}}$对于所有题目都取1, $\gamma $就是所有题目IPE的均值.IPE-2加入的${{\gamma }_{i}}$是基于题目的随机效应, 表示不同题目的IPE可以不同.IPE-3加入的${{\theta }_{pk}}$, 则是基于被试的随机效应, 它表示不同被试的IPE可以不同.其实, 固定效应和随机效应的选择完全基于研究者的需要, 类似于“HLM中设定斜率和截距是固定还是随机”.如果研究者认为IPE具有跨题目一致性, 就可将IPE设定为固定效应; 如果IPE在不同题目上不同, 则可以用一个概率分布(随机效应)来表示IPE.所以在EIRTM中, 设定效应为固定或随机是非常灵活的：通常作为固定效应处理的题目也可以视为随机效应(De Boeck et al., 2011), 这等于带误差项的线性逻辑斯蒂克测验模型(Linear Logistic Test Models, LLTM; Janssen, 2016; Weirich, Hecht, & Böhme, 2014). ...

Item position effects are moderated by changes in test-taking effort

1

2017

... 此时, IPE可以被视为一个新的维度, 有研究者将它解释为毅力(persistence)或考生努力(examinee effort; Debeer, Buchholz, Hartig, & Janssen, 2014).此模型假设IPE与被试有关, 即不同位置的题目难度受到被试的影响(Weirich, Hecht, Penk, Roppelt, & Böhme, 2017).Debeer和Janssen (2013)对上述三类模型进行比较后认为第三类模型更有优势, 即将IPE解释为被试层面的属性更符合实际. ...

Formulating latent growth using an explanatory item response model approach

1

2012

... EIRTM提供一个统一而灵活的IRT模型框架, 并且越来越受到研究者重视.受限于篇幅和主旨, 本文没法更全面地展示EIRTM与现有IRT模型的转换关系, 除本文涉及的模型外, 使用EIRTM还可以建构多级记分的IRT模型和多维IRT模型、动态Rasch模型(Dynamic Rasch Models)、纵向IRT模型以及含反应时的IRT模型等等(参见De Boeck & Wilson, 2004; Klein Entink, Kuhn, Hornke, & Fox, 2009; Rijmen et al., 2003; Wilson, Zheng, & McGuire, 2012).以EIRTM为代表的广义建模方法(Generalized Modeling Approaches)具有诸多优越性, 目前已经得到业内研究者的重视.在新编著的《项目反应理论手册(第一卷)：模型》(Handbook of Item Response Theory, Volume One: Models; van der Linden, 2016)的最后一部分, 专门介绍了4种广义建模方法, 这值得国内研究者重视. ...

Cross-classified modeling of dual local item dependence (Unpublished doctoral dissertation)

1

2014

... 此外, 造成LID的原因还有可能是不同题目采用相同的测验内容, 即存在内容群组效应(Content Clustering Effect, CCE).因此, 如图2所示, 题目可以视为既嵌套于题组又嵌套于内容, 即交叉分类(cross-classified).考虑到此时有两个造成LID的因素, 可称为双重 (dual) LID, 将此模型记为LID-2 (Xie, 2014; Xie & Jiao, 2014)： ...

Cross-classified modeling of dual local item dependence

1

2014

... 此外, 造成LID的原因还有可能是不同题目采用相同的测验内容, 即存在内容群组效应(Content Clustering Effect, CCE).因此, 如图2所示, 题目可以视为既嵌套于题组又嵌套于内容, 即交叉分类(cross-classified).考虑到此时有两个造成LID的因素, 可称为双重 (dual) LID, 将此模型记为LID-2 (Xie, 2014; Xie & Jiao, 2014)： ...

题目	模型1	模型2		模型3			模型4
题目	β_q	β_q	行为模式	β_q	DIF	95%置信区间	β_q
1	-1.162	-1.148		-1.196	-0.101	(-0.723, 0.549)	-1.248
2	-0.546	-0.531		-0.574	-0.104	(-0.717, 0.505)	-0.584
3	-0.091	-0.074		-0.134	-0.171	(-0.777, 0.431)	-0.101
4	-1.657	-1.641		-1.727	-0.261	(-0.934, 0.449)	-1.800
5	-0.681	-0.667		-0.729	-0.182	(-0.800, 0.433)	-0.746
6	-0.026	-0.011		-0.184	-0.684	(-1.293, -0.070)	-0.031
7	-0.512	-0.496		-0.495	0.103	(-0.507, 0.721)	-0.617
8	0.630	0.643		0.751	0.535	(-0.067, 1.151)	0.689
9	1.430	1.451		1.338	-0.455	(-1.153, 0.240)	1.610
10	-1.014	-0.998		-1.071	-0.221	(-0.853, 0.415)	-1.221
11	0.312	0.329		0.362	0.231	(-0.376, 0.826)	0.354
12	0.963	0.982		0.866	-0.454	(-1.104, 0.185)	1.132
13	-1.145	-1.580	-0.465	-1.066	0.426	(-0.251, 1.108)	-1.225
14	-0.383	-0.820	-0.465	-0.215	0.792	(0.156, 1.420)	-0.412
15	0.820	0.381	-0.465	0.786	-0.133	(-0.767, 0.487)	0.885
16	-0.822	-1.260	-0.465	-0.618	1.006	(0.352, 1.706)	-0.895
17	0.035	-0.404	-0.465	0.263	1.019	(0.409, 1.648)	0.042
18	1.372	0.933	-0.465	1.422	0.222	(-0.417, 0.879)	1.498
19	0.200	-0.240	-0.465	0.393	0.864	(0.280, 1.481)	0.199
20	1.390	0.956	-0.465	1.579	0.750	(0.093, 1.390)	1.563
21	2.711	2.277	-0.465	2.775	0.244	(-0.615, 1.062)	3.034
22	-0.660	-1.106	-0.465	-0.548	0.568	(-0.068, 1.205)	-0.801
23	0.363	-0.080	-0.465	0.488	0.546	(-0.059, 1.146)	0.416
24	1.867	1.427	-0.465	1.799	-0.359	(-1.138, 0.375)	2.202

解释性项目反应理论模型：理论与应用

Explanatory item response theory models: Theory and application

1 引言

2 EIRTM的基本概念与模型参数估计

2.1 EIRTM的基石：GLMM和NLMM

2.2 EIRTM的参数估计

3 使用EIRTM处理测量准确性问题

3.1 题目位置效应(Item Position Effect, IPE)

3.2 测验模式效应(Test Mode Effect, TME)

3.3 题目功能差异(Differential Item Functioning, DIF)

3.4 局部依赖(Local Dependence, LD)

图1

4 实例

5 讨论与展望

5.1 将EIRTM用于测量不变性研究

5.2 通过EIRTM构建综合性的分析框架

5.3 EIRTM的应用前景与不足

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

题目	行为模式	情境类型	行为类型
一辆公交车没有进站停靠, 我想诅咒。	想	他人责任	诅咒
一辆公交车没有进站停靠, 我想责备。	想	他人责任	责备
一辆公交车没有进站停靠, 我想怒骂。	想	他人责任	怒骂
因为工作人员给我错误的信息, 我错过了火车, 我想诅咒。	想	他人责任	诅咒
因为工作人员给我错误的信息, 我错过了火车, 我想责备。	想	他人责任	责备
因为工作人员给我错误的信息, 我错过了火车, 我想怒骂。	想	他人责任	怒骂
当我刚进入商店, 商店就关门了, 我想诅咒。	想	自己责任	诅咒
当我刚进入商店, 商店就关门了, 我想责备。	想	自己责任	责备
当我刚进入商店, 商店就关门了, 我想怒骂。	想	自己责任	怒骂
我与对方的通话断了, 因为我用完了话费, 我想诅咒。	想	自己责任	诅咒
我与对方的通话断了, 因为我用完了话费, 我想责备。	想	自己责任	责备
我与对方的通话断了, 因为我用完了话费, 我想怒骂。	想	自己责任	怒骂
一辆公交车没有进站停靠, 我会诅咒。	做	他人责任	诅咒
一辆公交车没有进站停靠, 我会责备。	做	他人责任	责备
一辆公交车没有进站停靠, 我会怒骂。	做	他人责任	怒骂
因为工作人员给我错误的信息, 我错过了火车, 我会诅咒。	做	他人责任	诅咒
因为工作人员给我错误的信息, 我错过了火车, 我会责备。	做	他人责任	责备
因为工作人员给我错误的信息, 我错过了火车, 我会怒骂。	做	他人责任	怒骂
当我刚进入商店, 商店就关门了, 我会诅咒。	做	自己责任	诅咒
当我刚进入商店, 商店就关门了, 我会责备。	做	自己责任	责备
当我刚进入商店, 商店就关门了, 我会怒骂。	做	自己责任	怒骂
我与对方的通话断了, 因为我用完了话费, 我会诅咒。	做	自己责任	诅咒
我与对方的通话断了, 因为我用完了话费, 我会责备。	做	自己责任	责备
我与对方的通话断了, 因为我用完了话费, 我会怒骂。	做	自己责任	怒骂

解释性项目反应理论模型：理论与应用

Explanatory item response theory models: Theory and application

1 引言

2 EIRTM的基本概念与模型参数估计

2.1 EIRTM的基石：GLMM和NLMM

2.2 EIRTM的参数估计

3 使用EIRTM处理测量准确性问题

3.1 题目位置效应(Item Position Effect, IPE)

3.2 测验模式效应(Test Mode Effect, TME)

3.3 题目功能差异(Differential Item Functioning, DIF)

3.4 局部依赖(Local Dependence, LD)

图1

4 实例

5 讨论与展望

5.1 将EIRTM用于测量不变性研究

5.2 通过EIRTM构建综合性的分析框架

5.3 EIRTM的应用前景与不足

参考文献 View Option 原文顺序 文献年度倒序 文中引用次数倒序 被引期刊影响因子

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子