ISSN 0439-755X
CN 11-1911/B
主办:中国心理学会
   中国科学院心理研究所
出版:科学出版社

心理学报, 2019, 51(12): 1386-1397 doi: 10.3724/SP.J.1041.2019.01386

研究报告

基于分部评分模型思路的多级评分认知诊断模型开发

高旭亮1,2, 汪大勋1, 王芳2, 蔡艳1, 涂冬波,1

1 江西师范大学心理学院, 南昌 330022

2 贵州师范大学心理学院, 贵阳 550000

Development of a Generalized Cognitive Diagnosis Model for polytomous responses based on Partial Credit Model

GAO Xuliang1,2, WANG Daxun1, WANG Fang2, CAI Yan1, TU Dongbo,1

1 School of Psychology Jiangxi normal university, Nanchang 330022, China

2 School of Psychology Guizhou normal university, Guiyang 550000, China

通讯作者: 涂冬波, E-mail:tudongbo@aliyun.com

第一联系人:

汪大勋为共同第一作者。

收稿日期: 2019-02-12   网络出版日期: 2019-12-25

基金资助: * 国家自然科学基金.  31660278
国家自然科学基金.  31760288
国家自然科学基金资助.  31960186

Received: 2019-02-12   Online: 2019-12-25

摘要

基于分部评分模型的思路, 本文提出了一般化的分部评分认知诊断模型(General Partial Credit Diagnostic Model, GPCDM), 与国际上已有的基于分部评分模型思路的多级评分模型GDM (von Davier, 2008)和PC-DINA (de la Torre, 2012)相比, GPCDM的Q矩阵定义更加灵活, 项目参数的约束条件更少。Monte Carlo实验研究表明, GPCDM模型的参数估计精度指标RMSE介于[0.015, 0.043], 表明估计精度尚可; TIMSS (2007)实证数据应用研究表明, 与GDM和PC-DINA模型相比, GPCDM与该数据的拟合度更好, 并且使用GPCDM分析该数据的诊断效果也更优。总之, 本研究提供了一种约束条件更少、功能更为强大的多级评分认知诊断模型。

关键词: 认知诊断 ; 多级评分认知诊断模型 ; GDM ; PC-DINA

Abstract

Currently, a large number of cognitive diagnosis models (CDMs) have been proposed to satisfy the demands of the cognitively diagnostic assessment. However, most existing CDMs are only suitable for dichotomously scored items. In practice, there are lager polytomously-score items/data in educational and psychological tests. Therefore, it is very necessary to develop CDMs for polytomous data.
Under the item response theory (IRT) framework, the polytomous models can be divided into three categories: (i) the cumulative probability (or graded-response) models, (ii) continuation ratios (or sequential) models, and (iii) the adjacent-category (or partial-credit) models.
At present, several efforts have been made to develop polytomous partial-credit CDMs, including the general diagnostic model (GDM; von Davier, 2008) and the partial credit DINA (PC-DINA; de la Torre, 2012) model. However, the existing polytomous partial-credit CDMs need to be improved in the following aspects: (1) These CDMs do not consider the relationship between attributes and response categories by assuming that all response categories of an item measure the same attributes. This may result in loss of diagnostic information, because different response categories could measure different attributes; (2) More importantly, the PC-DINA is based on reduced DINA model. Therefore, the current polytomous CDMs are established under strong assumptions and do not have the advantages of general cognitive diagnosis model.
The current article proposes a general partial credit diagnostic model (GPCDM) for polytomous responses with less restrictive assumptions. Item parameters of the proposed models can be estimated using the marginal maximum likelihood estimation approach via Expectation Maximization (MMLE/EM) algorithm.
Study 1 aims to examine (1) whether the EM algorithm can accurately estimate the parameters of the proposed models, and (2) whether using item level Q-matrix (referred to as the Item-Q) to analyze data generated by category level Q-matrix (referred to as the Cat-Q) will reduce the accuracy of parameter estimation. Results showed that when using Cat-Q fitting data, the maximum RMSE was less than 0.05. When the number of attributes was equal to 5 or 7, the minimum pattern match rate (PMR) was 0.9 and 0.8, respectively. These results indicated that item and person parameters could be recovered accurately based on the proposed estimation algorithm. In addition, the results also showed that when Item-Q is used to fit the data generated by Cat-Q, the estimation accuracy of both the item and person parameters could be reduced. Therefore, it is suggested that when constructing the polytomously-scored items for cognitively diagnostic assessment, the item writer should try to identify the association between attributes and categories. In the process, more diagnostic information may be extracted, which in turn helps improve the diagnostic accuracy.
The purpose of Study 2 is to apply the proposed model to the TIMSS (2007) fourth-grade mathematics assessment test to demonstrate its application and feasibility and compare with the exiting GDM and PC-DINA model. The results showed that compared with GDM and PC-DINA models, the new model had a better model fit of test-level, higher attribute reliability and better diagnostic effect.

Keywords: cognitive diagnosis ; polytomous CDMs ; GDM model ; PC-DINA model

PDF (558KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

高旭亮, 汪大勋, 王芳, 蔡艳, 涂冬波. 基于分部评分模型思路的多级评分认知诊断模型开发. 心理学报[J], 2019, 51(12): 1386-1397 doi:10.3724/SP.J.1041.2019.01386

GAO Xuliang, WANG Daxun, WANG Fang, CAI Yan, TU Dongbo. Development of a Generalized Cognitive Diagnosis Model for polytomous responses based on Partial Credit Model. Acta Psychologica Sinica[J], 2019, 51(12): 1386-1397 doi:10.3724/SP.J.1041.2019.01386

1 引言

目前, 教育评估和心理计量学的最新发展越来越强调形成性评估(Formative Assessments), 它可以提供更多的信息来改进学习和教学策略。认知诊断评估(Cognitively Diagnostic Assessments, CDA)旨在测量特定的知识结构和加工技能, 从而为教师和学生提供即时的诊断信息, 以便对课堂教学进行相应的规划或修改, 以促进个体的全面发展(de la Torre & Minchen, 2014; Leighton & Gierl, 2007)。特别地, 美国2001年通过了《不让一个孩子掉队法》法案(No Child Left Behind Act of 2001), 法案要求测验要给学生、家长和老师提供有价值的诊断性报告, 报告要包括关于学生在解决问题时所需的基础知识和认知处理技能等方面的掌握信息, 从而为学生提供量身定制的教育服务。美国政府2015年再次通过了每个学生成功(Every Student Succeeds Act)教育法案, 新法案继续强调测验要为学生及家长提供诊断性评价、形成性评价。我国在2010年通过的《国家中长期教育改革和发展规划纲要(2010-2020年)》强调要注重因材施教, 减轻学生负担, 改革教学评价制度, 建立科学的教育质量评价体系等。从国内外的教育政策可见, CDA在未来的教育评估领域将会发挥更大的作用。

当前, 研究者已经开发了大量的二级(0-1)评分认知诊断模型(Cognitive Diagnosis Model, CDM), 然而在实际教育和心理评估测验中存在大量多级评分的数据, 例如, 心理测验中经常使用李克特型(Likert-type)量表问卷, 在态度倾向性的问卷中, 使用“完全不同意”, “不同意”, “不确定”, “同意”和“完全同意”等5个选项来表示不同程度的态度倾向, 每个选项代表不同的得分。不仅如此, 与二级评分的题目相比, 多级评分题目可以提供更多的信息, 它只需要更少的题目就能达到和较多二级题目同样的测量精度(van der Ark, 2001)。

为了分析多级评分数据, 一个常用的方法是将多级评分数据转换为二级评分, 然后再使用二级评分的CDM来分析(Templin & Henson, 2006)。然而, 经过转换之后必然要损失很多有价值的信息, Ma和de la Torre (2016)以及Tu, Zheng, Cai, Gao和Wang (2017)的研究均发现, 与使用多级评分模型相比, 使用二级评分模型分析多级评分数据会在很大程度上降低测验的精度。

Mellenbergh (1995)根据模型将多级评分数据二级化的方式将IRT的多级评分模型分为3类: (1)累积概率(cumulative probability models)模型, 或者也被称作等级反应(graded-response models)模型, 它是基于全局或累积logit (global or cumulative logit)的一类模型; (2)连续比率(continuation ratio models)模型, 或者也被称作顺序(sequential)模型, 它是基于连续比率logit (continuation ratio logit)的一类模型; (3)相邻类别(adjacent category)模型, 或者也被称作分部评分(partial-credit)模型, 它是基于局部或相邻类别logit (local or adjacent category logit)的一类模型。这3类模型将多级评分数据二级化的方式是完全不同的, 假设题目满分是3分, 定义$t=1,2,3$, 累积概率模型(cumulative probability models)二分为$P(x\ge t)$和$P(x<t)$, 而连续比率模型(continuation ratio models)则二分为$P(x\ge t)$和$P(x=t-1)$, 相邻类别模型(adjacent category models)二分为$P(x=t)$和$P(x=t-1)$。因此, 这3类模型的建模思路是完全不同的, 各有特点, 累积概率模型侧重于分析某个等级以上(包括该等级)所有等级与该等级下(不包括该等级)所有等级之间的关系; 连续比率模型侧重于分析某个等级以上(包括该等级)与该等级的向下一个等级之间的关系; 而相邻类别模型侧重于分析两个相邻类别之间的关系。因此, 累积概率模型是从整体出发考虑模型的建构, 这类模型更适用于分析不强调具体解题步骤的诊断测验, 例如, 写作水平测验。而连续比率模型和相邻类别模型都是基于解题步骤(steps)来考虑模型的建构, 但连续比率模型更强调作答过程是连续步骤(consecutive steps), 即只有成功地完成前面的所有步骤, 才能成功地执行下一步, 它适合分析解题步骤之间具有严格顺序关系的题目; 而相邻类别模型是基于一个局部步骤(local step)来建模, 即被试在当前步骤的解答只和前一步有关, 这类模型更适合分析相邻步骤之间具有依赖关系的题目。Tutz (1997)认为相邻类别模型更适合分析评定量表(rating scales)类型的题目, 连续比率模型更适合分析解答过程包含一系列连续步骤的题目。

在CDA领域, 研究者已经开发了少量的多级评分CDMs (polytomous CDMs)。但是已有的多级评分CDMs主要是属于累积概率(cumulative probability)模型和连续比率(continuation ratio)模型。Hansen (2013)借鉴Samejima (1969)等级反应模型(Graded Response Model, GRM)的思想, 提出了多级评分的LCDM模型。涂冬波、蔡艳、戴海琦和丁树良(2010)基于等级反应模型(GRM)的建模思路提出了多级评分的DINA模型(polytomous DINA, P-DINA)。蔡艳、苗莹和涂冬波 (2016)在P-DINA模型的基础上加以改进, 提出了拓广的P-DINA (Generalized P-DINA, GP-DINA)模型。Ma和de la Torre (2016)在G-DINA模型的基础上提出了序列加工G-DINA模型(sequential G-DINA), 序列加工G-DINA模型是基于连续比率(continuation ratio)模型的一个特例。

然而, 目前对于相邻类别(adjacent category)或者分部评分(partial-credit)类的多级评分CDMs的研究还相对薄弱。已有的分部评分多级CDMs模型仅有von Davier (2008)提出的一般诊断模型(General Diagnostic Model, GDM)和de la Torre (2012)提出的分部评分DINA (Partial Credit DINA, PC-DINA)模型。但这两个模型具有以下缺陷:

(1) 首先, 这两个模型的Q矩阵均定义在题目水平(item level), 即它们的一个潜在假设是同一题目中不同得分类别考察的属性是相同的, 但是, 这可能会导致部分诊断信息的丢失。因为, 不同得分类别所考察的属性可能是不同的, 如果将Q矩阵定义在类别水平(category level)可以提供更多的诊断信息, 从而提高诊断测验的估计精度。为了方便, 题目水平(item level)和类别水平(category level)的Q矩阵分别简称为Item-Q和Cat-Q。现以一个例子来说明两种Q矩阵的区别(见表1), 例如, $\sqrt{8.5/0.5-8}$这道数学题目考察了3个属性, A1表示减法; A2表示除法; A3表示开平方。Cat-Q第一步考察了A2属性, 第二步考察了A1属性, 第三步考察了A3属性。而Item-Q则假设每个得分类别考察的属性等于整个题目考察的属性, 即每一步都考察了A1, A2和A3这3个属性。

表1   两种不同类型的Q矩阵示例

步骤得分类别Cat-QItem-Q
A1A2A3A1A2A3
减法除法开方减法除法开方
$\sqrt{8.5/0.5-8}$111
步骤1: $8.5/0.5=17$1010
步骤2: $17-8=9$2100
步骤3: $\sqrt{9}=3$3001

新窗口打开| 下载CSV


(2) 其次, 对于GDM模型而言, 它假设属性之间不存在交互效应, 即它只考虑了属性的主效应。而在实际的数据中, 属性之间常常存在交互效应, 即被试答对题目的概率不仅受到属性主效应的影响, 还受到属性之间交互效应的影响; (3)对于PC-DINA模型来说, 它是基于DINA模型而提出的, DINA模型假设属性没有主效应, 仅有所有属性间的交互效应, 它属于具有严格理论假设的简单模型, 因此, 它不具一般性认知诊断模型的优势。基于此, 本研究重点关注基于分部评分模型的建模思路, 开发出新的功能更为强大的多级评分认知诊断模型, 以弥补当前国际上基于分部评分模型思路的多级评分CDMs (如GDM和PC-DINA)的不足。新开发的模型不仅将属性定义在得分类别水平(属性的定义更加精细), 而且它以G-DINA模型作为加工函数, 因此具有一般性认知诊断模型的优势。

2 基于分部评分模型思路的多级评分CDM开发

定义${{X}_{j}}$表示在第$j$题的作答反应, ${{m}_{j}}$表示第$j$题的满分, 则${{X}_{j}}\in \left\{ 0,1,\ldots ,{{m}_{j}} \right\}$, 用$K$表示测验考察的属性个数, ${{\mathbf{\alpha }}_{l}}$表示被试的属性掌握模式, ${{\mathbf{\alpha }}_{l}}=\left( {{\alpha }_{l1}},\ldots ,{{\alpha }_{lk}},\ldots ,{{\alpha }_{lK}} \right) $, 如果属性模式为${{\mathbf{\alpha }}_{l}}$的被试掌握了第$k$个属性, 则${{\alpha }_{lk}}=1$, 如果未掌握${{\alpha }_{lk}}=0$。定义$P({{X}_{j}}=x|{{\mathbf{\alpha }}_{l}})$表示属性模式为${{\mathbf{\alpha }}_{l}}$的被试在第$j$题恰得$x$分的概率。${{\mathbf{q}}_{jx}}$表示第$j$题得分类别$x$考察的属性向量, ${{\mathbf{q}}_{jx}}=\left( {{q}_{jx1}},\ldots ,{{q}_{jxK}} \right)$, 如果${{\mathbf{q}}_{jx}}$包含了第$k$个属性, 则${{\mathbf{q}}_{jxk}}=1$, 否则${{\mathbf{q}}_{jxk}}=0$。基于局部logit (local logit) 函数的定义, 定义了以下一般化的分部评分认知诊断模型(General Partial Credit Diagnostic Model, GPCDM)表达式:

$\begin{matrix} {{g}_{x}}\left[ P({{X}_{j}}=x|{{\mathbf{\alpha }}_{l}}) \right]=\log \frac{P({{X}_{j}}=x|{{\mathbf{\alpha }}_{l}})}{P({{X}_{j}}=x-1|{{\mathbf{\alpha }}_{l}})}= \\ {{\beta }_{jx0}}+\mathbf{\beta }_{jx}^{T}\mathbf{h}\left( {{\mathbf{q}}_{jx}},{{\mathbf{\alpha }}_{l}} \right) \\ \end{matrix}$

其中${{g}_{x}}(\cdot )$表示链接函数, 即局部logit (local logit)函数, ${{\beta }_{jx0}}$表示截距参数, $\mathbf{\beta }_{jx}^{T}\mathbf{h}\left( {{\mathbf{q}}_{jx}},{{\mathbf{\alpha }}_{l}} \right)$表示属性考察向量${{\mathbf{q}}_{jx}}$和属性掌握模式${{\mathbf{\alpha }}_{l}}$的一组线性组合:

$\begin{matrix} \mathbf{\beta }_{jx}^{T}\mathbf{h}\left( {{\mathbf{q}}_{jx}},{{\mathbf{\alpha }}_{l}} \right)=\sum\limits_{u=1}^{{{K}_{jx}}}{{{\beta }_{jx,u}}\left( {{\alpha }_{lu}}{{q}_{jx,u}} \right)}+\sum\limits_{u=v+1}^{{{K}_{jx}}}{\sum\limits_{v=1}^{{{K}_{jx}}-1}{{{\beta }_{jx,uv}}}} \\ \left( {{\alpha }_{lu}}{{\alpha }_{lv}}{{q}_{jx,u}}{{q}_{jx,v}} \right)+\cdots +{{\beta }_{jx,12...K_{jx}^{{}}}}\prod\limits_{k=1}^{{{K}_{jx}}}{{{\alpha }_{lk}}} \\ \end{matrix}$

上述${{K}_{jx}}$表示第$j$题得分类别$x$考察的属性个数, ${{\beta }_{jx,u}}$表示${{\alpha }_{lu}}$的主效应, 即掌握属性$u$对恰得$x$分的贡献值, ${{\beta }_{jx,uv}}$表示${{\alpha }_{lu}}$和${{\alpha }_{lv}}$的二阶交互效应, 即同时掌握属性$u$和$v$对得$x$分的贡献值,${{\beta }_{jx,12...K_{jx}^{{}}}}$表示${{\alpha }_{l1}}$到${{\alpha }_{l{{K}_{jx}}}}$的K阶交互效应, 即掌握所有属性对得$x$分的贡献。假设题目的满分是3分, 即有4个得分类别(0, 1, 2, 3), 此时, 可以得到每个得分类别的答对概率, 如下所示:

$\left\{ \begin{matrix} {{g}_{1}}\left[ P({{X}_{j}}=1|{{\mathbf{\alpha }}_{l}}) \right]=\log \frac{P({{X}_{j}}=1|{{\mathbf{\alpha }}_{l}})}{P({{X}_{j}}=0|{{\mathbf{\alpha }}_{l}})} \\ {{g}_{2}}\left[ P({{X}_{j}}=2|{{\mathbf{\alpha }}_{l}}) \right]=\log \frac{P({{X}_{j}}=2|{{\mathbf{\alpha }}_{l}})}{P({{X}_{j}}=1|{{\mathbf{\alpha }}_{l}})} \\ {{g}_{3}}\left[ P({{X}_{j}}=3|{{\mathbf{\alpha }}_{l}}) \right]=\log \frac{P({{X}_{j}}=3|{{\mathbf{\alpha }}_{l}})}{P({{X}_{j}}=2|{{\mathbf{\alpha }}_{l}})} \\ P({{X}_{j}}=0|{{\mathbf{\alpha }}_{l}})+P({{X}_{j}}=1|{{\mathbf{\alpha }}_{l}})+P({{X}_{j}}=2|{{\mathbf{\alpha }}_{l}})+P({{X}_{j}}=3|{{\mathbf{\alpha }}_{l}})=1 \\ \end{matrix} \right.$

化解公式3的方程组, 可以得到如下公式:

$\left\{ \begin{matrix} P({{X}_{j}}=0|{{\mathbf{\alpha }}_{l}})=\frac{1}{\sum\nolimits_{r=0}^{{{m}_{j}}}{\exp \sum\nolimits_{c=0}^{r}{\left[ {{\beta }_{jc}}+\mathbf{\beta }_{jc}^{T}\mathbf{h}\left( {{\mathbf{q}}_{jc}},{{\mathbf{\alpha }}_{l}} \right) \right]}}} \\ P({{X}_{j}}=1|{{\mathbf{\alpha }}_{l}})=\frac{\exp \sum\nolimits_{c=0}^{1}{\left[ {{\beta }_{jc}}+\mathbf{\beta }_{jc}^{T}\mathbf{h}\left( {{\mathbf{q}}_{jc}},{{\mathbf{\alpha }}_{l}} \right) \right]}}{\sum\nolimits_{r=0}^{{{m}_{j}}}{\exp \sum\nolimits_{c=0}^{r}{\left[ {{\beta }_{jc}}+\mathbf{\beta }_{jc}^{T}\mathbf{h}\left( {{\mathbf{q}}_{jc}},{{\mathbf{\alpha }}_{l}} \right) \right]}}} \\ P({{X}_{j}}=2|{{\mathbf{\alpha }}_{l}})=\frac{\exp \sum\nolimits_{c=0}^{2}{\left[ {{\beta }_{jc}}+\mathbf{\beta }_{jc}^{T}\mathbf{h}\left( {{\mathbf{q}}_{jc}},{{\mathbf{\alpha }}_{l}} \right) \right]}}{\sum\nolimits_{r=0}^{{{m}_{j}}}{\exp \sum\nolimits_{c=0}^{r}{\left[ {{\beta }_{jc}}+\mathbf{\beta }_{jc}^{T}\mathbf{h}\left( {{\mathbf{q}}_{jc}},{{\mathbf{\alpha }}_{l}} \right) \right]}}} \\ P({{X}_{j}}=3|{{\mathbf{\alpha }}_{l}})=\frac{\exp \sum\nolimits_{c=0}^{3}{\left[ {{\beta }_{jc}}+\mathbf{\beta }_{jc}^{T}\mathbf{h}\left( {{\mathbf{q}}_{jc}},{{\mathbf{\alpha }}_{l}} \right) \right]}}{\sum\nolimits_{r=0}^{{{m}_{j}}}{\exp \sum\nolimits_{c=0}^{r}{\left[ {{\beta }_{jc}}+\mathbf{\beta }_{jc}^{T}\mathbf{h}\left( {{\mathbf{q}}_{jc}},{{\mathbf{\alpha }}_{l}} \right) \right]}}} \\ \end{matrix} \right.$

通过公式4, 进一步可以概括出GPCDM模型的每个得分类别的一般化公式:

$P({{X}_{j}}=x|{{\mathbf{\alpha }}_{l}})=\frac{\exp \sum\nolimits_{c=0}^{x}{\left[ {{\beta }_{jc}}+\mathbf{\beta }_{jc}^{T}\mathbf{h}\left( {{\mathbf{q}}_{jc}},{{\mathbf{\alpha }}_{l}} \right) \right]}}{\sum\nolimits_{r=0}^{{{m}_{j}}}{\exp \sum\nolimits_{c=0}^{r}{\left[ {{\beta }_{jc}}+\mathbf{\beta }_{jc}^{T}\mathbf{h}\left( {{\mathbf{q}}_{jc}},{{\mathbf{\alpha }}_{l}} \right) \right]}}}$

公式5满足$\sum\nolimits_{c=0}^{0}{\left[ {{\beta }_{jc}}+\mathbf{\beta }_{jc}^{T}\mathbf{h}\left( {{\mathbf{q}}_{jc}},{{\mathbf{\alpha }}_{l}} \right) \right]}=0$。如果将Q矩阵定义在题目水平, 即使用Item-Q时, 并且假设属性没有主效应, 仅保留属性间的最高阶交互效应, 则公式(1)可以简化为:

$\log \frac{P({{X}_{j}}=x|{{\mathbf{\alpha }}_{l}})}{P({{X}_{j}}=x-1|{{\mathbf{\alpha }}_{l}})}={{\beta }_{jx0}}+{{\beta }_{jx,12...K_{jx}^{{}}}}\prod\limits_{k=1}^{K_{jx}^{{}}}{{{\alpha }_{lk}}}$

从公式(6)可以看出, 此时, GPCDM等价于PC-DINA模型, 这两者的参数可以相互转换, ${{g}_{jx}}={{\beta }_{jx0}}$, $1-{{s}_{jx}}={{\beta }_{jx0}}+{{\beta }_{j12\ldots K_{jx}^{{}}}}$。综上, 已有的分部评分CDMs都将Q矩阵定义在题目水平, 而GPCDM的Q矩阵定义更加灵活, 它可以定义在题目水平和得分类别水平; 当Q矩阵定义在得分类别时, 即Q矩阵的定义更加精细, 有助于提供更多的诊断信息。在实际应用中, 使用者可以根据自身的需求灵活选择不同类型的Q矩阵。另外, GDM和PC-DINA的理论假设均比较严苛, 在应用中具有较大的限制。而GPCDM的约束条件更少, 因而, 理论上GPCDM在实际应用中更加灵活, 更具优势。

3 参数估计

GPCDM的参数采用EM算法来估计, 用${{X}_{ij}}$表示被试$i$在题目$j$的作答反应, 其中, $i=1,\ldots ,I$和$j=1,\ldots ,J$, ${{m}_{j}}$表示题目$j$的满分值, ${{\mathbf{X}}_{i}}$表示被试$i$的得分向量${{\mathbf{X}}_{i}}=({{X}_{i1}},\ldots ,{{X}_{ij}})$ 。根据局部独立性假设, 可以得到边际对数似然函数:

$l(x)=\log \prod\limits_{i=1}^{I}{\sum\limits_{l=1}^{{{2}^{K}}}{L({{\mathbf{X}}_{i}}|{{\mathbf{\alpha }}_{l}})}}p({{\mathbf{\alpha }}_{l}})$

这里, $L({{\mathbf{X}}_{i}}|{{\mathbf{\alpha }}_{l}})$是属性模式在已知作答向量${{\mathbf{X}}_{i}}$的似然函数, $p({{\mathbf{\alpha }}_{l}})$是属性模式${{\mathbf{\alpha }}_{l}}$的先验信息, $L({{\mathbf{X}}_{i}}|{{\mathbf{\alpha }}_{l}})$可以通过下列公式计算:

$L({{\mathbf{X}}_{i}}|{{\mathbf{\alpha }}_{l}})=\prod\limits_{j=1}^{J}{\prod\limits_{x=0}^{{{m}_{j}}}{P{{({{X}_{ij}}=x|{{\mathbf{\alpha }}_{l}})}^{I({{X}_{ij}}=x)}}}}$

${{X}_{ij}}=x$表示被试$i$在第$j$题的得分, $I({{X}_{ij}}=x)$是一个指示性变量。EM算法在每次迭代中包括两个步骤: 期望步骤(Expectation Step, E-step)和最大化步骤(Maximization Step, M-step)。E步是计算属性模式为${{\mathbf{\alpha }}_{l}}$的被试在第$j$题上恰得$x$分的人数, 用${{R}_{ljx}}$来表示,

${{R}_{ljx}}=\sum\limits_{i=1}^{I}{I({{X}_{ij}}=x)P({{\mathbf{\alpha }}_{l}}|{{\mathbf{X}}_{i}})}$

这里$P({{\mathbf{\alpha }}_{l}}|{{\mathbf{X}}_{i}})$表示被试$i$在已知作答向量${{\mathbf{X}}_{i}}$时属性模式属于${{\mathbf{\alpha }}_{l}}$的后验概率, 可以通过下列公式计算:

$P({{\mathbf{\alpha }}_{l}}|{{\mathbf{X}}_{i}})=\frac{L({{\mathbf{X}}_{i}}|{{\mathbf{\alpha }}_{l}})p({{\mathbf{\alpha }}_{l}})}{\sum\nolimits_{l=1}^{{{2}^{K}}}{L({{\mathbf{X}}_{i}}|{{\mathbf{\alpha }}_{l}})p({{\mathbf{\alpha }}_{l}})}}$

对于题目$j$, M-step的目的是使目标函数极大化的条件下来估计项目参数, 目标函数见下列公式11:

$f=\sum\limits_{l=1}^{{{2}^{K}}}{\sum\limits_{x=0}^{{{m}_{j}}}{{{R}_{ljx}}\log \left[ P({{X}_{ij}}=x|{{\mathbf{\alpha }}_{l}}) \right]}}$

本研究的参数估计程序使用R软件来编写, 在R软件中optim函数包含了几种常用的极值优化算法。optim函数在R里的表达式是optim (par, fn, method), par代表项目参数初值, fn代表目标函数, method可选择的优化算法, 因此, 使用optim函数计算极值时只需要输入par (项目参数初值), 初值可以从均匀分布中随机生成, fn (目标函数)和选择的优化算法即可。EM算法每循环一次, 就验证是否达到收敛条件, 如果达到收敛条件, 则迭代停止, 否则, 重复E步和M步。最后, 通过EM算法得到项目参数后, 采用期望后验(Expected a Posteriori, EAP)方法来估计被试参数(属性掌握模式)。

4 实验1: Monte Carlo实验研究

实验1旨在检验: (1)GPCDM模型的参数估计精度及其性能; (2)当采用Cat-Q矩阵生成数据时, 如果采用Item-Q矩阵分析数据是否会降低参数估计的精度, Item-Q可以从Cat-Q得到, 例如, 表2中的第1题得分类别1和2考察的属性向量分别是(1, 0, 0, 0, 0)和(0, 1, 0, 0, 0), 而Item-Q中得分类别1和2考察的属性向量都是(1, 1, 0, 0, 0)。

表2   5属性的Cat-Q矩阵

题目得分A1A2A3A4A5题目得分A1A2A3A4A5
111000011111000
120100011200001
210010012101000
220011012200010
311000112300001
321000013100001
410000113200010
420001113300100
510010014110000
520101014201000
611100014300100
620010015100010
710100015200001
720101015310000
810001016110000
821010017101000
910001118100100
920010119100010
1010110020100001
10210000

新窗口打开| 下载CSV


自变量包括: (1)样本容量(500, 1000, 2000和4000)。(2)属性个数(5个和7个); 5属性和7属性的Cat-Q见表2表3, 多级评分题目中每个得分类别最多考察2个属性, 并且Cat-Q中每个属性的测量次数都是相同的。另外, 为了提高诊断测验的效果, 5属性和7属性的Cat-Q分别包含了5个和7个二级评分的题目, 且这些测验包括了一个完整的可达矩阵(R阵)。(3)测验长度, 5属性时包括20和40题, 7属性时包括25和50题, 40题和50题的Cat-Q与20题和25题的Cat-Q是重复关系。为了减少随机误差, 每种条件下重复模拟实验100次。

表3   7属性的Cat-Q矩阵

题目得分A1A2A3A4A5A6A7题目得分A1A2A3A4A5A6A7
1110000001710110000
2101000001721000000
3100100001811100000
4100010001820000100
5100001001911000000
6100000101920100000
7100000011930010001
8110000002010000100
8201000002020000001
9101100002030001001
9200110002110010000
10110001002120001000
10210010012130000110
11100001002210001000
11210001002220000001
12100000102230000011
12200001012310000100
13101000002320000010
13200100102330000011
14101000002411000011
14201010002420100000
15100010002430000010
15210100002510010000
16100010102520000100
16200100102530000001

新窗口打开| 下载CSV


4.1 参数的模拟

4.1.1 被试参数的模拟

样本容量包含4个水平, N = 500, 1000, 2000和4000。当属性个数是5个时, 所有可能的属性掌握模式是${{2}^{5}}=32$种, 被试的属性模式从32种模式中随机生成, 同理, 当考察的属性个数等于7个时, 被试的属性模式从${{2}^{7}}=128$种可能的模式中随机生成。

4.1.2 题目参数的模拟

题目参数的模拟方法参考了Ma和de la Torre (2016)的做法, $\operatorname{logit}\left\{ {{g}_{x}}\left[ P({{X}_{j}}=x|{{\mathbf{\alpha }}_{l}}=1) \right] \right\}$从均匀分布$U(0.75,1)$中随机生成, 而$\operatorname{logit}\left\{ {{g}_{x}}\left[ P({{X}_{j}}= \right. \right.x|{{\mathbf{\alpha }}_{l}}=$ $\left. \left. 0) \right] \right\}$从均匀分布$U(0,0.25)$中随机生成, 这里${{\mathbf{\alpha }}_{l}}=\mathbf{1}$表示被试已经掌握了第$j$题得分类别$x$考察的所有属性, 而${{\mathbf{\alpha }}_{l}}=\mathbf{0}$表示被试未掌握得分类别$x$考察的任意一个属性。当属性模式${{\mathbf{\alpha }}_{l}}$掌握的属性个数介于${{\mathbf{\alpha }}_{l}}=\mathbf{0}$和${{\mathbf{\alpha }}_{l}}=\mathbf{1}$之间时, 即${{\mathbf{\alpha }}_{l}}\notin \left\{ {{\mathbf{\alpha }}_{l}}=\mathbf{0},{{\mathbf{\alpha }}_{l}}=\mathbf{1} \right\}$, 此时, 属性模式${{\mathbf{\alpha }}_{l}}$相对应的概率从以${{\mathbf{\alpha }}_{l}}=\mathbf{0}$和${{\mathbf{\alpha }}_{l}}=\mathbf{1}$所对应概率为两个边界值的均匀分布中随机生成。

为了保证作答概率满足单调递增性, 即掌握的属性越多答对题目的概率越大, 约定如果属性模式${{\mathbf{\alpha }}_{l}}$的被试掌握的题目$j$考察的属性个数多于${{\mathbf{\alpha }}_{l'}}$, 则${{\mathbf{\alpha }}_{l}}$对应的项目反应概率大于${{\mathbf{\alpha }}_{l'}}$。

4.1.3 作答数据的模拟

根据模拟得到的项目参数, 可以计算属性模式为${{\mathbf{\alpha }}_{l}}$的被试在第$j$题恰得$x$分的概率$P({{X}_{j}}=x|{{\mathbf{\alpha }}_{l}})$, 而每个得分类别对应的概率已知, 属性掌握模式为${{\mathbf{\alpha }}_{l}}$的被试在第$j$题的作答从对应的分类分布中抽取。假设被试在某一题恰得$t$分($t\in \{0,1,2,3,4\}$)对应的概率是$\{0.03,\text{ }0.08,\text{ }0.12,\text{ }0.14,\text{ }0.63\}$, 则被试在该题的得分从$t\in \{0,1,2,3,4\}$中抽取一个数, 而每个得分被抽取的概率分别是0.03, 0.08, 0.12, 0.14和0.63。

4.2 评价标准

评价标准包括被试参数和项目参数的返真性, 它们的返真性分别用模式判准率(Pattern Match Rate, PMR)和均方根误差指标(Root Mean Square Error, RMSE)来反映(Ma & de la Torre, 2016)。两个指标的计算公式如下:

$PMR=\frac{\sum\limits_{r=1}^{R}{\sum\limits_{i=1}^{N}{{{I}^{(r)}}({{\mathbf{\alpha }}_{i}}={{{\mathbf{\hat{\alpha }}}}_{i}})}}}{N\times R}$

其中${{I}^{(r)}}({{\mathbf{\alpha }}_{i}}={{\mathbf{\hat{\alpha }}}_{i}})$表示第$r$次实验估计的${{\mathbf{\alpha }}_{i}}$和真值${{\mathbf{\hat{\alpha }}}_{i}}$是否完全相同, 如果相等则${{I}^{(r)}}({{\mathbf{\alpha }}_{i}}={{\mathbf{\hat{\alpha }}}_{i}})=1$, 否则${{I}^{(r)}}({{\mathbf{\alpha }}_{i}}={{\mathbf{\hat{\alpha }}}_{i}})=0$, $N$和$R=100$分别表示人数和实验次数。

$RMSE=\sqrt{\frac{\sum\limits_{r=1}^{R}{\sum\limits_{l=1}^{{{2}^{K}}}{\sum\limits_{j=1}^{J}{{{\left[ {{P}^{(r)}}\left( {{X}_{j}}=x|{{\mathbf{\alpha }}_{l}} \right)-{{{\hat{P}}}^{(r)}}\left( {{X}_{j}}=x|{{\mathbf{\alpha }}_{l}} \right) \right]}^{2}}}}}}{J\times {{2}^{K}}\times R}}$

其中${{P}^{(r)}}\left( {{X}_{j}}=x|{{\mathbf{\alpha }}_{l}} \right)$和${{\hat{P}}^{(r)}}\left( {{X}_{j}}=x|{{\mathbf{\alpha }}_{l}} \right)$分别表示第$r$次实验估计的和真实的属性模式${{\mathbf{\alpha }}_{l}}$在第$j$题得分为$x$的概率。PMR值越大, RMSE值越小表示估计误差越小, 表明参数估计算法越有效。

4.3 实验结果

表4表5分别显示了各种实验条件下的测验PMR指标和RMSE指标。

表4   各种实验条件下被试参数返真性PMR值

属性个数测验长度Q矩阵的类型被试样本容量
500100020004000
520Item-Q0.9310.9390.9430.951
Cat-Q0.9420.9480.9490.954
40Item-Q0.9910.9930.9950.996
Cat-Q0.9950.9960.9980.998
725Item-Q0.8180.8270.8520.858
Cat-Q0.8640.8660.8680.872
50Item-Q0.9770.9790.9810.986
Cat-Q0.9850.9870.9890.991

新窗口打开| 下载CSV


表5   各种实验条件下的项目参数返真性RMSE值

属性个数测验长度Q矩阵的类型被试样本容量
500100020004000
520Item-Q0.1030.0870.0670.053
Cat-Q0.0430.0280.0220.015
40Item-Q0.1010.0860.0650.052
Cat-Q0.0380.0280.0190.015
725Item-Q0.1040.0920.0790.049
Cat-Q0.0420.0320.0200.014
50Item-Q0.1080.0890.0700.047
Cat-Q0.0380.0260.0190.014

新窗口打开| 下载CSV


需要强调的是, 作答数据是基于类别水平Q矩阵(Cat-Q)生成的。因此, 为了评估参数估计的精度, 主要关注Cat-Q的结果。从表4的结果可见, 属性个数等于5且使用Cat-Q时, 测验长度在20题时, 不同样本容量下的PMR值都在0.94以上, 而当测验长度增加到40题时, 不同样本容量下的PMR值均在0.99以上。当属性个数等于7且使用Cat-Q时, 在测验长度为25题时, 不同样本容量下的PMR值都在0.86以上, 而在测验长度为50题时, 不同样本容量下的PMR值都在0.98以上。

表5的结果显示, 当使用Cat-Q时, 不管属性个数、测验长度和样本容量如何变化, 在所有条件下的测验RMSE值均在0.05以下。随着样本量的增加, RMSE也随之降低, 例如, 属性个数等于5和测验长度等于20时, 在样本容量为500的条件下, 基于Item-Q和Cat-Q的RMSE值分别是0.103和0.043, 同样的条件下, 当样本容量增加到4000时,基于Item-Q和Cat-Q的RMSE值分别降低到0.053和0.015。

表6显示了在属性个数为5, 样本容量为1000, 测验长度为20题时, Cat-Q和Item-Q条件下每一题的RMSE指标, 由于其他实验条件下的结果和表6有相似的趋势, 因此, 限于篇幅的原因, 只提供了一种条件下的结果。

表6   K = 5和N = 1000时20题的RMSE值

题目Q矩阵的类型题目Q矩阵的类型
Cat-QItem-QCat-QItem-Q
10.0250.095110.0250.082
20.0320.092120.0260.088
30.0330.069130.0270.091
40.0360.081140.0290.086
50.0240.086150.0280.088
60.0340.082160.0180.019
70.0330.083170.0210.020
80.0230.079180.0190.019
90.0340.069190.0200.019
100.0240.084200.0200.021

新窗口打开| 下载CSV


表6的结果可以发现, 由于后5题是二级评分的题目, 此时Cat-Q和Item-Q是等价的, 因此Cat-Q和Item-Q的RMSE值基本相当, 而在多级评分的前15题中, 基于Cat-Q得到的RMSE值始终要小于基于Item-Q的RMSE值, 基于Cat-Q的最大RMSE是0.036。另外, 还可以发现, 二级评分题目的RMSE要略低于多级评分的题目, 这是因为, 二级评分题目考察的属性个数要少于多级评分题目。这个结果充分表明, EM算法可以提供精确的参数估计精度, 和Item-Q相比, 使用Cat-Q有助于提供更多有价值的诊断信息, 从而提高诊断测验的精度。

表4表5基于Cat-Q的结果可以发现, 当属性个数等于5或7时, 基于Cat-Q的PMR在短测验(20题和25题)时, 分别达到了0.9和0.8以上, 而在长测验条件下(40和50题)时, 它们的PMR值都在0.95以上, 它们的RMSE值均在0.05以下。这充分说明本研究提出的模型参数估计算法可以提供稳健、精确的估计精度。

对比基于不同类别Q矩阵的结果可以发现, 在同样的实验条件下, 与基于Cat-Q结果相比, 基于Item-Q导致更低的PMR值, 和更高的RMSE值。这两种Q矩阵之间的差异尤其在短测验(5属性时20题或7属性时25题)或被试人数较少(例如500人时)的条件下更加明显, 例如, 当属性个数等于7, 测验长度为20, 被试人数为500人时, 从表4可以看出, 使用Cat-Q时的PMR值大约是0.86, 而当使用Item-Q时的PMR值大约是0.82。而从表5可以发现, 在同样的条件下, 使用Cat-Q时的RMSE值大约是0.04, 而使用Item-Q时, 它的RMSE值则大约是0.1。这些结果都表明如果采用Item-Q来分析Cat-Q产生的数据确实会降低项目参数和被试参数的估计精度。这个结论启发实际使用者, 在编写多级评分的诊断题目时, 对于Q矩阵的标定, 应尽量构建基于得分类别的测验Q矩阵(即Cat-Q), 使用Cat-Q有利于提供更多的诊断信息, 从而提高诊断的精度。

5 实验2: 实证数据研究

5.1 研究目的

为了进一步探讨和比较GPCDM在实证数据中的效果, 比较了三个基于分部评分模型思路的多级评分认知诊断模型, 即本文新开发的GPCDM以及国际上GDM和PC-DINA模型, 在国际数学与科学趋势研究(Trends in International Mathematics and Science Study, TIMSS) 2007四年级数学评估测验数据中的表现。TIMSS是由国际教育成就评价协会(International Association for the Evaluation of Educational Achievement)发起的一个国际大型教育评估项目, 该项目评估的对象是全球4年级和8年级的数学与科学学业成就。TIMSS从1995年开始第一次测试, 每4年举行一次。在2015年的TIMSS评估测验中, 来自世界各地的60多个国家参加了这次测试。

本文分析了TIMSS (2007)数据的一个子集, 其中包括823名学生对11个题目涉及8个属性的数据。11个题目中, 有3个多级评分题, 8个二级评分题目, 它的Q矩阵见表7

表7   实证数据的Q矩阵

ItemCatA1A2A3A4A5A6A7A8
1111000000
2101101000
3110000101
3210000101
4101100000
5101100000
6101010000
7101101000
7200000010
8101101010
9101110000
9201110000
10101100000
11111000101

新窗口打开| 下载CSV


5.2 评价标准

评价标准包括以下3个方面:

(1) 模型和测验数据整体拟合度: 通过模型拟合指标: -2倍对数似然(-2 log-likelihood values, -2LL), Akaike的信息准则(Akaike’s information criterion, AIC; Akaike, 1974), 和贝叶斯信息准则(Bayesian Information Criterion, BIC; Schwarz, 1978)等来比较3个模型的拟合度。

(2) 两类特殊被试的诊断属性边际概率(Marginal Probability): 两类特殊的被试是指测验得0分的被试和得满分(即14分)的被试, 一般来说, 得0分的被试意味着对所考察的属性基本没掌握, 而得满分的考生应该完全掌握了所考察的属性, 因此, 理论上, 得0分的被试估计得到的属性边际概率应该很低(接近于0), 而得满分的被试估计得到属性边际概率应该很高(接近于1)。属性边际概率的计算公式如下:

${{\hat{p}}_{ik}}=\underset{l=1}{\overset{{{2}^{K}}}{\mathop \sum }}\,P({{\mathbf{\alpha }}_{l}}|{{\mathbf{X}}_{i}}){{\alpha }_{lk}}$

$P({{\mathbf{\alpha }}_{l}}|{{\mathbf{X}}_{i}})$计算方法可参考公式(10)。

(3) 认知诊断信度分析: Templin和Bradshaw (2013)提出了一种计算CDM下属性信度(attribute reliability)的方法, 该方法可以分为以下几步: (1)首先, 使用选定的CDM估计每个被试的属性边际概率; (2)根据第一步估计得到的属性边际概率, 构建四格列联表, 其中的列联表的四个元素可以通过下列公式计算:

$\left\{ \begin{array}{*{35}{l}} P({{\alpha }_{.{{k}_{1}}}}=1,{{\alpha }_{.{{k}_{2}}}}=1)=\frac{1}{N}\sum\limits_{i=1}^{N}{{{{\hat{p}}}_{ik}}{{{\hat{p}}}_{ik}}} \\ P({{\alpha }_{.{{k}_{1}}}}=1,{{\alpha }_{.{{k}_{2}}}}=0)=\frac{1}{N}\sum\limits_{i=1}^{N}{{{{\hat{p}}}_{ik}}(1-{{{\hat{p}}}_{ik}})} \\ P({{\alpha }_{.{{k}_{1}}}}=0,{{\alpha }_{.{{k}_{2}}}}=1)=\frac{1}{N}\sum\limits_{i=1}^{N}{(1-{{{\hat{p}}}_{ik}}){{{\hat{p}}}_{ik}}} \\ P({{\alpha }_{.{{k}_{1}}}}=0,{{\alpha }_{.{{k}_{2}}}}=0)=\frac{1}{N}\sum\limits_{i=1}^{N}{(1-{{{\hat{p}}}_{ik}})(1-{{{\hat{p}}}_{ik}})} \\ \end{array} \right.$

这里${{\hat{p}}_{ik}}$表示被试$i$在属性$k$的边际概率, 可以通过公式(14)计算得到; (3)根据第2步构建的列联表, 计算四格相关系数, 将四格相关系数当作每个属性的信度指标。

5.3 研究结果

5.3.1 模型拟合结果

表8显示了3个模型的相对拟合指标, 结果显示, GDM和PC-DINA这2个模型相比而言, 在3个拟合指标中, GDM模型的拟合更优。而这3个模型相比而言, GPCDM在3个拟合指标的值都是最小的, 即与GDM和PC-DINA模型相比, GPCDM是相对拟合更好的模型。

表8   模型相对拟合指标

模型拟合指标
-2LLAICBIC
GDM109641157613017
PC-DINA111911175713089
GPCDM105981131212993

新窗口打开| 下载CSV


5.3.2 两类特殊被试的属性边际概率

表9显示了3个模型估计的两类特殊被试的属性边际概率, 对于得0分被试而言, 3个模型的平均属性边际概率从低到高顺序依次是: GPCDM、GDM和PC-DINA模型。对比3个模型的估计结果可以发现, PC-DINA模型估计的属性边际概率在8个属性上都要明显高于GDM和GPCDM, 其中属性A1的边际概率达到了0.548, 平均属性边际概率达到了0.375, PC-DINA模型会高估这些得0分被试的属性边际概率。GDM模型和GPCDM估计的属性边际概率都比较低, 两者的平均属性边际概率分别是0.093和0.001, 但就具体属性而言, GDM模型在属性A7的边际概率达到了0.278, 与GPCDM的结果相比, GDM模型高估了属性A7的边际概率。

表9   两类特殊被试的属性边际概率

分数模型A1A2A3A4A5A6A7A8Mean
0GDM0.0240.0000.0010.0760.0620.1500.2780.1500.093
PC-DINA0.5480.1080.3870.2040.4320.4700.3820.4700.375
GPCDM0.0000.0000.0000.0000.0050.0000.0000.0000.001
14GDM0.7861.0000.9990.9800.9710.6710.9750.6710.881
PC-DINA0.6470.9880.9340.6980.6010.6090.9050.6090.749
GPCDM0.9840.9811.0001.0000.8390.9981.0000.9980.975

新窗口打开| 下载CSV


对于得满分(14分)的被试而言, 3个模型的平均属性边际概率从高到低顺序依次是: GPCDM、GDM和PC-DINA模型。PC-DINA模型只有在属性A2、A3和A7的属性边际概率达到了0.9以上, 而在其余属性的边际概率都在0.7以下, 平均属性边际概率只有0.749; GDM模型和GPCDM的平均属性边际概率分别是0.881和0.975, 但与GPCDM相比, GDM模型在属性A1、A6和A8的边际概率分别是0.786、0.671和0.671, 都明显低于GPCDM的0.984、0.998和0.998。

总体来看, 对于得0分和满分的被试, 拟合最优的GPCDM模型估计的结果是最合理的, 其次是GDM模型, 最后是PC-DINA模型。

5.3.3 属性信度分析

表10显示了3个模型拟合该实证数据时的属性信度, 表10的最后一列表示8个属性的平均信度。对于GDM模型而言, 属性A8的信度指标只有0.710, 是相对最低的, 而其余7个属性的信度指标都在0.8以上, 属性信度指标的最高的是A6属性, 达到了0.997。对于PC-DINA模型而言, 属性A5的信度指标是相对最低, 只有0.507, 而属性A3的信度指标最高, 但也只有0.827。而GPCDM的8个属性最低信度指标是0.841。

表10   每个模型下的属性信度

模型A1A2A3A4A5A6A7A8Mean
GDM0.8440.8870.8990.9460.9060.9970.9140.7110.888
PC-DINA0.6440.7160.8270.7210.5070.5290.7790.5290.656
GPCDM0.9660.9070.8810.9510.8730.9730.9850.8410.922

新窗口打开| 下载CSV


总体而言, PC-DINA模型的8个属性的信度指标都要明显低于GDM和GPCDM。而GDM和GPCDM相比而言, GPCDM在属性A1、A2、A4、A7和A8的信度指标也要高于GDM模型, 即GPCDM在5个属性的信度要优于GDM模型, GPCDM在剩余属性A3、A6和A7的信度指标和GDM非常接近。从平均属性信度指标来看, GPCDM的平均属性信度是最高的, 其次是GDM模型, 最后是PC-DINA, 即GPCDM分析该实证数据的效果更优。

6 研究结论与讨论展望

6.1 研究结论

本研究开发了一种更为灵活、功能更为强大, 且更有理论意义和应用价值的广义多级评分模型, 通过模拟研究验证了GPCDM的参数估计精度, 最后通过一个实证数据比较了GPCDM和已有基于分部评分思路的多级评分CDMs (GDM和PC-DINA)的应用效果, 研究结论主要有:

(1) Monte Carlo实验研究发现, 本研究开发的GPCDM的属性模式诊断正确率PMR在5属性时都在0.9以上, 项目参数的RMSE平均不到0.05, 这表明GPCDM模型具有较高的参数估计精度。

(2) 当使用Item-Q拟合Cat-Q生成的数据时, 题目和被试参数的估计精度都会降低。因此, 建议研究者在构建多级评分认知诊断的测验Q矩阵时, 应尽量构建基于得分类别的测验Q矩阵(即Cat-Q), 它能提供更多的诊断信息。

(3) 最后比较了GPCDM、GDM和PC-DINA模型在TIMSS (2007)数据的实际应用效果, 结果发现GPCDM的模型拟合度更优, 并且GPCDM分析该数据时的效果也更好。这表明新模型在实践应用中具有一定的优势。

6.2 讨论和展望

为使研究的结果不失一般性以及进一步拓展多级评分CDMs的相关研究, 未来至少还可以在以下几方面展开研究:

(1) 本研究假设属性之间是相互独立的, Q矩阵的标定完全正确, 另外, 本研究仅采用了EAP方法来估计被试参数, 并未对其他方法进行对比研究, 这些因素都可能会影响本研究的结论。

(2) 同一份测验中, 不同的题目可能拟合不同的CDM, 在二级评分的数据中, de la Torre (2011)应用Wald统计检验的方法为每个题目选择不同的CDM。而在多级评分数据中, 如何为每一题选择最适合的多级评分CDM也有待进一步研究。

(3) 多级评分的Q矩阵可以定义在得分类别水平, 这有助于提供更多诊断信息, 但是这也会增加Q矩阵标定的工作量。目前, 已经有学者开发了一系列辅助Q矩阵标定的算法, 但这些方法只局限于二级评分的模型。未来的研究可以继续探讨多级评分CDM中Q矩阵的标定算法。

(4) 本研究开发的模型假设考生的解题策略只有一种, 但在实际应用中, 同一道题目经常存在不同的解题策略。如果在诊断测验中考虑了被试解题策略的差异, 这也有助于提供更多有价值的信息, 从而提高诊断的精度(涂冬波, 蔡艳, 戴海琦, 丁树良, 2012)。因此, 开发多策略的多级评分CDM值得进一步研究。

(5) 已有的CD-CAT相关研究, 几乎都是基于二级评分的模型而展开, 事实上, 多级评分CD-CAT (Polytomous CD-CAT, PCD-CAT)在实际应用中具有更广阔的前景, 不仅是因为心理或教育评估测验中存在大量的多级评分数据, 更重要的是与二级评分的题目相比, 多级评分题目可以提供更多的信息, 即多级评分的CD-CAT有助于进一步提高测验的效率, 未来的研究可以针对PCD-CAT的相关算法展开研究。

参考文献

Akaike H . (1974).

A new look at the statistical model identification

IEEE Transactions on Automatic Control, 19, 716-723.

[本文引用: 1]

Cai Y., Miao Y., & Tu D. B . (2016).

The polytomously scored cognitive diagnosis computerized adaptive testing

Journal of Psychological Science, 48(10), 1338-1346.

[本文引用: 1]

[ 蔡艳, 苗莹, 涂冬波 . (2016).

多级评分的认知诊断计算机化适应测验

心理学报, 48(10), 1338-1346.]

[本文引用: 1]

de la Torre J . (2011).

The generalized DINA model framework

Psychometrika, 76(2), 179-199.

[本文引用: 1]

de la Torre J . (2012).

Application of the DINA model framework to enhance assessment and learning

In Self- directed learning oriented assessments in the Asia-Pacific(pp. 87-103). Springer, Dordrecht.

[本文引用: 3]

de la J Torre., & Minchen N . (2014).

Cognitively diagnostic assessments and the cognitive diagnosis model framework

Psicología Educativa, 20(2), 89-97.

[本文引用: 1]

Hansen M . (2013).

Hierarchical item response models for cognitive diagnosis

Unpublished doctoral dissertation. University of California at Los Angeles.

[本文引用: 1]

Leighton J. P., & Gierl M. J . (2007).

Defining and evaluating models of cognition used in educational measurement to make inferences about examinees’ thinking processes

Educational Measurement: Issues and Practice, 27(2), 3-16.

[本文引用: 1]

Ma W., & de la Torre J . (2016).

A sequential cognitive diagnosis model for polytomous responses

British Journal of Mathematical and Statistical Psychology, 69(3), 253-275.

[本文引用: 4]

Mellenbergh G. J . (1995).

Conceptual notes on models for discrete polytomous item responses

Applied Psychological Measurement, 19(1), 91-100.

[本文引用: 1]

Samejima F . (1969).

Estimation of latent ability using a response pattern of graded scores

Psychometrika Monograph, 34(S1), 1-97.

[本文引用: 1]

Schwarz G . (1978).

Estimating the dimension of a model

Annals of Statistics, 6(2), 461-464.

[本文引用: 1]

Templin J. L., & Bradshaw L . (2013).

Measuring the reliability of diagnostic classification model examinee estimates

Journal of Classification, 30(2), 251-275.

[本文引用: 1]

Templin J. L., & Henson R. A . (2006).

Measurement of psychological disorders using cognitive diagnosis models

Psychological Methods, 11(3), 287-305.

[本文引用: 1]

Tu D. B., Cai Y., Dai H. Q., & Ding S. L . (2010).

A polytomous cognitive diagnosis model: P-DINA model

Acta Psychologica Sinica, 42(10), 1011-1020.

[本文引用: 1]

[ 涂冬波, 蔡艳, 戴海琦, 丁树良 . (2010).

一种多级评分的认知诊断模型: P-DINA 模型的开发

心理学报, 42(10), 1011-1020.]

[本文引用: 1]

Tu D. B., Cai Y., Dai H. Q., & Ding S. L . (2012).

A new multiple-strategies cognitive diagnosis model: The MSCD method

Acta Psychologica Sinica, 44(11), 1547-1553.

[本文引用: 1]

[ 涂冬波, 蔡艳, 戴海琦, 丁树良 . (2012).

一种多策略认知诊断方法: MSCD方法的开发

心理学报, 44(11), 1547-1553.]

[本文引用: 1]

Tu D., Zheng C., Cai Y., Gao X., & Wang D . (2017).

A polytomous model of cognitive diagnostic assessment for graded data

International Journal of Testing, 18(3), 231-252.

[本文引用: 1]

Tutz G . (1997).

Sequential models for ordered responses

In Handbook of modern item response theory(pp. 139-152). Springer, New York, NY.

[本文引用: 1]

van Der Ark L. A . (2001).

Relationships and properties of polytomous item response theory models

Applied Psychological Measurement, 25(3), 273-282.

[本文引用: 1]

von Davier M . (2008).

A general diagnostic model applied to language testing data

British Journal of Mathematical and Statistical Psychology, 61(2), 287-307.

[本文引用: 3]

/


版权所有 © 《心理学报》编辑部
地址:北京市朝阳区林萃路16号院 
邮编:100101 
电话:010-64850861 
E-mail:xuebao@psych.ac.cn
备案编号:京ICP备10049795号-1 京公网安备110402500018号

本系统由北京玛格泰克科技发展有限公司设计开发