不定长认知诊断计算机化自适应测验终止规则研究

2014-01-18艾国金甘登文丁树良熊建华

江西师范大学学报（自然科学版） 2014年5期

艾国金，甘登文，丁树良，熊建华

(江西师范大学计算机信息工程学院，江西南昌330022)

0 前言

教育认知诊断由于可以为家长、老师和学生提供诊断信息，为因材施教提供参考和指导，因而备受国内外研究者和应用者的青睐.认知诊断计算机化自适应测验(cognitive diagnosis computerized adaptive testing，CD_CAT)运用能够体现“因人施教、量体裁衣”的CD_CAT选题策略和终止规则，根据被试当前的状态自适应匹配项目进行测验，获得被试对项目的反应，通过反应快速、准确地诊断出被试对测验所涉及属性的掌握情况［1］.近些年来，国内外对CD_CAT的研究越来越多，也越来越深入，与传统CAT不同的是目前CD_CAT中还没有找到类似Fisher信息量指标衡量测量误差，因此认知诊断CAT通常采用施测起来较为方便的定长CAT的形式作为其终止规则或者采用其他指标作为不定长的终止规则.

目前对不定长CD_CAT终止规则的研究并不多，如C.Tatsuoka［2］建议如果被试的后验概率达到0.8以上，测验终止;Cheng Ying［3］则建议当后验的SHE值或邻近SHE值的变化足够小时，或邻近2次后验KL距离足够小时，测验终止;C.L.Hsu等［4］通过大量实验提出当最大潜在模式后验概率大于某个预定的值(如0.7)或当最大潜在模式后验概率大于某个预定的值(如0.7)且第2大潜在模式后验概率小于某个预定值(如0.1)时，测验终止;郭磊等［5］则认为当邻近后验概率之差等于某个足够小的值或属性标准误之差足够小时，测验终止.以上方法通过模拟实验都获得了较好的效果.不定长CD_CAT至少在用题量方面可能比定长情形要节省一点，本文讨论CD_CAT的新的终止规则.

1 不定长CD_CAT终止规则

1.1 模型介绍

DINA 模型(deterministic inputs，noisy and gatemodel)表达式为

其中αi为被试i的知识状态描述被试i是否掌握项目j所考察的所有属性.若ηij=1，说明被试i掌握了项目j所考察的全部属性;若ηij=0，则说明被试i对项目j所考察的属性至少有1个未掌握，qjk为项目j所考察的属性分量，其值为0或1.若qjk=1说明项目j考察了第k个属性;若qjk=0则说明项目j未考察第k个属性.

sj=P(Xij=0|ηij=1)表示被试i在掌握了项目j所考察的全部属性的情况下，答错项目j的概率，通常称为失误参数，gj=P(Xij=1|ηij=0)表示被试i在未全部掌握项目j所考察所有属性的情况下，答对项目j的概率，通常称为猜测参数.

1.2 选题策略和知识状态估计方法

对各种不同终止规则本文均采用尚志勇等［6］提出的按属性模式分层选题策略作为模拟试验的CD_CAT选题策略，利用MAP方法估计被试的知识状态，即将在作答模式Xi已知的条件下先计算被试各种可能的知识状态对应的后验概率分布，然后将具有最大后验概率对应的知识状态作为被试知识状态的估计值，公式为

1.3 不定长终止规则

1.3.1 Hsu等方法当被试属于某个知识状态的最大后验概率P1st大于某个预定的值(如0.7)并且第2大后验概率P2nd小于某个预定值(如0.1)时，测验终止，并给出了第2大后验概率的计算公式［4］:

其中K为考察属性个数，通常d根据需要取值，Hsu等在模拟实验中d取0，0.25，0.5和0.75.

1.3.2 邻近后验概率之差法邻近后验概率之差法(difference of the adjacent posterior probabilitymethod，DAPP)［5］规定在测试过程中当出现从属于同一个知识状态的前后2次邻近的最大后验概率差的绝对值小于某个预设值时，测验终止.

1.3.3 3种新终止规则由于被试i每做一题，其不同潜在模式的后验概率就会更新一次.因此，若被试i做了t题，则不同潜在模式的后验概率累积的更新次数更多.对于好的选题策略，t越大最接近被试i真实知识状态的潜在模式后验概率值会越来越大，其他潜在模式的后验概率值则会越来越小.受Hsu等方法2和DAPP法的启发，本文给出几种新的终止规则.

方法1 被试i测验t题后观察其最大后验概率与第2大后验概率之差，若差值足够大，则说明被试i能够较好地区分最大后验概率值对应的知识状态和其他潜在知识状态.最大后验概率与第2大后验概率之差M大于某个预设值，计算公式为

方法2 若最大后验概率与最小后验概率之差值足够大，则说明被试i在作答最大后验概率对应的项目时，其答对的概率非常大.这也说明对被试i能够较好地区分最大后验概率值对应的知识状态和其他潜在知识状态.最大后验概率与最小后验概率之差N大于某个预设值，计算公式为

方法3 如果方法1与方法2的差的绝对值，即第2大后验概率与最小后验概率之差的绝对值足够小，说明此时最大后验概率已足够大，按照MAP估计方法也能说明被试i能够较好地区分与自己真值接近的知识状态和其他潜在知识状态.方法1与方法2的差的绝对值小于某个预设值ξ，计算公式为

1.4 评价指标

本文使用模式判准率、人均测验用时、人均测验用题数、单个被试最大用题数和最小用题数、χ2统计量和测试重叠率作为考察指标.模式判准率(patternmatch ratio，PMR)，即被试掌握模式并判准的人数占总人数的百分比，计算公式为:PMR=NP/N，其中NP指被试掌握模式并判对的人数，N指总人数;Time为N个被试开始测验到结束测验的总耗时，SItems为 N个被试总使用题数，人均测验用时:T=Time/N，人均测验用题数:S=SItems/N，单个被试最大用题数和最小用题数，即被试在不同终止规则下在模拟实验过程中测验需要的最大题数和最小题数;χ2统计量是用来反映项目被调用的均匀性，χ2指标越小说明整个题库的使用越均匀，计算公式为

其中Ajt为第j个项目模式下的第t个题目的曝光率，计算Ajt的公式为Ajt=nt/N，nt为第j个项目模式下的第t个题目的使用次数.测试重叠率(Rt)也是用来衡量安全性的指标，计算公式为

其中Li为第i个人测试长度.

2 CD_CAT模拟实验

为验证新方法，本文在Window 7系统，内存2 GB的环境下，采用Matlab8.0(R2012b)为工具进行Monte Carlo模拟实验.实验中共考察了6个属性，分为4种结构:线型、收敛型、发散型、无结构型［7］，如图 1 所示，依次为 L、C、D、U.

图1 4种属性层级结构图

被试人数设为1000人，对于每种类型的属性层级结构，有相应的项目类qj(qj为潜在Q阵的某一列)，每个项目类的属性相同但参数不同，每类模式的项目设为100，项目的失误参数和猜测参数均服从均匀分布U(0.05，0.25)，以此建立题库［8］.

实验中将定长L=30、Tatsuoka提出的方法(以下简称Tatsuoka法)、Hsu方法2(其中P1st＞0.95，d=0.25)作为参照终止规则，方法1中M ＞0.99，方法2中N ＞0.99，方法3中ξ=0.001.利用Monte Carlo模拟测验并重复30次求平均值的方法，得到4种结构下不同终止规则的模式判准率如表1所示，人均测验用时如表2所示，人均测验用题数如表3所示，单个被试最大用题数和最小用题数如表4、表5所示，各方法的χ2统计量、测试重叠率如表6.

表1 4种结构下不同终止规则的模式判准率

表2 4种结构下不同终止规则模拟实验人均测验用时单位:s

表3 4种结构下不同终止规则模拟实验人均测验用题数单位:个

表4 4种结构下不同终止规则模拟实验单个被试最大用题数单位:个

表5 4种结构下不同终止规则模拟实验单个被试最小用题数单位:个

表6 不同终止规则模拟实验χ2指标和测试重叠率指标

从表1中可以得出:定长终止规则得到的模式判准率要比不定长终止规则得到的稍好些，但是表现出的优势十分有限;在不定长终止规则中方法1、方法2和方法3要比Tatsuoka法和Hsu方法好，而方法1和方法2在不同属性层级结构下其模式判准率表现也各有优势.从表2、表3中可以看出:不定长终止规则的人均测验用时和人均测验用题数表现要优于定长终止规则，方法3的表现又优于其他终止规则;从表4、表5中可以看出:不同终止规则在单个被试最大用题数上的表现几乎相当，在单个被试最小用题数上，不定长终止规则要优于定长终止规则.从表6可以看出不定长终止规则χ2指标和Rt指标都优于定长终止规则，结合前5个指标，在小幅度降低模式判准率的前提下，方法3的表现要优于其他终止规则.考虑到CD_CAT要实现“快速、准确、安全”测验这个特点，综合表1～表6可以得出方法1、方法2、方法3要优于其他方法.

虽然方法1、方法2和方法3在上述5个指标上的表现都不错，但在不同指标上的优势却不尽相同.新方法只讨论了在DINA模型下的表现情况，如果改成其他模型新方法［9－11］是否可用.另外能否开发一个或多个不定长终止规则在上述7个指标上的表现都为最佳，这些都有待在未来研究中进一步探索.

［1］漆书青，戴海琦，丁树良.现代教育与心理测量学原理［M］.北京:高等教育出版社，2002.

［2］Tatsuoka C.Data analyticmethods for latent partially ordered classificationmodels［J］.Applied Statistics，2002，51(3):337－350.

［3］Cheng Ying.Computerized adaptive testing:New developments and applications［D］.Urbana－Champaign:University ofIllinois，2008.

［4］Hsu C L，Wang W C，Chen S Y.Variable－length computerized adaptive testing based on cognitive diagnosismodels［J］.Applied Psychological Measurement，2014，4:6－7.

［5］郭磊，边玉芳.认知诊断计算机化自适应测验变长终止规则的研究［C］//心理学与创新能力提升——第十六届全国心理学学术会议论文集，2013.

［6］尚志勇，丁树良.认知诊断自适应测验选题策略探新［J］.江西师范大学学报:自然科学版，2011，35(4):418－421.

［7］Leighton J P，Gierl M，Hunka S M.The attribute hierarchymethod for cognitive assessment:a variation on Tatsuoka’s rule－space approach ［J］.Journal of Educational Measurement，2004，41(3):205－236.

［8］唐小娟，丁树良，毛萌萌，等.基于属性层级结构的认知诊断测验的组卷［J］.心理学探新，2013，33(3):252－259.

［9］丁树良，罗芬，汪文义.多级评分认知诊断测验蓝图的设计——独立型和收敛型结构［J］.江西师范大学学报:自然科学版，2014，38(2):265－269.

［10］丁树良，罗芬，汪文义.多级评分认知诊断测验蓝图的设计——根树型结构［J］.江西师范大学学报:自然科学版，2014，38(2):111－118.

［11］艾国金，甘登文，丁树良.计算机化自适度认知诊断测验按模式分层选题策略［J］.江西师范大学学报:自然科学版，2014，38(3):270－273.