CAT分层终止规则探究

2014-01-18丁树良熊建华

江西师范大学学报（自然科学版） 2014年5期

胡姗，丁树良，程艳，熊建华

(江西师范大学计算机信息工程学院，江西南昌330022)

0 引言

计算机自适应测验(computerized adaptive test，CAT)是应用项目反应理论(item response theory，IRT)建立题库，并由计算机根据被试能力水平自动选择测试题，最终对被试能力做出估计的一种新型测验方法.它最大的特点是“量体裁衣”，即根据被试的能力从题库中选择难度与能力相匹配的试题施测，获得学生的最大信息，保证能力高的学生不会做到太容易的题，能力低的学生不会做到太难的题.CAT的实施必须解决以下4个方面的问题:(i)题库建设;(ii)选题策略;(iii)参数估计;(iv)测试终止规则.目前CAT常用的选题策略是Lord提出的最大信息量选题法，实施这种选题策略会使区分高的项目曝光率过高，而区分度过低的项目则被搁置或极少使用.这种方法在测验效率方面虽然优点突出(只需较少量题即可测出能力)，但在题库安全性方面的缺陷也比较明显.针对Lord选题策略的不足，研究者们提出了按 a分层法［1］、按 b分块按 a层法［2］和按 c分层法［3］等方法，相关文献均称这些选题策略能较好的增强CAT的安全性.

CAT的终止规则分为定长和不定长.定长是当施测项目数累加到预设值时即终止测试，这样就违背了自适应的初衷.不定长则是按照测量标准误差落入预设范围内即终止测试.由于不同项目所含信息量不同，因此能力不同的被试完成测验所需施测的项目及项目数也有所不同，于是测验的长度就会随着被试的变化而变化，从而更好地体现出了CAT“因人施测”这个特点，因此不定长CAT终止规则得到了研究者们的推崇和青睐.

采用按a分层法、按b分块按a层法和按c分层法等方法选题策略后又产生了一个新的问题:分层终止规则如何制定.

要解决各层信息量分配问题，先考察CAT中测验信息量的计算方法，用单维3参数Logistic模型(3PLM)，Fisher信息量相当于抽样标准误平方(即方差)的倒数［4］，令 Kj(θ)={cj+exp［Daj(θ－bj)］·

其中 D 为量表因子，通常取为 1.7;aj、bj、cj分别为3PLM中题目j的区分度参数、难度参数和猜测参数;θ为被试在CAT测验中的当前的估计能力;Ij(θ)即能力为θ的被试在题目j上具有的信息量.

目前涉及分层终止规则的分配规则不多见，主要有比较(1 ∶1 ∶1 ∶1)、(1 ∶2 ∶3 ∶4)和(4 ∶3 ∶2 ∶1)3 种信息量分层比例，研究发现(1 ∶2 ∶3 ∶4)较好［5］，王茜娟等采用此方法对按c－分层不定长CAT做出了研究［1］.有人认为各层信息量之比为I1∶I2∶… ∶Ik=12∶22∶… ∶k2的效果较理想［6－7］.朱隆尹等［8］给出了3PLM下按a分层不定长CAT终止规则的2个新方案:

1 新的分层终止规则

张华华等［2］对各层信息量的比例做出讨论，分别为平均、递增、递减，并认为递增的方式较好.通过对上述终止规则的比较及实验，发现递增的分层确实相对效果更好，而且做实验得出1∶3∶5∶7的分层的方式比1∶2∶3 ∶4的分层效果好，文献［5－6］中其实也是扩大分层之间的比例，文献［8］中也是对比例进行调节.但是并不是越大越好，通过对不同比例的方案进行大量对比试验，得出下面2种k层信息量分配新方案表现效果更好，具体公式为

本文把新的终止规则应用到不同分层中，检验实施的可行性.

2 实验模拟

2.1 模拟生成被试

模拟生成一批随机数，其数量为N，数值均服从标准正态分布，记为:θ～N(0，1)，其中N为被试总人数，本文均设定N=1000;θ为被试的能力真值.

2.2 模拟生成题库

用a、b、c，分别表示3PLM中的区分度参数、难度参数和猜测度参数.若a服从对数正态分布，且0.2≤a≤2.5，记为lna～N(0，1)∧a∈［0.2，2.5］;a服从0.2到2.5的均匀分布，记为 a～U(0.2，2.5);b服从标准正态分布，且－3≤b≤3，记为b～N(0，1)∧b∈［－3，3］;b服从－3～3的均匀分布，记为b～U(－3，3);猜测参数c均服从α为5，β为17的贝塔分布，记为c～Beta(5，17).模拟生成包含a、b、c 3等参数的4个题库，依次为题库1、题库2、题库3、题库4，题量均为m=1000，且c～Beta(5，17)，其中:① 题库 1 中a～U(0.2，2.5)，b～U(－3，3);② 题库2 中 a～U(0.2，2.5)，b～N(0，1)∧b∈［－3，3］;③ 题库3 中 lna～N(0，1)∧a∈［0.2，2.5］，b～U(－3，3);④ 题库 4 中lna～N(0，1)∧a ∈［0.2，2.5］，b～N(0，1)∧b∈［－3，3］.

2.3 模拟被试作答

根据当前所选题目j的参数和被试i的能力真值 θi，计算其答对概率 Pij(θ)，其中，Pij(θ)的计算公式因为模型的不同而有所不同，如使用3PLM时，其值可由下列公式算得:

其中D=1.7，区分度aj、难度bj和猜测度cj均为已知.同时模拟生成一个服从0到1均匀分布的随机数 r，记为r～U(0，1).当r≤Pij(θ)，则认为被试正确作答题目j，得1分;否则得0分.

2.4 施测过程

施测过程分为2个阶段:能力粗估阶段，从题库中随机抽取3道题让被试作答，根据被试的作答反应，使用EAP方法估计，得到被试的能力初值;精确施测阶段，根据被试的能力初值，分别使用按a分层法和按b分块a分层法选题，再根据被试的作答反应使用EAP方法重估被试的能力值，再选题，如此反复，直至满足测验的终止规则.其中，测验中被试的得分根据其作答反应获取.

2.5 评价指标

本文采用7个评价指标［9－10］评价终止规则的优劣:能力估计准确性(Re)、选题策略稳定性(Se)、项目调用均匀性(De)、人均用题数(Nf)、测验效率(Eff)、卡方统计量(χ2)、测验重叠率(Rt)，其中 Eff越大越好外，其他均为越小越好.

2.6 实验结果分析

实验1题库均按a分层，分为4层，采用能力值与难度最匹配法选题，测验信息量取16，最大答题数为60，每个实验重复30次.所有CAT模拟实验均在Matlab 7.1下进行.

根据下列4个表的实验数据显示，新的终止规则，除了能力估计准确性(Re)和选题策略稳定性(Se)2个指标与其他方案相当外，其他指标均远优于其他方案，文献［6－7］方案、文献［8］方案总体效果相当.

表1 a～U(0.2，2.5)，b～U(－3，3)，c～Beta(5，17)实验结果

表2 a～U(0.2，2.5)，b～N(0，1)∧b∈［－3，3〛，c～Beta(5，17)实验结果

表3 lna～N(0，1)∧a∈［0.2，2.5］，b～U［－3，3〛，c～Beta(5，17)实验结果

表4 lna～N(0，1)∧a∈［0.2，2.5］，b～N(0，1)∧b∈［－3，3〛，c～Beta(5，17)实验结果

实验2 题库均按b分块按a分层，分为4层，采用能力值与难度最匹配法选题，测验信息量取16，最大答题数为60，每个实验重复30次.所有CAT模拟实验均在Matlab 7.1下进行.

由表5及表7知新方案1及2除了能力估计准确性(Re)和选题策略稳定性(Se)2个指标与其他方案相当外，其他指标均远优于其他方案.由表6及表8知新方案与文献［8］方案相当，略优于文献［8］方案.综上所述，新方案可行，且新方案1及2表现相当.

表5 a～U(0.2，2.5)，b～U(－3，3);c～Beta(5，17)实验结果

表6 a～U(0.2，2.5)，b～N(0，1)∧b∈［－3，3］，c～Beta(5，17)实验结果

表7 lna～N(0，1)∧a∈［0.2，2.5］，b～U(－3，3)，c～Beta(5，17)实验结果

表8 lna～N(0，1)∧a∈［0.2，2.5］，b～N(0，1)∧b∈［－3，3］，c～Beta(5，17)实验结果

3 小结与展望

本文综述分层化方法在安全性等方面的优越性以后，陈述了几种分层退出方案，提出了在0－1评分3PLM下的按a分层和按b分块a分层方法的CAT中新的分层终止规则.通过2个实验对比，得出新的分层退出方案和已有方案相比，在人均用题数、测验效率、卡方统计量、测验重叠率等方面，都有优势，特别是与b分块a分层相结合以后，除了Re和Se相当外，其他指标都比和a分层结合表现更好，对于提高题库的安全性和测验效率方面有更好的表现.新的分层退出方案如何推广到多级评分模型下，值得探讨.由于不定长的分层退出规则还处于探索阶段，相关研究还比较薄弱，是否还有更好的分层退出方法，值得研究.

［1］ Chang Huahua，Ying Zhiliang.A－stratifiedmultistage computerized adaptive testing［J］.Applied Psychological Measurement，1999，25:211－222.

［2］Chang Huahua，Qian J，Ying Zhiliang.A－stratifiedmultistage CAT with b－blocking ［J］.Applied Psychological Measurement，2001，25:333－341.

［3］王茜娟，丁树良，谭渊.按c－分层不定长CAT的研究［J］.江西师范大学学报:自然科学版，2005，29(3):227－230.

［4］漆书青，戴海琦，丁树良.现代教育与心理测量学原理［M］.北京:高等教育出版社，2002.

［5］文剑冰，侯杰泰.A－stratified方法在不定长CAT中的应用［R］.第五届华人社会心理与教育学术研讨会，2001.

［6］陈德枝.Samejima等级反应模型下CAT选题策略比较研究［D］.南昌:江西师范大学，2004.

［7］戴海琦，陈德枝，丁树良，等.多级评分题计算机自适应测验选题策略比较［J］.心理学报，2006，38(5):778－783.

［8］朱隆尹，丁树良，王茜娟.不定长CAT区分度分层终止规则研究［J］.心理学探新，2008，28(4):80－84.

［9］程小扬，丁树良，朱隆尹，等.等级评分模型下的最大信息量分层选题策略［J］.江西师范大学学报:自然科学版，2012，36(5):446－451.

［10］刘珍，丁树良，林海菁.基于GPCM的CAT选题策略比较［J］.心理学报，2008，40(5):618－625.