CAT分层终止规则探究
2014-01-18丁树良熊建华
胡 姗,丁树良,程 艳,熊建华
(江西师范大学计算机信息工程学院,江西南昌330022)
0 引言
计算机自适应测验(computerized adaptive test,CAT)是应用项目反应理论(item response theory,IRT)建立题库,并由计算机根据被试能力水平自动选择测试题,最终对被试能力做出估计的一种新型测验方法.它最大的特点是“量体裁衣”,即根据被试的能力从题库中选择难度与能力相匹配的试题施测,获得学生的最大信息,保证能力高的学生不会做到太容易的题,能力低的学生不会做到太难的题.CAT的实施必须解决以下4个方面的问题:(i)题库建设;(ii)选题策略;(iii)参数估计;(iv)测试终止规则.目前CAT常用的选题策略是Lord提出的最大信息量选题法,实施这种选题策略会使区分高的项目曝光率过高,而区分度过低的项目则被搁置或极少使用.这种方法在测验效率方面虽然优点突出(只需较少量题即可测出能力),但在题库安全性方面的缺陷也比较明显.针对Lord选题策略的不足,研究者们提出了按 a分层法[1]、按 b分块按 a层法[2]和按 c分层法[3]等方法,相关文献均称这些选题策略能较好的增强CAT的安全性.
CAT的终止规则分为定长和不定长.定长是当施测项目数累加到预设值时即终止测试,这样就违背了自适应的初衷.不定长则是按照测量标准误差落入预设范围内即终止测试.由于不同项目所含信息量不同,因此能力不同的被试完成测验所需施测的项目及项目数也有所不同,于是测验的长度就会随着被试的变化而变化,从而更好地体现出了CAT“因人施测”这个特点,因此不定长CAT终止规则得到了研究者们的推崇和青睐.
采用按a分层法、按b分块按a层法和按c分层法等方法选题策略后又产生了一个新的问题:分层终止规则如何制定.
要解决各层信息量分配问题,先考察CAT中测验信息量的计算方法,用单维3参数Logistic模型(3PLM),Fisher信息量相当于抽样标准误平方(即方差)的倒数[4],令 Kj(θ)={cj+exp[Daj(θ-bj)]·
其中 D 为量表因子,通常取为 1.7;aj、bj、cj分别为3PLM中题目j的区分度参数、难度参数和猜测参数;θ为被试在CAT测验中的当前的估计能力;Ij(θ)即能力为θ的被试在题目j上具有的信息量.
目前涉及分层终止规则的分配规则不多见,主要有比较(1 ∶1 ∶1 ∶1)、(1 ∶2 ∶3 ∶4)和(4 ∶3 ∶2 ∶1)3 种信息量分层比例,研究发现(1 ∶2 ∶3 ∶4)较好[5],王茜娟等采用此方法对按c-分层不定长CAT做出了研究[1].有人认为各层信息量之比为I1∶I2∶… ∶Ik=12∶22∶… ∶k2的效果较理想[6-7].朱隆尹等[8]给出了3PLM下按a分层不定长CAT终止规则的2个新方案:
1 新的分层终止规则
张华华等[2]对各层信息量的比例做出讨论,分别为平均、递增、递减,并认为递增的方式较好.通过对上述终止规则的比较及实验,发现递增的分层确实相对效果更好,而且做实验得出1∶3∶5∶7的分层的方式比1∶2∶3 ∶4的分层效果好,文献[5-6]中其实也是扩大分层之间的比例,文献[8]中也是对比例进行调节.但是并不是越大越好,通过对不同比例的方案进行大量对比试验,得出下面2种k层信息量分配新方案表现效果更好,具体公式为
本文把新的终止规则应用到不同分层中,检验实施的可行性.
2 实验模拟
2.1 模拟生成被试
模拟生成一批随机数,其数量为N,数值均服从标准正态分布,记为:θ~N(0,1),其中N为被试总人数,本文均设定N=1000;θ为被试的能力真值.
2.2 模拟生成题库
用a、b、c,分别表示3PLM中的区分度参数、难度参数和猜测度参数.若a服从对数正态分布,且0.2≤a≤2.5,记为lna~N(0,1)∧a∈[0.2,2.5];a服从0.2到2.5的均匀分布,记为 a~U(0.2,2.5);b服从标准正态分布,且-3≤b≤3,记为b~N(0,1)∧b∈[-3,3];b服从-3~3的均匀分布,记为b~U(-3,3);猜测参数c均服从α为5,β为17的贝塔分布,记为c~Beta(5,17).模拟生成包含a、b、c 3等参数的4个题库,依次为题库1、题库2、题库3、题库4,题量均为m=1000,且c~Beta(5,17),其中:① 题库 1 中a~U(0.2,2.5),b~U(-3,3);② 题库2 中 a~U(0.2,2.5),b~N(0,1)∧b∈[-3,3];③ 题库3 中 lna~N(0,1)∧a∈[0.2,2.5],b~U(-3,3);④ 题库 4 中lna~N(0,1)∧a ∈[0.2,2.5],b~N(0,1)∧b∈[-3,3].
2.3 模拟被试作答
根据当前所选题目j的参数和被试i的能力真值 θi,计算其答对概率 Pij(θ),其中,Pij(θ)的计算公式因为模型的不同而有所不同,如使用3PLM时,其值可由下列公式算得:
其中D=1.7,区分度aj、难度bj和猜测度cj均为已知.同时模拟生成一个服从0到1均匀分布的随机数 r,记为r~U(0,1).当r≤Pij(θ),则认为被试正确作答题目j,得1分;否则得0分.
2.4 施测过程
施测过程分为2个阶段:能力粗估阶段,从题库中随机抽取3道题让被试作答,根据被试的作答反应,使用EAP方法估计,得到被试的能力初值;精确施测阶段,根据被试的能力初值,分别使用按a分层法和按b分块a分层法选题,再根据被试的作答反应使用EAP方法重估被试的能力值,再选题,如此反复,直至满足测验的终止规则.其中,测验中被试的得分根据其作答反应获取.
2.5 评价指标
本文采用7个评价指标[9-10]评价终止规则的优劣:能力估计准确性(Re)、选题策略稳定性(Se)、项目调用均匀性(De)、人均用题数(Nf)、测验效率(Eff)、卡方统计量(χ2)、测验重叠率(Rt),其中 Eff越大越好外,其他均为越小越好.
2.6 实验结果分析
实验1题库均按a分层,分为4层,采用能力值与难度最匹配法选题,测验信息量取16,最大答题数为60,每个实验重复30次.所有CAT模拟实验均在Matlab 7.1下进行.
根据下列4个表的实验数据显示,新的终止规则,除了能力估计准确性(Re)和选题策略稳定性(Se)2个指标与其他方案相当外,其他指标均远优于其他方案,文献[6-7]方案、文献[8]方案总体效果相当.
表1 a~U(0.2,2.5),b~U(-3,3),c~Beta(5,17)实验结果
表2 a~U(0.2,2.5),b~N(0,1)∧b∈[-3,3〛,c~Beta(5,17)实验结果
表3 lna~N(0,1)∧a∈[0.2,2.5],b~U[-3,3〛,c~Beta(5,17)实验结果
表4 lna~N(0,1)∧a∈[0.2,2.5],b~N(0,1)∧b∈[-3,3〛,c~Beta(5,17)实验结果
实验2 题库均按b分块按a分层,分为4层,采用能力值与难度最匹配法选题,测验信息量取16,最大答题数为60,每个实验重复30次.所有CAT模拟实验均在Matlab 7.1下进行.
由表5及表7知新方案1及2除了能力估计准确性(Re)和选题策略稳定性(Se)2个指标与其他方案相当外,其他指标均远优于其他方案.由表6及表8知新方案与文献[8]方案相当,略优于文献[8]方案.综上所述,新方案可行,且新方案1及2表现相当.
表5 a~U(0.2,2.5),b~U(-3,3);c~Beta(5,17)实验结果
表6 a~U(0.2,2.5),b~N(0,1)∧b∈[-3,3],c~Beta(5,17)实验结果
表7 lna~N(0,1)∧a∈[0.2,2.5],b~U(-3,3),c~Beta(5,17)实验结果
表8 lna~N(0,1)∧a∈[0.2,2.5],b~N(0,1)∧b∈[-3,3],c~Beta(5,17)实验结果
3 小结与展望
本文综述分层化方法在安全性等方面的优越性以后,陈述了几种分层退出方案,提出了在0-1评分3PLM下的按a分层和按b分块a分层方法的CAT中新的分层终止规则.通过2个实验对比,得出新的分层退出方案和已有方案相比,在人均用题数、测验效率、卡方统计量、测验重叠率等方面,都有优势,特别是与b分块a分层相结合以后,除了Re和Se相当外,其他指标都比和a分层结合表现更好,对于提高题库的安全性和测验效率方面有更好的表现.新的分层退出方案如何推广到多级评分模型下,值得探讨.由于不定长的分层退出规则还处于探索阶段,相关研究还比较薄弱,是否还有更好的分层退出方法,值得研究.
[1] Chang Huahua,Ying Zhiliang.A-stratifiedmultistage computerized adaptive testing[J].Applied Psychological Measurement,1999,25:211-222.
[2]Chang Huahua,Qian J,Ying Zhiliang.A-stratifiedmultistage CAT with b-blocking [J].Applied Psychological Measurement,2001,25:333-341.
[3]王茜娟,丁树良,谭渊.按c-分层不定长CAT的研究[J].江西师范大学学报:自然科学版,2005,29(3):227-230.
[4]漆书青,戴海琦,丁树良.现代教育与心理测量学原理[M].北京:高等教育出版社,2002.
[5]文剑冰,侯杰泰.A-stratified方法在不定长CAT中的应用[R].第五届华人社会心理与教育学术研讨会,2001.
[6]陈德枝.Samejima等级反应模型下CAT选题策略比较研究[D].南昌:江西师范大学,2004.
[7]戴海琦,陈德枝,丁树良,等.多级评分题计算机自适应测验选题策略比较[J].心理学报,2006,38(5):778-783.
[8]朱隆尹,丁树良,王茜娟.不定长CAT区分度分层终止规则研究[J].心理学探新,2008,28(4):80-84.
[9]程小扬,丁树良,朱隆尹,等.等级评分模型下的最大信息量分层选题策略[J].江西师范大学学报:自然科学版,2012,36(5):446-451.
[10]刘珍,丁树良,林海菁.基于GPCM的CAT选题策略比较 [J].心理学报,2008,40(5):618-625.