APP下载

CAT分层终止规则探究

2014-01-18丁树良熊建华

关键词:信息量题库测验

胡 姗,丁树良,程 艳,熊建华

(江西师范大学计算机信息工程学院,江西南昌330022)

0 引言

计算机自适应测验(computerized adaptive test,CAT)是应用项目反应理论(item response theory,IRT)建立题库,并由计算机根据被试能力水平自动选择测试题,最终对被试能力做出估计的一种新型测验方法.它最大的特点是“量体裁衣”,即根据被试的能力从题库中选择难度与能力相匹配的试题施测,获得学生的最大信息,保证能力高的学生不会做到太容易的题,能力低的学生不会做到太难的题.CAT的实施必须解决以下4个方面的问题:(i)题库建设;(ii)选题策略;(iii)参数估计;(iv)测试终止规则.目前CAT常用的选题策略是Lord提出的最大信息量选题法,实施这种选题策略会使区分高的项目曝光率过高,而区分度过低的项目则被搁置或极少使用.这种方法在测验效率方面虽然优点突出(只需较少量题即可测出能力),但在题库安全性方面的缺陷也比较明显.针对Lord选题策略的不足,研究者们提出了按 a分层法[1]、按 b分块按 a层法[2]和按 c分层法[3]等方法,相关文献均称这些选题策略能较好的增强CAT的安全性.

CAT的终止规则分为定长和不定长.定长是当施测项目数累加到预设值时即终止测试,这样就违背了自适应的初衷.不定长则是按照测量标准误差落入预设范围内即终止测试.由于不同项目所含信息量不同,因此能力不同的被试完成测验所需施测的项目及项目数也有所不同,于是测验的长度就会随着被试的变化而变化,从而更好地体现出了CAT“因人施测”这个特点,因此不定长CAT终止规则得到了研究者们的推崇和青睐.

采用按a分层法、按b分块按a层法和按c分层法等方法选题策略后又产生了一个新的问题:分层终止规则如何制定.

要解决各层信息量分配问题,先考察CAT中测验信息量的计算方法,用单维3参数Logistic模型(3PLM),Fisher信息量相当于抽样标准误平方(即方差)的倒数[4],令 Kj(θ)={cj+exp[Daj(θ-bj)]·

其中 D 为量表因子,通常取为 1.7;aj、bj、cj分别为3PLM中题目j的区分度参数、难度参数和猜测参数;θ为被试在CAT测验中的当前的估计能力;Ij(θ)即能力为θ的被试在题目j上具有的信息量.

目前涉及分层终止规则的分配规则不多见,主要有比较(1 ∶1 ∶1 ∶1)、(1 ∶2 ∶3 ∶4)和(4 ∶3 ∶2 ∶1)3 种信息量分层比例,研究发现(1 ∶2 ∶3 ∶4)较好[5],王茜娟等采用此方法对按c-分层不定长CAT做出了研究[1].有人认为各层信息量之比为I1∶I2∶… ∶Ik=12∶22∶… ∶k2的效果较理想[6-7].朱隆尹等[8]给出了3PLM下按a分层不定长CAT终止规则的2个新方案:

1 新的分层终止规则

张华华等[2]对各层信息量的比例做出讨论,分别为平均、递增、递减,并认为递增的方式较好.通过对上述终止规则的比较及实验,发现递增的分层确实相对效果更好,而且做实验得出1∶3∶5∶7的分层的方式比1∶2∶3 ∶4的分层效果好,文献[5-6]中其实也是扩大分层之间的比例,文献[8]中也是对比例进行调节.但是并不是越大越好,通过对不同比例的方案进行大量对比试验,得出下面2种k层信息量分配新方案表现效果更好,具体公式为

本文把新的终止规则应用到不同分层中,检验实施的可行性.

2 实验模拟

2.1 模拟生成被试

模拟生成一批随机数,其数量为N,数值均服从标准正态分布,记为:θ~N(0,1),其中N为被试总人数,本文均设定N=1000;θ为被试的能力真值.

2.2 模拟生成题库

用a、b、c,分别表示3PLM中的区分度参数、难度参数和猜测度参数.若a服从对数正态分布,且0.2≤a≤2.5,记为lna~N(0,1)∧a∈[0.2,2.5];a服从0.2到2.5的均匀分布,记为 a~U(0.2,2.5);b服从标准正态分布,且-3≤b≤3,记为b~N(0,1)∧b∈[-3,3];b服从-3~3的均匀分布,记为b~U(-3,3);猜测参数c均服从α为5,β为17的贝塔分布,记为c~Beta(5,17).模拟生成包含a、b、c 3等参数的4个题库,依次为题库1、题库2、题库3、题库4,题量均为m=1000,且c~Beta(5,17),其中:① 题库 1 中a~U(0.2,2.5),b~U(-3,3);② 题库2 中 a~U(0.2,2.5),b~N(0,1)∧b∈[-3,3];③ 题库3 中 lna~N(0,1)∧a∈[0.2,2.5],b~U(-3,3);④ 题库 4 中lna~N(0,1)∧a ∈[0.2,2.5],b~N(0,1)∧b∈[-3,3].

2.3 模拟被试作答

根据当前所选题目j的参数和被试i的能力真值 θi,计算其答对概率 Pij(θ),其中,Pij(θ)的计算公式因为模型的不同而有所不同,如使用3PLM时,其值可由下列公式算得:

其中D=1.7,区分度aj、难度bj和猜测度cj均为已知.同时模拟生成一个服从0到1均匀分布的随机数 r,记为r~U(0,1).当r≤Pij(θ),则认为被试正确作答题目j,得1分;否则得0分.

2.4 施测过程

施测过程分为2个阶段:能力粗估阶段,从题库中随机抽取3道题让被试作答,根据被试的作答反应,使用EAP方法估计,得到被试的能力初值;精确施测阶段,根据被试的能力初值,分别使用按a分层法和按b分块a分层法选题,再根据被试的作答反应使用EAP方法重估被试的能力值,再选题,如此反复,直至满足测验的终止规则.其中,测验中被试的得分根据其作答反应获取.

2.5 评价指标

本文采用7个评价指标[9-10]评价终止规则的优劣:能力估计准确性(Re)、选题策略稳定性(Se)、项目调用均匀性(De)、人均用题数(Nf)、测验效率(Eff)、卡方统计量(χ2)、测验重叠率(Rt),其中 Eff越大越好外,其他均为越小越好.

2.6 实验结果分析

实验1题库均按a分层,分为4层,采用能力值与难度最匹配法选题,测验信息量取16,最大答题数为60,每个实验重复30次.所有CAT模拟实验均在Matlab 7.1下进行.

根据下列4个表的实验数据显示,新的终止规则,除了能力估计准确性(Re)和选题策略稳定性(Se)2个指标与其他方案相当外,其他指标均远优于其他方案,文献[6-7]方案、文献[8]方案总体效果相当.

表1 a~U(0.2,2.5),b~U(-3,3),c~Beta(5,17)实验结果

表2 a~U(0.2,2.5),b~N(0,1)∧b∈[-3,3〛,c~Beta(5,17)实验结果

表3 lna~N(0,1)∧a∈[0.2,2.5],b~U[-3,3〛,c~Beta(5,17)实验结果

表4 lna~N(0,1)∧a∈[0.2,2.5],b~N(0,1)∧b∈[-3,3〛,c~Beta(5,17)实验结果

实验2 题库均按b分块按a分层,分为4层,采用能力值与难度最匹配法选题,测验信息量取16,最大答题数为60,每个实验重复30次.所有CAT模拟实验均在Matlab 7.1下进行.

由表5及表7知新方案1及2除了能力估计准确性(Re)和选题策略稳定性(Se)2个指标与其他方案相当外,其他指标均远优于其他方案.由表6及表8知新方案与文献[8]方案相当,略优于文献[8]方案.综上所述,新方案可行,且新方案1及2表现相当.

表5 a~U(0.2,2.5),b~U(-3,3);c~Beta(5,17)实验结果

表6 a~U(0.2,2.5),b~N(0,1)∧b∈[-3,3],c~Beta(5,17)实验结果

表7 lna~N(0,1)∧a∈[0.2,2.5],b~U(-3,3),c~Beta(5,17)实验结果

表8 lna~N(0,1)∧a∈[0.2,2.5],b~N(0,1)∧b∈[-3,3],c~Beta(5,17)实验结果

3 小结与展望

本文综述分层化方法在安全性等方面的优越性以后,陈述了几种分层退出方案,提出了在0-1评分3PLM下的按a分层和按b分块a分层方法的CAT中新的分层终止规则.通过2个实验对比,得出新的分层退出方案和已有方案相比,在人均用题数、测验效率、卡方统计量、测验重叠率等方面,都有优势,特别是与b分块a分层相结合以后,除了Re和Se相当外,其他指标都比和a分层结合表现更好,对于提高题库的安全性和测验效率方面有更好的表现.新的分层退出方案如何推广到多级评分模型下,值得探讨.由于不定长的分层退出规则还处于探索阶段,相关研究还比较薄弱,是否还有更好的分层退出方法,值得研究.

[1] Chang Huahua,Ying Zhiliang.A-stratifiedmultistage computerized adaptive testing[J].Applied Psychological Measurement,1999,25:211-222.

[2]Chang Huahua,Qian J,Ying Zhiliang.A-stratifiedmultistage CAT with b-blocking [J].Applied Psychological Measurement,2001,25:333-341.

[3]王茜娟,丁树良,谭渊.按c-分层不定长CAT的研究[J].江西师范大学学报:自然科学版,2005,29(3):227-230.

[4]漆书青,戴海琦,丁树良.现代教育与心理测量学原理[M].北京:高等教育出版社,2002.

[5]文剑冰,侯杰泰.A-stratified方法在不定长CAT中的应用[R].第五届华人社会心理与教育学术研讨会,2001.

[6]陈德枝.Samejima等级反应模型下CAT选题策略比较研究[D].南昌:江西师范大学,2004.

[7]戴海琦,陈德枝,丁树良,等.多级评分题计算机自适应测验选题策略比较[J].心理学报,2006,38(5):778-783.

[8]朱隆尹,丁树良,王茜娟.不定长CAT区分度分层终止规则研究[J].心理学探新,2008,28(4):80-84.

[9]程小扬,丁树良,朱隆尹,等.等级评分模型下的最大信息量分层选题策略[J].江西师范大学学报:自然科学版,2012,36(5):446-451.

[10]刘珍,丁树良,林海菁.基于GPCM的CAT选题策略比较 [J].心理学报,2008,40(5):618-625.

猜你喜欢

信息量题库测验
“勾股定理”优题库
“轴对称”优题库
“轴对称”优题库
“整式的乘法与因式分解”优题库
基于GIS和信息量法的四川峨眉山市地质灾害易发性定量评价
基于信息理论的交通信息量度量
《新年大测验》大揭榜
两个处理t测验与F测验的数学关系
如何增加地方电视台时政新闻的信息量
你知道吗?