基于随机交叉设计的试题计分误差来源及可靠性分析*

2014-03-02嵩王震蕾

台州学院学报 2014年1期

关键词：测验交叉题型

秦嵩王震蕾

（1.台州学院经贸管理学院，浙江台州 318000；2.杭州电子科技大学经济学院，浙江杭州 310018）

基于随机交叉设计的试题计分误差来源及可靠性分析*

秦嵩1王震蕾2

（1.台州学院经贸管理学院，浙江台州 318000；2.杭州电子科技大学经济学院，浙江杭州 310018）

概化理论在标准化参照系测验、非标准化测验、教师教学评价和人事测评等领域得到了广泛应用。通过对某高校运筹学试题进行随机交叉设计，探讨考试试题的计分误差来源和试题可靠性。研究表明，考生通过试题所获得的分数与掌握课程的真实水平之间的差异来自于考生本身掌握知识的水平、试题难易度以及考生和试题两者的交互效应。通过计算得出在不同题型下的变异分量估计值和试题可靠值，为测评试题的区分度和稳定性提供了一种工具。

随机交叉设计；计分误差；可靠性；试题

一、引言

教育领域的测验、企事业单位的人才选拔、绩效考核等的测验项目越来越多，试题是否能真正反映被试者能力或对某项知识的掌握水平，以及试题针对不同被试群体是否有一致的稳定性和可靠性的研究越来越备受关注。

1905年，比纳-西蒙量表的产生标志着科学标准化考试产生。1950年，美国学者古里科森出版《心理测验的理论》，第一次用公理化方法系统总结了标准化考试的原理和方法，出现了较为成熟的经典测验理论（CTT）。由于CTT体系存在对考生真实水平的判定过度依赖于考题样本，对考生能力估计的精度不恰当，题目难度参数与考生能力参数定义于不同量表，不利于改进测验并达到预期目标等缺陷，所以出现了讨论测量条件等考试外部效度的研究，并逐渐发展成概化理论［1］。克龙巴赫等人发表《概化理论：信度理论的丰富和发展》标志着概化理论的诞生［2］。1972年出版了第一部关于概化理论的权威专著《行为测量的可靠性：用于测验分数和剖面图的概化理论》［3］。随着研究水平及计算机技术的发展，概化理论应用范围越来越广泛，如标准化参照系测验、非标准化测验、教师教学评价和人事测评等领域。

我国学者如杨志明和张雷合著的《测评的概化理论及其应用》一书，较系统的阐述了该理论的概念以及不同实验设计情景研究。刘晓陵开展了基于课程标准的初中标准化数学成就测验的编制研究，利用多元概化理论对心理测量学特征进行鉴定，对测验的项目质量、效度和信度进行了分析［4］。毛翠云利用多元概化决策建立创业潜质胜任力脑象图优势特征测评模型，用于综合评价创业胜任力［5］。田金亭利用概化理论对基于同感评估技术的中学生创造力评价进行了测评，并得到总测验比单个测验能更好地测量学生的创造力水平，以及创造力具有特定领域化倾向［6］。国内学者大多将概化理论应用于中小学或高考、雅思等测验中，鲜有对高校某课程的试题质量和信度进行研究。本文以某高校运筹学课程为研究对象，来测评考生对于该门课程的掌握程度，并进一步利用概化理论比较不同试题类型下的考试结果的可靠性程度。

二、概化理论基本方法

概化理论是根据测量目的，选择测量侧面及

水平数，用样本观测值去估计真值，从而得到不同的测验信度，具体包括概化研究（G研究）和决策研究（D研究）。概化研究包括明确测量对象及其潜在的特质，确定影响测验值的因素（即测量侧面）及个数，设计测量对象和测量侧面之间的关系（交叉、嵌套等）以及因素之间的交互效应（变异分量值）；决策研究通过确定不同的概括全域，比较测验结果的估计精度（概化系数和可靠性指数）。

根据测量目标、测量侧面及其两者之间的关系，概化理论包括随机单面（多面）交叉设计、随机单面（多面）嵌套设计、多元概化理论研究等，本文主要探讨随机单面交叉设计研究。单面交叉设计指仅有一个测量侧面，且测量侧面和测量目标间具有交叉关系，侧面和目标都是随机取样的，总体和全域都是无限的测量设计。依据概化理论的研究步骤，随机单面交叉设计的步骤包括G和D研究。

（一）G研究及变异分量估计。假设被试者（测验者）为p和试题为i，p×i表示每个被试者作答每道试题，即为交叉，则G研究交叉设计的数学模型及变异分量的估计如下：

其中，μ为总均值，μp-μ为被试者效应，μi-μ为试题效应，Xpi-μp-μi+μ为残余效应（不能被模型解释的效应）。

由于被试p和试题i的随机性设计，可采用方差分析技术估计出各变异数分量值，见表1。

表1 随机单面交叉设计（p×i）各变异分量估计公式

（二）D研究及变异分量估计。D研究交叉设计的数学模型与G研究类似，一般地将被试者（测验者）和试题指标记为P和I，其变异分量的估计如下：

由于D研究的任务是根据决策的需要，利用G研究的结果，基于不同概括全域估计出测量精确度，以提供改进测量方法的建议，所以有必要引进相对误差（被试者在实测样本上观测分数的离均差与概括全域上全域分数的离均差之间的差值）和绝对误差（为被试观测分与全域分之差），前者关心被试者间的排位顺序，后者反映被试者的真实水平。

三、试题设计及数据搜集

以某高校的运筹学课程为研究对象，测验设计了判断题（10题）、单项选择题（6题）和填空题（10题）三种类型的试题，以此来测评学生对该门课程的掌握水平，通过不同题型的组合来评判试题测评的可靠性和精确性。测量目标为测评学生对运筹学课程理解及掌握水平层次，测量侧面为运筹学试题（包括三种类型），要求每位学生作答每道试题，即学生掌握水平和测试题目之间是交叉的。共有62名学生参加试题测验。

用三种题型分别来测评学生掌握水平，总共有7种组合：判断、选择、填空、判断+选择、判断+填空、选择+填空、判断+选择+填空。根据得到的得分矩阵可计算出不同题型组合情况下的得分均值，见表2。

表2 不同题型组合下的得分均值情况表

四、基于随机交叉设计的试题研究

（一）计分误差来源。由表2和表1，得到基于7种题型的单面交叉设计的各种变异分量的估计值，见表3。由G研究的估计值不难得到不同题型组合的效应或变异来源，即不同题型下学生获得分数与其实际知识掌握水平之间差异的来源。下面从不同角度来分析差异的来源。

1、从学生角度p来看，不同题型组合的分数差异由大到小顺序为填空（0.0255）＞选择+填空（0.0115）＞判断+填空（0.0074）＞判断+选择+填空（0.0057）＞判断+选择（0.0017）＞选择（0.0011）＞判断（0.0008），此顺序表明将学生最大限度的区分成不同水平的题型为填空题，其次为选择+填空，依变异估计值的顺序题型区分度逐次下降，以判断题区分度最小。

2、从试题题目i本身来看，区分学生掌握知识水平的效应依次为选择+填空（0.0529）＞填空（0.0515）＞判断+填空（0.0461）＞判断+选择+填空（0.0435）＞判断（0.0306）＞判断+选择（0.0232）＞选择（0.0037），此次序说明以选择+填空对学生分数的区分度最大，其次为填空，选择题区分度最小。

3、从学生和试题的交叉效应（不能被被试者和试题解释的其他效应）p×i来看，效应最大为填空题，最小为选择题。

表3 基于7种题型的运筹学试题的随机单面交叉设计的变异分量估计值

（二）误差及可靠性研究。上述G研究获得了考生计分与真实分数之间差异来源，下面通过计算不同题型下相对误差和绝对误差的值来衡量影响考生排位顺序的因素效应。因为考生主效应是测量目标，是考生真实水平的体现，所以考生主效应不被列入相对误差，而试题主效应仅是试题间的难度的反映，不能改变考生之间的排序，所以相对误差由考生和题目之间的交互效应组成；由于试题的难易直接影响考生的得分，所以绝对误差由试题主效应和试题与考生之间的交互效应组成。其中ni'为概括全域上题目样本的容量。

相对误差变异分量的估计公式：

此外依据克龙巴赫构建的概化系数ρ和Brennan与Kane（1977）定义的可靠性指数Φ（可靠性指数是测量目标本身的分数变异在全体分数变异中所占的比例）。来评判对于测评不同考生群体的试题的稳定性高低。概化系数ρ=σ2(p)/[σ2(p)+σ2(δ)]，可靠性指数Φ=σ2(p)/[σ2(p)+σ2( )]。利用公式（4）、（5）和概化系数及可靠性指数分别计算出此试题的相对误差、绝对误差及可靠性值，见表4。

表4 以随机单面交叉设计为基础的D研究结果

由表4可知，前三类题型组合的考生与试题之间的交互效应大于后几类题型组合的交互效应，交互效应、相对误差、绝对误差的变异均比较小，而概化系数和可靠性指数都比较大。此说明前三题型组合的测量误差都比较小，测量的信度比较高。

但是，不同题型组合的试题可靠性指数为40%以上的由大到小依次为填空＞选择+填空＞判断+选择+填空＞判断+填空，此结果说明填空题在所有类型的题型中对测评不同考生群体所体现的可靠性最强，依次为选择题和判断题，从另一个侧面反映选择题和判断题在测评考生时不够可靠，需要进一步的修正以提高此题型的试卷的可靠性。

五、小结

利用概化理论对某高校运筹学试题进行随机交叉设计，探讨了考试试题的计分误差来源和试题可靠性，为测评试题的区分度和稳定性提供了一种工具。研究发现考生通过试题所获得的分数与掌握课程的真实水平之间的差异来自于考生本身掌握知识的水平、试题难易度以及考生和试题两者的交互效应；通过试题组合的可靠性指数和概化系数的计算，表明填空题的加入提高了试题的可靠性，较之选择题和判断题具有更强的区分力。

［1］Cronbach,L.J.,Rajaratnam,N.&Gleser,G.C..Theory of generalizability:A liberalization of reliability theory［J］.British Journal of Statistical Psychology，1963，16（1）：137-163.

［2］Cronbach,L.J.,Rajaratnam,N,Nanda,H.&Gleser,G.C.The dependability of behavioral measurements:Theory of generalizability for scores and profiles［J］.New York:John Wiley，1972.

［3］毛翠云.创业胜任力综合测评研究［D］.镇江：江苏大学，2011.

［4］田金亭.基于CAT的中学生创造力评价技术探讨［D］.南京：南京师范大学，2011.

［5］刘晓陵.基于课程标准的初中标准化数学成就测验的编制研究［D］.上海：华东师范大学，2010.

［6］杨志明，张雷.测评的概化理论及其应用［M］.北京：教育科学出版社，2003：50-125.

The Analysis of Randomized Crossover Test’s Scoring Error Sources and Reliability Basing on Generalizability Theory

Qin Song，Wang Zhenlei

（School of Trade and Management,Taizhou University,Taizhou 318000,Zhejiang；College of Economics,Hangzhou Dianzi University,Hangzhou 310018,Zhejiang）

Generalizability theory is widely applied to standardized tests,non-standardized tests, teaching evaluation and personnel evaluation.Basing on this theory,the paper sets up a randomized crossover design and analyzed the test’s error sources and reliability.It puts forward that the difference between examination results and true grades comes from how well the students have mastered the knowledge,the degree of difficulty of test and interaction of students and test.At last,it calculates the value of difference and reliability in different question types and provides a tool which can review the test’s differentiation and stabilization.

randomized crossover design；scoring error；reliability；test

G449.7

1672-3708（2014）01-0061-05

2013-10-20

秦嵩（1978- ），男，陕西府谷人，讲师。王震蕾（1979- ），女，浙江温岭人，讲师。

*本文为台州学院教学改革研究项目（课题编号：JG2011006）的成果之一。