APP下载

标准设定与等级划分

2013-08-08向冠春

成人教育 2013年1期
关键词:分界测验受试者

向冠春

(教育部考试中心,北京 100084)

一、引言

标准即衡量事物的准则,在心理与教育测量研究领域中,标准更多地涉及到受试者的表现。对于任何一种标准参照测验而言,都必须根据受试者的表现,对其达标与否、合格与否、掌握与否进行判断,这就需要确定分界分数/及格分数(cutoff score,passing score)。分界分数/及格分数将测验分数分布划分为两类或两类以上,两类诸如达标与未达标、及格与不及格等,两类以上则诸如等级A、B、C、D、E,或初级、中级、高级等,据此对受试者是否掌握某一具体的知识技能,是否胜任某一具体的职位等做出明确的判断。整个确定分界分数的过程,就被称为标准设定(standard setting),其目的在于确定一个能够引导决策制定的准则。

对于高利害关系的考试来说,可信赖的分数线的设立是测试开发中最关键的问题之一。比较不同测试的通过分数是一个重要的效度问题。如果使用绝对通过分数,大家争议的问题是使用测试分数等值以保持分数量表的稳定性,如果分数不进行等值处理,即使不同考试的试题难度有一个微小的差别就会造成通过分数的解释力丧失,且对一些考生造成不公平。因此,大多数涉及到通过分数线的标准(Standards(AERA,APA,NCME))都会讨论等值问题。关于划定绝对分数线,标准要求标准设定专家的任务是清晰的,且标准设定专家能够做出合理的、充分的判断。标准强调了分数线划定程序的公平性及制定出的分数线产生的影响。

无论是传统的相对方法还是现代的绝对方法,不同的标准设定方法会产生不同的通过分数线和通过率。不能说哪个方法比其他方法更正确。内容专家使用绝对标准设定方法来制定通过分数,他们的目的不是发现一个真实的通过分数,而是通过专业判断来回答掌握多少知识就足够(通过)了。通过分数反映了一个社会的政策取向、人们的价值观、专家判断、政治制度等。与通过分数相关的效度证据的可靠性和强度依赖于所采取方法的合理性、方法的基本原理和研究基础以及专家的心理特征。

因此,心理与教育测量学界一致认为,标准设定是相当重要、且涉及面很广、争议很大、十分棘手的一个议题,自20世纪70年代起国外涌现出大量关于标准设定方法的研究,而我国这方面的研究还比较欠缺。下面主要介绍标准设定通常涉及的步骤和一些比较经典的标准设定方法及其在等级划分中的运用,以期对我们在确定考试及格分数线、划分成绩等级等方面有所裨益。

二、标准设定的步骤

考试中,标准是考试目的和内容、应试者的能力以及广泛的社会或教育环境中专业价值的体现,设定标准或切点的方法不是一种凭直觉推测正确解答的技术,而是一种系统性的方法,包括搜集判断价值的依据、对标准达成共识以及对单个分数的共识。标准设定的方法很多,可以从一些经典标准设定方法中归纳出一般的标准设定步骤。

步骤1:确定标准的类型

标准通常有两种类型,即相对标准和绝对标准。相对标准是以一定数量或一定百分比的应试者来表示,以此来确定切点,例如以一次考试中前50名最优秀应试者的成绩或按得分高低分成前15%和后85%作为切点。绝对标准是以一定数量或一定百分比的试题来表示,以此来设定及格标准,例如在100道试题组成的考试中答对70题为合格。

采用何种标准与考试的目的有关,有的考试项目主要服务于对特定群体的选拔,有的考试项目的目的在于测试受试者的能力。相对标准非常适用于选拔最高或最低录取分数的考试,因为在这种情况下能够被接受的学生数是有限的。绝对标准特别适用于以测试能力为目的的考试,包括终末考试、证书考试和执照考试等。

步骤2:确定设置标准的方法

设定标准的方法有很多,大体上可分为四类:即相对方法、以试题评判为基础的绝对方法、以对应试者个人的评判为基础的绝对方法以及绝对相对折衷的方法。与上述四类方法相对应的具体方法很多,如Angoff法、Nedelsky法、对照组法等。各种标准设定方法各有其优缺点,在为某一项目考试选择标准设定方法时,需要考虑某种方法设定的标准是否同该考试的目的一致。如果二者一致,并且这种标准是以专家们利用应试者的成绩所做的判断为依据,那么这种标准的可信度将得到提高。如果某种方法得到了学者们充分地研究,且在实践中得到了检验,那么它就易于实施和做出解释。选择合适的标准设定方法是构成考试效度证据的重要来源。

步骤3:选择标准设定专家

在考虑考试项目的性质、考试的目的、标准设定方法的特点、标准设定的成本等因素的前提下,确定参加标准设定的专家人数。在邀请这些标准设定专家时,需要考虑各位专家的特点,如研究领域、所处的地理位置、性别、种族、年龄、经历、观点等。如为一项医师资格考试设置标准,邀请医学教师、执业医生、全科医生和专科医生是必须的,同时还应邀请医师资格考试命题专家、标准设定方面的教育测量专家。此外,专家构成中还需要考虑专家的区域分布、性别、年龄等因素,这样可以保证考试项目的标准设定的信度要求,增加社会对该项考试的信任度。

步骤4:举行设定标准的会议

为标准设定专家提供考试试卷、历年考试分界分数线、相关统计数据等材料,举行标准设定会议。在举行标准设定会议时,不同标准设定方法所涉及的工作内容不尽相同。通常情况下,举行标准设定会议的要求和要做的工作主要如下:(1)专家们应当非常熟悉考试内容和考试形式,讨论处于边界分数的考生对考试内容应该掌握的程度,可能部分工作在举行标准设定会议前就需要做;(2)专家们应当讨论考试的性质、目的、应试者的特点以及能力的特质,这种讨论要服从于使小组定向于设定标准的演练,澄清怎样做出评判的某些问题;(3)对参加标准设定的专家进行培训,让其熟悉所使用的标准设定方法的原理和步骤,并在培训和演练过程中巩固其对标准设定方法的掌握;(4)在整个过程中,专家们应当给予反馈,彼此知道其他人的判断,尤其想知道他们所做出判断的最后结果;(5)专家们应当自始至终参加标准设定会议,任何原因的缺席都会导致资料的缺失,在讨论过程中,参加者的缺席也会对其他人产生不利影响。

步骤5:计算合格标准

合格标准的计算将随着所采用的计算方法而有所不同,但是有些问题是相同的。常常碰到的问题是专家人数相对较少时,会出现一两个局外人明显影响到标准的可能性。在这种情况下,采用中位数来代替平均数,或者去掉一个最高分和一个最低分也许是合理的。删去资料应当谨慎,只有当它的影响相当大时,例如对标准的信度具有负面影响时才不得不删去某些资料。作为计算标准的一部分,重要的问题是确定设定标准的过程是否充分可信或者可重现。可信度系数或可重现性系数可以用许多种方法来计算,而这种计算会证明这一标准是否相似,如果不相似,就必须由可比较的评判组来重新计算。

步骤6:考试完毕后续工作

设定考试标准是一项对专业价值达成共识的系统工程,涉及到方方面面的因素。考试完毕以后,重要的问题是保证这种标准应产生合理的结果,在一种连续不断进行的考试项目中,这一问题涉及到三个方面:首先应当由有重大利害关系的各方提出问题,保证他们从可靠性方面去检查考试的结果;其次,合格率应当与同步进行的能力评分相比较,以保证它们之间具有预期的一致性;最后,采用某种标准的结果应当同将来的成绩进行比较。

Johnson等(1998)在Rose(1992)的基础上又进一步扩展了对DCT不同形式的研究。他们在情景描述后进行了三种处理:提供肯定答复、提供否定答复、不提供答复。研究结果呈现出一个更为复杂的局面:有无答复以及答复是肯定还是否定对被试的回答有不同程度的影响,其中对抱怨的影响最小,对道歉的影响最大,对请求的影响居中。该研究得出结论:运用不同形式DCT得到的结果可能不具备可比性,它们可能体现了被试对于是否有答复以及答复的不同性质的敏感程度(Johnson,1998:172)。

三、标准设定方法

早期的标准设定方法常常是参照某个特定的团体来界定受试者的表现成就,因而我们称其为相对方法(relative method)。如固定百分比法,这种方法是请每一位参与标准设定的专家提出一个他认为合格的应试者应占的百分比,然后将他们建议的百分比在全体专家中进行讨论,专家可以接受其他人的合理意见,改变自己的评判,讨论结束时,计算各专家的平均合格率,该合格率就是最低合格标准或切点。固定百分比法使用比较方便,可以相同地运用于不同形式和不同类型的考试之中。然而,这种方法只设定相对的标准,其独立于考试内容,应试者都知道合格率是多少。另外,按这种方法设定的标准,根据应试者的能力,从本次到下一次考试将是不同的。因此,固定百分比法较适用于期望鉴别一定数量最佳或最差应试者的考试。

20世纪70年代,随着标准参照测验的迅猛发展,相对方法逐渐被绝对方法(absolute method)所取代。绝对方法不需要参照其他受试者的表现来界定某一特定的受试者,只需要专家对于特定受试者的知识和技能水平做出评判即可。下面介绍几种典型的绝对方法。

1.Nedelsky 法

这一方法是Nedelsky在1954年首先提出的,仅适用于多项选择测验。其基本理论假设是:最低能力受试者能够区分多项选择测验中每个题目中明显错误的选项,但是对于剩余的选项只能进行随机的猜测。Nedelsky方法操作步骤具体如下:(1)要求专家考察测验中每个题目的选项,评判最低能力受试者能够排除明显错误的选项;(2)计算出每个题目剩余选项个数,对剩余选项个数求倒,即得到每个题目的“最低通过水平”(minimum passing level,MPL);(3)对测验中所有题目的MPL求和,即为一位专家评判测验的MPL;(4)每位专家按照以上步骤得出测验的MPL,然后求平均,即为整个测验的最终分界分数。若结果为非整数,进位至整数。

表1 Nedelsky方法的一个实例

表1为一位专家运用Nedelsky方法,对由10个题目构成的一个多项选择测验进行标准设定的例子,每个题目由4个选项构成,每个题目1分,专家按照Nedelsky方法的操作步骤,得到的 MPL为6.41。其他专家按照上述同样的步骤便可得出他们的MPL值,若共邀请了5位专家,其余4位专家的MPL值分别为 6.21、6.47、7.24和 7.56,5位专家MPL值的平均数为6.78,则测验的最终分界分数为7。

2.Angoff法

这一方法是Angoff在1971年首先提出的,可适用于包括多项选择测验在内的多种测验形式,且只需对每个测试题目进行考察即可,而不象Nedelsky方法,要对每个题目的每一选项进行考察。Angoff方法操作步骤具体如下:(1)专家考察测验中每个测试题目,估计最低能力受试者能够正确作答每个题目的概率,概率取值在[0,1]之间;(2)将一个专家对测验中所有题目估计的概率求和,即为此专家评判的测验分界分数;(3)每位专家按照以上步骤得出测验分界分数,然后求平均,即为整个测验的最终分界分数。若结果为非整数,进位至整数。

Angoff方法是到目前为止应用最广、研究最多的一种方法。它拥有许多变式,一种变式是将每题的概率估计值限定为特定的几种,如10%的倍数。另一种变式则要求专家进行多轮循环评定,除第一轮外其余几轮允许专家参考他人的估计作相应的调整。

表2 Angoff方法的一个实例

表2为五位专家运用Angoff方法,对由10个题目构成的一个多项选择测验进行标准设定的例子。每个题目由4个选项构成,每个题目1分,专家按照Angoff方法的操作步骤,得到的测验分界分数介于5.10至7.25之间,再求平均,得到整个测验的最终分界分数为6.57,进位至7。

3.Jaeger法

这一方法是Jaeger在1978年首先提出的,概念上如同yes/no的Angoff法,将可能判定的几率值具体化为两种选择,但差别在于加入需反复执行的过程,即给予专家讨论先前所评定结果的机会,以供调整时参考。与传统的Angoff或Nedelsky法相比,Jaeger法强调对所有受试者作判定,专家则不需在心目中概念化所谓最低能力表现者。此外,在反复过程中额外提供三类参照信息:首次评定后其他专家建议的标准、专家本身先前评定结果、依学生真实表现得出的试题难度值。Jaeger方法操作步骤具体如下:(1)要求专家考察测验中每个题目,并回答这样一个问题“是否每一个受试者都能正确回答这一题目?”是,则赋值1;否,则赋值0。(2)将专家对测验中所有题目的估计值求和,即为一位专家设定的测验分界分数。(3)每位专家按照以上步骤得出测验的分界分数,然后求平均,即为这一轮整个测验的分界分数。若结果为非整数,进位至整数。

表3 Jaeger方法的一个实例

4.书签法(The Bookmark Method)

为弥补传统方法的不足,Lewis,Mitzel,Green 三位学者于1996年提出了Bookmark法,它是基于项目反应理论(Item Response Theory,IRT)、以Angoff法为基础的专家评定法,通过邀请有关学科专家以测验材料的难度参数值为基础,按照由易到难的顺序讨论每道题目,判断“基本掌握该领域知识的考生”能否做对所讨论的题目,在考生不能通过的题目上做出标识,以此作为设置划界分数的依据。

由于Bookmark法融合了IRT与Angoff法原理,因此 Lewis,Green,Mitzel,Baum 和 Patz(1998)等学者又将其称为修正的IRT-Angoff法。作为以IRT为基础的方法,当不同测验的样本来自同一总体时,Bookmark法能将多个测验的题目放在同一题目手册中排序,然后合并为一个测验,达到为多种类型的测验设置单一划界分数的目的。此外,在Angoff法的基础上,Bookmark法能够在一次测验中设置及格、优良等多重划界分数线。

Bookmark法的使用流程与Angoff法相似,但Bookmark法向学科专家呈现的是题目的难度值,其结果包括所有考生正确作答每道题目的比例和累积百分比,简单步骤如下:(1)学科专家分组,对题目进行由易到难排序,同时提供学科专家一份试题图(item map),说明试题在排序后与排序前在测验卷中所处的位置和各试题所欲测量的内容或知识;(2)第一次放置书签,将书签放置在最低能力受试者有2/3(约67%)能正确作答的2个试题签;(3)反馈并讨论第一次书签放置结果,再次放置书签;(4)向所有学科专家呈现所有书签放置结果,参照前两轮步骤开展第三次讨论,放置书签,结束Bookmark程序。

此外,若加以延伸可按相同步骤设置多重分数线,如图1所示(B:Basic,合格;P:Proficient,熟练;A:Advanced,优良)。

图1 书签法中已排序的题目手册

5.Ebel法

这一方法是Ebel在1972年首先提出的。概念上是借助试题的特性来决定最低通过分数。相较于Nedelsky方法和Angoff方法,Ebel方法要求专家对测验题目进行更加仔细的分析,因而在操作上具有一定的难度。Ebel方法操作步骤具体如下:(1)专家按照题目难度(difficulty)(低、中、高三个水平)和题目与内容的相关度(relevance)(高相关、中等相关、低相关、不相关四个水平)两个维度对每个测验题目的特性进行判定,分别将其置入各细格内,形成一个3×4的列联表;(2)对于3×4列联表的每一单元格(共12个单元格)赋予一个所有专家协商得出的概率,这个概率假定的是最低能力受试者能够正确作答的可能性;(3)将各单元格的题目个数与各单元格被赋予的概率相乘,再求出所有单元格分数之和,即为测验的分界分数;(4)每位专家按照以上步骤得出测验的分界分数,然后求平均,即为整个测验的最终分界分数。若结果为非整数,进位至整数。

表4为一位专家运用Ebel方法,对由15个题目构成的一个多项选择测验进行标准设定的例子。专家按照Ebel方法的操作步骤,得到的测验分界分数为10.9。

表4 Ebel方法的一个实例

6.边界组法

这一方法是Zieky和Livingston在1977年首先提出的,其依据的理论假设是分界分数应从一组边界组受试者的测验分数中产生。边界组受试者的知识和技能水平介于掌握和不掌握之间的模糊状态。从这个意义上说,边界组受试者有点类似于前面几种方法(项目中心模型方法)中提到的最低能力受试者,但并不完全相同。边界组受试者是对受试者的实际知识和技能水平进行判断,而最低能力受试者则是一个假想的概念。边界组方法的操作步骤具体如下:(1)选拔内容学科专家和教育测量专家;(2)针对测验所测内容,界定边界组受试者具有的知识和技能水平;(3)根据界定,找出一组边界组受试者;(4)向这组受试者实施测验,获得测验分数;(5)求这组受试者测验分数的中位数,即为测验的分界分数(见图2)。

图2 边界组方法示意图

7.对照组法

这一方法是Livingston和Zieky在1982年首先提出的,其依据的理论假设是根据受试者的知识和技能水平,可以将受试者划分为掌握组和不掌握组,将两组受试者的测验分数分配曲线画出,两曲线的交叉点即为分界分数,认为此交叉点形成的分类错误是最小的。对照组方法的操作步骤具体如下:(1)选拔内容学科专家和教育测量专家;(2)针对测验所测内容,界定掌握组和不掌握组受试者具有的知识和技能水平;(3)根据界定,找出两组不同的受试者;(4)分别向这两组受试者实施测验,获得测验分数;(5)将这两组受试者测验分数的频数分布绘制在同一坐标系中,这两个频数分布的交叉点就是测验的分界分数(见图3)。

图3 对照组方法示意图

四、等级划分

等级划分评定人员运用某种标准设定方法,设置一个或多个分界分数,将考生的考试结果划分为两个等级(如及格和不及格)或多个等级(如A、B、C、U等),这一过程称之为等级划分。对考生的成绩进行等级划分,向社会公布考生考试结果的等级,而不是考生的原始分数,这种分数处理方式在英国比较普遍。下面以剑桥评价划分GCE考试的等级为例简要说明等级划分的过程。

1.准备等级划分的材料

进行正式等级划分工作之前,为等级评定人员准备一些定性和定量的材料,如试卷(作业)和最终评分方案的复印件、相应学科领域的照片或影像证明材料、可获得的公开的成绩材料、先进事迹材料、试卷(作业)的分数分布状况等内、外部评价材料。这些材料越充分,构成等级划分效度证据越有说服力,社会可信度越高。

2.成立等级划分评定委员会

在剑桥评价,等级划分评定委员会由主考官负责组织成立并展开工作,除主考官外,委员会的成员还包括执行考官、责任考官、课程专家、标准设定专家和项目经理等人员。从研究领域角度,他们有的是熟悉命题工作的命题专家、有的是熟悉课程内容的学科专家、有的是熟悉标准设定方法的教育测量专家。从地域分布的角度,他们遍布英国的南部、北部和中部。剑桥评价这种等级划分评定委员会的成员结构也是构成考试效度的强有力的证据。

3.确定各模块关键等级的分数

GCE考试将各学科的内容分为几个模块,一般一个学科分为3、4个模块。各模块的原始满分可能是75分,也可能是60分或其他分数。GCE考试等级分为A、B、C、D、E和U六个等级,其中E/U和A/B是关键等级边界。等级评定人员根据考生的内、外部评价材料,按照实施规程对关键边界等级考生应该掌握相关知识、技能和能力的描述和界定,结合全体考生总体考试情况,运用边界组法或Angoff法讨论确定E/U和A/B是关键等级对应的原始分数,B/C、C/D和D/E的边界分数是由A/B和E/U边界间的分数区间除以4计算得出①。如果某一模块的原始满分是60分,假设E/U和A/B这两个关键等级的边界分数分别是20分和48分,则B/C、C/D和D/E的边界分数分别为27分、34分、41分。

4.将各模块的原始分数转化为标准分数

如上所述,每个模块有六个等级,每个等级对应的标准分数已在实施规程中有所规定,可以按照一定的算法将原始分数转化为标准分数,如表5所示。原始分为0转化成标准分也必须为0,某模块的最高原始分数转化成标准分数时也是该模块的最高分。

表5 模块原始分数与标准分数对照表

5.加总各模块标准分,将其转化为学科等级

在得到各模块标准分数之后,将其加总得到学科的标准总分,参照实施规程设定的标准总分与学科等级对照表(如表6所示),确定学科等级。如果各模块的等级均为A,则其学科等级必定为A;有些考生一部分模块的等级为A、一部分模块的等级为B,其最终学科等级也有可能为A,例如:某考生的模块等级分别为A、A、B、B,对应的标准分分别为89、85、78 和 76,其学科总标准分为 328,则其学科等级应为A。

表6 标准总分与学科等级对照表

[1]曹怡,若干标准设定方法的心理计量学比较初探,[C]华东师范大学硕士论文,2003.

[2]申逸彬,设定考试标准的步骤和方法,[J]复旦教育论坛,2005,(3).

[3]American Educational Research Association,American Psychological Association,National Council on Measurement in Education.Standards for educational and psychological testing.Washington,DC:Author.1999.

[4]Angoff,W.H.(1971) .Scales,norms,and equivalent scores.In R.L.Thorndike (Ed.), Educational Measurement.Washington,DC:American Council on Education.

[5]Ebel,R.L..Essentials of educational measurement(2rd ed.).Englewood Cliffs,NJ:Prentice - Hall.1972.

[6]Jaeger,R.M..An iterative structured judgment process for establishing standards on competency tests:Theory and application.Educational Evaluation and Policy Analysis,4.1982.

[7]Lewis,D.M.,Mitzel,H.C.,& Green,D.R..Standard Setting:A Bookmark Approach.In D.R.Green(Chair).IRT-based standard-setting procedures utilizing behavioral anchoring.Symposium conducted at the Council of Chief State School Officers National Conference on Large-scale Assessment,Phoenix,AZ.1996.

[8]Livingston,S.A.&Zieky,M.J.Passing scores:A manual for setting standards of performance on educational and occupational tests.Princeton,NJ:Educational Testing Service.1982.

[9]Nedelsky,L.Absolute grading standards for objective tests.[J]Educational and Psychological Measurement.1954(14).

[10]Zieky,M.J.,&Livingston,S.A..Manual for setting standards on the Basic Skills Assessment Tests.Princeton,NJ:Educational Testing Service.1977.

【注释】

①如果余数为1,这个分数将加到A-B分数区间;如果余数是2,A-B和B-C分数区间各加1;如果余数为3,在A-B,B-C和C-D分数区间各加1。

猜你喜欢

分界测验受试者
涉及人的生物医学研究应遵循的伦理原则
涉及人的生物医学研究应遵循的伦理原则
涉及人的生物医学研究应遵循的伦理原则
肖碧源
涉及人的生物医学研究应遵循的伦理原则
《新年大测验》大揭榜
10kV用户分界开关在定陶电网的应用分析
南北分界话秦岭(下)
两个处理t测验与F测验的数学关系
你知道吗?