APP下载

初中学业水平考试中固定分数法标准设定的信度分析——以中考数学为例

2018-07-11卜文娟温红博刘先伟

数学教育学报 2018年3期
关键词:测验信度一致性

卜文娟,温红博,刘先伟



初中学业水平考试中固定分数法标准设定的信度分析——以中考数学为例

卜文娟,温红博,刘先伟

(北京师范大学 中国基础教育质量监测协同创新中心,北京 100875)

综合应用现代测量理论,分析中国初中学业水平考试中固定分数法标准设定的信度.分别从中国东中西部地区3个区县随机抽取3 000名初三学生为被试,对被试的数学学业水平考试数据进行分析.采用的信度指标包括经典测量理论的决策一致性系数()、概化理论的等级线决策信度(λ)和项目反应理论的信息量(θ).研究结果显示,固定分数法标准设定下,决策信度接近0.7;等级线决策信度大于0.7,大部分在0.8左右;分界点的信息量大部分低于16.这些结果表明,中考采用固定分数法进行标准设定的质量一般,对于学业水平考试这种高利害性考试来说需要进一步提高.

学业水平考试;标准设定;固定分数法;信度

1 问题提出

在新课程改革背景下,中考制度进行了改革,初中毕业考试与高中招生考试合二为一形成初中学业水平考试(以下统称“中考”),考试结果既是决定学生能否毕业的主要因素,也是高中阶段学校招生的重要依据之一[9].改革后的中考具有标准参照测验的性质.考试结果以等级形式呈现,将原始分转化为等级分的过程中涉及等级划定,也叫标准设定.标准设定是指在测验分数分布中划出一系列分界分数,将考生分为两类或者更多有序类别[2-3].中考标准设定的结果与学生的毕业与升学等人生重要转折点息息相关,对考生具有深远影响,因而标准设定的质量至关重要且广受关注.

目前,中国已有的关于中考标准设定质量的研究成果主要集中在中考标准设定的重要性、现有中考标准设定质量存在的问题及改进措施等.但这些研究大多采用质性的思辨性研究进行理论层面的探讨.而标准设定是一个复杂的需要综合多种因素的心理测量过程,在鼓励使用等级成绩的同时应该加强对标准设定的研究和指导[4].因此,如何科学运用现代测量理论和技术,检验并加强中考标准设定的质量,为中考考试质量的提升提供科学指导,显得尤为重要和迫切.

从测量理论上讲,无论采用什么方法,标准设定的结果必须经过实践的检验,测试机构有责任提供证据证明标准设定的质量[3,5].标准设定质量的重要指标就是分界分数的信度,分界分数的信度也受到了研究者的广泛关注[6-8].中国中考改革强调务必保证中考测试工具的信度,以避免中考结果出现较大误差[9].中考作为一个标准参照测验,按照测量学的要求需要报告标准设定的信度以证实其等级划定结果的质量.关于标准参照测验的信度分析,现代测量理论基于自身的理论框架提出了不同的信度观,为解决这个问题提供有效的方法和指标.从经典测量理论(Classical Testing Theory,以下简称CTT)的观点来看,研究者提出了标准参照测验的信度指标:决策一致性和决策准确性,决策一致性(DC)指考生在两次平行测验中被一致归类的程度,其常用指标是和系数[10-11].决策准确性(DA)根据考生在考试中得到的观察分数所作的分类决定和根据真分数所做决定的一致性,常用的指标也是和系数[10-12].概化理论(Generalizability Theory,简称GT)针对不同的等级分数线,提出了相应的等级线决策信度(λ)估计方法,以此估计各个能力水平点的测量信度[13-14].等级线的决策信度是用来描述依据不同的表现类别的临界分数对被试进行分类的可靠性和稳定性.信息函数则是项目反应理论(Item Response Theory,简称IRT)中用以刻画测验或试题有效性的工具,它是直接反映测验分数对学生能力估计精度的指标[15-16].作为一种判断被试合格与不合格的标准参照测验,重要的是要在分界分数及其附近有精确的估计及高区分的能力,而这些都反映在测验在划界分数点的信息量,因此可根据测验在划界分数点上的信息量来评价标准参照测验[17-18].

等级划定的结果受到其选择的方法的影响.实践中,中国中考标准设定常用的一种方法是固定分数法,即按照固定分数来划分[19-21],而等级数目和等级标准则由各地根据考试结果和当地实际情况确定[22],因而各地有所差异.中国大部分地区采用的等级数目为4、5、6级,按照固定分数线的划分,以百分制计算,4级划分通常采用60分、70分和90分3个分界分数将被试分为4个等级;5级划分是采用60、70、80、90分为分界分数将成绩划分为5级;6级划分则是采用50、60、70、80、90分5个分界分数划分为6级.而目前中考采用固定分数进行等级划分可能会存在多种不足,进而影响中考标准设定的质量.然而目前缺乏相关的研究对中考标准设定的信度进行分析.因此,应用现代测量理论对中国中考标准设定的信度进行分析以提供其质量论证显得十分必要.

此外,数学作为促进学生全面发展教育的重要组成部分,在培养人的思维能力和创新能力方面的不可替代的作用.义务教育阶段的数学课程是培养公民素质的基础课程,在各学段的学业水平考试中占据重要地位,此外根据调查结果显示,数学是各地中考的必考科目[23],因而拟以中考数学为研究对象进行分析.

综上,以中考数学为研究对象,综合应用CTT、GT和IRT分析中考现有固定分数法标准设定的决策一致性、等级线决策信度和分界分数的信息量,对中考标准设定的信度进行探讨.

2 研究方法

2.1 研究被试

鉴于中国中考由各地市统一组织进行的现状,采用分层随机抽样.首先从中国东部、中部、西部地区各选一个地市,然后从所选择的地市中随机抽取3 000名被试作为分析对象.

2.2 研究工具

将所抽取的3个地区的试卷分别记做A试卷、B试卷、C试卷.3个试卷结构如表1所示,其中部分解答题中包含两个或两个以上的小题,表中总题量统计是按照卷面的小题题目数量进行统计.

表1 试卷结构

2.3 数据收集与处理

由于中国大部分地区采用的等级数目为4、5、6级,因此,分别探讨采用固定分数线将被试分为4、5、6个等级进行标准设定时测验的决策一致性、等级线决策信度和分界分数的信息量.

采用Livingston和Lewis[11]提出了的LL方法分别估计测验决策一致性和决策准确性的和系数.研究者建议对大规模测验的分类一致性的高于0.7,系数高于0.6[11,24].

从GT测量设计的角度来看,A、B、C三套试卷的所有被试均需要作答对应测验的所有题目,测验均为随机单面交叉设计(×).概化研究包括G研究和D研究,G研究分析各变异来源,D研究考察不同测量条件下测验信度变化.有研究者建议基于GT的信度指标需要达到0.80[25],对于高利害性的大规模考试的概化信度指标达到0.85才能满足需求,理想情况下决策信度达到0.90则说明决策信度质量非常好[26-28].

研究采用SPSS 20.0对数据进行管理,使用BB-CLASS[31]进行决策一致性分析.使用GENOVA软件[32]进行GT分析.使用Conquest 2.0[33]和江西师大统计与测量研究开发中心自主研制的“现代教育与心理测量通用分析系统(ANOTE)”进行IRT分析.

3 研究结果

3.1 经典测量理论分析结果

首先对测验题目的质量进行分析,包括题目的难度和区分度,并分析测验的内部一致性系数,在此基础上计算各测验的决策一致性和决策准确性.

3.1.1 题目的难度和区分度

难度指标采用的是项目通过率,区分度指标采用的是题总相关.分析结果表明,A测验总体难度为0.74,题目的难度范围为0.15~0.99;题目的区分度均大于0.2,大部分题目区分度大于0.4.B测验总体难度为0.81,题目的难度范围为0.11~0.99;题目的区分度均大于0.2,大部分题目区分度大于0.4.C测验总体难度0.72,题目的难度范围为0.15~0.98;题目的区分度均大于0.2,大部分题目区分度大于0.4,题目区分度良好.

3.1.2 决策一致性

A、B、C三个测验的内部一致性系数(系数)分别为0.848、0.873、0.824,表明测验信度较高.然后使用BB-CLASS软件,计算分类一致性和分类准确性.采用不同等级数目等级划分时,A、B、C三个测验的决策一致性和决策准确性如表2所示.

由表2可知,采用6级分类时,测验的决策一致性和决策准确性的值均低于0.7,值低于0.6.采用5级分类,3个测验的决策一致性的值高于0.7,值高于0.6,而决策准确性的值接近0.7,值接近0.6.采用4级分类时,3个测验的决策一致性和决策准确性系数均较高.

3.2 概化理论分析结果

GT的分析包括G研究和D研究.由于只有D研究能够提供信度信息,所以在此只呈现D研究结果.

在G研究的基础上进行D研究,首先计算测验的概化系数和可靠性指数,A、B、C的概化系数分别为0.86、0.85、0.82,可靠性指数分别为0.78、0.74、0.74.接着计算A、B、C测验在不同等级划分时的决策信度,6级分类时各分界点50分、60分、70分、80分、90分对应的等级线决策信度为(50)、(60)、(70)、(80)、(90),5级分类对应的等级线决策信度为(60)、(70)、(80)、(90),4级分类对应的等级线决策信度为(60)、(70)、(90),具体结果如表3所示.由研究结果可知,首先,3个测验在不同等级划分情况下分界分数决策信度均大于0.7,从总体上来讲可以接受,但部分等级线的决策信度在0.80以下.其次,相对而言,低分段的决策信度较高,高分段的决策信度次之,但中等水平的决策信度较差.最后,不同地区的等级线决策信度存在差别,A、B两个地区决策信度总体优于C测验,其原因可能在于测验工具的质量存在差异,C测验的内部一致性系数和概化系数均低于A、B两个测验.

表2 各测验固定分数法的决策一致性

表3 测验各分界点对应的等级线决策信度

D研究所采用的测量结构和测量模式与G研究相同,进一步考察题目侧面的样本容量对测验各等级线的决策信度的影响[26].研究以各测验现有题目数量为基准(A测验的现有题目数为35题,B、C两测验题目数为36题),每种条件增加或减少25%的题目,测试题目数量从18~72,每个测验共有7种条件.研究结果分别如下表4、表5、表6所示,研究结果显示,随着测试题目数量的增加,各分界分数的等级线决策信度均持续提高,但增加到一定程度后决策信度的提升随着题目数量的增加而减缓.由表可知一般测验题目达到45,测验的等级线决策信度可以达到0.80;题目数量增加一倍,测验各等级线的决策信度可以达到0.85.

表4 A测验题目数量与等级线决策信度的影响

表5 B测验题目数量与等级线决策信度的影响

表6 C测验题目数量与等级线决策信度的影响

3.3 项目反应理论分析结果

研究首先检验测验的单维性,分析测验是否满足IRT的前提假设[34],在此基础上进一步分析题目的质量和测验信息量.

3.3.1 单维性检验

使用SPSS20.0对各测验进行因素分析,数据结果表明3个试卷的第一特征根与第二特征根比值均大于3,可以认为测验符合IRT的单维性假设[34-35].

3.3.2 题目质量分析

研究采用IRT的单参模型对3个测验的题目难度、区分度和拟合指数进行估计.研究结果显示A、B、C测验的题目难度分布合理,且所有题目拟合指数(MNSQ)拟合良好[36].测验题目区分度均大于0.2,大部分题目大于0.4.总的来说,3个测验的题目拟合良好,区分度较高.

3.3.3 测验信息量

表7 测验各分界点对应的信息量

4 讨论与结论

4.1 讨论

4.1.1 中考标准设定的信度

综合应用现代测量理论对中国中考标准设定的信度进行分析.通过探索和对比不同测量理论框架下的信度指标,以期为判断学业考试等级设定的质量提供科学的理论支持,进而为初中学业水平考试的实施和改革提供参考和建议.

从CTT的分析结果来看,不同的标准设定等级数目下,测验的决策信度存在较大的差异,采用6级分类时,测验的决策信度较差,未能达到大规模考试的要求;而采用5级分类时,测验基本达到了大规模测验的要求,采用4级分类时测验能够对被试进行较好的分类,满足高利害考试的要求.综合来看,测验的决策信度受到分界分数数目的影响,分界分数越少,分类一致性越高,与已有研究结论一致[37-38].分界分数附近的考生越多,就更容易在两次划分中被分到不同的种类中,因此分界分数越多,分类一致性越低.此外,由研究结果可知,测验的决策准确性略低于决策一致性,测验的测量准确性还需进一步提高.

概化分析表明,测验的各分界分数的等级线决策信度大于0.70,大部分分界分数的决策信度在0.80以上,可以认为学业水平考试的各等级线对被试进行分类时具有较高的稳定性和可靠性.而从各等级线决策信度的比较结果来看,低分端分界点和高分段的等级线决策信度高于均值附近分界点的决策信度,由此可知现有中考对于两端的被试分类的可靠性和稳定性较高,尤其是低分段的决策信度相对最高.而这一结果可能与中考考试设计有关,目前中考数学的考试设计要求容易题、中档题和稍难题的比例大致确定为7:2:1[39-40],由此可知大部分题目集中于较低水平的学生,因此对低分段学生的能力水平测量更加准确.为了使各决策线信度均达到0.80,更符合高利害考试的要求[26],D研究结果表明题目数量需要适当增加到约45题,如果想要使测验各等级线的决策信度达到0.85,满足大规模测试的要求,题目数量需要增加一倍.可以看出,随着题目数量增加,测验信度的提升效果逐渐减小,因此,需要结合考试成本等因素综合考虑题目的合理数量.

从IRT的角度去分析各分界点的信度时,其分界点的信息量均低于16,特别是高分段的分界点信息量甚至低于8,远不能满足高利害测验的测验精度要求[29].由IRT的结果可知,目前中考对分界分数附近的被试的能力水平测量的准确性不高,尤其是高分段学生能力水平的测量精度.这可能是由于目前的中考测验中难题的数量较少,很难对高水平能力的学生进行准确的测量.

值得注意的是,研究结果中GT和IRT的信度指标的变化趋势不尽相同,等级线决策信度呈现一个U型的变化趋势,而信息量则是倒U型,对此Brennan[41]指出是由于原始分与IRT能力值的非线性转化造成的,其中GT和IRT对于高分段学生的判断结果似乎是矛盾的,但这一点也不难理解.等级线决策信度反映的是分数线对被试进行划分的可靠性和稳定性,而信息量反映的是分界点对被试的测量准确性.因此,这一结果可以解释为目前的中考测验对高水平学生的分类一致性较高,但由于测验中符合高水平学生能力的难题数量较少,很难准确地测量高水平学生的能力,从而导致高分段的分界点信息量较低.

4.1.2 对中考命题的建议

研究结合中国中考标准设定的现状,综合研究结果,对中考命题及改革提出如下建议.

(1)中考标准设定需要借鉴国内外先进测评项目的经验,完善课程标准,建立合适的表现标准,详细描述各等级学生所需要具备的知识和技能.标准设定的标准不仅包括内容标准,还包括表现标准.内容标准规定学生应该掌握什么,表现标准是指期望被试达到的与内容标准对应的测验表现水平.与国际大型测评项目相比,中国中考表现标准缺失,从而导致标准设定的结果指向不明确,解释效力不足.因此,借鉴已有研究成果,建立中考各等级的表现标准显得紧急而且重要.

(2)中考标准设定的方法需要各地区结合实际情况和可用资源综合衡量选择.各地区进行标准设定时,需要尽可能的基于测量学的指导,采用合理的方法进行标准设定,如采用专家判断法(如Bookmark或者Angoff法)和客观的标准设定方法(如聚类分析法)相结合,建立较为稳定的等级标准,使标准设定的结果更可靠、有效.

(3)中考标准设定的等级数目方面,研究结果与大量已有研究得到一致的结论:等级数目越少,分类的一致性越高.因此,建议在能够满足实践需求的前提下,尽可能地减少等级数目,可以考虑采用3级或者4级进行等级划分,不宜采用过多等级.

(4)关于中考题目数量方面,现有的中考题目数量(36题)基本能够满足考试需求,根据GT的研究结果,适当增加题目数量至45题,能够使各等级线的决策信度均达到大规模测量的基本要求(0.8以上).增加题目数量时,可以考虑适当增加有一定难度的题目,以进一步提高现有中考对高水平被试的测量准确性.

(5)关于中考的题目难度分布方面,现有的中考采用的偏态分布不利于对能力分布两端的学生的测量.建议题目难度采用多峰分布,具体根据各地区划定的等级数量,针对对应的能力分界点设计对应的难度的题目,使各能力分界点附近均有足够的题目数量,加强对各能力分界点附近学生的测量精度,从而进一步提高等级划定的质量.

4.1.3 研究的不足与展望

首先,研究的样本选择存在不足.研究选择了3个地区的数学试卷进行分析,标准设定的等级数目仅包含了4、5、6三种常见的等级划定,在未来的研究中需要进一步丰富研究样本,选择更多地区,更多科目的中考试卷进行分析,进一步验证研究结论.

此外,研究计算信息量时,采用的是单参数模型,估计方法是极大似然估计.IRT的模型和估计方法对参数估计结果会产生一定的影响,其它的模型和估计方法产生的结果需要进一步的研究来验证.

其次,研究在进行信度分析时,关于决策一致性的分析仅从CTT的角度进行计算,在未来研究中可以结合其它理论探讨更适合中考决策一致性的计算方法.

4.2 结论

目前中考采用固定分数法进行标准设定的质量一般,虽然基本能够对学生的能力水平进行较好地分类,但对于一些能力分界点附近的考生的测量精度还需要进一步地提高以满足大规模测验的要求.

[1] 教育部关于基础教育课程改革实验区初中毕业考试与普通高中招生制度改革的指导意见[J].中华人民共和国教育部公报,2005(4):38-41.

[2] 李珍,辛涛,陈平.标准设定:步骤、方法与评价指标[J].考试研究,2010(2):83-95.

[3] HAMBLETON R K, PITONIAK M J. Setting performance standards [M] // BRENNAN R L. Educational measurement. 4th ed. Washington, DC: American Council on Education, 2006: 433–470.

[4] 马嘉宾,张珊珊,涂端午.从国际视角看我国中考改革[J].中小学管理,2014(1):21-24.

[5] AERA, APA, NCME. Standards for educational and psychological testing [M]. Washington, DC: Author, 1999: 35-36.

[6] GREEN D R, TRIMBLE C S, LEWIS D M. Interpreting the results of three different standard-setting procedures [J]. Educational Measurement: Issues and Practice, 2003, 22 (1): 22–32.

[7] KANE M. Validating the performance standards associated with passing scores [J]. Review of Educational Research, 1994, 64 (3): 425–461.

[8] PETERSON C H, SCHULZ E M, ENGELHARD G. Reliability and validity of bookmark-based methods for standard setting: comparisons to angoff-based methods in the national assessment of educational progress [J]. Educationl Measurement Issues & Practice, 2011, 30 (2): 3–14.

[9] 教育部“初中毕业和高中招生考试制度改革”项目组.解析初中毕业生学业考试改革[J].中小学管理,2004(6):5-7.

[10] 韩宁.评价考试质量的新指标:决策一致性和决策准确性[J].中国考试(研究版),2008(6):3-6.

[11]  LIVINGSTON S A, LEWIS C. Estimating the consistency and accuracy of classifications based on test scores [J]. Journal of Educational Measurement, 1995 (32): 179–197.

[12]  HANSON B A, BRENNAN R L. An investigation of classification consistency indexes estimated under alternative strong true score models [J]. Journal of Educational Measurement, 1990 (27): 345–359.

[13]  BRENNAN R L. Generalizability theory [M]. NewYork: Springer-Verlag, 2001: 221-240.

[14] 杨志明,张雷.改进普通话测试的概化理论分析[J].湖南师范大学教育科学学报,2003(1):76-82.

[15] 罗照盛.项目反应理论[M].北京:北京师范大学出版社,2012:4-43.

[16]  FISCHER G H, MOLENAAR I W. Rasch models: foundations, recent developments and applications [M]. New York: Springer-Verlag, 1995: 77-132.

[17] 涂冬波,蔡艳.信息函数在标准参照测验中的应用研究[J].江西师范大学学报(自然科学版),2005(2):167-172.

[18] 熊建华,丁树良,漆书青,等.用测验信息量分析试卷质量[J].江西师范大学学报(自然科学版),2002(3):225-228.

[19] 肖永琴.目前中考理化学科评价体系的调查与分析[J].福建基础教育研究,2011(5):106-109.

[20] 张雨强,魏梦其.初中毕业生学业考试的市域比较研究[J].教育参考,2015(5):28-34,53.

[21] 李建平.解析初中毕业学业考试改革新思路[N].中国教育报,2005-04-04(01).

[22] 教育部办公厅关于印发《国家基础教育课程改革实验区2004年初中毕业考试与普通高中招生制度改革的指导意见》的通知[J].中华人民共和国教育部公报,2004(Z1):70-73.

[23] 王烨晖,韦小满.初中毕业生学业考试的现状调查[J].中国考试,2014(2):43-47.

[24]  SUBKOVIAK M J. Decision-consistency approaches [M] // BERK R A. Criterion referenced measurement. Baltimore: Johns Hopkins University Press, 1980: 129-185.

[25] 黎光明,张敏强,张文怡.人事测评中的概化理论应用[J].心理科学进展,2013,21(1):166-174.

[26] 杨志明.标准参照测验及其等级线信度的概化理论分析[J].心理学探新,2003(3):52-56.

[27] 王晓华,文剑冰.多元概化理论在高等教育达标性考试中的应用[J].心理科学,2010,33(5):1 223-1 226.

[28] 陆一萍.HSK高等考试信度的多元概化理论研究[J].中国考试,2011(5):20-23.

[29] 漆书青,周骏,张青华,等.用信息函数法对标准参照测验作质量分析[J].心理与行为研究,2003,1(1):34-39.

[30] 漆书青,戴海崎.项目反应理论及其应用研究[M].南昌:江西高校出版社,1992:324-330.

[31] BRENNAN R L. Manual for BB-class: a computer program that uses the beta-binomial model for classification consistency and accuracy [J]. Casma Research Report, 2004 (9): 1–22.

[32]  CRICK J E, BRENNAN R L. Manual for GENOVA: a generalized analysis of variance system [J]. Iowa City, IA: American Testing System, 1983: 1–102.

[33]  WU M L, ADAMS R L, WILSON M R, et al. Manual for ACER conquest version 2.0, Australia [M]. ACER PRESS, 2007: 11–30.

[34]  SLOCUM S L. Assessing unidimensionality of psychological scales: using individual and integrative criteria from factor analysis [J]. Social Indicators Research, 2005, 102 (3): 443–461.

[35]  HAMBLETON R K, SWAMINATHAN H. Item response theory: principles and applications [M]. Boston: Klumer Nijhoff Publishing, 1985: 16–22.

[36]  WRIGHT B D, LINACRE J M. Reasonable mean-square fit values [J]. Rasch Measurement Transactions, 1994 (8): 370.

[37] 陈平,李珍,辛涛,等.标准参照测验决策一致性指标研究的总结与展望[J].心理发展与教育,2011,27(2):210-215.

[38] 杜佳萱,陈平,辛涛.基于IRT的决策一致性系数在大规模教育测量中的应用[J].北京师范大学学报(自然科学版),2015(6):643-648.

[39] 徐远征.对普通高中学业水平考试命题技术的初步探讨[J].课程·教材·教法,2013,33(2):104-108.

[40] 周彩莺,沈启正,季芳.普通高中学业水平考试命题研究(二)——难度控制技术探究[J].教育测量与评价(理论版),2013(10):35-38.

[41] BRENNAN R L. Raw-score conditional standard errors of measurement in generalizability theory [J]. Applied Psychological Measurement, 1998 (22): 307–331.

Reliability of Current Standard Setting Method of Fixed Score in Academic Level Examination for Secondary School

BU Wen-juan, WEN Hong-bo, LIU Xian-wei

(Collaborative Innovation Center of Assessment toward Basic Education Quality at Beijing Normal University, Beijing 100875, China)

The main purposes of this study were to examine the reliability of current standard setting method of Fixed Score in academic level examination for Secondary School. Using stratified random sampling design to select three counties from the East, Middle, and West of China respectively, 3 000 students of each county are chosen. The data from the Academic Level Examination for Secondary School was used. A comprehensive application of modern measurement theory to analyze the reliability indicators of standard setting, including Decision Consistency Index (Kappa) in Classical Testing Theory (CTT), Cut–score Dependability(λ)in Generalizability Theory (GT), and the amount of information index(θ)from Item Response Theory. The results showed that: (i) the Decision Consistency Index of current Entrance Examination for Secondary School approaching 0.7; (ii)(λ)of the cut-scores was greater than 0.7, mostly beyond 0.8; (iii)(θ)were less than 16 regardless of methods to Fix Score or Fix Ratio. All these results suggested that the quality of existing tests’ standards setting method of Fixed Score was barely satisfactory, and it should be improved for high-stakes examinations.

academic level examination; standard setting; fixed score method; reliability

2018–01–03

北京师范大学研究生院精品课程建设项目——研究生培养—方法课群教学团队建设—SPSS数(1601121A2)

卜文娟(1993—),女,陕西商洛人,硕士生,主要从事学业质量测评研究.温红博为本文通讯作者.

G632

A

1004–9894(2018)03–0039–06

卜文娟,温红博,刘先伟.初中学业水平考试中固定分数法标准设定的信度分析——以中考数学为例[J].数学教育学报,2018,27(3):39-44.

[责任编校:周学智]

猜你喜欢

测验信度一致性
关注减污降碳协同的一致性和整体性
注重教、学、评一致性 提高一轮复习效率
《广东地区儿童中医体质辨识量表》的信度和效度研究
IOl-master 700和Pentacam测量Kappa角一致性分析
《新年大测验》大揭榜
两个处理t测验与F测验的数学关系
科技成果评价的信度分析及模型优化
基于事件触发的多智能体输入饱和一致性控制
耳鸣残疾问卷中文版的信度和效度检验及其临床应用
中文版脑性瘫痪儿童生活质量问卷的信度