美国州级测验的特色及其对我国的参考价值

2021-01-02刘香东王一波于鲁泉龚佑文

考试研究 2021年4期

刘香东王一波于鲁泉龚佑文

目前，我国心理与教育测量的关注重点在于高考改革，对中小学教育的研究并不多[1]。这是因为我国的中小学教育往往受高考评价指标影响，教育改革常常是依赖对中考、高考进行改革，进而影响中小学教育内容。在美国，虽然类似中国的高考SAT（Scholastic Aptitude Test）和 ACT（American College Testing）也有一定的影响，但是州级（美国的州相当于中国的省）测验（State Assessment）是教育问责制（Educational Accountability）主要的评价指标。美国州级测验有三个核心特色，分别是同行评审（Peer Review）、技术报告（Technical Report）及（心理测量）技术咨询委员会（Technical Advisory Committee，TAC）。在这三个核心特色上，具有教育测量学或相关领域的资深背景心理测量研究员（Psychometrician）发挥着关键作用。体现了心理测量专业的应用性。本文针对这三个方面的内容加以探讨。

一、州级测验中的同行评审

美国对州级测验的重视要从联邦《初等和中等教育法案》（The Federal Elementary and Secondary Education Act，ESEA）谈起。从 2005 年开始，该法案要求每个州的教育厅对中小学3-8 年级及高中的语文、数学、科学三门课的州级测验提交同行评审报告，同行评审报告包括六个方面的内容[2]：

第一，州课程标准与州测验。要求证明州测验与本州的课程标准（Curriculum Standards）相一致。一般来讲，主要的证据包括州级测验与州课程标准的一致性评估（Alignment Evaluation），而且一致性评估一般由外部专业的考试公司来进行，以实现评估的客观性。

第二，州测验的实施与管理。包括州测验的设计与开发、试题开发、考试实施、考试实施的监测、考试安全等。主要提供的证据包含：州测验的设计与试题的开发是否符合标准化的程序——教育与心理测验标准（2014 版）[3]，是否采用一致性评估的结果，是否有一套完善的考试政策来保障考试安全，是否采用一些工具来监测考试作弊等。

第三，州测验的技术质量——效度（Validity）。包括州测验总体效度、基于内容的效度、基于认知处理的效度、基于内部结构的效度、基于与其他变量关系的效度等。这些基于不同内容的效度来自教育与心理测验标准（2014 版）对效度的定义。例如，在基于内部结构的效度方面，州教育厅要提供州测验的维度分析（Dimensionality Analysis）、试题质量分析、项目功能差异（Differential Item Functioning）分析等来证明测验的总体效度；在基于与其他变量关系的效度方面，如果一些4 年级的学生在州数学测验中得到优秀（Advanced）的水平，而且他们的成绩在国家教育进展评估（（National Assessment of Educational Progress）4 年级数学考试中也取得好的成绩，即州数学考试成绩与国家教育进展评估数学成绩高度相关，就会为州测验的整体效度提供一个有利的证据。

第四，州测验的技术质量——其他维度。包括州测验的信度、公平性与可及性（Accessibility）、评分（Scoring）、测验的多个试卷、测验的不同版本等。例如，在州测验的信度方面，州教育厅需要提供试卷的总信度（Test Reliability）、条件测验标准误差（Conditional Standard Error of Measurement）、判别准确性（Classification Accuracy）与判别一致性（Classification Consistency）等；在公平性与可及性方面，州教育厅需要提供证据表明试题的开发经过了偏见与敏感性审查（Bias and Sensitivity Item Reviews），在试卷开发过程中尽可能地避免了使用有项目差异的试题，以及在试卷使用后进行的项目差异分析；在州测验的多个试卷方面，强调州测验要保持成绩说明的一致性，即跨年度的试卷是类似或者相当的（Comparable），这是因为以对学生成绩跨年度的比较来作为教师业绩评估指标之一，是教育责任制实施的基础，如果跨年度试卷不同，而且没有等值的设计，对学生成绩跨年度的比较既不准确也不科学，因此州教育厅要提供证据证明每个试卷的开发都遵循一致的试卷蓝图（Test Blueprint）、具体而详尽的等值与链接（Linking）的过程，以及对等值的评估；在州测验的不同版本方面，如果有同一年级的纸质考试与计算机考试，教育厅要提供考试模式比较分析（Test Mode Effect Analysis）来证明纸质考试与计算机考试具有可比较性。

第五，包容所有学生（Inclusion of All Students）。要求证明州测验考虑到残疾学生、英语非母语的学生的特殊需要。州教育厅需要为残疾学生提供调节性（Accommodation）政策，如提供州测验的盲文版本。州教育厅需要证明对英语非母语的学生是否在州测验上需要调节性政策进行了调查，以及这些调节性政策是否适合英语非母语的学生。

第六，课程标准与成绩报告。包括采用严谨的学术课程标准、制定规范的标准设定（Standard Setting）、撰写合理的成就水平描述（Achievement Level Description）及有意义的成绩报告。以标准设定为例，同行评审要求标准设定的过程必须符合科学的设计方法，由具有代表性的专家小组讨论决定。以撰写成就水平描述为例，例如一个学生在4 年级的数学达到掌握（Mastery）的水平该具有什么样的知识与技能，这些都是经过有经验的教师组讨论起草的。在成绩报告（Reporting）方面，同行评审要求成绩报告要能帮助家长、教师、教育政策制定者理解学生的成绩。成绩报告要体现不同成就水平（Achievement Level）学生的比例与人数。一些报告要包括试卷的每道试题的成绩及子科目（Subcategory）的成绩，有利于家长与教师有的放矢地针对学生需要提高的地方实施补救措施。成绩报告要体现学校、学区、州整体在各个成就水平上的学生的比例，这有利于州教育厅与学区对薄弱学校实施有针对性的支持性政策。

值得一提的是，同行评审要求各州测验除了在首次提交评审外，每次对州测验的重点进行改革时都需要重新提交评审。一般情况下教育部的同行评审团给出的反馈是：通过、补充材料、不通过。如果不能通过同行评审，那么将会影响ESEA 法案对该州的拨款，因此各州教育厅对通过评审都非常重视。

二、美国州级测验中的技术报告

州测验的技术报告是各州教育厅提交同行评审的核心证据。技术报告是州测验依据教育与心理测验标准（2014 版）开发的重要证明。技术报告的内容通常包括：州测验的设计与开发、州测验的实施与考试安全、评分与成绩报告、心理测量分析（Psychometric Analyses）、标准设定、州测验的效度、测验的信度等若干章节。在州联盟中小学考试（Partnership for Assessment of Readiness for College and Careers，简称PARCC）的技术报告[4]中还包含质量控制（Quality Control）与量表分数（Scale Score）两部分内容。一般来讲3-8 年级与高中（9-12）年级的技术报告是单独生成的。下面就技术报告的主要内容予以介绍，重点介绍同行评审中未详细说明的部分。

在州测验的设计与开发这一章节中，首先强调的是测验与课程标准的一致性。美国目前有41 个州都使用共同核心州立标准（The Common Core State Standards）。测验的开发由有经验的教师、研究者、心理测量师和科目内容专家共同参与。测验的开发过程包括：测验的设计、试题与阅读段落的审查、质量的监测以及公平性的审查等。其中试题的审查包括：试题内容的审查、偏见与敏感性的审查、编辑的审查（语法错误）、技术性审查（试题难易程度、年龄适宜性等）。试卷的组合（Test Construction）包括：试卷符合考试蓝图（Test Blueprint）、链接的设计（保证跨年度的不同试卷具有可比性），以及调节性试卷（Accommodation Form）。这一章还包括田野测试（Field Testing）的设计：随机排列在正式考题中，还是单独组成一部分放在正式考题之后。

在测试的实施与考试安全这一章主要包括适宜的调节性考试政策与考试安全。以内布拉斯卡州的技术报告[5]为例，针对考生安全，首先聘请了专门的网络公司监测是否有考试内容在网络与社交媒体上泄露，其次通过统计分析进行监测，具体监测方法有：响应时间（Response Time）、正式试题（Operational Items）与田野试题得分差异（田野试题通常是新的试题，如果差异很大表明考生提前知道试题内容）、试题表现的变化（如果试题在考试期间变得简单，表明试题有可能已经泄露）、不寻常的提高（Unusual Gain）（通过统计方法监测出一个考点考生的成绩比去年的考生成绩意外提高）、雷同卷等。

在评分这一章，以州联盟中小学考试的技术报告为例，分成三部分：机器评分（Machine-Scored）、人工评分（Human or Hand-scored）、智能化评分（Automated or AI Scored）。对于评分来说，保证评分的质量与一致性非常重要，除了对人工评分者的培训外，人工评分与智能评分都有10%-20%的重读（Read Behind），同时对评分者间一致性信度（Inter-rater Agreement）也有严格的要求，如果一致性信度低于一定的比例，那么会增加对这个评分者的重读比例或者重新培训等。

在心理测量分析这一部分，州联盟中小学考试的技术报告分为三章：经典测验分析、项目功能差异分析、项目反应理论校准（Item Response Theory Calibration）与链接。而内布拉斯卡州的技术报告只把心理测量分析列为一章。这一章是心理测量师工作的核心部分。

在经典测试分析（Classical Item Analysis）上，以州联盟中小学考试的技术报告为例，该章列举了考试结束（Post Administration）后，对试题难度与区分度的分析。如果发现有问题的试题，心理测量师与科目专家等在数据分析结果的基础上讨论是否在评分时去除该试题。这些红色警示的标准（Flag Criteria）与田野试验的试题警示标准或者试卷组成的试题警示标准[6]可能略有不同。除此之外，技术报告还包括试卷总体的描述性统计结果（如试题的难度、区分度的平均值、最大与最小值）

以下是考试结束后，心理测量师与科目专家需要审视的试题红色警示的标准[7]：

（1）客观或主观题试题难度低于0.25 或者高于0.95。

（2）试题的点二列相关系数（Item-total Corre-lation）小于 0.15。

（3）任何干扰选项的点二列相关系数（选项与总分）为正数的。

（4）对于总体考试成绩前20%的考生，对某个试题干扰项的选择超过对正确选项的选择。

（5）任何一个试题，如果客观题的放弃或未选择的比例超过5%，主观题放弃比例超过15%。

（6）主观试题的任何一个分数（0，1，2，3 等等）的得分比例少于3%。

在项目功能差异分析这一章，主要介绍了项目功能差异的公式（客观题与主观题的公式不同）及警示线的标准。项目功能差异的分组一般分为：性别差异，男女考生的比较；种族差异，白人考生与黑人考生的比较、白人考生与拉丁美裔考生的比较；经济水平，贫困学生（Economically Disadvantaged）与非贫困学生的比较；英语水平，英语非母语与英语第一语言考生的比较；残疾考生与正常考生的比较。技术报告会包括目前试卷中含有项目功能差异试题的数量与严重程度（B or C）等。

在项目反应理论校准与链接这一章，首先主要介绍项目反应理论的公式，有采用Rasch 模型的，也有采用2PL 的。其次介绍项目反应理论的假设条件是否成立，包括单一维度（Unidimensionality）和局部独立性（Local Independence）。第三，介绍模型拟合度，对于 Rasch 模型，Infit 和 Outfit 是 Winsteps软件使用的两个衡量Rasch 模型是否能很好预测学生成绩的指标。对于2PL 或者3PL，Q1 统计数据和试题拟合图表（Item Fit Plot）是判断模型是否能很好预测学生成绩的指标。第四，预测的试题难度参数（Difficulty Parameter）与试题区分度参数（Discrimination Parameter）的描述性统计结果。最后，链接参数估计，跨年度试卷的链接是把新的试卷的试题参数（难度参数与区分度参数）转换到基准试卷的同一尺度上。这样学生在跨年度的两个试卷上的成绩就可以直接进行比较。这个链接通常依赖的是两个试卷拥有一部分共同的试题（Common Item Sets）。跨年度试卷的链接通常使用STUIRT（Kim & Kolen，2004）[8]这个软件来完成。

在标准设定这一章，教育与心理测验标准（2014 版）强调标准设定需要选择一个适合州测验的标准设定的方法。目前有两个比较常用的标准设定方法：Angoff 和Bookmark 方法。州联盟中小学考试在中小学设立了5 个成就水平：超越期望（Exceeded Expectations），符合期望（Met Expectations），接近期望（Approached Expectations），部分符合期望（Partially Met Expectations），未符合预期。标准设定的专家组根据标准设定的方法来设定每个成就水平分数线（Cut Score）。标准设定通常会在正式讨论前举行一个摸底调查（Pre-policy Meeting），从而使分数线的设定也考虑到教育政策制定者、一线校长与教师的声音。在标准设定过程中，针对每个水平，标准设定的专家组起草政策与范围成就水平描述。这样使学生、家长、教师明确达到相应水平获得什么样的知识、技能，以及什么样的学生需要帮助。

在成绩报告一章，值得关注的是，技术报告包含了学生在每个成就水平上的百分比，以及对比上一年考试在每个成就水平的百分比的变化，例如学生人数在符合预期上是否比前一年更多了，有的州把学生在前两个成就水平的百分比之和，即超越期望和符合期望，作为学校和教师评价的一个指标。技术报告还包含效度与信度两章，因为这两章在同行评审中已经介绍，这里不再赘述。

州教育厅每年花大约5-10 万美元请考试机构撰写技术报告（3-8 年级和高中），技术报告是心理测量师与内容专家共同合作的成果，技术报告确保州测验的开发遵循了教育与心理测验标准（2014版）的合理程序，保证了测验开发的规范化，证明了测验的质量（信度与效度），同时也为同行评审提供重要文件（当然同行评审不只需要技术报告，还需要其他文件材料的证明）。

三、美国州级测验中的（心理测量）技术咨询委员会

心理测量技术咨询委员会与同行评审和技术报告密切相关，技术咨询会的会议纪要可以作为提交同行评审的重要证据。在会议中如果讨论了州测验在等值和链接上的设计，那么这是保障州测验跨年度试卷可比性的重要依据。心理测量师在技术报告中对州测验效度与信度的数据或证据的收集，常常也是技术咨询会讨论的重要内容。下面主要介绍技术咨询委员会的使命、组成与会议的形式等。

内布拉斯卡州教育厅技术委员会的宗旨是：“审视本州州测验计划，州测验的质量，教育问责体系”[9]。智能平衡（Smarter Balanced）测验是美国十四个州采用的考试，其（心理测量）技术咨询委员会的目标是对州测验的效度、信度、准确性和公平性方面提供技术指导。技术咨询委员会的成员是来自心理测量领域有一定科研成果的专家。这些专家的研究领域包括：测验设计，计算机自适应考试，对特殊教育学生的考试，考试的使用，数学及语文专业知识等。例如内布拉斯卡州教育厅技术委员会包括5 名大学心理测量学相关专业的教授与5 名考试机构或独立咨询人等。

美国各州基本上很少有自己开发的试卷，一般是通过外包的形式由专业的考试公司来进行。专业的考试公司一般都拥有由心理测量师与内容专家组成的团队，而且有的公司承揽多个州测验的合同，拥有规模化与专业化的优势。技术咨询委员会会议上一般由考试公司的心理测量师以PPT 的形式提出问题，这些问题一般都有一定的前期研究，建立在数据分析的基础上，然后由技术委员会委员提出指导意见。技术咨询委员会通常设一名会议主持人，同时负责记录各委员的意见，会议结束后再监督各考试公司的心理测量师根据委员会的意见予以实施。一般来讲，技术咨询委员会每年春节（3-4 月份）和秋季（10-11 月份）召开两次会议。由于疫情，今年许多州采取远程视频会议的方式举行技术咨询委员会会议。

实例问题一：内布拉斯卡州对学生增长百分比（Student Growth Percentile ，SGP）的方法比较感兴趣，认为SGP 比量表分数（Scale Score）和Z-分数能更好地测量学生的成长。对技术咨询委员会的问题：技术咨询委员会的委员是否可以谈谈采用SGP作为评价学校和学区表现的优势和劣势？实例问题二：内布拉斯加州准备进行3-8 年级的标准设定，某某考试公司提交了标准设定的计划书（包括标准设定的方法、专家组的招募等），请问技术咨询会委员对这个计划书（包括标准设定的方法及过程）有什么反馈意见？委员对范围成就水平描述草案有什么反馈意见？请委员对于设定分数线需要三轮判决（Judgment）还是一轮判决提出指导意见。值得一提的是，有的问题专家委员会会一直跟踪及反馈。例如教育责任制的模型问题，是内布拉斯卡州技术委员会连续3-4 年讨论的主题。

四、我国教育考试改革可借鉴的经验

从教育政策制定者的角度来看，首先要重视中小学3-8 年级的教育问责制。我国当前中小学教育受高考、中考的影响较大，这导致有的地方教育主管部门过度关注高考与中考的升学率，而忽视低年级学生的成长。美国3-8 年级的教育问责体系是一个参考，美国有的州甚至把学前班至小学二年级也放入教育问责体系当中。跨年度试卷（Across Year Form）的等值是教育问责体系的基础，否则第一年的试卷简单，而第二年的试卷难，这样就无法衡量学生的学习成绩是否有进步。开发具有高质量（效度与信度）的测验，并通过等值与链接保证跨年试卷的可比性需要大量的投入，这不是一个省教育考试院能完成的，最好通过国家层面推动，由几个省教育考试院共同参与或联盟。如美国州联盟中小学考试与智能平衡测试都是美国教育部投巨资启动，然后多个州参与资助运行的。其次，探索省级测验的同行评审制度与技术报告要求。美国教育部把州测验是否通过同行评审与教育资金拨款联系起来，使各州教育厅必须重视州测验的质量，从而保证了教育问责制的有效实施。我国教育部或教育部考试中心，也可以在几个省试验与探索同行评审制度与省级测验的技术报告制度。需要明确的是，如果没有拨款或资金的鼓励，很难调动省级考试院对省级测验进行改革（如推行跨年度试卷的等值等）的积极性。对省级测验的改革需要有3-5 年试验、探索、总结和完善的过程。在这个过程中，来自教育一线的反馈和心理测量专家的跟进指导都是必不可少的，待经验成熟后才能推广至全国。

从各省级教育考试院的角度来看，首先可以开发有质量的省级测验。应当认识到3-8 年级教育问责制的重要性（发现薄弱的学校，及时予以支持与帮助），认识到提高省级测验的质量与跨年度试卷等值对实施教育问责制的重要性。推动跨年度试卷等值的难度不小，这需要各省级教育考试院进行探索，而且需要心理测量师在测验的设计开发、等值与链接上进行大量的工作。其次，改革需要循序渐进。跨年度试卷开发后，先在小范围的地方进行试验，待跨年度试卷等值的模式比较成熟、效果也很好的情况下再在省级范围内推广，推广也要循序渐进，例如先从初一示范，然后第二年推广到小学六年级与初中二年级，然后推广到小学三年级至初中三年级，最后推广到高中。最后，有条件的教育考试院可建立（心理测量）技术咨询委员会。国内目前的模式常常是考试院与某大学的心理学系达成合作框架协议，或者共同创建考试研究中心。这是一个很好的开端，同时，亦可考虑聘请外国教育测量专家。

最后，需要推动我国心理测量学科的发展。美国有大约135 所教育测量学博士、硕士授予点，而我国心理测量学博硕士授予点并不多。以美国医生资格考试认证中心（National Board of Medical Examiners，NBME））为例，该中心拥有 30 多名心理测量及相关专业博士学位的心理测量师。如果师资力量缺乏，可以考虑聘请海外教育测量专家远程授课。也可以由教育部考试中心牵头建立一个心理测量国内外专家库，向海内外招募（心理测量）技术咨询委员会的后备人员，然后向各个教育考试院推荐。只有在心理测量专家指导下，才能保证开发出高质量的省级测验。