大规模教育考试诊断性分数报告的研发与应用<br/>——以青岛市初中毕业生学业水平考试成绩报告单为例

大规模教育考试诊断性分数报告的研发与应用
——以青岛市初中毕业生学业水平考试成绩报告单为例

2020-05-13刘海龙

教育测量与评价 2020年5期

刘海龙

我国大规模教育考试承担着评价、诊断、选拔等多重任务，是教育评价制度改革的关键一环。现阶段的大规模教育考试如中考和高考，考试组织严密规范，考试命题和数据的质量很高，但也存在一些有待完善之处，如考试大多只报告原始分数而缺少对内容领域、能力层级、学科素养发展水平的深层次诊断与反馈，如此，考试分数容易变成评价学生学业发展和教师教学质量的唯一价值导向，更可能进一步加剧教育质量观和成才观为考试分数所左右的状况。[1]在这样的背景下，创新考试分数报告模式，为公众提供更加专业化、多样化的服务型评价[2]，充分发挥大规模教育考试的评价、诊断和反馈功能势在必行。

到目前为止，国内对改革和创新大规模考试分数报告的实践研究尚不多见，较有影响力的是2011 年云南和海南两省在教育部考试中心的主导下实施的“云海工程”。[3][4]“云海工程”采用原始分和百分等级分数为高考考生提供学科及内容领域的分数报告，就改革和完善高考分数报告方式进行了有意义的探索。

国际上的许多大型教育测评项目都研发了比较成熟的分数报告系统。作为美国高等学校入学考试之一的ACT，可为考生提供StudentReport[5]、High School Report[6]、College Report[7]等分数报告，这些分数报告从多个维度评价学生的学业水平[8]，同时为考生提供大学专业规划建议，有效地实现了考试的选拔、诊断、生涯规划指导等功能[9]。国际学生评价项目（PISA）设计使用基于内容领域的评价框架，构建能力水平量表对学生素养进行测评，并结合影响学业成就的背景因素，提供直观的多元化评价报告，其测评理念与方法非常值得我们借鉴参考。[10][11]

青岛市招生考试院以为大众提供优质的考试评价服务为价值取向，于2017 年开始研发面向初中毕业生的网络版诊断性分数报告——“青岛市初中毕业生学业水平考试成绩报告单”。该分数报告自2018 年正式发布以来，经持续的研究和调整改进，已经可以为中考考生提供能直接运用于学习改进以及初高中阶段学习衔接的多角度、深层次的评价信息，并能帮助考生在高中阶段课程选择、生涯规划等方面进行初步的定位，获得了良好的社会反响。这充分说明在大规模教育考试中合理运用分数报告，可以从更多的维度解释考试分数的含义，从而更好地促进考试的评价、诊断和反馈功能的发挥，助力教育评价的深层次改革。本文尝试通过对青岛市初中毕业生学业水平考试成绩报告单的已有研究与实践进行总结，探析大规模教育考试诊断性分数报告研发和应用的方法。

一、诊断性分数报告的研发路径

1.测量评价层面的核心任务

诊断性分数报告的研发在测量评价层面的核心任务有3 个：建构分数报告的诊断性测评框架；依据所建构的测评框架命制试题，并标定试题属性；考试数据分析建模与测评框架效度验证。

（1）建构分数报告的诊断性测评框架

如图1 所示，诊断性测评框架的建构就是确定分数报告的结构和分数转换的方式，并基于学科知识领域评价维度开发描述性评价模型。诊断性测评框架应在有关理论、实践经验以及测评目标的基础上构建，各诊断维度的定义要求清晰、可测，并具有积极的教育意义和诊断评价的价值，可以被广泛接受，同时测评框架对命题而言应具有良好的可操作性。

图1 分数报告的诊断性测评框架

（2）依据所建构的测评框架命制试题，并标定试题属性

只有以测评框架为蓝图进行命题，所得到的分数报告才是有意义的，因此需要在命题环节依据测评框架设计多维细目表等命题工具，以管控试题结构和质量，保证其诊断效度。首先应通过培训，让命题专家充分理解分数报告的目标、建构诊断性测评框架的原理、命题工具的编制与操作方法，以保证所命制的试题能对测评框架进行充分表征，使试题真正成为测评框架的实现形式[12]；其次应组建独立的审题组进行规范的试题审核[13]；最后，由命、审题专家和测评专家共同完成对试题属性的标定，并综合分析评估试题对所属测评维度测量和诊断的效度。

（3）考试数据分析建模与测评框架效度验证

在获取施测数据后，需要运用经典测量理论（CTT）和项目反应理论（IRT）来分析评估命题的质量。基于CTT方法的评估虽有一定局限性，但也具有易理解、时效性强等优势。青岛市招生考试院主要通过自主开发的考试数据分析系统获取试卷与试题分数的集中量、差异量、难度、区分度、作答分布、得分分布等统计指标进行分析。基于IRT 的质量评估，则主要运用Conquest[14]等软件，采用分部计分模型（PCM）[15]，获取能力难度分布图、ICC 曲线、题总相关等信息，用以评估测评框架下的命题及其作答反应之间的因果关系是否成立[16]。特别地，由于描述性评价模型涉及水平等级的划分，故还需要对其进行效度验证，即运用AMOS 结构方程模型进行验证性因子分析[17]，对描述性评价模型的试题标定进行调整，以求获得较好的“数据—模型”拟合效果。之后，组织学科专家抽样审阅试卷，借助对考试数据的分析，结合学生实际作答表现对描述性评价模型进行调整，并逐步明晰考生的不同能力水平与各评价维度中的分数表现的对应关系。

2.技术路径

诊断性分数报告的研发由3 个团队协作完成：测量评价专家和命题专家组成测评组，负责分数报告的理论设计、命题及数据分析；考务管理组负责考试的组织实施及阅卷质量监测；网络系统组负责根据测评组的需求进行软件开发、数据处理、系统调试及网络管理。

在实际操作层面，诊断性分数报告研发的技术实现路径如图2 所示。在中考这样的高利害考试中分析并报告考生分数，存在较高的风险，且对分数报告的科学性要求也非常高。所以，首先要进行充分的调研，广泛征求意见，研判风险并采取有效的保障措施，要组织高水平专家评审，对研发思路和方法进行指导，并在此基础上完成分数报告的初步设计。其次，要集中测评专家、学科专家以及软件工程师进行多轮研讨，研发测评框架、讨论分数报告的呈现方式、开发网络系统，并使用往年数据进行初步效果测试。在入闱命题期间，要组织针对性培训，以提升命题的质量和诊断效能。最后，在实施考试获取数据后，要依靠数据支撑来完善测评框架。在分数报告正式发布前，要进行充分的测试，确保分数报告发布的万无一失。

二、诊断性分数报告的设计

图2 诊断性分数报告研发流程

图3 A 考生分数报告示例——整体报告+数学学科报告

诊断性分数报告包括整体报告和学科报告两个部分，图3 展示的就是A 考生分数报告的部分内容。

1.整体报告

整体报告包含学科学业发展评价和综合能力与素养发展评价两个维度。

（1）学科学业发展评价

学科学业发展评价是对考生考试成绩的整体评价，首先包含考生的语文、数学、英语、道德与法治、物理、化学、历史、地理、生物等9 个笔试学科的分数及相应等级（等级按区域中考录取政策以固定比例划定）。以往，学生考试后得到的主要反馈信息是这些科目的原始成绩，以青岛市初中学业水平考试为例，语文、数学、英语科的满分为120 分，物理科的满分为100 分，化学、历史、地理、生物科的满分为80 分，道德与法治的学科成绩转换为“合格”与“不合格”两个等级。因为各个学科的分数并不在同一个评价量尺上，学生单从原始分数无法获取更多自己学科发展水平的有效信息。同时，还要考虑在基础教育阶段，学生成绩不允许进行排名、在分数报告中使用百分等级分数可能会引起误解等情况。在这样的情况下，分数报告可以将各学科的原始分数以线性转换的方式转换为导出分数T 分数[18]，再将导出分数通过可视化技术（雷达图）来呈现。这种基于统一评价量尺的分数转换和报告方式，既能使考生不必纠结于导出分数的含义，又能清晰显示学生在各个维度上的发展情况，可以帮助学生找到自己的优势学科和劣势学科，分数报告更加直观易读。在分数报告的其他评价维度中，也采用了同样的分数转换和报告方式。

（2）综合能力与素养发展评价

素养是学生通过长期学习积累而生成的高阶综合思维能力。[19]2017 年版普通高中课程标准凝练了各学科的核心素养，尽管2011 年版义务教育课程标准没有明确提出初中阶段的学科核心素养，但聚焦素养的评价是教育测评发展的重要趋势，在分数报告中设计综合能力与素养发展评价维度就是基于上述认知和教育实践经验的一种尝试。综合能力与素养发展评价维度由学科专家依据义务教育课程标准，同时以普通高中课程标准提出的核心素养体系为参考，经深入的探讨而建构，划分为人文素养和科学素养两个子维度，其内涵与结构如图4 所示。

图4 综合能力与素养发展评价结构

以科学素养评价维度的建构为例，首先由学科专家从学科测评目标中抽取出相关的素养要素，并进行充分的细化解构（见表1），同时广泛征求一线教师的意见以扩大讨论范围，对评价维度的解构进行有效的补充，确保每一个评价维度的定义能被普遍接受，并且能够清晰地与试题建立映射关系。

表1 科学素养评价维度解构

聚焦学生素养发展的综合能力与素养发展评价，部分基于理论，部分基于实践，意义不止于诊断，更多指向反馈和引导，即在对评价框架的建构与解构、考试命题、评价与分析的研究过程中，引导测评专家、学科专家、一线教师思考和探索对素养进行测量与评价的途径，同时通过分数报告引导考生进入高中阶段学习后更加关注学科核心素养的提升。

2.学科报告

考生的分数报告包含9 个学科报告，每个学科报告包含知识领域评价和能力层级评价两个维度。

（1）学科知识领域评价

学科知识领域评价一方面使用雷达图展示学生学科知识领域的表现情况；另一方面，根据学生在各学科知识领域中的作答表现提供个性化的描述性评价，并提出与学生自身能力相适应的、有利于学生能力提升的建议。

学科知识领域评价维度源自课程标准对学科知识的分类，这种分类不仅对学生和教师来说比较容易理解，而且对于学生知识领域表现的诊断来说也非常有意义。因为即使是学科分数相同的考生，他们在学科内各领域中的表现也不尽相同，所以知识领域评价可以提供比学科分数更为深入也更有价值的信息。

关于学科知识领域的划分（见表2），需要重点考虑“够不够测”的问题，即如果一门学科的某知识领域在试卷中涉及的题量较少，则这个领域的测试信度不容易得到保证，所获取的考试数据将无法充分支持对此领域的评价。这就需要学科专家、测评专家进行联动，使划分出的每个知识领域都具有一定的题量和合理的难度分布，以保证每个知识领域的测量数据都有较好的信度和效度。初中学业水平考试的学科试题题量以得分点记，一般都在50 个以上，每门学科以设置5～6个知识领域比较合适。而对于题量较少的部分知识领域，就需要进行具体的分析和评估，如考虑与其他领域整合，或减少描述性评价等级。

尽管分数报告在知识领域评价维度采用了基于导出分数的可视化图表报告分数，但本质上仍然是对考试结果的抽象表达。[20]因此，诊断性分数报告还需要通过描述性评价的方式清楚地告知学生“能做什么”，即在学科知识领域下建立描述性评价模型，以明确在每一个知识领域中，不同分数考生的外显的作答反应是怎样的，并在此模型的基础上，生成学科知识领域描述性评价报告。图5 就是B 考生英语学科报告中的知识领域描述性评价与能力提升建议部分。

图5 B 考生英语学科报告截图——知识领域描述性评价与能力提升建议

描述性评价模型由描述性评价建构图、试题知识领域属性标定、知识领域原始分数与导出分数、等级分数划界值表组成。知识领域的描述性评价建构图是依据Mark Wilson 提出的建构图方法[16]建立的。以表3 的英语学科“阅读理解与表达”知识领域为例：该知识领域表现水平划分为5个等级，箭头向上的方向表示高水平表现；表格第一列的作答表现由学科专家依据经验进行归纳预设，可以用得分率描述，也可以根据学科各知识领域的特点设置针对某些典型、关键问题作答情况的要求；描述性评价的内容是由学科专家归纳的不同作答水平考生的能力表现特征；还要根据各级能力表现特征，找出学生在相应领域的“最近发展区”[21]，以便提出与学生能力水平相适应的学习建议。

需要说明的是：①描述性评价建构图的等级数要根据学科知识领域所涉及题目的难度来确定，一般划分为2～5 个等级，如对于部分学科要求较为基础的领域就可以只设置2 个等级；②描述性评价建构图在归纳时可先从两端开始考虑，即先确定最高水平和最低水平应有的表现，然后通过对行为动词的逐步强化或弱化[22]，同时考虑内容、能力的不同层次的要求，逐步完成对各等级作答表现水平的描述，在这里应尽量使用激励性评价的表述；③描述性评价建构图同时也是命题的标准，在命题时需要考虑什么样的问题可以引发足够的作答反应信息来诊断这些不同的能力水平，只有这样，才能依靠题目进行测量。

虽然初中学业水平考试在属性和特征上更加倾向于常模参照考试，但并不妨碍在分数报告中运用标准参照的方法进行诊断，这里依靠建构图建立的描述性评价模型就是一个标准参照模型。在实施考试获取数据后，测评专家和学科专家在数据的支持下抽样研判不同层次考生的具体作答情况，来对评价等级与作答表现的描述性评价内容进行调整，并制定等级划界值表。

（2）学科能力层级评价

设置学科能力层级评价的目的，是为了诊断并报告考生在不同能力水平的题目上的作答表现，主要依据的是布卢姆的教育目标分类理论。但布卢姆教育目标分类理论在实际的框架设计过程中不能直接使用，需要综合考虑测评性质与目标、学科背景、文化和语言背景、学生的认知水平等诸多因素来进行调整。例如，在选择其中的高阶能力层级如“评价”“创造”进行评价时就需要非常慎重，因为初中学生的认知水平尚未完全达到这些层级，学生的学习内容也较少能够达到这些层级的标准，因此命题时涉及的题目非常少，也就无法在这些层级进行明确的诊断与评价。这就要求学科专家根据课程标准和教学实际合理划分能力层级（见表4），同时对各层级要求、所涉题目比例等进行解构，这也是编制命题工具的基本要求。

表3 英语科“阅读理解与表达”知识领域的描述性评价建构

表4 各学科能力层级划分

三、诊断性分数报告的发布与使用

在诊断性分数报告正式发布之前，我们需要对分数报告的实际展示效果进行广泛验证，重点评估包含极低分、极高分、数据部分缺失等极端情况的分数报告效果。同时，通过电视新闻、报纸、网络等途径积极宣传、解读发布分数报告的目的和意义，合理引导社会预期，同时编制简洁易懂的分数报告使用手册[23]，帮助考生正确理解和使用分数报告。最终的分数报告以网络形式发布，考生只需在发布页面登录，即可浏览自己的网页版分数报告，同时也可下载PDF 格式的报告。

运用诊断性分数报告，考生可以全方位、更加深入地了解自己在学业成长过程中一次关键考试的表现。在考试整体评价方面，如图6 所示，C 考生可以通过雷达图找到自己的优势学科为英语、语文、数学，且英语学科表现最为突出，而物理、生物、地理学科表现稍差。图6 还表明，该考生在人文素养上有一定的优势，在创新思维能力、信息处理能力、抽象逻辑思维能力等方面则需要多下功夫。

又如前文图3 中的A 考生可以通过诊断性分数报告，清楚地了解到自己在各学科都呈现了均衡发展的良好态势，在数学、物理、地理学科上更是优势明显。更进一步地，从能力素养的角度来看，该考生明显在科学素养方面具有一定优势，特别是抽象逻辑思维能力和创新思维能力表现较好（见图7）。

诊断性分数报告在提供整体评价的同时，还深入到学科内部，评价了考生学科知识领域和能力层级的深层次表现。仍以前文图3 中的A 考生为例，尽管该考生各学科成绩均具有明显的优势，但在学科内部，他仍然能够找到自己相对突出或薄弱的领域（见图8）。

四、总结与思考

1.总结

本研究中的诊断性分数报告运用了教育测评理论和信息技术，实现了科学的、普惠的、个性化的诊断性评价，提升了大规模考试分数的可解释性，为考生提供了更多的、有效的考试反馈信息，可以引导考生从“分分必究”的“应试”思维中走出来，根据分数报告提供的描述性评价及学习建议，及时调整自己的学习策略，这对于考生初高中阶段的学习衔接、高中学段课程的选择，乃至职业生涯规划都有着直接的帮助。诊断性分数报告的研发与实践，串接了区域初中学业水平考试的标准设计、考试命题、考试数据统计分析、分数报告等各个环节，促使市域管理的一项重大教育考试的各方面工作融合为一个有机整体；同时引领考试评价回归教育本质，从关注分数转向聚焦学生发展，体现了教育评价的素质教育导向。诊断性分数报告的研发与实践还极大地带动了区域测评专业团队的建设，通过组织学习培训和实践操作，逐步促使整个团队对项目研究从认知到认同、从实践到回馈，进而使整个区域教育测评研究的水平获得提升。

图6 C 考生分数报告局部——考试整体评价

图7 A 考生分数报告局部——考试整体评价

图8 A 考生成绩报告单局部

2.进一步完善的思考

第一，诊断性分数报告以雷达图和描述性评价的方式呈现，直观易读。但是，该诊断性分数报告给出的描述性评价仍旧缺乏可比较的参照标准，导致所提供的诊断信息仍然不够直接和明确。可进一步考虑在学科内部评价维度上建立百分等级常模，使用百分等级分数进行报告，以便考生和家长使用分数报告时可以获取清晰的参照信息。[24]

第二，诊断性分数报告在进行描述性评价时，选择了在学科知识领域框架下进行，这更多地是考虑到在研究刚起步的状态下，这种局部的描述性评价在理解和操作层面相对于面向学科素养的分级评价来说要容易一些。但随着2017版普通高中课程标准以及高考评价体系[25]的发布，构建以素养为主要维度的测评框架将是未来考试分数报告的重要研究目标。

第三，诊断性分数报告通过专家评估的方式将考生的测评结果与学习行为进行联结，尝试为学生提供可操作性的学习建议。但在这种模式下，无法保证分数报告中的学习建议与每位考生的实际情况完全相符。理想的方式是深度发挥分数报告网络平台的作用，开发在过程性评价中同样可以操作和应用的互动式考试分数报告和评价系统。如此，既可对学生的日常学业水平发展情况进行实时监控与反馈，又能利用网络平台开展学生学习行为的问卷调查，还可通过对学生的学习行为与其考试作答情况进行相关性分析，找到学生学习行为与学习结果之间的良性与不良相关因素，从而真正实现数据驱动下的学习改进。