试题难度分析的指数模型

2021-09-10黄玉平

中学生学习报 2021年7期

黄玉平

一、问题提出

检验教学质量，最常用也最有效的手段，是进行测试。在当今大数据广泛应用的时代，每次测试结束后，各种阅卷系统都能导出每个学生每道题的得分，如果能对这些得分情况进行深入分析，能够发现和提示教学中可能存在优势与不足，优势可以促进管理者发现优秀的教学经验，不足则提醒管理者寻找教学改进的措施，从而不断提高教学水平。

当考完一套试题，许多教师会进行试卷整体及各小题的得分率进行分析，研究各个群体解得较理想的题，解得不理想的题，评判的标准就是一个问题。

本文将全市同一个年级的学生做为全体，将其中每个学校的学生或每个班级的学生做为群体。

一些分析软件，将全体得分率超0.7以上的设为容易题，评价为解答较好的题;得分率在0.3与0.7之间的为中档题，评价为解答一般的题;低于0.3的为难题，评价为解答较差的题。这种绝对标准的方式，适合对整套试题进行难度分布的评价，不适合对具体某个群体的解答情况进行评价。例如，某次考试，某群体在第1小题得分率为0.8，如果按绝对标准，属解答较好的题，如果其它基础更弱的群体很多都考了0.8以上，那么这个群体在第1小题的解答情况就不太理想了，反之，这个群体在第10小题得分率为0.2，按绝对标准，属解答很差的题，如果这是各群体中解答情况最好的，远远超过其它群体的得分率，那么第10小题反而是这个群体解答很好的题。

在一些学校，特别是初中和小学，会将同一个年级的每个班的每个小题的得分进行排序，这种方法在各班为平行班，基础相近时，可以起到一定评判的作用，例如全年级有24个班，A班全卷平均分排名全年级第4，第8小题平均得分排名全年级第23，可以提示A班第8小题解答相对较弱。这种用排名次对基础不同的群体答题情况进行评价的办法，比较粗糙，例如：某班基础最强，全卷平均分和各小题得分均排名第1，无法评判这个班哪个小题解答较理想，哪个解答不理想。

试题研究中，难度系数是被广泛应用的一个概念，一道题的难度系数的简单定义是：考试的全体人员在这道题上的平均分得分率，即全体人员在这题的得分之和与这道题满分值与人数之积的比。

一个较容易的题，基础较好的群体会解得很好，基础较弱的群体则会水平低一些;一个较难的题，各群体的得分率都大幅下降，群体之间的差异很大，如果没有与群体水平对应的评判断标准，很难判断各群体的答对情况是否正常，难以从中获得反思，从而不能充分发挥考试的价值。

笔者发现，某个群体对某个試题的实际得分率，主要受到两个因素的影响：试题本身的因素，群体的水平高低。同样的试题，水平高的群体，得分率相对较高。经过对考试后统计出的各群体实际得分率表的长期观察和思考，本文对试题难度的表示提出了一种新的模型：难度指数模型。

本文提出试题难度的指数模型，并给出一种评价标准：用同样的试题相对某个群体的难度指数与它相对全体人群的难度指数的差距，作为这个群体解答这个试题的评价标准。

二、解决方案

（一）将试题得分化为试题得分率

用得分率比直接用得分更科学：得分率排除了试题满分值对结果的干扰。例如A题满分值为12分，实际得分6分，B题满分值为10分，实际得分也是6分，表面上两题得分相同，实际A题得分率为0.5，B题得分率为0.6。

群体A对试题N的得分率（或通过率）：设群体 A 的人数为，群体A解答试题N的得分数之和为M，试题N的满分值为F，则群体A对试题N的得分率。

（二）将较难试题分解为若干环节

将试题看做由几个环节串联而成，环节可以理解为更小的试题。对同一个群体，不同试题的得分率由各题所包括的每个环节的得分率决定。较难的试题，一方面是环节越多，另一方面是这些环节中得分率低的也越多。上图是试题N由三个环节构成的示意图，三个环节呈串联状态，只有连续正确解答三个环节，才能完成试题N的解答。

（三）定义“标准微环节”和“最简单题”：若全体对某一批试题的得分率的平均值为0.85，由称这批试题为全体的“最简单题”，规定全体的“最简单题得分率为0.85，同时，称全体得分率为0.85的环节为全体的“标准微环节”。计算每个群体在这批试题上的各题得分率平均值，得到每个群体的“最简单题得分率”，称同样得分率的环节为该群体的“标准微环节”。笔者在实践中观察了近十年，在某个城市，由于各群体生源格局相对固定，每个群体这样的“最简单题得分率”相当稳定，例如，最好的群体各科都在0.95左右，居第二的群体则在0.92左右，最弱的群体则在0.6左右。

如果将一个试题分解为一些环节串联而成，并且将每个环节都看作由一定数量的“标准微环节”串联构成，则可以认为：每道试题由一定数量的标准微环节构成，试题得分率与标准微环节的数量呈指数函数关系，即：标准微环节数量越多的题，得分率越低;对于某个群体来说，将一个试题分解为该群体的“标准微环节”，其数量与得分率呈指数函数关系，其底数为该群体“标准微环节”的得分率。

环节四：运用不等式，求最值：

得分率预测：本题中，环节一相对简单，由于有两个知识点，假设相当于 2 个标准微环节，环节二则比较复杂，假设相当于 4 个标准微环节，环节三有较复杂的计算，因此假设相当于 5 个标准微环节，环节四用到不等式，假设相当于 4 个标准微环节，这样全部加起来，相当于 15 个标准微环节。

假设群体A和群体 B 的“最简单题得分率”分别为0.9，0.8，则群体A和群体B对此题估计得分率分别为：fT （ A） = 0.915 = 0.2， fT （B） = 0.815 = 0.03 。

真实的结果是，这道试题的得分率确实相当低，即使是全市最强的学校，也仅有不到三分之一的学生能够正确解答。

（四）难度指数定义：某个试题对全体的“标准微环节”数量，就是这个试题相对全体的难度指数。对于某个群体，某个试题的相对本群体的“标准微环节”数量，即这个试题相对本群体的难度指数。

难度指数计算方法：在一份试卷各题中，将全市得分率最高的一批试题按得分率由高到低排列，其中得分率在0.7至0.95之间的试题一般须占全卷小题数量的30%，即8个以上，若这批试题的全市得分率的平均值在0.85左右，则将它们表示为“全市最简单题”。全市各群体在这批试题上的得分率，是它们的“最简单题得分率”。实践中，基础最好的群体（学校）“最简单题得分率”在 95%左右，基础最弱的群体则在60%至80%之间。

如果整卷试卷过难，则将所有题按全体得分率由高到低排列，取前三分之一（至少八个试题）的得分率的平均值，通过折算的办法，得到理想的全体最简单题得分率：

与此同时，将某群体对这批试题的得分率的平均值，同样折算为理想的此群体最简单题得分率，且。

（五）难度指数的计算方法：若某题N的全体得分率为，则此题全体的难度指数为（当时，改用计算）。若某题N的群体A得分率为，且群体A“最简单题得分率”为，则此题对群体A的难度指数为（当时，改用）。

三、运用举例

例1.用“最简单题得分率”衡量各群体基础知识的教学质量水平以及进步情况。教学质量越高的群体，最简单题得分率越高。同一批对象，每一个群体的相邻两次考试的“最简单题得分率”比较，可以分析出每个群体的基础知识教学质量是否提高。

例2.判断某一次考试中，各群体在不同试题的优劣情况。某一次考试，对于试卷中每一个试题，用试题对全体的难度指数与试题对某群体的难度指数之差，判断某群体在哪些试题上解答优于全体（差值为正数），哪些弱于全体（差值为负数），特别是差的绝对值较大的那些试题，应特别注意。可以将试卷按知识板块或考查的学科核心素养等类别将若干题合并为新的题，按以上方法计算，可以每个群体判断这些板块或相应的学科核心素养解答是优，还是弱，从而判断是否加强这些方面的教学。

例3.命题时，除了预测每个试题的全体得分率外和整个试卷的全体平均分外，还可以预测每个试题的全体难度指数，并根据每个群体的最简单题得分率，预测每个群体每个试题的得分率，从而预测整个试卷每个群体的平均分，与目标平均分对比，及时加以调整，更好地控制试卷的难度。

例4.预测各群体或个人的提升空间，提供明确的发展目标。

在某份试卷中，当群体的简单题得分率由 0.8提升到 0.9时，则此群体预测总分由59分提升到 90分，提高了31分;如果这个群体的简单题得分率由0.9提高到0.95，则此群体预测总分可提升到114分，提高了24分。再如某个学生，如果最简单题得分率为0.98，则这个学生的预测总分为134分。

四、思考

1.用试题“难度指数”替代“难度系数”来分析试题，能获得对试题更准确的认识。试题的复杂程度和结构特点决定它的客观难度指数。不同的群体由于各自基础掌握程度不同及知识面的宽窄不同，解答同一题的得分率差距非常大，因此不能用直接用各群体实际解答得分率高低来简单评判它们解答某个试题的水平是否符合预期。本文用全体的难度指数做为评价标准，数据比较稳定，参考意义较大。

2.本文提出的总体“简单题得分率”与各群体“简单题得分率”，能够揭示学生学习成效产生的根源。总分高的，其“简单题得分率”也明显地高，两者呈高度相关的关系，大多数情况两者的相关系数都在0.9 以上。“简单题得分率”的变高还是变低，直接反映了基础知识教学的质量变高还是变低，为评价基础知识教学提供了可行的数据依据。

3.认识到试题难度是个客观的量，能得出结论：要提升群体的总分，必须提升群体解答各个简单问题的得分率，并且在思想方法上不能有遗漏，必须在平时大力培养学生的学科核心素养。因此课堂教学必须切实突出教学重点，解决学生理解知识产生与发展过程中存在的问题，大力提升知识的理解程度和运用的能力，使学生的素养得到真正的改善。

4.用难度指数进行各题与总分预测，也存在一定的偏差：简单题得分率比较高的群体，在较难的题上得分预测往往偏高;简单题得分率比较低的群体，在较难的题上得分预测往往偏低平。在实践中往往要结合各群体最初的成绩与本次考试的简单题得分率进行回归分析，用回归以后的简单得分率期望值进行各题与总分预测。

参考文献：

[1]鮑建生.中英两国初中数学期望课程综合难度的比较【J】.全球教育展望，2002 （9）：48-52.