地理试题的公平性检验<br/>——以淮安市2016届高三第一次调研测试试题为例

地理试题的公平性检验
——以淮安市2016届高三第一次调研测试试题为例

2016-11-10张三元

地理教学 2016年16期

关键词：淮安市公平性分组

张三元

（淮安市教学教研室, 江苏淮安 223001）

地理试题的公平性检验
——以淮安市2016届高三第一次调研测试试题为例

张三元

（淮安市教学教研室, 江苏淮安 223001）

以淮安市2016届高三第一次调研测试获得的数据为基础，探讨了检验试题公平性的理论依据、技术路线，运用excel软件实现MH法检验试题公平性得到相关结果并建立相应模板。根据得到的结果，文章进行了案例分析并对公平性检验在高中阶段的应用进行了初步的思考。

试题公平性；MH法；调研测试；excel

保证试题公平是实现考试公平的前提和保证，然而长时间以来高中地理的各级各类测试中对试题公平性的关注往往是定性的而非定量的，检验试题公平性往往依据教师的经验，这在一定程度上影响了对试题公平性判断的准确性。

近来，笔者对淮安历年统测的成绩进行分析的过程中，注意到运用统测大数据检验试题公平性，有了一定的收获。

一、检验试题公平性的理论依据

所谓试题的公平性，就是对不同群体的学生来说，没有偏向，一视同仁，结果平等，机会均等。影响试题公平性的因素很多，如性别差异、城乡差异、校际差异（如不同星级的学校之间的差异）、教材差异等。

检验试题公平性的方法很多，比如同质性信度分析、试题功能差异（DIF）分析等。其中，试题功能差异分析试图通过统计方法来识别题目偏差，是目前使用较广泛的一种公平性分析方法。

MH法是检验试题功能差异最广泛的方法之一，得名于两位研究者Mantel和Haenszel，该方法将被试者分为两个群体：由研究目标组成的目标组和作为参照的参照组，通过统计目标组和参照组正误频次求得固定偏移比αMH，进而求得固定偏移比的标准化值ΔMH，从而获得对试题公平性的认知。

二、检验试题公平性的技术路线

1.确定组别变量

首先要确定目标组和参照组以及匹配变量并进行数据分组，比如为研究淮安市2016届高三第一次调研测试中不同学校之间的试题公平性，笔者以老四星级学校为目标组，其他学校为参照组，试卷总分为匹配变量，以本次调研测试地理学科等级划分作为数据分组的依据，分别将学生分成A、B、C、D四组。

A B C D目标组（老四星）总分≥72 72＞总分≥59 59＞总分≥34总分＜34参照组（其他）

2.统计对错人数

统计每个匹配小组中目标组和参照组对错人数。如第2题A组统计结果如下：

列A列B列C列D行6正确人数错误人数总人数行7目标组196 215 411行8参照组71 75 146行9总计267 290 557

3.计算标准化值

固定偏移比αMH＝（Σ B7*C8/D9）/（Σ C7*B8/ D9）。其中B7等表示上述表格中对应列和行的单元格（下同）。

固定偏移比的标准化值ΔMH＝－2.35*ln（αMH）。

通过计算可得到本题αMH＝1.48，ΔMH＝-0.92

4.检验DIF显著性

一般根据以下表格来检验DIF显著性：

|ΔMH|等级显著性＜1 A项目可以直接用于测验＞1且＜1.5 B项目经过专家修改后可以用于测验＞1.5 C除非专家认为项目至关重要，否则应被删除

其中ΔMH＞0表示对参照组有利，而ΔMH＜0表示对目标组有利。本题ΔMH＝-0.92，│ΔMH│<1表明可以直接用于测验。

三、在excel中实现MH法检验试题公平性

专家往往使用SPSS等专业软件统计，但对于普通高中地理教师来说，利用excel进行MH法检验试题公平性可能更易于实现。具体操作如下：

1.导入原始数据

原始数据包括两张sheet，其中一是原始成绩，重命名为“成绩”，其表头如下：

列A列B列C列D列E列F列G列H……列AC列AD列AE行1姓名县区卷面得分客观分主观分dx-1 dx-2 dx-3……mx-6 mx-7 mx-8行2马骞三星74 35 39 0 0 2……3 3 3

另一是分组依据，重命名为“分组”，其中目标组为老四星组，参照组为其他组，数据分组依据为本次测试等级划分分数线。相关数据如下：

列A列B行1目标组老四星行2参照组其他行3行4 A 72行5 B 59行6 C 34行7 D 33

2.统计对错人数

目标组正确人数计算公式如下：

=SUMPRODUCT((成绩!B:B=分组!$B$1)*(成绩!F:F=2)*(成绩!C:C>=分组!$B$4))

其他各组公式可以依此类推。最终可以统计各题各组的对错人数等相关数据。如第一题相关数据如下：

3.计算标准化值

αMH、ΔMH可以根据以下公式分别计算并分别填在Q3、Q4单元格。

列A列B列C列D列E列F列G列H列I列J列K列L列M列N列O列P列Q行1 dx-1正确人数错误人数总人数正确人数错误人数总人数正确人数错误人数总人数正确人数错误人数总人数行2目标组174 237 411目标组270 496 766目标组366 827 1193目标组367 830 1197行3参照组43 103 146参照组116 307 423参照组231 969 1200参照组236 991 1227行4总计217 340 557总计386 803 1189总计597 1796 2393总计603 1821 2424

αMH=((B 2*C 3/D4)+(F 2*G3/H4)+(J 2*K 3/ L4)+(N2*O3/P4))/((C2*B3/D4)+(G2*F3/H4)+(K2*J3/ L4)+(N3*O2/P4))

ΔMH=－2.35*ln（Q3）

利用同样的方法可以计算出所有题目的αMH、ΔMH值，还可以将最终的excel文件存为模板，这样今后只要重新录入数据（如考生成绩、等级标准、目标组和参照组等）就可以自动生成相关数值。

四、检验试题公平性的案例分析

1.校际差异的检验案例：第7题

以全体考生为样本，以老四星为目标组、其他学校为参照组，最终计算出各题的ΔMH，发现大多数题目的|ΔMH|在1.5以内，仅单选第7题和双选第8题略大于1.5，说明总的来说校际差异不明显，但大多数题目ΔMH<0，这表明对目标组相对有利。其中单选第7题的ΔMH为－1.57，是本份试卷ΔMH最大的题目。题目如下：

图7为北半球某地热力环流模式图。读图，回答7～8题。

图7

7.图中甲、乙、丙、丁四地

A．甲地气温低于丁地 B．丁地气温低于丙地

C．乙地气压高于丙地 D．甲地气压低于乙地

专家组对此题进行了分析讨论，认为本题选用热力环流的三维立体图，对空间概念有较高的要求，因而对参照组的学生有一定难度。如果将“等压线”几个字直接标示在图上，并且将甲、丁之间和乙、丙之间标上反映气流运动方向的箭头，可能降低对空间概念的要求，从而促进不同级别之间的公平性。

2.性别差异的检验案例：第24题（双选题6）

因为本次统测没有录入性别数据，所以这里只能以部分考生（淮安市某中学考生）为样本进行统计和计算。我们以男生为目标组、女生为参照组，最终计算出各题的ΔMH，发现部分题目性别差异明显，其中多数题目对目标组（男生）有利，双选题6的ΔMH更是高达－3.22。

我们分析，如不考虑由于采样样本较少可能造成的误差，出现这一现象的主要原因，一是本份试卷自然地理占比相对较大，对考生地理思维和地理核心素养要求较高；二是本份试卷覆盖面广，多数试题的综合性较强。这也从一个侧面印证了男生的读图能力、区域定位能力和综合判断能力强于女生，当然女生在记忆和语言表达等方面强于男生。

总的来说，本次调研测试试题的编制比较公平合理，可以达到预期的效果和目的。