基于剔除抄袭因素和学生能力因素的题目难度预测研究

2019-12-30王诗吴瑶王春莹朱笑莹

中国教育信息化·高教职教 2019年12期

王诗吴瑶王春莹朱笑莹

摘要：在高等院校的教学中，针对学生不同的学习阶段和不同的教学目的，教师需要在不同情况下布置难度不同的习题以满足教学期望。文章通过开发自定义习题生成系统，设计了相应的实验过程，通过对实验数据进行相关性检验，得到抄袭因素对正确率影响的理性判断。排除抄袭因素影响后，通过对题目正确率、学生能力进行相关性检验，结合学生能力因素，建立二元回归分析模型，构建出习题难度的预测模型，从而精确预测习题预期正确率。此外，文章的研究方法及研究流程具有普遍性和适用性，文中涉及的自定义习题生成系统和习题难度预测模型，可以推广运用在高等院校电子与通信技术学科、物理学学科、数学相关科目的习题布置中。

关键词：教育;回归模型;难度预测;抄袭率;学生能力

中图分类号：G642.0 文献标志码：A 文章编号：1673-8454（2019）23-0022-06

一、引言

在高等院校的教学中，习题布置是帮助学生巩固课堂教授的知识点、考察学生对知识点的掌握程度的重要手段，是一种被广泛使用的教学评价方法。针对学生不同的学习阶段和不同的教学目的，教师需要在不同情况下布置难度不同的习题以满足教学期望。因此，对题目难度进行量化分级对于教育的改革发展有着重要帮助。合理把握题目难度可以帮助教师有针对性地命题，使题目难度达到预设效果，使教师能够更好地规范其对概念、方法及其关系的教学，帮助教师更加科学地在教学的不同阶段进行相应难度题目的布置，从而提高教学质量。同时，难度量化分级可以使学生对题目的难易程度有更为直观的判断，根据所做题目的难度，更客观地了解自身学习水平。《电磁场与电磁波》是一门内容概念抽象、公式繁多、课程体系严谨且对电子与通信技术学科极为重要的科目[1]。所以对《电磁场与电磁波》这门科目进行难度量化分级有着重要意义。

经典测量理论（Classic Test Theory，CTT）采用通过率法表示题目难度;项目反应理论（Item Response Theory，IRT）用项目特征曲线的拐点位置反映该题的难度。CTT或IRT框架下的难度参数，都需要通过实际测试考生获得，这种预测方式的实施具有一定的局限性[2]。这种局限性主要体现在获取大规模样本存在极大的操作难度。因此早期的难度预估主要依赖专家主观经验直接判断题目难度，这种方法是比较传统并广泛使用的一种难度预估方法。近年来，随着信息技术的普及和深入，数据分析在教育领域的应用也越来越普遍，测试样本收集导致的局限性不再明显，通过被测样本数据进行难度量化分级在现实情景中应用的可操作性逐步提升。

然而，实践中对于题目难度的预估往往不能尽如人意，其根本原因在于各因素对难度的影响是十分复杂的。2006 年，LEONG See Cheng 总结了四个影响试卷难度的因素：内容方面，主要指知识量;材料方面，指词汇和信息呈现方式等难度;被试者因素，主要指被试者的心理和生理等素质;命题者的决策，指命题者对考试所期望的难易程度[3]。王希年提出难度设计与预测应结合题目本质难度与考生状况进行，题目的得分率与其难度因素和考生学业水平二元相关[4]。通过文献分析得知，考虑抄袭因素和学生能力对难度分级影响的研究相对较少，但抄袭因素和学生能力是难度分级研究中不可忽视的影响因素，故本研究为难度量化分级提供了更为完善的理论依据，做出了如下贡献：

（1）在教学实践中，布置习题作业后收到的结果，受多方面因素影响，使得习题的情况往往无法客观准确地反映教学效果的好坏。这些因素包括：①习题相对固定，难以避免抄袭;②频繁更新习题，质量难保证;③使用多样化的题组，难度难以统一把握。针对上述问题，笔者设计开发了自定义习题系统，可以定制题干相同但题目内具体数值不相同的多套习题。

（2）通过正确率客观量化题目难度，排除人为量化题目难度时专家经验、情感等个人主观因素的影响，客观量化题目难度。同时剔除了抄袭因素对实验数据的影响，通过对实验数据进行卡方检验，得到抄袭因素对正确率影响的理性判断。

（3）探究学生能力因素对习题对错的影响，作者根据《电磁场与电磁波》科目特征，对相关科目进行相关性检验，得到针对《电磁场与电磁波》可以代表学生能力因素的科目。

（4）综合考虑抄袭因素对实验数据正确率的影响和学生能力因素对题目对错的影响，通过对各影响因素和题目对错进行回归性分析，成功建立《电磁场与电磁波》题目难度预测模型。

通过剔除抄袭因素，使被测样本数据的代表性得到保障。同时，考虑学生能力对难度分级的影响，使难度预测模型更为完善。本文希望通过以对《电磁场与电磁波》科目难度预测模型的建立为例，给出剔除抄袭因素并考虑学生能力对难度分级影响的更为完善的建模方法。

二、通过正确率反映题目难度

1.题目难度的概念

《教育测量与评价》一书中将题目的难度定义为被测试者完成题目（项目）时所遇到的困难程度[5]。难度具有双重特性：一是客观性，难度由其本身的复杂程度所决定;二是相对性，难度除了与测试内容本身的难易程度有关外，还与被测者的知识经验和测验的编制技术有关。

2.难度的表示方式

反映题目难度的指标称为题目的难度系数，也简称为题目难度。问题解决者在解决问题的过程中所花费的时间越长、正确率越低，說明问题越难，反之，则说明问题相对容易[6]。在经典测量理论中，通常以通过率作为难度指标，表示为：

P=R/N

P表示难度系数，N为全体被测人数，R为答对或通过该项目的人数。难度系数可以理解为“正确率”。故本文中对难度的定义如下：正确率数值越大，可以认为题目总体越容易，反之，正确率数值越小，则表示题目难度越大。

三、自定义习题生成系统

自定义习题系统是利用python语言生成所需的LaTeX源码，进而利用LaTeX组卷排版生成可定制组数且各组题型相同、题目中数值不同的n组试卷，其中n为定制组数。该系统可以实现多种功能：①同时定制题干相同但题目内具体数值不相同的多套习题;②自动生成规范示意图;③自动计算参考答案;④自动排版。通过该套系统，在避免学生作业抄袭的同时，也大幅提高了教师的命题效率，并形成标准化的批阅流程和客观评价指标。

四、研究方法和步骤

笔者使用正确率描述题目难度，相關科目成绩描述学生能力，假设通过难度和学生能力可以判断学生能否做对相关习题。

在研究开始，笔者通过开发的自定义习题系统定制题干相同但题目内具体数值不相同的多套习题，将该套习题和传统习题分发给知识水平相近的两组学生完成，得到作业评估数据的对错结果。

如图1所示，通过自定义习题系统生成三道习题A1、A2、A3，三道习题题型、题干相同，但题目内具体数值不相同。

本次课程中，一共进行了两次关于剔除抄袭因素影响的实验。试验中学生分组按照教授该课程教师的不同进行分组，每组学生该课程的授课教师相同。

（1）第一次实验，一组学生使用传统的习题布置方式;另一组学生使用定制化习题系统批量生成习题方式。

（2）第二次实验，一组学生（第一次试验使用定制化习题系统批量生成习题方式）使用传统的习题布置方式;另一组（第一次试验使用传统的习题布置方式）学生使用定制化习题系统批量生成习题方式。

下文将做“题干相同但题目内数值不同”题目的学生组称为甲组、做传统题目的学生组称为乙组。

1.抄袭因素的统计检验与排除

本文将以量化分析和统计检验的研究方法，分析甲组数据和乙组数据的统计特征，检验抄袭因素是否真正对习题正确率产生显著影响，如果有影响，在接下来的难度估计模型建模中，只使用剔除抄袭因素影响的数据。徐敏在论文中调查了学生独立完成作业的情况，并结合习题正确率，指出当存在抄袭情况时，习题正确率会提高[7]。本文以量化分析和统计检验的研究方法，分析甲组数据和乙组数据的统计特征，检验抄袭因素是否真正对习题正确率产生显著影响。在检验开始，笔者首先提出以下假设：①如果存在抄袭，会使得正确率与不存在抄袭不同;②甲组习题每题的数值不同，笔者因此假设甲组不存在抄袭;③如果甲组和乙组经检验来自于不同总体，且乙组正确率较甲组高，认为乙组存在抄袭行为。

确立了统计检验的前提条件后，笔者对两组样本进行卡方检验，判断两组样本是否来自同一总体，操作过程如下：①确立卡方检验的检验水准和检验假设;②对检验统计量和概率值进行求解，并将概率值和检验水准进行比较，从而对两组样本是否来自同一总体做出判断。具体实现的理论和方法如下：

（1）建立检验假设，确立检验水准

本文中，运用卡方检验的检验方法，分析两组样本数据的关联性，判断两组样本数据是否来自同一整体。检验开始，首先要确立检验假设和检验水准。

以四格表资料为例，见表1，该表统计了某道题的对错情况，判断甲组和乙组的正确率是否有差异。其中a、b、c、d是两个样本率比较的基本数据，R1、R2、C1、C2是R行、C列边缘合计数据。

提出假设H0和H1，并确定检验水准为α。令两组总体的正确率分别为π1和π2，假设两组的总体正确率相同，检验两组样本率是否由于抽样误差引起的检验水准为0.05。其统计学符号表示为：

H0：π1=π2（甲组和乙组总体正确率相等）

H1：π1≠π2（甲组和乙组总体正确率不等）

α=0.05

如果假设H0成立，则两组总体正确率相等;如果假设H1成立，则两组总体正确率不等。

（2）计算检验统计量和概率

假设和检验水准确立后，需要对具体的检验统计量和概率P值进行求解。通过四格表数据计算得出γ2的大小，结合自由度ν，从而确定概率P。最后将概率P值和检验水准α进行比较，从而对总体做出判断。

对于四格表资料，计算统计量χ2的四格表专用公式为：

χ2=

四格表的自由度为：ν=（R-1）（C-1）=（2-1）（2-1）=1，式中R为行数，C为列数。

根据χ2，在ν=1的卡方分布曲线下找到比χ2更极端的尾部面积，即为P值。在四格表的χ2检验中，其自由度为1，常用的χ2界值是χ2

0.05，1=3.84。

将概率P值与α进行比较，P≤α则拒绝H0，得出两样本来自不同总体的结论;P>α，则不拒绝H0，认为两样本来自同一整体。

2.难度预测模型的建立

选取典型的《电磁场与电磁波》习题作为相关性分析的对象，将电子与通信技术学科学生部分科目的成绩与《电磁场与电磁波》习题的答题情况进行量化分析，得到与习题之间的联系有统计学意义的科目。最后对这些数据进行logistics回归分析，得到相应的回归系数，从而建立《电磁场与电磁波》习题难度估计模型。本文通过二项分类logistic回归算法，用logistic函数预测一个样本属于正样本的概率值，从而建立难度预测模型。模型建立的过程如下：①作者首先通过单变量分析从众多变量中筛掉一些可能无意义的变量，再将剩余变量构建logistic回归模型。②模型建立后，作者通过似然比检验的算法，对回归模型进行全局性检验，从而判断整个模型的拟合情况。③最后根据logistic回归参数估计方法，用最大似然估计方法去求模型具体的参数数值，从而建立难度估计模型。具体实现的理论与方法如下：

（1）单变量分析

考虑到《电磁场与电磁波》科目的内容和特点，笔者选取了一些科目的成绩作为能够代表学生能力量化指标的样本数据。在进行logistic回归前，由于变量较多，笔者先通过单变量分析（卡方检验）考虑所有自变量和应变量之间的关系，筛掉一些可能无意义的变量。为了避免遗漏某些重要科目，在分析时，作者将P值放宽，定为0.1。卡方检验中，采用有与无一个自变量的-2LL改变量作为卡方统计量，具体操作步骤与上文抄袭因素的统计检验相同。

（2）回归模型的全局性检验

回归模型建立后，需要对整个模型的拟合情况做出判断。以单变量分析筛选后的各科成绩及《电磁场与电磁波》习题难度作为自变量，《电磁场与电磁波》习题对错作为应变量。在logistic回归模型拟合中，可采用似然比检验进行全局性假设检验。