APP下载

基于AHP理论的数学高考试题综合难度模型构建与应用

2020-04-22武小鹏孔企平

数学教育学报 2020年2期
关键词:测试项目权重试题

武小鹏,孔企平

基于AHP理论的数学高考试题综合难度模型构建与应用

武小鹏1,2,孔企平2

(1.黔南民族师范学院 数学与统计学院,贵州 都匀 558000;2.华东师范大学 教师教育学院,上海 200062)

高考作为中国高利害性考试,其试题的难易程度直接影响着测试的质量和测量的公平性,综合难度系数模型能够在测试前对试题的整体难度做出评估,为有效合理的测量提供了保障.综合难度系数模型认为,影响数学高考试题难度的因素分为背景、是否含有参数、运算水平、推理能力、知识含量、思维方向、认知水平7个因素,各因素之间分为不同水平.研究选取16位数学学科专家对综合难度系数各因素与不同水平的难度做出比较评判,在此数据的基础上采用层次分析理论(AHP)对不同因素的权重和同一维度中不同水平的权重进行求解,进而建立了更为切合实际的综合难度系数模型.利用该模型对2019年理科数学全国Ⅰ和全国Ⅱ卷进行评价,并对该模型的应用前景和未来研究的方向进行了讨论.

层次分析法;测试项目;综合难度;数学高考;难度模型

教育测评作为一项非常重要且又十分复杂的教育活动,它对整个教育起到“牛鼻子”的引领功能[1].测试作为学习者学习结果检测和教育教学效果监测的重要方法,在整个教育过程中得到广泛的使用.一项测试项目的质量往往受到多个因素的影响,如测试的信度、效度、区分度和难度等.然而在这些因素中试题的难度最能引起社会的高度关注.试题的难度在一定程度上影响着测试的公平性,尤其是在高利害性的测试中,难度更能够决定应试者的成败,如中考、高考、研究生入学考试等.然而,目前对难度的计算都是在测试完成后,基于测试数据得到的,虽然这种计算难度的方法比较科学[2].但是大多高利害性的测试都不允许提前大规模预测,以免造成试题曝光,导致试题泄漏.现有的评价注重综合性,在评价的意义上分析,已超越了仅仅依靠定量评价的自然方法论[3].综合难度系数模型从影响测试项目的因素出发,依据数学学科特点对测试项目进行深入的逻辑分析,能对测试项目的难易程度提前做出预判,能够较大幅度提升测试的质量[4].虽然综合难度系数模型已有较多的研究者在不同学科领域做了研究,如数学[5–6]、物理[7]、地理等[8],但是对于难度系数模型中各因素之间的权重和同一因素中不同水平之间的权重计算存在很大的弊端.各因素之间一般采取简单相加,不同水平之间也采用简单的1、2、3分的主观记分方式.这里采用专家评分的方式,借用AHP理论对该模型中的权重进行计算,进一步完善了综合难度系数模型,使得模型更加贴近实际情况.

1 综合难度系数模型

综合难度系数模型是对表1中的因素和水平进行有效的加权,聚合成一个指标的过程.因素的难度系数为d

表1 测试项目的综合难度系数模型界定

其中,k是指第个因素的权重系数.

该模型充分考虑到不同影响因素对整个测试项目难度的影响.但在模型求解过程中,不同因素的权重系数k和同一因素中不同水平的权重系数k是未知的.已有研究的做法是方便权重,即认为k都等于1,k则按照从低到高的水平分别为1、2、3等.这种计算方法显然存在较大的问题.权重的大小没有科学依据.以下研究以专家评判的方式,利用AHP理论计算得出kk的值.从而较为科学地完善了综合难度系数模型.

2 基于AHP的权重计算方法

1990年,Satty教授“如何做决定——层次分析的过程”一文中提出了计算不同影响因素权重的方法[16].该方法归结起来由以下4个过程构成[17].

2.1 构造判断矩阵

在计算不同影响因素的权重系数之前需要给不同的指标进行重要性排序,排序通常用9点法评分,标度表如表2.

表2 指标评分标度

依据以上评分规则,可建立判断矩阵,

其中a表示第个指标与第个指标相比得到的标度.

2.2 权重系数的计算[18]

2.3 权重系数的一致性检验

通常一致性检验指标采用[19]

表3 RI取值

当≤0.01,权重系数具有可接受的一致性.

3 综合难度系数模型中各权重系数的建构

为了较为合理地获得权重系数,利用专家法构建评判矩阵.专家组由16人组成,其中6人是具有多年教学经验的教学名师,有深入的一线教学经验和应试能力,10人为具有试题研究经历的博士研究生,部分博士具有奥赛研究和辅导经历.通过专家组评判得到评分标度数据.

3.1 各因素的权重系数计算

依据上述计算方法,通过对16位教师计算的结果求平均找近似的方法得到了如表4的数据.

表4 各因素标度值

因此,不同因素的判别矩阵为:

在层次分析法中,判别矩阵的计算方法可以将人主观评判进行定量化的分析,这是将定性描述转化为定量计算的重要环节[20].依据进一步计算得到

3.2 不同水平的权重系数计算

依据专家对不同水平的评判结果和AHP理论对权重的计算方法,得到不同水平权重系数计算信息表,如表5所示.

表5 不同水平权重系数计算数据

再依据一致性检验指出计算方法得到1=0.008 12,2=0.007 38,3=0.004 09,4=0.000 93,5=0.006 17,6=0.009 01,7=0.003 90.其值均小于0.01的标准,因此,不同水平的权重系数存在较好的一致性.

4 综合难度系数模型的应用

为了验证以上建立的综合难度系数模型的有效性.选取了2019年全国高考理科Ⅰ卷和Ⅱ卷作为分析对象.对试题依据表1的界定,从7个因素共19个水平进行编码统计.由于考虑到试题分值带来的影响.编码过程中将解答题进行分布编码,即作为两道独立的题目编码两次,以达到分值的平衡.同时为了检验编码的一致性,编码采用两组研究人员分别编码,编码一致性为89.17%,再对不一致的编码项进行讨论得到最终编码结果.

4.1 各因素不同水平对比分析

通过对每个影响因素不同水平编码数量进行统计,计算在整个测试中的比例,并绘制出图1的水平对比折线图.由于“是否含参”这一因素,卷Ⅰ和卷Ⅱ的数据完全一致,因此,这一图像没有呈现.

图1反映了两个测试在各因素不同水平上考查的对比结果,从图1中可以看出,除了“是否含参”因素完全保持一致并且有参数和无参数各占一半外,“背景因素”“推理水平”“思维方向”这3个因素也基本保持一致.“背景因素”中无背景的题目占据绝大多数,占整个题目的80%左右,实际生活背景和科学背景的题目很少,仅不到20%.这说明项目考查中情境性很低,没有将试题融入到具体情境中考查,数学问题的考查仅仅围绕学科本身,降低了试题的趣味性.现有对核心素养的测评认为,项目的考查需要关注的是课程学习的“真实性学业成就”[21]真实性学业成就不只是习得事实性的学科知识和概念,而是能够运用这些知识或概念解决复杂的现实性问题[22].在“推理能力”这一因素中,可以看出简单推理和复杂推理的比例基本在6∶4,说明试题的考查在注重基本推理的基础上,保证了复杂推理的考查,因此,也符合选拔性考试的特征.“思维方向”的影响因素中,卷Ⅰ的逆向思维项目略高于卷Ⅱ,逆向思维开始于高级推理,是创新思维的基础,属于高阶思维水平[23].可见卷Ⅰ在思维方向难度略高于卷Ⅱ.

图1 各因素不同水平对比折线图

在“运算水平”“知识含量”“认知水平”3个因素上,卷Ⅰ和卷Ⅱ有较大的差异.卷Ⅱ的运算水平相对要高于卷Ⅰ,尤其是卷Ⅰ占有较大比例的简单数值运算,但却在简单符号运算方面卷Ⅱ高于卷Ⅰ.运算水平在一定的程度上体现了试卷的复杂程度,尤其是作答需要的时间,在这个方面来看,卷Ⅱ要略高于卷Ⅰ.在“知识含量”因素上,卷Ⅰ在两个知识点和3个及3个以上知识点的水平上表现出更高的难度,数据均高于卷Ⅰ.但两个测试项目在知识含量方面多集中在单个知识点的考查,跨章节跨领域知识的考查很少.在“认知水平”因素来看,同样卷Ⅰ在高认知水平上的比例要大于卷Ⅱ,尤其是在分析层次水平上的项目明显高于卷Ⅱ.在这一因素上,卷Ⅰ有更高的难度.

4.2 各因素综合难度分析

利用上述研究获得的权重系数,将编码数据带入公式(1),可以得到各个因素的难度系数.各因素的难度系数得到的雷达图,如图2所示.

图2 卷Ⅰ和卷Ⅱ不同因素综合难度系数雷达图

图2在一定程度上反映了整个测试的难度构成,以及不同测试在各因素上的难度差异.从综合难度系数来分析,整个测试的难度主要集中在“思维方向”“推理能力”“是否含参”这3个因素上.并且这3个因素远远高于其它因素.学生要突破难点则需要在思维的灵活性,尤其是逆向思维的培养训练方面下功夫.教师也应该多关注学生逆向思维的培养.推理能力是数学教育的最核心问题之一,在数学的学习过程中起到至关重要的作用[24].这一因素成为影响试卷难度的重要部分,是符合数学学科本质特点的.参数作为由“静态”到“动态”转变的关键指标,对测试难度也起到至关重要的作用.由不含参数到含参数的变化,是由静态知识向动态能力提升的过程.“背景因素”承载的难度最小,这与高考试题中很少出现实际生活背景和科学背景的原因有直接关系.“认知水平”和“知识含量”的难度系数处于中间地位,在一定的程度上影响了试题的难度.从两个测试的各难度系数的差异上分析,两者基本保持难度分布的一致性,仅有个别因素有一定的差异,如在“认知水平”“知识含量”这两个维度上,卷Ⅰ难度明显高于卷Ⅱ,在“运算水平”上卷Ⅱ反而要高于卷Ⅰ.但总体来看,卷Ⅰ的各难度系数不同程度的要高于卷Ⅱ.

4.3 测试项目综合难度系数

5 讨论与展望

5.1 讨论

(1)综合难度系数模型大幅度提升了测试的内容效度和结构效度.

综合难度系数模型从数学学科特点和影响学生问题解决的因素出发,就测试项目本身进行多维度深层次的分析,并将分析结果通过加权聚类的方式进行量化处理.这一模型打破了只有测试后才能得到试题难度这一壁垒,能够有效地对测试项目测前预测试题难度.尤其是在大规模和高利害性考试中有重要的作用,由于从7个方面、19个水平对试题做了分析,因此试题在内容上和结构上有了进一步的保障,使得测试更加具有实践可行性.综合难度系数模型是将学生问题解决的认知障碍进行量化分析,这种分析过程在帮助教师了解教学重点,帮助学生提升问题解决能力等方面起到了一定的作用.教师通过分析测试考查情况(如对高考试题的分析),可以进一步有针对性地对学生提出补救教学的方案.学生通过对试题的分析和自己的作答结果对比,可以更深层次地进行反思,弥补自己的不足.

(2)综合难度系数模型对学生的认知诊断测评提供了基本架构.

综合难度系数模型,有着明显的结构化特征,可以对测试项目进行较为严格的编码分析.虽然综合难度系数模型仅仅是对试题的难度做出前期的预测.但如果这种编码分析和学生的作答建立联系.其本质上讲,综合难度系数模型的编码框架就构成了学生测试的认知模型,就可以和认知诊断测评过程进行有效地衔接.认知诊断理论是在项目反应理论的基础上发展起来的新一代测评理论,它是以项目的形式呈现给反应者任务,把反应者的反应结果作为诊断的数据,反应者的潜在特质作为属性,将这些属性表示为潜在变量的变量,再用心理测评模型加以分析,得到认知诊断结果的测评技术[25].通过综合难度系数模型的分析,可以将一个传统的测试改编成一个具有现代测量特征的认知诊断测评,这样可以依据认知诊断测评的结果对学生做出个性化的补救方案,大幅度提升因材施教的能力.

(3)综合难度系数模型为测试项目的自动化评判和自适应测评提供了基础.

从研究分析的过程来看,对于综合难度系数模型的计算有一定的复杂性,如果仅仅依靠手工计算存在一定的难度,同时也降低了综合难度系数模型的可操作性和应用价值,因此,可以将综合难度系数模型的操作过程进行计算机辅助处理,将计算过程程序化.不仅如此,更进一步地,可以将综合难度系数模型的过程嵌入到计算机自适应测评系统中,达到对测试项目综合难度分析和自适应测评的双重目的.现有的学习测评分析工具,可通过学生的在线学习和测评,将结果以可视化形式呈现给学生,帮助学生分析自身学习的问题,促进反思,调整学习策略,以获得更大进步[26].学习测评技术自适应性具有传统测评无法达到的众多优点,学习测评走向计算机自适应化是测评发展的必然局势.

5.2 展望

综合难度系数模型虽在预测测试项目的难度和分析测试内容的量化处理方面有着较大的优势,但任何测评模型都会存在不同程度的不完善之处,综合难度系数模型也不例外.因此,要完善综合难度系数模型还有许多工作可做.首先,虽然对综合难度系数模型的各个影响因素和不同因素水平的权重进行了计算,较大幅度地提升了综合难度系数模型的可信度,但是在综合难度系数模型中对测试难度影响因素的产生仅凭理论分析,还缺乏数据支撑,后期可以通过探索性因子分析和验证性因子分析对影响因素进行校正,再通过结构方程模型建构测试项目难度影响因素的结构框架,其结果应该会更加合理;其次,综合难度系数模型的程序化处理和认知诊断测评、计算机自适应测评的结合还会有很多问题有待研究.

[1] 谢维和.教育评价的双重约束——兼以高考改革为案例[J].教育研究,2019,40(9):4–13.

[2] 任子朝,佟威,赵轩.高考试题难度预估的校准与改进研究[J].数学教育学报,2019,28(6):1–4.

[3] JOHN W. The greenwood dictionary of education [M]. New York: Greenwood Press, 2003: 130.

[4] 付钰,张景斌.中美数学教材三角函数习题的比较研究[J].数学教育学报,2018,27(3):14–18.

[5] 王建磐,鲍建生.高中数学教材中例题的综合难度的国际比较[J].全球教育展望,2014,43(8):101–110.

[6] 覃淋.“中国大陆”“日本”和“中国台湾”高中数学教材统计习题难度比较研究[J].数学教育学报,2019,28(1):55–60.

[7] 仲扣庄,郭玉英.高中物理课程标准教科书内容难度定量分析——以“量子理论”为例[J].课程·教材·教法,2010,30(4):67–71.

[8] 王冰,揭毅.基于综合难度系数模型的2018年高考地理试题评析[J].教育测量与评价,2018(12):40–48.

[9] NOHARA D, GOLDSTEIN A A. A comparison of the national assessment of educational progress (NAEP), the third international mathematics and science study repeat (TIMSS-R), and the program for international student assessment (PISA) [R]. US Department of Education, National Center for Education Statistics (NCES), 2001: 97–110.

[10] 鲍建生.中英两国初中数学期望课程综合难度的比较[J].全球教育展望,2002,31(9):48–52.

[11] 史宁中,孔凡哲,李淑文.课程难度模型:我国义务教育几何课程难度的对比[J].东北师大学报(哲学社会科学版),2005(6):151–155.

[12] 廖伯琴,左成光,苏蕴娜.国际中学科学教材实验内容难度比较——以高中物理为例[J].全球教育展望,2017,46(4):23–29,108.

[13] 赵凌云,王秀秀,陈志辉.上海与台湾初中数学“三角形”内容习题认知难度比较——以沪教版和康轩版为例[J].数学教育学报,2018,27(5):66–71,98.

[14] 武小鹏,张怡.中国和韩国高考数学试题综合难度比较研究[J].数学教育学报,2018,27(3):19–24,29.

[15] 张怡,武小鹏.综合难度系数模型在2016年高考数学试题评价中的应用[J].教育测量与评价,2016(12):47–53.

[16]  SAATY T L. How to make a decision: The analytic hierarchy process [J]. European Journal of Operational Research, 1990, 48 (1): 9–26.

[17] 张怡,武小鹏.基于AHP—模糊矩阵的翻转课堂综合评价系统设计[J].现代远距离教育,2018(5):19–26.

[18] 郭亮,邓朗妮,廖羚.基于Fuzzy-AHP的应用BIM教学评价研究[J].数学的实践与认识,2017,47(1):8–15.

[19]  CHICLANA F, HERRERA F, HERRERA-VIEDMA E. Integrating three representation models in fuzzy multipurpose decision making based on fuzzy preference relations [J]. Fuzzy Sets and Systems, 1998, 97 (1): 33–48.

[20] 张燕,董玉琦,王炜.基于层次分析法的高中信息技术教师专业知识水平评价——以东北地区为例[J].中国电化教育,2014(9):34–39,58.

[21] 杨向东.指向学科核心素养的考试命题[J].全球教育展望,2018,47(10):39–51.

[22]  CHI M T H, FELTOVICH P J, GLASER R. Categorization and representation of physics problems by experts and novices [J]. Cognitive Science, 1981, 5 (2): 121–152.

[23] 王佑镁.设计型学习:探究性教学新样式——兼论尼尔森的逆向思维学习过程模型[J].现代教育技术,2012,22(6):12–15.

[24] 吴亚萍.美国数学教育的核心问题——推理能力的培养[J].外国教育资料,1999(5):59–55.

[25]  RUPP A A, TEMPLIN J, HENSON R A. Diagnostic measurement: Theory, methods, and applications [M]. New York: Guilford, 2010: 92–125.

[26] 郭炯,郑晓俊.基于大数据的学习分析研究综述[J].中国电化教育,2017(1):121–130.

The Construction and Application of the Comprehensive Difficulty Model of Mathematical Advanced Examination Questions Based on AHP Theory

WU Xiao-peng1, 2, KONG Qi-ping2

(1. Qiannan Normal University for Nationalities, School of Mathematics and Statistics, Guizhou Qiannan 558000, China; 2. East China Normal University, College of Teacher Education, Shanghai 200062, China)

As China’s national college entrance examination, the difficulty of the test questions directly affected the quality of the test and the fairness of the measurement. The comprehensive difficulty coefficient model could evaluate the overall difficulty of the test questions before the test, providing a guarantee for effective and reasonable measurement. According to the comprehensive difficulty coefficient model, the factors influencing the difficulty of the mathematics college entrance examination test could be divided into seven factors: background, whether or not the test contains parameters, operation level, reasoning ability, knowledge content, thinking direction and cognitive level, and each factor could be divided into different levels. In this study, 16 subject experts were selected to make a comparative evaluation on the difficulty of each dimension of the comprehensive difficulty coefficient. Based on this data, the analytic hierarchy process (AHP) was applied to solve the weights of different factors and weights at different levels in the same dimension, and then a more appropriate and practical comprehensive difficulty coefficient model was established. This model was used to evaluate the national I and national II volumes of science mathematics in 2019, and its application and future research directions were discussed.

analytic hierarchy process; test items; comprehensive difficulty; mathematics college entrance examination; difficulty model

G424.74

A

1004–9894(2020)02–0029–06

2019–12–13

2019年贵州省哲学社会科学规划青年课题——贵州民族地区高中学生核心素养的认知诊断测评体系构建研究(19GZQN29);2019年贵州省哲学社会科学联合基金课题——黔南民族地区高中学生数学核心素养的认知诊断测评研究(LHKT2019YB19)

武小鹏(1986—),男,甘肃天水人,黔南民族师范学院副教授,华东师范大学与美国普渡大学联合培养博士生,硕士生导师,主要从事数学教育、课堂教学评价、认知诊断测评研究.

武小鹏,孔企平.基于AHP理论的数学高考试题综合难度模型构建与应用[J].数学教育学报,2020,29(2):2934.

[责任编校:周学智、陈隽]

猜你喜欢

测试项目权重试题
我国金融科技“监管沙盒”测试项目准入标准制度研究
2021年高考数学模拟试题(四)
权重常思“浮名轻”
篮球半场往返运球上篮的训练方法——体育中考篮球测试项目训练心得
2019年高考数学模拟试题(五)
《陈涉世家》初三复习试题
2019届高考数学模拟试题(二)
为党督政勤履职 代民行权重担当
基于局部权重k-近质心近邻算法
纤检机构管理信息系统标准项目库存在的问题及改进建议