面向认知诊断的能力等级自适应试题推送模型构建及应用

2019-12-03叶海智杨柳黄宏涛梅钰皎

电化教育研究 2019年11期

叶海智　杨柳　黄宏涛　梅钰皎

[摘要]认知诊断与教育的深度融合能够促进个性化学习的发展。认知诊断测试中，学习者能力与测试题难度的匹配程度直接影响诊断结果的精确性。然而，目前认知诊断选题策略尚无法精确标定学习者能力及测试题目难度，导致教师不能准确掌握学生的学习状态。为解决该问题，构建了面向认知诊断的能力等级自适应试题推送模型，首先运用Rasch模型对题库原始数据进行对数转换，在同一等距量尺中标定出测试题目的难度等级和学习者的初始能力等级，在诊断测试过程中为不同能力等级的学习者推送相应难度等级的测试题目，然后在每次测试结束后更新学习者能力等级。实践结果表明：面向认知诊断的能力等级自适应试题推送模型能够使得测试题目难度与学习者能力精确匹配，进一步提高了认知诊断的精确性，提高了学生的学习效率，促进了教育向个性化方向的发展。

[关键词] 认知诊断; Rasch模型; 能力等级自适应; 试题推送模型; 个性化学习

[中图分类号] G434 [文献标志码] A

[作者简介] 叶海智（1963—），男，河南栾川人。教授，博士，主要从事教育信息化方面的研究。E-mail：yhz87@163.com。

一、引言

《教育信息化十年发展规划（2011—2020年）》提出，“要为所有学生提供个性化学习的信息化环境和服务”[1]。利用信息技术促进教育的个性化发展是当前我国教育信息化发展的主要目标之一[2]。个性化学习尊重学生个体差异，促进学生个性发展，是未来教育发展的方向[3]。

认知诊断是实现个性化学习的前提和基础，进行诊断测试时可以通过学习者在测试题目上的反应模式推知其不可观察的知识状态，及时发现学习者自身存在的认知缺陷，从而有针对性地开展补救学习。测试题目是开展认知诊断测验的必要条件，也是影响诊断结果精确性的关键因素。而在实际教学过程中，目前的认知诊断测试题目通常是依据特定知识点生成的固定题目或者通过题库随机抽取，这些推送试题的方法都无法使测试题目的难度精确匹配学习者的能力水平。为所有学习者推送相同且大量的测试题，不仅加重了学习者的负担，而且容易降低诊断结果的精确性。认知诊断计算机化自适应测验（Computerized Adaptive Test for Cognitive Diagnosis，CD-CAT）可以在测试中依据学习者的答题情况自动为其选择最适合的试题，对学习者能力作出恰当的估计，但CD-CAT需要大量的试题，才能保证对被试能力估计的精确性。

为了在小规模的认知诊断测试过程中使测试题目的难度与学习者的能力水平更为契合，实现依据学习者能力的自适应试题推送，本文利用Rasch模型对认知诊断试题推送过程进行调整与优化，该模型可以通过对题库原始数据进行分析，标定出测试题目难度等级及学习者初始能力等级，并通过被试的答题情况在同一等距量尺中不断更新学习者的能力水平，在最短时间内为不同能力等级的学习者推送相应难度等级的测试题，实现小规模的能力等级自适应试题推送，从而使得认知诊断的测试过程更具针对性、诊断结果更为精确。因此，利用Rasch模型对认知诊断测试的试题推送过程进行优化是提高诊断精确性的一个方向。

二、相关研究

近年来，认知诊断在实际教学中的应用越来越广泛，促进了传统教学向个性化方向的发展。实现个性化学习的基础是精准诊断学习者的相关特征属性，以此为依据提供适应性的支持反馈[4]。在认知诊断过程中，精确诊断出学习者的能力水平并推送符合其能力水平的测试题目是提高诊断精确性的关键环节。单瑞婷等结合DINA诊断模型与协同过滤算法，通过对学习者的知识点掌握情况及群体相似度进行分析，同时考虑了个体的学习状态和群体的共性特征，实现了个性化的试题推荐[5]。Henson等运用认知诊断模型诊断出学习者的知识状态，并基于概率分析以Kullback-Leibler信息量的大小为依据，从题库中为学习者选择下一道要作答的测试题目[6]。该方法能够使推送的试题更符合学习者的当前学习状态，提高了学生的学习效率。一些学者在此基础上进一步引入了自适应思想，提出基于认知诊断的计算机化自适应测验，CD-CAT可以根据被试的反应特征调整测试题目的范围，为其推送相适应的测试题目，做到“因人施测”。罗照盛等提出了基于属性掌握概率的PPWKL和PHKL选题策略，通过被试对每个属性的掌握概率来估计学习者的当前能力值，根据PWKL信息量为学习者推送相应的试题，提高了题库的利用率[7]。然而，这些方法只能从题库中选择难度与学习者能力水平大体相近的测试题目，无法确保试题难度和学习者能力水平之间匹配程度的精确性。因此，本文引入Rasch模型来对两者进行精准标定与比较。

Rasch模型是丹麦数学家乔治·拉希（Georg Rasch）提出的一种基于概率的潜在特质模型，该模型可以实现测试题目难度与学习者能力水平的同时等距标定。Bin Abd Razak N等运用Rasch模型對题库原始数据进行分析，通过直观比较测试题目与学习者能力之间的关系，对测试题目进行了更准确的质量分析[8]。该方法可以根据数据分析结果筛选出符合学习者能力水平的测试题目，为高质量题库的开发提供了依据。王丽萍等通过Rasch模型对学生能力水平和主题难度初始值进行个性化设置，并依据学生对主题中所有参数化测试题的反应，实现对主题难度的定量估计[9]。该方法能够准确估计出测试题的难度，为教师在确定主题难度时提供依据。袁洁将Rasch模型作为检验和改进分级考试的有效工具，通过对试题难度分布与学习者整体水平分布的比较，对大学英语考试质量进行量化分析[10]。该方法对学绩测验作出了准确的评价，使得分级标准更加准确。上述方法表明，Rasch模型可以将学习者能力水平和测试题目的难度等级放在同一量尺中进行标定，直接比较两者之间的关系。所以，本研究在认知诊断基础上引入Rasch模型，精准标定测试题目难度及学习者初始能力等级，并在每次诊断测试后更新学习者的能力等级，使系统推送的试题难度更符合学习者的能力水平，从而有效地提高诊断结果的精确性。

三、面向认知诊断的能力等级自适应

试题推送模型构建

（一）相关概念

1. 认知诊断

认知诊断通过学习者可观察的答题情况推测出不可观察的知识结构[11]，及时反映学生的知识状态，从而为开展个性化补救学习提供依据。学习者完成测试是认知诊断的前提，测试题目的难度能否精准匹配学习者的能力直接影响诊断结果的精确性。

2. Rasch模型

Rasch模型是一种描述考生能力水平与题目参数之间关系的测量学模型[12]。该模型可以在客观等距量尺中同时估计项目难度和学习者的能力，直观比较学习者之间、测试题目之间以及学习者与测试题目之间的关系。Rasch模型通过项目特征曲线（Item Characteristic Curve，ICC）反映测试者在测验项目上的反应行为与测试者潜在特性之间的关系[13]，预测学习者在未作答题目上的答对概率。

（二）Rasch模型特征

1. 直觀等距

Rasch模型通过对数转换将学习者数据转化为等距的Logit值，可以将测试题目难度和学习者能力标定在同一等距量尺之上，用特定的Logit值表示两者的等级，从而实现测试题目难度和学习者能力的直观标定与比较，便于系统为不同能力等级的学习者推送相应难度等级的测试题目，实现两者的精准匹配。

2. 样本独立

题目难度的标定独立于考生样本。题目的参数估计只取决于考生总体，经过等值处理后的题目参数不会因为考生样本的不同而发生变化[14]。Rasch模型的这一特征为题库测试题目难度标定和测试等值提供了理论依据。

（三）Rasch模型工作原理

Rasch模型用函数表示学习者能力及测试题目难度之间的关系，如公式（1）所示，其中θ表示学习者的能力参数，b表示试题的难度参数，P表示能力为θ的学习者对难度为b的题目的概率。Rasch模型客观性以一组假定为前提：a.每位学生有其特定的能力值;b.每道测试题有特定的难度值;c.人的能力值和试题的难度值，以数值的形式呈现在同一个尺度上;d.通过人在试题上的得分值，可以推算出某个人在某个试题上的正确反应概率[15]。该模型的核心算法是对原始数据进行对数转换，通过迭代，不断对试题难度和学习者能力等级进行调整，直至得到稳定的值，并同时在同一等距客观的量尺中标定出两者的等级，从而为不同能力等级的学习者推送相应难度的试题提供依据。

P =1/（1+e^（θ-b））公式（1）

（四）面向认知诊断的能力等级自适应试题推送模型

本文通过引入Rasch模型应用于认知诊断系统，形成面向认知诊断的能力等级自适应试题推送模型，通过为不同能力等级的学习者推送相应难度等级的测试题目，提高诊断结果的精确性，为开展个性化学习奠定基础。该模型的原理如图1所示。

1. Rasch模型标定测试题目难度

运用Ministep软件将题库原始数据进行对数转换，并在同一等距量尺中对学习者能力及测试题目难度进行比较，用相同的区间来表示能力及难度的量级。能力及难度的标定结果是范围为[-2，2]～[-5，5]的区间，区间范围根据样本数据大小有一定的变化。为便于标定学习者能力及测试题目难度的等级，将区间由低到高划分为不同的等级，如Ministep软件得出结果范围为[-2，2]的区间，则标定[-2，-1]区间内的测试题等级为1，[-1，0]区间内的测试题等级为2，[1，2]区间内的测试题等级为4，以此类推标定出每道测试题的难度等级。

2. 学习者能力等级初始化

每位学习者都有其特定的初始能力，开展正式测试时，学习者如进行过Rasch模型测试，则直接为其推送题库中相应难度等级的测试题目，如果没有则首先通过认知诊断系统从题库中随机为其推送测试题，运用Rasch模型对测试结果进行分析，在等距量尺中标定出学习者的初始能力等级。

3. 学习者能力等级自适应试题推送

为了实现个性化的学习者能力等级自适应试题推送过程，将上述两者的等级标定结果集成于认知诊断测试系统，系统依据能力等级为学习者推送相应难度等级的测试题目，完成认知诊断测试后，得到学习者认知诊断报告，学生可及时得知自身存在的认知缺陷，教师可依据诊断报告为其推送个性化补救资源。

4. Rasch模型更新学习者能力等级

每次测试结束教师得到学习者的成绩及诊断报告后，经由Rasch模型对学生测试成绩进行分析与转换，得到学习者新的能力等级，并在认知诊断系统中实时更新，进而在下一次测试时，系统依据学习者新的能力等级为其推送与之能力相匹配的测试题，形成面向认知诊断的能力等级自适应试题推送模型。

四、应用方案

为验证面向认知诊断的能力等级自适应试题推送模型在教学实践中能否为不同能力等级的学习者推送更为匹配的测试题目，开展测试题目难度及学习者初始能力等级标定、面向认知诊断的能力等级自适应试题推送、补救教学三个阶段的教学实践，涉及以下方面：

（一）应用对象及内容

本研究以河南师范大学2017级100名本科生作为研究对象，开展为期8周的教学应用活动。其中教育技术学专业50人为实验组，数字媒体技术专业50人为对照组，平均年龄18岁，男女比例约为1：5，两组成员在构成上大致相同。选取《Java语言程序设计》教材第三章“标识符和基本数据类型”相关知识点作为教学内容，并由此开展教学实践活动。

（二）应用环境

本次认知诊断教学活动在机房进行，运用Ministep软件对原始数据进行对数转换，标定测试题目的难度等级及初始能力等级，并在实践活动中不断更新学习者的能力等级，通过基于认知诊断的可编程教学辅助系统（Cognigive Diagnosis based Programmable Teaching Support System，DPTSS）实现对实验组学习者的测试和诊断，同时，由CDPTSS负责收集学习者完成诊断测试后的数据，并由SPSS22.0对数据进行分析。

（三）应用过程

本次教学实践活动持续8周，第一周对两组学生进行前测，测试学生的初始能力水平。同时，运用Ministep软件对上届学生及题库测试题数据进行分析，将测试题目难度及学习者能力水平标定在同一区间内进行比较，剔除异常试题，并标定出每道测试题目的难度等级。由题库随机为实验组学生推送测试题，由Ministep软件得到实验组学生的初始能力等级。第2～7周分别对两组学生開展教学活动，对照组采用传统课堂教学模式，实验组教学实践安排如下：开展6次认知诊断测试，由CDPTSS为不同能力等级的学生推送相应难度等级的测试题目，每次测试结束后得到学习者诊断报告并由Rasch模型更新学习者的能力等级，统计学生存在的认知缺陷，并在课后依据诊断报告及学习者能力等级进行补救教学。每次测试都依据最新能力等级标定结果为学习者推送测试题目。第8周发放与回收调查问卷，调查实验组对面向认知诊断的能力等级自适应试题推送模型应用的满意度，最后，整理分析相关数据和调查问卷结果。实验组与对照组除诊断测试及补救教学方式不同外，其他无关变量均保持一致。实验组8周实践教学活动过程及时间安排如图2所示。

下面以第三次教学活动为例，介绍实验组应用面向认知诊断的能力等级自适应试题推送模型的教学案例。本小节教学内容包含两个学时，共90分钟，课前由教师确定内容，并将相关学习资料上传到CDPTSS中，由课前准备工作得到的数据可知，题库中与本节课内容相关的测试题难度等级标定结果如图3所示：本次教学活动包含10道测试题，第六题最简单，难度等级为2，第五题最难，难度等级为8，难度分布均匀。在第二次测试时得到学习者的能力等级如图4所示：为方便数据的呈现，随机抽取15名学生的数据进行分析，剔除全部答对和全部答错的数据，在测试中得到14位学习者的能力水平，学号为14的学生能力最低，等级标定为1，学号为13的学生能力最高，等级标定为8，将等级标定结果集成到CDPTSS中。之后30分钟由教师讲授本章节知识点，学生学习相关知识，30分钟进行随堂测试，由CDPTSS依据学习者能力等级为实验组推送相应难度等级的测试题目，如图3、图4可知13号学生能力和第五题难度在同一区间，等级都为8，则系统为13号学生推送第五题。学习者完成测试后，一分钟内由CDPTSS得到认知诊断报告，5分钟内由Rasch模型的Ministep软件得到新的学习者能力等级，并将其集成到诊断系统中，为下次测试题的推送提供依据，之后25分钟小组交流、讨论，解决个性问题，教师依据认知诊断报告进行集中讲解，解决学生共性问题。课后，系统依据诊断报告及学习者能力等级为其推送相应的补救学习资源，并收集、分析数据，统计分析使用SPSS22.0。

（四）应用结果及分析

在8周教学实践结束后，对系统收集的数据及问卷调查数据进行分析，评价面向认知诊断的能力等级自适应试题推送模型的应用效果，分析主要涉及试题难度与学习者能力匹配度、学习成绩及学生满意度三个方面。

1. 试题难度与学习者能力匹配度分析

为验证该模型推送的测试题目是否更匹配学习者的能力，对两组学生的6次后测成绩进行正态分布检验，检验结果表明实验组前两次测试正态分布不明显，后4次测试数据结果都符合正态分布。原因是学习者刚开始使用CDPTSS进行答题，操作不熟练，且前两次测试由Rasch模型得到的学习者能力等级尚不稳定。以实验组第3次后测成绩为例，由SPSS22.0对测试结果进行常态检验分析，由于本次实际教学活动包含样本量较少，因此，以K-S结果为准，sig.=0.200>0.05，表明实验组成绩符合正态分布，具体数据见表1。

另由SPSS22.0得到实验组正态分布直方图，如图5所示，实验组第三次测试数据直方图也呈正态分布。以上分析表明，面向认知诊断的能力等级自适应试题推送模型推送的测试题目难度符合学习者的能力水平。

2. 学习成绩

为保证对两组学习者学习成绩评价的有效性，对两组学生的前测成绩进行t检验，比较实验组与对照组在开展本次教学应用前的初始知识水平。前测检验结果中T的Sig值为0.65，远大于0.05，表明两组学生的前测初始能力差异不大。说明在开展本次教学应用前，两组学生的初始知识水平相当，可以避免由于学生初始知识水平不同而造成的诊断结果误差。

对两组学习者6次后测成绩进行配对样本t检验，比较两者每次测试的得分差异，具体结果见表2。在后测成绩1和2中，两组学生的成绩差异不显著。原因是前两次教学活动需要通过测试由Rasch模型得到学习者稳定的能力值，进而为不同能力等级的学习者推送相应难度等级的测试题目。后测3～6中，实验组与对照组后测成绩存在显著差异，且实验组相对于对照组成绩明显提高，其原因在于，诊断系统为实验组推送的测试题目难度与其能力等级精确匹配，且课后针对性的补救学习也能够及时解决学习中存在的问题，因此，学习者学习效率显著提高。而对照组仅由题库随机推送试题，且缺乏后续针对性的补救资源推送，所以成绩提升不明显。由以上分析可知：面向认知诊断的能力等级自适应试题推送模型在实际教学中的应用使得诊断系统推送的测试题目难度与学习者能力水平精准匹配，提高了实验组的学习成绩。

3. 调查问卷

本研究调查了实验组对面向认知诊断的能力等级自适应試题推送模型教学应用的满意度，共发放60份问卷，回收有价值的问卷58份，有效率为96.67%。问卷采用李克特五级量表（从1分“强烈不同意”到5分“强烈同意”），针对“等级标定精准度”“试题难度满意度”“试题推送模型实用性”“教学效果满意度”四个维度设计了20个项目，对实验组学生态度进行问卷调查，具体分析结果见表3。由表3的Cronbachs α信度系数可知，“等级标定精准度”的均值接近量表的最高等级即非常满意[16]，说明学生对Rasch模型的等级标定结果非常满意，“试题难度满意度”“试题推送模型实用性”“教学效果满意度”的项目均值都大于4，表明学生对试题推送模型及整个教学应用过程持较高的满意度。

五、总结与展望

为了优化认知诊断测试的试题推送过程，提高认知诊断测试结果的精确性，文章提出面向认知诊断的能力等级自适应试题推送模型，并由此开展认知诊断教学活动。由教学实践得到的数据分析结果可知，面向认知诊断的能力等级自适应试题推送模型通过对数转换，对题库测试题难度等级及学习者初始能力等级进行标定，并在每次诊断测试结束后更新学习者的能力等级，从而使诊断系统推送与学习者能力等级精确匹配的测试题目，有效地提高了诊断的精确性及学生的学习效率，大部分学生对系统依据其能力推送的测试题目难度及整个教学应用过程表现出较高的满意度。

面向认知诊断的能力等级自适应试题推送模型能够直观标定与比较学习者能力之间、测试题目之间及学习者能力和测试题目之间的关系，有效提高诊断结果的精确性，促进教学向个性化方向的发展。后续研究将重点集中在深度分析不同能力等级学生在答题过程中的差异、诊断测试题库建设及利用Rasch模型为学习者制定更为精准的个性化补救方案上。

[参考文献]

[1] 中华人民共和国教育部. 教育信息化十年发展规划[EB/OL].[2015-06-26]. http：//moe.gov.cn/public files/busi Ness/htmlfiles/moe/s3342/201203/xxgk_133322.html.

[2] 马玉慧，王珠珠，王硕烁，郭炯. 面向智慧教育的学习分析与智能导学研究——基于RSM的个性化学习资源推送方法[J]. 电化教育研究，2018，39（10）：47-52，82.

[3] 黄宏涛，李世珍，李世玉，宋婷鸽，苏明骜. 基于BP神经网络的认知诊断方法在个性化教学中的应用[J]. 中国远程教育，2019（1）：86-91.

[4] 王珏，解月光. 基于前概念体系的学习者认知诊断方法研究——以初中物理“力与运动”主题为例[J]. 电化教育研究，2017，38（9）：122-128.

[5] 单瑞婷，罗益承，孙翼. 基于认知诊断的协同过滤试题推荐[J]. 计算机系统应用，2018，27（3）：136-142.

[6] HENSON R， DOUGLAS J. Test construction for cognitive diagnosis[J]. Applied psychological measurement，2005（4）：262-277.

[7] 罗照盛，喻晓锋，高椿雷，李喻骏，彭亚风，王睿，王钰彤. 基于属性掌握概率的认知诊断计算机化自适应测验选题策略[J]. 心理学报，2015，47（5）：679-688.

[8] BIN ABD RAZAK N，BIN KHAIRANI A Z，THIEN L M. Examining quality of mathemtics test items using rasch model： preminarily analysis [J]. Procedia-social and behavioral sciences，2012（69）：2205-2214.

[9] 王丽萍，赵蔚，魏久鸿. 自适应学习系统中基于Rasch的主题难度估计[J]. 现代教育技术，2017，27（6）：115-121.

[10] 袁洁. 基于Rasch模型的大学英语分级考试质量分析[J]. 东南大学学报（哲学社会科学版），2016，18（S1）：142-145.

[11] 辛涛，乐美玲，郭艳芳，等. 学业质量标准的建立途径：基于认知诊断的学习进阶方法[J].教育学报，2015（5）：72-79.

[12] WRIGHT D B， STONE H. Best test design：rasch measurement[M]. Chicago，IL：MESA Press，1979.

[13] RONALD K H， HARIHARAN S. Item response theory： principles and applications[M]. Boston/Dordrecht/Lancaster： Springer Science & Business Media f， Kluwer Nijhoff，1985：39-48.

[14] 杨志明. 打通题库建设瓶颈的关键手段——基于Rasch模型的题目参数等值技术[J]. 教育测量与评价，2017（1）：5-11.

[15] BOND T G， FOX C M. Applying the rasch model：fundamental measurement in the human sciences[M]. Mahwah，NJ：Lawrence Erlbaum Associates，2007.

[16]卜彩丽，张文兰，张宝辉，等. 面向教师培训的翻转课堂探究——以“PPT课件制作”课程为例[J]. 现代教育技术，2017，27（1）：81-87.

Construction and Application of An Adaptive Test Push Model for Cognitive Diagnosis

YE Haizhi， YANG Liu， HUANG Hongtao， MEI Yujiao

（Institute of Education， Henan Normal University， Xinxiang Henan 453007）

[Abstract] The deep integration of cognitive diagnosis and education can promote the development of personalized learning. In the cognitive diagnostic test， the matching degree between the learner's ability and test difficulty directly affects the accuracy of diagnostic results. However， at present， the cognitive diagnosis cannot accurately calibrate the learner's ability and test difficulty， which leads to teachers' inability to accurately judge students' learning status. In order to solve that problem， a text push model adapted by the student's ability level for cognitive diagnosis is constructed. First， the Rasch model is used to perform logarithmic transformation on the raw data of the item bank， then the difficulty level of the test item and the learner's initial ability level are calibrated in the same isometric ruler. Learners with different ability levels are provided with corresponding test questions in the test， and the learner's ability level will be updated after each test. The result indicates that the text push model adapted by the student's ability level for cognitive diagnosis can make the difficulty of test items exactly match the learner's ability， further improve the accuracy of cognitive diagnosis， improves the learning efficiency of students and promotes the development of personalized education.

[Keywords] Cognitive Diagnosis; Rasch Model; Adaptive Ability Level; Test Push Model; Personalized Learning