智能时代教育评价的意蕴、作用点与实现路径

2021-03-16张琪王丹

中国远程教育 2021年2期

张琪王丹

【摘要】教育评价事关教育综合质量提升与教育供给侧改革进程。智能时代的教育评价需要与时俱进，利用教育大数据与智能技术“精准识材”，改变以往评价体系标准单一、手段趋同等弊端。本文聚焦学习为主体的“全人”评价，着眼智能时代对人才的需求，围绕学习方式的变化、学习结果的多维尺度等对教育评价转型展开阐释，在分析“评价识材”与“因材施教”辩证关系的基础上，探讨了“识材”—“施教”—“发展”的路径。从学习投入评测、人格特质识别、创新能力评测、表达能力评估等维度剖析了智能技术赋能教育评价的作用点。智能技术赋能新时代教育评价改革，需遵循教育的基本规律，将教育场景与计算机技术有机结合，共同建立“人机协同”的标注与计算方式，关注实际环境中数据模型的通用性与迁移能力，形成有效的评估方法与干预机制，以实现学习者个体价值回归与主体价值增值。

【关键词】新时代;智能技术;教育评价;因材施教;精准识材;场景计算;建模方法

【中图分类号】 G420 【文献标识码】 A 【文章编号】 1009-458x（2021）2-0009-08

在新一轮科技革命风起云涌、全球经历百年未有之大变局的历史节点，党的十九届五中全会确立了构建高质量教育体系、保证人民群众享有更加公平与优质教育的目标。教育评价作为教育改革的“牛鼻子”“指挥棒”，事关教育改革导向，决定教育实践的落实以及现代教育治理的水平。深化教育领域综合改革，“要抓好深化新时代教育评价改革总体方案出台和落实落地，构建符合中国实际、具有世界水平的评价体系”（新华网， 2020）。《深化新时代教育评价改革总体方案》旨在全面落實2020年全国教育工作会议以及党的十九届五中全会等精神，以评促改，实现改革与育人深度融合、有效联动。

教育评价是对教育相关数据与信息进行系统、科学与全面的价值判断，是一项广泛性、艰巨性、实践性难题。在教育智能时代，以智能技术促进学习方式和教学方式的变革，培养适应未来教育的创新人才，正成为教育面临的重大课题，数据驱动教与学正成为新教育体系区别于传统教育的核心特征（中国教育和科研计算机网， 2020）。“互联网+环境”可以方便地获取学习者的全维行为特征与过程性学习数据，使研究者首次可以运用科学的分析技术，精确理解和系统分析学习者的学习规律（陈丽，等， 2019）。学习过程的数据化为精准施教提供了有力支持，智能时代的评价需要蜕旧变新、与时俱进，以有效支撑教育的供给侧改革。利用教育大数据与智能技术“精准识材”，以及在此基础上的因材施教能够改变以往评价体系标准单一、个性化缺失、手段趋同等弊端，有助于聚焦以“过程、能力、增值”为特征的综合性评价，实现“五育”并举的核心素养教育，从而回应新时代教育对创新人才培养的重大关切。《深化新时代教育评价改革总体方案》的出台为构建科学教育评价体系指明了方向，是对未来教育发展趋势的有力回应。

一、智能时代教育评价的意蕴

《深化新时代教育评价改革总体方案》针对我国教育发展的新态势，在系统部署教育评价框架的基础上勾勒出5个维度共计22项具体任务，指明了落实教育评价改革的创新路径，提出“改进结果评价、强化过程评价、探索增值评价、健全综合评价”的具体评价原则（国务院， 2020）。上述“四个评价”在尊重教与学规律以及学习者成长规律的基础上，强调评价的诊断性、调节性、导向性和多元性特征，有利于打破“以成绩定标签”的固化方式，从而更为全面地考察立德树人工作的成效，对于构建符合新时代中国特色的评价体系，全面实现教育现代化，构筑人民满意的教育体系，具有深远影响。

（一）智能时代对人才的需求

从学习者发展的视角来看，以传统的流水线为重要特征的工业时代孕育出以教师为中心的教育，虽实现了教育的规模化，但“标准化”和“同质化”特征明显。创新的国家需要创新的人才，创新的人才需要创新的教育。“个性化”成为信息时代的主要特征（黄荣怀，等， 2017）。信息时代需要大批的创新人才，创新人才的培养绝不是生产线上同质化的知识复制，其培养取决于个性评价基础上的因材施教。这需要重塑教育，让学习者能从容应对各种不确定性和挑战，确保公平和全纳的受教机会;需要从传统的侧重内容和培训的教学流程，转移到为学习者提供更合适的学习服务，以及对学习者所需知识的再认识、再评价和再创造;需要从工业时代“流水化”“程式化”的教学转向以个性化、数字化、联通化为特征的技术驱动与思维整合的教学。通过多维数据记录学习者成长历程，建立数字综合画像，可以帮助师生从重复的工作中解放出来，使教学更具有效性和创造力。需要重视的是，智能教学支持与服务不能重蹈行为主义或分数本位的“错题强化、分数导向、题目灌输、糖衣新装”覆辙，应重点审视学习者的能力水平、多元智能、认知频谱、情感状态、个性特征等问题，围绕信息时代教育改革目标，对自然语言理解、多维指标凝聚、通用视觉信息检索、情感话题分析、脑神经映射机制、复杂计算模型等展开深入研究，建立教育学、神经科学、人工智能等学科的研究共同体。

（二）学习方式的变化

教育研究者与实践者应重新理解学习者，对“学习者是谁”这个问题做出深刻的回应。当今的青少年学习者，作为数字土著一代的“新群体”，让教育实践感受到与之前群体不同的鲜明个性。数字土著一代生活在大数据时代，接受信息能力强，社交媒体承载了他们大部分的喜怒哀乐，形成正确思考方式的难度更大。在数字时代来临之前，阅读对学习者三观的形成有很大的影响，当前的数字阅读多为碎片化阅读，网络意见领袖呈现低龄化特征。教师常常感到对新一代学习者群体难以了解，认为有效沟通困难。构筑适合数字土著的新教育模式需要了解学习者的思维特征与学习方式，需要从传统的侧重内容和培训的教学，转移到关注“非良构”领域知识的考核与有效评价，需要重新理解学习环境，将学习视为“统一的连续体”，提高评估的有效性、及时性和公平性。例如，在此次疫情期间的“大规模停课不停学”，相对于被广泛关注的硬件条件与课程内容设计，学习者的主动学习能力还没有得到充分重视，学习者倾向的学习方式与身处的学习环境之间依然存在较大的差异，这些都限制了教师对学习者的针对性指导。智能时代的教育评价需要进一步了解学习者的学习方式和个性特征如何根据场景改变，学习者的画像是否能够实时、精准、客观地表征学习状态。

（三）学习结果的多维尺度

学习结果是学习者为满足教学需求而产生的一系列活动，是学习者通过努力获得的行为与能力的综合。学习方式的差异和学习结果的多维尺度必然要求评价方式的多维变化。传统评价观以结果为唯一依据，过度强化结果在评价中的主导地位，带有浓郁的分数至上色彩，进一步导致了重结果、轻过程的不良后果，甚至以单一成绩划定教育乾坤。分数作为机械的数字符号背后理应有更为丰富的意蕴，需要更为深入、多视角、多向度地辩证看待。众所周知，学习的结果是多重努力共同参与的过程，是情商、智商、志商、语商等多因素融入和整合的显现，是与学习者成长相伴的一部分。学习者的学习不仅源自心智活动，更取决于情感凝聚的热切度和专注度，取决于意志力、自我调控度与持久度，取决于语商表达的确切度和精彩度。数字符号不是优差中劣的唯一表征，教育评价也不能仅止步于单一维度，还要科学地评价学习者的综合素质、情感态度、心理韧性、批判能力等，尤其应对学习者生命成长过程中非智力因素与精神力量给予特别的关注。

《深化新时代教育评价改革总体方案》的颁布释放了一个强烈的信号，即学习者的发展具有鲜明特点，应给予高度的尊重。学习者作为学校教育流水线上的“标准件”时代已成过去。在未来的教育中，学习者必将作为栩栩如生、独特内涵和鲜明个体的人参与社会实践。学习者的成长，纵向而言具有过程性与发展性，就其生命呈现的状态而言有水面之上的显性品质与冰山之下的隐性品质。生命的独特性需要我们突破种种固化评价标准，运用更加富有前瞻性的评价方式予以评价。新时代的教育要完善立体刻画、行之有效的评价标准，构建意蕴丰富与探索精神的评价体系，使之与学习者的生命成长匹配，与生命发展同步，与多样化实践活动呼应，与教育改革开放的远景目标共振，与教学实践样态趋同。

二、智能时代“评价识材”与“因材施教”的关系

智能时代的教育需要适应未来的评价，只有在两者的良性互动中新时代的教育与评价才能相互呼应、步入更高的境界。当前，我国教育改革与发展正处于过去与未来交会的关键节点，通过扩大优质教育规模以滿足人民对高质量教育的迫切需求，这种方式已经接近现有潜力的极限。在我国即将实现第一个百年目标之际，全面建成小康社会、全面建设社会主义现代化强国，对培养多样化创新人才、保证教育公平、提高教育质量提出了更高的要求。随着教育信息科学的发展，以数据驱动与精准教学为特征的智能教育提供了规模化的个性化教育方法，情境感知的无缝学习、自适应个性化学习开始步入常态，为同时实现规模化教育和个性化培养提供了可能。《深化新时代教育评价改革总体方案》提出坚持“科学改”的原则，要求借鉴国际先进的教育评价理念，充分利用信息技术，提高教育评价的科学性、专业性、客观性，推动科学、有效地解决问题。利用智能技术助力教育综合评测，推动教育质量提升进而推动教育现代化已成为共识。

智能技术赋能“评价识材”需要厘清“评价识材”与“因材施教”的辩证关系。在我国有关教育的格言与典籍中，孔子提出的“有教无类”和“因材施教”无疑最具光芒与生命力。“因材施教”的“材”是指学习者个体的认知水平、情感态度、学习能力以及自身素质。生理因素、成长环境、生活阅历与知识背景等的差异形成了学习者鲜明的个性特征。而由于“个性”与“能力”的表征维度太多，测量困难且难以常态化实施，因此在“以规模减少成本”为趋向的班级授课制中“大规模”与“个性化”的矛盾难以调和。让每位学习者在学校里接受计划性、系统性指导的同时，为学习者提供适合每个人的教学方法，一直是教育研究者与实践者的教学追求。新千年以来，我国陆续发布了新时代的重大教育政策，其中，《国家中长期教育改革和发展规划纲要（2010—2020年）》、《中国教育现代化2035》、2020年全国教育工作会议以及此次的《深化新时代教育评价改革总体方案》都强调要突出因材施教的价值。评价识材，是因材施教的前提。我国正在实施的新高考改革方案更加强调“服务选材与立德树人”，强调考察核心价值与综合能力，关注学习者基础性、应用性、综合性与创新性能力（冯成火， 2020），学习者的个人意志和综合能力，以及个人兴趣和特长，都将成为评价识材的重要组成部分。《深化新时代教育评价改革总体方案》聚焦核心素养，从学科知识考查转向素养评测，注重考察学习者发现问题、分析问题并加以解决的能力，这为教育技术研究提出了现实课题。未来应重点关注智能评价技术与体系的构建以及在不同教育场景的应用效果研究，基于诊断性评测、学习档案评价、大数据评价等方式帮助教师精准分析、全域关照，实现学习者个体价值回归与主体价值增值。

识材和施教是同一过程的两个关键点，彼此相互影响、不可分割，只有全面、系统地认识学习者特征才能完成施教的过程。要通过评价明确“材”的特点和程度，找准“教”的定位和起点，从而为学习者成长建立反馈调节机制，帮助学习者建立自信，其结果是真正实现能评估学习者思想品德、身心健康、能力素质等综合要素，鼓励学习者多样化成长的个性化教育。需要利用信息技术推进教育评价改革，帮助教师全面了解和细致掌握学习者状态，根据学习者的情感意志要素、活动场所等非线性关系的相关数据评价，聚焦学习者综合素质发展（田爱丽， 2020），以改善教育资源个性化与灵活性不足的问题。对于学习者而言，借助智能技术支持下的自我导向学习，可以将线上学习与线下学习、集中学习与分散学习、课堂学习与场馆学习等多种学习形式结合起来，为自身创造“因材择学”的机会，从而实现“识材”—“施教”—“发展”的逻辑演进。

三、智能技术赋能教育评价的作用点

智能时代的因材施教亟待充分利用计算分析技术赋能，以推动数据驱动的教育研究和实践。伴随国家相关政策的陆续出台，各类信息技术“示范区”“试验区”“人人通”“三个课堂”等实践领域的开辟，以及各地（区）对智能技术融入教学实践的支持力度的不断增长，更加客观、精准、千人千面的因材施教理念有了实现的可能。智能技术赋能教育评价改革需要相关的技术支撑。其中，5G作为高带宽低时延的通信技术正助力网络空间人人通向物联网发展，有助于利用个性化数据实现对学习者的因势利导，实现人人有“学伴”的人机协同教学;虚拟现实技术实现了物理空间和虚拟空间的融合，带来了多感官的沉浸学习体验，使教学从“离身”步入“具身”，可形成立体综合的教学场域;区块链技术支撑开放安全的数据记录，可实现分布式、跨平台、融合化数据存储，助力个人学习轨迹的追踪与分析，从而完成对学习者的全方位画像，提高数字资源的共享效率;边缘计算技术针对物理场景中的数据分析，以计算下沉与边端赋能加速数据的分析能力;多模态学习分析以解决复杂教育问题的数据模型与解释模型为起点，成为洞察学习规律的新范式，为“教育场景计算”提供理论与实践的支撑（张琪，等， 2020），为深入理解学习机制、研发评价建模工具提供了全息视角。教师水平的提升是技术赋能教育评价的关键因素。借助智能、快速、全面的教育分析系统，可以建立以学习者为中心的智能育人环境，为学习者提供精准推送的教育服务（国务院， 2017），赋能教师、学习者、课堂、课程和学校，形成新的教育教学场景，引发教师角色加速转变。概念讲述、知识传授等职能越来越多地可以借助技术来完成，实现教师更为精细化的分工，使教师有更多时间潜心于学习者的能力培育、创造能力培养与德育塑造。

计算社会科学是社会科学发展的必然走向，数据驱动范式已越来越多地应用于教育研究中，为大规模理解学习者行为与内在特征提供了前所未有的机会。与此同时，“互联网+教育”的常态化使得教与学的方式正发生显著变化。其中，学习环境容纳了日益增长的真实要素，学习延伸并拓展至课堂之外的空间，学习者聚焦于真实情境中问题的解决，关注学习测量已成为重要趋势。智能技术赋能综合评价，底层依赖于对评价维度的明确界定以及准确的方法与模型。例如，对学习者话语的自动评价，其隐含的假设是，研究者认为学习者的对话与交流文本在一定程度上反映了学习者的思维方式，并可以通过文本的内容与质量表征出来。因此，无论是人工评分还是作文自动评分，都需要对评价维度有一个清晰的定义，以及对测量结果做出更准确的解释。通过对评价领域理论与实践进展的梳理可以发现，学习投入、人格特质、创造能力、表达能力的建模是智能技术赋能教育评价的关键作用点。

（一）学习投入评测

深度学习需要持续的投入，对学习投入的关注不仅在于其是教育评价的重要内容，更在于学习投入是可以被塑造的重要变量以及预测学习绩效的强有力指标。作为智能评测的核心研究领域，学习投入是个体在学习活动中所展现出的持续和积极的学习状态。基于“连续体”的分析视角，基础的投入涉及与注意力相关的操作行为，在高度投入的情况下学习者使用大量的心理资源进行深度加工，不仅需要使用深层的认知策略，更伴随情感投入和学术投入。在过去20年中，尽管学习投入在概念的表述与应用方面还有诸多问题需要解决，但始终是一个富有成效的研究领域。已有大量研究对学习投入的理论体系展开了归纳，达成共识的是投入不仅是诠释学习状态的有效指标，还融合了多种可区分的特征，学习投入的表征与量化研究依然稀缺（张琪，等， 2019）。测量投入度的常用方法通常会对技术环境中学习者产生的交互行为日志文件进行建模，涵盖了学习者的点击数据、交互行为数据、响应反馈等。也有研究利用表情识别、眼动采集、脑电数据等多模态数据展开分析，以脱离“在线”学习场景，挖掘与情感状态、认知水平相关的指标。未来需要聚焦更确切的解释与评价模型，界定学习者“开始”和“脱离”投入的状态，探索投入可能起作用的条件，研究导致学习者脱离投入的个体差异与情境因素，对投入发生的心理与脑机制展开探索，围绕学习的注意力机制、脱离投入的定义与识别展开深入研究，进一步分析学习者投入度、影响要素与中介因素的关系，提升数据表征结构的能力。

（二）人格特质识别

个体差异取决于学习者的人格特质。人格是在先天遗传、后天环境等因素交互作用下，表现在身心方面的思考模式、情绪表达与行为特性的总和。特质决定了人格的稳定性与独特性。特质是个体内在的系统反应，这种反应使个体对不同种类的刺激以某种相对一贯的、稳定且相同的方式进行反应。因此，特质是人格的“基础结构”，具有“支配个人行为的能力”（Matthews， Deary， & Whiteman， 2003），反映人与人之间的基本区别。人格对学习者的成长至关重要。大量研究表明，了解人格在学习过程中的作用，并投入更多的关注和精力，可以促进学习。人格识别在教育学、心理学、企业管理等方面已经发展多年，得到了成熟的应用。传统的评测技术包括九型人格测试、十六型人格测试以及大五人格测试等，主要方法是通过自我报告的反馈来进行，这类评测不具备针对性，也无法做到多场景的追踪以及避免虚假答题等问题。利用智能技术可以从几个方面提取与人格特质相关的指标：一是基于学习者的文本内容与书写习惯;二是建立学习行为的时序信息，按照时间序列挖掘关键行为序列特征进行采样，记录质性的行为资料，进行编码分析，使用量化的推论统计解释行为序列的转换;三是对不同的学习内容进行标注，将上述特征结合起来，针对每个特征使用不均衡数据分类的方法进行算法融合，使之变成表征能力很强的建模方法。我们的研究团队对大五人格的建模研究发现，仅通过学习行为的建模就可以得到比较高的识别水平。对来自662位被试的建模结果使用5倍交叉验证方法的性能评估表明，增强的可拓神经网络（EENN）算法可以有效识别人格，平均准确度为0.758，该算法与粒子群优化方法（EENN-PSO）相结合可以显著提高识别率，平均准确度为0.976（Lai， Sun， Wu， & Xiao， 2020）。人格特质的准确识别可以为自适应内容设计与干预的实施奠定基础。研究团队开发的自适应学习分析仪表盘用“模式识别技术”判定学习者人格特质，基于“复制自适应”方式推送匹配人格特质的数据指标，强化了学习者使用动机（张琪，等， 2018）。此外，采用数据挖掘方法建立人格特质的预测模型，验证了深度置信网络（DBN）在各阶段识别高危学生的性能，提出了基于人格特质的学习分析范式（Wu & Lai， 2019）。

（三）创新能力评测

创新能力作为21世纪核心素养的组成已成为共识。无论是21世纪技能中的“4C”能力，还是我国提出的《中国学生发展核心素养》都包含了创新能力的维度。创造性思维是个体创造性的具体表现，其核心是发散思维。尽管不是整个创造力结构的代名词，但在过去的60年中，发散思维被广泛用作创造力潜力的主要指标（Albert & Runco， 1999）。其中，托兰斯创造思维测验（TTCT）是运用最广泛的发散思维测量工具，该测试包含言语流畅性、变通性、独创性三个维度。其中，流畅性是指学习者在一定时间内产生观点或想法的数量;变通性指不同方向、不同角度思考问题的灵活性;独创性是指学习者具有不循规蹈矩的想法或与众不同的解决问题思路。对于流畅性建模，一般采用潜在狄利克雷分配（LDA）模型进行内容主题挖掘。作为贝叶斯学习模型，该模型主要应用在中文分词技术方面，将文章转化为词向量，是潜在语义分析与概率潜在语义分析的扩展。在变通性维度，可以将词表征为实数值向量，通过深度学习训练将对文本内容的处理简化为K维向量空间中的向量运算，获得词汇在向量空间上的表示。在獨创性维度，一般通过计算响应事件之间的语义距离，使用潜在的语义分析和长短时记忆网络评估其数值。除了文本的分析，部分创新能力评测还包含拼图测试以进行拓展记分。该类测试通常是给出一个不完整的图形，学习者进行笔画添加赋予该图形更多的内涵。这类计算建模会涉及视觉模式的识别，一般利用卷积神经网络（CNN）从图像中识别视觉模式，进行图像特征提取、运动检测、人工评分等模型训练。

（四）表达能力评估

语文素养是学习其他课程的基础，是学习者全面发展和终身学习能力的支撑。学习者的表达能力是培育学习者语文核心素养的重要内容，也是教育的“四大支柱”和“21世纪技能”中“学会合作”的核心要素。表达能力与“以素质教育为核心”的理念匹配，体现了学习者的综合素养。口语与书面表达都可以从文本的角度去评判，利用卷积神经网络（CNN）结合隐马尔科夫模型（HMM）能够准确识别中文字符。国际常用的表达评测体系涉及对文本内容、措词、结构、语气、同义词等不同表达的分析，多采用基于隐含语义分析（LSA）系统和深度神经网络（DNN）以及改进的算法进行文本的自动评分。

中文的表达一般要综合考虑语境、词法、句法、文采、语义以及篇章段落进行全面分析。对于文字段落进行序列化，一般利用Word2vec模型提取文本的字迹、词汇与通顺性等特征，利用上述特征矩阵表征文本的表达情况。从智能建模的视角看，中文形象语言的修辞水平多采用对隐喻的分析来进行。各类隐喻背后涉及学习者的认知过程，是神经语言程序学（NLP）的关注重点。一般采用人工制定的规则或深度学习提取特征分析属性依赖的概念，利用属性的本体映射进行隐喻的解释、识别与生成。对于其他修辞手法，例如借代、夸张、反复、象征、寄寓等的识别，可将混合神经网络与神经语言程序学结合，以判断段落与通篇文章的表达能力。后续的研究需要进一步分析文本中的认知与修辞的成分，扩充专家标注集，开展大规模对比与修正研究，以提升分析系统的整体水平。

四、实现路径

智能技术赋能教育评价需要建立有反映能力和预测效能的教育分析模型，其本质是通过机器建模与计算实验分析，研究数学建模和场景计算方法，故其实现路径应当以学习能力的评价为起点，围绕建模方法、算法选择与评价模型的适配性展开深入研究。

（一）建模方法

教育评测领域的建模通常涉及复杂动态的语义问题，具有很强的不确定性，这类场景计算通过单纯的计算机建模往往难以实现。例如，文本数据分析在教育领域有多方面的应用，包括评论、考试、评测等，最终目标是挖掘被试对象的心理特征与能力水平。若将现有机器学习评测技术应用到该场景，会面临被试样本非常少以及缺少多维度特征标注的问题。如果能将这些数据充分结合起来，则可以了解学习者在学习过程中的心理痕迹。对于语言识别，目前将口语化的数据快速转换成文字的精度已经达到了非常高的水平，特殊符号与公式等都可以进行结构化，为进一步的分析提供了依据。但仅仅将文字结构化是不够的，还需要关注学习者的思维过程，如思维的流畅度、停顿以及心智游移等。对于文本的语义分析，尽管现有技术在自然语言处理方面已经比较成熟，但如何抽取核心概念，如何对摘要进行选择却很少有研究涉及。若直接将通用文本分析的聚类、分词等服务应用于教育场景，显然会有较大的误差。此外，对学习者发散思维的文本分析文本内容可能会涉及多个方面，若用单一的整体文本表征则难以覆盖不同方面的信息。未来的研究需要能够在文本挖掘的过程中，建立各个信息源对应的提取机制，进行连续语义单元提取，通过不同层面的映射与聚合实现评测性能的整体提升。

学习过程的数据化需要其他感知工具的辅助，包括采用摄像头或利用便携式传感器采集学习者的“离线”数据，使之预期可以加工和整合为多模态信息。若涉及知识体系的评价，需建立可以分析与计算的知识图谱，底层的技术包括各个知识点的结构化描述、确立知识点之间递进的关系以及不同层次的属性，从而以网状结构表现学习者的知识与能力水平，在这方面学术界已有比较成熟的技术积累。此外，需考虑将领域知识与计算机体系在一定的情境下融合，特别是需要信息科学与教育科学的研究者在教学实践中遵循教育问题的基本规律，围绕数据清洗、特征提取、模型表征开展协同工作，将教育的规律和计算机技术进行有机结合。

在傳统的有监督学习中，需要大量用于训练学习模型的标注数据。一般认为，标注的数据越多，基于该数据集训练得到的模型越高效。实际上，对于数字教育与终身教育各项评价指标的建构，当前整个技术体系的能力还处于“弱应用”范畴，在许多实际任务中研究者可以轻松获取大量数据，但大部分是未标注或者标注困难的数据。比如在图像和视频分类任务中绝大部分数据缺乏准确的语义标签。如何从少量标记的数据中产生有效模型是一个极具挑战的问题。需要建立一套完善的建模体系，通过“嵌入式”设计专家对样本集合进行选择，将学习指标重复分配给模态数据的不同区间，整合专家的领域知识以遴选数据特征，输出至计算机，以人机增强的方式训练数据集，通过低阶意义表征的自动建模与学习状态的整体权衡实现“人机协同”的迭代建模与知识发现。

评测建模的结果是发现规律以形成有效的干预。如何利用应用模型和评测工具表征教学过程，对不同特质的学习者、学习场景与学习任务中的问题进行量化与诊断，对“特殊区间”“脱离状态”等重要学习风险进行干预的研究还相当稀缺。数据驱动的研究方式往往忽视教育中因果关系的阐释，干预的教育学价值不明，不利于干预策略的实施。应重视开展工具介入的教学实践研究，围绕学习描述、诊断、预测和处方展开讨论，建立操作性策略、方法与模式，设计不同表征形式的课程单元模块。尝试利用多因素设计预测变量之间的联系，结合质性分析，以综合评估工具作用于教学的效果，形成教学效果预测模型。围绕不同学科教学场景，将准实验研究、逻辑推理与典型教学案例相结合，对理论、技术与方法进行验证。

（二）算法选择

对评价领域建模文献进行梳理可以发现，常用机器学习算法包括决策树、随机森林和逻辑回归、朴素贝叶斯分类器与支持向量机。其中，支持向量机和朴素贝叶斯分类器被认为是黑盒技术，研究者无法确切地知道预测的推导方式以及模型的含义。相比之下，决策树的结果得到了高度解释，生成规则集简单且与人类推理非常相似，易于理解并且可以清楚地描述预测过程。但决策树算法对样本敏感，数据的微小变化可能导致不同的树形结构和完全不同的规则。随机森林是决策树的增强版，因其不强调特征选择，对于多维特征的数据集建模具有很高的效率和准确度，且不易出现过拟合的问题，被广泛应用于教育领域的数据分类。随着深度学习技术的成熟，基于深度神经网络的模型在数据建模领域被广泛采用。例如，深度置信网络（DBN）具有更强的学习能力和多样化的网络结构，可以优化多层神经网络在学习过程中标签数据量大、收敛速度慢等不足，较好地解决了传统神经网络模型在预测建模上的瓶颈。更为专一化的神经网络，如利用对抗网络（Adversarial Network）和生成模型（Generative Model）进行梯度训练，能够同时并行处理多个任务，这类由相互作用的代价函数形成的非均匀优化系统可以使机器学习更为精确，是计算智能的未来发展方向。

机器建模的准确性可以采用正确预测的百分比进行度量，如召回率（Recall）、整体精确率（Precision）、F度量（F-measure）等。鉴于数据清洗以及无效样本信息的存在，良好的性能指标不应受到样本中类别分布的影响，这类问题通常会采用ROC曲线度量。ROC曲线具有对类分布变化不敏感的理想属性，适合不平衡类别群体的精度度量。交叉验证被广泛应用于判定训练模型的稳健性，但该方法不能保证建立的模型可以推广到其他群体，正确的做法是将模型应用于其他场景（不同学年、学校或学习群体）进行比较判定。评估模型性能的另一种方法是与类似场景的建模精度进行对照，或对学习者反馈的有效性进行评估，了解其是否会帮助学习者以及改善表现的程度，上述方法的综合应用可以佐证已有模型的泛化能力。

（三）模型的适配性

开发课程级别的评价模型非常耗时且需要大量的专业知识。因此，在学习评价的建模方面，通用做法是将学习者进行整体性评估，封装后即直接应用于其他学习场景。由于学习群体的不同以及学习环境的差异性，特定场景下评测模型是否具有通用性值得关注。“互联网+环境”中不同课程的学习活动、需求和评价方式会有很大的差异，学习活动之间的结构与内容的差异会影响学习者的行为方式，通用模型可能无法解决这类异质性问题。个性化的预测模型不足，建模指标不容易在各学习情境之间“移植”，导致通用模型可能很难达到预想的精度。从目前的研究来看，对于成绩的评估，不同学习环境的预测因子具有极大的差异性，即便是类似的学习平台也显示出预测指标的不同（张琪，等， 2019）。需要利用聚类技术对典型学习者的特征、行为与活动进行分类，分析不同类别评价模型之间的共性特征与相关关系，围绕通用模型如何匹配新的场景展开进一步探索。

五、小结

教育从来没有像今天这样迫切地需要智能技术，此时正是彰显教育信息化价值的最佳契机。以人工智能为代表的新兴信息技术正在重新定义学习者的知识与能力维度，计算素养、协作能力、复杂问题解决能力、人机协作能力等将成为新时代人才的核心能力。后疫情时代，人民群众对教育的需求更为多样，对更高质量、更加公平、更具个性的教育需求也更为迫切，需要发掘更能激发学习者学习进步的原动力，需要构筑能充分满足个人多元化需求的新型教育模式，需要建立教学过程的完整数据表征模型以及相应的评价方法。《深化新时代教育评价改革总体方案》的出台，体现了我国政府立足新的时代背景，对全面发展的人所应具备的创新精神与实践能力等综合素质的重大关切。在推动信息技术与教育深度融合的历史新时期，深入探索智能评价机制、理论体系、建模方法与关键技术，将学习视为复杂的现象，探究不同认知因素、社会情感因素、背景变量等因素影响学习的规律，助力真实教育需求的满足，既是难得的历史机遇，也是教育技术人理应具备的使命担当。

[参考文献]

陈丽，逯行，郑勤华. 2019. “互联网+教育”的知识观：知识回归与知识进化[J]. 中国远程教育（07）：10-18，92.

冯成火. 2020. 高考科目改革的轨迹与推进策略——兼论新一轮高考改革的深化与完善[J]. 中国高教研究（05）：78-82，102.

国务院. 2020-10-13. 中共中央国务院印发《深化新时代教育评价改革总体方案》[EB/OL]. [2020-12-10]. http：//www.gov.cn/zhengce/2020-10/13/content_5551032.htm

国务院. 2017-07-20. 国务院关于印发新一代人工智能发展规划的通知[EB/OL]. [2020-12-10]. http：//www.gov.cn/zhengce/content/2017-07/20/content_5211996.htm

黄荣怀，刘德建，刘晓琳，徐晶晶. 2017. 互联网促进教育变革的基本格局[J]. 中国电化教育（01）：7-16.

中国教育和科研计算机网. 2020-12-11. 雷朝滋：智能技术支撑教学改革与教育创新[EB/OL]. [2020-12-20]. http：//www.edu.cn/xxh/focus/li_lun_yj/202012/t20201211_2055540.shtml

田爱丽. 2020. 综合素质评价：智能化时代学习评价的变革与实施[J]. 中国电化教育（01）：109-113，121.

新华网. 2020-09-22. 习近平：在教育文化卫生体育领域专家代表座谈会上的讲话[EB/OL]. [2020-11-22]. http：//www.xinhuanet.com/politics/leaders/2020-09/22/c_1126527570.htm

张琪，李福华，孙基男. 2020. 多模态学习分析：走向计算教育时代的学习分析学[J]. 中国电化教育（09）：7-14，39.

张琪，王红梅. 2019. 学习投入的多模态数据表征：支撑理论、研究框架与关键技术[J].电化教育研究，40（12）：21-28.

张琪，王红梅，庄鲁，赖松. 2019. 学习分析视角下的个性化预测研究[J]. 中国远程教育（04）：38-45，92-93.

張琪，武法提. 2018. 学习仪表盘个性化设计研究[J]. 电化教育研究（02）：39-44，52.

Albert， R. S.， & Runco， M. A. （1999）. The history of creativity research. In R. Sternberg （Ed.）， Handbook of creativity （pp.16-31）. New York： Cambridge University Press.

Wu， F.， & Lai， S. （2019）. Linking prediction with personality traits： a learning analytics approach. Distance Education， 40（1），1-20.

Matthews， G.， Deary， I. J.， & Whiteman， M. C. （2003）. Personality traits. New York： Cambridge University Press.

Lai， S.， Sun， B.， Wu， F.， & Xiao， R. （2020）. Automatic Personality Identification Using Students Online Learning Behavior. IEEE Transactions on Learning Technologies， 13（1）， 26-37.

收稿日期：2020-12-22

定稿日期：2021-01-04

作者简介：张琪，博士，教授，硕士生导师;王丹，硕士，讲师。淮北师范大学教育学院（235000）。

责任编辑刘莉