APP下载

中外教育大数据的前沿研究进展

2017-09-30张生骆方赵茜辛涛

中小学信息技术教育 2017年9期
关键词:数据挖掘监测质量

张生+骆方+赵茜+辛涛

2017年8月14日-15日,首届京师教育大数据挖掘与应用年会召开。国内外40余位从事大数据分析与挖掘的专家在会上做了专题报告,来自各高校、科研机构、教育行政部门、企业等机构的700余人参会,同步收看会议直播的机构、单位和个人达到2000个。会议展示了教育质量监测与评价领域大数据研究和实践的丰富成果,为学校、科研机构、企业之间的深度合作搭建桥梁,为我国教育大数据领域的发展助力。

本次年会由北京师范大学中国基础教育质量监测协同创新中心发起,教育部基础教育质量监测中心、英国剑桥大学心理测量中心、北京师范大学互联网教育智能技术及应用国家工程实验室、北京师范大学中国教育与社会发展研究院主办,中国教育技术协会教育测量与评价专业委员会协办。

国际进展

教育大数据涉及教育数据尤其是过程性数据的采集方式,数据的处理与分析方式,如机器学习、自然语言处理、语音图像识别、视频处理等,数据的呈现方式,如数据可视化、个体和群体画像技术等多个方面。

当前国际教育大数据研究的重点之一是:利用大型社交网络数据来评价与预测人的心理状况,传统心理特征的評价主要是依靠心理测验的量表。正如剑桥大学测量中心主任John Rust 教授在会议的开幕式上所说:“十多年前,我们从因特网和Facebook搜集了600万人的特征,之前没有这么大的数据基础。当时有很多人质疑这些数据有什么用,我们现在发现,这些数据可以做非常好的心理测量,可以用来分析一个人各方面的特征 。”

来自美国斯坦福大学商学院的Michal Kosinski 教授,曾入选DatalQ及IBM评选的“大数据50位最具影响力人物”,他研究发现:只需要用户在Facebook上的227个点赞的行为,就能够准确地判断出用户的性格特征。将此类方法用在教育中,可以基于学生的网络痕迹对学生的人格、兴趣、潜能、价值观以及心理健康等进行预估。

另一个研究重点是:通过大数据挖掘技术从过程性、表现型数据中评估学生的认知能力和素养,最常见的是对作文的自动评分。利用学生学习的过程性和表现性数据,可大大提升评价的真实性和准确性,而人工评分效率低、成本高、误差大。西澳大学教育学院的Andrew Kyngdon教授分享了使用新的神经网络模型提升英语作文自动化评分效果的经验。

还有一个研究是测量技术和大数据技术的结合。一是在命题领域。采用机器学习技术对人工命题的规律进行探索,从而能够实现自动化命题。来自剑桥大学心理测量中心的Aiden Loe博士报告了使用机器学习算法自动生成人格测验题目的研究。二是游戏化测评方式的应用。测量学家还希望创设一些能够还原真实生活的测验情境,让被试身临其境地解决问题。剑桥大学David Stillwell教授分享了他们把传统的智力测验放在游戏情景中的研究,探索了如何对被试与情境的频繁互动过程中产生的海量数据进行分析,实现对被试的准确度量,这更需要人工智能工程师和测量学家的进一步紧密合作。三是推荐和适应算法。在教育测量领域还有一个重要的尝试,就是开发自适应学习系统,基于考生水平给予最恰当的测试题目,在较短的时间内实现对考生的准确测量,并且给予最恰当的学习资料来提高学习效率。自适应学习的兴起,源于网络上的学习课程和测试系统的数据积累,研究者经过数据挖掘对知识脉络进行了梳理,构建了知识点之间的概率模型。哥伦比亚大学统计学系的应志良教授基于决策论设计了推荐学习模型。

应用进展

中国学者围绕大数据的理论与实践,分别从教育大数据的不同方面进行了研讨和分享。

中国基础教育质量监测协同创新中心常务副主任辛涛教授指出:“教育质量监测与评价是一个复杂的系统,需要多领域、多学科的协同,多手段和多技术的整合。从中心的建立伊始,我们就在试图探索信息技术如何推动和促进监测和评价的提升,推动监测工作的发展。”

在过去10余年的探索中,大数据的应用主要形成了三个方面的成果。

第一,用于常态、大规模监测评价的教育评价云平台的建立。云平台包括从数据的采集、数据的管理、数据结果的呈现、内含测量评价的标准以及采集过程的管理等内容。包括题库系统、监测实施进展管理系统、信息上报及抽样系统、电子化测试系统、报告自动化系统和标准划定系统六个系统,将教育质量监测的所有环节和步骤信息化,实现功能和数据的整合,提高教育质量监测的质量和效益。

第二,面向过程性、表现性的特色测试系统的建立。探索复杂的非结构化数据的分析是中国基础教育质量监测协同创新中心近年来重点突破的技术难点。目前已建立了包括演唱测试系统、文本自动标定系统、作文自动评分系统在内的特色测试系统,并开展了教学实时动态监测系统的小范围试点。

第三,决策可视化系统的建立。为了将国家监测结果合理呈现以方便管理者决策,从而发挥监测的最大价值,中国基础教育质量监测协同创新中心利用多种信息系统及指数平台,采用科学、生动、可视化的形式对监测成果进行汇报与发布。“中国义务教育质量地图系统”就是其中一个重要的支持系统。

同样,围绕教育大数据的不同方面,中国学者和实践者给出了精彩的报告内容,具体包括六个方面。

一是大数据促进了研究范式的改变。大数据不仅是一种技术,更是一种研究范式,基于大数据开展各类研究成为当前学者们关注的焦点,这种范式能够从自然的数据状态揭示潜在的规律。如北京师范大学黄荣怀教授的“数据密集型研究”、清华大学王刚博士的“基于数据的学科研究领域知识图谱构建及发展研究”、北京大学郭文革教授分享的“基于《数字化阅读》课程数据的学习者批判性思维研究”。

二是涉及新型的测验形式的研究与实践。如北京师范大学刘红云“基于行为过程数据的测量:理论与实践”、骆方教授的“测评环境空间能力的‘虚拟迷宫游戏的开发”、薛贵教授的“基于脑科学的学生测量与学习”等,从过程和游戏化、脑科学等角度展示了新型的测评方式和研究,这些研究不仅具有理论意义,在实践领域也取得了很大的进步。endprint

三是涉及网上考试行为有关的过程型数据的挖掘以及自适应系统的理论与实践。如中国人民大学赵鑫博士的“基于在線测试平台用户行为的题目知识挖掘研究”、中国科学技术大学刘淇博士分享的“面向在线教育考试评估的数据挖掘技术研究与应用”,华东师范大学文剑冰博士分享的“认知诊断性自适应测评系统设计及实践思考”和长春出版社郑晓辉社长分享的“基于数据的小学数学自适应诊断与学习系统”。

四是基于学生学习过程的数据挖掘与分析,从学习过程数据进行心理状态的测量与评价。如北京师范大学张生博士的“写作数据如何预测人的心理发展”,还涉及从不同角度来看待学生的发展和表现;如中山大学胡延庆教授的“学生画像:小学生语文写作跟踪轨迹数据分析与应用”等。

五是自然语言处理与深度学习在阅读和写作中的应用。通过机器对人评价的学习,机器逐步学会了对文本难度进行分级。如赵梓淳博士讲的“中文分级阅读的探究与应用”和张跃博士讲的“基于大数据的英语作文智能批改”等。

六是涉及评价结果的解释与运用方面的研究与实践。中国基础教育质量监测协同创新中心副主任刘坚教授从“区域教育质量健康指数:探索与挑战 (2003-2017)”做了展示和分享,提出了三个问题:一是如何确定某一个指数的阈值范围?二是如何通过筛选和合成等途径进一步提炼体检指标,用尽可能少的参数更加灵敏地反应一个区域或学校教育质量健康状况?三是如何对数据进行更有效的深层次挖掘和更加充分的运用,真正促进教育公平和质量提升?

未来展望

第一,多地域、多学科研究领域人才的协同,实现教育质量监测大数据的挖掘。随着教育质量监测过程性数据收集系统的不断完善,未来教育质量监测数据将会以几何级的规模递增,而同时大数据不断积累和开放过程中,不同国家之间、不同学科领域之间的协同合作,从多角度对教育数据挖掘,寻找学习、教学、管理过程中的规律,利用这些规律形成机器的教育智慧,从而进一步服务于教育过程,促进教育变革的顺利进行。

第二,教育质量监测大数据分析结果与教育改进服务紧密结合。教育质量监测大数据挖掘直接导向应用,在教育各个层面上实现改进。首先,促进学生“更好地学”。通过对学生日常学习数据的分析,促进个性化的学习。从纸笔测验向基于云计算的网络测试发展,最终实现基于大数据挖掘技术的个体化实时监测,根据监测结果给学生提供更加个性化的学习材料。其次,促进教师“更好地教”。通过为教师提供学生学习过程和教学过程的评价数据,促进教师改进教学,针对学生的不同特征因材施教。再次,促进教育管理者“更好地管”。为教育管理者提供更多、更全面的数据,为其科学决策提供更有力的支持。

第三,教育质量监测大数据专门人才进行培养。随着教育质量监测工作的不断推进,各省、市教育质量监测机构纷纷建立,人才缺口巨大,特别是在大数据挖掘方面的人才极缺。作为一个学科交叉、复杂的研究领域,协同各高校和多学科的力量,培养大批专门人才是本领域未来发展的基石。教育专业院校在传统的教育测量、教育统计专业的基础上,增设新的专业方向,扩大招生数量,或面向教育质量监测实践者开设大数据相关课程,是突破发展瓶颈的重要因素。

教育大数据的开发、应用仍面临一些问题。例如,如何进一步实现测评工具的丰富性、科学性,可视化展示实时数据分析结果,对监测采集结果深度挖掘,为教育决策提供及时反馈,扩大教育大数据对监测的成效,同时加强对教育数据的分析、处理以及对学生综合素养的测评进一步普及等。收集的数据很多是学习者学习过程中的个人数据,如何避免对于个人隐私的侵犯,实现研究伦理和技术发展的平衡,也是未来要着力解决的问题。endprint

猜你喜欢

数据挖掘监测质量
特色“三四五六”返贫监测帮扶做实做细
探讨人工智能与数据挖掘发展趋势
质量守恒定律考什么
做梦导致睡眠质量差吗
基于并行计算的大数据挖掘在电网中的应用
网络安全监测数据分析——2015年12月
网络安全监测数据分析——2015年11月
质量投诉超六成
一种基于Hadoop的大数据挖掘云服务及应用
不穿戴也能监测睡眠