APP下载

基于教育大数据的学习分析研究综述

2018-06-17顾云锋吴钟鸣管兆昶翟萍

中国教育信息化·高教职教 2018年4期
关键词:教育大数据学习分析在线学习

顾云锋 吴钟鸣 管兆昶 翟萍

摘 要:作为教育大数据的主要学术研究领域,学习分析的发展速度非常之快。泛在网络下的学习大数据高速增长,关于学习分析的研究也随着大数据理念的发展而不断变化。本文通过文献分析法,着重从教育大数据的视角,对国内外学习分析的研究现状进行综述。首先介绍教育大数据背景下学习分析的概念、模型、要素,提出了基于教育大数据的学习分析架构模型,详细分析了不同的学习分析应用领域及其适用的算法技术,最后对学习分析的意义进行了总结。

关键词:学习分析;教育大数据;数据挖掘;在线学习

中图分类号:G434 文献标志码:A 文章编号:1673-8454(2018)07-0001-06

一、引言

以慕课等为代表的在线教育的迅猛发展推动了基于大数据的学习分析研究。2012年,美国教育部发布了《通过教育数据挖掘和学习分析改进教与学:问题简介》[1],指出基于大数据的研究领域:教育数据挖掘和学习分析,从而也推动了学习分析成为近年来教育信息化领域内的热点研究问题。

学习分析作為一个新的研究领域,其主要关注点是如何有效地运用学习分析技术设计、收集、测量、分析与报告学习者数据,理解与优化学习过程及其学习环境,真正实现个性化学习,并为教学决策、学业预警提供支持等。[2]本文基于文献调研,在CNKI数据库中以“学习分析”为关键词,得到检索结果285个,将与本研究相关度较低的手动排除了43个,其中CSSCI和核心期刊共138篇。经过对论文的标题、摘要和主要研究内容的梳理,我们发现目前国内关于学习分析的研究在2015年之前多集中在概念引入、理论介绍、应用现状、模型设计与论证等方面,从2016年开始研究内容涉及了基于大数据的学习分析模型研究、技术基础、分析原理、分析工具、可视化、互操作规范、安全伦理以及实践应用研究等方面。学者顾小清[2,3]、刘三[4,5]、吴永和[6]、孟玲玲[7]、李青[8]、魏顺平[9]等学者从不同角度对学习分析的研究现状和未来发展等做了综述。本文尝试基于教育大数据创新的角度,从学习分析的概念、模型、要素、框架、算法、技术、应用领域等方面对当前的研究进展进行梳理与总结。

二、教育大数据概述

当今互联网时代,大数据无处不在。大数据一般具有4V的特征,既海量、高速、多样和价值,其本质主要指的是数据的汇聚和关联。教育大数据同样如此。

1.含义

由于教育数据的复杂性使教育大数据的定义并不十分明确。一般而言,对教育大数据的含义,有狭义和广义两种理解。狭义的教育大数据主要指的是来自在线教育平台上学习者的学习相关数据等;广义的教育大数据指来源于日常教育活动中所有人的所有行为数据。本文中教育大数据主要是狭义理解上的含义。

2.分类

从数据的来源来分,教育大数据可包括学习者个人信息、学习资源信息(视频、PPT、文档等)、学习者行为信息(学习跟踪、社会交互等)等来自多个来源的异构数据集成。吴永和在2017年“教育大数据应用技术”国际学术研讨会上提出按照人的多重感知模式分析测量记录学习者生物数据,即数据的多模态,如同步记录和分析眼球运动轨迹和关注焦点、脑电和事件相关电位、心电、肌电、皮肤电等生理信号。[10]

按数据的存储方式可分为结构化数据和非结构化数据。结构化数据是指可以用数据库二维逻辑表来表现的数据,如学习者基本信息等。非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,其中包括视频、音频、交互信息和知识图谱等。

3.特点

教育大数据来源各不相同,但其间却有千丝万缕的联系。当前,数以十亿计的数据项已在网络上公布为关联数据,形成一个全球开放数据空间——链接的开放数据云,其中包括来自不同领域的开放数据,如政府和教育机构数据、科学知识和关于各种在线社区的数据。在这链接的开放数据云上也出现了巨大的跨领域知识库,如DBpedia(一个众筹社区努力的结果,从维基百科中抽取结构化信息,并使这些信息可以在网络可用)、Wikidata(维基数据)等。

三、学习分析的相关理论

1.概念

从时间顺序来看,最早的学习分析定义源于美国高等教育信息化协会(EDUCAUSE)的“下一代学习挑战”(Next Generation learning initiative),其中将学习分析定义为“使用数据和模型来预测学生进度和绩效,以及对该信息采取行动的能力”。2011年召开的首届学习分析与知识国际会议(LAK)将学习分析定义为:“学习分析是以理解和优化学习及其发生的环境为目的,对学习者及其所处情境的数据进行的测量、收集、分析和报告。”[8]LAK会议已经连续举办了7届,2017年第7届LAK会议回到了澳大利亚温哥华举办,有来自32个国家的研究代表项目,全球研究者发表了64篇学术论文,并召开了16个分项目研讨会。

通过对学习分析的现有研究成果分析,我们可以发现,学习分析是一个跨学科的研究领域, 涉及教育学、信息科学、统计学、学习科学等。其研究对象主要是学习者及其所处情境的数据学生及其学习情境,研究的基础是通过一定的方式储存在计算机中的、在学习者学习及其与学习所处情境交互过程中产生的海量数据,研究的最基本目标是优化学习和学习情境。

2.模型[2]

对于学习分析的研究,我们可以首先从它的模型研究开始。自从学习分析的概念提出以来,国内外很多专家学者对学习分析模型开展了持续的研究。下面介绍三种目前被广泛接受和认可的模型。

(1)TEKL 模型

作为关联主义学习理论创始人,2010年George Siemens提倡要改变传统课堂教学的方式,结合自己的实践,并根据关联主义理论提出学习分析的 TEKL模型。该模型如图 1 所示。

George Siemens 认为通过语义化和关联化,会使数据变得越来越智能。他认为可以把学习者数据、档案信息和课程数据等以某种形式结合在一起进行分析,进而判断出学习者目前的学习状况,让教师能及时地发现教学中可能存在的问题,并将分析的结果用作预测、干预、个性化和适应性学习的基础。

(2)持续改进环模型

2010 年阿萨巴斯卡大学学习的伊莱亚斯提出了持续改进环模型这一学习分析过程模型,如图2所示。该模型将学习分析过程分为数据收集、数据处理和知识应用三个循环阶段,并将整个学习分析过程总结为七个具体步骤,即选择、聚合、预测、优化、使用和分享。同时,Elias强调学习分析过程要不断循环,通过改进环来实现这种循环过程,即可以通过前期分析得到的结果对学习过程进行优化,并将优化后得到的数据再分享给数据收集阶段,从而对后续的学习分析产生影响,进而推动学习效果的持续性提高。

(3)四维参考模型

2012年Chatti与Dyckhoff等学者指出学习分析过程应该是迭代循环的,他们提出了四维参考模型(如图3所示),四个维度分别包括:“What”、“Why”、“Who”、 “How”。“What”即指学习分析所依据的数据环境;“Why”维度表示学习分析的目的和度量指标,如检测、预测、指导、评估、反馈、个性化推荐等;“Who”主要指利益相关者;“How”主要指学习分析所采用的方法。

综上,TEKL模型和持续改进环模型注重从全局出发设计整个分析过程,持续改进环模型更强调过程的循环迭代。四维参考模型对学习分析过程做了进一步细化,并提出了不同维度衡量指标。但是,我们注意到将目前已有的学习分析模型研究成果直接应用到具体的学习分析过程中指导意义并不强,缺乏较完整的、清晰的、实践指导意义较强的框架模型。

四、基于教育大数据的学习分析架构模型

基于上述学习分析模型研究基础,我们提出一种学习分析架构模型,主要包括5个层次,分别为数据存储层、数据处理层、数据分析层、数据显示层及功能对象层,同时实施过程应考虑个人隐私和伦理道德。该模型实践操作性较强。

1.数据存储层

数据存储层分为学习者信息庫、学习资源信息库、学习行为库以及各类知识图表。其中,学习者信息库包含个人资料。学习行为库通过程序自动记录学习者学习过程,可以精确跟踪和记录学习者在网络平台学习实时发生的行为。

2.数据处理层

数据处理层具有数据清洗、数据整合、数据转换、数据提取和数据维护等功能,负责处理数据存储层中各类异构数据,为数据分析做前期准备。数据清洗指删除原始数据集中无效或无意义的数据;数据整合即将来自不同来源的数据整合到一起;数据转换是对数据根据分析需要进行规范化、离散化、数据规约等处理;数据提取指从数据源中提取有用数据;数据维护进行持久化、备份、权限管理等。

3.数据分析层

数据分析层主要指学习分析技术的模型库、算法库等,如社会网络分析、话语分析、内容分析等。

4.数据显示层

数据显示层主要借用分析层中的算法和模型针对不同的用户对象提供特定的数据分析结果,如热门学习资源列表、个性化学习资源推荐等。该层主要目前主要研究的是建立在数据分析层之上的可视化技术等。

5.功能对象层

对象层主要包括学习者、教学者和管理者。学习者既是学习分析数据主要来源实体,也是学习分析结果的主要面向对象。教学者不仅仅是教师,还包括教育研究人员、教学设计者人员等。管理者主要指各级教育管理部门和相应的决策者,包括政府教育行政部门、学校管理部门等。当然,学习分析面向的对象层中除了上述三大对象之外,还会涉及其他一些利益相关者。如学习者家人可以通过学习分析系统了解学习者的学习状况;平台和企业可以了解到学习平台的真实访问情况,从而为企业未来的发展方向做出决策等。

五、基于教育大数据的学习分析算法模型和技术

具体的学习分析应用领域较多、较复杂,很多分析人员在面对具体任务时感到无从下手。下面经过归纳总结我们将学习分析应用领域分成5个方面:预测、解释、内容分析、话语分析及其它,并分别介绍不同研究应用领域中常用的模型、技术、原理等。需注意到由于学习分析技术综合了许多先进的技术,依据使用的方法不同,对应使用的分析工具会有所不同。

1.预测建模分析

在预测建模中,目的是创建一个模型,根据观测数据预测新数据的价值或者预测新数据所属分类。预测模型是基于假设,认为一组已知的数据可以用来预测新数据类或者价值。预测建模的目标是找出最佳预测结果的特征组合,用于预测未来走向,实现教学预警和干预,以及提供决策支持。具体常用预测模型如表1所示。

当前,大量的软件包可以用于构建预测模型,而选择正确的软件包则取决于研究人员的情况、经验,所需的分类或回归方法,以及所需的数据和数据清理量。例如,Aguiar等人(2015年)描述了预测模型的使用,以确定学生是否会从中学毕业,这表明了随着学生从小学进入中学,预测的准确性会如何变化。

2.解释建模分析

解释建模分析寻求识别可判断的因果关系,这些因果关系存在于可以从数据中观察或推断的结构之间。解释模型试图识别与结果相关的可解释结构。解释建模分析是一种事后的和反思性的活动,旨在产生对现象的理解。其目标是使用所有可用的证据,为某一结果提供解释。例如,一个学习者的年龄、性别和社会经济地位的观察可能会被用于回归模型来解释这些学习者背景属性对学生成绩的贡献。在解释性建模中,从一个样本中收集的所有数据(例如在某一门课程中注册的学生数)被用来更一般地描述一个群体(例如所有能够或可能参加某一课程的学生)。实施过程中通过减少选择偏倚确保样本的普遍性,通常是通过随机抽样或分层抽样。具体解释模型如表2所示。

3.内容分析

内容分析是一种特别的学习分析形式,它侧重于对不同形式的教育内容的分析。内容分析的方法主要是采用自动化的方法,用于检查、评估、索引、过滤、推荐和可视化不同形式的数字学习内容。内容分析的重点是对不同的“资源”(教科书、网络资源)和“产品”(作业、讨论信息)的自动化分析。内容分析常用构建个性化推荐系统,其在学习分析中的常用应用分类如表3所示。

(1)基于学习资源的内容分析

内容分析最早的用途之一是对教育资源和材料的分析,以及对这些资源的推荐、组织和评价。学习者在学习的过程中可获得大量教育学习资源,那么可以根据学生的兴趣或课程学习的进度,判断出学习者一个特别感兴趣的领域,进而进行相关课程和资源的推荐。

协同过滤分为两种类型:第一种是寻找相关联的学生,即在资源使用上有大量重叠的学生很可能有共同的兴趣,分析学习者的学习偏好兴趣,进行归类,在所有的用户群中寻找和学习者相同或者相似类别的群体,并将该群体评价较高或者较感兴趣的学习资源推荐给用户。第二种,寻找相关联的课程。即大量学习者一起使用的资源很可能是相似的,进而分析出学习资源之间的相似度,然后根据学习者的历史偏好信息,将类似的资源推荐给用户。

(2)学生学习成果的内容分析

学习分析的核心目标之一是在学习时为学习者提供及时和相关的反馈。内容分析被应用的最早的领域之一是学生论文的分析,也称为自动论文评分。最广泛应用的自动化论文评分技术是潜在的语义分析。通过对不同论文的词共生的分析来衡量两种论文文本之间的语义相似性。另一种常用的评估学生论文的方法是基于图形的可视化方法,也基于论文文字的共同出现率。

(3)学生社交互动的内容分析

异步在线讨论是学生和教师之间相互交流的主要方式之一。针对学生社交互动的内容分析所使用的最主要技术是概率主题模型和神经网络分类系统。概率主题模型用于识别文档集合中的关键主题和主题的方法。神经网络分类系统可以自动编码互动信息,以达到认知水平。

4.话语分析

话语分析是学习分析领域的一个应用领域。话语分析是指借助于符号理论和话语理论,致力于对传播活动的各种符号、象征、文本及话语进行解剖,从表象中发现其中隐含的深层寓意与真实用意。在学习分析中采用话语分析有着多方面的影响,包括提供分析镜头支持研究,使形成性和总结性评估成为可能,启用动态和上下文敏感的触发干预措施以提高学习活动的有效性,并提供教学反思如提供学习活动结束后的报告和反馈以支持后续的学习和教学等。

话语分析数据源包括在线教育环境中开放式问题回答,还包括在线平台中讨论论坛、聊天室、微博、博客,甚至维基的讨论等。最常用的方法可以包括词频分析、词云分析、情感分析、流量分析、聚类和分类分析、社会网络分析等。目前词频分析是基于教育大数据话语分析的基础。

5.其它学习分析研究方向

(1)学习分析仪表盘

学习分析仪表盘(Learning Analytics Dashboards,LAD)可以可視化学习路径,让用户了解学习过程。信息可视化概念和方法是关键的促进因素。人类的眼睛和大脑的视觉皮层提供了人类认知中心的最高通道。在人类更高层次的认知处理过程中,知觉和认知是紧密相关的。在学习分析仪表盘中可以包含以下类型的数据:由学习者完成的学习成果,包括作业、论文、博客文章、共享文件等;社会互动,包括面对面的小组工作、博客评论、Twitter或讨论论坛的互动。资源使用可以包括文档的咨询(手册、网页、幻灯片)、视频等。像软件跟踪器和眼球跟踪这样的技术可以提供更详细的信息,关于资源的哪些部分正在被使用以及如何使用。LAD可以帮助教师识别有风险的学生,并让学生通过测试和自我评估的结果得到一个学习进度的指示,将自己的努力与同龄人进行比较。

(2)多模态学习分析

多模态学习分析(Multimodal Learning Analytics,MLA)提出了一种不同的方法来进行学习分析。它通过捕捉、融合和分析互补的学习轨迹来获得对学习过程更健壮和更确定的理解。多模态学习分析的来源包括在线系统捕捉到的、传统的日志文件数据,但也包括学习条件和更自然的人类信号,如手势、姿势、发言或动作等。比如姿势指的是身体或身体在某一特定时刻所采取的姿势。学习者的姿势可以提供他们内部状态的信息。例如如果一个学生趴在桌子上,老师可以推断出学生对这堂课感到厌烦或不感兴趣。

(3)自然语言处理技术

语言是教育领域的中心,因为它是交流和理解信息的渠道。因此,学习分析领域的研究人员能够从发展分析语言的方法中获益。自然语言处理(Natural Language Processing,NLP)技术就提供这样的途径。NLP技术用于提供与特定任务相关的语言的不同方面的计算分析。目前有多种可用的NLP工具,这些工具的主要关注点是对人类语言输入的自动解释,以推动人类和计算机之间的交互,或者人机交互。因此,这些工具度量了理解文本的各种语言特征,包括连贯性、句法复杂性、词汇多样性和语义相似度。

六、结束语

置身于大数据时代,我们应该能够利用大数据的有效手段来对教育数据进行分析,这无论对教师、学生还是教育管理者都具有极大的意义,这些包括分析干预的干预教育,为学生提供建议,更好的课程建模和学位规划,更好地理解学习者和学习过程,以及理解学生的长期成功因素。教师可根据学生的行为特征更好的制定学习计划和制作学习资源;学生可找到适合自己的学习方式,进而达到个性化学习的目的;教育管理者可针对其中反映出来的问题制定更加合理的评价系统和管理策略。同时,我们可以注意到,学习分析的潜力不仅被教育机构所认可,还包括开发教育软件的公司,如智能导师系统、教育游戏、学习管理系统或MOOC平台等。

参考文献:

[1]Bienkowski,M.,Feng,M.,Means,B.Enhancing Teaching and Learning through Educational Data Mining and Learning Analytics:An Issue Brief[R].Washington, D.C.:U.S. Department of Education, Office of Educational Technology,2012.

[2]顾小清,张进良,蔡慧英.学习分析:正在浮现中的数据技术[J].远程教育杂志,2012(1):18-25.

[3]顾小清,刘妍,胡艺龄.学习分析技术应用: 寻求数据支持的学习改进方案[J].开放教育研究,2016,22(5):34-44.

[4]刘三,彭晛,刘智等.基于文本挖掘的学习分析应用研究[J].电化教育研究,2016(2):23-30.

[5]刘三,李卿,孙建文等.量化学习:数字化学习发展前瞻[J].教育研究,2016(7):119-126.

[6]吴永和,陈丹,马晓玲等.学习分析:教育信息化的新浪潮[J].远程教育杂志,2013(4):11-19.

[7]孟玲玲,顾小清,李泽.学习分析工具比较研究[J].开放教育研究,2014,20(4):66-75.

[8]李青,赵越.学习分析数据互操作规范IMS Caliper Analytics解读[J].现代远程教育研究,2016(2):98-106.

[9]魏顺平.学习分析数据模型及数据处理方法研究[J].中国电化教育,2016(2):8-16.

[10]吴忭,顾小清.教育大数据的深度认知、实践案例与趋势展望[J].现代远程教育研究,2017(3):11-17.

(编辑:王晓明)

猜你喜欢

教育大数据学习分析在线学习
信息化环境下高职英语教学现状及应用策略研究
浅析大数据在教育中的应用