APP下载

基于SOM聚类法的在线学习分析研究

2020-04-07杨文阳

中国教育信息化·高教职教 2020年3期
关键词:数据分析

杨文阳

摘   要:在E-learning学习领域,在线学习系统中大量的学习资源往往会让学习者难以及时获取适合自身的个性化学习资源。当前在线学习行为方面的研究主要关注根据学习者的学习行为和知识水平提供适切的学习资源,但学习者学习行为的差异性、学习资源的多样性和学习导航链接的复杂性成为自适应学习环境系统构建的限制因素。因此,有必要利用学习分析技术来分析学习者的相关数据,进而深入了解学习者的学习行为,并组织和维持在线学习系统中储存的学习资源。文章基于自组织映射(Self-Organizing Maps,SOM)聚类法提出了一种自适应学习环境框架,该框架有利于分析学习者相关数据并构建学习内容模型,为学习者提供适合自身需要的学习内容,最终取得高质量的学习成绩。随着E-learning中学习数据的日益增长,为了保证E-learning中学习者的学习质量,非常有必要对这些大量的学习数据进行分析,这也成为当前教育研究中的热点问题,文章有助于在E-learning环境中对学习者进行及时有效的大数据分析。

关键词:E-learning大数据;数据分析;自适应学习;自组织映射(SOM);学习者模式

中图分类号:G434 文献标志码:A 文章编号:1673-8454(2020)05-0066-08

一、背景介绍

当前信息技术的发展产生了大数据,分析数据对研究者来说变得很有必要,因为分析数据使数据变得更有意义,[1]能发现更多的数据模式。[2]在大数据分析中需要信息技术支持数据分析,但大数据分析需要更快、高效和更加具有可扩展性的方法储存并处理所有的数据,[3]从而代替传统数据库技术来处理数据,因为传统的数据库技术无法在大数据环境中正常运行。许多研究项目已经证明在数据分析中发现了更有效的方法。

E-learning是指使用应用程序或平台进行学习。E-learning平台包括网络学习、计算机学习、虚拟教室和数字化协作学习等。[4][5]E-learning系统为教师创建、指导和管理在线课程提供了更多的灵活性。教师能设计并安排各种各样的在线学习活动,如测验、论坛、案例和作业等。E-learning系统也帮助教师进行有效的教学管理,如监控学习者的进度和成绩、学生的注册和分级等。[6][7]为了提高教学质量并有效分配知识,大多数教育机构将E-learning整合到教育过程中。教育机构在使用E-learning系统中必定会产生大量的数据,这些数据来自学生的个人信息、考试成绩、培训材料、视频课程和在学习中创造的大量数据,这些数据会对学习者未来的学习和教师的教学产生重要的影响。学习分析促使教师和研究者了解学生使用的在线学习平台的方式,从而为实现个性化学习提供新的研究思路和技术支撑。[8]

在E-learning中,个别化学习的实现增加了自适应技术在E-learning中的广泛应用。目前在线学习环境中普遍缺乏可视化的学生状况和学习表现,这使学习者在网络学习环境中感到非常孤单和乏味。自适应学习系统是一种交互式系统,该系统有效整合了学习内容、学习模式和互动,目的在于努力满足学习者的个性化需求,最终提高学习者的学习成绩。[9]自适应学习技术支持的E-learning能够帮助不同知识水平的学习者,并且努力为学习者创设舒适的个性化在线学习环境。因为在线学习环境可以充分考虑每位学习者的学习兴趣和知识水平,为学习者提供个性化的学习支持和服务。本研究根据E-learning中学习者的学习行为利用SOM聚类法进行学习分析,进而提出了一种自适应学习环境框架。聚类分析结果将被用于识别和提供给学习者适切的学习材料,满足学习者的个性化学习需要,从而使学习者提升自己的学习成绩。

二、研究现状

1.E-learning和大数据

E-learning环境中的大数据并不是新出现的事物,自从互联网兴起以来,E-learning已经成为现代教育发展中一个重要的学习媒体。在E-learning环境中,每个学习者在学习过程中的行为都与系统互动,比如参与在线评估、论坛讨论和其它的在线学习活动都会产生数据,这些数据会被自动记录在日志文件中。当日志文件获得更多的学习活动时,日志文件中数据的数量将会不断增加,最终会产生过量的信息负载。这些数据在教学中非常有用,所以教育大数据的主要问题是如何分析数据,以便获得能够有效改善教学方法的有价值的信息。E-learning中大量的用户数据会在一定程度上限制数据挖掘,这也可能会造成延迟用户的行为,因此,我们需要寻找合适的方法来解决这个问题。[10]忽视这个问题会不利于教师的教学效果,对在线学习的学习者来说也会产生不良的影响。例如没有对教育数据进行分析,学校或教师难以准确了解哪些学生的学习成绩下降,课程学习中有哪些学生需要不同类型学习资源的支持,通过分析学习数据这些问题会得到解决。

当前基于大数据的学习分析和研究对学校和教师很有帮助,因此在教育教学中对大数据进行研究显得非常重要。一些研究表明数据驱动决策能够有效改善组织及其生产力。[11]对于教师而言,在教学过程中利用数据驱动决策可以使他们有效提升教学效果。在E-learning大数据中通过分析学习者的数据,在线学习专家或教师会获得学习者的准确信息。学习分析有助于辅助教师重温整个在线教学过程,弥补了师生分离状态下輔导教师难以了解全班活动的不足。[12]在教育大数据中,学习技能和课程开发是大数据实施的基础。Zhu[13]和Piliouras[14]探讨了在大学课堂上采用大数据技术分析学习技能对学生学习的重要性。另外一些研究者提出在大学教育中通过开设大数据课程及专业来解决当前数据分析专业人才严重缺乏的问题。[15]为了有效预测学生毕业后的就业意愿,AbuKousa和 Atif通过设计和开发一个应用程序来分析大学生大学学习与生活状态的大数据。[16]

1.自适应模式

自适应模式由学习风格自动化、知识评价代理和学习材料测序代理三个部分组成。当学习者初次登录学习系统时,他们需要回答学习风格索引库自动生成的问卷,目的在于了解学习者的学习风格。根据学习者在学习风格索引库问卷中给出的答案,学习风格自动化将自动识别学习者的学习风格并将相关特征信息存储在学习者模式库中。一旦学习者完成了练习、小测验或考试评价,知识评价代理将会运行并获取学习者的评价结果,评价结果将会用于指导不同知识水平的学习者,如初学者、中等水平学习者或高水平学习者,知识评价代理将会在学习过程中反复识别并确认学习者的知识水平。学习风格自动化、知识评价代理与学习者之间持续互动,以适应学习者的学习行为。学习材料测序代理主要处理生成的学习路径和影响学习者适应性特征的相关学习材料,学习材料测序代理也将会被用于为学习者提供评价和建议性学习材料,它们可以作为学习者的附加信息使用。目前的BlackBoard学习平台具备记录学习者在学习过程中的每个学习行为并评价学习者学习活动的功能,学习平台可以将这些信息存储在日志数据库文件中,这些有价值的数据将会通过SOM聚类分析模式来分析学习者的在线学习行为。

2.知识库模式

知识库模式承担着知识库的功能,主要用于存储课程相关的知识。该模式主要基于图形、分层节点和弧的概念進行开发,节点代表了知识的概念,弧代表节点之间的联系。教师或课程管理员可以直接通过知识库模式来插入和修改学习材料。知识库模式主要由附属配置、知识库和内容调整原则组成。对于每一个学习材料,教师需要明确学习者应该具备的学习水平和学习材料的难度等级,自适应模式利用这些信息为学习者提供个性化的学习材料。当前的BlackBoard学习平台支持额外配置信息功能,这可以改善学习环境支持学习者自适应学习的特性。知识库中学习内容的组织按照层次顺序排列,课程作为起始点,每门课程都与章节知识点相关联,每个章节由各种学习主题组成,每个学习主题会链接到学习目标和评价。每一个学习材料都由一系列各种相关的学习资源组成。依据学习目标,利用一个超链接服务,可以把课程相关学科的学习资源呈现出来,如相关术语和定义等。图2描述了在知识库模式中知识库的组织结构。

内容调整原则是基于自适应特征、学习风格(视觉和语言方面)和知识水平进行设计,表1给出了自适应学习系统的知识呈现策略。课程单元的组成分为六大类:①文本类:课程单元知识中包含的文本;②图形类:主要包括图片和视频;③示例类:样本或附加信息;④基本信息类:包含课程的基本内容,如标题、概念、相关文本、图表、案例和评价等;⑤附加信息类:有助于扩展学习者理解和学习范围的补充学习资源。智能导航代理主要用于引导和帮助学生去浏览自适应学习系统的各个链接和页面,该代理还负责在系统展示区域内以结构化的方式呈现所有的学习材料。

3.学习者模式

学习者模式主要展示学习者的相关信息,具体来说,主要包含三个方面的信息——学习者的个人信息数据、自适应特征数据和评价库。个人信息数据包括学生姓名、学号、电子邮箱,目前的评价分数信息等。自适应特征数据包括学习风格(视觉或语言)和知识水平(高级、中级和初级)。评价库主要存储学习者每次测验和考试的结果和分数。学习风格和知识水平信息很大程度依赖于学习者对学习风格索引库问卷的回答结果以及考试或测验的评价分数,这些数据信息由系统自动更新。

4.分析模式

基于大数据的自适应学习过程,既需要考虑学生个性化特征,又要考虑从海量数据中挖掘有价值的个性化学习信息方法等。[32]分析模式是自适应学习系统框架的最后一个环节,该模式的作用是为教师提供更多量化的证据,从而为教师提供和准备个性化教学信息,而且可以帮助教师在学生的学习状态和行为方面做出决策。在该框架中,我们采用SOM数据挖掘技术从日志数据库中捕捉数据来识别学习者的在线学习行为。SOM将会把日志数据库中的历史数据和学习者模式中的个人信息作为输入信息进行分析。导航代理将利用分析模式生成的结果去改进学习者的学习方法,如果有必要的话,还可以为一些有特定需求的学习者提供个性化的学习材料。

四、应用案例介绍

本研究的应用案例基于BlackBoard在线学习平台,利用数据挖掘技术来分析学习者的在线学习行为。应用案例研究过程如下:

1.数据采集和预处理

该研究使用的数据是通过BlackBoard在线学习平台日志文件库获取的,主要从《程序设计语言》课程中搜集学习者2017-2018学年第一学期在线学习活动的情况,数据记录是从第1周到第14周的教学和学习过程,最终的数据以Excel格式从BlackBoard在线学习平台中下载。在数据下载时,可以自由选择下载与研究需求相关的数据,这些数据包括日志文件库中记录的所有学习者的学习行为信息等。数据收集的信息主要包括课程名称、访问时间、IP地址、用户ID、用户行为和学生的个人信息等。与此同时为了保证数据的准确性和有效性,还需要清除一些干扰性的数据和与研究无关的数据,如管理员行为、教育者行为和使用这个课程学习系统的其他用户行为等。因此,过滤数据的目的是为了准确获取学生使用过的相关数据。学习者的在线学习行为信息主要包括教育者为学习者准备的学习材料模块信息,如学习任务模块、论坛模块、学习资源模块和其它模块。因此,基于学习者的在线学习行为分析本研究重点关注课程模块、学习任务模块和学习资源模块的数据。数据收集过程是通过连续追踪学习者在14周的时间内所产生的学习行为数据完成的,学习者在线学习行为数据类型如表2所示。当学习者在线浏览学习材料时,我们可以通过以下9种变量来分析学习者的在线学习行为。

2.结果分析

在线学习系统中的原始数据经过筛选后,剩余的数据是本研究所关注的数据,也是学习者浏览在线学习系统时所产生的学习行为数据。数据库记录的学习行为数据是基于14周内学习者每周的在线学习行为统计出来的。本研究利用SOM聚类法处理这些数据并把处理结果应用于下一个学习主题。从日志数据库中提取的在线学习数据包括用ARFF格式编写的学习者交互行为数据,在SOM聚类分析之前需要对这些数据进行标准化处理。图3显示了学习者在第1周注释学习行为聚类的可视化分析结果。

该实验使用的数据来自为期14周的BlackBoard在线学习平台日志数据库,该数据库包含了29名学习者在线学习的学习行为情况。在对这些学习者的学习行为数据进行聚类分析的基础上形成了四个聚类小组,5名学生在聚类小组0,10名学生在聚类小组1,9名学生在聚类小组2,5名学生在聚类小组3,聚类小组分析结果如图4所示。该聚类小组分析结果主要是对学习者的自主学习行为数据进行分析后得到的,同时图4也显示了每一个聚类小组的在线学习访问量。结果表明,在整个14周的学习中聚类小组2的学习者有72%的在线学习访问量用来积极浏览在线学习资源,聚类小组1、聚类小组3的在线学习访问量分别为70%和64%,聚类小组0为57%。图4显示出聚类小组2在14周的在线学习中有最高频次的在线学习行为,主要是因为该小组的学习者喜欢从在线学习资源中浏览并下载相关案例,在课程学习中也会采取更多的学习实践,并在学习任务模块中表现得更为活跃。

图5展示了2017-2018学年第一学期第1周学习者在线学习行为的聚类分析结果。在学期初每个聚类小组都显示有“为一定的学习目标而进行浏览和下载活动”,聚类小组2中的学生参与在线学习的热情最高,大部分学生积极地观看在线课程并下载笔记。在第一周的在线学习过程中每个聚类小组的学生基本上都会访问在线课程并观看课程内容,以了解《程序设计语言》课程的基础知识和学习计划。通常情况下在学期开学前,教师不会通过在线学习平台安排太多的学习活动,所以学习者只需要下载相关笔记为正式的在线课堂学习做好准备。图5中部分学习行为值为0,表明该聚类小组的学习者没有发生该种在线学习行为。此外,在第1周没有布置具体的学习任务或者练习题,学习者不需要在线提交该种类型的资料,因此学习任务或者练习题的值为0。

图6显示了第8周学习者在线学习行为的聚类分析结果,在第8周每个学习者需要参加期中测试来为他们的课程结课考试成绩增加分数,因为期中测试是整个课程考核的重要环节,要在课程结课考试成绩中占据20% 的比例。由于学生为了准备期中测试需要做更多的复习工作,他们在该周内的在线学习行为有了一定的变化。聚类小组3中的学生将更多的时间和精力放在期中测试准备上,所以在学习任务方面关注较少。

图7显示了第14周学习者在线学习行为的聚类分析结果,第14周是本课程学习在该学期的最后一周时间,学习者在示例方面的访问量相对于其他学习活动是最高的,其它学习活动的访问量在这学期14周的在线学习中处于最低,这主要是因为学习者在课程结课考试前希望查看相关示例来为他们的结课考试做好准备。

以上不同时间段的在线学习行为SOM聚类分析结果表明,每一个聚类小组在E-learning环境中对学习资源有不同的学习模式。在第1周,相对于其他学习活动,学习者只对下载相关笔记感兴趣,喜欢对学习课程有一个概括性的基础认识。而在学期中间第8周,学习者会表现出较多的学习行为,参与的学习活动较多,并会更专注于课程期中测试的准备工作。在最后一周(第14周)的在线学习过程中,学习者的学习活动节奏会放缓,这主要是因为学习者要复习更多的示例,以便加深他们对课程结课考试相关学习材料的理解。从本次实验结果可以看出,从学期开始到学期末学习者参与了各种各样的在线学习活动。SOM聚类分析结果可以有效帮助教师根据学生对已有学习材料的学习行为来预测学习者的未来表现,比如教师可以在学期末提供更多示例和练习题来帮助学生顺利通过课程结课考试。

五、小结

本研究基于自适应学习的特点提出了一个适合学习者进行在线学习的应用框架,该框架主要通过BlackBoard学习平台体现支持学习者的各种学习风格和学习水平。SOM聚类分析能够基于学习者在BlackBoard学习平台的访问量分类显示各种各样的聚类学习小组,学习者在该学期的各个阶段有着不同的学习表现。通过分析学生当前的学习行为和知识水平,该研究希望能在学习过程中为学习者提供有价值的学习解决方案,使学习者根据自身的学习风格和知识水平来获得适合自己的個性化学习资源,从而达到对学习成果更高的理解水平。本研究也发现,使用大数据引擎工具实现大数据库系统化分析有着广阔的研究空间,大数据引擎工具可以直接处理现场数据并把传输结果可视化。随着大数据和学习分析技术的深入应用,未来将通过学习分析工具定义学生的学习行为模式,学习分析工具也将与学习行为实时数据整合在一起,比如学生的课堂行为、在线学习行为以及基于LMS的交互行为等。未来应对交互行为数据进行深层次挖掘,为学习分析提供新的理论见解。[33]通过实时的在线学习及课堂学习行为分析、诊断、预警与评价,教师和教育管理者可以准确识别考核可能不及格的学习者,并为学习者设计可视化数据来及时告知他们在在线学习或混合学习中的当前学习结果。因为利用在线学习行为数据辅助动态生成学习效果,是对在线教育最客观的分析。[34]

参考文献:

[1]Gupta, B., Goul, M., & Dinter, B.Business Intelligence and Big Data in Higher Education: Status of a Multi-Year Model Curriculum Development Effort for Business School Undergraduates, MS Graduates, and MBAs[J].Communications of the Association for Information Systems,2015,36(1):23.

[2]Erwin, K., Bond, M., & Jain, A.Discovering the Language of Data: Personal Pattern Languages and the Social Construction of Meaning from Big Data[J]. Interdisciplinary Science Reviews,2015,40(1):44-60.

[18]Govindarajan, K., Somasundaram, T. S., & Kumar, V. S.Continuous Clustering in Big Data Learning Analytics[A].2013 IEEE Fifth International Conference[C].Technology forEducation (T4E), 2013(12):61-64.

[19]Admiraal, W., Huisman, B., & Van de Ven, M.Self-and peer assessment in massive open online courses[J]. International Journal of Higher Education, 2014,3(3):119.

[20]Hernández-García,?魣., González-González, I., Jiménez-Zarco, A. I., & Chaparro-Peláez, J.Applying social learning analytics to message boards in online distance learning: A case study[J].Computers in Human Behavior,2015(47): 68-80.

[21]Burnett, R. E., Frazee, A., Hanggi, K., & Madden, A.A Programmatic Ecology of Assessment: Using a Common Rubric to Evaluate Multimodal Processes and Artifacts[J].Computers and Composition,2014(31):53-66.

[22]Mandala, S., Abdullah, A. H., & Ismail, A. S.A survey of e-learning security[A].2013 International Conference[C].ICT for Smart Society (ICISS), 2013(6):1-6.

[23]Lias, T. E., & Elias, T.(2011).Learning Analytics: The Definitions, the Processes, and the Potential[EB/OL].[2015-12-21].http://learninganalytics.net/LearningAnalytics DefinitionsProcessesPotential.pdf.

[24]Siemens, G., & Long, P.Penetrating the Fog: Analytics in Learning and Education[J].EDUCAUSE review, 2011,46(5):30.

[25]van Barneveld, A., Arnold, K. E., & Campbell, J. P.Analytics in higher education: Establishing a common language[J].EDUCAUSE learning initiative, 2012(1):1-11.

[26]李爽等.在线学习行为投入分析框架与测量指标研究——基于LMS数据的学习分析[J].开放教育研究,2016(2):78-88.

[27]Hasan, S.Enhanced self organizing map with particle swarm optimization for classification problems[R].Doctoral dissertation, Universiti Teknologi Malaysia, Faculty of Computer Science and Information System,2010:121-132.

[28]Cabada, R. Z., Estrada, M. L. B., & García, C. A. R.EDUCA: A web 2.0 authoring tool for developing adaptive and intelligent tutoring systems using a Kohonen network[J].Expert Systems with Applications, 2011,38(8):9522-9529.

[29]葛子刚,杨丽华,马焕新.割裂还是融合?自适应学习系统设计对于学习风格和认知风格考量的研究现状述评[J].中國远程教育,2018(3):62-69.

[30]Ramesh, V., Parkavi, P., & Yasodha, P.Performance analysis of data mining techniques for placement chance prediction[J].International Journal of Scientific & Engineering Research,2011,2(8):1.

[31]王硕烁,马玉慧.国外典型自适应学习平台的基本框架及其关键技术分析[J].开放学习研究,2018(1):48-54.

[32]姜强等.基于大数据的个性化自适应在线学习分析模型及实现[J].中国电化教育,2015(1):85-92.

[33]刘三■等.网络环境下群体互动学习分析的应用研究——基于社会网络分析的视角[J].中国电化教育,2017(2):5-12.

[34]胡艺龄等.在线学习行为分析建模及挖掘[J].开放教育研究,2014(2):102-110.

(编辑:王天鹏)

猜你喜欢

数据分析
基于matlab曲线拟合的数据预测分析
佛山某给水管线控制测量探讨
SPSS在环境地球化学中的应用
浅析大数据时代对企业营销模式的影响