APP下载

基于LDA主题模型的MOOC课程评论文本分析

2023-06-25赖显静

现代信息科技 2023年4期
关键词:文本分析

摘  要:为深入探究在线课程评论文本数据,有效识别出参与在线学习过程中学习者关注的话题,改进在线学习效果,该研究利用LDA主题模型对课程评论文本进行主题挖掘。实验结果表明,学习者在线课程评论话题主要聚焦在授课方式、受众群体、学习平台、教学效果、课程质量五个方面。因此,可以根据这五个主题对在线学习平台进行建设,进而提高学生在线学习效果。

关键词:LDA;MOOC;课程评论;文本分析

中图分类号:TP391.1  文献标识码:A  文章编号:2096-4706(2023)04-0043-04

Analysis of MOOC Course Review Text Based on LDA Topic Model

LAI Xianjing

(School of Education Science, Kaili University, Kaili  556011, China)

Abstract: In order to deeply explore the online course review text data, effectively identify the topics that learners pay attention to in the online learning process, and improve the online learning effect, this study uses the LDA topic model to mine the topic of the course review text. The experimental results show that learners' online course review topics mainly focus on five aspects: teaching methods, audience groups, learning platforms, teaching effects, and course quality. Therefore, the online learning platform can be built according to these five themes, so as to improve the online learning effect of students.

Keywords: LDA; MOOC; course review; text analysis

0  引  言

随着“互联网+教育”的不断发展,在线教育受到各方关注。2021年6月,CNNIC发布《中国互联网发展状况统计报告》中显示,我国在线教育用户为3.25亿,占整体网名的32.1%[1]。越来越多学习者倾向于在线学习,各式各样的在线学习平台应运而生,不仅为学习者提供丰富的学习资源,而且还为学习者搭建了交互式学习平台。MOOC(Massive Open Online)作为“互联网+教育”的重要产物之一,具有规模大、开放性、个性化、免费等特征[2],满足众多学习者个性化学习需求。并且成为众多研究者关注的焦点。

学生在使用MOOC平台学习的过程中,产生的各种行为数据真实反映学习者的各种学习状态[3]。随着大数据与教育的不断融合,学习分析技术能够对行为数据进行分析。该技术不仅能够基于统计方法对结构化数据[4]—考试成绩、评论次数、观看时长与次数等进行分析以外,还可以对非结构化数据的分析—文本数据,例如评论数据、评论回复、答疑、弹幕数据等[5]。随着MOOC平台的不断发展,学习者在使用过程中产生了大量的非结构化互动文本数据,主要在讨论区、实施答疑、实时弹幕等。评论文本中蕴含大量的信息,对其进行挖掘和解释能够发现学习者关注的重点,为提高在线学习体验感、满意度等提供参考和借鉴。因此,本研究以MOOC评论区文本数据作为研究对象,基于LDA主题模型挖掘非结构化互动文本,探讨学习者在使用MOOC平台学习过程中所关注的重点,以期为后续建设在MOOC平台提供参考和借鉴。

1  相关研究

评论文本作为在线学习过程中重要的互动载体,比较真实的反映了学习者的学习体验、兴趣话题、情感态度等特征[6]。通过对评论文本进行挖掘,能够提取学习者在在线学习过程中关注的隐藏焦点。目前已有部分研究者对MOOC评论文本内容进行分析,例如:吴林静等提出面向大数据的慕课评论文本语义分析模型,该模型能够有效对评论文本进行分类[7]。胡荣等人采用极性计算方法对MOOC评论情感极性进行探究,发现该方法能够有效判断评论文本的情感极性[8]。因此可以发现,研究者们已经开始对MOOC非结构化文本数据展开研究。

LDA模型常用于社交媒体、图像处理、文本分类和聚类、社区方法等领域[9]。在文本分类和聚类方面,LDA主题模型通过对文档进行主题概率分布计算最终找到主题集合[10],以此来挖掘出文本主题。已有研究证明,基于LDA主題模型-词分布矩阵主题分布向量能够有效对短文本进行分类[11]。目前已有研究者使用LDA模型对MOOC评论文本进行分析,例如,刘三女牙等人利用LDA模型探究学习者关注话题及其演化趋势,为后续研究提供了新思路[12]。陈秀明等利用该方法实现主题挖掘及趋势演化,并结合共现网络图探究主题分布[13]。王洪鑫等使用LDA模型和CNN算法,构造主题挖掘与情感分析模型,该模型挖掘出学习者关注主题并对情感极性展开分析[14]。由此可以发现,研究者们已经将LDA模型运用在教育领域,通过对不同类型评论文本数据进行分析,以此来发现学习者所关注的话题分布情况。

以上研究从不同角度对MOOC评论数据进行分析,MOOC平台课程资源丰富,学习者在学习过程中产生的非结构互动文本数据,其增长速度较快、数据繁杂多样,因此,对MOOC课程评论文本进行分析仍然具有重要意义。所以,本研究利用LDA主题模型研究学习者在使用MOOC平台学习过程中留下的评论文本,挖掘学习者关注主题,以此来发现学习者关注的焦点,为后续更好建设在线教育平台提供参考和借鉴。

2  研究设计

2.1  研究框架

本研究利用LDA主题模型挖掘出MOOC课程评论文本主题,发现学习者在在线学习过程中关注的重点。因此,本研究通过爬取MOOC课程评论文本数据、预处理、建模分析、可视化等阶段实现MOOC评论数据的主题分析,研究框架如图1所示。

2.2  研究方法

2.2.1  数据预处理

数据预处理作为本文挖掘的基本步骤,其目的是为确保数据的有效性,删除评论数据中噪声数据和无用信息。本研究首先爬取中国大学MOOC学习者评论数据,其次对MOOC评论文本数据进行预处理,使用停用词表,去除数据中的重复词、停用词、无用词汇等,得到标准化文本数据。最后,利用jiaba分词工具对数据进行分词处理。

2.2.2  在线评论文本主题建模

首先,建立朴素贝叶斯模型(Naive Bayesian),将MOOC评论文本分为正面和负面评论,并分别进行词频分析。因为朴素贝叶斯模型具有分类准确度高、建模简单等特点,因此,本研究选择朴素贝叶斯算法对MOOC评论进行情感分类。

其次,使用LDA模型挖掘文本主题数。LDA模型包含文档、主题、词三个层次,该方法能够从文档中提炼出主题模型,并通过词汇的概率分布反映文档的潜在主题[15]。并且采用无监督方法进行训练,适合处理大规模文本语料[16]。为了找到最优的主题数,本研究使用困惑度(perplexity)和一致性(coherence)评价指标确定评论文本中的最优主题个数[17]。其中困惑度数值一般随着潜在主题数量的增加呈现递减的规律,困惑度数值越小,该主题模型的生成能力越强[18]。一致性指标则是使用每个主题出现频率最多的词语计算他们的语义相似性,一致性得分越高,模型解释性更好。

最后,使用LDAvis库对LDA模型结果进行可视化呈现。

3  实证分析

3.1  数据描述

本研究使用八爪鱼工具爬取中国大学MOOC学习者评论数据,采集课程为“Python语言程序设计”,该课程在新课排行榜位居第一,课程一共有24 152人参加,采集数据时间确定在2019年1月—2022年1月,一共获取数据21 137条。数据集字段包括用户ID、评论内容、发表时间、开课次数等。本文对删除重复评论、过长或过短评论、无效评论数据后,最终获得15 030条有效数据。

3.2  文本情感分类结果

使用朴素贝叶斯文本分类对MOOC评论数据进行情感分析,其中正面评论13 477条,占比89.67%;负面评论1 553条,占比为10.33%。说明大部分学习者在在线学习过程中的体验感较好,满足其基本学习需求。有少部分学习者的学习体验没有达到预期。其中正面评论高频词汇包括:老师、课程、学习、讲解、内容、Python、清晰、基础、不错、入门等,负面评论高频词汇包括:老师、课程、编程、学习、理解、Python、基础、没有、代码、视频等。

3.3  LDA模型主题聚类结果

本研究运用Python中的Gensim包中的Lad Model函数对MOOC评论文本数据进行主题建模。首先,使用困惑度和一致性指标判断最优主题数量,其中困惑度分析结果如图2所示。一致性分析结果如图3所示。根据图中可知,当主题数为5左右时,困惑度指标数值最低,一致性指标数值最高。因此。本研究确定MOOC评论文本主题数为5。

根据困惑和一致性指标分析结果,结合已有研究将MOOC评论文本的主题分为五大类—“教师授课风格”“课程受众群体”“教学效果”“课程内容”“课程质量”。MOOC课程评论文本数据LDA主题部分特征词如表1所示。

接下来对LDA模型进行可视化处理,结果如圖4所示。一个圆圈代表一个主题,当主题数为5时,各圆圈分散互不相交,说明主题数为5是能够很好涵盖评论文本的大部分内容,主题建模较好。其中,圆圈1对应主题一“教师授课方式”、圆圈2对应主题二“课程受众群体”、圆圈3对应主题三“学习效果”、圆圈4对应主题四“学习平台”、圆圈5对应主题五“课程质量”。

3.4  结果分析

通过朴素贝叶斯文本分类结果显示,大部分学习者在使用MOOC平台时的体验感较好,根据正面评论的高频词汇发现,正面评论主要集中在授课方式、教学效果、受众群体等方面。负面评论主要集中在课程内容,例如:编程较难、代码不好理解、平台问题等方面。

通过LDA主题模型分析结果显示。MOOC评论文本包含5个主题及特征词。结果显示,MOOC评论文本中的主题包括授课方式、受众群体、学习平台、教学效果、课程质量五个主题。

主题一:“授课方式”包括老师、讲解、清晰、通俗易懂等特征词,占全部评论的26.5%,说明学习者在该课程学习过程中比较喜欢老师的授课风格,并且认为老师讲课通俗易懂。并且主题一占比较高,这说明老师授课风格是学习者关注的关键内容,同时也是学习者持续学习的影响因素之一。由于编程课程对于部分学生来说难度较大、枯燥,老师能够生动有趣的讲解课程是学生能够持续学习的重要原因。

主题二:“受众群体”包括课程、入门、小白、基础等特征词,占全部评论的24.8%,

说明大部分学习者都认为该门课程比较适合作为Python入门基础,受众群体比较适合新手或小白。这一主题的发现有利于MOOC平台为后续学习者推荐有关学习资源提供参考和借鉴。

主题三:“课程内容”主要包括课程、系统、视频、平台等特征词,占全部评论的19%,说明大部分学习者认为该平台比较适合学习,主要关注点聚焦在视频资源、作业布置、课程设置等方面。通过特征词发现,全面且系统的学习资源、方便操作的学习平台、合理的作业布置等能够吸引学习者学习。

主题四:“学习效果”主要包括知识、使用、推荐、兴趣等特征词,占全部评论的16.7%,说明部分学习者比较关注学习效果的问题,主要聚焦在理论和实践、学习兴趣、体验感等方面。通过特征词发现,该门学生学习该门课程的学习效果较好,不仅将理论与实践相结合,而且学生乐于推荐该门课程给其他学习者

主题五:“课程质量”主要包括质量、课程、资源、例题等特征词,占全部评论的13.9%,说明部分学习者关注到了课程质量的问题,主要聚焦在课程建设、学习资源等方面。课程质量会影响学生的学习效果,根据特征词显示可以看出大部分学习者认为该门课的课程质量较高,资源丰富、老师讲课专业产生了较好的学习效果。

4  总结与建议

实验结果表明,使用LDA主题模型可以挖掘出学习者在在线学习过程中所关注的主要内容。研究结果发现在线学习过程中关注内容聚焦在授课方式、课程内容、学习效果、课程质量等方面,并且通过学习课程发现了该门课程适合学习的群体。在这些关注点上,学习者比较侧重于教师授课方式、课程内容等方面的表达。基于此,本文提出一下建议。

筛选优质课程资源。根据研究结果发现,学习者在学习过程中比较注重教师授课方式、课程内容、课程质量等方面。MOOC平台课程完成率较低,所以平台在上线课程资源的过程中,应该对这几个维度展开评价。还可以让学习者学习前、学习中、学习后对课程资源进行简单评价,以此来完善课程资源建设。

推荐个性化学习资源。根据研究结果发现,部分学习者会在评论区对课程受众群体展开讨论。根据该主题占比情况,可以向新加入平台的学习者推荐不同类型的课程学习资源,以此来满足学习者这的个性化学习需要。这一主题发现对于在线学习平台管理人员完善学习平台推荐功能具有重要意义。

5  结  论

本研究基于MOOC评论区文本数据,构建一种面向MOOC课程评论文本的主体挖掘模型,并以“Python语言程序设计”课程为例,挖掘出学习者对于在线学习的态度和主题结构分布,结果表明该方法能够有效挖掘出评论数据中的隐藏信息,准确找到学习者在MOOC平台上学习关注的重点,研究结果有助于在线教育平台建设、在线课程设计、教学策略优化、课程资源推送等方面提供参考。但是,本研究在MOOC评论文本情感分析方面还有进一步探索的空间,只对情感倾向进行粗粒度分析。在后续研究中,应该尝试构建在线课程评论情感词典,以此来提高在线课程评论情感倾向的准确性,或者可以尝试采用其他发放对文本进行聚类分析,提高研究结果的准确性。

参考文献:

[1] 中国互联网信息中心.中国互联网络发展状况统计报告 [EB/OL].(2021-9-15).http://www.cnnic.cn/NMediaFile/old_attach/P020210915523670981527.pdf.

[2] 王永固,张庆.MOOC:特征与学习机制 [J].教育研究,2014,35(9):112-120+133.

[3] 蒋卓轩,张岩,李晓明.基于MOOC数据的学习行为分析与预测 [J].计算机研究与发展,2015,52(3):614-628.

[4] 孔啸,刘乃嘉,张梦豪,等.COVID-19疫情前后高校在线教学数据分析 [J].清华大学学报:自然科学版,2021,61(2):104-116.

[5] 景永霞,苟和平,刘强,等.基于主题模型的在线课程评论情感分析研究 [J].兰州文理学院学报:自然科学版,2020,34(1):54-56+61.

[6] 刘三女牙,彭晛,刘智,等.面向MOOC课程评论的学习者话题挖掘研究 [J].电化教育研究,2017,38(10):30-36.

[7] 吴林静,刘清堂,毛刚,等.大数据视角下的慕课评论语义分析模型及应用研究 [J].电化教育研究,2017,38(11):43-48.

[8] 胡荣,崔荣一,赵亚慧.基于情感词典的课程评论情感分析 [J].延边大学学报:自然科学版,2019,45(2):153-160.

[9] 韩亚楠,刘建伟,罗雄麟.概率主题模型综述 [J].计算机学报,2021,44(6):1095-1139.

[10] 肖明,商慧语,肖毅,等.基于LDA模型的统计学热门主题挖掘及知识图谱分析 [J].华中师范大学学报:自然科学版,2022,56(5):781-788+802.

[11] 楊萌萌,黄浩,程露红,等.基于LDA主题模型的短文本分类 [J].计算机工程与设计,2016,37(12):3371-3377.

[12] 刘三女牙,彭晛,刘智,等.面向MOOC课程评论的学习者话题挖掘研究 [J].电化教育研究,2017,38(10):30-36.

[13] 陈秀明,张晨晨,王峰,等.基于LDA主题模型的MOOC评论回复特征维度分析 [J].阜阳师范大学学报:自然科学版,2021,38(4):73-81.

[14] 王洪鑫,闫志明,陈效玉,等.面向MOOC课程评论的主题挖掘与情感分析研究 [J].开放学习研究,2021,26(4):16-23.

[15] BLEI D M,NG AY,JORDAN M I. Latent dirichlet allocation [J].Journal of Machine Learning Research,2003(3):993-1022.

[16] 阮光册.基于LDA的网络评论主题发现研究 [J].情报杂志,2014,33(3):161-164.

[17] HANNIGAN T R,HANNS R F J,VAKILI K,et al. Topic Modeling in Management Research:Rendering New Theory from Textual Data [J].Academy of Management Annals,2019,13(2):586-632.

[18] DU Y J,YI Y T,LI X Y,et al. Extracting and tracking hot topics of micro-blogs based on improved latent dirichlet allocation [J].Eng Appl Artif Intell,2020,87(C):103279.

作者简介:赖显静(1998—),女,汉族,贵州瓮安人,硕士在读,研究方向:在线教育。

收稿日期:2022-10-03

基金项目:凯里学院联合培养研究生专项课题(LHYJS2101)

猜你喜欢

文本分析
投资者情绪短期对股票市场的影响研究
维护正统还是观念复辟?
文本情感计算系统“小菲”的设计及其在教育领域文本分析中的应用
我国地方纪录片的出路研究
初中英语听说课教学实践探索
《化学:概念与应用》专题作业设计分析及启示