APP下载

基于文本挖掘技术的教育类文献主题识别方法研究

2022-10-31苗冯博王甜甜董哲原辛瑞昊

吉林化工学院学报 2022年7期
关键词:主题词教育领域热点

冯 欣,苗冯博**,王甜甜**,董哲原**,丛 萍***,辛瑞昊

(1.吉林化工学院 信息与控制工程学院,吉林 吉林 132022;2.吉林化工学院 理学院,吉林 吉林 132022)

随着信息化时代的发展,人工智能、大数据等新兴技术引起了全球经济结构、社会生活和工作方式的深刻变革.教育作为传承文明、创新知识的主要领域,应该主动迎接新一轮科技革命和产业革命的浪潮,通过信息化与教育的深度融合,构建智能化教育体系.近日,国家主席习近平在国际人工智能与教育大会致贺信中强调,要高度重视人工智能在教育领域的应用,积极推动人工智能和教育深度融合,促进教育变革创新,加快发展伴随每个人一生的教育、平等面向每个人的教育、更加开放灵活的教育.推动人工智能与教育领域深度融合发展,可以加快我国教育向数字化、信息化和智能化转变[1-2].

基于知识图谱的文本挖掘技术是人工智能在教育领域的成功应用之一[3].相较于传统文献研究法或问卷调查法分析,知识图谱分析优势在于将信息学、图形学、计量学结合形成交叉科学研究问题,通过大数据分析和可视化技术[4]探寻科学前沿领域的海量文献数据信息之间的关联,展示学科前沿领域的进展和趋势.本文对中国知网(CNKI)数据库收录的教育领域高质量学术期刊进行知识图谱分析,采用文本挖掘技术对文献的关键词和摘要进行主题词抽取与扩充,利用K-means聚类等方法搭建、扩充、分类文献知识模型,从高频关键词、文献主题和热点词聚类的统计结果来探讨当前教育领域的研究热点和发展趋势.

1 基于自然语言处理的文献分析方法

1.1 基于Jieba分词的人工智能教育主题词扩充

为实现教育文献的精准分析,提升统计结果的可信度[5],通过TF-IDF算法[6]结合Jieba分词技术进一步扩充文献主题词.本文采用TF-IDF的权值计算公式为:

w=f1*f2=m/M*log[D/(DW+1)],

(1)

其中:w表示指定词的权值;f1表示该词在所在文本中出现的频率(TF);f2为该词的逆文本频率(IDF);m表示该词在指定文档中出现的次数;M表示指定文档的总词数;D表示文档库中的总文档数;DW是出现该词的文档数,并且在分母处加1防止分母为零的情况出现.

具体步骤,见图1,首先,通过语料库中的词、词频、词性等属性构建前缀词典;其次,根据前缀词典对文本进行图文扫描并切分;因为对于每个字都有多种切分方法,所以对于切分后的每个字,构建一个以字的位置为key,以划分的末尾位置所构成的列表为value的映射;之后,根据切分结果的映射,得到每个字所有可能生成词的有向无环图;然后,利用基于词典的逆向最大匹配法原理,采用从后往前的方式,从待分词句子的句尾向句首进行计算;最后,根据动态规划计算最大概率路径,从而得到最大概率的切分组合[7-8].

1.2 基于K-means算法的研究内容聚类

为了更深层次剖析人工智能教育文献研究内容中的主要研究方向,本文通过运用K-means算法[9]结合余弦距离函数对研究内容主题词进行聚类[10].算法具体步骤如下:

1.给定数据集X,样本x∈X,从X中随机选取K个样本作为初始聚类中心记为c1,c2,…,ck;

2.根据余弦相似性度量函数计算所有样本与初始聚类中心的相似度,根据相似度将所有的样本划分为K个簇X1,X2,…,XK,然后,计算每个簇内的平均值,作为新的聚类中心;

3.计算聚类准则函数为:

(2)

其中cj为簇Xj的聚类中心,d(x,cj)为余弦相似性度量函数;

4.重复步骤2和步骤3直到f值最小,则终止算法.

2 文献主题知识图谱分析

2.1 数据来源和数据预处理

采用文本挖掘和数据分析等方法,研究人工智能背景下教育领域的热点信息和发展趋势.选取中国知网(CNKI)数据库作为数据源,检索主题包含“人工智能”和“教育”的文献,检索时间跨度为2010年至2020年,去除非学术文献后,为保证统计结果的可信度及预测模型的精准度,需要选取具有代表性和高质量特点的文献数据,因此保留SCI、EI、北大核心、CSSCI等高质量学术期刊,最终共检索到1 651篇文献作为研究样本.

通过网络爬虫技术[11]获取的文献数据包括10类:文献篇名、第一作者、来源期刊、第一作者所在单位、发表时间、引用次数、下载次数、关键词、摘要和文献页数.采用Python开源框架获取和处理检索到的研究样本.将获取到的文献信息整理并存储到Excel文件中,剔除2篇没有页码信息的文献,共获得文献数据1 649条.除了关键词外,文献的摘要也蕴含研究的主题信息,为了更全面地分析文献主题,从文献摘要中运用自然语言处理进行主题词抽取,用于扩充文献的主题词[12].扩充后共得到关键词5 331个,其中频数大于1的关键词共有1 567个.为了进一步细化分析,将关键词分为研究对象、研究内容和研究方法[13].本文通过引用文献、规则判断和专家审核将主题词分为三类,分别为研究对象(O)、研究内容(T)和研究方法(M).具体研究过程,见图2.

2.2 基于网络拓扑的主题词频度分析

为发现高频主题词和关注度较高的主题词,在对文献主题词进行了选取和预处理基础上,进行了词频统计和TF-IDF平均值计算.根据词频统计排名,剔除无法明确定义类型的主题词以后,筛选频数前45名的主题词,得到人工智能教育研究高频主题词,并列举出前20的高频主题词,见表1.从提取的主题词可以发现,人工智能、教育、学习、教师、机器人等是高频关键词,说明将这些研究方面作为主题进行研究的学者较多,代表着研究领域的核心和热点研究方向.依据高频主题词在文献中的关系,由此构建了高频主题词网络拓扑结构,见图3.

表1 人工智能教育研究高频主题词

2.3 基于聚类算法的主题词分析

研究对象作为研究领域的研究客体,从高频主题词统计表中可以看出,教育和教师是最为常见的研究客体.研究对象根据属性不同也可以分为不同的类别.对于不同的研究群体,热点研究对象分别是教师(142)、学生(78)、高校(73)等.

研究内容反映了研究领域中重点关注的问题和现象.本文对研究主题词进行余弦相似性分析和k-means聚类,将主题词分为3类并得到以研究内容为聚类中心的3个簇,聚类中心分别为信息化、人才培养、智能.根据主题词判断文献所属类别,将所有文献分为3个类别.各类研究主题的年度分布,见图4.

从聚类中心可以看出在人工智能教育研究中,人才培养[14]和智能化正在逐渐成为研究的核心和热点.通过信息化促进培养,已经成为一种必然趋势.

研究中所采用的理论或模型称为研究方法,由于研究方法类的主题词数量少、频数低,所以在主题词分析中往往被忽略,本文则将研究方法单独列为一项主题进行分析,从而更好地了解领域内学者们使用的研究方法.从高频主题词统计表中可以看出,除了学习(476)和研究(89)这两个通用的方法外,融合(74)为人工智能教育的主要研究方法.人工智能与教育的融合是一次教育的革命,打破了传统学校和教室的界限,倡导以学习者为中心的教育理念,促使个性化学习或定制学习成为现实.

2.4 基于词频共现的研究热点分析

在一段时间内相似主题文献共同探讨的话题称为研究热点.传统的知识图谱分析,使用关键词进行聚类分析,专家再根据分类结果分析得出热点研究领域,这样得到的结果是以标签为代表的聚类端点,缺少研究对象和研究内容的相关性探讨.为进一步对热点领域进行分析,本文利用研究对象(O)和研究内容(T)的热力图进行热点展示,见图5.从图中可以看出,教师对应的热门主题词是智能、人工智能、教学、技术、实践等,可见教师主要致力于探索人工智能下课程教学变革;线上线下结合的混合教学模式,成为当前高校教育关注的热点,学生应用人工智能学习平台可以给教育提供更多知识资源;教育智能化要求校园向环境智能化发展,高校也在逐步推行创新创业人才培养机制,探寻智能助力下高校现代化的可能路径.

在构建主题词库后,通过网络拓扑图展现出教学、智能、实践、技术和人才培养等研究内容都是围绕教育、学生、教师和高校等研究对象展开的;经过聚类分析得到,在教育领域,人才培养成为近些年来最受关注的方向;结合热力图对研究热点领域的展示可以看出人工智能与教育之间的关系愈加紧密.

新时代对人工智能的运用,需要人工智能类专业人才来实现,人才短缺成为当前科技发展的瓶颈之一.面对这一突出问题,高校应调整教育教学思维模式,建设多学科、复合型知识框架体系,培养学生的创新能力与实践能力,引入前沿科技思想,开展交叉学科交流,拓展前沿领域的视野和眼界.人工智能是能够引领教育发展方向的重要技术,在人工智能时代背景下开展相关专业的人才培养,高校要注重提升学生的学科视野,拓宽学科思维,丰富解决问题的方法,拓展解决问题的能力,夯实专业知识的认知及应用能力,为国家人工智能的发展奠定人才基础.

3 结 论

运用文本挖掘和统计学的方法结合自然语言处理技术对文献进行信息抽取构建主题词库,采用网络爬虫技术构建样本集,通过文本聚类和数据可视化展示文献的研究热点和发展趋势.以教育论文为例,构建后的主题词库,得到词频数最高的5个主题词分别为人工智能(1157)、教育(674)、学习(476)、技术(186)和教学(173),其对应的平均TF-IDF分别为0.58、0.4、0.48、0.3和0.43,可以看出学习和教学对于教育的重要性,在人工智能发展中专业技术人才的培养至关重要.通过网络拓扑图展示出研究对象、研究内容和研究方法之间的关系,研究内容是围绕着研究对象展开的.通过聚类及数据可视化展示出:信息化、人才培养和智能正在逐渐成为研究的核心和热点;人工智能与教师、学生和高校结合得越来越紧密,教育事业在人才培养、科技创新等方面为人工智能的发展奠定了良好的基础.

猜你喜欢

主题词教育领域热点
热点
智能传感器的智慧战略,新技术创造新价值
结合热点做演讲
基于文献计量的数据素养及其教育领域研究态势分析
取消公文主题词的真正原因是什么?
江江西率先突破高考、教师交流、民办教育深化综合改革
反差——阿伦德
热点
热点
公文主题词消失的原因浅析