APP下载

基于知识图谱的通用学习路径生成研究

2022-05-26白玉帅徐洪胜

绵阳师范学院学报 2022年5期
关键词:排序图谱节点

白玉帅,徐洪胜,魏 铭,唐 海

(湖北汽车工业学院电气与信息工程学院,湖北十堰 442002)

0 引言

近年来,个性化在线学习系统的研究因疫情的影响而变得异常迫切,越来越多的学者和专家关注并投入到此领域的研究中.在线学习系统服务于在线学习者,满足其个性的需求,缓解当前在线学习中存在的“信息过载”与“学习迷航”等问题.众多专家学者从不同的角度对个性化在线教育进行分析与讨论:刘芳等[1]重视学习者特征,并以此构建学习者模型进行学习资源推荐;李浩君等[2]从学习资源角度出发,利用优化算法,为在线学习者推荐最优学习资源与学习路径;申云凤等[3]分析并量化在线学习行为特征,引入多重智能型算法进行学习路径的个性化推荐.学习路径生成的研究已然成为在线学习系统的重要研究领域.

学习路径的研究随着在线学习系统的盛行而日益蓬勃.欧美国家对学习路径开展研究的时间较早、成果也较为显著:美国匹兹堡大学Peter Brusilovsky[4]依据奥苏泊尔的有意义学习理论,采用模糊神经网络方法判断知识水平、动机等,实现学习路径的定制.奥地利格拉茨大学的Nussbaume[5]采用知识空间理论和布鲁姆目标分类法判断学习者的知识水平,创建适应性学习路径.国内对该领域的研究也取得了一定的进展:姜强等[6]利用序列模式挖掘算法,挖掘、分析并匹配计算学习者特征与学习对象,生成精准的个性化学习路径.牟智佳等[7]对在线学习系统服务与数据处理技术间的关系进行论述,提出了基于学习特征模型的自适应学习路径生成框架.

当前,多数的研究倾向于关注如何构建个性化的学习路径以解决在线学习质量差、效率低等问题,但个性化路径生成效果并不理想.本研究在构建学科知识图谱的基础上提出了一种通用与可行的学习路径,为当前大多数在线学习群体提供“学习导航”的功能,提高学习质量、提升学习效率.

1 学习路径研究现状

1.1 学习路径定义

图1 基于学习行为活动的学习路径Fig.1 Learning path based on learning behavior activities

关于学习路径的概念界定,目前主流的定义分为两种:其一,学习者在一定的学习方法指导下,根据其学习的目标、水平等,对所需完成的学习活动进行排序[8].即通过挖掘学习者学习活动时的行为日志数据,如浏览课件、交流提问和在线测试等,并结合学习者的学习风格对学习活动进行序列化,形成基于学习行为活动的学习路径,其路径结构如图1.

图2 基于知识单元的学习路径Fig.2 Learning path based on knowledge unit

图3 学习路径自动生成方法分类Fig.3 Classification of automatic learning path generation methods

其二,将学习路径抽象化,理解成学习节点的组织序列,由路径节点和节点间的关系构成学习路径[9],其中路径节点是最基本的构成要素,是学习者完成学习目标所需要进行的最小学习单元.利用学习单元本身的属性特征及其之间的关系,在不违背学习单元之间内在逻辑的前提下,对待学习单元进行序列化,形成基于知识单元的学习路径,其路径结构如图2.

1.2 学习路径自动生成方法分类

根据对学习路径生成研究的核心思路与策略的不同特征将其分为三类[10],归纳成图3.

1.2.1 基于学习者与学习资源特征匹配的方法 通过计算学习者掌握知识水平与学习资源间匹配程度,按照两者匹配程度的高低对学习者进行学习资源的序列化推荐.例如,李浩君[11]引入在线学习资源相斥的排序规则,根据相斥度的大小实现在线学习资源序列化推荐服务.此类路径生成方法强调的是个性化定制,但存在违背知识点之间内在逻辑及认知规律的风险.

1.2.2 基于日志数据挖掘的方法 利用学习者的学习行为日志数据,采用关联规则挖掘算法,从海量的知识单元序列或在线学习者的学习测试记录中获取知识单元的关系并以此构建学习路径.例如,申云凤[3]利用网络学习日志,结合学习风格与能力水平,量化学习行为特征,采用多重智能型算法实现了对个性化学习路径的推荐.此类路径生成方法充分考虑了群体学习者的智慧,但忽视了自组织学习路径本身也可能存在错误,利用从群体经验中总结出的学习路径并不一定具备普适性.

1.2.3 基于知识图谱或知识网络的方法 根据知识图谱本身包含的知识点属性与知识点之间的关系作为算法的输入,在确保学习路径符合知识点之间内在逻辑的基础上,结合自定义的网络节点拓扑排序算法与优化算法构建成学习路径.例如,渊明[12]设计出三层知识图谱结构并结合学习者模型,对在线学习者推荐学习路径.此类学习路径生成方法从学科领域知识结构出发规划学习路径,保证了学习路径生成结果的逻辑性与科学性,但目前而言对知识图谱的设计、开发与维护的代价较高,需要投入大量的人工精力与资源.

以上三类学习路径的生成方法各有优劣,总体而言,基于知识图谱或知识网络生成学习路径的准确性较高,也更符合学习者的认知规律.但目前基于此类方法的相关研究缺乏对知识图谱构建过程的讨论,图谱设计的质量也难以保证,故本研究将先从知识图谱的设计与构建等角度展开分析与讨论.

2 通用学习路径自动生成方法

图4 基于知识图谱的通用学习路径生成方法Fig.4 General learning path generation method based on Knowledge graph

学习路径生成是从知识图谱到通用学习路径,最终生成个性化的学习路径.本研究重点讨论基于知识图谱的通用学习路径自动生成方法如图4所示,分为两部分.第一部分是知识图谱创建模块,此部分采用以机器为主、人工为辅的方式构建知识图谱;第二部分是学习路径生成模块,将第一部分知识图谱中相关信息作为输入,结合算法实施与参数调试得到通用学习路径.本研究构建的知识图谱为大学本科计算机科学与技术专业必修课程“C语言程序设计”.

2.1 课程知识图谱

为确保知识图谱构建的质量,采取人工设计概念层、自动提取关键词以及由学科专家手动筛选知识点及知识点间关系的方法构建课程知识图谱.此外,还充分考虑知识图谱中实体类型、属性及关系,设计出知识图谱的模式层,其结构如表1所示.

基于知识特征的最优学习路径规划(节点排序)研究的关键是节点之间的关系.例如,知识点的难度、中心度及关系权重的确定等[13].因此,在设计学习路径自动生成时,充分考虑知识点在知识图谱中的属性及关系.知识图谱中需要包含对知识点之间的父子及兄弟关系的记录,父子关系即知识点之间的包含关系,用以描述知识点之间整体与局部的关系;兄弟关系即平行关系,用以描述处在同一个层面上的多个知识点,且彼此之间不存在任何依赖关系.

知识点属性方面,除id和名称属性外,还添加了知识点的重要度、难度、中心度和拓扑层级四个属性,以此丰富知识图谱模式层的构建,提高知识图谱设计的质量.

2.2 学习路径生成算法

本研究设计了知识点拓扑排序算法,按照知识点的重要度由高到低、难度由易到难、中心度由大到小和拓扑层级由浅至深原则,结合知识图谱的结构及知识点间的关系对知识点进行排序,生成通用学习路径.

2.2.1 知识点属性特征值计算 利用TextRank关键词提取算法对文本资源进行处理,得到知识点集合及知识点重要度.其公式表示为:

(1)

式中:Ws(Vi)为节点Vi的权重;Ws(Vj)为上次迭代后的节点Vj的权重;wji为节点Vj与节点Vi之间的相似度;d为阻尼系数,一般取值为0.85.

知识点难度的定义参考课程要求,将其分为了解、理解、掌握与应用四个等级,并分别赋予1到4的权重.

根据知识图谱的性质,利用知识点的入度与出度的比值计算知识点的中心度,比值越大,说明知识点的中心度越高,其对后续学习的贡献越大[14].知识点入度与出度的定义如下.

(2)

中心度计算公式如下:

(3)

式中:C(v)为节点Vi的入度与出度的比值;Pre(Vi)为知识点Vi的一阶前驱知识点集合;Suc(Vi)为知识节点Vi的一阶后继知识点集合.

知识点拓扑层级可根据知识图谱的结构设计直接获取.

利用上述属性值计算知识点排序指标Wkpi,如公式(4)所示.其中重要度Impkpi利用公式(1)中Ws(Vi)节点的权重值.

Wkpi=wimp×Impkpi+wdiff×Diffkpi+wcent×Centkpi+wtp×Tpkpi

(4)

式中:Impkpi、Diffkpi、Centkpi、Tpkpi分别为知识点kpi的重要度、难度、中心度与拓扑层级,而wimp、wdiff、wcent、wtp为人工赋予的属性权重值.

图5 学习路径生成算法流程图Fig.5 Flow chart of learning path generation algorithm

2.2.2 算法流程 通用学习路径生成算法流程如图5所示.

图中:

①待排序的知识点集合KG,本研究将知识图谱中所有知识点都列为待排序的知识点集合,并且,为了后续的分析与计算,本研究手动指定了一个初始知识点KP0.

③知识点及关系的三元组列表L,可直接从Neo4j图数据库中导出.列表L的记录信息为(KPm,R,KPn),表示知识点KPm与KPn的关系为R.

④知识点重要度、难度、中心度与拓扑层级属性特征数据Impkpi、Diffkpi、Centkpi、Tpkpi以及知识点排序指标Wkpi.

⑥结合知识图谱及知识点属性特征数据,利用拓扑排序算法生成学习路径.

最后,算法的输出为通用的学习路径Pathkp,Pathkp=(KP1,KP2,…,KPn).

3 实验分析

实验环境及设备工具的选择对实验结果有较大的影响,为了尽可能产生最好的实验效果,主要使用的系统开发环境如表2所示.

图6 《C语言程序设计》知识图谱Fig.6 Knowledge graph of C language programming

从某在线学习平台随机爬取某大学本科必修课程“C语言程序设计”,将其处理后转为文本.利用TextRank提取关键词算法得到500个待排序知识点集合及其重要度值Impkpi,经筛选后添加知识节点关系属性,同时结合专业课程书籍将知识点与知识点之间的关系整理成CSV文件,并将文件导入到Neo4j图数据库中形成可视化的知识图谱,如图6所示.

根据知识图谱中知识点属性及其之间的关系,分别计算得到知识点难度、中心度、拓扑层级属性特征值Diffkpi、Centkpi、Tpkpi.利用公式(4)计算并调试参数后得到知识点排序指标Wkpi,其计算结果如表3所示.

表3 属性特征及排序指标的值Tab.3 Attribute characteristics and values of sorting indicators

结合上述步骤,并使用设计的知识点拓扑排序算法自动生成基于知识图谱的通用学习路径,将路径可视化后如图7(a)所示.同时,邀请相关领域专家对知识点进行路径设计,生成了专家路径,如图7(b)所示.

图7(a) 自动生成路径Fig.7(a) Auto-generate path图7 (b)专家路径Fig.7(b) Expert path

完成算法实现与参数调试后,为得到学习路径自动生成质量,将其与专家路径做效果对比.路径相似度计算公式如下所示.

(5)

式中:pathep、pathat分别为专家路径与自动生成路径;KPmatched为专家路径与自动生成路径相匹配的学习路径个数;KPtotal为学习路径总数.

由公式(5)计算得到自动生成的学习路径与专家设计的路径相似度为81.94%,说明本研究设计的基于知识图谱自动生成的学习路径的规划方法是可行的.

此外,还利用了学习路径评估指标fitness[10],进一步检验自动生成路径的质量.fitness评估指标的计算公式如下所示.

(6)

式中:penaltyadi为学习路径违背知识点间相邻原则的数量;penaltyorder为学习路径违背知识点间先修后继原则的数量.学习路径违背规则的数量越少,fitness数值就越小,说明路径生成的质量越高.

根据公式(6)计算专家路径与自动生成路径的fitness评估指标如表4所示.可见,自动生成路径的fitness值偏小,与专家路径的fitness指标值差距也较小,说明自动生成路径的质量较高,接近专家设计路径的水准.

通过两种方法生成的路径评测表明,本研究设计的基于知识图谱的通用学习路径的自动生成方法是合理的、可解释的,且路径生成的质量较高.

与采用多重智能型算法生成的个性化学习路径相比[3],通用学习路径的生成受到稀疏问题的影响较小,无需事先得到大量学习者信息才能为其提供路径推荐;本研究应用TextRank算法与使用BiLSTM+CRF模型[12]进行实体抽取相比,直接获取了知识节点的重要度,降低了算法时间复杂度.

4 结论

本研究设计了一种从知识图谱到通用学习路径自动生成的方法,为个性化学习路径的生成与学习资源的推荐乃至个性化学习系统的构建打下坚实基础.实验表明通用学习路径生成方法的可行性较高,质量也较好,在线学习过程中可替代专家制定的路径,为在线学习者提供一条通用、合理与可解释的学习路径,从而提高在线学习者的学习效率与质量.

在进一步的研究中可以考虑,如知识图谱中难度属性可从历史学习者的知识点得分记录,学习时间成本等角度考虑,实现难度取值多元化;对比实验环节,组织被试人员依据路径开展学习,进一步验证自动生成路径的质量与效果.后续研究将主要针对以上方面进行更为深入的探讨与分析.

猜你喜欢

排序图谱节点
基于图对比注意力网络的知识图谱补全
“植物界大熊猫”完整基因组图谱首次发布
基于RSSI测距的最大似然估计的节点定位算法
分区域的树型多链的无线传感器网络路由算法
一种基于能量和区域密度的LEACH算法的改进
作者简介
恐怖排序
基于点权的混合K-shell关键节点识别方法
节日排序
图表