APP下载

基于多媒体技术的高等数学电子课件自动生成

2021-01-28杨思狄

喀什大学学报 2020年6期
关键词:语料本体文档

杨思狄

(内蒙古大学 满洲里学院,内蒙古 满洲里 021400)

0 引言

多媒体课件在现阶段的教学中发挥着十分重要的为,但是课件的组成往往需要耗费大量的人力以及物理,于是课件自动生成技术由此形成[1-2].

现阶段课件自动生成技术主要划分为以下两种形式:

(1) 将采集到的素材进行整合从而形成自动课件,整合方法需要任课教师不断进行素材积累[3].相关的研究有王爱红等人通过B/S 结构,针对教师上课采用的视频以及音频进行采集,同时收集教师上课所利用全部媒体资源,将其进行统一整合,从而形成多媒体课件.

(2) 通过数据库或者知识库已经存在的数据形成自动课件,相关的研究有Dessislava Vassileva 等人通过本体知识库以及元数据信息将领域知识进行组合,同时采用自适应的引擎组建个性化的多媒体课件.

上述第一种课件生成技术主要是依靠人工实现不同素材的整合,整个操作过程费时费力,同时课件的形成速度是无法保证的,所以并不适用.第二种技术主要通过数据库或者知识库,同时结合学习者的个人信息形成多媒体课件,但其仍然存在以下几方面的问题:(1) 数据库以及知识库的组建仍然需要人工实现,且整合的工作量较大;(2)不同库中存放的知识大部分为通用知识,无法形成专门针对哪一学科的多媒体课件.

针对以上方法存在的问题,结合多媒体技术,本文设计并提出一种基于多媒体技术的高等数学电子课件自动生成方法.通过具体的仿真实验数据,有效验证了所提方法的优越性以及有效性.

1 多媒体课件制作方法

1.1 特征信息分类

领域本体在电子课件自动生成研究中占据十分重要的地位,它能够为该研究领域提供概念定义以及概念之间的关系,同时能够为该领域发生的活动以及该领域的主要理论提供一个本体[4-5].以下给出领域本体生成模型的主要组成部分:

(1) 领域语料集以及背景语料集的采集.

选取对应的文献设定为领域语料,主要用来获取概念定义以及概念之间存在的关联.其中文献资料的选取需要具有权威性以及时效性等特性.

在此过程中,还能够获取一个和领域无关的语料集,在概念抽取的过程中设定为背景语料集,同时过滤掉无法真正代表领域的伪术语.

(2) 定义领域词典.

设定领域词典,将已知的领域概念加入到领域词典中,同时还能够在一定程度上避免在分词过程中将领域划分为无意义的词,从而进一步提升分词结果的准确性.

(3) 语料预处理.

针对语料文本进行预处理,同时将领域文档划分成若干个不同的文本文件.

(4) 概念抽取.

针对拆分之后的文本文件进行初次分词以及词性标注,获取切分文档.在上述分析的基础上,采用基于切分单元的最佳匹配算法针对切分文档进行处理,获取再次分析的词汇集合.

(5) 概念关系抽取.

采用VSM 方法组建概念向量空间模型,通过余弦相似度以及语义相似度相结合的方法计算不同概念之间的相似度,同时针对概念进行层次聚类[6],准确抽取出不同概念之间的分类关系.

(6) 本体评价.

针对本体进行评价重点需要考虑以下两方面的因素:(1) 本体自身的精准性;(2) 建模获取的本体是否能够满足课件自动生成的条件.

针对语料进行预处理,其中一方面是抽取文本中重要的特征信息;另外一方面则需要针对文档进行切分,方便后续针对相关概念进行提取.

通常情况下,一个文档可能含有图像、动画等丰富的信息表达方式,但是最为主要的信息就是文字信息.根据将语料文档格式转换为文本文件,能够自动删除无用的文件,获取规范的文本以及文件.

领域在这里主要是指教科书或者科技资料的电子文本.教科书或者科技资料内容组织的主要特点是由章节组成,不同的章节内容通常情况下描述不同内容的主题,但是各个内容主题和章节标题之间存在的一定的关联.通过教科书以及科技资料等内容的组建特点[7-8],针对领域文本的预处理就是一个逐渐进行分解的过程,即首先将高等数学的整本教材按照章节划分为几个文本文件,同时将各个章节所表示的文件进行拆分,拆分为多个不同的文件,即为拆分文件.

概念抽取为本体学习的重要起点.以下详细给出领域术语抽取的主要操作流程,如图1所示.

图1 领域术语抽取流程图

经过以上分析,针对文档进行统计获取候选术语集,同时获取对应的4 个候选结果.采用基于切分单元的最佳匹配算法,针对切分文档进行处理,获取候选集中部分元素.另外,根据阈值的设定,能够将切分文档集中的出现概率大于给定阈值的词加入到对应的候选术语集中.

以下重点采用TFIDF 方法针对候选集中的术语进行领域相关分析,筛选出和领域存在关联的术语.具体的操作步骤如下:

(1) 统计领域文档集中出现的全部词以及词频;

(2) 统计领域文档集中各个词在北京语料中出现的次数;

(3) 计算不同词的TFIDF 取值,算式如下:

(4) 针对TFIDF 的取值结果进行排序;

(5) 设定对应的阈值,同时将计算结果大于阈值的词设定为候选术语集中的词;

(6) 在计算的过程中,会存在由多个或者一个字组成的词,但是这些词大部分是不存在任何意义的,所以需要对其进行过滤处理,获取有效的候选术语集[9].

向量空间模型主要是通过信息中不同关键词的出现次数组建关键词向量,首先需要读入概念提取阶段所提取到的概念,同时组建领域概念词列表,即

针对ConceptList中各个概念词wi,以概念所出现的文档设定为该词语的向量,同时组建概念—文档所代表的向量空间模型.

针对向量空间C 中的各个概念词语wi,采用TFIDF 加权方法计算对应的权值,即

结合概念列表,能够组建一个M*N 的向量空间,具体的表示形式为

聚类方法主要是通过任意一种策略对高等数学概念之间的语义距离进行距离实现特征信息分类,即

1.2 基于多媒体技术的高等数学电子课件自动生成

在完成高等数学特征信息的划分之后,需要将采集到的课件内容进行均匀的切块,然后将切块得到的单元直接放入到课件对应的文件当中.以上做法虽然十分的简单,但是均匀切块的操作下,有效掩盖了教材内容自身存在的差异性,实际上就是块长一致的教材单元包含的知识量不一定是相同的.

针对高等数学教材进行均匀切块制作课件的方法并不符合对应的数学规律,需要按照正常的知识量进行教学内容组织,同时实现课件的制作.

通过对大量的课件进行分析可知,知识量的大小和学习知识点所浪费时间多少成正比,同时和课件中为知识点所需准确的课件量多少呈正比.知识量针对课件内容在PPT 文件中的放置位置有着十分重要的影响.在实际教学的过程中,高等数学知识量的度量将会受到多种不同因素的影响,如知识点的教学目标、高等数学难重点情况、不同知识点之间的关系等.

知识点的教学层次越高,则说明知识点越难同时也越重要,且包含的知识量也就越大;反之,则包含的知识量也就越小.将影响知识点中知识量的各个因素进行量化处理,则能够获取不同知识点的知识量.知识主要包含在对应的概念中,针对高等数学教学大纲中的知识点,需要从领域本体中提取对应的概念,通过知识点以及知识量之间的量化关系能够计算不同概念的知识量.

在上述分析的基础上,结合对高等数学大量课件的研究分析,总结高等数学电子课件的制作规律,结合教学大纲以及多媒体技术[10],在领域本体中选取高等数学电子课件的内容,以达到高等数学电子课件自动生成的目的.

2 仿真实验

为了验证所提基于多媒体技术的高等数学电子课件自动生成方法的综合有效性,需要进行仿真实验测试.实验环境为:双核2.50GHzPentium(R)处理器,2GB 内存,仿真软件采用MATLAB版本是R2015b[37].

(1) 电子课件自动生成时间.

课件生成的快慢在课件自动生成方法中占据十分重要的地位,其中电子课件自动生成时间越短,则说明课件生成速度越快;反之,则说明课件生成的速度较慢.实验选取文献[4]方法以及文献[5]方法作为对比方法,具体的实验对比结果如下表1~3 所示.

表1 所提方法的电子课件自动生成时间

表3 文献[5]方法的电子课件自动生成时间

综合分析以上表格中的实验数据可知,当课件的数量持续增加时,电子课件自动生成时间也在不断增加.但是相比另外两种方法,所提方法的电子课件自动生成时间明显更低.

(2) 电子课件自动生成费用.

以下仿真实验测试对比三种不同方法的电子课件自动生成费用,具体的实验对比结果如图2 所示.

分析图2 中的实验数据可知,所提方法的电子课件自动生成费用最低;文献[4]方法的电子课件自动生成费用次之;文献[5]方法的电子课件自动生成费用最高.

图2 不同方法的电子课件自动生成费用对比结果

(3) 用户满意程度.

表4 所提方法的用户满意程度

由于不同方法生成的电子课件具有一定的差异性,以下对比三种不同方法所生成的电子课件,用户对其满意程度,具体的实验对比结果如表4~6 所示.

表5 文献[4]方法的用户满意程度

表6 文献[5]方法的用户满意程度

分析以上表中的实验数据可知,相比另外两种方法,所提方法能够获取较高的用户满意程度,这说明所提方法自动生成的电子课件具有较强的实用性以及有效性.

3 结语

针对传统的高等数学电子课件自动生成方法存在的一系列问题,本文设计并提出一种基于多媒体技术的高等数学电子课件自动生成方法.通过具体的仿真实验数据,充分验证了所提方法的有效性以及实用性,同时所提方法能够获取用户较为满意的高等数学电子课件.

猜你喜欢

语料本体文档
浅谈Matlab与Word文档的应用接口
基于归一化点向互信息的低资源平行语料过滤方法*
有人一声不吭向你扔了个文档
眼睛是“本体”
一种基于社会选择的本体聚类与合并机制
濒危语言与汉语平行语料库动态构建技术研究
Word文档 高效分合有高招
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
国内外语用学实证研究比较:语料类型与收集方法
专题