基于领域本体学习资源库自动构建模型研究

2015-11-02王锐何聚厚

电子设计工程 2015年24期

关键词：知识库资源库网页

王锐，何聚厚

（1.陕西师范大学计算机科学学院，陕西西安710119；2.陕西师范大学现代教学技术教育部重点实验室，陕西西安710119）

基于领域本体学习资源库自动构建模型研究

王锐1，何聚厚2

（1.陕西师范大学计算机科学学院，陕西西安710119；2.陕西师范大学现代教学技术教育部重点实验室，陕西西安710119）

领域学习资源构建模型是实现个性化资源推荐、查询检索的关键因素，针对手动构建领域资源库费时费力和领域资源之间缺乏语义联系问题，提出了一种基于领域本体和搜索算法的学习资源知识库构建模型，使用PageRank抓取算法对网页资源进行抓取，通过结合领域本体增强资源之间的语义联系，从而完成特定领域资源知识库的自动构建。实验表明该模型解决了手动构建领域资源库费时费力和领域资源之间缺乏语义联系的问题。

知识库；领域本体；PageRank；语义

在21世纪的信息时代，互联网为用户提供了一个庞大的信息资源库，面对海量的信息，用户很难高效的找出自己需求的资源。因此出现了大量的个性化推荐、查询算法，为用户减轻“负担”，但由于网络上的信息资源库过于庞大，导致推荐资源达不到用户的要求，因此特定领域资源库的构建十分重要，它是影响推荐、查询算法准确性的关键因素。

传统的学习资源库构建主要是基于关键字手工或半自动化的将资源的相关信息存储于知识库中，知识库中的学习资源之间相互独立没有任何联系，在进行个性化资源推送、查询时会忽略了语义问题，即有可能忽略用户的真正需求和查询的真正意图，这将会造成资源推荐、查询的不准确。同时，考虑到学习资源信息的呈现方式，如：文字、图形、音频、视频等对用户的兴趣度及学习效果的影响不同［1］，本文提出了一种基于领域本体和搜索算法的学习资源知识库自动构建模型，该模型改进了经典的PageRank算法，主要思想是PageRank算法在进行网页相似性分析时，结合领域本体，同时对网页中资源之间的语义相关性进行分析抓取资源，最后根据信息的不同呈现方式对用户兴趣影响不同将信息资源存于不同的数据库表中，完成特定领域资源知识库的自动构建。

1　学习资源库构建模型

目前学习资源库构建模型主要有以下两种方式：

1）手动构建模型，主要思想是，首先相关领域专家将本领域相关知识资源的关键字罗列出来，然后，手动将关键字及其对应的资源加入学习资源库中，重复此过程，直到关键字已全部加入学习资源库。

手动模型，虽然能将所需的关键字及其资源存入资源库中，但随着领域规模的扩大，罗列的关键字会越来越多，相对应的资源也更加丰富，此时手动构建模型费时费力，已不能满足要求。为解决手动费时费力的问题，提出了半自动构建模型。

2）半自动构建模型，主要思想是，利用网页抓取算法在网络上根据关键字抓取资源存入资源库中。关于网页抓取策略的研究，国外开始于20世纪90年代末，Cho等人第一次引入了网页抓取策略的概念。之后，网页抓取的方法不断涌现。主要有宽度优先网页抓取策略、基于反向链接数的网页抓取策略、PageRank、Shark-Search、Best-FirstSearch等算法。自动构建模型利用抓取算法根据关键词来抓取资源，虽然解决了费时费力的问题，但是领域资源库中的资源之间相互独立、没有语义联系。

2　领域本体及其构建

本体［2］这个概念最早是在哲学中使用的，表达“存在论”，对世界上客观存在的事物进行系统的描述，对其本质进行抽象。随着信息技术的飞速发展，本体被引入到计算机领域并得到广泛的应用。但是，到目前为止，本体一词还没有一个准确的含义。自1993年Gruber提出“本体是概念的模型明确的规范说明”以后，它主要通过概念、概念之间的关系、属性、实例四个方面来描述概念之间的语义。领域本体是对特定领域概念、属性及关系进行描述，对该领域内的知识进行抽象、描述、表达语义，从而达到信息整合与共享。本文以〈〈数据结构〉〉课程为例，参考“七步法”［3］构建数据结构本体。构建过程如下：

1）数据结构课程中概念的抽取。主要有：数据结构，线性结构，树形结构，图形结构，排序，线性表，栈，队列，串，数组，广义表，树，二叉树，森林，哈夫曼树，链表，顺序表，有向图，完全图，查找等概念。

2）概念属性的确定。在本体描述语言OWL中Property包含3种。

一种是对象属性（Object Properties），它表达实例和实例、类和类之间的关。如，在数据结构本体中包含8种主要的对象属性，分别是，isSame、isSubclass、isPartOf、isSibling、isUpper、isLower、isRelation、isExercise。具体含义如下面表1所示。

表1　概念间的对象属性Tab.1The object properties between concepts

一种是数据属性（Data Properties），它是实例的基本属性，表达实例和基本数据类型之间的关系。如，在此本体中包含的主要数据属性有定义、存储结构、逻辑结构、遍历、分类、应用、最短路径、算法、代码、转换。

最后一种是解释属性（Annotation properties），它可以用来解释类、对象属性、数据属性、实例，属于元数据，不常用。

3）向资源库中添加实例。本文通过抓取算法结合数据结构本体进行自动构建，具体操作见下文。

图1所示为用Protégé4.3构建的〈〈数据结构〉〉课本中线性表的类关系图。

图1　系统软件设计结构图Fig.1Schematic diagram of the software test system

3　PageRank算法的基本原理

PageRank算法［4］是1998年Larry Page和Sergey Brin提出的。此算法认为，一个页面被多次引用，则这个页面很可能是重要的，一个页面尽管没有被多次引用，但被一个重要页面引用，则这个页面的重要性被均匀地传递到它所引用的页。PageRank评价标准认为每个超链接的重要性与包含这个超链接的原web网页的重要性是成比例的，而不是每个链接的重要性都相同。一个网页的PR值的计算公式为：

其中，Ti（i：1，2，…，n）是指向网页P的其他网页，C（Ti）是网页T向外指出的链接数目，∂是（0，1）区间上的规范化因子，一般取值为0.85，经过简单的迭代就可以计算出PR（P）的值。由公式（1）可以看到，基本的PageRank算法中网页P的PR值仅与其链入的超链接的个数以及链入的超链的PR值有关，因此存在偏重旧网页、主题漂移等问题［5］。针对这些问题，李瑞提出了PageRank算法权威值均分的改进［6］，杨博等人提出基于超链接多样性分析的新型网页排名算法［7］，潘伟丰等人通过加权模型分析PR所识别关键包的传播影响来确定PR值［8］。但这些方法都是在互联网提供的庞大资源库中进行，对没有考虑特定领域中的内容主题相关因素的影响。因此，本文结合领域本，对基本PageRank算法进行改进，在抓取数据时一方面考虑网页链接的相关性，另一方面考虑内容与领域本体的相关性。

4　基于本体的学习资源库构建模型

为了构建特定领域的学习资源库，本文结合领域本体，从领域本体概念和网页主题的语义相似度和网页链接相似度两个因素入手，改进基本PageRank算法，从而自动构建领域资源库。

基于本体的学习资源库构建模型算法如下：

1）首先在t_concept表中查找第一个本体概念，接着利用PageRank算法抓取第一个网页，同时计算此网页中的主题概念与当前的本体概念的语义相似度，借鉴已有的语义相似度计算方法，具体如下：

①考虑语义距离、层次因素对概念间的语义相似度的影响

其中sc1，c2=Level（c1）+Level（c2）是概念c1和c2的层次和，dc1，c2=|Level（c1）-Level（c2）|，是概念c1和c2的层次差，L是本体的总层数。

Level（c1）表示概念c1所在的层次，depth（LCS（c1，c2））概念c1和c2共同的最小分类LCS所在的层次。

②考虑上下位概念重合度对语义相似度的影响的度量算法如下：

其中，ud（c1）表示c1的上下位概念集合，ud（c2）表示c2的上下位概念集合。

ud（c1）∩ud（c2）表示概念c1和c2相同的上下位概念集合，ud（c1）∪ud（c2）表示概念c1和c2所有的上下位概念集合。综合考虑①、②因素，添加∂，β进行调节，公式如下：

由式（4）就可以计算出此网页中的主题概念与当前的本体概念的语义相似度

2）从时间效应考虑，在基本PageRank算法基础上为页面增加一个时间因子，使新网页排名靠前，时间因子公式如下：

其中，D是本网页的时间因子，d为阻尼系数，Td表示爬取到这张网页的次数，次数越多说明时间越长，R是采集时间，λ为时间参数调节因子。综合1）、2）两个方面，改进PageRank算法的PR值计算式为：

3）通过步骤2）计算出当前网页的PR值，当PR值达到要求时，将当前网址存于数据库对应的数据表中。

4）重复1）～3）步骤，直到表t_concept中的所有概念查完。

通过基于本体的学习资源库构建模型就可以完成特定领域学习资源库的自动构建。

5　实验

为了验证该模型的有效性，本文基于本体建模工具Protégé4.3构建了〈〈数据结构〉〉课程本体，基于Jean接口完成本体文件到关系数据库MySQl的存储。由于本体文件存储形式存储的数据量较小而且每次使用开销大，所以本文选择用关系数据库存储数据。为了满足特定领域的个性化推荐、查询的方便，根据学习资源信息的呈现方式不同用户的兴趣度不同，主要分为视频音频、文字、图像3种类型，将数据以3种类型存于3张不同的数据表中。数据库中的7张表如图2所示。

图2　数据库的7张表Fig.2Seven tables in database

抓取的学习资源存于数据表t_wordEntity，t_imageEntity，t_mediaEntity表中，如图3所示。

6　结论

该模型对基本PageRank算法进行改进，在其基础上结合领域本体，使得在抓取学习资源的时候，参照本体之间的语义关系，与已有的构建模型相比，解决了人工费时费力的问题，同时又构建了具有语义关系的学习资源库，为个性化资源推荐、查询检索的准确性奠定基础。

图3　t_wordEntity表Fig.3Table t_wordEntity

［1］康诚，周爱保.信息呈现方式与学习者的个性特征对多媒体环境下学习效果的影响［J］.心理发展与教育，2009（1）：83-90.

［2］吴建绒.论基于本体的领域知识库构建［J］.科技创新导报，2010（30）：250-251.

［3］马晓丹，邓晓晴，彭文娟，等.基于领域本体的知识库架构和实现［J］.河北联合大学学报：自然科学报，2012，34（4）：44-45.

［4］PAGE L，BRINS，MOTWANI R，et al.The PageRank Citation Ranking：Bring order to the Web［EB/OL］.（1998-12-19）http：//ilpubs.Stanford.edu：8090/422，1998.

［5］刘恩海，张梅芳，李天义.基于两级修正的页面排序改进算法［J］.计算机工程与设计，2014，35（6）：2024-2028.

［6］李瑞，郭小溪.PageRank算法权威值均分的改进［J］.大连交通大学学报，2013，34（2）：109-110.

［7］杨博，陈贺昌，朱冠宇，等.基于超链接多样性分析的新型网页排名算法［J］.计算机学报，2014，37（4）：833-834.

［8］潘伟丰，李兵，马于涛，等.基于加权PageRank算法的关键包识别方法［J］.电子学报，2014，37（4）：833-834.

Research of learning resources building model based on domain ontology

WANG Rui1，HE Ju-hou2
（1.School of Computer Science，Shaanxi Normal University，Xi'an 710119，China；2.Key Laboratory of Modern Teaching Technology，Ministry of Education，Shaanxi Normal University，Xi'an 710119，China）

Learning resources building model based on domain ontology is a key factor to achieve a specific field of personalized resources recommended，query and retrieve.For repository time-consuming and laborious in manual build and lacking of semantic contact between resources，this paper propose learning resources building model based on domain ontology and search algorithm.Using PageRank algorithm to grab web resources，by combining domain ontology enhance the semantic relations between the resources，to complete automated building knowledge base resources in special fields.The experiment show that the model solves laborious problem of learning resources building manually and lacking of semantic relations between learning resources.

knowledge base；domain ontology；PageRank；semantic

TN91

1674－6236（2015）24-0032-04

2015-03-20稿件编号：201503273

中央高校基本科研业务费专项资金资助（GK201002028，GK201101001）

王锐（1988—），女，陕西西安人，硕士研究生。研究方向：资源信息推荐。