APP下载

科技文献本体模型设计与实现

2015-07-11尹作重李江华任丽娜

制造业自动化 2015年14期
关键词:实例本体工具

尹作重,李江华,杜 峻,张 伟,任丽娜

(1.北京漫游谷信息技术有限公司,北京 100101;2.中国水利水电科学研究院,北京 100038;3.北京机械工业自动化研究所,北京 100120)

0 引言

在科技文献中往往存在着大量的专业知识,而且知识的形式也多种多样,知识的来源渠道也比较复杂,用来表示知识的概念和术语也非常多样化,这导致了科技文献的信息共享存在着重重困难,在科技文献共享方面必须采用一种明确的形式化的规范描述。在知识表示和知识共享方面,本体能从语义和知识两个层面上对科技文献的信息进行描述,能够比较精确而且规范的描述某个领域知识的概念以及概念间的相互关系,而且这些概念以及概念的关系是在领域内得到大家认可的概念集,同时本体描述语言是符合W3C标准的建模语言[1],所以由本体构建的模型可保证领域知识的共享和可复用性,由于本体具有以上优势,本体技术在知识表示、知识共享和语义检索方面的研究成为热点问题,比如在国内外本体技术在医学行业、农业花卉、化工行业、生物等领域的研究和应用有了一定的进展,特别是近些年来将本体技术引入到科技文献检索中的研究得到了越来越多的研究和探索,所以对科技文献本体模型设计和实现的研究对科技文献共享和检索方面具有重要的支撑作用。

1 本体技术概述

本体最早是做为一个哲学的概念被提出来的,后来随着计算机技术和人工智能技术的不断发展,本体在计算机和人工智能领域被赋予了越来越多的新内涵,随着时间的发展,本体的内涵不断的完善和丰富,本体的构建方法论、描述工具以及构建工具都得到了进一步的发展。本体的应用在不同领域以及不同应用场景中的应用各不相同,所以并没有形成统一的本体的构建方法论、本体模型的描述语言以及构建工具。

1)本体的定义

各个领域的专家和学者根据自己的领域知识和理解给出了各自的本体定义,1993年Gruber提出“本体是对概念模型的明确规范的说明[2]”,1998年Studer提出“本体共享概念模型的明确的形式化规范说明[3]”,这两个对本体的定义对本体的发展比较具有影响力,国际W3C组织采纳了Studer对本体所做的定义。

2)本体构建方法

国内外的大学、科研院所以及各个领域的专家和学者对本体的构建方法进行了研究,但是在本体的实际构建过程中,大多还是采用手工方式,目前在构建本体过程中并没有统一的建模方法,应用比较广泛的本体构建方法主要包括骨架法、METHONTOLOGY法、IDEF5法、TOVE法以及七步法。

如表1所示,从是否有工程管理、是否需要开发前期、是否有需求分析、是否有设计、是否有执行、是否有开发后期等维度对常用的本体构建方法进行对比分析,每一种本体构建方法都有自己的优势和劣势,都有自己适合的领域,经过比较分析,在本文中构建科技文献本体模型的过程中综合了上述五种方法的优势,并且较多的借鉴了七步法中的设计思路。

表1 本体构建方法分析

3)本体模型描述语言

本体是一种知识表示和知识共享的方法,本体的描述语言的特定必须简单、明确,对知识的表示和描述没有歧义,由人工智能领域发展而来的本体描述语言有CycL、Loom、OCML以及Ontolingua语言等,后来随着计算机技术的高速发展,特别是互联网技术的快速发展,基于语义Web的本体描述语言应运而生,其中RDF、OIL和OWL语言应用比较广泛,并且被W3C国际组织作为本体描述语言标准向本体研发人员进行推荐。

图1 本体描述语言分析

如图1所示,在推理能力与语法表达及互操作两个维度来说,现有的本体描述语言有各自的优缺点,RDF的语法表示存在着弱势,对WEB本体支持较弱,而DAML+OIL和OWLDL在语法表示方面可以支持比较复杂的本体需求,但OWLDL在推理方面难点和复杂程度比较高,OWLDL在专业领域的复杂概念和关系的本体构建应用较多。OWL语言被W3C推荐为本体描述语言的标准,比较适合WEB应用,同时使用OWL语言建造和使用本体的难度都比较小,通过以上的比较,在本文中选择OWL作为水利水电科技文献本体的描述语言。

4)本体模型构建工具

在本体的构建、编辑、维护过程中,往往采用一些商用的或者免费的软件工具,这些工具往往是一些大学或者企业率先研发出来的,这些工具主要包括以下两大类 :第一类本体构建工具主要包括Ontolingua工具、WebOnto工具以及OntoSaurus工具等;第二类本体构建工具包括OilEd工具、Protégé工具和OntoEdit工具等。上述的本体构建工具不只支持一种描述语言,往往可以对多种本体描述语言格式进行支持,比如XML,RDF和DAML+OIL等。本体构建工具各有优缺点,适用于不同领域的本体开发工作,这些本体构建工具还在不断的发展和完善之中。

Protégé软件是由斯坦福大学医学院开发的构建本体模型的一个重要的软件工具,该软件是基于Java语言开发的本体集成开发环境,属于开放源代码软件,用户可以在斯坦福大学Protégé官方社区下载Protégé工具的最新源代码以及各个历史版本,高级用户甚至可以根据自己的实际需求来修改Protégé工具的源代码,并且社区还为这些用户提供技术支持,在本文在构建科技文献本体模型的研究过程中,将采用Protégé4.3作为本体模型的建模工具,设计和构建科技文献的领域本体模型。

2 科技文献本体模型设计与实现

图2 七步法的主要步骤

本体模型的设计主要步骤如图2所示,七步法的主要步骤为“本体专业领域的确定”→“有无现有本体可以重用”→“凝练领域的重要术语”→“类以及结构的定义”→“本体中类的属性定义”→“属性侧面的定义”→“实例的创建”。在科技文献本体模型设计过程中,下面按照七步法的指导,对本体模型的设计过程进行详细描述。

1)专业领域的确定

本体描述的概念以及概念之间的层次关系都是有一定的领域范围的,在多个领域通用的本体模型是不存在的,所以应用领域的不同,本体模型也各不相同。构建科技文献领域本体所涉及的范围就是确定科技文献的概念、术语、概念之间的关系、概念的相关属性之间关系以及属性以及属性之间的关系等内容。在构建领域内本体的过程中,通常采用参考该领域内科技文献分类体系的方式。由于分类方法使用了公认和规范的术语,既可以参考领域内的分类方法中的术语和词汇来形成领域本体的概念和术语,也可以参考领域内分类方法的层次结构来构建本体类的关系,可以缩短构建领域内本体的工作时间,同时使得本体的可扩展性和可维护性大大提高。

2)有无现有本体重用的分析

在构建本体模型之前,需要进行大量的调研工作,确定在该领域内是否存在可供复用的领域本体模型,若该领域内有可复用的本体,则可以从本体的基础上,根据实际需求,在领域内专家的指导下,对本体模型进行补充和完善。在本文中则从零开始,在七步法的指导下一步一步的构建科技文献本体模型。

3)凝练领域的重要术语

科技文献本身包括的信息主要分为内容描述、知识产权相关、学科分类、外部属性描述和关联属性描述等。文件本身信息主要包含了资料名称信息、学科分类信息、语言类型信息信息、资料类型信息、数据类型信息、等信息属性。文献的分类信息主要来自于该领域内的分类体系。由于文献间存在着同义词、相关性,还有部分和整体的关系以及参照和被参照的关系,所以还要需要确定文献之间的重要关系。总起来说领域的重要术语包含了内容描述、知识产权相关、学科分类、外部属性描述和关联属性描述等信息。

4)类以及结构的设计

通过前面的步骤得到了最原始的术语集合,通过分析和细化这些术语,选择一部分与本体模型关系比较密切的术语作为概念,该概念代表着一类具有共性的实例对象,并且这些概念作为本体模型中层次结构中结点而存在,在本体理论中,这些概念称为类,类既是本体模型中最主要的知识单元,同时也是基本组织单元,跟计算机领域内的面向对象编程语言中的类有个相似的地方就是本体理论中的类也具有继承性,越高层的类表示的概念越抽象,子类继承了父类的属性,表示的概念比父类具体一些。

图3 科技文献类的设计

如图3所示,科技文献资源的本体描述框架共分为5个大类,共有20多个属性,这四个大类为:内容描述类、知识产权相关类、学科分类、外部属性描述类和关联属性描述类。

内容描述类主要包括文献标示、文献名称、文献标题、学科分类、项目来源、文献语种、关键字、文献摘要、文献内容等属性。

知识产权相关类主要包括文献作者、出版社等属性。

学科分类是描述科技文献模型的重要分类,是科技文献检索的基础。

外部属性描述类主要包括文件大小、归档日期、文献类型、文献页数、文件大小、完成日期、资料格式等属性。

关联属性描述类主要包括了是…的一部分、包含…的部分、参照关系、被参照关系等属性,关联属性描述类主要描述了科技文献之间的关联关系,是对象型属性。

学科分类是科技文献资源描述框架的核心类,主要描述了科技文献的上位类词、下位类词和同义类词的关系。学科分类通过subClassOf(是子类)和equivalentClass(是同义类)属性将的学科分类联系起来。

5)本体中类的属性设计

通过上述步骤建立了科技文献领域的整体架构,该架构描述了本体的类以及类的层次关系,但就有类和类的层次关系还远远不能提供科技文献本体模型所表达的知识信息,需要在本体模型类和类的层次结构的框架基础上进一步描述这些类的内部结构,这些类的结构数据就是类的属性,在本体构建过程中,类的属性通常可以分为以下两种:数据类型属性和对象属性。

如表2所示,科技文献本体模型的类通过类的属性建立了类的实例之间的关联,使科技文献本体模型中的“科技文献”类的实例之间的联系构成了网状结构,在“科技文献”类的众多属性中,“学科分类”属性是最重要的一个,该属性指定科技文献所属的学科分类,这个属性的取值必须是“学科分类”的实例,这样就建立起来科技文献信息和学科分类之间的关系,因此“学科分类”属性是连接文献信息和学科分类的重要联系方式。

6)属性特性的设计

属性PROPERTY的特性有翻转性、传递性、对称性、相同性、函数性等等,可以根据实际情况进一步设置。属性的特性名称、描述和实例如下:

翻转特性:一个属性可以被声明为另一个属性的翻转属性,参照属性是被参照属性的翻转属性。例如文献A的参照属性是文献B,则可以推出文献B的被参照属性是文献A。

传递特性:属性可以被声明为传递的,比如综合类和综合A类的名字不同,但拥有相同的实例。

同义特性:两个属性可以被声明为相同的,比如综合类和综合A类的名字不同,但拥有相同的实例。

文献信息类的属性特性根据技文献本身的特点,比如在科技文献本体模型的设计中,文献信息类的对象属性有同义词、相关文献、包含…的部分、是…的一部分、被参照、参照等特性。

7)实例的创建

通过上述六个步骤创建了科技文献本体模型的类、类的层次关系以及类的属性之后,就可以定义某个类的实例。类的实例之间关联关系可以通过属性来进行确定,科技文献本体模型的设计过程已经完成,创建科技文献本体实例的过程也就是对科技文献实例进行语义标注的过程,每篇技文献对应一个实例。

3 结论

本文对本体构建方法、描述语言等关键技术进行研究,按照本体构建方法的指导下,结合领域专家的建议,建立出科技文献领域本体模型,并进一步把科技文献进行标注,完成科技文献本体库的构建工作。本体模型的构建过程是一个反复迭代、不断发展完善的过程,科技文献本体在实际工作过程中,可以在现有的工作基础上进一步扩展和完善科技文献领域本体。

[1] 赵伟,等.基于本体的语义网检索模型及关键技术研究[J].计算机工程与设计.2011,(01):145-148.

[2] Gruber T R . A Translation Approach to Portable Ontology Specif i cations[J].Knowledge Acquisition. 1993, 5: 199-220.

[3] Studer R, Benjamins V R and Fensel D.Knowledge Engineering,Principles and Methods[J].Data and Knowledge Engineering. 1998,25(1-2):161-197.

猜你喜欢

实例本体工具
眼睛是“本体”
波比的工具
波比的工具
准备工具:步骤:
“巧用”工具
基于本体的机械产品工艺知识表示
完形填空Ⅱ
完形填空Ⅰ
专题
Care about the virtue moral education