APP下载

基于本体的知识组织和知识检索

2009-07-15杨发毅

现代情报 2009年1期
关键词:本体

陆 敏 杨发毅 彭 骏

〔摘 要〕本文讨论了基于本体的知识组织和知识检索。阐述了知识组织的体系,在分析知识检索模型的基础上,建立了基于本体的知识检索模型;对知识检索呈现方式进行了研究,探讨了基于本体的知识检索呈现,并对下一步的工作进行了展望。

〔关键词〕本体;知识组织;知识表示;知识检索

〔中图分类号〕TP393.09 〔文献标识码〕C 〔文章编号〕1008-0821(2009)01-0144-04

Knowledge Organization and Knowledge Management Based on Ontology

Lu Min Yang Fayi Peng Jun

(Library,Second Military Medical University,Shanghai 200433,China)

〔Abstract〕This paper discussed on knowledge organization and knowledge management based on ontology.It elaborated the knowledge organization system,established the knowledge retrieval model based on ontology.

〔Key words〕ontology;knowledge organization;knowledge representation;knowledge retrieval

知识是现代社会最重要的资源之一,如何充分发挥知识的效能是从管理学到信息学,从人工智能到知识工程等众多学科和领域的研究重点。知识组织即是在信息组织的基础上,依靠专门的技术,按照知识的本质属性组织知识、建立知识系统的方法和手段。对知识及知识间的关联进行揭示和组织是知识组织的核心内容。有什么样的组织方式就有什么样的检索方式。知识检索是知识组织的逆过程。本体是领域知识规范的抽象和描述,可以构造丰富的概念间的语义关系,能够准确描述概念含义以及概念之间的内在关联;形式化能力最强,同时具有高度的知识推理能力,能通过逻辑推理获取概念之间的蕴涵关系。因此,本体是一种知识组织体系。以本体作为知识组织的技术和方法,才能实现基于语义的知识检索。

1 知识组织体系

知识是信息的一部分,是人类主观世界对客观世界的反映与认识的结晶,根据载体不同分为主观知识(隐性知识)与客观知识(显性知识)两种基本形态。知识组织是关于知识的组织与检索系统,是现代网络信息环境下获取知识与利用知识的所有手段、技术与能力的总和[1]。知识组织不仅包括知识(有用信息)的组织,而且包含着“人”的才能、技术与智能。

知识组织的表现形式是知识组织体系。知识检索必须依赖于知识组织系统;没有知识组织系统的支撑,知识检索就无法实现。所谓知识组织体系,是对资源内容概念及其相互关系进行描述与组织的机制(工具)[2],是用以定义并组织知识的一套概念和符号的集合,是资源语义模型的形式化,能够支持对资源对象按照知识内容进行组织和描述,并支持基于语义和推理的知识检索。

目前图书情报界公认的知识组织体系是主题词表和分类表。也有学者根据对词义和词间关系的控制程度,将知识组织体系分为词单类(可选词单、词汇/字典、同义词环)、分类与归类类(图书分类法、知识分类表)和关联组织类(知识本体/实用分类法、叙词表等)3种类型。这三类系统对词汇的控制是一个由简到繁、由弱到强的控制过程。词单类侧重于词义消歧和同义词控制,分类与归类类侧重词汇等级关系的控制,关联组织类则侧重于词间各类关系的控制。知识组织体系的形式和能力在相当程度上决定了知识检索的能力。我们认为作为知识组织表现形式的知识组织体系应具备以下基本功能要素:

(1)具有一套从领域知识中抽象出的概念体系;

(2)能够精确描述概念语义和多维关系;

(3)可用形式化方式表示概念体系并可随时扩充概念层次和结构;

(4)支持公理定义和语义关系的推理;

(5)支持资源对象基于语义层面的标引;

(6)可用知识网络/概念地图的方式展示知识结构。

满足上述基本功能要素的才可称之为知识组织体系。如果一部反映知识的词表/词典缺少对概念及关系的多维和全方位的描述,没有形式化,不能实现语义层面的资源标注,对所组织的知识不能以知识网络或概念地图的方式显示,是难以称为真正意义上的知识组织体系的。由此可见,词单类和分类/归类类均难以归入知识组织体系;关联组织类中的叙词表(也包括知识分类表)也只能称之为组织知识的语义词典(词汇表、语料库)。鉴于上述体系一直被作为组织知识的工具,我们以为,称之为基于知识的信息组织体系比较合适。

与主题词表(分类表)不同的是,本体是领域知识规范的抽象和描述,可以构造丰富的概念间的语义关系,能够准确描述概念含义以及概念之间的内在关联;形式化能力最强,同时具有高度的知识推理能力,能通过逻辑推理获取概念之间的蕴涵关系。因此,本体是一种知识组织体系。以本体作为知识组织的技术和方法,才能实现基于语义的知识检索。因此,在本文中的知识检索模型和方法都是建立在本体的基础之上的。原型系统设计也是建立在领域本体原型的基础之上的。

2 知识检索模型介绍

2.1 知识检索模型

知识检索模型是指集成各类知识对象和信息对象,例如领域知识、用户知识、专家经验知识以及多媒体信息元素等;融合各种智能与非智能理论、方法与技术,例如推理、机器学习、数据挖掘、智能搜索、智能演算以及多媒体信息处理等;实现知识检索。通常的知识检索模型有三类:分类检索模型、认知检索模型和分布式检索模型。它们采用不同的知识组织模式,应用不同的人工智能技术和知识处理方法。

2.1.1 分类检索模型

分类检索模型的核心思想是数据抽象,利用事物之间最本质的关系来组织资源对象。概念逻辑与知识分类思想是知识标引和知识检索的理论基础。知识组织结构是类层次结构。知识对象由静态和动态的知识元素构成,对象之间存在类属关系和其它语义相关关系。用户提问对象同知识库中知识对象的结构相同,可包含用户的多维异构需求信息。该模型综合应用类结构的查找方法和对象归类方法,实现对象或概念的检索。对象之间的等级关系,可提供快速的自顶向下的查找策略。利用继承原理,可实现自底向上的检索。其他语义相关关系,如参照关系,能实现横向的搜索。这种模型的最大优点是语义继承特性,便于知识资源的共享,提供多途径、多方位的多种检索方法,充分表达用户的多维组合需求信息。该模型较适于领域知识和用户知识等大规模知识源。它需要综合利用自动化分类方法和手工分类方法,关于大规模资源的存储和动态维护已由计算机实现。

2.1.2 多维认知检索模型

认知检索模型的理论基础是人工神经网络(ANN-Artificial Neural Network)。它以模拟人脑的结构和神经系统为目标,将资源组织为语义网络结构,由结点和链接组成。结点可以表示概念或知识对象,链接表示对象之间的各种语义关系和动态操作关系。该模型利用启发式知识和传递激活技术,形成一种认知式的语义推理模式,实现知识库的联想搜索。该模型利用学习规则和相关反馈技术来修改、完善提问和知识库,不断改进检索结果。它适合于专业概念知识库的检索,用于扩充和优化用户需求,还可以帮助用户区别词的多义。用户可以充分描述概念和概念之间的关系,查找精确的文献内容和执行语义链的导航搜索。它不适于大规模的知识源。

2.1.3 分布式检索模型

对于网络异构分布式信息资源,分布式检索很重要。该模型要求建立元知识仓库,集成和存储各类元知识。它综合应用分布式人工智能、神经网络、智能演算、并行推理、机器学习等技术,评估各类资源与用户需求的相关性,选择最好的知识源和数据库集合,分别执行并行检索。最后,它利用聚类、综合分析与学习等智能处理方法,产生全局一致的、有效的检索结果。元知识仓库(Metaknowledge repository)包含描述各类数据库内容的元数据、用户与专家的知识、各类控制知识、各种优化的分布式检索算法和协作调控协议等。

2.2 基于本体的知识检索模型

基于本体的知识检索模型,在资源对象的组织、描述、表示、检索和模型约束等方面,都具有自己的显著特征。主要表现为:

2.2.1 以本体作为组织领域知识的语义模型(基础)

在检索对象的组织上,知识检索模型利用领域本体作为组织资源的基础。以领域本体为基础来组织领域知识,首先要构建一个涵盖相关领域概念及概念间关联的领域本体库作为资源描述和知识表示的工具和模型。目前广泛使用于各个学科领域的主题词表/分类表可以作为领域本体库的构建基础,在此基础上确定领域知识本体的主要概念,概念间的各种关系,构筑领域本体的概念模型。

2.2.2 以本体的概念集对资源进行语义标引

在检索对象的描述上,知识检索模型借助语义标引工具,按照领域本体的概念及关联,对资源对象进行概念分析、分类、标引、描述和处理,形成机器可以理解的带有语义信息的元数据。以领域本体的概念模型作为资源元数据的规范描述标准,可使目前相对独立、没有语义的领域信息形成具有语义关联的知识组织系统,也是实现基于知识、语义检索的基础。

2.2.3 以基于本体的知识语言标示、检索领域知识

知识语言包括知识描述语言和知识检索语言。知识描述语言是描述本体的语言工具,是对本体概念形式化的标准语言。OWL是W3C推荐的知识描述语言的标准,RQL是W3C推荐的知识查询语言的标准。这些语言,不仅使检索模型具有强大的语义表达和推理能力,同时可以实现不同领域本体之间语义的兼容和互操作。本体概念的优化检索依赖于本体检索语言的功能[3]。在支持本体检索的诸如RQL、DQL、OWL-QL、SquishQL、RDFQL、RDFPath和Versa等知识语言中,RQL支持采用OWL描述本体的结构化查询,能够执行语义层的检索,是目前描述能力最强的知识检索语言。以RQL作为知识检索模型的检索语言,可以充分满足知识检索的需要。

2.2.4 以自然语言实现概念查询

自然语言易用性强但自由度高,如果不加以控制,就不能精确理解语义,实现知识检索[4]。知识检索模型提供了特定领域可控的概念语义体系,并建立与概念体系相对应的具有层次结构的自然语言术语体系,能对自然语言提问和本体概念库的术语进行语义的理解、分析和匹配,依据本体概念间的语义关系,实现知识检索。

2.2.5 模型约束

在模型约束上,不像信息检索模型那样要求索引项之间是正交的,知识检索模型的约束比较少,但要求概念和关系构成一个有向图,关系必须是有方向的;另外,要求每一个概念/实例都需要有一个唯一的标识。

基于上述约束和我们所建立的本体原型,我们设计了如下基于本体的知识检索模型,如图1所示。

模型分为:人机交互部分、知识源部分、检索匹配和本体库等几个部分。人机交互部分的主要作用是分析用户提交的检索请求,返回整理检索结果。检索请求的分析主要是依据本体知识,分析用户的真实检索意图,形成规范、准确的检索请求,提交给检索匹配模块。检索请求的分析主要分为如下几个步骤:第一是对检索请求进行预处理,提取需要检索关键字(词);第二是借助本体并在必要时通过和用户再次交互,判断检索请求中关键字(词)的领域、相关概念等等,确定用户的真实意图;最后再将用户的真实意图形成统一、规范的检索请求提交给检索匹配部分。同时,在对用户意图进行分析和交互的基础上补充和完善本体库中的相关知识。人机交互部分还有一部分功能就是对检索匹配部分返回的检索结果进行处理、合并后返回给用户。

知识源部分主要负责对知识源进行收集、并对收集的知识源根据本体库中的知识进行标注和分析,对从知识源中抽取的知识进行转换,對本体库中的相关部分进行补充和完善,对建立对应的索引信息,放入索引库。

检索匹配部分的主要作用就是从人机交互部分收集统一的检索请求,并依据本体库中的相关知识对检索请求和索引库进行语义和语法层面的匹配,并将检索结果返回给人机交互部分。

本体库部分应该说是整个模型的核心部分,从对检索请求和检索结果的处理,到对检索请求和索引的匹配,到对知识源的标注、索引的建立都基于本体库中的相关知识。同时,上述各个过程又可以对本体库中的知识进行补充和完善。当然,对本体库中知识的任何修改都要经过领域专家和系统的双重认定。

3 基于本体的知识检索实践

基于领域本体的知识网络具有3个特征:其一是定位知识。给出任何一个概念,都可以显示该概念在知识体系中的位置。其二是揭示知识关联。知识网络不仅要确定概念的位置,还要揭示此概念和其他概念间的语义联系,描述知识网络中各种关联。其三是可视化展示。通过直观、形象的模式、模型、图形、图像等方式,展现知识地图。

下面以“基于本体的知识检索模型”为例,来说明知识检索的呈现方式。该系统是一个基于我校学位论文知识的领域本体原型的知识检索系统。这个领域本体原型的构建以分类/主题一体化词表为基础。由于分类和主题表达的对象都是主题概念,两者之间存在着隐含的概念对应关系。所以系统以分类概念作为本体概念网络的主体结构,主题概念作为概念网络的各级概念节点,将具有对应关系的领域概念组织成本体概念网络。

与我校学位论文相关资源知识的领域本体概念网络的显示以及对知识的获取,是通过概念浏览和概念检索实现的。无论是浏览方式还是检索方式,都可实现基于概念、基于语义的知识检索;其结果都是以可视化形式展现知识层次的网状结构,便于用户循着知识网络方便地获取知识。

3.1 页面布局

用户界面分为2个部分,概念导航区和概念检索区,概念导航区是领域本体中各类概念的分类导航,点击具体的分类之后就可以在右侧的知识导航区,显示概念的网络关系图。概念检索区在输入需要检索的概念,并进行进一步细化之后,就可以看到相关的网络概念图和相关的概念实例。

3.2 概念浏览

概念浏览主要实现领域本体概念的分类导航和主题导航,可循着学科等级和概念间的语义关系进行浏览,起到知识导航作用,概念-分类导航如图2所示。分类导航可对领域本体的分类知识树进行逐次浏览,选择一个分类概念,即可同时显示与该分类概念对应的主题概念关系,包括等同关系、等级关系和相关关系。反之亦然,可通过音序对领域本体的主题概念树进行层层浏览,选择一个主题概念,即可同时显示与之对应的学科类目(可以是1个类目或多个类目)。例如,在“分类导航”目录树中选择“学位论文”,主题概念浏览区便显示“学位论文”概念关系,点击概念关系就可以显示属于“学位论文”概念的文献实例。

3.3 概念检索

概念检索可通过自然语言检索本体概念及关联。如果检索词是本体概念,即显示该概念及其概念间关系,同时显示与之相关的学科分类类目,以实现语义的扩展检索和关联检索。对于本体库中没有的检索词,由于系统建立了与本体概念对应的自然语言术语库,在主题概念显示区即显示与该检索词对应的主题概念及关系,分类概念显示区显示与之对应的分类目录。例如,在检索框输入“球状蛋白质”,主题概念显示区显示“球状蛋白质”的概念关系,“分类导航”目录树中显示与之对应的类目(图书资源中的《球状蛋白质》出版物,档案资源中的《球状蛋白质》档案,其它资源则是显示讨论球状蛋白质的各类网络文章和站点等);关键词浏览区显示与之对应的关键词(球状蛋白质结构、球状蛋白质功能等);文献概览区显示与“球状蛋白质”相关的资源(题名或关键词含有“球状蛋白质”的资源)。

知识应用部分在原型系统中,实现了包括应用解析和检索结果呈现的知识检索系统,知识应用部分可以在遵守应用接口的情况下进行应用扩展。知识检索系统的结构如图3所示。

系统通过对领域本体的查询和相关的知识推理,对用户需求进行分析。分析完成后,得到与“学位论文”相关的领域包括图书、档案和其它资源等几类,用户选择希望检索的内容:图书和其它资源。系统根据领域知识,继续对用户需求进行细化。图书资源中又分为著作、表现形式、表达方式和文献单元几个层次。用户再次根据自己的需求进行选择。这样通过3次与用户的交互,得到最后的检索条件,进行知识检索。然后,根据检索条件从知识库中得到检索结果后,进行结果合成,得到最后的检索结果,呈现给用户。

4 总结及下步研究设想

本文研究了基于本体的知识组织和知识检索的问题,着重对知识组织体系知识检索模型进行了研究,在分析信息检索模型和知识检索模型的基础上,建立了基于本体的知识检索模型,同时对知识检索呈现方式进行了研究,探讨了基于本体的知识检索呈现方法。在本校学位论文检索系统实践中已经取得较好的反应。

在未来工作中,我们需要针对各个领域的特点建立各个领域的权威本体,同时对知识的有效存储机制还需要进行深入研究。并进一步研究针对知识检索的检索评估机制。特别是加入衡量用户参与程度的参数——交互次数之后的检索评估机制。

参考文献

[1]田书格.知识组织浅论[J].图书馆理论与实践,1999,(3):3-5.

[2]张晓林.分布式学科信息门户中网络信息导航系统的规范建设[J].大学图书馆学报,2002,(5):28-33,43.

[3]王琰.本体检索语言的研究及CODE-QL——一个基于OWL的本体检索工具的实现[D].北京:中国人民大学,2004.

[4]金燕,张玉峰.知识检索中的自然语言控制机制研究[J].中国图书馆学报,2004,(6)57.

猜你喜欢

本体
Abstracts and Key Words
灰铸铁缸体本体抗拉强度提升的研究
眼睛是“本体”
对姜夔自度曲音乐本体的现代解读
领域本体的查询扩展和检索研究
基于本体的机械产品工艺知识表示
本体在产品设计知识管理中的应用研究
《我应该感到自豪才对》的本体性教学内容及启示
一种基于本体的语义检索设计与实现
媒介生存:关于新闻史研究本体的思考