基于本体的海量学术文献资源智能检索系统研究

2016-08-24刘敏健

图书馆学刊 2016年5期

关键词：检索系统信息检索本体

刘敏健

（广州市财经职业学校图书馆，广东广州 510030）

基于本体的海量学术文献资源智能检索系统研究

刘敏健

（广州市财经职业学校图书馆，广东广州 510030）

分析了本体技术应用到海量学术文献资源智能检索系统的必要性，阐述了本体的关键技术，重点研究了此系统的总体结构设计、系统功能、本体构建和检索过程，最后详细探讨了此系统设计需解决的关键问题：本体的管理与服务、信息资源的获取和文档的预处理等。

本体海量学术文献资源智能检索系统设计

自2001年有了Tim Bern-ers－Lee这个说法后[1]，本体就普遍存在于网络领域，向人们传递分享知识，为文献检索走向世界打下了基础，加快了文献检索的发展进程。本体（on⁃tology）并不是实际存在的东西，它可以说明某种东西存在的意义。本体在计算机行业推广之后，就成为网络市场上各行各业关注的对象，是计算机和与之相关行业人们重要的研究部分。

本体是一种抽象化的说明，能把某个领域抽象的东西之间进行建立关系，可以把抽象的东西显得有层次感。将本体和信息检索相结合，能解决很多人们对概念理解不了的东西。总而言之，信息检索通过本体可以把事物抽象化、找到建模，所以，本体是智能检索研究中必不可少的组成部分。

如今网络技术日益发达，人们对网络信息的需求量也越来越多，把人们需要的这些网络信息资源进行有效归类及整理，还要正确理解人们想要的究竟是什么资源，本研究的重点是怎么从大量的信息中找到自己想要的信息。

1　本体技术应用到文献资源智能检索系统的必要性

1.1现有检索技术不能满足信息发展所需

现在，大部分的检索技术都是通过关键词进行查找。指的是人们写上关键词以后，系统就会根据你写的词语在文献中进行查找。如果你写的这个词语有好几个意思，检准率就会受到一定的影响。因此，通过关键词语来查找信息数据，对一词多义的词语理解能力还没有那么高，最后查到的结果会不全而且不准，达不到人们的要求。通过主题分类进行检索，指人们通过建立好的主题进行查找，但这种方法对信息更新不太方便。以前的信息检索，因为大部分都是使用一对一的方法，就会有很多检错或者漏检的情况发生，因为系统没有办法真正理解词语的多重意思，只能通过人们写的关键词进行一对一的检查。而且现在人们对信息质量的要求越来越高，要快而准地找到所需信息是必然要求，所以要快速找到能够正确理解语义概念的检索技术来解决这个问题。

1.2本体检索技术优势所在

通过研究发现，人们感觉到了运用语义检索的好处，使用语义让检索更加全面正确，越来越能满足人们的要求[2]。本体通过语义在智能检索系统中形成抽象的概念，通过本体为技术核心来建立一个模型，把那些有用的信息资源进行标注，让系统对那些领域内原来不熟悉的东西进行抽象的认识，这样让系统的理解想象能力大为增强，准确性也大大提高，能够快而准地查找到人们想要的信息，而且还可以让系统内的全部用户对此有更深刻全面的认识。所以，本体是语义网必不可少的组成部分，语义上信息之间的分享和交换都需要通过它来完成。本体已经成为智能信息检索的一种方式，是组成智能检索系统的主要组成部分。本体还有非常好的层次感和对一些逻辑的推理功能，所以在智能信息检索中被人们大力推广。

2　海量学术文献资源智能检索中使用的关键技术

2.1数据存储技术

我们都知道有条理的信息库会非常方便人们查找信息，并且检索效率也非常高。HTML为Web提供了非常多的信息，HTML语言在很大程度上加快了WWW的进程[3]，然而因为HTML没有层次结构，只是考虑每个元素有没有显示出来，并不关心显示的是什么意思，也就是所谓的语义，因此HTML语言无法推广到实际运用中。目前新出的标记语言XML有着非常多的好处并且很实用，得到了用户的一致好评，XML会慢慢代替HTML成为WWW上的主要语言。

XML（eXtensible Markup Language，可扩展标记语言）是通过W3C在1998年2月颁布的一种定义，和HTML类似，是组成SGML的一小部分[4]。因为XML可以把数据信息表达出来而HTML不能，因此很多重要的部门组织机构以及网络营销等都在使用它。XML可以让整体以及个人创建属于自己的标记信息，而且能够非常快地运用。现在人们通过XML来评判信息和数据之间的准确性，大部分应用程序都开始向XML进行转换，例如从PDF到XML、WORD到XML等。所以智能信息检索系统的数据运用XML文档进行更加有利。

2.2语义推理

智能信息检索与以前的方式相比，非常显著的一点就是运用了语义信息，让检索更为明白。领域的自身构造特点以及文档信息的整理存档是系统语义推理必不可少的组成部分。智能信息检索系统中的语义也可以把它叫做机器语义，它和我们平常说话所说的语言是不一样的。平常说的语义是人们关于某些概念所联想到的感受，有着多变的、不间断的还有不太准确这些特征，就像人们看见了“春天”这个词语，人们脑海中就会浮现与春天相关的信息，是“一年之计在于春”，也可能是“春暖花开，寒冷的冬天要结束了”[5]。但计算机看到春天并没有这些想法，对计算机来说就是个符号标志。计算机系统只能看懂一些比较简单的逻辑表达，所以，机器语义大部分是指每个符号和对象之间的联系，这些符号就是自然语言中人们所免俗的那些对象。领域本体说的是此领域内概念之间的逻辑关系，让语义推理有规则可循，用XML这个方式存的信息就是需要用来推理的。简明扼要地说，语义推理过程就是让计算机认识并且读懂领域内所表达的概念，再根据上面所说的方法来找到信息库中人们需要的信息。

以前通过关键词来检查信息的方法一旦出现错误就会功亏一篑，然而智能信息检索如果没有检索成功，通过本体来对这些信息进行推算，还可以再继续进行检索，会回到信息库中与实际结果最近的地方。

2.3检索结果排序

关于检索结果的顺序问题，是信息检索出来最后才需要完成的，更是信息检索系统非常重要的一步。现在的信息技术突飞猛进，假如没有非常实用的排序方法，就会容易地让人们在信息中找不到自我。如果在CNKI上查找“本体”，就会出现1827条相关记录。

信息检索通过本体来完成，使用智能信息检索，如果是某个要查找的词语，把返回的信息进行整理排序，让最接近的信息放在最前面。智能信息检索系统检查出来的结果通过语义进行扩展，不但能检查到人们写的关键词信息，还能检查到与该词语意思相近的以及附近的词语[6]。不一样的信息人们写检索词的方式都不一样，系统会通过信息之间的关系来进行整理顺序。

3　基于本体的海量学术文献资源智能检索系统设计

在领域本体基础上构建的学术文献资源智能检索系统，不仅充分利用了领域本体的知识组织优势，而且还使用了相似度算法以及自然语言处理技术，实现了学术文献资源的智能化检索，不仅使检索效率得到显著提高，同时还提升了用户满意度。

3.1结构设计

人们在现代化企业生产过程中，最基本的信息处理措施是建立一个Intranet，该网络是由一组客户机连接形成的，使用的协议是HTTP以及TCP/IP协议。为了确保该网络的安全，会在网络与外界之间设置多道防火墙[7]。笔者为了确保设计的学术文献资源智能检索系统能正常运行在Intranet上，特别引入了本体的理论，系统具体的结构如图1所示。

图1　智能检索系统结构

构建的智能检索系统采用的模型是“客户-服务器”型，内容包括输出和输入界面、启发式表达式、查询条件转换器、本体以及本体解析代理。用户在客户端可以进行查询条件的输入操作；用Java的小应用程序可以完成输入界面的编写，基于Java的编程便于浏览器的调用；输出界面能把系统的查询结果返回给用户，其实就是一张由服务器自动建立的二维表，该二维表的存放格式可以是HTML文件，也可以是文档形式，用户通过客户端对存储的文件进行访问就可以得到查询结果。

在服务器的一端存放系统的核心部分，主要内容包括启发式表达式、本体解析代理、查询条件转换器以及本体论。其中启发式表达式是在本体论基础上的一组公式，用于启发信息检索过程，体现了与传统查询系统的区别。本体解析代理能对系统本体进行自动扩展[8]。查询条件转换器负责对用户提交的查询条件进行接收，并充分结合启发式表达式，形成本体论的操作指令之后，对本体论进行查找，得出查询结果后进行二维表的构建并反馈给客户端。本体论的内容包括本体论结构和数据，其中本体论结构是对各概念的数据结构进行描述，本体论数据包括领域、员工等相互联系的信息和相关数据，以上本体论数据和结构都在服务器的数据库中存放。XOL文档是对本体进行描述的，修改保存该文档之后，本体接续带来会把该文档进行自动的解析和存储，实现系统本体的修改和扩充。

3.2系统功能

系统资源管理功能主要是对图书馆数据库中的文献资源进行管理，首先要语义标注这些科技文献，通过索引库的构建，提供资源支持后续的智能检索模块。语义检索的思路主要是把定义的领域本体对科技文献的篇名、摘要、关键字等领域概念进行标注，并把相关度权值赋予到这些概念中，然后把这些领域概念、相关度权值提取出来并在索引库中存储。索引库中包含的内容为文献资源的标注信息和索引信息，为检索匹配和查询扩展过程提供保障。

用户在检索系统中完成检索词输入操作之后，对查询语句系统可以自动开展句法和词法分析，并充分结合相关的专业术语，把系统可理解的检索词生成出来，然后查找检索词对应的本体，根据概念描述和相似度算法，扩展处理用户的检索词，把满足阈值的重要关键词提取出来，根据索引库中的文献索引信息系统可以自动地进行匹配操作，获取相应的检索文献列表，然后通过智能排序算法进行检索结果集合的排序，并把最终结果呈现在用户面前。

3.3本体构建

在本体论基础上构建的智能检索系统，与其他检索系统最明显的区别就是本体的应用。系统开发过程中，最重要也是最基础的工作是建立本体，构建本体的方式可以分为3种，分别为从上到下、从特殊到一般、两者融合的方式。其中从上到下是始于最一般化的类别，通过往下细分把特殊化的类别挑选出来；从特殊到一般是始于最特殊化的类别，按照类别的特性往上把一般化的类别归纳出来；两者融合的方式是以上两种方式的综合。

在本体基础上构建的海量学术文献资源智能检索系统一共定义了两个领域本体，分别为文献本体以及计算机语义词典本体。从文献本体来说，主要是针对在线信息检索开展在语义推理，对用户输入的检索词利用文献本体梳理存在的隐含关系，图2给出了文献本体的相关片段。

图2　文献本体片段

计算机语义词典本体主要是语义推理文献资源的离线部分，把检索到论文元数据提取出来，并描述其中隐含的信息，并在论文元数据库中进行存储。在构建领域语义词典本体时，要采用实用的原则，并在运行中实现系统的完善。图3给出了计算机语义词典本体的部分片段。

图3　计算机语义文献本体片段

3.4检索过程

设计的智能检索系统具体检索过程如下：首先，语义标注文献资源，利用领域本体标引该领域的文献，通过索引库的构建，提供后续资源支持智能检索模块；其次，检索词输入完成之后，系统对检索关键词进行语义转换；第三，根据转换的检索关键词查找相应的本体，根据本体间关系的描述以及相似度算法，扩展用户检索词并生成检索词集合；第四；把满足阈值的关键检索词从检索词集合中挑选出来，根据索引库中的文献索引信息系统可以进行自动匹配，可以在界面显示检索词相关度较高的文献资源列表，通过智能排序算法系统直接对检索结果进行排序，并把最终结果反馈给用户；最后，针对获得的检索结果，用户要开展评价，如果对检索结果不满意则重新输入检索词开展新的检索。

4　基于本体的海量学术文献资源智能检索系统设计关键问题

4.1本体的管理与服务

本体概念体系的构建是智能检索系统实现的基础，所以首先要解决本体的构建问题，通过形式化描述构建好的本体，对概念相关度矩阵进行构建，并提供服务保障系统其他模块的运行。本体是智能检索系统的技术支撑，能对用户检索意图进行理解，有效提升检索效率。在整个检索系统中，本模块既是基础又是强有力的支撑，要实现的功能如下：首先，按照构建方法，在领域专家的协助下，使用构建工具，把某领域的本体构建出来，并按照一定的数据库和文件方式存储本体；其次，对构建好的本体要能够实现更新操作，目前主要由手工操作完成更新，但要把这些功能接口保留在代码中，便于日后自动更新操作的实现；再次，读取存储的本体并把其中的实例、关系等解析出来；最后，提供检索、查询预处理以及文档预处理服务，把各模块的接口预留出来，并最终实现模块间的交互。

4.2信息资源的获取

网页资源是智能检索系统的对象，所以要确保能有足够的Web信息可供检索，信息采集模块可以完成这一任务。互联网的特性为开放性、分布性以及动态性，但同时网页上有多样化的信息组织格式，不利于信息的获取，所以要引入专门的采集信息工具，在本地的网页资源文档库中收集各种存储介质信息，提供文档预处理的素材。这个专门的信息采集工具实际上就是一个网络应用程序，通过编程完成网页信息的下载，具体的设计要求如下：能发现新的链接并添加到待下载队列中，程序要具有可配置性，存储和管理下载的网页数据，支持对网页的分析和索引，能够更新检查下载的历史网页。

4.3文档的预处理

在信息检索中文档预处理是很重要的一环，其结果好坏对信息检索的结果产生直接的影响。在文档预处理阶段，语义检索系统的检索功能能否实现语义向量抽取是其中的关键。

中文文档的语句是由连续汉字组成的，并没有连续的词语边界标志，如果检索系统不具备中文分词能力，给出的检索结果会囊括一些无关的内容，相应地降低检索准确度。为了使系统性能得到提高，要求系统具备中文分词功能。系统对抽取信息后的网页对象执行分词处理，通过索引的设计可以使检索速度得到加快，更快地定位网页，使计算开销得到有效的减少。索引项是索引的最小信息单位，除了文档内容之外索引项包含的信息还有建立时间、编码格式等。