APP下载

基于本体的图书馆文献资源检索技术探究

2014-02-28邓丹

图书馆学刊 2014年6期
关键词:检索系统本体语义

邓丹

(黑龙江省图书馆,黑龙江 哈尔滨 150090)

基于本体的图书馆文献资源检索技术探究

邓丹

(黑龙江省图书馆,黑龙江 哈尔滨 150090)

以基于图书馆领域本体的专业性视角解读当前图书馆文献资源检索技术,有针对性地对当前检索技术如全文检索、数据检索等做补丁处理,并提出了基于本体的图书馆文献资源检索模型的构建,基于该模型的特点阐述了信息检索的查全率和查准率是如何实现的。

领域本体 图书馆 资源检索模型 资源

信息时代的到来使得信息资源共享成为了图书馆界研究的重点课题之一。发达国家信息资源共享技术一直遥遥领先,20世纪90年代,美国各图书馆的书目数据已经实现在网上共享,当然这得力于计算机行业的发展,同一时期的英国在图书馆文献资源检索方面实施了“三计划”后,成功地建立了以数据库为主的电子信息资源,而我国的图书馆文献资源的检索技术在21世纪后才开始发展起来。

概念结构化的东西更容易使人们全面地看待一个事物,检索系统也是如此,在经过概念化后的领域知识体,更容易在逻辑推理工具的引导或者稍微引导下形成概念与概念间的联系,进而形成信息与信息间的联系,最后将检索结果系统地传送到读者手中。

1 引入本体

据统计,我国当前平均每4人拥有一台电脑,Internet刮起的电脑风其实也对信息资源共享提出了更大的挑战。搜索引擎、共享网站里的用户呈指数级上涨,网络信息也在爆炸式地膨胀,在工作学习压力中,人们太需要既准确又快速地查找到自己所需要的信息,渴求理想的信息资源检索系统。

网络信息资源的检索可以分为3类,即全文检索、数据检索和知识检索。全文检索即可以从文中截取任何一个具有单独检索意义的词汇或词表输入到检索窗口进行检索,数据检索也一样,只是将有检索意义的词汇换成数据而已,在一般情况下,这两种是用户的首选方式,因为搜索的结果能满足客户所需求的准确数据或词汇定义。但是由于搜索的结果属于填答案方式,客户无法从搜索结果中得到信息与信息间的内在联系,所以这些方式无法满足客户对于系统知识的需求。

关键词与具体数据,仅仅是将查询搜索结果停留在表层需求上,而知识检索是一种基于语义方面的信息检索技术,不仅提高了客户的查全率和查准率,而且降低了用户的负担。信息以及信息之间的语义关系,它需要自然语言处理技术、计算语言学技术以及其他相关技术的支持,信息资源搜索系统内部如果缺乏丰富多彩的巨量语义模型去支持,恐怕难以得到信息与信息之间的复杂层次和推理关系。基于语义的知识检索固然能够提高客户的查全率和查准率,但是如果将客户所要搜索的文献总库的各领域分为多个概念的集合,而每个领域具有特定结构化的知识本体,我们可以推算出本体具有强大的结构层次感和蕴含能够发掘强大的逻辑推理潜能,那么基于本体的图书馆文献资源检索技术将会实现更大的突破。

2 基于本体资源检索技术的假设探究

计算机整合资源需要强大的逻辑推理能力,而能给与这种逻辑能力的就是本体。基于领域本体可以使检索结果所呈现的结果信息描述与客户资源的需求之间的鸿沟最大可能地弥合在一起,结果信息将会呈现丰富的语义注解。如图1。

图1 基于本体的资源检索技术

对于构造一个本体,可以从下面4个步骤来实现(见图2)。

①用本体语言描述检索内容。在检索系统中,计算机所能实现的读取识别语言不能太复杂,否则会加大工作人员的任务量和影响检索结果的准确率。此外,在搜集领域知识术语时,应该选择社会大多数人所公认的且能够准确表示该领域内容词汇或图表,以求规范。

②构筑本体。首先,构筑的本体概念必须全面,这无疑是检索结果准确率的保证,所以构筑的本体必须使领域内主要的概念符合该领域的特点,并使各个概念间的联系尽可能加强。此外,除了概念,还可建立一些可说明抽象概念的属性指导,比如可解释领域本体中某些概念的实例以及在操作中可实施的技术性引导等。

③在构筑好的基础上应尽可能充实本体。构筑本体不是一劳永逸的事情,在网络词汇不断涌现的今天,充实本体不仅要统筹新概念、新关系,还必须通过联想意义建立新联系,以确保本体的与时俱进和实用性。

④确保本体的准确性一般是通过检查来实现的。领域本体内的概念元素必须在语义、语法和逻辑上保持一致,通过这种一致性的检查,保证了自动分类的准确性。如果忽略了检查环节,知识领域间的联系或者知识的正确率及与用户的需求得不到契合,那么这个检索模式将是失败的,查全率与查准率永远是引领检索系统追求卓越的灯塔。

图2 本体的构筑

由此构筑的本体,可以既明确又客观地用自然语言对所定术语进行准确描述,以及阐述信息之间的关系,又能完整地给出搜索结果,使检索输入信息与得出的推论及展示术语本身的含义是相容纳的,没有用户与结果之间的矛盾。且相较于单调的结果,基于本体的资源搜索具有更广阔的延展性。

3 基于本体的图书馆文献资源检索模型

基于本体的图书馆文献资源检索模式是全文检索和数据检索以及语义检索的更专业层次,能从本体与本体的联系中得出正确理解用户所需信息的内容,并且这些逻辑推理能力是自发形成的,因此,用户的查全率和准确率都能得到提高,并且不影响速度。

3.1 基于本体的图书馆文献资源检索模型构建的设计思想

①要建立一个领域的本体,必须求助于该领域的专家最大可能地掌握着该领域的知识,对于建立本体核心具有极大作用。

②收集数据环节。对于从领域专家手中获取的资源信息,相关人员参照之前已经建立的本体,以规定的格式将收集而来的数据存放在元数据库中保存。

③查询转换器的格式转换。在用户登录界面输入查询请求时,所输入的信息将会被本体结构中的转换器转换成特定格式,与本体数据库形成遥相呼应,数据库信息在本体的作用下,经过逻辑转换匹配出符合用户搜寻的目标信息集合。

④信息传达给检索用户。检索的结果在经过本体结构特殊的处理后,用户可以马上接收到。

实际操作中,并不是用概念图形模式存储本体信息或者将数据选择保存在一般关系的数据库中就可以了,虽然这样可以通过图或者文字数据的匹配来唤醒对应的信息资源。在实际的操作中,往往需要很多相关联的工具来保证检索的准确性和全面性。

3.2 以本体为核心的资源检索模型结构

信息的浩瀚广阔性被本体概念的紧凑性变成一个个相互串联的枝状体,这个串联的过程可以简单地概括为:登录查询系统的用户首先在特定的提问框输入要搜寻的信息,以本体为核心的模型系统接收到提问信息后将该信息自动定义为待处理信息,同时领域资源分析工具对该信息进行概念分解,本体数据库在资源分析工具和信息检索系统的调动工具影响下,将与查询信息相关的概念联系以特定的格式在元数据库中匹配,扩展和全面式的匹配后检索系统将匹配信息以客户所要求的形式反馈给客户。如图3。

图3 基于本体的图书馆文献资源检索系统构架

在这个过程中,领域资源分析工具在协助基于本体的资源检索系统中发挥着重要作用。领域资源分析工具可以起到辅助推动作用,比如说可以帮助推理引擎划分涉及领域的概念归属问题以及处理信息链接规则,它的优点是可以在多领域中自由分析和引用元数据。

推理引擎工具,顾名思义就是检索系统中推理的好手。在搜索的信息进入到后续时,推理引擎工具需要利用本体术语、元数据和推理规则完成后续工作,是将用户所需要的信息整理输送给用户的关键一步,是协助本体进行语义推断、逻辑推理、语义检索以及处理数据的其他职能检索。

3.3 基于本体的图书馆文献资源检索模型的核心部分

①元数据库中领域知识的本体分类。图3的模型可将其分为3层。第一层是用户查询层,用户查询层是一个检索过程的开始阶段,它决定了本体下各领域的知识活动情况。第二层是求解层,求解层已经无关用户的情况了,因为将用户输入的信息转化成特定格式的符号后,检索系统便进行一系列的求解过程。推理引擎分析系统转换成的特定符号来根据本体推理和确定出用户查询的具体语义,并用相关的系统规划策略来规范查询的信息。而最后的求解则要建立在相关领域专家的帮助下完成。第三层是知识抽取层。知识抽取是要在特定环境下抽取的,领域本体是图书馆文献资源检索模型的核心,在概念与概念间的联系上,它是当之无愧的串联者,用户输入检索提问词时,这种概念与概念间的特定联系可以辨别用户的真实语义,将串联的信息链接在一起,在此基础上进行资源的检索,不仅加强了信息检索的全面性,还能调动各领域的专家,实现跨领域、跨专业、多主体、多学科的主体查询能力。

②得力的辅助工具——推理引擎。推理引擎开启推理智能模式后,能自动地将用户输入的检索文字转换成系统可以识别的特定格式的符号,若是没有这个桥梁,人类的语言将不会到达计算机的世界里。它的工作流程很简单,首先,它需要将输入检索框中的文本用特定的格式转换成计算机能识别的符号并将其运送到元数据库中,也就是知识本体,送到这一个领域本体后它还要再送到其他领域知识本体中,与另一个知识本体的同义词进行比较,如是相同的话那么另外一个领域也将涉及;然后将此领域中的该类别及类别号取出代替原本的那个关键词;再将刚才提取出来的分类号用特定的格式转换成查询的语言,继续在数据库中搜寻满足检索条件的信息资源。

③检索结果的显示。在基于本体的图书馆文献资源检索模型中,每个本体数据库的格式都是不同的,所以当在检索框内输入相同的检索内容时,如果该内容提交不到同一个数据库中的话,那么相同的检索内容是得不到相同的检索结果的,但这可以显示检索系统的个性化服务以及保证信息资源的准确率。所以,在检索模型中,第一要务是将检索框中的检索内容转换成系统可辨别的统一格式,凡是重复的必须把它剔除掉,否则会影响效率,然后再通过条件分类将整理好的信息资源传送给检索用户。

要想使基于本体的图书馆文献资源检索技术完全自动化,基本上是不可能的,所以这是一种半自动化的模型结构。元数据库的完善以及领域专家的参与,领域本体库中的资源都需要与时俱进地不断加以完善,所以从事资源检索的工作人员依然任重道远。

4 结语

从全文检索和数据检索看,基于关键字的检索技术还没有成为历史,而基于语义检索的知识检索目前正处于盛行阶段,但是信息时代高速发展,人们对资源查全率和查准率的要求都在上升,所以基于本体的图书馆文献资源检索技术推广是应时代要求而发展起来的。

笔者结合本体论的相关观点,结合信息资源其他检索技术,提出了基于本体的图书馆文献资源检索的建构模型和新看法,在深入研究后发现,该模型依然有很多规避不了的障碍,比如说信息新资源的收录是否有自动的收录方法,数字图书馆的构建导致信息资源检索成本上升的问题等,这些都还有待于在实践中不断探索。

[1]王晰宇,周中林.基于本体的数字图书馆信息检索模型构建[J].情报探索,2011(9):21-23.

[2]王莉,梁冰.基于本体的科技文献检索框架与技术实现[J].数字图书馆论坛,2012(7):37-44.

[3]贺德方,曾建勋.基于语义的馆藏资源深度聚合研究[J].中国图书馆学报,2012(4):79-87.

[4]蔡炜,邢建国.基于本体的图书馆文献资源共享技术研究[J].情报科学,2007(11):1696-1701.

[5]仇宝艳,吕祥惠.本体技术在数字图书馆中的应用[J].现代电子技术,2008(24):109-112.

[6]张学梅,汪伟歆.基于本体的期刊论文可视化检索系统研究[J].电子世界,2012(22):121-123.

邓 丹女,1982年生。本科学历,馆员。研究方向:数字图书馆的发展与建设。

G254.91

2013-12-20;责编:张欣。)

猜你喜欢

检索系统本体语义
眼睛是“本体”
语言与语义
浅析图书馆检索系统的应用
基于行车调度指挥的高危作业智能检索系统研究
世界地质公园地图检索系统开发与应用
基于本体的机械产品工艺知识表示
批评话语分析中态度意向的邻近化语义构建
浅析图书馆检索系统的应用
“社会”一词的语义流动与新陈代谢
“吃+NP”的语义生成机制研究