APP下载

基于XML的数字图书馆异构数据库集成及检索研究

2016-03-14王世波熊小慧

高师理科学刊 2016年12期
关键词:异构文档检索

王世波,熊小慧

(齐齐哈尔大学 经济与管理学院,黑龙江 齐齐哈尔 161006)

基于XML的数字图书馆异构数据库集成及检索研究

王世波,熊小慧

(齐齐哈尔大学 经济与管理学院,黑龙江 齐齐哈尔 161006)

通过分析数字图书馆中存在的异构数据问题,结合实际情况,对数字图书馆异构数据库的集成和检索进行研究,提出相应的异构数据集成和检索模型.

异构数据库;XML;集成

数字图书馆通过运用电子信息技术来存取和管理信息资源,方便信息的使用者按照各自的需求智能存取信息,这些信息以数字化的形式存储在数字图书馆内并且能够随着时间的推移而不断增长[1].由于数字图书馆数据库的发展过程中存在异构数据的现象,这给读者查询带来极大的不便.因而需要对异构数据进行整合和集成,使之能够实现跨库检索,便于读者的查询和访问,实现图书馆信息资源的真正共享.

XML语言属于标记语言的一种,可以利用它来描述数据,如存储、转换及程序处理等.通过运用XML语言的描述性标记特点,人们可以很方便地进行数据定义,对描述的术语及术语间的结构化关系进行扩展.XML语言与所使用的操作系统以及程序开发使用的语言无关,只使用文本编辑软件就能够设计开发出符合规则的XML文档.XML的优点使得越来越多的信息通过其进行存储、表示和交换.Xquery标准可以让查询变得简洁,同时容易被理解,最主要的是能够对大量的基于XML的信息源(可以是数据库中的表,也可以是XML文档)进行灵活查询.因此,Xquery可以将这些不同数据源的数据翻译成XML文档来查询异构的数据源.

异构数据库系统是多个相关的数据库系统交织在一起形成的集合,通过这个系统将原有的各个独立系统有机结合,实现系统互通、数据互访,每个DBS都有各自的后台数据库管理系统并能够维持自治和应用.集成后的数据除了具有集成性以外,不能破坏相应的安全性及完整性和一致性.

XML为异构数据库系统的信息转换设计了相应格式,能够实现异构数据互操作.可以使用XML作为数据集成的相互操作语言,再使用某一编程技术(如JAVA、DELPHI等)作为编程的方法来实现异构数据库的集成.XML可以实现异构数据信息变换,它使用文档类型定义描述标准格式,XML文档中的数据可以使用Xquery查询获取,非XML文档数据也可以通过映射功能获得,可见XML技术可以作为异构数据相互集成的可行方案.

1 数字图书馆中存在的异构数据问题

国内数字图书馆的建设是从上世纪90年代以后开始的,在理论与实践两方面取得了很大成绩.随着互联网及网页技术的出现和发展,图书馆的数字化资源为广大用户获取网络化知识信息提供了有效途径[2].

然而,随着数字图书馆的建设,不同阶段建设的软件系统,其信息内容可能就会分散在不同的物理网络之上.这些物理网络上的节点计算机千差万别,其硬件配置、网络服务器、操作系统及DBMS可能是不相同的,也就形成了“异构”——即“异构数据库系统”.图书馆在建设过程中不可避免地形成了各种各样的应用系统.这些应用系统的数据资源多种多样,除了保留有各种书目、学术期刊、学位及会议论文库等众多数字资源以外,还包括报纸以及历来的期刊、书目的借阅和归还记录.另外这些资源的存储结构、读取方式不尽相同,有的是以数据库形式存放(如ORACLE,SQL SERVER,DB2等),而有的则是直接采用文件的形式保存在硬盘上,甚至有的仅以文件形式存放在光盘上.读者想要获取这些资源要么是到各个资源所在的软件系统中获取,要么是通过一个集成的平台进行数据的查找获取.大多数的读者由于对数字图书馆各阶段的系统了解程度不同,准确获得所需数据的并不多.因此,需要搭建一个统一的检索查询界面,方便广大图书馆用户获取数字资源,增强其操作性,也是未来数字图书馆的发展趋势.

2 基于XML的异构数据库集成检索模型

随着数字图书馆的发展,需要将各个数字化软件系统进行有机结合,为广大用户提供一个集成信息检索平台.因为XML本身具有扩展性和自我描述的特点[3],XML技术为实现这种新型的信息管理系统提供了一个机会.XML不仅可以实现数据交换,还可以方便地实现不同应用系统之间的数据交换[4-6].通过建立数字图书馆的数据中心来解决数字图书馆中的异构数据库带来的数据孤立和异构问题,最终建立以数据为中心的数字图书馆应用系统[7-8].数字图书馆中的异构数据是指结构不同,或者是平台不同而造成的数据格式平台不统一,在图书馆发展的不同阶段形成的不同存储格式的数据.基于XML的数据集成模型见图1.

图1 基于XML的异构集成检索模式

在此模型中,各个分布的、异构的数据库可以分别对应一个XML接口,经由XML信息引擎联入INTERNET,借由用户视图及集成模式形成XML文档供用户访问,从而解决数字图书馆各分立系统单独访问给使用者带来不便的问题.有的学者也曾经提出过类似的模型[9-10],本文中的模型不需要集成层的源映射,只是借由XSL得到的查询数及DTD转换XML文档就能够为使用者提供查询服务,同时针对新加入的数据源头进行更新,以保证用户能够获取到的数据为数字图书馆的完整数据.

模型本身借助XML语言的自身特点,它既可以描述结构化数据,即非常规范的二维表结构数据,也可以描述半结构化的甚至是非结构化的数据,这就为我们提供了一种异构数据集成的方法.因此,可以将图书馆发展过程中使用的不同数据库后台实现格式统一,用一致的文档对外提供查询服务,实现集成,方便数字图书馆各个系统的使用者实现一次登录就能够全网浏览使用的目的.

3 结语

本文的方法首先在教务管理各子系统中使用,通过对齐齐哈尔大学教务管理各子系统的集成发现,XML确实能够描述多种多样的数据,能够将多个异构数据源数据整合在一个文档中.因教务管理相关子系统在发展的过程中也存在异构数据,和数字图书馆系统非常相近,加之本方法具有较好的通用性,因此可以将此方法运用到数字图书馆各系统的集成,便于用户检索利用.XML不仅可以将互联网提供的信息传递功能供人使用,同时也为人类多种多样的活动服务,它能容易地将关系数据库中的数据表属性和XML的文档描述一一对应,从而实现精准查询和数据获取.因此,通过运用XML技术能够有效兼容原有Web应用系统,实现各Web系统中的信息转换及共享,从而有效地解决异构数据库的集成,为异构数据交互和共享提供帮助,成为解决异构数据库互操作的有效途径.

[1]申传斌.基于XML的数字图书馆异构数据库互连[J].现代情报,2005(7):99-102

[2]刘科,郑巧英,徐汝兴.基于JAVA技术解决数字图书馆异构平台数据库访问[J].现代图书情报技术,2002(3):10-13

[3]张晓林.基于XML的信息组织与处理:1.XML技术体系[J].情报科学,2001,19(8):832-839

[4]吴扬扬,陈锻生.一个基于XML的Web信息源集成方案[J].计算机工程与应用,2001(10):34-37

[5]李军怀,张景,周明全,等.基于XML的企业异构数据集成方法研究[J].计算机工程,2002,28(9):63-65

[6]王福.基于XML与Web Service的数字资源统一检索平台研究[J].贵图学刊,2009(4):47-48

[7]庄青青.XML技术在数字图书馆跨库检索中的应用[J].情报探索,2011(7):89-90

[8]李卫峰,胡孔法.基于XML WEB SERVICE的数字图书馆统一检索技术研究[J].情报杂志,2008(9):27-28

[9]罗艳.基于XML的异构数据交换技术研究[D].南昌:南昌大学,2011

[10]王芳.基于XML的异构数据交换技术研究[D].南昌:华东交通大学,2009

The research of digital library heterogeneous database integration and retrieval based on XML

WANG Shi-bo,XIONG Xiao-hui
(School of Economics and Management,Qiqihar University,Qiqihar 161006,China)

Analyses the problem of the heterogeneous database in the digital library,it gives a model for heterogeneous database integration and retrieval,which researches the heterogeneous database integration and retrieval according to what is actually happening the digital library.

heterogeneous database;XML;integration

TP311.13

A

10.3969/j.issn.1007-9831.2016.12.006

2016-10-16

王世波(1979-),男,黑龙江尚志人,副教授,在读博士,从事信息系统开发与集成研究.E-mail:wangshibo05@163.com

1007-9831(2016)12-0025-03

猜你喜欢

异构文档检索
浅谈Matlab与Word文档的应用接口
试论同课异构之“同”与“异”
有人一声不吭向你扔了个文档
异构醇醚在超浓缩洗衣液中的应用探索
基于RI码计算的Word复制文档鉴别
overlay SDN实现异构兼容的关键技术
专利检索中“语义”的表现
LTE异构网技术与组网研究
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
国际标准检索