APP下载

基于语义的深网数据集成研究*

2016-02-08周夏青

台州学院学报 2016年6期
关键词:表单本体站点

陈 磊,周夏青,陈 盈

(1.淮南师范学院 计算机学院,安徽 淮南 232038;2.台州医院,浙江 临海 317000 3.台州学院 智能信息处理研究所,浙江 临海 317000)

基于语义的深网数据集成研究*

陈 磊1,周夏青2,陈 盈3

(1.淮南师范学院 计算机学院,安徽 淮南 232038;2.台州医院,浙江 临海 317000 3.台州学院 智能信息处理研究所,浙江 临海 317000)

深网(Deep Web)包含海量的结构化数据,深网数据集成有利于充分利用Web数据,提高领域数据的共享程度。提出一种建模语言,利用WF2OML,借助关系表到本体映射的思想,实现了从Web表单到领域本体的映射。在此基础上为同一领域的深网查询提供一个统一的集成接口,接口的集成是基于语义的,一方面保证了各个Web表单之间映射的准确性,另一方面实现了对查询结果的语义标注;完成了将Web数据库中的数据转化为本体数据的功能,转化可以是虚拟的,即通过WF2OML文档提供一个虚拟视图,也可以将查询结果导出为本体实例,为更为深入的数据分析提供了本体数据源。

WF2OML;Web表单;本体;深网;数据集成

0 引言

深网(Deep Web)的概念自被提出以来就成为领域关注的焦点,研究表明Deep Web上的数据量巨大,较之表面网(Surface Web)静态页面所含的信息而言,深网中的结构化信息具有更高的商业价值,且有着良好的可重用性[1]。深网中的信息一般都属于某个特定的领域,提供给特定的应用。同领域中的信息可能分布在不同的深网站点,例如政府网站中提供的开放数据查询应用等。由于传统的搜索引擎无法访问到深网站点中的底层数据,因而,深网数据的访问主要依靠站点所提供的查询接口(通常是一个Web表单)来实现。查询系统根据用户的查询条件,在底层的数据库中查询数据,并将查询的结果动态地返回给用户。然而,一般情况下,用户的查询必须要以手动的方式递交到各个查询的站点,再进行查询结果的人工分析。在浩如烟海的互联网站点中,用户想全面获取一个查询结果是非常困难的,他们往往需要查询多个同类的网站,反复地递交查询,然后对大量的查询结果进行分析。因而,一般情况下,用户所得到的查询的结果也是片面的和不完整的,同时,得到的查询结果也只能靠用户的浏览与分析得到结论,计算机系统在自动分析与信息的深层挖掘方面显得无能为力。深网数据集成是指将Web上同领域的尽可能多的Web数据库集成起来,以同时响应用户的查询,其形式主要是为用户提供一个统一的查询接口,用户的查询通过该接口传送到多个同一领域内的多个局部查询接口上,达到同时访问同一领域中多个Web数据库的目的[2]。传统的深网数据集成需要经过Web数据库的发现、查询接口模式的抽取、Web数据库的分类、查询接口的集成、查询的转换、查询结果的抽取及查询结果的注释等环节[3],目前来看,其实用性仍远远未达到用户的要求。

本文提出一种建模思想,旨在利用一种建模语言描述深网数据的查询接口,即Web表单。通常,常用网站所提供的Web表单的模式是固定的,不会频繁变换,Web表单模式可以视为Web数据库的一个视图,因而可表示为s=(a1,a2,…,ak),其中,ai称为Web表单的属性名称,它与Web数据库模式中的某个属性名称对应,但更容易理解,有着明确的语义。查询表单是对一个待查询的概念的描述,即,一个表单所体现出的模式实际上是某个概念的重要特征的集合。这个模式是Web数据库提供者希望暴露在Web上供用户查询和访问的。因而,表单的模式所描述的特征是领域概念具有代表性的特征,因为它所面对的是互联网上的无数的用户,因而该模式是比较固定的统一的,如果说Web底层数据库的模式是相对封闭的,则对应的Web表单的模式就是相对开放的。我们借助语义Web中的将关系模式映射为本体模式的思想,提出一种建模方法,将描述Web数据库的表单模式转换成相应的本体模式。因而,本文研究的问题是,提出一种建模语言,它将深网数据的访问接口,即Web表单描述成为相关领域的本体概念。利用这种描述机制,我们可以在语义层做到深网查询接口的集成,并对查询结果进行语义包装,从而获得一组带有语义描述的查询结果,在这组数据上,语义Web应用系统可以做更深入的数据分析与信息挖掘。

2 WF2OML

本文所提出的WF2OML(Web Form to Ontology Model Language)是一种将Web表单模式映射为RDF本体的建模语言。受W3C的R2RML建模语言[4]的启发,我们选用类似的语法结构来描述这种映射关系,但是,WF2OML与R2RML有着重要区别:两种语言的目的不同,R2RML是用来描述关系模式向RDF模式映射的语言,而WF2OML是用来描述Web表单向本体映射的语言,WF2OML是用来服务深网查询的,尤其是深网的集成查询,在WF2OML的支持下,我们可以方便地将传统的深网查询转化为一种服务,这种服务为用户提供了领域内的统一查询接口,实现了深网查询的集成功能。

2.1WF2OML的基本思想

WF2OML首先将一个Web表单视为它底层Web数据库的一个视图,然后将该视图映射为一组用来表示本体模式的RDF三元组。由于可将Web表单模式视为一个关系视图,因而将一个Web表单的模式转化为本体模式时,可以采用简单的“表到类”的思想,即,一个表单模式映射为一个本体类,而表单中的各个属性映射为该本体概念的相应属性。例如,对于图1的表单,我们可以有如下映射:

图1 Web表单

上述表单模式可以表示为:BooksForm(Keywords,Author,Title,ISBN,Publisher,Subject),则可以映射为一个本体如下:

映射的主要目有两点。第一,将一个表单与一个本体的类联系起来,这样在深网查询时可以准确地判断深网的查询接口是与哪一类信息相关联的;第二,将表单的各个“属性”转化为本体中的各个属性,这样在查询时可以准确地判断出表单的查询能力(Query Capabilities)。以上两点保证了在集成查询过程中准确地发现数据源和对查询的分解。

2.2WF2OML的形式

在WF2OML中,为了灵活地将表单(或表单的一部分)与一个本体概念关联起来,我们采用一个逻辑表(Logical Table)来从表单的模式上提取用于转换的信息。例如,将图1中的表单模式映射成相应的本体概念的映射文件片段描述如下:

可以看到,WF2OML将映射表示为一个RDF图。这里,Trip lesMap1和Trip lesMap2是w fo:Trip lesMap类的实例,用来表示一个表单向本体的映射,其中,Trip lesMap1将amazon.com(亚马逊)站点提供的图书高级查询表单映射为图书领域本体,而TriplesMap2则将京东商城的图书查询表单映射为同一个领域本体,这样就将两个站点提供的查询集成起来;w fo:logicalTable是一个属性,用来描述一个逻辑表。我们将一个表单模式描述成相应的逻辑表;w fo:subjectMap用来表示将一个Web表单中的某(几)个组件值映射为本体的三元组的主语 (subject)部分;w fo:predicateObjectMap则表示相应的谓语(predicate)和宾语(object)映射;w fo:referenceObjectMap表示不同表单模式之间的关联信息(例如表示两个实例是同一实体,或者两个实例之间是互相参考的关系)。WF2OML的主要词汇结构如图2所示:

图2 WF2OML的核心词汇

如上所述,我们通过一种简单的建模语言将Web上的深网查询表单的模式与领域的本体联系起来,一个Web表单视图就完成了向本体模式的映射。这种描述方法的优点是:(1)它是简单的,因为Web表单作为接受用户查询的接口,它已经形成了对某一类事物的较完整的描述,因而,在将Web表单转换成本体的时候,只需要采用简单的表到类、属性到属性的映射方法即可;(2)这种描述方案表明了表单所描述的事物在领域本体中的分类,为语义查询、集成等操作的处理提供了实现途径;(3)可以通过这种映射将Web表单的查询结果转化为RDF实例数据,也可以为语义Web应用提供一个虚拟的RDF视图,为将现有的Web数据转换成RDF语义数据提供了新的途径。

3 系统结构及实验

基于WF2OML的查询集成系统正是将各局部查询接口(即Web表单)与领域本体建立上述映射关系,从而将多个局部的查询接口集成起来。一个以WF2OML映射文档为依据所建立的深网集成查询系统的工作步骤大致如下:

step 1:以领域本体为基础,构建统一的查询接口;

step 2:通过编辑WF2OML文档,将局部站点的Web表单映射到领域本体上,同时也完成了局部站点向统一接口的集成;

step 3:用户向统一查询接口输入查询条件;

step 4:根据各局部站点对应的WF2OML文档,将获取的用户查询分解并提交至各局部查询站点;

step 5:获取各局部站点的查询结果,并按各站点对应的WF2OML文档对查询结果完成语义包装;

step 6:汇总各局部形成的语义数据,形成最终的查询结果数据集

上述步骤中,step1和step2可以作为系统的初始化过程,其中,当有新的局部站点需要加入时,只需完成step 2,形成该站点对应的WF2OML文档即可。此处类似一个Web服务的注册过程。为了验证本文提出方法的有效性,我们给出一个用于测试的图书领域查询系统原型,如图3所示:

图3 系统查询界面

与传统的集成接口类似,用户在全局的查询接口,即一个统一的Web表单中输入查询条件,系统依据用户的查询内容判断并得到与查询相关的局部查询接口,然后将用户的查询分解并提交至各局部查询接口。待各局部查询系统执行查询并得出结果时,再对结果进行包装,合并,从而汇总给最终的用户。可以将这种映射视为一种服务机制,服务的注册就是Web表单与领域本体的匹配过程。WF2OML中的w fo:TriplesMap是一个映射类,它将一个表单模式映射到领域本体上,更准确地说,w fo:TriplesMap将一个表单与一个领域本体中的具体概念对应起来,因此,当用户进行深网查询时,它需要选择查询对象所在的领域,如图书类等。图例所示是用户选择图书作为查询对象后的一个页面,此时,用户输入要查询的图书的信息,得到了一组查询结果,这组查询结果是从右侧的“The current mapped Web Sites”中分别查询并汇总,经过语义包装而得到的一组RDF数据。与传统的集成查询相比,这种集成是建立在语义层上的,并且得到的查询结果也是语义数据,对用户的分析将更有价值。例如,WF2OML中的w fo:reference属性(见图3中的hhuVocabulary:book-original属性)将不同网站之间的相关的查询结果建立了一种语义关联,通过这种关联,用户或代理可以方便地进行更为深层的语义分析。

4 总结

本文根据Web表单模型的特点,构建了一个将表单模式映射到本体模式的建模语言WF2OML,通过所提供的一组词汇,它将关系模式到本体的映射思想应用到Web表单模式向本体的映射过程中,这种映射使得基于领域本体的深网集成成为可能。在这种映射规则的支持下,可以将映射视为一种虚拟的RDF视图,在不生成RDF实例数据的情况下将Web数据库中的数据应用到语义Web应用中;同时,由于传统的查询结果是嵌入到HTML文档中的,是一种无结构的数据,给查询结果的分析和知识发现带来很大的困难,因此,也可以选择对查询的结果进行语义标注,生成RDF实例,这是本文研究的重点,这样可以充分利用语义Web技术对这些数据做更为深层的分析。

作为一种映射规则的描述语言,WF2OML为站点的提供者或者第三方开发者提供了灵活的描述表示机制,WF2OML文档本身就是RDF图,第三方可以在任何场合对自己感兴趣的站点进行描述、匹配,最终形成一个统一的查询接口。当然,理想的方式是有权威的机构对某些领域的查询接口进行匹配、集成,并在此基础上不断地扩充待描述的站点,最终形成较为完整、全面的领域集成查询接口。

[1]Kevin Chen-Chuan Chang,Bin He,Zhen Zheng.Toward Large Scale Integration Building a Metaquerier over Databases on the Web.[J].Proceedings of the Second Conference on Innovative Data Systems Research.2005,Vol.1:44-55.

[2]刘伟,孟小峰,孟卫一.Deep Web数据集成综述[J].计算机学报,2007(9):1475-1489.

[3]袁柳,李战怀,陈世亮.基于本体的Deep Web数据标注[J].软件学报,2008(2):237-245.

[4]Souripriya Das,Seema Sundara,Richard Cyganiak.R2RML:RDB to RDF Mapping Language.http://www.w3. org/TR/2012/REC-r2rm l-20120927/

Research on Semantic Data Integration of Deep W eb

CHEN Lei1,ZHOU Xiaqing2,CHEN Ying3

(1.School of Com puter Science,Huainan Normal University,Huainan 232038,Anhui,China; 2.Taizhou Hospital,Linhai 317000,Zhejiang,China; 3.Institute of Intelligent Information Processing,Taizhou University,Taizhou 317000,Zhejiang,China)

The Deep Web has massive structural data;and the integration of deep w eb data can promote a better usage of web data and increase the level of domain data sharing.This paper proposes a model language and realizes the mapping from Web Form to ontology,w hich adopts the idea of mapping method between relational schema and ontology.With the support of WF2OML,w e provide a unified integrated query interface to some application domain.The integration is on the semantic layer,w hich,on one hand,ensures the precise matches among several Web form s,and on the other hand,realizes the semantic annotation to the results of the query.The method also perform s the capability of transform ing the data in the Web databases to the RDF data.The transform ing can be performed w ith a virtual view--WF2OML document,and also can be implemented by exporting the results to the ontology instances,which benefit the deeper data analysis.

WF2OML;Web Form;ontology;Deep Web;data integration

10.13853/j.cnki.issn.1672-3708.2016.06.004

(责任编辑:耿继祥)

2016-10-05;

安徽高校自然科学重点研究项目(KJ2016A664);浙江省科技厅软科学研究项目(2015C35049)。

陈磊(1980- ),男,安徽怀远人,副教授,主要从事语义Web技术和Deep Web数据集等研究;

简介:陈盈(1981-),男,浙江诸暨人,副教授,主要从事智能信息处理方面研究。

猜你喜欢

表单本体站点
电子表单系统应用分析
眼睛是“本体”
基于Web站点的SQL注入分析与防范
基于图表示和匹配的表单定位与提取
浅谈网页制作中表单的教学
积极开展远程教育示范站点评比活动
首届欧洲自行车共享站点协商会召开
基于本体的机械产品工艺知识表示
怕被人认出
专题