一种基于XML Schema的XML文档到关系数据库的映射方法

2013-12-06贾颖

大众科技 2013年2期

贾颖

（山东工商学院计算机基础教学部，山东烟台 264005）

XML是W3C组织推出的一种半结构化的、自描述的数据描述语言，目前已成为Web上数据表示的标准，并为各种跨平台、用不同编程语言编写的应用程序提供了数据交流与分享的工具，同时还成为各种异构数据（关系数据库、Excel数据表、文本文件）进行数据交换的中间桥梁。可以说，XML技术已经得到了非常广泛的应用和支持。

随着XML技术的广泛应用，XML文档大量涌现出来。然而，XML文档本身不是一个数据库[1]，缺乏成熟数据库技术中关于并发访问、完整性约束、安全控制等关键技术。并且以文档方式存储的XML数据支持的关键字查询，查询方式简单，查询能力低，不能满足复杂条件查询的需要[2]。所以，XML文档在存储和查询机制上都缺乏系统支持。而关系数据库仍是目前为止最成熟的数据管理技术。所以，已经有很多学者对XML文档的关系数据库存储做出了研究，提出了结构映射和模式映射两种主要的方法。由于结构映射保留了 XML文档的结构和语义信息，成为了XML文档在关系数据库存储的主流技术。结构映射要分析XML文档的模式信息（DTD或XML Schema）。目前，基于XML Schema的结构映射方法中最具代表性的是Bohannon[3]的提出的P_Schema（Physical XML schema）。P_Schema是从XML Schema变化而来，将原始的XML Schema中的多值元素（元素属性maxOccurs为unbounded的元素）提取出来，生成同名的新类型，同时，在该元素的父元素中保留对该元素的引用。P_Schema可以直接转换为关系模式。然而，P_Schma仅进行了对多值元素的提取，没有考虑其它形式复杂元素的提取，如递归嵌套结构、被不同父元素重复引用的元素、可选元素的映射问题，本文将进一步探讨对这些类型元素的映射。

1 P-schema的改进

改进的P_Schema模式将XML文档存储到关系数据库的步骤分为三步：第一步，将XML模式转换为改进过的P_Schema++模式；第二步，将P-Schema++模式用DOM树表示；第三步，将DOM树映射为关系数据库。

1.1 生成P_schema++模式

本文的实例文档为The Purchase Order ，po.xml[4]，对应的XML Schema为po.xsd。[4]数据来源于www.w3.org。表 1给出了 po.xsd的类型标识模式（即 XML Query Algebra ），这种模式因其准确指定了元素和属性类型，非常有利于XML数据的存储，将之称为原始模式。P_schema++模式是基于此模式，进行改进和扩充得到。

从原始的XML Schema类型定义到P_Schema++类型定义的转换遵循以下几个原则：

（1）提取用＜ComplexType＞…＜/ ComplexType ＞标识定义的复杂类型为新类型（如PurchaseOrder）；

（2）提取元素属性maxoccurs=unbounded的多值元素为新类型（如items）；

（3）提取被多个父元素重复引用的元素为新类型（如USAdress和 comment）；

（4）提取用＜choice＞…＜/choice＞标识的可选元素为新类型（本实例不涉及）。

表1

1.2 DOM树表示

DOM（Document Object Model）全称文档对象模型，是一种与平台和语言无关的编程接口。[5]一个 XML文档使用XML分析器分析之后，其中的信息就会被转化成一棵对象节点树。在这棵树中，有且只有一个根节点，其它所有节点都是根节点的后代节点。节点树生成之后，就可以通过DOM接口访问、修改、添加、删除和创建树中的节点和内容。将P_Schema++转换为DOM树表示。在DOM树中，用符号○表示简单类型元素的节点，用符号◎表示复杂类型元素的节点，用符号△表示属性节点。Po.xsd的 P_Schema++转换为 DOM树如图1所示：

图1 P_Schema++ DOM树

得到DOM树后，寻找DOM树中子树的根节点，又叫分级节点[3]。一个节点成为分级节点，必须满足以下几个条件之一：①不能由其他节点到达；②复杂类型的节点；③节点的入度＞1。根据以上规则，PurchaseOder，items，comment，USAdress为分级节点，要单独映射为关系。其中Comment节点是简单类型元素节点，可以分成两个节点，分别内联到PurchaseOrder子树和items子树中。但考虑到在po.xsd中，PurchaseOrder和Items中对comment的定义都是minoccurs=0，如果将comment作为PurchaseOrder表和items表中的属性列，应允许NULL值。而comment元素中的数据内容一般比较多，需要为comment列设置较大的字符串长度，而如果有大量的空值，就会造成很大的存储浪费。所以，本文将comment元素单独建表，并建立Pid字段作为外键，指向父节点。

1.3 映射为关系数据库

将DOM树中分级节点映射为关系数据库中的表，映射的方法为：

（1）为每一棵子树T创建关系R，把满足以下条件的节点Y作为R的属性：Y是T可达到，从T到Y的路径中不包含任何生成独立关系的分级节点。

（2）为每个关系R创建Id字段作为主键。若T与其他分级节点存在父子关系，则在关系R中添加Pid 字段作为外键，记录其父节点的Id。

根据上面的方法，把DOM树转换为4张表：

表2 PurchaseOrde r

表3 comment

表4 items

表5 USAdress

另外，在PurchaseOrder表中，Bill to_id和ship to_id字段分别指向其孩子节点，与USAdress表中Id字段相对应。

2 实验验证

为了验证P_Schema++的有效性和可行性，采用 Microsoft Visual Studio2003和C#语言在Windows内部组件之一的.NET Framework代码库中进行XML文档到SQL Server 2003关系数据库的转化。对其存储代价和查询代价进行评估，结果发现，该算法生成的关系数据表数目相对较少，表的规模合理，查询时连接运算少，查询效率较高。

[1] Bourrent R. XML Data Binging[EB/OL].http://www.rpborrent.com/xml/XMLDataBingding.htm,2010-12-21.

[2] 曾庆玲.基于模式的复杂 XML文档到关系数据库存储的研究[D].桂林:广西师范大学,2011

[3] Bohannon P, Freire J, Roy P et al.,From XML schema to relations: a cost based approach to XML storage[C].Proc of the18th International Conference on Data Engineering.2002:64 75.

[4] The Purchase Order[EB/OL] .http://www.w3.org/TR/2004/REC-xmlschema-0-20041028/.

[5] 岳欢.XML文档在数据库中存储方案的研究[D].重庆:重庆大学,2003.