电力系统中数据集成技术关键问题研究

2016-12-28刘冬兰刘新马雷任俊杰杨锋

山东电力技术 2016年11期

关键词：高频率页面数据库

刘冬兰，刘新，马雷，任俊杰，杨锋

（1.国网山东省电力公司电力科学研究院，济南250003；2.山东中实易通集团有限公司，济南250003）

电力系统中数据集成技术关键问题研究

刘冬兰1，刘新1，马雷1，任俊杰2，杨锋2

（1.国网山东省电力公司电力科学研究院，济南250003；2.山东中实易通集团有限公司，济南250003）

国家电网公司多年来建设了很多业务系统，如办公自动化（OA）系统、营销系统、管理信息系统等。然而，电力企业信息化建设的深入以及业务系统中数据量的急剧增长给查找数据信息带来极大不便和新的挑战。为此，提出了一个面向电力领域的数据集成系统架构，并对其中的数据获取、抽取、整合等关键技术问题进行研究；提出了基于高频率查询词采集率的数据获取方法、自底向上方法构建数据抽取包装器的思想以及无监督学习的自动化重复记录检测模式。针对电力系统各个信息孤岛进行数据集成，对各业务系统中非结构化数据进行统一存储和管理，方便用户检索出所需的数据，为电力企业员工提供便捷服务。

数据集成；数据抽取；包装器；自底向上；非结构化数据

0 引言

近年来，信息技术已经渗透到各个领域，而且能采集、处理、存储和显示的信息量在不断增长。在电力系统领域中数字化技术应用广泛，如数字化继电保护系统和数字化控制系统。由于各类相互独立的信息管理及监控系统较多且规模庞大，使数据库存储的数据种类繁多，在电力系统中产生大量数据。面对电力系统中迅速膨胀的数据信息量，运行人员和决策者不仅需要对本行业的数据库了如指掌，还需要熟练地对大量数据进行分析处理。由于各类信息系统中的数据具有大规模、异构性、分布式等特点，使数据的分析挖掘变得尤为困难［1］。

通过数据集成与应用集成技术，建立能相互共享数据、有效协同工作的企业综合管理信息平台，利用各专业信息系统多年积累的数据将其转换成能为企业创造价值的信息。针对电力系统庞大的数据信息进行分析、加工、提炼以获取用户所需的数据，把各个信息孤岛相互汇集成为决策辅助信息系统，构建面向电力领域的数据集成系统，将分布式非结构化数据进行集中式存储、管理并提供统一的查询接口，使企业相关人员能够高效、便捷地检索出所需的数据［2］。因此，对电力领域数据集成系统平台进行研究可以为电力企业用户提供决策支持，更好地保证信息系统的经济、安全稳定运行，具有重要意义。

1 数据集成系统架构

电力系统中数据集成技术关键问题主要分为数据获取、数据抽取、数据整合、数据分析等几方面。技术关键在于如何解决电力系统领域数据模式的异构问题，使操作人员不必受限于数据模型的异构性、数据获取、抽取和整合等问题［3］。为此，对各业务系统数据进行系统集成，通过对众多业务系统数据进行分析，提出了面向电力领域的数据集成系统架构，如图1所示。

图1 数据集成系统架构

数据集成主要包括数据获取、抽取、整合及分析，其中涉及一个核心技术问题是领域模型管理，领域模型管理组件包含领域模型的定制和演化。领域模型定制是负责实体模式和实体之间的关系，领域模型演化负责检测并及时更新实体之间的关系［4-5］。数据集成系统操作过程如下。

1）数据获取。数据获取通过构造爬虫程序来实现，爬虫根据提交的查询表单，发现并选择优质的Web数据库，通过对接口进行理解分析，从网站上爬取出尽可能多的Web页面存储在本地数据库。

2）数据抽取。数据抽取通过构造包装器来实现，包装器抽取对用户感兴趣的数据进行准确定位，把非结构化或半结构化的数据抽取出来并转换为结构化数据进行存储；对页面中的数据进行标注和抽取，实现对同领域内不同站点中Web数据的模式统一。

3）数据整合。数据整合包括重复记录检测和数据融合，通过一些重复检测技术对抽取到的Web数据进行检测，并对同一实体相同信息进行合并，获得结构化数据。

4）数据分析。数据分析采用适当的方法对数据整合中得到的结构化数据进行处理，对数据信息的功能进行最大化开发，充分发挥数据的作用，获取有用信息并对数据加以详细研究和概括总结，进而采用一些图表形式展现给用户。

2 基于高频率查询词采集率的数据获取

数据集成的基础问题是数据获取。通常只有把网站上众多的网页数据爬取下来存储在本地数据库，才能进行后续的数据抽取、整合操作，为市场情报分析等应用提供决策支持。目前，普通的网络爬虫软件是单一的爬虫程序，面对众多的业务系统数据需要对各业务系统页面的查询接口进行解析，提交合适的查询词，在短时间内爬取大量网页，提高数据获取效率［6］。

为达到较高的数据获取效率，提出了基于高频率查询词采集率模型的数据获取方法。通过统计网页中汉字出现频率，获取高频率列表用于估算候选词的新数据获取率，同时对网站数据库进行采样，得到某一文本属性的采样数据库，采用多个特征自动构造训练样本，利用多元线性回归方法不断训练样本，进而构造基于高频率查询词采集率模型。在每一次获取数据过程中使用此模型不断迭代选择查询词向该文本属性进行提交，实现对网站数据库的爬取，该方法有较高的数据覆盖率。

基于高频率查询词采集率模型的数据获取过程主要包括查询词采新率模型构建和网站数据库获取，如图2所示。

第一阶段是基于高频率查询词采新率模型的构建。通过统计网站页面中汉字出现频率，获取高频率列表用于估算候选词的新数据获取率；使用一些常用的采样方法对网站数据库中待抽取数据的文本属性进行采样，得到文本属性的采样数据库，利用网页结构特征构建训练集，使用线性回归方法对样本进行训练，得到基于高频率查询词采集率模型。

图2 基于高频率查询词采集率模型的数据获取过程

第二阶段是利用第一阶段构建的模型来获取网站数据库。从提交的查询列表中选择一个有效的新查询词重新提交，查询提交后从所有的网站Web数据库中查询数据，返回结果页面后抽取所需记录存储在本地数据库，将采集到的相应网站页面存储到本地数据库，其中从结果页面提取的数据已经是待抽取数据，属于结构化数据；通过不断迭代选择新查询词提交，实现对网站数据库的获取，直至获取数据尽可能多地覆盖到整个网站。为了提高数据获取效率，可将此过程采用Map／Reduce方式来并行操作，可以有效解决数据获取过程中URL分配调度面临的负载均衡问题。

3 基于自底向上方法的数据抽取包装器的构建

数据抽取包括页面提取和语义标注，该组件可以准确提取目标网页中的目标数据，并对数据元素进行语义理解，进而准确地识别数据元素和属性标签的采样页面，提高对目标数据的抽取准确度。领域模型演化组件从更新的数据中检测新的实体模式和新的关系，进而及时更新领域模型。实体模式关系的动态更新可采用支持向量机（Support Vector Machine，SVM）方法［7］，利用数据系统中存在的数据及目标页面的视觉信息有效地检测和建立不同实体之间的关系。

3.1 数据抽取包装器健壮性评估方法

数据抽取通过构造包装器来实现，所谓包装器是指使用一个程序把感兴趣的数据从网站页面提取出来，并转换为结构化数据存储和管理［8］。

数据抽取的关键问题在于网站页面中如何定位数据的准确位置，自动化抽取中一般将网站页面转化成对应的DOM树，利用网站DOM树的页面和结构特征，构造XPath路径表达式来定位数据，这种XPath路径表达式就称之为包装器［9］。例如，某省电力公司招聘网站上信息安全工程师岗位招聘页面对应的DOM树如图3所示。

图3 网站页面对应的DOM树结构

构造XPath路径表达式可通过遍历HTMLDOM树得到，即W1=／／html／body／div［2］／table／td［4］／text（）就是所构造的包装器，由此包装器能准确抽取到工作地点是济南。此包装器是采用自顶向下方式构建的，包含了页面DOM树中从根节点到待抽取节点的所有谓词。但是此网站页面中如果删除第一个div，或者在第二个div下面添加了新的谓词td或table，那么上述包装器就失效了。

例如，包装器表达式W2=／／div［@class=‘btname’］／*／td［4］／text（），显然，包装器W2性能优于W1，因为当第一个div谓词被删除后，包装器W2还能继续抽取到正确的工作地点信息；包装器表达式W3=／／table［@width=‘95%’］／td［4］／text（），显然，包装器W3性能更优于W2，因为当在第二个谓词div下面添加了新的谓词td或table后，包装器W3能正确抽取到准确的工作地点信息。从上述可以看出，数据抽取包装器表达式XPath越少依赖于DOM树结构，其包装器的健壮性越好。

包装器健壮性是表示当网页随着时间变化时，包装器将继续保持抽取数据节点的能力，是测量包装器在变化后的新版本网页中抽取数据的能力。衡量数据抽取包装器的健壮性，通常根据数据抽取的查准率和查全率来判断。查准率表示抽取数据的准确度，查全率表示获取正确数据的覆盖程度。

3.2 数据抽取包装器构建方法

为提高数据抽取包装器的健壮性，根据自底向上的逻辑归纳设计思想，提出了一种自底向上方法构建数据抽取包装器。先选择一些普通的特定XPath路径表达式，在此基础上提出一个规则，匹配和特化每个节点直到数据抽取包装器表达式和需要抽取的目标数据节点信息完全匹配，同时尽可能地使其生成的数据抽取包装器查全率和查准率都等于1，即使抽取数据的准确率尽量达到完全准确，并且使抽取的数据覆盖到网站上所有的结果数据。

假设D表示一系列有标签的XML文档集合，包含了相应的网页中若干个感兴趣的待抽取数据节点信息。对于任意一个待抽取节点d∈D，我们想要从有标签的文档D中抽取目标节点，记为T（d）。对于任意给定的XPath路径表达式x，我们想要生成一个XPath表达式x使其满足如下规则。

对于任意的d，使x（d）=T（d），即使用包装器XPath表达式抽取的结果正好等于待抽取的目标节点。根据信息检索中的评估方法定义评估标准

式中：P为查准率，R为查全率。构建健壮性的包装器应使其包装器的查准率和查全率都等于1。

4 重复记录检测

Web数据库之间的同一实体存在重复记录，即同一条信息可能存在于多个数据库中。从网站上抽取的数据里有重复信息会造成数据冗余，冗余数据会增大所占空间导致数据查询效率降低，对数据分析造成一定影响。从抽取的结果数据中识别出重复的数据记录称之为重复记录检测，而数据整合主要包括重复记录检测和数据融合。数据整合的过程是利用一些重复记录检测技术对抽取到的数据信息进行检测，并对同一实体相同信息进行合并，提高数据的质量，进而提高数据检索的速度。手工检测重复记录得到的数据准确率高，但是工作量大并且靠人工检测速度较慢。因此，研究自动化的重复记录检测技术变得尤为重要。

重复记录检测的关键问题在于识别出两条数据记录是否完全重复或相似，即两条数据记录表达的信息是否相同或相近。目前识别重复记录的算法主要有编辑距离匹配、字段匹配、聚类等［10-11］。为此，提出一种无监督学习的自动化重复记录检测方法，通过采用聚类分析方法自动选择初始训练集，采用SVM的分类迭代方式，构建数据记录分类模型，达到重复记录识别及检测分类合并的目的。

无监督学习的自动化重复记录检测过程如下。

1）分块／索引。两个数据库D1和D2之间的记录对是D1和D2大小的乘积，为提高重复记录检测效率，可使用分块或者索引技术先分类，将不可能重复的记录对进行过滤。

2）获取比较向量。分析实体属性类型，选择相似度计算方法，对分块索引后的记录对计算记录对中相同属性值的相似度，进一步获取比较向量。

3）获取训练样本。自动化的重复记录检测通常选择聚类算法训练样本集，为提高样本集质量，采用聚类集成方法结合多个聚类结果，获取其一致结果作为训练样本集。

4）比较向量分类。采用已获取的训练样本集训练一个SVM分类器，用该分类器对剩余未分类的比较向量进行分类。分类包括匹配对和不匹配对，并对分类结果按照可信度排序，选择可信度大的比较向量更新训练样本，重新训练SVM分类器，不断迭代执行，直到满足某一条件结束。分类得到的匹配对比较向量集对应的记录就是重复记录检测的结果。

无监督学习的自动化重复记录检测采用聚类集成方法，结合多个聚类结果自动选择初始训练集，提高了样本集的准确度，采用SVM迭代分类方法构建数据记录分类模型，提高了数据记录的分类准确度，进一步提高数据融合性能。

5 结语

针对电力领域众多的业务系统数据，为便于企业用户快捷地检索信息，对电力领域中各业务系统架构等进行了初步调查研究，研究基于高频率查询词采集率的数据获取方法、采用自底向上方法构建数据抽取包装器思想以及无监督学习的自动化重复记录检测模式，并设计了电力系统数据集成系统架构。针对电力系统领域庞大的数据信息进行分析加工，进一步提炼用户所需的数据，对各个信息孤岛进行数据集成，对各业务系统中非结构化数据进行统一存储和管理，并且提供统一的查询接口，方便企业用户快速检索出所需数据。

［1］董永权.Deep Web数据集成关键问题研究［D］.济南：山东大学，2010.

［2］罗学礼，徐树振，王森，等.电力企业的非结构化数据检索研究［J］.计算机与数字工程，2014，42（4）：729-733.

［3］马玉梅.电力系统中数据集成技术的研究与应用［D］.保定：华北电力大学，2006.

［4］DONG Yongquan，LI Qingzhong.A Robust Approach of Automat ic Web Data Record Extraction［J］.Journal of Computational Information Systems，2009，6（6）：1 757-1 766.

［5］XU Xiuxing，LI Qingzhong，DONG Yongquan et al.Dynamically Constructing a Global Schema for Web Entities.Web Information Systems&Applications Conference［C］.Huhhot：IEEE，2010.

［6］刘伟.Deep Web数据集成中的关键技术研究［D］.北京：中国人民大学，2008.

［7］闫中敏，李庆忠，彭朝晖，等.DWDIS：面向分析的Deep Web数据集成系统［J］.计算机研究与发展，2010，47（S1）：479-483.

［8］RAHUL Gupta，SUNITA Sarawagi.Domain Adaptation of Information Extraction Models［J］.SIGMOD Record，2008，37（4）：35-40.

［9］NILESH Dalvi，RAVI Kumar，MOHAMED Soliman.Automatic Wrappers for Large Scale Web Extraction［J］.In VLDB，2011，4（4）：219-230.

［10］叶焕倬，吴迪.相似重复记录清理方法研究综述［J］.现代图书情报技术，2010（9）：56-66.

［11］邱越峰，田增平，季文赟，等.一种高效的检测相似重复记录的方法［J］.计算机学报，2001，24（1）：69-77.

Key Problems of Data Integration Technology in Electric Power System

LIU Donglan1，LIU Xin1，MA Lei1，REN Junjie2，YANG Feng2
（1.State Grid Shandong Electric Power Research Institute，Jinan 250003，China；2.Shandong Zhongshi Yitong Group Co.，Ltd.，Jinan 250003，China）

The State Grid has built amounts of business systems for many years，such as OA system，marketing system and management information system.However，with the deepening of power enterprise informatization construction and the sharp increase of data in business systems，it brings new challenges and inconvenience for data seekers.An architecture model of data integration in the power field is proposed，and key problems in this model such as data acquiring，extracting and integrating are investigated.A new date acquirement method based on high frequency words collecting rate is put forward，a concept to build data extraction wrapper through bottom-up approach and an automating repetitive record detection model for unsupervised learning are also proposed.Aiming at the information isolated island in the electric power system the data is integrated，and the unified storage and management of unstructured data in business systems are conducted，which can help users to obtain required data and to provide convenient services for staffs in the power enterprise.

data integration；data extraction；wrapper；bottom-up；unstructured data

TP311

1007－9904（2016）11－0023－05

2016-05-26

刘冬兰（1987），女，工程师，从事电力系统信息安全技术督查工作。