APP下载

基于ETL-KETTLE模式的苹果产业数据整合

2019-07-08陈亚东鲜国建赵瑞雪刘现武郭淑敏

江苏农业科学 2019年10期
关键词:数据整合应用

陈亚东 鲜国建 赵瑞雪 刘现武 郭淑敏

摘要:苹果是高附加值的果品,也是世界四大水果之一。苹果产业在千余年的发展过程中,积累了丰富的数据资源,这些资源也是产业数据分析的基础和关键。由于苹果产业的数据来源丰富、结构各异,因此,数据的集成和共享还存在一定的难度,对数据进行整合十分必要。以国家科技图书文献中心篇名含“苹果”的数据资源为材料,以基于ETL-KETTLE的数据转换模式为研究方法,提出面向苹果产业数据整合的思路。结果表明,基于ETL-KETTLE的数据整合法则,可以分析苹果产业多源异构数据的关键节点、过滤和清洗噪音数据、发现和解析多源数据的字段,最后通过表输出完成题目、摘要、关键词等字段的统一,从而实现苹果产业数据的整合。将基于ETL-KETTLE模式的整合方法应用于苹果产业,可以為产业数据的重组与共享提供科学的工具,为数据的高效获取和有效组织表达提供新的思路和方法,助力苹果产业的科技创新,提升苹果产业的国际竞争力。

关键词:苹果产业;ETL;KETTLE;数据;整合;应用

中图分类号: S126;TP311.13  文献标志码: A  文章编号:1002-1302(2019)10-0230-05

苹果是世界四大水果之一,也是果品市场上的重要消费品,苹果产业在我国农业经济发展中长期占有重要的地位[1]。苹果产业的数据资源较为丰富且类型多样,用户需要的数据通常以不同的格式分散存储在不同的网页或者数据库中[2],因此苹果产业数据的集中访问和集成共享还存在一定的难度,尚未形成一套科学系统的数据处理方式和方法,有待于从微观层面进一步解决数据的集成统一问题,以实现异质数据的标准化输出,为苹果产业数据的共享复用奠定基础。ETL即数据的抽取-转换-装载,是用于解决多源异构数据集成的一系列过程,也是获取高质量数据的关键[3]。KETTLE是ETL的一种开源工具,能够对数据进行稳定抽取,可以提供面向不同行业的数据集成解决方案[4],郭丹等通过构建KETTLE过程模型,对烟卷销售数据进行整合与挖掘,为烟草行业的决策提供数据基础[5]。李云松利用KETTLE开源软件,对小型和微型企业的数据进行整合,可以在同一个平台得到共享,满足后台用户对数据的查询和管理需求[6]。尹晓楠等基于KETTLE进行研究,使整个企业的生产数据工具对北京市水务数据进行提取与转换,实现了北京水务普查数据的整合和无缝对接,提高了普查工作的精确度[7]。基于相关的技术模型和前人的成功经验,本试验以苹果产业的数据整合为目标,基于ETL的开源软件KETLLE对苹果产业数据的标准化整合及其应用进行研究,以期为我国苹果产业数据共享和知识检索提供数据基础。

1 材料与方法

1.1 数据材料

(数据)材料来源于国家科技图书文献中心(NSTL,http://www.nstl.gov.cn),以题目含有“苹果”为检索词进行检索,检索后所得到的数据为本研究的材料,这些数据资源涵盖了苹果产业数据的主要组成,具有代表性和可获取性。

1.2 研究方法

1.2.1 ETL过程简述 ETL是数据转换的一个关键环节,是多元数据集成的有效方法,其含义是从多个数据源抽取数据,通过数据的抽取、转换和加载等相关规则转换成最后所需要的数据格式,最后装载到对应的数据库中(图1)。ETL技术的关键点主要有3个方面:第一是数据抽取,这是数据转化的前提条件,其过程是将数据从各种原始的数据中首先读取出来;第二是数据的转换,按照相关的规则将多源异构数据进行格式和结构统一;第三是数据的装载,将转换后形成统一格式的数据批量导入到数据仓库中进行存储[8]。ETL技术与数据仓库相比较,能够有效地集成数据,避免了数据仓库不能对数据进行修改而只能进行数据增加的弊端,可以灵活实现数据的删除和修改,实用性更强[9]。

1.2.2 KETTLE过程简述 KETTLE是构建数据集成解决方案的ETL工具,也是ETL的一种开源工具,它的本意是将不同格式的数据注入到同一个数据库中,经过数据的处理与转换之后,成为统一格式的数据进行输出。KETTLE提供了一个图形化的工作界面及相应的对象设置来描述用户的任务需求,用户在使用过程中对KETTLE内部的数据处理过程可以一无所知[6]。作为数据整合的重要工具,KETTLE能够对不同格式的数据进行接收和输入,包括XML、ACCESS、Cube、Excel等,数据被接收以后,在相应的法则下可以进行源数据结构分析、清洗以及解码,最后实现数据的整合[10]。

2 基于ETL-KETTLE模式的数据转换

2.1 数据的抽取与输入

在国家科技图书文献中心(NSTL)系统中抽取篇名含有“苹果”的数据,其XML样本的片段截图如图2所示。数据抽取完成后,使用KETTLE工具对数据进行接收,将所有被抽取的XML(也可支持CSV、Excel等更多格式)文件进行结构解析。数据抽取的过程包括数据剖析、增量数据捕获以及数据抽取3个环节[11]。数据剖析过程主要是对源数据的数据结构以及数据的内容进行分析,如不同数据的字段规律等;增量数据的捕获主要是实现增量的抽取,其关键点是如何准确快速地捕获变化的数据;数据抽取则是对源数据的获取,不同数据源的数据须要经过合并后才能存入到数据仓库中,在数据抽取完成后,这些数据都会被临时存入数据的一个中转区域。

2.2 数据的转换

2.2.1 数据转换原理 KETTLE在实际工作过程中是通过工作流的方式来完成数据转换的,按照工具中预先设置好的工作步骤,逐步对数据流的操作进行处理。数据转换的过程主要包括对数据进行节点分析、过滤清洗以及映射匹配3个步骤,KETTLE工具基于XML数据转换的工作原理图如图3所示,将XML的原始文件输入以后,KETTLE能够解析XML文件的文档结构,并过滤清洗噪音数据,通过对各文件中关键词等组合进行自动分析,将各文档的关键字段自动解析并进行不同来源文件的映射匹配,最后将作者姓名、作者工作单位、摘要等信息解析出来,利用KETTLE的内部转换公式进行统一格式的表输出。

2.2.2 节点解析 数据的节点解析是指对数据的有效性以及节点结构的分析,从而提高数据的有效性和可靠性。KETTLE能自动解析XML文件的结构,主要是经过以下3种验证:XML验证是检验文件是否为形式正确的XML文档,主要是检验语法的正确性;DTD验证是检验文件是否为有效形式的XML文档,保证XML格式的正确和有效;XSD验证为XML结构定义,目的是检查XML文档是否符合其要求。验证成功之后,KETTLE可以列出XML来源文件中的标签节点名称和对应的XPath路径(图4),利用KETTLE可以将所有含“苹果”数据中的关键词、作者、通信地址、标题、DOI等信息节点通过路径解析出来。

2.2.3 数据清洗 数据清洗的目的是发现并纠正数据文件中可识别的错误,把不合规则的数据进行处理和过滤,包括检查数据的一致性、处理无效值和缺省值等[12]。在数据的输入与输出之间,必须对数据进行过滤、去质量、替换内容等数据清洗工作,这类数据包括同名的错误数据、噪声数据,诸如唯一标识符、标题、作者等有些必备内容为空的数据,这些数据必须进行过滤和删除;还有些數据并不是很完整,意义不大,这部分数据则须要根据具体的情况来处理;对于内容有误的错误数据也要进行及时的清洗和过滤,否则会影响数据资源的准确性和科学性;还有一类数据叫作数据冗余即重复的数据,这类数据会占用一部分内存,造成数据空间的浪费,因此也要进行清洗。

2.2.4 映射匹配 映射匹配主要是将原数据类型及其值的含义映射成为符合目标数据的类型与含义的数据过程[13]。基于KETTLE工具对数据进行解析和过滤之后,可以指定转换后的目标数据输出,如指定统一存放的关系型数据库对应的表,同时可以指定XML文件中节点名称与数据库表结构字段的对应关系,从而将来源数据中的字段与目标数据库中的字段进行映射匹配。通过映射匹配,转换后的数据由异构变成结构化数据,不同来源的文件在摘要、DOI、标题、起始页码等字段进行映射匹配,实现多源异构数据的结构化匹配。

2.3 数据的输出

经过数据的抽取和转换,不同来源与不同结构的数据在基于ETL-KETTLE的转换中实现了数据结构与节点解析、噪声清洗与字段匹配,异构数据通过相同的节点与流字段进行重组,从而实现了数据的共享和复用。数据输出的结果如图5所示,所有的XML数据经过整合以后,原始的数据集群按照新的数据结构重新输出,字段类型包括文章的篇名、语言种类、摘要、页码等,数据输出后可通过相关的工具直接装载和导入到所需的数据库中,为科研人员及不同需求的用户提供快速与全面的产业数据服务。

3 基于数据整合的应用

3.1 检索服务与知识服务

基于ETL-KETTLE的整合方法,苹果产业的数据可以同构化在一个平台实现共享,提供基于产业数据的检索服务和知识服务。如输入专家的名字“刘凤之”进行检索,可以检索到其发表的科技文献、项目报告、成果专利等,满足用户对于知识获取的需要,减少用户通过不同来源获取不同类型数据的时间成本。同时,以检索词为中心的数据间的关系能够进一步被发现,形成知识立方,帮助用户发掘潜在的需求。如专家刘凤之的研究方向、工作机构、研究的品种与相关的栽培技术等可以形成知识网格,为检索用户提供更深层次的知识服务(图6)。

3.2 生产指导

通过产业数据进行整合,可以将栽培生产的知识都载入到数据库中,在用户提问的过程中首先激活数据库中的知识,通过过程性的推理来满足生产者的作业需求。数据整合在生产指导上的应用,可以从很大程度上提高苹果生产的品质和产量,辅助农户解决生产问题。例如,果农在苹果的生产中遇到一种病害,但并不知道病害的名字,只了解病害发病的症状,想快速获取病害防治的方法,可以根据系统的提示输入发病的部位和选择相关的症状,系统根据输入的内容与数据库中的信息进行匹配返回给用户进行选择,直到最后实现系统的反馈条件与所输入的条件完全匹配,即可获得相关的解决方案(图7),让农民足不出户就能得到指导,提高生产效益。

3.3 统计分析

基于ETL-KETTLE数据整合的方法,还能够实现苹果产业各类数据的统计分析。以2010—2014年的病害和虫害数据为基础,数据来源于全国苹果病虫害防控协作网、国家苹果产业技术体系、中国苹果网、科技文献,将整合结果去质量后可以得出我国苹果四大产区主要发生的病虫害。对四大产区的病虫害发生情况(表1)进行分析,可以为我国苹果产业的栽培生产与病虫害防治提供支持,也可为生产预警和灾害预测提供依据。对于各个产区病虫害发生的分析,可以对于我国病虫害的防治、各个地区天敌引入以及产区之间的协调发展与栽培品种调整起到很好的指导作用。

4 结论与讨论

随着“互联网+农业”时代的到来,信息化已逐渐融入到农业领域的各个产业,不断满足用户对于信息和知识的需要[14]。在大数据时代下,围绕苹果产业发展的突出问题和薄弱环节,充分运用数据理念、创新的思路和方法,可以快速、全面和准确地获取产业数据,推动产业的科技创新和转型升级。数据整合作为我国苹果产业在信息化建设中的基础环节和重点环节,其整合程度会影响到苹果产业数据的捕获能力以及决策支持的精准度。本研究将ETL-KETTLE技术应用到苹果产业,以ETL技术为核心,利用KETTLE工具,验证和实现苹果产业多源异构数据的转换与重组,推动产业数据的共享和利用,有效避免了用户反复查找数据带来的时间与成本的浪费,提升了苹果产业数据应用与服务的信息化能力。经过ETL-KETTLE整合后的数据可以存储在数据库和不同的服务器中,在相应的功能模块实现苹果产业的科技文献、专利、科研报告等多类型的数据录入与查询,基于整个产业链条来完成数据的共享与利用,为政府部门决策支持和市场主体生产经营的决策提供普惠式的服务。

本试验也存在一定的不足之处:首先,在操作中所涉及的数据语言类型只有1种,没有针对中英文等多语言的数据集成整合进行进一步的深入研究,期望其在以后会有更多的学者来探讨和研究。其次,在此只是选取了部分数据作为材料,验证该方法在苹果产业数据整合的可行性,基于此方法,可应用于更多来源数据的整合研究。基于数据整合后的应用,这里的知识阐述了3个方面并作了案例分析,在实践的过程中还可以在其他方面来进一步拓展。未来的数据整合会朝着优化ETL-KETTLE流程的方向发展,完善数据清洗和转换的过程,从而提高数据整合的质量。同时,基于本研究对苹果产业数据整合的思路与工具,也可应用于小麦、玉米、番茄等其他类别的农业领域,期望后续有更多的学者关注和加强农业领域产业数据的整合研究,为产业的健康可持续发展提供基础数据资源保障。

参考文献:

[1]韩明玉,冯宝荣. 国内外苹果产业技术发展报告[M]. 杨凌:西北农林科技大学出版社,2011.

[2]陈亚东,孟宪学,赵瑞雪,等. 我国苹果产业科学数据建设初探[J]. 果树学报,2016,33(6):719-726.

[3]张 瑞. ETL数据抽取研究综述[J]. 软件导刊,2010,9(10):164-165.

[4]张欣宇. 基于Kettle的数据传输平台的设计与实现[D]. 大连:大连理工大学,2016.

[5]郭 丹,樊 红. 基于ETL-KETTLE的贵州卷烟营销大数据分析及可视化[J]. 计算机系统应用,2017,26(1):74-80.

[6]李云松. 小微企业数据整合中ETL工具Kettle的应用[J]. 菏泽学院学报,2014,36(2):19-22.

[7]尹晓楠,邹晓涛,张 冬. 基于kettle的北京市水务普查数据的提取与转换[J]. 中国水利,2013(21):57-59,42.

[8]王克龙,王 玲,王平立,等. 数据仓库中ETL技术的探讨与实践[J]. 计算机应用与软件,2005,22(11):30-31,78.

[9]廉 博. 数据仓库中ETL技术的研究与实现[D]. 沈阳:沈阳工业大学,2006.

[10]崔友洋,崔有文. 基于ETL-Kettle的中药饮片企业商业智能研究[J]. 产业与科技论坛,2014,13(22):47-50.

[11]崔有文,周金海. 基于KETTLE的数据集成研究[J]. 计算机技术与发展,2015,25(4):153-157.

[12]王曰芬,章成志,张蓓蓓,等. 数据清洗研究综述[J]. 现代图书情报技术,2007(12):50-56.

[13]邓盼盼,常 春. 基于精确匹配的概念映射关系规则研究[J]. 图书情报工作,2013,57(16):25-29.

[14]许世卫,王东杰,李哲敏. 大数据推动农业现代化应用研究[J]. 中国农业科学,2015,48(17):3429-3438.

猜你喜欢

数据整合应用
浅谈计量自动化系统实现预购电管理应用
记初中英语词汇教学的一次归类、整合改革及反思