APP下载

多源异构数据融合技术的研究*

2022-06-24王彦婕

山西电子技术 2022年3期
关键词:晋中爬虫网页

王彦婕

(山西省信息产业技术研究院有限公司,山西 太原 030012)

1 绪论

数据引领未来,在大数据时代,单一来源数据无法满足日益发展的多元化信息系统需求。可感知数据虽然具备多源性,但其信息不完整、链路不清晰,存在交叉多义、缺乏信任;当前数据驱动的社会治理范式中,广泛存在一源多用"伪Big Data",典型表现是各类项目重复申报、多头申报;政府决策对数据多源采集、融合应用提出了要求。这一系列问题促使多源数据融合成为时代发展的必然要求。

本文通过对多源异构数据融合技术的研究,将其典型应用于晋中市科技计划管理信息平台,实现对关系型数据库中数据、上传的PDF数据、图片数据、日志数据、网页爬虫数据等进行融合分析,将科技项目主体与PDF数据、图片数据、日志数据、网页爬虫数据等非结构化数据进行融合汇聚,消除数据之间的不精确、不一致,提高数据可靠性,从多维度、全方位为决策提供支持;运用到项目查重模块,实现项目在进行查重时,从原有基于项目名称、项目负责人等结构化查重的基础上,增加了基于项目全文、网络爬虫数据的非结构化查重分析,更精确、更科学对申报项目作出客观评价。晋中科技计划管理平台在加入多源异构数据融合技术后实现了业务管理与决策支持的融合应用,形成决策有依据,办事有程序,权力受监督的项目管理体系。

2 多源异构数据融合技术的研究

多源异构数据融合技术涉及数据采集、数据清洗、数据融合分析三个阶段,针对每个阶段我们首先进行了通用技术研发,然后结合晋中科技平台的应用场景,在通用技术的基础上进行了专项开发、调优处理,满足具体的应用需求。

2.1 数据采集

多源数据来源是结构化数据(关系型数据库)、非结构化数据(文件数据、文本数据、图片数据等)和网络爬虫技术获取的数据,结构化数据和非结构化数据来源项目本身和通过与相关系统对接获取,网络爬虫数据是从互联网上获取数据。本项目采用爬虫系统制定一定规则进行多源数据的爬取。爬虫系统实现数据处理方案的设计与编辑,完成数据获取、处理算法、处理环节、结果分发或存储等全过程的配置方案,明确处理规模、处理速度、优先级等方面的指标要求,实现对政府网站、新闻网站等网络爬虫站点数据的深度爬取,完成网页展现数据属性的全维度探测。

网页爬取结果需要进行去重处理,考虑爬取网页数量非常庞大,对网页去重进行优化处理。

在晋中科技平台中,数据来源包括本地数据、与相关系统对接数据、爬虫数据三类。本地数据包括项目申报数据、上传的PDF数据、图片数据、日志数据。与相关系统对接数据包括与省科技厅、市数据共享交换平台获取的数据。爬虫数据是通过爬虫系统定时爬取科技部网站、中央人民政府网站科技专题、新华网科技目录、各省科技厅网站等网页数据,爬取内容包括网站发布原有分类下的各级标题、发布时间、正文内容、url及相关附件等信息,并对爬取的网页信息进行去重、分类整理入库。

2.2 数据清洗

将多源数据采集完成后,需要完成数据的清洗工作。多源数据的数据结构比较复杂(或是json或是自定义的嵌套结构),不利于数据分析,需要从这些数据中将用户关注的字段单独抽取出来,构建成一个通用的简单的业务模型,一方面简化数据结构、减少数据量,另一方面为数据分析提供通用的简单的数据模式。

数据清洗需要遵循以下要求:

1)数据一致性:按照规则进行命名,生成音视频、图像的id字段,作为数据管理的唯一标识,插入到信息表中。按照不同类型数据格式要求,将音频、视频、文本、图像转换成指定的格式,并按照目录规范,将数据放入目录中。

2)缺失数据处理:当某条信息中缺失了对应的音视频,去除Fields.json(或Fields.csv)中的该条记录。当音频或视频等内容文件缺失Fields.json(或Fields.csv)中对应记录时,应补全记录或者删除该内容文件。

3)重复数据处理:去除内容重复的音频、视频、文本和图像数据项。

4)内容文件异常处理:对于音频文件,需要截断音频收尾静音部分;对于图像、视频、文本,需要去除或修复异常、错误文件。

数据处理过程中要对任务过程监视,处理计算任务调度,处理过程如图1所示。

图1 数据清洗过程图

2.3 数据融合分析

晋中市科技平台在使用数据清洗功能组件后,可以实时、批量、高速处理多种数据源的非结构化数据,极大地提升了系统的数据处理、分析能力。

平台数据清洗和监控过程:数据源直接连接到爬虫数据库,将数据查询出来之后,管道开始进行批量处理,经JSON转换之后,将多余字段移除,按照清洗规则,将符合条件的数据筛选交给下一组件处理。将数据通过字段归并处理之后,按照数据源进行分类处理,并将处理过程中的临时字段移除,将数据发送到消息队列,进行数据的下一步数据融合处理。数据进行规整筛选之后,还会进行文章的智能分析,将文章所涉及的科技领域等相关属性数据进行分析、整合,最后将数据的属性保存。

数据融合分析需要结合具体应用场景采取对应的技术来处理,本项目主要解决晋中科技平台的科技决策和项目查重两个方面的数据分析。科技决策方面主要将国内、省内科技栏目相关政策数据与晋中科技平台项目申报数据进行关联分析,分析国内科技最新发展方向,对比晋中科技政策指导及科技申报方向,为晋中科技局领导提供科技申报方向和重点支持产业。项目查重方面主要是将晋中科技平台历年立项全文数据、国内和省内先进科研课题放入科技查重库,实现项目申报内容与查重库内数据进行相似度分析,确定两个文档相似度值,为项目查重提供技术支持。

3 多源异构数据融合技术的应用

3.1 实现科技决策

传统的科技申报系统都是面向以事务处理为主的应用,数据来源广泛,数据库中存储的数据形式不一,且来源众多,主要以处理细节性数据为主,对综合性、历史性、概括性数据的分析处理不能很好实现,而且科技工作人员之间,各地区、各厅局之间各自的科研研究缺乏交流合作和数据共享,导致地市科技系统有国家政策把握不准、决策分析不到位现象,政策把握不确定等问题。

要实现科技决策,首先要对晋中科技平台、网页爬虫数据进行分词处理,并对分析进行优化,识别文档中的关键词,最后实现关键词的对比分析。

分词是文本处理中一个艰巨且重要的工作,本项目采用jieba实现文档分词处理。

同义词合并过程:首先将文档中高频词进行统计,然后对高频词中的同义词进行筛选,形成同义词库,然后在分词过程中将同义词合并。

自定义字典:目的是为了分出原始词库中没有的词以及优先分出一些词,我们一方面通过项目系统中抽取科技相关词汇加入自定义字典,另一方面主动从科技相关政策搜集科技词汇加入,并定期从爬虫结果中搜集科技高频词加入。

关键词抽取:关键词就是一片文档中的核心词和中心词,能让读者一目了然文档要介绍的内容。本项目的关键词抽取算法采用TF-IDF,该算法简单、常用、准确率高。

从实际效果看,通过一系列对数据的清洗和处理,在识别国家科技发展方向的基础上,与晋中科技项目申报方向和申报内容进行对比,为制定新一年度项目申报指南形成决策支持。

3.2 实现项目查重功能

通过多源异构数据融合技术实现基于项目全文、网络爬虫数据的非结构化查重分析,更精确、更科学地对申报项目作出客观评价。

晋中科技计划管理平台在加入多源异构数据融合技术后实现了业务管理与决策支持的融合应用,业务上实现文档查重规则可自定义;实现对项目负责人、参与人的信息查重功能;实现创新点及申报书的全文查重;生成项目查重结果表及项目查重结果汇总表,最终形成决策有依据,办事有程序,权力受监督的项目管理体系。

项目查重模块采用我们研发的文档相似性检索技术实现申报项目全文和项目查重库中全文进行比对,算出具体的相似度值,晋中科技局根据相似度值的大小结合文档的具体情况对项目是否重复进行判断。

相似性检索的具体步骤如下:

1)用TF-IDF算法,自动筛选出每个文档的关键词。

2)每篇文章各取出若干个关键词,在晋中平台项目中我们针对每个文档取出15个,将历史立项项目库、网页爬虫库、当年项目申报库自动生成关键词,合并成一个集合,形成了查重库关键词集合。计算当年项目申报库中对于查重库关键词集合中的词的词频,为了避免文档长度的差异,我们使用相对词频。

3)自动生成所有文档各自的词频向量。

词频向量的生成是根据1)和2)步骤中生成的关键词,计算每个文档的词频,采用N-gram生成文档的词频向量,通过训练,发现4-gram时在目前的体系下生成的效果最好。

4)项目查重过程中,计算比对两个向量的余弦相似度,值越大就表示越相似,值就是两个文档的相似度值。

项目查重功能支持从原始备份库以及交叉数据的导入,实现项目申报及项目立项的两个环节查重功能。系统针对所有申报书的查重规则,建立查重规则库。当本年度查重需要遵循某条或某几条规则时,只需要规则库管理员对所采用的规则进行选择,选择成功后,系统将采用规则库管理员所点选的规则进行查重。同时,规则库可根据每年查重的具体规则进行增加或修改,灵活设置查重规则。系统根据查重的条件把查重的结果信息返回给工作人员,根据查重结果信息判断是否进入下一流程,如果该项目不通过时,把不通过的具体原因返回给用户(如近三年在项目未结题等)。实现了科技报告数据、相关文献、资料、论文等数据接入的接口,实现了与省级系统对接,进行联合查重。

4 结语

本文通过对多源异构数据融合技术的研究,将其典型应用于晋中市科技计划管理信息平台,实现对关系型数据库中数据、上传的PDF数据、图片数据、日志数据、网页爬虫数据等进行融合分析,将科技项目主体与PDF数据、图片数据、日志数据、网页爬虫数据等非结构化数据进行融合汇聚,消除数据之间的不精确、不一致,提高数据可靠性,从多维度、全方位为决策提供支持;运用到项目查重模块,实现项目在进行查重时,从原有基于项目名称、项目负责人等结构化查重的基础上,增加了基于项目全文、网络爬虫数据的非结构化查重分析,更精确、更科学地对申报项目作出客观评价。晋中科技计划管理平台在加入多源异构数据融合技术后实现了业务管理与决策支持的融合应用,形成决策有依据,办事有程序,权力受监督的项目管理体系。

猜你喜欢

晋中爬虫网页
利用网络爬虫技术验证房地产灰犀牛之说
晋中国家农高区无花果采摘正当时
晋中市委统战部调研晋中国家农高区(山西农谷)
加快培育百亿企业 建好晋中国家农高区
基于Python的网络爬虫和反爬虫技术研究
基于HTML5与CSS3的网页设计技术研究
晋中:率先出台提升乡村治理能力“25条”
基于CSS的网页导航栏的设计
基于HTML5静态网页设计
大数据背景下校园舆情的爬虫应用研究