APP下载

基于大数据技术的新闻采集和事件分析系统的设计与实现

2018-02-14马旭王淑丽

数字技术与应用 2018年10期
关键词:数据采集大数据技术系统设计

马旭 王淑丽

摘要:为了解决获取互联网新闻时查找慢、数据杂、阅读效率低的问题,本文提出了一种基于大数据技术的新闻采集和事件分析系统。该系统首先采集互联网新闻数据,运用数据清洗、分布式存储等技术存到数据库;接着对数据进行分析,运用机器学习等技术,进而得到新闻主主题;然后新闻进行聚合,获取到事件主题;最后根据事件主体对所有时间进行展示,实现了对于互联网新闻的采集与事件分析的全过程。该系统提高了获取互联网新闻的效率,并解决了数据杂乱和阅读效率低的问题。

关键词:大数据技术;数据采集;事件分析;新闻分析;系统设计

中图分类号:TP311   文献标识码:A  文章编号:1007-9416(2018)10-0000-00

1 前言

随着社会的快速发展,现代科技的进步,使得互联网以一种迅猛的速度快速增长,影响着人们的生活和工作方式。特别是近些年来,移动互联网、大数据、云计算等新興技术的出现和其迅猛的发展,使人们在网络空间的活动范围不断扩大,这也使得网络上的信息与日俱增。新闻报道一般具有多维的特征,但是一篇新闻可能仅仅包含其中一维或几维特征,通过一篇新闻往往不能够更加深入的了解某个事件。

在信息化技术高速发展的时代,网民人数不断增多,互联网信息呈指数增长,网络舆情的表达方式多种多样,新闻、微博、贴吧等是其中重要的信息传播渠道。例如,阅读移动新闻客户端推送新闻是网民获取第一手信息最为常见的方式,而微博和贴吧等平台则为网民提供了充分表达意见分享观点的平台。多个平台形成了一个相互关联的互联网信息网络。互联网信息传播中,同一事件在不同平台上有不同的表现形式,同一参与者在不同平台上也有不同的虚拟身份和行为特征。正因为如此,舆情信息可迅速跨平台传播,其传播机理更为复杂,人为分析很难获取到准确的信息,给相关企业、部门造成巨大的影响。

随着人们的物质需求的逐渐满足,人们逐渐将注意力转移到了效率上,但是由于互联网新闻的爆炸式增长以及组织方式杂乱无章,严重降低民众获取信息的效率。传统新闻事件的处理是由工作人员人工确定新闻的主题,并将相同主题的新闻关联在一起,供用户阅读,但是这样的处理方式效率较低,并占用了大量的人工成本。

2 平台简介

针对上述提到的一些问题,本文提出了基于大数据技术的新闻采集和时间分析系统。该平台基于大数据技术,能够满足民众对于获取新闻的有关需求,提高了用户获取信息的效率。平台具体包括采集数据、清洗数据、存储数据、分析数据和展示数据等功能。用户通过这个平台可以获取关于某个主题相关的信息或者获取事件相关的信息,免去了用户手动去辨别新闻的时间,在一定程度上增加了获取信息的效率该平台在一定程度上能够解决传统新闻行业中信息杂、效率低等缺点。

3 系统设计流程

该平台的整体分为三个部分,分别为数据获取、数据分析、数据展示。其中数据获取的详细过程为:首先使用Python的bs4和requests等库对当天的新闻进行获取,同时对获取到的数据进行处,去除无用的标签、图片新闻和视频新闻等,以获取正常的文本信息,方便后续的处理;数据分析的详细过程如下:在Hadoop平台使用Map和Redece程序将每条新闻进行分词处理,其中的分词工具为Python的jieba分词模块,在分词的过程中去除停用词和其他没有实际应用价值的副词等;然后分别计算每一个词的TF-IDF值,通过TF-IDF间的相互计算,得出每条新闻的关键词,然后通过训练好的LDA主题模型,对这个新闻的主题进行确定该条新闻的主题,这样就获得了每条新闻的一个在二维展开的向量;获得每条新闻的向量之后计算向量之间的距离,其中距离大于设定的阈值的,系统判定为话题相同。其中数据展示的详细过程为:用户在前端操作后,后台返回相应数据,由前端进行展示。新闻的采集和事件分析系统过程如图1所示。

前端的交互界面流程如图2所示。

4 平台的实现方案

4.1 数据采集

平台在每天凌晨自动运行数据爬取程序,将新闻的题目、正文、来源、发布时间和作者的等信息清洗出来,并将数据存储在数据库中。

4.2新闻来源统计

在前端,系统的默认展示界面是新闻来源统计界面。当该界面被打开的时候,前端向后端发送请求,后端获取到请求之后,从数据库中取全部的数据,获取它们的来源字段并统计,统计完成之后将数据打包成json格式并返回到前端,前端通过Echarts框架将数据解析,并生成美观的图表,用户就可以看到效果了。

4.3 智能搜索

在前端,系统的第二个界面是智能搜索界面。用户将想要搜索的新闻主题填入搜索框,用户点击按钮之后,前端将该新闻主题发送到后端,后端接收到数据之后,将数据通过提前训练好的模型进行计算,获取到与该主题词距离相近的若干新闻之间的距离,然后根据距离排序将数据打包成json格式并返回到前端。前端接收数据之后,根据距离的大小通过列表的形式将数据展示出来。

4.4 事件展示

在前端,系统的第三个界面是智能搜索界面。每次爬虫工作做完之后,系统将获取到的数据分别进行分词并导入模型进行计算,然后分别统计每两条新闻之间的距离,然后统计距离,将距离小于阈值的形成一簇,这个距离需要多次运算得出结果,这一簇就是一个新闻事件,在完成整个程序的运算之后,就得到了许多簇这样的数据,这样就得到了许多这样的事件。然后将这些事件与之对应的新闻建立索引。前端在获取到之前建立的索引之后,根据索引给出的事件和新闻将数据通过列表的形式展示出来。

4.5 新闻展示

在前端,系统的第四个界面是智能搜索界面。用户在进入这个界面之后前端向后端申请数据,后台接收到请求之后将数据库中的所有数据根据页数返回,前端接收到数据之后,将数据进行解析,通过列表的方式进行展示。

5 結语

本文通过对基于大数据的新闻采集和事件分析系统的研究,提出了一个方便、节约时间的新闻处理方案。相比传统的新闻处理方式,本文提出的基于大数据技术的新闻采集和事件分析系统的设计方式,能够很大程度上节约处理新闻的时间,在一定程度上能够节约用户获取信息的时间,增加用户获取信息的效率。采用机器学习与大数据的相关技术,能够保证信息处理的准确性。通过前后台分离、数据库与数据处理分离的方案,在一定程度上保证数据传输的稳定性与安全性。系统在实验环境下基本实现所示功能,可通过苹果电脑完成上述新闻采集与事件分析的基本过程,实现预期功能。

参考文献

[1]喻国明.大数据方法与新闻传播创新:从理论定义到操作路线[J].江淮论坛,2014,(04):5-7+2.

[2]张建林.智能新闻采集处理系统的设计与实现[D].山东大学,2017.

[3]王博,刘盛博,丁堃,刘则渊.基于LDA主题模型的专利内容分析方法[J].科研管理,2015,36(03):111-117.

Design and Implementation of News Acquisition and Event

Analysis System Based on Big Data Technology

MA Xu,WANG Shu-li

(Beijing Information Science And Technology University Computer School, Chaoyang District,Beijing 100101)

Absrtact: In order to solve the problems of slow search, miscellaneous data and low reading efficiency in obtaining Internet news, this paper proposes a news acquisition and event analysis system based on big data technology. The system first collects Internet news data and stores it in the database by using data cleaning and distributed storage technology; then it analyses the data and uses machine learning technology to get the main theme of news; then it aggregates the news to get the event theme; finally, it exhibits all the time according to the subject of the event. It implements the whole process of collecting and analyzing Internet news. The system improves the efficiency of obtaining Internet news, and solves the problems of data clutter and low reading efficiency.

Key words: big data technology; data acquisition; event analysis; news analysis; system design

猜你喜欢

数据采集大数据技术系统设计
基于开源系统的综合业务数据采集系统的开发研究