APP下载

基于SPARK ON YARN的网络舆情预警技术

2018-12-08印晓天

网络安全技术与应用 2018年12期
关键词:舆情分布式指标体系

◆印晓天



基于SPARK ON YARN的网络舆情预警技术

◆印晓天

(公安部第一研究所 北京 100048)

随着互联网的快速发展,近年来网络舆情热点事件频发,一些不良热点事件严重影响了网络社会治安,因而迫切要求网络监管者提高网络管理水平,然而传统的人工监控方式无法准确有效地发现潜在的危害事件并采取相关预警措施。因此,本文从传播媒体级别、地域空间分布、帖子数量、爆料者影响力、意见倾向状况、信息文本长度、事件内容这七个方面建立相应的指标项以及对应的预警分数,基于此预警指标体系,本文以spark on yarn为基础构建分布式预警框架,对海量的网络舆情数据进行深度分析挖掘,最后,本文以“六安教师讨薪”为例子进行说明,来分析预警效果。

指标体系;预警;分布式;网络舆情;SPARK ON YARN

0 前言

预警的本质是对某种结果的预测,并对应某种恶劣情况做出实施预案,以更好的进行防范。随着社交网络突飞猛进式的发展,一些社交平台应运而生,比如微博、微信、论坛等,人们利用这些网络平台来表达民意,诉说自己的情感,以及对某个热点进行评论,进而产生了大量的舆情信息。网络舆情预警是发现影响网络舆情产生、发展、消失的重要因素,并对其信息进行动态监测、测量和收集。根据预警系统的内容,采用预警分析技术对网络舆情进行评估,预测其发展变化情况,相关政府部门会根据预警情况作出正确的引导和措施,防止产生严重的社会影响力。

国外学者对于网络舆情预警的研究相比于我国更早也更为全面,现有的研究主要致力于技术领域的更新和有效支持。相关研究情况主要有:最早的一个舆论互动模型是由Katarzyna Sznajd Weron设计的“Sznajd模型”;随后帕维尔•索伯科维茨针对舆情跟踪、舆情监管进行研究,实现自动主题、情感和意见以及实时监测;卡洛琳•凯瑟在舆情预警系统中添加舆情关键词,进而来对舆情进行检测;戴维和斯科特对应对突发事件提出预案,针对不同的公共安全危机提供对应的对策。

目前,在我国市场上也出现了不少舆情监控以及预警系统,但是在预警准确率方面仍存在很大的优化空间,尤其是在预警指标体系方面,没有一个完善的指标体系分析方法,不能很好地建立舆情事件之间的关系以及挖掘期间的传播规律。因此,本文结合社会的不同方面,从不同的角度来建立舆情指标项,并按照舆情发展的全过程以及舆情的扩散度、聚集度等得到舆情参数值。基于此预警指标体系,本文以spark on yarn为基础构建分布式预警框架,对海量的网络舆情数据进行深度分析挖掘,进而对网络舆情进行预警。

1 相关工作

目前关于网络舆情预警的研究越来越引起广大研究人员的关注,一些研究人员也进行了专门研究,提出了不少具有权威性和共识性的观点:

在网络舆情预警模型方面,王卫华、石强强等人提出了基于BP神经网络的网络舆情预警模型研究[1][2]。Dianjie等提出了一种改进的Elman神经网络模型,为网络舆情预警机制的科学解决提供了新的方法[3]。Li, Zhaocui等研究了应急网络舆情传播与预警模型[4]。Wang, Gaofei等结合层次分析法和模糊综合分析方法,构建了基于AHP模糊综合分析的移动社交网络舆情预警模型[5]。Sun, Lingfang等建立了11个网络舆情危机二级指标的三级预警指标体系。然后,利用遗传算法对BP神经网络的初始权值和阈值进行优化,建立了一个网络舆情危机预警模型[6][7]。Zhang Y等在海量信息传递模型的基础上,运用扎根理论提取指标要素,运用模糊层次分析法确定指标要素,运用模糊推理算法和模糊综合评价方法对网络舆情的监测和早期预警进行评价[8]。Du Z等利用灰色预测和模式识别方法建立舆情预测预警模型[9]。Sun L提出了一种基于支持向量机算法的网络舆情预警模型[10]。Wang Q等基于层次分析法的网络舆情预警研究[11]。

在网络舆情预警体系方面,Fu, Yeqin等运用修正德尔菲法和层次分析法,设计了一个由三个层次指标组成的旅游危机事件网络舆情监测预警指标体系[12]。Tian, Yi Lin等在分析不同时期网络舆情特征的基础上,提出了构建网络舆情预警指标体系的三个关键要素[13]。Lin, Peiguang等实现了基于舆情特征分析的网络舆情预警指标体系研究[14]。Zhu, Chao Yang等提出了一种基于支持向量机的新颖网络舆论预警指标体系[15]。Zhikai等利用层次分析法(AHP)构建网络视角下的公众舆论司法风险预警评价指标体系[16]。Gao H等构建了政府重大项目舆情风险预警指标体系[17]。Liu M Y等通过对语义网络和高频词的分析,运用扎根理论,归纳出4个一级指标和14个二级指标,基于旅游网络舆情的视角,最终建立旅游网络舆情发布指标体系[18]。Song J等设计并实现了高校社会网络舆论的贝叶斯预警系统[19]。Li-Xia P U等构建了新疆网络舆情系统[20]。

2 网络预警指标体系

本文主要从覆盖传播媒体级别、地域空间分布、帖子数量、爆料者影响力、意见倾向状况、信息文本长度、事件内容这七个方面建立相应的指标项,并根据不同的指标值全面分析得到预警分数,监测到的舆情信息经分析后若发现超出预警指标阈值的情况,则进行预警评级。其中,网络舆情指标项如下表1所示:

表1 网络舆情指标项

其中,对于事件内容,本文分别从政治、司法、公共以及民生领域来描述对应的影响因素。

(1)政治领域

(2)司法领域

(3)公共领域

(4)民生领域

综上所述,根据网络舆情预警指标体系,得到舆情预警得分。

最后,本文将网络舆情的预警等级被划分为五个等级:分数为0-20为安全区,20-40为较安全区,40-60为较危险区,60-80为危险区,80-100为非常危险区,分别用绿、蓝、黄、橙、红表示对应的预警区域,具体如图1所示:

图1 网络舆情预警等级图

绿色区域表示社会发展呈稳定状态,社会风险极低,群体性事件发生的可能性极小;蓝色区域表示社会风险较低,群体性事件发生的可能性较小;黄色区域表示具有一定社会风险,存在群体性事件发生的隐患,有关部门应及时采取措施,对预警指标体系中超出预警阈值的指标进行重点排查,制定群体性事件应急预案;橙色区域表示社会处于危险状态,群体性事件发生的可能性很大,政府应采取有效行动,寻找警源,捕捉警兆,演练并完善应急预案;红色区域表示大规模的群体性事件已经或者必然出现,社会处于非常危险的状态,政府必须采取紧急处置措施,迅速控制态势,维护社会稳定。

3 分布式预警框架构建

分布式预警框架主要是采用在SPARK ON YARN的分布式集群部署方案,对于流式数据的处理,本文结合基于Spark Streaming的数据分析方法,可实现实时挖掘数据中有价值的信息。对于数据存储采用HDFS分布式存储方法,可存储海量数据。采用分布式计算框架的主要原因是该框架基于主/从结构,会将海量数据的操作划分为若干个小作业集,并将任务分配给集群中的各个节点,并行处理所有的子任务。基于分布式预警框架,本文结合网络舆情预警指标体系,对采集来的数据进行深度分析,从而达到预警效果。分布式预警框架图如下图2所示:

在分布式并行计算框架下,一些深度分析算法并不能很好地实现并行化处理,因此,本文还需要对算法进行处理与优化。其中,深度分析算法包括倾向性分析技术、话题发现与追踪技术、预处理技术、实体识别技术、敏感词智能推荐技术、文本特征提取技术等。文本预处理技术可采用基于MapReduce的文本处理方式,包括去网页标签、中文文本分词技术、分词结果去无用词等。对于TF-IDF计算,文本特征提取是可支持分布式并行计算的。对于分布式敏感词智能推荐的实现方法如下图3所示,主要是利用MapReduce计算词频。

图2 分布式预警框架图

图3 分布式敏感词智能推荐的实现方法图

话题检测与跟踪是网络舆情分析的重中之重,它是旨在发展一系列基于事件的信息组织的技术。在网络舆情事件中,并不是所有的舆情事件都具有一定危害性的,因此,如何从大量的话题中发现敏感话题,是值得我们研究的对象。本文采用基于敏感词查询来实现敏感话题的发现,首先根据当前社会形势建立敏感词库,根据分词后的话题对敏感词库中的敏感词进行检索,并统计出该话题中包含的敏感词的总频数,若敏感词词频数达到一定的阈值,则将该话题识别为敏感话题。算法实现过程:

(1)对于敏感关键词,主要是发现识别对社会安全事件具有相关意义和关联的领域词汇,此类词汇由专家提供。

(2)使用敏感关键词对文本数据进行初筛。

(3)敏感词词频统计。

(4)阈值比较,并确认敏感话题。

4 预警结果实例分析

通过网络舆情预警监控系统,实时对网络舆情数据进行检测,对不同的舆情热点进行检测与追踪。比如5月27日,安徽六安市部分学校教师因待遇发放问题,集体上街维权。随着我们系统对该事件的演化分析,由之前的“六安教师讨薪”事件不断演化为“教师是否遭受不公平待遇和警察是否存在粗暴执法”这一问题上,此时我们系统及时预警,随着时间变化指数快速上升。经过27、28日两天的发酵后,于5月29日即六安市政府回应之后达到峰值,此后有所回落,对应的预警分数变化图如图4所示。

图4 “六安教师讨薪”事件预警分数趋势图

5 结论

总之,基于SPARK ON YARN的网络舆情预警技术预计网络预警指标体系构建的网络舆情预警系统能够有效地协助政府相关部门进行网络预警监控,并及时发现情报线索,对即将要发生的危害社会安全秩序的时间及时预警,并采取相关措施,迅速控制态势,控制恶劣舆情事件的蔓延,从而构建和谐的网络社会环境。

[1]王卫华.基于BP神经网络的网络舆情预警模型研究[J].净月学刊,2017.

[2]石强强,杨红云,赵应丁,周琼,李新焕.基于BP神经网络的网络舆情预警监测研究[J].信息技术,2017.

[3]Dianjie, B. I., et al. "Early-warning of Network Public Opinion Model Based on Modified Elman Neural Network." Journal of Hebei Normal University of Science & Technology,2016.

[4]Li, Zhaocui, and S. X. University. "Research on Public Opinion Propagation and Early Warning Model of Emergency Network." Computer & Telecommunication,2016.

[5]Wang, Gaofei, M. Li, and M. School. "Research on the Early Warning Model of Mobile Social Network Public Opinion Based on AHP-fuzzy Comprehensive Analysis." Journal of Modern Information,2017.

[6]Sun, Lingfang, et al. "On Network Public Opinion Crisis Early Warning Based on the BP Neural Network and Genetic Algorithm." Journal of Intelligence,2014.

[7]Sun, Lingfang, et al. "The Concept of Network Public Opinion Crisis Analysis and Index Set." Journal of Modern Information,2014.

[8]Zhang Y, Li H, Peng L, et al. Research on Network Public Opinion Monitoring and Early Warning Evaluation Method Based on Intuitionistic Fuzzy Reasoning[J]. Journal of Intelligence, 2017.

[9]Du Z, Xie X, Amp J, et al. The Establishment of Public Opinion Forecasting and Early-warning Model with the Methods of Grey Forecasting and Pattern Recognition[J]. Library & Information Service, 2013.

[10]Sun L. Study of support vector machine based on network public opinion crisis warning[J]. Automation & Instrumentation, 2016.

[11]Wang Q, Xie S, Wang Y. Research on the Network Public Opinion Pre-warning Based on Analytic Hierarchy Process[M]. 2014.

[12]Fu, Yeqin, et al. "Research on the Monitoring and Early-warning Index Systems of Tourism Crisis Events' Network Public Opinions." Journal of Intelligence,2014.

[13]Tian, Yi Lin, and Y. Zhou. Network Public Opinion Information Monitoring Index System Model Research. Proceedings of 20th International Conference on Industrial Engineering and Engineering Management. Springer Berlin Heidelberg, 2013.

[14]Lin, Peiguang, et al. "Research on Network Public Opinion Warning Index System Based on Feature Analysis of the Public Opinion." Information Technology Journal 12.19(2013): 5326-5330.

[15]Zhu, Chao Yang, et al. "A Novel Early-warning Method for the Network Public Opinion of Power Grid Emergency." Electric Power,2014.

[16] Zhikai, Q. U., and Y. Lan. "Research on the Risk Early Warning of Public Confidence Force of Judicature from the Perspective of Network Public Opinion." China Public Security ,2015.

[17]Gao H, Ding R G. Research on Risk Early Warning Index System of Public Opinions on Major Government Projects[J]. Library Tribune, 2014.

[18]Liu M Y, Chen X X, Jian-Wei W U, et al. Research on Construction of Index System of Tourist Attraction Network Public Opinion——Based on Tourists' Reviews over 100 5A Scenic Spots on Mafengwo[J]. Resource Development & Market, 2017.

[19]Song J, Ke Y. A bayesian early warning system of public opinion in social networks in colleges and universities[J]. International Journal of Simulation -- Systems, Science & Techno, 2016.

[20] Li-Xia P U, Miao Z J, Pei H J, et al. View on Construction and Promotion of Xinjiang Early Warning System for the Netwrok Public Opinion[J]. Border Economy & Culture, 2014.

猜你喜欢

舆情分布式指标体系
分布式光伏热钱汹涌
分布式光伏:爆发还是徘徊
层次分析法在生态系统健康评价指标体系中的应用
供给侧改革指标体系初探
消费舆情
舆情
舆情
舆情
基于DDS的分布式三维协同仿真研究
西门子 分布式I/O Simatic ET 200AL