APP下载

基于机器学习的网情监测及预警系统

2018-02-28吴新勇邱吉刚李汶隆

电子技术与软件工程 2018年13期

吴新勇 邱吉刚 李汶隆

摘要 为解决互联网舆情转播速度快、分布广、不易监测及预警的问题,本文提出了一种基于机器学习的网情监测及预警系统,通过采用自动采集、自然语言处理、数据挖掘等关键技术,实现海量网络舆情的实时监测、态势感知、专题分析等特殊功能,提供自动预警和辅助决策等智能服务。文章首先对网络舆情的现状及行业痛点进行分析;然后逐一介绍了系统的整体架构以及数据采集、挖掘分析及应用服务等核心子系统;最后介绍了该系统在不同领域的应用效果。

【关键词】网情监测 自动采集 自然语言处理机器学习 态势感知

1 引言

随着移动互联网的普及,网民的数量日益庞大,网民发表的信息没有门槛,且传播便捷,其形成的舆论力量正深刻改变着中国的思想形态和社会面貌。一些负面网络信息一旦被网评关注后,呈现围观者众多、转载传播速度极快的特点,由此引发的群体性事件、企业声誉受损等案例层出不穷,网情监测与预警系统已经成为政府及相关行业必备的信息化工具。

国内外已有网情监控系统以监测分析为主,缺乏不同舆情之间的关联、纵向和演化分析,缺乏线上数据与线下数据的整合研究,缺乏社会舆情事件的溯源、风险评估、预警等方面的系统化研究,很难满足行业客户实战型应用需要。

为此,本文介绍了一种基于机器学习的网情监测及预警系统,采用基于机器学习的自适应数据采集、语义分析、情感分析、溯源等技术,实现互联网舆情定点采集与离线/实时分析,对网络媒体中反映的热点、焦点信息进行自动分类与聚类,并通过直观、可视化的界面对网络舆情进行展示,提供及时有效的管理和决策支持手段。

2 系统架构

系统由基础设施层、数据采集层、数据存储层、数据分析层、应用服务层及

安全与运维保障体系组成,如图1所示。

其中,基础设施层是平台运行的基础物理设施,包括网络设备、安全设备、存储设备、服务器和容灾备份等相关设备。

数据采集层采用定向采集、全向采集等技术实现对互联网不同媒体类型、不同网页风格和实现技术网站的按需式、定向式、精确化数据采集。

数据存储层采用分布式非关系型/关系型数据库、分布式缓存、分布式搜索引擎等技术以满足平台对海量非结构化、结构化数据的高效快速存取。

数据分析层实现对原始采集数据的处理分析,挖掘“舆情价值信息”,为应用服务层提供基础服务数据。

应用服务层面向各类用户,提供平台业务功能,提供统- Web服务接口,支持用户并发访问。

3 核心系统设计与实现

整个系统由自动舆情采集子系统、智能舆情分析子系统和舆情服务子系统组成。

3.1 自动舆情采集子系统

自动舆情数据采集子系统采用分布式框架,能够快速自定义采集数据需要的各个模块,依据舆情来源的方式采取主动方式和被动方式进行数据爬取,主要由分布式采集器、日志管理和异常数据预警等核心模块组成。其中采集器负责对互联网数据进行下载和存储;日志管理负责存储和展示采集系统各个阶段的日志信恳异常数据预警用于监测采集数据是否正常,數据是否完整可靠,出现异常能够迅速进行排查和修复。

3.2 智能舆情分析子系统

智能舆情分析子系统以Spring boot作为核心框架,采用NLP自然语言处理包实现基础的词法分析、句法分析、语义理解处理流程,结合舆情平台配置将数据处理后写入数据库。

用户通过浏览器访问实时舆情服务系统,可做相关配置。用户设置的正/负面词和预警词可通过接口通知给智能舆情分析系统,智能舆情分析系统分析Redis中的数据存入到MySQL中,数据再通过搜索优化引擎ElasticSearch提供给用户所需的功能。

3.3 舆情服务子系统

实时网络舆情服务系统主要由综合展示模块、舆情服务模块和运维管理模块三部分组成。其中,展示模块采用Bootstrap、HTML5、CSS. JavaScript、JQuery. ECharts和AJAX等技术实现了动态舆情展示Web页面。

综合舆情服务模块通过大屏界面为用户呈现地域舆情动态、舆情预警动态、网络舆情热词、负面舆情、情感趋势等舆情信息的图文情况,让用户对当前的舆情态势有直观的了解。

运维管理模块实现主题管理、预警管理、网站管理、舆情管理、用户管理和日志管理等功能。

3.4 基于机器学习的分析处理技术

系统采用业界典型的机器学习模型,重点对主题分析、舆情溯源、情感分析等关键技术进行研发和优化。

3.4.1 基于LDA的主题分析

为克服了传统信息检索中文档相似度计算难以及LSA的过度拟合的缺点,系统采用LDA模型,基于贝叶斯概率的非监督机器学习方法,进行主题关键词预处理,自动地从多个文本中抽取隐含的语义主题。系统首先对原始网页文本进行分词、去噪、去除停用词等预处理,放入原始语料库中;然后,统计原始语料库中的关键词项,利用LDA生成模型计算“文档.主题”分布和“主题.关键词”分布;最终从“主题.关键词”分布中提取部分关键词生成主题集,并从“文档.主题”分布中提取部分主题生成网页主题列表。

3.4.2 基于多维分析的舆情溯源

系统主要从属性维度、结构维度、行为维度分析找出舆情的源头及散布途径.降低了计算复杂度,提高了溯源准确度。属性维度计算主要围绕时间和作者进行分析计算;结构维度主要围绕内容相似度做分析;行为维度主要围绕文章是直接转发行还是隐含式转发进行分析。

3.4.3 基于朴素贝叶斯训练器的情感分析

为实现舆情情感分析,首先需要导入情感分析训练语料(分为正面和负面),然后利用情感分析工具创建朴素贝叶斯训练器进行训练,再用训练好的模型对输入的文章进行分类,得到正面或者负面的结果。

4 系统应用实践

本系统已经成功部署应用于公安、政务、教育等行业。在公共安全领域,系统通过爬取微博、微信等社交媒体数据,分析挖掘网情数据的情报价值,为重点人员管控,警情预警预防、网上最陶、案件侦破等提供研判依据,有效提升公安机关反恐防暴、治安防控、侦查破案的能力。在政务领域,系统通过对各部门政务信息发布、解读、回应、实施、反馈的全流程监测,通过网情分析获取施政情况反馈及处置建议,帮助政府部门提升治理能力及服务能力。

5 结语

本文介绍了一种基于机器学习的网情监测及预警系统,通过采用自适应采集、自然语言处理等关键技术,实现了对海量网络舆情的实时监测、关联分析、溯源、风险评估、预警等功能,可广泛应用于互联网数据的实时采集、分析研判、预警处理等应用场景。

参考文献

[1]陈必坤,王日芬等,大数据时代社会舆情分析与决策支持研究的现状及其发展趋势[J].情报科学,2016.

[2]李广建,杨林.大数据视角下的情报研究与情报研究技术[J],图书与情报,2012.

[3]Blei D M.Probabilistic TopicModels[I].Communications of theACM.2002.

[4]石晶,李万龙.基于LDA模型的话题词抽取方法[J].计算机工程,2010.

[5]柯赞,基于动态贝叶斯网络的舆情预测模型研究[J].统计与决策,2016.

[6]周杰,林琛等.基于机器学习的网络新闻评论情感分类研究[J].计算机应用,2010.