APP下载

基于改进K-MEANS算法的舆情热点自动发现

2014-04-02

中原工学院学报 2014年6期
关键词:质心热点舆情

(黎明职业大学, 福建 泉州 362000)

网页信息的快速增长和网络言论的迅速传播,给有关部门带来了巨大的舆论压力[1]。如何实现网页信息的自动采集,及时有效地发现网络舆情热点,已经成为舆情监控领域亟待解决的问题[2]。本文设计并实现了一个具有实用意义的网络舆情信息分析系统,将改进的K-MEANS算法应用于文本聚类来自动发现当前的热点主题,并对其进行实时跟踪,为有关部门提供技术支持。

1 系统总体结构及开发工具

系统主要功能包括:信息自动采集、信息处理、热点自动发现、舆情报告与追踪。系统架构如图1所示。系统通过采集模块抓取网页,存入数据库中;通过对网页词频统计、权值计算、向量空间模型转换、降维处理、中文分词等进行文本特征提取与选择;采用改进的 K-MEANS 算法实现舆情热点自动发现;在舆情报告与追踪模块中实现热点话题的事件追踪。系统采用 C#作为编程语言,采用 Microsoft Visual Studio2012作为开发工具。数据库采用SQLite。

图1 网络舆情信息分析系统架构

2 关键技术实现

2.1 信息自动采集

为了提高目标网站的覆盖率,提升爬虫的效率,自动采集任何主题的网页信息,该模块采用多线程的通用网络爬虫[3],并在爬行策略中采用广度优先搜索策略。考虑到广度优先容易导致系统陷入死循环,系统釆用设置有限采集次数或人工控制采集时间两种方法的深度抓取策略和直接比对URL方法的去重策略来辅助解决。采集后的网页采用基于行块分布函数的算法实现网页的正文抽取,并将数据存储在SQLite的数据库中[4]。信息自动采集过程页面截图如图2所示。

图2 信息自动采集过程

2.2 信息处理

信息处理模块首先对数据库文本进行分词。结合网络舆情特点,基于统计的分词更适合网络舆情信息分析系统的研究[5],采用中国科学院的分词系统(ICTCLAS)[6]对语料进行分词;采用向量空间模型(VSM)表示文本内容,用词频率指数——逆文本频率指数(TF-IDF) 对分词后的语料进行停用词的过滤和特征选择;得到的特征子集往往具有惊人的维数,故可采用主成分分析(PCA)方法进行降维处理来得到最佳特征子集。信息处理基本流程见图3。

图3 信息处理基本流程

2.3 热点自动发现

热点主题的自动发现是指利用计算机程序聚合大量新闻事件来形成少量话题。聚类算法可以挖掘海量信息中的关键词,形成热点主题[7]。传统的K-MEANS算法具有对文本输入顺序不敏感、对凸型聚类有较好结果、可在任意范围内进行聚类等优点[8],但却需要预先设定K值,以限定话题的个数。这在舆情热点自动发现功能实现中并不可行,所以系统采用改进的 K-MEANS 算法来实现舆情热点自动发现。舆情热点自动发现的基本流程见图4。

图4 舆情热点自动发现基本流程

利用改进K-MEANS 算法确定K值的具体步骤如下:①从N个文档中任意选择KC个对象作为初始聚类中心;②根据点到质心的距离,将点放到不同的组中;③保存质心;④确定新质心;⑤判断质心是否变化,即将当前质心与前两个质心preCenter、lastpreCenter进行比较,其中preCenter用来检测震荡;⑥如果质心稳定,计算本次聚类的满意度,即计算各簇内数据和方差的加权平均,值越低则满意度越高;否则继续步骤②;⑦KC++、KC是否超过给定的阈值,是,则算法终止,将聚类满意度最高对应的KC值作为最终K-MEANS算法的初始聚类中心个数K;否则,继续步骤②。

本文采用搜狗测试语料对改进K-MEANS算法与传统K-MEANS算法进行实验比较,实验结果见表1。结果表明,改进K-MEANS聚类算法对热点主题提取优于传统K-MEANS算法。

表1 改进K-MEANS算法与传统K-MEANS算法的实验比较 %

2.4 舆情报告与追踪

舆情报告与追踪模块作为系统的输出层,提供清晰、准确的舆情信息分析结果,为有关部门提供辅助决策的技术支持(见图5、图6、图7)。

图5 舆情热点自动发现图

图6 舆情热点事件列表

图7 URL跟踪及热点事件详情

3 结 语

本文设计的网络舆情信息分析系统由信息自动采集、信息处理、热点自动发现、舆情报告与追踪组成。针对传统K-MEANS算法不能直接应用于网络舆情热点自动发现这一问题,提出了改进K-MEANS的算法。该算法的主要思想为:引入聚类满意度,即计算各簇内数据和方差的加权平均,聚类满意度最高对应的KC值为最终K-MEANS算法的初始聚类中心K值。据此对采集的网络新闻文本进行聚类,从而得到舆情热点列表。通过对改进K-MEANS算法与传统K-MEANS算法进行实验比较,发现用改进K-MEANS聚类算法对热点主题提取优于传统K-MEANS算法。

参考文献:

[1] 叶昭晖,曾琼,李强.基于搜索引擎的网络舆情监控系统设计与实现[J].广西大学学报(自然科学版),2011,36(1):302-307,334.

[2] 张玉珠.基于 K-means 聚类的网络舆情监控系统[J].通信技术,2013,46(1):57-59.

[3] 徐明子,吕立,李喜旺.改进空间向量模型主题网络爬虫系统[J].计算机系统应用,2013, 22(7):36-39,52.

[4] 李业成.网络论坛舆情监控系统的研究及设计[D].广州:华南理工大学,2011.

[5] 罗晖霞.网络舆情监测系统研究与开发[D].太原:中北大学,2010.

[6] 郑魁.网络舆情热点信息自动发现方法[J].计算机工程,2010,36(3):4-6.

[7] 王小华,徐宁,谌志群.基于共词分析的文本主题词聚类与主题发现[J].情报科学,2011,29(11):1621-1624.

[8] 王洁.基于确定话题的网络舆情分析系统的设计与构建[D].南京:南京邮电大学,2013.

猜你喜欢

质心热点舆情
重型半挂汽车质量与质心位置估计
热点
基于GNSS测量的天宫二号质心确定
热点
基于轨迹的平面气浮台质心实时标定方法
结合热点做演讲
数字舆情
数字舆情
消费舆情
一种海洋测高卫星质心在轨估计算法