APP下载

基于支持向量机的网络热点话题预测

2017-08-08剧雷鸣杨俊成

微型电脑应用 2017年7期
关键词:习马热点话题向量

剧雷鸣, 杨俊成

(1. 南阳理工学院 软件学院, 南阳 473000; 2. 河南工业职业技术学院 电子信息工程系, 南阳 473000)



基于支持向量机的网络热点话题预测

剧雷鸣1, 杨俊成2

(1. 南阳理工学院 软件学院, 南阳 473000; 2. 河南工业职业技术学院 电子信息工程系, 南阳 473000)

热点话题是一种人们在网络上表达自己意见和看法方法的重要方式,针对网络热点话题的变化特点,为了解决当前网络热点话题预测模型存在预测精度低、预测结果不稳定的难题,设计了一种基于支持向量机的网络热点话题预测模型。收集网络热点话题数据,并对数据进行预处理,采用支持向量机建立网络热点话题预测模型,采用VC++ 6.0实现网络热点话题的仿真实验,改善了网络热点话题的预测效果,而且可以满足网络热点话题在线需求,具有一定的实际应用价值。

热点话题; 网络舆情; 支持向量机; 仿真测试

0 引言

近些年,随着Internet应用深入,上网的人数日益增加,Internet成为人们交流和沟通一个主要的场所。热点话题是指网民对某个问题发表自己的看法,由于网络的开放性,人们可以自由发表自己的想法,使得热点话题传播速度十分的快,而人们对热点话题的传播直接影响话题扩散的速度和影响范围[1]。如果一个负面热点话题在网络进行快速传播,那么会对国家、社会稳定发生干扰,严重时可能引起“事件”,因此对网络热点话题进行建模和预测,对热点话题进行正确的引导,具有十分现实的研究意义[2,3]。

网络热点话题预测问题引起了人们的广泛关注,它们对网络热点话题的发现、检测、预测等过程进行了广泛而深入的研究,取得取一系列的研究结果,出现了许多与网络热点话题有关的预测模型[4]。最初人们采用线性回模型对网络热点话题进行预测,其基于大量的历史样本数据对模型的参数进行拟合,并将网络热点话题的款来变化趋势进行预测[5],然而网络热点话题变化不太规则,不仅具有一定的规律性,同时具有一定的随机性,因此其网络热点话题预测结果极不稳定,导致网络热点话题预测结果可靠性低[6]。随后出现了基于采用时间分析的网络热点话题预测模型,主要有:指数平滑算法、移动平均滑动算法等[7,8],它们从网络热点话题数据中挖掘话题的变化趋势,从而实现将来网络热点话题变化态势的预测,它们只能对网络热点话题的周期性变化趋势性进行预测,也是属于线性建模方法,因此预测精度有时也比较低,具有十分明显的局限性[9]。随着现代统计理论的不断发展,出现了神经网络、支持向量机等网络热点话题预测模型,获得了比其它模型更高的网络热点话题预测精度[10]。然而在实际应用中,神经网络需要许多网络热点话题样本,而网络热点话题刚开始发现时,历史样本少,这样预测结果会出现过拟合;支持向量机没有神经网络“大样本”的条件限制,但是当样本规模比较大时,其学习速度比较慢,影响网络热点话题在线预测要求[11,12]。

为了提高网络热点话题预测精度,针对当前网络热点话题预测模型的局限性,提出了基于支持向量机的网络热点话题预测模型(PSO-SVM),对支持向量机参数选择问题进行解决,并通过仿真实验对其性进能进行验证性测试。

1 相关理论

1.1 支持向量机

对于训练集:T={(xi,yi),i=1,2,…n},xi∈Rm表示输入,yi表示输出,n是样本的数量,通过一定的训练过程建立函数f(x),使全部样本都符合yi=f(xi),当解的空间为D维时,那么线性回归函数为式(1)。

(1)

要对全部样本进行建模与预测,那么需要求满足如下约束条件为式(2)。

(2)

(3)

对min(||w||)直接进行求解十分困难,为此,引入Lagrange函数,即式(4)。

(4)

式中,ai≥0为Lagrange系数。

对式(4)进行求偏导数,可以得到其对偶问题为式(5)。

(5)

(6)

b*可以通过αi(yi(wTxi+b)-1)=0得到,那么支持向量机的最优决策函数为式(7)。

(7)

当预测问题为一个非线性问题时,引入非线性变换Φ变为线性问题,通常引入核函数实现非线性变换,其可以描述为式(8)。

K(xi,xj)=<Φ(xi)·Φ(xj)>

(8)

当前的核函数很多,本文选择径向基函数,其定义为式(9)。

(9)

当引入核函数后还是非线性问题时,引入松弛变量ξi,i=1,…,n,那么目标函数就变为式(10)。

(10)

式中,C为惩罚因子。

通过引入K(xi,xj)和ξi后,支持向量机能够根据对偶规划进行求解,具体如式(11)。

(11)

1.2 粒子群算法

(12)

(13)

2 PSO-SVM的网络热点话题预测模型

Step1:收集网络热点话题历史数据,并对数据进行归一化处理,具体为式(14)。

(14)

网络热点话题经过归一化后,值均处于[0, 1]的范围内,这样可以减少网络热点话题的值变化太大带来的负面影响。

Step3:将第一组参数用于支持向量机对网络热点话题进行学习,建立相应的网络热点话题预测模型,并计算它们的适应度值,具体为式(15)。

(15)

Step4:根据适应度值对粒子进行排序,并确定当前个体和群体的最佳位置分别为:[piC(0),piσ(0)]和[giC(0),giσ(0)]。

Step5:根据式(12)和(13)更新粒子的状态,得到下一代粒子群。

Step6:迭代次数增加。

Step7:如果不满足终止条件,就返回Step3,继续寻找最优的粒子群位置:

综合上述可知,本文模型的工作流程如图1所示。

图1 PSO-SVM的网络热点预测模型工作流程

3 网络热点话题预测的应用实例

3.1 “习马会”的数据

采用热点话题“习马会”作为应用对象,选择VC++6.0实现PSO-SVM,实验数据如图2所示。

图2 “习马会”话题的数据

选择最后50数据作为测试集,选择标准支持向量机(SVM)、RBF神经网络、线性回归以及指数平滑算法建立网络热点话题对模型。

3.2 结果与分析

采用PSO算法确定SVM的参数C=175.32和σ=20.59,从而建立相应的网络热点话题预测模型,50个测试样本的预测结果如图3所示。

图3 PSO-LSVM的“习马会”预测结果

从图3知,PSO-SVM可以描述“习马会”话题的变化趋势,预测结果可信度高。

所有模型的网络热点话题预测精度如表1所示。

表1 “习马会”话题的预测结果

从表1可知知道:

(1) 线性回归以及指数平滑算法的网络热点话题预测精度低,这表明预测值与实际值之间的误差较大,它们属于线性建模方法,无法全面、客观的反映网络热点话题的变化趋势,缺陷十分明显。

(2) RBF神经网络和支持向量机的网络热点话题预测精度要高于线性回归以及指数平滑算法,但是RBF神经网络的预测结果不稳定,而支持向量机的学习时间长,有一定的局限性。

(3) PSO-SVM的网络热点话题预测精度最高,而且网络热点话题的建模速度最快,网络热点话题预测结果具有十分明显的优势。

3.3 模型的通用性测试

为了分析PSO-SVM的网络热点话题预测模型的稳定性和可靠性,选择2016年的网络热点话题作为实验对象,测试其通用性,得到的网络热点话题预测精度如表2所示。

表2 网络热点话题预测模型的通用性测试

对表2的网络热点话题预测精度进行分析可以发现,PSO-SVM的网络热点话题预测精度均超过了90%,远远超过网络流量话题预测精度的实际要求85%,实验结果明,PSO-SVM可以应用于各种各样的网络热点话题预测中,具有较高的实际应用价值。

4 总结

热点话题研究是当前研究的重点,为了提高网络热点话题预测精度,提出基于支持向量机的网络热点话题预测模型。首先收集网络热点话题数据,并对数据进行预处理,然后采用支持向量机建立网络热点话题预测模型,最后采用VC++ 6.0实现网络热点话题的仿真实验,该模型改善了网络热点话题的预测效果,可以满足网络热点话题在线需求。

[1] Wu Peng, Li Si Kun. Social Network Analysis Layout Algorithm under Ontology Model[J]. Journal of Software, 2011, 6(7): 1321-1328.

[2] Liu Zhi Yuan, Cheng Xin Xiong. Mining the interests of Chinese microbloggers via keyword extraction [J]. Frontier of Computer Science in China, 2012, 6(2): 76-87.

[3] 姚清耘,刘功申,李翔.基于向量空间模型的文本聚类算法[J].计算机工程,2008,34(18),39-41.

[4] 周耀明,李弼程.一种自适应网络舆情演化建模方法[J]. 数据采集与处理,2013,28(1):69-75.

[5] 钱爱玲,瞿彬彬,卢炎生,等. 多时间序列关联规则分析的论坛舆情趋势预测[J]. 南京航空航天大学学报,2012,44(6):904-910.

[6] 刘金岭,王新功,周泓.基于手机短信信息流的热点事件识别[J].计算机应用与软件,2012,29(10):200 - 204.

[7] 陈挺,刘嘉勇,夏天,等. 基于平板型Web 论坛的信息抽取技术[J]. 成都信息工程学院学报, 2009, 24(1):22-26.

[8] 方薇,何留进,宋良图. 因特网上舆情传播的预测建模和仿真研究[J].计算机科学,2012,39(2):203-207.

[9] 鲁明羽,姚晓娜,魏善岭. 基于模糊聚类的网络热点话题检测[J]. 大连海事大学学报: 自然科学版, 2008 ,34(4):52-58.

[10] 张一文,齐佳音,方滨兴,等. 基于贝叶斯网络建模的非常规危机事件网络舆情预警研究[J]. 图书情报工作,2012,56(2):76-80.

[11] 刘勘,李晶,刘萍. 基于马尔可夫链的舆情热度趋势分析[J]. 计算机工程与应用, 2011, 47(36): 170-173.

[12] 王巍,杨武,齐海凤. 基于多中心模型的网络热点话题发现算法[J]. 南京理工大学学报(自然科学版), 2009, 33(4): 422-426.

Network Hot Topic Forecasting Based on Support Vector Machine

Ju Leiming, Yang Juncheng

(1. Shool of Software, Nanyang Institute of Technology, Nanyang 473000, China;2. Department of Computer Engineering, Henan Polytechnic Institute, Nanyang 473000, China)

Hot topic is a the important way for people to express their opinions and methods in the network. According to the characteristics of the hot topic of the network, in order to solve the current problems that hot topic of the network prediction models are low prediction accuracy, the prediction results are unstable, this paper designs a network hot topic prediction model based on support vector machine. First, the hot topic of the network data are collect and preprocessed, and then support vector machine is used to establish a network hot topic prediction model, finally using VC++ 6.0 to achieve the hot topic of the network simulation. The model improves the prediction effect of the hot topic of the network, and can meet the demand of network hot topic online, and also has certain practical application value.

Hot topic; Network public opinion; Support vector machine; Simulation test

南阳市科技攻关项目(KJGG51)

剧雷鸣(1982-),男,本科,助教,研究方向:软件工程。 杨俊成(1982-),男,硕士,讲师,研究方向:人工智能嵌入式系统。

1007-757X(2017)07-0030-03

TP391

A

2017.04.09)

猜你喜欢

习马热点话题向量
向量的分解
聚焦“向量与三角”创新题
2017年高考作文热点话题预测
浣溪沙·习马会
习马会
基于SVM的热点话题跟踪实现过程研究
向量垂直在解析几何中的应用
向量五种“变身” 玩转圆锥曲线
鹧鸪天·习马会
热点话题排行榜