APP下载

大数据环境下微博舆情预测模型方法研究

2017-08-02刘冰月夏一雪李增高扬屈健

科技创新导报 2017年9期
关键词:仿真大数据预测

刘冰月++夏一雪++李增++高扬++屈健++王俊迪

摘 要:该文通过定性分析大数据环境下微博舆情热度分析,构建微博舆情传播的logistic模型,根据差分回归法构建微博舆情热度预测模型,并根据3种差分格式针对“雾霾”微博輿情开展实证研究,以期为微博舆情传播理论提供模型参考。

关键词:大数据 微博舆情 logistic 预测 仿真

中图分类号:C912.6 文献标识码:A 文章编号:1674-098X(2017)03(c)-0149-03

1 现状分析

据中国互联网络信息中心(CNNIC)第39次《中国互联网络发展状况统计报告》,截至2016年12月,我国网民规模达7.31亿,互联网普及率为53.2%。其中社交应用是我国网民个人互联网应用的主要类型,微博作为主流的网络社交媒体,得益于名人明星、网红及媒体内容生态的建立与不断强化,以及在短视频和移动直播上的深入布局,不仅用户使用率高,并且由于其“井喷”式外向型传播的信息传播模式,是目前网络舆情首发和扩散的主要载体,相应的,微博舆情热度成为网络舆情监测和治理的重要指标。

目前,学术界针对微博舆情热度的研究主要集中于两个方面。一是微博舆情热度评价体系研究,主要以用户数最多、首曝网络舆情事件最频繁的新浪微博为研究对象,从网络舆情主体、客体、传播、受众等维度,构建评价体系,进行微博舆情热度监测和预警,为网络舆情分析、引导和管理研究提供理论依据[1-2]。二是微博舆情热度趋势研究,主要是基于马尔科夫链等通过构建热度趋势模型,通过采集舆情指标数据得到热度的时间序列值、划分舆情热度趋势的状态空间、构建状态转移矩阵、预测热度的趋势变化区间等研究步骤,进行预测微博舆情走势等研究[3,4]。但是,已有研究在定量研究方法上相对单一,采用更具适合度的研究方法来优化修正评价体系和预测模型,是该领域未来研究的重点。

2 大数据背景下微博舆情热度分析

2.1 微博舆情舆情趋势

通过新浪微博数据中心的微指数功能统计近6个月(2016年8月3日至2017年2月3日)的热词“朴槿惠”涉及的新浪微博数据(按天进行统计),详细数据见图1(数据网址:http://data.weibo.com/index/hotword?wid=1091324457063&wname=朴槿惠)。

通过图1不难发现,微博舆情传播可以定性地分为潜伏期、扩散期、消退期。舆情潜伏期,微博发文量少,且信息量增长缓慢;舆情扩散期,微博发文量短时间快速增长,且呈现出强烈的震荡趋势;舆情消退期,微博发表量迅速降低,舆情热度趋于平缓。

2.2 微博舆情热度分析

通过定性观察图1容易发现,这一点和生态学中生物生长有相似之处,所以舆情的传播和生物的生长过程具有相似机理。目前,大部分微博数据都是按小时、天等统计的,它们只能描述微博舆情发生的频率而不是变化规律,需要对微博舆情统计数据进行累加才能作为微博舆情建模变量使用。所以,累加后的微博数据曲线呈“S”形增长趋势。基于此,文章选取生长曲线中的logistic模型来研究微博舆情热度,进而研究预测模型。

3 大数据背景下微博舆情热度预测模型

3.1 基本模型与假设

假设为微博舆情传播规律的函数,初值为且≤K,因微博发文量受空间、网民情绪等影响,故有上限。假设时间内,微博发文量增量,则增长率为。随着的增加,微博发文量趋于“饱和”状态,则增长率与“剩余空间”成正比。

其中为内禀增长率(定值)。当时,微博舆情传播模型为:

求解微分方程得:

3.2 微博舆情热度预测模型

袁志发、孙耀东、殷祚云、朱珉仁、代涛、魏冠军等人在文献[5-10]中先后研究了logistic模型确定参数的方法。文章先将logistic微分方程按照3种差分格式变成其对应差分方程,再通过二元线性回归分析确定参数和。

Logistic模型:

对应的差分方程为:

其中。不难看出,是关于和的二元线性关系。应用Excel或者Matlab进行回归分析,即可得出回归系数和,从而得到参数K和。但是差分分为向前差分、向后差分、中心差分3种。所以,基于logistic模型的微博舆情热度预测模型可以分为3种情况。

(1)向后差分情况。向后差分的格式为,其中。

(2)向前差分情况。向前差分的格式为

,其中。

(3)中心差分情况中心差分的格式为

,其中。

(4)3种情况的对比分析。

通过3种差分的公式不难发现,向前差分和中心差分只能预测期,而向后差分能够预测期。所以在微博舆情高潮来临前比较适合使用向后差分预测舆情趋势,而经过高潮值之后,应该综合使用3种差分格式。

4 实证分析

4.1 数据来源

通过新浪微博数据中心的微指数功能统计2个星期(2016年12月31日至2017年1月13日)的热词“雾霾”涉及的新浪微博数据(按天进行统计),详细数据见图2(数据网址:http://data.weibo.com/index/hotword?wid=293178324457063&wname=雾霾)。

4.2 微博舆情静态预测

分别应用向前差分、向后差分、中心差分替代统计数据,应用logistic模型开展差分回归预测,得到3种差分对应的预测模型为:

向后差分情况:

向前差分情况:

中心差分情况:

预测精度(可决系数)分别为0.9742、0.9152、0.9695,预测曲线和原始数据曲线对比见图3。容易看出,向前差分更接近于原始曲线,中心差分预测曲线介于向后差分和向前差分之间。

4.3 微博舆情动态预测

在已知前4天的数据基础上,以此加入新数据,推断微博舆情传播曲线。

(1)向后差分情况(见图4)。

(2)向前差分情况(见图5)。

(3)中心差分情况(见图6)。

通过上述3种差分情况分析,可以看出向后差分和向前差分预测相对滞后,且吻合度较差,而中心差分则能够以较高吻合度进行动态预测,是微博舆情发展趋势预测中更具适用性的预测模型,能够较好地实现微博舆情热度预测的研究目标。

5 结语

随着大数据时代的到来,网络舆情在数据体量、复杂性和产生速度等方面发生巨大变化。网络舆论引导方法已超出了现常用的框架。习近平总书记在全国宣传思想工作会议上提出,宣传思想工作创新,重点要抓好理念创新、手段创新。网络舆情是网络舆论引导工作的基础和晴雨表,以大数据观念变革传统网络舆论引导思维,准确把握网络舆情的内在特征及其在演化过程中的潜在规律,对于新形势下做好网络舆论引导工作,维护网络社会安全,具有重要的理论意义和实践价值。

文章基于logistic模型,研究了3种差分格式的微博舆情预测模型,并通过具体的微博舆情案例开展了实证研究,但仍有很多问题需要深入研究。例如,人民网针对舆情预警提出“黄金4小时”的概念,所以开展舆情预测的原始数据需要按小时进行统计和建模,才能提前感知风险,做到主动预测预警预防。

参考文献

[1] 王长宁,陈维勤,许浩.对微博舆情热度监测及预警的指标体系的研究[J].计算机与现代化,2013(1):126-129.

[2] 孙飞显,程世辉,靳晓婷,等.政府负面网络舆情热度定量评价方法——以新浪微博为例[J].情报杂志,2015(8):137-141.

[3] 王新猛.基于马尔可夫链的政府负面网络舆情热度趋势分析——以新浪微博为例[J].情报杂志,2015(7):161-164.

[4] 徐旖旎.基于微博的媒体奇观网络舆情热度趋势分析[J].情报科学,2017(2):92-97.

[5] 袁志發,刘光祖,肖俊璋.0.618法在两种常用生长曲线拟合中的应用[J].西北农学院学报,1984(3):59-63.

[6] 孙耀东,王太源,陶俊.S型曲线的扫描回归方法[J].扬州大学学报:自然科学版,1999(8):10-12.

[7] 殷祚云.Logistic曲线拟合方法研究[J].数理统计与管理,2002(1):41-46.

[8] 朱珉仁.Gompertz模型和Logistic模型的拟合[J].数学的实践与认识,2002(9):705-709.

[9] 代涛,徐学军,黄显峰.离散Logistic人口增长预测模型研究[J].三峡大学学报:自然科学版,2010(10):102-105.

[10] 魏冠军,党亚民.基于Bayes理论的Logistic增长曲线模型参数估计方法研究[J].工程勘察,2012(5):64-67.

猜你喜欢

仿真大数据预测
无可预测
选修2-2期中考试预测卷(A卷)
选修2-2期中考试预测卷(B卷)