APP下载

基于PCA-贝叶斯算法的网络舆情预测研究

2020-11-10王茜仪杜明坤孙逸飞

无线互联科技 2020年15期
关键词:贝叶斯舆情预测

王茜仪,杜明坤,孙逸飞

(江苏警官学院,江苏 南京 210031)

0 引言

网络舆情,有的专家认为是民众对管理者持有的政治态度,有的专家认为是民众对目前社会现象的看法和观点的总和[1]。做好舆情管控有利于提高民众的安全感和政府部门公信力[2]。随着网络的快速发展,网络舆情传播途径越来越多,各种舆情指标也层出不穷,指标越多越会影响人民对舆情的分析和判断。如今舆情管理已经成为社会秩序管理不可忽视的一部分[3]。

1 基于PCA贝叶斯的网络舆情研究

如今,随着手机用户,自媒体增多,网络直播、各大视频网站层出不穷,网络舆情的指标非常多,单一指标已经不能对舆没情进行判断,如果选取多个指标对舆情进行判断还要考虑指标的权重问题,网络舆情各指标之间有一定的关联,主成分分析指标之间关联性越大,效果越好。因此,用主成分分析方法(Principal Component Analysis,PCA)对网络舆情各指标进行降维,提取权重较高的指标,再用贝叶斯网络模型进行预测。

首先对已获取数据进行标准化处理。将数据N中心化,即使每个维度的数据数学期望为0,得到:

(1)

[coeff,score,latent,tsquare]=PCA(x)

(2)

COEFF是N矩阵所对应的协方差阵V的所有特征向量组成的矩阵,即变换矩阵或称投影矩阵,COEFF每列对应一个特征值的特征向量,列的排列顺序是按特征值的大小递减排序。具体过程如下:

(3)

由T的特征方程可以求得n个非0特征根λi(i∈[1,m]),将这些特征根从大到小排列得到:λ1≥λ2≥……≥λm>0。

(1)latent贡献率。

(2)score是对主分的打分,投影之后的数据,也就是说原X矩阵在主成分空间的表示。每一列表示一个主成分。

(3)latent'将列转置为行。

(4)y=(100*latent/sum(latent))'计算每个主成分贡献率(百分数化)。

(5)B=X*coeff(:,1:r)选择主成分对数据进行还原(经中心化处理,所以有负数)。

通过保留方差最大、包含原始数据最多的几个主成分来实现高精度降维来实现保留了原始数据绝大部分信息的同时精简数据集,本文选择累计贡献率>85%以上的r(r

λj对应的特征向量为Ej=(e1,e2,……,em),(j=1,2,……,r),以这些特征向量作列向量形成矩阵O=coeff(:,1:r)。

最终得到数据集B=O×X。最后用贝叶斯网络算法对其进行预测。

2 实验研究

2.1 网络舆情数据采集与标准化处理

每个事件网络舆情预测指标体系选取百度搜索指数、资讯指数、媒体指数、热门微博数及微博转发数、评论数、点赞数等7个指标,将获取的XX房事件、李XX事件、鲍XX事件等6件网络舆情事件的数据信息分为两部分,其中李XX事件作为预测数据,其余数据做网络舆情预测的样本数据。本文将李XX事件作为演示案例数据来源,通过爬虫对每项指标从2020年2月7日至2020年2月11日连续11天的信息采集。对已获取数据进行标准化处理,本文采用Min-max标准化方法,将原始数据通过相关公式映射在[0,1]区间内。(标准化公式:[本数据-极小值/极大值-极小值]),标准化处理后数据如表1所示。

表1 标准化数据

2.2 降维

以每个指标在不同时间片的数据作为主成分分析训练数据,这样每个事件共有77个数据。用hij表示第i个指标在第j天的数据,构建出一个H=(hij)7*11的矩阵,对该矩阵进行主成分分析,可以得到李XX事件主成分贡献率依次为为57.23%,21.75%,14.71%,4.94%,1.16%,0.11%,0.07%,故本实验选取达到85%贡献率的前3个主成分信息。通过信息计算得到:李XX事件前3个主成分分别能够表达原始数据集93.17%,6.261%,0.367%的数据信息,即前3个主成分λ1,λ2和λ3可以解释原始数据99.80%的信息量,因此,该数据集可以由8维降为3维。利用λ1,λ2和λ3的数据对网络舆情进行分析,能够达到精简数据集的目的。最终得到数据Z如表2所示。

表2 主成分数据

2.3 建立贝叶斯网络模型进行预测

2.3.1 确定网络结构

本文使用Genie2.3软件建立数据驱动的基于动态贝叶斯网络的网络舆情预测模型。采集数据指标共11天,所以网络结构中建立共11步时间片。节点pca1,pca2和pca3即主成分数据λ1,λ2和λ3,其中节点pca1,pca2和pca3是节点Risk的父节点,节点pca3是节点pca2的父节点,节点pca2是节点pca1的父节点,同时节点pca1、节点pca2、节点pca3以及节点Risk均是下一个时间片上本节点的父节点,父节点与子节点存在因果关系,需要进行参数学习来得到先验概率,构建贝叶斯网络模型。

2.3.2 确定节点概率

本文选用5名专家意见对本事件11天期间内的Risk节点进行打分,Risk1代表舆情热度降低,Risk2代表舆情热度波动较小,Risk3代表舆情热度升高。

2.3.3 数据离散化

由于主成分数据是连续值,而贝叶斯网络的结构学习算法和参数学习算法要求各变量的输入数据是离散值。因此,在结构学习和参数学习之前,需要预先对连续取值的数据进行离散化处理。

2.3.4 参数学习

建立动态贝叶斯网络模型并确定其结构后,需要进行动态贝叶斯网络参数学习,以获取网络中各节点随时间的先验概率分布。首先,建立一个数据量为1 000的随机数据集进行参数学习,对先验概率进行填充;然后,将XX房事件、鲍XX事件、XX连事件等5件舆情事件数据作为训练集,将训练集划分为不同的时间片;最后,通过EM参数学习算法进行参数学习。

2.3.5 进行预测

参数学习确定贝叶斯网络模型节点信息,将各节点的时序数据作为证据信息输入到模型中进行预测,预测该事件网络舆情风险状态随时间变化的概率。本实验将李XX事件作为预测数据,输入前5天的主成分数据基pca1,pca2和pca3,然后对网络中各节点随时间变化的后验概率进行更新。

在当前输入的证据信息下,得到突发事件网络舆情风险节点的随时间变化的概率预测结果。结果表明,在接下来的6天时间内,网络舆情风险更大可能处于较小状态(Risk1),极小概率会达到较大(Risk2)或者重大(Risk3)的状态。

根据预测结果绘制预测模型得到的舆情风险Risk1,Risk2和Risk3的概率值与舆情热度趋势实际值的对比图,单纯贝叶斯算法用Brisk表示,PCA-贝叶斯用ZRisk表示,预测结果对比如图1—3所示。

图1 Risk1预测结果对比

图2 Risk2预测结果对比

图3 Risk3预测结果对比

通过对比可得知,主成分分析贝叶斯算法要比单纯使用贝叶斯算法对舆情进行预测的准确性更高,预测结果更接近实际情况。且在主成分分析算法进行滤过之后,贝叶斯算法的工作量大幅度减小。在指标数量巨大的时候效果尤为明显。此方法可以为以后舆情方面的大数据工作提供帮助。目前,视频网站发展迅猛,尤其是短视频一直深受民众欢迎。视频中所表达出来关于民众的意愿与观点也尤为重要,希望该方法能够在视频舆情的研究中发挥作用。

猜你喜欢

贝叶斯舆情预测
无可预测
选修2-2期中考试预测卷(A卷)
选修2-2期中考试预测卷(B卷)
贝叶斯公式及其应用
舆情
舆情
基于贝叶斯估计的轨道占用识别方法
舆情
一种基于贝叶斯压缩感知的说话人识别方法
IIRCT下负二项分布参数多变点的贝叶斯估计