基于改进GM（1，n）的动态网络舆情预警模型

2023-02-03姜国庆郭杭鑫

计算机应用 2023年1期

谢康，姜国庆，郭杭鑫，刘峥

（1.公安部第三研究所网络安全技术研发中心，上海 200031；2.上海工程技术大学管理学院，上海 201620）

0 引言

舆情产生后在网络中容易被不断发酵，原始舆情在多方面因素综合影响下随之异化，形成多个不切实际的网络谣言。同时在信息传播的过程中，随着谣言不断产生和扩散，网络舆情呈现出信息异化的典型特征。由于社交平台实名制程度不高、网民综合素质不高等客观原因的存在，如果监管部门不采取措施对舆情进行及时干预，舆情的自由传播会导致诸如网络集群行为的发生，易产生负面的社会影响，威胁公共安全。因此，对舆情进行监控并建立谣言预警机制是政府监管部门进行立体化防控、维护社会稳定以及增强政府公信力的关键。

目前已有许多学者对网络舆情的预警机制进行了定量研究。吴锋［1］以高校突发事件网络舆情为研究对象，构建了高校公共安全评估系统，运用层次分析法对指标检测值进行处理确定舆情发展等级。马永军等［2］提出正则化长短时记忆（Regularization Long Short-Term Memory，Re-LSTM）网络模型对食品安全网络舆情预警机制进行了研究。周琦萍等［3］以传染病模型SIS（Susceptible-Infectious-Susceptible）为基础，考虑网络舆情扩散系数及遗忘率，提出了一种网络舆情无监督预警策略。孙玲芳等［4］运用遗传算法（Genetic Algorithm，GA）对BP（Back Propagation）神经网络的初始权值和阈值进行优化，构建了基于BP 神经网络的遗传算法的舆情发展预测模型。闫婷瑞等［5］将神经网络与实践序列模型结合，提出一种自回归-径向基函数模型（AutoregRessive model-Radial Basis Function，AR-RBF）对舆情发展趋势进行了预测。杨文阳［6］通过信息源理论与信息传播理论的有机结合，提出一种GA 与贪心算法结合的改进算法，研究了网络舆情信息源优化问题。于营等［7］针对复杂的网络舆情数据，提出一种改进的经验模态分解-自回归极端梯度提升模型（Empirical Mode Decomposition-AutoRegressive model-XGBoost，EMD.ARXG）对舆情发展进行了预测，并与经验模态分解-反向传播神经网络（Empirical Mode Decomposition-Back Propagation Neural Network，EMD-BPNN）模型进行了对比。莫赞等［8］针对传统单一模型预测能力有限的问题，提出一种基于经验模态分解-自回归组合模型用于网络舆情的预测。李启月等［9］针对网络舆情预警等级难以界定问题，基于系统安全降维理论将高维预警指标及其影响因素转化为低维指标，有效降低了预警难度。章留斌等［10］在现有研究基础上，从社会学角度入手，基于社会安全阀理论结合灰色预测模型对微博某政务事件进行了网络预警模型研究。刘巧玲等［11］对传统传染病传播模型SIR（Susceptible-Infective-Recovered）进行改进，运用爬虫技术爬取新浪微博平台热点话题内容的相关数据并进行了参数反演，以此来预测网络舆情的发展趋势。

综上所述，目前很多学者运用不同的方法对舆情预警机制进行了研究，但大多数研究方法仅仅对舆情热点事件的数据进行了简单的静态预测，此外在舆情发展预测指标构建上仅简单地考虑了一些影响社会关注度的因素。事实上，区别于其他领域的趋势预测，舆情预测具有一定的特殊性：一是舆情数据受众多因素影响。在实际生活中，只有当社会公众激进情绪达到一定程度才需要“预警”从而引起高度关注，因此仅考虑社会关注度无法真实反映舆情发展真实特点，故无法全面预测舆情发展趋势。二是舆情数据具有高实时性和动态性，静态模型使相关因素的自身规律无法表达，故许多方法在处理舆情数据时存在一定局限性。

基于当前研究的不足，本文的主要工作包括：1）以指标能反映舆情发展特点为原则，构建包含社会关注度和公众对待舆情的态度两个维度的指标体系；2）运用多因素GM（1，n）灰色预测模型对舆情发展趋势进行初步预测，并运用残差修正原理对预测结果进行一次修正；3）结合马尔可夫理论，对结果进行了二次修正，然后结合新陈代谢理论，固定预测序列长度不变，进一步提升模型预测精度；4）以“新疆棉”“成都四十九中”两个事件为例，验证了新陈代谢马尔可夫GM（1，n）模型对舆情预测具有良好的实用价值。

1 舆情发展预测指标体系构建

网络舆情发展趋势的预测受到多方面因素的影响，例如微博博主的影响力、微博内容的呈现方式等，因此构建合理的衡量舆情发展的指标体系是研究舆情预警机制的关键。杨小溪等［12］基于信息生态理论，构建了包括信息生态位宽度、信息繁衍状态以及信息间竞争与合作关系的舆情事件预警综合评价指标。张鹏等［13］构建了包括网络谣言状态、网络舆情热度和网络谣言趋势的舆情发展评价指标体系，尽管进行了定量研究，但网络谣言发展的衡量标准靠人为打分赋值，存在较强的主观性；同时，当相关影响因素较多时，容易导致预测结果的偏差。

考虑信息演化的特点，舆情发展程度可以运用社会关注度和公众对待舆情的态度两个方面来衡量［14］。社会关注度是指，原始舆情产生后，公众通过搜索、浏览、评论、转发、点赞等行为表达自己对事件的观点，反映了公众对该事件的关注程度。舆情态度是社会公众对待舆情信息的主观反映，体现了社会公众对舆情持续发展所表现的敏感度，决定了舆情发展的趋势，是预测舆情发展趋势的关键因素。因此，综合考虑影响舆情发展预测的重要因素和因素数量对预测精度的影响，本文选取社会关注度和公众舆情态度作为预测舆情发展的指标，其中社会关注度包含百度搜索指数、原创博文数量、博文评论量、博文转发量和博文点赞数等5 个二级指标。公众舆情态度包含百度搜索指数变化率和原创信息变化率等2 个二级指标，指标体系构建如图1 所示。

2 预测模型的构建及改进

2.1 多因素GM（1，n）灰色预测模型

灰色系统是指部分信息已知、部分信息未知的“小样本”以及“贫信息”不确定系统，是用来解决信息不完备系统的数学方法［15］。灰色预测模型通过弱化原始数据的随机性，使其转化为有规律的新数列，通过求解一阶线性微分方程，经一次累减序列进行还原可得到预测值。多因素GM（1，n）灰色预测模型构建过程如下：

2.2 马尔可夫GM（1，n）灰色预测模型

GM（1，n）模型通过将原始序列累加从而生成较规律的新序列，挖掘数据变化的潜在规律，从而对数据变化趋势进行预测，但多因素GM（1，n）灰色预测模型通常用于预测数据量小、数据波动不大的数据。由于舆情数据波动性较大，易导致模型预测精度不高［16］。

马尔可夫模型将随机序列视为一个系统，该系统在某时刻对应的状态仅取决于该系统上一时刻对应的状态，通过不同状态间转移概率的概率预测系统发展的趋势，对预测波动性较大的数据具有良好的实用性［17］。具体地，马尔可夫GM（1，n）灰色预测模型的构建过程如下：

1）状态区间划分。根据多因素GM（1，n）灰色预测模型预测的相对误差做散点图，散点图内每个区间对应一种状态，记作状态Ei。

2）转移概率计算。记状态Ei转移到状态Ej转移所需次数为nij，区间数量为Ni，则转移概率可以表示为：

3）预测值计算。假设某一时刻处于Ei状态，若概率矩阵中第k行满足maxPij=Pkl，则下一时刻有很大可能从状态Ei转换到状态Ej，此时预测区间为[E1i，E2i]，取其中间值作为下时刻的预测值，即：

4）误差计算。得到预测值后，计算相对误差。

2.3 新陈代谢马尔可夫GM（1，n）灰色预测模型

尽管理论上灰色预测模型可预测数据的数量是无限的，但随着预测地不断进行，随着预测数据增多，数据序列中“非真实值”数据的比例也逐渐增大，从而影响模型预测的数据精度。从数据序列维度角度看，随着数据序列维度逐渐增大，预测系统被随机性因素干扰，导致预测精度降低［18］。

同时，新信息优先理论认为，新信息对事件的认知能力要高于旧信息，故在预测模型中提高新信息的权重有利于模型预测精度的提升。综合考虑数据长度和数据维度两方面对模型预测精度的影响，本文将新陈代谢理论与灰色预测模型相结合，在原始序列中取出固定的一部分数据作为预测的训练样本，当模型完成阶段性预测工作产生一个新数据时，便会自动去除序列中最旧的一个数据，从而维持固定长度的数据列，建立新的多因素GM（1，n）灰色预测模型。具体地，新陈代谢理论用数学模型可以表示为：

3 基于灰色预测的网络舆情预测

3.1 数据来源

微博平台具有即时、开放、互动的特点，网友可以随时在微博平台上浏览或参与热点话题的讨论。从微博发布的2020 年用户发展报告可知，截至2020 年9 月，微博平台月活用户达5.11 亿，日活用户达2.24 亿，因其更广的社交圈子，微博平台的消息也传播得更快，同时微博的“热搜”板块聚集了每个时刻最受微博网友关注的话题，促使热点话题更容易曝光于其他尚未对该事件形成初步认识的网友，微博逐渐成为各类信息的第一产地，因此微博舆情管控具有十分重要的现实意义。本文以“新疆棉”事件作为本次研究的数据源进行数据获取，通过对数据的分析，对微博网络舆情的预警机制研究。

“新疆棉”事件自爆发到逐渐平息时间段内的百度搜索指数如图2 所示，由图可知该事件搜索热度大致呈现“倒U”形，3 月25 日搜索量达到峰值90 370。

患者常规禁食8 h，禁饮4 h，所有患者均于术前进行血常规及凝血功能检查、血生化检查包括血离子浓度和空腹血糖测定、肝、肾功能检查、心电图检查。入手术室后开放静脉通路，输注复方氯化钠液 8～10 mL/（kg·h）,常规监测血压（BP），心率（HR），心电图（ECG），脉搏氧饱和度（SpO2），呼吸频率（RR）,呼气末二氧化碳分压（PETCO2），并摆好截石体位。即刻采集患者非输液侧手指末梢血及动脉血进行血糖及血气分析。

图2 “新疆棉”事件的百度搜索指数Fig.2 Baidu search index of "Xinjiang cotton" event

本研究将“新疆棉”事件自2021 年3 月22 日至2021 年4月5 日的舆情数据作为样本数据，以“新疆棉”作为关键词，通过网络爬虫爬取微博平台“新疆棉”事件在该时间段内每天的原创博文量、博文转发量、博文评论量及博文点赞量，并根据百度搜索指数与原创博文量计算搜索变化率及原创信息变化率两个指标的数据，具体数据如表1 所示。

表1 “新疆棉”事件的原始数据Tab.1 Raw data of "Xinjiang cotton" event

3.2 基于GM（1，n）灰色模型的舆情预测

研究过程中，将3 月24 日至4 月2 日共10 d 的数据作为预测模型的训练集，其余3 d 的数据作为测试集。根据多因素GM（1，n）灰色预测模型构建过程，可得：

由最小二乘参数估计可得：

由此可计算残差修正前后GM（1，n）模型的预测值及误差值如表2 所示。由表2 可知：GM（1，n）模型预测的平均相对误差为12.937%，误差率较高；而经残差修正后的GM（1，n）模型预测的平均相对误差为1.388%，可见残差修正可以提升模型预测的精度。

表2 残差修正前后的GM（1，n）模型的误差对比Tab.2 Error comparison of GM（1，n）model before and after residual correction

3.3 基于马尔可夫GM（1，n）模型的舆情预测

舆情发展趋势预测的相对误差散点图如图3 所示。根据散点的分布，将状态分为4 个区间，分别为S1：[-0.4，-0.2)，S2：[-0.2，0)，S3：[0，0.2)，S4：[0.2，0.4]。根据区间的划分，各时刻预测的结果及所属区间如表3所示。

图3 状态区间Fig.3 State intervals

表3 预测值所属区间Tab.3 Intervals of predicted values

由表3 及式（10）、（11）可得转移矩阵为：P(1)=，第10 时刻舆情处于S1状态，则由概率矩阵可知第11 时刻舆情最可能处于S4状态，此时=0.385，由此可计算预测区间为[0.385，0.462]，则在第11 时刻舆情预测值为=0.426。同理，预测第12、13 时刻的舆情热度时，先计算转移矩阵分别为：P(2)=，则在第12、13 时刻舆情预测值分别为0.343 和0.367。

3.4 基于新陈代谢马尔可夫GM（1，n）模型的舆情预测

设定序列长度为10 固定不变，即在预测第12 时刻的舆情热度时，去掉第1 时刻同时增添第11 时刻的舆情热度作为预测序列；同理，在预测第13 时刻的舆情热度时，去掉第2 时刻同时增添第12 时刻的舆情热度作为预测序列。由此可计算第12 和第13 时刻舆情热度预测值分别为0.358 和0.308。

3.5 基于随机森林模型的舆情预测

3.6 不同模型预测误差对比

针对“新疆棉”事件，不同预测模型的预测误差对比如表4 所示。

表4 不同预测模型对“新疆棉”事件的预测误差对比Tab.4 Prediction error comparison among different prediction models on “Xinjiang Cotton” event

由表4 可知，新陈代谢马尔可夫GM（1，n）模型第12 和13 时刻的舆情热度预测的相对误差分别为1.172% 和5.519%，而随机森林的相对误差分别为6.591% 和10.020%。相较于GM（1，n）模型、马尔可夫GM（1，n）模型和随机森林模型，新陈代谢马尔可夫GM（1，n）模型都体现出了更高的网络舆情预测精度。

为进一步验证模型的有效性，还选取“成都四十九中”5月10 日至5 月21 日的数据进行验证，相关原始数据如表5 所示。对应的模型间预测误差对比如表6 所示。由表6 可知，针对“成都四十九中”事件，新陈代谢马尔可夫GM（1，n）模型对舆情的预测精度同样要显著高于其他预测模型，这进一步说明了陈代谢马尔可夫GM（1，n）模型在网络舆情预警方面具有良好的性能。

表5 “成都四十九中”事件的原始数据Tab.5 Raw data of “Chengdu No.49 middle school” event

表6 不同预测模型对“成都四十九中”事件的预测误差对比Tab.6 Prediction error comparison among different prediction models on “Chengdu No.49 middle school” event

4 结语

网络舆情的演化可能对社会稳定造成负面的影响，同时科学的舆情发展分析可以更有效地把握舆情演化，因此舆情预警机制的研究具有重要的现实意义，本文将社会关注度与网民舆情态度作为一级指标构建了舆情预警指标体系，在传统多因素GM（1，n）模型基础上进行改进，并建立了新陈代谢马尔可夫GM（1，n）预测模型，最后以“新疆棉”事件和“成都四十九中”事件作为案例，通过模型改进前后的纵向对比以及与随机森林预测模型的横向对比，验证该模型对舆情预测具有良好的预测精度。由预测结果误差对比可知：新陈代谢马尔可夫GM（1，n）模型在网络舆情预警方面具有良好的性能。

但本文仅针对微博平台和百度平台数据进行了研究分析，在今后的研究中，将重点对其他网络平台的数据进行深入研究，以提高模型预测的普适性。