APP下载

基于贝叶斯网络的网络舆情态势评估分析*
——以“新冠肺炎疫情”事件为例

2021-04-07武梦娇

情报杂志 2021年3期
关键词:网络结构贝叶斯新冠肺炎疫情

刘 继 武梦娇

(新疆财经大学统计与数据科学学院 乌鲁木齐 830012)

Assessment and Analysis of Network Public Opinion Situation Based on Bayesian Network:COVID-19 as an Example

Liu Ji Wu Mengjiao

(Institute of Statistics and Data Science, Xinjiang University of Finance and Economics, Urumqi 830012)

Abstract:[Purpose/Significance]Major emergencies put forward new requirements for improving national social governance capacity, and improving the ability of network public opinion situation assessment has become an important content of innovative social governance.[Method/Process]This paper constructs network public opinion situation assessment index from the aspects of the characteristics of Internet public opinion events, the degree of concern, the degree of diffusion and the tendency of Internet users' opinions. A novel coronavirus pneumonia network epidemic situation assessment model is constructed by Bayesian network, and the situation of Internet public opinion is evaluated and analyzed with the case of COVID-19.[Result/Conclusion]The COVID-19 has been tested on the Internet public opinion event. The proposed method has better public opinion situation assessment performance, and suggestions are put forward for the COVID-19 related network public opinion governance.

Keywords:internet public opinion; Bayesian network; situation assessment; COVID-19

0 引 言

随着互联网的高速发展,我国网民的规模逐渐扩大。据互联网络信息中心(CNNIC)发布的第45次《中国互联网络发展状况统计报告》显示,截至2020年3月,我国网民规模为9.04亿,互联网普及率达65.5%。互联网大规模的普及使得网民在获取信息的过程中可以跨越时间和空间的限制,当大量的民众在网络上对社会问题或现象表达其意见、态度、情绪时,便可能会形成网络舆情。若负面、极端等消极信息成为网络舆情的主流,则会产生网络舆情危机风险。2020年的“新冠肺炎疫情”揭示了我国公共安全社会治理能力亟待提升,如何提高网络舆情态势评估能力是当前亟待解决的问题。

在网络态势分析的研究中,学者们主要从社会科学的角度对网络舆情的指标体系构建、趋势发展及治理方式等方面进行分析,但随着网络数据呈指数型增长,单一的宏观定性分析已不能满足研究者对网络舆情的情景感知、传播机制、态势预测等方面的深入探究。随着人工智能、机器学习等理论的不断进步,为舆情分析提供了更丰富的定量分析方法。由于网络舆情发展过程是复杂的又是多成分的,马捷等[1]基于利用时间、预案准备情况、社会影响程度及关注人群数量四个维度构建网络舆情危机等级评价模型,通过对两个真实事件的危机等级判定,证明了该模型是合理的。Gu等[2]则是基于节点间的交互关系构建了舆情态势评估模型,但该模型只能针对某些特定事件进行评估,具有一定的局限性。为了避免在舆情事件划分等级时过于主观,有学者通过分析引发网络舆情危机的影响因素,建立相应的舆情预警评价体系,利用灰色关联理论和聚类算法对舆情事件的危机等级进行了评估分级[3]。王宁等[4]基于EGM模型对舆情事件预测结果的基础上,利用灰色系统理论对舆情事件等级进行进一步评价,通过对不同舆情事件的舆情等级进行预测评估,验证了构建的预测及评价体系模型具有实际意义。还有学者则是通过建立模糊综合评价模型对网络舆情事件等级进行划分[5-6]。李文杰等[7]在构建了网络舆情综合评估指标体系的基础上,通过利用层次分析法明确不同级指标间权重的排序,利用多级模糊综合评价法建立了网络舆情等级评价模型。武慧娟[8]等基于生命周期理论建立网络舆情综合评估指标体系,为了减少确定指标权重的主观性,提出熵权法来计算指标权重,构建网络舆情模糊综合评价模型。杨靛青等[9]则是构建了网络舆情态势等级三级指标评估体系,并基于有序比值方法给出指标权重,最后建立了基于TOPSIS模糊多指标综合评价模型,通过舆情事件的测试,验证了该模型具有有效性和普适性,也为不同等级的舆情事件提供了相应的应对策略。

随着近年突发事件的频发,特别是诸如“新冠肺炎疫情”重大公共突发事件引发的网络舆情呈现更强的复杂性和不确定性,虽然利用机器学习提高了舆情特征提取和热点发现计算能力,但如何将机器学习和舆情专业知识背景下的舆情推理能力结合起来成为当前舆情态势评估新的研究路径。在人工智能领域中,贝叶斯网络在不确定性表达以及因果推理方面有较大的优势,已有学者利用贝叶斯网络模型对网络舆情的危机节点诊断[10]、危机态势预测[11-12]等方面进行了研究,并取得了一定的研究成果。本文试图通过引入贝叶斯网络模型将舆情领域的专家知识和舆情客观数据结合起来,构建网络舆情态势评估指标,对网络舆情态势进行判定,为政府有效进行舆情数据治理提供新的智力支持。

1 网络舆情态势评估指标的构建

网络舆情态势发展是一个较为复杂的过程,它受到许多因素的影响,构建网络舆情态势评估指标体系是其中关键的环节。陈震[11]在准则层从话题的内容、发布者、传播媒体和网民四个方面对网络舆情态势进行判定。杨静[13]将网络舆情危机等级预测指标体系分为目标层、准则层和指标层,指标层又分为一级指标和二级指标,通过指标层量化准则层的客体属性、媒体效力和主体结构。曾润喜[14]则将网络舆情突发事件的预警指标分为了三类,分别为警源、警兆、警情,其中这三个指标下还包括30个二级指标。董坚峰[15]等人针对旅游突发事件的网络舆情构建了以舆情主体、舆情客体和舆情本体为一级指标的指标体系,其中包含9个二级指标、34个三级指标,对旅游网络舆情进行了更为全面综合的评价。总的来说,在目前网络舆情的研究中,学术界还未能出现统一的确定性指标体系,由于网络舆情是网络事件、网民、媒体等多个主体动态交互的复杂演化过程,因此在指标选取中,本文充分考虑了舆情态势评估的特定属性和舆情数据的可获取性,将网络舆情的评价指标体系构建为目标变量、一级指标和二级指标。

表1 网络舆情态势评估指标体系结构

a.目标变量:即网络舆情态势等级。国家通过考虑突发事件所造成的损失情况、影响力大小等因素对事件划分了级别,分别为特别重大、重大、较大、一般4个级别,并将其标注为特别重大(R)、重大(O)、较大(Y)、一般(B)。

b.一级指标:即对网络舆情态势的细分,包括舆情事件特征、舆情关注度、舆情传播扩散度及网民观点倾向四个层面。

c.二级指标:是对一级指标的细分,一共有10个指标,并通过抓取的数据进行量化。同时,该指标也是贝叶斯网络模型中的证据变量。

一级指标中的舆情事件特征表示该舆情事件所具有的属性及特点,其中包括该事件类别属性、事件敏感度及事件公共危害度3个指标。事件类别属性指标是将事件分为自然灾害类、公共安全类以及系列事件类,根据专家评价对舆情事件进行分类标注。事件敏感度则表示事件包含某些敏感因素,该事件会产生较大影响力,该指标分为高、中、低三个等级。事件公共危害度表示该舆情事件的影响面和网民安全利益的相关程度。当事件公共危害的程度越高,那么它对社会的影响力也就越大,该指标分为高、中、低三个等级。

舆情关注度表示在舆情事件发生后,社会各界对其的关注程度,对舆情事件受关注度的考量主要从网民关注度和媒体关注度两个指标进行分析。网络舆情的主体网民会在网络空间上发布表达其情绪、意见、态度的言论。通过舆情事件微博话题的阅读量和讨论量加权平均可以表示网民关注度,并将其标注为高、中、低三个等级。媒体关注度主要指在微博平台上的官方媒体与自媒体对舆情事件的关注程度。对该指标的量化主要是统计官方媒体和自媒体对舆情事件所发布微博数的总量。

舆情传播扩散度表示该舆情自产生以来在网络空间传播的程度。该指标的考量主要关注时间跨度与单位时间转发率两个因素。时间跨度表示该舆情事件从产生到结束的时间长度,时间跨度越大,说明该事件扩散的就越广。因此定义1天以内的舆情事件为短期舆情事件,并标识为低级;在1~3天之间的事件标记为中期舆情事件,标度为中级;3天以上标记为长期舆情事件,标记为高级。单位时间转发率则是指统计关于该舆情事件的新闻信息,并计算在单位时间段内该事件信息平均被转发的速率,将其标识为高、中、低等级。

网民观点倾向表示用户群体对该舆情事件的自我主观态度。通过微博评论数、情感极化程度来测度,微博评论数指标来源于数据统计,它反映了网民意见的规模,因此将其标注为高、中、低等级。网民的情感倾向是利用SNOWNLP对网民针对舆情事件在社交平台上发布带有自我主观情感倾向的文本进行量化,通过建立相应的情感词典来提高量化的准确度。网民的情感倾向可以分为正面情感倾向(P)和负面情感倾向(N);情感极化程度又可以分为正面情感极化和负面情感极化,其中负面情感极化是指大量网民的意见出现了负面一致性,该性质较大程度上影响了网络舆情事件的态势等级。由于SNOWNLP划分的情感值在(0,1)区间内,因此,本文将情感值小于0.3或大于0.7的评论标记为极端情感文本,统计该类评论文本数量在总评论数的占比,若超过0.5则标注为T,即该事件存在情感极化现象,反之标注为F。

2 基于贝叶斯网络的舆情态势评估模型构建

在以贝叶斯网络为基础模型的研究中,首先需要确定各网络节点间的关系,然后将存在依赖关系的各个节点相连接,得到一个有向无环图。本文通过不同因素之间的关系及专业知识来构建网络结构,然后利用参数学习将客观数据和网络结构相结合,构建具有网络舆情态势评估功能的贝叶斯网络模型,并将各节点间的关系直观地展现出来,便于对变量之间的逻辑因果关系进行推理以及对网络舆情态势等级的判定。

2.1贝叶斯网络理论贝叶斯网络是一种利用有向无环图描述变量间概率关系的理论,它通常被应用于受多种因素影响的概率性问题,并利用概率处理各变量间因条件相关性而产生的不确定性,从而从不确定性知识和信息中做出相应的推理。贝叶斯网络是由有向图和条件概率表组成,有向图表示模型的结构属性,其中的节点对应于模型中的变量,有向边表示变量间的条件依赖关系;条件概率表则表示为模型中每个节点的条件概率。具体表示为:B=,其中,G=(V,E)表示有向无环图模型,V={x1,x2,x3,…xn}是随机变量的集合,即G中的节点集合,E则表示节点间的相互依赖关系,在舆情网络中就表示各个指标间的因果关系;P表示模型中的条件概率表(CPT),量化了各节点间的依赖程度。因此,根据概率的链式规则,贝叶斯网络的联合概率分布表示为:

(1)

由马尔可夫理论可知,在给定其父节点集的条件下,任意节点都独立于其所有非后继节点,即:

P(Xi|X1,X2,…,Xi-1)=P(Xi|π(Xi))

(2)

根据公式1和2,便可得到如下公式:

(3)

其中,π(Xi)表示节点Xi的父节点集。

贝叶斯网络由于各个随机变量的条件独立性,简化了联合概率的计算过程,这也使得在处理相关问题时,降低了计算复杂度。另外,该模型以严格概率推导的条件概率表将随机变量之间抽象的因果关系用数学形式表达出来,便于对最后的目标节点进行判定。

参数学习也是贝叶斯网络学习中的一个重要内容,当网络的节点少、结构较为简单时,可以结合专家意见及实例数据得到网络结构的条件概率表。但当网络结构比较复杂时,该方法不再适用。目前常采用的EM算法是一种具有较好鲁棒性的数值计算法,该算法可以对各节点的条件概率进行计算推理。在网络舆情的样本数据中,已知Z为观测数据,Y为未知数据集,全部训练数据集为T,Qi表示数据集Y的概率分布。EM算法是由E步(Expection-step)和M步(Maximization-step)交替完成。

(4)

贝叶斯网络模型结合了网络结构与参数,当构建好网络结构以及训练得到各节点的条件概率时,便可以通过输入证据变量的状态对目标变量的状态进行评判。另外,该模型可以根据不同的应用背景融合相关领域的专业知识,提高模型的适用范围。

图1 贝叶斯网络结构

2.2贝叶斯网络结构的构建贝叶斯网络模型的建立主要由贝叶斯网络结构的建立和各个节点条件概率的计算这两个部分组成,其中结构学习是重点也是难点,网络结构构建是否合理对最后模型的结果有重要影响。目前,贝叶斯网络结构学习的算法主要是基于条件独立性测试的算法、基于评分搜索的算法以及混合学习算法。这些算法虽然可以从数据中学习得到

贝叶斯网络结构,但是需要大量的数据进行训练才能得到较优的网络结构。本文在构建网络舆情态势评估模型的结构时,利用变量之间的因果关系和舆情专业知识来建立网络结构。其中,贝叶斯网络结构中的节点为网络舆情指标体系中的各个指标。

在贝叶斯网络结构构建过程中,网络节点确定后,便需要确定节点与节点间的弧和弧的方向。节点间的关系如图1所示,一级指标中的四个节点与网络舆情态势存在因果关系,这四个节点直接决定了网络舆情态势的发展趋势;在一级指标中,舆情关注度又与舆情传播扩散度存在因果关系;指标层中的节点分别与一级指标中的节点存在因果关系,事件类别属性、事件敏感度及事件公共危害度是舆情事件特征的决定因素,网民关注度、媒体关注度是舆情关注度的决定因素,时间跨度、单位时间转发率是舆情传播扩散度的决定因素,微博评论数、网民情感倾向以及情感极化程度是网民观点倾向的决定因素,同时事件公共危害度对情感极化程度也有影响。

3 实证分析

3.1数据描述本文通过网络爬虫抓取了2020年2月1日至2020年4月26日这期间的100件舆情事件数据作为网络舆情态势评估模型的训练与测试,并利用数据计算贝叶斯网络的条件概率,得到最终的网络舆情态势评估模型。为了简化贝叶斯网络的概率推理,所有节点所对应的数据都是离散的,若采集的数据为连续型数据,还需对其进行离散化处理。在网络结构中共有14个节点,其中网络舆情态势、网络事件特征、舆情关注度、舆情传播扩散度、网民观点倾向根据专家打分及评议离散化为特别重大(R)、重大(O)、较大(Y)、一般(B)。事件敏感度、事件公共危害度、网民关注度、媒体关注度、时间跨度、单位时间转发率、微博评论数指标离散化为H(高)、M(中)、L(低),事件类别属性则根据划分的类别定义为X(系列事件)、Z(自然灾害)、G(公共安全),网民评论情感值则通过算法划分为P(积极)、N(消极),情感极化程度通过算法划分为T、F。由于上述指标都为连续型数据,本文对其先进行Z-score标准化处理,然后根据标准化后的数据划分相应的区间,通过区间来划分不同等级。具体离散化标准如表2所示,离散化后的部分样本数据如表3所示。

表2 数据量化标准

表3 样本数据的离散化

3.2模型测试本文采用Netica软件进行贝叶斯网络仿真,利用EM算法进行参数学习,为了解决小规模数据集的训练不充分、模型出现过拟合的问题,本文采用10折交叉验证法来对模型进行训练与测试。首先设定训练集中样本量为90%,测试集的样本量为10%,如第一组测试集为事件1到事件10,其他事件则为训练集,以此类推,样本数据集训练后的贝叶斯网络如图2。

图2 训练后的贝叶斯网络图

根据训练后的贝叶斯网络模型,将测试集中每一个事件的样本数据I1,I2,…,I10作为证据变量输入到训练好的模型中,然后判定该事件的网络舆情态势等级(C)。由于篇幅有限,本文只展示部分测试集的测试结果,如表4所示。

表4 网络舆情事件评估结果和实际结果对比

以往的研究中,往往是根据贝叶斯网络模型推理得到的目标变量概率最大隶属于哪一类来决定网络舆情态势的评估等级,该方法可以适用于各个等级的概率之间具有较大差距的情况,但是当等级概率之间的差距较小甚至相等时,该方式可能会导致最后的判定结果出现偏差。因此,为了避免结果出现较大的误差,本文将样本根据实际网络舆情态势等级划分为R、O、Y和B四类,并利用训练后的模型得到每一种等级的概率最小值,最后以此值作为进一步评价网络舆情态势等级的判定条件,其中R、O、Y和B等级的最小概率值分别为38.43%、31.2%、30.2%、32.5%。

由表4可以发现,除了事件42和事件95的测试结果与实际不相符外,其余事件的态势评估等级与实际等级一致。在对测试集进行推理的过程中,以最小值作为判定条件得到的态势等级基本准确,但还是会存在极端情况导致网络舆情事件的等级出现误差,例如事件31,由表4可以发现,该事件的等级R与等级O的概率分别为39.7%和39.5%,两种等级之间的概率十分接近,并且二者都大于该等级的最小值,因此,为了减少误差,当出现这种情况时,本文用下四分位数来进一步判定网络舆情态势的等级。由于等级R与等级O的下四分位数为44.25%和38.5%,而事件31的等级R概率小于其下四分位数,所以最后该事件的态势等级为O,与真实的网络舆情态势等级一致。

通过10次的交叉验证,其中有2次判定结果与实际值不符,分别是事件42和事件95。因此本文构造的贝叶斯网络评估模型在判定网络舆情事件态势等级的准确率达到了98%。由此证明了本模型在网络舆情态势等级评价应用中的有效性,说明本文通过网络舆情评价指标体系构建的网络结构以及各节点间的因果关系是合理的。由于贝叶斯网络模型中各节点的依赖关系及条件概率是清晰直观的,因此当舆情事件发生时,通过对指标数据的收集,不仅可以对网络舆情事件的发展态势进行评估,还能将指标间的因果关系及条件概率表结合起来,对不同态势等级的舆情事件提供相应的决策支持。

3.3“新冠肺炎疫情”事件分析“新冠肺炎疫情”事件是自2019年底突然爆发以来一直持续至今的一个重大公共卫生安全事件。该事件自发生初期就受到人们关注,同时以该事件为背景,又衍生出一系列相关事件,同样都受到了广泛的关注。本文选取“新型冠状病毒”“COVID-19”等为关键词,通过爬虫软件从微博上抓取了相应的数据信息作为案例分析数据,其中网民评论41 500条。

“新冠肺炎疫情” 事件是一个突发的公共卫生安全事件,本文通过利用网络抓取以及专家评价获得指标I1,I2,…,I10的样本数据,然后对该样本数据进行清洗及离散化,并将其作为证据变量带入到图2中的贝叶斯网络模型中,最后得到如图3所示的“新冠肺炎疫情”事件的贝叶斯网络模型。由图3的贝叶斯网络模型可以发现,当把证据变量的状态等级带入到模型后,得到的目标变量等级概率为79.3%、3.6%、5.84%和11.3%,由此可以判定“新冠肺炎疫情”事件的网络舆情态势等级是一件特别重大事件。通过该事件的现实舆论影响力验证了“新冠肺炎疫情”事件是一个特别重大事件,也证明该模型具有较高的适用性。

图3 新冠肺炎疫情事件的贝叶斯网络

由于该事件是一个高敏感度、高公共危害度的事件,因此对其的舆情引导与治理具有较大的挑战,如果在舆情应对过程中处理不当便会造成网络舆情危机。在该模型中,当网民关注度与媒体关注度都处于高水平状态情况下,舆情关注度有72.7%的概率为“特别重大”等级,意味着在如此高关注度的背景下,政府的观点以及对舆情治理的措施都会影响该舆情事件的发展走向。在收集的数据中,与“新冠肺炎疫情”相关话题的微博数量、评论数量、讨论次数、转发数量都较高,单位时间内的转发率也很高,反映了网络舆情传播速度之快、传播范围之广。在模型中舆情传播扩散度有97.5%的概率为“特别重大”,而高等级的传播扩散度也会加速信息的蔓延,对舆情治理增加一定的难度。随着政府快速做出防疫决策及治理方案,同时全国各地医院援助武汉,一系列的正面事件使得网民的负面情绪得到逐步平复,阻止了负面极端情绪的扩散。网民观点倾向有81.2%的概率为“特别重大”等级,表示还需要对用户群体进行一定的心理与行为上有效引导,避免转变高危态势。当媒体关注度为高等级时,舆情关注度发展为“特别重大”等级的概率由46.8%上升至67.8%,当网民关注度为高等级时,则上升为52.1%。因此主流媒体要强化正面报道,及时缓解人们的负面情绪积累,并在出现负面事件初期主动发声,在第一时间进行报道,充分发挥舆论监督的作用,给公众提供可信度高的信息,将谣言扼杀于摇篮之中,最大程度上避免网络舆情危机。

在全面媒体时代下,提高对舆情事件的应对能力是治理能力现代化的重要内容。因此在舆情治理过程中,一方面要防范网民出现极端负面情绪,另一方面要防止负面情绪的规模化。极端负面情绪会增加人们有意或无意传谣的概率,甚至会将负面情绪转化为线下行为,而规模化的负面情绪积累会影响舆情社会影响面,增加舆情有效引导的难度。因此,在舆情治理过程中,需加强主流媒体对舆论的及时正面引导,重点关注对主体情感倾向的干预,及时解决群众的担忧与疑问,充分利用视频、现场直播等方式传递真实有效的信息,有效平复民众的负面情绪,防止负面情绪记忆积累,进而降低网络舆情危机发生的概率。

4 结 语

本文通过构建贝叶斯网络对网络舆情态势等级进行分析,首先构建网络舆情态势评价指标体系,并确定各指标值之间的依赖关系,然后结合专家知识和已知数据构建贝叶斯网络结构,利用EM算法计算网络结构中各节点的条件概率,最后通过测试集验证了该模型的有效性。“新冠肺炎疫情”是突发公共卫生事件,本文通过收集的实例数据利用贝叶斯网络模型对该事件的舆情态势进行了评估分析,结合变量的依赖关系和条件概率提出了一定的舆情治理建议。本文还存在一定的不足,在未来进一步的研究中,一是要增加样本量,利用算法对网络舆情结构进行学习,更客观地探寻各节点间的依赖关系;二是加入时间片,通过动态贝叶斯网络来预测网络舆情事件的发展态势。

猜你喜欢

网络结构贝叶斯新冠肺炎疫情
基于贝叶斯定理的证据推理研究
基于贝叶斯解释回应被告人讲述的故事
快递网络结构研究进展
新冠肺炎疫情早期科学研究对政府决策的影响
新冠肺炎疫情防控中的公共治理机制:信息、决策与执行
新冠肺炎疫区高校大学生的精神状态与行为应对
公共卫生学科作用在新冠肺炎疫情防控中的凸显
基于AutoML的保护区物种识别①
租赁房地产的多主体贝叶斯博弈研究
租赁房地产的多主体贝叶斯博弈研究