融合社交网络用户自身属性的信息传播数学建模与舆情演化分析

2019-10-21刘小洋何道兵

中文信息学报 2019年9期

刘小洋，唐婷，何道兵

(重庆理工大学计算机科学与工程学院，重庆 400054)

0 引言

随着新媒体的迅猛发展，其正在逐渐替代电视、广播、报纸等传统媒体，成为人们获取信息的主要途径。在线社交网络(微博、微信、Twitter、Facebook等)中，信息以类似病毒的不断复制、扩散的方式传播，从而实现了“一传十，十传百”的传播效果。互联网以其开放性、匿名性及互动性为特色，为网民提供了抒发自我情感、获取热点事件的途径。舆情是指作为主体的社交网络参与者在一定阶段和地理范围内，对社会事件或社会现象发表的带有个人倾向的意见或言论[1]。图1为在线社交网络舆情形成过程。

从图1中可看出，随着信息时代的到来，新的传播技术带来了新的传播方式，网民借助微博、微信、短视频、直播等新的传播方式主动发布意见，参与意见传播和舆论形成，使得社交网络成为收集民意的有效途径之一，对推动社会进步起到了积极作用。同时，一些恶性事件被别有用心的组织和人员经过互联网的“放大”作用后，则会给国家安全、社会稳定带来重大影响[2]。因而，对待舆情，要进行有效管理及引导，能够在短时间内利用“黄金4小时媒体”[3]，即微博、微信、QQ群、贴吧等新媒体传播平台，控制事件的传播、发酵，从而，不被舆情牵着鼻子走，使得政府的主流意见成为舆论主导，始终保有主动权[4]。“没有网络安全就没有国家安全”，这也是各级政府部门之所以高度重视网络舆情工作的重要原因。

图1 在线社交网络舆情形成

在此背景下，建立一个完善的舆情理论认知体系也就成为了大数据时代的重要课题之一。

国内外学者就网络舆情信息传播及其应用已经开展了大量研究工作，如舆情的监测与分析、舆情发展规律与研究、舆情的管理及引导等。在这些研究中，文献[5]提出一种基于词典的情感分析算法来提取和衡量用户的意见，引入词义消歧算法和否定技术来提高舆情发现准确性。文献[6]对Web评论的倾向和强度进行向量形式的定量，建立了基于定量评论和情感热门舆论发现模型。文献[7]以疫苗接种问题为例，运用不同文本表示及分类方法，提出一种民意监测系统。文献[8]引入T算子时延微分方程，研究了自媒体的网络新闻传播趋势。文献[9]对感染阈值及难处理阈值这两种情感传播阈值进行了研究，并提出了一种基于贝叶斯更新规则的交互模型，用于遏制谣言的传播。文献[10]将舆情在社交网络中的传播映射为森林火灾的传播，通过突出特征检测舆情传播路径，识别在舆情传播过程中起主要作用的节点。

以上学者从不同角度出发对舆情信息在社交网络上的传播进行了研究，但缺少针对社交网络用户自身属性及信息热度的研究。因此，针对该问题，本文在传统信息传播模型基础上，抽取参与主体的特征，即信息的热度，用户的影响力、态度和年龄等用户属性，明确主体间的交互行为及规则，提出一种基于社交网络用户自身属性的信息传播模型，模拟了舆情演化过程，与实证进行对比，验证了仿真结果的正确性。

1 相关工作

1.1 经典信息传播模型

文献[11]在研究大型社交网络中的影响力最大化问题时提及了信息传播基本模型，包括独立级联模型(IC model)及线性阈值模型(LT model)。

独立级联模型是一种概率模型，以发送者为中心，在此模型中信息传播过程是在图G=(V,E)上进行的。其中，V代表网络中的用户，E代表用户间的关系，G=(V,E)的每一条边对应传播概率P[v,w]，其中，v和w分别为图G=(V,E)中的两个相邻节点。在信息传播中，节点分为两种状态：活跃和非活跃，其中，活跃点表示已接收信息，非活跃点表示还未接收信息，并且节点只能从非活跃点转换为活跃点，该转换不能逆转。当在时刻t节点v被激活，则获得一次以成功率为P[v,w]向邻居节点w产生影响的机会，若激活成功，则在t+1时刻，节点w转为活跃状态。图2为独立级联模型的传播过程。

图2 独立级联模型的4步传播过程

传统的独立级联模型和线性阈值模型都是将信息传播看成是节点状态的变化。然而，在实际社交网络中，信息的传播是以异步方式进行,时间标记并非等距，每个节点接受信息的延迟也不一定相同。因此文献[12-14]都对这两种模型按照异步时间进行模拟扩展，提出了一些非同步模型，其中较为典型的扩展模型为AsIC(Asynchronous IC model)模型和AsLT(Asynchronous LT model)模型。图3为IC模型和AsIC模型的传播对比图。

图3 IC模型和AsIC模型

1.2 网络舆情演化生命周期理论

“生命周期”最初是指生物体的形态或者功能在生命演化过程中所经历的一系列阶段或改变。

生命周期理论[15]在网络舆情演化中的应用可以包括两层含义。一是表明舆情事件在网络平台中的传播具有明确的生命周期特征。即网络舆情在其演化过程中会经历从产生、发展、衰退到死亡的生命过程；二是依据网络舆情事件在不同生命阶段的特征差异，将网络舆情事件的演化过程区分为明确的若干阶段[16-17]，为网络舆情事件研究提供更为准确的分析思路。

我国学者通过案例分析，对网络舆情的生命周期进行了划分，如表1[18]所示。

表1 网络舆情生命周期的划分

续表

观察表中舆情演化阶段的划分可得出，网络舆情的演化可概括为五个阶段。第一个阶段为潜伏期，即事件信息已存在，但能量不够，没有大范围传播；第二个阶段为爆发期，由于较多的用户开始出现，能量开始快速聚集，关注度大幅增加，形成网络舆情；第三个阶段为成熟期，舆情已形成，关注人数相对稳定；第四个阶段为衰退期，随着舆情事件处理结果的出现，及社交网络用户的新鲜感的下降，关注人数开始减少，舆情热度开始冷却；第五个阶段为消退期，关注人数极少，能量趋于零。如图4所示。

图4 网络舆情事件生命周期

2 在线社交网络信息传播模型

在现实世界中，人与人之间的关系网络是一种复杂的网络[19]，个体行为具有非线性、临界值、规则和非线性耦合等特征，很难用微分方程来描述个体行为的非连续型特征，并且个体之间的交互是异构的，并可能产生网络效应，所以平均、统计的方法不起作用。因此，本文采用多主体仿真方法，将社交网络的组成分为三类实体，分别为发布者S(Sender),社交网络用户U(User)和信息M(Message)，通过定义信息发布者发布信息、用户之间的信息传播等行为设定交互规则，针对社交网络中网络舆情的演化进行仿真研究。

2.1 模型假设

在此模型中，用有向图来表示整个社交网络，以图中节点来表示好友圈中的个体，以其连线来表示好友之间的交流方式和渠道。节点存在活跃与非活跃两种状态。当节点为活跃状态时，说明节点接收到信息，当节点为非活跃状态时，说明节点未接收到消息。

舆情演化环境仅限于社交网络，且仅对单一事件进行舆情演化，在此环境中的社交网络用户均匀分布，不考虑同时存在的其他事件的影响。

2.2 特征提取

2.2.1 用户特征

舆情信息在社交网络传播过程中，用户对于舆情信息的态度、用户自身的年龄和影响力都会影响其传播。为能合理地描述用户影响力、态度及其年龄在信息传播中所起的作用，对其用户特征定义如下：

① 用户影响力Infi(t)。影响力是描述“受众的思想、观念”的改变程度。根据传播学的基础理论可知，一个用户的影响力较大时，此用户对于舆情的态度往往能影响普通社交网络用户对网络舆情的态度。

② 用户态度Ai(t)。Ai(t)描述了当前用户i在t时刻对信息持有的态度。在现实社会中，当舆情出现时，网络用户对于舆情的态度并不明确，易受到媒体或人际影响。因此本文将用户态度分为支持、反对、中立三种。ai为用户态度值的影响因子，当ai的值在[0,0.33]时，用户的态度为反对Ai(t)=-1；当ai的值在[0.33,0.66]时，用户的态度为中立Ai(t)=0；当ai的值在[0.67,1]时，用户的态度为赞同Ai(t)=1。如式(1)所示：

(1)

③ 用户年龄Yi。根据CMS媒介研究的12个城市的基础研究数据发现：不同年龄段的用户因社会地位、心理、性格及学历等因素，对信息的接受能力也不同。如“新闻”的受欢迎程度随着被采访者年龄的增加而提升；“音乐”则更受年轻人的喜爱等。具体数据如表2所示。

表2 不同年龄用户在网络板块中的分布

据此本文为了不失一般性，加入年龄因子y，即此条传播的消息在年龄为y的人群中更为容易传播，并使用Yi表示用户i对于信息的接受能力。计算如式(2)所示。

(2)

④ 用户传播意愿Fi(t)。信息在传播过程中，由于每个节点对同一信息的传播意愿都大不相同，且用户传播意愿受到其自身属性的影响，从而得到式(3)。

Fti=Infi(t)+Ai(t)+Yi

(3)

同时，随着节点对同一信息的新鲜度会有所下降，传播意愿会随着时间推移而降低，最终发布的信息将会慢慢失去热度而无人关注。

为方便对用户传播意愿进行描述，对其进行归一化处理，如式(4)所示。

(4)

2.2.2 信息特征

① 初始能量E0。当信息发布时，网络中的某几个初始节点带有一定的能量，能量的大小由信息的热度及其影响力决定。

② 传播概率λ。当前非活跃节点转化为活跃节点的可能性大小。即当用户传播意愿β时，非活跃节点转化为活跃节点，信息得以传播。且β的大小由信息热度决定。

对于以上几个特征，由于其代表的物理意义不同，各个值取值范围不一，因而采用Min-Max标准化方法,将不同特征值取值范围映射到[0 1]区间。

2.3 舆情演化过程

现实社交网络中，信息的产生来源于发布者S，他们通过编辑消息M进行信息推广；而社交网络用户U则是网络环境中最普遍的参与者，由于其数量庞大，因而是舆情传播的主要力量。在信息传播过程中，社交网络用户U浏览到信息时，受到自己自身属性的影响来对信息进行判定，即是否对此信息有较大传播意愿，最后再对外传播。舆情演化流程图如图5所示。

图5 舆情演化流程图

网络舆情演化步骤如下：

步骤1事件发布者S在社交网络中随机移动，以一定的概率发布信息M，再根据所发布信息M的影响力、热度来设定信息M的初始能量。在社交网络传播过程中，信息M的能量随时间减少，当信息M的能量小于0时，代表信息M无人关注，舆情消散。

步骤2社交网络中的用户U开始随机移动，即代表用户U的浏览行为。当遇到信息M时，根据此用户U的影响力、态度、年龄的不同以不同的概率传播信息，信息M能量增加。

步骤3重复步骤1-2。

3 仿真与实证分析

3.1 仿真分析

为验证社交网络用户自身属性的信息传播与舆情演化模型的有效性，开展仿真实验，实验参数如表3所示。

表3 仿真实验参数

① 第一组实验。设定N取值为800个，S分别取值为5和2，y取值为30，E0取值为59，λ取值为0.1，inf取值为0.01。进行多次仿真，具有代表性的舆情演化过程如图6所示。

图6 信息发布者人数

对第一组实验结果进行分析：首先，通过观察图6中S=5的“影响人数”曲线变化趋势，发现其符合图4中关于网络舆情事件生命周期的划分，证明了仿真程序基本正确，模型有效；其次，影响人数比例会随着发布者个数的增加而增大，且信息的持续时间增长，因而当S=5时，舆情形成；当S=2时，未能形成舆情事件，这说明发布者个数会影响舆论的形成。

根据此特点，舆情事件爆发后，管理部门可以通过舆情监测等手段，在舆情潜伏期时尽早挖掘并处理造谣者，降低社交网络用户接触谣言的机会，从而在根源处限制谣言的出现。

② 第二组实验。为研究信息初始能量对舆情传播的影响，设定N取值为800个，S分别取值为5，y取值为30，E0取值为30和59，λ取值为0.1，inf取值为0.01。舆情演化效果如图7所示。

图7 信息初始能量

由图7可见，随着能量E0的增加，信息传播的影响人数比例相对有所增加，信息传播的持续时间增长，而且峰值所占社交网络用户比例也逐渐增大。所以社交网络中的舆情管理应以热门信息为重点管理对象，集中资源进行检测和管理。

③ 第三组实验。设定N取值为800个，S分别取值为5，y取值为30和50，E0取值为59，λ取值为0.1，inf取值为0.01。舆情演化效果如图8所示。

图8 用户年龄

从图8中可以看出，虽然信息的初始能量及传播概率等参数取值均相同，但是由于年龄的参数取值不同，导致信息的传播过程并不完全一致。据此，在选择传播对象时，要注意用户定位，例如在选择一些综艺类节目的推广用户时，定位于更乐于接受新鲜事物的80、90后，进而使得信息更容易传播。

④ 第四组实验。研究用户影响力对于网络舆情传播的影响。在这组实验中，设定N取值为800个，S分别取值为5，y取值为30，E0取值为59，λ取值为0.1，inf分别取值为0.01与0.02。图9为inf取不同值时舆情演化过程。

图9 用户影响力

从图9中可以看出，随着影响力较大的用户所占总人数的比例的增加，影响人数比例峰值到达时间减少，影响人数相对增多。所以政府部门应该培养影响力较大、具有正确价值观念的社交网络用户，在网络舆情产生后，通过这些用户及主流媒体来对事件真相进行宣传，引导普通用户的情感倾向，从而掌控舆情走向，让谣言不攻自破。

3.2 实证分析

为验证此模型的有效性及其可靠性，本文从百度指数——大数据分享平台中随机抽取四条2018年热点事件信息进行实证对比。热点数据如图10所示。这四条数据来自不同的领域，有一定的代表性。

图10 热点事件数据

3.2.1 实证验证设计

在这四条热点信息中，社会事件“港珠澳大桥通车”，无论是在促进地区经济发展上，还是在对香港、澳门和珠海这三地人员的往来上影响都非常大。该事件与社交网络用户的利益紧密相连，因而网民对其关注度较高，初始能量较大，并且此类社会新闻的关注人群较多集中于30至50岁。另外三条热点信息通过类似方法分析选取相关参数。仿真具体参数设置如表4所示。

表4 仿真数据

3.2.2 实证结果分析

通过抓取在线社交网络的真实数据并通过实证实验，得到结果如图11所示。

通过观察图11及表5可以得出：该模型的舆情演化趋势与真实数据相符，能够较好地模拟社交网络中舆情信息的传播。为了更好地说明提出模型的优越性，特将本文提出的模型与传统的IC模型在相似度上进行对比分析，如图12所示。

表5 实证仿真数据表

图11 实证仿真对比图

图12 实证仿真相似度对比图

由图12可知，本文所提出的模型优于传统的IC模型。分析其原因是，传统IC模型只关注了数据传播路径本身，而没有考虑节点属性、信息属性等因素对信息传播的影响。通过3.2节的分析及图11的实证仿真对比可知，研究在线网络用户的属性对于社交网络信息的传播是积极的、有意义的。

4 结束语

本文通过抽取用户属性特征，结合AsIC模型，建立了基于社交用户自身属性的信息传播模型。从仿真模型及实验结果来看，可以证明在没有外界因素的干扰下，该模型能较好地适应信息传播规律，能够合理地描述用户影响力、态度及年龄在信息传播中所起的作用，使得该模型更加符合现实世界中的信息传播。该模型的舆情演化趋势与真实数据较为一致，能够在一定程度上反映信息在线社交网络中传播的特点。但此模型也存在一些需要改进的地方，例如现实中的社交网络应该是无尺度网络，而不是本文模拟的纯随机网络等。下一步工作将在此基础上对人际复杂网络模型进行进一步的研究，从而提高模型的可靠性及有效性。