APP下载

基于用户情感倾向的意见领袖发现算法研究

2018-12-10汪洋李英娜李川

软件导刊 2018年9期
关键词:意见领袖

汪洋 李英娜 李川

摘要:随着互联网的普及和网络信息传播速度的加快,意见领袖在网络信息传播控制中起到至关重要的引导作用。针对当前有关意见领袖的研究方法忽略了网络用户行为与情感倾向之间的关联性,或者只是将回复次数当作用户节点权重而进行简单累加的缺陷,提出一种基于用户情感倾向的意见领袖发现算法以提高意见领袖识别的精准度。不仅综合考虑了回复者对发帖者情感倾向,还将回复文本中大量存在的匿名回帖纳入计算,得到实名、匿名相融合的用户领袖值。以某论坛数据设计实验,结果表明,该算法具有更高的识别准确度。

关键词:意见领袖;情感倾向;PageRank算法;匿名回帖

DOIDOI:10.11907/rjdk.181143

中图分类号:TP312

文献标识码:A文章编号文章编号:16727800(2018)009009506

英文标题Study of Opinion Leaders Discovering Algorithm Based on the Emotional Tendency of Users

--副标题

英文作者WANG Yang,LI Yingna,LI Chuan

英文作者单位(Faculty of Information Engineering and Automation,Kunming University of Science and Technology,Kunming 650500,China)

英文摘要Abstract:With the popularity of the Internet and the acceleration of network information dissemination,opinion leaders play a crucial guiding role in dissemination and control of network information.In view of the current research methods about the opinion leader,which ignore the correlation between the behavior and the emotional tendency of network users,and bears the defects of only regarding the reply frequencies as the node weight of users to carry on simple accumulation,a detection algorithm based on the emotional tendency of users is proposed in order to improve the accuracy of recognizing the opinion leaders.The emotional tendency of the respondents to the post is taken into comprehensive consideration and a large number of anonymous replies existed in the response text are included to obtain the value of opinion leaders,which combines the real names and anonyms of users.The result of the experiment based on the data of a forum shows that the proposed algorithm in this paper has higher recognition accuracy.

英文關键词Key Words:opinion leaders; emotional tendency; PageRank algorithm; anonymous replies

0引言

随着网络的飞速发展以及网络自身具有的匿名性、虚拟性,越来越多的人已习惯通过论坛、博客、贴吧等网络平台参与社会热点话题讨论。在话题讨论互动中,人们对话题的评论和回复相互影响,但其中影响力差别巨大。人们往往通过用户发表的内容和质量判断信息可靠性,在群体网络结构中相对重要的角色被称作“意见领袖”。意见领袖可以给用户不断提出大量引人关注的意见,并能够对其他角色产生一定影响,同时对网络营销战略实施和社会舆论发展走向等都起着至关重要的作用。因此更精准的意见领袖识别既有深远的社会意义也有极高的商业价值。

国内外有关学者对论坛意见领袖的识别方法研究已经取得了一定成果:石矛等[1]提出IDM模型分析及影响力改进算法,计算各通信个体间的相互影响和距离,以简单量化的方式选取意见领袖,大体上根据词语的交集确定选取的精准度,但面对林林总总的中文语义,仅依靠简单的词语交集进行信息传递很难有效反映用户真实影响力。胡勇[2]、王珏[3]、蒋翠清等[4]总结分析了意见领袖的属性特征,但忽略了不同用户间的关联性,比如某些用户发表的观点贴和回复贴数量庞大,但得到其他用户的有效回复却屈指可数,显然以该方式得到数值较大的影响力不客观。吴渝等[5]综合考虑了用户自身影响因素以及用户间的关联性,但忽视了不同用户间存在情感关系交互,故所得结果也不理想。

PageRank算法在计算意见领袖时综合考虑用户被关注程度以及自身影响力大小,因而不少学者青睐于在此算法基础上进行更深入研究。Haveliwala等[6]基于PageRank算法提出PersonalRank算法,期望通过计算物品节点相对于某一用户节点的相关性并对其进行有序排列,最终实现物品的智能推送功能。吴凯等[7]通过引入微博特性和贪婪思想,研究分析了微博中影响力最大化问题并提出Weibo Influence Rank算法。

针对当前有关意见领袖的研究方法没有考虑网络用户行为与情感倾向的关联性,或者只是将回复次数当作用户间权重值进行简单累加的缺陷,本文提出基于用户情感倾向的意见领袖发现方法(Leader Rank Algorithm Based on Sentiment of Users,LASU)。在融合回复者对发帖者情感倾向的同时,还考虑到回复文本中大量存在的匿名用户,使实名、匿名两者有机结合计算最终的领袖值,并通过具体方案验证本文算法的正确性。

1相关工作

PageRank算法[8]通过分析網页节点的网络拓扑性质,衡量该网页相对于索引中其它网页的受欢迎程度。用户之间的联系类似于相互链接的网页,页面被链接次数的多少决定着网页的重要程度,拥有较多链入次数的页面具有较高等级,倘若一个页面被少数较重要页面链接,则同样具有较高等级,因此利用PageRank算法规律计算用户影响力是可行的。公式表示如下:

PR(u)=1-d+d∑v∈RuPR(v)N(v)(1)

其中PR(u)、PR(v)分别是网页u、v的PageRank值,Ru是链接到页面u的所有页面集合,N(v)是页面v对外页面的链接数,d是阻尼系数。

吴凯等[7]基于PageRank算法提出WIR(Weibo Influence Rank)算法,公式表示如下:

WIR(u)=d+(1-d)∑v∈Nu[WIR(v)·Svu](2)

Svu=I(v,u)∑t∈TvI(v,t)(3)

其中WIN(u)、WIN(v)分别是用户u、v的WIR值,Nu是u的粉丝集合,Svu是u占v的影响力比例系数,d是阻尼系数,I(v,u)是v对于u的影响值,迭代方法与PageRank算法相似,最终得到全部用户影响力值。

吴渝等[5]通过PageRank算法结合用户行为提出UILR(Userinfluencebased Leader Rank algorithm)算法,公式表示如下:

R(u)=(1-d)+d∑v∈TuR(v)·Wvu(4)

Wuv=Iu·kvu∑p∈BvIp·kvp(5)

其中R(u)是用户u的影响力值,Tu是回复u的用户群体,Wvu是u在v的影响力值中所占比例,d是阻尼系数,Iu、Ip分别是u、p的初始影响值,kvu和kvp表示v分别对u、p的回复次数,Bv是v回复用户的集合。

2基于用户情感倾向的意见领袖挖掘算法

2.1算法基本思路

实际网络的意见领袖识别影响用户的因素错综复杂,在计算过程中往往忽略网络用户行为与情感倾向之间的关联,使计算出的领袖值不能真实反映实际情况。本文在沿用吴渝等[5]结合用户行为提出的意见领袖挖掘算法的同时,将回复者的情感值融入计算,还将回复文本中大量存在的匿名用户考虑进来,最终得到更加准确的领袖值。该算法的具体过程可描述为以下4步:①提取用户原始特征信息并计算用户影响力初值;②计算回复者主观情感倾向并构建用户情感倾向值矩阵;③通过用户之间存在的交互情感关系计算用户领袖值;④将匿名用户纳入计算,获得最终领袖值。意见领袖发现流程如图1所示。

2.2用户节点影响力初值计算

用户影响力的初值主要包含用户自身活跃度和他人关注度,发帖数和回复数是用户对话题的观点和主张,在线时长可反映用户等级,这些都体现了用户活跃程度。被回复数、被引用数和被浏览数体现出文本消息在传播过程中的直接影响力。用户特征信息提取如图2所示。

用户初始影响力值I的计算方法如下:

Ia=∑6i=1wiCi,a∈U,∑Ci=1(6)

其中Ia是节点a的初始影响力值,wi是图2中依次排列的用户特征信息,Ci是对应于wi的权重。

将上述提取的用户特征信息进行归一化处理,使其数值落在[0,1]范围内。然后利用Saaty的10级重要性等级表和判别矩阵计算特征信息的相对重要性[9],计算提取的用户特征信息对应权重如表1所示。

2.3用户回帖的情感倾向值计算

本文引入吴泽衡等[10]的情感分析模型对用户回贴进行情感倾向分析。为了提高分析效率和精确性,先进行主客观文本分类,然后运用基于PMI(Pointwise Mutual Information)和知网相融合的方法对词语情感极性进行计算,并利用上下文关系求得短语的情感极性,再通过用户情感倾向值矩阵的构建,将极性累加计算回复贴的情感倾向,得到用户回帖情感倾向值e。

2.3.1主客观文本分类

提取回帖的情感特征,以计算互信息的方式剔除特征性不强的词,公式如下:

|I(f,C1)-I(f,C2)|>θ(7)

其中f表示文本特性,I是f对于主、客观类别C1、C2的互信息量,当其大于阈值θ时抽取f。文本特征抽取完毕后,采用朴素贝叶斯分类算法[11]进行主客观文本分类。

2.3.2基于PMI和知网相融合的词语情感极性计算

基于PMI的词语情感极性算法,以新词与选定的基准词在语料库同时出现的几率推断新词情感倾向。任意两个词W和W′的PMI值计算表达式如下:

PMI(W,W′)=logP(W&W;′)P(W)P(W′)(8)

其中P(W)、P(W′)分别是词W、W′各自单独出现的概率,P(W&W;′)是W和W′共现的概率。

假定褒义基准词记为CWord={cword1,…,cwordn},相对应的贬义基准词记为DWord={dword1,…,dwordn},则对于某个新词NWord的情感倾向值计算公式为:

EPMI(NWord)=∑ni=1PMI(NWord,cwordi)-∑ni=1PMI(NWord,dwordi)(9)

基于知网的词语情感极性算法主要通过计算新词与选定的基准词之间的相似程度推断新词情感倾向。引入刘群[12]基于知网词汇语义相似度计算方法sim(W,W′),假设W和W′分别有n、m个概念,集合表示为{C11,C12,...C1n}和{C21,C22,...C2m},那么新词NWord极性计算公式如下:

EHowNet(NWord)=∑ni=1sim(NWord,cwordi)-∑ni=1sim(NWord,dwordi)(10)

sim(W,W')=maxi=1...n,j=1...msim(C1i,C2j)(11)

其中sim(W,W′)代表W与W′的语义相似度。词语最终的情感倾向值可通过扩展同义词的方式进行计算,算法步骤如下:

(1)假定新来词表示为nword,首先利用知网对其进行同义词扩展操作,并将经过扩展的同义词集合记为HowNetSimGroup(nword)={word1,word2,…,wordn}。

(2)计算nword及同义词与基准词的相似度,取出最大值MaxSim并与预设阈值比较,若大于阈值则按照公式(10)计算新来词的情感倾向,否则按照公式(9)计算新来词情感极性。

2.3.3用户情感倾向值矩阵构建

文本情感倾向值计算公式如下:

EPage(pagei)=1m∑ni=1EP(wi)(12)

其中,EP(wi)表示文本中某一词语或短语wi的情感倾向值,n、m分别是文本中词语或者短语和句子的数目。对其进行归一化处理,使取值范围落在[-1,1]之间。

评论信息通常由一系列的文本组成,用户之间的回复次数一般为多次,因此对用户i、j的有效评估即为用户间评论信息情感倾向值的综合计算,这与实际情况相符[13]。根据式(12)的计算方法,用户j对i所发文本信息的主观情感倾向值可由以下公式得到:

Eij=∑eijnij,Eij∈[-1,1],i≠j(13)

其中∑eij是用户j对i所发文本信息的主观情感倾向值系数之和,nij是在同一評论下用户j对i的回复数。

评论回帖者中匿名用户为数众多,甚至远超过实名用户回帖数,为了使情感倾向值可以真实反映全体用户的主观情感,确保意见领袖识别的精准性,匿名用户的有效评论数据必须考虑在内。匿名用户的主观情感倾向值计算方法如下:

Eii=eim(14)

其中m、ei分别是匿名用户对用户i的回帖数量和主观情感倾向值。倘若需要评价的用户数量为n,则情感倾向矩阵为E={Eij}。

2.4改进的意见领袖发现算法

2.4.1用户间网络链接EleaderRank图模型建立

本文基于PageRank算法并考虑到用户间情感倾向值和自身影响力,以用户节点出度和入度建立整个网络链接EleaderRank图模型。基本步骤如下:①若用户回复的帖子来自于自己,不建立节点间联系;②若用户评论文本无人回应或仅本人回复,删除该节点;③若用户信息为空,删除该节点;④若用户A回复用户B,则建立A指向B的边,边的权值由回复次数和用户B对A的情感倾向值EAB共同确定。

2.4.2基于用户情感倾向的意见领袖发现算法

本文借鉴吴渝等[5]引入用户影响力的意见领袖发现算法思想,提出基于用户情感倾向的意见领袖发现方法,简称LASU。若用户x与用户y存在交互行为,则LASU算法对于实名用户x的领袖值计算方法如下:

Inf(x)=(1-d)+d∑y∈R(x)D(x,y)·Inf(y)(15)

D(x,y)=I(x)·Eyx·wyx∑r∈R′(y)I(r)·Eyr·wyr(16)

其中Inf(x)、Inf(y)分别是x、y的用户领袖值,R(x)、R′(y)分别是在社交平台上回复x的用户群集和全部被y回复的用户群集,I(x)、I(r)分别是x和r的初始影响力值,d是评论帖子的概率,取值0.85,Eyx、Eyr分别是回帖者用户y对于x、r的情感倾向值,可由式(13)计算得出,wyx、wyr分别是y回帖x、r的次数。

2.4.3意见领袖值计算过程优化

将匿名用户和实名用户共同考虑到意见领袖的计算过程中,此时用户x的领袖值L(x)可表示为:

L(x)=λInf(x)+(1-λ)aInf(x)(17)

aInf(x)=Exx·Inf(x)min(18)

其中Inf(x)是实名用户领袖值,aInf(x)是匿名用户领袖值,Exx是主观情感倾向值,可由式(14)计算得出,Inf(x)min是由Inf(x)迭代计算出的最小领袖值。

由上述2.4.1节建立的图模型,通过迭代计算获取各用户节点的领袖值aInf。LASU算法描述如下:

输入:N个节点的原始特征信息C,回帖数w及交互文本数据,赋值收敛标志ε。

输出:用户情感倾向矩阵E,实名用户领袖值Inf,用户领袖值L。

执行步骤如下:

(1)初始化相应参数,将各用户节点的领袖值Inf赋值为0.1。

(2)根据公式(6)结合交互文本数据得到初始影响力值I。

(3)通过PMI和知网相融合的情感值计算,根据公式(12)(13)计算情感倾向矩阵E。

(4)根据公式(15)(16)计算全部领袖值Inf。

(5)将(4)中的所有Inf与前一次计算的Infp依次作差,若|Inf-Infp|<ε则执行(7),否则执行(6)。

(6)将每个节点的Inf赋值给Infp,执行(4)。

(7)按照Inf的递减顺序输出到集合U,并搜索确定最小领袖值Infmin。

(8)根据公式(18)结合(7)中得到的Infmin依次计算用户的匿名领袖值aInf。

(9)根据公式(17)重新计算各用户领袖值L并降序输出。

3实验与结果分析

3.1实验数据

本文以猫扑贴贴论坛的“美食广场”、“奇闻趣事”、“数码快讯”、“校花校草”4个版块作为数据来源,通过网页采集器获取2016年11月-12月的用户评论数据作为实验数据集,获取的数据集共包含贴子数181 759个,从中过滤出100字以上文本,约有主贴15 000条,回帖167 000条,参与话题讨论用户近10万人。

3.2评价指标

当下国内外研究中并没有一个权威性、绝对合理的意见领袖评估方法,本文选用的意见领袖评价指标为节点影响覆盖率[5],公式表示如下:

p(k)=∑ki=iL(i)∑Ni=1L(i)(19)

其中p(k)是前k个节点的影响覆盖率,L(i)是N个用户中排名为i的节点影响其它节点的个数。

3.3实验设计

本文实验的软硬件环境包括:①CPU:Inter(R) Core(TM)2 i52450M 2.5GHz;②内存:4G;③操作系统:Win7 64bit;④编程语言:Java1.7。

实验方案包括:①预处理;②实名、匿名用户权重系数选取对算法性能的影响实验;③本文算法与UILR算法[5]、WIR算法[7]、PR算法[14]的性能对比实验;④意见领袖识别的准确性对比实验。

3.4实验结果与分析

利用LASU算法计算意见领袖时考虑了大量存在的匿名回复文本,所以匿名用户的影响力取值所占权重决定了LASU算法的整体性能。根据公式(17)结合节点影响覆盖率指标,探究λ的不同取值对LASU算法挖掘效果的影响。选取排名前80的用户计算影响覆盖率,实验结果如图3所示。

在图3中,横坐标为λ值,纵坐标表示节点的影响覆盖率值,该曲线图描述的是前80名用户影响覆盖率值在不同λ取值下的变化规律。由该曲线图可以看出:当λ=0时,用户领袖值L(x)=aInf(x),LASU算法只考虑匿名回帖者的领袖值;当λ≤0.2时,节点影响覆盖率值较小,算法性能也很一般,因为过多地将匿名回帖者对领袖值的影响考虑到意见领袖的计算过程中,造成实名用户影响削弱,而LASU算法是针对实名用户构建的图模型,所以导致节点影响覆盖率值较低,所获得的领袖值也无法精准反映实际情况。随着λ值增大,曲线上升并趋于平稳,当λ=0.7时,曲线达到峰值,此时算法性能为最佳状态。当λ=1时,用户领袖值L(x)=Inf(x),LASU算法表示只计算实名回帖者的领袖值。因此,在LASU算法与其它算法的对比实验中,给定λ值为0.7进行计算。

为了定性评估LASU算法的有效性,比较下列4种算法前100名用户的影响覆盖率,实验结果如图4所示。在图4中,横坐标为前100名用户群,纵坐标表示节点的影响覆盖率值。LASU算法指本文提出的基于用户情感倾向的意见领袖挖掘算法,UILR算法[5]指基于用户影响力的意见领袖算法,WIR算法[7]指基于微博網络的影响力算法,PR算法[14]指基于兴趣的意见领袖算法。

由图4中4种算法的比较可以看出:在前10名用户群中,LASU算法影响覆盖率略低于UILR算法,但在更多情况下LASU算法的性能显著高于另外3种算法,说明将回复者的情感倾向考虑到意见领袖的计算中,对于算法挖掘的性能提升有显著影响。此外,图中显示WIR算法性能低于其它3种算法,因为本文选取的实验数据以论坛作为站点来源,WIR算法更倾向于处理微博数据,所以在面对论坛数据处理时其精准度受到一定影响。

4种算法的实验结果如表2所示,图表列举了算法排名前10的用户。表中字母A-Q分别表示“在牛A和牛C之间”、“CharmyWrng”、“西湖帅唐僧”、“四书五经”、“湑水渔夫”、“JIUZHOU209”、“禅海商道”、“股市游侠2015”、“雨城的小夕”、“ztlovewz”、“Cindy小宝”、“__一梦”、“詹妮娟jenny”、“我辛永狠”、“ty_小千853”、“GomesJustin”、“如果人生源于梦”17位用户。

由表3显然可以看出,用户N、O、P在话题探讨中最为频繁,这就意味着用户N、O、P较其余6名用户具有更大可能性成为“领袖”。结合表2发现用户N存在于算法UILR和WIR结果中,用户O、P存在于算法LASU结果中,实验结果表明本文提出的LASU算法在意见领袖计算中具有更高精准度。

4结语

在意见领袖挖掘过程中,用户情感倾向和匿名回帖是影响意见领袖识别精准度的两个重要因素。为了提高意见领袖识别精准度,本文对UILR算法加以改进,通过对用户影响力初值和情感倾向值矩阵的构建,计算用户领袖值,将回复者的情感倾向和匿名回帖纳入领袖值的计算过程中,得到实名、匿名相融合的综合领袖值。实验结果表明本文提出的LASU算法在计算意见领袖时具有更高精准度。

在意见领袖计算过程中,合理选取收敛值具有一定难度;决定实名、匿名用户权重的关键系数λ值对于本文算法性能影响较大,通过实验得出λ值取0.7时算法性能达到最佳状态,在以后的研究中需要采取更合理的方法确定这两个系数的值。

参考文献参考文献:

[1]石矛,方勇,曾祥平,等.IDM模型分析及其影响力改进算法[J].成都信息工程学院学报,2008,23(1):6972.

[2]HU Y,ZHANG C B,WANG Z X,et al.Leader formation model during public opinion formation in internet[J].Journal of Sichuan University:Natural Science Edition,2008,45(2):135139.

[3]王 珏,曾剑平,周葆华,等.基于聚类分析的网络论坛意见领袖发现方法[J].计算机工程,2011,37(5):4447.

[4]JIANG C Q,ZHU Y S,DING Y.On discovery of opinion leaders based on UGC[J].Journal of Intelligence,2011,30(10):8285.

[5]吴渝,马璐璐,林茂,等.基于用戶影响力的意见领袖发现算法[J].小型微型计算机系统,2015(03):561565.

[6]HAVELIWALA T H.Topicsensitive PageRank:a contextsensitive ranking algorithm for web search[J].IEEE Transactions on Knowledge & Data Engineering,2003,15(4):784796.

[7]吴凯,季新生,郭进时,等.基于微博网络的影响力最大化算法[J].计算机应用,2013,33(8):20912094.

[8]DUMAIS S T.Latent semantic indexing (LSI),TREC3 report[C].Proceedings of the 3rd Text Retrieval Conference(TREC3),1995:105115.

[9]DING X F,HU Y,ZHAO W,et al.A study on the characters of the public opinion leader in web BBS[J].Journal of Sichuan University:Engineering Science Edition,2010,42(2):147150.

[10]吴泽衡.基于话题检测和情感分析的互联网热点分析与监控技术研究[D].广州:华南理工大学,2011.

[11]章栋兵.互联网舆情分析关键技术的研究与实现[D].武汉:武汉理工大学,2010.

[12]刘群,李素建.基于《知网》的词汇语义相似度计算[C].台北:第三届汉语词汇语义学研讨会,2002.

[13]肖宇,许炜,夏霖.一种基于情感倾向分析的网络团体意见领袖识别算法[J].计算机科学,2012,39(2):3437.

[14]ZHAI Z,XU H,JIA P.Identifying opinion leaders in BBS[C].IEEE/WIC/ACM International Conference on Web Intelligence and Intelligent Agent Technology,2008:398.

责任编辑(责任编辑:江艳)

猜你喜欢

意见领袖
微博动员、维权倡议与记者的利益表达机制
新形势下高校网络文化建设管理机制研究
微信营销意见领袖培养现状研究
浅析网络意见领袖对涉军舆情的影响及对策
舆论反转研究的文献综述
“民粹”的利益合谋是如何形成的