网民重要度建模方法研究

2012-06-29袁继鹏

中文信息学报 2012年6期

袁继鹏，张瑾，郭岩，戴媛,李静

(1. 中国科学院计算技术研究所网络数据科学与工程研究中心，北京 100190；2. 中国科学院研究生院，北京 100049； 3. 国家计算机网络应急技术处理协调中心，北京 100029)

1 引言

随着中国互联网络的快速发展，网络越来越成为人们表达思想，参与社会生活不可或缺的重要工具。博客、论坛/BBS等作为比较成熟的网络应用，一直以来都深受网民的喜爱[1]。以人人网/Facebook、新浪微博/Twitter为代表的社交网站和微博客作为新兴的Web2.0应用，更是具有惊人的发展速度。和传统门户性质的网站不同，上述类型网站中网民不再仅仅是在互联网上冲浪，同时也成为波浪制造者。在互联网的新时代，信息是由网民贡献出来的，单个网民共同组成了互联网信息源，Web2.0的灵魂是网民[2]。这样，不可避免地为网络信息内容真实性的验证带来了极大的困难，也使得垃圾、负面信息的传播失去了控制。一些突发事件、热点事件往往是通过此类网站得到了快速广泛的传播。

因此，作为信息产生主体的网民对于网络用户的管理、舆情信息的及时监控、网络内容的监管起着重要的作用。目前为止由于网民类型、关系纷杂繁多，网民信息作为隐私数据不易获取等，关于网民的相关量化研究还比较少。本文针对用户关系比较清晰的微博和社交类网站数据进行算法分析与模型验证，提出了一种基于指标体系的网民重要度建模方法。

2 相关工作

目前关于网民重要性评价的相关研究还比较少，但网页重要性排序、社会网络节点重要性分析，以及社会科学领域的一些指标分析法可为我们提供一些借鉴。

2.1 网页重要性评价方法

佩奇(Larry Page)等人提出的PageRank[3-4]算法和克莱因伯格(Kleinberg)提出的Hits[5]算法从链接关系的角度给出了网页重要性排序的方法。PageRank算法是基于这样一个模型：用户以概率c顺着超链接点击访问，或者以概率1-c从一个新的页面开始访问。在该模型下，页面t被访问到的概率可以相应地计算出来。Hits算法则认为每一个Web网页都具有两种属性：权威属性和枢纽属性。权威属性与网页自身直接提供内容信息的质量相关，被越多网页引用的网页，其权威属性越高；枢纽属性则与网页提供的超链接的质量相关，引用越多内容质量高的网页，其枢纽属性越高。

网民之间相互链接的好友关系同样满足以上假设： (i)被越多的网民关注，其越重要；(ii)关注某网民的网民越重要，则该网民也越重要。但这样只是从网民建立好友链接关系的角度得出的重要性。很可能具有高链接重要度的网民其发表的文章数很少、文章的质量不高，我们并不认为其是重要网民。因此，仅采用类PageRank算法得出的网民重要度排序可能并不可靠。

2.2 社会网络节点重要性分析方法

社会网络分析的研究起始于20世纪40年代末，并最早进行了复杂网络节点重要性的研究。该研究认为节点的重要性等价于该节点与其他节点的链接而使其具有的显著性[6-7]。通过对网络拓扑中一些基本属性的计算，能相对定量地反映出节点在网络中的位置特性，将网络节点的显著性进行“放大”来定义节点的重要性[6]。

广泛使用的节点重要性度量指标有：节点的度(Degree)、接近度(Closeness)、介数(Between-ness)等。

一个节点的度，是指网络拓扑中与此节点相关联的边的数目。节点度在一定程度上反映了节点的重要性，其思想简单，计算复杂度不高(O(n)，n为网络中边的数目)。但这种方法往往不能准确表达节点的重要程度。

较为简单直观的节点接近度反映了节点居于中心的程度，接近度越大，表明节点越居于网络的中心，它就越重要。但是接近度对网络拓扑结构依赖性很大，对于集中式星形网络它可以准确地发现中心节点，但是对于民主式的正则图、ER随机图网络并不适合[6]。

节点介数定义为网络中所有最短路径中经过该节点的路径数目占最短路径总数的比例，最早是用于衡量个体社会地位的参数。使用介数来判断人际关系网络中节点的重要程度，则其表示某个人在关系网络中最短路径上出现的程度，出现程度越高，其影响范围越广，他人也就越多地通过此人与别人交流，此人也就越重要[6,8]。其缺点是介数的计算复杂度非常高。

上述的度量指标和计算方法仍然是基于节点之间形成的网络拓扑图，它们的核心仍然是从网络拓扑的角度来看待节点的重要性。

2.3 基于评估指标的方法

基于以上情况，本文提出了一种有别于链接分析思想的指标权重模型。按照统计学原理，将某事物所含各个指标权重之和视为1，其中每个指标的权重可用小数表示，称为“权重系数”。权重系数表示对评价对象不同侧面重要程度的定量分配，该方法在各领域都有广泛的应用。在选取评价指标时，要遵循目的明确、全面、切实可行的原则。选取评价指标的常用方法有条件广义方差极小法、极大不相关法、选取典型指标法等[9-10]，这种用统计方法筛选出来的指标更具代表性和可信性。

权重系数的确定方法则有德尔菲法、层次分析法(Analytic Hierarchy Process，AHP)、人工神经网络评价法、熵权法[11-12]等。AHP是美国学者萨蒂于20世纪70年代应用网络系统理论和多目标综合评价方法，提出的一种层次权重决策方法。它将一个复杂的多目标决策问题作为一个系统，将目标分解为多个目标或准则，进而分解为多指标的若干层次，通过定性指标模糊量化方法计算出层次单排序和总排序，以作为解决方案[13-15]。运用层次分析法，大体上可按下面四个步骤进行： (1)建立递阶层次结构模型；(2)构造出各层次中的所有判断矩阵；(3)层次单排序及一致性检验；(4)层次总排序及一致性检验。

3 网民重要度建模

3.1 网民特征选择

直观上理解网民重要度应与其发表文章数、发文频率、发文被回复数、文章被转载数、交际广泛度等相关，准确详细地定义这些特征指标十分重要。本节首先对与用户重要度建模相关的指标进行描述、定义。

3.1.1 活跃度指标

活跃度即为网民的发文频率、回帖频率，它描述了网民发布信息的速度。速度越快，说明网民在传播信息方面的自身表现力越强。

活跃度指标定义为网民在单位时间内发表文章、回复帖子的频率。这里，单位时间依据不同的研究粒度可为小时、天等，一般取天为单位时间。若定义网民在一定时间段T内发表文章的总数为P(包括回帖数)，则活跃度指标A的计算公式如下：

3.1.2 关联度指标

关联度指标为网民从链接关系角度得到的重要度，它反映了网民相互之间对他人重要度的评价。类似PageRank算法，基于网民之间相互链接的好友关系可计算其关联度。但网民之间的链接图并不是强连通的，存在两个相关问题：等级下沉和等级泄露。如果一个图的某一部分没有链接出去就会形成下沉；一个单独的节点没有任何链接就构成了泄露。如果存在下沉节点且其权值为0，则意味着不能区别出这种网民的重要性。类似PageRank算法，我们引入阻尼因子d来修改其定义：网民重要度的d部分分布在它所指向的网民中，剩下的等级被分配在其他所有网民中。于是网民的关联度L计算公式为式(2)所示：

其中，N(j)表示网民j指向的网民数，F(i)表示指向网民i的网民，N为网民总数。d是介于0与1之间的经验值，一般设定为0.85[3-4]。

3.1.3 交际广泛度指标

交际广泛度指标描述在网络环境中网民相互之间的关系，反映了一个网民的交际广泛程度。该指标包括其他网民对某网民的关注程度和此网民对其他网民的关注程度。有越多的网民关注某一网民，这个网民越积极建立好友关系关注其他网民，则这个网民的重要度越高。所以交际广泛度指标由以下两个特征计算而得：

followers：被别人关注数量

friends：关注别人数量

若定义交际广泛度为S，a,b表示权重系数，其计算公式为式(3)所示：

3.1.4 影响力指标

影响力指标定义为网民发表的文章被点击、回复、转载的平均次数。该指标在一定程度上反映了网民文章质量的高低：一般网民发表的文章质量较高的话，其影响力也会较高，可认为该网民较重要。若定义网民在特定研究时间段内发表P篇文章所得到的总点击、回复、转载次数为Ptotal，则网民影响力指标Im计算公式为：

3.2 网民重要度模型

在定义了和网民重要性相关的各种指标后，我们建立了一种基于上述指标的网民重要度线性评价模型NI(Netizen Importance)。

网民重要度模型可以表示为：

这样我们就可以量化网民的相对重要性，然后对重要度排名靠前的用户做重点关注和分析。

3.3 模型计算方法

3.3.1 模型指标选择

前文所定义的网民特征指标都是能反映网民上网行为的大众指标。一般来说，重要的网民应该活跃度、关联度较高，影响力较大且交际比较广泛。在我们的线性模型中各指标必须是相互独立的，综合考量文献[9]的各种统计方法，我们采用极大不相关法来选取指标。其基本思想是如果指标X1与其他的指标X2…Xp是独立的，那就表明X1是无法用其他指标来代替的，因此选取的各指标应该是相关性越小越好。复相关系数可表征变量之间的线性相关程度，在计算出各指标与其他指标的复相关系数ρ后，我们可以据此选择彼此独立的指标。

依据此方法，我们取100名网民的数据作为样本数据，且指定复相关系数平方临界值σ=0.3，得出表1所示的各指标复相关系数平方取值情况。

表1 各指标复相关系数平方取值表

可以看出活跃度、关联度、交际广泛度、影响力四个指标的复相关系数均小于临界值，相互关联较小，因此它们可作为我们的评价指标。即对应NI模型中Ii1=A,Ii2=L,Ii3=S,Ii4=Im，如表2所示。

表2 网民重要度指标层次关系

3.3.2 模型权重计算

层次分析法是对一些较为复杂、较为模糊问题做出决策的简易方法，它特别适用于那些难于完全定量分析的问题。为了得出NI模型中四个指标因子对网民重要度的影响大小，我们采取AHP中对指标两两比较建立成对比较矩阵的方法[15]。即每次取两个因子如A,L，以aij表示A和L对NI的影响大小之比，关于aij取值具体参见文献[13]。全部比较结果用矩阵M=(aij)4×4表示，易见其为正互反矩阵，如表3所示。

表3 网民重要度判断矩阵

判断矩阵M的对应于最大特征值λmax的特征向量V经归一化后即为同一层次相应因素对于上一层次因素相对重要性的排序权值，这一过程称为层次单排序。上述构造成对比较判断矩阵的办法虽能减少其他因素的干扰，但综合全部比较结果时，其中难免包含一定程度的非一致性。

4 实验分析

通过网民重要度建模方法的描述，我们建立了基于指标体系的网民重要度模型，下面将针对具体的数据进行实验分析，以验证NI模型的有效性。

4.1 数据集

实验中我们选取了知名微博网站Twitter的相关用户数据，其中包含了35 763个中文用户，数据集的发布时间段为2009年1月1日至2009年9月30日，同时含有这些用户的相互链接关系信息，具体如下。

用户(网民)数据规模： 35 763条中文用户信息，每条记录包含用户名、用户描述、好友数、被关注数等。

文本数据规模：上述网民在共计九个月的时间内发表的916 450条帖子记录，每条文章记录包含用户ID、发表时间、被点击数、回复数等可用来计算网民各个指标的数据。

链接关系数据规模：上述用户的相互链接关系，共1 472 680条记录，格式为(UserID，FriendID)，前者为用户ID，后者为指向该用户的其他用户的ID。

4.2 结果与分析

首先，我们采用多专家综合打分的方式确定网民重要度判断矩阵。表4给出的是多个专家打分的综合结果。

表4 判断矩阵打分表

通过计算，其一致性指标CR=0.04<0.1，因此上述矩阵是可以接受的。从该矩阵得出各指标的权重系数后，网民重要度模型可以实例化表示为：

在计算交际广泛度指标S时，被别人关注数量followers要比关注别人数量friends对网民重要度的影响大，根据专家的建议定为a:b=5:1。

虽然根据单个不同指标也可度量网民重要性，但这样不能全面涵盖网民重要度的各个方面。为了比较分析不同的重要网民度量方法的效果、验证NI模型的有效性，我们构建了两组对比实验：一是根据PageRank算法得出的网民关联度定义重要网民，另一组是根据网民交际广泛度定义重要网民。

表5、表6、表7分别为基于网民关联度、网民交际广泛度、NI模型得到的数据集中Top20网民列表。

表5、表6中的网民在表7中排名降低往往是因为其发文频率较低，活跃度不高。另外，他们的发文也较少的被他人浏览、回复、转发。如表5中的谷奥、表6中Kai-Fu Lee等从单个指标看他们的排名很靠前，可他们的活跃度、影响力指标并不高。而我们的NI模型较好地能够综合以上因素，较为客观地反映用户的真实重要性。可以看出仅依靠某一方面度量网民重要度是不合适的，我们的模型能更全面地度量网民重要性，可以筛选出客观、更有价值的重要网民。

表5 基于关联度的重要网民Top20列表

表6 基于交际广泛度的重要网民Top20列表

续表

表7 基于NI模型的重要网民Top20列表

进一步，我们继续采用人工专家评判的方法，对排名靠前的用户进行专家打分，标注他们的重要性排名。综合专家的标注结果，重要度靠前的20名用户如表8所示。

表8 专家标注的重要网民Top20列表

续表

可以看出，NI模型前20名的结果中有14个出现在专家标注的结果Top20列表中，准确率为70%。而基于关联度和交际广泛度的重要用户排名，其准确率分别为55%、35%。可以看出，我们的模型得出的结果和专家的标注更一致，更具有实际的应用价值。

5 结论及下一步工作

本文针对社交微博类网站的网民，从网民相互链接关系和信息发布特征两个角度进行了分析，在此基础上提出了一种基于指标体系的网民重要度评价方法。Twitter上大规模用户数据的实验结果表明，该模型能比较全面地包括网民重要性的各个方面，从而从大量的网民中客观、合理的筛选出重要网民。下一步工作中，我们将基于标注数据和有监督的机器学习方法继续开展网民重要度方面的研究。此外，如何把网民发布文章的内容特征融入到建模工作中也将是一个研究重点。

[1] http://www.cnnic.net.cn/dtygg/dtgg/201107/W020110719521725234632.pdf. 第28次中国互联网络发展状况统计报告[R]. 中国互联网络信息中心(CNNIC),北京,2011.

[2] 王丽歌. WEB2.0时代的个人传播[D]. 南昌:南昌大学,2009.

[3] Page L, Brin S, Motwani R, et al. The pagerank citation ranking: bringing order to the Web[R]. Technical Report, Stanford, 1998.

[4] Taher H. Haveliwala. Efficient computation of PageRank[J]. Stanford University, 1999.

[5] Kleinberg J. Authoritative sources in a hyperlinked environment[J]. Journal of ACM, 1999.

[6] 赫南,李德毅,淦文燕，等. 复杂网络中重要性节点发掘综述[J]. 计算机科学, 2007，34(12)：1-5，17.

[7] Knoke D, Burt R S. Prominence[M]//Burt R S, Minor M J(Eds.). Applied Network Analysis. Newbury Park, CA:Sage, 1983. 195-222

[8] Freeman L. A set of measures of centrality based upon betweenness. Sociometry [J], 1977 , 40 :35-41.

[9] 张尧庭,张璋. 几种选取部分代表性指标的统计方法[J]. 统计研究,1990,(1):52-58.

[10] 王昆,宋海洲. 三种客观权重赋权法的比较分析[J]. 经济技术与管理研究,2003,(6).

[11] 章穗,张梅,迟国泰. 基于熵权法的科学技术评价模型及其实证研究[J]. 管理学报,2010,(1):34-42.

[12] Harold A. Linstone, Murray Turoff, Olaf Helmer. The Delphi Method Techinques and Applications[M]. Addison-Wesley, 1979.

[13] Thomas L Saaty. Multicriteria Decision Making, Vol1, The Analytic Hierarchy Process: Planning, Priority Setting, Resource Allocation[M]. RWS Publications, 1990.

[14] 姜艳萍,樊治平,王欣荣. AHP中判断矩阵一致性改进方法的研究[J]. 东北大学学报(自然科学版),2001,22(4): 468-470.

[15] Farkas A. Data perturbations of matrices of pairwise comparisons[J]. Annals of Operations Research,2001,101(1).