基于h指数、g指数和p指数的微博影响力评价对比研究

2018-08-11王林潘陈益朱文静

现代情报 2018年6期

王林潘陈益朱文静

〔摘要〕考虑到微博与传统文献的相似性，本文旨在探索h指数、g指数和p指数在微博影响力评价中的应用，通过对比三者的评价结果来探索3种指数在微博影响力评价上的合理性和各自的特点。首先，基于信息计量领域中的h指数、g指数和p指数的定义，针对微博转发数、评论数和点赞数构建9项微博影响力评价指标；然后，以40所“双一流”高校的微博为实证对象，通过整体对比、相关性分析等方法，将h指数、g指数和p指数对微博影响力的评价结果进行了对比。结果表明3个指数在微博影响力评价中都有一定合理性；在区分度方面，g指数和p指数都优于h指数，其中，p指数最具优势，并能挖掘高影响力的非活跃用户；在敏感度方面，h指数不易受极端值影响，更适合评价微博影响力。

〔关键词〕微博；影响力；评价；h指数；g指数；p指数

DOI：10.3969/j.issn.1008-0821.2018.06.002

〔中图分类号〕G206 〔文献标识码〕A 〔文章编号〕1008-0821（2018）06-0011-08

〔Abstract〕Considering the similarities between microblog and traditional literature，this paper aimed to explore the application of h-index，g-index and p-index in the evaluation of microblogs impact and compared the evaluation results of the three to explore the rationality and characteristics of the three indexes on the evaluation of microblogs impact.First of all，based on the definitions of h-index，g-index and p-index in the field of information measurement，this study put forward nine indexes for the evaluation of microblogs impact for forwarding，commenting and liking.Then，it took the campus microblog as the research object，through the overall comparison，correlation analysis and other methods，to compare the evaluation results of microblogs impact based on h-index，g-index and p-index.The results showed that the three indices had their rationality in the evaluation of microblogs impact.In terms of discrimination，both the g-index and the p-index were better than the h-index.Among them，the p-index had the most advantages and could find high-impact inactive users.In terms of sensitivity，the h-index was less susceptible to extreme values，which was more suitable for the evaluation of microblogs impact.

〔Key words〕microblog；impact；evaluation；h-index；g-index；p-index

微博自2009年開始内测之后，依赖其巨大的用户数量、便捷的信息发布途径以及裂变式的多点线面的信息传播方式，逐渐成为信息传播和共享的重要平台。2016年，微博的活跃用户出现了高速增长，月活跃用户数达到3.13亿，而日活跃人数也达到1.39亿[1]。自2010年的微博热潮，政府、企业纷纷加入，各高校也逐渐开通微博。截至2017年10月，在新公布的42所“双一流”大学中，已有40所高校开通官方微博。高校微博对于促进学校信息公开、增加学校与师生沟通交流、塑造学校亲民形象、增强学生凝聚力等具有重大影响[2]，如何科学客观地评价高校微博影响力成为微博运营团队和学者们关注的重要课题。

相对于传统的文献，微博信息可以看成是由大众创造的非正式、篇幅短小的文献[3]。因此可以将微博视作短篇文献进行研究，继而一些文献计量学的相关指标也能够被移植到微博影响力评价的应用中，如h指数就是其中的重要借鉴指标[4-6]。但基于h指数延伸的改进指数，如g指数和p指数，却很少应用到微博影响力评价中。因此，本文以h指数、h指数和p指数为基础，构建微博影响力评价指数，并选取高校微博为实证对象，对其微博影响力进行评价，通过对三者的评价结果进行对比来探索3种指数在微博影响力评价上的合理性和各自的特点。这对完善微博影响力评价方法和拓宽信息计量指标的应用领域具有一定理论意义，同时，客观准确地评价高校微博影响力对高校微博建设也有一定实践意义。

1 微博影响力相关研究

微博影响力是微博用户直接或间接产生影响的能力[7]，由于用户行为可以影响他人或被他人影响[8]，因此常被用来作为影响力评价的主要因素。微博用户行为主要包括转发、评论和点赞等。

如何更好地评价微博影响力是近年来关于微博研究的热点之一。当前对微博影响力评价方法最常见的有2种：1）通过对微博影响力相关因素的考量进行指标的选取，利用统计学分析确定微博影响力评价指标。如国外学者Cha等利用被跟随、转推（Retweet）和提及（Mention）3种行为来表征Twitter用户的影响力，并利用斯皮尔曼等级相关系数对3种影响力进行两两比较从而确定最终结果[7]；国内学者郝晓玲等从粉丝、博主行为、微博、博主关注者4个部分对企业家微博影响力的构成要素进行分析，最后利用主成分分析方法对要素进行归类，确认受众广度、微博受关注度、微博价值度、好友圈价值度4个构成要素[9]。2）通过将传统的网页等级指标PageRank移植到微博环境中，利用社交网络大数据对微博用户影响力进行评价，即利用微博用户与网页链接之间的相似性，建立适合微博的指标。比如Weng等人为了寻找高影响力的Twitter用户，构造了基于PageRank的TwitterRank排序算法[10]，Boyd等人则将PageRank与用户行为结合起来，构造了Twitter User Rank[11]，在此基础上，李军等人针对中国微博环境提出了Weibo User Rank[8]。

上述评价方法较为常见，但综合来看亦存在一些不足：1）相关因素的选取过程易受学者主观因素影响，缺乏客观性；2）相关因素之间的相关性将会影响结果的准确性，使统计分析过程变得繁琐；3）以PageRank为基础的计算方法需要绘制用户微博关系图，并利用社会网络知识确定权重，其中的数据获取和计算过程较为复杂。

基于此，有学者将文献计量指标移植到微博环境中，相较而言，利用这种方法进行评价时只需要获取与用户行为相关的转发、评论和点赞数据，在数据的获取和计算方面更为便捷，计算结果也更加客观。现已移植的文献计量指标只有h指数，比如，Bornmann等人以h指数为基础构造新指标对Twitter的影响力进行研究[4]，安璐等人利用h指数对高校微博影响力进行评价[5]。h指数被证明可以移植到微博环境中，但其本身存在的一些不足也被带入到微博环境，比如，对高被引文献不敏感，对拥有相同h指数的2个研究人员缺乏区分度等。h指数的2个改进指标——g指数和p指数，在灵敏度和区分度上有了很大的改进，但他们在微博影响力评价中的应用较少。

综上所述，本文尝试选取h指数、g指数和p指数3种文献计量指标，构建微博影响力的评价指标，并通过实证来对比三者的评价结果，探索3种指数在微博影响力评价上的合理性和各自的特点。

2 基于h、g、p指数的微博影响力评价指标的构建

由于微博与文献存在一定的相似性，如用户在一定时间内的发博数与学者的发文量相似，单篇微博的转发量与学者单篇论文的被引频次也存在一定的相似性，已有不少文献针对h指数在微博中的应用做了研究，并验证了其合理性[4-6]。考虑到g指数和p指数均是h指数的改进指标，本文尝试借鉴前人使用h指数评价微博影响力的经验，将g指数和p指数应用于评价微博影响力。接下来，本文将先概述原始概念，再在其基础上，构建基于h指数、g指数和p指数的微博影响力评价指标。

2.1 相关概念

2.1.1 h指數

H指数由Jorge E Hirsch最初提出，旨在评价科学家学术成就，其定义为：若一位科学家的h指数为h，那么说明他的N篇论文中有h篇论文，其中每一篇论文的被引次数至少为h，且其它的（N-h）篇论文中每一篇的被引次数都小于h[12]。由于其计算简单、可移植性强、结果相对稳定准确且易操作[13]，经常被用于其他领域，比如期刊[14]、高校[15]、机构[16]等。h指数虽简单易用，但仍存在对集中的高被引论文不敏感、对拥有相同h指数的研究者缺乏区分度、不利于对年轻科学家进行评价等难以克服的缺陷[17]。

2.1.2 g指数

针对h指数对高被引文献不敏感的缺点，Egghe在2006年提出g指数[18]，其定义为：将论文按被引次数高低排序，并且计算排序序号的平方，将被引次数逐次累加，当序号平方等于累计被引次数时，该序号就被定义为g指数。如果序号平方不能恰好等于而是小于对应的累计被引次数，则最接近累计被引次数的序号就是g指数。g指数能很好地反映高被引文献，体现了高被引文献对学者影响力的作用，弥补了h指数对高被引文献不敏感的不足，但依然存在区分度低和操作繁琐的缺陷。

2.1.3 p指数

h指数提出之后，不少学者通过数学推理证明了其与发文量和引文量之间的关系，最后G.Prathap在前人的研究基础上认为（C2/N）1/3的内涵丰富，可模拟h指数的功能，提出了p指数，p指数公式见公式（1）。其中，C代表学者所发表文章的总被引频次，C/N代表篇均被引率[19-20]。

p指数可继承h指数的优点，兼顾论文的数量（C）与质量（C/N），同时，又可以弥补h指数区分度低的缺陷[8]。因此，目前，p指数在学者影响力[20-21]、期刊影响力[22]和网络期刊的传播力[23]评价方面都有了很好的应用效果。

2.2 微博影响力指标构建

在微博环境中，用户行为是影响力评价的主要因素[10]，与文献影响力主要由被引频次表征不同，每位用户对微博的转发、评论或点赞均能体现微博影响力。因此将3个指数应用到微博影响力评价时，被引频次延伸为微博的转发数、评论数和点赞数，即h指数将对应微博中的转发h指数、评论h指数和点赞h指数，g指数和p指数同理。接下来，本文将参考前人的研究，针对微博的转发数、评论数和点赞数，分别基于h指数、g指数和p指数构建微博影响力评价指标。

2.2.1 基于h指数

参考h指数的定义以及前人对h指数应用的研究，本文将构建基于h指数的转发h指数（用符号ht表示）、评论h指数（用符号hc表示）和点赞h指数（用符号hl表示）。其中ht指数的定义为：若一段时间内，1个微博用户的ht指数为ht，那么说明他的N篇微博中，有ht篇微博每一篇微博的转发数至少为ht，且其它的（N-ht）篇微博中每一篇的转发数都小于ht。具体获取时，可以将一段时间内某一个微博用户所有微博转发数降序排列，并标明序号；然后，找出其中序号不大于其对应转发数的最大值，这个序号即是该用户的ht指数。由定义可知，ht指数是转发数大于等于序号的最大序号，而这ht篇微博是最能反映微博用户转发水平的核心微博，因此，最能反映用户转发水平的核心微博越多，ht指数越大，其微博影响力也就越大。

评论h指数和点赞h指数概念基本类似，此处不再阐述。

2.2.2 基于g指数

基于g指数定义，参考微博环境中h指数的定义，本文将构建基于g指数的对转发g指数（用符号gt表示）、评论g指数（用符号gc表示）和点赞g指数（用符号gl表示）。其中gt指数的定义为：将微博按转发数高低排序，并且将排序的序号平方，转发数逐次累加，当序号平方等于累计转发数时，该序号就被定义为gt指数。如果序号平方不能恰好等于而是小于对应的累计被引次数，则最接近累计被引次数的序号就是gt指数。由定义可知，gt指数是累计转发数大于等于序号平方的最大序号，相对于ht指数，其增强了高转发的影响力，也就是说，转发数排序靠前的微博在一定程度上决定了微博最终影响力，排序靠前微博的转发数越大，gt指数将越大，微博影响力将越大。

评论g指数和点赞g指数概念基本类似，此处不再阐述。

2.2.3 基于p指数

基于公式（1），将表征论文数量的总被引频次（C）引申为微博转发数量、评论数量和点赞数量，将表征论文质量的篇均被引率（C/N）引申为微博篇均转发数、篇均评论数和篇均点赞数，得到转发p指数（用符号pt表示）、评论p指数（用符号pc表示）和点赞p指数（用符号pl）的公式（2）～（4）。

P指数的3个指标，都直接表征了转发、评论和点赞的数量和质量。以转发p指数为例，其转发数量（总转发数）与转发质量（篇均转发数）的乘积越大，pt指数就越大，其微博影响力也越大。

3 实证研究

如何客观准确评价高校微博影响力对高校微博建设有一定指导意义，因此本文将以40所“双一流”高校微博为实证对象，获取微博的各项指数，并对各指数的评价结果进行对比探究，探索3种指数在微博影响力评价上的合理性，并探究其各自的特点。

3.1 数据收集与处理

高校微博研究往往以月或周为时间单位[5-6]，为了减少偶然因素的影响，本文将以月为单位。考虑到原创微博才能体现高校微博的创新性和主动性，更能体现校园微博真正的影响力[6]，笔者将选取发博时间在2017年9月1日至2017年9月30日之间的各个高校的原创微博数据。利用Gooseeker爬虫软件爬取这40个官方微博号在这段时间内的所有原创微博及其转发数、评论数和点赞数，总共爬取到7 069条微博，以上信息收集日期为2017年10月18日至2017年10月20日。

对数据进行简单整理排序后，利用各指数的定义计算出40个微博的ht指数、hc指数、hl指数、gt指数、gc指数、gl指数、pl指数、pc指数和pl指数。对数据进行简单的描述性统计，结果见表1。由表1可以看出，g指数和p指数的数值极差和均值都比h指数大，其中，基于转发评论的3个指数均值较为接近，而基于点赞的指数均值较大。初步可以看出，g指数和p指数的区分度比h指数大。

将40个高校微博基于每个指数进行排名，排名结果汇总见表2。由表2可以大致看出，40所“双一流”高校里，武汉大学、郑州大学、厦门大学、浙江大学和北京大學是微博影响力较大的几所，而北京航空航天大学、哈尔滨工业大学、新疆大学则是微博影响力较低的几所，高影响力高校在转发、评论和点赞上总有一项表现特别优异，而低影响力高校在三者上的表现都较差。

接下来，笔者将针对指数的计算结果和基于各指数的排名结果对各指数进行分析和对比。

3.2 指标分析与对比

由于前人已经证明了h指数应用于微博影响力评价的合理性，所以本文在进行指标对比的过程中，以h指数作为主要对比对象，基于三者之间的一致性、差异性和相关性等方面将g指数（包括gt、gc、gl）和p指数（包括pt、pc、pl）的结果跟h指数（包括ht、hc、hl）的结果分别进行比较，分析并得出最终结论。

3.2.1 基于各指数排名的一致性与差异性

对表2基于各指数的排名结果汇总进行整体对比，对各指标的一致性和差异性进行分析。

1）一致性

基于转发数、评论数和点赞数对3个指数分别进行对比，发现排名靠近首尾的高校基本相同。这说明，3个指数在对高影响力和弱影响力用户的微博影响力评价上有一定的一致性，即核心微博、排序靠前的微博以及所有微博的转发、评论和点赞水平在高影响力和弱影响力的表现上相似。具体的，就转发指数而言，武汉大学在各指标上的排名都靠前，不仅反映其转发水平的核心微博较多，其排序靠前的微博转发数也较大，同时，其微博的总转发数和篇均转发数也处在较高水平，而哈尔滨工业大学则3项都表现较差。同时，这也表明，在寻找高影响力微博用户上，g指数、p指数的表现与h指数相同，证明了g指数、p指数评价微博影响力的合理性。

2）差异性

笔者主要从区分度和敏感度等方面去分析3个指数的差异性。

区分度方面，p指数和g指数要优于h指数，其中p指数区分度最优。以转发指数为例，ht指数中，40所高校有9个重复值；而gt指数有7个重复值；而所有微博转发pt指数都不同。由此可见，3个指数的区分度排名为：p指数>g指数>h指数。

敏感度方面，g指数和p指数对单条高转发、高评论或高点赞微博更敏感。在对3项指数差异较大的微博号进行查找时发现，天津大学ht指数排序为5，而gt指数和pt指数排序升至第一、第二名。通过研究具体博文信息，笔者发现，天津大学官方微博发布的一条“#小天分享#【一个过来人的考研心得——献给考研路上的你】via简书”，转发数达到2 959，远远高于其微博平均转发水平，说明g指数和p指数相对h指数有较高的敏感度。

另外，笔者还发现，相对h指数和g指数，p指数受发博数量影响较小。通过对3项指数差异较大的微博号进行查找和探索，发现中国人民大学微博ht指数、gt指数、hc指数、gc指数、hl指数和gl指数中，ht指数为9，hc指数为10，其余全为14，排名维持在33～35，而pt指数排名在第17，pc指数排在第24，pl指数则排在第14。进一步探究发博信息，发现其在1个月内总共发送14条微博，但转发数、评论数和点赞数都较高，特别是点赞数，最高的为1 894。这说明，对于发博频次较低的高校微博来说，h指数和g指数易受发博数量限制，p指数更能体现其真正的影响力水平。