APP下载

编辑推荐对博文影响力的扩大效应——以科学网博客社区为例

2013-02-22郑继来

新世纪图书馆 2013年6期
关键词:博文博主热门

郑继来(淮 阴 工 学 院 图 书 馆)

谢 龙(新加坡VHF Technologies Pte Ltd)

1 引言

近年来,随着科学网博客圈、科学松鼠会、各门户网站博客圈的“异军突起”,博客在公共社会领域的“第四媒体”效应已经“初绽光芒”。科学博客是以随笔、日记或论文的形式发表,以探讨学术问题为目的的学术博客。目前,科学博客已经成为比较流行的便利的网上非正式科研交流渠道,它加强了学者们同行之间的交流,拉近了学者与公众的距离,为提高公民的科学素养搭建了平台,发挥着科学普及、舆论引导等作用。

国外的科学博客已经形成一股在线科学群体力量。如美国的ScienceBlogs、Nature 网站的科学博客栏目、NASA 的科学博客门户等。而国内科学博客的大规模出现始于2007年科学网博客的开通,目前国内科研人员博客主要分布在四类网站:①商业性门户网站,如落户新浪的图林博客圈;②隶属于科研机构的非营利性质的网站,如科学网博客;③非政府组织创办的论坛网站,如科学松鼠会;④拥有独立域名的个人主页。

然而门户网站的科研人员博客较为分散,也通常不需要实名注册。相比之下,科学网博客集结了大批科研人员,而且是坚持实名注册的网络社区,用户主要来源于国内各大专院校和研究院所,包括五万多名在海外有固定职位的华人科学家,博文多以讨论工作领域及所学专业领域的话题为主。在样本的典型性和研究的可行性上,都具有其他网站无法比拟的优势,因此,本文选取科学网博客作为分析案例。

科学博客的发展及流行也引发了不同领域学者的思考,如Torres-Salinas对博客在图书馆及信息科学中的近3年使用情况进行定量分析研究,得出个人和企业博客已不再是博客主流,科学博客受到更多的关注的结论。Vaughan 和You基于网络共词分析博客的引用、合作等,证实科学博客比搜索引擎能更好地发现学科前沿、科研合作关系、交叉学科隐性信息等。汪维富等利用博主的好友链接,运用社会网络分析法,探讨科学网博客社区的信息交流与人际互动的特征。邱均平等利用博主的好友链接,探讨科学网博客社区的知识交流情况;又以科学网博客信息为基础,研究网络学术信息作者分布规律;还运用社会网络分析对博主和评论者之间的关系做了探讨。李春秋等对科学网的博文内容进行分析,探讨其学术信息资源交流的现状。

信息爆炸时代,人气与浏览量是博客服务要注意的问题。而且因为博客是一种内容自组织的知识发布方式,不论是有价值的专业知识还是虚假的学术信息,都会很快传递给读者。如果学术博客中充斥着错误的学术知识,会影响读者对知识的消化吸收,甚至在一定程度上还会破坏学术博客的知识转移环境。

科学网博客社区正是结合个人博客和博客群组两者服务模式的优势,在博客首页会及时推荐精选博文、热门博文和按照博文的系统分类列出发表的最新博文。而对于读者来说,海量博文被专业网站的编辑团队首先选择推荐,网站编辑团队做了博文的第一道“把关人”,降低了读者的时间成本,提高了科学博客的有效传播。

但是近两年,科学网编辑团队推荐的精选博文屡遭质疑,比如黄安年的博文《编辑部推荐一定是精选博文吗?》、曾庆平的博文《精选博文众口难调》、陈儒军的博文《也谈精选博文:一些现象值得思考》、吕喆的博文《科学网“精选”与“竞选”》等等。本文正是从分析精选博文和热门博文的角度出发,研究科学网编辑同读者的偏好差异性、编辑推荐对博文影响力的扩大效应、两组博文质量的比较及博文热门词汇的异同,以期对优化科学网博文精选的机制,促进学术型虚拟社区的知识交流及相关的引导促进机制提供一定的研究参考。

2 数据来源与方法

本文使用C++语言自编爬虫程序抓取了科学网1 个月(2012.7.11-2012.8.10)精选博文575 篇和热门博文2 394 篇的元数据信息,并使用MySQL 关联式数据库管理系统对数据进行清理和整理。由于绝大部分精选博文同时还是热门博文,为了避免使热门博文的特征减弱,对比不够清晰,从热门博文数据集中移除了和精选博文重复的条目共559 篇,这样形成2 个特征鲜明的数据集,其中精选博文(组1)共包含575 条记录,热门博文(组2)共包含1 835 条记录,表1 列出了两组数据集主要特征的统计学指标。然后使用spss 软件对搜集到的博主、博文题名、点击量、评论数、推荐数、博文分类等数据进行分析,并使用自行开发的中文关键词提取程序ConfuciusKeyWord 提取博文的关键词,用Tagxedo制作文字云,分析两组博文集的热门词汇异同。

表1 数据集统计学指标概述

3 两组数据对比分析

3.1 科学网编辑同读者偏好差异性分析

科学网编辑团队推荐的精选博文屡遭质疑,是推荐的标准有所下降,还是因为众口难调?为了分析编辑推荐博文的倾向和读者推荐博文的偏好有何不同,本文根据精选博文和热门博文的系统分类频率分布来表征科学网编辑及读者对博文的偏好,并进行进一步的对比分析。

图1 热门博文和精选博文的分类排名对比

针对所搜集到的热门博文1 835 篇和精选博文575 篇,统计每组数据集中博文在各系统分类上的分布情况,得到如图1 所示结果。从图1 可以看出,“观点评述”和“生活其他”这两个分类在两组数据集中都占据着前两名位置,其中“观点评述”类博文主要是博主们对科学知识、科学事件、科技体制等方面的观点或者建议,或者就某一公共事件对读者进行科学解读。而“生活其他”类的博文则是博主的个人工作趣事、生活故事、思想历程、闪现的灵感等,这两项排在“前两名”说明学者们正是通过博客这个平台,个性化地表达了自己鲜活的观点和激烈的争论,读者才可以了解到科学家的真实想法和科学事件的发展脉络,所以科学网的编辑和读者都推荐这两类博文。排名差距较大的分类主要是:“科普集锦”在精选博文中排名第三,却在热门博文中排第七,这是因为科学网的宗旨是让公众可以快捷地了解到某种最新的研究成果、科技政策、时下热门的科技话题和有趣的科普知识,所以科学网编辑团队会有意识地选择和推荐科普类博文;“海外观察”在精选博文中排第五,却在热门博文中排到第九,说明科学网编辑团队更希望读者开阔视野,了解海外科研圈现状;而“博客新闻”在热门博文中排名第四,但是在精选博文中排到了第十位,“博客新闻”往往是对一些政治经济新闻的转载和简要评述,说明科学网编辑团队不鼓励博主们去谈论政治等敏感话题。其他分类在两组数据集上的排名差距不大。

通过上述分析可以得出如下结论:科学网编辑团队推荐的精选博文更关注科普题材和海外科研动态题材,说明科学网编辑团队通过博文精选的途径,弘扬科学精神、传播科学思想、倡导科学方法、普及科学知识,而读者更倾向于阅读有关近期热门社会事件以及博主的个人生活事件等博文。

3.2 编辑推荐对博文影响力的扩大效应

作为博客个体,被点击、被推荐的几率不高,传播的目标受众也存在着不确定和不稳定性,从而导致博客的传播效果相当有限。科学网编辑团队在博客首页推荐精选博文,其实就是在加大博文被点击、推荐的几率,扩大博文的影响力。

图2 精选博文与热门博文点击量比较

本节通过精选和热门博文两组的点击量对比分析,揭示编辑推荐对博文影响力的扩大效应,之所以选择博文点击量作为衡量一篇博文的影响力,是因为一篇博文要想影响某个读者A,至少要求该博文被A 阅读,也就是A 需要点击该博文链接。因此,在不考虑转载的情况下,我们可以使用一篇博文的点击量来近似衡量其影响力。

图2 是两组博文的点击量对比情况,结合表1 和图2 可以看出,精选博文的点击量最高是60 445 次,比热门博文的最高点击量13 082 次,要高出47 363 次。精选博文的点击量最低是57 次,比热门博文的最低点击量23 次,要高出34次。即便是篇均点击量,精选博文是3482 次比热门博文528次,也要高出2954 次。从图上的频率分布也可以看出一篇博文能否得到科学网编辑团队的推荐而成为精选博文,其点击量是有天壤之别的。

表2 精选博文点击量前10 名博文

因篇幅所限,根据点击量排序,分别列出精选博文和热门博文点击量排名前10 名的博文,见表2 和表3。根据表2和表3 相对比,精选博文排名第10 名的博文点击量为17 093次,比热门博文排名第一的点击量13 082 高出31%。说明编辑推荐对一篇博文的影响力有着显著的扩大作用。因此,通过编辑推荐的方式,可以有效地引导科学网上的舆论导向。

表3 热门博文点击量前10 名博文

对表2 和表3 点击量最高的前10 名精选博文和热门博文主题进行对比发现,有相似的主题,比如青年千人计划、基金项目、北京暴雨、奥运。不相似的主题,精选博文偏重学术,比如学历造假,中科院更名。更有意思的是,热门博文出现1篇老人与狗感人故事的小说,还有1 篇因为刘玉仙老师得乳腺癌,而引起大家广泛关注乳腺癌与饮食的健康知识。从主题的对比,可以发现编辑推荐的文章更关注与学术相关和社会热点话题,而热门博文更贴近博主们的日常科研生活。

图3 博文点击量、评论数、推荐量之间的相关性检验

从表2 和表3 还可以看出,伴随着博文点击量大小变化的是博文评论数和读者推荐量大小的变化。如果博文的评论数很少,说明该篇文章的影响力很小。反之,如果博文后有大量的评论内容,说明博文受到的关注越多,其影响力就越强。而读者推荐可以看作读者对博文认同的表现。因此,如果博文点击量同评论数和推荐量正相关,也就是点击量越多的博文,评论数越多,获得的推荐也越多,这从另一个侧面也说明了编辑推荐对博文影响力的扩大作用。为了验证如上假设,本文分别对精选博文和热门博文数据的点击量、评论数和推荐量进行了Pearson 相关性系数检验,结果如图3 所示。

从图3 的相关性检验结果可以看出平方与叉积的和以及协方差都是正数,点击量与推荐数的p 值为0.000 在0.01的显著性水平(双边检验)上都非常显著,精选博文点击量与评论数的Pearson 相关系数为0.787,点击量与推荐量的Pearson 相关系数为0.790,评论数与推荐量的Pearson 相关系数为0.765。而热门博文的点击量与评论数的Pearson 相关系数则为0.490,点击量与推荐量的Pearson 相关系数为0.482,评论数与推荐量的Pearson 相关系数为0.705。这说明随着精选博文的点击量不断攀升,读者的评论数和推荐数也在显著上升,它们之间的关系是显著高相关的,再一次验证了编辑推荐确实扩大了博文的影响力。而从热门博文的相关系数可以看出,读者推荐和读者评论是显著正相关的,但是读者推荐和评论却不一定能引起点击量的攀升。这更能看出博客社区的信息管理者的角色是多么重要。

3.3 博文质量的比较

从上面的分析中,我们得到了编辑可以通过推荐精选博文的方式扩大博文影响力的结论,但是是否编辑推荐的博文其质量就高了?在本节将对两组博文的博文质量进行深入的分析。

图4 精选博文与热门博文推荐点击比比较

图5 精选博文与热门博文评论点击比比较

正如上节所说,对博文的评论数和推荐数越多,说明博文得到的读者的认可越多,但是上节中的分析同样显示,编辑推荐可以显著影响博文的点击量,进而显著影响读者的评论数和推荐数,而读者推荐却不能显著影响博文的点击量,因此直接使用评论数和推荐数来衡量博文质量将会受到编辑推荐的显著影响。为了消除编辑推荐的影响,本节采用“评论数与点击量比”和“推荐数点击量比”,简称“评论点击比”和“推荐点击比”,来衡量一篇博文自身的影响力。

从图4 和图5 看出,热门博文的推荐点击比的频率分布比精选博文高,而且热门博文的评论点击比的频率分布也比精选博文高。即热门博文比精选博文更受读者的认可,但是点击量却不成正比增长,这就说明博文的质量与博文的影响力存在一定的关联,但不一定是充分关联。

表4 精选博文评论点击比前10 名博文

表5 热门博文评论点击比前10 名博文

按照评论点击比大小排序,表4、表5 分别列出了精选博文和热门博文数据集中评论点击比排名前10 名的博文。从表4 和表5 可以看出热门博文中涉及博主个人生活占50%。而精选博文中,生活其他:观点评述:图片百科=3:3:3。这也从侧面反映出,用读者评论数来衡量博文的质量是片面的。博主个人生活事件更贴近读者的生活,让读者更能积极参与评论,而一些观点评述和科普文,可能过于专业或者学术化,所以读者评论少也是有可能的。

3.4 博文热门词汇分析

3.1 到3.3 节主要从编辑和读者的角度对两个数据集中的博文做了分析,本节将从两组数据集本身,也就是博文内容方面进行分析。

首先,我们使用自行开发的中文关键词提取程序ConfuciusKeyWord 对每篇博文提取10 个左右的关键词。然后,从每组数据中选取出现频次最高的前150 个关键字利用Tagxedo 制作文字云,结果如图6 所示。

图6 博文关键词云

从图6 中可以看出,问题、研究、工作、老师、中国、教授、项目、科研、世界、论文、技术、博士、实验、社会、文章、孩子、北京等关键字是精选博文中最频繁出现的字眼,而热门博文中频繁出现是中国、研究、科学、问题、科学网、工作、北京、世界、老师、社会、教授、奥运、大学、教育、金牌、技术、奥运会、科研等。观察两组重复的关键词,发现奥运、北京暴雨等热点事件和申请基金项目、评审、SCI、学历造假等与科研学术有关的话题都是博文内容的主题。而对照不同的关键词,会发现,热门博文中有摄影、饮食、肿瘤、退休、压力、现实、新闻、营养、考试、投稿、羽毛球、领土、钓鱼岛等与博主日常生活和社会新闻紧密相关的关键词。而精选博文中,职称、千人计划、会议、课题组、研究所、读书、教育部、经费等关键词都是与科研学习相关的。更有意思的是,“精选”这个关键词频繁出现在热门博文组里,说明不少博主对编辑推荐的精选博文有看法。

4 研究结论

4.1 博客社区的信息管理者角色非常重要

一篇博文是否被编辑推荐,其点击量有天壤之别。编辑推荐的精选博文,其点击率是极速攀升,而且随着点击量的增长,读者的评论数和推荐数也是迅速增长,图3 所做的精选博文相关性检验显示出精选博文的点击量、评论数和推荐数都是高度正相关,证明了编辑推荐可以迅速扩大博文的影响力,而反观读者推荐的热门博文,就无法显著影响点击量,这个结论对加快科学传播具有重要意义。

4.2 博文影响力的扩大除了受编辑推荐影响外还受其他因素的影响

博文影响力的扩大除了受编辑推荐影响以外,读者参与也很重要。比如评论数、推荐数、读者转载和分享的次数,也都能反映出博文的影响力。一般来说,对近期的热点事件的评论,博主个人的生活事件的感悟,还有一些与读者工作、学习和生活息息相关的话题,都会得到读者热情的回应。

4.3 博文的质量与博文的影响力存在一定的关联,但不一定是充分关联

一般来说,高质量的博文应该是能够影响社区中其他成员的观点,指导其他成员的行动,具有一定的影响力。但是有些专业性较强的博文可能会出现乏人问津的情况,这并不代表博文本身的质量低,而且读者本身就带有很强的主观性。在实际情况中,相对于整体的博客用户总数,由于时间成本、网速等原因,对博文推荐的用户只占很小的一部分,所以读者推荐是否能代表大部分读者的意见也并不确定。

5 不足与展望

本文分析数据集时没有考虑读者转载和分享的情况,对于各种评论也没有考虑语义分析,即分析读者是赞同,反对还是无倾向性的一般陈述,所以不能准确地测量出读者对博文的真实态度,只以评论数衡量读者的参与和认可度。

精选博文的作者共265 名,热门博文的作者共436 名,其中重复的作者是162 名,而累计出现2 次及2 次以上的重复作者是66 名。这也说明确实有一批博主频繁地出现在精选和热门的博文中。这是否和博主的社会声望、职称有某种关联?因为很多博主不愿意公开自己的单位信息,都设置了访问权限,导致本文抓取博主的单位、职称等信息的数据搜集不全,所以目前无法去衡量编辑推荐博文的标准是否符合马太效应?

而针对读者推荐,能否采用基于隐性评分技术的协同过滤博文推荐技术测量出博客社区大部分读者对博文的真实态度以及好友关系对读者推荐的影响,核心作者群的网络特征等,都是我们下一步有待探讨的课题。

1 沈玉华. 科学博客圈在危机传播中的信息传播特色分析——以“甲型H1N1 流感”事件为例[J].科技传播,2009(8):40~42,57

2 吕鑫,袁勤俭,宗乾进,等.学术博客研究述评[J].图书情报工作,2012,56(6):64~68

3 覃晓燕.科学博客的传播模式解读[J].科学技术哲学研究.2010,27(1):97~100

4 杨敏,马建玲.国内外科学博客研究进展与趋势[J].图书情报工作,2012,56(11):138~141,137

5 黄晓慧,詹琰.科研人员博客的科普内容研究——以科学网博客为例[J].科普研究,2010(2):24~29

6 科学网用户分析[EB/OL].http://www.sciencenet.cn/aboutus/default.aspx?id=7&type=1,2012-12-08.

7 Torres-Salinas D,Cabezas-Clavijo A,Pujz-Pérez R,etal.State of the library and information science blogosphere after social networks boom:A metric approach[J].Library&Information Science Research,2011,33(2):168~174

8 Vaughan L,You J.Word co-occurrences on Webpages as a measure of the relatedness of organizations:A new Webometrics concept[J]. Journal of Informetrics,2010,4(4):483~491

9 汪维富,钟志贤. 博客社区中好友链接的社会网络分析——以科学网的博客社区为分析案例[J].现代远距离教育,2010(5):55~59

10 邱均平,王菲菲.基于博客社区好友链接的知识交流状况分析——以科学网博客为例[J].图书情报知识,2011(6):25~33

11 邱均平,余凡.网络学术信息作者分布规律研究——以科学网博客为例[J].图书情报工作,2011(20):15~18,35

12 邱均平,李威. 基于社会网络分析的博主与评论者关系研究——以“科学网博客”为例[J].情报科学,2012(7):959~963

13 李春秋,李晨英,韩明杰,等.科学网博文中的学术信息资源交流现状分析[J].图书馆论坛,2012(2):5~8

14 胡昌平,俞晶晶,邵其赶.学术博客中的创新知识转移[J].情报杂志,2008(5):3~6

15 科学网首页[EB/OL].http://www.sciencenetcn/,2012-12-08.

16 王以芳.科学博客:探索在公众理解科学的最前沿[J].科普研究,2011,6(4):40-45

17 Tagxedo[EB/OL].http://www.tagxedo.com/,2012-12-08.

18 刘华杰.整合两大传统,兼谈我们所理解的科学传播[J].南京社会科学,2002(10):15~20

19 卢露,丁才昌.社区中最具影响力博客的探测模型[J].计算机科学,2011,38(10A):165~168

20 曾子明,王峰.移动环境下基于隐性评分的博客推荐技术[J].情报杂志,2012,31(4):117~121

猜你喜欢

博文博主热门
跟着零食博主买拼多多小吃
如果孩子想当美妆博主
第一次挣钱
时尚博主谢慕梓:分享身边的美
谁和谁好
Review on Tang Wenzhi’s The Gist of Chinese Writing Gamut
创意折纸小动物
2009年热门特色风味小吃
本月热门产品报价