APP下载

微博社交网络数据挖掘与用户权重分析

2016-05-14张宇航

中国高新技术企业 2016年5期
关键词:新浪微博社交网络数据分析

摘要:随着互联网时代的到来,数据成为当今社会中重要的资源,在庞大的数据体系中蕴藏着无限的价值,对这些数据进行挖掘有着重要的意义。社交网络是在传统网络的基础上发展而来的,但是当网络的应用和移动的终端设备快速的发展时,社交网络也飞速发展起来。文章对新浪微博中的数据通过适当的方式进行了收集,并进行了相关的分析。

关键词:新浪微博;社交网络;用户权重;数据分析;数据体系 文献标识码:A

中图分类号:TP391 文章编号:1009-2374(2016)05-0190-02 DOI:10.13535/j.cnki.11-4406/n.2016.05.095

信息的获取方式有很多种,但是比较常用的主要是两种:一种是网络爬虫;另一种是网页信息解析。但是微博用这两种常规的方法很难高效地获取相关数据,因为微博的用户量很大,数据更新的速度很快,用户之间的交流很频繁,这种常规的方法无法实现这种数据的获取。所以,微博的数据获取主要依赖于API接口,它是由微博服务商提供的一种可以查询微博数据和微博中的交流情况的应用,可以实现微博数据的获取。

微博服务商不仅可以获得微博的数据,还可以获得用户的数据,这些数据都是很重要的资源,但是API作为一个服务器,同其他服务器一样,有一定的负荷限度,所以为了保证服务器不出现崩溃、为了保护数据不丢失,必须对每个API接口设置一定的权限。在新浪微博中,一般的权限是用户在一个小时内调用的次数不能太过于频繁,最多为1000次,而且在此基础上每个API中都设有各自的小权限,所以在收集数据的过程中要分别对每个API接口进行相应的设置,这样才能获得更多的数据。除了解决API接口的限制问题,还需要系统具备灾难恢复功能,这样可以相对提高数据获取速度。

1 微博数据收集和特征分析

1.1 微博数据收集

虽然利用开放的API接口可以收集微博中的数据,但是还有一个重要的问题需要解决,那就是关于用户的身份认证的问题。用户在微博中注册的时候进行的身份认证是受保护的,任何第三方在不知道用户名和密码的情况下是不能查看该用户的任何信息的。新浪微博是通过OAUTH认证来实现用户身份保护的,QAUTH认证不仅安全,而且还特别简单实用,在新浪微博中主要是用于API的用户验证协议。当用户在微博中进行注册的时候,通过QAUTH的授权后,用户会收到一份由API根据用户的请求而发送的XML或JSON文件。可以通过对这类文件进行解析,从而获得原始的数据。

1.2 微博特征分析

每个用户的受关注程度都不相同,为了评价某个用户的受关注程度,可以通过统计其微博的回复数和转发数来估计。在新浪微博中,对于用户所发送的一条微博,关注他的用户可以有三种行为:第一种是单纯的回复,在这种情况下该用户的微博中的评论数就会增加1个;第二种是单纯的转发,在这种情况下该用户的原微博中转发数就会增加1个;第三种是既有回复又有转发,在这种情况下就会评论数和转发数都加1个。所以在微博的转发回复两者之间既相互联系,又相互区别。同理,微博的回复数量和转发数量之间同样存在着某种关系,如果某一条微博的回复数量很高,那么这条微博被转发的可能性也很大。

新浪微博较其他的社交网络平台有更多的功能,其中很重要的一个就是在新浪微博中含有很多多媒体的信息。经过统计发现,在微博的内容中添加了一些图片或其他多媒体信息会比单纯的文字内容更具吸引力,会有更多的回复量和转发量。此外,对于同样具有多媒体信息的微博,如果在微博中存在提及关系,那么它的关注量会比没有提及关系的更高,而且这个关注度还随提及的用户的数量的增加而增加,所以在微博传播性能参考特征中还有提及特征。

2 用户特征分析

虽然微博同Facebook、MySpace等一样都是社交网络,但是微博有很多不同于它们的特点。比如,在微博中用户之间的友好关系是双向的,当用户A关注用户B的时候,不需要经过用户B的审核,而且如果用户B不关注用户A的话,用户A就不会出现在用户B的关注名单中,在这种情况中,用户A与用户B之间的关系比较复杂,与一般的好友关系不同,前者是后者的粉丝,后者是前者的被关注好友。在微博这种社交网络中,其结构特征可以描述为一种关系式,即G=(U,E),U指网络中的节点,也就是用户,E表示各个用户之间存在的有向的连接关系。该关系式称为网络拓扑关系,在这个关系式中,分别设定了出度和入度,其中出度是指一个用户的关注好友数,入度是指这个用户的粉丝数量,通过用户的出度和入度形成了一个网络节点的度的分布特征。

在新浪微博中用户是分不同等级的,在本文进行数据收集的过程中发现,在新浪微博中通过认证用户将用户分为普通用户和认证用户。因为微博在不断的升级更新,在最新版的新浪微博中对认证用户进行了更加详细的分类。在研究过程中发现,经过认证的用户的粉丝量较普通用户多很多,而且其微博的评论量和转发量也更高,所以是否为认证用户也在很大程度上决定了微博的传播情况。一般来说,如果一个用户有很多的粉丝,那么他的微博被转发或者被评论的可能性就很高,对于用户微博的转发与回复数与用户粉丝数量之间存在着很密切的关系,但是这个关系比较模糊。

当用户打开微博的时候,最先呈现在其微博首页的是其所关注的好友的最新微博,一般都是按照时间的顺序进行排列,最新的消息排在最上面。一般来说,用户打开微博后最先出现的就是关注好友的最新微博,但是随着逐渐向下滑动,会有更多的信息呈现出来,所以每次用户在打开微博后,会有大量的信息出现,但是一般的用户都只是简单浏览,很多信息都会被忽略掉。因此,一个微博是否会被关注还会因为用户的情况不同而不同,如果一条微博的发布时间恰好处于用户的活跃时段,那么被关注的可能性就会很大,但如果恰好处于不活跃时段,则很有可能会被忽略,所以用户的活跃时间特征也是微博传播的重要影响因素。

3 基于HITS算法的节点权重分析

在社交网络中特别重视人与人之间的相互关系,所以一个很具有权威的微博作者的微博会传播得更广。通过前面的分析可知,用户的权重有很多的影响因素,比如用户的影响力、用户的活跃程度等。HITS算法是一种权重排序法,在互联网中有很广泛的应用,它主要是指:在同一个网页中同时存在两个不同的值,分别是hub值与authority值。其中hub值是指该网页所指向的所有的网页中的authority值构成;而网页的authority值由指向该页面的所有网页hub值构成。在互联网中,有这样一个规律,如果有很多具有高权威性的网页都指向一个未知的网页,那么这个未知的网页在很大程度上也会是高权威性网页。

在整个互联网中,每一个网页都会含有各种不同的连接,假如在你打开的一个具有很高权威性的网页中连接到某一个广告,那么这个广告就会因此而同样具有很高的权威性;或者另外一种情况,当你在搜索一个主题的时候,出现一个与你搜索的主题没有任何关系但是具有很高权威性的页面,这些情况都会使得HITS的公正性受到严重的影响。但是,在微博中,每个用户都是独立的个体,都有自己的思想。很多明星在微博中有大量的粉丝,并且一般都只有少量的关注好友,但是他们的微博通常都会有很高的回复率和转发率。对微博中的用户进行详细的分析后,得出了一些重要的规律,比如:在新浪微博中,如果某个用户有很高的权重,他关注的好友越多,那么说明他所关注的好友越不重要;但是,反过来,如果他关注的好友越少,则说明他所关注的好友对他来说都很重要。为了限制权威性用户无限度的传递其自身的权威性,必须将HITS算法进行相应的改进,因为在微博中用户之间的友好关系是有方向的,这种关系正好与互联网的网页连接非常相似,所以可以按照互联网中的方法同样的改进,HITS算法。

在社会快速发展的同时,互联网也在迅速的发展,特别是社交网络如微博逐渐成为人们日程生活中不可或缺的一部分。社交网络比传统网络传播信息速度更快,特征也更复杂,所以传统的理论和研究模型都不再适用于社交网络,怎样才能更加快速、更加高效地获取社交网络中的各种信息和数据,具有很重要的研究意义和应用的价值。

本文将API接口的应用合理地运用到研究过程中,并结合网页信息解析法,分别对微博的数据进行了收集和多角度的分析,根据研究结果发现影响了影响微博用户的权威性和微博的传播范围的相关因素。在微博等社交网络中,虽然所发布的内容完全相同,但是具有不同权威性的人进行发布将会有不同的效果、不同的影响力。

参考文献

[1]Linyuan Lü,Matú?Medo,Chi Ho Yeung,Yi-Cheng Zhang,Zi-Ke Zhang,Tao Zhou.Recommender systems[J].Physics Reports,2012,(1).

[2]Chuang Liu,Wei-Xing Zhou.Heterogeneity in initial resource configurations improves a network-based hybrid recommendation algorithm[J].Physica A:Statistical Mechanics and its Applications,2012,(22).

[3]蒋昌金,彭宏,陈建超,等.基于主题词权重和句子特征的自动文摘[J].华南理工大学学报(自然科学版),2010,(7).

作者简介:张宇航,男,本溪广播电视大学计算机讲师。

(责任编辑:王 波)

猜你喜欢

新浪微博社交网络数据分析
新浪微博娱乐明星的社会网络分析
社交网络自拍文化的心理解读
新常态下集团公司内部审计工作研究
浅析大数据时代对企业营销模式的影响
社交媒体平台医患关系报道特点研究
微博的社会公信力现状探究及其未来构建研究