APP下载

社交网站数据采集与热点分析技术研究

2021-04-29黄德胜

微型电脑应用 2021年4期
关键词:分析方法热点社交

黄德胜

(广州卫生职业技术学院 基础学院, 广东 广州 510925)

0 引言

实现快速准确的社交网站数据采集与热点分析,有利于及时发现热点信息。众所周知,社交网络是用户在线交流、传播信息的重要场所。社交网络可以让所有用户都能够自由注册账户,与其他人建立联络,同时还能够查看其他好友的动态,为人们带来了很大便利。然而任何事情都有两面性,在社交网络用户以及信息不断增长的同时,去中心化问题也尤为突出。社交网络中的信息具有稀疏性、高维性、主题不均匀等特点,这些特点导致用户难以获取自己感兴趣的话题以及某一时间段内的热点话题。因此,如何从杂乱无章的海量社交网络信息中提取到热点话题是一个巨大的挑战。

当前常使用的关于社交网络数据采集与热点分析的方法有两种,一种是基于时间序列的社交网站数据与热点分析方法;另一种是基于事件关联的社交网络数据采集与热点分析方法。其中基于时间序列的社交网站数据与热点分析方法主要是将一定情况、场景或者某一个统计维度在不同时刻点上的各个数据,按照时间的先后顺序排列而成的序列,能够研究随机数据序列所服从的统计特征,从而对社交网络的热点进行分析。基于事件关联的社交网络数据采集与热点分析方法主要对采集的大量网络安全事件信息进行分析,从中查找到关联数据,从而分析社交网站数据热点。

尽管这两种方法在社交网站的数据采集与热点分析中分别具有一定优势,但依旧存在部分问题,为了提高社交网站的数据采集与热点分析的速度以及准确性,本研究设计了一种社交网站的数据采集与热点分析方法。首先进行社交网络数据的采集与预处理,再通过计算社交网站数据语义相似度对相关数据进行检索,最后计算社交网站中的数据热度,完成社交网站的数据采集与热点分析。实验证明,本研究设计的社交网站的数据采集与热点分析方法能够及时发现热点信息。

1 社交网络数据采集

数据采集通过网络爬虫抓取指定社交网络平台上的原始数据[1-2],下载到计算机中作为社交网络数据热点分析的数据源,并从这些数据源中抽取有价值的信息,主要包括用户信息、发布时间、文本内容、评论信息以及关注人数等,将这些信息转化为结构数据存储到数据库中。网络爬虫可以自动采集所有其能够访问到的页面内容,为搜索引擎和大数据分析提供数据来源。在抓取工作中,首先选取一部分种子统一资源定位符(Uniform Resource Location、URL),将其放入待抓取URL队列中,从中取出待抓取URL,解析DNS得到主机的IP地址,并将URL对应的网页下载下来存储到已下载网页库中。此外,将以上URL放进已抓取URL队列,再分析已抓取URL队列中的URL,分析其中的其他URL,并且将这些URL放入待抓取URL队列,在此基础上进入下一个循环。网络爬虫工作流程,如图1所示。

图1 网络爬虫工作流程

由于本研究采集的数据中包含重复数据,因此需要对采集的数据进行分词处理与过滤。处理流程,如图2所示。

图2 社交网站数据分词处理流程图

在此基础上,选取社交网站数据特征,其处理流程如下所示。

Step1:采用TF-IDF(Term Frequency-inverse Document Frequency)权值计算方法,计算经过分词的社交网站数据词频。其中TF-IDF权值计算方法的主要思想是分析某个数据在一个网站中出现的频率值[4],如果该数据在其他数据中很少出现,则认为此数据具有很好的类别区分能力;

Step2:将数据高维向量空间[5]进行降维缩减;

Step3:提取最能反映社交网站数据的特征向量;

Step4:存储特征数据。

以此,通过上述过程完成社交网络数据分词的处理,通过分词可得到每个数据对应句子的权重,其流程如下所示。

第一:特征数据存储;

第二:社交网站特征数据加权处理;

第三:按照上述权重计算结果对原文数据排序,完成数据分词权重的处理。

2 社交网站数据热点分析

2.1 数据语义相似度计算

在上述社交网站数据采集的基础上,对社交网络数据热点进行分析。在分析过程中,需要将获取的数据转换为计算机内部能理解的形式以进行数值运算[6]。因此建立向量空间模型,即对文本数据建模[7]。向量空间模型的主要思想是将数据看成孤立的、互不相关的部分,以将文本数据转化为多维度的空间向量。向量空间模型中文本与空间存在的关系,如图3所示。

图3 向量空间模型中文本与空间存在的关系

将社交网站文本数据转换为空间向量后,就可以进行相关计算,通过向量空间模型将整个数据映射为一个特征向量,如式(1)。

Q=D+R/x

(1)

式中,D表示社交网站文本数据中互不相同的词条项;R表示社交网站文本数据词频函数;x表示数据在文档中出现的次数。

在此基础上,计算数据语义相似度[8],这是由于社交网络数据热点分析过程中,数据之间具有相关性,因此采用语义相似度的方法度量数据相关性。语义相似度方法主要以信息特征为计算基础,通过分析两个概念在知识库中共享信息情况,计算二者所有信息的比率[9],如式(2)。

(2)

式中,X表示最小上层词语的深度;y表示词语包含的语义信息;d表示同义词集合中元素集合中的部分。

2.2 相关数据检索

寻找社交网站中热点数据,需要依据语义相似度计算结果建立事件关联图[10],以分析数据之间的关联关系。对相关数据检索通过两个方面展开,如图4所示。

图4 相关数据检索流程

本地事件检索主要应用了特征词提取技术[11],其具体表达式,如式(3)。

F=H/k+l

(3)

式中,H表示社交网站数据词频;k表示数据长度;l表示数据特征参数。

在互联网事件检索上,借助互联网上的搜索引擎[12]对数据进行处理,将检索到的文档分类到在本地数据库中获得的相关话题中,从而获得新的相关话题。

2.3 数据热度计算

将上述获得的相关话题文档按照时间进行划分,根据各个事件的数据文档衡量数据的热度[13]。数据热度计算涉及的主要内容,如图5所示。

图5 数据热度计算主要内容

从图5可知,社交网站的数据纷繁复杂,数据量极为庞大,而且各种各样的话题涉及到的内容不同,但只有部分数据是用户重点关注的话题。因此以衡量数据的重要度来确定数据的影响力[14],综合考虑网民关注度与媒体关注度[15],计算数据热度,如式(4)。

w=At*Et+B

(4)

式中,At表示社交网站数据在时间t内的总点击次数,即表示数据的评论数;w表示社交网站数据的权威度;Et表示社交网站数据在时间t内的报道总数;B表示调整因子。

通过上述过程,完成社交网站中数据热点的分析。

3 实验对比

为了更好地证明本研究方法的有效性,本研究使用Chrome浏览器,并利用网上一综合性大型网站为实验对象进行相关实验,通过网络爬虫抓取实验使用的4个数据集,其中主要包括娱乐类数据、体育类数据、美食类数据和美妆类数据,其大小分别为45 kB、125 kB、256 kB和452 kB,实验分析了该网站总计8天的数据。将每小时对该帖子的评论数作为热度值,采用此次设计的社交网站的数据采集与热点分析方法识别这4个数据集中的热点话题。为了增强实验的对比性,将传统的基于时间序列的社交网站数据与热点分析方法、基于事件关联的社交网络数据采集与热点分析方法对比。此次设计的方法发现在这4个数据集上的热点数据的时间。

3.1 娱乐类数据热点发现时间

三种方法发现娱乐数据热点内容的时间对比结果,如表1所示。

表1 娱乐类数据热点发现时间

由表1可知,所设计的方法能够在短时间内识别社交网站的数据。传统的基于时间序列的社交网站数据与热点分析方法、基于事件关联的社交网络数据采集与热点分析方法的娱乐类数据热点发现时间显著高于所设计的社交网站数据采集与热点分析方法。

3.2 美食类数据热点发现时间

三种方法发现美食类数据热点内容的时间对比结果,如表2所示。

表2 美食类数据热点发现时间

由表2可知,美食类数据多于娱乐类数据,在此类数据识别上,传统两种方法发现美食类数据热点的时间呈增加的趋势。并经过对比可知,所设计方法发现美食类数据热点内容的时间较短。

3.3 美妆类数据热点发现时间

美妆类数据为452 kB,数据量多于上述两种对比内容的数据,三种方法在此数据下的发现时间,如表3所示。

表3 美妆类数据热点发现时间

由表3可知,此次设计的方法发现热点的时间没有明显变化,花费时间依旧较少。而传统两种方法的美妆类数据热点发现时间仍然高于所设计的社交网站数据采集与热点分析方法。

3.4 体育类数据热点发现时间

三种方法发现体育类数据热点内容的时间对比结果,如表4所示。

表4 体育类数据热点发现时间

由表4可知,所设计方法发现体育类数据热点的时间较短,明显低于传统两种方法。或许是传统方法在分词、特征提取、权重计算与聚类处理等方面上耗费了大量时间,导致数据热点发现时间延长。因此,通过上述实验能够证明,所设计的方法数据热点发现时间短于传统两种分析方法,能够及时向社交网站用户推送热门内容。

4 总结

社交网站数据采集与热点分析是一个随着时代变化不断发展的研究领域,还有许多问题有待进一步探索与研究。针对此次研究内容的不足,今后将重点研究三方面内容,分别为如何有效及时获取网络中的最新消息;如何挖掘社交网站数据中蕴含的语义信息以提高热点数据挖掘能力;如何对音频、视频等多媒体信息进行处理以进一步提高社交网站数据热点分析效果,及时为用户提供热点数据。

猜你喜欢

分析方法热点社交
热点
社交牛人症该怎么治
聪明人 往往很少社交
基于EMD的MEMS陀螺仪随机漂移分析方法
一种角接触球轴承静特性分析方法
社交距离
中国设立PSSA的可行性及其分析方法
热点
你回避社交,真不是因为内向
结合热点做演讲