APP下载

微博热点话题检测系统的设计与实现

2013-09-17赵前东

电视技术 2013年3期
关键词:热点话题热点网页

赵前东,叶 猛

(1.武汉邮电科学研究院通信与信息系统,湖北武汉 430074;2.武汉虹旭信息技术有限责任公司,湖北武汉 430074)

微博热点话题检测系统的设计与实现

赵前东1,叶 猛2

(1.武汉邮电科学研究院通信与信息系统,湖北武汉 430074;2.武汉虹旭信息技术有限责任公司,湖北武汉 430074)

描述了一个微博热点检测系统。管理者通过它可以快速了解正在发生的或是已发生的微博热点事件。系统采用调用微博API接口与改进爬虫程序相结合的方式获取网页数据,由于网络数据量巨大,为了提高效率,还采用了网页清理技术。重点介绍了话题活性模型的方法,系统可以根据时间坐标快速寻找热点话题,提高了热点话题发现的效率,大大降低了热点话题发现的时间复杂度。

微博;API;网页清理;话题活性模型;热点话题

微博作为新时代基于Web 2.0的互联网应用,在短短几年中得到了迅猛的发展。微博是一个基于用户关系的信息分享与传播的平台,微博用户可以通过手机、PC等平台在个人微博上发布140个字以内的文本信息等内容,对大众展现个人最新状态,把最新的事物景色等即时分享,是时下流行的互联网应用之一。

微博中每天都有成千上万的话题,微博用户可以选择自己感兴趣的话题浏览,阅读话题相关的内容以及评论。如果想更深入更全面地了解一个话题,就需要不断地点击浏览相关的内容来了解事件发展的过程。微博用户如果想要了解最新最热的话题也需要通过不断刷新来浏览大量话题及其评论热度和转发数量,这样不仅花费了大量的精力,而且了解到的信息还可能不完整,得不到理想的结果。怎样实现从数量繁多的微博话题中自动检测出热点话题[1],方便管理者快速了解时下热点话题成为一个研究热点。而且在某些特殊部门的业务应用中,情报信息的挖掘和分析对其工作的开展有着极其重大的支撑作用。如果用人工处理的方式,会消耗大量时间及人力物力,不仅可能得不到精确的结果,容易错失情报间的关联,而且人工处理信息的速度非常有限。因此,本文设计一个微博热点话题检测系统,来帮助相关人员主动检测新热点事件以及跟踪以往焦点事件,提高工作的效率。

1 系统总体设计

1.1 系统的总体结构

系统的总体构架设计相当于一个大楼的框架结构设计,其重要性不言而喻。系统总体结构的优劣决定了系统的稳定性、系统功能的实现质量和执行效率,所以构建一个好的结构有着重要的意义。系统各个模块间的关系如图1所示。

图1 微博热点分析系统的模块关系

1)系统管理模块

微博分析系统设计的访问机制是基于角色的,系统针对不同权限的用户,对用户指派的虚拟角色不同,实现用户、访问权限、数据的分离。它主要由用户管理模块、角色权限管理模块组成。

2)微博信息采集模块

微博信息采集模块的主要功能是获取网络数据并将数据分类存储在数据库服务器中,以便热点信息发现模块,对其数据进行分析运算,从而达到发现和追踪热点话题的目的。现阶段能够实现新浪微博及评论等信息的获取。

3)热点信息发现模块

热点信息发现模块主要的功能是发现新的热点话题和追踪以往的焦点话题。热点分析模块根据采集到的数据和用户设定的阈值,根据话题活性算法计算,筛选出热点话题。热点监测模块能对系统新添加的话题按照相关算法进行计算,在各个时间段内进行连续追踪,来达到对热点话题的跟踪检测。

1.2 系统的业务流程

在充分理解用户需求的基础上,根据用户的实际需求,仔细推导逻辑程序,按照“数据采集—数据分析—图形化显示结果”的信息处理流程来设计微博热点话题检测系统。图2简要描述了微博热点话题检测系统的业务流程。

图2 系统业务流程图

1)数据收集

通过采用调用微博API接口与改进爬虫程序相结合的方式获取网络信息,将提取的信息按数据库中的字段分类存储在数据库服务器中。

2)数据分析处理

用户登录系统,启动系统执行热点发现程序。服务器就会从数据服务器中调用分类存储数据,根据话题活性模型,进行相关运算,完成热点话题分析、热点话题追踪等功能,并将结果返回且以直观的图表方式显示出来。

3)界面结果显示

系统分析运算完毕之后,数据处理的结果会以热点话题活性图和热点话题列表两种形式直观地显示在用户界面上。用户可以清楚地看到出现了哪些热点话题并且根据自身需要筛选关注的信息。

2 开发平台及关键技术

2.1 系统开发平台

开发环境为:服务器为多核处理器服务器,客户端为CPU 3.06 GHz、1 024 Mbyte内存的普通计算机,能够通过网络连接上服务器端即可。开发模式采用三层构架的开发模式。开发结构采用客户端/服务器(C/S)结构。后台开发语言采用C语言[2-3]。前台开发工具采用Microsoft Visual Studio 2006。数据库管理系统采用Oracle 9i。

2.2 网络数据获取

2.2.1 网页数据获取

采取调用微博API接口与改进传统的爬虫程序相结合[4-5]的方式来实现微博数据的抓取,虽然通过调用微博API接口可以便捷地抓取微博数据,但是所有的微博服务商都不会把完整的API接口权限开放给普通用户,并且对于开放的API,在返回结果数量与调用频率方面有限制,一次查询的返回结果数目上限为5 000。于是在调用API接口技术之外,还引入了基于传统网络爬虫改进的程序抓取技术[6-7],获得更多的网络数据,通过两者结合的方案可以实现微博数据高效全面的获取。但是又由于最近新浪微博颁布了禁令,禁止搜索引擎以及网络爬虫类的程序抓取微博的网络数据,所以暂时只能采取调用API接口的方式来获取微博网络数据。

2.2.2 网页数据解析

成功地获取了网页数据[8]之后,此时网页数据中还包含很多无关的数据,随即由网页解析器进行网页数据清理,提取有用的信息如网页链接URL、微博及评论内容、时间等,去除网页数据中无用信息,调用Stream类读取该URL页面的数据流,通过正则表达式类进行匹配找到微博的内容、作者、评论的内容、时间、点击数、回复数等信息,将这些信息按照数据库表的字段存储到数据库服务器中。

2.3 热点话题检测技术

2.3.1 热点数据处理流程

从图3的热点分析流程可以直观了解到,首先通过话题活性算法计算所有话题的活性值,如果超过用户设置的参数值时,则话题活性图会显示出一个比其他平稳部分高出一截的“毛刺”,热点话题列表会在界面上显示详细的话题内容、时间、评论数等。

图3 热点分析流程图

从图4的热点追踪流程可以直观了解到,热点追踪的话题活性图和热点话题列表更新的频率为1/T(T为设定值)。当时间间隔为T的整数倍时,则通过话题活性算法计算所有话题的活性值,如果超过用户设置的参数值时,话题活性图会显示出一个比其他平稳部分高出一截的“毛刺”,热点话题列表会在界面上显示详细的话题内容、时间、评论数等。同时刷新热点活性图和热点话题列表。

图4 热点追踪流程图

2.3.2 话题活性模型

话题活性是由一个话题的总发微博数和微博相关的总评论转发数决定的,根据话题活性模型计算全部话题的活性值,然后观察活性图,平稳部分就是一般的话题,出现“毛刺”的地方就说明发现了热点话题,这样可以快速找出微博热点话题。使用这种方法,大大降低了微博热点话题检测的时间复杂度。

分析话题活性[5]要从话题数量和评论的数量这两个方面考虑,话题数量即单位时间内同一话题的发帖数,评论数量即单位时间内同一话题相关的评论数。根据这两个因素构建话题活性模型:

1)单位时间内发微博数量越多则话题活性越强;

2)单位时间内微博评论数量以及被转发次数越多则话题活性越强;

3)讨论范围越热烈越集中(即评论和转发集中在几个微博且回复微博数量多),则话题活性越强。

话题活性模型具有时变特性,构建全部话题的话题活性模型如下

式中:fact(Δt)是系统在Δt内的活性值,ob(Δt)是Δt时间间隔内进入系统的根帖子数量,rb(Δt)是Δt内帖子的回复数量,orb(Δt)是Δt内根帖子的回复数量,rbi(Δt)是每个根帖子i的回复数量,即rb1(Δt)+rb2(Δt)+rborb(Δt)=rbi(Δt)。

3 系统功能实现与结果分析

3.1 评价标准

本研究根据TDT评测标准,评估话题检测系统性能的指标为漏报率、误报率以及归一化检测开销,话题i(i=1,2,…,tn)为话题的个数[9]:

系统的平均漏报率PMiss、平均误报率PFa和归一化检测开销CDet(Norm)如下

式中:Missi和Fai分别是漏报率和误报率,CMiss和CFa分别是漏报和误报的开销;Ptarget是目标话题的先验概率,P-target=1-Ptarget为后验概率。其中CMiss,CFa,Ptarget的取值在不同的测评中是不相同的,都是可自行设定的,此次测评中预设CMiss,CFa,Ptarget分别为1.00,0.10,0.02。

3.2 结果分析

设置适当的阈值且阈值不变时,根据实验分析结果和数据库真实情况比对,对漏检率、误检率、误测开销值进行评估,均得到了较好的结果。

下面是微博系统热点检测系统检测新浪微博2012年4月份热点话题的实验结果:

1)热点分析功能结果显示见图5,系统每隔5 min(300 s)读取1次活性值,突出的毛刺部分显示检测出热点话题。

图5 热点分析功能实验结果(截图)

2)热点追踪功能结果显示如图6所示,在输入框输入需要追踪的话题关键词,如“央视帅哥播音员”,从2012年4月25日上午9:30开始实验,过了二十几个小时后,追踪的热点话题出现了(如图中显示的毛刺部分)。

4 结束语

本文采用了调用微博API接口与改进爬虫程序相结合的方式获取网页数据,结合网页清理及话题活性模型等技术,详细设计了一个微博热点话题检测系统。经过实验验证,本系统确实可以有效地帮助用户快速了解新的热点话题和以往热点话题的发展态势。

图6 热点追踪功能实验结果(截图)

系统在信息个性化搜索方便还可以进行后续的改进,采用网络数据的预处理技术增加数据的预处理模块,可以使系统更加精确、高效,从而更迅速、更准确地发现和追踪微博热点话题。

:

[1]曾依灵,许洪波.网络热点信息发现研究[J].通信学报,2007,28(12):141-146.

[2]格罗夫.SQL完全手册[M].章小莉,宁欣,汪永好,等,译.2版.北京:电子工业出版社,2004.

[3]张立.C#2.0 宝典[M].北京:电子工业出版社,2006.

[4]廉捷.新浪微博数据挖掘方案[J].清华大学学报:自然科学版,2011(10):1300-1305.

[5]YANG Y,CARNONELL J G,BROWN R,et al.Learning approaches for detecting and tracking news events[J].IEEE Intelligent System,1999,14(3):32-43.

[6]周立柱,林玲.聚焦爬虫技术研究综述[J].计算机应用,2005,25(9):19-20.

[7]刘金红,陆余良.主题网络爬虫研究综述[J].计算机应用研究,2007(10):20-21.

[8]MATSUMURA N,MIURA A,SHIBANAI Y,et al.The dynamism of 2 channel[J].Journal of AI & Society,2005,19(1):84-92.

[9]丁杰,徐俊刚.IPSMS:一个网络舆情监控系统的设计与实现[J].计算机应用与软件,2010,27(4):188-190.

Design and Implementation of Micro-blog Hot Topics Detection System

ZHAO Qiandong1,YE Meng2

(1.Dept.of Communication and Information System,Wuhan Research Institute of Posts and Telecommunications,Wuhan 430074,China;2.Wuhan Hong Xu Information Technology Co.Ltd.,Wuhan 430074,China)

A micro-blog hot topics detecting system is described.System managers can quickly find the micro-blog hot events that are taking place or have occurred.The system uses a combination of calling micro-blog API interface and improving crawler program to get Web data.Due to the huge amount of network data,in order to improve efficiency,the system uses Web cleaning technology.Focusing on the method of the topic activity model,the system can quickly find the hot topic by the time coordinate,and improve efficiency of the hot topics detection and greatly reduce the time complexity of the hot topics detection.

micro-blog;API;pages clean up;topic activity model;hot topics

TN929.6

A

【本文献信息】赵前东,叶猛.微博热点话题检测系统的设计与实现[J].电视技术,2013,37(3).

国家“863”计划项目(2012BAH38B05)

赵前东(1987— ),硕士生,主研网络信息安全及通信协议;

叶 猛(1975— ),博士生导师,主要研究方向为网络信息安全及通信协议。

责任编辑:任健男

2012-09-26

猜你喜欢

热点话题热点网页
热点
热点
基于CSS的网页导航栏的设计
基于HTML5静态网页设计
结合热点做演讲
2017年高考作文热点话题预测
基于URL和网页类型的网页信息采集研究
基于SVM的热点话题跟踪实现过程研究
网页制作在英语教学中的应用
热点话题排行榜