APP下载

易班敏感词监测系统研究与设计

2017-07-01蒋春华刘欢刘忆宁

科技视界 2017年6期
关键词:网络爬虫

蒋春华 刘欢 刘忆宁

【摘 要】易班网是一款高校教育教学,生活服务, 文化娱乐的综合性互动社区网,其参与主体是高校老师和学生。文章提供了一种监测校园舆情的方案,该方案将网络爬虫和敏感词进行对比搜索来监控舆情方向。实验数据表明,通过网络爬虫技术可以很好的用来监测校园舆情。

【关键词】易班网;网络爬虫;敏感词

The Research and Design about Sensitive Words Monitoring System on Easy Class Network

JIANG Chun-hua LIU Huan LIU Yi-ning

(School of Computer and Information Security, Guilin University of Electronic Technology,Guilin Guangxi 541004,China)

【Abstract】Yi Ban network is a comprehensive interactive community network with function of education and teaching in college,life services, culture and entertainment.A program is proposed to monitor the public opinion of the campus.Comparing the web crawlers and the search of sensitive words,it can monitor the direction of the public opinion.The experimental data shows that web crawlers can be used to monitor the public opinion of the campus.

【Key words】Yi Ban network;Web crawlers;Sensitive words

0 引言

随着科学技术的发展,信息技术逐渐走进千家万户。信息技术的发展给人们日常生活带来便利的同时,也给人们生活带来挑战。人们崇尚自由,在看不见的网络中发表着自己的观点,而不需要承担言论带来的责任。有些别有用心的人会引导网络言论,从而达到自己的目的。因此需要对网络言论进行监控,防止不明真相的参与者被别有用心的人引导。

在校大学生是网络言论的主力军,然而由于大学生普遍涉世未深,极易受到不实信息和敌对势力的蛊惑煽动,在虚拟网络世界里发表一些激进的观点和言论,影响校园和社会的稳定团结。为此,监测大学生的网上言论,通过大学生网上言论了解其心理思想和诉求是极其重要的。微博、贴吧、人人网等社交平台,无需实名注册,人员混杂,因此对这些平台上在校大学生进行网络舆情[1]监控十分困难。易班网是一款专门针对在校大学生开发的互动社区,需要实名注册。因此可以利用易班网对大学生进行网络言论监控[2],从而了解大学生心理思想和诉求。利用易班网可以很好的了解当代大学生对于各种网络事件的观点[3]、舆论导向以及大学生的心理状态,有利于学校及时处理相关舆情事件、引导舆情的发展[4]。

1 易班网络舆情监测方案

图1 系统流程图

利用敏感词监测系统对于易班网络舆情监测进行调研,在系统开发过程中综合各方面因素,使用了Python2.7版本作为开发语言,MySQL5.1版本作为数据库存储系统,界面设计使用Django框架进行web展示。该系统主要包括了信息获取、信息处理、舆情分析和舆情预警等四个模块。程序运行流程如图1。

1.1 信息获取

对于易班网络言论进行分析,发现用户言论主要集中在对文章的评论[5],因此这一部分是信息获取的主要途径。由于每个学校都是有相对应的ID,因此我们只需要对本校对应的

ID域进行监控和爬虫爬取,从而获取到学校在易班网上所有的文章URL。对这些URL进行存储和网页爬取,获取文章信息以及文章下面的用户评论信息。易班网络的环境导致团队成员需要综合考虑各个方面,对爬虫进行了延时处理,即每隔一定的时间(该时间可以由系统后台管理员设定)对易班网进行爬虫爬取信息。由于爬虫在轮回爬取过程中,会遇到很多重复URL地址,为此,本系统在对爬虫爬取过程中做了去重处理,而且在入库处理时对文章和评论发表时间做了判断,以确保存储的数据是最新的且避免了重复数据入库。

1.2 信息处理

信息处理模块主要是对获取到的用户评论信息进行入库处理。经过分析可知:易班网采用JSON格式的方式处理用户的评论数据。针对这种处理方式,对JSON数据进行了分析,将数据进行了分隔,对文章URL、文章下所有的评论人员的ID,评论内容、评论时间等字段内容进行了入库处理。

1.3 舆情分析

舆情分析是舆情监控系统的关键模块。为了便于应对各种突发情况和管理员针对不同信息进行分析检索,系统管理员可以在后台自主设定舆情敏感词。系统利用这些敏感词和数据库中信息进行匹配,找出存在敏感词的评论,以及发表该评论的人员和文章的URL地址。匹配过程如下:建立敏感词数据库,将敏感词与获取的评论信息进行匹配查找,确定是否存在包含敏感词的言论。将包含敏感词的评论文章ID和评论信息存储下来,并且通过E-mail实时通知负责人员进行处理。

1.4 舆情预警

互联网信息的传播速度很快,舆情的爆发时间也具有不可预料性,而管理人员不可能实时在线,因此,及时预警舆情是网络舆情监控系统不可或缺的功能。该系统的舆情预警主要通过发送E-mail到监控人员移动终端进行实现。当匹配到相关敏感词在文章评论中出现时,系统会自动向后台设定的邮箱地址发送预警邮件。预警邮件包含敏感词所在文章的网页地址,便于管理人员可以及时了解到舆情的动态,及时妥当处理相关问题[6]。

2 结论

本系统利用网络信息技术来实现对易班网络的实时舆情监测,以解决传统人工监测时“人手不足、容易疏忽、效率底下”等问题,可以更加及时的发现问题,净化校园网络环境,引导舆论导向,并且可以及时定位言论发布者,以便于做出相应处置。

【参考文献】

[1]王娟.网络舆情监控分析系统构建[J].长春理工大学学报(高教版),2007,4: 201-203.

[2]张珏.网络舆情预测模型与平台的研究[D].北京:北京交通大学,2009.

[3]J.Zeng,S.Zhang,C.Wu,et al..Predictive Model for Internet Public Opinion.Fuzzy Systems and Knowledge Discovery,2007.FSKD 2007.Fourth International Conference on.IEEE,2007,3:7-11.

[4]滕云,陳玲.网络舆情特点的实证研究——基于高校BBS论坛的文本分析[J]. 山东社会科学,2014,3:181-186.

[5]D.Shen,Z.Chen,Q.Yang,et al..Web-page classification through summarization[C]. Proceedings of the 27th annual international ACM SIGIR conference on Research and development in information retrieval.ACM,2004:242-249.

[6]殷晋,雷航.网络舆情发现与分析系统设计与实现[D].成都:电子科技大学, 2014.

[责任编辑:田吉捷]

猜你喜欢

网络爬虫
炼铁厂铁量网页数据获取系统的设计与实现