APP下载

网络舆情主动感知技术探析

2017-09-03郑步青邹红霞

兵器装备工程学报 2017年8期
关键词:分词舆情聚类

郑步青,邹红霞,王 琳,王 桢

(装备学院 a.研究生管理大队; b.信息装备系, 北京 101416)

【信息科学与控制工程】

网络舆情主动感知技术探析

郑步青a,邹红霞b,王 琳b,王 桢a

(装备学院 a.研究生管理大队; b.信息装备系, 北京 101416)

针对网络舆情主动感知技术研究的片面性和主动感知界定的模糊性,对主动感知技术进行初步探析。按照舆情分析的主要流程,以信息获取、处理和分析模块为基础,从感知来源、感知内容、感知方法3个方面对技术原理及难点进行了探讨;感知来源主要分为网页感知、微博感知、论坛感知;感知内容主要有语义感知和文本感知;感知方法主要有关联感知和预测感知。对网络舆情各方面的主动感知技术进行了框架性的描述。

网络舆情;主动感知技术;来源感知;内容感知;方法感知

随着互联网的发展和普及,网络为人们提供了丰富的信息资源,网络媒体已经被公认为继报纸、广播、电视之后的“第四媒体”。网络成为反映社会舆情的主要载体和舆情传播的重要平台。网民可以在网络上自由发表言论,从电子邮件、论坛、博客再到微博,形式多样,渠道多种[1]。一方面,网络的开放性和网民互动形式的多样性使得民意表达更加畅通。另一方面,由于网络的虚拟性和缺少规则限制,导致网络成为非法言论、非理智情绪的传播渠道。同时随着网络数据飞速增长,信息主题的模糊性越来越明显,多元化和非结构化的数据使得传统分析方法对网络舆情事件的探索越来越困难[2],加强舆情提取信息的高效性和挖掘信息的准确性显得越来越重要。因此,实现对网络舆情的主动感知,进行突发事件的评估预测,成为当前网络舆情管理的必要手段,对主动感知网络舆情技术的研究也成为当前关注的热点。本文按照舆情分析的主要流程,分别从感知的来源、感知的内容、感知的方法3个方面对主动感知技术在网络舆情上的应用进行探析。

1 主动感知的引入

主动感知是指通过建立模型,挖掘数据背后的语义关联,掌握舆情的演化规律,对舆情进行一定的评估预测,可为后期网民集群行为引导策略的制定提供一定的理论和实践指引。“主动”是指在舆情研究上实现舆情的主动获取信息,根据得到的数据进行态势感知,探索其中的关系。“感知”是指对舆情的了解和挖掘信息。主动感知和搜索的区别在于搜索是只从网络上收集信息,而不对信息进行态势分析,主动感知不仅仅对数据进行爬取,而且对数据进行深度关系挖掘。

不同主体对信息的需求也不一样,感知的内容、方法也不相同。从主体来看,政府需要从信息中发现事件间的联系,商家需要从中发现商品的火热程度;从来源上来看,感知的路径有网页、微博、论坛等,其中所用的采集技术不一样;从感知的方法来看,主要是对信息的关联感知和预测感知等。

目前,在主动感知方面的研究还有所欠缺,存在着对主动感知分析片面、框架不完整、定义不明确等问题。当前有从语义层面上对主动感知技术研究,通过挖掘数据背后的语义关联,设计舆情事件的热点主动感知系统[2],也有以微博为信息源从分类技术层面对主动感知进行探索[3]。这些研究大多只从某一个侧面对主动感知技术加以分析,缺乏从舆情总层面来看待舆情和主动感知的关系。

舆情分析的流程一般来说主要包括信息采集、信息处理和信息分析3个部分,针对这3个部分的功能和特点,主动感知技术涉及的具体内容也有不同的表现。采集模块主要是对不同来源的感知,来源主要分为网页、微博、论坛等多个渠道,涉及到的技术包括爬取和抽取技术,对不同来源的高效爬取与抽取是主动感知的主要内容。信息处理模块主要是在内容上对语义和文本的感知,涉及的技术包括语义识别和文本分类聚类技术,对文本进行有效处理是主动感知的主要内容。分析模块主要是进行数据挖掘,涉及的技术包括关联性分析和评估预测等。对数据进行深度挖掘,实现预测预警是主动感知的主要内容。图1是反映舆情分析各个阶段主动感知的主要内容。

图1 舆情主动感知技术图

2 信息采集中的主动感知技术

目前,主流媒体主要有网页、微博、论坛、微信等,基于不同媒体的特征结构不一样,感知的内容和感知所使用的技术也不一样。

2.1 网页感知

随着网络技术和应用的飞速发展,新闻传播机制的变革加快,阅读网络新闻己渐渐成为人们获取信息的一个重要渠道。特别是在网络新闻竞争日趋激烈的今天,网络新闻专题成了网络媒体角逐的热点,如何提前感知重大新闻事件也成为研究热点。

新闻网页的特点是在报道后面通常会设有新闻跟帖,方便网民对报道直接评论。新闻数据有正文、标题、出处、发布时间、相关新闻的链接等,网民的跟帖数据有跟帖人、跟帖内容、跟帖人信息和跟帖人计算机网络地址等。因此,网络新闻专题是突发事件网络舆情数据采集抽取的重要信息源。

在采集新闻网页中的舆情信息时,主要采用的抽取方法有[4]:基于规则的信息抽取方法和基于统计的信息抽取方法。基于规则的信息抽取是一个学习和应用的两阶段过程[5],规则的学习和应用规则获取目标信息。它的优点在于抽取的效率和准确率较高,缺点在于系统可移植性差。基于统计的信息抽取是通过训练大量的样本数据获取模型参数,可移植性较好,对领域知识的要求不高,但是抽取的准确性较低[6]。

在新闻网页感知中,提高采集的准确率、克服不同网页结构带来的规则差异、提高模板的可移植性是感知的研究方向。

2.2 微博感知

微博是基于人物节点之间社交关系的媒体,包括3个基本数据结构:用户数据、用户关系数据以及内容数据。基于微博的数据海量、时效性强等特点,较多舆情都是从微博上产生并快速发酵的,如何从大量、更新快的信息中感知舆情热点成为重要研究课题。

微博数据的采集关键在于微博爬虫的设计。基于微博动态扩展的数据结构,采用非分布式的结构化数据存储显然不适合数据的采集,因此基于Hadoop的分布式爬虫成为爬虫设计的主要选择。微博爬虫是一种自动提取信息的程序,它的目标在于从海量信息中采集需要的数据,为舆情监测或研究提供数据基础。设计爬虫需要考虑以下3个问题[7]:首先是选择合理的渠道高效、快速的爬取各个维度的数据;其次设计相适应的去重策略,避免重复爬取相同的数据;最后对于获取的多维度数据,需要采用合理的微博数据存储策略。微博感知的主要内容在于设计一个好的爬虫,能快速采集到完整、有效的数据。

2.3 论坛感知

由于网络论坛极强的交互性,网民可以随时随地在网络社区中发表帖文,发表带有个人观点的各种信息,网络论坛已经成为信息时代网络民意的集散地。目前,全国现有论坛网站130万个,影响全国网络舆论走势的网络论坛有20多家。论坛的主动感知有利于了解网民民意的趋向和态度,对社会稳定有一定促进作用。

论坛数据保存在后台数据库中,根据用户提交的参数,动态从数据库中读取相关内容生成网页。论坛具有独特的特点[8]:链接层次比较深;链接种类繁杂。论坛中除了帖子对应的链接外,还有大量的外部链接;最后是内容重复链接。论坛中往往存在大量链接不同但是指向是统一页面的情况。这些特点给论坛的采集工作带来巨大的困难。

论坛数据采集是一种特殊的Web信息采集[8]。采集的原理和Web采集相同,是通过Web页面之间的链接关系,从Web上自动获取页面信息,并且随着链接不断扩展的过程。目前关于论坛采集的研究比较少,有提出基于版面扩展的采集方法,也有提出基于URL分类的方法。论坛的感知需要不断的克服论坛特点所带来的难点,对链接的识别增强算法的改进。

目前,随着微信等平台的迅速发展,信息源的不断扩展,在对新型平台进行舆情感知时,须对新的模板规则进行学习训练,加强对传统采集技术的改进。

3 信息处理中的主动感知技术

信息的处理包括对信息的语义和文本的处理,旨在将信息转化为计算机能够识别的结构化信息,并对其进行分类处理。

3.1 语义感知

3.1.1 语义识别和分词

语义识别和分词是对抽取的信息里进行词义感知,达到信息预处理的效果。中文信息[9]主要是由字词组成,由于字没有相对固定的含义,因此,要对中文进行信息识别就必须将信息拆分为一个个的词。近年来,国内众多学者在中文分词领域做了大量研究工作,取得了一定的研究成果。

到目前为止,中文分词包括3类算法[10]:基于字符串匹配的分词、基于理解的分词、基于统计的分词。基于字符串匹配的分词又叫做机械分词方法,它是按照一定的策略将待处理的文本中由标点符号分开的每句作为一个字符串,与一个“充分大的”机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功,即识别出一个词;基于理解的分词是通过让计算机模拟人对句子的理解,达到识别词的效果; 基于统计的分词方法只需对文本中的字组合频度进行统计,达到分词效果。

目前,分词算法还没有统一的标准,由于中文中存在着歧义词、同义词等,不同句子会造成不同的含义,对分词的精度产生一定的影响[11]。在语义识别感知上需要统一标准,克服文字特点带来的困难。

3.1.2 文本特征提取

文本特征感知是选择特征、提取特征,进行量化感知从而表达文本信息的过程。特征选择[12]是从一组特征中选出一部分最有代表性的特征。特征提取可看作从文本空间到特征空间的一种映射或变换,它把从文本中抽取出来的特征词进行量化来表示文本的信息,通过抽象化文本使得电脑可识别存储记忆。

特征的提取[13]一般是通过构造一个特征评价函数,把文本空间的数据投影到特征空间,得到在特征空间的值,然后根据特征空间的值对每个特征进行评估,选择值最高的若干个特征。常用的评估函数主要有文本频率、互信息、信息增益、期望交叉熵、优势率、多类优势率、类别区分词、文本证据权、基于词频差异的特征选取等。

在文本特征感知上,主要研究方向是处理向量高维度带来的影响,通过降低特征空间的维数,达到降低计算复杂度和提高分类的准确率的目的。

3.2 文本感知

3.2.1 文本分类

文本分类是指在给定的分类体系下,根据文本的内容将文本自动分配到预先定义好的类别中。文本分类一般包括文本的表达、分类器的选择与训练、分类结果的评价与反馈等过程[14]。通过文本分类技术可以对网络上的海量文本数据进行高效快速的整理,从中挖掘到用户感兴趣的相关信息,过滤用户不需要的数据,也便于后期对文本的检索和处理。

目前,文本分类的方法[15]主要包括基于统计的文本分类方法、基于连接的分类方法、基于规则的文本分类方法。如表1所示是对各种分类方法的对比总结[16-18]。

随着信息的表示形式越来越丰富,信息量越来越庞大,如何在大数据中对非结构化文本进行分类及提高各种分类方法的分类品质成了研究重点。

3.2.2 文本聚类

文本聚类是数据挖掘的一个重要功能。文本聚类是采用某种方法将一个看似杂乱无章的文本集划分成若干个组或者类的过程,并使得同一类别内的文本都具有较大的关联性或者相似度。

文本聚类算法可分为以下4类[19]:

1) 基于划分的聚类,将n个文本划分为k个簇,即将文档进行k个划分,主要有K-means算法;

2) 基于层次的聚类,将文本集D划分为k个不同层次的簇,形成新的聚类二叉树;

3) 基于密度的聚类,如果文本集中的某个文本满足最小阈值,则认为该文本为密度中心,将在它密度范围内的其他文本归类;

4) 基于网格的聚类,样本空间由若干个单元组成的网格结构,进行聚类操作时,每个单元为最小操作对象,运算时只考虑单元格的数量。

聚类感知作为一种无监督的机器自动学习方法,可以实现对大规模文本集的内容概括、检测垃圾邮件等功能,己成为文本信息组织、摘要的重要手段。

表1 分类技术对比总结

4 信息分析中的主动感知技术

数据挖掘是舆情后期分析中必不可少的步骤,数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程[21],其中数据挖掘的主要功能[22]有数据总结、分类、聚类、关联分析、预测、偏差分析。在舆情信息分析模块中,主要是针对前期已处理好的数据进行关联性分析,进行评估预测。主动感知在数据挖掘上的应用体现在关联感知和预测感知两个方面。

4.1 关联感知

关联感知是从数据背后发现事物之间可能存在的关联或者联系。对于商家,通过调查网络信息中某类商品被讨论的较多就可以发现这类商品的销售程度;对于政府部门,通过挖掘信息之间背后隐藏的关系就可以顺藤摸瓜发现事件爆发的源头,抑制恶劣事件的蔓延。

关联感知的原理[23]是寻找支持度和可信度分别大于用户给定的最小支持度和最小可信度的关联规则。支持度是一个重要的度量,如果支持度很低,代表这个规则其实只是偶然出现,基本没有意义。因此,支持度通常用来删除那些无意义的规则,而可信度则是对关联规则的准确度的衡量。支持度和可信度描述了一个完整的关联规则。较为经典的关联挖掘算法是Apriori,该算法先挖出所有的频繁项集,然后产生关联规则。

在全球一体化的今天,事件联系越来越紧密,从一颗螺丝钉的变化就足以窥探社会发展的变化、经济的景气程度,关联感知的作用越来越明显。关联技术可以挖掘舆情各主体间的关系,从而得到更多信息,得到更为有效的判断,为后期人们集群行为引导策略的制定提供一定的理论和实践指导。目前,关联感知的应用较为广泛,主要有银行、金融数据分析、零售业、生物医药、入侵检测和预防方面等[24]。

4.2 预测感知

从数据的走势趋向预测事件下一步发生的状况是预测感知主要目的。预测感知的主旨是预测模型,构建预测模型是预测感知的主要内容。

随着研究的深入,预测模型越来越成熟可靠,大概可以分为两类[25]:第一类是以现代科学技术和方法为主要研究手段而形成的预测模型,包括非参数回归模型、KARIMA算法、基于小波理论的方法、基于多维分形的方法、谱分析方法、状态空间重构模型和多种与神经网络相结合的预测模型等,这类模型的共同特点是采用模型和方法,不追求严格意义上的数学推导和明确的物理意义,更重视对真实数据的拟合效果;第二类是以数理统计和微积分等传统的数学和物理方法为基础的预测模型,包括时间序列模型、卡尔曼滤波模型、参数回归模型和指数平滑模型等。这类模型以数学推导公式对数据进行模拟仿真,更重视结果的有效性。

随着互联网的快速发展,公众在网络上发表言论的活跃程度达到了前所未有的地步,对容易滋生社会舆情的舆情事件的发展态势做出及时准确的预测显得越来越重要。数据挖掘中预测感知是实现主动感知的重要功能,所建立的预测模型能够判断事件的走向趋势,为恶劣事件的蔓延提供解决的策略方案,有利于促进社会的稳定发展。

5 结论

互联网的迅速发展使得网络舆情成为一个重要的研究课题,本文对网络舆情的主动感知技术进行初步探析,主要从信源的感知、内容的感知、方法的感知三个方面阐明了主动感知技术在网络舆情上的应用,为主动感知技术的研究提供了一个通用性框架。随着舆情研究的深入,对于舆情的需求也远远超过传统的处理模式。在网络舆情的研究中,针对不同主体的更高需求,将主动感知技术运用到舆情分析中,提高获取信息的效率,增强数据挖掘的品质。同时加强对舆情的自动监测,实现舆情前的评估预测,满足不同主体对舆情的主动感知需求。

[1] 刘毅.网络舆情研究概论[M].天津:天津人民出版社,2007.

[2] 黄洪,刘增良,余达太,等.一种具有免疫特征的智能数据分类分级模型[J].兵工学报,2010,31(12):1567-1572.

[3] 黄炜,姚嘉威.网络舆情事件的主动感知实践[J].现代情报,2015,35(10):7-11.

[4] 刘坤.基于微博的网络舆情事件主动感知研究[D].武汉:湖北工业大学,2015.

[5] 史瑞芳.网页正文信息抽取新方法[J].通讯世界,2015(19):210-211.

[6] 郭喜跃,何婷婷.信息抽取研究综述[J].计算机科学,2015,42(2):14-17.

[7] 王星.新闻网页抽取技术的研究与实现[D].天津:河北工业大学,2011.

[8] 罗一纾.微博爬虫的相关技术研究[D].哈尔滨:哈尔滨工业大学,2013.

[9] 李恒训,张华平,刘金刚.WWW论坛采集关键技术研究[J].微计算机信息,2010,26(24):106-107.

[10]冯晋,李春平.基于统计学和语义信息的中文文本主题识别技术[C]//全国搜索引擎和网上信息挖掘学术研讨会,2005.

[11]WANG H,ZHU J,TANG S,et al.A New Unsupervised Approach to Word Segmentation[J].Computational Linguistics,2011,37(3):421-454.

[12]方兴东 熊剑.网络舆情蓝皮书[M].北京:电子工业出版社,2015.

[13]马力,刘惠福.一种改进的文本特征提取算法[J].西安邮电大学学报,2015,20(6):79-81.

[14]LEWIS DD.Feature selection and feature extraction for text categorization[C]//Proceedings of Speech and Natural Language Workshop,San Francisco,USA,1992.

[15]曹欢欢,林洋港,陈恩红,等.文本分类方法:CN 101587493 B[P].2012.

[16]贾帆,马燕,王节,等.应用Web技术的图书管理系统[J].重庆理工大学(自然科学),2013(8):76-79.

[17]黄章树,叶志龙.基于改进的CHI统计方法在文本分类中的应用[J].计算机系统应用,2016,25(11):136-140.

[18]贺科达,朱铮涛,程昱.基于改进TF-IDF算法的文本分类方法研究[J].广东工业大学学报,2016,33(5):49-53.

[19]沈竞,蒋侨.DSTFA分布式短文本过滤算法[J].四川兵工学报,2011,32(10):151-153.

[20]李春青.文本聚类算法研究[J].软件导刊,2015(1):74-76.

[21]李元彬.数据挖掘技术在工程项目成本预测中的应用[J].四川兵工学报,2009,30(1):146-148.

[22]李健,刘治红,蒋飞.一种基于智能视觉的群体性事件现场态势感知技术[J].兵工自动化,2015(6):60-65.

[23]郭海涛,段礼祥,闫春颖.数据挖掘方法综述[C]//2009国际信息技与应用论坛, 2009.

[24]闫昱洁,宋宇辰.浅谈数据挖掘中的关联分析[J].科技、经济、市场,2015(2):138-139.

[25]高辉,王沙沙,傅彦.Web舆情的长期趋势预测方法[J].电子科技大学学报,2011,40(3):440-445.

(责任编辑 杨继森)

Analysis on Active Perception Technology of Network Public Opinion

ZHENG Buqinga, ZOU Hongxiab, WANG Linb, WANG Zhena

(a.Company of Postgraduate Management; b.Department of Information Equipment,Academy of Equipment, Beijing 101416, China)

Aiming at the one-sidedness of active perception technology research in network public opinion, and the ambiguity of active perception, this paper makes a preliminary analysis of active sensing technology. According to the main process of public opinion analysis, based on the information acquisition, processing and analysis module, the technical principle and difficulties are discussed from three aspects: perceived source, perceived content and perceived method. The perceived source is mainly divided into page perception, micro blogging perception and forum perception. The perceived content mainly has semantic perception and text perception. The perceived methods mainly have correlation perception and predictive perception. The active perception technology in all aspects of network public opinion makes a frame description of active perception technology.

network public opinion; active perception technology; perceived sources; perceived content; perceived method

2017-03-20;

2017-05-15

郑步青(1993—),男,硕士研究生,主要从事舆情数据处理研究。

10.11809/scbgxb2017.08.028

format:ZHENG Buqing, ZOU Hongxia, WANG Lin, et al.Analysis on Active Perception Technology of Network Public Opinion[J].Journal of Ordnance Equipment Engineering,2017(8):131-135.

G201

A

2096-2304(2017)08-0131-05

本文引用格式:郑步青,邹红霞,王琳,等.网络舆情主动感知技术探析[J].兵器装备工程学报,2017(8):131-135.

猜你喜欢

分词舆情聚类
分词在英语教学中的妙用
结巴分词在词云中的应用
结巴分词在词云中的应用
面向WSN的聚类头选举与维护协议的研究综述
改进K均值聚类算法
数字舆情
数字舆情
消费舆情
基于Spark平台的K-means聚类算法改进及并行化实现
基于加权模糊聚类的不平衡数据分类方法