APP下载

可视化分析技术在网络舆情研究中的应用

2016-12-21张伟

现代情报 2016年11期
关键词:可视化分析网络舆情大数据

张伟

〔摘要〕由于网络舆情信息具有明显的大数据特征,使用传统的数据收集、分析与表现方法不仅存在效率低下的问题,而且难以发现其中的关键信息以及信息背后的潜在特征。就此而言,发端于科学计算领域的可视化分析技术能够化繁为简,用易于理解的图形图像揭示网络舆情的分布、发展和演化规律,因而在网络舆情研究中具有非常显著的应用价值。本文根据网络舆情信息呈现形式上的差异,分别探讨了层次信息、文本信息和关系网络信息可视化方法在网络舆情研究中的应用范式和实现途径,以期推进网络舆情研究的纵深化。

〔关键词〕可视化分析;网络舆情;大数据

DOI:10.3969/j.issn.1008-0821.2016.11.015

〔中图分类号〕G203〔文献标识码〕A〔文章编号〕1008-0821(2016)11-0082-05

〔Abstract〕As network public opinion has obvious characteristics of large data(as a concrete manifestation of the four aspects,namely massive,diverse,dynamic and low value density),using traditional data collection,analysis and presentation method not only has the problem of low efficiency,and is also difficult to find the key information and the potential characteristics behind information.In this regard,visualization analysis technology,originating from scientific calculation,can be used to make things simplified by using easily understandable graphical images to reveal network public opinions distribution,development and evolution.Therefore,in the network public opinion research,the technology has very significant application value.Based on the difference of network public opinions information present form,the essay respectively discussed the hierarchical information,text information and network information visualization methods application paradigm and the way of realization in the research of the Internet public opinion,in order to promote the network public opinion research in depth.

〔Key words〕visualization analysis;network public opinion;big data

随着信息网络技术的发展以及网民数量的急剧增长,互联网对人们生活的影响在广度和深度上都呈现出不断扩张的趋势。在当今社会,互联网不再仅仅被当作加强信息传递、提升工作效率和促进人际交往的工具,它所具有的匿名性、交互性、即时性和非中介性等特征从技术上突破了传统媒介的局限,使得越来越多的人开始寄希望于通过互联网来改善现实中的公民社会参与和政治民主实践。近些年来频繁进入公众视野的网络事件,如邓玉娇事件、“躲猫猫”事件、瓮安事件、石首事件、郭美美事件等等,都是借助互联网实现广泛与快速传播的。在社会矛盾和社会问题难以通过正常的社会通道妥善处理和解决的情况下,网络舆情的此起彼伏成为一项短期内无法消解的社会事实。

在此背景下,网络舆情研究成为一门受到广泛关注的热点研究领域。通过对现有文献的梳理,可以发现,不同学科的研究者依托各自的学科背景对网络舆情的各个方面进行了较为全面的研究,但这些研究主要集中在学理的讨论和政策的分析上,比如,从新闻传播学角度进行的对特定网络舆情事件的分析以及从政治学和行政管理的视域开展的网络舆情引导与管控策略的研究等等;就使用的方法或技术而言,当前的网络舆情研究仍然深受传统数据时代舆情分析的影响,与大数据这一时代背景相吻合的网络舆情分析方法上的创新虽然已经崭露头角,比如基于网络日志数据挖掘的隐性舆情分析、基于社会网络分析的舆情主体关系发现等都被应用到网络舆情研究领域[1],但在方法应用的实用性、契合性等方面还有待进一步向前推进。为此,本文引入发端于科学计算领域的可视化分析技术,在探讨它对网络舆情信息耦合的基础上,详细阐述针对不同类型网络舆情信息可视化分析技术。

1网络舆情信息与可视化分析技术的耦合

网络舆情本质上是关于某一特定议题的各种信息的集合,这些信息存在于无限延展的网络空间中,并随时间的推进而呈现出动态的变化。具体而言,网络舆情信息的特征可以归纳为如下4个方面:

11网络舆情信息的海量性

相比现实舆情发生发展过程必然面临的时空限制,网络舆情可以在极短的时间内获得极大范围内的讨论,因而在信息存量上得到了极大的改变,比如2014年热度排名第一的“MH370航班失联事件”仅微博发文量就达到了2 500万条,排名第二的“香港占中事件”共计获得超过2 160万的新闻讨论量,与该事件相关的微博数量接近117万条,想要了解关于某一特定事件或议题的网络舆情发展脉络,或者探究其中包含的网络民众意见倾向性的变化趋势,需要对这些巨量化的信息进行妥善的加工和处理。

12网络舆情信息的多样性

它既可以呈现为变量为核心的传统数据形态,也可以成为视频、图片、网络日志、地理位置信息等新型数据形态,也就是说,网络舆情信息既可以是结构化的(即可以通过二维表进行逻辑表达并用数据库直接存储的信息),也可以是半结构化和非结构化的(即难以或无法用数据库二维逻辑表现的信息),其中半结构化和非结构化信息在其中占据较大的份额,这些多样化的信息表现形态对网络舆情信息的处理能力提出了更高的要求。

13网络舆情信息的动态性

仅仅抓住网络舆情发展过程某一时点的信息进行横截面的考察虽然也能获得一些较具价值的结论,但是却难以把握网络舆情的发展脉络以及其中可能涌现的规律,网络舆情具有一个发生发展的生命周期,且一般情况下它的整个周期不会持续太长的事件,从这个意义上来说,网络舆情信息总是处于快速的动态演进状态。

14网络舆情信息的低价值密度性

这是与信息的海量性相对的一个特征,它所说的是网络舆情信息存在着较多的噪声,如果仅仅关注于其中某一条信息将是毫无价值的,只有通过对庞大数据量的“提纯”才能从中发现有价值的模式或知识。

网络舆情信息上述4个方面的特征与Martin Hilbert等人[2-3]归纳的大数据的4个维度(Volume,即巨大的数据量;Variety,即多结构化数据;Velocity,即增长速度快;Value,即价值密度低)具有高度的契合性,这种关系可以通过图1呈现出来。

在此情况下,使用传统的信息处理技术进行网络舆情信息处理将必然面临有心无力的困境,网络舆情信息的分析和处理方式必须在大数据的思维下有所创新[1,3]。为此,可以从4个方面着手:一是绕开语义分析的技术瓶颈,开辟“隐性”舆情分析的“第二战线”;二是突破抽样分析的思维,用大数据方法分析收集到的全体数据;三是将搜索数据、点击数据、人际关系数据、网民个人特征数据、相关社会数据等关联起来进行分析;四是主动进行网络民意调查,有针对性地收集标准化数据[1]。在具体的分析方法上,网络舆情信息与发端于科学计算领域的可视化分析技术具有耦合关系。作为一种比较成熟的信息处理技术,可视化分析将计算机图形学、数据挖掘及认知心理学等诸多学科的理论和方法结合在一起,能够将规模庞大的抽象信息以直观的视觉方式表现出来,使人们能够充分利用视觉感知能力去观察和处理信息,从而发现信息之间的关系以及其中隐藏的模式。美国国家科学基金会在发表的《科学计算可视化》报告中提出了可视化的概念,指出可视化是一个可以处理海量数据的可行工具之一,它能使科研人员发现数据内部隐藏的信息,从而进一步找出信息所反映的规律,提高对海量数据的认识。在网络舆情研究过程中,使用可视化分析技术能够克服传统数据收集、分析与呈现方法上存在的效率低下以及难以发现其中的关键信息与潜在特征的不足,通过化繁为简、化抽象为具象,能够使用易于理解的图形图像揭示网络舆情的分布、发展和演化规律,因而在网络舆情研究中具有非常显著的应用价值。

2多种网络舆情信息的可视化分析技术

网络舆情信息的可视化是当前商业化舆情监测或分析系统意图实现的一项主要功能,比如微博分析领域较为著名的知微网就将自己定义为一个可视化的微博信息分析平台,利用可视化分析技术,知微网能够通过一条微博的传播途径、过程和效果等信息检测微博的传播效果和其中传播的主要因素。在具体的研究过程中,可视化从严格意义上来说是一种信息分析框架,原始信息、数据表格、可视化结构和最终呈现在用户面前的视图被这一框架有机的链接在一起[4]。围绕网络舆情信息的不同类型,如下部分有针对性地对这些信息的可视化分析技术进行详细的介绍。

21网络舆情文本信息的可视化

作为社会舆情的一种表现形式,网络舆情是社会公众在互联网空间中公开表达的对某种社会现象或社会问题的具有一定影响力和倾向性的态度、意见和情绪表现的总和。由于缺乏面对面的互动,这些态度、意见和情绪一般都是以文本或符号的形式表现出来。因此,文本信息是网络舆情信息最主要的表现形式之一,透过网络舆情文本信息的挖掘,与此相关的一系列可视化分析技术能够在极短的时间内准确呈现网络舆情文本信息中的核心内容及其彼此之间的关系结构。就此而言,比较常用的可视化分析技术主要有基于关键词的网络舆情文本内容的可视化、时序性网络舆情文本信息的可视化等等。

211基于关键词的网络舆情文本内容的可视化

网络舆情文本信息中的关键词能够反映网络空间中的社会公众对特定社会现象或社会问题的聚焦点,因而对网络舆情研究具有重要价值。所谓关键词,是指从特定文本的文字描述中提取的语义单元,它能反映文本内容的侧重点。关键词的提取原则多种多样,其中最为常见的方法是词频排序法,也就是说,越是重要的单词,在文档中出现的频率就会越高。基于关键词的网络舆情文本内容的可视化可以通过绘制标签云[5,6]的形式加以实现,这一可视化分析技术主要通过抽取文本中的关键词并将其按照一定的顺序、规律和约束用整齐美观的图形界面呈现出来。图2给出了2010年以来收录在CSSCI期刊上的400余篇网络舆情研究领域相关研究论文的关键词标签云,从中可以非常清楚地看出来自不同学科的研究者开展的网络舆情研究到底聚焦于哪些问题、侧重于何种角度,以及使用了什么方法等等,这对我们了解网络舆情的研究现状具有重要价值。同样的道理,通过收集某一事件相关报道或讨论的文本信息,并以此为基础进行标签云的绘制能够更加清晰地呈现这一热点事件的民众聚焦以及事件本身的发展和演进过程。图2网络舆情研究领域相关论文的关键词标签云

212时序性网络舆情文本信息的可视化

对于具有时间和顺序属性的文本信息,其内容具有有序演化的特点。研究者不但可以从这些文本信息中发掘其中的关键内容,还能以时间为主线探寻这些关键内容的演变状况。网络舆情信息本身具有的动态性特征,使得研究者在处理这些信息的时候不可避免地要将时间纳入考虑的范围。对于具有明显时序性的网络舆情信息,主题河(Theme River)是一种比较常见的可视化分析技术。如图3所示,主题河将文本资料中的主题隐喻为时间上不断延续的河流,能够帮助人们观察与特定事件相关的文本主题的产生、变化和消失的全部过程,进而呈现一个宏观的主题演化结果。在2000年,Susan Havre等人就已经使用了这种方法分析了1990年6~8月美国联合通讯社(The Associated Press)新闻数据的主题演变状况[7]。在国内的网络舆情研究中,詹建和高民权在其一篇研究论文中介绍了以主题河为核心的网络舆情可视化关联分析方法,并通过实证研究证明了这种方法不但能从整体上展现网络舆情在时间上的变化,而且能从多种角度显示类属、关系和热点话题等细节,进而有助于发现网络舆情发展变化背后的原因和规律[8]。

22网络舆情层次信息的可视化

信息集合的单元之间组成了不同的结构关系,这些结构形式通常可以分为顺序结构、层次结构和网状结构3种类型。上文提到的时序性网络舆情文本信息的可视化所揭示的就是一种顺序结构,除此以外,大量的信息集合都具有严格的层次结构,无论在信息技术领域还是在社会经济的各个方面,信息的层次结构都是一个非常普遍的现象。对具有层次结构的信息进行可视化分析有助于改善研究者对层次结构数据及数据项之间关系的理解,因此,在信息认知阶段,层次信息可视化技术作为有效的抽象信息展现工具,被广泛应用于辅助理解和分析层次结构数据集。通过对抽象层次信息进行合理美观的可视化描述,研究者能快速准确地发现数据集中隐含的特征信息,并针对任务进行可视化分析,帮助解释现象、发现规律和制定决策[9]。随着可视化技术的发展,能够描述层次信息的可视化方法不断涌现出来,按照它们各自的可视化隐喻,可以将其分为3类:一是使用节点链接的方法构造可视化图形,在这类图形中,节点用于表示数据或内容信息,节点之间的连线则可用于描述数据或内容之间的结构,该类层次信息可视化技术主要有节点链接树、双曲树、径向树等;二是使用空间填充法构造可视化图形,在这类图形中,各种形式的包围框用于内容信息的表示,包围框之间的封装关系可用于描述各内容信息之间的层级,如树图、势力范围图等都属于此种类型;三是使用混合的方法,结合多种可视化分析技术和思想进行可视化图形的构造,其代表性技术有弹性层次图、层次网图等。在网络舆情研究中,研究者可以根据自己的关注点选择合适的层次信息可视化技术来呈现信息项之间错综复杂的层次关系,比如想要探究网络舆情信息扩散的路径就可以使用节点链接树的方法来发掘其中的关键节点。图4使用了节点链接树的形式给出了一条微博信息的扩散路径,从中可以看出,该条微博信息的扩散过程并没有经历较多的层级,其影响范围主要来自信息发布者第一层级的传播以及少量信息转发者第二层级的传播。

23网络舆情关系网络信息的可视化

相较于层次信息,关系网络信息并不具有自下而上或自上向下的层次结构,其中嵌入的是一种更加复杂的网状结构,使用一般的统计分析或图示方法很难对其进行量化的表征和分析[10],随着上世纪末期复杂网络研究的兴起,社会网络分析逐渐成为处理此类信息的主要方法。在具体的分析过程中,社会网络分析以关系的量化为基础,通过绘制网络关系图的形式快速直观的解释和概览网络结构信息,一方面可以更好地呈现不同实体间的关系结构;另一方面也有助于挖掘隐藏在网络内部的有价值信息。按照Shneiderman等人[11]提出网络节点布局方法,关系网络信息的可视化一般可以按照力导向布局(Force-directed Layout)、地图布局(Geographical Map Layout)、环状布局(Circular layout)、层次布局(Substrate-based Layout)和时间布局(Time-oriented Layout)等5种布局形式加以呈现。就网络舆情研究而言,揭示不同行动者在网络舆情传播过程中发挥的作用大小,进而甄别其中的关键节点或意见领袖,对于探讨舆情演化规律、引导舆情走向具有重要意义。在现有的以可视化分析技术为支撑的网络舆情研究成果中,社会网络分析是一种最受偏好的可视化分析方法[12-14],比如李彪以最具影响力的40个网络舆情热点事件为研究样本,选取其传播初期的前3个信息节点,运用社会网络分析的方法分析了网络舆情空间的基本结构,并在此基础上构建了网络舆情传播的空间结构模型。图5是使用力导向布局中的Hu Yifan布局法[15]进行的社会网络关系图的绘制,其数据来自2010年最具影响的34个网络舆情事件,从中可以看出,天涯社区是当时最主要的网络舆情发源地。

除了上述3种类型的网络舆情信息可视化分析技术,一些常见的统计图形亦可用于展现网络舆情信息的时间趋势、情感倾向、区域分布等特征。伴随着大数据与计算社会科学的兴起,网络舆情虽然包含着较多的半结构和无结构信息,但是这些信息只需经过适当的转换就可以通过具有一定结构的图形形式呈现出来。网络舆情研究是一个涉及多门学科的交叉性研究领域,来自不同学科的研究视角和研究方法都可用于网络舆情信息的分析和处理,可视化作为一种信息分析的方法与技术可以与案例分析、调查研究等传统的社会研究方法相互配合,共同为网络舆情关键信息和内在规律的发掘提供方法和技术上的支撑。

3结论

大数据环境下的网络舆情研究不是仅仅依靠某一学科的理论或方法就能得到理想的研究结果,作为一项综合性图5网络舆情信息前期传播空间的关系网络图(2010年)

社会问题,它涉及数据挖掘、舆情分析、政府决策等多个被有机联系起来的研究领域,因而需要集合传播学、政治学、社会学、计算机科学与技术等多个学科的理论和方法支持,才能得到富有真知灼见的创新性成果。如果囿于某一学科背景,仅从单一视角出发研究具有极大复杂性的网络舆情信息,其研究结果往往也会受到局限。因此,大数据时代的网络舆情研究应该突破传统数据时代静态化、单一化和片面化的研究思维,进行动态化、立体化和全局化的综合探讨。就此而言,可视化分析技术作为一种有效的数据表达方式,它能妥善应对网络舆情信息具有的海量性、多样性、动态性和低加之密度性特征,在卷帙浩繁的网络舆情信息中发现其中内涵的趋势、模式及规律。从这个意义上来说,可视化分析技术的应用对于推进网络舆情研究具有重要意义。

参考文献

[1]唐涛.基于大数据的网络舆情分析方法研究[J].现代情报,2014,(3):3-6.

[2]Hilbert M,López P.The Worlds Technological Capacity to Store,Communicate,and Compute Information[J].Science,2011,332(6025):60-65.

[3]谢耘耕,刘锐,乔睿,等.大数据与社会舆情研究综述[J].新媒体与社会,2014,(4):133-154.

[4]Card S K,Mackinlay J D,Shneiderman B.Readings in Information Visualization:Using Vision to Think[M].Morgan Kaufmann,1999.

[5]Viegas F B,Wattenberg M,Feinberg J.Participatory Visualization with Wordle[J].IEEE Transactions on Visualization and Computer Graphics,2009,15(6):1137-1144.

[6]McNaught C,Lam P.Using Wordle as a Supplementary Research Tool[J].The Qualitative Report,2010,15(3):630-643.

[7]Havre S,Hetzler B,Nowell L.Themeriver:Visualizing Theme Changes over Time[J].IEEE Symposium on Information Visualization,2000:115-123.

[8]詹建,高民权.基于主题河的网络舆情可视化关联分析方法[J].情报资料工作,2014,(6):17-22.

[9]肖卫东,孙扬,赵翔,等.层次信息可视化技术研究综述[J].小型微型计算机系统,2011,(1):137-146.

[10]Yu-Bin Y,Ning L I,Yao Z.Networked Data Mining Based On Social Network Visualizations[J].Journal of Software,2008,(8):1980-1994.

[11]Shneiderman B,Aris A.Network Visualization by Semantic Substrates[J].IEEE Transactions on Visualization and Computer Graphics,2006,12(5):733-740.

[12]熊熙,胡勇.基于社交网络的观点传播动力学研究[J].物理学报,2012,(15):104-110.

[13]何敏华,张端明,王海艳,等.基于无标度网络拓扑结构变化的舆论演化模型[J].物理学报,2010,(8):5175-5181.

[14]卞曰瑭,何建敏,庄亚明.基于复杂网络的非常规突发事件的传播演化模型与仿真[J].统计与决策,2011,(4):22-24.

[15]Hu Y.Algorithms for Visualizing Large Networks[J].Combinatorial Scientific Computing,2011,5(3):180-186.

(本文责任编辑:马卓)

猜你喜欢

可视化分析网络舆情大数据
我国职业教育师资研究热点可视化分析
声波吹灰技术在SCR中的应用研究
浅析网络舆情治理
基于社会稳定视角的网络舆情预警机制构建的思考