基于多元媒体数据的教育舆情情绪可视化

2018-09-13梁翊涛王长波

郑州大学学报（工学版） 2018年5期

梁翊涛，王长波

(华东师范大学计算机科学与软件工程学院，上海 200062)

0 引言

舆情是社会民众作为主体，发表对于时事、新闻、政策等社会态度的总和，在社会生活中具有重要意义.随着网络的发展，截至2016年12月，我国网民数量已经达到7.13亿[1].因此，网络舆情已经成为舆情研究的主要阵地.研究网络教育舆情有助于引导公众舆论[2]，危机公关，并可以辅助政府、企业进行决策[3].民众态度是舆情研究的核心领域，情绪作为民众态度倾向的直观反映，研究它能够为分析网络用户、研判教育形势[4]提供切实依据.然而，大量的网络舆情数据源，包括门户网站、论坛、博客、自媒体等，让人们难以选择合适的媒体平台获取信息、发表观点，或者进行危机公关等舆情管理活动.

因此，笔者设计开发了一个可视化交互系统，帮助用户进行教育舆情情绪的网络媒体对比研究.系统允许用户从两个层面对教育舆情进行比较研究.在宏观层面，系统揭示了教育舆情事件主题和舆情事件的情绪倾向；在微观层面，对舆情事件情绪进行多平台的对比分析.

1 需求分析

为了充分研究网络教育舆情，我们曾与教育领域的专家合作进行了网络教育舆情项目的研究[5].相比普通网络舆情，教育领域的网络舆情具有下列特点[6]：①意见主体的隐匿性，即民众可以通过匿名的方式在网上表达自己的观点；②教育客体的特殊性，即教育对于个体和社会的发展具有重要意义；③舆情传播的即时性与互动性.由于舆情参与者可以自由交互，因此教育事件更容易表现出“一边倒”的舆情倾向，更易产生群体性事件.

1.1 数据描述

首先，通过分布式爬虫技术，从腾讯网、搜狐网、凤凰网和新浪网4个门户网站上爬取了自2015年1月到2015年12月共计2 744篇文章和与之对应的34 730条评论.

1.2 用户参与

为了深入分析需求，我们选择了两类用户：教育领域专家和无专业知识但关心教育舆情的普通用户，如教师、家长、网络意见领袖等.我们将领域专家与普通用户组织成为一个志愿者小组，并与小组完成了3次线上访谈.

首先，由用户描述他们感兴趣的问题，为第一次访谈定义了在当前教育舆情分析中现存的问题和挑战，然后，为其提供基础的可视化形式，如条形图、折线图等，辅助用户进行问题的初步研究，并记录反馈.第二次访谈，展示根据用户需求所设计的可视化系统原型，测试是否符合用户需求，并收集反馈以改进系统.第三次访谈展示系统的最终版本，并指导用户使用.

1.3 提取用户需求

对于整体教育舆情情绪以及舆情事件的研究，不同类型的用户需求不同.如教师、家长希望分析他们关注的单个舆情事件，帮助他们决定哪种媒体平台更适合获取信息；意见领袖希望了解情绪从文章到评论的传播形式，从而帮助他们更有效吸引读者关注；领域专家与教育从业者(如辅导机构创业者等)则想要全面了解教育舆情，从而帮助他们制定决策或商业计划.

我们将用户系统需求总结为以下几点：①从不同层次研究网络媒体数据，例如从所有事件到单个事件；②对比不同媒体平台上文章到评论的情绪传播模式；③针对不同用户，总结最适于其发布、获取教育信息的平台类型.

2 多维情绪传播分析

2.1 情绪识别及分类

为了分析舆情文本情绪倾向，笔者采用累计情绪词在文本中出现次数的方法，为文档进行打分.根据情绪词典[7]将情绪分为7个类别，并在领域专家的指导下，将7类情绪按照从正面到负面的顺序进行排布：乐、好、惊、哀、惧、恶、怒.此外，为了提高情绪得分的准确度，引入副词的权重计算.文档的7维情绪如公式(1)所示：

i∈N+|}.

(1)

式中：d为一篇文档(文章或者评论)的7维情绪得分向量；D1与Dmax为要计算的情绪类别索引，D1=1，Dmax=7，表示要计算所有7种情绪类别；ei为某一特定情绪类别的得分，并被标准化；j为文档中某一类情绪词的数量；score为一个情绪词在情绪词典中的分值，根据副词的类型和情感激烈程度，将副词分为adv={most,very,more,insufficiently,ish,inverse}，并在多次试验后将其权重设定为weight={2.0,1.75,1.5,1.2,0.5,-1.0}.无副词时weight默认为1.0.

文章表示为A={da,dc}.da为文章A的情绪向量，dc为与A对应评论的情绪向量.一个舆情事件E={A1,A2,…,An}.在公式(2)中，E1、E2为两个事件，D为应用欧几里得距离公式计算两个舆情事件之间的情绪距离，用D衡量事件之间的情绪相似度，

(2)

2.2 情绪传播

目前，舆情情绪传播模型主要关注群体情绪对于群体性事件发展的影响力[8]，研究包括基于群际情绪理论的情绪层级模型[9]；基于系统动力学的负面情绪研究[10]等.笔者集中关注不同网络媒体平台上文章到评论的情绪传播，根据与领域专家的讨论，上述传播具有明显的链式结构.因此，基于信息系统生态链模型[11]，笔者将网络媒体平台上的情绪传播定义为：情绪从媒体所发表的文章向读者传播，最后以评论的方式展示.研究单个事件中的情绪传播，需要定义情绪传播的类型和衡量情绪传播的效率P,

(3)

笔者将情绪传播定义为两类：①同类情绪传播：文章与其评论的主情绪类型一致；②异类情绪传播：文章与其评论的主情绪类型不一致.若文章的主情绪得分小于评论的主情绪得分，则为增量传播，反之为减量传播.

同类情绪传播的效率μ计算公式如下：

μ同=|Pa[main_a]-Pc[main_c]|.

(4)

异类情绪传播的效率计算公式如下:

μ异= [(|Pa[main_a]-Pc[main_a]|)+

(|Pa[main_c]-Pc[main_c]|)]/2，

(5)

式中：Pa为文章情绪百分比向量；Pc为评论情绪百分比向量；main_a、main_c分别为文章和其评论的主情绪类型索引值.

3 系统设计与可视分析

可视化系统包含了3个模块：数据处理模块、情绪分析模块、可视化模块.系统结构如图1所示.数据预处理模块：从网页上爬取文本数据，使用LDA算法[12]识别舆情事件.情绪分析模块：识别文本情绪,对情绪进行相关性分析，并应用MDS算法[13]进行降维显示，分析文章到评论的情绪传播.可视化模块：通过情绪花朵图、情绪传播图等视图对教育舆情情绪进行交互对比分析.

图1 系统结构图Fig.1 The structure of system

3.1 数据预处理

笔者应用LDA算法从文档中识别出91个教育舆情事件，并根据与领域专家的讨论，总结出6个舆情事件主题：校园暴力、高考腐败、禁止中小学生补课、学生创业、乡村教育与留守儿童.

3.2 可视化设计

可视化系统如图2所示，系统包含5个可交互视图，允许用户在多个层次上对网络教育舆情进行探索研究.

图2 可视化系统图Fig.2 The overview of system

3.2.1 情绪花朵图

如图2中(1)所示，情绪花朵图展示了所有舆情事件的情绪倾向.一朵花表示一个舆情主题，花朵的大小表示主题中舆情事件的数量.花瓣的数量表示每个主题中不同情绪类型百分比，因为情绪分为7种类型，所以每朵花有7片花瓣.花瓣分为内外两个部分，内侧表示文章情绪，外侧表示评论情绪，内外对比展示出舆情主题文章和评论情绪的差异.为了表示7种情绪类型，笔者应用了Plutchik情绪轮模型[14]，如图2中(1)左上角的图例所示，黄、青、蓝、紫、绿、粉红、红分别代表乐、好、惊、哀、惧、恶、怒7种情绪.

以导向布局作为花心，展示舆情主题中事件的情绪相似度聚类.每个节点表示一个舆情事件，节点的颜色表示其主情绪类型.同时，我们使用2.1节描述的方法度量事件之间的情绪相似度，如果相似度大于阈值，就在两个事件节点之间添加一条边，由此形成主题中的事件情绪子聚类.通过多次试验，笔者将阈值设置为0.1.

3.2.2 事件维诺图

为了对比同一事件在不同媒体平台上文档数量、情绪得分的差异，笔者应用了事件维诺图[15].如图2中(3)所示，从媒体平台、文章、评论3个层次展示.第一层通过颜色划分不同的媒体平台，凤凰网、搜狐网、腾讯网、新浪网分别用红、绿、蓝、黄表示，以颜色亮度表示情绪得分的大小;第二层表示在相应平台上发表的文章；第三层表示文章对应的评论.

3.2.3 情绪传播图

如图2中(4)所示，情绪传播图展示同一事件在不同媒体平台上，从文章到评论的情绪传播情况.第一行7个圆展示文章的情绪得分，第二行展示评论的情绪得分.情绪传播的效率通过两行圆之间的连线表示.用户可以通过按钮切换不同的媒体平台，对比其情绪传播情况的差异.此外，圆中卡通标记能让用户直观理解不同情绪类型，强化颜色和情绪类型的对应关系.

3.2.4 矩阵散点图

用户可以通过矩阵散点图从所有事件文章与单个事件文章两种层次来分析情绪相关性，如图2中(2)所示.在矩阵散点图中，每一个点都代表一篇文章，点击文章点可以在文本视图中查看具体文章与评论.用户可以通过设置矩阵散点图的维度选择想要观察的情绪类型，媒体平台的颜色编码与事件维诺图相同.

3.2.5 文本视图

系统中设计了文本视图，用以展示文章与评论的原始数据，如图2中(5)所示.花朵图、事件维诺图、矩阵散点图均可与文本视图进行交互.

4 案例分析

笔者采用案例分析法[16]对2015年全年舆情数据进行分析.首先，向用户展示如何使用系统.然后，根据用户提出的感兴趣的研究问题，选择合适案例进行分析.最后，记录用户的反馈并讨论用户的分析结果.

4.1 2015年网络教育舆情情绪分析

2015年教育舆情花朵图如图3所示，其中校园暴力主题在2015年相关的舆情事件最多，总体情绪偏向恶.但文章和评论情绪仍然有不同，文章里面有28.57%好的情绪，哀占14.28%；但评论中恶占85.71%，好占14.28%，没有哀伤情绪.对于上述情况，领域专家认为出现这种情况的原因是：“媒体平台的表达必须客观中立，因此情绪表达较为克制，但用户能够自由评论，对于校园暴力这样的负面话题就体现出恶评.”此外，图中有一个显著倾向于好的话题，即“学生创业”，因为2015年，国家出台一系列政策鼓励学生创业，社会各界对于创业都持积极态度.

图3 舆情花朵图Fig.3 The flower view of public opinion

图4为分平台展示的舆情文本矩阵散点图.腾讯网的文章(散点)数量最多，且分布较其他3个平台平均，并无明显的高情绪得分文章.从情绪来说，腾讯网上的“喷子”(不关心事实，只发泄情绪的网民)较多，情绪倾向于负面.

凤凰网的某些点评论(恶)的情绪得分显著较高，其他点都集中在左下角，即除了个别文章受大众广泛关注外，其他文章情绪倾向并不突出.新浪网的分布与腾讯网类似，但相比腾讯网，新浪网的文章(好)、文章(恶)的情绪得分均偏低，即新浪网不倾向于发表情绪倾向强烈的文章.最后，搜狐网的文章情绪得分平均，但评论的得分多为0，表示在搜狐网上网民的参与度相比其他3个平台低.“虽然新浪网上的报道文章较少，但其文章态度明显中立，对我来说是更好的获取信息的平台.”一位用户表示，“搜狐网的参与度太低，即使在上面发表评论也不会得到什么反馈.”

4.2 “江西高考替考案”事件分析

江西高考替考案是2015年关注热度最高的舆情事件，搜狐网、新浪网、腾讯网、凤凰网共计有40篇文章对此进行了报道.

2015年6月7日中午，江西省教育厅接到有人组织替考的举报.经查，外省替考组织在网上招揽高校学生，串通招考办及医院有关工作人员为外省籍考生在江西违规报名、体检，从而实施替考的有组织、有预谋的高考舞弊案件.

通过文本视图对高情绪得分的文章进行分析，发现用户评论共计529条，且大部分都是对高考替考行为的批判.然而，虽然评论的情绪恶得分很高，评论的正面得分也较高.其原因首先是存在一些反讽的评论，如“记者装着一副大义凛然的感觉，觉得自己真的很伟大吗？”；其次，也有对于替考卧底记者勇于揭露行为的赞扬，如“这是正能量崛起，有更多这种利国利民的揭发，说明了正义之花处处开放.”其中，“大义凛然”“伟大”“利国利民”，均为正面词汇.因此，评论的正面情绪较高可以总结为以下两个原因：①虽然高考替考案为负面事件，勇于揭发的行为亦值得赞扬；②部分民众评论时惯于使用反讽，其正面词汇在情绪词典方法中会造成误判.

如图5所示，情绪传播图展示了不同媒体平台从文章到评论的情绪传播情况.除搜狐网的文章、评论太少，无法体现特征以外，凤凰网、腾讯网、新浪网的文章情绪情况相似：虽然恶的情绪占比较高，但也有一定比例的乐与好.文章到评论的情绪传播却体现出了一定的差异性，凤凰网的评论情绪比文章情绪更加激烈，同时一部分文章(乐)的情绪向评论(哀)传播；腾讯网和新浪网的文章情绪得分均高于评论情绪，显示在这两个平台上用户评论的情绪并不高.

4.3 案例分析总结

总体而言，2015年教育舆情呈现出负面倾向.除负面事件频发的原因外，无论是从文章发布还是网民评论来看，民众对于负面事件的参与度都比正面事件更高.对媒体平台而言，观点多样化和意见参与度高的网络媒体是更理想的信息发表、获取平台.意见领袖等舆论引导者如果希望获得更多关注，他们会选择凤凰网.想获取信息的用户则偏爱民众参与度更高，情绪倾向分布也更平均的腾讯网.

5 结论

笔者首先通过以用户为中心的设计流程，总结了教育舆情情绪分析领域特定的目标和设计原则.

图4 凤凰网、搜狐网、腾讯网、新浪网情绪矩阵散点图Fig.4 The emotion matrix views of Ifeng, Sohu, Tencent, and Sina

图5 事件情绪传播图Fig.5 The emotion propagation view.

其次，对网络舆情文本进行情绪分析，定义了文章到评论的情绪传播类型.再次，设计开发了基于教育舆情情绪的可视化平台，展示教育舆情情绪倾向及不同媒体平台的情绪传播模式，帮助用户选择合适的媒体平台发表、获取信息.最后，案例分析证明了系统的可用性，给舆情情绪分析，媒体比较分析和可视化三者的交叉领域提出了一种新的可能.后续研究将考虑提升文本情绪识别的算法精度，并实时分析显示舆情情绪.