APP下载

基于文本挖掘的在线电影短评情感分析
——以 《哪吒之魔童降世》为例

2020-06-15宗利永林雨萧

现代电影技术 2020年5期
关键词:哪吒之魔童降世哪吒动画电影

宗利永 林雨萧 陈 群

(1.上海出版印刷高等专科学校文化管理系,上海200093)

(2.上海理工大学出版印刷与艺术设计学院,上海200093)

近几年国产动画电影优秀作品异军突起,《西游记之大圣归来》 《大鱼海棠》等都获得了极好的口碑,但是中国动画电影市场仍然被海外作品占据着。2019年7月26日上映的 《哪吒之魔童降世》(以下简称 《哪吒》)打败了迪士尼经典动画 《狮子王》的,稳居票房第一。票房是评判一部电影好坏的指标之一,但票房数据只能片面地反映出电影的质量。伴随UGC (用户原创内容)的模式的普及,越来越多的人将自己观点、体验及情感发表在网络平台上。豆瓣网就是汇集海量体现观众观影感受数据的代表网站之一。电影是拍给观众看的,每个观众的感受都是不同的,褒贬不一,观众的评价以评分以及文字的形式呈现在网络平台上。在海量的网络电影评论中发现受众深层观影主观感受及体验信息,提供有关电影正面或负面的受众反馈,这对于提升电影制作品质具有重要的现实指导价值。

本研究尝试通过对豆瓣电影短评论进行中文分词、词频统计以及关键词提取,并结合共现分析和情感分析,挖掘潜在的群体知识,以把握观众对动画电影的主要关注点,将隐藏的影评中观众真正在意的电影元素提取出来,探寻当下国产动画电影在公众视野中的进步与不足,为电影制作者提供观众对于国产动画电影的偏好反馈信息,为国产动画电影的发展提供决策参考。

1 文献综述

目前对用户评价的研究主要从其意义作用、机制原理、研究方法等方面展开,相关研究者也已取得较多的研究成果,主要的研究方向集中在产品口碑、评论有用性、评论文本挖掘这3 个方面。闫强、孟跃在先前文献的基础上,对收集的豆瓣网实际用户评论进行研究,其结果表明:拥有较为极端的情感倾向和较长的正文的评论会正面影响在线评论的感知有用性;但是,评论的效价、评论标题长度和评论的可读性对评论的感知有用性没有显著影响。石文华、钟碧园、张绮将在线电影评论进一步区分为较长且专业的影评和较短且非专业的短评,首先结合前人的研究成果构建了电影在线评论对票房影响的综合模型,然后从豆瓣电影爬取了不同电影的在线评论,利用eviews7.0在面板数据的环境下对比分析了影评与短评对票房收入的影响。结论表明,在线电影评论中起到更重要作用的评论形式为短评。黄昭婷、刘媛、丁鑫通过对电影的评论文本进行文本情感分析和建模,分析出每一部电影的情感特征,并使用这一情感特征来进行影片聚类分析。即使是同一类的电影,可能诱发完全不同的观影情绪。

随着多部优秀国产动画电影的票房成功,加之一些优秀动画企业坚持生产精品的理念,使国产动画的生产环境有了较大改善。在资本已关注到影片艺术价值的重要性,在国内动画电影生产的软件环境和从业者制作水平有了长足进步的当下,动画电影的重心应落在内容的打造上,也就是要 “选择一个好故事并把故事讲好”。电影工作者应进一步将传统文化与时代精神、文化、审美相融合,运用现代技术手段赋予作品新的时代内涵,推动国产动画不断前进。新媒体时代,口碑已经成为企业获取利益、提升自身形象必不可少的工具。近年来,以《大圣归来》为代表的国产动画电影在利用口碑进行宣传方面做出一些尝试并取得了不错的效果。然而,国产动漫在口碑传播的过程中也出现高票房差口碑、口碑传播缺乏秩序性等问题。

近几年,国产动画电影的发展逐渐吸引着公众的关注,“国漫崛起”不仅是电影制作者的理想,也是中国电影观众的殷切期盼。关于国产动画电影的研究,国内研究者大都从电影文化、电影发展历程以及营销模式入手,取得了较多的研究成果,鲜见研究者基于对影评的数据分析从而发现电影观众的深层观影特征,实际上网络电影评论中蕴含着丰富的受众满意度影响因素信息以及受众主观感受信息,能提供有关电影正面或负面的受众反馈,这可以为相关的实证研究提供新的研究视角。

2 豆瓣影评的发布时间以及文本分析

2.1 数据来源

由于豆瓣电影对网络上一些别有用心的企业进行超大规模的数据爬取限制,无法将关于 《哪吒》的所有评论爬取出来,因此本研究使用数据爬取工具——八爪鱼,并自定义爬取规则,按照豆瓣网的评分等级好评 (4星及5星)、一般 (3星)以及差评 (1星及2星)分别爬取关于 《哪吒》豆瓣短评500条以及评论时间,共计评论1500条。

2.2 根据上映时段的评论数量对比分析

《哪吒》在2019年7月26日正式上映之前有两轮不同规模的点映,所以本研究将豆瓣短评以及评价时间一同抓取下来,统计自 《哪吒》点映、正式上映期间以及下映之后的各等级评价数量变化趋势,如图1所示,并加以分析。

图1 各等级评价数量变化趋势

由以上不同时间段中三个等级的评价数量变化趋势图可以看出:

(1)点映期间好评数量比一般、差评的数量都要高出很多;

(2)上映期间好评的数量较点映期间有细微增幅,但是一般和差评的数量大涨且反超好评的数量;

(3)下映期间所有等级评论均有大幅下降,其中差评数量居高,好评数量最低。

3 共词分析

共词分析 (Co-word Analysis)是通过对同一篇文献中出现的词汇、短语或者反映文献主题内容的关键词进行统计分析,研究文献内在联系和科学结构。一般认为不同词汇在同一篇文章中出现的次数越多,这些词汇之间的关系就越为亲密。本研究使用的分词工具是ROST CM6,此工具使用的停用词表以及过滤词表不太适用于本次研究文本,因此在提取、筛选有效共现关键词以及构造共词矩阵的过程花费了大量时间,进而使用社会网络数据分析UCINET 对有效共词矩阵进行社会网络构造。

3.1 高频词共词矩阵数据

将评分等级为好评、一般以及差评的文本的关键词分别进行共词频次矩阵构造,部分数据如图2所示。

图2 评分等级为 “好评”的高频词共现关系矩阵

此类矩阵为对称矩阵,对角线的数据定义为空值,非对角线上数字为行列对应关键词共同出现的频次。如图2所示,“国漫”与 “改编”的共现频次为11,表示等级为 “好评”的短评语料库中有11条短评同时使用了这两个关键词。

3.2 关键词共现网络主成分分析

高频关键词可以很好地反映某一领域的关注热点。为挖掘关键词之间联系,本研究借助UCINET中的NETDAW 功能将各评分等级的影评高频词共现关系矩阵绘制成表现各个关键词关系的社会网络加以分析。在NETDRAW 采用Principal Component Cayout功能,主成分布局结果如图3―图5所示。图中节点表示关键词,连线表示关键词之间存在联系,所有其他关键词按照对上一层级关键词的共词次数的多少依级排列,后一层关键词的语义组合构成对前一个关键词的解释,从而各关键词在共现网络中的地位及相互之间的递进关系可以清晰地凸显出来。

图3 评分等级为 “好评”的关键词共现网络

图4 评分等级为 “一般”的关键词共现网络

图5 评分等级为 “差评”的关键词共现网络

分析图3―图5可得,各评分等级的影评关键词共现网络中,可将关键词分为四类:

(1)故事情节。好评中以 “成熟” “颠覆性”“传统”“搞笑”“致敬周星驰”“封神宇宙”等正面词为主;一般中认为 “尴尬”“节奏流畅”“完成度高”“颠覆”,褒贬不一;而差评则认为 “改编过度”“网络段子”“笑料低俗” “迎合大众” “人设单薄”“低龄化”“剧情空洞”等来表达对电影的失望。

(2)人物形象。好评认为 “打破成见” “脸谱”“中国风”“喜剧元素”“好看”“反抗父权”等;一般中以 “熊孩子”“存在偏见”“恶俗”“反抗父权”等词表现;差评中以 “尴尬”“低俗”“幼稚”“不伦不类”“刻意”“配音出戏”等词为主。

(3)电影内核。好评和一般多以 “感动” “成长”“父子情”“价值观”“自己做主”“友情”褒义词等表现;差评呈现 “喊口号”“牵强”“亲情”“教育偏离” “不是打破偏见” “价值观” “改编过度”“牵强”等词。

(4)制作技术。好评、一般和差评都通过 “画面精致”“进步”“特效厉害”等褒义词表达对国产动漫电影制作技术的肯定。

4 情感分析

要想对文本数据进行情感分析,关键的一个基本操作就是选取一个适合本研究的情感词库。由于本研究采集的反映观众真实感受的电影短评论文本数据,短小精悍且极具个人特色,传统的情感词库对我们的分析研究有着明显的缺陷与不足。因此,构建与本文研究目的相适应的情感词库尤为重要。

4.1 情感词典构建

表1 情感词典例表

根据中文的使用习惯及语法构成,本文选取了形容词、动词、副词、名词和成语五个部分的分级词库,共1020个词语及成语,形容词273个词汇,副词18个词汇,名词254 个词汇,成语236 个词汇,动词239个词汇。为了更加准确且细致的反映本文评论文本的情感倾向,本文将名词、形容词、成语和动词均分为五个情感等级,分别为―10、―5、0、5、10,从而使得本文计算出来的情感得分为一个连续的分值,这样情感倾向的程度也能够很好地反映在文中,我们对这类评论文本的理解也可以更加具体准确。此外,本研究还构建了补充情感词典,选取了副词以及语气词的分级词库,共有24个副词以及9个语气词。根据三个计分过程文件,发现不合理的评分,补充程度副词表里的词及分数,或者补充语气词表里的词及分数,比如否定就加―1,双重否定就加1。补充情感词典样例如表1所示。

4.2 文本数据预处理

4.2.1 文本数据清洗

由于电影短评论是非专业的影评观众的评论,存在大量表达含义相同但是使用词语不同的情况,以ROST CM 为主的分词工具对原始评论文本统计出的结果存在一定误差,会在一定程度上影响后续的研究结果。因此有必要对爬取的原始数据进行清洗,将表达意义相同但使用不同的词语替换为同一个词语,并且对评论进行编号。清洗后的文本数据如表2 所示。

表2 清洗后的文本数据例表

2019―07―13 G4卧槽居然看哭了,这才是货真价实的国漫新希望,终于不再是假大空的中国风堆砌,而开始借神话寓言塑造真正的 “小人物”。背负原罪的出身,命中注定的死期,对存在的笃定和身份的动摇,竟指向 《刺客聂隐娘》的内核:一个人,没有同类。完整的世界观构建,父子母子师徒兄弟友敌,每一段关系都处理的有血有肉全无敷衍。美术剪辑配乐动作设计,处处都是亮点,就连喜剧部分也绝非装疯卖傻而存在无数细节作为支撑。海边夕阳踢毽和社稷图虚幻仙境两部分堪称绝美段落,飞驰想象力和一流制作实力的结合,值得一刷再刷。严格说是四星电影,但愿意加满五星狂推鼓励!2019―07―14 G5年度最佳动画,不,年度最佳影片,剧作上的成熟应该让同档期的 《狮子王》跪下来叫爸爸,起承转合水到渠成且饱含情感力量,这种成熟度不管是在动画这种形式里还是脱离动画都值得所有国产商业电影学习。整部影片看下来,在形式上非常现代化,包括笑点台词都贴近现代网络化的生活,是谓形散,但是影片把握住了哪吒这个神话人物的内在精神:我命由我不由天,并且自始至终都贯彻下去,是谓神不散,包括反派敖丙及申公豹都人物弧光饱满,在非我族类其心必异的人类世界里,《哪吒之魔童降世》是为所有异类书写的颂歌,这部片子就如同蔡依林在金曲奖上说的:献给那些曾经认为自己没有任何机会与选择的你,请你一定要记得选择你自己,支持你自己。

4.2.2 对文本进行分词

图6 评论文本分词结果例图

经过分词处理后,得到的数据仍不能直接作为后续工作的处理文本,因此要对分词后的文本数据进行处理和筛选。通过人工查看找出分词错误,排除表情符号以及一些无意义的如序数词、虚词以及连词,找出可能干扰分析结果的词挑选出来放在停用词表,使文本数据真正反映出电影评论所表达的意思。筛选后的评论文本分词结果如图6所示。

4.3 计算各类情感得分

在前文中我们说明了为对评论文本进行情感分析而建立了情感词库,进一步的操作就是依据已有的情感词库计算每一条短评文本的情感得分。部分评论文本的情感得分结果如表3。

表3 情感得分例表

电影作为体验型商品,电影播映的不同时段会吸引各类观众,观众会给出不同的观影感受。本研究认为对随电影播映时段波动的情感趋势的分析具有一定实际意义,因此将电影评论按照电影播映时段分类,即点映期间、上映期间以及下映期间进行情感趋势的描述与分析。情感趋势如图7―图9所示。

图7 好评情感得分波动

图8 一般情感得分波动

图9 差评情感得分波动

由以上图中数据可以看出,三类评分等级的电影评论情感得分基本与评分相一致,因此证明本研究所构建的情感分析结构是可行的。《哪吒》正式上映时间为2019年7月26日,正式上映之前有两次点映,时间分别为7月13―14日以及7月17―19日,上映时间为期两个月,即2019年9月26日下映。好评与一般的情感高分都出现在正式上映的初期阶段,差评的情感高峰主要出现在点映期间以及正式上映的后期阶段。

5 结论与讨论

本文以电影 《哪吒》在豆瓣网上的观众短评文本为数据源,对各评分等级的电影短评文本进行词频分析、共现网络分析以及情感分析,借助文本分析工具进行电影短评的知识挖掘及文本可视化,得出以下结论:

第一,各时间段各评分等级数量变化柱状图揭示了点映模式制造口碑发酵。由于国产动画电影一直以 “低龄向”的形态呈现在大众视线内,很多成年人一般不会主动关注一部国产动画,这就需要国产动画电影在前期找到适合自己的宣传方式,比如通过 “点映”为影片创造口碑发酵的机会。电影《哪吒》评分、票房如此之高,除了 “全龄向”这个特点之外,点映是电影未上先爆的部分原因。

第二,高频关键词的分析显示了 《哪吒》亮点之一是电影与中国古典神话IP的联动。打造中国古典神话人物产生联动的 “封神宇宙”是国产动画电影开创的亮点。这个亮点使得,相比之前的国产动画电影下映之后的无人问津,电影 《哪吒》在下映之后还有大量的观众评论,哪吒这个人物IP得以延续下去。

第三,抓住观众高分评价的关注点在于 “内容为王”。无论是给出哪个等级评分的观众,对国产动画电影的关注点主要在于影片通过故事情节以及人物形象呈现给观众的价值观。迎合主流口味固然没错,影片必须能够准确表达故事的精神内核以及教育意义,这不是仅靠堆砌搞笑段子就能完成的。故事完成度高,剧情逻辑合理、节奏流畅以及结构完整也是获得好评的关注点之一。

第四,电影制作技术或为 “保健因素”。结合共词分析和情感趋势分析以及管理学中的双因素理论的定义来看,电影制作技术即 “保健因素”得到一定改善之后,无论再如何进行改善的努力往往也很难使观众对整部影片满意。《哪吒》的制作技术已经达到各评分层次观众的满意,但是在电影正式上映期间以及下映之后,一般评论和差评的数量都大幅增长,其主要来自于观众对剧本情节内容的负向评论。可见国产动画电影的崛起不是靠情怀营销,虽然电影特效技术也取得了很大进步,但是未来的国产动画电影还是要致力于精良的剧本创作,想得到观众的真正好评,国产动画还需在内容创作上更上一层楼。

本研究通过内容分析法分别对评分等级为好评、一般以及差评的影评文本进行时间对比分析和词频分析,并结合共现分析法和情感分析,获得了一些较为有意义的结果和结论,但仍需指出的是,由于电影短评数量以及时间的限制,对单一电影的文本挖掘结果分析存在一定程度上的主观因素,因此需要结合不同电影的特点和发展方向开展进一步的研究。

猜你喜欢

哪吒之魔童降世哪吒动画电影
小哪吒中队修炼记
哪吒VPro
The Analysis of Color Narration of Animated Film Ne Zha
动画电影
观看《哪吒之魔童降世》有感
从《哪吒之魔童降世》看干部之严管厚爱
《哪吒之魔童降世》: 映射当代家庭关系
《哪吒之魔童降世》夺冠
有修养,不任性
动画电影中文学成人化错位与劣化趋势解析