APP下载

基于豆瓣短评数据的情感认同状况分析

2021-08-16张乃芳张钰彬

新媒体研究 2021年9期
关键词:数据分析

张乃芳 张钰彬

摘 要 随着中国电影行业和社交网络的高速发展,公众平台汇聚了大量用户对于电影的评论。2021年春节档获得高票房的电影《你好,李焕英》引起了网友的高度关注。文章主要运用LDA主题模型对豆瓣网站上网友对《你好,李焕英》的短评文本进行数据分析,定量分析与定性分析相结合,挖掘观众对这部电影的态度和评论的焦点与特点。分析发现,观众对该电影有高度的情感认同,讨论主要聚焦在典型情节和主演的演技;关于喜剧电影是否应该笑中带泪的问题,成为对该电影评价的主要分歧点。《你好,李焕英》产生了良好的娱乐效果和社会教育效果。

关键词 LDA主题模型;数据分析;电影评论;可视化呈现

中图分类号 G2 文献标识码 A 文章编号 2096-0360(2021)09-0113-05

2021年2月12日电影《你好,李焕英》上映,截至2021年3月26日豆瓣评分为8.1分,是2021年春节档上映电影中唯一超过8分的电影,这一成绩好于89%的喜剧片,好于77%的剧情片。这部讲述母女亲情的喜剧电影,热度持续上涨,主演张小斐的演技备受好评,导演贾玲备受关注。作为一部现象级电影,《你好,李焕英》的成功必然是多方面因素共同作用的结果,电影获得超高票房的背后,契合观众需求是最重要的一点。从消费者角度评价电影,贴近大众生活,才能创作出人民群众喜闻乐见的电影。

1 研究数据与研究方法介绍

1.1 研究思路

本研究先从豆瓣网友评价的整体态度入手,然后分析网友短评中的高频词,之后分析最受关注的热评,最后对采集到的所有短评进行主题聚类。分析对象由态度,到词语,再到段落,最后是对所有短评的数据分析,整个过程是对网友观后感的逐渐深入的分析过程。

具体来说:第一步,根据豆瓣网友的评价星级分布,从整体上把握观众对这部电影的推荐指数;第二步,分析观众的短评高频词有哪些,从总体把握观众对于这部电影关注的侧重角度;第三步,提取观众短评里最受关注的热评,分析这些认同度最高的短评都是从哪些角度评价电影,以及其中包含的情感态度如何;最后,运用LDA主题模型,将观众的短评进行数据分析,根据数据结果划分内容主题,细致把握观众的关注点。

1.2 研究方法

一直以来,广大导演、演员、自媒体都将豆瓣网评分、评论内容作为评论电影的重要依据并采用各种方式对豆瓣评论的内容进行分析。但是,时代发展使得越来越多的观众在网站发表自己对电影的看法,有一定知名度的电影在豆瓣上都有数量庞大的網友评论。传统影评分析方法无法应对海量的大众媒体新闻报道和公共舆论,如何利用自动化的方式对网友影评进行分析在此情况下显得尤为重要。

本研究主要采用LDA主题模型对电影短评内容进行分析,并利用词云图对电影短评内容中词频较高的词进行可视化呈现。作为一种基于机器学习的文本内容分析技术,主题模型是一种使用概率的产生式模型来挖掘文本主题的新方法[1]。LDA是Blei等在2003年提出的一种统计主题模型[2],是近年发展起来的一种重要提取潜在主题的建模方法[3],该模型已经得到研究人员广泛认可,并被运用至各个研究领域。“LDA主题模型的主要作用是将语料库中大量非结构化的文本数据转换为可供研究人员进行分析的数据,并依据选定的参数进行文档-主题、主题-词的聚类工作,从而使研究者能够在较短时间内从语料库中得到一组可供解读的主题。”[4]

相较于单纯的统计数据而言,LDA主题模型输出结果为一段包含各类意义的词群,人文研究者能够利用这些词群进行证伪、定性与定量相结合等方面的研究。这种技术方法在人文社科领域具有传统研究方法难以企及的优势。《你好,李焕英》影评属于带有主题性质的大规模文本,适合用此方法。

2 研究结果

首先,根据豆瓣937 198名网友对《你好,李焕英》打出的星级分数,统计出各星级所占比例,从总体上初步了解观众对这部电影的推荐态度。其比例分布如图1所示,其中1星和2星的评价只占2.8%,4星和五星占比高达77.6%,可见大多数观众对此电影持推荐态度,认为该电影值得一看。

其次,以豆瓣网友的观后短评为分析对象,删除重复评价、无意义的短评以及星级评分为空值的短评后,共获得492条热度最高的有效短评。计算其词频,取词频最高的前50个词进行高频词分析。在这一部分的分析中,输出了图2的词云图和表1正负面评价高频词。为从可视化角度透视短评的热词分布,本文根据词频数值降序排列,截取排名前50的词组制作词频云图。在词云图中,我们可以看到表达态度类的词汇较多,因此将带有明显正负面态度的评论高频词整理成表1。

词云图如2图所示,从图2可以看出提及较多的词汇是电影内容以及观众对电影的情感态度。进一步区分词云图中的高频词,可以看到观众讨论的热点主要集中三个方面:其一集中在电影母女亲情的代入感,体现词汇有“母亲”“遗憾” “年代”“年轻”;同时,能够体现观众情感态度的词汇也有很多,既有正面词汇,如“真诚”“真挚”“喜欢”等,也有“尴尬”这样的负面词汇;也有部分观众从喜剧的形式与深度加以探讨,主要表现在对“煽情”的把握和喜剧电影里表达悲剧内核“反转”的艺术技巧。

3.4 “喜剧是否应该笑中带泪”成为争议的一大焦点

大部分观众认为这部电影前期轻松、笑点密集,后半部分泪点和痛点并存,让观众体会到了满满的母爱。但也有观众评论:“前期可能期待值太高,本来以为泪点低的我,会哭的稀里哗啦,死去活来,结果并没有,剧情稍显平淡,反转也在意料之中,煽情比较老套,笑点包袱有点尬,年代感也没有让人怀念逝去时光,总之 我还是更喜欢夏洛特烦恼”。喜剧作品里的煽情,向来是观众争议的焦点。能做到让观众身临其境的感同身受而不是流于表面的个人情感宣泄,是考验导演和编剧能力之处。喜剧的“内核”是悲剧,但这个“内核”如何包裹更是喜剧作品应该反复打磨的地方。

《你好,李煥英》作为现象级的高票房电影,获得了巨大的商业成功,也赢得了观众的广泛认可。同时,电影热映后还引发人们一系列的“跟帖式”活动,如“#我和我妈的闺蜜照#”的接龙式晒图,可见它输出了正能量,为今天的亲子关系和谐发展贡献了力量,事实上起到了良好的社会教育效果。因此,对电影以及观众短评的分析,有助于在电影中注入教育因素的探索,也有助于将电影教育的成功因素引入思想政治教育。

参考文献

[1]Lukins S K,Kraft N A,Etzkorn L H.Source code retrieval for bug localization using Latent Dirichlet Allocation[C].Proceedings of the 15th Working Conference on Reverse Engineering.Los Angeles:IEEE,2008:155-164.

[2]Blei D M,Ng A Y,Jordan M I.Latent dirichlet allocation[J].J Machine Learning Research Archive,2003(3):993-1022.

[3]唐晓波,房小可.基于文本聚类与LDA相融合的微博主题检索模型研究[J].情报理论与实践,2013,36(8):85-90.

[4]郑石明,兰雨潇,黎枫.网络公共舆论与政府回应的互动逻辑:基于新冠肺炎疫情期间“领导留言板”的数据分析[EB/OL].(2021-03-11)[2021-03-25].公共管理学报,https://doi.org/10.16149/ j.cnki.23-1523.20210311.002.

猜你喜欢

数据分析
电子物证检验的数据分析与信息应用研究
基于matlab曲线拟合的数据预测分析
分众媒体趋势下场景营销的商业前景
佛山某给水管线控制测量探讨
SPSS在环境地球化学中的应用
大数据时代高校数据管理的思考
新常态下集团公司内部审计工作研究
浅析大数据时代对企业营销模式的影响
基于读者到馆行为数据分析的高校图书馆服务优化建议