APP下载

基于机器学习的多分类Logistic回归

2019-10-21黄恋舒夏启政

现代信息科技 2019年21期
关键词:影星电影票房因子

黄恋舒 夏启政

摘  要:票房与评分作为评价一部电影最重要的两个方面,传统研究考虑他们的影响因素时,只考虑多个影响因素对其中一个因素的影响(即“多对一”)。本文提出基于多分类Logistic回归模型,构造一种单一影响因素对多个因素(即“一对多”)是否产生影响的分析方法,并从理论角度对该方法给予了证明;并将该方法应用在2017年和2018年国产电影数据中,分析了明星影响力对电影票房评分两方面的影响,发现明星影响力对电影票房评分没有显著影响。

关键词:多分类Logistic回归;影响因素筛选;明星影响力

中图分类号:TP181      文献标识码:A 文章编号:2096-4706(2019)21-0022-04

Abstract:Box office and scoring are the two most important aspects of evaluating a film. When traditional research considers their influencing factors,only the influence of multiple influencing factors on one of the factors (more to one) is considered. This paper proposes an analysis method based on multi-class Logistic regression model to construct whether a single influencing factor affects multiple factors (one to more),and proves the method from a theoretical perspective. In addition,we applies the data of domestic films of China in 2017 and 2018,and analyze the influence of star on the movie box office and score. We find that the star has no significant effect on the movie box office and score.

Keywords:multi-class Logistic regression;selection of factors;star influence

0  引  言

近年来,中国电影市场蓬勃发展,呈现出百花齐放的景象。一部电影的成功往往主要由电影票房与评分两个方面决定。一般而言,票房决定了电影的经济效益,评分决定了电影的文化效益。所以研究电影票房与评分的影响因素,也成了现在学术界对电影研究的主要方面。

但是这些研究往往只关注了票房或者评分其中一个方面,没有考虑影响因素对二者整体的影响。本文基于多分类Logistic回归模型,将电影离散化为“高分高票房”“高分低票房”“低分高票房”“低分低票房”四类,在机器学习视角下,分析预测了影星这一影响因素在同一电影类别中所发挥的作用存在的差异,进一步分析影星对于电影票房与评分整体的影响。

1  文献综述

对于电影票房的影响因素分析,早在20世纪80年代,Litman[1]就使用回归的方式建立了票房模型,他认为影响票房最主要的因素是档期和发行公司,同时电影提名和专业影评对其也有着较为显著的影响;1994年,Sochay[2]认为影响票房的主要因变量是市场集中度,并按照类似Litman的方法建立了回归模型,对美国票房进行了分析预测。以上两个模型是针对美国票房的分析模型,对国内的票房模型的研究起到了十分重要的参考作用。在国内,郑坚[3]等利用反馈神经网络来建立票房预测模型,通过影响因素为导演、档期等拟合出效果较好的票房预测模型;吴珏[4]等人使用电影喜欢人数、收藏人数等消费者数据对票房进行分析预测,发现用户关于特定电影的深度互动行为与票房结果显著相关;李建平等[5]使用灰色关联分析和BP算法对票房进行预测,选择了内地影院数量、银幕总数、居民消费水平等七个相关的指标,得到了效果较好的预测模型。

这些研究表明,消费者以及电影本身对票房有着显著的影响,但是大部分研究忽略了演员对电影票房的影响,尤其是电影主演对票房的影响。在中国电影市场,存在着明显的“明星”效应,即许多制片方会将大部分资金用在请“明星”上,凭借“明星”吸引观众,提升票房。

对于电影评分的影响因素分析,国内外的研究较少,周如彪等[6]使用多元回归模型,分析了上映时间、时长等指标对电影评分的影响;马松岳、许鑫[7],使用ROSTEA工具进行情感分析得到评论评价的综合情绪值,将其与评分进行相关分析。这些研究表明,电影票房与评分等多种因素有关,这些因素既有共性,也有差异,但都是多种因素对单一因素的影响,即“多对一”模型。

所以本文的研究重点,一是利用多分类Logistic回归模型,研究解决“一对多”的问题,并证明这种方法的可行性;二是利用这种方法对电影数据进行建模,分析影星对电影票房与评分的影响。

2  模型设定

但是由于本文所研究的问题是变量对分类的影响,又因为对于未分类样本决定样本分类的指标完全是由数据的原始属性提供,所以当x*可由X線性表示时,即分类变量y可完全被x*解释,x*是影响分类的因素。

3  实证分析

本文爬取了时光网2017年的56部电影与2018年各55部国产电影的票房、评分、主演等数据,同时在“艺恩电影数据库”中爬取了1737名明星的微博热度、新闻热度、贴吧热度以及搜索热度数据。

3.1  数据处理

为了获得有效的预测模型,对数据做以下处理。首先考虑到2017与2018两年的电影票房和评分有着差异较大的波动,所以对电影票房以及评分数据进行标准化处理。由于电影数据本身没有根据电影的票房和评分进行分组,所以根据聚类和判别分析的思想,设置四个群样本点π1,π2,π3,π4分别代表“高分高票房”“高分低票房”“低分高票房”和“低分低票房”四种电影类别,并定义它们在空间中的位置π1[max(pf),max(score)]、π2[min(pf),max(score)]、π3[max(pf),min(score)]、π4[min(pf),min(score)],其中pf代表电影票房,score代表评分。

其次为了有效表达每部电影主演的影响因子,本文采用主成分分析的方法,并提取第一主成分,作为每位主演的影响因子,如下式:

factor1=0.568*tieba+0.292*weibo+0.472*search+0.607*news

其中tieba、weibo、search、news分别代表贴吧热度、微博热度、搜索热度以及新闻热度。

对于一部电影来说,通常情况下主演并不是只有一人,为了简化问题,这里将所有主演的影响因子相加构成电影的影星影响因子。这也符合实际情况,对于一部电影来说,人们的关注度往往取决于这部电影的演员的整体实力。

3.2  模型参数设定

我们选取2018年的55部电影数据作为实验组供电脑学习,并随机选取其中的35部电影作为训练集,其余20部为测试集;将2017年的56部电影作为预测集,检验电影明星对电影类别的影响。并由上述聚类方法得到电影类型表,如表1所示。

针对多分类问题,常用混淆矩阵和根据混淆矩阵得到的绝对精度,所谓绝对精度,即准确预测到实际类别个数占整个实际类别总数的比例。

3.3  实验结果

使用Matlab编写构建Logistic回归模型,使用梯度下降算法分别对2018年包含影星影响因子的数据集(train_stars)和不含影星影响因子的数据集(train)进行训练,得到结果,如图1至图4所示。其中图1和图2分别代表含影星影响因子的包含35部电影的训练集和包含20部电影的测试集数据集,图3和图4分别代表不含影星影响因子的包含35部电影的训练集和包含20部电影的测试集数据集。图中“十字”代表数据原始数据类别,“圆圈”代表预测数据类别,尖锋代表预测错误的电影。可以看出两个数据集的训练集精确度都达到了0.8,而测试集得精确度也达到了0.85和0.9,所以该模型的精确度较高,可以用来预测2017年电影的分类。

通过预测2017年电影的分类,得到结果如图5和图6所示,其中图5为含影星影响因子的预测;图6为不含影星影响因子的预测。

其中两种预测模型对同一电影预测值相同的电影只有14部,即重复率只有25%,所以我们可以认为电影明星对电影分类是一个无关的随机影响因子,即电影明星对电影票房以及评分没有影响。

4  结  论

本文采用多分类Logistic回归从分类的角度衡量了单一影响因子对多因素的影响,并对该方法给予了证明。之后选取了2017年和2018年的数据,分析了电影明星对电影票房以及评分的影响,由于有无影星影响因子对模型有着显著的影响,所以我们认为电影明星并不会对电影票房以及评分产生影响。

本文选取了一个全新的角度,分析某一因素是否对其他因素产生影响,并为电影投资人,是否要邀请大牌明星提升电影的竞争力和口碑提供了一定的参考。

参考文献:

[1] Barry R. Litman,Linda S. Kohl. Predicting financial success of motion pictures:The '80s experience [J].Journal of Media Economics,1989,2(2):35-50.

[2] Scott Sochay. Predicting the Performance of Motion Pictures [J].Journal of Media Economics,1994,7(4):1-20.

[3] 李健平,王世民.基于灰色关联分析和BP算法的国内电影票房预测 [J].电子世界,2018(24):18-19.

[4] 吴珏,潘徐.基于用户内容消费数据的电影票房预测模型探索 [J].全球传媒学刊,2018,5(3):96-107.

[5] 郑坚,周尚波.基于神经网络的电影票房预测建模 [J].计算机应用,2014,34(3):742-748.

[6] 周如彪,林晓霞,王昱华.基于多元回归分析豆瓣电影评分 [J].艺术科技,2019,32(1):67-68+83.

[7] 马松岳,许鑫.基于评论情感分析的用户在线评价研究——以豆瓣网电影为例 [J].图书情报工作,2016,60(10):95-102.

[8] 李锦繡.基于Logistic回归模型和支持向量机(SVM)模型的多分类研究 [D].武汉:华中师范大学,2014.

作者简介:黄恋舒(1997.11-),女,汉族,广西贵港人,本科在读,研究方向:经济统计;夏启政(1998.11-),男,汉族,河南新乡人,本科在读,研究方向:经济统计。

猜你喜欢

影星电影票房因子
7月全国电影票房32.21亿元
一类常微分方程的解法研究
直径不超过2的无爪图的2—因子
图的齐次因子分解
巧解难题二则
一季度3省市票房概况
被诽谤
美国黑人影星争演泰森好莱坞青睐拳击题材 老泰森筹划年底复出
影星和他的“侄子”