APP下载

基于用户收视行为与评论情感分析的收视预测研究

2022-05-03冯小丽吴肇良殷复莲

关键词:混合预测函数

冯小丽,吴肇良,殷复莲

(媒体融合与传播国家重点实验室,中国传媒大学信息与通信工程学院,北京 100024)

1 引言

收视率主要指研究一个地区在同一个时间段内某一频道或某一档节目的收视观众占总收视人数的比率[1],可以反映节目的口碑与影响度,是评估节目价值的重要指标之一。近年来,由于社交网络的发展和兴盛,受众的情感偏好、网络舆论造势等成为干扰传统电视收视的关键因素[2];同时,用户在线、及时发表的影评等对节目收视也会产生一定影响。这就使得如何把握电视节目数据、用户行为数据及评论文本数据的影响,对已上映的节目进行科学、有效的收视预测显得尤为重要。

近年来,对收视率的预测方法与技术日益成为相关电视机构、研究者关注的重点内容。收视率预测主要研究如何将影响收视的各种因素转换为一些相关指数,并以相对精确的数学形式表示,以消除主观判断的偏差。早期,有学者利用统计学的线性回归方法来评判收视规律,以刻画节目的收视走向;但这一方法不能深入地把握收视变换规律及建立有效的收视预测模型[3]。在21 世纪初期,基于数据挖掘技术的收视率预测方法开始被引入收视预测领域,为该领域的研究提供了新思路,其以收视率的影响因素为依据对收视率进行预测[4]。张晶等[3]将收视率的影响因素作为贝叶斯网络节点,依据先验知识选取分析变量,采集样本数据,通过贝叶斯网络的结构学习和参数学习,提出了新的收视率预测方法。梁招娣等[5]提出了一种RBF(Radial Basis Function)神经网络预测方法,其通过对收视率数据进行非线性定阶,对模型进行重构,然后利用RBF 神经网络寻找最优参数进行预测。汪洋等[6]采用BP(Back propagation)神经网络进行了收视预测,这一方法更加注重数据之间的稳定规律,因此取得了相对较高的预测精度。程杨[7]提出采用机器学习中的梯度下降算法对收视率数据进行分析预测,但因数据量的限制,预测误差较大。虽然上述模型在收视率预测上取得了良好效果,但这些方法往往存在易受个别“奇异点”数据影响、相关参数多、设定困难、数据量限制等问题。此外,基于时间序列的方法即依据序列过去变化的特征来预测未来的变化方式,也被用于收视预测。Zheng 等[8]采用基于时间序列的灰色系统模型(Grey Model(1,1), GM(1,1)),在数据少、信息少的情况下,对新一期电视节目的收视进行了预测研究,最终预测误差小于5%。姚芳[9]等基于时间序列构建了四种拟合模型,对全国30 家电视台卫星频道的收视率进行了分析预测,得出基于时间序列的方法可利用较少的数据信息构建较好的拟合模型并达到较高精度的预测效果。车睿佳[10]基于时间序列建立了二阶自回归模型,为降低异常值带来的影响,对模型进行了平滑滤波改进;其以节目热播期前29 天的收视数据作为训练集,最后3 天的数据作为测试集,对电视剧的收视率变化趋势进行预测,取得了不错的预测效果。可见,基于时间序列的方法可在一定程度上解决收视数据量少、信息少等问题,达到对节目未来的收视率有较佳的预测效果。近年来,也有学者对贝叶斯证据框架下的一类支持向量的估计方法进行了研究[11],引入贝叶斯证据框架对其参数和样本隶属度取值进行优化,将收视率数据的前期认识加入到收视预测模型中,并针对收视率数据的特点给出其参数调整方法,为收视率分析预测提供了一种新思路及方法,且相较于传统的方法取得了更好的预测精度。支持向量机(Support Vector Machine, SVM)被广泛应用于小样本、非线性数据拟合上,较传统的神经网络算法要求数据量丰富、对数据量依赖性强等方面具有较好的优势[12]。而由SVM 扩展的最小二乘支持向量机(Least Squares Support Vector Machine, LSSVM)技术具有算法简单、易于实现、计算速度快等优点[13],在物流需求量、网络流量、降雨量、就业率等各领域的预测中,都展现出了其的良好优势。

因本文对节目播放期间短期内的收视率做预测研究,基于时间序列即以每天的收视数据为实验样本时,从样本量上属于小样本;从样本值上,因收视用户、收视时长均处于不断变化中,即收视数据也满足小样本,故本文将支持向量机技术引入到收视预测领域以验证其适用性。而针对传统预测技术存在的问题,以及最小二乘支持向量机的参数确定、核函数选择等问题,本文提出基于混合核的PSO_LSSVM(Particle Swarm Optimization, 粒子群优化算法)模型,并综合考虑节目在播期间的用户收视行为和评论情感两大因素进行电视节目收视预测。本文第一节介绍本文研究的背景、意义及发展现状;第二节主要介绍本文构建的混合核PSO_LSSVM 收视预测模型的研究框架及模型采用PSO 算法[14]进行参数优化的训练步骤;第三节主要介绍本文的实验与结果分析,并给出对比实验结果;第四节为结论部分并进行了展望。

2 混合核PSO_LSSVM 收视预测模型

本文基于用户收视行为与评论情感分析的收视预测展开研究,研究架构如图1所示,主要包括数据集构建、混合核模型构建以及模型性能评估三个部分。首先在数据集构建部分获得模型所需的实验数据集,然后在混合核模型构建部分介绍最小二乘支持向量机及粒子群优化算法的基本原理、混合核函数的构建及模型训练优化步骤,最后在模型性能评估部分给出本文采用的两个评价指标及其定义。

图1 研究架构图

2.1 数据集构建

本文采用的用户收视行为数据是从某有线电视网络股份有限公司的机顶盒收视数据中整理获得的,针对其包含的自2015 年5 月1 日至10 月31 日期间所有用户收视数据记录,并结合分析了2015年下半年国内电视剧热播排行榜,最终选取《琅琊榜》作为本文的收视预测研究对象。每一条用户收视记录数据中包含用户编号、日期、开始收看时间、结束收看时间、节目时长、节目名称、节目标签等要素,其中时长以秒为计算单位。因考虑到用户的收看时长在很大程度上可以反映出其对节目的喜爱程度[15],故基于每位用户的收看时长、以及当天该节目的总播放时长,利用Python 计算了模型需要的每一天的用户收视数据,即构建得到介于[0,1]之间的收视序列数据集。采用的计算方法如公式(1)所示:

其中,n表示当天收看该节目的用户数,ti表示第i位用户的收看时长,T表示节目在当天的总播放时长,B表示用户收视行为数据。则此公式中的分子表示节目播放当天被所有用户收看的总时长,分母表示若每一位用户在节目播放当天完整收看该节目的总时长。

本文采用的用户评论文本数据是从国内最具影响力的电影社区,同时拥有着较大规模用户群体的豆瓣电影网站上基于Python 爬虫技术获得的。其中每一条评论数据包含用户昵称、日期、评价、短评等要素,通过选用较为常用的、基础的、基于情感词典的文本情感分析方法经分词、去停用词等数据预处理以及构建情感词典、否定词词典、程度级别词典等操作后利用Python 计算出每一条短评文本的情感值。情感值的正值、负值以及零值,分别对应了用户观看节目后所发表短评的积极、消极、中性三种情感态度。同时为避免值过大或过小而影响模型的拟合预测,故将情感值的上下限设置为[-10,10]。最后通过整理计算将每天所有用户的短评情感值均值作为当天的用户评论情感值,即构建得到情感序列数据集。

2.2 混合核模型构建

本文以标准最小二乘支持向量机模型为基础,因该模型的性能在很大程度上取决于模型参数的确定及其核函数的选择,但目前尚未确定统一的理论来指导如何获取有效的模型参数值及核函数。故本文首先针对模型参数值的确定问题,引入了PSO 优化算法通过循环迭代的方式得到模型训练拟合时所需的最优化参数值,即在LSSVM 模型的基础上首先构建了基于高斯径向基(RBF)核函数的PSO_LSSVM模型。

而针对模型核函数的选择问题,因模型若只采用单一的RBF 核函数拟合训练时,易出现过拟合现象,为保证模型对收视序列数据具有较高拟合效果的同时,也可具有较好的收视预测性能。本文基于具有高学习能力的局部RBF 核函数以及具有高泛化能力的全局多项式(POLY)核函数,引入了混合权重系数,实现构建混合核函数K,其具体定义公式如下所示:

其中,a为混合权重系数,表示混合核函数中两个单一RBF 核、POLY 核所占的比重,其值取值范围为[0,1]。当a= 1 时,K仅由RBF 核函数构成;当a= 0时,K仅由POLY 核函数构成。在公式(3)中,σ2表示RBF 核函数宽度。在公式(4)中,t表示偏置系数[16],且t≥0,在LSSVM 工具箱中其值默认为1;q表示POLY 核函数阶数,q≥1 且为整数。在构建得到混合核函数K后,将其作为PSO_LSSVM 模型的核函数即替换掉原来的RBF核函数,以提高模型的收视预测性能,最终便构建得到基于混合核的PSO_LSSVM 收视预测模型。

当构建了基于混合核的PSO_LSSVM 收视预测模型后,需由PSO 算法实现对两组模型参数组合值即[γ,σ2]、[p,a]的确定,以得到不同训练数据下对应的最优化参数值,模型具体的训练步骤框图如图2所示,主要可分为初始化参数设置、第一次优化确定[γ,σ2]的最优值、第二次优化确定[p,a]的最优值三个步骤。

图2 模型训练步骤框图

a)初始化参数设置

对LSSVM 中的两个参数,设其取值范围分别为γ ϵ[0.01,50],σ2ϵ[0.01,20];对PSO 算法中的几个超参数,设定粒子群个数M= 50,初始化学习因子C1=C2= 1,初始惯性权值wmin=0.4,终止惯性权值wmax=0.95;最大迭代次数K= 500。

b)第一次优化确定[γ,σ2]的最优值

令γ和σ2的值分别指代粒子群中每个粒子的飞行速度及当前位置,并将模型训练输出的收视拟合值与真实值的均方根误差作为适应度函数计算得到的适应值。并将这三个值存放在3维局部向量Pbest_1(M,3)中,其中Pbest_1[i,1 ]代表第i个粒子的γ值,Pbest_1[i,2 ]代表该粒子的σ2值,Pbest_1[i,3]则代表该粒子在当前两个属性取值下的最优适应值。通过循环迭代比较每个粒子找到的局部最优值,当迭代次数达到最大时,确定全局最优参数取值Gbest_1(i,3),即得到模型训练拟合需要[γ,σ2]的最优参数取值。

c)第二次优化确定[p,a]的最优值

在第二次PSO 优化中,除了改变最大迭代次数为300(该值是经多次试验确定)外;其余参数的初始化设置均与第一次优化的相一致。同时设置混合权重系数a的最大值为1,最小值为0;多项式核阶数p的取值范围为[ 2,8 ]。令p和a的值分别指代粒子群中每个粒子的飞行速度及当前位置;将第一次优化得到的[γ,σ2]的全局最优化参数值代入到基于混合核模型构建的新适应度函数中,同样将模型经训练输出的拟合值与真实值的均方根误差作为适应值。并将p、a以及新的适应值存放在3 维局部向量Pbest_2(M,3)中,其中Pbest_2[i,1]表示第i个粒子的p值,Pbest_2[i,2]表示该粒子的a值,Pbest_2[i,3]则表示该粒子在当前两个属性以及第一次优化得到的两个属性取值下的最优适应值。通过循环迭代的方式比较每个粒子找到的局部最优值,当达到最大迭代次数时,可确定第二次的全局最优参数取值Gbest_2(i,3),即确定了[p,a]的取值。

最后经两次PSO 优化确定了混合核模型拟合训练需要的全部最优化参数后,将两组参数组合值代入到混合核模型中,进行训练,得到训练模型以用于电视节目收视预测。

2.3 模型性能评估

本文采用自适应滑动窗口预测的方式,对标准LSSVM 模型、基于单一RBF 核的PSO_LSSVM 模型、本文所构建的基于混合核的PSO_LSSVM 模型以及常用的数据拟合模型即BP 神经网络模型分别做训练拟合及收视预测对比实验。同时为反映各模型的性能优劣,本文选用了在数据拟合预测领域中常用的均方根误差RMSE及确定系数R2两个评估指标对模型的收视拟合、预测效果进行客观评价。其中,RMSE的定义如公式(5)所示:

其中,n表示输入的训练样本个数,yi表示训练的真实输出收视样本值,表示经训练模型得到的输出收视预测值,yˉ表示真实输出收视样本值的均值。一般地,RMSE的值越接近于0,则表示模型的拟合、收视预测效果越好;R2的值越接近于1,模型整体的效果越好。

3 实验与结果分析

因用户行为由用户观看日期即时间要素来体现,故本文研究用户收视随时间及评论情感的变化规律构建训练模型进行节目收视预测。而因在预测某一天的收视时,是无法提前获知当天的用户评论文本数据的;故本文提出了先采用基于时间对用户评论情感序列进行二维模型拟合训练,然后基于得到的二维训练模型预测出之后几天的评论情感值,接着将评论情感预测值依次代入到基于时间及评论情感序列对用户收视序列进行三维拟合训练得到的模型中,以预测得到这几天相应的收视值。

此外,考虑到用户的收视习惯、以及节目自身内容对固定用户群体的吸引性,使得用户收视随时间及评论情感的变化也具有一定的规律性。故本文以20天为滑动窗口步长,进行模型自适应迭代预测实验,采用自适应的方式,即依据不同的输入数据得到对应的模型参数,可有效提高模型的拟合、预测性能。

3.1 混合核PSO_LSSVM 收视预测模型实验

因支持向量机的原理较为复杂,实现起来较为困难,同时针对最小二乘支持向量机,美国的Suykens开发的基于MATLAB 的最小二乘支持向量机工具箱LSSVMlab具有编程简单、运行效率高、可计算数据量大、可扩展性强、算法功能丰富等各大优点[17],是研究最小二乘支持向量机模型的有力工具。故本文基于MATLAB2019a软件安装并添加最小二乘支持向量机工具箱(LSSVMlabv1_8_R2009b_R2011a),通过有效调用其功能函数实现收视模型的训练、预测工作。

首先以第1-20 天的评论情感序列经训练优化构建二维拟合模型,预测得到第21、22 天的评论情感值为例。采用两次PSO 优化算法得到混合核模型对应的两个参数组合的最优化取值为:第一次优化结果为γ= 8.2235,σ2= 0.3853;第二次优化结果为p= 3,a =0.7718,代入模型对应输出的二维拟合曲线图如图3所示。

图3 第1-20天评论情感序列拟合曲线图

从图3 可以看出,采用基于混合核的模型对用户评论情感序列的拟合与真实情感值的变化是较为接近的,拟合曲线也可以较好地反映出用户观看节目时的情感态度变化。同样,采用20 天的滑动窗口步长,以第3-22天的评论情感序列构建二维拟合模型,预测得到第23、24 天的评论情感值;以第5-24 天的评论情感序列构建二维拟合模型,预测得到第25、26 天的评论情感值。

在预测得到评论情感值后,以第1-20天的评论情感序列即用户收视序列经训练优化构建三维混合核拟合模型,来预测第21、22 天的收视为例。采用两次PSO 优化算法得到模型对应的最优化参数值:第一次优化结果为γ= 40.9683,σ2= 0.2905;第二次优化结果为p= 4,a= 0.5944,代入模型对应得到基于RBF核及基于POLY 核的输出三维拟合曲面图分别如图4、图5所示。

图4 RBF核第1-20天用户收视序列拟合曲图

图5 POLY核第1-20天用户收视序列拟合曲面图

从图4、图5 中可以看出,由基于局部的RBF 核函数得到的拟合曲面图较基于全局的POLY 核函数得到的拟合曲面图的趋势随收视的变化更为细腻,即其拟合的结果更接近收视率的真实值,反映体现出RBF核函数的高学习能力,也可体现出POLY 核函数的泛化性能较RBF核函数的更好。综合两者的优势,便可使得三维用户收视的混合核模型对收视值拟合的整体效果较佳。接着基于得到的三维用户收视混合核模型来预测第21、22 天的收视时,代入在二维评论情感混合核模型中预测得到的这两天的评论情感值;同理,基于20 天的滑动窗口步长,迭代预测得到第22、23天的收视以及第24、25天的收视值。

3.2 对比实验

当以20 天为滑动窗口步长时进行模型收视预测时,得到在各模型下的收视预测结果如表1所示,从表1中可以看出基于混合核模型实验得到的预测值较其它模型更接近于真实值,并绘制各模型预测效果对比图如图6所示。

表1 各模型收视预测结果

图6 各模型预测效果比较图

从图6中可以看出混合核模型的预测值与真实值的变化趋势在整体上更接近,即模型的泛化性能更好;也可以看出,当采用BP神经网络模型进行收视预测时,因其对样本量的依赖性较强,所以当样本量过少时,整体的预测效果均没有基于LSSVM模型的好。同时,在表2中给出了各模型收视预测性能评估指标值。

表2 各模型收视评估指标

从表2中可以以更直观的方式显示出本文所构建基于混合核的PSO_LSSVM 收视预测模型的预测性能明显优于其他模型。同时也体现出在标准LSSVM模型的基础上引入PSO优化算法的RBF核PSO_LSSVM模型,对标准模型做了有效的改进,并在综合了混合核函数后达到了更优的性能,使均方根误差值近似达到0.02,更接近于0,说明本文构建的混合核模型取得了较好的收视预测效果及较高的泛化性能。

4 结 论

本文基于用户收视行为与评论情感分析的收视预测展开研究,在传统的预测方法未考虑用户观影情感因素对收视的影响上做了进一步的提升。同时构建了具有高拟合、高泛化性能的混合核PSO_LSSVM模型,并采用自适应迭代预测的方式以20天为滑动窗口步长进行模型拟合训练及收视预测,并通过对比实验分析得到混合核模型下预测均方根误差指标达到最低0.02 且确定系数在各模型下最高,即验证了本文构建的混合核模型在收视预测领域的有效性及适用性。接下来我们将尝试爬取更多的评论文本数据量并选取其他的滑动窗口步长做进一步的实验于改进工作,提高模型的收视预测泛化性能。

猜你喜欢

混合预测函数
混合宅
无可预测
选修2-2期中考试预测卷(A卷)
选修2-2期中考试预测卷(B卷)
选修2—2期中考试预测卷(A卷)
混合运算大篷车
关于函数的一些补充知识
高中数学中二次函数应用举隅オ
无独有偶 曲径通幽