APP下载

基于随机森林模型的茶叶消费者粘性影响因素分析

2022-02-22付饶王书博刘智权李雪方茂达

中国茶叶 2022年1期

付饶 王书博 刘智权 李雪 方茂达

摘要:文章從需求频次与消费意愿的影响因素入手,提出了茶叶消费者粘性指数综合评价模型,该模型包括粘性构成要素、影响因素及其具体评价3部分;其中粘性构成要素包括需求频次与消费意愿,影响因素包括感知有用性、可替代性、感知价值、转移成本、专业素养和社会属性,具体评价指标共12项。采用调查问卷收集不同消费者对模型指标的评价数据,并通过了结构效度检验。采用随机森林算法分析各因素对茶叶消费者粘性的影响,以根据构成要素计算得出的粘性数值作为样本标签,以不同影响因素的具体评价指标作为样本特征,训练模型并进行参数调优,得到的最优模型在测试集上的MSE为481.36,模型拟合较好。引入SHAP值算法计算出不同影响因素的重要性程度,发现消费意愿的影响因素中,转移成本与社会属性重要性最高,权重值分别为0.343、0.325;需求频次的影响因素中,感知有用性重要性程度为0.184,高于可替换性的重要性。对不同影响因素进行分析,在此基础上提出关于茶产品的改进建议,进一步推动茶产品的改善与提升,促进消费者的茶产品消费,从而带动贵州省茶产业的深入发展。

关键词:消费者粘性;综合评价模型;随机森林算法;SHAP值;重要性评价

Analysis on Influencing Factors of Tea Consumer

Stickiness Based on Random Forest Model

FU Rao, WANG Shubo*, LIU Zhiquan, LI Xue, FANG Maoda

School of Mathematics and Statistics, Guizhou University, Guiyang 550025, China

Abstract: In order to analyze the influencing factors of tea consumer stickiness and explore the influence degree of

different factors on consumer stickiness, starting from the influencing factors of demand frequency and consumption

intention, this paper put forward a comprehensive evaluation model of tea consumer stickiness, which included three

parts: stickiness components, influencing factors and specific evaluation. The stickiness components included demand

frequency and consumption intention. The influencing factors included perceived usefulness, substitutability, perceived

value, transfer cost, professional quality and social attributes. There were 12 specific evaluation indicators. The

questionnaire was used to collect the evaluation data of different consumers, and passed the structural validity test. The Random Forest Algorithm was used to analyze the influence of the factors. The stickiness value was used as the sample label, and the specific evaluation indexes were used as the sample characteristics. The model was trained and the parameters were optimized. The MSE of the optimal model on the test set was 481.36, and the model was well fitted. It was found that among the influencing factors of consumption intention, transfer cost and social attribute were the most important, and the weight values were 0.343 and 0.325 respectively. Among the influencing factors of demand frequency, the importance of perceived usefulness was 0.184, which was higher than that of substitutability. Based on the analysis, this paper put forward suggestions on the improvement of tea products, further promoted the improvement of tea products, and promoted the consumption of tea products, so as to drive the in-depth development of tea industry in Guizhou Province.

Keywords: consumer stickiness, comprehensive evaluation model, random forest algorithm, SHAP value, importance evaluation

目前,对于消费者粘性应用的研究多集中于互联网产品应用[1]、金融市场[2]、电商营销[3]、品牌策略[4]等方面,对茶叶消费者的研究多集中于购买行为[5]、购买意愿[6]、营销策略[7]等方面。为深入分析茶叶消费者粘性的影响因素,探究不同因素对消费者粘性的影响程度,本研究采用问卷形式对购买茶产品的消费者进行调查,且未对消费者购买的茶产品种类进行限制,以获得宏观视角下不同因素对茶叶消费者粘性的影响程度;并将粘性分析和茶叶消费者分析相结合,建立茶叶消费者粘性指数(T-CSI)综合评价模型,并采用随机森林算法,分析了粘性影响因素的重要性程度,在此基础上得出适用于茶叶消费者的粘性分析模式并提出茶产品改进建议,以推动茶产品的改造升级,促进茶产业的进一步发展。

1  茶叶消费者粘性指数综合评价模型

1.1  留存分析模型简介

留存分析模型是用来分析用户参与情况/活跃度的分析模型,考察进行初始行为的用户中,有多少人会进行后续行为,是用来衡量产品对用户价值高低的重要方法[8]。包括N-day留存、Unbounded留存、Bracket留存3种留存方式;自定义留存是基于业务场景下的留存情况,比如阅读类产品会把看过至少1篇文章的用户定义为真正留存用户[9],电商类产品会把至少查看过1次商品详情定义为有效留存。

1.2  技术接受模型简介

技术接受模型(TAM),是1989年Davis运用理性行为理论研究用户对信息系统接受程度时所提出的模型[10],其最初是对计算机被广泛接受的决定性因素进行解释说明。

技术接受模型包括2个主要决定因素:感知的有用性与感知的易用性(图1)。感知的有用性反映系统对工作业绩提高的程度;感知的易用性反映系统的使用容易程度。

TAM认为系统使用是由行为意向决定的,而行为意向由想用的态度和感知的有用性共同决定,想用的态度由感知的有用性和易用性共同决定,感知的有用性由感知的易用性和外部变量共同决定,感知的易用性由外部变量所决定。外部变量包括系统设计特征、用户特征、任务特征等,为技术接受模型中的内部信念、态度、意向和不同个体间的差异、环境约束、可控制的干扰因素之间建立起一种联系。本文选取感知有用性作为粘性模型的影响因素之一。

1.3  茶叶消费者粘性指数改进模型

消费者粘性是指消费者对于品牌或产品的忠诚、信任与良性体验等结合起来形成的依赖程度和再消费期望程度[11]。对产品而言,最直接衡量消费者粘性的指标为使用时长和使用频率[12]。T-CSI改进模型详见图2。本文以茶叶消费者需求频次,即每周喝茶的频率(frequency)以及消费意愿(desire),即消费者1年来茶叶费用支出,作为对茶叶消费者粘性的评价指标。需求频次、消费意愿分别和消费者粘性成正比;同时消费意愿又制约着需求频次的强弱。二者对粘性的评价公式如下:

其中 Csi为第i个被调查者的粘性程度;fi为第i个被调查者的需求频次;di为第i个被调查者的消费意愿; εi为随机干扰因素项,设εi独立同分布,服从均值为0、方差为σ2的正态分布。茶叶消费者对茶叶的感知有用性和可替代性影响其需求频次;同时消费者对茶叶的感知价值、转移成本及消费者专业素养和社会属性均影响其消费意愿。

1.4  T-CSI模型指标体系

T-CSI模型由3部分组成,需求频次和消费意愿为茶叶消费者粘性指数的构成要素,结合上文的公式可计算出消费者粘性的具体数值;感知有用性和与可替代性为需求频次对应的影响因素,感知价值、转移成本、专业素养与社会属性为消费意愿对应的影响因素;影响因素的具体评价指标为可观测变量,该指标的分值依据被调查者所选选项得出。

T-CSI综合评价模型的指标体系如表1。其中,需求频次指茶叶消费者每周喝茶天数,反映消费者喝茶的频率以及对茶叶的需求程度。消费意愿指消费者近1年来的茶叶支出费用,反映了消费者对茶叶的消费态度和消费能力。

2  茶叶消费者数据来源与检验

2.1  数据来源

采用问卷调查法获得关于茶叶消费者的基本信息与消费情况,问卷中包括上述粘性模型指标体系中三级指标所对应的问题(表2)。通过线上方式进行问卷发放,共收集问卷1 020份,筛选出有效问卷881份,问卷有效率为86.4%。

2.2  数据检验

通过SPSS对问卷数据进行结构效度检驗,包括采样充足性检验(KMO)和Bartlett球形检验[13],其中KMO取值在0~1。当所有变量间的简单相关系数平方和远远大于偏相关系数平方和时,KMO值接近1,意味着变量间的相关性越强,进行数据分析的结果越好;Bartlett球形检验P值越大则表明变量间的独立性越高。经检验,KMO统计量取值为0.7,Bartlett球形检验近似卡方为807.278,自由度为66。通常来说当KMO>0.7时,问卷效度良好,当KMO<0.6时,表明问卷需重新设计。由检验结果可知,该问卷KMO系数为0.7,代表问卷的结构设计较好。且该问卷Bartlett球形检验的P值近似为0,从而说明变量间具有相关性,同时验证了本文对于茶叶消费者粘性随机干扰项的正态性假定。综上所述,本次调查所用问卷及样本合理可靠,可用于进一步分析。

3  茶叶消费者粘性影响因素重要性计算

3.1  随机森林模型

随机森林属于装袋法(Bagging)类型的集成算法,该模型将若干个弱学习器的分类结果进行投票选择或取均值,从而组成一个强分类器,使得整体模型的结果具有较高的精确度和泛化性能[14]。作为高度灵活的机器学习算法,随机森林模型可以用于统计消费者来源、保留和流失[15]。本文以消费者粘性数值作为样本标签,以不同影响因素的具体评价指标得分作为样本特征,构建随机森林模型进行拟合,可以有效反映二者之间的关系。

3.2  模型构建

3.2.1  模型指标定义

由于粘性构成要素与影响因素的具体评价指标多为类别变量和顺序变量,难以直接带入模型进行计算,因此将构成要素及具体评价指标X1~X12重新定义取值,模型指标及其取值结果具体如表3。

3.2.2  参数选择与模型优化

对样本特征做归一化处理,并将被调查者样本划分为训练集和测试集,其中训练集占总样本量80%,测试集占总样本量20%。

随机森林模型由多棵决策树构成,因此其超参数和决策树模型较为相似[16]。本文在构建随机森林模型时,选取的参数包括决策树装袋数量、最大树深、叶节点含有的最少样本数、构建决策树最优模型时考虑的最大特征数等。为获得最优随机森林模型,本文采用网格搜索参数优化算法[17],设定的各参数网格搜索区间范围如表4。

选择网格搜索优化后的参数进行建模,其参数取值分别为决策树装袋数量270个、最大树深22、叶节点含有的最少样本数6个、构建决策树最优模型时考虑的最大特征数sqrt整数个、节点划分标准MSE、节点可分的最小样本数6个。得到的最优模型对粘性预测的MSE即均方误差为481.36,可见模型误差较小,较为准确地反映了影响因素的具体评价指标与粘性构成要素之间的关系。

3.3  影响因素重要性计算

通过SHAP值计算随机森林模型中每个样本各个特征的权重,进而求出全部样本在不同特征上的SHAP值的绝对平均值,以此作为茶叶消费者粘性不同影响因素的重要性程度。SHAP值量化每个特征对模型所做预测的贡献[18],其计算特征加入到模型的边际贡献,然后考虑到该特征在所有的特征序列的情况下不同的边际贡献后取均值,即该特征的基准值[19]。

4  茶叶消费者粘性影响因素分析

4.1  感知有用性与可替代性对需求频次的影响

采用SHAP值算法计算消费者粘性影响因素的各指标重要性程度结果如表5。需求频次的2个因素对需求频次的影响权重总和为0.227,低于感知价值等4个因素对消费意愿的影响权重总和。其中,感知有用性所占比重最大,可见受访茶叶消费者更为关注感知有用性,这可能是由于消费者对茶叶的需求趋于多元化;此外,消费者喝茶的目的在感知有用性中所占比重最大,其目的越广泛,越能够提高感知有用性;消费者购茶用途的广泛性对粘性的影响高于可替代性对粘性的影响,可见对于大多数消费者来说,茶叶用途比其替代品更为重要。

4.2  感知价值、转移成本、专业素养与社会属性对消费意愿的影响

消费意愿中4个因素对消费意愿的影响权重总和为0.773(表5),可见消费者粘性主要受到转移成本、社会属性、专业素养、感知价值4个因素的影响,消费者对茶叶的消费意愿较为强烈时,其需求频次并不会过多地影响到消费者粘性。其中,茶叶消费者的转移成本及其社会属性所占比重最大,分别为0.343、0.325。消费者经常喝的茶叶价格区间越高,接触其他种类茶叶的转移成本也就越高;消费者一次性购买的茶叶越多,越不会消费其他茶叶或饮品;其购买茶叶的渠道越接近线下,转移成本越高,粘性也就越高。消费者年龄与平均月收入对其消费意愿的影响较大,不同年龄段存在不同的饮茶偏好,也存在不同的饮茶习惯;消费者平均月收入越高,其茶叶消费的意愿越强烈,其粘性也就越高。消费者的专业素养要比他对茶叶的感知价值更为重要,茶叶价格合理与否,并不会导致其消费意愿发生明显变化。可见对于消费者来说,茶叶品质的好坏、是否符合饮茶习惯比茶叶价格是否合理更为重要。

5  消费者粘性视角下的茶产品改进建议

本文分别从需求频次、消费意愿2个维度分析了影响消费者粘性的因素,构建适用于茶叶消费者的粘性分析模型,该模型较好地拟合了茶叶消费者的粘性特征结构。基于对消费者粘性各影响因素的分析结果,提出如下关于茶产品的改进建议。

划分茶叶消费人群,打造差异化茶叶产品。通过对茶叶消费者的分析,可以发现转移成本与社会属性对其消费意愿的影响程度最高,因而可以根据年龄、平均月收入对茶叶消费者进行人群划分,并针对不同类型的消费者人群,提供不同价格区间的茶叶和包装单元,通过不同的销售渠道向不同类型的消费者提供不同等级的茶叶。对于高收入的中年消费者人群可以提供更高质量的茶叶产品;对于收入较低的年轻消费人群,可以提供价格更低、购买渠道更为便利的茶叶产品。

加大产品宣传力度,促进产品多元化发展。茶叶消费者的感知有用性对需求频次的影响较高,应重点提高消费者对产品的感知有用性,从拓宽消费者购买的目的及用途入手,满足消费者多元化需求。产品对于消费者的可替换性高低并不会过多影响消费者需求频次的变化,因而开发不同种类的产品与新式茶饮,不会阻碍原有产品的发展,反而能够在促进产品多元化发展的同时,进一步提升茶叶消费者的粘性。

大力弘扬茶文化,提升茶叶消费者专业素养。茶叶消费者的专业素养高于其感知价值对消费意愿的影响,以推广茶文化为契机,提升消费者在选茶、鉴茶、泡茶方面的专业素养,从而使消费者主动探索茶叶产品的优势方面,进一步提高消费者粘性。对于专业素养较高的消费者,应以产品质量及蕴含的文化内涵为重点宣传内容;而对于专业知识欠缺的消费者,应提升产品在满足其单一用途方面的能力,从而提高该消费人群的粘性。对于习惯速冲茶叶的消费者,提供价格区间较低的茶产品;而对于习惯简化和完整程序冲泡茶叶的消费者,提供高质量、价格区间相对较高的茶产品,有利于分别提升两类消費者的粘性。

參考文献

[1] 赵青, 张利, 薛君. 网络用户粘性行为形成机理及实证分析[J]. 情报理论与实践, 2012, 35(10): 25-29.

[2] 黄卉, 沈红波. 信用卡市场利率粘性和消费者行为研究综述[J]. 上海金融, 2011(6): 86-90.

[3] 康培, 孙剑, 邓彦宇. 网络购物临场感、信任与消费者在线粘性——以B2C模式下消费者网购生鲜农产品为例[J]. 企业经济, 2018, 37(7): 89-97.

[4] 贾微微. 社会网络环境下网络品牌粘性构建的复杂结构路径——消费者共创视角[J]. 技术经济与管理研究, 2017(6): 19-24.

[5] 陈灵诚, 林畅. 福建省乌龙茶消费者购买行为分析[J]. 中国茶叶, 2021, 43(6): 37-45.

[6] 曹献馥, 曹献秋. 茶叶包装中影响消费者购买意愿的设计要素研究[J]. 包装工程, 2021(12): 1-16.

[7] 马珀, 王琰琰, 陈志芳, 等. 试论互联网背景下的茶叶营销策略[J]. 福建茶叶, 2021, 43(1): 56-58.

[8] 夏琼燕, 罗冠, 张翔, 等. Open street map志愿者贡献与留存分析[J]. 测绘与空间地理信息, 2021, 44(2): 90-93, 97.

[9] 别昊. 延长用户在短视频内容中的留存时长[J]. 中国眼镜科技杂志, 2020(10): 54-55.

[10] LIN C W, LIN Y S, LIAO C C, et al. Utilizing technology acceptance model for influences of smartphone addiction on behavioural intention[J/OL]. Mathematical Problems in Engineering, 2021. https://doi. org/10. 1155/2021/5592187.

[11] 宋志刚, 肖楠. 网络货运平台用户粘性影响因素研究[J]. 物流科技, 2021, 44(3): 89-92, 99.

[12] 李雪, 宗颖, 陈颖, 等. 基于技术接受模型的电商直播消费者满意度分析[J]. 江苏商论, 2021(6): 31-34, 38.

[13] 张路. 问卷调查中信、效度的全面性问题初探[J]. 民营科技, 2016(12): 230-232.

[14] 李欣海. 随机森林模型在分类与回归分析中的应用[J]. 应用昆虫学报, 2013, 50(4): 1190-1197.

[15] 李兵, 陈俊才. 基于TMRF算法的电信客户流失预测方案研究[J]. 数字技术与应用, 2021, 39(4): 116-121.

[16] 梁虹艺, 叶嘉盛, 季波, 等. 基于决策树模型对国产与原研注射用盐酸万古霉素治疗MRSA感染的成本-效果分析[J]. 今日药学, 2021, 31(9): 702-707.

[17] 施皓晨, 肖海鹏, 周建江. 一种双线性分段二分网格搜索SVM最优参数方法[J]. 计算机与数字工程, 2020, 48(9): 2179-2184.

[18] YANG C, CHEN M Y, YUAN Q. The application of XGBoost and SHAP to examining the factors in freight truck-related crashes: An exploratory analysis[J]. Accident Analysis and Prevention, 2007, 1(1): 81-85.

[19] 李超, 陈功, 储文强, 等. 基于改进SHAP的城市供水管网爆管主影响因素研究[J]. 科技通报, 2021, 37(1): 79-84.