APP下载

基于机器学习的富硒茶评论文本消费者满意度感知研究

2022-02-11刘星亮王泓淇于志军

湖北农业科学 2022年1期
关键词:消费者文本满意度

王 涛,刘星亮,王泓淇,于志军

(安康学院电子与信息工程学院,陕西 安康 725000)

乡村振兴是“三农”发展的重要问题之一,乡村振兴需要借助产业振兴,产业振兴需要借力区域农产品的发展,区域农产品建设对区域经济增长和乡村振兴具有重要作用[1]。区域农产品是指来源于独特地域,具有该地区相关的质量、声誉或品牌,经相关机构组织审核批准并以特色农产品进行命名的产品[2]。区域农产品品牌的形成与用户的满意度主要来自消费者的认知,富硒茶作为陕西安康和湖北恩施地区的区域特色农产品,仍然面临品牌知名度提升、用户信任度、用户满意度不足等问题[3,4]。伴随茶叶销售电子商务网站不断增多,为消费者购买茶叶提供了更多的决策机会,企业要想提升富硒茶品牌建设与消费者满意度就必须对消费者的行为数据进行挖掘,了解用户的主观需求,消费者线上参与行为数据会正向影响消费者的信任、满意度、忠诚度[5]。而消费者在线评论文本的行为数据作为商品的口碑数据能够真实表达出消费者的消费体验,能够直接帮助电商企业获取消费者满意度的相关维度指标,挖掘该类口碑数据对研究消费者的满意度以及品牌建设有重要指导性作用[6]。本研究以电商平台的富硒茶真实评论数据为数据源,使用机器学习和特征词与主题挖掘方法提取消费者对富硒茶的感知特性,旨在为富硒茶消费者满意度感知提供相关研究借鉴与营销启示。

1 研究综述与述评

消费者满意度是指购买产品的过程和使用之后的反应,满意度被视为累积的过程,消费者满意度是指当消费者的期望与他们的真实消费体验一致时产生的一种情绪[7]。消费者满意度会受到客户体验和消费体验所产生的体验价值影响[8]。在农产品与消费者满意度研究方面,王二朋等[9]以苹果在线消费评论数据进行建模挖掘分析,识别消费者的偏好特征。李宁等[10]以问卷调查收集研究数据,使用中介效应和结构方程模型对消费者网购生鲜农产品的满意度进行实证研究。李蕾等[11]使用调查问卷研究了农产品的感知价值与服务质量对消费者的满意度影响。陈艳等[12]通过调查问卷收集数据,分析了消费者购买赣南脐橙的消费行为影响因素。卢秀龙等[13]以调查问卷分析了茶叶品牌选择的影响因素。李倩等[14]以问卷调查分析了青年群体对茶叶消费行为,发现品牌信任在消费者信任与矛盾追加中存在调节作用。从已有研究可以看出,消费者在购买特色农产品时,产品的质量感知、价值感知和物流服务等诸多因素影响消费者购买意愿。从研究数据角度来看,已有文献多采用问卷调查的方式进行数据收集,较少利用在线评论进行满意度挖掘研究,在线评论文本数据作为半结构化数据对消费者决策和企业营销具有重要影响[15]。目前大多数学者研究在线评论文本对消费者影响多用于酒店评论、在线旅游评论等,鲜有学者将其用在特色区域农产品营销方面。部分学者研究了在线评论与消费者满意度的关系,如曹裕等[16]针对休闲类食品的在线评论文本实证研究了消费者的信任感对购买决策影响。朱丽叶等[17]验证了在线评论的评论质量与评论者等级高低卷入度对消费者购买意愿的影响。尹丽春等[18]对图书在线评论文本数据进行研究影响消费者满意度的因素。

从已有文献看出研究消费者满意度的文献较为丰富,但是使用机器学习等相关技术在农产品评论文本中进行满意度的分析较少,而尚未有学者使用机器学习的方法获取评论文本一手数据来对富硒茶进行研究,并对消费者购买的影响机制进行研究。鉴于此,研究将结合富硒茶评论文本数据,进行富硒茶消费者满意度识别,拓宽富硒茶产品的内外部研究视角。

2 研究设计

首先,使用Python 爬虫获取富硒茶评论文本,并将其存储为CSV 文件。其次,对评论文本进行数据预处理,如机械去重、清洗、分词、词向量转化等。再次,使用机器学习分类器进行分类,获取正负类文本数据。最后,进行评论文本语义消费者满意度分析,得出相关的结论及营销管理启示,其研究框架图1所示。

图1 相关流程框架

2.1 数据获取

选取京东平台作为数据来源,搜索商品关键词“富硒茶”,并按照评论进行排序,使用Python 编程爬虫程序采集30 余家店铺的10 000 多条用户评论文本信息,保留每条评论的用户名称、用户级别、评论内容、评价星级、评论时间、追评内容等信息,部分数据如图2 所示。

图2 数据采集部分结果

2.2 数据清洗

由于在线评论文本消费者在评论时具有较大的随意性与不确定,将会产生噪音数据,数据清洗首先就是对噪音数据进行处理。首先,删除少于3 个字评论文本以及无意义评论如“好”、“好的”、“好评”、“还没有喝”等,并删除重复评论。其次,删除与富硒茶评论信息无关的一些数据,如“此用户未填写评价内容”;再次,将初评数据与追评数据进行对比,如果初评数据与追评数据情感倾向不同,则使用追评数据代替初评数据,如初评数据为“一般般,这个价格也只能够这样了”,而追评数据为“非常差,泡出来的味道非常淡,一点茶叶的味道也没有,还都是碎渣子”,则认为该评论为差评数据,筛选后剩余7 500 条数据。

2.3 分词与词向量转化

对用户评论文本进行分词时,使用Jieba 分词工具进行分词,使用哈工大停用词表进行停用词处理,为了提高分词精度需要自定义情感词典,自定义情感词典部分歧义词典、网络新词词典与未登录词典如表1 所示。

表1 自定义词典

对分词后的文本,使用Word2vec 进行词向量转化,Word2vec 词向量的原理是将文本中的每一个词都映射到特定维度的实数向量空间中,其中越接近的词义会在该向量空间中越相近,Word2vec 词向量将每个词都作为一个随机的K 维向量,通过该模型训练后能够输出相应词的最优向量[19]。

3 结果与分析

3.1 情感分类

使用有监督学习方法对富硒茶评论文本进行情感分类,通过预先建立的领域类自定义情感词典,组织3 名本科生对每条评论文本进行打标签并进行校正,从而形成人工标注的训练集和测试集,将标注的6 000 条数据作为训练集,1 500 条作为测试集。使用机器学习分类算法中常见的K-近邻(KNN)[20]、逻辑回归(LR)[21]、随机森林(RF)[22]、决策树(DT)[23]、支持向量机(SVM)[24]、梯度提升决策树(GBDT)[25]算法进行情感分类。对各种分类器结果使用常用的机器学习分类指标精确率(Precision)、召回率(Recall)、准确率(Accuracy)、F值(F-score)来衡量各类分类算法效果[26]。其中F值为精确率和召回率的调和平均值,可以使用F值大小反映整体指标,F值越大,代表精确率和召回率越高,分类器分类效果也越好,6 种分类器的相关结果如表2 和图3 所示,从分类结果可以看出,SVM 算法在该数据集上的分类效果最佳。精确率、召回率、F值、准确率相关计算公式如下。

图3 各分类器参数比较

表2 各分类器分类结果

式中,TP表示为正确预测的正样本数,TN为正确预测的负样本数,FP为预测错误的正样本数,FN为预测错误的负样本数[26]。

3.2 在线评论消费者满意度挖掘分析

对情感分类所得到的正负面评论文本进行文本语义内容分析得到影响消费者满意度的相关因素,用户生成的每条评论文本,由用户评价的各个主题元词汇构成,对此进行分析能够识别用户对商品的满意度评价指标,对消费者的在线评论文本进行词云与特征词提取和主题词提取来识别消费者的评价倾向满意度,生成正负面评论词云如图4 所示。

图4 正负面评论词云

使用 TF-IDF 算法[27]进行特征词词频分析,正负面评论文本特征词及其权重如表3 所示。

表3 TF-IDF 特征词词汇

从特征词频可以看出,负面评论消费者的主要评论关键词如茶叶、味道、口感、包装、汤色、味道、快递、没有、不符等,这些维度特征词对消费者的满意度有直接负面影响。正面评论消费者主要的关键词如不错、茶叶、口感、包装、味道、汤色、性价比、质量等对消费者的满意度有正面直接影响。使用TFIDF 进行特征词分析,能够识别消费者评论文本所关注的重点信息,为了进一步挖掘消费者满意度指标使用LDA[28]主题模型对在线评论文本进行主题词提取,LDA 是无监督的机器学习方法,可用来挖掘隐藏在文档或语料中的主题信息,经过试验对比,设置主题数为4,抽取每个主题下前20 个关键主题词,正、负面主题词如表4、表5 所示,并使用pyLDA-vis可视化,如图 5、图6 所示。

图5 正面评论主题可视化

图6 负面评论主题可视化

表4 正面评论主题词

将正面评论的关键词主题归纳为质量感知、营销感知、信任感知、物流服务。据表4 可以看出,在质量感知主题下,消费者主要对富硒茶的香味、汤色、新鲜度、颜色、味道等方面进行评论,这些主题词表达了消费者对富硒茶质量感知的重点关注倾向评论。在营销感知主题下,消费者对富硒茶的包装、礼品、赠品等方面较为关注。在信任感知主题下,消费者的主题词如第二次、继续、下次、推荐、支持等表达消费者的信任度。在物流服务主题下,消费者对商品的物流、很快、发货、快递、京东等评论较为关注。

依据表5,将负面的评论主题词归纳为物流服务、信任感知、价格感知、质量感知。据表5 可以看出,消费者的负面评论主要集中在物流的效率、产品的质量、色泽、口感、味道。根据pyLDAvis 可视化可以得出每个主题的在文档中占比,由图7 可以看出,每个主题在负面文档的占比分别是质量感知(47.26%)、信任感知(24.15%)、物流服务(15.78%)、价格感知(12.81%),可以看出质量问题和信任问题是造成消费者满意度差评的主要因素。

表5 负面评论主题词

图7 负面评论主题文档占比

4 结论与启示

以消费者与企业间的互动数据信息为研究对象,较之传统的问卷调查方式更具有客观性和有效性,使用文本挖掘与情感分类方法对富硒茶评论文本顾客满意度进行挖掘,研究了影响富硒茶顾客满意度评价的相关指标,进而为富硒茶企业、电商平台持续改善消费者满意度提供理论基础,加强富硒产品的品牌建设。基于此方法所采集商品在线的评论文本,通过机器学习算法与数据挖掘方法对消费者评价的情感极性进行识别,克服了消费者在电商平台通过用户自定义的星级指标来识别评价的等级随意性,使用该方法得到的消费者正负面评论文本更为详实地表达消费者的情感信息。基于以上分析得出富硒茶消费者满意度的相关管理启示。

1)重点提升消费者的质量感知。消费者对富硒茶的口感、味道、新鲜度等的质量感知最为显著,质量感知是影响消费者满意度的主要差评因素。因此,提升质量感知是加强富硒茶品牌建设的刚性需求,富硒茶企业要从源头控制茶叶的口感、味道、新鲜度等质量感知因素,改善消费者的内在质量感知,提升消费者的满意度水平,从而提升富硒茶在同类产品的竞争力。

2)保证消费者的价格感知与信任感知。价格感知因素对消费者满意度具有直接影响,保证消费者购买产品的价格感知,信任是消费者购买产品的安全感与意愿,信任是一个动态建立的过程,留存消费者的信任度能够加强消费者对产品的忠诚度与满意度,同样信任度也是影响消费者差评的主要因素。

3)完善物流服务配套设施。物流作为电商交易的重要环节,商家应该提升发货速度,制定合理高效的物流配送设施是获取客户资源的战略决策,提升物流配送的专业性,形成资源可持续输出带来更多的经济收入。

4)加强消费者对商品的营销感知。改善现有营销策略,对商品进行差异化包装,保证营销广告宣传与实际商品的真实性。

猜你喜欢

消费者文本满意度
多感谢,生活满意度高
16城市公共服务满意度排行
消费者网上购物六注意
浅谈如何提升脱贫攻坚满意度
在808DA上文本显示的改善
基于doc2vec和TF-IDF的相似文本识别
知识付费消费者
悄悄偷走消费者的创意
悄悄偷走消费者的创意
文本之中·文本之外·文本之上——童话故事《坐井观天》的教学隐喻