基于BERT模型的餐饮电商在线评论情感挖掘

2020-03-18魏一丁

商场现代化 2020年1期

摘要：以本地美团网美食类店铺为例，爬取在线大量数据，按目标格式注入Google的BERT模型（Bidirectional Encoding Representations from Transformers.），并构建研究对象所适用的数据模型，对潜在评论情感极性能够准确预测，对正向情感评价最高可达98%准确率，98%召回率，F1-Score最高达0.98。特别地也分析了其负向F1-Score的成因，并提出利用F1-Score构建平台分流与展现推广付费的思路。

关键词：BERT;F1 score;情感极性;在线评论;预测模型

一、引言

“在线用户评论”，作为运营数据来源的主要渠道，为电商运营决策和平台分配流量提供了直接的依据。很多大型的电商平台都设计了相应的评论板块，有的侧重于追加评论，主要体现用户的事后真实体验评价，而有的侧重于事中评价。情感极性一般分为正面、负面和中性。用户通过分值与文本做出相应的评论并不能反映出真实的情感极性。例如，“这顿餐看起来很不错，大气上档次，但是贵了……”，到底用户的情感是正面还是负面呢？很难做出有效判断，这就需要对文本做出挖掘。用户的情感极性对商品用户推荐、平台流量分配权重、商户业务改进至关重要。

二、文献综述

业界与学术界都对文本情感分析（NLP）做出了大量的探索实践与理论积累，相关的情感分析研究方法有分别基于词典、机器学习、词典+机器学习、弱标注、深度学习等方法。有文献综述提到，“Hamouda等提出建立一个包含表情符号的情感词汇库进行情感识别;Pang等将机器学习算法用于情感分类任务;还有利用挖掘评论数据中反映情感语义的弱标注信息，以及分别基于卷积神经网络的、长短期记忆、深度信念网络等分类模型的深度学习”。随着研究发现，深度学习（神经网络模型）成为了主流方向，其最大特点是采用了词向量的嵌入技术——Word2Vec方法，但是对同一句子中有情感极性矛盾，或同一个词在不同位置导致歧义的多个情感词则无能为力，这时“多头注意力机制（Multi-head Attention Mechanism）”的引入能夠很好地解决类似问题。Yin（2015）提出基于注意力机制的卷积神经网络，Wang（2016）提出结合注意力机制的LSTM网络，梁斌（2017）提出多注意力卷积神经网络MATT，但是缺乏对中文领域的分析。Devlin，Jacob（2018）等人提出了BERT模型，在tensor2tensor库基础上，利用MLM与NLP机制进行双向预训练，生成上游模型，在此模型上进行下游的自定义任务，能够满足中文和英文等文本挖掘，其性能指标远胜OpenAI GPT和ELMo（两种顺序的LTSM），其在SQuAD测试中排名第一（Nov，2018）。刘玉林（2018）等通过建立电商食品领域级情感词典，在算法上引入NLP中2元语法加强情感结果判断，建立情感指数，结合真实在线数据进行实证，得出优化方向，但是没有展示其准确率和F1分值。

本文将爬取雍和会在美团网站在线评论数据，注入BERT模型，构建其店铺的情感极性评价模型，并计算其准确率和F1分值。该模型可以用来指导店铺提升客户满意度，也可以帮助平台分配流量和用户推荐，具有现实意义。

三、研究方法

STEP1：爬取美团网福州地区美食类好评排名Top2的“雍和会海鲜姿造（三坊七巷店）”上万条评论数据。

STEP2：利用Pandas包清洗数据。

STEP3：将原始数据按比例拆分为训练数据集（10564条）、测试数据集（3302条）和验证数据集（2641条），并将打分等级划分为两种极性，超过阈值为1，否则为0;增加sentiment标签，删除star标签。

STEP4：利用FastAI包初始化BERT模型（Chinese版本）。

STEP5：将上述训练数据集、测试数据集和验证数据集按需要装入在DataFrame，DataBunch。数据会在前后加上标签【CLS】和【SEP】，用以区分句子，从而符合模型格式。

STEP6：利用Learner的lr_find（）函数，采用CrossEntropyLoss（）交叉熵损失函数作为参数，进行“学习”，并画出学习曲线，生成下游任务的最终模型。

STEP7：按照指定学习率，计算一周期，得出其相关准确率与耗时。

STEP8：评估模型——预测相关文本，进行指标评价，并展示【precision，recall，f1-score】和含混矩阵。

STEP9：设计对比实验组。

四、实证分析

1.数据来源

爬取“雍和会”美团在线评论数据，提取评价与打分等信息，并进行清洗。清洗后的在线评论数据规模，从22336降至16507个数据。

2.清洗：sentiment是根据star分值经过相应条件转化为0或1.条件：若star分值大于30为1，反则为0。这里正面评价1较多。

3.数据转换为目标格式

4.分类报告

5.对比组

按照上述方法，随机打开美团首页，选取福州地区美食类综合排名第4名（广告位）“旺巴蜀小郡肝火锅串串香（东二环泰禾店）”，其综合分数为3.7分，显示评论数1600条，但实际爬去后显示评价数5000多条，清洗后也有3500多条。再按选取福州地区综合排名第12名“V-ONE|西雅图海鲜自助轻姿造（王府井店）”，其综合分数为4分，显示评论数1888条，清洗后也有1000多条。爬取数据、清洗、建模、评估，相同条件下（30分为阈值，学习率为2e-5）进行挖掘。

五、结论与建议

通过实验发现：BERT模型能够较准确地区分正负面情感极性，这个案例中，其店铺排名第2名，F1-score可平均达到0.77，这个数值并不太出色，但如果只观测正面情感评价，F1-score可最高达到0.98，这是由于选取当地好评率最高的美食类店铺，造成数据偏向正向情感，而负向情感偏向较少。见下表。

综合分数反映消费者满意程度，（1）第2名与第4名相比，明显第四名口碑差距较大，因此在负向f1分反而较大，正向相对很小;（2）第2名与第12名相比，口碑相差不大，总体前者口碑优于后者，但从模型指标看，前者平均f1比后者少0.02，但是正向f1分具有明显增量0.11，主要由于负f1分拖累0.15，因此整体不如后者平均f1指标;同时，虽然前者平均f1分少于后者，但是前者的准确率明显由于后者0.09个单位。（3）第4名与第12名相比，只有负向f1分高于后者，这说明其差评较易发生。但是由于其是付费展现，因此超出后者8个位置。（4）第12名的平均f1分最高。

總的来说，BERT模型能有效抽取情感极性，但是由于样本来源于真实就餐环境，口碑较好店铺正评价较多于负评价，会导致正向f1分偏高，而负向f1分偏低;口碑较差店铺负评价多于正评价，会导致反向f1偏高，正向f1偏低;中等口碑介于两者之间，但是其平均f1分为最高。模型在适当情况下，或许可以获得高出0.79的f1分。因此不能完全依赖此指标孤立评价模型。反而，该模型的评价指标体系可以用来指导店铺运营、平台流量分配于商品推荐。作为平台可以利用正向f1分将更多流量分配给这样的店铺，也可以向负向f1分较高的用户收取较高的推广费用。

参考文献：

[1]朱晓霞，宋嘉欣，张晓缇.基于主题挖掘技术的文本情感分析综述[J/OL].情报理论与实践：1-13[2019-10-28].http：//kns.cnki.net/kcms/detail/11.1762.G3.20190715.0941.004.html.

[2]洪巍，李敏.文本情感分析方法研究综述[J].计算机工程与科学，2019，41（04）：750-757.

[3]梁斌，刘全，徐进，周倩，章鹏.基于多注意力卷积神经网络的特定目标情感分析[J].计算机研究与发展，2017，54（08）：1724-1735.

[4]Devlin，Jacob et al.“BERT：Pre-training of Deep Bidirectional Transformers for Language Understanding.”NAACL-HLT （2019）.

[5]Wenpeng，Yin et al.[J].ABCNN：Attention-Based Convolutional Neural Network for Modeling Sentence Pairs，Transactions of the Association for Computational Linguistics，2016，Vol.4，pp.566-567.

[6]Wang Yequan，Huang Minlie，Zhao Li，et al.“Attentionbased LSTM for aspect-level sentiment classification”[C].Proc of the 2016 Conf on Empirical Methods in Natural Language Processing.Stroudsburg，PA：ACL，2016：606-615.

[7]刘玉林，菅利荣.基于文本情感分析的电商在线评论数据挖掘[J].统计与信息论坛，2018，33（12）：119-124.

作者简介：魏一丁（1985- ），男，汉族，河南安阳人，硕士，讲师，研究方向：跨境电商与数据挖掘