APP下载

基于改进的消费者情感决策推荐算法研究

2021-04-20王裕菲赵军

电子技术与软件工程 2021年3期
关键词:词频词典副词

王裕菲 赵军

(1.宁夏大学信息工程学院 宁夏回族自治区银川市 750021 2.宁夏大学商学院 宁夏回族自治区银川市 755000)

改革开放以来,我国的消费模式发生巨大转变。计算机网络及电商的发展,使消费者更加敏捷地加入网络,成为信息的使用者和创造者[1]。网购是一种特殊的消费模式,而商品评论作为已购消费者对商品的看法、观点,蕴含着巨大的商业价值。消费者在线购买的决策过程中,如何在诸多同类产品且预算受限的情况下选择令自己满意的服务或商品,由此便引出问题,如何简便高效地利用杂乱无章的商品评论数据,生成对消费者有用的信息,如进行决策推荐[2],本文就此问题,开展研究。

1 相关研究概述

1.1 消费者决策影响因素研究

消费者处于社会化营销的环境中,其决策会受到诸多因素影响。张晓飞验证了“意见领袖”从外围路径造成的影响并未对最终决策造成作用;产品与服务营销的“出入”也成为了Sandra Godinho 等研究人员关注的问题;品牌可行度等对消费者决策也存在一定的影响[20];情境因素也成为了学者Chen 等人着重研究的问题,其中,在线评论对消费者决策的影响成为众多学者研究的重点。

1.2 在线评论对消费者的影响研究

学者针对在线评论,从不同的角度开展研究,覃伍整合包括在线评论在内引出构成网上冲动购买意愿的整合模型,为营销者提供相关建议;高楠选择若干消费者购买决策的影响因素,构建影响模型;唐晓莉等人开展2 评论类型(主观vs 客观)*2 认知需求(高vs 低)的眼动实验,探索消费者对于在线评论有用性的感知过程和感知结果;张媛媛用功能价值等建立模型并完善,得出影响因素与价值之间的相关关系;钱佩雨建立在线不一致对消费者决策影响的的动态模型并验证其可行性;韦荷琳构建在线网络口碑对于跟团游在线产品预定的影响模型;许犇,徐国庆等人提出记忆图卷积神经网络(MGCNN)引入注意力机制的商品评论情感分析方法。冯勇等人提出了融合近邻评论的GRU 商品推荐模型实现商品推荐,并验证其有效性和优越性。本文基于上述研究,实现消费者基于评论数据情感产生的决策推荐。

1.3 评论数据情感分析

针对评论数据的情感分析,焦梦蕾等人将情感特征分为极性和强度两个方面进行计算[3];高统超提出了两种特征选择方法和基于层次关系的复杂方面短语提取算法用于提高评价精确度;尤天慧等人通过计算备选方案的效用值进行决策[4];余本功等人将情感分析和关注点结合起来分析得出每款产品的平均得分;王琳等人研究了不同极性情感对消费者决策的影响差异;学者李春江设计了一个情感分析系统,用于从商品评论中自动抽取商品属性。评论数据情感的研究,成为评论数据的研究方向。

2 问题描述及解决框架

2.1 问题描述

据中国互联网信息中心发布的第45 次《中国互联网络发展状况统计报告》显示,我国网民规模达9.04 亿,网络购物用户规模达7.10 亿,手机上网比例更达99.3%。在如此大规模的消费背景下,网购成为消费模式中不可或缺的一部分,消费者要通过在线平台购买手机,作为单一的购买用户,对于杂乱无章的评论数据无从下手,本文就此问题,针对获得的商品评论数据,为消费者进行商品推荐。解决问题的流程如图1 所示。

图1:消费者决策推荐流程图

2.2 基于商品评论信息挖掘的商品特征

为了从杂乱的商品评论中提取有用的信息,需要对评论数据进行数据清洗。去除有缺失值的评论(人工填充)、无格式乱码的评论、无意义评论、符号过多评论、重复评论,整理为若干条评论组成的word 文档。为了从商品评论中提取出商品特征,使用TF-IDF 算法,进行词频分析。词频计算公式如下:

词频(TF)=某词词数/评论的总词数

逆文档频率是一个词普遍重要性的度量。评论数据中某一个特定词的IDF 可以由评论条数除以包含该词语的评论条数与1 的和,再将得到的商取对数得到。

逆文档频率(IDF)=log[评论总条数/(包含该词的评论条数+1)]

TF-IDF=词频(TF)×逆文档频率(IDF)

得到词频(TF)和逆文档频率(IDF)以后,将这两个值相乘,TF-IDF 与一个词在文档中的出现次数成正比。所以,计算出文档的每个词的TF-IDF 值,可在此基础上,根据排名顺序,从排在前面的若干关键词中,提取商品特征提取出商品特征。

2.3 基于商品特征构建积极、消极情感词典

引入Boson 情感词典,Boson 词典是基于微博、新闻、论坛等数据来源构建的情感词典,所以词典适用于处理社交媒体的情感分析。对于每个商品特征得到的情感词集,分别取它与Boson 情感词典的交集,并区分正负情感倾向,得到与评论对应的包含特征值的各特征情感词典,

2.4 确定特征的情感倾向

本文采用改进过的林杰情感计算的算法计算每种商品每条评论每个特征的的情感倾向。

2.4.1 林杰的情感计算方法

林杰在自己的研究当中,计算商品评论的情感倾向的步骤如下:

(1)根据Boson 词典与评论数据的交集得出各个特征的情感词词典(正负词典);

(2)当一条评论当中

A.正向情感词数>负向情感词数,本条评论情感倾向为正;

B.正向情感词数<负向情感的数,本条评论情感倾向为负;

C.正向情感词数=向情感词数时,本条评论情感倾向为中性。

2.4.2 改进的情感计算方法

事实上,每一条评论当中的多个情感词,表达的情感程度都是不同的,因此,提出了改进的情感计算方法,步骤如下:

Step1:jieba 分词后,去除评论当中的停用词;

Step2:读取情感词、程度副词、否定词文件,将句子中的情感词、程度副词转为程度副词字典对象,key 为程度副词,value为对应的程度值;

Step3:更新权重,如果有程度副词,分值乘以程度副词的程度分值,如果有否定词,取反;Step4:判断当前的情感词与下一个情感词之间是否有程度副词或否定词,计算得分,得出每一句评论的情感值。(score 取值代表情感倾向)

2.5 直觉模糊数与决策推荐

2.5.1 直觉模糊数

基于直觉模糊集理论,备选商品在线评论的情感倾向可以通过直觉模糊数简单而完整的表示[13],利用直觉模糊数Yij=[pij(+),pij(-)]表示,其中pij(+)和pij(-)分别为根据商品评论数据得到的商品i 特征j 的正负向情感倾向的百分比。

pij(+)=Mij(+)/(Mij(+)+Mij(-))

pij(-)=Mij(-)/(Mij(+)+Mij(-))

2.5.2 决策推荐

使用TOPSIS 算法,获得各备选商品与最优方案之间的接近程度,作为评价优劣的依据[13]。

3 数据实验

3.1 数据来源

本实验拟为预计购买1500-2000 范围内手机的消费者进行辅助决策,爬取了京东iphone 8p、华为荣耀x、oppor15 及魅族M3 四种手机手机评论作为本次实验的数据,设定为用户购买手机的四种备选方案,共爬取4 款手机数据各2000 条(共8000 条),然后对商品评论进行数据处理,进行数据清洗,去除无意义评论(无效评论)如“此用户未填写评价”、垃圾评论、符号多的评论、评论字数小于15 字的评论,最终获得数据集共2000 条,每个手机各500 条。

3.2 实验分析

3.2.1 评论数据词频分析

使用TF-IDF 算法进行词频分析,得到影响手机的特征因素共5 个,分别是使用、价格、品牌、物流、外观。

3.2.2 构建情感词典

为了计算评论的情感倾向,我们引入Boson 情感词典,根据TF-IDF 算法结果构建情感词典,如表1:(举例)

根据引入的包含情感值的Boson 情感词典,得到Boson 词典与各特征的情感词词典的交集,生成各特征情感词的包含情感值的正负向情感词词典。

分别是:

质量的正向use1,负向use2;.品牌的正向brand1,负向brand2;物流的正向logistics1,负向logistics2;.价格的正向price1,负向price2;外观的正向appearance1,负向appearance2;

其中use、brand、logistics、price、appearance 为各特征正负向情感值总表。

3.2.3 推荐排序

使用TOPSIS 方法,对商品进行排序。

3.2.3 .1 构建直觉模糊决策矩阵

根据以上得到的4 种手机5 种特征的正负向情感倾向比率,得到相应的直觉模糊决策矩阵:

[[[0.790,0.210],[0.687,0.132],[0.138,0.276],[0.318,0.012],[0.157,0.084]],

[[0.837,0.163],[0.162,0.028],[0.676,0.090],[0.275,0.148],[0.556,0.0 31]],

[[0.774,0.226],[0.234,0.132],[0.362,0.085],[0.576,0.108],[0.726,0.0 90]],

[[0.818,0.182],[0.114,0.132],[0.293,0.087],[0.437,0.054],[0.732,0.0 84]]]

3.2.3 .2 构建加权直觉模糊决策矩阵

假定消费者给出的各因素权重为{0.4,0.2,0.1,0.2,0.1},对矩阵进行归一化,根据权重得到加权规范矩阵,如表2。

表1:构建情感词典(示例)

表2:加权规范矩阵

4 结束语

本文提出了一种改进的基于商品评论进行消费者推荐决策的研究方法,使用改进的情感计算方法、TOPSIS 算法,得到基于商品评论进行的消费者推荐决策结果。

本文的创新之处在于:

(1)引入全新的包含情感值的词典,生成各备选方案各特征的情感词典;

(2)改进情感计算方法计算评论数据情感倾向;

本文的研究也有一定的不足之处:

(1)对于计算得到的评论情感倾向结果(数值)利用太过简略,是否可以在此基础上进行再进一步的研究;

(2)可扩充数据量,使用海量数据得到更具说服力的正负理想点,以便求解推荐结果。

猜你喜欢

词频词典副词
The Wheels on the Bus
基于词频分析法的社区公园归属感营建要素研究
副词“好容易”及其词汇化成因
评《现代汉语词典》(第6版)
词典例证翻译标准探索
词频,一部隐秘的历史
云存储中支持词频和用户喜好的密文模糊检索
副词和副词词组
以关键词词频法透视《大学图书馆学报》学术研究特色
《胡言词典》(合集版)刊行