APP下载

基于Python工具的汽车电商平台评论分析与可视化方法研究

2020-03-17邹泓维呼格吉勒陈舒琦ZOUHongweiHUGEJileCHENShuqiJINLu

物流科技 2020年2期
关键词:雷克萨斯帖子可视化

邹泓维,呼格吉勒,陈舒琦,金 露 ZOU Hongwei, HUGE Jile, CHEN Shuqi, JIN Lu

(宁波工程学院 经济与管理学院,浙江 宁波315211)

0 引 言

随着汽车之家、易车网和毛豆新车网等一系列专业汽车电商平台的呈现,汽车传统销售模式发生了根本性的变化。电商平台下的汽车销售模式如图1 所示,以线下4S 店为主的营销销售图1(a) 逐步被线上汽车电商平台以及线下4S 店体验相结合的模式图1(b) 所替代。在汽车电商平台上,用户一方面可找到自己心仪品牌下的各款汽车的测评、照片以及售价等相关信息。另一方面,还可通过平台上的论坛/社区模块——发表对不同车系的不同车型的期待、评价以及使用感等信息。这些海量的消费者在线评论数据,可以实现用户之间的相互交流,增强消费者购车前对车的功能、性价比进行前期功课准备。汽车电商平台数据蕴藏着极高的商业分析价值,其内容对消费者及汽车商家都具有重要的借鉴意义[1]。

本文聚焦汽车电商平台上用户论坛所发表的帖子,利用Python 工具,刻画出每一款车系或者每款品牌的论坛评价状态,为汽车电商平台论坛/社区用户行为的大数据分析与可视化技术提供方法的支撑。

图1 汽车销售模式

1 汽车电商平台评论分析与可视化

近年来,随着互联网的普及和发展,人们大多选择网络购物,通过各种平台了解产品的外观、性能、质量等,寻找自己满意的产品,还会在平台上分享自己的购买体验,表达自己对于产品的看法。在此基础上,传统口碑逐渐变成了一种电子口碑,商家开始关注用户对自家产品的口碑情况,这激励着商家将更好的产品展示给消费者,满足其个性化需求。Chen[2]等认为在线评论是消费者通过某个平台对产品做出的正面或负面评价。Lee[3]等则定义为这是一种自由的、由用户自主生成的一种内容。

因此,有不少学者利用互联网各大电商平台数据建立不同的汽车电商平台评论分析,例如:李芳[4]的汽车在线评论Outlier模型,利用Python、R 语言和Ucient 分析软件找出产品在线评论与产品质量之间的关系;彭员英[5]的用户网络分析模型,利用Python 和Mapreduce 统计软件分析网络用户行为;顾杰[6]的用户行为研究模型,利用Python 和Django 构建汽车行业用户画像。罗翔曦[7]通过Python 的爬虫程序获取了网上购物中商品的评价及属性基本数据,提取出商品属性和评价词,利用多属性决策的方法计算出商品推荐指标。刘玉林、菅利荣[8]在电商在线评论中引入文本情感分析,能够很好地判断出电商在线评论的情感倾向。岳强、吴林[9]通过问卷调查法以及SPSS 数据分析软件进行研究。邓新洁、唐观根[10]利用TF-IDF 算法对电商平台的评论文本进行处理,并利用模糊层次分析法建立排序模型。李慧宗、姚瑶、王向前[11]通过LDA 模型对农产品的好评与差评进行聚类,找出不足之处的地方并加以改进。

随着汽车电商平台的普及以及大数据分析技术的不断发展,基于电商平台大数据的消费者行为分析、需求动态预测、消费者在线评价等方面的应用研究越来越多,深入发展汽车生产与消费领域的大数据技术应用智库研究。

2 基于Python 工具的评论分析与可视化方法

汽车电商论坛帖子数据分析与可视化流程框架如图2 所示。本文利用Python 的Request 库获取汽车电商平台——汽车之家网站上各种车型论坛的帖子用户地点、评论等信息,再利用Python 的Pyecharts 库对其进行数据分析,将论坛帖子中发帖者的所在地点进行数据地图建模,并将其发帖内容进行语义分析,通过对积极指数帖子和消极指数帖子数量进行图表化,实现电商汽车论坛帖子数据的可视化。最终通过数据分析的结果,结合不同车型的特点推进制造商研发出适合不同消费地区的车辆,针对不同地区的消费者需求特性推荐适合的车型。

2.1 汽车之家网站数据网络爬虫

Python 网络爬虫是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本[12]。Python 语言具有简单、易学开源可扩展性等特点,在很大程度上符合情感分析各环节的技术需求[13]。

在浏览器中,用户可以看见网页的最终呈现形式(如图3 所示),很清楚地知道自己需要哪些数据。通常而言,Python 网络爬虫获取的是以文本形式存在的网页源代码(如图4 所示),利用了Request 和BeautifulSoup 库循环爬取汽车论坛所有帖子中所有回复,将获取的帖子数据按照用户名、精华帖数量、发帖量、回帖量、注册日期、地理位置、回复日期、回复内容保存写入CSV 格式的文件之中。

图2 帖子数据模型框架图

图3 汽车之家网页

图4 汽车之家网页代码

2.2 汽车评论情感分析

情感分析的主要目的是识别用户在评论文本中表达的情感信息,了解人们对于某些事物的偏好或者是对于某些社会现象的观点[14],从而对数据文本进行褒义、贬义、中性的判断。在大多应用场景下,数据情感分析可分为积极和消极两类[15]。例如“喜爱”和“厌恶”这两个词,就属于不同的情感倾向。

本文针对汽车之家论坛用户帖子中的评论数据,利用Python 中的SnowNLP 库进行情感分析。SnowNLP 库是一个Python 的类库,具备对文本进行分词、词性标注、提取文本关键词和情感分析等主要功能,能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。

在分析过程中,每一条评论在SnowNLP 库拆分成一个个词语,通过判断每个词语是积极(例如:“好看”、“舒适”等) 还是消极(例如:“浪费”、“有问题”等),得出句子里的正面积极因素和反面消极因素。再通过SnowNLP 库的分析,判断出帖子之中每一条评论之中积极因素的比重,进行打分,分值介于0~1 分之间,分值越大,表明该评论之中的积极成分越多。

本研究将分值划分为两个层次,小于0.5 的评论为评论的消极因素大于积极因素,则认定该评论为差评;大于等于0.5 的评论为评论的消极因素小于积极因素,则认定该评论为好评。再利用Python 的Pyecharts 库的Bar 函数进行好差评数量统计,以绘制直方图的形式呈现出来。

图5 为雷克萨斯IS 论坛一个帖子的一个跟帖如图5 所示,对其进行语义分析。SnowNLP 库将这句跟帖划分为:“还是”,“很”“好看”“的”,“多少”,“钱”,“想要”,如图6 所示。“得出”这几个词语进行词语的积极性分析。结果如图7 所示,这句评论正面积极的因素占了78%,负面消极的因素占了22%,模型就将该评论打分为0.78 分,判定为好评,存入CSV文件。

图5 汽车之家用户发帖截图

图6 用户帖子内容句子划分分析

2.3 汽车用户数据可视化分析

数据可视化是利用计算机图形学和图像处理技术,将数据转换成图形或图像在屏幕上显示出来,并进行交互处理的理论、方法和技术[16]。数据地图[17]是一个强大的数据可视化工具,它将数据和地图相结合,把数据在地图上反应出来,帮助人们了解这些数据与不同地区之间的关系,建立起颜色和数据的联系,可以直观明确地反映出该省份或者地区的实际分布情况。

在本文,首先对汽车之家论坛上某种车系的论坛发帖用户的所在地身份信息进行可视化分析。其次,结合Python 的Pyecharts 库中的Map 函数绘制数据地图——统计该车系下不同省份用户数量大小用不同的颜色呈现在地图上,该省份越多人关注这辆车,这个省份的颜色越鲜艳。图8 表示Python 工具的数据可视化流程图。

3 案例展示

本研究将以汽车之家电商平台上的雷克萨斯论坛的18 款车系为例子,利用Request 和BeautifulSoup 库进行用户信息和论坛帖子评论的获取,利用Pyecharts 库进行数据可视化和SnowNLP 库进行用户评论语义分析将雷克萨斯的其中一款车型的用户数据以地图的形式呈现。

图7 用户帖子内容正负面判断

图8 可视化分析的流程图

3.1 雷克萨斯所有车系用户评价分析

本研究对于汽车之家论坛上的雷克萨斯的18 款车系的前两页帖子和用户数据进行了获取汇总,结果如图9 所示。从图9中我们可以看出,在雷克萨斯18 款车系之中,雷克萨斯GX、雷克萨斯RX、雷克萨斯CT 在所有18 个车系中较受为关注。结合这三款雷克萨斯车系在市场的定位、测评等数据,发现这三款车辆均用材环保、出行舒适、油耗量少。因此,本文认为以上三点是人们较为关注的车辆特点。

图9 雷克萨斯各车型评论分析汇总条形图

本案例分析总共获取雷克萨斯在汽车之家论坛上20 715 条帖子,对于雷克萨斯所有车系论坛用户的地区数据进行可视化(如图10 所示),研究发现关注雷克萨斯用户大都集中在北京(912)、江浙沪(上海566、浙江974、江苏983) 以及广东(2 154) 地区。通过结合表1 全国各个省份人均可支配收入和月工资收入,不难看出关注雷克萨斯用户收入水平大都在沿海经济发达的省份,平均收入在七千元左右。

图10 雷克萨斯所有车系用户分布

表1 全国人均可支配收入和月平均工资表

3.2 雷克萨斯IS 电商平台评论分析

基于上述汽车电商平台的评论,再对雷克萨斯车的某系为例进行分析。本文获取了雷克萨斯IS 车型论坛前两页的帖子中用户的发帖内容和用户的地点信息,对其进行语义分析,再对论坛用户分布地图进行数据的可视化处理对雷克萨斯IS 用户电商平台评论状态进行可视化。

如图11,经过语义分析用户帖子得出,雷克萨斯IS 有1 016 条回帖被判定为好评,991 条回帖被判定为差评,比例大概为1∶1。

将好评与差评数据做成如图12 和图13 的数据地图进行分析。从图12 看出雷克萨斯IS 好评分布广东、江浙沪一带,差评大都在广东一带。

商家可以针对好评集中地带的满意点,对其做进一步的完善,牢牢抓住顾客心理,使其成为自家的忠实客户;当然,商家更应该对差评集中地带做深刻的分析,调查这些群体对于车辆的不满意集中在哪几点,主要诉求是什么,然后针对性地提高车辆性能及自身服务,最终赢得更多的顾客青睐。

图11 雷克萨斯IS 情感评论分析统计直方图

图12 雷克萨斯IS 好评用户分布地图

图13 雷克萨斯IS 差评用户分布地图

4 总 结

本研究针对汽车电商平台,利用Python 的Request 和BeautifulSoup 库进行网络爬虫获取数据,再利用Python 语言的SnowNLP 库对用户评论进行语义分析,最后利用Python 语言的Pyecharts 库实现数据的可视化。研究充分利用了Python 第三方库的扩展性,展现了Python 工具在汽车电商大数据分析中的应用,在数据分析与可视化方面体现出一定的应用价值。

本研究初步尝试了基于Python 工具的汽车电商平台评论语义分析与可视化方面的探索,在用户评论数据特点及数据预处理、语义评论的情感分析,以及与其它分析可视化研究方法的比较探索等作为今后课题需要进一步深入研究。

猜你喜欢

雷克萨斯帖子可视化
最适合的就是最好的 雷克萨斯ES300h
基于CiteSpace的足三里穴研究可视化分析
基于Power BI的油田注水运行动态分析与可视化展示
LEXUS 雷克萨斯LF-Z
全新雷克萨斯ES
基于CGAL和OpenGL的海底地形三维可视化
“融评”:党媒评论的可视化创新
暴力老妈
雷克萨斯CT200h车行驶抖动
高手是这样拍马屁的