APP下载

基于淘宝平台的笔记本电脑商品知识发现

2021-01-15马乐荣

关键词:笔记本电脑淘宝销量

刘 哲,马乐荣

(延安大学数学与计算机科学学院,陕西延安716000)

人类已经进入大数据智能时代,大规模电商平台汇集了商品、商家、生产厂商、消费者等的海量数据,得到许多知名企业、科研机构和大学专家的持续研究。根据第43次《中国互联网络发展状况统计报告》[1],截至2018年12月,我国网络购物用户规模达6.10亿,手机网购用户达5.92亿,电子商务平台收入3667亿元,同比增长13.1%。由于一次商品买卖活动,涉及电子商务平台、商家、用户、银行或金融机构、物流等方面的数据[2,3],如此庞大的组织群体和交易收入,使得电商平台累积了海量数据资源。这些数据具有重要的研究价值,如丁晟春等[4]提出基于电商数据构造产品知识图谱,来帮助电商平台改善产品服务水平;Kim[5]利用电商数据构造产品知识图谱,开发了产品销售助理,大大提高了用户购物和使用体验;杨东红等[6]基于京东商城商品评论中的好评、中评、差评三种类型评论,比较三者在评论长度、有用性投票和评论回复数方面的异同,补充当前关于在线评论有用性的研究;范颖等[7]通过识别电子商务用户行为,为优化用户营销决策提供科学依据。

1 数据集及预处理

1.1 数据集

数据的采集是通过爬虫的方式进行的[8],完成笔记本电脑数据采集后,数据库中共存有19069条笔记本电脑商品信息。对数据进行初步统计可知,其中包含评论共计57万条,有15万条评论信息为默认评价,有效评价共计41万条。而且,在所有的有销量的8625个商品中,有5842个商品在淘宝出售,天猫上仅有2783个商品,占比仅为32%,但却拥有351997条评论,占比高达61%,只有淘宝一半笔记本商品数的天猫,却有着两倍于淘宝的销量,具体数据参见表1。

1.2 数据预处理

使用没有预处理的数据,往往产生错误的分析结果。例如,在57万条用户评论中,有15万条为默认评论,都为“此用户没有填写评论”等字样。因此,在进行数据分析之前,需要对数据进行预处理,以剔除无效数据和不完整数据,并将结果格式化后,存入文件或写回数据库中,作为进一步分析的数据源。

表1 笔记本电脑爬取数据统计

对于笔记本电脑数据,这里预处理的主要是用户购买后的评论数据。首先,去除掉默认用户评论数据。接着,使用分词工具Jieba[9]对用户评论数据进行分词[10-12],为后续的分析准备数据。由于用户评论记录简短、字数少、表达又随意,直接使用Jieba对其进行分词,效果不是理想。鉴于笔记本电脑商品对应的评论主要基于电脑、笔记本相关主题,本文使用搜狗提供的电脑词汇、电脑硬件、电脑软件、电脑硬件厂商、计算机词汇大全和淘宝网专用词汇[13]作为Jieba的生成字典,来提高Jieba对用户评论数据分词的准确率。

2 笔记本电脑知识发现

2.1 品牌分析

几乎所有品牌的笔记本电脑都在线上进行销售,甚至一部分厂商的产品只在网络销售,电商平台销售的笔记本电脑的产品种类与品牌远远超过任何一家线下实体店。通过对电商平台淘宝网所售笔记本电脑资源分析,发现在售笔记本电脑品牌有52个。各笔记本电脑品牌商家占有量如图1所示,其中,联想、ThinkPad、戴尔、华硕和苹果为前5的品牌,占有量高达57%。

2.2 价格分析

价格一直是笔记本电脑客户比较重要的参考因素。笔记本电脑整个销售市场的价格分布状态,在一定程度上反应出国内消费者的购买能力与生活经济水平。对19 069个商品的参考价格按不同区间进行统计分类,经比对发现,依据2000元划分价格区间是合适的,而且具有说服力。如图2所示,2000~6000元这一区间的笔记本电脑占全平台在售商品的57%,其中最受欢迎的是4000~6000元这一价格区间的产品,并且6000~10 000档的占比与2000~4000档的占比相持平,这表明人们对高端笔记本电脑的购买能力逐步提高,同时也表明国内人们的生活水平在逐步提高。

2.3 热门分析

在笔记本电脑的索引页面上,淘宝平台已经给每款型号打上了热门参数的标签。本文对标题中的词进行抽取,获得权重排名前600的关键词,其中权重取值在0~1之间。最后对关键词绘制词云图,如图3所示。通过分析,发现键盘、内存、处理器、指纹识别、硬盘、显卡和运行成为消费者比较重视的参考因素。除了运行外,6个热门参数中内存、处理器、硬盘和显卡与产品性能有关,而键盘和指纹识别则与使用体验相关。由此可见,消费者在购买笔记本电脑时,优先考虑的是性能而不是诸如智能、音效、指纹等参考因素。

2.4 消费者活跃时间段分析

由于用户在提交评价时,需要进行整理语言并进行文字输入,甚至拍照或录制视频,所以评论时间可以作为用户活跃的一个标志。统计并分析近两年消费者对笔记本电脑评论的时间,统计结果如图4所示。发现晚睡这一社会现象并未在图4中体现,大多数交易评论的时间是比较符合人们作息规律的。在凌晨,活跃人数最低,上午时曲线上扬较快,中午12点到达峰值,下午活跃人数普遍较高,且在21点后快速下跌。这个发现可以给商家提供安排客服上班的建议。

2.5 历史销量分析

对于淘宝平台,笔记本电脑的真实交易数量属于淘宝后台数据,爬虫无法获取到。由于用户参与评论需要在收货以后,所以可以用评论的数量来近似交易的数据。评论时间通常为确认收货时间,一般在交易后三天确认收货,这是目前国内物流时效水平决定的。因此需要对评论时间进行预处理,左移三天的偏移量。通过对57万次交易的日期进行分析,发现在阿里巴巴的购物狂欢日“双十一”期间,笔记本电脑的销量大幅度提高。而且每个标志性期间,销量便会迅猛增加,如图5所示,实线代表淘宝平台的历史销量曲线,短横线样式的虚线代表天猫平台的历史销量曲线,点状样式的虚线代表淘宝、天猫的历史销量总和曲线。2017年“双十二”促销当日,笔记本电脑的销量甚至比“双十一”的销量还要多出240台。而2018年开学季的销量几乎与2017年“双十一”持平,可见阿里巴巴的每次推广促销,对成交量有着非常明显的积极促进作用,这充分表明促销的影响力和时机对产品销售是非常重要的两个因素。特别是发现开学季的销量几乎等于“双十一”。因此,对于商家和学生来说,开学季也是重要的销售和购买时段。

2.6 用户评论的情感分析

本文选取13 684条针对小米品牌的笔记本电脑有效评论进行情感分析[14-17]。使用snownlp[18]的情感分析接口,分析每条评论为正向情绪的概率,图中情感值在0~1区间内,0代表极端消极情感,1代表极端积极情感,对评论绘制情感值分布的柱状图,如图6所示。从图6看出,小米品牌的口碑大多是积极的。

对于情感值小于0.3的评论,通过调用百度开放平台的评论观点抽取接口[19],自动抽取和分析评论观点[20,21],绘制评论标签云图,如图7所示。可以得出,负面情绪多数是由于客服与物流导致的,少部分对产品的负面评价为风扇声音过大、屏幕像素低和电池等问题。因此,建议商家通过着重提高服务质量和合作物流公司水平来有效提升用户体验,进一步提高用户群的满意度。

3 结语

本研究以最大的电商平台——淘宝网的电脑笔记本为例,获取了2018年5月之前的商品数据和用户评论数据,对获取的数据进行分析,发现了品牌分布、笔记本电脑热点参数、商家和用户的交易行为以及小米品牌用户评论负面情感的真实原因等知识。电商平台可以利用这些知识改进服务,进一步提升用户体验。

猜你喜欢

笔记本电脑淘宝销量
同比增长130%!剑指3万吨销量,丰华黄颡料迎来大爆发
校园“淘宝”
笔记本电脑“僵尸”
盘点2018年车企销量
2016年度车企销量排名
上汽通用172万销量下的阴影
淘宝试衣间
淘宝
为笔记本电脑换上新年盛装
淘宝俱乐部