APP下载

基于Nutch爬虫的电商交易价格统计研究

2017-02-09阳黎明苏理云

关键词:爬虫价格指数分布式

阳黎明,苏理云

(重庆理工大学 理学院,重庆 400054)

基于Nutch爬虫的电商交易价格统计研究

阳黎明,苏理云

(重庆理工大学 理学院,重庆 400054)

将电商交易数据纳入价格指数架构是目前统计工作关注的焦点。应用大数据技术,将Nutch爬虫搭建在分布式集群上,构建分布式网络数据抓取系统,同时结合最新的AP聚类算法对数据进行预处理,然后对网上数据进行价格指数建模,进行价格指数试算。试算结果表明:基于分布式集群下的Nutch网络爬虫技术较好地完成了网络交易数据抓取任务。因此,计算的网上交易数据价格指数可较好地反映市场价格变化趋势。

电商交易数据;分布式集群;Nutch;价格指数

随着电子商务发展的不断深入,政府统计部门和行业统计者对电商行业发展的关注度随之提高,大数据理论的快速发展对电子商务的影响日益显著[1-3],电商交易大数据对政府统计工作的改革创新也产生了积极的作用[2]。 本文开展了基于大数据理论指导的电商价格指数研究,对了解大数据在网上交易的应用具有现实意义。

开展电商交易价格的统计研究,重点是研究将电商交易大数据纳入计算价格指数的数据框架。电商数据的融入对价格指数构建将是重要补充,对增强价格指数的可靠性和探索开发以网络交易数据为基础的其他经济指标提供了经验支撑,对开展大数据的网络应用提供了实践依据。

1 电商价格指数理论

网络交易作为时下热门的消费方式,关乎企业和每个消费者。通过研究电商交易的价格指数对于掌握电商交易行业发展具有重要作用。相比于利用传统数据计算价格指数而言,根据网上交易数据计算的网络价格指数对了解行业发展更加真实可信。

1.1 网络零售价格指数(iSPI)

2012年,阿里巴巴的网络零售额突破1万亿。依托自身庞大的电商交易数据,在国家统计局的指导下,阿里巴巴推出了一个网络零售价格指数(iSPI),其权重由淘宝网支付宝的交易金额的比重而定,分为11个大类,每年调整一次。由于我国网络销售中含有团购、批发销售等业务,所以该指数并不是真正意义上的网络零售物价指数,而是一个结合了生产、批发、零售和消费等多种市场行为的综合类价格指数。通过此理论得出指数比官方CPI波动更大,同时存在抽样不平衡、未综合利用不同网络交易价格等缺陷。

1.2 消费者信心指数(CCI)

百度与中科院合作也开发了一套基于网上搜索数据编制的消费者信心指数(CCI)、通货膨胀指数。运行效果显示,网民搜索所指示的消费者对物价的感受与国家统计局的官方数据之间有一定的先行指示作用。 但与实际情况仍然存在一定差距。

1.3 中农网指数

中农网公司发布的农产品批发价格指数以深圳市农产品股份有限公司控股的30家批发市场和农网承建信息系统的80家批发市场为信息采集源,以电子交易模式为对象,通过对交易数据的实时监控,利用数据挖掘手段获取有效的电子交易数据,从而中农网农产品批发价格指数。该指数采用定基期,以全国农产品实际批发成交量为权重。对全国农产品批发市场具有风向标的作用,反映了农产品的市场流动。

1.4 网上价格指数(BPP)

美国麻省理工学院通过网络爬虫技术构建了网上价格指数,即 BPP 项目[4]。具体过程:定时抓取不同国家电商的商品价格信息,每次至少抓取50万条商品交易信息,再依此电商交易数据计算出20多个国家的每日网上价格指数。该指数的应用已得到政府及其相关领域的认可。对此网络数据的抓取,由于诸多原因其具体过程不详细介绍。

通过对比我国传统CPI指数和基于网上交易数据的价格指数的数据来源、权重分配,发现基于大数据技术的网上交易价格指数,对分析电商交易市场的价格变动和市场发展趋势作用明显,且具有较高的可行性和认可度。为此本文将重点考虑基于大数据技术的网上交易价格的统计研究。各类指数对比见表1。

表1 各类指数的对比Table 1 Comparison of various indices

2 分布式Nutch爬虫技术原理与实践分析

2.1 分布式集群下 Nutch爬虫的技术原理

Nutch 是一个开源Java 实现的网络搜索引擎框架,它涵盖了我们知道的搜索引擎所需的全部工具,比如全文搜索和Web爬虫[5-6]。Nutch爬虫系统的工作流程及原理以及Nutch爬虫的基本结构如图1所示。

图1 Nutch系统结构Fig.1 Nutch system structure

1) 生产列表:根据网页数据库生成一个待抓取网页的链接(URL)列表。

2) 下载线程Fetcher类:在根据确定的待抓取URL列表进行网页抓取时,需要注意的是如果有多个下载线程,就必须对应生成多个待抓取URL列表,也就是1个Fetcher类的线程对应1个待抓取列表。

3) 更新网页数据库:Nutch在前一次爬虫结束以后会自动更新网页数据库,根据更新后的网页数据库生成新的待抓取URL列表。

4) 重复上述步骤进行下一轮抓取任务。

这个循环进行的过程可以描述为“产生—抓取—更新”循环。

上述过程是Nutch爬虫框架的基本工作流程及其基本原理。在Nucth爬虫实现数据抓取的基本系统中,主要就是完成对待抓取 URL 列表的抓取和更新。Nutch数据采集过程如图2所示。

在完成网上交易数据的抓取过程中,虽然大数据框架下的分布式网络爬虫技术具有技术领先性,但仍存在一些问题:解析网页链接较复杂;平台布局频繁更替导致分布式架构运行不易;电商数据的多样性导致有效数据难以捕捉。

图2 Nutch数据采集过程Fig.2 Nutch data acquisition process

2.2 电商数据的特征

立足分布式的网上交易数据抓取平台,本文设定从早上9:00—下午6:00完成对淘宝网站下的手机类交易数据的抓取。通过对电商交易数据分析发现,电商数据具有区别于传统数据的显著特点,主要有以下两方面:

1) 交易数据波动大。电商交易操作方便,交易时间短,交易平台的工作人员可以根据市场需求和频繁的打折促销等营销手段对商品交易价格做出实时调整。但打折促销、团购降价等消费手段都会引起抓取数据的异常。

2) 商品种类丰富。电商数据具有明显的大数据特征。实证应用中,网页平台上同种商品的数量、型号等都在变化,每天在电商交易平台中手机种类平均接近4 800种,在特殊时间段手机种类还会有较大变动。

3) 数据时效性强。随着网页制作的不断升级,网站拥有者可以轻松地根据需要在电脑界面上放入不同的信息,因此电商网页交易的价格数据也在时刻变化。

4) 商品缺货问题突出。电商交易平台经常出现短期缺货情况。例如在抓取的手机交易数据中, 在同一天 手机种类的数量就可能不同。电商交易中常常采取预售或订购等营销模式,商品还没有真实上架,货物已在销售,最终导致抓取的价格数据不全或是错误的。

3 电商交易数据的预处理

数据的预处理是统计研究的基础,针对不同的形式和不同需要的数据,处理的方法会存在不同程度的差异。常见的聚类算法无法对数量庞大、结构复杂、种类繁多、价值密度低的电商交易大数据进行有效的分类处理,而AP聚类算法恰好可以对电商交易数据进行有效的处理。

AP算法是在2007年被首次提出[7]。该算法不需要事先指定聚类数目,相反它将所有的数据点都作为潜在的聚类中心,称之为exemplar。以S矩阵的对角线上的数值S(k,k)作为k点能否成为聚类中心的评判标准,这意味着该值越大,这个点成为聚类中心的可能性也就越大,这个值又称作参考度p。同时为提高聚类的效率,采用R软件实现相关编程操作。

根据最优的聚类数完成数据的聚类处理,然后得到新的数据集。在完成上述步骤之后,所得到的新数据就相对规则,不存在明显异常的数据,计算价格指数时不会存在明显的干扰。

4 价格指数模型的制定

4.1 规格品的选择

目前我国CPI的编制把居民消费支出分为食品、衣着、医疗保健、个人用品、交通及通讯、娱乐教育文化用品及服务、居住、杂项商品与服务等8类[8-9]。但随着网络交易规模的不断扩大。价格指数的构建已经无法将网络交易数据排除在外,缺失网络交易数据的价格指数将是不全面的。如果将网络交易数据纳入价格指数的构建中,对于传统数据信息是一个重要的补充,可为探索和开发以网络交易数据为基础的其他经济指标提供基础与经验支持。

对于网上交易数据,应该具备以下认识:首先网络零售商品并不完全等同于居民消费品,网络零售中存在部分过度产品;其次网络零售商品的存在形式与线下零售区别很大。相较于传统零售商品,网络零售对电子产品的分类相当精细,需要由单独分类来反映。由此,将居民消费支出分类设定为以下基本分类:食品、衣着、家庭设备用品及服务、医疗保健护理、交通和通讯、教育文化娱乐服务、居住、商用设备、数码产品和服务、杂项商品和服务[9-10]。这样划分的主要特点:由于网络销售与传统销售渠道存在不同特点,电商货物与构建物价指数而选取的代表品有所不同。例如,网络零售的食品类主体是易储存、包装和运输的加工食品,以零食居多,所以网络销售将 “烟酒及用品”类归于食品类。医疗类主体是医疗器材、保健品与美容护肤等个人护理用品。而由于许可限制,大类下西药非常少,医疗服务则几乎没有,交通和通讯类等服务类都非常少。

根据网络零售商品的交易特征,其市场交易主要是以零售交易为主。本文考虑除去网上交易存在的团购、促销、季节性影响等因数,设定网络零售商品的日度价格指数,以零售商品为最细类选择商品。 以基本分类商品的日度价格指数(电商网页中的零售商品)为例,首先计算不同规格手机的日度价格指数。然后利用无加权的几何平均计算同种商品的价格指数,最后汇总月度价格指数。这也是编制CPI指数的常用做法[11],具有较好的参照性。

4.2 电商交易价格指数

4.2.1 手机销售的日度环比价格指数

首先计算同一品牌手机的在某天的平均价格,数据来源主要是利用爬出技术在某个网站实现实时的手机销售价格抓取,此时的平均价为

(1)

(2)

由此,再对日度价格指数进行无加权几何平均得到日度环比价格指数,再重点分析指数计算的模型,根据爬出技术平台抓取的数据进行指数试算,得到日度环比价格指数:

(3)

4.2.2 定基价格指数

在厘清日度环比价格指数之后则可以进一步得到月平均定基价格指数。

定基价格指数Lt,0=Lt-1,0×Rt,t-1,为计算方便将前一天的价格指数设为100,当L0,0=100 时,Lt,0和Lt-1,0分别是第t和t-1天的定基价格指数,进而得出月度平均定基价格指数:

(4)

4.3 实证分析

本文利用分布式集群下的Nutch爬虫平台实现对手机数据的抓取,完成了手机数据的分析处理,排除了异常数据的影响。根据制定的价格指数计算模型进行指数试算。定基价格指数见表2,手机日度环比价格指数见表3。通过表2、表3可以反映出手交易价格在过去3个月的基本情况(假定前1天的指数为100)。

表2 2016年月度平均定基价格指数Table 2 Monthly average fixed base price index

表3 日度环比价格指数Table 3 Daily chain price index

注:上述日度环比价格指数是从2016年3月30到5月29日的价格指数。

电商交易数据价格指数试算结果表明:基于分布式爬虫系统下的电商交易价格统计研究具有较好的实用性,它不仅丰富了CPI指数计算的数据来源,还增强了价格指数的可靠性和灵敏度,实现了对价格指数的重要补充,同时对于探索和开发以网络交易数据为基础的其他经济指标提供了经验支撑,对了解电商交易市场的发展具有深远的现实意义。

5 结束语

本文分析了现有网络价格指数及其网络价格指数的数据来源特征,力争从互联网技术角度出发,研究大数据挖据技术在电商交易价格方面的应用。以基于分布式的Nutch爬虫技术实现对电商交易数据的抓取,进而实现基于大数据的电商交易价格统计研究。

实证研究结果表明:该数据抓取平台对实时数据的抓取效果良好,对了解网络交易市场发展具有较好的指导作用。

对于在数据抓取过程中出现的异常数据,本文考虑用AP聚类算法进行处理,在一定程度上实现了对异常值等数据干扰的排除。但电商交易具有独特的运营模式,决定了电商数据的独特性,因此在指数计算中对于规格品的分类值得进一步研究。

随着研究的深入,今后将着重考虑对异常数据的处理,例如能否把基于X-12-ARIMA模型的环比价格指数的季节调整运用到网络数据中来。

[1] 李金昌.大数据与统计新思维[J].统计研究,2014(1):10-17.

LI Jinchang.Major Data and Statistical New Thinking[J].Statistical Research,2014(1):10-17.

[2] 刘光金.大数据处理对电子商务的影响分析[J].计算机光盘软件与应用,2014(17):25-26.

LIU Guangjin.Effects of Large Data Processing on E-commerce[J].Journal of Computer Software and Applications,2014(17):25-26.

[3] 高波.电子数据证据的挑战与机遇[J].重庆大学学报,2014(3):111-119.

GAO Bo.The Challenge and Opportunity of Electronic Data Evidence[J].Journal of Chongqing University,2014(3):111-119.

[4] 孙易冰,赵子东,刘洪波.一种基于网络爬虫技术的价格指数计算模型[J].统计研究,2014(10):74-80.

SUN Yibing,ZHAO Zidong,LIU Hongbo.Price price index calculation model based on Web crawler technology[J].Statistical Research,2014(10):74-80.

[5] 钱建学.一种基于Hadoop的分布式网络爬虫的研究与设计[D].北京:北京邮电大学,2014.

QIAN Jianxue.Research and Design of Distributed Web Crawler Based on Hadoop[D].Beijing:Beijing University of Posts and Telecommunications,2014.

[6] 詹恒飞,杨岳湘,方宏.Nutch分布式网络爬虫研究与优化[J].计算机科学与探索,2011(1):68-74.

ZHAN Hengfei,YANG Yuexiang.Researchand Optimization of Nutch Distributed Network Crawler[J].Computer Science and Tropical Media,2011(1):68-74.

[7] 杨善林,李永森,胡笑旋,等.K-means 算法中的k值优化问题研究[J].系统工程理论与实践,2006(2):97-101.

YANG Shanlin,LI Yongsen,HU Xiaoxuan,et al.Research onk-value Optimization Problem in K-means Algorithm[J].Systems Engineering -Theory & Practice,2006 (2):97-101.

[8] 李绍泰,刘建平.基于扫描数据的CPI基本分类指数编制方法研究[J].统计研究,2015(3):3-11.

LI Shaotai,LIU jianping.Study on CPI Basic Classification Index Compilation Method Based on Scan Data[J].Statistical Research,2015(3):3-11.

[9] 刘伟江,李映桥.基于网络关键词搜索量的商品零售价格指数预测研究[J].制度经济学研究,2014(4):153-169.

LIU Weijiang,LI Yingiao.Study on the Retail Price Indices of Commodities Based on the Search Volume of Network Keyword[J].Institutional Economics Research,2014(4):153-169.

[10]赵子东.关于人工采集网络价格的可行性研究[J].调研世界,2014(9):3-6.

ZHAO Zidong.Research on the Feasibility of Artificial Collection Network Price[J].Research World,2014(9):3-6.

[11]沈利生.同比价格指数与环比价格指数辨析[J].统计研究,2008(1):21-24.

SHEN Lisheng.Analysis of Price Index and Annular Price Index of the Year-on-year[J].Statistical Research,2008(1):21-24.

(责任编辑 杨黎丽)

A Statistical Study of Electric Business Price Based on Nutch

YANG Li-ming, SU Li-yun

(College of Science, Chongqing University of Technology, Chongqing 400054, China)

The integration of electric business transaction data into the price index structure is the focus of statistical work. In this paper, we focus on large data technology, build Nutch reptile on distributed cluster to build distributed network data capture system, and combine the latest AP clustering algorithm to preprocess the data; then we will carry out price index construction of online data, and conduct the price index trial. The results show that the Nutch web crawler based on the distributed cluster can complete the task of network transaction data fetching, and the price index of the online transaction data calculated by the data can reflect the market price trend.

electric business transaction data; distributed cluster; Nutch; price index

2016-09-25

重庆市教委资助项目(15SKG136);重庆理工大学研究生创新基金资助项目(YCX2015228);全国统计科学研究资助项目(2014LY069); 重庆理工大学高等教育教学改革研究项目(2014ZD03)

阳黎明(1990—),男,重庆奉节人,硕士研究生,主要从事金融统计与数据挖掘研究;苏理云(1977—),男,四川广安人,副教授,主要从事大数据分析与经济统计研究,E-mail:1093464745@qq.com。

阳黎明,苏理云.基于Nutch爬虫的电商交易价格统计研究[J].重庆理工大学学报(自然科学),2017(1):152-157.

format:YANG Li-ming, SU Li-yun.A Statistical Study of Electric Business Price Based on Nutch[J].Journal of Chongqing University of Technology(Natural Science),2017(1):152-157.

10.3969/j.issn.1674-8425(z).2017.01.023

TP39;O21

A

1674-8425(2017)01-0152-06

猜你喜欢

爬虫价格指数分布式
利用网络爬虫技术验证房地产灰犀牛之说
春市营销环比回升 价格指数环比小涨
基于Python的网络爬虫和反爬虫技术研究
分布式光伏热钱汹涌
分布式光伏:爆发还是徘徊
大数据环境下基于python的网络爬虫技术
8月百城价格指数环比连续16个月上涨
7月百城价格指数环比连续15个月上涨
各种价格指数
基于DDS的分布式三维协同仿真研究