APP下载

大数据技术在电商行业的应用

2018-03-21周哲贤

电子技术与软件工程 2018年2期
关键词:京东大数据电子商务

摘 要 随着互联网和计算机技术的迅速发展,我们生活中的许多行为和言语都会以数据的形式被存储,而这些数据的背后则蕴含着巨大的价值。大数据时代的到来,使社会各行各业都发生了很大的变化。我国电子商务行业发展迅速,如何牢牢抓住“大数据”这一机会,是摆在众多电子商务企业面前的挑战。本文主要通过分析大数据在电商行业中的应用实例,反映出大数据对电商行业的发展影响以及对社会发展的推动作用。

【关键词】大数据 电子商务 京东

1 电商行业的发展过程

电子商务行业在我国没有很长的发展历史,因为互联网在我国也是近些年才迅速发展的。电子商务在发展初期,仅仅是做到将线下的交易过程转移到线上,人们虽然能够通过互联网进行购物等行为,但是没有体验到线上交易的便捷性和优越性。所以电子商务行业一开始发展迟缓。

随着计算机技术和网络技术的进步,用户可以通过电脑或者手机方便的进行线上交易。这个阶段,电子商务行业遇到了另一个问题,那就是订单量过多,物流速度无法适配,导致物品要过一段时间才能够到达目的地。这令用户和商家都非常苦恼。

大数据时代到来后,电商行业遇到了转机,通过大数据技术,可以为用户推送用户感兴趣的商品以及距离用户更近的商品,这样既提高了用户使用的舒适度,也尽可能的减少了在运送过程中消耗的时间。

2 大数据及大数据技术简介

2.1 大数据简介

大数据是目前非常火热的一个词汇,本文将大数据定义为产生于信息爆炸的时代背景下,数量庞大,种类丰富的数据的集合,并且该数据集合蕴含着很大的开发和使用价值。大数据具有“4V”特征,分别是Volume(数据量庞大),Variety(数据类型多元化),Velocity(数据产生速度快)以及Value(数据价值高)。同时具备这4个特征,则可以称之为大数据。

大数据的计量单位已经不是GB能够满足的了,要用TB甚至PB或更大。并且在未来的几年内,还会有几十ZB的数据源源不断地产生。这体现了大数据数据量的庞大。

大数据的数据类型非常丰富,包括大量结构化以及非结构化数据,比如音频,图片以及视频等等,还包括传感器的数据,互联网搜索的数据等。所以大数据不仅仅是数据量大,并且数据类型也很繁多。

如果没有快速处理数据的能力,仅仅拥有庞大的数据是远远不够的。通过云计算的存储和计算,大量的数据可以被较快的处理,这样可以使大数据被较快地使用。

在海量的数据中,蕴藏着无限的价值,许多行业和企业已经嗅到了其中的价值,本文介绍的就是电商行业是如何利用大数据进行变革和发展的。

2.2 大数据技术简介

大数据的总量每两年就会翻一倍,呈现出爆炸式的增长趋势。如果只存储大数据,而不处理和分析大数据,那么大数据是没有价值的,所以大数据的出现促进了大数据技术的发展。本文对大数据技术的定义如下:大数据技术是能够在海量的各类数据中,有效地进行筛选并且快速找到具有利用价值的数据的技术。

大数据技术中,使用较广泛的是Hadoop技术。Hadoop可以简单的理解为是HDFS(Hadoop Distributed File System)和MapReduce技术的集合。

HDFS是一种分布式文件系统,与普通文件系统有所差異。每个磁盘上有一个默认的数据块的大小,一般为512字节,是磁盘对数据进行读写时要求的最小单位。文件系统也有块的概念,大小一般是磁盘块大小的整数倍。HDFS块的大小一般默认为64MB,要比普通文件系统的块大很多(普通文件系统块大小一般为几千个字节)。这样使得HDFS减小了很多磁盘寻址的开销,提高了读写速度。HDFS最大的优势是可以存储超大文件。原理是HDFS不是将所有文件的块存储在一个磁盘上,它可以利用磁盘系统上的任意一个磁盘进行数据的存储。因此HDFS通常可以存储TB级别,PB级别甚至更大级别的数据。

HDFS读写原理:

在了解HDFS读写原理之前必须要了解两个分布式节点概念,一个是NameNode,另一个是DataNode。NameNode在HDFS中扮演者“调度员”的角色,其中存储了HDFS的元数据,比如集群中的节点信息,每个数据有几分副本数据等。DataNode就是集群中数据的存储节点。每个文件会有多个副本存储在不同的DataNode中以保证数据不会丢失。

HDFS写原理:

(1)客户端将消息发送至NameNode,如图1①。

(2)NameNode给客户端发送消息,指引客户端将文件写入Data A,B,D中。并且先向B节点发送请求,如图1②。

(3)客户端给B节点发送消息,希望它保存一份副本,并且希望B向A,D发送消息,让A,D都保存一份副本,如图1③。

(4)B节点发送消息给A节点,告诉它保存副本文件,并且希望它给D节点发送消息,让D节点保存一份副本,如图1④。

(5)A节点向D节点发送消息,希望D节点保存一份副本,如图1⑤。

(6)D节点向A节点发送消息,确认已经保存副本,如图1⑥。

(7)A节点向B节点发送消息,确认D节点已经保存副本,A节点已经保存副本,如图1⑦。

(8)B节点向客户端发送消息,确认已经将文件写入HDFS,如图1⑧。

HDFS将文件写入系统,保证在系统集群中保留多份副本,才返回给客户端写入完成,这样在某个节点死亡的情况下,依然能够读出数据,下面就是HDFS读文件的原理:

(1)客户端向NameNode发送消息询问从哪里读取数据,如图2①。

(2)NameNode向客户端返回信息,告诉客户端副本存在的DataNode的ip,如图2②。

(3)客户端联系相关DataNode,请求其中的数据,如图2③。

(4)相关DataNode返回文件给客户端,并且关闭连接,完成读文件操作,如图2④。

MapReduce可以拆分为Map+Reduce。

Map的思想是将海量的各类型的数据按照某一标准,将数据转换为键-值的形式,这样会提高数据的读写速度,是一种大而化小的思想。

Reduce的思想是将Map后的数据按照键的类型进行归约,整合数据。最终是海量复杂的数据标准化,简单化,是一种异而化同的思想。

MapReduce技术恰好应对了大数据的数量庞大(Volume)和种类繁多(Variety)的挑战,是大数据技术中非常重要和基础的技术。

3 大数据技术在京东中的应用

3.1 京东简介

京东是目前中国最大的自营式电商企业,占中国自营式电商市场份额一半以上。京东商城有很多种类的商品,比如手机,电脑,日用品,化妆品等,也有手机缴费,酒店预订等虚拟产品。是目前唯一能与淘宝(天猫)一争高下的网上商城。京东商城的迅速发展得益于其强大的仓库设施,京东的仓库覆盖全国所有大区,基本辐射所有省,运营数百个大型仓库。加上快速的配送服务,基本实现早上下单,当日送达,下午下单次日送达的承诺。

京東能够做到如此快速优质的配送服务,除了有强大的仓库系统支持外,更是少不了大数据技术的支持。京东商城会从不同地区和不同年龄的消费者的购买数据中分析出各类商品的供需情况,根据该供需情况调配商品和管理仓库,减少跨区域的货物调度。

3.2 京东大数据平台简介

在2013年年初,京东将大数据战略规划为公司下一个十年的重点战略方向。京东的大数据平台分为:技术模块,模型模块,工具产品模块和客户模块。

技术模块主要包括Hadoop,Spark,Magpie等大数据技术;

模型模块中主要包含了用户画像(消费者的特征描述),销售预测,信用模型,配送网格等。这些预测模型能够使京东更加精准的进行策划和决策。

工具产品模块中主要包括搜索引擎,数据挖掘平台,数据质量监控平台等,通过该模型可以对消费者的数据进行处理和应用。

客户模块包括消费大众,合作伙伴,内部客户等数据,可以得到内外全方位的客户数据。

京东需要对实时的数据进行计算和查询,还需要对历史和离线数据进行处理,所以数据量相当大。它采用HDFS进行数据存储,使用MapReduce,Spark等技术进行数据处理,最后访问数据。

3.3 京东大数据应用框架

图3是京东大数据应用框架。

(1)收集用户进行操作留下的日志数据,交易及非交易数据,这些数据是整个架构中最底层的数据。

(2)对用户的行为建立模型,比如兴趣模型,信用模型等。

(3)在用户行为模型之上,再建立用户画像,对用户的营销价值和用户的风险等级进行评估,将评估结果供应给各个营销系统,这一层是把数据转换为价值的关键部分。

(4)采用各种广告的形式进行精准推广。

该框架是一个动态并且循环的过程,底层数据是由上层推广之后得到的,上层推广需要底层数据的支持。

以下是京东数据库的用户表字段(如表1所示)。

可以看出,京东除了记录用户的基本数据之外,还会记录用户的月收入,兴趣爱好,购物次数等个性化信息,就是为了能够更好地建立一个用户画像,从而更好地为大数据框架服务。

3.4 京东大数据应用的效果

通过大数据平台对大数据的获取和分析,京东会给每个用户打上不同的标签,每位用户都会有很多的标签和画像,并且这些标签会根据用户的浏览和交易行为进行动态更新。这样可以为用户推荐用户感兴趣的商品,并且可以从用户交易后的反馈获得推荐的效果,再次对标签进行更新。

应用大数据后,京东可以获取到各种用户的消费购物习惯和喜好,找出相似人群以及潜在客户,并且预测并推出市场受欢迎的产品。这与传统的电商相比,京东的优势显而易见,也体现出大数据技术的极高价值。

通过京东用户画像大数据显示,过去的5年中,女性网购用户数增长超过200%,使得京东更多地将注意力转移到女性购物习惯上。在近五年时间里,京东平台的交易额实现了10倍的增长,从2012年的869亿,飙升到今年的9392亿,除了品牌建设的成功以及用户购买力等因素,大数据起到了很大的作用。

4 总结

本文通过简单的介绍了大数据以及大数据技术的概念,分析我国电商行业的发展过程,并且结合大数据在电商行业中应用的实例,反映出了大数据技术对电商行业的发展是具有很深远的意义的。大数据能够很真实地展现出当前事物的现状,也能够分析预测出该事物对未来的影响。大数据不仅影响着电商行业的发展,而会对人类社会中各行各业的未来起到关键的作用,人们应该充分发挥大数据的优势,以求更好地发展。

在研究分析了大数据在电商行业的应用后,我认为大数据将是未来科技发展的趋势,也将会是科技发展的基础。离开了大数据的支撑,那么这个行业将会逐渐成为历史,合适地利用了大数据技术,这个行业将会有很大的发展空间。

参考文献

[1]甘丽新,涂伟.大数据时代电子商务的机遇与挑战探讨[J].科技广场,2013(03):137-140.

[2]胡艳辉.浅析大数据时代电子商务发展的新特征[J].改革与战略,2016(01):118-122.

[3]蔡永鸿,刘莹.基于大数据的电商企业管理模式研究[J].中国商论,2014(31):74-75.

[4]陈忠义.基于Hadoop的分布式文件系统[J].电子技术与软件工程,2017(09):175-175.

[5]郝胜宇,陈静仁.大数据时代用户画像助力企业实现精准化营销[J].中国集体经济,2016(04):61-62.

作者简介

周哲贤(2000-),男,河南省郑州市人。就读于郑州市第一中学。

作者单位

郑州市第一中学 河南省郑州市 450007

猜你喜欢

京东大数据电子商务
《电子商务法》如何助力直销
电子商务
关于加快制定电子商务法的议案
在超市快送上超越京东