APP下载

基于Hadoop的电子商务大数据分析综合实训平台建设

2018-02-20李文强

现代工业经济和信息化 2018年11期
关键词:开源分布式可视化

李文强

(义乌工商职业技术学院创业学院, 浙江 义乌 322000)

引言

电商行业进入相对成熟发展阶段,其竞争日趋激烈。电子商务从用户时代和销量的时代,发展到目前数据时代,数据也越来越发挥出巨大的作用,表现在精准营销、信用评级、广告推送及物流配送等方面。电商大数据分析主要是指对电子商务交易过程中形成的海量数据进行收集、清洗、整合与分析,实现基于大数据对运营与管理的优化。本文以Hadoop为核心框架,提出了基于电商数据的数据采集、数据存储、数据分析、数据可视化的综合实训平台建设方案,为电商数据分析人才培养提供综合实训平台。

1 电子商务大数据分析实训平台的问题与现状

1.1 实训硬件条件缺乏

大部分学校缺乏相应的教学条件。学校购买了硬件,却支付不起或不愿支付较高的实训软件费用,导致大部分电子商务专业开设的主要实践内容为办公软件应用、Web网页制作、计算机应用等通用计算机技能,实训内容无法满足电商企业需求。

1.2 忽视大数据分析

大数据作为新崛起的海量数据分析技术,在当前电子商务教学中,普遍忽视大数据分析的作用[1]。从技术层面而言,电商能与大数据分析进行有机结合,电商产业在交易过程中会产生大量数据信息,这些都应整合到整个产业的业务流程。

1.3 大数据分析相关师资不足

电子商务是一门交叉复合型学科,其专业特性要求教师不仅具备电子商务基本技能,还需具备较强大的数据分析能力和实战水平。但大多数电子商务专业的教师缺少有关背景知识和实战经验。

2 电子商务大数据分析综合实训平台的构建

由于开源分布式体系,Hadoop可通过Hadoop Common、HDFS、MapReduce等,在技术层面可进行大数据相关运算[2],其自身高可靠、高扩展、高效和高容错的特性保证能有效解决大数据并行计算、并行存储、海量数据处理等问题。同时,开源的特性使其飞速发展与进化,并被广泛用于电子商务等各个领域。在海量数据处理上Hadoop得到了广泛的认可。

本文提出的综合实训平台由软硬件基础层、架构层和应用层组成。硬件基础设施为机房通用学生用机及相关网络设备,软件基础层选用开源的Linux操作系统。架构层采用Hadoop为核心,应用层分数据采集、数据存储、数据分析、数据可视化四个模块。

2.1 数据采集模块

数据采集来源主要有两种,包括实时采集及互联网数据爬虫。对于实时采集本文采用Kafka分布式消息系统,主要用于采集服务器各种日志,以及记录web用户或app用户的各项活动。针对相关技术漏洞,通常可采用Scrapy爬虫框架,抓取网络商城中结构化的数据[3]。若合理应用,Scrapy可在数据挖掘、监测和自动化测试等方面发挥较好功效。利用Scrapy抓取京东或淘宝上的商品信息及销售数据,已有很多成熟的案例。

2.2 数据存储模块

HDFS是运用大规模廉价商用机集群的文件存储与传输系统,HDFS将需要存储的大文件进行分块,形成单元数据块存储到不同的计算机上,从而构建了大数据的分布式存储。分布式存储机制提高了读取效率,多主机读取比单机读取效率要高得多。HDFS可应用在普通台式机器上,一个实训机房的几十台学生用机可支撑一个大数据集群。

传统的关系型数据库在当前数据量爆增的互联网时代已出现性能瓶颈,不适合大数据分析的使用场景。而Hbase运行于HDFS之上,是一个非关系型数据库(NoSQL),在大规模非结构化存储上应用较为广泛。Hbase的无关系特性和并行性,使得数据库结构可以简化,因此可以有非常高的读写性能和拓展性。

2.3 数据分析模块

在数据分析上,用户主要采用MapReduce,能实现计算机的并行运算,将相关内容概括为Map与Reduce两个过程,在技术层面上可实现相关任务的分解与汇总。MapReduce自动完成计算任务,同时在后台并行化处理,这可在一定程度上减少使用人员的负担。

Hive是一个数据仓库工具,可对HDFS上的结构数据进行整理,通过相关程序形成数据库表,提供了功能类似SQL语言的查询语言HiveQL,HiveQL可进行简单的MapReduce统计,无需编写特定的MapReduce应用,相当适合数据仓库的统计分析。

2.4 数据可视化模块

数据可视化模块可采用的技术很多。ECharts是开源的可视化库,其采用JavaScript作为开发语言。凡是支持JavaScript的浏览器均可运行ECharts,从技术层面上可提供定制化的数据图表。基于Python的可视化库,用户可选择matplotlib和pyecharts,前者在Python库中使用频率较高,后者可借助于Python实现Echarts相关技术功能。

3 结语

实训平台的建设技术上以最流行的开源大数据计算框架Hadoop为基础框架。Hadoop开源的生态圈使得软件成本为零;Hadoop支持分布式存储,可利用机房普通PC快捷搭建大数据集群。平台以Python为主要编程语言,减少教师相关计算机知识的学习,减轻了对师资的要求。该平台的建设思路体现了以电子商务行业需求为核心,以学生为本,提升学生综合实践能力,培养综合实践应用型人才的目标。在未来的实践探索中,还可利用该平台建立更完善的商务数据分析实训教学内容,如市场预测、消费者行为分析等实训教学内容。

猜你喜欢

开源分布式可视化
基于CiteSpace的足三里穴研究可视化分析
思维可视化
基于CGAL和OpenGL的海底地形三维可视化
五毛钱能买多少头牛
2019开源杰出贡献奖
“融评”:党媒评论的可视化创新
分布式光伏热钱汹涌
分布式光伏:爆发还是徘徊
大家说:开源、人工智能及创新
开源中国开源世界高峰论坛圆桌会议纵论开源与互联网+创新2.0