APP下载

大数据漫谈

2017-03-23陈陵

商情 2016年47期
关键词:大数据分析应用

陈陵

(重庆工贸职业技术学院)

【摘要】本文对大数据从定义、到分析方法及应用作了较详细的讲解,希望对想了解大数据的人有所帮助。

【关键词】大数据 分析 应用

“大数据”是目前最流行的词汇,其实它就是一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。

大约从2009年开始,“大数据”才流行于互联网信息技术行业的。美国互联网数据中心指出,互联网上的数据每年将增长50%,每两年便将翻一番,而目前世界上90%以上的数据是最近几年才产生的。此外,数据又并非单纯指人们在互联网上发布的信息,全世界的工业设备、汽车、电表上有着无数的数码传感器,随时测量和传递着有关位置、运动、震动、温度、湿度乃至空气中化学物质的变化,也产生了海量的数据信息。

大数据就是互联网发展到现今阶段的一种表象或特征而已,没有必要神话它或对它保持敬畏之心,在以云计算为代表的技术创新大幕的衬托下,这些原本很难收集和使用的数据开始容易被利用起来了,通过各行各业的不断创新,大数据会逐步为人类创造更多的价值。

大数据时代的超大数据体量和占相当比例的半结构化和非结构化数据的存在,已经超越了传统数据库的管理能力,大数据技术将是IT领域新一代的技术与架构,它将帮助人们存储管理好大数据并从大体量、高复杂的数据中提取价值,相关的技术、产品将不断涌现,将有可能给IT行业开拓一个新的黄金时代。

大数据本质也是数据,其关键的技术依然逃不脱:大数据存储和管理;大数据检索使用(包括数据挖掘和智能分析)。围绕大数据,一批新兴的数据挖掘、数据存储、数据处理与分析技术将不断涌现,让我们处理海量数据更加容易、更加便宜和迅速,成为企业业务经营的好助手,甚至可以改变许多行业的经营方式。

大数据处理数据时代理念的三大转变:要全体不要抽样,要效率不要绝对精确,要相关不要因果。具体的大数据处理方法其实有很多,但是根据长时间的实践,笔者总结了一个基本的大数据处理流程,并且这个流程应该能够对大家理顺大数据的处理有所帮助。整个处理流程可以概括为四步,分别是采集、导入和预处理、统计和分析,以及挖掘。

大数据的采集是指利用多个数据库来接收发自客户端的数据,并且用户可以通过这些数据库来进行简单的查询和处理工作。比如,电商会使用传统的关系型数据库MySQL和Oracle等来存储每一笔事务数据,除此之外,Redis和MongoDB这样的NoSQL数据库也常用于数据的采集。

在大数据的采集过程中,其主要特点和挑战是并发数高,因为同时有可能会有成千上万的用户来进行访问和操作,比如火车票售票网站和淘宝,它们并发的访问量在峰值时达到上百万,所以需要在采集端部署大量数据库才能支撑。并且如何在这些数据库之间进行负载均衡和分片的确是需要深入的思考和设计。

不管是对数据分析专家还是普通用户,数据可视化是数据分析工具最基本的要求。可视化可以直观的展示数据,让数据自己说话,让观众听到结果。可视化是给人看的,数据挖掘就是给机器看的。集群、分割、孤立点分析还有其他的算法让我们深入数据内部,挖掘价值。这些算法不仅要处理大数据的量,也要处理大数据的速度。数据挖掘可以让分析员更好的理解数据,而预测性分析可以让分析员根据可视化分析和数据挖掘的结果做出一些预测性的判断。我们知道由于非结构化数据的多样性带来了数据分析的新的挑战,我们需要一系列的工具去解析,提取,分析数据。语义引擎需要被设计成能够从“文档”中智能提取信息。数据质量和数据管理是一些管理方面的最佳实践。通过标准化的流程和工具对数据进行处理可以保证一个预先定义好的高质量的分析结果。

真正的革命并不在于分析數据的机器,而在于数据本身和我们如何运用数据。一旦把统计学和现在大规模的数据融合在一起,将会颠覆很多我们原来的思维。所以现在能够变成数据的东西越来越多,计算和处理数据的能力越来越强,所以大家突然发现这个东西很有意思。所以,大数据能干啥?能干很多很有意思的事情。大数据的核心就是预测,大数据能够预测体现在很多方面。大数据不是要教机器像人一样思考,相反,它是把数学算法运用到海量的数据上来预测事情发生的可能性。正因为在大数据规律面前,每个人的行为都跟别人一样,没有本质变化,所以商家会比消费者更了消费者的行为。

在2008年次贷危机渡过之后,华尔街并未终止这次危机的风险根源——信贷业务。相反,各大银行将个人、组织储蓄、支付、信贷记录数据连通、分享并进行外包分析,利用数据类别的交叉关联建立风险模型,提前分析预测出不良信贷的可能性,从而避免金融信用产品的滥发,增强预监管。在我国,阿里、腾讯、京东等大型电商,均已引入了基于浏览与购买记录的消费倾向分析系统,对商家的推广策略、供应链管理等方面起到了重大促进作用。

美国有一家创新企业Decide.com,它可以帮助人们做购买决策,告诉消费者什么时候买什么产品,什么时候买最便宜,预测产品的价格趋势,这家公司背后的驱动力就是大数据。他们在全球各大网站上搜集数以十亿计的数据,然后帮助数以十万计的用户省钱,为他们的采购找到最好的时间,降低交易成本,为终端的消费者带去更多价值。

美国教育部门对大数据的运用主要是创造了“学习分析系统”——一个数据挖掘、模化和案例运用的联合框架。这些“学习分析系统”旨在向教育工作者提供了解学生到底是在“怎样”学习的更多、更好、更精确的信息。举例来说,一个学生成绩不好是由于他因为周围环境而分心了吗?期末考试不及格是否意味着该学生并没有完全掌握这一学期的学习内容,还是因为他请了很多病假的缘故?利用大数据的学习分析能够向教育工作者提供有用的信息,从而帮助其回答这些不太好回答的现实问题。

所有,我们应好好学习大数据、研究大数据、用好大数据。

参考文献:[1]伊恩·艾瑞斯,主编 大数据思维与决策 人民邮电出版社

[2]杨光霞,主编,SPSS数据统计与分析 清华大学出版社

猜你喜欢

大数据分析应用
分析:是谁要过节
回头潮
GM(1,1)白化微分优化方程预测模型建模过程应用分析
煤矿井下坑道钻机人机工程学应用分析
气体分离提纯应用变压吸附技术的分析
基于大数据背景下的智慧城市建设研究
会计与统计的比较研究
Units 13—14解题分析