大数据科学综述

2018-06-05周梅

科技创新导报 2017年36期

周梅

摘要：随着现代科学技术的发展，源源不断的数据开始出现，为了合理利用这些数据，大数据科学应用而生，并逐渐开始服务于一些产业。并且世界各国各公司也制定了相关的大数据发展战略。本文介绍了大数据分析常用的方法与应用，诸如统计分析、数据挖掘、数据可视化，也介绍了大数据处理中批量式处理数据系统、流式数据处理系统两种常用处理系统，并简单介绍了大数据处理流程，最终也总结了大数据发展过程中所面临的机遇与挑战。

关键词：大数据大数据分析方法大数据系统机遇与挑战

中图分类号：TP31 文献标识码：A 文章编号：1674-098X（2017）12（c）-0139-07

Abstract：Where there are developments of science and technology，there are waves of data made available. Utilize the data better， big data science arises which gradually severs some industries. And different companies and countries make different strategies to promote the progress of data science research. Our paper illustrate the fundamental methods for data analysis， such as statistics analysis， data mining、data visualization. And it also states the two different processing methods of batch processing and stream processing and four different processing systems of batch processing system， stream processing system， interactive data handing system and graph processing system and the basic processes in big data. Finally， opportunities and challenges are analyzed which may be faced in future.

Key Words： Big data； Data analysis methods； Data processing systems； Opportunities and challenges

1 大數据的介绍

现在社会处于高速发展时期，科学技术日益发达，人们之间的交流日益密切，而这一系列过程往往包含着海量数据的产生，并伴随着如下特征[1-3]：（1）数据量大，大数据单位至少是P；（2）类型繁多，包括各种类型数据；（3）价值密度低，因此需要深入研究大数据，从中提取有用信息；（4）速度快，时效高。并且大数据中也隐藏着巨大的价值，诸如XO Communications通过使用IBM SPSS预测分析软件，减少了将近一半的客户流失率。XO现在可以预测客户的行为，发现行为趋势，并找出存在缺陷的环节，从而帮助公司及时采取措施，保留客户。此外，IBM新的Netezza网络分析加速器，将通过提供单个端到端网络、服务、客户分析视图的可扩展平台，帮助通信企业制定更科学、合理决策；2013年，英国华威商学院和美国波士顿大学物理系的研究发现，用户通过谷歌搜索的金融关键词或许可以把脉金融市场的走向，相应的投资战略收益高达326%。而此前，也有专家尝试通过Twitter博文情绪来预测股市波动。从预测的原理上来看，稳定发展的美国股市是比较适合大数据预测发挥其作用的。对国内而言，百度推出的中小企业景气指数预测，应用百度海量的搜索数据来刻画我国中小企业运行发展的景气状态，以期能够及时、有效地反映中小企业运行状况，提高经济监测的全面性和及时性；以及专业篮球队会通过搜集大量数据分析赛事情况，然后在其基础上分析赛事情况，找到两三个制胜法宝等。正如麦肯锡称：“数据，已经渗透到当今每一个行业和业务职能领域，成为重要的生产因素，人民对于海量数据的挖掘和运用，预示着新一波生产率增长和消费者盈余浪潮的到来。”大数据已经成为新世纪的石油。而世界各个国家、公司也频繁开启了大数据战略。

2 大数据的分析方法

对于网络中的大数据应用，一个重要问题是如何用统一的数学模型表示数据从而进一步挖掘和分析任务，不同的表示形式可以纠缠和隐藏或多或少地使变化数据背后的解释性因素不同。因此，有必要对大数据的可行性和实用性进行检查。

2.1 统计分析

在大数据时代，随着计算方法的进步和数据仓库的出现，应该对数据进行挖掘处理，这样会使分析结果比抽样统计更加可靠。统计学领域也应更新传统观念，学习新生事物，适应大数据环境，扩展统计学的应用领域，创造出适合大数据的新的统计方法。大数据时代的统计特点对传统的抽样分析提出挑战，对抽样分析结果的代表性及可靠性提出质疑。

大数据时代统计分析应转变思路，统计方法应与时俱进。在计算机技术飞速发展的今天，我们如何使用已经储备的大量资料进行全样本分析，应该是大数据时代统计分析的新特征。

大数据分析的经济价值，已经开始撼动社会的方方面面。同时，大数据时代也向包括统计在内的传统领域提出了挑战，医院管理者、临床专家需要做好充足的准备，以迎接大数据时代所带来的变化与挑战。

2.2 数据挖掘

随着信息网络的普及和移动互联网的广泛应用，全世界联网设备呈爆发式增长，根据赛门铁克公司的调研报告，全球企业数据存储总量已达到2.2ZB（1ZB等于10ZB），并且以每年近70%速率增长。如何有效地挖掘“大数据”的潜在价值，是人类目前面临的重大问题。

2.2.1 数据挖掘的定义

从技术的角度对数据挖掘（Data mining）定义：是指从大量、不完全、有噪声、模糊、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。从商业的角度定义数据挖掘：数据挖掘是一种新的商业信息处理技术，其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理，从中提取辅助商业决策的关键性数据的过程。不管是技术角度还是商业角度，数据挖掘的实质是从海量数据中提取出对人类有价值的或有潜在价值的最终被人类利用而产生生产力的信息。

2.2.2 大数据存储技术

随着联网设备呈指数方式增长，导致数据量激增，这种趋势改变了长期以来以“计算”为中心的模式，进而颠覆性改变到以“数据存储”为中心的模式。大数据挖掘必须首先解决大数据的存储问题。将现有的存储技术RAID并行存储、NAS附网存储、SAN存储区域网等网络存储体系进行有机融合，采取集群网络模式将成千上万的商业网络存储系统连接起来，并应用到大数据存储中，这是解决大数据存储的关键问题。同时在这种集群化的网络存储系统中采取创新性的数据存储机制完成存储操作和创新性的查询机制完成查询操作。由于采用集群联网的方式将世界各地的商业化网络存储系统连接起来，就形成了多层次、多维度数据存储体系，对大数据的存储机制，很多文献都给出了解决方案，如基于GHT的传感器网络数据中心存储机制就是一种有成效的大数据存储机制。各存储系统如何协同工作、大数据存储位置表示等诸多方面还需要继续研究。

2.2.3 大数据挖掘技术

大数据里隐藏着无穷的价值，但从里面挖掘有用的信息，却是不容易的。主要是因为数据太大，难以消化；信息种类繁多，难以识别；信息表示不统一，难以处理等。因此，人类拥有海量数据，但却觉得知识缺乏。数据挖掘技术经历了多个阶段，也产生了很多数据挖掘算法。关联规则挖掘已经成为数据挖掘领域里举足轻重的研究，关联规则挖掘算法可以从大数据存储系统中挖掘出隐藏的关联规则。遗传算法（GA）是数据挖掘算法中最常用的算法，是通過模拟自然进化全局搜索大数据的算法。采用GA算法，对存储体系中的大数据进行搜索，对随机产生的规则进行进化处理，直到大数据存储系统中的隐含规则被挖掘出来，从而发现隐含在数据中的规则。在主流数据挖掘技术的基础上，基于遗传算法的关联规则自动挖掘算法也被设计出来，促进了数据挖掘技术的发展。

2.3 数据可视化

传统的科学可视化技术已成功应用于各学科领域，但如果将其直接应用于大数据，将面临实用性和有效性问题，这说明需要对科学可视化技术重新审视与深入研究。

2.3.1 分布式并行可视化算法

可扩展性是构造分布式并行算法的一项重要指标。传统的科学可视化算法应用在小规模的计算机集群中，最多可以包括几百个计算节点，而实际应用是要在数千甚至上万个计算节点上运行。随着数据规模的逐渐增大，算法的效率逐渐成为数据分析流程的瓶颈，设计新的分布并行可视化算法已经成为一个研究热点。

2.3.2 信息可视化

信息可视化是跨学科领域的大规模非数值型信息资源的视觉展现，能够帮助人们理解和分析数据。信息可视化中的交互方法能够实现用户与数据的快速交互，更好地验证假设和发现内在联系。信息可视化技术提供了理解高维度、多层次、时空、动态、关系等复杂数据的手段，与科学可视化相比，信息可视化更侧重于抽象数据集，如对非结构化文本或者高维空间中不具有固有的二维或三维几何结构的点的视觉展现。信息可视化适用于大规模非数字型信息资源的可视化表达。

2.3.3 可视化分析算法

大数据的可视化算法不仅要考虑数据规模，而且要考虑视觉感知的高效算法。需要引入创新的视觉表现方法和用户交互手段。更重要的是用户的偏好必须与自动学习算法有机结合起来，这样可视化的输出具有高度适应性。可视化算法应拥有巨大的控制参数搜索空间，减少数据分析与探索的成本及降低难度，可以组织数据并且减少搜索空间。

3 大数据处理方式

大数据科学中需要寻找特定数据处理方式对数据进行分析，进而提高处理效率、处理精度。其中常用的处理方式包括批量式处理、流式处理、交互式处理。

3.1 批量式处理方式

批量处理方式主要是针对体量巨大、精确度高且价值密度较低数据的处理方式。这种方式适用于先存储后分析，对实时性要求不高，但数据需要很高准确性和全面性的场景。MapReduce是批处理方式中非常重要的模型之一。其核心思想为，首先将海量数据分为若干数据块，然后将这些数据块进行并行处理并以分布方式得到中间结果，最后将各中间结果合并得到最终结果。然而这种批处理方式往往比较耗时，且不提供用户与系统的交互手段，所以这种处理方式无法与预期或与以往结果相吻合时，比较难以修正。因此，批处理方式多用于相对比较成熟的领域。

目前，批量处理方式主要应用于互联网、公共服务等领域。在互联网领域中，批处理方式的典型应用包括：（1）社交网络：Facebook等社交软件通过用户浏览的文档、图片、视频等信息，利用批处理方式分析后得到用户间的隐含关系，并推荐朋友或相关主题，提升用户体验。（2）电子商务：电商平台可以根据用户购买商品的记录，浏览商品页面的次数及停留时间，利用批处理方式准确定位用户所需产品，从而提高销量。在公共服务领域中，批处理方式的典型应用包括：（1）医疗卫生：通过对患者既往病史及生活方式信息进行批量处理，对病人的病情进行分析，并提供相应的治疗措施，节约了患者的就医时间。（2）能源方面：通过对区域内用户的地理位置、历史信息，及个人的能源使用情况等信息进行批处理，优化电力、水利等部门的能源分配方案，既能提升服务质量，也能节约资源。随着人们对数据中蕴含价值的提升，大数据批处理会有更多应用的领域。

一个GFS集群由一个主服务器和多个块服务器构成，可以由多个客户端访问，如图1所示，每一个块服务器都是典型的Linux机器，运行用户级服务器进程。

Map Reduce是一种采用全局最优化方法来解决大规模群组中的海量数据处理问题的分布式编程模型。该模型首先使用Bloom filter来减少返回null的查询的数量；其次使用本地内存来缓存从存储系统返回的记录，使用的LRU（Least Recently Used）缓存方式能够良好地近似出词频，从而增加缓存效率；继Bigtable之后使用了开源系统建模的分布式存储系统HBase，降低了通信成本。Map Reduce的三层结构如图2所示。

3.2 流式处理方式

针对批处理性能的问题，科学家们又提出了实时数据处理，实时数据处理可以分为流式处理方式和交互式处理方式两种。

流式数据是一个无穷的数据序列，每个数据没有固定的格式，但往往包含有序的标签（如时间）。流式数据一般情况下是被按序处理，然而数据的到达时间不可预知，这将会导致数据的逻辑顺序与物理顺序不一致，并且数据的流速会产生较大的波动，因此系统需要有很强的异构数据处理能力，并且还需要很好的可伸缩性，以应对复杂且不稳定的数据流。并且由于流式数据是活动的，这与批处理方式（先存储后查询）的方式不同，需要系统能保留数据的活动性。流式处理针对这种特性，需要提供相应的能实时返回当前结果的查询接口。

目前，流式数据处理主要应用于数据采集和金融方面。在数据采集方面，通过主动的数据采集实时数据，即时进行分析，挖掘其中的价值。通过传感器，采集日志中的海量信息，实时分析并提供动态显示，可以用于环境监测、灾害预警等场景中。在金融方面，对银行日常运营中的短时效性的数据进行流式处理，发现其内在的特征与规律，可以帮助银行更有效地进行实时决策。如股票期货市场，批处理方式不能针对当前情况及时响应，就需要流式处理方式的帮助。总之，流式处理主要针对的是来源复杂、结构不固定、物理顺序不一，且价值密度低的数据。而相应的处理工具则要求具有高性能、实时、可扩展等特性。

Storm高速事件处理系统由Twitter支持并开发，雅虎、Spotify还有The Weather Channel等也在使用该系统，其特点是允许增量计算（见图3）。

Spark Streaming特点是能够进行图形操作、机器学习以及访问SQL。同时Apache Spark的Stack可将library与数据流（Spark SQL，Mllib，GraphX等）相结合，并提供一体化编程模型（见图4）。

Samza系统是将存储与处理在同一机器上进行，能够在不额外载入内存情况下保持高效处理，适于处理大量状态的情况（见图5）。

3.3 交互式处理方式

交互式处理是一种灵活、直观、便于控制的大数据处理方式。对于操作人员的请求，数据以对话方式输入，系统通过提供相应的数据或提示信息，引导操作人员进行下一步操作，直至得到最终结果。交互式数据处理方式的结果可以立刻被使用，同时系统中的数据文件也可以被及时修改，这些特性保证了输入信息可以被及时处理。

交互式数据处理在许多领域已经有了广泛的应用，其中最典型的两个应用场景是信息处理领域和互联网领域。在信息处理领域中，传统的交互式处理主要以关系型数据管理系统为主，面向联机事务管理和联机分析处理。联机事务处理多用于政府、医疗及对操作顺序有严格要求的工业控制领域。联机分析处理则广泛应用于数据分析、商业智能等领域。目前，以Hive、Pig等为代表的分布式数据仓库已经能支持上千台服务器的规模。在互联网领域中，随着互联网技术的发展，用户与平台和其他用户之间的交互更加复杂且频繁，而搜索引擎、微博及诸如百度知道的在线问答平台等网络平台则利用复杂的交互式处理满足了用户的需求。目前，各大平台主要使用NoSQL类型的数据库来进行交互式数据处理。如HBase的多为有续表的列式存储、MongoDB的JSON格式的数据嵌套存储等。

4 大数据处理基本流程

4.1 数据采集

大数据指的是其规模、其涌现速度和其处理难点超出目前常规技术能管理、处理和分析的数据（见图6）。

于是就有了如何认识数据的问题。倘若人类仅仅获取数据，停留在这个层面，意义还是有限。只有对用户有用的数据（称为信息），用户才会感兴趣。但信息还是低级层面，用户更感兴趣的是知识。换句话说，我们要讨论如何从数据到信息到知识再到智慧这四个层次的演变：即借助于传感器或软件采集和处理到信号，从而形成数据，经处理后变成信息，再通过挖掘形成知识，最终上升到智慧层次（见图6）。对人类来说最关心的是金字塔顶上的东西，只有处理到最上層（智慧）才是大家最感兴趣的东西。换言之，人们不只想知道感知到的是什么数据，还想知道这些数据代表什么，更想知道面对这些数据我们应该采取的应对策略是什么。要做到这一点，就需要很好的工具。这就涉及到大数据分析问题。

大数据分析学，笼统地讲就是大数据分析技术。那么，大数据分析技术具体是指什么？迄今为止，还没有权威人士给出明确的答案。但目前人们认识到有两大问题是重点：一个就是文本的分析学，第二个就是机器学习。

4.2 数据分析与挖掘

就大数据的处理平台来说，大数据系统需要非常大的数据处理、传输和存储能力，目前云计算平台是最符合要求的计算基础设施。云平台实现了计算资源和物理资源的虚拟化，通过资源池对处理能力进行快速动态分配和调用，具有一定的可伸缩性，能够最大限度地利用已有计算能力，降低运行成本，节省用户开支。数据分析方法通常如下所示。

（1）关联分析与FP.growth算法关联分析是挖掘数据库中两个或多个变量之间存在的关系，该问题由Agrawal等于1993年首先提出。经典的关联算法为Apriori算法，该算法需要对频繁项集进行迭代生成和扫描。针对Apriori算法的固有缺陷，有学者提出了不产生候选挖掘频繁项集的方法：FP-growth算法。通过建立FP—tree，该算法解决了Apriori算法中的长频繁项搜索子项数量巨大的问题。实验表明，FP—growth对不同长度的规则都有很好的适应性，同时在效率上较之Apriori算法有巨大的提高。FP—growth的并行化，主要研究基于Map/Re—duce的FP—growth算法。理论上，通过对FP—Tree不断的递归挖掘就可以得到所有的完备频繁模式（Frequent Patterns）。但是在目前海量数据的现状下。FP—Tree已经大到无法驻留在计算机的内存中，因此并行化是必然的选择。

（2）分布式聚類算法为了发现设备故障和状态异常，可以对状态数据进行聚类，将正常状态和故障状态区分出来。通过聚类，可以将数据划分为不同的簇，其簇问差异较大，而簇内差异较小。聚类以样本间的相似度为基础，可以通过不同的距离计算方式达到不同的分类效果，如曼哈顿距离、欧氏距离、汉明距离或夹角余弦等。在能源互联网中数据采集量巨大，聚类需要分布式运行，整个聚类任务被当作一个Hadoop任务来并行运行，通过将分布式计算与迭代计算相结合，大大减少了计算时间。

5 大数据面临的挑战

麦肯锡全球研究所给出的定义是：一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合；具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。例如，一个公民的心率和阵列望远镜一天将产生巨大的原始数据。海量的数据规模中很多数据是我们不感兴趣的。在大数据处理中面临的挑战是如何不丢弃有用信息的情况下定义有效的滤波器。我们需要研究的是科学数据简化，能够智能地处理这些原始数据。当人类消费信息时，很容易受到许多异质性的影响。事实上，自然语言的细微差别和丰富性可以提供宝贵的深度。然而，机器分析算法期望均匀的数据，并且不能理解细微差别。因此，数据必须作为数据分析（或之前）的第一步仔细构建。

在大数据的应用中，数据的隐私是一个巨大的问题。管理隐私实际上既是技术性的又是社会学问题，必须从两个角度共同解决，实现大数据的承诺。例如，考虑从基于位置的服务收集的数据，这些新架构需要用户与服务提供商分享的位，导致明显的隐私问题。隐藏用户身份而不隐藏其的位置将无法正确解决这些隐私问题。攻击者基于位置的服务器可以从其位置信息中查出查询源的身份。在大数据时代，数据采集和访问肯定会通过网络进行，这可能更容易受到攻击。我们可以通过当前相关的研究课题来想象可能的攻击。

另一个非常重要的方面是重新考虑大数据用例中信息共享的安全性。今天许多在线服务要求我们分享私人信息。不仅在计算方面，而且在网络的角度来看，隐私成为开发大数据的关键。数据社区在十多年前就实现了隐私保护数据发布（PPDP）的隐私问题，其次是隐私知识学习的新研究课题。此外，世界领先研究人员最近的调查报告指出，大数据的出现是机器学习技术发展的动力引擎，同时机器学习在大数据时代的隐私方面也构成了关键威胁。

参考文献

[1] Alexandros Labrinidis，H.V.Jagadish.Challenges and opportunities with big data[J].Proceedings of the VLDB Endowment，2012，5（12）：2032-2033.

[2] Keim DA.Information Visualization and Visual Data Mining[J].IEEE Transactions on Visualization and Computer Graphics，2002，8（1）：1-8.

[3] PC Wang，HW shen，CR Johnson，et al.The top 10 challenges in extreme-scale visual analytics[J].IEEE Computer Graphics and Applications，2012，32（4）：63-67.

[4] Chaomei Chen.An Information-Theoretic View of Visual Analytics[J].Computer Graphics，2008，28（1）：18.

[5] Zhicheng Liu，Nancy Nersessian，John Stasko.Distributed Cognition as a Theoretical Framework for Information Visualization[J]. IEEE Transactions on Visualization and Computer Graphics，2008，14（6）：1173-1180.

[6] Cui Weiwei，Liu Shixia，Tan Li，et al.Textflow： Towards better understanding of evolving topics in text[J].IEEE Transactions on Visualization and Computer Graphics，2011，17（12）：2412-2421.

[7] Herman Ivan，Melancon Guy，Marshall M.Scott.Graph visualization and navigation in information visualization：asurvey[J].IEEE Transactions on Visualization and Computer Graphics，2002，6（1）：24-43.

[8] Gou Liang，Zhang Xiaolong，Lu ke.Treenetviz： Revealing patterns of networks over tree structures[J].IEEE Transactions on Visualization and Computer Graphics，2011，17（12）：2449-2458.

[9] Cui Weiwei，Zhou Hong，Qu Huamin，et al.Geometry-based edge clustering for graph visualization[J].IEEE Transactions on Visualization and Computer Graphics，2008，14（6）：1277.

[10]David Selassie，Brandon Heller，Jeffrey Heer.Divided Edge Bundling for Directional Network Data[J].IEEE Transactions on Visualization and Computer Graphics，2011，17（2）：2354-2363.

[11]Ozan Ersoy，Christophe Hurter，Fernando Paulovich，et al.Skeleton-Based Edge Bundling for Graph Visualization[J].IEEE Transactions on Visualization and Computer Graphics，2011，17（12）：2364-2373.

[12]王祖超，袁曉如.轨迹数据可视分析研究[J].计算机辅助设计与图形学学报，2015（1）：9-25.

[13]陈谊，刘莹，田帅，等.食品安全大数据可视分析方法研究[J].计算机辅助设计与图形学学报，2017（1）：8-16.

[14]陈良臣.大数据可视分析的若干关键技术研究[J].数字技术与应用，2015（11）：98.

[15] 佚名.《空间可视分析方法和应用》出版[J].测绘通报，2008（2）：10.

[16]邓超，宋金伟，孙瑞志，等.基于热力图的卷烟市场数据可视分析系统[J].烟草科技，2016（12）：91-97.

[17]姜晓睿，田亚，蒋莉，等.城市道路交通数据可视分析综述[J].中国图象图形学报，2015（4）：454-467.

[18]沈汉威，张小龙，陈为，等.可视化及可视分析专题前言[J].软件学报，2016（5）：1059-1060.

[19]聂俊岚，陈欢欢，郭栋梁，等.多维数字战场态势可视分析研究[J].小型微型计算机系统，2014（3）：626-629.

[20]梁荣华.“大数据可视分析”专栏序[J].中国图象图形学报，2015（4）：453.

[21]杜一，任磊.DaisyVA：支持信息多面体可视分析的智能交互式可视化平台[J].计算机辅助设计与图形学学报， 2013（8）：1177-1182.

[22]戴国忠，陈为，洪文学，等.信息可视化和可视分析：挑战与机遇——北戴河信息可视化战略研讨会总结报告[J].中国科学：信息科学，2013（1）：178-184.

[23]Paek T，Dumais S，Logan R.WaveLens：A new view onto internet search results[A].Proc.of the CHI[C].2004：727-734.