APP下载

浅析大数据挖掘中抽样估计法的应用

2019-10-21刘逸萱

现代信息科技 2019年21期

摘  要:信息技术的发展使我们进入了大数据时代,海量、异构的大数据挖掘给我们提出了新的挑战。但是,发展大数据并不应该以“更大、更多、更快”为终极目标,而应该走成本合理、惠及大众、公正法治的发展道路。也就是说我们不应完全否认抽样估计的作用,相反的,树立传统的抽样理念并合理应用抽样技术才是大数据挖掘的精髓。

关键词:大数据挖掘;抽样数据;抽样估计

中图分类号:TP311.13       文献标识码:A 文章编号:2096-4706(2019)21-0076-03

Abstract:The development of information technology has brought us into the era of big data. Massive and heterogeneous data mining has brought us new challenges. However,the ultimate goal of big data development should not be “bigger,more and faster”,but should take the development path of reasonable cost,benefit the public and just rule of law. That is to say,we should not totally deny the role of sampling estimation. On the contrary,the essence of big data mining is to establish the traditional sampling concept and apply sampling technology reasonably.

Keywords:big data mining;sampling data;sampling estimation

0  引  言

朋友圈知道,你今天心情怎样;支付宝知道,你买了什么东西,花了多少钱,近期准备买什么;知乎、今日头条知道,你喜欢浏览哪些帖子和新闻;优酷和爱奇艺知道,你喜欢看什么视频;饿了么知道,你喜欢什么菜系和口味;等等。

與以往相比,人们的生活已发生了根本性的变革,这就是大数据时代,不同领域的大数据已对全球范围生产、流通、分配、消费等诸多领域都产生了重要的影响。随着手机APP、各种传感器和安全监视器等基于互联网的硬件和软件的不断普及,来自不同领域、不同过程的数据不断产生,除了数据之外,更多的还包含了文字、图像、音频等类型数据。

1  何为大数据挖掘

1.1  大数据

大数据又称海量数据,是指以不同形式存在于数据库、网络等媒介上的丰富且巨大的数据。其基本特征包括以下几个方面。

(1)Volume:体量巨大,可以是TB级别,甚至可以是PB级别、EB级别。随着数据存储能力的提升,人们衡量数据规模的尺度也在不断的增加。

(2)Variety:数据类型繁多,结构化数据之外,还包含了更多的非结构化数据和半结构化数据。如网络日志、视频、图片、地理位置信息等。大数据建模时,数据类型的多样化也成为建模和分析的难题,如模型需考虑到增加维度,同时兼顾变量间的复杂关系等。

(3)Value:价值密度低,也称为数据的“稀疏性”。即虽然数据的规模远远大于传统的统计数据,但其所蕴含的有效信息却相对稀少。

(4)Velocity:处理速度快,时效性要求更高。

1.2  数据挖掘

数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中的信息的过程。它主要利用抽样估计和假设检验思想,以及人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论。除此之外,目前数据挖掘也受到如信息论、混沌论、算法学、信号处理、数据可视化和信息检索,甚至包括哲学等思想的影响。

1.3  大数据挖掘

大数据挖掘可看作数据挖掘发展到一定阶段的产物,是大数据时代最重要的数据挖掘领域。传统数据挖掘在挖掘过程、算法等方面差异不大;而对于大数据挖掘,则由于大数据在广度和量度上的特殊性,因此在挖掘过程中会有许多不同。

未来大数据发展趋势将更加开放、包容。通过对大数据的扩展和再利用,开拓新领域、确立新决策,从而挖掘出隐藏在“冰山”之下的数据价值。

2  大数据挖掘与抽样技术的关系

2.1  大数据与抽样数据的区别

抽样技术是统计学的一个分支学科,是研究抽样方法及总体参数估计方法的一门技术。一般可以分为概率抽样与非概率抽样两类。

大数据与抽样数据在理论上有着重要区别,主要表现为以下五点。

(1)后者以同质性为基础,即依赖于样本数据与总体数据在特征上的相似性;而前者以异质性为基础,即大样本数据内差异性大。

(2)后者运行模式是以人力为主,即依赖于数据分析专家的经验和智慧;前者运行模式是以机器为主,即主要依赖于硬件和软件的处理能力。

(3)后者主要用于对单维、非场景化静态数据进行描述;前者主要用于对多维甚至巨维非结构化数据进行分析预测。

(4)后者多通过建立因果关系模型进行分析,前者多通过建立相关关系模型进行预测。

(5)后者的重心和难点是如何获取代表性高的样本数据,以对总体数据进行推断;前者是如何选择和处理有用的数据,以对全体数据进行非预测或者模糊预测分析。

总之,大数据与抽样数据之间主要的区别在于大数据的数据结构、存储分析过程、预测方式都更加复杂。

2.2  大数据挖掘需要抽样技术

受舍恩伯格等“样本=总体”观点的影响,不少人认为有了大数据就不需要抽样估计了;认为“有了大数据,抽样就会消失”。还有很多人认为大数据分析不必追求精確性,而只要能在大数据中发现大致规律就可以了。

毋庸置疑,上述结论是错误的。只要人类的认知水平无法企及自然界的事物总量,抽样估计就不会过时。

之所以这样说不仅因为数据挖掘的流程步骤安排很多时候需要用到抽样技术;而且抽样技术也可以提高大数据挖掘的效率。可以这样说,虽然抽样不能确定有用的信息在哪里,但是可以作为快速找到有用特征的工具,在对数据总体做参数估计和统计推断的过程中,为了节约计算成本,尽可能减少样本的数据量,且同时得到一个良好的响应曲面来描述复杂的大数据结构。

例如,传统的聚合查询采用精确查询的方法,对所有数据都进行聚合操作。这首先需要遍历所有的数据,之后再用所有数据的和除以数据个数得到精确的平均值结果。而大数据环境下的聚合查询也可以使用抽样技术进行近似查询,以更快速地获得可靠的查询结果。这是因为,只要满足应用可靠性要求,在实际应用中是可以容忍一定程度的误差的。因此在实际操作中,可以使用数据抽样的方法在聚合查询之前得到数据总体的子集。之后在样本代表性能够保证的情况下,在该子集上求得的平均值也可以代表样本总体的平均值,从而大幅提升聚合查询的效率。

此外,大数据挖掘需要抽样技术还包括以下几方面的原因。

(1)现代信息技术还不能做到全覆盖。在实际中,总有一部分人或物游离在大数据之外,因此所谓的全数据是有条件的,是在一定范围内的。如基于技术和隐私原因,依然有很多数据目前还不可能来自大数据,仍然需要通过抽样等方式去获取、去推断。

(2)在大数据处理技术中引入抽样技术能有效地处理特殊问题。如产品检验中,有时会遇到破坏性的实验,针对这类问题,既经济又有效的方法是采用抽样的方法。

总之,抽样估计或大数据在本质上都是数据处理的方法,二者并不矛盾。我们都知道抽样估计所得的结论并不影响对总体参数推断的准确性。越是规模大的数据越是需要抽样。适当和合理的抽样可以帮助我们把控数据处理的平衡点。大数据挖掘虽然其核心思想是全数据,而不是以抽样作为主体思想,但是如何减少所消耗的资源正成为目前大数据挖掘领域的瓶颈问题。针对这些问题,抽样是最常用的数据约简方法和理念,引入抽样技术对大数据进行分析,能有效地减少数据规模,降低计算时间和复杂度。

世界和万物的变化是一座“自动生长”的数据金矿,最终我们没有必要将整个数据集都放到数据挖掘计划中。我们要做的是快速选择最需要的数据,应用大数据平台确保数据的正确性,同时删掉不需要的数据。当技术上能够收集总体数据时,我们的确不需要抽样。但是,只要数据的增加超出一定边界,我们就需要更多验证数据的正确性,这时,我们就可重拾抽样估计方法,以合理把控数据的量。

3  关于大数据挖掘中抽样技术应用的注意点

大数据挖掘的难点在于数据类型的多样性,即对于非结构化数据,采集的数据往往质量不高。因此,盲目追求数据规模大效果未必好。而多个来源的小数据(通常是为了一个明确的目标而进行收集、过滤、分析和整理的,其数据结构一般都是统一的,基本来自同一学科或者领域,数据种类单一,并采取一种有序排列的结构化方式。)的融合则可能挖掘出单一来源的大数据所得不到的大价值。合理应用抽样方法与技术,提高数据质量,主要有以下几点。

(1)大数据采集也会有统计误差。有些观点认为:大数据不需要分析因果、不需要采样、不需要精确数据,这种观点不应绝对化。在当前数据搜集和存储技术不断发展、数据量激增的背景下,抽样估计法可以在略微降低数据准确性的情况下快速、经济地得到统计结果。

(2)在一些特定领域的数据分析中,使用抽样技术估计进行分析是实际上可行的唯一选择。例如在产品测试中,对于破坏性实验,也只有采用数据抽样的方法,在产品子集上进行分析。

(3)要考虑如何保证样本的代表性。常见的数据抽样技术包括简单随机抽样、系统抽样、整群抽样、分层抽样等,不同的抽样方法各有优缺点和适用领域,因此在数据准备阶段探索数据的工作很重要,之后就可以根据所要解决的具体问题来进行抽样设计了。

4  结  论

综上所述,大数据挖掘并非完全否认抽样方法的作用;相反的,合理应用抽样方法可以使大数据挖掘更具效率。因此,作为数据分析工作者树立抽样的理念,学习抽样的技术都是十分必要的。

参考文献:

[1] 李金昌.关于统计数据的几点认识 [J].统计研究,2017,34(11):3-14.

[2] 周英,卓金武,卞月青.大数据挖掘系统方法与实例分析 [M].北京:机械工业出版社2016.

[3] 高扬.数据科学家养成手册 [M].北京:电子工业出版社,2017.

[4] 欧阳秋梅,吴超.从大数据和小数据中挖掘安全规律的方法比较 [J].中国安全科学学报,2016,26(7):1-6.

[5] 李毅,米子川.大数据挖掘的均匀抽样设计及数值分析 [J].统计与信息论坛,2015,30(4):3-6.

[6] 城市数据团.数据不说谎:大数据之下的世界 [M].北京:清华大学出版社,2017.

[7] 黎敏讷.分布式数据分层抽样技术及其在目标检测领域的应用研究 [D].长沙:国防科学技术大学,2017.

作者简介:刘逸萱(1981-),女,汉族,内蒙古呼和浩特人,就职于电子商务学院,讲师,硕士,研究方向:应用统计。