大数据下的统计思维变化

2020-10-21丁洁

科学导报·学术 2020年33期

丁洁

互联网科技的发展使得数据量的急剧增加，在数据科技的大力发展下，人们所能储存、处理的数据已经达到前所未有有的量级，并且以超过摩尔定律的速度迅猛增加。数据的作用也在人们的生产生活中产生极大的影响，改变了生产生活的方式，成为了一种新的生产资料，根据马克思主义哲学的时代观，我们可以知道一个新的时代——大数据时代正冲着我们呼啸而来，它正在悄悄地改变着人们的行为与思维。

一、大数据的概念

与传统意义上的数据相比，大数据的“大”与“数据”都有了新的含义，绝不仅仅是体量的问题，更重要的是数据的内涵问题。大数据不是基于人工设计、借助传统方法而获得的有限、固定、不连续、不可扩充的结构型数据，而是基于现代信息技本与工具可以自动记录、储存和连续扩充的、大大超出传统统计记录与储存能力的一切类型的数据。通俗地说，大数据就是一切可记录信号的集合。

如果说，传统统计研究的数据是有意收集的结构化的样本数据，那么现在我们面对的数据则是一切可以记录和存储、源源不断扩充、超大容量的各种类型的数据。样本数据是按照特定研究目的、依据抽样方案获得的格式化的数据，不仅数据量有限，而且如果过程偏离方案，数据就不能满足要求。基干样本数据所进行的分析，其空间十分有限——通常无法满足多层次、多角度的需要，若遇到抽样方案事先未曾考虑到的问题，数据的不可扩充性缺点就暴露无疑。而大数据是一切可以通过现代信息技术记录和量化的数据，不仅所蕴含的信息量巨大，而且不受各种框框的限制——任何种类的数据都来者不拒、也无法抵拒。不难发现，大数据相比于样本数据的最大优点是，具有巨大的数据选择空间，可以进行多维、多角度的数据分析。

二、统计思维的变化

统计学是关于数据的科学，即研究如何收集、整理和分析数据的科学。数据是依据，是根本，是一个分析结果的灵魂，是统计方法生命力的根源所在，大数据时代的统计首先要适应两个重大的思维转变。

（一）认识数据的思维要变化。

首先，从来源上看，传统的数据收集因为具有很强的针对性，因此数据的提供者大多是确定的，身份特征是可识别的，有的还可以进行事后核对。但大数据通常来源于物联网，不是为了特定的数据收集目的而产生，而是人们一切可记录的信号凸然，并且身份识别十分困难。从某种意义上讲，大数据来源的微观基础是很难追溯的。

其次，从类型上看，传统数据基本上是结构型数据，即定量数据加上少量专门设计的定性数据，格式化、有标准，可以用常规的统计指标或统计图表加以表现。但大数据很多的是非结构型数据、半结构型数据或异构数据，包括了一切可记录、可存储的信号，多样化、无标准、难以用传统的统计指标或统计图表加以表现。同时，不同的网络信息系统有不同的数据识别方式，相互之间也没用统一的数据分类标准。再者，现在有的数据库是非关系型的数据库，不需要预先设定记录结构即可自动包容大量各种各样的数据。

（二）收集数据的思维要变化。

由于大数据来源与种类的多样性，以及数据增加的快速性，我们在享受数据的丰富性的同时也不得不面临这样一些困境;这样一来，电子存储能力能否跟得上数据增加的速度就成为首要的问题。如果让数据库自动更新就有可能失去一些宝贵的数据信息，而到了一定级别以后扩充存储容量或对数据进行拷贝，其代价是十分巨大的，因此我们了得了对数据进行分类、筛选，有针对地删除那些垃圾数据、不重要或次重要的数据。

并不是任何数据都可以从现成的大数据中获得，这里存在一个针对性、安全性和成本比较问题。因此，我们既要继续采用传统的方式方法去收集特定需要的数据，又要善于利用现代网络信息技术和各种数据源去收集一切相关的数据，并善于从大数据中进行再过滤、再选择。

三、应对大数据的措施

（一）需要改变总体、个体乃至样本的定义方式。

传统的统计分析，是先有总体，再有数据，即必须先确定总体范围和个体单位，再收集个体数据，分析总体。但对大数据来说，情况完全不同了，是先有数据，再有总体。从某种意义上说，大数据的产生系统多数是非总体式的，即无事先定义的目标总体，只有与各个时点相对应的事后总体，原因就在于个体是不确定的，是变化着的，是无法事先编制名录库的，这与传统的总体与个体有很大的不同。

（二）需要改变对不确定性的认识。

众所周知，统计学是为了认识和研究事物的不确定性而产生的，因为无论是自然现象还是社会经济现象，都时时处处充满着因个体的差异性而引起的不确定性，因为在大多数情况下我们缺乏足够的信息或缺乏足够的知识去利用有效信息，而人们总是期望通过量化事物的不确定性去发现规律、揭示真相，认识不确定性背后的必然性。要研究不确定性就需要收集数据，在只能进行抽样观测的情况下，这种不确定性就表现为如何获得样本、如何推断总体和如何构建模型等方面。

（三）需要建立新的数据梳理与分类方法。

大数据的多样性与混杂性，以及先有数据、后有总体的特点，原有的数据梳理与分类方法将受到诸多的限制。传统的数据梳理与分类是按照预先设定的方案进行的，标志与指标的关系、分类标识与分组规则等都是结构化的，既是对有针对性地收集的数据的加工，也是统计分析的组成部分。但对于大数据，由于新的网络语言、新的信息内容、新的数据表现形式下断出现，使得会产生哪些种类的信息、有哪些可以利用的分类標识、不同标识之间是什么关系、类与类之间的识别度有多大、信息与个体之间的对应关系如何等，都无发事先加以严格设定或控制，住往需要事后进行补充或完善。

（四）需要统计技术与云计算技术融合。

尽管用于收集和分析数据的统计技术已相对成熟、自成体系，但其所能处理的数据量是有限的，面对不可同日而语的大数据、特别是其中大量的非结构化数据恐怕是难以胜任的。首失遇到的问题就是计算能力问题，这就要求我们在不断创新与发展统计技术的同时，还要紧紧依靠现代信息技术、特别是云计算技术。借助云计算技求可以将网络计算、分布式计算、并行计算、效用计算、网络存储、虚拟化、负载均衡等传统计算机技术与现代网络技术融合起来，把多个计算实体整合成一个具有强大计算能力的系统。