APP下载

统计学与大数据分析

2018-01-30刘静

现代经济信息 2018年25期
关键词:大数据利用统计学

刘静

摘要:由于互联网和信息技术的快速发展,数据已然成为新世纪的巨大经济资产和矿产资源。为各个领域带来了新的方向与变革,当今最受关注的学科不是经济学,也不是医学,而是能够运用大数据进行相关分析的统计学。企业带来统计学与大数据分析迎合了时代的发展,定将展现出光明的前景。

关键词:统计学;大数据;利用;发展

中图分类号:C829.2 文献识别码:A 文章编号:1001-828X(2018)025-0058-02

信息时代的来临使得大数据技术在全球范围内获得了很大的发展,对于政府统计机关来说大数据使用了多种数据收集模式,对各种数据进行整合而且通过现代信息技术以及高速处理的挖掘数据,发挥了自己的应用价值与决策支持功能,一方面,统计调查主体的多元化发展和电子商务的发展给统计数据的发展带来了很大的难题。会对政府统计管理体制以及统计理念产生影响,另一方面,因为计算机技术以及网络信息技术的飞速发展,它在提高统计生产力方面发挥着重要作用。大数据是官方统计部门要研究的方向,在这种情况下,分析大数据在政府统计中的效果,了解政府统计改革和发展的机会对政府统计具有重要意义。虽然近代统计学获得了很大的发展,但是大数据时期的来临暴露了统计学方面的问题,在抽样调查设计,数据管理以及统计分析等方面,数据分析都颠覆了传统的统计方式。

一、古代统计学时代

众所周知,关于统计学的分类有很多,但是最主要的包括三种类型的统计学方法。第一,可以处理不定期事件的统计方法,例如概率统计法;第二,可以处理定期事件的统计方法,例如比值编制、调查研究等方法;第三,能够处理跨学科领域的相关联的统计方法,例如应用技术统计方法等。

由于数据收集以及数据处理受到一定的约束,所以人们很难获取较为全面的數据信息,这就使得古代的统计学方法基础几乎都是从一些可取的样本上获得的。

或者可以通过其他的一些途径得到数据信息,但是如果从客观条件考虑,可能需要付出很大的成本,所以人们会放弃获取全部的具体数据。面对这种情形,人们常常会去经过长时间的筛选,选择一个相对而言较好的统计方法,但这也仅仅是反映了总体当中的某一个小的方面的具体特点。然而,我们所观察到的这些数据特征占总体大量数据特征的比例甚小,很多的其他数据特点有待发现。

总而言之,统计学是在抽样理论的基础上发展而来的,统计学分析方法较为强调具有因果关系的统计分析结果,能够根据部分数据去推测整体。统计学是通过搜集数据、整理、分析数据等过程进而得出数据内在规律的一门学科。统计学最常用的方法就是样本抽取方法,根据抽取的局部数据去推测整体,进而得出事物的总体发展走势的综合性学科。

二、现代统计学时代

乔治华盛顿大学的Jeremy S.Wu教授以其丰富的实践经验提到了现代治理统计2.0的概念。与统计2.0相比,胡善清教授说,现代统计是1.0时代。并且非随机数据是没有研究价值的。

1.利用所有的数据

在原始统计中,由于没有很多用于记录,存储和分析的工具,因此仅对整体进行样本分析。由于统计学的目标是通过最少数据证明发现,统计学家认为,采样分析的准确性因为随机性的增加而增加,但是,它与样品数量的增加几乎没有关系。就像经济学中边际递减效应一样。

在大数据时代,没有使用随机分析的原理,并且使用了所有大数据。即“样本=总体”。统计抽样的目标主要是为了技术受限的过程中,可以更好的解决相关的问题而出现的,慢慢的又会将样本分析抛弃。

2.接受不精确

对于小数据,统计数据可以更好地处理数据,但在大数据时代,大量数据使统计方法成为问题。随着数据量的增加导致结果出现问题,对准确性的强调是信息时代和模拟时代的产物,但是接受不涉及的区域的不准确性,接受不准确是从“小数据”到“大数据”的重要转变之一。由于数据量相对较大所带来的准确性,可以接受不准确的问题,以获得大规模数据的好处,混乱就是一种新的方法,所以不能够避免。

3.追求相关关系而不是确定因果

在小数据期间,也存在相关性。在其中找到具体的定量规律,人们在实践中学到变量之间存在两种关系:函数关系和相关关系。相关以及回归就是处理变量的方法。变量之间出现的不确定量之间的关系也称为相关性。通常,可以通过散点图和相关系数来分析相关性。

相关性的目标是量化数据之间的逻辑关系。知道是什么就行了。通过探索“什么”而不是“为什么”,这种关系可以让我们更好地了解世界,如果凡事有因果,那么就没有决定任何事情的自由。

4.数据的来源并非那么简单

一般来说,为了获得需要的数据就要通过不同的方式测量,才能获得记录。但是数据会在意想不到的地方获得,虽然精心的对实验以及研究进行的设计,但是真正操作的过程中不如想象的简单。

因为在大数据时期数据没有规律性,所以要分析数据的其他问题,这些数据以及资料是否要自己去获得?或者参考其他人的结果,这将节省能源和时间,如果您只是参考您需要的数据来了解及时性和使用范围,它可能不是为了想象而准备的。大数据的目标就是为了获得拥有的独特价值。

三、大数据分析

1.大数据的概念

大数据的概念较为抽象,单从表面的意思来看,大数据的大指的是数据所占的空间较大或者数据量的规模较为庞大,如,单从百度搜索引擎来看,每日产生的数据有几十PB,但事实上这是个误区,大数据并不单单是指数据所占的存储空间大。一般意义上认为大数据是指那些需要经过处理才能发现其内在联系性或规律性、能够为决策提供依据的海量信息数据。权威杂志《Science》将大数据定义为那些无法在有限时间内用当前的技术去获取的数据。此外,大多数人认为大数据的“大”包含了其数据规模的“大”,同时也包含了数据在采集、存储、挖掘、传递等方面的“大”,更包括应用方面、用途方面“大”。

大数据的大是数据本身、数据技术及数据应用三者的有机统一。大数据的发展是各方面共同作用的结果。

2.大数据的对象

目前来看,大数据是一个较为宽泛的概念,它主要包罗了各种各样的数据类型,包括文件、数据库等等,这种数据基本上来源于计算机系统所产生的数据;其次是人们在使用互联网进行交流及沟通时所产生的大量数据,这些内容包含了文本、图片、音频、视频等等。此外,还有一些大数据来自于一些技术设备,如卫星所采集的一些数据等。

3.大数据应用

大数据应用方面主要是指对获取的数据进行分析,从而寻找数据中的联系或规律,运用这些结果来对未来的一些趋势进行合理预测及分析,这样能够增强行业或领域竞争力。此外,通过对大数据进行详细分析能够实现透过现象看本质的目的,以为决策提供依据。

四、大数据的利用方式

在统计学中,大数据的使用不仅仅是使用平均值,方差和分位数。如果可以,您需要了解数据的关系或联系方式。不仅要对父母的身高进行分析,还要对孩子的身高进行分析,通过其中的关系得到结论。

有些数据可能不容易使用,因此数据利用的方法因情况而异。使用已经从基本使用缓慢转变为二次使用,因为时间的变化使数据变得有价值。了解冰山下面的數据价值企业就能获得潜在价值并且获得很大的利益。即便如此,数据的重要性仍远不止这些。

由于生成大数据,总和比部分更有价值。如果要使用有价值的数据,就要更新数据库并且对无用的数据进行淘汰,虽然数据用途的价值会降低,但是潜在的价值也会上升。潜在的数据价值要通过创新来获得,而且为价值贴上标签就能带来很多的机会。

五、结语

统计是以数据为基础的。传统的数据采集方法主要包括实验数据、调查数据和各种方法收集的二手数据。在长期实践中,传统采集方法获取的数据大多是错误的,样本的客观性难以保证,样本选择也会影响结果。因此,传统的数据采集方法已不能适应统计发展的需要。从这个意义上说,大数据的出现可以说是科学发展的必然。大数据的出现使得统计数据收集最关键的环节跨越了统计:大数据意味着所有的统计数据都可以应用到统计过程中,统计数据不再受到限制,结合适当的统计方法和数据处理方法,结果将更具代表性和说服力。个人提到统计学与数据挖掘可以更好的对数据进行利用,一个人能够对数据进行有效的利用,也通过各种各样的算法对数据进行处理,大数据时期主要是数据本身以及数据的思维观念,如果能够做到数据,技能以及思维的结合,那么就能够对大数据时代产生作用,它也可以在大数据时代发挥很大的优势。

猜你喜欢

大数据利用统计学
关于投稿的统计学要求
利用min{a,b}的积分表示解决一类绝对值不等式
统计学符号使用的说明
统计学符号使用的说明
本刊对来稿中统计学处理的有关要求
利用一半进行移多补少
利用数的分解来思考
Roommate is necessary when far away from home