APP下载

大数据时代统计工作面临的问题及对策

2016-11-27杨云渝

决策与信息 2016年35期
关键词:统计数据结构化个体

杨云渝

云南省公路局 云南昆明 650041

大数据时代统计工作面临的问题及对策

杨云渝

云南省公路局 云南昆明 650041

“大数据”的本质实际上是数据生产的社会化,其对统计工作的冲击是重大的,不仅涉及到整个统计流程,更加对当前的统计管理体制、机构设置、数据价值等方面形成了挑战。统计工作者必须正视这种变革,顺应这种潮流,本文就大数据时代统计工作面临的的问题及其应对策略进行探讨。

大数据;统计工作;问题;对策

一、大数据时代统计工作面临的的问题

(一)统计工作的硬件环境问题。影响数据处理的因素,归结起来主要有计算、存储和网络三大方面的因素。数据计算要依靠服务器来实现,服务器整体表现出来的性能,是影响大数据处理的关键因素。大数据的“4V”特征使得统计数据在存储、传输、分析、处理等方面均带来本质变化,随着统计数据量的快速增长,统计部门现有的存储容量和技术、网络带宽能力等面临挑战。

(二)统计工作的数据质量问题。美国谚语云“除了上帝,任何人都必须用数据来说话”,数据质量如何,决定了说话的分量。我们仍然缺乏以数据为基础的精确管理,有时甚至是刻意回避数据。随着数据的公开细化程度不断提高,由于部分民众对统计指标和数据理解不确切,加上数据采集流程欠完善、地方政府干扰统计数据等原因导致部分统计数据质量不高,国民对统计数据的公信度较低。

(三)统计工作的数据应用问题。应用数据并不是简单的数据汇总或数据罗列,而是要按照科学方法挖掘数据,对这些原始的数据进行加工、整理和上升为重要的结论。统计部门既是数据的生产者,又是数据的消费者,统计数据的应用应该贯穿政策倡议、决定、执行、评估、复议的全过程,通过数据来指导行动,用数据提高政府的决策效率和决策质量。

(四)统计工作的数据安全性问题。目前大部分统计原始数据由企业通过“一套表”联网直报,在线对话活动频繁;主要统计数据通过统计局域网直接公布更新;各种办公软件需要实名制操作,并捆绑固定IP或电脑物理信息。现在黑客的组织能力、作案工具、作案手法及隐蔽程度非常之高,很容易通过对用户数据的深度分析,了解个人用户行为和习惯喜好等隐私,甚至企业用户的商业机密等,数据安全性受到全面挑战。

二、大数据时代统计工作的应对策略

(一)改变对样本的定义方式。大数据是先有数据,再有总体。而不同网络系统的相同符号也未必就是同一个个体,而且还经常存在个体异位的情况,但对大数据的分析,仍然有一个总体口径问题,依然需要识别个体身份。这就需要我们改变总体与个体的定义方式。与此对应,如果要从大数据库中提取样本数据,那么样本的定义方式也需要改变。当然,考虑到大数据的流动变化性,任何时点的总体都可以被理解为一个截面样本。

(二)改变对不确定性的认识。对于大数据,仍然存在着个体的差异性,大数据的不确定性就不再是样本的获取与总体的推断,而是数据的来源、个体的识别、信息的量化、数据的分类、关联物的选择、节点的确定,以及结论的可能性判断等方面。可以说,大数据的不确定性只来自于其来源的多样性与混杂性,以及由于个体的可变性所引起的总体多变性,而不是同类个体之间的差异性——因为我们已经掌握了一定条件下的完全信息。

(三)建立新的数据梳理与分类方法。对于大数据,由于新的网络语言、新的信息内容、新的数据表现形式不断出现,使得会产生哪些种类的信息、有哪些可以利用的分类标识、不同标识之间是什么关系、类与类之间的识别度有多大、信息与个体之间的对应关系如何等,都无法事先加以严格设定或控制,往往需要事后进行补充或完善。面对超大量的数据,我们只能从数据本身入手,从观察数据分布特征入手。根据大数据的特点,创新与发展数据的梳理与分类方法,是有效开展大数据分析的重要前提。

(四)强化结构化数据与非结构化数据的对接。出于针对性与安全性考虑,如何既能有针对性地收集所需的结构化数据,又能从大量非结构化数据中挖掘出有价值的信息,使两者相辅相成、有机结合,成了一个新的课题,值得探讨的问题包括非结构化数据如何结构化或结构化数据能否采用非结构化的表现形式等。通过特定的方法,实现结构化数据与非结构化数据的转化与对接是完全可能的。要实现这种对接,必须增强对各种类型数据进行测度与描述的能力。如果说传统的基于样本数据的统计分析侧重于推断,那么基于大数据的统计分析需要更加关注描述。

(五)归纳推断法与演绎推理法并用。归纳推断法是最主要的统计研究方法,而归纳推断的依据通常是样本数据。大数据是一个信息宝库,光重视一般特征的归纳与概括是不够的,还需要分析研究子类信息乃至个体信息,以及某些特殊的、异常的信息,还需要通过已掌握的分布特征和相关知识与经验去推理分析其他更多、更具体的规律,去发现更深层次的关联关系,去对某些结论做出判断,这就需要运用演绎推理法。只要归纳法与演绎法结合得好,我们就既可以从大数据的偶然性中发现必然性,又可以利用全面数据的必然性去观察、认识、甚至利用偶然性。

(六)统计技术与云计算技术融合。面对大数据中大量的非结构化数据,要求我们在不断创新与发展统计技术的同时,必须紧紧依靠现代信息技术、特别是云计算技术。借助云计算技术可以将网格计算、分布式计算、并行计算、效用计算、网络存储、虚拟化、负载均衡等传统计算机技术与现代网络技术融合起来,把多个计算实体整合成一个具有强大计算能力的系统。可见,统计技术与云计算技术的融合是一种优势互补,只有这样统计技术才能在大数据时代一展身手、有所作为,才能真正把统计思想在数据分析中得到体现,实现统计分析研究的目的。

[1]李金昌.大数据与统计新思维[J].统计研究,2014-3.

[2]程鑫.大数据时代传统相关分析的局限与拓展[J].统计与决策,2015-5.

杨云渝(1981-)女,云南石屏县人,云南省公路局主任科员,中级统计师。

猜你喜欢

统计数据结构化个体
创新视角下统计数据的提取与使用
改进的非结构化对等网络动态搜索算法
深度学习的单元结构化教学实践与思考
结构化面试方法在研究生复试中的应用
左顾右盼 瞻前顾后 融会贯通——基于数学结构化的深度学习
关注个体防护装备
明确“因材施教” 促进个体发展
国际统计数据
2017年居民消费统计数据资料
How Cats See the World