APP下载

大数据下的空间数据挖掘思考

2013-06-10王树良丁刚毅

中国电子科学研究院学报 2013年1期
关键词:空间数据空间

王树良,丁刚毅,钟 鸣

(北京理工大学 软件学院,北京 100081)

1 空间分布的大数据

大数据(big data)是体量巨大(volume)、多种多样(variety)、高速变化(velocity)、真实质差(veracity)的复杂数据集合[1~4],已经难以用现有的数据工具管理利用[5,6]。在这些数据中,空间数据占了绝大多数,大约80% 的数据与空间位置有关[7,8]。空间数据是人们通过信息世界认识现实世界的基础数据和智慧源泉[9,10]。大数据与应用密切相关[12,13],空间数据挖掘为其主要应用[5,9,11]。

1.1 从认识现实世界到创造信息世界

人类文明是从认识现实世界到创造信息世界的过程,历经初步认识世界,以信息辅助记忆,以信息记录和传承,以信息交流与传播,以信息再次认识世界的历史阶段。最初利用实物,使用石块、贝壳“一一对应”计数,通过结绳记事辅助记忆和讲述文化。后来,以图画记事,使用简单图形,通过对自身进行感性的提示,传承较为准确的记忆。再后来,当图画变成形体相对固定的约定俗成的符号,并与语言中的词语相联系后,就产生了文字。文字通过语言对现实世界抽象概括,促进了交流与传播,准备了发展科学文化的必要条件。为了突破文字符号依靠人工抄写或雕刻的限制,工业化革命用机器实现了批量机械化生产,提高了传播的效率[14,15]。计算机以高速计算为中心,把软件从机械硬件中剥离出来,促成了信息传播的“电子化”和“自动化”;互联网以网络为中心,把计算机相互关联,突破了信息的局部限制;移动通信以用户为中心,让机器紧随用户运动,解除了机器对人的束缚;物联网以应用为中心,自动识别物体,实现了人与物的信息互联共享;云计算以服务为中心,通过整合专业技术,优化了资源配置;大数据以数据为中心,在全体数据中挖掘知识,突破了样本的采样随机性[16~18],能在大型数据中心和移动终端中得以展现。上述信息技术,最终将服务于对现实世界的认识和改造[15]。

1.2 空间数据是大数据的基础

空间数据描述信息世界中的空间对象在现实世界内的具体地理方位和空间分布,包括空间实体的属性、数量、位置及其相互关系等,涵盖从宏观、中观到微观的整个层次,可以是点的高程、道路的长度、多边形的面积、建筑物的体积、像元的灰度等数值,地名、注记等字符串,图形、图像等多媒体成分,空间关系等拓扑结构[7,8]。与一般的数据相比,空间数据具有空间性、时间性、多维性、大数据量、空间关系复杂等特点[11]。

用于采集空间数据的可能是雷达、红外、光电、卫星、多光谱扫描仪、数码相机、成像光谱仪、全站仪、天文望远镜、电视摄像、电子显微成像、CT 成像等各种宏观与微观传感器或设备,也可能是常规的野外测量、人口普查、土地资源调查、地图扫描、地图数字化、统计图表等空间数据获取手段,还可能是计算机、网络、GPS、RS 和GIS 等技术应用和分析空间数据的过程。具体包括空间数据的来源、原观测值(或原始数据),以及采集、编辑、存储和利用数据的方法、步骤、格式、转化、日期、时间、地点、人员、环境、传输与历史等[10,19]。

遥感对地观测已经成为社会、政治和经济的发展决策不可或缺的重要组成部分[7,11,14,19]。现在,星载传感器、卫星发射、控制等系列硬件技术已经取得了重大突破,未来的天基信息系统和对地观测系统拟通过努力,建立具有准实时、全天候获取各种空间数据的能力,并逐步形成集高空间、高光谱、高时间分辨率和宽地面覆盖于一体的卫星(群)对地观测系统,同时提供定位、通讯和观测的功能,如图1、图2 所示。感知器的飞速发展,也使得描述空间对象属性的波段数目由几个增加到几十甚至上百个。遥感对地观测技术正在形成一个多层次、多角度、全方位和全天候的全球立体对地观测网,高、中、低轨道结合,大、中、小卫星协同,粗、细、精分辨率互补。传感器的地面分辨率数量级从千米到厘米,波段范围从紫外到超长波,时间间隔从十几天一次到每天三次,探测深度从几米到万米。在以高空间、高光谱、高动态为标志的新型遥感对地观测技术中,新型的高分辨率卫星遥感数据如Quick Bird、IRS、IKONOS 等已提供使用。多传感器、多用途、多分辨率、多频率的EOS 更可以提供MODIS 成像光谱数据、ASTER 热红外数据、测云和4-D 模拟的CERES 数据、MOPIT 数据及MISR 数据。高分辨率、高动态的新型卫星传感器不仅波段数量多、光谱分辨率高、数据速率高、周期短,而且数据量特别大,一般情况下数据的容量均在千兆量级以上。仅EOS-AM1 和PM1 每日获取的遥感空间数据量就以TB 级计算。Landsat 每两周就可以获取一套覆盖全球的卫星影像数据,目前已经积累了全球几十年的数据。

空间数据基础设施的建设速度和由此积累的空间基础数据也正在递增[14]。空间数据基础设施积累了大量的城市电子地图数据库、城市规划道路网络数据库、工程地质信息数据库、用地现状信息数据库、总体规划信息数据库、控制性详细规划数据库、市政红线数据库、建筑红线与用地红线数据库、地籍数据库,以及覆盖全市范围的土地利用及基本农田保护规划数据库等空间基础数据。更进一步地,除了这些已经存储和积累的数据,每时每刻还都在采集和产生新的空间数据。

1.3 大数据倍受关注

正如人类在初生于现实世界后不断探索以认识它一样,置身于信息世界的人类也正尝试了解其所蕴含的秘密。2008 年7 月,O’Reilly Media 出版了《Beautiful Data》(数据之美),9 月《Nature》刊登了“大数据(Big data)”专辑,微软出版了《第四范式—数据密集的科学发现》(The Fourth Paradigm—Data Intensive Scientific Discovery)。2009 年5 月,联合国“全球脉动(Global Pulse)”项目发布《Big Data for Development:Challenges & Opportunities》(大数据促发展:挑战与机遇),推动数字数据和快速数据收集和分析方式的创新[1]。2011 年2 月,《Science》刊登了“Dealing with Data(处理数据)”专辑,并联合Science:Signaling、Science:Translational Medicine 和Science:Careers 推出相关专题,讨论数据对科学研究的重要性。5 月,麦肯锡(McKinsey)在《Big data:the next frontier for innovation,competition,and productivity》(大数据:下一个创新、竞争和生产力的前沿)中从经济和商业维度分析了大数据在不同行业的应用潜力,明确提出了政府和企业决策者应对大数据发展的策略[4]。2012 年1 月,《华尔街日报》认为大数据、智能生产和无线网络三大技术变革将引领新的经济繁荣[20]。2012 年3 月,美国在《大数据的研究和发展计划》(Big Data Research and Development Initiative)中把大数据的研发应用从以前的商业行为上升到国家战略部署,以提高从庞大而复杂的数据中提取知识的能力,帮助解决一些国家最紧迫的挑战[2,3]。美国国家科学基金会成立了可视化和决策信息中心(NSF CVDI),汇聚国家科学基金会、工业界、政府机构和大学的力量,集中研究大数据的数据挖掘、决策制定和可视化。2012 年4 月,《Nature Biotechnology》在“Finding correlations in big data”一文中邀请八位生物学家,对2011 年12 月《Science》的“Detecting Novel Associations in Large Data Sets”一文进行评价[21]。2012 年7 月,Gartner发布了第一份大数据调查报告《Hype Cycle for Big Data,2012》(大数据的宣传循环),对大数据予以冷思考[6]。

在产业界[13,22~24],微软(Microsoft)在2011 年推出与Windows 兼容的基于Hadoop 的大数据解决方案(Big Data Solution),作为SQL Server 2012 版本的一部分。IBM 给出了InfoSphere BigInsights,不仅将DB2 与NoSQL 数据库有机结合,而且在2007 年收购了商务智能软件供应商Cognos,2009 收购了业务规则管理软件供应商ILOG、数据分析和统计软件提供商SPSS、数据库分析供应商Netezza,2010 年收购了网络分析软件供应商Coremetrics。亚马逊(Amazon)在2009 年发布的Elastic MapReduce 采用了托管的Hadoop 框架,用户可以在进行分布式程序所需的数据密集型工作时根据自己的需要实时调整所需的负荷。甲骨文(Oracle)把NoSQL 数据库和Big Data Appliance 组合,使得客户直接拥有处理非结构化海量数据的能力。Google 用Bigtable 分布式存储大规模结构化数据,利用BigQuery SQL 查询大数据。此外,Apple 的iCloud,Facebook 的The Open Compute Project,EMC 的Greenplum HD 等信息产业也致力于提供大数据解决方案和应用。

在中国[4,6,23,24],百度从2007 年开始使用Hadoop 做离线处理,目前有80% Hadoop 集群用作日志处理,1 万多台Hadoop 服务器已经超过了Yahoo和Facebook,计划2013 年达到2 万台,每天的数据处理量为6 TB。除了百度的搜索日志分析,腾讯、淘宝和支付宝的数据仓库等也采用了Hadoop 处理大规模数据。2010 年4 月,淘宝推出“数据魔方”,其千亿级海量数据库OceanBase 每天支持4 ~5 千万的更新操作,每天更新超过20 亿,更新数据量超过2.5 TB。2010 年5 月,中国移动在云平台上建立了海量分布式系统和结构化海量数据管理系统。华为基于移动终端分析数据,通过云存储平台分析海量数据,获得有价值的信息。阿里巴巴通过大数据技术,分析企业交易数据,以进行信用贷款审批。2012年3 月,我国科技部发布的“‘十二五’国家科技计划信息技术领域2013 年度备选项目征集指南”,把大数据研究列在了首位。

1.4 空间数据是研究和发展大数据的重点

大数据的研究与发展,涉及国防安全、生活健康、气候变化、地质调查、减灾防灾、智慧地球等,基本都与空间数据有关[1,4,13]。以美国为例,1993 年宣布建立国家信息基础设施(National Information Infrastructure),2010 年,发布国家宽带计划(National Broadband Plan),2012 年,以“国家战略”投资2 亿美元启动大数据的研究和发展计划。在大数据计划中,与空间数据关系最为密切的是联邦地质调查局(US Geological Survey,USGS)和航空和航天局(National Aeronautics & Space Administration,NASA)[2,3]。

USGS 通过约翰·威斯利·鲍威尔分析和整合中心为科学家们提供了深入分析的场所和时间、最先进的计算能力和感知大数据集的协作工具,促进地球系统科学的创新思维。在中心,科学家们合作完成对全面、长期的数据的最新综合,进一步把大数据集和地球科学理论的大构想转换成科学发现,提高对地球系统科学问题的理解和应对能力,例如物种应对气候变化、地震复发率、下一代生态指标等。

NASA 用先进信息系统技术寻求成熟的大数据能力,以支持未来的地球观测任务,使得地球信息能为NASA 气候中心的体系结构所识别,减少地球科学部的空基和陆基信息系统的风险、成本、规模和开发时间,提高科学数据的可访问性和实用性。NASA的地球科学数据和信息系统项目已经活跃了超过15 年,旨在对地球卫星数据和空中与实地活动的数据进行处理、存档和发布,努力确保科学家和公众可以满意地访问从地球到太空的数据,提升应对气候和环境变化的能力。NASA 建立全球对地观测系统的系统,是分享和整合对地观测数据的国际合作尝试,它与美国环境保护署、美国国家海洋大气管理局等机构和国家联手,整合基于卫星、地面的监测和建模系统,评估环境条件和预测事件(如森林火灾、人口增长等自然人为的发展问题)。最近,研究者将整合各种复杂的空气质量信息,以更好地理解和处理空气质量对环境和人类健康的影响。NASA 与Cray 公司制定的太空行动协议,允许一个或多个项目围绕发展和应用低延迟“大数据”系统合作,使用高度集成的非SQL 数据库传输数据,来加速建模和分析软件的运行,以测试混合计算机系统的实用性。NASA 的行星数据系统是行星任务的数据档案,已经成为世界各地科学家的基本资源。其中,通过一个行星学科的在线目录系统,可以对所有产品进行同行评审、完善记录、访问查询。NASA 太空望远镜科学研究所的多任务存档,是分布式空间科学数据服务的一个组成部分,主要侧重于光学、紫外线和近红外部分频谱等科学相关的数据集,提供各种天文数据档案,支持多种工具对各种光谱图像数据进行访问。NASA 的地球系统网格联邦是一个公共档案,通过与美国能源部合作,为联邦政府提供数据观测和模型输出。NASA 发布的Word Wind 是一个开放源代码的地理科普软件,将NASA、USGS,以及其他WMS 服务商提供的影像通过三维的地球模型进行展现,能浏览历史影像资料,支持运用Modis 数据进行灾害性事件监测,可用于全球气温动态监测。

此外,各种专用减灾卫星、遥感卫星、通信与导航卫星已广泛应用于地震、海啸、台风(飓风)、洪灾、旱灾、地质灾害和火灾等各种不同类型的灾害管理。当前在轨运行的专用“灾害监测星座”(DMC)是一个通过各个国家的卫星来进行国际合作的系统,组成星座后具有时间分辨率高、监测范围大、响应速度快等特点,广泛应用于各种减灾过程和洪灾、飓风和火灾等的灾害监测和灾害分布图的制定。

2 空间大数据的灾难

空间数据与人类的衣食住行息息相关,贯穿在各行各业,其数量、大小和复杂性都在急剧增加,大量的数据以文字、图表、影像、多媒体等方式被累积存储在空间数据库和空间数据仓库中[5,10,11]。国际数据公司(IDC)研究表明[26],截止2003 年,人类总共创造了5 EB 数据,而2011 年一年产生与复制的信息量超过了1.8 ZB,预计到2020 年,全球数据使用量将达到35.2 ZB,需要376 亿个1 TB 硬盘来存储。这些数据,拓宽了可供人类利用的空间数据范围和充分的智慧资源,可是单位数据的价值正在快速下降,人类被淹没在信息世界的数据海洋中却饥渴于知识。

2.1 垃圾多

大数据的数量很大,增长速度很快,品种很多,价值密度却很低,其中有很多垃圾数据[4,6]。科学研究的正负电子对撞机,已经能够每秒拍摄4000万张照片,可是其中只有几千张照片有用。罗马尼亚互联网安全公司比特梵德(BitDefender)指出[6],社交网络游戏中的垃圾信息和“钓鱼信息”数量增加了50%以上。相对于其他在线通讯环境,社交网络用户更易在不知不觉中接受、加载垃圾信息。

大数据与应用密切相关,数据的专业标注是理性分析和合理判断的基本目标。无论是科学实验数据还是观测数据,都需要领域专家标注[1,3,4]。据IDC 统计[26],在2012 年的所有信息中,只有23%有用,其中又只有3%的潜在有用信息被标注,被分析的比例更少。随着现代测量方法和数字记录方法的发展,面对所获得的庞大信息,老的、人工的、经验的分析和剔除数据垃圾的方法变得愈来愈无能为力了。

2.2 污染重

从现实世界采集来的空间数据是有污染的[25,26]。而且,早在1992 年,美国麻省理工学院就研究发现,数据污染的问题并不是个别现象,在全球50 家被抽样调查的单位或机构中,大部分的数据准确度都不到95%。无论采用何种方式获取的空间数据,均存在一些不可避免的问题或错误[28~30]。例如,内容残缺、精度有误、重复冗余、格式矛盾、类型不同、结构不一、尺度不同、标准差异、过时失效、错误异常、动态变化、局部稀疏等问题,而且,每种问题又有多种成因,仅噪声就有周期性噪声、条带噪声、孤立噪声和随机噪声。进一步地,这些数据还经常受粗差、系统误差和随机误差的单独或综合影响,如果三种误差不能在平差中正确地被发现、消除,那么势必损害预期的数据精度[11]。下面以常见的不完整、不准确、重复、不一致等问题为例,重点予以分析。

不完整的空间数据[11,25,27]。因省略等带来不完整。例如,空间属性未被充分采集,编辑空间数据的规则没有考虑足够的影响因素,空间数据库中的数据不能充分描述可能的特征,可能的目标没有全部被包含在空间数据库中。若量测标准中的特征没有被全部按照准则、定义和规则采集,则留作识别空间目标的重要特征也会因评估标准而被融合掉。此外,懒惰的录入习惯或不同业务部门对空间数据的需求不同,也导致源系统中应有的域或记录缺失。

不准确的空间数据指与现实的实体属性相比不正确的值[28]。例如,同谱异物的影像,同物异谱的影像,目标判读的错误,模糊的对象边界,未及时更新的失效空间数据,不正确的计算或聚集产生的空间数据,错误的数据类型,空间数据伪值,多用途数据的专业解释错误,无法理解的古怪格式,不能破解的加密数据。

重复记录指在多源空间数据中有关同一个现实对象的信息有重复,或在多个系统中有关同一个现实对象的信息有重复[11,30]。导致重复的原因很多,例如多重数据结构,名称拼写错误,不通用的别名,不同的缩写,方言表达,不完全匹配的记录,高精度记录导入低精度记录(例如从64 位计算机导入32位计算机)等。此外,各个空间数据源提供的空间数据通常会包含标识符或字符串数据,它们在不同的空间数据源中有所不同。

不一致的空间数据[11,25,27]。空间数据上下文相关冲突是因系统和应用造成的不同的类型、格式、制式、粒度、同义词和编码方式等,从不同来源集成的空间数据引发的不一致,可能不满足空间实体间的拓扑一致性、数据结构的内部一致性和数据规范的逻辑一致性。空间数据上下文无关冲突是由于偶然因素造成的错误的输入、硬件或软件故障、外部因素造成的空间数据库状态改变,同一系统的空间数据因位置、单位及时间不同而产生的不一致等。由于输入不规范造成的表示不一致,内容上的不一致,一般难于找到转换函数。

2.3 利用难

数据不仅被污染了,而且数据的生产、传输、复制和累积,已经远远超出了人们的分析、理解和应用能力[11]。由于数量庞大,“大数据”难以被捕捉、存储、搜索、分享、分析和具体化。一般地,人均日阅读时间通常为30 ~45 分钟,只能浏览一份24 版的报纸。面对浩瀚的遥感空间数据,美国国防部已经没有能力完全处理其侦察卫星没完没了拍摄下的照片。美国的新一代“世界观察”(WorldView)卫星空间分辨率达到了0. 5 m,直接定位精度也能达到2 ~3 m 以内。新一代试验卫星EO-1 成像谱段有220 个,光谱范围为400 ~2500 nm,光谱分辨率达到了10 nm。空间数据的数据库系统可以实现数据的录入、修改、统计、查询等显性功能,却无法发现隐藏在空间数据背后的隐性知识。地理信息系统重在研究如何建立数据库、如何保证数据利用分析的连续性、编辑系统文档和空间数据的发展,对空间数据的深层次处理功能比较薄弱。常规的遥感图像处理理论和方法所能处理的数据量、自动化和智能化水平十分有限,结果多数停留在定性的程度。各种商业图像处理软件(ERDAS、IMAGINE、PCI、ENVI等),由于缺乏新的图像处理理论和方法的支持,难以实现对诸如混合像元、影像的自动匹配、地物目标的自动提取等问题的自动处理。更有甚者,一家报纸在其“法制社会”和“青年话题”两个版面中刊登了同一作者的同一篇文章;另一家报纸的家电版、生活版、科技版在同一天分别比较VCD、CVD、DVD 的优劣,得到三个不同的结论。主编竟然都没有觉察。

长此以往,如果各行各业都被垃圾充斥的污染数据淹没,那么就可能导致大数据变成“垃圾进,垃圾出”的无用“大垃圾”。大数据中的有用数据被埋没,隐含的价值被遮蔽。面对如此窘况,如何理解空间数据,如何从大数据中提取信息,如何把大数据转变为能够最终可用的知识[23,24],实现应有的数据价值,已成为大数据的瓶颈。

3 空间大数据的价值

英国经济学家亚当·斯密认为“有用的事物”才能被视为资本。数据是有价值的,而且会在使用中通过自学习自适应增值。空间大数据来源众多且相互关联,真实有用为其最大价值(value)。大数据价值的公认规则是用数据说话,首要前提是保持大数据始终有用的活性,最终价值则是以大数据增进人类智慧。

3.1 总体认知原貌

大数据提供了一个在信息世界中完整地观察现实世界全貌而非局部样本的前所未有的机会[4,17,18]。在大数据之前,因为空间数据采集、存储、计算和传输的局限,概率统计只能从现实中随机抽样,通过样本数据归纳全体数据,像盲人摸象一样认识对象局部,仅是窥豹一斑。数据抽样不完备,样本数据不集中,致使难以认识全局的整体规律和异常变化。

现在,在大数据的情况下,数据被大量的创造、复制和积累,样本足够多,克服了由于抽样导致的信息样本不完备,全体数据可能在信息世界内重现了现实世界基本完整的原貌,描述了空间对象的全貌,隐含了一般性的规律和发展趋势,促使人类更加有效地了解世界并预测未来。近年来,美国利用先进的专业技术和现代信息技术,对灾害可能造成的影响进行及时、准确地预测,并发布警示信息。尤其利用卫星导航定位技术可以对灾害进行精确定位,例如,“伊克洛斯”(IKONOS)2 卫星和“快鸟”(Quick-Bird)卫星拍摄的加勒城市火车站区域的海啸前后高分辨率卫星影像,解译了建筑物的损毁情况。在基于Google Earth 的降雨灾害监测系统中,用户只需调用Google Earth 3D 地形影像,再叠加气象局提供的卫星云图、雨量图、单站雨量资料、土壤资料和现场图片等便能展现立体的灾害效果,进行淹没分析等,为决策分析提供依据。ArcGIS 能制作各种专题的灾情地图产品,ArcGIS Mobile 可以满足灾情速报工作的需要,及时采集各种灾情专题信息。

3.2 基础性资源

麦肯锡[4]认为,数据是基础资源,可以与物质资产、人力资本相提并论,为世界经济创造重要价值,提高企业和公共部门的生产率和竞争力,为消费者创造大量的经济剩余。2011 年,世界经济论坛(World Economic Forum)称大数据为新财富。2012年,瑞士达沃斯论坛的《Big Data,Big Impact》把数据当作像货币或黄金一样的经济资产类别。2012 年,Gantner 认为“大数据是大钱财(Big data is big money)”。美国政府认为大数据关系到国家的经济结构调整和产业升级,是“未来的新石油”[2,3]。

在大数据的背景下,Google Earth 把卫星、航空影像,矢量数据,3D 模型等布置在一个三维地球模型上,为用户提供可公开的图片,受许可的航空、高分辨率卫星影像,以及其他卫星影像。百度地图除具有完备的地图功能(如搜索提示、视野内检索、测量等)外,还增加了三维地图模式以生动直观的方式对城市进行全方位展示,可以查询街道、商场、楼盘等地理位置,也可以搜索附近的兴趣点,还提供了丰富的公交换乘、驾车导航等功能,为用户提供合适的线路规划。腾讯的搜搜地图覆盖了全国近400 个城市,可以查询银行、医院、宾馆等主题地理位置,同时还提供了丰富的公交换乘查询和驾车导航规划功能。天地图收集了全国300 多个地级以上城市的0.6 m 分辨率卫星遥感影像等地理信息数据,覆盖从宏观中国全境到微观具体县市乃至乡镇、村庄,数据内容包括不同详细程度的交通、水系、境界、政区、居民地、地名、不同分辨率的地表影像以及三维地形等。2010 年玉树地震,我国利用0.2 m 分辨率无人机影像对灾区的居民安置点分布与规划、交通堵塞等情况进行了监测评估。

从空间数据中获取价值的重要途径之一,是以知识指导数据利用[4,11]。例如,面对影像的遥感数据处理是一个从二维到三维的秩亏过程,在理论上无法直接获取定量的结果,只有依赖人们的知识,才能实现遥感数据解译与提取的自动化和智能化。可是,在过量的空间数据面前,空间知识显得相当贫乏。人们缺乏来自于数据且服务于数据利用的知识,数据资源中蕴涵的最大价值远远没有得到充分的挖掘和利用。

4 空间大数据的挖掘

空间数据挖掘是凸现大数据价值、盘活大数据资产和有效利用大数据的基础技术。可以用于从数据中提取信息,从信息中挖掘知识,在知识中萃取数据智能,提高自学习、自反馈和自适应的能力,实现人机智慧。

4.1 基本的大数据技术

大数据的基本技术包括采集、存储、处理、表达和质量评估等。

大数据采集技术。大数据得益于移动设备、追踪系统、无线射频识别技术(RFID)、传感网络、社交网络、互联网搜索、自动记录系统、视频档案和电子商务等数据产品,以及分析这些数据所产生的再生数据。对于空间大数据,可以按数据获取方式区分为点方式获取、面方式获取和移动方式获取[11]。点方式获取指利用全站仪、GPS 接收机和其他常规的地面测量方式逐点地采集地表点的空间坐标及其属性;面方式获取指利用航空、航天遥感方式获取大面积的影像记录,从中提取出几何和物理特性;移动方式获取指在对地观测系统中,集成利用空间定位系统(目前主要指GPS 全球定位系统)、遥感(RS)和地理信息系统(GIS),获取、存储、管理、更新、分析和应用空间数据。

大数据存储技术是实现数据挖掘的基础,旨在满足日益增长的大数据的存储需求,为其提供扩展性强、可靠性高、性能优秀的数据存储、访问及管理解决方案。例如分布式数据存储、多级缓存、容错机制、负载均衡等。用常规方法难以胜任,需要通过软件建立一个大数据平台,为数据资产提供保管、访问的场所。2012 年2 月,英国约克大学研发出一项利用热量而不是磁场的电脑硬盘数据存储技术,在降低硬盘能耗的同时达到每秒数千GB 的存储速度。10 月,富士胶片和IBM 研制出了钡铁氧体颗粒涂层磁带,在长、宽10 cm,厚2 cm 体积下可储存35 TB数据。12 月,麻省理工学院在实验室合成了拥有第三种磁性状态的herbertsmithite 纯晶体,可能对磁存储技术带来巨大影响。

大数据处理技术旨在实现从数据到信息、从信息到知识、从知识到智慧的转变。例如地物叠加、目标缓冲、空间数据清理、空间数据分析、空间数据挖掘、空间特征提取、影像分割和影像分类等。

大数据表达技术旨在清晰、有效地将数据所蕴含的意义表示给用户,以提供新的视角寻找难以掌握的数据。例如不规则三角网、数字地面模型、数字高程模型、平面地图、三维地图、影像地图和数字城市等。

大数据质量评估技术旨在最大程度的辅助规避由于大数据的集合和高密度的测量导致的发现错误的风险。例如逻辑性评估方法、基于异常值的评估方法和基于核算的评估方法等。

4.2 发现空间知识

发现空间知识是利用空间数据挖掘方法从大数据中抽取事先未知、潜在有用、最终可解的规则的技术,也是一个由空间数据到空间信息、再到空间知识的循序渐进、逐渐升华的过程。空间数据挖掘系统就是使空间数据逐步归纳升华为空间知识,通过整合空间数据,深入数据抽取空间知识,再利用这些新知识认识和利用数据,实现数据的实时处理、智能判断和快速决策。空间知识可以自学习,自提升,具有一定的普遍性,容易被认可采用,可作为决策支持的依据。

如果空间知识被各行各业充分利用,那么能够帮助人类以更加精细和动态的方式学习、工作和生活,达到智慧状态,极大提高资源利用率和生产力水平,积极应对经济危机、能源危机、环境恶化等全球问题。

4.3 萃取数据智能

数据智能是指深入分析收集到的数据,以获取更加新颖、系统且全面的知识来解决特定问题。是对事物能迅速、灵活、正确地理解和解决的能力。空间数据智能有三个元素:更透彻的感知、更广泛的互联互通和更深入的智能化。三者旨在获取更多、更全面的数据,借助互联网传递、共享、协同操作这些数据,利用各种先进的技术方法分析和挖掘数据,构成一个层次结构,如图3 所示[31,32]。

大数据的智能不是指不同数据挖掘技术的简单叠加,而是面向一个应用行业的组织结构合理、运行程序优良、综合功效强大的系统智慧(wisdom)。一个行业的结构越合理,内耗越小,功效越大,系统的智慧就越高,反之越低。每次人与数据的交互就意味着有机会以更完美、更高效和更多产的方式分析、汇总和计算,整合和分析海量的跨地域、跨行业和职能部门的数据,并将特定的知识应用到特定行业、特定场景、特定解决方案中以更好地支持决策和行动。例如,在遭到卡特里娜飓风袭击后,美国路易斯安那州和密西西比州当地的电力、通信、道路等基础设施已经被大量损毁,美国海岸巡逻队直升机利用全球定位系统(GPS)坐标定位并救助灾民。

图3 空间数据智能的层次结构[31,32]

更深入的数据智能则是创造数据的新价值。一方面,当把大数据的空间知识充分运用到各行各业,可能产生次生知识,再次汇集形成智慧型的表达形式,以此来形成知识中挖掘知识的挖掘机制,最终达到目的知识。另一方面,立足一个总体产业或社会生态系统,重新定义政府、公司和个人相互交互的方式,提高交互的明确性、效率、灵活性和响应速度。从过去单维度的生产和消费、管理和被管理、计划和执行,转变为多维度的新型协作关系。在这种新型关系中,每个个体和组织都可以自由地、精确地、及时地贡献和获取信息、洞察专业知识,对彼此的行为施加正面的影响,达成智能运行的宏观效果。

空间大数据促使世界的数字基础架构和物理基础设施相互融合,几乎任何人或任何事物都能够低成本地实现数字联网,很容易地把传感器嵌入到各种生态系统中,装备全球的各种基础设施和设备,通过互联网实现人类社会与物理系统的整合,在此基础上,再通过超级计算机和云计算,就可以使得人类以更加精细、动态的方式管理生产和生活,从而达到智能状态。例如把卫星定位系统、传感器和无线网络的空间数据集成融合后,可以从中发现空间知识,如果再把空间知识传送到手机终端,就可以帮助用户基于位置服务做出理性正确的判断或选择,实现数据智能带来的智慧,如图4 所示。首先,通过卫星定位系统、传感器和无线网络采集空间数据,更透彻地感知现实空间世界;其次,选择合适的方法存储和管理空间数据,把空间数据整合为空间信息;其次,利用空间数据挖掘方法有目的地挖掘空间数据中的模式,从抽取的空间模式中析取多种空间知识,进而整合出新的可用知识,达到更深层次的数据智能;最后,将得到的数据智能融入数字地球和“物联网”,增进用户和机器的智慧,实现现实世界更智能的数据交互。

图4 基于位置的数据智能[2,4,11]

5 空间大数据的效益

当数据成为资产,掌握和控管数据的程度,将导致对市场的支配和巨大的经济回报。可能的模式有租售数据型、租售信息型、数字媒体型、数据使能型、数据空间运营型和大数据技术提供商六种[4,13,23,24]。租售数据型租售广泛收集、精心过滤、时效性强的数据。租售信息型在数据采集、信息萃取、价值传递的完整链条中获利。数字媒体型充分发挥大数据技术的预测能力,开展精准的营销业务。数据使能型通过有效的数据分析来开展业务。数据空间运营型以网盘、微盘为代表的数据资源服务。大数据技术提供商,利用技术为用户处理结构化、半结构化和非结构化的数据。大数据的应用软件日益泛互联网化、富界面化、门户化和碎片化,其行业应用垂直整合,越靠近最终端用户的企业,在产业链中有越大的发言权,如图5 所示。

图5 大数据的作用[2 ~4,13,23,24]

以减灾救灾为例,基于GPS、遥感(RS)、地理信息系统(GIS)及网络通信技术等已经研制成了3 个有较大影响的灾害应急管理系统,即美国的“紧急事务管理系统”(EMS)、欧洲尤里卡计划的“重大紧急事件智能管理系统”(MEMbrain)和日本的“灾害响应系统”(DRS),实现了应急管理技术的体系集成与辅助决策支持。IBM 公司开发的Sahana 减灾系统适用在2005 年斯里兰卡海啸,2005 年巴基斯坦地震,2005 年美国飓风,2006 年菲律宾南莱特岛泥石流,2006 年印度尼西亚地震和2008 年汶川地震,以救援人员为核心,协同管理人员、情报、物资、设施和地理信息,提高了救灾和援助的效率。

为此,麦肯锡预测[4],如果能充分有效地利用大数据,那么可帮助全球个人定位服务提供商增加1000 亿美元收入,美国医疗保健行业每年提升3000 亿美元产值,节省医疗卫生支出8%以上,美国零售业获得60%以上的净利润增长,减少制造业设备装备50%的成本,欧洲政府公共行政管理的效率每年提升2500 亿美元产值,欧洲发达经济体可以节省开支超过1000 亿欧元。为此,美国预计需要14 万~19 万名拥有“深度分析”专长的工作者,以及150 万名更加精通数据的经理人。

美国《福布斯》称,未来,大数据或将成为行业标准,而无人能给行业标准贴标签[34]。摩根士丹利(Morgan Stanley)认为,数据管理的变化趋势是把大数据(Big Data)变成普通数据(Any Data)[35]。赢取数据的未来,理智的选择不是紧跟“大数据”概念走俏而匆忙转型,而是始终关注大规模数据的采集、分析、存储、分享和具体化的方法,及早实现技术的突破,能够在任意的时间、任意的地点、为任意的用户,提供任意数据集的任意服务。

6 结 语

大数据的发展,促使人类的活动范围在扩大,需求在增长,世界已经逐渐在全球范围内分工协作和业务整合,促使人类把学习、生活和工作的模式从局部走向全局,利用网络思维,把个人、企业、组织、政府、自然和社会重新定义并且赋予新的联系,通过它们之间的智能化互动运转,使用群体智能改善人类生存环境和提升公共服务质量,提高性能、效率和生产力。大数据技术进步和产业升级,将催生出新的市场、新的业务模式和新的产业规律,显示一个国家寻求战略优势的集体意志。虽然大数据概念火热,提供了人类通过观察数据全貌以深刻理解世界的机遇,但是距离利用大数据获取数据智能和人类智慧仍存在较大距离。

[1]UNITED NATIONS GLOBAL PULSE. 2012,Big Data for Development:Challenges & Opportunities[R]. 2012.

[2] OFFICE OF SCIENCE AND TECHNOLOGY POLICY.Executive Office of the President,2012,Fact Sheet:Big Data across the Federal Government[R/OL].[2012-12-21].www.WhiteHouse.gov/OSTP.

[3]OFFICE OF SCIENCE AND TECHNOLOGY POLICY Executive Office of the President,2012,Obama Administration Unveils“Big Data”Initiative:Announces $200 Million in New R&D Investments[R/OL]. (2012-03-19).www.WhiteHouse.gov/OSTP.

[4]MCKINSEY GLOBAL INSTITUTE.2011 Big Data the Next Frontier for Innovation,Competition,and Productivity[R].2011.

[5]RAJARAMAN A.,ULLMAN J.D.Mining of Massive Datasets[M].Cambridge:Cambridge University Press,2011.

[6]LAPKIN A. Hype Cycle for Big Data[R]. Gartner,Inc.G00235042,2012.

[7]DENSHAM P J,GOODCHILD M F.Spatial Decision Support Systems:A Research Agenda[C]. Proceedings GIS/LIS'89,Orlando,FL,1989:707-716.

[8]SHEKAR S,XIONG H(Eds.). Encyclopedia of GIS[M].New York:Springer,2007.

[9]MILLER H J,HAN J.Geographic Data Mining and Knowledge Discovery[M].2nd edition.London:Taylor and Francis,2009.

[10] ESTER M,et al. Spatial Data Mining:Databases Primitives,algorithms and efficient DBMS support[J].Data Mining and Knowledge Discovery,2000(4):193-216.

[11]李德仁,王树良,李德毅. 空间数据挖掘理论与应用[M]. 北京:科学出版社,2006.

[12]BARABASI A L.Bursts:The Hidden Patterns Behind Everything We Do[M]. [Plume Books,2011].

[13]维克托·迈尔·舍恩伯格,肯尼思·库克耶.大数据时代:生活、工作与思维的大变革[M]. 盛杨燕,周涛,译.杭州:浙江人民出版社,2012.

[14]边馥苓. 用数字的眼光看世界[M]. 武汉:武汉大学出版社,2011.

[15]王树良,曾一昕,袁汉宁.服务科学导论[M]. 武汉:武汉大学出版社,2009.

[16]BURSTEIN F.,HOLSAPPLE C W.Handbook of Decision Support System[M]. Berlin:Springer,2008.

[17]CRESSIE N. Statistics for Spatial Data[M]. revised edition. New York:John Wiley and Sons Inc. 1993.

[18]HAINING R. Spatial Data Analysis:Theory and Practice[M]. Cambridge:Cambridge University Press,2003.

[19]GROSSNER K.,GOODCHILD M,CLARKE K.Defining a Digital Earth System[J]. Transactions in GIS,2008,12(1):145-160.

[20] MILLS M P,OTTINO J M. The Coming Tech-led Boom[N].[2012-10-12].www.wsj.com.

[21]DAVID N RESHEF,et al. Detecting Novel Associations in Large Data Sets[J]. Science,2011(334):1518.

[22] SURHONE L M,TENNOE M T,HENSSONOW S F. Big Data:BigTable,Cloud Computing,Database Theory[M].Betascript Publishing,2010.

[23]涂子沛.大数据:正在到来的数据革命[M]. 南宁:广西师范大学出版社,2012.

[24]朱志军,佘丛国,闫蕾,等. 大数据:大价值、大机遇、大变革[M]. 北京:电子工业出版社,2012.

[25]Koperski K.A Progressive Refinement Approach to Spatial Data Mining[D].Ph.D.Thesis.British Columbia:Simon Fraser University,1999.

[26]INTERNATIONAL DATA CORPORATION.Electronic Medicines Compendium.2011 IDC Digital Universe Study:Big Data is Here,Now What?[R]. 2011.

[27]SMETS P. Imperfect Information:Imprecision and Uncertainty.In:Uncertainty Management in Information Systems[M].London:Kluwer Academic Publishers,1996:225-254.

[28] SMITHSON M J. Ignorance and Uncertainty:Emerging Paradigms[M]. New York:Springer Verlag,1989.

[29]KIM W,et al.A Taxonomy of Dirty Data[J].Data Mining and Knowledge Discovery,2003(7):81-99.

[30]HERNÀNDEZ M A,STOLFO S J.Real-world Data is Dirty:Data Cleansing and the Merge/Purge Problem[J]. Data Mining and Knowledge Discovery,1998(2):1-31.

[31]Dasu T.,Exploratory Data Mining and Data Cleaning[M].New York:John Wiley & Sons,2003.

[32]WANG S L.Spatial Data Mining Under Smart Earth[C]//Proceedings of 2011 IEEE International Conference on Granular Computing,2011:717-722.

[33]CRAGLIA M,BIE K,JACKSON D.,Digital Earth 2020:Towards the Vision for the Next Decade[J].International Journal of Digital Earth,2012,5(1):4-21.

[34]MIKE PHELAN.The Death of Big Data[EB/OL].(2012-10-04).Forbes http://www. forbes. com/sites/ciocentral/2012/10/04/the-death-of-big-data/,2012.

[35]MORGAN STANLEY.Cloud Computing Takes Off Market Set to Boom as Migration Accelerates[R]. 2011.

猜你喜欢

空间数据空间
创享空间
空间是什么?
创享空间
10项空间数据与信息传输领域国家标准正式发布
GIS空间数据与地图制图融合技术
创享空间
基于MapReduce的空间数据并行划分算法
网格化存储的几项关键技术分析
QQ空间那点事
空间