APP下载

地学大数据领域发展研究

2016-05-14程飞飞

中国科技纵横 2016年6期
关键词:数据量空间数据信息

程飞飞

【摘 要】随着互联网技术(包括移动互联网)的持续发展和进步,人们生活生产中所累积的数据越来越多,并且越来越发现数据的价值超乎寻常,越来越多的科技企业巨头投入到大数据的研究中,越来越多的互联网企业意识到拥有数据的意义。地理学领域,地理空间的各种观测数据逐年累积,现已达到地学大数据级别,那么地学大数据相比以往的地理学研究有什么样的变化和发展机遇,现阶段又遇到了什么样的瓶颈和技术难题,下面将就这些问题来论述。

【关键字】大数据 地理学 地学数据

【Abstract】With Internet technology (including mobile internet) development and progress, more and more data has been created, more and more people discover the extraordinary value of the data, more and more top Tec-company start to giant big data, more and more Internet business aware of the sense of the data. In Geography, various observation geospatial data accumulated from year to year, and now has reached the level of big-geodata, so what kind of new changes and new opportunities in big geodata era compared to the previous study of geography, the following issues will be discussed. at this stage what they encountered bottlenecks and technical problems.

【Keyword】Bigdata;Geography;Geodata

0 引言

伴随着以微博、社交网络、基于位置的服务(LBS)为代表的新型信息发布方式的不断涌现,以及云计算、物联网等技术的兴起,数据正以前所未有的速度在不断地增长和累积,大数据时代已经来到.学术界、企业界甚至于政府机构都已经开始密切关注大数据问题,并对其产生浓厚的兴趣.就学术界而言,《Nature》早在2008年就推出了Big Data专刊[1]。计算社区联盟(Computing Community Consortium)在2008年发表了报告“Big Data Computing:Creating revolutionary breakthroughs in commerce,science,and society”[2],阐述了在数据驱动的研究背景下,解决大数据问题所需的技术以及面临的一些挑战。《Science》在2011年2月推出专刊“Dealing with Data”[3]。美国一些知名的数据管理领域的专家学者则从专业的研究角度出发,联合发布了一份白皮书《Challenges and Opportunities with Big Data》[4]。全球知名的咨询公司麦肯锡(Mckinsey)2011年6月份发布了一份关于大数据的详尽报告“Big data:The next frontier for innovation,competition,and productivity”[[5],对大数据的影响、关键技术和应用领域等都进行了详尽的分析。2012年1月份的达沃斯世界经济论坛上,大数据是主题之一,会议针对大数据发布了报告“Big data,big impact:New possibilities for intrenational development”[6],探讨了新的数据产生方式下,如何更好地利用数据来产生良好的社会效益。3月份美国奥巴马政府发布了“大数据研究和发展倡议”[7](Big data research and development initiative),投资2亿以上美元,正式启动“大数据发展计划”。计划在科学研究、环境、生物医学等领域利用大数据技术进行突破。与此同时,联合国一个名为“Global Pulse”的倡议项目在今年5月发布报告“Big data for development:challenges&opportunities”[8],该报告主要阐述大数据时代各国特别是发展中国家在面临数据洪流(data deluge)的情况下所遇到的机遇与挑战,同时还对大数据的应用进行了初步的解读.《纽约时报》的文章“the age of big data”[9]则通过主流媒体的宣传使普通民众开始意识到大数据的存在,以及大数据对于人们日常生活的影响。

大数据作为一种新型战略资源,提供了一个在虚拟信息世界中透过该资源了解和掌握客观现实世界的前所未有的机会[10]。随着社会与经济调查与统计、对地观测技术、计算机网络和地理信息系统的快速发展和普及,具有空间位置的自然环境与社会经济数据近几十年快速增长,形成了海量的时空数据集[11]和时空大数据[12]。现在国际地理学的发展聚焦在:揭示复杂系统中的不平衡和动态,认识全球化 (包括环境" 经济“人口”政府和文化等)的潮流及其影响,建立从地方到全球的空间连续系列研究[13]。地理学的重要性越来越凸显,在国家的宏观发展策略、城市规划、军事武装等领域,地理学有着重要的作用,在这个大数据时代,如何正确认识地学大数据的意义,如何抓住地学大数据所带来的技术和应用的发展新机遇,如何助推地学大数据的快速发展,如何思考地学大数据的未来是接下来要探讨的问题。

1 大数据概述

1.1 大数据的定义

大数据尚未有一个公认的定义,不同的定义基本是从大数据的特征出发,通过这些特征的阐述和归纳试图给出其定义。在这些定义中,比较有代表性的是3V定义[14],即认为大数据需满足3个特点:规模性(volume)、多样性(variety)和高速性(velocity)。除此之外,还有提出4v定义的,即尝试在3v的基础上增加一个新的特性。关于第4个v的说法并不统一,国际数据公司(International Data corporation)认为大数据还应当具有价值性(value)[15],大数据的价值往往呈现出稀疏性的特点。而IBM认为大数据必然具有真实性(veracity)[16]。维基百科对大数据的定义[17]则简单明了:大数据是指利用常用软件工具捕获、管理和处理数据所耗时间超过可容忍时间的数据集。

1.2 大数据的来源

根据国际数据公司(IDC)的《数据宇宙》报告显示:2008 年全球数据量为0.5ZB,2010 年为1.2ZB,人类正式进入ZB 时代。更为惊人的是,2020 年以前全球数据量仍将保持每年40%多的高速增长,大约每两年就翻一倍,预计2015 年全球数据量将达到7.9ZB,2020 年将突破35ZB。同时,根据互联网数据中心的《中国互联网市场洞见:互联网大数据技术创新研究2012》报告显示:截至2011 年年底,中国互联网行业持有的数据总量已达到1.9EB,预计2015 年该规模将增长到8.2EB 以上。

这些大数据都是从哪里产生?大致可以分为以下几个方面:(1)大型专业研究机构产生大量的数据外(CERN 的离子对撞机每秒运行产生的数据高40TB);(2)观察测量性的数据(如对地观测,遥感卫星等等);(3)科学实验产生的数据(物理、化学或者生物实验);(4)越来越多的机器配备了连续测量和报告运行情况的装置。几年前,跟踪遥测发动机运行仅限于价值数百万美元的航天飞机。现在,汽车生产商在车辆中配置了监视器,连续提供车辆机械系统整体运行情况。这些机器传感数据属于大数据的范围;(5)计算机产生的数据可能包含着关于因特网和其他使用者行动和行为的有趣信息,从而提供了对他们的愿望和需求潜在的有用认识;(6)使用者自身产生的数据信息。人们通过电邮、短信、微博等产生的文本信息;(7)至今最大的数据是音频、视频和符号数据。这些数据结构松散,数量巨大,很难从中挖掘有意义的结论和有用的信息。

1.3 大数据的应用现状

大数据目前最主要的应用还是在企业中,当然科学研究中的应用也在不断拓展,大数据让企业找到许多不曾解决的问题答案,而在此之前企业甚至不知道问题是什么。这可能会产生引出新产品的想法,或者帮助确定改善运营效率的方法。不过,也有一些已经明确的大数据用例,无论是互联网巨头如谷歌、Facebook、LinkedIn还是国内的淘宝、腾迅QQ、新浪微博既是大数据的产生者、应用者,也是研究者。“大数据的工程技术研究已经走在了科学前面。”-- 李国杰院士

但是当技术解决不了的问题越来越多时,就需要科学家找出共性的问题。可是科学家并不了解每个领域的特点和问题,目前各个领域中“数据界”的共性还不太清楚。 在科学家如何与企业界相结合、共同解决大数据问题上,香港中文大学教授华云生提出,大数据的研究要结合实际用户问题,把问题、数据、平台集中起来解决。

大数据的研究对于科学家来说,具有“颠覆性”的意义,长期以来,许多领域都是在用小数据做科学实验,找出一个模型和规律。现在越来越复杂,有一堆数据看上去没有规律。科学家要找到新的研究方法,这种模式和方法的改变需要探索。要研究大数据的问题在哪儿,在应用中发现什么技术难题,这些有针对性的问题,不是凭空想出来的,是需要实践总结出来的。所以如何把大数据和科学研究很好地结合起来也是当今面临的一个问题。

2 地理学的大数据

2.1 地理数据是大数据的重要组成

“地理信息”是指自然地理要素或者地表人工设施的形状、大小、空间位置及其属性信息的总称,因具有空间位置特征, 通常又被称为“地理空间信息” 或“ 空间信息”(下文统一使用空间信息代指地理信息)。空间数据是空间对象具有了空间分布和地理位置的属性,因而不难发现,一切与位置相关的数据都具有空间特征。用于获取空间数据的手段很多,数据来源也十分广泛,如图1所示。

2.2 地理数据的特征

从地理学定义可以看出,数据是地理学的血液。从通过图件扫描、格式转换、实地测绘等方法的数据获取,到采用各种先进数据库技术对数据进行存储、管理,再到利用计算机图形学、地图学等综合可视化技术对数据进行展示,以及最终以数据为基础的借助于计量地理学、拓扑学、图论等学科的决策分析等,这些过程都是以据为核心的。随着地理学的发展,其数据呈现出数量大、种类多和结构复杂的特征。

2.2.1 地学数据量大

地学数据量大具有两层含义,第一层含义是指数据存储量大,这主要是针对栅格数据及多媒体数据而言的。 “天地图”在2011年正式上线的时候,集成了海量的基础地理信息资源数据,总数据量约有30TB,处理后的瓦片数近30亿。资源三号测绘卫星是中国第一颗民用高分辨率光学传输型测绘卫星,截止到2013年6月底,在运行的不到一年半的时间中,总共存档卫星影像37万多景,数据量达到249TB。而地里信息空间数据产生的商业价值每年正以15.5%的速度增加,是地理信息软件和服务的两倍。地理学数据量大的第二层含义是指数据单位个数多。“天地图”各类地名和POI(Point of Interest,兴趣点)有1100多万条,2011年8月竣工的国家西部1∶50000地形图空白区测图工程和国家1∶50000基础地理信息数据库更新工程两个国家级重大测绘工程,成果有20多万航片和8000多景卫星遥感影像,地名近600万条,描绘了1.4亿个地理要素。另外,其他专业领域比如土壤数据、气象数据在全数据模式下数量也是非常可观的。

2.2.2 地学数据种类多

地理学的数据种类多样,从大的方面看,具有矢量数据、栅格数据、属性数据,以及与地理位置相关的音频、视频等多媒体数据等;而从小的角度看,主要是因为数据来源广泛和不同应用的需求而体现为数据格式多样,资源三号卫星TLC(三线阵相机)标准产品中的1A级产品(预处理级辐射校正影像产品)包括的文件格式就有tiff、rpb、xml、jpeg等四种格式的15个文件。GDAL/OGR是地理空间数据转换的类库,多用来读取地理空间数据,根据GDAL官方网站的资料显示,GDAL/OGR支持的栅格数据多达132种,矢量数据有71种,这其中也包括了PostGIS、Spatialite、ArcSDE这样的数据源。

2.2.3 地学数据结构复杂

随着科技的发展,人们获取信息的方式越来越多,获取的数据量也呈爆炸式增长,而这些信息中大概85%是非结构化的。传统的地理信息主要有空间数据和属性数据两类数据,空间数据以二进制文件的方式进行存储,属性数据以二维表的方式进行存储,具有固定字段,另外还有以文本存储的投影信息等。如今在地学中,非结构化的数据越来越多,如Google Earth中用户可以上传基于地理位置的图片,iOS的相册提供了在地图上显示照片和视频信息的功能,像是LBS(Location Based Service,基于位置的服务)一类的应用,更是需要在地理信息的基础上,集成周边不同类型POI的详细信息、用户实时发布的文本或多媒体信息等,这些信息绝大多数都是非结构化的。在用于人口普查的地理信息系统中,基本的人口信息是结构化的,但是如果详尽一些的信息或是存储个性化的信息,若加入个体从小到大的教育经历、特长及奖项等信息,数据就会变为非结构化的,因为不是每个人都会有大学的教育经历,也不是每个人具有某种特长并得过奖项,这在数据库中表现为每个人需要有不同的数据项来记录这些细化的信息。

3 大数据对地理学的影响

现如今,地理信息不再只是把符号和数字作为其代名词,也不在仅仅局限于地理行业的需要。信息的使用者对地理信息的需求也不再局限于静态的、定期更新的信息,而更加倚重于公众参与更新的实时或准实时信息。大数据中包含空间位置信息的数据量激增给地理信息的发展扩大了“交际圈”。

物联网技术背景下的传感器数据、视频监控流媒体数据等,尚属新型待收纳和待管理的数据,这些海量新资源将有力拓宽地理学发展的平台,地理研究者能管理好、使用好这些新数据、新资源。

现在,地理学服务的对象不再局限于政府部门或者对地理信息有特殊需求的企业和单位,而是面向所有对位置信息有需要甚至仅仅是有兴趣的个人,这就使得服务端的需求呈现“大客户化”,数量庞大、类型众多的服务需求将严重挑战传统服务模式的承受度,使得服务商在服务资源的可伸缩性、服务效率的平衡性、服务类别的兼顾性上,都需要进行改革和创新,使新的地理信息服务模式能更加快速、友好、科学。

最后还要提及的便是,大数据给我们提供了非常有意义的认识,即地理信息技术在行业应用中所实现的信息共享,将能够为更多的用户提供有效且统一的数据展示手段。

4 地理信息对大数据技术的要求

4.1 数据的存储

一位美国大学的学者在其2012年文章里说:“Among all the definitions offered for “big data,” my favorite is that it means data thats too big,too fast,or too hard for existing tools to process。”所以现在大数据的规模、涌现速度和处理难点超出目前常规技术能管理、处理和分析的数据。传统的数据库技术面对大数据已经不敷使用。

地理空间的数据量正以爆发式速率不断的增长着,并且地理空间数据又多呈现出非结构化的属性,因此地理空间数据具有典型的大数据特征。于是对海量的空间数据存储这一问题,一直都是地理学的重点研究方向之一。如何将地学中的大数据进行共享,如何对大数据的文件进行管理与保护,如何解决大量的重复数据等问题,都将成为地理学在大数据时代下所面临的新挑战。

4.2 数据的处理和分析

全球数据量每两年翻一番。如此多的数据只有转化为信息才能有其价值,地学数据也只有被各个领域的地学研究者应用到实际研究中才能有意义,对地理学研究来说,发现空间知识是利用空间数据挖掘方法从大数据中抽取事先未知、潜在有用、最终可解的规则的技术,也是一个由空间数据到空间信息、再到空间知识的循序渐进、逐渐升华的过程。通过处理庞大地学数据集,有效的获取、描述、认知现有地理空间。分析地学大数据进行相关地学事件的预报预测。分析地学大数据对国家的重大决策进行支持,调控现有地理空间上发生的事件,合理分配资源。如在“一带两路”上基于现有庞大地理数据给出合理的建议。

5 结语

信息技术时代背景下,大数据、物联网、云计算等技术的出现,给地理信息带来了前所未有的机遇,同时也带来了巨大的挑战。在此之前,我国的地理信息技术的发展道路一直是向国外学习,但是现在我国和国外的同行站到了同一起跑线,怎么样实现追赶并超越是我国地理信息方面的学者、企业、以及相关配套人员应该着重研究的,现在我国的超级计算机技术已经实现世界领先,利用这一技术来进行大数据的处理和分析肯定更得心应手,大数据就是一座持续循环的金矿,等待我们去挖掘。现如今大数据在商业、搜索引擎、金融等领域已经广泛应用并取得很好的效果,我们应该把地理信息的大数据应用到实际中,并让它产生一定价值,这样才能更好的使其得到发展。

参考文献:

[1] Nature.Big Data[EBOL].[2012-10-02].

[2] Bryant RE,Katz RH,Lazowska ED.BigData computing:Creating revolutionary breakthoughs in commerce,science,and society[R].[2012-10-02].

[3] Science.Special online collection:Dealing with data [EBOL].[2012-10-02].

[4] Agrawal D,Bernstein P,Bertino E,etal.Challenges and opportunities with big data-A community white paper developed by leading researchers across the United States[ROL].[2012-10-02].

[5] Manyika J,Chui M,Brown B,et al.Big data:The next frontier for innovation,competition,and productivity[Rol].[2012-10-02].

[6] World Economic Forum.Big data,big impect:New possibilities for international development[ROL].[2012-10-02].

[7]王劲峰,葛咏,李连发等.地理学时空数据分析.201409,69(9)10.11821/dlxb201409007

[8]蔡运龙,陆大道,周一星等.地理科学的中国进展与国际趋势.地理学报,200411,59(6)803-810.

[9]《中国互联网市场洞见:互联网大数据技术创新研究2012》.

[10]李国杰,程学旗. 大数据研究:未来科技及经济社会发展的重大战略领域——大数据的研究现状与科学思考,中国科学院院刊,10.3969/j.issn.1000-3045.2012.06.001.

[11]王明才,姚承宽.对发展我国地理信息产业的若干建议[J].现代测绘,2010,33(2):62-64.

[12]周顺平,徐 枫.大数据环境下地理信息产业发展的几点思考.地理信息世界1672-1586(2014)01-0045-06.

[13]尤文辰,徐跃通,高尚.浅析GIS大数据.电脑知识与技术.ISSN 1009-3044.

[14]张德政,张萍萍.非结构化信息管理[J].微计算机信息,2006,22(3-3):218-219,239.

[15]袁磊,赵俊三,李红波.物联网空间仓库框架体系及关键技术分析[J].地理信息界,2013,11(1):58-62.

[16] 边馥苓.用数字的眼光看世界[M].武汉:武汉大学出版社,2011.

[17]王劲峰,李连发, 葛 咏等. 地理信息空间分析的理论体系探讨.0375-5444 ( 2000) 01-0092-12.

猜你喜欢

数据量空间数据信息
基于大数据量的初至层析成像算法优化
计算Lyapunov指数的模糊C均值聚类小数据量法
宽带信号采集与大数据量传输系统设计与研究
元数据驱动的多中心空间数据同步方法研究
基于文件系统的分布式海量空间数据高效存储与组织研究
客户端空间数据缓存策略
多源空间数据同名实体几何匹配方法研究