APP下载

国土空间大数据关键技术及场景应用

2022-02-14郑新奇

自然资源信息化 2022年5期
关键词:国土时空空间

郑新奇,肖 飞,3

(1.自然资源部国土空间大数据工程技术创新中心,北京 140083;2.中国地质大学(北京)信息工程学院,北京 140083;3.自然资源部信息中心,北京 100812)

0 引言

根据国际数据公司(International Data Corporation,IDC)统计数据,全球数据每18 个月会翻一番,2025 年,全球数据总量预计达175 ZB[1],时空数据规模增长非常快速。相关证据表明,80%的信息都与地理空间位置相关[2]。随着对地观测、移动互联网和物联网等技术的兴起,新型时空数据层出不穷,如视频监控、手机信令、位置服务等数据,不断丰富和扩展国土空间大数据的内涵。

国土空间大数据是国家管理下的领土、领海和领空等国土空间本体及其各类要素的数字化表达,是物质世界(包括自然界和人类社会)在数字世界映射的客观记录。国土空间大数据除了具备普通大数据大量性、高速性、多样性、价值性的“4V”特征,也具备丰富的时间、空间属性特征,为数据的管理、分析和应用带来了巨大的挑战。

(1)数据结构复杂多样,国土空间大数据具有类型多样、高度非结构化、大单体、多维度等特征,使得一体化数据管理和高效查询检索变得困难。

(2)数据动态变化对高维度分析计算提出要求,以人类活动为代表的时空移动对象动态数据越来越多,需要提供时空建模、索引、分析计算的能力。

(3)大数据和大规模计算场景性能不足,大数据时代下空间数据的体量小则百吉字节、大则太字节,对系统的存储成本、弹性能力、读写效率提出更高要求。

(4)智能化应用需求对多模态数据融合分析提出挑战,单模态数据智能化无法有效支撑复杂业务知识发现并探寻事物发展规律和趋势的需求。

国土空间大数据技术旨在全方位采集空间位置信息,高效存储与管理空间数据,对空间本体和要素的时空属性进行分析挖掘,涉及国土空间对象表达、数据建模、空间存储和索引、空间处理和优化、空间数据挖掘、空间数据应用等方面。本文研究了国土空间大数据的关键技术,分析了不同的应用场景,对未来国土空间大数据的发展进行了展望。

1 国土空间大数据的采集与存储技术

1.1 国土空间大数据采集

数据采集是一切信息处理活动的起点。当前数据采集设备呈现小型化、专业化、网络化、泛在化和智能化等特点,为国土空间大数据的获取提供了崭新的技术手段。从时空方面看,人们对国土空间数据的采集从局部、片段向全域、连续发展,从二维平面向三维立体发展;从参与主体和采集模式看,政府、企业、个人都参与了数据采集活动。

1.1.1 空天地一体化采集技术

当前地面互联网络、移动通信网络、空间网络不断融合,构建了覆盖全球的空天地一体化网络。它是以地面网络为基础、空间网络为延伸,覆盖陆、海、空、天等物理空间,为各类用户的活动提供信息保障的基础设施[3]。空天地一体化采集技术是以空天地一体化网络为基础,对包括人类活动在内的地球系统运动进行观测的技术。需要解决的关键问题是空间信息获取的一体化和智能化,空间数据处理的自动化、定量化和实时化,空间信息分发与应用的网格化;研究的核心是解决地球空间信息获取、处理等方面的基础理论问题[4]。通过空天地一体化采集与集成,能够有效扩展传统对地观测系统的能力,从而实现全球、全天候、全天时、全方位的空间数据获取与处理。

1.1.2 基于数据中台的采集技术

随着数据资源管理科学理论技术发展及人们对数据与业务细化分离趋势规律的不断认识,数据中台概念被广泛接受,主数据及主数据管理已经成为人们建设基础数据库的基本方法。数据湖和湖仓一体是数据中台建设中广泛应用的一项关键技术,依托各种分布式文件系统和计算引擎实现统一管理结构化、半结构化和非结构化数据,真正实现了多系统之间的数据共享。在为上层应用提供事务处理、联机分析等不同类型服务的过程中,实现实时采集和分析数据,如图1 所示。图1 中,ETL(extract transformation load)为抽取、转换、装载。在各级自然资源信息化建设实践中,国土空间基础信息平台成为各类现状、规划、管理、管控数据汇集和共享的核心[5],依托其数据中台作用,能够有效完成政府内部数据的采集治理。在各类企业应用中,数据中台的建设和应用实现了企业数据的采集治理与共享服务。

图1 数据仓库、数据湖和数据中台架构的演变

1.1.3 基于众包的采集技术

工程测量、航空摄影、卫星遥感等传统的时空数据采集方法具有采集精度高、可靠性强等特点,但是也存在工程耗时长、成本高等不足。随着互联网的全民普及和智能终端技术的快速发展,众包采集模式具有较好的规模效应,不受地域空间限制,在兴趣点(point of interest,POI)、空气质量、电子地图等空间数据采集方面的应用日益广泛。众包采集是指将传统上内部员工或外部承包商所做的数据采集工作外包给一些没有清晰界限的个人或群体的模式。在技术上,众包数据采集需要建立众包数据采集系统,实现任务的管理和推送、数据的采集和上报、数据质量控制和检查等功能。

1.1.4 基于人类行为的采集技术

人们参与各种经济社会活动,时刻处于国土空间的运动之中,不断产生大量的时空信息。如果这些运动能够被实时准确记录,将为人类活动数据采集提供一种新的途径。一种新的理念认为,人类自身作为传感器,可以通过有意或无意的人类活动采集数据[6],如人们使用社交软件或手机导航服务时发布和产生的数据。从人与传感器关系的角度看,人类行为的采集技术可以分为传统传感测量、被动人群感知和参与式感知。

(1)传统传感测量通过人工安装在环境中的传感器收集数据,例如,道路上设置的车辆检测传感器采集交通流量。

(2)被动人群感知指利用现有基础设施在无主动意识的情况下采集数据,例如,手机通信过程采集的位置信令。

(3)参与式感知则带有主动采集数据的意愿,积极获取周围信息,贡献自己的数据。

基于人类行为的采集技术虽然在一定程度上为国土空间大数据的获取带来便利,但是也存在隐私数据安全问题、样本缺乏控制或分布不均衡、噪声较多、隐性知识难以发现等方面的挑战,需要在数据处理和挖掘等方面深入研究。

1.1.5 基于权籍数据的采集技术

权籍是反映资源或财产的权属、位置、数量、质量和用途等基本状况的档案,包括地籍、不动产权、矿业权等[7]。权籍数据采集通过运用各种测量方法和手段明确其位置、大小、权属界址点等。传统的权籍调查主要通过全站仪、水准仪等测绘仪器进行数据采集,人工实地测量工作量大、作业效率低、调查成本高。随着信息化测绘技术装备的发展,倾斜摄影、激光雷达等技术逐步被应用到权籍测绘中,同时配合无人机、手持和车载等平台,能够提高外业生产效率,适合大面积权籍数据采集。另外,通过无人机倾斜摄影测量等手段,还可以实现权籍对象的三维立体数据采集,以适应数字孪生时代权籍信息化的管理需求。

1.2 国土空间大数据存储

空间数据库是物理存储介质上应用相关的地理空间数据总和。传统的空间数据库主要基于关系型数据库,对简单数据类型进行空间化扩展,并对空间数据存储、查询、索引等进行优化,例如,Post GIS 基于开源对象关系数据库管理系统(PostgreSQL)进行扩展,Oracle Spatial 基于甲骨文(Oracle)数据库进行扩展。国土空间大数据的多源异构、多模态、时空立体等特点使得传统的空间数据存储和管理模式已经无法满足其处理需求。例如,传统关系型数据库受强关系模式的设计限制,在扩展性、并发控制等方面遇到瓶颈,以静态数据为主的存储方式难以适应大数据流质性带来的挑战[8]。

各种非结构化查询语言(not only structured query language,NoSQL)数据库的出现,为解决国土空间大数据的存储问题提供了新的机遇。NoSQL 数据库以键/值、列族、文档等非关系模式为基础,没有固定的表结构,突破数据库原子性-一致 性-隔离性-持久性(atomicity-consistencyisolation-durability,ACID)的约束,具有灵活的水平扩展性,支持海量数据存储。基于NoSQL 数据库扩展实现空间数据管理功能,借助分布式计算框架提高空间数据计算性能成为研究热点。

1.2.1 存储引擎

针对非结构化、大单体的空间大数据特点,空间大数据存储引擎将数据按照一定规则进行切分,将其存储到集群中的节点,实现分布式的读写功能,目前主流的实现方式包括如下3 种。

(1)分布式关系型数据库如阿里云云原生关系型数据库PolarDB,在单机关系型数据库基础上进行分布式扩展,将多台物理机资源组织起来,整体作为一个数据库为应用提供服务,实现高并发场景下计算、存储、网络压力在物理机之间均衡。

(2)分布式文档型数据库如MongoDB,可以将地理空间数据存储为GeoJSON 对象或传统坐标对,再以BSON(类似JSON)作为数据模型,通过B 树索引将数据组织到多个逻辑容器,提供高可用、高可靠、弹性伸缩和自动故障转移的数据库服务。

(3)分布式文件系统如Hadoop 分布式文件系统(Hadoop distributed file system,HDFS),是一种经典的大数据存储引擎,将大文件分成若干大小相同的块(默认为64 MB),作为独立的单元以多副本的形式存储到集群中的节点,并实现高可用、高吞吐的数据存储。但由于其缺少对于空间数据模型、空间索引、空间查询等的支持,需要用户自行实现相关功能。

1.2.2 空间数据索引

空间数据索引是从空间数据库中获得数据的有效方法,可以快速访问一条或一组特定查询的数据,无需遍历整个数据库。常见的空间数据索引实现思路包括空间映射方法和空间分割方法等。由于空间索引的实现与其使用的空间存储引擎直接相关,不同的大数据存储引擎需要相应实现。例如,Spatial Hadoop 建立在Hadoop 分布式文件系统之上,使用MapReduce 计算引擎的空间扩展,建立了较完整的索引和访问功能,包括空间高级语言、两级空间索引结构、基本空间组件和范围查询、k 近邻查询(k-nearest neighbor query,KNN)工具等。

2 国土空间大数据的表达与可视化建模

2.1 国土空间大数据时空立方体

时空立方体是二维空间运动在时间维度上的当然扩展,是由二维的空间坐标系(X轴和Y轴)和一个时间维度(Z轴)组成的三维立方体,时间维度以离散或连续的形式表示。时空立方体可以按照时间或空间维度进行切片,最小的每个立方体被称为条柱。按时间维度切片后形成一系列时间片,按空间维度切片后形成条柱时间序列,如图2 所示。时空立方体模型为国土空间大数据的表达提供了理论基础,为开展新兴时空热点分析、局部异常值分析和时间序列聚类等时空模式挖掘提供了新的工具。

图2 时空立方体模型

2.2 国土空间大数据时空变化动态可视化技术

当前,时空变化的展现和表达主要以文字、报表、图片、地图等单一形式为主,导致人们对时空变化过程的分析限于局部、表面,难以获得全局和深层的时空信息认知。时空变化动态可视化技术在传统的静态视觉变量表示基础上,综合运用动态的表示符号和表示方法,对事物的发展演化过程进行展现和表达[9]。从时间动态角度看,对自然资源总量、结构等方面发展变化进行动态分析,桑基图提供了一种对时序数据流动方向、数量和结构变化关系的可视化表达。例如,根据年度国土变更调查结果,基于桑基图的变化路径可视化能够分析两个年度地类之间的转换变化关系。从空间动态角度看,可视化技术从二维向二三维一体化升级,需要重新搭建以三维(three dimensions,3D)数据模型为基础的显示引擎,并借助图形显卡的计算能力解决国土空间大数据场景下海量数据加载、图形场景计算、显示特效渲染等方面的技术瓶颈。

2.3 国土空间大数据MR 技术

混合现实(mixed reality,MR)技术,是在虚拟现实(Virtual Reality,VR)和虚拟增强(Augmented Reality,AR)技术融合基础上的最新发展,将虚拟世界和真实世界合成一个无缝衔接的虚实融合世界,核心保证物理实体和数字对象满足真实的三维投影关系,实现“实幻交织”,用户难以分辨真实世界与虚拟世界的边界[10],如图3 所示。MR 技术本质上是一种更加自然、高效的人机交互方式,涉及用户界面形态、交互对象注册跟踪、动作手势识别、3D 交互、触觉反馈、眼动跟踪等一系列关键技术。同时,受交互技术、界面范式、社会认可等方面的约束,能够更加真实地虚拟表达自然资源现状,开展基于远程MR 交互的资源评估、交易和开发利用活动,全面拓展资源流通和管理的时空限制,促进自然资源全面节约和高效利用。

图3 MR 与AR、VR 和真实世界之间的关系

3 国土空间大数据分析与挖掘技术

3.1 时空变化分析技术

时空变化过程是生态与环境、社会经济和地理系统的基本运动形式之一[11],自然资源管理中的很多问题都可以利用时空变化过程进行描述和建模,如土地利用变化、人口迁移、空间格局改变等。受自然地理、气候条件、经济社会等多种因素共同作用,准确理解和刻画时空变化过程非常困难,需要针对性的分析技术。从驱动机理角度看,时空变化过程可以分为以下两种情况:

(1)对于确定性的变化过程,相关研究可以基于相对确定的作用机理,运用基于数据的时空过程因子识别、多元线性回归、空间连接检验、莫兰(Moran)散点图等方法,分析变化过程的影响因素及其相互作用。

(2)对于尚无明确作用机理的变化过程,可以通过空间相互作用、空间分形、空间元胞自动机、随机过程等方法建立时空仿真模型,并结合地理信息系统(geographic information system,GIS)对时空变化过程和结果进行分析。

3.2 智能挖掘技术

由于时空信息具有复杂性和隐含性,深层的时空知识往往难以被简单发现。智能挖掘技术从海量、多维、高噪声和非线性等特性的时空数据中提取潜在隐含、事先不知道但又潜在有用的信息及知识,包括时空模式发现、时空聚类、时空异常检测、时空预测、时空分类、时空推理等[12]。时空模式发现需要找出隐藏在大型时空数据集中的有意义时空联系,包括频繁模式、周期模式、共现模式、关联模式等,例如,通过手机信令数据分析群体的通勤出行规律。时空聚类根据数据在空间、时间和属性上的相似度将其划分到不同的分组,使得组内相似性尽量大、组间相似性尽量小,例如,通过分析台风活动数据对其类型和影响进行评估,辅助预测台风运动特征。

3.3 地理空间深度学习技术

深度学习又称表征学习,是一种研究信息最佳表示和获取方法的技术,是在神经网络或信念网络的情况下对基于深层结构或网络表示的输入输出间映射进行机器学习的过程。从信息表达的概念看,深度学习可以根据特定任务的需要,将高维数据中蕴含的信息进行极限压缩。例如,在图片分类任务下,卷积神经网络(convolutional neural networks,CNN)、图神经网络(graph neural networks,GNN)等深度学习模型,可以将包含几千万个像素的图片信息压缩为若干个类别标签。

在地理空间领域,特别是遥感方面,很多应用问题都可以在计算机视觉方面找到与之对应的深度学习方案,如土地利用分类(语义分割)、森林砍伐和洪水监测(变化检测)、冰川流动(像素跟踪)、飓风跟踪和强度估计(回归)以及建筑和道路检测(对象检测、实例分割)等。与传统的深度学习相比,遥感影像通道数多、存储容量大,并经常会进行数据的扩充和光谱指数的转化[13],因此地理空间深度学习需要考虑多波段、大尺寸、多影响因素条件下的深度学习问题,并且将经典的遥感统计方法和知识与计算视觉领域深度学习技术进行融合,开辟地理空间深度学习的技术体系;需要考虑构建标准化的地理空间样本数据集和模型评测基线,方便模型重现和性能比较;还需考虑如何以自监督学习的范式,在大数据样本集上构建迁移性较强的预训练模型,实现跨图像模式(光学、合成孔径雷达、多光谱)、跨卫星平台等的学习能力。

4 国土空间大数据的场景应用

4.1 自然资源“一张图”建设及应用

自然资源“一张图”建设是《自然资源部信息化建设总体方案》中确定的主要任务之一,要求按照统一的标准,形成地上地下、陆海相连、集成融合、可持续更新的自然资源三维立体“一张图”大数据体系[14]。“一张图”的概念由来已久,它是为满足自然资源参与宏观调控、资源监管、形势分析、辅助决策支持和社会化信息服务提供数据支撑所必要的政策、机制、数据及其管理、技术、标准、应用、基础和服务的总和[15],在建设用地等各类审批中作为空间合规性辅助审查的重要依据[16]。“一张图”为国土空间规划编制和监督实施提供信息服务,在此基础上开展资源环境承载能力和国土空间开发适宜性“双评价”,并为自然资源决策支持提供基础数据支撑。

4.2 国土空间规划机器人

在建立“五级三类”国土空间规划体系的过程中,将大数据和空间智能技术交叉融合,构建国土空间规划机器人,是提高国土空间规划编制、审批、实施监督等环节智能化服务水平的关键。规划编制环节在“统一底图、统一标准、统一规划和统一平台”的国土空间规划“一张图”系统基础上,通过GIS 与系统动力学(system dynamics,SD)模型、元胞自动机(cellular automate,CA)模型及基于智能体建模(agent-based modeling,ABM)的整合集成,构建基于时空动力学的复杂系统仿真模型[17],实现规划问题的自动识别、规划方案的智能生成、规划效果的高精度模拟仿真。规划审批环节利用计算机自动实现设计条件提取、建筑规划方案“图审”等智能审批工具,提高用地规划审查等审批效率。面向规划社会服务,国土空间大数据通过互联网为开发单位提供智能规划选址工具,提升全社会土地资源利用效率。此外,国土空间规划机器人的构建还需要突破语音识别、语义检索、智能问答、规划知识图谱等一系列人机交互和人工智能技术难点。

4.3 城市体检

针对城市发展过程中面临的“大城市病”问题,新的国土空间规划体系提出“健全规划实时监测、定期评估、动态维护制度,建立城市体检评估机制”的要求,并在北京、上海等12 个城市试点开展城市实时体检评估。城市体检是指针对城市发展过程中一系列社会管理和公共服务问题进行现状分析与评价[18]。从数据可获取性角度看,国土空间大数据为城市体检提供了丰富的数据基础,城市中广泛分布的各类主动和被动式传感器为全面感知人类活动与城市之间的关系提供数据。从信息传导角度看,城市体检工作涉及数据的采集与存储、分析与挖掘、表达与可视化等技术,需要国土空间大数据全过程的技术支撑。

4.4 国土开发利用碳足迹跟踪

中国提出2030 年“碳达峰”与2060 年“碳中和”(以下简称“双碳”)的目标,实现这一目标既要关注数量的变化,也要关注空间格局的变化,建立碳中和的国土空间格局就是实现这一目标的关键。相关研究运用国土空间大数据技术,建立土地利用时空动力学模型,实现土地利用与碳排放和碳汇之间的时空耦合分析[19]。在碳源部分,测算土地利用中土地利用类型变化所产生的碳排放情况,得到土地利用类型变化与“双碳”目标的相关联系。在碳汇方面,测算绿地、耕地、园地、水面等产生碳汇的土地利用类型的碳汇系数。通过细分碳源、碳汇用地类型,建立碳排放计算方法与相关系数,对未来中国碳排放进行定量耦合计算。可以通过国土空间开发利用碳足迹跟踪,分析评估国土空间规划多政策情景下土地利用变化结果对中国“双碳”目标的影响。

4.5 地质灾害监测与预警

中国是世界上地质灾害威胁最严重的国家之一,地质灾害分布广、危害大。建立服务于长期部署、中期防范和短期应对的地质灾害预测、预报、预警工作机制是自然资源部门的重要职责。国土空间大数据是地质灾害“技防”的重要支撑手段,利用合成孔径雷达干涉(interferometric synthetic aperture radar,InSAR)技术和激光雷达(light detection and ranging,LiDAR)技术实现对地球表面毫米级位移的全天候全天时监测,通过构建“天空地”一体化的多源立体观测体系对潜在的重大地质灾害隐患进行早期识别,针对性排查潜在的地质灾害隐患[20]。结合全球卫星导航系统(global navigation satellite system,GNSS)、裂缝计、雨量计等地面传感器和坡体内部传感器,对发现的隐患点进行精准密集监测,通过位移、应力等监测指标及时准确预警,提前采取转移或加固等措施,有效降低地质灾害造成的损失。

5 结语

自然资源工作区别于其他行业的一个重要特点就是其管理对象的空间化,建立空间思维、掌握空间状况、保障空间底线、协调空间关系、提高空间效率、打造空间品质是实现国土空间高质量发展的必然要求。国土空间大数据技术的发展和进步为有效应对国土空间面临的问题和挑战提供了前所未有的机遇。人们每时每刻都产生并为社会贡献海量数据,同时也享受着通过数据的真知灼见带来的生活便利,政府部门也在努力利用这些数据优化公共政策。

在数据采集获取方面,传感器小型化、轻量化成为不可阻挡的趋势。目前,测绘人员可以使用手机的激光雷达开展室内测绘;智能汽车通过安装更多的激光雷达,应对更加复杂的自动驾驶场景。

在数据表达建模方面,国土信息模型(territorial information model,TIM)、建 筑信息模型(building information model,BIM)加速融合,元宇宙(Metaverse)的概念已经被社会认同,数字孪生也不再是静态的3D 模型或对物理世界单体的独立映射,而是对物理对象、资产或系统进行动态、持续更新地表达,这就需要多传感器的实时数据源输入,通过数字世界和物理世界之间的联系为管理和决策提供更科学的判断和预测。

在数据分析挖掘方面,人工智能空间分析未来还将加速演进,并且带来国土空间大数据、大模型、大算力等方面能力的持续提升。目前,空间分析和挖掘模型大都以机器执行固定的计算逻辑为主,并没有真正实现空间知识的深度表达和底层编码表示,跨尺度、跨任务、跨数据类型且具有良好迁移和泛化性能的地理系统基本模型还有待研究。

猜你喜欢

国土时空空间
跨越时空的相遇
空间是什么?
新时期国土空间规划编制的思考
镜中的时空穿梭
创享空间
鲜花盛开的国土
守望国土的藏族姐妹花
守望国土的藏族姐妹花
玩一次时空大“穿越”
时空之门