APP下载

一种基于空间特征的地理实体编码方法

2018-11-02王云帆

测绘通报 2018年10期
关键词:矢量编码实体

王云帆

(国家基础地理信息中心,北京 100830)

我国是遭受自然灾害影响十分严重的国家,加强救灾应急体系建设是关系国家经济社会发展全局和人民群众切身利益的大事[1]。其中数据资源保障是整个应急救灾体系的重要基础,更是应急救灾指挥调度的前提。根据以往在应急制图方面的经验,单一的数据源往往不能满足应急制图过程中的需求,因此在实际应急制图过程中,通常会将国家基础地理信息数据、地理国情监测数据、天地图数据、志愿者制图数据等多尺度多源异构的地理信息数据进行快速匹配融合。但现有对数据源要素进行匹配的地理要素编码和匹配方式存在以下几个问题:①编码没有任何规律,且是一个局部的唯一[2],因此造成不同单位提供的矢量要素数据中,对于同一实体要素的编码完全不同,导致在信息交换和共享时几乎难以应用;②每一个实体都必须人工赋予编码,无法用程序批量完成,工作量巨大,更新与维护不便,且容易造成人为错误[3];③编码的唯一性存在歧义,即不同行业对同一种基础地理要素编码不唯一;④编码的内容中包含诸如行政区划等人文要素,一旦行政区划进行调整,则整套要素编码必须作调整甚至重新编码[4];⑤编码过程通常受人工干预和人为误差的影响[5]。

针对以上问题,亟需研究出一种能够对地理实体空间特征进行分析,并通过要素编码方法来唯一标识地理实体的技术,将地理实体的匹配转化为要素编码的匹配,最终实现在实际应急制图过程中要素的快速匹配融合。本文基于开放位置编码技术(open location code,OLC),提出一种基于矢量要素位置和几何特征的OLC唯一编码匹配技术,能够解决不同数据源的地理要素统一编码问题,且能够减小地名、地址不清晰不完备对编码的影响,编码过程自动完成,减少人为误差对编码的影响。应用这项技术可以建立一个应急专题数据库,解决多源空间数据融合后数据难以更新的问题,并为今后应急制图提供数据保障。

1 基于矢量要素位置和几何特征的OLC唯一编码匹配技术

1.1 基于OLC的地理实体编码方法

OLC是对WGS-84坐标系统中经纬度坐标进行的编码,首先计算0~9和A~Z中所有可能的20字符组合,然后对其用超过30种语言拼写10 000个单词的表现进行打分,最终选出尽可能避免生成可辨识单词的20字符组,如“23456789CFGHJMPQRV WX”[6]。OLC编码对以度为单位的WGS-84坐标系进行编码,解码后得到一片区域而不是一个点。编码区域取决于编码长度,编码越长,返回的区域越小,越精确。两位编码包含20°的高和宽,每在编码中增加两位,高和宽就分别除以20。

用18×9的格网覆盖整个地球,每个网格是20°×20°的区域。OLC的初始两位数定义了其中的一个网格区域,第一位为行坐标,表示纬度,第二位为列坐标,表示经度。后续步骤继续将每个小区域划分为20°×20°的网格,并用一位定义所在行,另一位定义所在列。

通常,10位编码(1/8000°的分辨率)对大多数位置来说精确度已经足够,但是在楼房密集的区域,10位编码所表达的区域可能覆盖了多个建筑。而12位编码的区域边长已经小于1 m,因此11位编码在长度和精度上最为适中。在11位编码的算法中,第10位所表达的区域被划分为4°×5°的网格,其中每一格都由单独的一位数字表示。11位编码表达了一个1/32 000°×1/40 000°的区域,约为3.4 m×2.7 m。

1.2 基于矢量要素和几何特征的要素统一编码方法

传统的OLC编码方法只考虑了目标定位问题,而没有考虑地理要素匹配问题,因而没有顾及矢量要素位置和几何特征,难以直接用于不同数据源矢量要素的匹配。本文提出的基于矢量要素位置和几何特征的OLC唯一编码技术是对OLC编码技术的扩展。

矢量数据的类型有点、线、面3种表现形式[7],为了使3种形式具有统一的表达方式,本文选取了一些能反映数据几何特性的关键点,将这些点的OLC码串联作为该地理要素的编码。

点要素直接使用OLC的11位开放位置编码进行标识。

线要素取起点、终点、折线中点和包络的两对角点,作为描述其几何特性的关键点,如图1所示。

图1 线要素特征描述关键点

图1中,A1、A3分别为起点和终点,A2为折线中点,A4、A6和A5、A7为最小矩形包络的两对角点。

面要素选取重心和包络的两对角点作为关键点。

面要素几何特征点选取如图2所示,其中A5为面要素几何形状的重心位置,A1、A3和A2、A4为最小矩形包络的两对角点。

为了使编码更具有区分性,可以在编码中加入要素类型和比例尺信息,并用“#”符号与几何编码区分开来。

图2 面要素特征描述关键点

1.3 基于OLC编码的地理实体匹配技术

矢量数据的匹配技术是GIS空间数据更新研究领域关注的重点问题之一,是实现多尺度多源地图协同更新的关键技术[8]。地理实体匹配的一个主要方面是合理地选择空间实体的相似性测度与相似度指标,而这依赖于地理要素所具备的特征,其特征和算法构成了地理要素的匹配指标[9]。相似度指标作为同名地理空间实体匹配的依据,指标的测度与合理选择直接影响匹配算法的效果。地理空间目标的相似性包括图形相似性和语义相似性,图形相似性又可分为几何相似性(距离、形状、角度和方向等)和上下文环境相似性[10]。

研究目标相似度的综合计算模型,可以快速准确地识别不同来源数据集的同名实体,为地图更新打下坚实的基础。本文考虑了点-点、点-面、线-线、线-面和面-面共计5种匹配关系。其中,点-点匹配只需比较其OLC编码,计算它们开放地址编码字符串的相同长度比例即可,线-面匹配可转化为线-面中心线的匹配。因此不同矢量数据之间的比较最终成为点-面、线-线和面-面3种类型的比较。对于点-面相似度计算,可通过比较点要素和面要素的重心来实现,其计算如下

(1)

式中,A和B分别表示点要素和面要素两个地理空间目标;S(B,A)表示目标B和目标A的相似度;(x,y)是对应点要素的点坐标或面要素的重心坐标;U为面要素最小矩形包络对角线的长度。点要素和面要素重心越趋于同一点,所得到的相似度越接近于1,即两者的相似度越高。

对于线-线匹配的情况,线的长度、方向,以及两条线关键点的距离,都是影响判断的重要因素。对于表示同一地理实体的两条线,其长度、方向和关键点的位置应该十分接近,因此可用以下公式计算线-线相似度

(2)

式中,A和B分别表示两个线要素地理空间目标;(x,y)是对应线要素的折线中点坐标;L为长度计算操作;θ为方向角计算操作,计算线要素起点和终点的方向;U为线要素最小矩形包络对角线的长度;α、β、γ为权重参数,且α+β+γ=1。当两个线要素的长度越接近、方向越一致、折线中点的距离越小时,两者相似度计算结果就越接近于1,即两个线要素的相似度越高。

对于面-面匹配的情况,面的重心位置、重合区域,以及两个面的主方向,都是影响判断的重要因素。对于表示同一地理实体的两个面,其重心、覆盖区域与主方向应该十分接近,因此可用以下公式计算面-面相似度

(3)

式中,A和B分别表示两个面要素地理空间目标;(x,y)是对应面要素的重心;L为长度计算操作;θ为方向角计算操作,计算面要素最小面积包络的主对角线方向;U为最小矩形包络对角线的长度;α、β、γ为权重参数,且α+β+γ=1。当两个面要素的重心位置越接近、表达区域重合度越高、主方向越一致时,两者相似度就越高,计算结果越接近于1。

为了提高匹配效率,在进行匹配前应对待匹配数据进行预处理,统一坐标系并去除粗差,然后通过对应数据的OLC编码进行粗匹配。对于要比对的两点,首先使用其OLC编码进行初匹配,如果不同,则认为两组数据并不匹配。对于OLC编码相似度较高的数据,再通过式(1)—式(3)计算得到其相似度的值,当相似度大于设定的阈值时,则认为两者匹配,将其写入匹配表中。

2 试验结果

为验证本文研究方法的有效性及理论的合理性,应用C++编程语言开发地理实体匹配工具,用于理论验证。

以不同尺度下的地理信息数据进行统一编码和要素相似度匹配试验,针对地理实体的3种要素类型点、线、面进行统一编码,再根据本文方法进行相似度匹配。为验证方法的可行性,设计点与点、线与线两类匹配试验,获得如下结果。

试验1:点要素与点要素进行要素匹配,使用1∶25万公开版国家基础地理信息数据和1∶100万国家基础地理信息数据,分别提取天津市区域的数据,使用1∶25万和1∶100万点要素AANP层进行试验,根据OLC编码规则,对点要素进行统一编码,编码结果如图3、图4所示。

由图3、图4可知,OLC属性项分别为1∶25万和1∶100万基础地理信息数据的OLC编码。根据编码结果,使用本文方法对要素进行相似度计算,部分结果如图5所示。

图3 1∶25万基础地理信息数据点要素AANP层要素OLC编码结果

图4 1∶100万国家基础地理信息数据点要素AANP层要素OLC编码结果

图5 点要素层相似度计算部分结果

其中OID为序号,ID_A和ID_B分别为1∶100万和1∶25万点要素AANP层的要素OLC编码,SCORE为根据本文方法计算出的相似度概率,在匹配过程中可以通过阈值设定根据相似度进行要素匹配融合。

试验2:线要素与线要素进行要素匹配,使用1∶25万公开版国家基础地理信息数据和1∶100万国家基础地理信息数据,分别提取天津市区域的数据,使用1∶25万和1∶100万线要素LFCL层进行试验,根据OLC编码规则,对线要素进行统一编码,编码结果如图6、图7所示。

图6 1∶25万基础地理信息数据点要素LFCL层要素OLC编码结果

图7 1∶100万基础地理信息数据点要素LFCL层要素OLC编码结果

由图6、图7可知,OLC属性项分别为1∶25万和1∶100万基础地理信息数据LFCL层要素的OLC编码。根据编码结果,使用本文方法对要素进行相似度计算,结果如图8所示。ID_A和ID_B分别为1∶100万和1∶25万点要素LFCL层的要素OLC编码,SCORE为根据本文方法计算出的相似度概率,在匹配过程中可以通过阈值设定根据相似度进行要素匹配融合。

图8 线要素层相似度计算结果

3 结 语

根据本文提出的算法对不同数据源进行统一编码,并依据空间几何特征对地理实体统一编码,通过空间相似度计算和编码相似度计算进行匹配。试验表明,该方法为解决多尺度多源异构数据的地理实体匹配提供了一种新的思路,通过对地理实体进行统一编码,将空间要素匹配转化为文本格式的编码匹配,可以提高多源异构空间数据匹配效率,为满足应急制图过程中多源异构数据匹配融合的需求提供了一种方法,简化了现有地理空间数据库更新的难度。本文算法可扩展应用于GIS多元数据匹配融合、数据更新等领域,并应用于应急专题数据融合处理,为今后应急制图提供数据保障。

猜你喜欢

矢量编码实体
生活中的编码
一种适用于高轨空间的GNSS矢量跟踪方案设计
矢量三角形法的应用
《全元诗》未编码疑难字考辨十五则
子带编码在图像压缩编码中的应用
前海自贸区:金融服务实体
实体书店步入复兴期?
Genome and healthcare
两会进行时:紧扣实体经济“钉钉子”
振兴实体经济地方如何“钉钉子”