APP下载

顾及语义关联信息的道路选取方法

2021-11-13陈晓东余劲松弟

关键词:缓冲区路网关联

陈晓东,余劲松弟

(福州大学数字中国研究院,福建福州 350108)

道路选取是地理信息科学领域的热门研究问题,涉及地图导航、交通情况分析、制图综合等多个方面的应用[1-2],作为路网综合的关键组成部分,对于优化道路资源配置、指导道路层次建模,以及多尺度的地图表达具有重要意义[3-4].道路选取涉及2个方面的问题:选多少和选哪些.前者是道路选取比例或数量的问题;后者是综合多项因素进行结构化选取的问题[5],后者是本文研究的重点.

目前,关于道路选取方法的研究主要涉及2类特征[6-13]:1)以几何特征和语义特征为代表的道路个体特征;2)以拓扑特征和空间分布特征为代表的道路整体特征.由早期的主要基于道路等级的简单选取[14],发展到基于4类特征中的多种多项指标进行综合性的道路选取,但是指标选取的范围主要集中于道路自身特征,忽视了道路所处空间的复杂性,以及地理要素之间的相关性.

一条道路的重要性,不仅与其几何、拓扑、语义和空间分布特征有关,更重要的是与其周边重要地物或设施的关联[15].常通过创建道路缓冲区的方法,建立道路与周边要素的关联,以空间关系来计算道路关联的信息,例如徐智邦[15]等创建30 m的缓冲区,计算道路关联的POI设施;张云菲[16]等创建30 m的缓冲区,计算POI连接的道路;袁林辉[17]建立300 m的缓冲区,计算POI密度.但建立缓冲区的计算方法2个缺陷:1)因道路分布密度的差异,对路网建立固定量值的缓冲区,可能会造成道路关联信息计算不均衡的问题;2)不同的地区,其路网和周边要素的分布特征也存在一定的差异,难以调整缓冲区的阈值.缓冲区的阈值调整问题,其实质上是一种关联信息计算的调优问题,不同地区的路网分布和道路周边要素的分布特征都有所不同,使得该方法在不同地区的应用,需要进行重复性的最优化阈值调整.对于关联特征计算不均衡的的问题,除了路网和道路周边要素的分布影响,缓冲区计算的方法也存在固有的缺陷,初始状态的道路也存在着等级划分,高等级和低等级的道路其影响范围不同,以缓冲区的等值阈值计算不同等级道路的关联信息,也会造成信息计算的不均衡性.

道路与其周边要素关联信息的计算实质上是空间关系的计算,如缓冲区的方法类似于点面关系的拓扑计算,缓冲区阈值的调整,使保持不动的点和变动的面之间会存在3种情况:1)点不属于任何的面;2)点属于某一个面;3)点同属于多个面,这使得不同的阈值计算的结果会存在较大的偏差.空间关系是基于空间位置信息进行计算和处理.空间位置主要表达形式为地址和坐标,以重复的坐标点和闭合的坐标串的计算,来调整缓冲区的阈值,使得在优化阈值的同时会影响计算的效率.相比坐标的多种表现形式和计算的复杂性,地址的表达形式更加稳定.根据《GB/T 23705-2009数字城市地理信息公共平台地名/地址编码规则》提出的地址的层次规则,可以得出道路名是地址中的重要结构,每个地址都有其直接或间接关联最紧密的一条道路,具有相对稳定性和唯一性.通过对道路周边要素地址的解析,能得到每个要素关联最密切的道路,建立道路与其周边要素的关联关系.

综上所述,笔者提出一种顾及语义关联信息的道路选取方法,不同于通过空间位置信息中的坐标来计算道路与其周边要素的空间关联,通过空间位置信息中的地址来计算道路与其周边要素的语义关联,兼顾了道路自身的主要特征和其周边要素的关联特征,进一步地完善了道路的指标体系,优化了道路的选取方法,能够提高道路选取的完整性.

1 道路指标分析及关联信息计算

1.1 指标分析为了满足多尺度、多领域和高精度的道路应用需求,需要不断地优化道路评价体系和选取方法,而实现这一切的前提是科学的指标选取.道路选取既要考虑指标的广度和深度,又要考虑实施的可行性.道路的特征是一个很大的范畴,涉及道路个体和道路整体的各个方面,常用的特征有几何、拓扑、语义和空间分布特征.

道路的长度和宽度是最重要、最常用的几何特征[15,18],计算方法也相对简单,通过简单的几何计算和等级关联,就可以获取2项指标.道路的语义特征是4个特征里面范围最广的一个,众多道路的属性都可以用来表达和区分道路特征,例如:等级、限速、层级等.但其极度依赖于数据质量,语义指标值的缺失,很难计算和补充,比较容易计算和常用的主要有等级和限速[18-19].不同种类指标间也具有相关性,在《城市综合交通体系规划标准》中等级、路宽和限速三者间存在紧密的相关性,得到任意两者的指标,都可以将余下的指标值控制在一个很小的区间内,在优化指标体系的同时,降低数据质量对道路选取的不利影响.

道路的连通度、中介中心线和接近中心性是常用的3个拓扑指标[12].其中连通度能最直观的表达该道路在路网结构中的重要性,中介中心线和接近中心性是偏向于路网整体的特征.对于局部区域的路网选取不够理想,悬挂参数是对道路悬挂点的计算,是与连通度相辅相成的一个指标[17].

广义上道路的空间分布特征,不应该局限于道路自身,应该扩展到与道路密切相关的要素上.狭义上道路的周边要素与道路的关系,可以看作一种关联特征,是对道路影响力或重要性的一种表达,关联越多,关系越复杂,说明该道路的外在影响力越强.

1.2 关联信息计算对于道路和周边信息的关联处理,关键在于找准两者间的连接点.从GIS的角度上,多从空间上入手,以空间位置为纽带,建立数据之间的关联.常用的空间位置表达方式有2种:空间坐标和空间地址.空间坐标常以数值的形式进行处理、计算和分析,相比于地址在位置上的表述更加精确,但在稳定性和计算强度上略有不足,数据或实体的空间位置存在着不同类型的坐标值,在存储和转换中存在一定的偏差.地址信息具有稳定的表达方式.在计算强度上,判断两者之间的关系,坐标计算需要进行坐标或坐标串数值计算,而地址可以直接通过语义上的比较建立关系.因此,从数据处理的稳定性和计算强度上考虑,通过对地址的解析处理,来实现道路和周边信息的关联计算.

以POI数据为例,建立道路和周边信息的关联.首先对POI数据地址的处理,需要考虑地址结构的特点和道路的特征词.根据《GB/T 23705-2009数字城市地理信息公共平台地名/地址编码规则》提出的地址的层次规则,可以得出道路名属于地址第二层次的关键部分,在标准地址中出现的道路是相对唯一.在通用地址中,一条地址可能会拆解出多个道路,如道路交叉口和大小路组合的形式.从道路选取的意义上考虑,正则表达式会优先提取地址中正向第一个的道路,道路通用的特征词包括路、道、大道、大街、街等.正则表达式的匹配模版以通用道路特征词为基础,结合地址中道路命名的地区特点进行补充,编写正则表达式提取代码,并保存输出.其次,将输出结果和路网的道路名信息导入MySQL数据库中,分别建立路网数据表和地址数据表.通过编写SQL语句,计算POI数据中相同道路名出现的频数,并根据道路名将计算出的频数,赋值给路网数据表.最后,对于路网数据表中无频数的道路,通过相似度查询比对,并以空间中地址点和道路线的显示为参考,统一道路名并补全缺少的道路频数,获取完整的路网道路的语义关联信息,具体流程如图1所示.

图1 关联信息计算的主要流程

按照图1中流程对区域内地址数据和路网数据处理后,计算出道路的关联频数值,并与道路长度值做除法,计算道路的关联密度值,以关联频数值和关联密度值作为道路的2个关联特征指标.

2 顾及语义关联信息的道路选取方法

2.1 指标选取及操作流程在考虑道路的几何特征、语义特征和拓扑特征的基础上,增加了关联特征,综合4类指标进行道路重要性评估和选取.每个特征对应指标如下:1)几何特征包括道路长度和道路宽度;2)语义特征包括道路等级和道路限速;3)拓扑特征包括连接度和悬挂参数;4)关联特征包括道路的关联频数值和关联密度值.

在选取好道路关键指标的基础上,通过路网数据获取和计算几何、拓扑和语义特征指标,并与道路关联POI数据中计算出的关联特征指标,共同构建道路重要性评估模型,计算各条道路的重要性值,依据道路选取的数量、比例或重要性的阈值,从路网中抽取符合条件的道路,操作流程如图2所示.

图2 本文方法的流程

2.2 道路重要性评估模型定权方法对于多指标的道路重要性评估模型,确定合理的指标权重系数,将直接影响到评估模型结果的科学性[20].确定权重系数的方法有2种:功能驱动赋权法和差异驱动赋权法.功能驱动赋权法是基于定权者对各评价指标的认知程度来确定权重系数,其主观性较强.差异驱动赋权法主要根据数据之间的关系来确定权重,具有较强的数学理论基础[4].熵值法是一种客观赋权法,能够根据各属性的量化值,计算出各属性的变异程度.通过信息熵的方法,最终得出较为客观的属性权重,广泛的用于科学研究、工程技术和社会经济等领域[13].考虑到道路重要性评估模型指标的复杂性,以及指标值之间的度量偏差,最终决定通过熵值法计算各指标的权重,主要包括6个计算步骤:

步骤1指标数据的预处理.根据评估模型涉及的指标因素,提取出n条道路的m个指标,可以看作一个n*m的矩阵M,其中xij为第i条道路的第j个指标,

步骤2各项指标计量单位的标准化处理.由于各项指标计量单位的差异,在计算综合指标前,需要对其进行标准化处理,来计算标准化值Sij,

步骤3指标比重的计算.以pij来表示第j项指标下第i条道路占该指标的比重,

步骤4指标熵值的计算.以ej来表示第j项指标的熵值,其中k=1/ln(n),满足ej≥0,

步骤5指标差异系数的计算.通过指标熵值,计算对应指标的差异系数dj,

步骤6各项指标权重的计算.通过单项指标和总体指标的差异系数,计算各项指标权重wj,

3 实验与分析

3.1 数据介绍与处理从成都市三环内的路网中挑选属性信息比较完整的快速路、主次干道和支路共计1 453条,从高德地图获取的POI数据共计273 714条,包括餐饮、公司、住宅、生活服务、科教文化等13个类别,如图3所示.

图3 数据介绍

数据处理包括2个部分:1)路网数据的处理,主要是对道路中心线的处理、道路等级的量化参考、连接度和悬挂参数的计算,通过要素转线、打断节点、拓扑检查和空间连接等计算;2)地址数据的处理,首先是获取13个主要类别的POI数据,然后判断数据地址中道路信息的完整性,分析成都地区道路命名常用的语义特征词,通过正则表达式进行批量提取,计算关联频数值,以道路名为纽带,把频数赋给路网属性对应字段.实验案例1 453条道路,直接成功赋值的有1 320条,约为道路总数的91%.根据人工检验,9%的道路没有赋值成功的原因主要有2个:1)2个数据的道路名不完全一致;2)部分道路附近不存在POI,通过创建30 m缓冲区计算得出,有45条道路的关联值等于0.

根据道路的关联频数值和道路长度,计算道路的关联密度值,并综合道路长度、道路宽度、道路等级、道路限速、连接度和悬挂参数,构建道路重要性评估模型,然后通过熵值法计算各指标权重,计算出各指标权重因子分别是:道路长度0.106 278、道路宽度0.133 906、道路限速0.129 023、道路等级0.135 874、道路连接度0.039 344、道路悬挂系数0.197 219、道路关联频数值0.152 085、道路关联密度值0.106 270.

3.2 多比例的对比分析在保持其他6个指标不变的情况下,分别用语义和30 m缓冲区[15]计算道路的关联频数值和关联密度值,并根据2种方法计算出来的道路重要性值进行排序,按15%(217条)、30%(435条)和45%(652条)的比例选取道路进行对比分析,如图4所示.

由图4可知,在3个不同比例的道路选取中,2种方法在道路选取的结果上具有高度相似性.为了更清晰地表达2种方法的相似性,通过空间连接和统计工具,计算共同选取的道路长度和数量,以及对应的占比信息,如表1所示.

图4 多比例道路选取效果对比图

由表1可以看出,2种方法在多比例的道路选取中,共同选取的道路数量占选取道路总量的88%以上,并随着选取的道路比例的提高,呈现上升趋势;共同选取的道路长度占选取道路总长度的94%以上,也呈现出上升趋势.

表1 多尺度道路选取结果的量化分析

通过以上结果分析表明本文方法在计算道路的关联特征上,能与缓冲区计算的方法存在统一性,选取的道路结果间存在高度相似性.选取结果的相似性表明本文方法具有一定的实用价值,但无法表达方法的优势,将继续从方法的输入数据和输出的重要性指标上进行比较,如表2和表3所示.

表2 2种方法在输入数据上的比较

表3 2种方法在输出的重要性指标上的比较

从表2和表3中可以看出,相比缓冲区计算的方法,本文方法在计算道路对其周边要素的关联特征方面能够使用更多数据量,综合更多信息,数据利用率更高;在道路选取指标的比较中,道路重要性值的总和、均值、极差、方差以及绝对值均差的差别都不大,但本文方法计算的极差和方差更小,说明值的离散程度更低,更稳定.

综上所述,本文方法在不需要坐标生成点、坐标转换和缓冲区阈值调整等一系列的空间处理的条件下,同缓冲区计算道路关联信息,得出的道路选取结果仍具有高度一致性.说明通过语义计算道路关联信息的方法,可以补充或替代缓冲区这种以空间关系计算道路关联信息的方法,具有3个方面的优势:1)操作流程去专业化,对GIS的操作要求低,便于多领域的使用和研究;2)数据综合处理能力强,可以利用和处理大体量数据,且相比于空间计算,文本的语义计算效率更高,对计算机的处理能力要求更低;3)数据处理流程化,处理代码的复用率高,不确定因素对于结果的影响主要限制在源数据的质量上.

4 小 结

提出了一种顾及语义关联信息的道路选取方法,首先通过对道路周边要素地址数据的解析处理,然后建立道路与其周边要素的语义关联,计算两者间的关联特征,融入道路选取的综合评价体系中,进一步地优化道路的选取方法.在保持一些主要指标不变的条件下,与缓冲区计算道路周边要素的方法进行多比例对比分析,得出以下结论:

1)能够有效地计算道路与其周边要素的关联特征,道路选取结果与通过缓冲区计算得出的结果存在高度的相似性,可以替代缓冲区计算的道路关联信息;

2)数据的综合处理能力更强,能汇聚和关联更多与道路密切的数据,处理结果更具说服力;

3)数据操作流程化,能有效减少空间数据预处理的时间,处理效率更高,稳定性更强.

此外本文方法在计算道路的关联特征上,不局限于GIS的计算方法,便于更多领域的研究人员操作和使用.

猜你喜欢

缓冲区路网关联
云南智慧高速路网综合运营管控平台建设实践
“一带一路”递进,关联民生更紧
打着“飞的”去上班 城市空中交通路网还有多远
奇趣搭配
缓冲区溢出漏洞攻击及其对策探析
智趣
初涉缓冲区
试论棋例裁决难点——无关联①
本期导读
Linux系统下缓冲区溢出漏洞攻击的防范