一种基于改进U-Net 的高分影像公路线路提取方法

2023-11-22廉慧洁王维高朱军唐苒然谢亚坤

地理信息世界 2023年3期

廉慧洁，王维高，朱军，唐苒然，谢亚坤

1. 西南交通大学地球科学与环境工程学院，成都 610097；

2. 四川省交通勘察设计研究院有限公司，成都 610031

1 引言

公路作为国家经济建设和国防建设中最重要的基础设施之一，其地位及作用越来越显著，是国民经济发展的重要支撑（李朝锋，2006)。以往公路数据的采集方式包括实地采集、文字资料获取、移动车载扫描等手段，但存在成本较高或效率低的问题。随着遥感技术的迅猛发展，遥感影像中的公路网已成为公路信息系统的巨大数据源，信息化、智能化成为公路信息获取的必然趋势（项皓东，2013；林报嘉等，2020；鲁德辉，2020)。因此，如何利用高分辨率遥感影像进行自动化的公路信息提取具有重要的理论和现实意义。

传统的道路提取方法主要包括基于像元的和面向对象的两种。基于像元的遥感影像道路提取方法是以单个像元为最小处理单位，通过对各像元灰度值与道路灰度阈值进行对比从而进行道路信息提取；左娟和李勇军（2013)利用遥感影像的纹理特征和光谱特征提取了较为完整的道路骨干形态，但仍然无法消除树木和建筑物等环境因素的影响。基于像元的道路提取方法简单易实现，但提取结果有较大的噪声，智能化程度低（Wang 等，2014；Shi 等，2014；Shanmugam 和 Kaliaperumal，2016)。面向对象的道路提取方法通过将影像看作多个具有相近性质的对象集合进行道路提取（Kumar 等，2014)；周爱霞等（2017)在eCognition 遥感图像处理平台上对IKONOS 影像进行了面向对象的道路提取。面向对象的道路提取方法在抗噪性上有一定提升，但提取效果的优劣很大程度上取决于影像分割结果的质量（张永宏等，2018；王卓等，2020)。总之，传统方法需要人工分析道路特征并制定语义约束规则集，多针对图像清晰、背景简单且道路类型单一的遥感图像，对高层次知识的利用程度偏低，影像分类的智能化、自动化程度不高（王伟超和邹维宝，2013)。

近年来，随着人工智能技术的发展，遥感影像处理有了新的研究方式。基于深度学习的目标提取方法与传统方法最大的区别在于不需人为给出道路特征，在背景复杂多样、图像特征类似且道路类型多变的遥感图像中也能够得到较高的提取精度（宋廷强等，2021)。魏清等（2019)针对树木阴影等自然环境的影响问题，将卷积神经网络和数学形态学算法相结合进行自动化道路提取。Mnih（2013)利用一种基于图像块（patch-based)的卷积神经网络进行道路提取，取得了较好的道路提取效果。目前，在图像分割领域最为常用的U-Net（u-shaped network)模型，以独特的“U”形对称结构、精准的跨越连接结构以及高效的上采样手段使得其不仅能够弥补全卷积神经网络（fully convolutional network，FCN)池化过程中的信息损失，还能够实现多尺度图像信息的融合，改造性强且训练速度快（杨佳林等，2021)。该方法虽然获得了较好的道路信息提取效果，但存在神经网络隐藏层信息利用不充分的问题。公路在功能应用、路线设计及分级标准方面与普通道路具有明显差异性，直接应用会导致公路线路提取精度较低。

因此，本文提出一种基于改进U-Net 模型的高分影像公路线路提取方法，通过多方面分析公路与普通道路区别，引入注意力机制，建立适用于公路线路信息的改进U-Net 网络模型，并以实际案例区域建立公路线路信息提取数据集；同时在相同实验条件下，对比FCN-8s（Long 等，2015；Alam 等，2021)、U-Net、SegNet（Badrinarayanan 等，2017)三种遥感影像语义分割领域常用模型对于公路线路的提取精度，以证明改进方法的有效性。

2 公路线路特征和提取方法

本文提出一种基于改进U-Net 模型的公路线路提取方法，如图1 所示。该方法分为两个部分：①从功能、线路设计、分级标准、构造及横断面四个方面剖析公路线路特征，厘清公路的定义、类别及公路与道路的区别，对公路线路特征进行总结，作为公路线路信息提取的理论基础，建立公路线路信息提取数据集；②以U-Net 模型为基础，结合公路线路特征，联合通道与空间注意力机制建立本研究模型，提取影像中公路信息的上下文特征，增强网络在公路线路信息提取过程中空间和通道维度上的优势特征，同时抑制干扰特征。

图1 基于改进U-Net 模型的公路提取技术路线Fig.1 Technical route of highway extraction based on improved U-Net model

2.1 公路线路特征分析

遥感影像识别地物利用的是目标地物对电磁波信息的不同反射特性，因此，明确目标地物的各种特性对于遥感影像解译工作十分重要。地物在图像中特征表达所组成的先验知识，为计算机对目标地物的自动提取提供了必要条件。由于基于深度学习的公路提取方法需要以大量数据为基础，公路线路特征分析也为本文公路线路数据集的构建提供了理论基础。

从广义上来讲公路是道路的一种，但公路数据具有其自身的特殊性，依照国家公路工程技术标准，公路是主要供汽车行驶的连接城市与城市、城市与乡村、乡村与乡村的道路。其中，公路和城市道路最常被混淆，因此，本文首先从功能、路线设计、分级标准和构造及横断面四个方面对公路与道路的区别进行分析，如表1 所示。

表1 公路与城市道路的区别Tab.1 The difference between highway and city road

对于不同分辨率的影像，公路具有不同的特征表达。中低分辨率遥感影像中公路基本都呈现为长条状甚至线状，且只有较宽的公路能被成功辨别，对于一些较窄的隐藏在郊区或山岭之间的公路无法做到有效提取；高分辨率遥感影像中公路表现出了更多的细节特征。因此，本文从物理和图像特征两个方面分析高分辨率影像中的公路。

2.1.1 物理特征

路基路面：不同等级公路路基路面稍有差别但都平坦坚硬，满足强度、稳定性和耐久性的要求；一般采用沥青混凝土和水泥混凝土，其中，三级及以下公路可采用沥青碎石，四级及以下公路可采用砂石。

线路设计：公路具有一定的宽度和车道数，但不同等级公路的车道数、路基宽度和路肩宽度不同，不同的车道宽度也对应不同的行驶速度；里程一般较长，涉及省市较多，尤其是国省道干线的建设，一般需要跨越几个省市；每条公路直线部分都有长度限制，曲线部分圆最小半径也有规定（表2)。

表2 不同等级公路线路设计的区别Tab.2 The difference of different grade highway network design

交叉路口：高速公路与各级公路交叉必须使用立体交叉；个别因与连接重要交通源的公路相交而成为其支线的高速公路应设置互通式立体交叉。

沿线设施：一般包括交通安全设施、服务设施和管理设施三种；不同等级的公路对应不同配置。

2.1.2 图像特征

几何特征：公路总体呈细长直线形态，长度远大于宽度，宽度变化较小且一定程度上反映公路等级；弯曲程度在一定范围内，但依山而建的公路常出现剧烈的转弯。

辐射特征：公路内部区域灰度相对均匀，纹理较为一致，与周围区域灰度差异明显；具有两条明显的平行边缘；不同材质的公路呈现出的光谱特征有一定差异。

拓扑特征：公路里程较长，具有较好的连通性，很少出现突然中断的现象；交叉相连形成网状结构；平面交叉以十字交叉、T 形交叉和环形交叉为主；立体交叉以分离式立体交叉和互通式立体交叉为主（图2)。

图2 常见公路平面交叉Fig.2 Common highway grade crossing

上下文特征：公路周围区域的能够辅助识别公路的特征，如公路的宽度、密集度和弯曲程度在田野、山岭和接近城市的区域不尽相同；公路周围区域连续的植被或建筑物信息也能为公路识别提供帮助。

2.2 联合通道与空间注意力模块的U-Net 模型

本文将注意力模型添加在Encoder 部分中，卷积层提取图像特征后由注意力模块为各特征分配权重，从而引导模型较多地关注公路线路信息并抑制干扰特征。同时，神经网络底层提取出的特征较为简单，仅关注局部信息，且语义特征相对低级，而高层通过将底层特征进行组合能够表达较为高级的语义概念，因此，将注意力模块与高层卷积模块相连，通过关注有用的关键特征来提升公路线路信息的提取精度。

本文提出一种改进的U-Net 网络结构，如图3所示。该结构是一种端到端的对称结构，由编码和解码两部分组成。其中，编码部分以VGG16 作为网络的基线结构，主要作用是特征提取，在此过程中特征图的大小会不断被压缩；同时，在不同尺度的特征图中引入注意力模块，通过不断调整权重对高层语义特征进行注意力分配，达到强调关键信息抑制无关信息的目的。解码部分则与原生U-Net 网络一致，通过上采样恢复图像尺度和池化过程中的损失信息，同时，将不同尺度中获取的上下文信息在上采样过程中不断融合，进一步提高网络对公路线路信息的特征提取能力。

图3 改进U-Net 网络结构Fig.3 The improved U- Net network structure

注意力机制的基本原理是想让系统获得忽略无关信息而关注重点信息的能力，模仿人类大脑的视觉注意力机制，即人在看图像时注意力自动聚焦于感兴趣对象的心理调节机制（刘航和汪西莉，2020)。由于以公路为目标的遥感影像中，公路仅呈现出一段细长形态，而背景信息覆盖区域较大，即公路与背景信息样本不平衡，模型从样本数据集中学到的背景信息更多，所以会导致其对目标信息的提取精度下降。鉴于此，提出一种融合空间与通道的注意力模块，如图4 所示。通过注意力模块捕捉公路空间上下文特征及不同通道的重要性权重，并根据权重信息自适应调节对重点区域的关注程度，同时弱化背景区域的干扰。

图4 融合通道与空间的注意力结构Fig.4 Integrating the attention structure of channel and space

2.2.1 通道注意力模块

特征图的不同通道对应了不同的卷积核的组合，通道注意力是给不同的卷积过程赋予不同的关注度。该模块结构如图5 所示。

图5 通道注意力结构Fig.5 Channel attention structure

输入特征图形状为H×W×C，经过最大池化与平均池化后对其进行1×1 卷积操作，得到两个1×1×C的特征向量。将它们分别送入一个两层的神经网络进行处理得到新的特征向量，其中，处理不同特征向量的卷积模块的参数是共享的。将特征向量相加并使用Sigmoid 函数进行激活可以得到不同通道的权重，最终与输入特征对应相乘即可赋予不同通道的公路特征不同权重。通道注意力的计算公式：

式中，Wc(F)为通道注意力权重；σ为Sigmoid 激活函数；Conv1*1为卷积核大小为1 的卷积；AvgPool为空间平均池化；MaxPool 为空间最大池化；F为输入特征图；为带通道注意力的特征图。

2.2.2 空间注意力模块

空间注意力模块主要关注的是空间位置信息，该模块处理流程与通道注意力处理流程类似，如图6 所示。

图6 空间注意力结构Fig.6 Spatial attention structure

首先，对输入大小为H×W×C的添加了通道注意力的特征图进行全局池化与最大池化，得到两个形状为H×W×1 的特征图。然后，从通道维度对两个特征图进行拼接；接着特征图要经过一次卷积核为7×7 的卷积操作，并用Sigmoid 函数激活。最后，将权Wp()与输入特征对应相乘即可赋予不同空间位置的公路特征不同权重。空间注意力的计算：

式中，Wc()为空间注意力权重；Conv7*7为卷积核大小为7 的卷积；Concat 为维度拼接操作；AvgPool 为通道平均池化；MaxPool 为通道最大池化；为带有通道注意力的输入特征图；为带空间注意力的特征图。

3 实验与分析

3.1 研究区概况

为验证改进方法的有效性，以重庆市的南岸区和巴南区为实验区域，建立公路线路信息提取数据集，如图7 所示。南岸区位于长江南岸，是重庆市主城区组成部分；巴南区位于主城区南部。二者的交通基础设施近年来发展迅速，其中，巴南区境内有国道210线、渝黔高速公路、上界高速公路、渝沙高速公路、绕城高速公路等多条国（省)道交通干线。

3.2 实验数据集与方法

从天地图卫星获取对应的高分辨率遥感影像共22 张，空间分辨率为1.19 m，包含R、G、B 波段，背景信息较为复杂，以郊区、山区和农村为主。根据公路线路特征分析结果，利用Labelme 进行数据标注，剔除没有公路目标和其他质量不高的样本以对数据进行清洗；同时，通过过采样对公路目标占比较大的样本对进行重复利用，通过欠采样对背景占比较大的样本对进行去除，以此对样本进行平衡。另外，通过人为地对训练数据添加转换或扰动来对已有数据集进行扩展，以提高训练样本的多样性，解决训练数据缺乏的问题，提升模型的泛化性和准确性。道路数据存在明显的拓扑特征，这要求在对数据集进行增广时，要考虑可能导致道路断裂的操作，必须保证其形态的完整性和元素之间的必要联系。主要对数据进行了水平翻转、竖直翻转及对角翻转的操作达到扩展数据集的目的。经过数据增强之后，最终得到训练样本2164 张，每张影像和标签的尺寸为512×512×3。结合设备性能和标签质量，最终挑选出样本数据1300 对按照6∶2∶2 的比例划分为三个部分，训练样本780 张，验证样本和测试样本各260 张。

当数据集较小时，模型常出现在训练集上效果好，在测试集上效果差的现象，即过拟合。为了防止模型过拟合，除了数据清洗与数据增强，还使用了Dropout 正则化法和早停法。Dropout正则化法是通过随机删除一些神经元来降低神经元之间的依赖性，提高模型的泛化能力；Dropout的大小一般与网络维度有关，神经元之间联系较多的两个隐藏层容易发生过拟合，可以设置较小的概率值，隐藏单元较少时则相反。早停法是通过监测模型在验证集上的表现选择模型训练停止时间，以此避免继续训练导致过拟合的问题。数据集较小，模型容易出现过拟合，因此，Dropout值设置为0.3。本文选择的监测对象为验证集损失，当验证集损失连续3 个Epoch 不下降时，学习率减半，连续10 轮没有下降则停止训练；其他超参数经过网络模型设计及对比实验，初始学习率设置为0.0001，训练批次大小为4，迭代次数为100 次。

3.3 公路线路提取精度评价标准

交并比（intersection over union，IoU)既可以考虑到错误检测，也可以兼顾到遗漏检测，已经成为语义分割的标准，因此，利用IoU 进行精度评估。总体像元精度（overall accuracy，OA)作为全局精度评价方法也作为评价方法之一。除此之外，有常用评价标准F1 分数、精确度P及召回率R。如

式中，TP、FN、FP 和TN 为通过比较提取的公路像元和地面真实点来分类的像元结果，具体含义如表3 所示。

表3 像元分类结果图例说明Tab.3 Legend illustration of the pixel classification results

3.4 实验结果与分析

为了验证改进方法的有效性，从定性和定量两方面对公路线路提取结果进行分析，并将改进方法与遥感影像语义分割领域常用的三种神经网络模型算法进行对比。

3.4.1 公路线提取结果分析

1)定性分析

为了全面呈现改进方法在不同背景、密度下的公路线路提取结果，本文从不同建筑密度和公路线路复杂程度对深度学习提取结果进行了可视化展示，如图8 所示。从第一、二行影像可以看出，对于少量建筑、单一线路的公路场景，改进方法与添加注意力模块前的U-Net、FCN-8s 和SegNet 效果基本等同，但改进方法提取出的公路边缘较FCN-8s更为光滑。第三、四行影像代表少量建筑、复杂线路的公路场景，此时改进方法相对于FCN-8s 和SegNet 优势明显，具有更低的误检率。随着背景复杂程度提高，周围建筑物等带来的影像逐渐凸显，如第五、六行影像所示，相对于其他深度学习方法，改进方法出现漏检误检和噪声斑点的情况更少。经分析可知，这是由于本文提出的联合空间与通道的注意力模块（图4)进一步强调了神经网络在公路信息提取过程中空间和通道维度的优势特征，抑制了周围建筑和其他地物带来的干扰特征，从而使得其在周围地物影响较大的情况下也能聚焦于公路线路目标的提取。第七、八行影像的公路线路展现出了复杂的拓扑关系，建筑物密度也相对更高，此时改进方法相对于其他方法优势则更加明显，尤其在交叉路口等体现拓扑关系的部分，所提取的公路形态更加完整，公路边缘更为光滑且斑点噪声明显减少，在漏检率方面也具有较明显的效果提升。

图8 公路线路提取结果Fig.8 Results of the highway extraction

综上，对于少量建筑、单一线路的简单公路场景，各方法的提取精度都较高，改进方法存在微小优势。随着建筑物密度逐渐增大，公路拓扑特征逐渐展现，场景复杂程度逐渐提高，公路线路提取精度有所下降，但改进方法相对于添加注意力模块前的U-Net、FCN-8s 和SegNet 仍表现出明显优势，证明本文加入的注意力机制确实能够引导模型关注公路线路信息并抑制干扰特征，且对不同场景下的公路线路提取均有提升效果。

2)定量分析

为了得到更可靠的对比结果，利用前文所述提出的精度评价指标对模型训练结果进行评价，如表4 所示。两种方法的精确度、召回率、F1 分数、交并比和总体像元精度都达到了80%以上，说明测试数据集在训练模型上取得了较好的实验效果。同时，加入注意力模块后的每个指标值都有提升，交并比提高了2.09%，F1 分数提高了1.26%，精确度提高了2.63%，证明本文提出的联合空间与通道的注意力模块能够强调公路线路信息提取中的关键特征，抑制干扰特征，对公路线路信息的提取有提升效果。

表4 加入注意力模块前后模型精度对比Tab.4 Accuracy comparison before and after adding the attention module%

3.4.2 模型对比分析

为了验证本文选择U-Net 作为基础模型的正确性，列出了FCN-8s、U-Net、SegNet 在本研究公路线路提取任务中的精度指标（表5)。评价指标表现为，相对于FCN-8s 和SegNet，U-Net 最高：在召回率上分别提高了8.25%、6.72%；在F1 分数上分别提高了4.44%、4.48%；在交并比上分别提高了7%、5.65%。这证明U-Net 网络是三种网络中，最适合本研究语义结构简单且训练数据集较小的公路线路信息提取的网络。

表5 FCN-8s、U-Net、SegNet 精度对比Tab.5 Accuracy Comparison of FCN-8s，U-Net，and SegNet%

4 结论

区别于普通道路提取，本文以提取公路线路信息为出发点，从功能、线路设计、分级标准、构造及横断面四个方面剖析公路线路特征，厘清公路的定义、类别，以及公路与道路的区别。以U-Net 网络模型为基础，结合通道与空间注意力机制建立一种新的网络模型，进一步强调神经网络在公路信息提取过程中通道和空间维度的优势特征，抑制干扰特征。通过实验证明，改进方法是可行的。

本文提出的引入注意力机制的公路线路信息提取方法，利用通道与空间的注意力模块提取影像中公路线路信息，引导模型较多地关注公路线路信息并抑制干扰特征，提高了网络的深层次特征表达，有效解决影像中公路线路与背景信息不平衡的问题，为公路线路信息化管理提供数据支撑。