基于改进离散余弦间隔损失函数的遥感道路分割

2021-12-08汪云

数字通信世界 2021年11期

汪云

（汕头职业技术学院计算机系，广东汕头 515000）

0 引言

卫星图像中提取道路提取是许多应用的必要步骤，如车辆导航[1]、城市规划[2]、智能交通[1]、图像注册[3]、地理信息系统更新[4]、土地利用检测[5]等。由于高分辨率图像中道路周围的环境比较复杂，各类侧重点算法不断涌现。这些方法大多可以分为三类：生成道路像素级标记[6，7]、检测道路骨架[8，9]以及两者的结合[10，11]。

从遥感图像中提取道路可以分为两个层次：道路区域分割和道路网络提取。道路区域分割是将图像中的每个像素分为道路和非道路，而道路网络提取是获取道路中心线及其连通性。在本文中，我们将道路提取任务作为二进制语义分割任务来处理，以生成道路的像素级标记，重点解决道路区域分割层次。近年来，深度学习技术在计算机视觉方面取得了很大进展，其中许多已经被引入到遥感图像的道路区域分割中。宋青松等[12]将全卷积网络引入道路区域分割，实现了密集的端到端推理。但是FCN简单的线性插值上采样使得模型性能很差。从FCN演化而来的Unet具有对称的编解码结构，解码器采用参数可学习的反卷积，使得语义分割更加准确。褚晶辉等人[13]提出了一种改进的用于道路区域分割的Unet网络，该网络使用ResNet作为其编码器来实现更高的性能。虽然Unet分割算法在道路遥感图像上进行了多次下采样使得图像特征大量减少，以及该网络没有考虑到图像感受野从而对于小目标提取存在缺陷。

D-LinkNet使用带有预训练编码器的Linknet 作为其主干，并在中心部分具有额外的扩张卷积层。Linknet是一个高效的语义分割神经网络，它利用了跳过连接、剩余块和编码器-解码器架构的优势。最初的Linknet使用ResNet18作为编码器，这是一个相当轻但性能优越的网络。D-LinkNet网络虽然使用空洞卷积通过间隔采样的方式来控制感受野，但是与Unet同样存在下采样严重的问题，在上采样过程中没有很多对特征进行融合来恢复，而是简单的特征拼接，对于多尺度特征融合不全面。

本文从两个方面进行了研究：一是Unet分割算法在道路遥感图像上进行了多次下采样使得图像特征大量减少，以及该网络没有考虑到图像感受野从而对于小目标提取存在缺陷；二是D-LinkNet网络虽然使用空洞卷积通过间隔采样的方式来控制感受野，但是与Unet同样存在下采样严重的问题，在上采样过程中没有很多对特征进行融合来恢复，而是简单的特征拼接，对于多尺度特征融合不全面等问题，提出基于一种改进离散余弦间隔损失函数的遥感道路分割方法。

1 道路分割技术路线

目前，预训练网络该数据集图像为512*512，因此，首先对图像进行裁剪加大图像的感受野，对于网络训练讲究正负样本均衡，图像分割也是一种图像分类，只是像素分类，因此当截图图像中前景目标过少的图像去除，尽量保证图像中大部分为前景目标，最后本实验采用残差网络为主干网络，D-LinkNet为分割架构，对于特征提取层，对初始化权重按照高斯方法初始化而非全0，以提高精度和泛化性。流程如下：

①图像裁剪为256*256；

②图像清洗，根据面积大小选择阈值150筛选训练图像；

③选择主干网络；

④特征提取层权重初始化；

⑤超参数调试；

⑥训练；

⑦测试和验证，得到roc和miou曲线。

2 损失函数优化

最广泛使用的分类损失函数softmax损失如下所示：传统的softmax损失广泛用于图像识别与分割中，由于softmax损失函数并未明确优化嵌入的功能，可能使类内样本的相似性和类间样本的多样性提高，这会导致在类内发生图像感观变化，例如特征或者方向发生变化。因此我们固定偏差bj=0，将对数转换为WTxi=Wjxicosθj，其中，θj是权重Wj与重量W之间的夹角。通过归一化固定单个权重Wj=1，修复嵌入特征xj，并将其重新缩放为s。预测仅取决于特征和权重之间的角度，并将嵌入特征分布在半径为s 的超球面上。

图1表示基于特征xi和权重W归一化，将每个类别的cosθj（logit）作为WTxi。通过计算arccosθy并得到特征xi与基本真值权重之间的角度。由于Wj为每个级别提供了一种中心，在基本真实的目标角度θyi上增加一个角余量罚分m。之后，我们计算cos（θyi+m），通过将所有对数乘以特征标度s，对数通过softmax函数并导致交叉熵损失。

图1 ArcAction损失的监督下训练DCNN进行行为识别

权重使得预测仅取决于特征和权重之间的角度。因此，嵌入特征分布在半径为s的超球面上：

由于嵌入特征分布在超球面上的每个特征中心周围，并且在xi和Wyi之间添加了附加的角余量m，以同时增强类内部的紧凑性和类间差异。由于拟议的附加角裕度罚分等于规范化超球面中的测地距离裕度罚分，因此将方法命名为ArcAction。

本文从包含足够样本（约14000张图像）的2个不同类型中选择图像，以分别训练具有softmax 和ArcAct ion损失的2-D特征嵌入网络。如图1所示，softmax损失提供了大致可分离的特征嵌入，但在决策边界上产生了明显的歧义，而建议的ArcAction损失可以在最接近的类之间造成更大明显差异，具有可行性。同时加法余量也相当于正则的作用优化了softmax的权重，使得不容易出现训练失效的情况也让样本非均衡时的训练变得不过于快速收敛而出现过拟合，故最终采用式（3）作为损失函数，为快速分析该损失函数的性能，通过对其使用logit分析得到如下结果。

图2绘制了softmax，CosAction，ArcAction和在其最佳边距设置下的目标logit曲线，曲线越窄表明参数对损失函数的影响强，因此可以通过修改参数来提升分类性能，而非如softmax，CosAction过宽，修改参数也无法提升性能。

3 实验结果

为了验证我们方法的有效性，本文采用裁剪后约14000张256*256*3大小的图像进行训练完成道路分割任务，对比方法是经典网络Unet和2018年冠军方法D-LinkNet，对比指标为mIou。实验结果表明，该方法取得了较好的道路提取效果：DeepGlobe 道路提取数据集的最佳mIoU得分为0.6975，与其他最先进的基于深度学习的框架如Unet和D-LinkNet 相比，本文将结果提升0.1795和0.1472。