APP下载

基于仿射不变离散哈希和条件随机场的遥感图像目标检测

2021-09-20孙权森

数据采集与处理 2021年4期
关键词:哈希势能像素

孔 颉,孙权森

(1.南京理工大学计算机科学与工程学院,南京 210094;2.江苏科技大学计算机学院,镇江 212100)

引 言

遥感图像目标检测是从一幅遥感图像中检测出所有目标物,并确定其类别信息。遥感图像以其尺度多样性、视角特殊性、多方向问题、小目标问题以及背景复杂度高等特殊性,为解译图像处理任务带来了很大的挑战。传统的基于机器学习的遥感图像目标检测方法有K 近邻法(K‑nearest neighbour,KNN)[1]、支持向量机(Support vector machine,SVM)[2]和神经网络(Neural network,NN)[3]等。然而这些方法会面临以下问题:(1)时间复杂度与样本数相关;(2)随样本集的增大,机器内存空间需求不断增大;(3)高效的特征提取方法与高效分类器的兼容性问题。

为解决以上问题,考虑引入哈希学习方法,提升检测效率。哈希技术以其低存储、高效率的优势已经广泛应用于图像处理领域。经典的哈希方法包括局部敏感哈希(Locality sensitive hashing,LSH)[4]、谱哈希(Spectral hashing,SH)[5]、核哈希(Kernel supervised hashing,KSH)[6]以及监督离散哈希(Super‑vised discrete hashing,SDH)[7]方法等。然而,要直接引入到遥感图像领域,需要考虑遥感的特殊性。在先前的工作中,通过将SDH 中引入仿射不变因子构造仿射不变离散哈希(Affined invariant discrete hashing,AIDH),可以解决因遥感成像中出现的仿射变换引起的语义理解问题[8]。然而,遥感数据的复杂性使得AIDH 在目标检测的总体精度提升有限,一些漏判和误判的问题难以解决。目前流行的深度学习方法具备超强的特征表达优势并且取得了不错的效果,却是对样本集有很大的依赖性。从解决漏判和误判问题入手,以传统的数据驱动的目标检测思想为指导,通过引入空间信息的学习提升检测精度。于是,引入条件随机场模型[9],利用其在标签学习方面的优势,通过对AIDH 的目标检测结果进行邻域空间信息学习与消息传递复原图像中的目标区域。而为了更好地利用空间邻域信息,通常采用超像素分割方式。本文使用了基于简单线性迭代聚类(Simple linear iterative clustering,SLIC)生成超像素块[10],既能满足条件随机场构建概率无向图的模型需求,也为AIDH 方法提供了机器学习所需的测试样本。此外,在最终结果生成时为了更好地生成目标框,本文引入了一种基于凸壳边界的最小外接矩形框生成方法,生成了一种更有效的、更能代表目标信息的检测框[11‑12]。

1 相关工作

1.1 简单线性迭代聚类算法

基于SLIC 的超像素分割方法,在2010年的MICCAI 上首先由Lucchi 等[13]提出,被用于医学图像处理中的细胞显影,其后由Achanta 等将其应用到自然图像分割处理中,而逐渐为大家熟知[10]。该算法生成的超像素块紧凑、均匀,并且运算速度、物体轮廓保持方面也都能满足后续算法需求。该方法的主要思想是:首先确立以颜色和坐标为主体的相似性度量方式;再针对用户需求(超像素块个数k)使用种子生长的方式聚合相似的像素点,通过限定种子搜索范围和超像素块的连通性保证超像素块都不会产生邻域失衡的情况。

SLIC 的优势为:(1)生成的超像素做到了紧致性和均匀程度的平衡,有利于完成基于邻域信息的机器学习任务;(2)具有线性计算复杂度低、存储效率高等优点,能够保持图像的全局特性;(3)既可以分割彩色图像,也可以用于分割灰度图像;(4)算法需要设置的参数很少,只需要设置预分割的超像素块数量即可。

1.2 仿射不变离散哈希

监督离散哈希的目标函数可以表示为

式中:X为样本数据矩阵;W为哈希码在C个分类上的投影矩阵;Y为样本的标签矩阵;B为哈希码矩阵;H(X)为哈希函数;λ1为投影矩阵的正则化参数;λ2为惩罚因子。

哈希函数H(X)采用映射学习算法获取,为保持样本的非线性结构,采用如下形式

式中ϕ(X) 为径向基核映射产生的矩阵;矩阵P为降维矩阵。

依据多尺度自卷积(Multi‑scale autoconvolution,MSA)特征提取的方法,图像的仿射变换不会改变图像所代表物体的语义信息[14]。由于仿射变换前后的图像对应着相同标签模式类的信息,那么可以将仿射后扩大的样本加入训练样本集,并加以仿射约束信息优化原有目标函数,生成更优质的具有仿射不变性的哈希码。AIDH 的构造如下。

定义R个旋转角度α={α1,α2,…,αR}及其旋转变换Tα={Tα1,Tα2,…,TαR},其中Tαi表示经αi角度旋转变换;定义S个缩放因子β={β1,β2,…,βS} 及其缩放变换Tβ={Tβ1,Tβ2,…,TβS},

其中Tβi表示βi倍缩放变换。那么仿射变换可表达为旋转变换和缩放变换的笛卡尔积:Tα,β=Tα×Tβ。将Tα,β应用于所有训练样本X,结合原始训练集,即构成了新的用于仿射不变离散哈希模型的样本集Xα,β={X,Tα,β X}。

由于仿射变换前后不改变物体本身的语义信息,那么所得到的哈希码应该是相似的,生成的哈希码对数据集具有仿射不变性。因此,可以在目标函数中添加仿射不变约束项,即有

式中:Tα,β xi={TαjTβk xi}表示样本xi所有仿射变换张成的样本子空间,而为样本空间Tα,β xi对应哈希码的均值。

AIDH 的目标函数为

新的约束项可以使每个样本生成哈希码更接近于其张成的仿射样本子空间的均值,从而实现整体样本集Xα,β与其二值哈希编码B尽可能相似。

AIDH 求解方案如下:

(1)P‑step。固定B、W,优化P。

(2)W‑step。固定P、B,优化W。

(3)B‑step。固定W、P,优化B。原问题等价于求解

式中:A=WY+λ2H(X)+表示矩阵的迹。

另受SDH 优化方式的启发,采用梯度下降法按位求解哈希码,可以获得如下的闭解[15]

1.3 条件随机场

条件随机场是建立在概率无向图模型基础的,在给定随机变量X条件下,求随机变量Y的马尔可夫随机场;其内涵在于对无向图中任意结点,其条件概率分布只和与之有连接的结点有关,与其他结点无关。

设概率无向图G=(V,E),当无向图每个顶点对应的的数据X与其类别标签Y满足相同图结构的线性链条件随机场。那么可以按照决定Y的因素,定义条件随机场模型的参数形式为

式中Z为归一化因子。其表达式为

在式(9)中,A(yi,X) 为一阶势能或自相关势能,是指当前顶点的特征信息对条件概率的影响;Iij(yi,yj,X)为二阶势能或交互势能,表示空间相邻顶点间的上下文信息对类别条件概率的影响;Ni代表与第i个顶点空间相邻的超像素块集合;j∈Ni是与顶点i空间相邻的所有顶点组成的顶点集[16]。

2 基于AIDH 和CRF 的遥感图像目标检测

本节重点介绍算法4 部分内容:基于SLIC 的遥感图像超像素分割,基于AIDH 的遥感图像多目标分类,基于CRF 的标签学习以及基于凸壳边界的最小目标框生成。算法流程图如图1 所示。

图1 基于AIDH‑CRF 的目标检测流程图Fig.1 Flow chart of object detection based on AIDH‑CRF

2.1 基于SLIC 的遥感图像超像素分割

SLIC 是遥感图像目标检测的第一步,重点是将包含相似信息的区域聚合在同一个超像素块中,这样每个超像素块都代表了目标或负样本的信息,超像素块成为了测试样本的载体。

SLIC 的主要思想是,先确立以颜色和坐标为主体的相似性度量方式;再针对用户需求(超像素块个数k)使用种子生长的方式聚合相似的像素点在一起,通过限定种子搜索范围和超像素块的连通性保证超像素块均匀分布。

SLIC 的基本步骤如下:

(1)对遥感图像,依照超像素块个数k 初始化等间距为S的聚类中心Ci=[li,ai,bi,xi,yi]T。

(2)在聚类中心的8 邻域内搜索梯度最小的位置,将其确定为新的聚类中心。

(3)对每个聚类中心Ci,计算其与周围2S邻域内所有像素点的相似度距离,将距离最近的像素点与聚类中心标记为同类。

(4)强化聚类像素块间的连通性。

(7)从图像左上方开始,依次给矩阵Label 赋值,相同像素块的坐标注赋相同的编号。

算法结束后,矩阵Label 保存的是超像素块的编号,用于计算目标类别标签。

2.2 基于AIDH 的多目标分类

基于AIDH 的多目标分类,是指依据数据集中已经训练好的学习机,预测遥感图像上的目标位置及类别的过程[15]。与传统的机器学习方法中多目标分类的方式不同[8],本文方法是以超像素块作为目标检测的测试样本。而这些超像素块,除了包含目标信息(正样本集),还包含背景类(负样本集)信息。因此AIDH 的训练过程,需要由超像素块提炼生成负样本集,与正样本集共同组成样本训练集,这样才能生成优质的哈希码,预测图像中的目标。基于AIDH 的目标检测框架图如图2 所示,经过AIDH 的目标检测后,超像素块变量Label 存储的是初步预测的类别标签。

图2 基于AIDH 的遥感图像目标检测Fig.2 AIDH‑based remote sensing image object detection

2.3 基于CRF 的标签学习

为了改进AIDH 方法的分类结果,采用CRF 方法,进行标签再学习的方式,通过邻域信息传递的方法修正漏判、错判情况。

CRF 模型的一阶势能探讨的是观测序列与状态序列间的决定关系。这里以AIDH 模型作为一阶势函数A(yi,X),其形式为

式中:H( ∙)表示AIDH 方法的哈希函数;train表示训练集中类别标签为l样本;Ham ( ∙)是以汉明距离度量某类别样本与样本点i之间相似性的函数。

CRF 模型的二阶势能探讨的是空间相邻超像素块间的状态转移关系,本文采用的是对差异敏感的Potts 模型[17]。该模型通过惩罚相邻超像素块间的不一致性,修正模型标签的分配情况。具体公式为

式中:βs、θs为模型参数,其中βs为权重参数,用于调节空间势能在总势能中的权重;θs为高斯核的尺度参数,用于调节空间势能随特征向量变化的平滑程度。R为哈希函数H(xi)产生哈希向量的维度,也即哈希码的比特数。

在Potts 模型的应用中,当邻域样本同类时,两点间距离越小,空间势能越大,则两点属于同类的可信度越大,此时可以解决目标检测中的漏判情况。此外,当邻域样本不同类时,对两点间特征距离采取惩罚机制。若两点间距离越小,则两点间属于不同类的可信度越小,那么两个点也有可能归于同类,此时可以解决目标检测中的误判情况[18]。

对于算法的训练过程,由于二阶势能参数θs采用的是高斯核的尺度函数,无法计算正确的目标函数。于是,本文采用网格搜索的方式估计二阶势能参数。而在算法的预测过程,采用的是环状置信传播算法(Loopy belief propagation,LBP)[19]。LBP 算法是一种消息传递算法,主要思想是通过将当前节点下接收到的所有来自邻域的消息传递给目标节点,完成节点间信息传递。

LBP 算法消息传递的方式是最大积方式,通过更新节点间(本章为超像素块)消息的传递和计算置信度更新节点势能直至收敛或达到最大迭代次数。使用最大积方式的消息传递公式msgi→j(cm)如式(13)所示,表示的是从超像素块i到j传递的信息,即超像素块i“认为”超像素块j属于类别cm。

式中

式(14)是简化表示的一阶、二阶势能表达式,即超像素块i属于第m类目标的概率、超像素块i属于第m类且超像素块j属于第n类目标的概率;l∈Ni≠j表示的是与超像素块i对应的除j以外的邻域超像素块集合;Ω表示目标检测的类别种类。

式中p为迭代次数

通过更新超像素块间消息传递,计算置信度至循环结束,得出超像素块属于某类别标签的最大后验概率(Maximum a posterior estimation,MAP),认为超像素块i的置信度最大的类别即为目标所属的类别标签,有

2.4 基于凸壳边界的最小目标框生成

为了规范化目标检测的结果,对CRF 生成的由多个超像素块组成的多边形检测区域,本文采用基于凸壳边界(Convex hull boundary,CHB)的方法,求取最小外接矩形框,保证矩形框的面积尽量小。具体算法如下:

(1)使用格雷厄姆法获取CRF 检测结果的多边形的顶点和边。

(2)计算多边形每条边的斜率,确定其反正切角为旋转方向角anglei。

(3)从i=1 开始计算每次旋转anglei后,多边形每个顶点的坐标xyr。

(4)计算xyr中xmin、xmax、ymin、ymax,并以M_i=(xmax-xmin,ymax-ymin)的2‑范数作为矩形框是否更新的评判标准。当新向量M_i的2‑范数更小时,则进入下一步;否则跳过本次循环,计算下一次旋转变换的结果。

(5)更新最小外接矩形框的坐标为rect=[[xmin,ymin];[xmax,ymin];[xmax,ymax];[xmin,ymax]]。

(6)当完成所有旋转变换后,以rect 的最终结果作为最小外接矩形框的顶点。

图3 给出了基于凸壳边界方法生成最小外接矩形框的效果。从图3(a)可以看到,经过CRF 处理后的目标检测结果虽然能勾勒出飞机的大体轮廓,但是受超像素块质量和飞机阴影的影响,目标检测结果的展示效果并不理想,过多的轮廓线使得飞机目标并不突出。而在图3(b)经过CHB方法处理后,飞机在矩形框中完整地展现出来,在保证了飞机两翼的最大臂展边界同时,使得矩形框的面积更小。背景信息越小,目标更突出。这样的矩形框,更能代表目标信息。

图3 凸壳边界法处理前后目标检测结果对比Fig.3 Comparison of target detection results before and after convex hull boundary method

3 实验部分

3.1 数据集及算法运行环境

本文以NWPU VHR‑10 作为检测数据集[20],以Dense‑SIFT 作为特征[21]。AIDH 旋转系数为R=11,α={ 30°,60°,…,330° },缩放系数为S= 2,β={ 0.5,0.75 };CRF 方法的最大迭代次数P=4,CRF 的两个参数分别为二阶势能权重参数βs= 6,高斯核尺度参数θs= 2。

3.2 本文方法目标检测结果

(1)本文方法目标检测各阶段结果如图4 所示。图4 是本文方法各阶段结果示意图。其中图4(a)是原图,含有12 个网球场目标。图4(b)是SLIC 超像素分割结果,完成目标物和非目标物的初步分离。图4(c)是AIDH 处理结果,可以看到该阶段能够检测出一部分网球场目标,但是存在漏判的情况。图4(d)是CRF 处理结果,该阶段恢复了漏判的网球场目标,复原了整幅图像网球场的结果。最后图4(e)是最终目标检测结果,在最小外接矩形框提取后,检测结果中目标信息更加鲜明,背景信息更少,更能代表图像上的目标信息。

图4 本文方法各阶段结果示意图Fig.4 Results of each stage of the proposed method

(2)本文方法目标检测结果,如图5 所示。图5 给出了本文方法目标检测的结果图,图中绿色标识为飞机,红色为舰船,粉红色为棒球场,紫色为桥梁。可以看出,本文方法既能检测出单个目标,也能检测出多个目标,还能检测出多个不同类别的目标,并且能很好地勾勒出目标框。而对复杂背景下的桥梁信息,本文方法也能检测出来,这表明了算法的有效性。

图5 本文方法目标检测结果图Fig.5 Object detection results of the proposed method

3.3 各种目标检测方法的定量对比

为定量分析本文方法有效性,选取了两种经典的基于机器学习的目标检测方法KNN[1]和SVM[2]以及两种新的哈希方法KSH[6]和SDH[7]方法作对比,此外还列举了先前的工作AIDH‑SVM[15]作为对比。在定量数据指标上,采用单类别平均精度AP 和综合平均精度mAP 作为评判标准。

表1 给出了不同算法下各类别目标的检测精度以及综合平均精度,可以看出:

表1 各算法在NWPU VHR‑10 数据集下的AP 和mAP 对比Table 1 AP and mAP comparison of each algorithm in the NWPU VHR‑10 dataset

(1)从横向角度看,几种哈希方法在AP、mAP 上都优于KNN、SVM 两种经典方法,体现出哈希方法相对于经典方法的优越性。 此外,几种哈希方法间对比发现,AIDH‑CRF 的检测精度要优于KSH‑CRF、SDH‑CRF,这体现了AIDH 在哈希系方法中的突出性;而与AIDH‑SVM 对比中,AIDH‑CRF 在精度上有了明显的提升,说明本文方法使用CRF 改进的有效性。

(2)从纵向角度看目标类检测的情况,本文方法保持了先前在小目标检测上的精度,如飞机、油桶和棒球场;同时提升了网球场、篮球场等大型运动场的检测率。正因为在大目标检测的成功,才实现了综合平均精度的提升。

表2 给出了不同目标检测算法的算法用时。首先,可以看到KNN、SVM 的算法用时明显高于几种哈希方法,而比较几种哈希方法发现,3 种结合CRF的哈希方法(KSH‑CRF、SDH‑CRF、AIDH‑CRF)用时高于AIDH‑SVM 方法,表明了CRF 的引入会增加算法用时。结合表1 的mAP 数据来看,AIDH‑CRF以牺牲少许时间为代价,换取了检测精度的大幅提升,做到了精度和速度上的权衡。

表2 各算法的算法用时对比Table 2 Comparison of time consuming between each algorithm

4 结束语

本文通过分析传统的遥感图像目标检测方法的不足,引入条件随机场方法,利用其在标签学习中的优势提高目标检测的精度。利用SLIC 超像素分割方法在空间信息获取上的优势,构建高质量的超像素块,完成不同目标物的初步分离。而基于条件随机场的标签学习方法,利用SLIC 生成的超像素块构建其模型所需的概率无向图模型,继承了AIDH 良好的机器学习性能,又通过二阶势能的概率计算改进了检测结果,弥补了大量的漏判和误判情况。此外,采用基于凸壳边界的最小外接矩形框生成方法获得了更能代表目标信息的矩形框。通过在NW ‑PU VHR‑10 数据集进行实验,取得了不错的目标检测结果,定量分析发现,本文方法以牺牲部分时间复杂度为代价换取了AP 和mAP 的大幅提升,实现了检测算法速度和精度的有效权衡。

猜你喜欢

哈希势能像素
作 品:景观设计
——《势能》
“动能和势能”知识巩固
像素前线之“幻影”2000
“动能和势能”随堂练
基于特征选择的局部敏感哈希位选择算法
哈希值处理 功能全面更易用
文件哈希值处理一条龙
“像素”仙人掌
动能势能巧辨析
ÉVOLUTIONDIGAE Style de vie tactile