APP下载

基于FDR-Net 的红外-可见光图像像素级配准方法研究

2023-05-10丁钰黄丹飞钟艾琦陈思阳

关键词:红外像素神经网络

丁钰,黄丹飞,2,钟艾琦,陈思阳

(1.长春理工大学 光电工程学院,长春 130022;2.长春理工大学 中山研究院,中山 528437)

图像配准作为计算机视觉领域的一类经典问题,在遥感、医学图像分析与处理、图谱构建、增强现实等领域都存在着重要的应用前景[1-4]。图像配准旨在通过寻找固定图像(Fixed Image)与浮动图像(Moving Image)之间的空间变换矩阵,使参考图像与固定图像的像素点在旋转、缩放、平移等变换条件下形成具体的对应关系。对于舰船、岛屿、海岸等典型海洋目标的成像,单一图像传感器在海上浓雾和复杂光场等条件的影响下,存在认不清、辨不出、看不远的难题,为了构建海洋目标高分辨、高对比、多维度光学信息获取机制,必须将不同传感器获得的图像进行信息融合进而完成图像重构与增强、超分辨、目标识别等工作。图像配准作为图像融合的前期准备工作,配准效果的优劣直接影响到后续处理质量的好坏[5-7]。

传统的图像配准技术主要分为三大类:基于变换域[8]、基于互信息[9]和基于特征的图像配准技术。其中前两类方法在对复杂度较高的图像进行配准时精度过低。近年来,基于特征的配准方法[10]依靠着其计算量小、鲁棒性好、可应用于复杂的几何变换模型等优点在众多配准方法中脱颖而出。该方法在对参考图像和待配准图像进行预处理之后,进行特征提取,将提取的特征进行匹配,以此进行配准。基于特征的配准方法经过多年的发展,已经出现了很多特征提取的算子和方法。其中SIFT[11]、SURF[12]、MESR[13]等算法已经在众多领域被验证是十分优秀的配准方法。

近年来,随着深度学习的快速发展,神经网络在数字图像处理领域的各类问题上都体现出了卓越的性能。众多学者也在图像配准问题上引入了神经网络这一强大工具。Altwaijry 等人[14]通过深度模型和空间转化模块完成了图像块匹配的工作,对于旋转偏移较大的图像实现了较好的配准效果。Han 等人[15]通过搭建两个平行的卷积神经网络构架,顶层使用全连接层和Soft⁃max 分类器,实现了不同拍摄角度下的可见光图像的粗配准。Nguyen 等人[16]提出利用光度损失并在此基础上使用无监督学习构建卷积神经网络。Zhang 等人[17]在神经网络的特征提取模块后补充了一层掩膜结构,该方法能够更加具体地表现出图像中目标与背景的深度关系。毛远宏等人[18]基于迁移学习的网络模型,集成了特征提取子网络和匹配度量子网络两部分,实现了可见光图像和红外图像的匹配,但是匹配效果鲁棒性不佳。尽管以上方法在一定程度上验证了卷积神经网络在解决图像配准问题上的可行性,但是所完成的图像配准问题主要集中在同源图像上或者医学图像上,对于异源摄像机所采集到的海洋场景下图像的有效处理方法有待开发。

本文提出一种端到端的红外图像与可见光图像配准网络,使用无监督学习的训练方法对网络进行训练。相比于其他学者提出的配准方法,本方法不需要预先配准的真实结果,也不借助任何硬件信息作为辅助度量参数,直接利用从图像获取的特征点信息完成配准。而且本网络作为端到端的红外图像与可见光图像配准网络,不产生中间图像作为辅助数据,大大降低了计算量。相比其他的配准方法,本算法鲁棒性较强,对于各种海洋、海岸目标、城市楼宇场景下的红外可见光图像都能实现较好的配准效果,算法的运行速度快,训练后的网络完成一次配准仅需要0.74 s,有较好的应用前景。

1 基于神经网络的红外可见光配准

1.1 异源图像配准

随着现代光学成像设备的不断发展,单一光源波长范围的成像设备所获取图像的信息量逐渐不能满足人们的需求[19]。尤其在海洋场景中的溢油、赤潮等目标的监测中,由于海雾、复杂光场等背景环境因素的影响,必须采用多维度光学技术手段进行探测,对于不同光学传感器获取的图像进行融合处理势在必行。但是当前很多融合算法还没有体现出理想的融合效果,究其原因是在融合处理前所进行的配准工作质量不佳。配准结果对应像素偏移误差过大导致了后续融合处理无法达到理想结果。为了能在融合图像中展示出更多的互补信息,发挥出不同光学传感器成像结果的优势,必须对异源图像进行更加精确的配准,将配准精度提升至像素级。红外图像和可见光图像由于在图像获取阶段的成像原理大不相同[20],对于同一目标的成像结果灰度值存在较大差异,传统的可见光配准算法在红外与可见光图像配准的应用场景下配准质量较差。很多基于特征的可见光图像配准算法应用在异源图像配准时,都存在特征点提取数量不足或者所提取特征点无法匹配的问题。

本文提出的基于神经网络的红外与可见光图像配准方法,使用神经网络替代了传统的经典配准算法的特征描述子。如图1(a)所示,对于一对图1(b)中的红外和可见光示例图像,在通过神经网络完成特征点提取后直接完成特征点匹配,并通过特征点坐标的仿射变换生成形变场,完成红外与可见光图像的非刚性配准。本方法采用无监督学习的方法训练神经网络,训练后的网络获得了红外图像与可见光图像之间的共性特征。

图1 网络选取特征点的图像配准流程及示例图像对

本网络提取的特征点数量充足,鲁棒性更强,通过该特征点生成的图像形变场能实现更好的配准效果。此外,该方法生成的特征点分布更加广泛,克服了局部特征点分布密集而另一区域特征点分布过于稀疏导致的局部配准效果过差的问题。

1.2 FDR-Net 配准网络总体结构

使用特征点检测的红外-可见光图像配准网络(Feature-point Detector Registration Network,FDR-Net)是一种端到端的图像配准网络。通过FDR-Net 提取两幅图像中存在对应特征的像素点作为特征点,对于特征点匹配生成变换矩阵,从而完成红外图像与可见光图像的配准任务。

FDR-Net 采用了全卷积的编码器-解码器结构,可以处理任意尺寸大小的图像,直接从待配准的两幅图像出发,探索待配准图像的本质特征与联系,不需要获得拍摄图像时所选用的相机参数和拍摄目标的信息,一定程度上增加了网络的普适性。如图2 所示,该网络由四个部分组成:输入层、卷积层、上采样层以及输出层。为了使网络能够自主提取和探索待配准图像对之间的有效特征点匹配信息,在每对精确匹配的图像对上随机生成同分布的若干个泛特征点,将两幅图像及标记生成的泛特征点坐标堆叠后输入网络,编码区包含9 个卷积层。同时兼顾了所学习泛特征点附近像素块的高频分量特征和低频分量特征,对卷积后的数据进行4 次上采样并与之前卷积层所提取的数据连接起来,最后通过构建特征点相似性测度函数判断特征点特征匹配程度。

图2 FDR-Net 网络框架

相似性测度函数借鉴了图像相似性度量中归一化互信息(Normalized Mutual Information,NMI)的概念,并在此基础上加以改进作为相似性测度损失项Lsim。

式(1)~式(4)中,H(VIS)、H(NIR)、H(VIS-NIR)分别为可见光图像特征点所在像素块的信息熵、红外图像特征点所在像素块的信息熵和两图像的联合信息熵,PVIS、PNIR为可见光图像和红外图像特征点像素块的像素值分布,PVIS-NIR为特征点所在像素块的像素值联合分布。求取对应函数的期望值,当特征点所在像素块完全独立时,联合熵最大,相似性最小,Lsim取0;当特征点所在像素块完全匹配时,联合熵最小,相似性最大,Lsim取1;Lsim输出的数值结果越趋近1,表示特征匹配程度越高,输出的数值结果越趋近0,表示特征匹配程度越低。完成训练后,将高于学习及格阈值的特征点对作为有效特征点。

1.3 网络训练

本网络基于Pytorch 深度学习框架进行开发,所使用计算机的操作系统:Windows10 企业版64位操作系统;中央处理器:Intel Core i9-10900k;图形处理器:NVIDIA GeForce RTX 3090 显卡一块,显存容量24 GB;内存:128 G。

通过图3 中的双CCD 近红外相机拍摄的图像经过裁剪之后构建生成使用的图像训练集。该相机在成像模块前采用了双棱镜分光技术,如图4 所示,利用相机内部的近红外分光面阵棱镜,可以将入射光分别投至两片传感器上,同时进行可见光区域和近红外光区域的检测,所得到的红外图像和可见光图像是通过上述硬件装置实现的精确配准的图像对,且大小尺寸相同,是构建FDR-Net 训练集的优秀数据来源。

图3 构建数据集所使用相机实物图

图4 所使用相机内部光路图

网络的训练过程总共选取200 对双CCD 近红外相机拍摄的图像,经过处理后生成训练集,为了兼顾计算机的显存限制和训练速度,在训练的过程中对原图像进行了裁剪,裁剪后图像大小为460×620,在每张裁剪后的图像上随机生成100 组成对特征点作为泛特征点,将成对图像和泛特征点坐标输入网络后,网络输出相似性测度损失项的数值,经过大量实验数据的验证,认定该数值高于0.76 的泛特征点匹配效果较为良好,为真特征点,将特征点坐标和相似性测度损失项后向传播到神经网络,优化卷积层权重参数。训练使用Adam 优化器进行优化,进行20轮训练总计12 800 次迭代至网络收敛。

1.4 配准实现

网络训练完成后,对于待配准的图像对,首先在固定图像(Fixed Image)上生成服从均匀分布的待匹配特征点并记录坐标,将待配准图像对绑定以上坐标输入到神经网络,使用神经网络遍历求取浮动图像(Moving Image)上对应像素块内所有点与待匹配特征点的特征匹配程度,选取像素块内匹配度最高的特征点作为匹配特征点。

求得匹配特征点之后,通过仿射变换求得变换矩阵,实现图像配准。仿射变换参数可由公式(5)求得:

式中,(x,y)和(x′,y′)为待匹配图像对的特征点对应坐标,其中的6 个参数可以确定两幅图像之间的变换关系。仿射变换的6 个参数至少需要3对匹配的特征点对求得,当存在更多匹配的特征点对,可以通过最小二乘法求取最佳解。

通过FDR-Net 生成特征点后,网络输出匹配特征点的坐标以及对应的匹配程度系数。由于FDR-Net 所生成的特征点的匹配效果具有较好的鲁棒性能,因此无须使用类似RANSAC[21]等算法进行去除误匹配的操作,仅通过最小二乘法即可对变换矩阵参数实现准确估计,由于不同的匹配特征点具有不同的匹配程度系数,因此采用带权最小二乘法进行仿射变换矩阵参数回归。带权最小二乘回归原理如下:

式中,θ为待定参数;(X,Y)为一对匹配特征点的坐标参数;W为对应匹配程度系数构成的对角矩阵。

将仿射矩阵的6 个待求参数记为:θe=[A11;A12;A21;A22;A13;A23; ]。

记第t个匹配的特征点对坐标分别为(Xti,Xtj),(Ytp,Ytq)。在暂不考虑匹配程度系数W的情况下,仿射变换矩阵关系式如下:

将式(7)中等式左边的坐标矩阵记为Xe,等式右边的矩阵记为Ye。定义匹配程度系数对角矩阵We= diag(w1,w2,…,wn)。最终按照公式(8)实现带权最小二乘回归,得到仿射变换中6 个待求参数:

2 实验与分析

2.1 评价指标

图像配准技术经过几十年的发展,目前为止并没有普适的图像配准质量评价标准。为了验证所提出配准方法的有效性,除了人为的主观定性评价外,采用特征点选取数量(Number of Feature Point,NoFP)、平均配准误差(Average Registration Error,ARE)、平均角点误差(Average Corner Error,ACE)、算法运行时间等标准作为定量衡量配准质量的指标。

其中,ARE 是利用生成的变换矩阵对测试图像进行坐标变换后,得到的整幅图像的坐标值和真实值之间的欧几里得距离的误差。

式中,(x,y)是真值坐标;(x′,y′)是通过变换矩阵生成的坐标;A代表匹配的特征点个数。

ACE 是指在配准后图像上随机选取的矩形方框四对顶点坐标的均方误差,可以用来全面评估配准质量的优劣。

式中,xi是随机选取的矩形方框四个角点横纵坐标变化量的预测值;yi是对应横纵坐标变化量的真实值。

2.2 配准结果比较

对于给定的待配准图像,分别使用SIFT、SURF 和FDR-Net 对其完成配准,比较各方法配准结果的NoFP、ARE、ACE、算法运行时间等参数,定量评估各种方法的配准性能。

对比配准结果图,通过主观观察可以得知,本文算法实现的配准图像存在的重影、模糊边缘等情况明显减少,对于图5 中场景1 海岸边的树木纹理、图6 场景2 中舰船的桅杆以及图7、图8、图9 中各场景的主要目标外部轮廓等细节,FDR-Net 的配准结果明显优于传统算法的配准结果。从表1 中配准结果各项指标的数据可以看出,本文提出的配准方法相比其他传统方法,能稳定地提取出数量足够的特征点,且几乎不存在特征点误匹配的情况。在平均配准误差和平均角点误差相比SIFT 算法分别提升了73%和69%,相比SURF 算法分别提升了61%和58%,且配准算法实现时间也大幅度减少。

图5 场景1 各算法配准结果

图6 场景2 各算法配准结果

图7 场景3 各算法配准结果

图8 场景4 各算法配准结果

图9 场景5 各算法配准结果

表1 各算法性能比较结果

3 结论

传统的图像配准算法大多采用特征提取算子提取特征,应用在异源图像配准任务上鲁棒性差且提取的特征点误匹配较多,所达成的配准精度较差。本文提出的基于FDR-Net 的红外与可见光图像配准网络是端到端的图像配准网络,能够稳定地在待配准图像中提取特征点,同时配准时不需要利用图像拍摄时的硬件参数和目标信息。从海岸目标、海面舰艇、楼宇等场景的配准结果图可以看出,相比传统算法,本方法不仅在平均配准误差、平均角点误差等参数评估方面均提升58%以上,在舰船轮廓、海岸目标边缘、海岸楼宇轮廓等处发生重影、模糊等现象明显减少,配准结果的像素偏移误差明显降低。使用本方法完成配准预处理的图像再进行下一步融合、超分辨等工作必然会得到效果更佳的结果图。但是,本网络只实现了近红外与可见光两种异源图像的配准,受限于数据量的大小,网络仍然有进一步优化的空间。对于偏振图像、长波红外等灰度分布差异更大的图像,必然需要进一步优化网络结构实现其与可见光图像的配准,但是本文提出的构建数据集、训练网络实现端到端异源图像配准的思想依然是值得采纳推广的。

猜你喜欢

红外像素神经网络
像素前线之“幻影”2000
网红外卖
闪亮的中国红外『芯』
神经网络抑制无线通信干扰探究
“像素”仙人掌
TS系列红外传感器在嵌入式控制系统中的应用
ÉVOLUTIONDIGAE Style de vie tactile
基于快速递推模糊2-划分熵图割的红外图像分割
高像素不是全部
基于神经网络的拉矫机控制模型建立