APP下载

注意力卷积长短时记忆网络的弱小目标轨迹检测

2020-12-23杨其利周炳红李明涛

光学精密工程 2020年11期
关键词:短时记忆红外注意力

杨其利,周炳红,郑 伟,李明涛

(1.中国科学院 国家空间科学中心,北京 100190;2.中国科学院大学 工程科学学院,北京 100049)

1 引 言

红外弱小目标的轨迹检测是红外导引的一项关键技术。基于红外序列图像的弱小目标运动轨迹提取技术是对成像传感器采集的图像序列进行特征提取,并根据这些特征对图像序列中的小目标进行关联、匹配,得到运动目标的运动轨迹。近地天体大多距离地球遥远,尺寸小且亮度低,难以被有效探测到,其信息采集主要依靠望远镜(可见光和红外)和雷达等天文观测设备,目前红外探测技术已被引入到近地天体预警和监测任务中。红外场景的目标检测和提取可以全天时工作,在小天体探测、导弹制导及战场侦察等航空航天领域具有重要的地位。

传统有效的方法是在多帧图像序列中首先估计目标的运动轨迹,沿轨迹进行目标能量积累,然后对积累后的图像进行检测判决。由于目标能量在连续帧图像之间是相关的,而噪声在连续帧之间是不相关的,因而沿目标轨迹的能量积累将远远大于非目标轨迹上的能量积累,在积累后的图像上进行判决将有较高的信噪比,得到较好的检测性能。这种先估计轨迹后检测目标的方法亦被称作检测前跟踪(Track Before Detect, TBD)[1]技术。

Blostein等[2]的多阶假设检验方法可以同时检测多个线性运动目标,它将多个目标的轨迹组织成一棵树的形式,然后利用假设检验方法对树的每一层进行修剪,能够有效地检测单个目标的轨迹。这种算法的效率和直接轨迹匹配的算法相比,有数量级的显著提高,但是需要在目标范围内将目标限制为均匀的直线运动,因此该方法的应用受到限制。Liou等[3]提出了一种高阶相关方法,该方法可以在目标数量、初始条件等未知的情况下,从有噪声的三维图像中检测出直线或曲线轨迹,适用于不同杂波密度下的多目标检测,但是它将灰度图像转化为二值图像,转化时若阈值选择得较高则漏检率高,导致航迹检测失败;相反,运算量较大。Barniv等[4]提出的动态规划方法,利用了分段优化的思想,将目标轨迹搜索问题分解为分级优化的问题,这种方法不仅可以检测匀速运动的目标,而且也可以用于检测机动运动的目标。然而,随着目标信噪比的降低,基于动态规划方法的性能下降非常明显,且该方法空间复杂度较高算法实时性较差。Reed等[5]提出了三维匹配滤波方法,将弱小目标检测问题转化为三维空间上速度匹配的问题,并且通过理论推导获得了频域上最优三维匹配滤波方程,但是三维匹配滤波器需要事先知道目标的灰度分布函数以及目标运动速度,在实际应用中,这些参数很难事先得到。

深度学习方法在视觉目标跟踪领域的巨大成功,为移植或搭建适用于红外目标跟踪的深度学习模型提供了可能。对于时空序列问题,近年来火热的基于卷积神经网络(Convolutional Neural Network, CNN)的AlexNet[6],VGG[7],GoogleNet[8]等算法都无法解决。主要原因是以上3种算法代表的卷积神经网络的优点是对结构表征能力很强,缺点是局限于静态图,无法建模动态图的时空序列问题。递归神经网络(Recurrent Neural Network, RNN)[9]很重要的一个用途是处理和预测序列数据,可能在红外场景下有所作为。对于缺乏形状和纹理特征的红外目标,可以尝试利用红外目标时间维度上的信息。长短时记忆网络(Long Short-Term Memory, LSTM)[10]是递归神经网络的一种变体,它解决了网络训练过程中梯度爆炸和消失的问题。Shi等[11]在结合了LSTM的序列处理能力和CNN的空间特征表达能力后,提出了能够解决时空序列预测问题的卷积LSTM模型(Convolutional Long Short-Term Memory, ConvLSTM),这种结构被用于处理降水临近预报的序列图像,特别适合于时空数据。张等[12]提出将ConvLSTM与3D卷积神经网络相结合的方法,用于手势识别任务,考虑到手势主要包含手的局部信息和手臂的全局运动信息,他使用3D卷积神经网络用于学习局部的短期时空特征,使用ConvLSTM学习长期时空特征,这种短期和长期时空特征相结合的学习方法在任务中取得了最佳的精度。人类的视觉注意力机制能够帮助人眼在复杂的环境中快速定位至最感兴趣的目标。谢等[13]提出一种基于注意力的网络结构,用于检测图像的显著区域,突出了图像前景区域像素并抑制背景区域信息,实现了减少背景干扰的目的。

序列图像目标轨迹提取,本质上就是同时提取序列图像中目标的时间维运动信息和空间维特征信息的过程。因此,受上述研究者的启发,本文针对连续15帧红外图像序列,提出一种将ConvLSTM,3D卷积核以及注意力机制结合在一起的网络架构,充分利用红外序列的时间维信息和空间维信息,实现红外图像序列弱小目标运动轨迹的检测,其中3D卷积核用于提取短期时空信息,ConvLSTM用于提取序列的长期时空信息,注意力机制用于筛选与弱小目标运动轨迹相关的关键信息,同时忽略绝大部分不重要的背景信息。

2 注意力机制卷积长短时记忆网络

2.1 长短时记忆神经网络

长短时记忆网络是循环神经网络的改进形式,解决了原始递归网络对于长时期依赖问题,即通过之前提到但是时间上较为久远的内容进行后续的推理和判断。LSTM的基本思路是引入门控单元,来处理记忆单元的记忆、遗忘、输入、输出程度的问题,如图1(a)所示,其基本单元被称为记忆块,由1个中心节点和3个门控单元组成。中心节点通常被称为记忆细胞,用以存储当前网络状态,3个门控单元分别被称为输入门、输出门和遗忘门,用以控制记忆块内信息流动。在前向传播过程中,输入门用以控制输入到记忆细胞的信息流,输出门用以控制记忆细胞到网络其他结构单元的信息流。在反向传播过程中,输入门用以控制迭代误差流出记忆细胞,输出门用以控制迭代误差流入记忆细胞。而遗忘门则用以控制记忆细胞内部的循环状态,决定信息的取舍或遗忘。通过这种门控机制,LSTM网络得以控制单元内信息流动,使其具备保存长时间信息的能力,即‘记忆’能力,在训练过程中能够防止内部梯度受外部干扰,避免了梯度弥散和梯度爆炸问题。设单个LSTM记忆块的输入向量为Xt,前向传播公式可表述如下。

图1 (a)长短时记忆网络,(b)卷积长短时记忆网络

长期记忆单元Ct更新过程:

it=σ(WxiXt+WhiHt-1+bi),

(1)

ft=σ(WxfXt+WhfHt-1+bf),

(2)

(3)

(4)

短期记忆单元Ht更新过程:

ot=σ(WxoXt+WhoHt-1+bo),

(5)

Ht=ot∘tanhCt,

(6)

其中ot表示输出门,控制着短期记忆如何受长期记忆影响。

单个LSTM记忆快的输出Ct,Ht循环作为记忆快的输入输出,即第t-1时刻记忆快输出Ct-1,Ht-1为t时刻LSTM记忆快的输入值,此为层内循环。层内各时刻LSTM记忆快共用相同权重参数W~和偏置系数b~,因此,单层LSTM网络可以看作单个LSTM记忆快输入输出值的循环计算。此外,短期记忆Ht还作为下一个LSTM记忆快的输入参与到该层循环计算中,此为层间计算。

2.2 卷积长短时记忆网络

Shi等[11]针对雷达回波序列图像,提出了卷积长短时记忆网络(Convolutional Long Short Term Memory Networks, ConvLSTM),解决了临近降水预测问题。此后,ConvLSTM已被应用于动作识别[14]、手势识别[12]和其他领域[15],这些数据都有很强的时空相关特性。

如图1(b)所示,ConvLSTM单元与LSTM单元具有同样的3个门控制单元和1个中心节点,分别是:输入门、遗忘门、输出门和记忆细胞。最大的不同是在当前时刻的输入与短期记忆结合后进行了单层卷积计算,这个不同点是提取空间结构信息的关键。ConvLSTM可以描述为:

it=σ(Wxi*Xt+Whi*Ht-1+bi),

(7)

ft=σ(Wxf*Xt+Whf*Ht-1+bf),

(8)

ot=σ(Wxo*Xt+Who*Ht-1+bo),

(9)

(10)

(11)

Ht=ot∘tanhCt,

(12)

ParamConvLSTM=K×K×(Cin+Cout)×Cout×4.

(13)

在继承全连接LSTM算法强大的时间相关性处理能力的基础上,通过增加一层卷积结构解决了原算法的空间数据冗余的问题,实现了空间结构的表征能力。

2.3 3D卷积神经网络

3D卷积神经网络在2D卷积神经网络[19]的基础上改变而来,主要运用在视频分类[16]、动作识别[17]、医疗诊断[18]等领域。3D卷积是通过堆叠多个连续帧组成一个立方体,然后在立方体中运用3D卷积核。通过这种结构,卷积层中的特征图都会与上一层中的多个相邻帧相连,从而捕获运动信息。如图2所示,一个特征图某个位置的值是通过卷积上一层的连续三组特征图的同一位置的局部感受野得到的。通过对连续的三组特征图进行卷积处理,得到一组3D的特征图。

图2 相同的3D卷积核应用于输入视频中的重叠立方体以提取运动特征[17]

在构造3D卷积层时,首先建立一组小的3D卷积特征提取器,扫描输入来获取更高层次的特征表示。使用不同的卷积核与输入特征做卷积操作来生成新的特征体。3D卷积操作的函数表示为:

(14)

2.4 采用注意力机制的卷积长短时记忆网络结构

2.4.1 基于注意力机制的ConvLSTM

为了研究不同的门控单元与注意力机制组合后的特性,本文使用了两种卷积长短时记忆单元的变体,由于结构中引入了注意力机制[20],考虑到结构的计算量会有所增加,且并不是所有门控单元都需要卷积操作,因此,两种变体的结构中将部分门控单元改为全连接操作。

第一种变体,如图3(a)所示,在ConvLSTM的基础上,将ConvLSTM的遗忘门、输出门的卷积操作改为全连接操作,由于输入Xt和上一时刻的短期记忆Ht-1为二维张量特征映射,需要通过全局最大池化的方式将其变为一维向量,并且在输入门it中增加了注意力机制。并将这种结构称为基于输入门注意力机制的卷积长短时记忆单元(Convolutional Long Short Term Memory based on Attention Mechanism of Input Gate, AIConvLSTM)。Sigmoid激活函数使门值处在0~1范围内。输入门和其他门控单元可以重新定义为:

(15)

(16)

Zt=Wi*tanh(Wxi*Xt+Whi*Ht-1+bi),

(17)

(18)

(19)

(20)

(21)

(22)

(23)

Ht=ot∘tanhCt,

(24)

图3 (a)输入门注意机制的卷积长短时记忆单元,(b)输出门注意机制的卷积长短时记忆单元

第二种变体,如图3(b)所示,也是在ConvLSTM的基础上,将输入门、遗忘门的卷积操作改为全连接操作,但是注意力机制位于输出门的位置。将这种结构称为基于输出门注意力机制的卷积长短时记忆单元(Convolutional Long Short Term Memory based on Attention Mechanism of Output Gate, AOConvLSTM)。输出门和其他门控单元可以重新定义为:

(25)

(26)

(27)

(28)

Zt=Wo*tanh(Wxo*Xt+Who*Ht-1+bo),

(29)

(30)

(31)

(32)

(33)

Ht=ot∘tanhCt,

(34)

2.4.2 模型设计

本文的网络结构引入了3D卷积核和带有注意力机制的卷积长短时记忆单元。3D卷积核用于提取输入图像序列的时间和空间特征,而带有注意力机制的卷积长短时记忆单元用于进一步学习时空特征的关联信息,并且过滤掉与任务无关的信息。如图4所示,模型包含10个可调参数层,输入层接收连续15帧尺寸为48×48的图像序列。为了研究不同变体的卷积长短时记忆单元的特性,本文将该模型作为主体架构。

第一阶段,特征提取层,利用不同的3D卷积核对原始输入的15帧连续图像序列分别进行卷积操作,初步提取多帧图像关于弱小目标运动轨迹的特征。3D卷积核的时间维为3,空间维为3×3,卷积核数为64,跨距和零填充都为1×1×1,后接ReLU激活函数和批标准化层。

第二阶段,双支路3D卷积融合模块,该模块包含两个3D卷积支路,共3个3D卷积层,每个卷积层后跟ReLU激活函数和批标准化层,两个支路通过“串联”操作进行信息融合。其中一个支路包含一个3D卷积层和批标准化层,另一个支路包含两个串联的3D卷积层和批标准化层。这一阶段的主要目的是通过两个分支网络对第一个3D卷积层得到的特征信息进行提取和抽象,并通过“串联”操作融合不同抽象程度的时空特征。该阶段所有3D卷积核都采用时间维为3,空间维为3×3,卷积核数为64,跨距和零填充都为1×1×1的参数设置。

图4 基于注意力机制的卷积长短时记忆网络结构

第三阶段,3D卷积层,这一层采用时间维为3,空间维为3×3,卷积核数为32,跨距和零填充都为1×1×1的3D卷积核,后接ReLU激活函数。该层通过减小卷积核数量,进一步抽象图像序列的信息,有效减少特征图的数量,并为下一卷积长短时记忆模块的输入做准备,降低计算时间。以上多层3D卷积层都学习到了局部的短期时空特征。

第四阶段,注意力卷积长短时记忆(Convolutional Long Short-term Memory with Attention Mechanism, AConvLSTM)模块,该模块由两层改进的卷积长短时记忆单元堆叠而成,用于学习图像序列的长期时空特征图,能够很好地模拟特征信息的时空关系。卷积核大小设置为3×3,跨距和零填充都为1×1,核数为32。由于在卷积核中都使用了“零”填充,因此AConvLSTM在不同阶段的时空特征都具有相同的空间大小,即AConvLSTM的输出特征图空间尺寸依然为48×48。

第五阶段,3D卷积模块,该模块由3个3D卷积层组成。所有3D卷积核的时间维设置为3,空间维为3×3,跨距和零填充都为1×1×1,前两层卷积核数为16,后接ReLU激活函数。由于弱小目标轨迹检测任务是一个二分类问题,最后一层3D卷积层输出网络的预测,因此,卷积核数为1,后接Sigmoid激活函数。

2.4.3 模型实现

本实验使用Google开源的Keras框架来实现,使用的训练数据集为仿真的视频数据,包括3 000个数据维度为48×48×15的红外图像序列,测试样本来自5个红外图像序列。实验的硬件环境是:CPU为Intel(R) Xeon(R) Silver 4114 CPU @ 2.20 GHz,内存为32 GB,系统类型为64位Windows10 操作系统,网络采用带动量参数的随机梯度下降法进行训练:

(35)

其中:mom为动量参数,Δwi是参数w第i轮的更新量,lri+1是当前的学习率,L是损失函数,wc是权重衰减系数。动量参数可以加快收敛速度,这里动量设置为0.9,权重衰减系数设置为0.000 5,总共迭代120代,初始学习率为0.001,每隔20代下降0.000 2,每一次学习的样本数量(batch size)设置为2。使用的损失函数为交叉熵损失函数,它是语义分割问题中常用的损失函数,其数学表达式为:

(36)

3 实验设置

在本节中,本文提出的模型将在5个红外图像序列上进行测试和评估。首先简要描述模型训练用到的训练数据集以及5个红外图像序列测试集。然后介绍了用于衡量模型性能的评价指标。

3.1 数据集描述

本文所使用的训练数据集是在一段不含目标的红外视频中,人工加入高斯信号构造的仿真数据集。首先对每幅图像随机生成坐标点,提取48×48区域作为背景样本。然后将二维高斯强度模型作为目标样本添加到背景样本中。二维高斯模型如下:

(37)

其中:(x0,y0)是图像目标的中心,s(i,j)是目标在图像位置(i,j)的像素值。生成目标的强度sE是介于0到1之间的随机数,σx和σy是高斯分布标准差。利用不同的参数可以产生不同信噪比的弱小目标,相邻的两帧图像中的目标中心间隔1个像元,每次生成连续的15帧图像序列。本文生成的目标信噪比介于1~5 dB,训练样本如图5所示。测试集是5个红外图像序列,用于验证所提算法的有效性,前3个序列来自真实序列,后两个序列为仿真序列,其详细描述如表1所示。

图5 红外图像序列仿真数据集

表1 五个真实图像序列的细节描述

3.2 度量指标

实验使用了4种度量方法:均方根误差,平均绝对误差,峰值信噪比和结构相似度。

均方根误差(Root Mean Square Error, RMSE)是预测值与真值偏差的评分和观测次数比值的平方根,对一组测量中的特大或特小的误差反映特别敏感。因此,均方根误差能够很好地反映出测量精密度。其数学表达式如下:

(38)

其中:Xij,Yij分别表示网络输出观测图像X和真值图像Y中位于(i,j)位置像素的值,R,C分别表示图像的高度和宽度。

平均绝对误差(Mean Absolute Error, MAE)是观测值与真值绝对误差的平均。平均绝对误差由于离差被绝对值化,不会出现正负相抵消的情况。因而,平均绝对误差能够更好地反映预测值误差的实际情况:

(39)

其中:变量Xij,Yij,R,C含义同RMSE一样。RMSE相当于L2范数,MAE相当于L1范数。次数越高,计算结果就越与较大的离差值有关,而忽略较小的离差值。这就是RMSE针对预测值更加敏感的原因。

峰值信噪比(Peak Signal to Noise Ratio, PSNR)是经常用于图像压缩、超分辨率图像重建等领域中信号重建质量的评价方法,它通过均方根误差进行定义,单位为分贝(dB):

(40)

式中变量Xij,Yij,R,C含义同RMSE一样。PSNR是最普遍和使用最为广泛的一种图像客观评价指标,它是基于对应图像像素点的误差,即基于误差敏感的图像质量评价指标,数值越大表示失真越小。

结构相似度(Structural Similarity Index, SSIM)也是一种全参考的图像质量评价指标,它分别从亮度、对比度、结构三方面度量图像的相似性:

(41)

(42)

(43)

(44)

(45)

其中:μX,μY分别表示观测图像X和真值图像Y像素的均值,R,C分别表示图像的高度和宽度。σX,σY分别表示观测图像X和真值图像Y的标准差,σXY表示图像X和Y的协方差,为了避免分母为0,C1,C2通常设置为常数,这里C1=(K1L)2,C2=(K2L)2,K1=0.01,K2=0.03,L=255。

3.3 基准模型

为了分析注意力机制卷积长短时记忆单元的特性,本文构造了两种不同的注意力卷积长短时记忆网络模型,第一个模型是将图4架构中的注意力卷积长短时记忆模块中的两层AConvLSTM都替换为AIConvLSTM,称这个模型为3D-AIConvLSTM,第二个模型是将图4架构中的两层AConvLSTM都替换为AOConvLSTM,称这个模型为3D-AOConvLSTM。另外构造了两种基准模型与它们进行了对比试验。第一个基准模型是将图4主体架构中的两层AConvLSTM替换为两层时间维为3,空间维为3×3,核数为32,跨距和零填充都为1×1×1的3D卷积层,称这个基准模型为3DCNN。第二个基准模型是将主体架构中的两层AConvLSTM都替换为ConvLSTM,称这个模型为3D-ConvLSTM。

图6 四种模型在8个红外短序列的弱小目标轨迹提取结果

4 实验结果分析与模型对比

图6展示了不同轨迹检测方法对8个连续15帧红外图像短序列的轨迹提取结果,其中,红色矩形框标注了红外图像真实目标的位置,粉色矩形框标注了不同方法对目标运动轨迹提取的结果(彩图见期刊电子版)。第1列展示了8个短序列的首帧图像,其中图6中1-A与1-B为来自序列1的红外图像,2-C与2-D为来自序列2的红外图像,3-E与3-F为来自序列3的红外图像,4-G与5-H分别来自序列4、序列5的红外图像。第2列展示了对应红外短序列小目标的真实运动轨迹,第3列至第6列分别展示了3DCNN方法、3D-ConvLSTM方法、3D-AIConvLSTM方法和3D-AOConvLSTM方法对8个短序列的检测结果。

由图6可知,3DCNN方法的轨迹提取长度要短于真实的运动轨迹,背景中残留了大量的噪声和杂波。3D-ConvLSTM方法提取的轨迹非常接近真实的目标运动轨迹,但背景中残留的噪声和杂波要比3DCNN更多,特别是1-A,1-B,4-G,5-H的检测结果,两种方法都残留了大量的杂波和噪声。3D-AIConvLSTM的结果显示,其杂波残留非常少,效果要优于3DCNN和3D-ConvLSTM方法的结果,且提取的目标运动轨迹也接近真实轨迹,但对于2-D和3-E的短序列处理结果,其轨迹出现了断点,即目标运动轨迹不连续。3D-AOConvLSTM方法的处理结果,展示了其提取的目标轨迹不仅非常接近真实轨迹,其连续的运动轨迹,效果要优于3D-AIConvLSTM方法,背景中的噪声和杂波也残留非常少,效果优于3DCNN方法和3D-ConvLSTM方法。因此,基于输出门注意力机制的卷积长短时记忆网络模型(3D-AOConvLSTM)能够很好地提取复杂背景下弱小目标的运动轨迹。

为了客观地描述本方法的优势,本文还在5个红外图像序列,计算了均方根误差(RMSE),平均绝对误差(MAE),峰值信噪比(PSNR)和结构相似度(SSIM)等4个度量指标,用于衡量上述4种轨迹提取方法的性能,表2~表5展示了不同方法对于5个红外图像序列在4个度量指标上的均值。

表2 四种轨迹提取方法在不同序列上的均方根误差

表3 四种轨迹提取方法在不同序列上的平均绝对误差

表4 四种轨迹提取方法在不同序列上的峰值信噪比

表5 四种轨迹提取方法在不同序列上的结构相似度

由表2~表5所示,基于输出门注意力机制的卷积长短时记忆网络(3D-AOConvLSTM)除了在序列1红外图像上的结构相似度指标上,与取得该指标最优值的3DAI-ConvLSTM方法仅相差0.000 2,在序列5红外图像上的均方根误差和峰值信噪比取得次优结果之外,在5个序列上的其他度量指标均达到了最优的结果。

表6展示了4种轨迹方法的参数容量,2种基于注意力机制的卷积长短时记忆网络,即3D-AIConvLSTM和3D-AOConvLSTM的参数数量最少,均只有432 560个参数,少于3DCNN和3D-ConvLSTM的参数量。

为了展示整个序列的弱小目标运动轨迹,本文通过在时间维上叠加同一序列所有轨迹提取结果,绘制了轨迹平面,并且把出现3次以上非0像素点的位置设置为0,其展示结果如图7所示(彩图见期刊电子版)。第1列展示了5个序列的真实运动轨迹,第2列至第4列分别表示3DCNN,3D-ConvLSTM,3D-AIConvLSTM以及3D-AOConvLSTM方法对5个序列提取的完整轨迹,黄色圆圈标注了处理结果的杂波部分,蓝色圆圈标注了轨迹的间断部分。由图7可知,序列1只包含一个运动目标,且运动轨迹为一条直线,序列2包含4个目标,运动轨迹比较随意,序列3包含大量的运动目标,且轨迹交织在一起,部分目标的运动轨迹不连续,呈虚线状态。序列4和序列5均各包含一个目标,并保持直线运动。3DCNN方法提取的轨迹呈虚线状,轨迹间隔过大,背景中残留了较多杂波噪声。3D-ConvLSTM方法提取的轨迹与真实的轨迹相似,但是序列2和3的结果中仍然出现了轨迹间断的部分,背景中残留的杂波比3DCNN方法还要严重,特别是在序列4和序列5中,3DCNN和3D-ConvLSTM方法残留了大面积的杂波背景,这主要是由序列中的强杂波和背景快速运动造成的。3D-AIConvLSTM方法得到的结果显示背景噪声很少,但序列3中部分目标的运动轨迹没有检测出来,造成了漏检现象。3D-AOConvLSTM方法得到的轨迹与真实的轨迹最为相似,背景噪声也很少,其轨迹检测结果明显优于3DCNN,3D-ConvLSTM和3D-AIConvLSTM方法。

本文通过控制变量的方式,在同一个主体架构上,逐步替换网络中的注意力卷积长短时记忆模块,由以上对比方法的实验结果可以看出,所有网络层均为3D卷积核的3DCNN检测到的轨迹表现为轨迹短、不连续,未能检测到目标的全部轨迹信息,而在此基础上替换了两层3D卷积核的3D-ConvLSTM则检测到真实轨迹的完整信息,表现为连续的完整轨迹,这就从实验结果上体现出3D卷积核只能提取序列的短期时空信息,正好印证了3D卷积核的结构特性,即只能卷积相邻的几组特征体,而3D-ConvLSTM由于使用了ConvLSTM单元,其结构上的循环特性保证了序列不断的信息抽取,其轨迹检测结果的完整性和连续性也验证了它的结构特性。在3D-ConvLSTM的基础上,本文又提出了3D-AIConvLSTM和3D-AOConvLSTM,它们在ConvLSTM单元中均使用了注意力机制,最大的不同就是在LSTM中添加的卷积操作位置不同,由3D-AIConvLSTM和3D-AOConvLSTM的对比实验可以看出,不同的卷积位置取得的轨迹检测结果大不相同,在输入门中加入卷积操作和注意力机制,由于输入门控制着新记忆信息写入长期记忆的程度,输入数据被丢弃之后会直接进入长期记忆,并会进一步与输出门信息融合,形成短期记忆,使短期记忆保留的信息越来越少,在减少背景杂波的同时,也相应的丢失了目标信息,而在输出门中加入卷积操作和注意力机制,长期记忆接收来自输入门的信息,并融入了来自输出门的信息,这也是3D-AOConvLSTM的轨迹要优于3D-AIConvLSTM的原因。

表6 四种轨迹提取方法的模型参数数量

图7 不同检测方法在5个序列上的轨迹提取结果

针对连续15帧的复杂红外图像序列,3D-AOConvLSTM方法利用3D卷积核提取短期的时空信息,利用AOConvLSTM单元提取时空信息的长期信息,利用注意力机制丢弃大量的冗余时空信息,实现了对弱小目标运动轨迹的有效提取。基于输出门注意力机制的卷积长短时记忆网络表现效果最好的原因,在于它将注意力机制放置在输出门的位置,输出门控制着短期记忆如何受长期记忆影响,它能够从长期记忆中提取与任务相关的重要信息,并舍弃冗余信息,而基于输入门注意力机制的卷积长短时记忆网络层将注意力机制放置在输入门的位置,控制着新记忆信息写入长期记忆的程度,若长期记忆中的重要信息被错误的丢弃,那么后续时刻与任务相关的信息将永久消失,这就是将注意力机制放置在输出门的优势。

5 结 论

本文通过结合3D卷积核、长短时记忆单元以及注意力机制,设计了深度学习网络架构,建立了红外图像序列中多帧图像与轨迹检测之间的相关性,从大量时空信息中有选择的筛选和任务相关的重要信息,同时忽略绝大部分冗余的信息,能够应用在近地小天体的探测和预警任务中。本文方法无需任何先验知识,就能够精确检测到小运动目标的运动轨迹,解决了基于TBD轨迹搜索算法存在的需要事先获取目标灰度分布函数或运动速度等先验知识的问题。与3DCNN,3D-ConvLSTM,3D-AIConvLSTM方法对比,基于输出门注意力机制的卷积长短时记忆网络实现了对红外序列图像中低于6 pixel弱小目标的运动轨迹有效检测,检测效果最好,背景噪声残留最少,在均方根误差和平均绝对误差上相对于3DCNN、3D-ConvLSTM和3D-AIConvLSTM方法平均降低了32.8%和46.3%,在峰值信噪比和结构相似度上平均提高了18.3%和4.3%。

猜你喜欢

短时记忆红外注意力
基于非稳态调和分析和长短时记忆神经网络的河口潮位短期预报混合模型
基于长短时记忆神经网络的动力电池剩余容量预测方法
网红外卖
让注意力“飞”回来
闪亮的中国红外『芯』
8路红外遥控电路
TS系列红外传感器在嵌入式控制系统中的应用
“扬眼”APP:让注意力“变现”
A Beautiful Way Of Looking At Things
短时记忆理论的影响