基于DNET的空中红外目标抗干扰识别算法

2021-03-26张凯王凯迪杨曦李少毅王晓田

航空学报 2021年2期

张凯，王凯迪，杨曦,*，李少毅，王晓田

1. 西北工业大学航天学院，西安 710072 2. 南京南瑞信息通信科技有限公司，南京 211106

红外空空导弹是近距空战的主战武器，是近距格斗空战胜负的关键，然而当前红外空空导弹面临的核心问题，就是抗干扰问题，特别是伴随新型干扰装备使用和各种复杂作战天地背景环境的出现，抗干扰问题愈发凸显，成为限制空空导弹作战能力和技术发展的瓶颈，由工程需求牵引的基础性问题，依然没有攻克。

红外空空导弹攻击过程极为复杂，目标从点、亚成像到成像阶段，不同的攻击进入角，战斗机等典型目标在导引头探测系统中投影的一致性、规律性差，目标的形状、灰度、尺寸都会发生剧烈变换。同时，在攻击过程中，目标机会进行大过载机动，伴随投放大量的人工诱饵弹，高温高光谱辐射的诱饵弹在导引头探测系统中会对目标造成全面遮蔽、大面积黏连、干扰目标分离后特性相近、视场内出现多个疑似目标点等问题，随机性强、对抗复杂、态势多变、规律性难以把握。因此，即便是美国号称世界最为先进的AIM-9X“响尾蛇”空空导弹，面对抗干扰问题，也无法确保命中率，美军将抗干扰问题作为导弹的核心技术问题，成立“空中目标算法开发(ATAD)”中心，专门负责空中目标自动识别算法的开发工作，以提高和改善导弹武器在低信噪比和复杂背景下的自主目标捕获能力、自适应抗干扰能力[1]。

传统基于模板匹配的目标识别算法是利用模板和待检测图像的相似度进行目标搜索和识别。高晶等[2]提出了一种基于形状模板的目标识别方法，通过构建高斯多尺度空间并引入模糊集理论分离目标与背景。用改进的Hausdorff距离算法精确定位目标[2]。赵天生采用混合高斯模型的背景减除法与边缘检测算法融合提取运动目标，将模板更新、卡尔曼运动预测和基于单元灰度熵的模板匹配技术结合，避免目标模板“退化”现象导致目标丢失[3]。虽然模板匹配技术易于实现，但是对于模板的选择有非常严苛的要求，并且简单的模板很难应对各种复杂的场景，鲁棒性较差[4]。基于机器学习的红外目标识别算法通过已有的经验和专业知识，人为设计一个数据特征提取器，从图像中获得所需的特征数据用于红外目标识别。郭文诚等[4]提出了一种利用Zernike矩旋转与缩放不变性提取红外目标几何特征，并以此训练量子粒子群算法优化后的相关向量机方法，进而识别红外目标。张旭艳等[5]使用不变矩与红外目标几何形态特征组成的联合特征量提取红外目标特征，并选取欧氏距离作为目标分类识别的判别准则。张迪飞等利用分割算法提取红外图像中的连通区域[6]，提取HOG(Histogram of Oriented Gridients)高维特征离线训练SVM(Support Vector Machine)分类器并在线识别目标。上述两类方法的特征都是事先定义的，算法性能的优劣主要依靠设计者的先验知识和设计经验。

近年来，深度学习等人工智能算法在计算机视觉等领域获得了巨大的成功，在目标分类、识别领域展示出了突破性的能力[7-9]，为解决红外目标抗干扰识别问题指出了新的技术途径。朱大炜[10]针对RCNN模型框架的不足，采用SSD[11](Single Shot MultiBox Detector)模型框架实现了对红外飞机目标的检测。对原始的VGG[12](Visual Geometry Group)网络进行了改进，通过微调迁移学习对SSD网络进行训练，经测试在保证检测正确率的基础上，实现了对红外图像中飞机目标的实时检测[10]。何谦[13]使用YOLOv3[14](You Only Look Once)作为深度学习目标识别算法，基于仿真建立图像数据集，改进YOLOv3算法，对图像中隐身飞机和诱饵弹的特征进行学习，输出权重文件用于测试，通过相应的指标对训练结果给出评价。徐小婷基于YOLOv3对红外的多场景数据集进行模型的训练及测试，在YOLOv3原有的网络基础上，再添加了3个小尺寸的特征图用于检测，解决了在检测成像距离较近的大目标时YOLOv3的错检和漏检的现象[15]。

但目前深度学习等算法在红外目标识别中的应用依然存在较多基础性问题未能解决。仅仅训练通用深度学习网络并应用于红外目标识别，没有针对空中红外目标抗干扰识别面临的尺度、形状、灰度变化问题，抗干扰遮蔽、相似问题，制定针对性的解决方案。

针对空空导弹红外目标抗干扰识别的核心问题，本文设计一种新的基于信息特征提取的深度卷积神经网络DNET(Dense NET)空中红外目标抗干扰识别算法。网络整体采用多个特征融合模块密集连接，提取浅层、深层网络的语义信息并保存于前部通道中，以保证在红外点目标阶段具有足够的物理特征。同时，网络末端引入特征注意力机制，进一步提取保存的特征信息，实现特征自适应校准。针对目标形状、尺度剧烈变化及抗干扰的问题，增加多尺度密集连接模块，并与多尺度特征融合检测结合，提升大尺度变化条件下的特征提取能力和目标识别效果。

1 算法概述

本文提出一种基于信息特征提取的深度卷积神经网络DNET空中红外目标抗干扰识别算法，在满足实时检测的条件下保持对红外目标全过程检测的精确性、尺度变化适应性等。本文识别算法主要由以下5部分组成：① 小目标跟踪阶段，提出小尺寸卷积核融合策略，解决卷积网络在小目标识别效果不佳的问题；② 构建特征融合M模块，凸显边缘信息特征识别权重，更好地联合浅层的边缘特征与深层的语义信息；③ 采用目标特征注意力机制，建立FA(Feature Attention)模块，筛选最能表征目标深层特性的特征；④ 改进YOLO算法用于检测分类，满足实时监测红外目标的要求；⑤ 最后针对导弹攻击全过程，建立多尺度M模块和多尺度特征检测策略，提升算法多尺度目标特征提取能力。网络整体结构及参数分别如图1和图2所示。

图1 DNET网络结构示意图Fig.1 Diagram of DNET network structure

图2 DNET网络参数Fig.2 DNET net work parameters

2 基于DNET网络的目标抗干扰识别算法

2.1 小尺寸卷积核组合策略

在卷积神经网络中，不同尺寸的卷积核对图像具有不同大小的感受野。传统卷积神经网络在提取特征信息的过程中，使用大尺寸卷积核获得大的感知域。然而，卷积核尺寸的增大必然带来计算量指数级增大。为了压缩计算量提升检测速度，本文使用多个3×3卷积核代替5×5、7×7等大尺寸卷积核。相比于使用单个大尺寸卷积核的方法，连续使用多个小尺寸卷积核可以获得与大卷积核相同的感受野，同时减少参数量。

卷积神经网络每一层输出特征图的像素点在原始图像上映射的区域大小定义为感受野，计算公式为

(1)

式中：l为卷积层数；RFl为层l的感知域，RF0=1；fl为层l的卷积核尺寸；si为层i的步幅，s0=1。si可由式(2)计算得到：

si=s1×s2×…×si-1

(2)

在一个由3层3×3卷积核组成的卷积神经网络中，第1层网络输出的像素映射在原始图像的3×3区域，故而第1层的感受野为3，字母表示为RF1=3；第2层网络输出的像素映射在第1层输出的3×3区域，第1层输出的3×3区域映射在原始图像的5×5区域，故而第2层的感受野为5，即RF2=5；同理可得，第3层的感受野为7，即RF3=7。

卷积运算期间的参数量是影响整个网络实时性能的因素之一。卷积运算的参数量越小，网络的速度性能越好。卷积运算中的参数量由式(3)计算得到：

Cost=Kh×Kw×Cin×Cout

(3)

式中：Cost为卷积参数量；Kh、Kw为卷积核的高度和宽度；Cin、Cout为输入和输出的通道数。小卷积核堆叠策略和大卷积核策略的感受野和参数量的比较结果如表1所示。

由表1可以看出，当图像大小固定时，在获得相同大小感受野的情况下，使用2个3×3卷积核

表1 卷积核尺寸比较Table 1 Convolution kernel size comparison

参数代替5×5卷积核，计算量从25×Cin×Cout降为18×Cin×Cout，使用3个3×3卷积核代替7×7卷积核，计算量从49×Cin×Cout降为27×Cin×Cout，因此，使用多个小尺寸卷积核可以大幅减少卷积过程中参数量。并且，更多的卷积层数意味着网络中融入更多的激活函数，使得整体网络具有更多的非线性函数，有利于网络提取更丰富的特征，同时提升网络的分类能力。

在网络中加入1×1卷积核作为瓶颈层，可以在保持特征图尺寸不变的情况下，进一步降低计算量，提升网络速度。例如，对一个512通道的输入特征图进行3×3的卷积操作，并降维到128通道的输出特征图。是否加入1×1卷积瓶颈层的参数量对比如表2所示。

表2 卷积组合计算量比较

由表2可以明显看出，加入1×1卷积瓶颈层可以大幅降低改变特征图通道数时的计算开销。另外，增加1×1卷积层提升网络非线性，同时融合多通道信息，加深网络。

2.2 M模块结构设计

为了兼顾不同尺寸的目标，大多数的检测网络使用VGG[11]或者残差网络ResNet[16]作为基础结构。在连接深层网络与浅层网络时，只是简单将深层网络的输出上采样后，与浅层网络的输出相叠加。本文受到DenseNet[17]中密集连接方式(dense操作)的启发，在密集连接中，输入的每层网络的特征图是之前所有层输出特征图的总和，在57×57尺度尽可能地保存各个输出层的信息。而其本身的特征图作为之后所有层输入特征图的一部分，更好地联合浅层的边缘特征与深层的语义信息。因此，本文将使用的特征融合模块命名为M模块，如图3所示。

图3 M模块结构Fig.3 Structure of M module

M模块中输出与输入的关系定义为

Xn=Mc(δ(CXn-1)+Xn-1)

(4)

式中：Xn-1为输入特征图，从X0开始到Xn为第n层的输出特征图，到X7结束；C为卷积操作；δ为leaky激活函数；Mc(a,b)=Concat(a,b)表示将2个特征图进行通道叠加。

DenseNet作者使用密集连接的方式缓解梯度消失问题，网络在加深的同时获得更好的表达效果。本文发现密集连接可以在同一尺度上融合浅层与深层信息，对小尺寸的红外小目标检测有更好的识别与定位能力。另外，密集连接兼有正则化的效果，有利于不使用预训练网络而直接重新训练网络模型。

为验证本文网络对小目标识别的精确度，本文设计了4种不同结构的M模块进行小目标识别对比实验，参数设置如表3所示。M模块的输入特征图尺寸为57×57×128通道。其中，结构A由7个M小组组成，各M小组包括一次conv3-dense操作，输出57×57×1024的特征图。在结构A的基础上，结构B在每小组中加入一个尺寸为1×1×128的卷积瓶颈层。由于密集网络的串联操作会使通道数快速增加，在特征提取层前加入瓶颈层，以显著降低计算量。同时网络借助激活函数融入更多的非线性，提升网络表达能力。结构C采用64通道的瓶颈层conv1替换结构B中128通道的瓶颈层conv1，结构D采用64通道的卷积层conv3替换结构B中128通道的卷积层conv3。

表3 4种M模块的参数设置Table 3 Parameter setting of four M modules

2.3 FA模块

经过M模块的特征融合操作，浅层网络与深层网络的特征已经保存在特征图的各个通道中。下一步加入特征注意力机制(Feature Attention Mechanism)，自适应地在128层特征图中筛选出最能表征目标深层特性的特征。将筛选出的特征与原特征融合，提升重要特征的权重参数。即利用全局信息，使得网络有选择地增强有益的特征，从而实现特征通道的自适应校准。因此，DNET在骨干网络的最后加入FA模块，其结构如图4所示。

FA模块的特征计算为

(5)

式中：P为全局平均池化；C1为1×1×8的卷积操作；C2为1×1×128的卷积操作；U表示放大倍数为57的上采样操作。

FA模块的输入X0为57×57×128通道的特征图。多数神经网络中的卷积核只对部分目标特征进行卷积，无法有效使用卷积区域外的特征。而且较低网络层次的感受野尺寸较小，情况会更加严重。基于此，本文网络采用全局平均池化对各特征图进行压缩，使特征图变为1×1×128的实数数列。该数列具有全局感受野，使得浅层网络的特征图同样具有利用全局特征信息的能力。为了利用挤压操作中聚合的信息，使用激励操作全面捕获通道依赖性。

首先，使用1×1×8通道卷积层的降维操作与1×1×128通道卷积层的升维操作。其中，1×1卷积发挥全连接的作用，并获得每个特征通道的重要程度。同时，在卷积操作中加入Leaky激活函数。相对于ReLU激活函数，Leaky的负半轴保留一个很小的正值(在本研究中设为0.1)，缓解“死”ReLU问题。当x<0时，ReLU输出为0，导致模型无法学习特征。若学习率设置过大，导致网络部分神经元处于“死掉”的状态，无法有效训练。因此，在使用ReLU激活函数时，需要合理设计网络的学习率。最后，经过上采样还原得到尺寸为57×57的X1。将X1与原输入X0相加，增强原输入中有益的特征，得到最终输出。

图4 FA模块结构Fig.4 Structure of FA module

2.4 YOLO回归算法

在检测部分，选择一步算法YOLO作为检测方法。首先，如FAST-RCNN[18-19](Fast Region Convluation Neural Network)，FASTER-RCNN[20](Faster Region Convluation Neural Network)等2步检测算法，均需要通过区域提议网络等方法得到候选区域，进而使用高质量的分类器进行分类。这使得计算开销非常大，不利于实时检测。YOLO将提取候选区和分类2个任务融合至一个网络，直接利用回归方法提高检测速度，更好地满足红外目标检测的实时性需求，避免了提议区域生成边界框坐标和各类别的概率。另外，有研究表明[21]，只有单步算法可以在没有预先训练的情况下成功收敛，这是由于两步方法中的ROI池化为各推荐区域生成特征，从而阻碍了梯度从区域级平滑反向传播至卷积特征映射。同时，基于区域建议的方法[19]必须与预先训练的网络模型同时工作，因为参数初始化对卷积层具有促进作用。

SSD的多尺度检测算法仅适用于饱满大中小目标的通用数据集，但是针对红外小目标检测问题并没有特别大的意义。因此，在一步算法中选择YOLO，而不是多数通用网络选择的SSD[10]。

YOLO检测原理如图5所示。YOLO网络将输入图片分为57×57个区域，如果目标中心落在某个区域中，则负责预测目标和3个边框。

YOLO网络分为每个训练中的图像，设置为7×7个网格。每个网格负责检测落在其中的目标，其中需要预测B个边界框与C个类别信息，每个边界框要预测目标的中心横坐标x、中心纵坐标y、宽度w、高度h、置信度5个值。输出为一个S×S×(5×B+C)的张量。在YOLO中，B=2，C=20。置信度定义为

(6)

图5 YOLO检测原理Fig.5 Detection principle of YOLO

YOLO的损失函数为

Loss=Errorcoord+Erroriou+Errorclass

(7)

式中：Errorcoord、Erroriou和Errorclass分别代表预测数据与标定数据之间的坐标误差、IoU误差和分类误差。

坐标预测误差函数Errorcoord定义为

Errorcoord=

(8)

IoU误差函数Erroriou定义为

(9)

分类误差函数Errorclass定义为

(10)

2.5 多尺度检测策略

由于空中目标全过程识别的尺度与形状变化较大，在256×256的图片中，目标最初大小约为4×4，结束时目标充满整个视场，大小变为256×256。因此，在经过3次下采样与8次卷积操作得到合适的尺寸后，分别使用M模块在28×28、14× 14、7×7这3个尺度上提取不同大小目标的特征信息，模块参数如图6所示。

其中，各M模块由7个M小组组成，各M小组包括一次conv1-conv3-dense操作。第1个M模块在28×28的尺度使用1×1×64与3×3× 128的卷积组合1，每次dense叠加可以在特征图上增加128通道，得到28×28×1 024的特征图。再次使用卷积组合1得到28×28×128的大尺度特征图。

第2个M模块在14×14的尺度上使用1×1× 128与3×3×256的卷积组合2，经过dense叠加得到14×14×2 048的特征图。再次使用卷积组合2得到14×14×256的中尺度特征图。

第3个M模块在7×7的尺度上使用1×1×256与3×3×512的卷积组合3，同样经过dense叠加得到7×7×4 096的特征图。再次使用卷积组合3得到14×14×256的小尺度特征图。

然而，加入多尺度M模块的DNET仍然无法完全适应目标图像的尺度变化。这是由于实验过程中目标的尺度由点目标不断增大，直至充满整个视场，变化的剧烈程度远超通用数据集。同时，由于预选框与检测特征图的分配是人为设置的，导致预选框无法正确匹配真实框。因此，本文选择单尺度检测作为最佳方法。

图6 多尺度M模块参数Fig.6 Parameters of multiscale M module

本文算法选择单尺度检测方法，即只使用一个尺度的特征图，且目标的尺度与形状变化剧烈，因此需要这个特征图尽可能多的包含各尺度目标的各类特征。大小为7×7的特征图可以满足对大尺度目标检测的需求，但是对于小物体仍需更加精细的特征，因此在DNET的末端加入重组层以提升网络的表达能力。在尺度为7×7的网络层尽可能保存各输出层的信息，更好地联合浅层的边缘特征与深层的语义信息。

以2×2的重组层为例，如图7所示。重组操作是在原特征图上抽取每个2×2的局部区域，将其中4个值分别分配到4个特征图中。对于14× 14×32的特征图，经重组层处理后变为7×7×128的新特征图(特征图大小降低4倍，通道增加4倍)，与7×7×512特征图连接在一起，形成7×7×640的特征图，并在此基础上卷积作预测。

将DNET与重组层相结合，得到多尺度特征融合检测网络DNET，如图8所示。具体操作如下：首先，在28×28维度使用1×1×16卷积核，将其28×28×1 024的特征图降至16维，该操作看做在1024通道中筛选出最重要的16个通道。其次，通过4×4的重组操作生成7×7×256的特征图，在14×14尺度使用1×1×32的卷积核，将其14×14×2 048的特征图降至32维。然后，通过2×2的重组操作生成7×7×128的特征图。最后，将7×7×256、7×7×128的特征图与7×7维度的256维特征图连接，得到7×7×640的特征图。

图7 重组操作示意图Fig.7 Diagram of recombination

图8 多尺度特征融合检测网络结构示意图Fig.8 Structure diagram of multi-scale feature fusion detection network

骨干网络最后的输出层包含了28×28、14×14和7×7尺度的特征信息。因此，仅使用7×7的特征图进行类别与坐标回归，实现对各个大小的目标鲁棒。最后，在回归层前连续使用3次1× 1×256与3×3×512的卷积层组合。

3 实验与分析

为了验证本文提出的DNET网络在导引头攻击全过程对空中红外目标识别的有效性和准确性，本章分别进行小目标识别实验和全程目标抗干扰识别实验。

目前，基于卷积神经网络的目标检测算法中，性能较为突出的通用网络为：FASTER-RCNN[20]、SSD[10]、YOLOv3[13]。尤其是YOLOv3相对于YOLOv2，在检测精确度与检测速度上的表现均较为突出，着重改进了对小目标的检测效果。因此，本文将DNET与FASTER-RCNN、SSD、YOLOv3进行全程目标抗干扰识别对比实验，训练参数设置与DNET相同。

本文硬件实验环境为：GPU：NVIDIA GeForce 1080Ti；CPU：Inter®CoreTMi7-8700, 3.20 GHz；RAM为16 GB。程序实现使用DARKNET框架编写，在Ubuntu环境中运行。

3.1 数据集构建

3.1.1 实测小目标图像数据集

本文采用的实测数据集为红外热像仪采集的多组640×512像素的红外小目标图像序列，5组图像共29 630张，部分图像如图9所示。从中选取500张作为训练集，其他作为测试集。

图9 部分红外小目标数据Fig.9 Data of infrared small target

测试集的统计情况如表4所示。由于图像序列中包括目标飞出视场或者被遮挡的情况，因此含有待检测目标的图片数较总图片数稍少。其中，序列1～4为海天背景，包括海天线与海杂波；序列5为海天、云层背景，包括海杂波、海天线与云边缘。5组序列中，目标最小尺寸为2像素×2像素，最大尺寸为27像素×34像素。

表4 测试集的目标数量与尺寸范围Table 4 Target number and size range of test set

3.1.2 仿真弹道图像数据集

仿真数据集采用基于实验室的战场态势对抗仿真实验平台，生成红外空战仿真数据集进行算法测试。全程抗干扰识别测试样本集包括初始发射条件、目标机动、干扰投射策略3个维度对抗条件的参数。在此限定范围内，设计所有近距对抗条件参数并进行量化，主要量化参数如下：

1) 初始对抗态势参数：目标高度、载机高度、目标速度、载机速度、水平进入角、发射距离、综合离轴角(可分解为水平离轴角、垂直离轴角)。

2) 目标机动类型：无机动、左机动、右机动。

3) 红外人工干扰参数：总弹数、组数、弹间隔、组间隔。

因此，识别率仿真数据集设置条件如下：

1) 导弹发射距离为7 000 m。

2) 目标高度和载机高度均为6 000 m。

3) 目标速度和载机速度均为Ma=0.8。

4) 点源干扰弹投射总数为24枚。

5) 目标机动类型为无机动、左机动、左机动。

6) 组间隔为1.0 s，弹间隔0.1 s，投弹组数分别为24、12、6。

7) 水平进入角在0°～180°范围内每隔15°选取。

结合上述量化参数设置，仿真数据集共包含117条序列。选取其中15条作为训练集，如表5所示；其余序列作为测试集，如表6所示。

表5 训练集序列参数Table 5 Parameter of sequences of training set

表6 测试集序列参数Table 6 Parameters of sequences of test set

3.1.3 数据增强

为扩大原始数据生成新实例，实验针对所有红外图像数据采用数据增强技术，使用90°、180°和270°的角度旋转对数据集进行3次增强，从而获得具有更好检测性能的红外小目标检测网络。

3.2 评价指标

为了验证本文所提出的检测网络DNET的有效性，实验主要从精确度、召回率、速度3个指标评价算法。对于分类问题，样本的分类结果可以分为4种：真正例(TP)、假正例(FP)、真负例(TN)、假负例(FN)。

精确度(P)定义为正类预测正确的样本数占预测的正类样本数的比例。其表达式为

(11)

召回率(R)定义为正类预测正确的样本数占实际的正类样本数的比例。其表达式为

(12)

通常，算法无法同时兼顾模型的精确度和召回率，提升精确度往往会降低召回率，反之亦然。为了更好地评估算法的性能，本文使用F1值同时考虑精确度和召回率。其表达式为

(13)

3.3 小目标识别实验与分析

3.3.1 实测数据实验与分析

1) 网络训练

根据3.1节生成的数据集训练本文目标识别网络DNET。表7提供训练过程中的参数设置，如学习率、批大小、权重衰减系数、训练步数，学习率在60 000步之后衰减到0.000 1。

表7 训练参数Table 7 Training parameters

选择合适的批量大小，对于提高网络模型的收敛速度和准确性具有重要意义。在本文中，根据本次实验的硬件配置，最终选择的批量大小为96，并将其分成8个子批次进行训练。

实验使用选取的数据集和训练参数，训练本文红外目标检测网络DNET-A、B、C、D。图10显示训练期间损失值的趋势。可以看出，4个网络的准确性随着训练次数的增加而逐渐增加，最终均收敛于0.05左右。

2) 识别结果分析

选取的25张代表图片的识别结果如图11和表8所示。其中，表8统计各序列的平均置信度(漏判或多判的置信度记为0)。

比较结果可以发现，在具有小目标大尺度变换、目标脱离视场和海天背景的数据集中，本文中提出的4种网络的性能相对YOLOv3具有明显优势，精确度、召回率、F1值均有不同程度的提高,速度更是提高至YOLOv3的2倍，在保证高精确度的同时满足了实时检测的要求。其中，DNET-C平均精确度为99.39%，平均召回率为99.80%，平均F1值为0.996。相比于YOLOv3和其他3种DNET模型，DNET-C具有更明显的优势，同时检测速度达到105帧。DNET所用的回归部分与YOLO相同，明显的性能提升证明了针对性设计特征提取骨干网络的重要性与有效性。

DNET-B、DNET-C、DNET-D的平均F1值高于DNET-A，体现在M模块中加入瓶颈卷积层的重要性，在降低计算量的同时提升网络检测速度。而且在网络中加入更多的非线性，使得网络有更好的表达效果。瓶颈层的加入最高可以提升50%的计算效率。本文认为，在M模块中，瓶颈卷积层conv1主要是用于压缩凝练上层M小组的输出，卷积层conv3主要用于提取特征。而DNET-C的效果优于DNET-D，说明在设计网络时，使conv3小于conv1的通道数有更好的效果，即在特征提取时，应使用比瓶颈层更宽的网络。

图10 DNET-A,B,C,D 4种网络的损失函数变化曲线Fig.10 Loss function curves of DNET-A, B, C, D

表8 网络检测置信度比较Table 8 Detection confidence comparison of network

在本次实验的5条测试序列中，目标均发生了较大的尺度变化，目标在2×2的点目标与27×34 的亚成像目标中往复变化。作为对比算法，YOLOv3对于亚成像目标的检测效果接近DNET，但在检测点目标时与DNET拉开差距。当点目标在640×512像素的图片中仅占据2×2像素时，YOLOv3基本无法检测目标，而DNET-C依然成功标出目标位置，且DNET对目标的尺度变化也有很强的适应性。序列1～5的海天背景与海天线均未对DNET的结果造成影响，且DNET在序列5中的云层背景下也有出色的识别效果。各序列的算法识别结果对比如表9～表13所示。

图11 实测小目标图像序列1-5识别结果Fig.11 Detection results of image sequences 1-5 of measured small target

表9 序列1的识别结果比较Table 9 Comparison of recognition results of sequence 1

表10 序列2的识别结果比较Table 10 Comparison of recognition results of sequence 2

表11 序列3的识别结果比较Table 11 Comparison of recognition results of sequence 3

表12 序列4的识别结果比较Table 12 Comparison of recognition results of sequence 4

表13 序列5的识别结果比较Table 13 Comparison of recognition results of sequence 5

3.3.2 仿真数据实验与分析

本节进一步使用3.3.1节效果最好的红外小目标检测网络DNET-C，进行仿真红外小目标抗干扰识别实验。在3.1.2节的训练集序列中挑选红外点目标图片480张作为训练样本集，手工进行目标类别标注和边界框标注。同时，在测试集序列中挑选红外点目标图片共2 259张作为测试集，分别测试和对比DNET-C和YOLOv3的抗干扰识别结果。

1) 网络训练

表14提供训练过程中的参数设置，如学习率、批大小、权重衰减系数、训练步数，学习率在60 000步之后衰减到0.000 1。

表14 小目标识别训练参数Table 14 Training parameters of small target recognition

2) 结果分析

DNET-C与YOLOv3的红外抗干扰识别结果如表15所示。在2 259个飞机目标中，DNET-C正确识别出2 199个，漏检60个，漏检率仅为YOLOv3的1/3，虚警7个。召回率97.34%，相比于YOLOv3提升了5.57%，精确度为99.68%，F1值为0.985，相比于YOLOv3提升了0.29。识别速度105.7 fps，为YOLOv3的2倍，达到实时识别的要求。图12(c)和图12(d)分别为YOLOv3和DNET-C的识别效果图(为了明显展示结果图细节，DNET-C的识别效果图经过剪裁，为原图的1/9中心区域)。

表15 DNET-C与YOLOv3识别结果Table 15 Recognition results of DNET-C and YOLOv3

图12 DNET与3种通用网络的识别效果对比Fig.12 Recognition effects of DNET and three universal networks

由于飞机几乎完全被干扰遮挡，仅凭单张图片而不参考整个序列的情况下，人眼无法从所示图片中辨认出飞机目标及位置。所以，在实验的训练集中有意回避了这种情况，即并未选取此类图片作为训练集。但是，算法DNET-C依然通过单帧检测，精确地识别飞机目标，即可以识别未出现在训练集中，且人眼无法识别的目标。同时有力证明了DNET-C准确的特征提取能力。

3.4 全程抗干扰目标识别实验与分析

3.4.1 训练参数

根据3.1.2节生成的仿真弹道数据集，训练3.3节中效果最好红外目标抗干扰识别网络DNET-C。同时，训练通用网络FASTER-RCNN(ZF)、SSD、YOLOv3并与DNET-C进行测试对比分析。表16提供训练过程中的参数设置，如学习率、批大小、训练步数，学习率在70 000步之后衰减到0.000 1。

表16 全程抗干扰目标识别训练参数

根据本次实验硬件配置，最终选择了256的批量大小，并将其分成8个子批次进行训练，相当于批量大小为32。

3.4.2 结果分析

4种网络在102条序列，共89 380张图片的识别结果如表17所示。4种网络的部分识别效果分别如图12和图13所示。

表17 4种算法的识别结果对比Table 17 Comparison of recognition results of algorithms

图13 部分态势下的DNET-C识别效果Fig.13 Recognition effect of DNET-C in part of situation

FASTER-RCNN算法的总识别率为52.0%，识别速度为43 fps。当目标较小时，FASTER-RCNN完全无法识别。在目标成像阶段，算法的表现较好，识别率达到95.6%。但是在飞机与诱饵相互黏连的情况下会造成算法无法识别，FASTER-RCNN抗遮挡性能较差。在序列末端，目标充满视场时，识别效果同样较差，如图12(a)所示。另外，FASTER-RCNN在连续识别图片序列时，识别框抖动较大，定位效果较差。

SSD算法的总识别率为55.8%，略高于FASTER-RCNN，识别速度为23 fps。SSD对小目标抗干扰识别的效果依然不好，仅正确识别很少部分小目标图像。在目标成像阶段，在目标与诱饵的黏连状态，SSD同样无法识别目标，抗干扰性能较差，如图12(b)所示。由于SSD算法中加入了多尺度检测，因此对目标图像尺度变化的适应性较好，在目标几乎充满视场时，并未出现FASTER-RCNN错误识别的情况。

YOLOv3算法的总识别率94.0%，识别速度55 fps。YOLOv3主要加强了小目标的识别效果，因此在本次实验中可以识别整个序列。YOLOv3的漏检主要是发生在点目标和亚成像阶段，无法准确区分目标与干扰，如图12(c)所示。同时，进入弹道末端攻击阶段的目标即将充满或已经视场，YOLOv3同样完全无法识别。主要原因是人为分配预选框，使得网络在训练时预选框匹配不合理，无法正确匹配真实框。另外，当目标完全充满视场时，YOLOv3同样无法识别目标。本文进一步将识别效果较好的YOLOv3与DNET-C进行评价指标对比，如表18所示。

表18 DNET和YOLOv3的评价指标Table 18 Evaluation indicators of DNET and YOLOv3

DNET-C的召回率为96.95%，是4种算法中最高的，相比于YOLOv3提升6.85%。精确度为99.36%，F1值为0.981，相比于YOLOv3提升0.37。识别速度132.0 fps，为YOLOv3的2.3倍，达到实时识别的要求。DNET-C可以准确识别飞机在视场中由远及近的全过程，解决了YOLOv3无法识别序列末端的问题。

可以看出，DNET-C网络保留了对点目标、亚成像目标准确的抗干扰识别能力，拥有很高的小目标识别能力。同时，当飞机翻转、投放诱饵时，DNET-C可以准确识别目标，拥有较高的抗干扰识别能力。在序列末端，目标充满视场时准确识别目标，DNET-C拥有较强的尺度适应性。

4 结论

本文针对红外空空导弹精确探测制导的人工干扰博弈问题，提出一种基于目标信息特征提取的深度卷积神经网络DNET空中红外图像目标抗干扰识别算法，主要结论如下：

1) 针对红外图像点目标阶段的检测问题，提出一种依据信息特征提取的深度卷积神经网络DNET，采用M模块密集连接技术，可更好地融合浅层网络的位置信息与深层网络的语义信息。

2) 针对全程目标形状、尺度剧烈变化及抗干扰识别问题，在DNET网络中加入多尺度密集链接模块，并与多尺度特征图检测相结合，显著提高网络在全攻击过程中对图像目标的特征提取能力。

3) 通过目标抗干扰识别实验表明，本文算法在目标遭受遮蔽、黏连、相似等严重人工干扰，以及目标自身形状、尺度、辐射特性等发生剧烈变化情况下，具备目标识别精确度和召回率高、识别速度快等优点，并具有良好的鲁棒性。

保证跟踪精度的前提下，对目标遭受干扰严重遮挡、自身尺度、姿态变化等情况具有较好的鲁棒性。

4) 本文算法采用单帧识别方法可达到图像序列识别的能力，可满足红外抗干扰的实时性要求，初步解决了红外空空导弹攻击全过程的抗干扰识别问题。但在充分利用图像序列之间的帧间相关性方面，有待进一步改进提高。

[21] ZHANG X, DING Q, LUO H, et al. Infrared small target detection based on an image-patch tensor model[J]. Infrared Physics & Technology, 2019, 99: 55-63.