基于数据驱动的自学习防空火力控制技术

2021-08-07刘建生程晓敏宋丽琼侯宇辰

火力与指挥控制 2021年7期

刘建生，程晓敏，丁帅，宋丽琼，侯宇辰

（北方自动控制技术研究所，太原 030006）

0 引言

随着无人技术、人工智能技术、大数据技术的发展，战场感知越来越泛在化、集群作战越来越自主化和协同化、作战体系越来越云态化。传统的防空火力控制技术已经难以满足新形势下的作战需求［1］。

在传统武器装备设计中，防空火力控制技术的实现方式主要是依据先验知识，建立一系列数学模型在探测跟踪、运动假定、时空配准、目标分配、决策生成、协同控制等方面进行预测、控制、评价，其整个控制过程是时不变参数、时不变结构，不具备有效利用大量在线数据、离线数据进行挖掘分析、关联规则形成自学习、自修正的能力。这种能力缺失导致传统火力控制技术存在诸多不足，主要体现在：目标运动假定模型单一，只涵盖有限几种经典运动方程，对临空攻顶、无人机蜂群、高机动等目标缺乏有效状态空间模型；信息融合与传感器紧耦合，不能有效处理信息的多样性和不确定性；决策分析没有真正的集数据、模型、知识于一体，只是运用模型和数据库进行局部推理，缺少知识的提取、归纳、管理，不具备人工智能的基因；效能评估指标体系的构建还是基于专家系统，影响它的完备性、客观性、时效性［2-5］。

综上所述，通过引入大数据思想，有效利用历史数据、仿真数据、实时在线数据，针对传统火力控制技术中时敏目标状态空间模型构建、大闭环校射、协同信息处理、控制决策、效能评估等薄弱环节，运用数据挖掘、深度学习、神经网络等技术，提升火控系统自修正、自学习能力，推动火力控制技术的创新升级，为武器装备向无人化智能化方向发展提供技术支撑［6-7］。

1 国内外研究现状

2017 年3 月，美军发布《美国陆军机器人与智能系统战略》，是美陆军在应用人工智能技术方面的战略规划，提出了战略发展目标，描绘了机器人和智能系统的发展方向；2017 年4 月份，美军方与谷歌公司开展了“加快国防部整合大数据和机器学习”的项目，重点推动美军在深度学习、智能算法、军用机器人等方面的技术革新；2018 年8 月，美国防部发布《2017-2042 年无人系统综合路线图》，该路线图针对系统自主性梳理了4 项关键技术，将人工智能和机器学习作为第一关键技术［8］。

国内对人工智能在军事领域的应用研究也逐渐成为热点，孙志军等人利用深度学习方法，提高了雷达识别目标的准确率；张乐等人研究了基于自编码神经网络的装备体系评估指标方法；朱丰等人研究了基于深度学习的战场态势评估；刘忠采用深度学习技术开展了智能指挥控制方法的研究等；尤其在无人机和装备故障诊断领域，人工智能算法已经在武器装备上进行工程实践［9］。

2 方案原理

本文主要探索大数据、数据挖掘、深度学习等技术与武器装备火力控制的结合点，用大数据思维推动火力控制技术升级，从以“模型”为核心转变为“数据+模型”为核心，注重火力控制各环节相关性的挖掘分析，以数据被动应用转变为知识的学习管理，从而使得武器装备在目标探测跟踪、误差自修正、分布式信息处理与控制决策、毁伤评估等方面，具备一定程度的感知推理、决策分析、自主控制等能力。

图1 技术实现原理

3 基于大数据的多类型目标状态空间模型分析

基于大数据的目标状态空间模型分析方法，是将数据驱动的思想引入传统的模型识别，利用存储的大数据信息中包含的多种目标属性信息和运动状态信息进行判断、比对，有效地修正目标状态空间模型的使用种类以及使用参数。同时根据误差分析，对选择的目标状态空间模型进行有效性判定。最终，大幅提升对空间目标的跟踪、解算精度，进而提升对目标的毁伤概率［10］。

3.1 目标状态空间模型库

初始模型库的建立是根据一定的历史数据和先验知识，设计一个由有限模型数据组成的模型集。其中每个模型对应某类目标的一种或者多种，包含有目标飞行特性、目标不同阶段的运动特性、预测误差等的数据集合。

目标状态空间初始模型库包含了不同类型目标在各个阶段多种可能的运动状态估计。它是根据每类目标不同阶段的运动特点，由几种典型的运动状态估计拟合形成的。其中包括：匀速运动、匀加速度运动、变加速度运动、转弯运动、俯冲运动、悬停机动等等。

3.2 基于数据和模型的目标状态空间自学习方法

基于模型的运动状态估计对模型库的依赖很大，一方面为了提高估计精度需要不断增加模型数量，另一方面多模型组合也无法应对越来越复杂的目标机动，以及越来越不确定的实战空情［11］。

为解决上述问题，引入深度信念网络（DBN）和目标运动数学模型相结合，通过使用训练好的DBN模型产生运动状态预测值修正基于模型的目标运动状态估计，维持对目标高精度预测跟踪。

基本原理如图2 所示。

图2 基于数据和模型的目标状态空间自学习方法实现原理

1）实时观测数据分别通过运动模型和深度信念网络进行系统状态估计，估计值进行时空配准、误差评估分析，误差评估分析可采用逆解法；

2）将相关时间内的误差进行统计分析，评估当前空情条件下的DBN 学习能力和模型组合预测能力，实时修正跟踪参数，保持对目标的高精度跟踪；

3）能够对本次的学习进行知识归纳，形成知识存储于数据库中；

4）深度信念网络训练可以采用线下和线上学习，线下学习主要依据数据库进行样本稀疏学习。

4 多探测模式下的目标融合识别技术

雷达和光电探测设备是武器装备的主要探测手段，它们的表现形式不同、数据精度、时空信息不一致，为综合利用这些数据，采用将单一数据源的特征提取后，研究特征空间中的融合算法［12-13］。

总体思路是运用修正的DS 证据理论实现决策层上的信息融合。由于神经网络是一种提取证据的有效方法，因此，在特征层上根据多频谱传感器提供特征向量的特点，分别选取合适的神经网络对目标进行初步的分类识别，即得到目标对每个类别属性的隶属度输出。神经网络的每次输出作为一条证据，在决策层上用证据理论的方法把每次得到的证据不断地结合起来，得出最后的融合识别结果。

图3 分布式异类信息处理流程

基于D-S 证据理论的融合过程如图4 所示。

图4 多特征综合识别流程

具体的融合处理步骤为：首先，分别对各数据源构造基本概率分配函数并计算相应的证据区间；然后，利用证据合成规则得到多数据源融合后的联合证据区间；最后，依据一定的决策规则得到融合后的目标属性。

5 基于卷积神经网络的射击诸元修正技术

将卷积神经网络学习与传统火力控制技术相结合，挖掘火力控制各误差环节的相关性以及误差对脱靶量的影响值，最终实现系统自修正［14］。

弹目偏差主要与目标位置x，y，z、速度vx，vy，vz、加速度ax，ay，az、角加速度ωβ，ωε、炮口初速v0、空气密度ρ、海拔高度H、横风Fx和纵风Fy、修正值Cβ，Cω（若无修正则为零）这18 个变量有关，因此，脱靶量值所需构造的工作式应当是如下的形式：

由于自变量的多样性以及空间的复杂性，拟合的函数形式必将是一个含有多个变量，且阶次较高的非线性函数。基于卷积神经网络对于解决多变量、高阶目标函数问题一般都有较好的结果。将数据库中的历史数据作为学习的样本集。具体实现过程如下：对训练样本集进行归一化处理，这样可以避免学习过程的连接权值过大的问题，得以保证学习训练过程不会发生计算溢出问题。

输入层18 个输入神经元表示18 个输入变量，输出层有2 个神经元表示弹目偏差。

图5 基于卷积神经网络的射击诸元修正技术

6 自学习防空火力控制系统

自学习防空火力控制系统主要包含在线自学习系统和线下深度学习训练。

在线自学习系统主要包括自主感知和自主拦截决策两部分功能。自主感知能够对分布式多源同构或异构信息进行综合处理，消除可能存在的冗余和矛盾信息，对目标运动状态和类型进行判断识别，形成对作战环境相对完整一致的描述，为自主拦截决策提供准确信息支撑；研究基于强化学习的自主拦截决策技术，较好地集成数据、模型和知识，有效弥补传统控制决策协同机制、规则建模难度大、决策结果稳定性差的问题，为武器平台间协同作战提供决策支持，决策结果主要包括协同探测、跟踪、火力分配、拦截方式等［15］。

线下深度学习训练方法主要进行模型训练，为智能决策系统提供科学的模型。它利用训练样本库进行卷积神经网络的参数训练，形成目标轨迹预测模型、目标类型识别模型；通过卷积神经网络估计值函数建立回报函数初始值，并通过逆向强化学习的方法对指挥决策范例库数据进行强化学习完善回报函数［16］。

图6 自学习防空火力控制系统原理

6.1 基于强化学习的自主拦截决策

强化学习是智能体以“试错”的方式进行学习，通过与环境进行交互获得的奖赏指导行为，目标是使智能体获得最大的奖赏。强化学习不同于连接主义学习中的监督学习主要表现在信号上，强化学习中由环境提供的强化信号是对产生动作的好坏作一种评价标准。由于外部环境提供的信息很少，系统必须靠自身的经历进行学习。通过这种方式，在行动-评价的环境中获得知识，改进行动方案以适应环境［17］。

自主拦截决策的难点在于强化学习网络和回报函数的建立。其基本流程如下：

1）随机生成一个策略作为初始策略值；

2）通过比较“专家”的交互样本和系统自身交互样本的差别，学习得到回报函数；

3）利用回报函数进行强化学习，提供系统决策水平；

4）若两个策略的实际作战效果基本相同，可停止学习，否则回到第2）步。

6.2 训练样本库的设计

为保证训练样本库中的数据具备良好的可信度、代表性和覆盖性，数据来源主要依托单位在装备型号研制过程中采集的靶场数据。装备型号涵盖警戒雷达、光电搜跟设备、防空高炮武器、防空导弹以及营连指挥控制系统等10 余种装备；靶场数据主要包括S70 低速靶机、S300 高速靶机、无人机、歼7B 等目标飞行数据，以及光电/雷达探测的视频、图像、数据等。训练样本库中数据的数量和质量能够满足模型训练的要求［18］。

图7 基于强化学习的自主协同决策实现

7 应用前景

本文旨在提出一种设想对传统防空火力控制技术进行技术升级，推动传统火力控制技术的升级换代，有效解决末端防御正面临的以下问题：如何应对机动目标跟踪预测建模？如何快速决策应对临空目标？如何快速形成武器平台间自主协同决策？如何应对饱和攻击等一系列技术难题。研究形成的新方法新技术能指导未来新型防空武器火力控制系统、一体化协同作战武器系统，以及强激光/电磁炮等新概念武器的研制，提升武器的智能化作战水平。