APP下载

强化学习算法在超视距空战辅助决策上的应用研究

2021-08-05吴宜珈赖俊陈希亮曹雷徐鹏

航空兵器 2021年2期
关键词:人工智能

吴宜珈 赖俊 陈希亮 曹雷 徐鹏

摘要:针对近端策略优化算法在空战智能决策过程中面临的动作空间过大、难收敛等问题,提出基于option的近端策略分层优化算法,构建了基于强化学习的空战智能决策模型框架,并在超视距空战仿真模型中进行了对抗性实验并可视化。实验结果表明,近端策略分层优化算法能够驱动智能体在对抗过程中产生迂回攻击等战术行为,达到提升传统算法性能和提高空战博弈决策效率的目的。

关键词: 超视距空战;智能决策;人工智能;强化学习;近端策略优化算法;分层强化学习

中图分类号:TJ760; V271.4  文献标识码: A 文章编号: 1673-5048(2021)02-0055-07

0 引  言

超视距空战环境中,战场态势不断变化,战争节奏不断加快。传统空战中常用的影响图法[1-3]、动态规划法[4]、矩阵博弈法[5]、风险决策法[6]、模糊推理法[7-11]等已不能满足指挥员决策需要,空战领域智能化发展需求与日俱增[12]。随着人工智能技术的飞速发展,利用智能化方法辅助飞行员决策、夺取制空权在打赢信息化局部战争中的需求日趋迫切,空战智能决策成为研究热点[13-14]。

强化学习作为人工智能技术的重要组成部分,在指挥控制系统中的应用优势愈发突显。2007年,DARPA开发DEEP GREEN系统,平行仿真战场态势,预测战局走向[15]。2016年,美国空军实验室将遗传模糊树(Genetic Fuzzy Trees,GFTs)方法应用于ALPHA AI系统,使系统具备充当僚机、搜集情报、控制无人机群[16]等能力。同年,应用强化学习算法对计算机生成兵力(Computer Generated Forces,CGFs)行为建模,开发新的奖励函数,使之可将击败曾经对手时学到的知识应用于击败下一个对手,从而学习到新战术[17]。2017年,美国空军Maven系统成功利用强化学习算法在智能采集单元中自动识别目标运动,通过自主智能体实验改进军事仿真软件行为建模方式,为决策应用提供辅助[18]。2018年,智能化交互式问题解答系统MEADE应用于美国空军飞行员日常训练,为训练提供针对性辅助决策。同年10月,美国空军在军事演习中应用SLATE训练系统实现航空兵在本场和异地开展分布式训练。2019年,美军启动 “智能僚机”、“空战演进”和“机器飞行员”项目,旨在为飞行员提供智能僚机群作战辅助和行动方案推荐,通过非侵入式手段对现有作战系统进行无人化改装。同年,模拟人类知识的更新和存储机制改造智能空战学习系统,设计了具有层次结构的异步学习原理[19],将神经网络和人工势场结合应用于空战协同博弈问题[20]。2020年,DARPA 发布“座舱内机组自动化系统(ALIAS)”研究计划,拟通过无人驾驶技术控制美国陆军直升机,利用蒙特卡洛搜索树算法进行推演式决策计算,通过智能虚拟陪练帮助飞行员完成复杂的战术训练[21]。

指挥控制系统的智能化水平决定未来战争的主动权[22],战术决策是该系统的核心[23]。实践证明,强化学习算法有效提升指挥控制系统智能性,为战术决策系统在战场信息搜集、处理、分析、决策等方面提供强大动力。目前,近端策略优化算法是强化学习中性能最好的算法[24],但面对具体的超视距空战决策问题仍面临动作空间过大、不易收敛等问题。 现提出基于Option的近端策略分层优化算法,通过在动作选择过程中加入专家知识,智能提高决策博弈效率,辅助智能体学习空战规则,丰富空战过程战术指向性。

1 相关工作

1.1 强化学习

强化学习(Reinforcement Learning,RL)用于解决序贯决策问题[25-26],以使整个任务序列在当前状态下达到最优为目的进行动作选择。智能体不断与环境交互,通过“试错”机制和“利用-探索”平衡策略从环境中获得实时反馈,根据反馈选择相应动作,继而不断调整参数,最终选择出最优策略[27]。强化学习[28]过程主要有状态、动作、转移概率及奖赏函数四个要素,可用马尔可夫决策过程(Markov Decision Process,MDP)描述:智能体处在环境中,状态为智能体对当前环境的感知,智能体通过执行动作影响环境。在某一状态下,当智能体采取某一动作后,环境受影响根据转移概率转移至下一状态,同时依据奖赏函数给予智能体奖励,如图1所示。

当状态维度和动作维度不断提高,强化学习面临难以遍历所有情况、收敛慢、无法找到最优策略的难题。有学者提出通过线性函数、核函数、神经网络等来近似表示值或策略的解决方法[29-30]。深度强化学习在强化学习中加入神经网络,结合了强化学习和深度学习的优点[31],经典近端策略优化算法属于深度强化学习算法。

1.2 经典近端策略优化算法

近端策略优化算法(Proximal Policy Optimization Algorithms,PPO)[24] 是以信赖域策略优化算法(Trust Region Policy Optimization,TRPO)[32] 为基础的改进算法。

TRPO算法通过对步长的合理选择使回报函数的值在策略更新后单调增或不减,解决了策略梯度算法对迭代步长异常敏感的问题。PPO算法在TRPO算法的基础上结合Actor-Critic架构,针对TRPO算法在惩罚时超参数β难以确定的问题,提出了自适应确定超参数的方法:

d=Et[KL[πθ,πθ′]]

式中:θ为原网络参数;θ′为目标网络参数。

PPO算法针对控制分布差距范圍优化问题,采用裁剪函数

clippθ(at|st)pθ′(at|st),1-ε,1+ε

来避免完全施加硬约束。相对于TRPO算法,PPO算法降低了计算复杂性,弥补了TRPO算法计算效率低下的缺陷。

近年,出现较多关于近端策略优化算法性能改进的探讨。PPO算法的近端特性导致不能完全消除推动策略退出的动机[33-34],所以不能严格限制概率比率。文献[35]提出基于信任域的回滚PPO 算法(TR-PPO-RB),应用一个负面激励来防止在训练期间将策略推出,该算法结合了TRPO算法和PPO算法的优点,易于与一阶优化相结合。由于 PPO算法和 TRPO 算法分别采用的两种约束类型之间的固有差异而不能强制执行信任区域约束,文献[36]提出基于kronecker因子逼近的深度强化学习的可伸缩信赖域方法(ACKTR),扩展PG框架,利用带信赖域的kronecker因子近似曲率(K-FAC) 对Actor-Critic进行优化。文献[33]发现 PPO算法受局部最优问题的困扰,衍生出基于概率比率的裁剪方法问题,并通过自适应地调整由信任区域标准指导的裁剪范围来解决此问题。文献[37]提出DPPO算法,使用多个线程在不同的环境中并行PPO算法。

1.3 分层强化学习

分层强化学习(Hierarchical Reinforcement Learning,HRL)在强化学习的基础上增加抽象机制,通过设立子任务把问题分解成具有层次结构的子问题,是一种有效加强强化学习训练速率的层次结构方法。分层强化学习可以通过马尔可夫决策过程模型化,Option方法是典型的分层强化学习方法。

Option由Sutton提出,通过扩展MDP原子动作将学习过程进行分层[38-39]。原子动作是第一层Option,原子动作集即Action集。Option可由专家系统离线写入,也可在线生成。上层Option被定义为新的动作加入初始动作集中,通过调用下层Option或原子动作实现分层控制。Option可分为基于马尔可夫决策过程的Option(Markov-Option)和基于半马尔可夫决策过程的Option(Semi- Markov-Option)。

马尔可夫决策过程可用元组表达[40]:S为状态集; A为动作集;P(s′|s,a)为状态s下采取动作a之后,转移到s′状态的概率;R(s,a)为状态s下采取动作a获得的累积回报。γ是未来回报的折扣因子,是0到1之间的实数。半马尔可夫决策过程将动作间隔时间设置为变量。Semi-Markov-Option可表示为三元组<,μ,β>。 μ:×0[0,1]为内部策略。第一层Option<,μ,β>启动后,根据μ选择相应动作或Option执行。满足终止条件β则完成选择。被选中的Option可以根据自身策略选择其他Option,如图2所示。

2 基于Option的近端策略分层优化算法

针对强化学习在处理超视距空战博弈问题时面临的动作空间大、难以收敛、奖励稀疏等共性问题[41],提出了基于Option的近端策略分层优化算法(Proximal Policy Hierarchical Optimization Algorithm,PPHO),优化空战决策过程中战术性策略选择过程,提高空战决策效率。

PPHO算法选用Semi-Markov模型对标准的近端策略优化算法进行改进。用扩充后的马尔科夫决策过程表示强化学习过程,M为过程的Option空间,D为初始的状态分布。PPHO算法动作选择过程为:第一步根据状态选择合适的Option,第二步根据Option选择合适的动作。PPHO算法利用Option有效增強动作选择过程的专业指向性,提高动作选择效率。

空战原子动作集中每一动作均为基本Option,在此基础上,根据问题实际情况设置复杂Option。复杂Option包含为完成特定目的根据专家系统知识做出的动作序列,算法结构如图3所示。

PPHO算法流程为

(1) 接受初始观察状态S1;

(2) θ′=θ+αΔθJ;

(3) For n=1,2,…,n do;

(4) 将s输入 Actor的目标网络,构建正态分布,fθ(s)=A;

(5) 将action输入environment得到奖励r_和下一步状态s_,存储[s,a,r];

(6) 将s_输入到critic网络中,得到状态的v_值,计算折扣奖励;

(7) 将s_输入Actor的目标网络中;

(8) End for;

(9) 将存储的所有s组合输入到critic网络中,得到所有状态的V_值,计算At;

(10) 求解损失函数,反向传播更新critic网络;

(11) 将(3)的结果输入Option层;

(12) If Option=1,2,…,N then;

(13) Action=原子动作序列;

(14) 将结果输入Actor的原网络和目标网络;

(15) 计算裁剪函数clippθ(at|st)pθ′(at|st),1-ε,1+ε,更新Actor的目标网络;

(16) 循环算法第(12)~(15)步;

(17) 更新Actor的原网络;

(18) 结束。

PPHO算法谋求更加高效解决超视距空战问题中针对性制定决策等问题,同时在策略选择过程中结合传统经典战术进一步丰富战术智能。PPHO算法通过向PPO算法中引入分层思想加入领域知识,引导智能体脱离盲目搜索、提高学习效率,大大提高算法收敛速度。

3 基于强化学习的空战智能决策模型构建

3.1 空战决策状态空间

通过状态空间对战场态势进行描述,基础状态集有:速度、海拔、重力、垂直速度、方向、推力、弹药、燃油、质量、空气密度、压强和温度。

3.2 空战决策动作空间

基础的原子动作集有:向前直线飞行,向左飞行,向右飞行,提升飞机高度,降低飞机高度。实验初步预设9个Option,通过IF-THEN规则关系描述飞机Option到动作的映射关系,如表1所示。后期的训练过程中,随着战术理论的发展,Option数量可机动增加,及时适应新战术博弈需要。

3.3 回报函数设计

(1) 当Agent未感知到环境威胁时,reward+=1/dis(agent,target):引导Agent飞向目标进行交战;

(2) 超出交战空域,reward-=10:引导Agent在交战空域内;

(3) 命中目标,reward+=2:引导Agent发射导弹;

(4) 被目标击中,reward-=10:引导Agent避免进入敌方不可逃逸区;

(5) 被敌方锁定后,逃脱导弹成功,reward+=1,引导Agent学习导弹规避动作。

3.4 决策模型构建

构建基于强化学习的空战仿真指挥控制模型,如图4所示。

智能决策系统代表强化学习过程中智能体的角色,利用传感器、探测器等设备感知当前战场态势信息。决策系统利用自身目前已掌握的经验和知识,对当前战场态势进行判断,同时结合强化学习所学得的策略,在动作空间中对飞行控制、航电系统、火力控制等方面进行相应的选择。战场环境状态收到动作的影响后,转移到新的状态,同时给予智能决策系统一个即时效果反馈,决策系统根据效果反馈和当前战场态势,调整自身强化学习策略并进行下一次动作选择。结合近端策略分层优化算法的空战智能决策模型训练过程如图5所示。

4 面向超视距空战模型的近端策略分层优化算法仿真实验

4.1 实验场景设置

现有的空战仿真实验因实际问题的复杂性和仿真效能的限制大多将问题抽象成简单模型,简化空战决策过程,降低了系统对飞行员决策的参考意义。本实验选用在Unity平台安装ML-Agents插件为背景进行超视距智能化空战模拟仿真实验,构建空战仿真环境,对超视距空战博弈问题进行3D仿真。

ML-Agents是Unity支持的处理连续问题的开源插件,用于Agent在模拟环境中的训练。ML-Agents提供基于TensorFlow的算法实现方式,包含2D,3D 和 VR/AR的实验环境。

ML-Agents包含三个高级组件:

(1)Learning Environment:包含 Unity 场景和所有角色,可分为三个组件:Agent,可以被附加到场景中的任何角色上,负责生成观测结果、执行接收动作,并适时分配正/负奖励。Brain,封装 Agent 的决策逻辑。Academy,指挥 Agent 的观测和决策过程。

(2)Python API:包含训练的所有机器学习算法。

(3)External Communicator:将Learning Environment与 Python API 连接起来。

实验运用PPHO 算法指导红方飞机进行机动。PPHO算法包含于Python API 组件中,通过External Communicator与 Learning Environment中的红方智能体相连,使红方智能体在学习型Brain的指导下学习算法策略。Learning Environment中的Academy组件负责指挥智能体的观测和决策过程。ML-Agents环境中PPHO算法应用框架如图6所示。

基于Unity平台,实验场景设置为100 km×100 km,设置红蓝双方飞机探测性能50 km,射程10 km,同时对飞机速度、海拔、重力、垂直速度、方向、功效、推力、弹药、燃油、重量、空气密度、压强、温度等参数进行实时监控调整。在仿真环境中既可以通过规则制定红蓝双方的作战行动序列,也可以通过快速博弈对抗产生大量数据训练决策模型的方式进行,实验场景如图7所示。

4.2 定义任务想定

红蓝双方使用同等战机型号。双方在指定对抗空域内,自由空战。蓝方为规则驱动,当未感知到威胁时,在预设交战空域内巡逻,一旦感知到威胁,歼灭红方威胁,目标丢失后,继续巡逻搜索。红方任务为取得预设空域制空权,击落敌机。

4.3 决策模型更新方法

智能體学习主要包括离线训练和在线使用两部分。通过离线训练得到强化学习的决策网络,然后进行“自主对抗”,优化决策网络。使用“自主对抗”产生的数据训练态势评估网络,训练好的态势评估网络能够对战场态势进行评估,对决策方案的作战效能进行预测。

在离线训练阶段,智能决策模型为红方智能体提供动作选择,蓝方智能体基于规则驱动,红蓝双方进行对抗。将战场态势信息等交战数据转换成状态向量存储于记忆单元中,从记忆单元中采样数据对新旧策略价值网络进行训练,经过Option层输出相应行为序列,对红方飞机速度、航向、航电系统、火力控制等参数设置进行更新,进一步提高对抗水平,产生更高质量的交战数据用于策略价值网络的训练。学得的策略价值网络即作为当前作战仿真环境下的博弈对抗行为模型,进行在线部署。

对战回合数以200为限,基础点数均为100。每回合开始,飞机位置随机分配,交战过程根据动作选择损失相应点数,点数归零,回合结束。下一回合开始,系统初始化。实验主要根据点数比分判断回合胜负,通过比较算法收敛速度和变化率进行算法优劣对比。

4.4 仿真实验结果分析

针对实验效果和收敛速度两方面对当前训练阶段算法效能进行评价。通过累计回报和损失函数的对比进行具体论述。累计回报是智能体在采取相应动作之后,环境反馈的累计奖励,实验效果如图8所示。

实验数据统计时,取最近10次训练模型的测试累计回报值,偏差小于1.5%,认为该算法已经达到稳定收敛。PPHO算法在1.1×105步长的训练后趋于稳定,PPO算法在1.6×105步长的训练后趋于稳定。PPHO算法累计回报值达到与PPO算法同样高度,证明PPHO算法在效果上同样达到了PPO算法的高水平。对训练数据进行统计分析:PPHO算法训练数据均值为1.50,方差为0.39。 PPO算法训练数据均值为1.12,方差为1.10。PPHO算法与PPO算法均值相近,方差相差较大,说明算法的改进起到了稳定提升训练速度的作用。

损失函数计算训练样本的误差,评估算法对数据的建模程度。若实际结果与预测值相差较大 ,损失函数也会相应变大。算法优化后,损失函数不断减小预测值的误差。实验效果如图9所示,PPHO算法初始状态损耗值小于经典PPO算法损耗值的一半。训练过程中,PPHO算法正向损耗值均小于PPO算法,实验效果优于PPO算法。收敛速度上,PPHO算法先于PPO算法达到稳定状态,最终结果趋近于0。

实验结果显示:在训练期间,PPHO算法较PPO算法展现出了更加优越的性能。

利用训练好的模型驱动飞机2v2自由空战,同时取1.1×105步长训练后的模型作为测试对象。可视化表明,PPO算法在1.1×105步长训练后飞机仍采用直接攻击的策略,如图10所示。通过探索-利用与仿真环境交互产生动作,由于动作本身没有明确的战术意义,学习的代价是大量不符合战术规则的动作导致任务失败。但PPHO算法训练得到的模型驱动的飞机在面对敌方正面攻击的情况时,能够以显式的战术机动优化模型,表现出迂回攻击的战术行为,如图11所示。

5 结  论

本文提出的PPHO算法通过专家指导增加战术储备,为超视距空战仿真过程注入经验支持的战术智能,达到加速学习过程的效果。实验过程贴近实战,对增强战斗机端到端的操作训练经验具有积极意义。实验结果表明PPHO算法可有效提升辅助决策效率。

下一步工作重点为:提升算法自学习能力,解决Option的内容需要离线更新的问题。可以采取的方法包括:(1)结合规则驱动;借助少量规则提升强化学习的探索与利用效率,加速收敛。(2)结合元深度强化学习; 对不同任务下历史数据和训练参数优化模式的充分利用,从一系列不同任务下历史数据中寻找共性规律,提煉出一般性的知识,提升决策模型的泛化能力。(3)结合深度逆向强化学习; 借助少量高质量对抗样本数据重构回报函数,加速强化学习。

参考文献:

[1] Ji H M,Yu M J,Yang J Y. Research on the Air Combat Countermeasure Generation of Fighter Mid-Range Turn[C]∥ 2018 2nd International Conference on Artificial Intelligence Applications and Technologies (AIAAT2018),2018.

[2] 孙永芹,孙涛,范洪达,等. 现代空战机动决策研究[J]. 海军航空工程学院学报,2009,24(5):573-577.

Sun Yongqin,Sun Tao,Fan Hongda,et al. Research on Maneuvering Decision for Modern Air Combat[J]. Journal of Naval Aeronautical and Astronautical University,2009,24(5):573-577. (in Chinese)

[3] Pan Q,Zhou D Y,Huang J C,et al. Maneuver Decision for Cooperative Close-Range Air Combat Based on State Predicted Influence Diagram[C]∥  IEEE International Conference on Information and Automation(ICIA),2017:726-731.

[4] 马耀飞,马小乐. 一种空战智能决策方法研究[C]∥中国制导、导航与控制学术会议论文集,2014: 2249-2454.

Ma Yaofei,Ma Xiaole.The Methods of Air Combat Intelligent Decision[C]∥Proceedings of IEEE Chinese Guidance,Navigation and Control Conference,2014: 2249-2454. (in Chinese)

[5] 惠一楠,朱华勇,沈林成. 无人机攻防对抗不完全信息动态博弈方法研究[J]. 兵工自动化,2009,28(1):7-10.

Hui Yinan,Zhu Huayong,Shen Lincheng. Study on Dynamic Game Method with Incomplete Information in UAV Attack-Defends Campaign[J].Ordnance Industry Automation,2009,28(1):7-10. (in Chinese)

[6] 周思羽,吴文海,张楠.自主空战机动决策方法综述[J]. 航空计算技术,2012,24(1):27-31.

Zhou Siyu,Wu Wenhai,Zhang Nan. Overview of Autonomous Air Combat Maneuver Decision[J]. Aeronautical Computing Technique,2012,24(1):27-31.(in Chinese)

[7] 张立鹏,魏瑞轩,李霞. 无人作战飞机空战自主战术决策方法研究[J]. 电光与控制,2012,19(2):92-96.

Zhang Lipeng,Wei Ruixuan,Li Xia. Autonomous Tactical Decision-Making of UCAVs in Air Combat[J]. Electronics Optics & Control,2012,19(2):92-96.(in Chinese)

[8] 张磊. 无人作战飞机自主决策技术研究[J]. 航空科学技术,2014,25(5):49-53.

Zhang Lei. Research on Autonomous Decision Making Technology of UCAV[J]. Aeronautical Science & Technology,2014,25(5):49-53.(in Chinese)

[9] 唐传林,黄长强,丁达理,等. 一种UCAV自主空战智能战术决策方法[J].指挥控制与仿真,2015,37(5):5-11.

Tang Chuanlin,Huang Changqiang,Ding Dali,et al. A Method of Intelligent Tactical Decision Making for UCAV Autonomous Air Combat[J]. Command Control & Simulation,2015,37(5):5-11.(in Chinese)

[10] Ma S D,Zhang H Z,Yang G Q. Target Threat Level Assessment Based on Cloud Model under Fuzzy and Uncertain Conditions in Air Combat Simulation[J]. Aerospace Science and Technology,2017,67:49-53.

[11] Ernest N,Cohen K,Kivelevitch E,et al. Genetic Fuzzy Trees and Their Application towards Autonomous Training and Control of a Squadron of Unmanned Combat Aerial Vehicles[J]. Unmanned Systems,2015,3(3):185-204.

[12] 鮮勇,李扬. 人工智能技术对未来空战武器的变革与展望[J]. 航空兵器,2019,26(5): 26-31.

Xian Yong,Li Yang. Revolution and Assumptions of Artificial Intelligence Technology for Air Combat Weapons in the Future[J]. Aero Weaponry,2019,26(5): 26-31.(in Chinese)

[13] Ernest N,Garroll D,Schumacher C,et al. Genetic Fuzzy Based Artificial Intelligence for Unmanned Combat Aerial Vehicle Control in Simulated Air Combat Missions[J]. Journal of Defense Management,2016,6(1):1-7.

[14] Yin Y F,Gong G H,Han L. An Approach to Pilot Air-Combat Behavior Assessment[J].Procedia Engineering,2011,15:4036-4040.

[15] 胡晓峰,荣明. 作战决策辅助向何处去——“深绿”计划的启示与思考[J]. 指挥与控制学报,2016,2(1):22-25.

Hu Xiaofeng,Rong Ming. Where Do Operation Decision Support Systems Go: Inspiration and Thought on Deep Green Plan[J]. Journal of Command and Control,2016,2(1):22-25.(in Chinese)

[16] 周光霞,周方.美军人工智能空战系统阿尔法初探[C]∥第六届中国指挥控制大会论文集,2018.

Zhou Guangxia,Zhou Fang. Analysis of Alpha AI for Air-to-Air Combat of US[C]∥Proceedings of 6th Command and Control Conference,2018.(in Chinese)

[17] Toubman A,Roessingh J J,van Oijen J,et al. Modeling Behavior of Computer Generated Forces with Machine Learning Techniques,the NATO Task Group Approach[C]∥ IEEE International Conference on  Systems,Man,and Cybernetics(SMC), 2016.

[18] Roessingh J J,Toubman A,van Oijen J,et al. Machine Learning Techniques for Autonomous Agents in Military Simulations-Multum in Parvo[C]∥IEEE International Conference on Systems,Man,and Cybernetics (SMC), 2017.

[19] Zhou K,Wei R X,Xu Z F,et al. An Air Combat Decision Learning System Based on a Brain-Like Cognitive Mechanism[J]. Cognitive Computation,2019,12(4):128-139.

[20] 张菁,何友,彭应宁,等. 基于神经网络和人工势场的协同博弈路径规划[J]. 航空学报,2019,40(3): 322493.

Zhang Jing,He You,Peng Yingning,et al. Neural Network and Artificial Potential Field Based Cooperative and Adversarial Path Planning[J]. Acta Aeronautica et Astronautica Sinica,2019,40(3): 322493.(in Chinese)

[21] 陈斌,王江,王阳. 战斗机嵌入式训练系统中的智能虚拟陪练[J]. 航空学报,2020,41(6): 523467.

Chen Bin,Wang Jiang,Wang Yang. Intelligent Virtual Training Partner in Embedded Training System of Fighter[J]. Acta Aeronautica et Astronautica Sinica,2020,41(6): 523467. (in Chinese)

[22] 程运江,张程,赵日,等. 人工智能的发展及其在未来战争中的影响与应用思考[J]. 航空兵器,2019,26(1): 58-62.

Cheng Yunjiang,Zhang Cheng,Zhao Ri,et al. Development of Artificial Intelligence and Thoughts on Its Influence and Application in the Future War[J]. Aero Weaponry,2019,26(1): 58-62.(in Chinese)

[23] 黄长强. 未来空战过程智能化关键技术研究[J]. 航空兵器,2019,26(1): 11-19.

Huang Changqiang. Research on Key Technology of Future Air Combat Process Intelligentization[J]. Aero Weaponry,2019,26(1): 11-19. (in Chinese)

[24] Schulman J,Wolski F,Dhariwal P,et al. Proximal Policy Optimization Algorithms[EB/OL].(2017-08-28)[2020-05-10].https://arxiv.org/pdf/1707.06347.pdf

[25] 杜正军,陈超,姜鑫. 基于影响网络与序贯博弈的作战行动序列模型与求解[J]. 系統工程理论与实践,2013,33(1):215-222.

Du Zhengjun,Chen Chao,Jiang Xin. Modeling and Solution of Course of Action Based on Influence Net and Sequential Game[J]. System Engineering Theory and Practice,2013,33(1): 215-222. (in Chinese)

[26] 张迎新,陈超,刘忠,等. 资源不确定军事任务计划预测调度模型与算法[J]. 国防科技大学学报,2013,35(3): 30-35.

Zhang Yingxin,Chen Chao,Liu Zhong,et al. Method for Modeling and Solving Military Mission Planning with Uncertain Resource Availability[J]. Journal of National University of Defense Technology,2013,35(3): 30-35. (in Chinese)

[27] 陈希亮,张永亮. 基于深度强化学习的陆军分队战术决策问题研究[J]. 军事运筹与系统工程,2017,31(3):21-27.

Chen Xiliang,Zhang Yongliang. Research on the Tactical Decision-Making Problem of Army Units Based on Deep Reinforcement Learning[J].Military Operations Research and Systems Engineering,2017,31(3):21-27.(in Chinese)

[28] Richard S S,Andrew G B. Reinforcement Learning: An Introduction[M].London: MIT Press,1998.

[29] Whiteson S,Stone P. Evolutionary Function Approximation for Reinforcement Learning[J]. Journal of Machine Learning Research,2006(7):877-917.

[30] Preux P,Girgin S,Loth M. Feature Discovery in Approximate Dynamic Programing[C]∥ Proceedings of IEEE Symposium on Adaptive Dynamic Programming and Reinforcement Learning,2009:109-116.

[31] 周志华.机器学习[M].北京:清华大学出版社,2015: 390-392.

Zhou Zhihua. Machine Learning[M]. Beijing: Tsinghua University Press,2015:390-392. (in Chinese)

[32] Schulman J,Levine S,Moritz P,et al. Trust Region Policy Optimization[EB/OL].(2015-02-19)[2020-05-10].https://arxiv.org/abs/1502.05477v2.

[33] Wang Y H,He H,Tan X Y,et al.Trust Region-Guided Proximal Policy Optimization[EB/OL].(2019-11-08)[2020-05-10].https://arxiv.org/pdf/1901.10314.pdf.

[34] Ilyas A,Engstrom L,Santurkar S,et al. Are Deep Policy Gradient Algorithms Truly Policy Gradient Algorithms? [EB/OL].(2018-11-06)[2020-05-10].https://arxiv.org/abs/1811.02553v3.

[35] Wang Y H,He H,Wen C,et al. A Closer Look at Deep Policy Gradients[EB/OL].(2018-11-06)[2020-05-10].https://arxiv.org/abs/1811.02553v4.

[36] Wu Y H,Mansimov E,Liao S,et al. Scalable Trust Region Method for Deep Reinforcement Learning Using Kronecker-Factored Approximation[EB/OL].(2017-08-17)[2020-05-10].https://arxiv.org/abs/1708.05144v2.

[37] Heess N,TB D,Sriram S,et al.Emergence of Locomotion Behaviors in Rich Environments[EB/OL].(2017-07-10)[2020-05-10].https://arxiv.org/pdf/1707.02286.pdf.

[38] Sutton R S,Precup D,Singh S. Between MDPs and Semi-MDPs: A Framework for Temporal Abstraction in Reinforcement Learning[J]. Artificial Intelligence,1999,112(1/2):181-211.

[39] Mannor S,Menache I,Hoze A,et al. Dynamic Abstraction in Reinforcement Learning via Clustering[C]∥ Proceedings of the 21st International Conference on Machine Learning,2004: 560-567.

[40] Preux P,Girgin S,Loth M. Feature Discovery in Approximate Dynamic Programming[C]∥Proceedings of IEEE Symposium on Adaptive Dynamic Programming and Reinforcement Learning,2009:109-116.

[41] Barto A G,Mahadevan S. Recent Advances in Hierarchical Reinforcement Learning[J].Discrete Event Dynamic Systems,2003,13 (4): 341-379.

Research on the Application of Reinforcement Learning Algorithm in

Decision Support of Beyond-Visual-Range Air Combat

Wu Yijia1,2,Lai Jun1*,Chen Xiliang1,Cao Lei1,Xu Peng1,3

(1. Army Engineering University of PLA,Nanjing 210000,China;2. Unit 32526 of PLA,Wuxi 214000,China;

3.Unit 31102 of PLA,Nanjing 210000,China)

Abstract:

In order to solve  problems of the action selection space and the difficulty of convergence of traditional proximal policy optimization algorithm in air combat simulation,proximal policy hierarchical optimization algorithm is proposed. The framework of intelligent decision model of air combat based on reinforcement learning is constructed,and the antagonistic experiment is carried out and visualized. The experimental result shows that proximal policy hierarchical optimization algorithm could drive the agent to produce indirect attack and other tactical behaviors in the process of confrontation. The purpose of improving the performance of the traditional algorithm and decision-making efficiency of air combat is achieved.

Key words: beyond-visual-range air combat; intelligent decision; artificial intelligence; reinforcement learning; proximal policy optimization algorithm; hierarchical reinforcement learning

收稿日期:2020-05-11

基金項目:国家自然科学基金项目(61806221);装备发展部预研基金项目(61421010318);十三五全军共用信息系统装备预研项目(31505550302)

作者简介:吴宜珈(1993-),女,江苏连云港人,助理工程师,研究方向为智能化指挥控制。

通讯作者:赖俊(1979-),男,江苏南京人,副教授,研究方向为指挥信息系统、虚拟现实、模拟仿真和人工智能。

猜你喜欢

人工智能
人工智能AI
人工智能
人工智能之父
2019:人工智能
人工智能
人工智能与就业
China’s Artificial Intelligence Revolution
数读人工智能
人工智能时代,就业何去何从
下一幕,人工智能!