作战任务规划模型与求解方法综述

2022-10-23薄其蒙郭圣明

火力与指挥控制 2022年9期

马悦，吴琳，薄其蒙，郭圣明

（1.国防大学，北京 100091；2.解放军31002 部队，北京 100091）

0 引言

联合作战指挥需要综合考虑作战使命、资源能力、敌我对抗措施和战场环境等诸多因素，消除资源分配、频谱使用和任务时序等逻辑冲突，并能实时根据战场态势和战局进展情况调整方案计划。现代战争对作战指挥提出了更高希冀，要求在筹划方法和手段运用上更加注重科学性和系统性，而传统作战筹划方法更多体现的是概略性和思辨性，难以满足精确化作战指挥需求。

作战任务规划借助科学方法和计算机，为科学化、精确化和智能化作战指挥提供了有效途径，成为国内外军事领域的重要研究内容。赵国宏等认为：“作战任务规划涵盖了方案计划、辅助决策和传统任务规划等概念”；曹雷等认为“作战任务规划需采用工程化方式，以标准化作业流程对作战进程设计、作战行动安排、作战样式运用和作战资源使用进行综合筹划”；胡晓峰等认为“作战规划是根据作战目标、资源和约束条件，运用科学规划方法产生一系列作战行动序列的过程”，是对“时间、空间、力量及作战进程的科学配置、选择和优化”。借鉴上述学者观点，本文定义作战任务规划为：在资源、效果、时间和规则等诸多约束条件下，以实现作战意图为目的，运用科学规划方法对作战行动进程、作战任务安排、力量资源使用和部队协同行动等进行筹划设计的过程。如图1 所示，作战任务规划可分为两阶段：一是战前作战任务规划，用于辅助生成作战方案计划，以指导各级部队执行任务；二是战中作战任务规划，与指挥控制有着密切联系，用于根据实时态势调整或重新生成方案计划，以应对种种不确定性因素。

图1 作战任务规划的地位

随着武器装备发展和战争形态改变，作战任务规划在联合作战指挥中的地位愈加重要。首先，作战任务规划衔接作战构想和作战任务的落地执行，有助于本级对上级作战意图的准确把握和指导所属部队执行作战任务，起到了“承上启下”作用；其次，作战任务规划强调采用科学方法实现对作战资源的配置优化、对作战行动的安排调度，为实现科学化和精确化作战指挥提供了有效手段。最后，作战任务规划凭借计算机规划系统和智能规划算法等先进手段和技术，能够辅助指挥员突破体力、脑力和反应力难以应对战争复杂性的困境，满足现代战争对决策速度、精度和强度的需求。

随着我军作战理念不断完善和编制体制调整改革，作战任务规划已成为军队实现转型和增强体系作战能力的重要抓手。当前，国内作战任务规划相关研究仍缺乏权威理论支撑、系统建设经验和实践应用探索。本文在总结作战任务规划在模型构建、求解方法和美军系统建设的研究成果基础上，分析各类模型和方法存在的局限性。针对战争复杂性特征，提出了作战任务规划理论方法和系统建设的需求展望。

1 作战任务规划研究现状

1.1 规划模型构建研究

作战任务规划模型主要用于对规划问题进行抽象建模，将现实中的军事问题转化为可被机器识别和计算的模型，主要有以下几种模型：

数学解析模型，是其他规划模型构建的基础。经典数学模型由Levchuk 等提出，以时间最短为优化目标求解各项作战行动的时序安排；王书敏等采用线性规划和动态规划模型来解决作战资源的优化配置问题；孟令辉等基于兰彻斯特方程构建了作战力量动态调整模型；孙鹏等建立了最小化作战时间和平台移动距离、最大化任务完成概率的多目标数学模型。

概率网络模型，是研究不确定因素的主要途径，重点用于描述作战行动与作战效果之间的关系，主要有Petri 网、贝叶斯网络（bayes network，BN）和影响网（influence net，IN）。其中，Petri 网适用于描述战争系统中具有分布性、并发性和异步性的离散事件，如澳大利亚的COAST 系统以着色Petri 网作为模型框架，朱敏洁等运用Petri 网对作战指挥流程进行了研究；杨志华等运用Petri 网对防空兵群指挥信息结构进行了建模分析；BN 网络是一种将多元知识图解可视化的概率知识表达与推理模型，网络中的节点为随机变量，节点间的有向边描述了变量之间的相互关系，易于描述战争因素之间的复杂关系；影响网（influence net）通过引入因果逻辑（CAST）参数来简化BN 网络中条件概率的计算，Rosen 等通过加入时间参数提出了时间影响网络（timed influence nets，TINs）；杜正军等利用影响网络实现了不完全信息下多阶段博弈中作战行动序列的生成。

分层任务网络（hierarchical task network，HTN）模型，是一种基于知识和任务分解的建模方法。一个任务网络就是一个带有条件约束的任务集，网络节点表示任务，节点间的有向弧表示任务执行条件。HTN 将作战规划过程转化为分层任务网络顺序分解和逐层细化的过程，模拟了作战指挥人员求解军事问题的思维模式，如罗旭辉等分析了HTN 用于作战方案计划生成的可行性；王涛等提出一种基于目标匹配的任务生成和基于模板进行任务分解的方法。

资源约束项目调度（resource constrained project scheduling，RCPSP）模型，是项目调度领域用于求解具有时间和资源约束的多模式多任务执行进度安排的经典模型。在作战任务规划中，如何分配作战单位去执行作战任务才能取得更好的效果，如何将弹药补给等资源分配给作战单位才能既满足最低需要又产生最大效益，都是作战指挥的关键问题。资源调度模型，可用于解决作战资源的优化匹配，如Belfares 等将军事任务计划建模为多目标RCPSP问题进行求解；许多学者针对实际应用提出了多种扩展模型；Zhang 等针对资源不确定性将任务序列问题转化为资源调度问题，进行建模并基于遗传算法进行求解。

动态决策模型，旨在动态不确定战场环境下构建周期性的观察、判断、决策及行动模型。动态决策模型的理论框架为马尔科夫决策过程（markov decision processes，MDP）。文献［23-25］基于动态决策和效果作战思想，将作战任务规划建模为弱耦合的马尔科夫决策过程进行求解；Xu 等研究了基于蒙特卡洛搜索树来构建战术级计算机生成兵力（CGF）的决策行为模型，以期增加CGF 决策行为的智能程度。

多智能体模型，旨在将各类作战单元建模为多智能体（multi-agent）并赋予思维和经验，允许各智能体在动态环境中发生相互作用、通过实践学习经验、通过行为影响战局发展，以模拟战场中难以解释的错综复杂关系。李瑛等使用多Agent 建模方法描述了指挥控制系统中的组织结构和内部逻辑，通过不同层次Agent 间的交互实现了指挥决策流程；岳秀清等归纳了指挥控制建模的特点与功能需求，详细说明了多Agent 指挥控制模型中各功能模块的实现技术和运行机理。

各任务规划模型的特点及缺陷，如表1 所示。

表1 规划模型对比

1.2 规划求解方法研究

规划求解方法需要在资源、时间和空间等诸多约束条件下，以作战效果、资源利用率、执行总时间等多个指标为优化目标，获取描述任务序列安排、作战力量分配或各种协同事项的若干变量，是一个NPC（non-deterministic polynomial complete）问题。常用求解算法主要有以下几种：

传统启发式搜索方法常见的有模拟退火算法（simulated annealing，SA）和禁忌搜索算法（tabu search，TS）。SA 算法通过模拟固体退火降温过程进行搜索，初期以较大概率进行跳跃式搜索，从而具备较强探索能力，随着迭代进行不断降低探索概率，在后期优先考虑已得优质解附近是否存在更优解。TS 算法通过引入灵活的禁忌表和禁忌准则来避免迂回搜索，并通过特赦准则来赦免一些被禁忌的优良状态，进而保证了多样化的有效搜索以实现全局优化。上述搜索算法通常与其他算法结合使用，如吴坤鸿等将模拟退火算法引入交叉算子来实现自适应变异操作；刘志超等采用粒子群禁忌混合搜索算法来求解火力分配问题。

遗传进化算法（evolutionary algorithms，EA），模拟达尔文生物进化理论进行全局搜索，常用的有遗传算法（genetic algorithm，GA）和差分进化算法（differential evolution，DE）。GA 算法采用一定规则的基因编码构建种群个体，基因组合形式决定了种群对外界的反应，初始种群经过优胜劣汰逐渐演化出最优种群，算法关键在于适应函数设计、交叉变异算子选择和相关参数设计等环节。而DE 算法是一种基于群体差异的启发式并行搜索方法，按照“贪婪竞争”的寻优策略实现种群进化。EA 算法通常用于求解资源调度相关问题，如陈良红等提出一种任务优先关系约束下的GA 改进算法，用于解决作战任务调度；彭小宏等将动态贝叶斯网络与遗传算法相结合，提出一种新的任务计划求解算法，赵明、欧峤等针对协同目标分配问题，分别设计了动态差分进化算法；吴文海等提出一种基于随机邻域的自适应差分进化算法，以平衡算法开发和探索能力。值得一提的是，Ernest 等基于遗传算法和模糊逻辑构建了遗传模糊树（genetic fuzzy tree），实现了名为ALPHA 的智能飞行员，并在模拟演习对抗中成功击败人类。

仿生学方法，通过模拟各类生物群体表现出的群体智能特征，来求解实践问题中的最优解，主要包括蚁群（ant colony optimization，ACO）和粒子群优化（partical swarm optimization，PSO）算法。ACO 算法模仿蚂蚁群寻找最短路径进行觅食的行为，使用路径表示问题可行解，每只蚂蚁独立地根据信息素浓度概率选择路径并沿途释放信息素。路径的信息素浓度与路径长度成反比并随着时间流逝不断挥发，短路径上的信息素浓度将不断增加，而长路径上信息素浓度越来越少，从而在正反馈机制作用下找到最优解。PSO 算法模仿鸟群飞行及觅食行为，通过个体之间的信息共享、协同合作来最大化群体利益。算法使用飞行空间表示问题解空间，群体中的粒子以一定速度在解空间中飞行，根据自身运动趋势、历史最佳位置以及共享经验等规则进行位置更新，从而逐渐向最优区域移动并收敛于全局最优解。仿生学通常用于求解武器目标分配（weapon target assignment，WTA）问题，如Chen 等提出了一种基于遗传算子的粒子群优化算法来求解武器目标分配问题；陈曼等针对舰载联合火力打击问题，利用改进的学习因子和惯性权重来更新粒子，从而优化了多目标粒子群算法。

市场机制法，主要有合同网协议（contract net protocol，CNP）和拍卖法。CNP 通过引入市场经济中的“招标-投标-中标-签约”机制，以招投标的形式处理任务与资源配置之间的关系；而拍卖法的核心特征是将完成任务过程显式地进行信息通讯交互，通过组织协商以分配各自相对合适的任务，从而实现最大化自身的收益值。郭智杰等在防空作战仿真实验中对传统CNP 算法中的招投标、中标及签约策略进行了改进；姚亚宁等将高强度动态对抗作战中体系重构问题转化为MAS 快速任务分配，提出一种迭代策略实现了欺骗行为下的任务分配；黎子芬等在资源、时间、空间等约束条件下，以分布式协同拍卖算法为基础，提出一种解决编队对地动态火力分配算法。

智能规划方法，通过对周围环境进行认知和分析，在给定动作、初始状态、预定目标和条件约束前提下，对若干可供选择的动作及与状态的关系进行推理，从而得出通过什么样的途径能够将当前的状态转移到满足要求的状态。常用的智能规划方法有基于有限状态机（finite state machine，FSM）、基于HTN 和基于行为树（behavior tree，BT）等方法。FSM规划方法，构建了对象在有限状态之间进行转换的模型，每个状态包含多个可执行的作战行动，通过作战行动可以实现状态间的转换。在经典FSM 基础上，相继发展了分层状态机（hierarchical finite-state machines，HFSM）和模糊状态机（fuzzy state machine，FuSM），美军ModSAF 系统正是采用异步增量有限状态机实现了指挥控制的行为模型。HTN 规划方法，利用领域知识方法（methods）进行任务分解，直至获取可以直接执行的原子任务序列，在一定程度上克服了不确定性带来的状态空间和搜索路径爆炸性增长。经典HTN 规划系统有O-PLAN 系统、SHOP系统和SHOP2 系统；Tang 等提出利用Earley 图表示不确定任务分解产生的带有概率的层次任务网络，并将原子任务动作与MDP 模型相融合；Xu等提出了一种HTN 与MCTS 相结合的方法，使用HTN 规划结果来引导MCTS 的搜索过程，而MCTS以前向推理的方式探索和评估HTN 所蕴含的领域知识。BT 规划方法，以透明的逻辑层级树结构封装提高了状态的模块化和独立性，将状态和转移条件分别转化为行动和各种类型的节点。按照自上至下、自左至右的顺序，采用深度优先方式遍历整棵树的节点，组合节点和修饰节点决定了所有节点的执行逻辑，条件节点判断当前条件是否满足，而通过行为节点作出行为决策。文献［51-53］分别基于行为树规划实现了指挥控制流程、空中作战决策过程和网络攻防的建模。

深度强化学习，是将深度学习与强化学习相结合形成了一种流行的学习算法，在近些年边界和规则确定的游戏对抗中取得了显著成绩，极大推动了认知智能和军事决策智能的发展。2019 年Deep Mind 研发了Alpha Star 系统，其底层技术对开发具有安全性、鲁棒性和实用性的通用AI 系统具有重要意义。Alpha Star 采用了双向协作网络模型和端到端的训练方法，策略网络自下向上对环境进行抽象形成共享状态，经过双向RNN 网络输出每个智能体的执行动作；价值网络根据策略网络的输出动作及抽象状态进行评估，从而预判价值大小。当所有智能体采取动作后，环境会给出相应反馈，然后反向传播以更新网络参数。

此外，无论是传统的军事演习和沙盘作业，还是计算机兵棋推演和作战模拟仿真，都希望通过对战争的动态推演与分析，获取对作战规律更可信的认知，从而不断修改和完善作战方案计划。美军研发的联合作战战役仿真系统（joint warfare system，JWARS）和联合战区推演系统（joint theater level simulation，JTLS），为联合作战行动方案的仿真推演提供了大力支撑。兰德公司针对战争中大量不确定因素带来的巨大问题空间，提出一种探索性分析（exploratory analysis，EA）方法，通过组合各种不确定因素进行推演并分析对方案结果的影响，探索问题的满意解或调整作战方案计划；国内学者也将探索性分析方法用于海战效能评估、舰艇编队区域防空分析等问题。

各规划求解方法的特点及缺陷，如表2 所示。

表2 求解方法对比

1.3 美军规划系统建设情况

美军作战规划体系可分为3 层：1）战略规划，强调所能达到的终止状态；2）作战规划，强调通过什么样的途径达到终止状态；3）任务规划，强调作战行动和资源分配的实现方法。其系统建设经历了3 大阶段：20 世纪80 年代至90 年代初期，武器平台任务规划系统迅猛发展；90 年代初期到中期，兵种作战任务规划系统井喷式发展；90 年代中期以后，迈入联合任务规划系统论证与研制时期。经过多年发展，美军联合作战规划系统已涵盖了战略、战役和战术等多层级，如下页图2 所示，实现了从武器平台运用、作战行动筹划到军事战略制定的完整过程，经历了海湾战争、伊拉克战争和阿富汗战争等多场局部战争的检验。

战略层战略规划，采用联合战略规划系统（joint strategic planning system，JSPS），服务于国防部和参联会制定战略级方案，主要用于研究交战对象和战略意图。

战役层作战规划，采用联合作战规划与执行系统（joint operations planning and execution system，JOPES），服务于战区、联合部队及师以上司令部，主要用于周密规划和危机行动规划。JOPES 为作战规划人员提供了一套标准化的流程和格式，主要用于拟制联合作战计划，实现态势监控、威胁识别与评估、作战方案开发、实时作战方案计划以及模拟分析等功能。随后，美军对JOPES 进行改进并更名为自适应规划与执行系统（adaptive planning and execution，APEX），将串行规划改进为并行规划、单个作战方案生成改进为多个作战方案及相应分支选项生成，从而加快了规划速度、丰富了规划选项。

战役支撑规划，服务于军兵种指挥部及下级指挥部，用于拟制联合行动计划和生成任务指令，为JOPES/APEX 提供相关军兵种行动规划支持。如空军周密及危机行动规划与执行系统、陆军移动规划与状态系统、海军陆战队空地任务部队系统等。

军兵种行动规划，负责各军种的行动规划，为不同层次指挥官提供统一、集成且可扩展的指挥控制系统，不同军种系统相互之间可以互联互通，方便进行行动协同规划。如空军战区战斗管理核心系统、海军全球指挥控制系统、陆军战斗指挥系统等。

战术层任务规划，主要采用新一代通用战术层任务规划系统——联合任务规划系统（joint mission planning system，JMPS），具有结构灵活、小巧便携等特点，集成了海军任务规划系统（naval mission planning system，NMPS）和空军任务支持系统（air force mission support，AFMSS）等，具有统一底层架构、通用功能组件和专用规划组件，可用于制定威胁分析、路径规划以及攻击协调等任务计划。

2 作战任务规划展望

战争具有以下特点：1）战争是交战双方的动态博弈，只有知己知彼才能百战不殆；2）战争始终服务于战略意图，要以完成军事使命任务进行筹划；3）战争中的诸多不确定性因素影响着敌我双方的作战行动，要时刻根据战局发展进行适应性调整。这些特征对作战任务规划提出了特殊需求，要围绕如何更好地解决对抗性、动态性、长程性和适应性等问题，对规划模型和求解方法展开研究。

2.1 动态对抗条件下，根据敌方意图研判进行有效规划

战争不是单方面行动，军事对抗是交战双方的博弈，需要考虑敌方可能采取的行动策略。在动态对抗条件下，战争中的诸多不确定性因素随之而来，战场信息的不完全不完美、敌方威胁评估和意图识别的模糊性等时刻存在。若将作战任务规划视为静态的或阶段内相对静止的，在现实条件下极有可能面临失效。因此，贴近军事对抗博弈实际，摆脱基于单方面考虑、相对静止或阶段性静止条件的约束，探索从动态对抗的体系作战角度研究作战任务规划的新方法，更加有效地实现面向任务的作战力量聚合与解聚，应是重点突破的研究方向。

2.2 围绕实现作战目的，权衡长期与短期利益进行全局优化规划

古今中外历来强调“运筹于帷幄之中，决胜于千里之外”、“一流的军队应该设计战争”。武器平台行动规划和战术层任务规划比较容易，但面向战役目标的长程规划具有巨大挑战。战役层作战任务规划对军事力量执行作战任务起到指导性作用，确保部队执行任务时能够朝向上级指定的终止态势进展。从这一点来讲，作战任务规划应该以更长远更全局的视野来进行筹划，兼顾长期与短期利益、局部与全局利益，体现指挥艺术和大局观。例如伊拉克战争中，马尔康中校在完成攻占桥梁任务后，根据上级指挥意图和友邻部队计划变更现状，及时修改任务为桥梁防御任务，从而保障了第5 军顺利推进巴格达。因此，作战任务规划要始终围绕作战使命，以实现作战目的为主要优化目标，研究作战任务与作战效果之间的非线性关系，确保掌握战场主动权，引导战争向最有利己方的方向发展。

2.3 面对不确定性因素，基于预案灵活进行适应性规划

战争是具有非线性和不确定性的复杂系统，战场上众多不确定性因素会阻碍作战任务执行，需要采取相应措施减少这些因素对完成作战目的造成的影响。美军高层在伊拉克战争中意识到，战场局势巨变导致作战目标持续变化，为此提出了联合作战规划适应性改革，以期在网络协作化环境下拟制多种可选分支的作战方案计划，并能够根据当前战场态势快速调整和修改作战计划。作战目标持续变化不是作战目标的翻倒重立，而是一个作战目标完成或大部分完成后，根据新的战场形势产生另一个作战目标。因此，作战任务规划的适应性调整，既不是反应式规划也不是鲁棒性优化，更不是毫无限制地进行重规划。而是根据战场态势感知、敌方意图识别和威胁评估的动态监控情况，对事先拟制好的基线预案进行适应性调整，从而对不确定性因素进行响应，并确保战局发展朝向既定战役目的。

2.4 知识引导下，探索作战任务智能规划框架模型与实现方法

随着人工智能技术的兴起，美军也在不断寻求将人工智能技术和作战任务规划进行融合，如深绿（deep green）、指挥官虚拟参谋（commander’s virtual staff）、COMBAT 以及Game breaker 等项目。文献［63］提出一种“局部优化+全局平衡+控制调度”的智能决策思路，而考虑到军事复杂问题求解需要引入领域知识进行引导的现实需求，应该将自顶向下的规划和自底向上的决策相结合，构建“知识引导+ 全局平衡+协调控制+局部优化”的作战任务智能规划框架。智能规划框架旨在通过“集中规划和分布决策”方式，提高作战任务规划的全局优化和适应能力，满足在动态对抗条件下的有效性和复杂环境中应对不确定性因素的适用性。

3 结论

我军作战任务规划在理论和方法方面研究较多，但在系统建设和实践应用方面较少。主要因为国内对该领域的重视滞后，同时缺少权威部门引领全军开展顶层设计和相关规范制定。虽然各军兵种已相继研发并装备了一批武器平台任务规划系统，但面对以联合作战为主要形式的信息化战争，仅有武器平台级任务规划系统远远不够，我军亟需研制涵盖战术层任务规划、军兵种行动规划、战役层作战规划和战略规划的联合作战规划体系。吸取美军经验教训，我军应以军委权威部门牵头开展顶层设计和建设指导，避免陷入美军初期“烟囱式”发展的尴尬局面，确保各层级各领域任务规划系统之间互通性以及与指挥信息系统的兼容性。