基于异构MAS的反导作战传感器任务规划决策研究∗

2018-03-31滕哲姜宁

舰船电子工程 2018年3期

滕哲姜宁

1 引言

复杂对抗环境、体系对抗特征的反导作战需求决定了反导作战必须要求高精确性和强实时性。在多源异构的传感器网中通过多传感器任务规划实现对TBM快速搜索发现、连续稳定跟踪识别是反导作战首要解决的关键技术。现阶段对于多传感器任务规划的研究，大多关注于探测能力的分配、传感器目标分配的内部机理、分配算法以及分配效果等［1～5］，但对于作战背景和作战体系结构的改变下的任务规划问题涉及较少。针对反导作战背景下的多传感器任务规划，对其内部机理、认识、任务还不够清晰。研究成果一部分可直接适用于反导作战，一部分无法适用。

实际上，反导传感器体系构成了一个多层次多结构的网络，而多维异构的反导传感器平台则构成了该网络中的节点，这是一个混合大尺度异构无线传感器网络（Hybrid Large-scale Heterogeneous Wireless Sensor Network，HLSH-WSN）。因此，传感器任务规划首先需要在合理的反导多传感器任务规划体系构建的基础上和网络配置最优的总体要求下进行。有必要对反导作战传感器任务规划技术框架展开研究，对其网络拓扑结构及数据分发模式进行合理设计，重点在信息处理层对多维平台之间的目标交接和指示过程进行优化；在规划层针对有限的传感器资源限制和可视化窗口的约束下，动态地确定传感器对每个TBM目标的探测序列、探测时间窗口以及工作模式，从而使整体的效能达到最优。

2 异构MAS结构下的反导作战多传感器任务规划体系构建

2.1 基于MAS的反导传感器协同体系整体架构

MAS 是目前 DAI（Distributed Artificial Intelli⁃gence，DAI）领域研究的热点，在供应链、无人机任务规划、车间调度等领域有着广泛的应用［6～8］。文献［1］中指出观测资源的异构性以及观测任务的多维性、阶段性和动态性，导致了集中式联合任务规划方法建模难、求解负责度高、系统鲁棒性较差以及可扩展性不足，应当采用基于MAS的分布式协同规划方法。文献［9］中针对NADMS中ICF形成问题，从系统组成、个体行为、协作能力等方面将MAS与NADMS进行了分析比较，指出MAS中Agent的协同决策方法是实现IFC的有效途径。文献［10］利用MAS分析、构建了一个有限集中统筹、分布式协同调整的规划机制，采用分布式动态规划算验证了机制的有效性。因此，构建的基于MAS的反导作战多传感器任务规划体系架构［10～12］，见图1。

图1 反导作战多传感器任务规划体系

2.2 基于任务共同体的异构MAS多传感器任务规划机制

弹道导弹飞行空间区域一般较长，会不断地脱离一个卫星或雷达的视野而进入另一个卫星或雷达的视野范围。那么对于某个特定的目标而言，只需整个反导传感网中的部分传感器节点对其进行探测，而无需网络中所有节点的参与。此外多传感器任务规划技术涉及要素多、协同关系复杂，若直接进行全局优化配置，问题的维数和复杂度很高，并且受多阶段观测任务动态调整的影响大，系统鲁棒性差。

因此，在图1构建的体系架构的基础上引入任务共同体概念，建立一种新的异构MAS多传感器任务规划结构和相应的任务规划机制。这里先引入一个任务共同体概念。

任务共同体（Community of Interest，COI）是指由具有相同知识背景的成员组成，为共同的目标、利益、任务或业务处理过程进行信息交换的协作组织或团体，分为制度性和利益性两种。前者为事先约定的配置，后者是分布式网络结构下临时组成的作战联盟。

在反导作战中，COI为某种传感器根据任务的动态组成的聚群——由网络中处于对目标探测的所有传感器节点组成，聚群集合来自于C2BMC为每个威胁目标制定的STPs。即假设对于威胁目标ti，C2BMC根据掌握的战场态势制定的ESG中为威胁目标 ti确定的传感器任务计划则 T 时刻，COI定义为：，其中 1＜j＜k＜t＜n ，

如图2所示，相应随着作战过程的推进，STPs下的传感器节点组成的COI的属性也会不断变化（预警—探测—跟踪—识别—制导）。同样，由于传感器探测范围和部署位置不同，目标飞行过程中，COI中的成员可分为两类：探测状态、待机接力状态，并且随着时间而不断变化。

图2 反导作战多传感器任务规划过程中COI示意图

2.3 任务共同体的作战描述

基于任务共同体的思想，对反导作战多传感器任务规划问题进行分析和研究，需要为共同体开发各自的行为准则来形式化描述它们的任务范围，构造任务共同体目录。下面基于任务共同体的思想，对反导作战中的新型一体化作战能力进行描述和分析，部分作战能力的遂行需调整体系中的各任务共同体构成，因此反导作战多传感器中任务共同体执行的能力在一定程度上可作为调整任务规划方案的动机和需求。下面分别对三种任务共同体能力进行形式化描述。

1）预警Agent任务共同体

假设 Tracking(ti，Sk，T)=1 表示 T 时刻传感器节点Sk已经发现目标ti并实现跟踪，Tracking(ti，Sk，T)=0 表示未发现或者尚未稳定跟踪。

定义1 预警Agent任务共同体

对于预警 COIi(T)={ti，Sj，Sk，…，St}，根据第一收到预警信息后，若 Tracking(ti，Sk，T)=0 ，且有Tracking(ti，Sl，T)=1，其中l≠ k，Sk，Sl∈{Sj，Sk，…，St} ，基于信息共享，Sk接收到目标信息，使得Tracking(ti，Sk，T+Δ)=1，Δ＜σ ，σ 为 Sk自主搜索跟踪目标的时间间隔；

预警Agent任务共同体示例如图3所示。

2）跟踪Agent任务共同体

图3 预警Agent任务共同体示例

假设Tr_t(ti，T)=Sk表示T时刻跟踪目标ti的传感器为 Sk，Tr_a(ti，Sk，T)表示T时刻 Sk对目标 ti的跟踪精度。

定义2 跟踪Agent任务共同体

若 ∃Tr_t(ti，T+ΔT)=Sl， l≠k ，使得Tr_a(ti，Sl，T+ΔT)＞Tr_a(ti，Sk，T+ΔT) ，则由 Sl进行目标跟踪。

对 Tr_t(ti，T)=Sk，∃Tr_t(ti，T+1)=Sl，k≠ l，则由Sl进行接力跟踪，Sk为Sl提供高精度引导信息。

跟踪Agent任务共同体示例如图4所示。

3）识别制导Agent任务共同体

假设Tr_r(ti，T)=Sk表示T时刻Sk进行目标识别，Tr_g(ti，wj，T)=Sl表示T时刻由 Sl对 wj发射的拦截弹实施制导，Sk对目标ti的可视化窗口为[Tik1，Tik2]，根据火力规划给出的目标ti识别时间窗口为

图4 跟踪Agent任务共同体示例

定义3 识别制导Agent任务共同体

对于 Tr_g(ti，wj，T)=Sk，若 Tracking(ti，Sk，T)=0 ，且 Tracking(ti，Sl，T)=1，l≠k ，则 wj可根据 Sl提供的目标信息进行拦截决策解算，wj发射拦截弹后，Tr_g(ti，wj，T')=Sl，T'为拦截弹中段或末制导的任意时刻；

若 Tr_g(ti，wj，T)=Sl，∃Tr_g(ti，wj，T+1)=St，l≠t，则拦截的控制权移交给St。

特别要指出的是，由于跟踪精度的限制，目前针对弹道目标的目标识别主要是依靠地基X波段雷达和低轨道SBIRS的跟踪和识别探测器来完成，而其他类型的传感器（如有需要）主要是以辅助信息支援的形式来参与。制导识别Agent任务共同体示例如图5所示。

图5 识别制导Agent任务共同体示例

3 基于“周期-事件”的反导作战多传感器任务规划分层决策框架

反导作战多传感器任务规划是指对任意来袭目标，在有限的传感器资源限制和可视化窗口的约束下，如何动态地确定传感器对目标的探测跟踪序列，进而确定探测时机和工作模式，以实现对多目标的探测、跟踪和识别。其实质是一类非线性组合优化决策问题。其作为作战决策中的关键问题，方案及时效性的优劣直接影响武器系统作战效能的发挥，已成为军事运筹领域中的一个研究热点［13～16］。对此，基于周期-事件的综合策略能够同时兼顾调度方案的鲁棒性和适应性问题，是解决此类问题的基本策略。

3.1 问题求解组成框架

多传感器任务规划的制定到最终被执行是一个不断迭代、更新的过程。因此，根据反导作战一体化的方式和特点：多源异类传感器、多种拦截器、多个可变中心的指控节点分布式的网络连接、采用集中指挥与分布式相结合的指控方式，相应地将反导作战中的多传感器任务规划问题分解为两个层次：集中式决策和分布式调整。集中式决策对应于所构建MAS架构的规划层，而分布式调整则在处理层与实体层之间展开。

如图6所示，在集中式决策生成预规划，确保解的质量的基础上，将部分权力下放，对任务规划涉及到的相关各传感器节点能够协同决策，实现动态自同步更新，把不同的组成部分集成到一起，形成适合于当前战场态势的多种组合的传感网。

图6 问题求解组成框架

3.2 基于任务共同体的问题求解过程机制分析

任务规划序列生成是动态的，既要考虑到空间维度上的延伸性，又要考虑到时间维度上的时效性。一方面，周期性的以集中式方法生成整体的任务序列方案，确保当前全局最优解；另一方面，动态事件触发执行层传感器进行分布式调整，确保对战场任务动态变化的自适应。如果序列生成的周期过长，随着对目标探测跟踪误差的增加，将使规划失败的可能性不断增大；周期选取频繁，将显著增加任务共同体内部具体方案求解的工作量。因此，对周期的选取应根据对目标的量测结果和任务的变化趋势进行自适应调整。具体如图7所示。

1）周期的确定

周期性序列生成是集中式产生全新序列方案，周期长短的选择对整个序列方案生成的鲁棒性的影响是根本性的。根据任务共同体的划分，在各弹道段内目标的运动轨迹一般具有可预测性，相对稳定。因此，考虑以任务共同体为依据作为一个选取周期。

2）基于任务共同体的周期调整

周期的调整需要根据前一次周期内对目标的执行情况来进行调整，考虑问题的求解复杂度以及要符合实际情况的客观要求，以跟踪精度和拦截区确定分别作为探测跟踪任务共同体和识别制导任务共同体周期调整的两个主要因素：

（1）探测跟踪任务共同体

对于探测跟踪任务共同体而言，就是要最优化目标的跟踪性能，因此选择以探测跟踪误差作为确定探测跟踪任务共同体下周期序列生成的时机。假设预警任务共同体序列生成初始周期为T0，周期终止时刻为et，对目标跟踪误差的阈值为εmax，当前任务共同体下t时刻对目标的跟踪协方差为P。那么探测跟踪任务共同体周期T′开始时刻，以跟踪精度比阈值高一个数量级为依据来确定，具体见式（1）。

（2）识别制导任务共同体

识别制导是在线控制整个反导作战过程的关键点，是整体传感器任务规划的落脚点。其与拦截的耦合关系，必然要求以拦截成功为最终目标进行优化。因此，选择以拦截区作为确定识别制导任务共同体下周期序列生成的时机。首先跟踪任务共同体给出的信息可以确定目标的拦截点，进而来倒推目标识别窗口达到优化序列的目的。

只有在这段时间内成功识别目标，才能达到目标的发射条件。

3）分布式更新

分布式更新问题，要设计与问题匹配的协同机制，各分配节点以该协同机制作为行为规则，对分配方案进行动态分布式调整。这一部分将在3.4节进行详细叙述。

3.3 集中式反导作战多传感器任务规划方法分析

集中式反导作战多传感器任务规划是指对任意来袭目标，在有限的传感器资源限制和可视化窗口的约束下，如何确定传感器对目标的探测跟踪序列、探测时机和工作模式，以实现对多目标的探测、跟踪和识别。影响反导作战多传感器任务规划的因素主要包括：传感器资源的性能、任务的特性与规划目标。体现为不同传感器对不同类型任务的处理能力各不相同，即使针对同一任务各传感器间也有所差异。同时，规划的目标对规划结果的影响是根本性的，不同的目标会有不同的规划结果，它决定了资源与任务按什么原则去匹配。

因此，集中式反导作战多传感器任务规划可归结为：任务分配规划（mission allocation program⁃ming，MAP）和任务分配调度（mission allocation scheduling，MAS）两个问题。在任务规划过程中，MAP和MAS有各自的决策变量和目标函数。在给定MAP方案后才能进一步确定MAS方案。一方面，MAS方案对其目标函数的优化决策具有决定性的作用；另一方面MAS方案又将对MAP的目标函数产生影响。综上所述，反导作战传感器任务规划实际上是一个以MAP为上层规划，MAS为下层规划的双层规划模型。

1）MAP上层规划

在反导作战中，传感器从预警到拦截制导的“任务-时间-空间”线中涉及任务主要包括预警任务、探测跟踪任务、识别制导任务。进而，MAP的目的是通过优化任务分配，以最大化作战效能、平衡任务契合度为目标，合理匹配各个异构多源传感器的能力，以获得最佳任务效益的传感器集合。

2）MAS下层规划

MAS的目的是在任务匹配的基础上，各传感器间以最大化探测有利度、最小化传感器节点数、平衡全局资源负载为目标，寻求执行任务最佳的传感器节点时间序列组合，并将规划结果反馈到上层，由上层进行总体权衡，从而得到最终决策结果。

可以看出，MAP和MAS都是组合优化问题，存在“维数灾难”的问题。因此这是一个包含复杂约束条件、上下层规划问题的非线性双层规划问题。求解该类问题就需要设计一种搜索能力强、收敛速度快的分层递阶的求解算法。而在求解算法研究方面，随着计算机技术的发展，智能优化算法被大量应用于传统优化算法难以解决的NP问题中，由此发展起来的swarm intelligence（SI）是目前研究的热点。典型的有遗传算法、差分优化算法、粒子群算法、蚁群算法、狼群算法以及混合智能算法等等［17～22］，这类算法在计算复杂度上相对于传统算法表现出的极大优势，使得它们在各个领域都得到了广泛的应用。

3.4 分布式反导作战多传感器任务规划方法分析

分布式反导作战多传感器任务规划在本质上属于分布式任务分配问题范畴。求解该类问题的核心是设计任务执行者之间的协同机制，各执行者以该协同机制作为行为规则，实现作战过程中的动态更新。主要包括确定问题的目标函数和约束条件；分析分布式调整的触发时机；根据问题背景和作战需求，设计合理的协同机制，以实现交战过程中任务规划方案分布式调整后的作战效能最大化。

1）执行时机分析

在作战过程中可能由于后续约束条件满足、战场节点损耗/失效等情况的改变而使得某个周期内的集中式方案变得不再是最优解，甚至变为不可行解。此时，就需要根据战场的实时态势进行动态的分布式调整。具体执行条件如下。

执行条件1：当T时刻，目标尚未到达传感器节点有效威力范围时，融合Agent（处理层Agent）根据体系内的目标综合信息，发现目标实际航迹偏离之前规划时采用的预测弹道，使得处理层Agent根据所辖实体层Agent的部署位置、武器性能、剩余资源等因素的掌握程度，判定“之前由于作战区域、系统资源或不满足其他等原因未能分配到该目标”的传感器节点可对其提前作战，则发出协同交战请求，对相应任务规划方案进行调整。这样做是为了有机会选择更加有效的传感器节点对目标实施作战，提高作战效能。

执行条件2：当T时刻，实体层Agent判定无法成功完成任务（失跟、传感器节点失效、无剩余资源等）或者目标强机动飞出当前传感器节点有效范围，处理层Agent根据当前其他节点的部署位置、武器性能等因素判定其它传感器节点可对目标继续实施作战，则发出协同交战请求，重新调整任务规划序列，尽可能减小目标突防概率。

2）分布式协同决策方法分析

不同类型的任务共同体共同构成了传感器任务规划，彼此间既存在区别、又存在耦合，因此相对应的求解方法也应当是不尽相同的。具体体现为问题解决的目的、分配对象、任务执行能力需求，如表1所示。

一方面，目的和分配对象这两个因素决定了分配问题的建模方式、约束条件和求解的粒度；另一方面，任务执行能力需求决定了协同决策的依据、机理和过程。从表1中，可以看出预警与探测跟踪主要关注目标跟踪性能上的稳定和优化，可以用某个或某些具体特性的最优度量值（检测概率、截获概率、跟踪精度等）作为目标函数，是实现目标-传感器之间的动态调整；而识别制导任务共同体是要在拦截点规划的基础上对目标-制导节点-火力节点的进一步动态调整。与前两者相比，在识别制导任务共同体阶段，资源冲突高，约束复杂，实时性要求高。因此，有必要将分布式反导作战多传感器任务规划问题分为预警探测跟踪协同规划和识别制导协同规划分别进行研究。

表1 不同类型任务体下的求解问题比较

在求解算法方面，目前对于分布式分配问题的研究可分为以Brown算法为代表的通用算法求解方法和以人工智能为基础的协同机制求解方法。前者可实现全局最优，一致性好，但是对作战计算资源、数据要求以及指控能力的要求极高。一旦对抗体系发生变化（体系中有节点加入或者退出），就需要全局进行重新优化。而基于人工智能的求解方法，由于其计算复杂度低、体系结构动态调整速度快，可扩展性好，局部优化能力强等特点，成为了目前研究的热点。主要包括了基于行为的方法［23］，基于拍卖和市场机制的方法［24～25］，基于空闲链的方法［26］以及如蚁群、狼群等基于群智能［20～21］的方法。

4 结语

异构MAS下的反导作战传感器任务规划框架通过将反导作战传感器任务规划依据任务性质进行分割，不但是为了平衡各传感器的任务执行量，也是为了区分多源异类传感器能力带来的区域性差异问题。在此基础上，构建了一种基于任务共同体的分层决策框架。最后，探讨了基于双层规划的传感器任务规划序列生成模型，以及分布式协同决策下的动态更新问题。为反导作战传感器任务规划问题提供了一个新的思路。

下一步的工作包括两个方面：一是考虑更符合战场环境的目标和约束条件，构建多目标规划模型，使得模型更贴近作战应用特点及决策需求；二是构建能够动态适应战场攻防对抗态势变化的面向多任务分布式智能协同任务规划理论与算法，以进一步提高不确定战场环境下，算法求解效率及解的精度。

［1］李军，钟志良，景宁，胡卫东.异构MAS结构下的空天资源多阶段协同任务规划方法［J］.航空学报，2013，34（7）：1682-1697.

［2］Bröring A，Echterhoff J，Jirka S，et al.New generation sensor web enablement［J］.Sensors，2011，11（3）：2652-2699.

［3］刘钦，刘峥.一种基于Rényi信息增量的机动目标协同跟踪方法［J］.控制与决策，2012，27（9）：1437-1440.

［4］王一川，单甘霖，童俊.基于协同memetic PSO算法的传感器-目标分配问题求解［J］.系统工程与电子技术，，2013，35（5）：1000-1007.

［5］aheswararajah S，Halgamuge S.Sensor scheduling for tar⁃get tracking using particle swarm optimization［C］//Proc.of the IEEE 63rdVehicular Technology conference，2006：573-577.

［6］Badawy R，Hirsch B，Albayrak S.Agent-based coordina⁃tion techniques for matching supply and demand in energy networks［J］.Integrated Computer-Aided Engineering，2010，17（4）：373-382.

［7］de Jong S，Tuyls K，Verbeeck K.Fairness in multi-agent systems［J］.Knowledge Engineering Review，2008，23（2）：153-180

［8］Confessore G，Giordani S，Rismondo S.A market-based multi-agent system model for decetrlized multi-project scheduling［J］.Annals of Operations Research，2003：27-38.

［9］唐苏妍.网络化防空导弹体系动态拦截联盟形成机制与方法研究［D］.长沙：国防科学技术大学，2011：40-48.

［10］Peng Ni，Jin-Mang Liu，Yong-lan Liu，Qiang Fu.Re⁃search on mission planning for distributed multi-sensors in anti-TBM combat based on multi-agent system［J］.Sensor Letters.2014，12（2）：325-331.

［11］吴林锋，王刚，刘昌云，杨少春.基于多智能体的反导传感器任务规划算法［J］.现代防御技术，2012，40（2）：88-93.

［12］王刚，何晶.基于Agent的网络化防空作战多传感器集成研究［J］.火力指挥与控制，2009，34（1）：19-22.

［13］Bogdanowicz Z R.A new efficient algorithm for optimal assignment of smart weapons to targets［J］.Computers and Mathematics with Applications，2009，58（4）：1965-1969.

［14］陈英武，蔡怀平，邢立宁.动态武器目标分配问题中策略优化的改进算法［J］.系统工程理论与实践，2007，27（7）：160-165.

［15］Karasakal O.Air defense missile-target allocation mod⁃els for a naval task group［J］.Computers&Operations Research，2008，35（2）：1759-1770.

［16］刘晓，刘忠，侯文姝.火力分配多目标规划模型的改进MOPSO算法［J］.系统工程与电子技术，2013，35（2）：326-330.

［17］王玮，程树昌，张玉芝.基于遗传算法的一类武器目标分配方法研究［J］.系统工程与电子技术，2008，30（9）：1708-1711.

［18］黄仁全，靳聪，贺筱军，等.自适应局部增强微分进化改进算法［J］.空军工程大学学报（自然科学版），2011，12（3）：84-89.

［19］范成礼，邢清华，范海雄.带审敛因子的变邻域粒子群算法［J］.控制与决策，2014，29（4）：696-700.

［20］李猛，王道波，盛守照.采用多重启发蚁群优化算法的无人机航迹规划［J］.华南理工大学学报（自然科学版），2011，39（10）：37-43.

［21］吴虎胜，张凤鸣，吴庐山.一种新的群体智能算法——狼群算法［J］.系统工程与电子技术，2013，35（11）：2430-2438.

［22］刘朝华，李小花，章兢.精英免疫克隆选择的协同进化粒子群算法［J］. 电子学报，2013，41（11）：2167-2173.

［23］Gage Aaron.Multi-Robot Task Allocation Using Affect［D］. Tampa： University of South Florida， 2004：15-20.

［24］Jones E.Gil，Dias M.Bernardine，Stentz Anthony.Learn⁃ing-Enhanced Market-based Task Allocation for Disas⁃ter Response［A］.CMU-RI-TR-06-48.Pittsburgh：Carnegie Mellon University，2006：88-96.

［25］Dobzinski Shahar，Nisan Noam，Schapira Michael.Ap⁃proximation Algorithms for Combinatorial Auctions with Complement-Free Bidders［J］.Mathematics of Opera⁃tions Research，2010，35（1）：1-13.

［26］I.D.Chase，Weissburg M.，Dewitt T.H.The Vacancy Chain Process：A New Mechanism of Resource Distribu⁃tion in Animals with Application to Hermit Crabs［J］.Animal Behavior，1998（36）：1265-1274.