APP下载

基于演化博弈的结构化无人集群协作控制方法*

2021-12-29禹明刚张东戈

火力与指挥控制 2021年10期
关键词:雪堆分工合作火力

禹明刚,何 明,张东戈,罗 玲,康 凯

(1.陆军工程大学指挥控制工程学院,南京 210007;2.陆军工程大学通信工程学院,南京 210007)

0 引言

随着第三次人工智能浪潮的持续推进,由“单体自主智能”发展而来的“群体演化智能”,成为新一代人工智能的重要特征之一。尤其在军事领域,无人集群(陆战场无人车集群[1-3]、水面无人艇集群[4-6]、空域蜂群[7-10])作战得到了前所未有的关注,美军已将无人集群作战列为一种能够改变作战规则的“颠覆性技术”。

目前,无人集群控制方式主要有集中控制和自主协同两类。在战场复杂电磁环境下,尤其当集群进入敌纵深之后,通信不畅甚至通信失效是常见的现实风险[11],此时,集中控制方式失效,无人集群必须根据外部态势,临机作出有效响应,做到自我管理、自主协同,以继续完成既定军事行动。

无人集群的自主协同,需要具有不同功能类型的无人单元分工合作。如图1 所示,在火力打击任务中,情报单元S1将敌机目标信息传递给指控单元S2,S2指挥火力单元S3实施火力打击,三类功能单元的分工合作与密切协同是实现既定军事任务的重要前提。事实上,分工与合作现象早已普遍存在于生物界,例如,狮子在合作捕猎时,会自发地采取不同行动,一般其中两头狮子会从两翼冲击一群猎物,使得它们因惊慌而向前奔跑,同时另外一两头狮子会冲到中间迎击猎物,这种捕猎方式十分有效。上述例子所呈现的特点是,对于一项共同任务,必须通过不同角色的个体分工合作才能完成,任一种角色的个体都无法独立完成该任务。在处理这样的协调控制问题时,一个重要的任务在于在复杂的连接网络上如何划分集群实施有效的策略分布,使不同策略个体尽可能均匀分布在其策略互补的个体周围。例如,火力打击任务中,有必要使得功能互补的个体分布在尽可能近的位置上,使得邻居个体可以相互补充、高效完成任务。

图1 无人集群自主协同示意

演化博弈理论(Evolutionary game)[12-14]为研究多个体间的交互行为提供了一种有效的数学工具和研究框架。演化博弈将经济学的“均衡观”与生物学的“适应性”理念进行了很好的结合。它刻画了在理性不完全、信息不对称、对环境及预期存在偏差条件下,群体通过学习、模仿、试错而不断适应外部环境,最终达到演化稳定状态(Evolutionary Stable State,ESS)[15]的过程。近年来,众多学者利用演化博弈理论研究合作促进机制,以哈佛大学Nowak 教授为代表,对“综合进化论”进行扩展,总结了促进合作涌现的五大机制[16]。演化博弈论为研究协作控制提供了重要数学框架。

在无人集群分工问题中,控制目标是尽可能使得相邻位置的无人平台处于不同的策略状态,以便更高效地完成合作任务。因此,在无人平台与其邻居博弈时,当分别持不同策略时所获收益应高于持相同策略。因此,在控制集群演化时,需要选取的博弈类型是,其纳什均衡为每个平台采取与邻居相反的策略,此时整个集群方能获取更高的收益。雪堆博弈(或鹰鸽博弈、懦夫博弈)[17]恰吻合了上述需求。当集群中的无人平台间展开上述博弈时,演化稳定策略为采取与对方相反的策略,因此,该类模型为分析无人集群分工合作问题提供了很好的理论框架。

目前,用演化博弈理论解决分工合作问题,主要有两大研究方向:一是基于马尔科夫随机过程研究混合均匀种群的演化稳定状态及合作策略占优条件[18-19];二是基于图论研究复杂网络等空间结构种群的演化动力学过程及合作机理[20-21]。

对于前者,代表性研究有:北京大学杜金铭教授团队通过理论推导和模拟仿真,获取了愿景驱动动态下两方博弈策略占优条件[22],以及门限值对多方雪堆博弈合作形成的影响[23];进一步地,团队将理论成果拓展到双重门限值,推导了双重门限值下的雪堆博弈收益支付比(b/c)及演化稳定解[24-25]。此外,还有研究者研究了惩罚机制对雪堆博弈中合作演化的促进机理[26]。“混合均匀”假设了集群的全连接特性,未考虑结构对合作的影响,而在现实战场环境中,无人平台通过物理/信息链接形成特定的网络结构。因此,如何基于特定网络结构分析集群的合作演化机理,是实现集群协作控制的必然途径。

对于后者,哈佛大学Nowak 教授团队,对环形图、随机图、无标度网络等空间结构上的集群演化进行理论推导,开创性地提出博弈效费比与(b/c)与网络平均度k 之间的关系,指出越小的网络连通度越利于自然选择中合作的产生[27];之后,他们利用偶对近似理论,对规则格子上的合作现象进行理论推导,获得了合作产生并扩张的边界条件[20,28];在上述工作的基础上,进一步对比分析了同质与异质网络在促进合作行为产生中的差异,仿真发现弱连接更能促进异质网络上合作行为的产生[29];同期,有其他研究者研究图上的多方博弈动态过程,仿真发现,对于合作博弈,相比于无结构种群,空间结构种群更能促进合作的发生[21];近两年,团队将空间结构上的合作演化动态应用到社会网络,分析人类社会产生合作行为的临界条件[30],针对演化收敛概率大小与演化收敛时间长短之间的矛盾,初步探索了空间结构在两者之间的权衡[31],并将结构种群上的合作演化进一步扩展到加权图[32]。文献[33-34]针对多人雪堆博弈这一特定模型,分别在混合均匀种群、结构种群上研究了效费比(b/c)与合作水平间的关系曲线,并对比分析了同质/异质网络在合作促进中与无结构种群的显著区别。

上述对合作问题的研究有很高的理论和工程价值。然而,在解决无人集群协作控制问题时,上述成果仍存在两点不足:一是现有成果多聚焦于合作行为产生的临界条件,对以追求集群总体效用最大化为目的的分工合作问题考虑不足,虽然合作行为的产生与集群总体效用最大化在机理上有相似之处[35],但在实现途径上存在本质区别;二是尚未见军事应用研究成果,目前可见雪堆博弈(或鹰鸽博弈、懦夫博弈)在环境污染[36]、舆情传播[37]、文化演进[38]等方面的应用,由于军事领域的特殊性及无人集群作战的新质性,鲜有成果可循。

前期,针对无人集群合作问题,基于演化博弈理论,推导出混合均匀集群上策略的平均丰度函数及占优条件[39]。本研究在此基础上将混合均匀假设扩展到空间结构集群,首先基于演化博弈框架对无人集群分工合作建模;然后,给出结构集群上的演化动力学微分方程,并理论推导出博弈均衡解及扰动近似解;接下来,以火力打击任务想定为例,分别对规则图上、一般拓扑上的集群合作进行算例仿真,仿真结果与理论推导相互印证,证明所提方法可实现集群协作控制的目的;最后,依据理论推导及仿真结果,给出无人集群作战中,促进集群分工合作的合理化建议。

1 模型假设

无人集群分工合作,是一个多方参与、多轮迭代的策略博弈和演化过程,因此,用演化博弈对该问题进行建模。首先,给出无人集群分工合作与演化博弈相关概念的映射关系,如表1 所示。

表1 概念映射关系

1.1 演化博弈集群模型

在演化博弈集群模型中,单个无人平台充当博弈参与者(Individual)角色;由多个无人平台构成的集群,在集群层面拥有共同目标,需要完成同一任务;单个无人平台具有可选的不同行为方式,作为博弈策略(Strategy);平台在每一时刻,与其“邻居”(存在基于地理位置的物理连接和基于信息通信的逻辑连接的其他无人平台)发生交互;依据其自身及对手策略,获得一定的收益(Payoff);具备独立决策能力的理性无人平台,通过评估其收益,按照一定的动力学规律进行策略更新;经多轮策略更新过程,集群不断演化(Evolutionary),使得集群控制最终达到目标状态(如一致、同步、分工等)。上述过程,博弈类型的选择、收益计算方式的设计、策略更新规则的确定至关重要,上述几类因素是决定集群演化方向和控制目标实现的关键。

设演化博弈发生在一个数量为N 的结构集群中,每个无人平台i∈N 定义为一个四元组:Individuali={Statei,Transitioni,Interactioni,Fitnessi}

1)状态(State),无人平台当前时刻的策略及与邻居所构成的网络连接关系。集群状态则定义为,某时刻集群中持不同策略的平台的占比及整体网络结构形态。

2)转换(Transition),无人平台基于收益的策略调整及网络拓扑的动态重构。集群的转换则定义为集群状态的调整过程。

3)交互(Interaction),无人平台间基于网络拓扑,实施信息传递和策略博弈的过程。

4)适应度(Fitness),每一轮博弈中,无人平台与邻居交互所获取的收益,反映了无人平台对环境的适应能力。

无人平台间的交互拓扑关系可借助图论进行刻画:G=(N,L),其中,i∈N 为由无人平台构成的节点集,L=N×N 为边集。用有序对(i,j)刻画有向边,若平台i 能够接收平台j 的状态信息,则称j 为i 的一个邻居,i 的邻居集合为ki={j∈N,(i,j)∈L},若为无向图,若(i,j)∈L 则(j,i)∈L。

每一轮博弈亦称为演化的一个时间步长

1.2 集群协作数学描述

在无人集群的分工及协作控制问题中,控制目标是尽可能使相邻位置的平台采取不同策略,映射到博弈过程即为博弈双方持相同策略所获收益应低于分别持不同策略,雪堆博弈(或鹰鸽博弈、懦夫博弈)即属于此类博弈。以雪堆博弈为例,雪堆博弈[33]所描述的情景为:天降大雪,路被雪堆封堵,两个相向而行的司机同时被困在雪堆的两端。有两种策略可选:合作或背叛。合作意味着下车铲雪,背叛则意味着呆在车里无所作为,寄希望于另一人去铲雪。若两人均选择合作,则对于每人而言,工作量减半;若两人均背叛,则两人只能等到雪化才能通过。设顺利通过的收益为b,铲雪的代价为c,则收益矩阵如下:

根据经典博弈理论,在b>c 时,该博弈的纳什均衡为选择与对方相反的策略:若对方选择合作则己方选择背叛,若对方选择背叛则己方选择合作。事实上,无论是雪堆博弈还是鹰鸽博弈、懦夫博弈,取得上述均衡的前提体现在收益矩阵上,具有以下共同特点:R<T 且S>P,其中,R、T、S、P 为一般收益矩阵表示形式(如式2)中的具体收益。

无人平台采用模仿动态(Fermi 过程)进行策略更新,即将其自身适应度与邻居平均适应度(F¯j)进行比对,以一定的概率进行策略调整。在该规则驱动下,无人平台在策略空间{A,B}中切换其策略的概率为:

2 理论分析

本部分将通过严格的理论推导,分析所提演化博弈模型对于无人集群分工合作的控制效果。

2.1 集群演化动力学过程

在一个规模为N 的无人集群中,每个无人平台占据通信拓扑的一个顶点,初始状态下,每个平台在策略空间{A,B}中随机选择一个作为初始策略。在每个时间步内,平台依据式(2)与其所有邻居进行博弈,依据式(3)确定其该轮博弈的平均收益。通过分析集群演化过程中持A、B 策略的平台在整个集群的占比变化,求其演化稳定解,进而获取集群分工合作形成的条件。

不难得知,整个集群的状态(策略组成及结构分布)由PA、PAA两个变量即可刻画。

作为焦点个体的无人平台与其所有邻居展开博弈,设在每个时间步内,其邻居中持A、B 策略的平台个数分别是kA和kB,满足kA+kB=k。则持策略A和策略B 的焦点个体收益分别为:

依据上述策略转换概率及策略对变动概率,随着演化进程推进,集群中持策略A、B 的平台占比此消彼长,策略对AA、AB、BA、BB 数量动态调整。当演化至某一时刻,策略占比及策略对数量不再变化,此时集群整体演化趋于稳定。通过分析集群稳定时的演化参数,设计合理的控制机制,可达到对集群分工合作管控之目的。

2.2 分工协作形成条件

即演化结果为集群中持策略A、B 的平台个数均等,且给定一个持X(X∈{A,B})策略的平台,在其邻居中找到一个持Y(Y∈{A,B})策略平台的条件概率相同。因此,持不同策略的平台在空间结构上呈均匀交叉分布。

另外需要注意的是,在分工合作问题中,只要求博弈的纳什均衡为选择与对方相反的策略:若对方选择A 则己方选择B,若对方选择B 则己方选择A,对策略A 和B 并无需进行差异性要求。为了体现策略本身的无差异性,即收益矩阵的对称性,规定R=P 且S=T。

因此,在博弈机制设计时只要满足R<T 且S>P,R+S=T+P,R=P 且S=T 的前提条件,即可使得网络拓扑上相邻位置的无人平台持不同策略,实现集群的分工合作,从而高效完成任务。

3 算例仿真

以集群火力打击任务想定为背景,依据集群演化动力学过程,对规则图和一般拓扑上的无人集群分工合作问题进行算例仿真,以验证模型合理性与理论分析的正确性,为实现无人集群的分工合作提供决策支持。无人集群火力打击任务想定如图2 所示。

图2 无人集群火力打击任务想定

在无人集群火力打击任务中,每个无人作战平台具备两种功能:弹药保障与火力打击,且无人平台可根据任务需要在两种功能间进行切换。从个体协同和任务完成角度,有必要使得功能互补的平台交叉分布,即分布在尽可能近的邻居位置上,以密切配合共同完成对敌火力打击任务。

初始时刻,不同功能的无人平台在空间拓扑上随机分布。当集中控制方式失效后,集群依据演化动力学过程进行多轮迭代博弈,最终达到演化稳定状态;此时,集群达到空间结构的最优化分布,持弹药保障和火力打击策略的平台交叉分布,彼此通过保障连与火力链相互铰链,实现功能互补与分工合作,高效完成对敌火力打击任务。

3.1 规则图上的协作演化

初始策略分布为随机过程,各平台随机采取策略A 或B,其中,持策略A 和B 的平台各占总数的近50%。集群初始策略分布如图3 所示,其中,每个栅格代表一个平台,白色栅格表示策略A,灰色栅格表示策略B。

图3 规则图上的初始策略分布

根据第2 部分理论分析结果,在满足R<T 且S>P,R+S=T+P,R=P 且S=T 的前提下,给出收益矩阵如下:

上述取值充分体现了平台在选择与邻居相反策略时所带来的高收益。同时,从收益层面确保两个策略的无差异性。

演化过程斑图如图4 所示,其中,图4(a)表示第1 轮博弈后的策略分布,由于还远未达到演化稳定,策略分布仍较为随机,但相比于图3 的初始状态,已有部分平台实现了策略转换;图4(b)显示经过多轮的博弈迭代,集群达到演化稳定状态后,策略在图上交叉分布的最终演化结果。

图4 规则图上的策略演化斑图

由图4(b)可知,集群的状态最终进化到一个最优化的分布,即持弹药保障和火力打击策略的平台交叉分布,从而形成功能互补与分工合作,高效完成对敌火力打击任务。

3.2 一般拓扑上的协作演化

本节将规则图上的协作演化扩展到一般的网络拓扑上,此种情况下,平台间的连接不再是完全规则的。仍然考虑N=25 的集群规模,选择强度ω=0.01。初始策略分布如图5 所示,每个栅格代表一个平台,白色栅格表示策略A,灰色栅格表示策略B,初始时刻各平台随机采取策略A 或B,持两类策略的平台各占总数的近50%。

图5 一般拓扑上的初始策略分布

演化结果如图6 所示。

图6 一般拓扑上的策略演化斑图

其中,图6(a)表示第1 轮博弈后的策略分布,尽管还未达到演化稳定,但相比于图5 的初始状态,已有部分平台实现了策略转换;图6(b)显示经过多轮的博弈迭代后,演化稳定时,策略在一般拓扑上交叉分布。因此,本文所提模型在一般拓扑上亦可实现分工合作之目标。

上述模型及方法具有问题通用性和领域普适性,不仅适用于集群火力打击任务,还可推广到一般军事、生物、社会领域的分工合作问题中。通过设计合理的博弈机制,满足收益约束,即可实现集群的自主演化与分工合作。

4 结论

本文针对无人集群分工合作问题,基于演化博弈理论框架建立了结构化集群分工合作模型,并以“雪堆博弈”为切入点,理论推导模型的演化动力学过程及分工合作形成的条件;最后以集群火力打击任务为想定,仿真了规则图及一般拓扑上的集群策略演化过程,仿真结果验证了理论推导的正确性及模型方法的合理性。在实际的无人集群协作控制中,通过设计合理演化博弈机制及收益参数,可达到对集群分工合作管控目的。本文结论为相关理论向实际应用转化提供了初步和有意义的探索。

本文假定集群结构为预设的静态拓扑,且博弈类型为经典的2×2 博弈。然而,现实问题往往面临网络拓扑的动态变化及多策略的多维切换,如何将理论方法推广到动态网络上的多策略博弈等更复杂的情况,实现对集群协作的更加精确有效控制,是下一步的研究方向。

猜你喜欢

雪堆分工合作火力
小龙虾历险记之夜幕下的晚餐
燃!燃!燃!海军陆战队某旅火力全开
奥地利一卡车穿越4米厚雪堆开辟道路
轻度火力
如何培养小学生自主探究学习能力
捕熊妙计
浅谈小学数学教学中合作学习的策略
谈分工合作在体育课中的教学拓展
动物爱耍伪装术