支持重规划的战时保障动态调度研究

2023-08-04李厚朴

自动化学报 2023年7期

曾斌樊旭李厚朴

作为作战力量的倍增器,后装保障系统在现代战场上扮演着非常重要的角色.它的主要功能是利用有限的保障资源,在最短时间内及时高效地为前线部队提供急需的作战物质.在海上分布式杀伤和大规模登陆作战等战场背景下,由于远离本土作战,前进基地或预置基地保障资源有限,在分布式协同作战模式下,保障需求点增多,而且保障需求频率也大幅提高.这种情况下,一个高效的战时后装保障系统需要解决的问题包括:

1)当作战部队发出保障需求时,如何选择合适的保障分队处理该需求;

2)每一个保障基地需要分配多少保障分队(负责投送作战物质或维修作战装备);

3)当作战部队发出保障需求时,如何选择合适的保障分队处理该需求;

4)当保障分队不够时,如果出现优先级高的保障需求,能否中断当前保障任务重新规划;

5)当保障分队完成任务后,如何根据当前战场态势部署至更为优化的地址.

以上问题中,前3 个问题已经有较多研究并得到较好解决,例如,昝翔等[1]和何岩等[2]分别利用遗传算法解决了维修任务-维修单元的指派,曹继平等[3]给出了资源冲突时的优化调度方案;曾斌等[4]利用混合Petri 网建立了流程模型并提出了基于退火进化的保障单元调度算法,任帆等[5]指出巡回维修中“预测性”策略要优于“最近修理组”策略,但没有给出具体的预测算法.

而后2 个问题可以看作前3 个问题的延伸,即在给定一定数量预置保障基地及每个保障基地预分配了一定数量的保障分队情况下,当出现新的保障申请时,如果当前没有空闲的保障分队,如何重分配保障任务及重部署保障分队.这一直以来也是后装保障的一个老大难问题,陈春良等[6]在研究展望中专门指出目前关于装备维修任务调度的研究大多将其视为非抢占调度,易导致维修任务调度不合理、维修资源利用不充分等问题,急需开展抢占调度方向研究.

由于允许抢占拓展了解空间,所以需要寻优,而常规方法难以优化装备的抢占调度及重规划,因此需要从智能化保障技术入手,只有能够对后装保障与配属情况进行合理性预测,才能制定鲁棒性强的保障计划与投送方案[7],从而能够根据战场环境变化,预见性地做出重规划决策.

作为预测决策的关键技术之一,以马尔科夫决策过程(Markov decision process,MDP)为基础结构的强化学习逐渐在智能化应急服务中得到了应用并取得显著成果[8-9],包括: 救护车的调度[10]、医疗资源的分配[11-12]、灾后救援优化策略[13-14]、战场伤员的疏散方案[15]以及应急电力系统的自适应控制[16-17]等,这些研究给予本文以智能决策技术上的启发,但同样也没有解决重规划问题.

本文的思路如下: 首先建立战时保障动态调度问题的MDP 模型;其次提出了该MDP 模型的求解方法.基于强化学习的试探-奖励-修正(策略迭代)自学习方式,生成不同保障需求事件下的状态-动作序列,以此作为样本数据来训练保障调度神经网络模型.这样在实战过程中,当战场环境发生变化引发新的保障需求时,不同的保障决策动作将导致系统状态发生改变,通过训练好的保障调度神经网络可以快速计算改变后状态的价值,其中导致状态价值最大的决策即为最优决策.

本文主要贡献包括:

1)定义了支持重规划的后装保障动态调度问题,建立了支持重规划(抢占调度、重分配及重部署)决策的MDP 模型和求解算法;

2)在重规划MDP 模型中综合考量了任务排队、保障优先级以及油料约束等问题的影响;

3)为了解决重规划MDP 模型状态动作空间过大引起的“维度灾”问题,借鉴了深度学习思想[18],提出利用神经网络对基函数进行非线性组合,从而逼近MDP 值函数,降低了计算复杂度;

4)采用决策后状态思想[19]降低了随机事件引起的计算复杂度.

1 马尔科夫决策模型

1.1 状态空间

MDP 的状态设计非常重要,如果维度过大会影响求解算法的收敛,过小则可能不足以用来描述系统的决策函数、状态转移函数以及奖励函数.本文设计保障系统的状态S(t,e,M,R),其中,t为当前时间,e表示当前事件类型,M为列表类型,表示各个保障分队的所处状态,R为列表类型,表示当前待处理的各个保障需求的状况.

1.1.1 事件类型

系统状态随着事件的产生而变化,为此本文定义7 种事件类型,即e(S)1,2,···,7}.e(S)1表示产生了保障需求需要处理;e(S)2 表示保障分队到达保障仓库 (如果保障仓库与保障分队处于同一保障基地,则不用产生此事件);e(S)3 表示保障分队在保障仓库领取到本次任务需要的物质或备品备件;e(S)4表示保障分队到达需求点;e(S)5表示保障分队完成当前保障任务;e(S)6 表示保障分队返回保障基地;e(S)7 表示有保障分队处于待命状态.

1.1.2 保障分队状态

保障分队状态列表表示为:M[Mm]m∈M′[M1,M2,···],其中,M′{1,2,···},表示系统中所有保障分队集合,列表中每个组成元素都为一个数组,可表示为

1.1.3 保障需求状态

保障需求状态列表可表示为:R[Rr]r∈R′[R1,R2,···],其中,R′{1,2,···},表示保障需求队列中待处理的所有保障需求集合,列表中每个组成元素都为一个数组,可表示为

如果当前没有保障需求,Rr(0,0,0,0,0);如果某个保障需求已被完成,则该需求将会移出队列.另外保障队列中等待的需求有一个最大阈值rmax|R′|,它表示保障系统能够支持的保障需求最大数量.

以上状态相对独立,可以假设其满足马尔科夫过程无后效性性质.其中时间状态即指当前的时刻,因为较简单,可以忽略.

1.2 决策空间

1.2.1 决策变量

为了描述决策空间,首先定义如下集合.

1)B{1,2,···,|B|}表示保障基地集合;

2)Q(S){r:′,0}表示当系统状态为S时,在队列中等待分派保障分队处理的保障需求集合;

3)A1(S){m:′,1,6,7,8}}表示当系统状态为S时,可以分派执行保障任务的保障分队集合;

4)A2(S){m:′,2,3}}表示当系统状态为S时,可以重规划保障任务的保障分队集合;

5)A3(S){m:′,6}表示当系统状态为S时,可以重部署的保障分队集合.

本文中决策变量设计为3 个布尔变量,定义如下:

1)Xmr1表示第m支保障分队被分派执行保障需求r,否则为0;

2)Ymr1表示第m支保障分队被命令中断当前保障任务,重规划执行新的保障任务r,否则为0;

3)Zmb1表示第m支保障分队被重部署至保障基地b,否则为0.

1.2.2 决策约束

决策约束分以下4 种情况讨论.

情况 1.当Q(S)Ø(存在待处理保障需求) 且发生事件类型为e(S)1,2,3,4,6,7}时,保障指挥人员需要执行2 个决策: 分派任务和重规划任务.其中,分派任务负责分派哪一个保障分队执行队列中等待处理的保障任务;当没有可用保障分队且出现高优先级任务时,由重规划任务决定中断哪一个保障分队的当前任务,转去执行新的保障任务.

这种情况下存在如下5 种决策约束:

1)约束一个任务只需要一支分队处理,如果需要多支分队处理一个任务,可以组合成一个分队,或放松此约束,即

2)约束一支保障分队一次只能分派执行一个保障任务,如果需要一支分队一次执行多个保障任务时,可以把一个保障分队分解为多支分队,或放松此约束,即

3)约束一支保障分队一次只能重规划执行一个保障任务,即

4)约束保障分队一次只能分派执行或重规划执行剩余油料距离之内的保障任务,设dmr表示保障支队m与需求点r之间的距离,即

设分派调度决策列表为

设重规划决策列表为

情况1 下的决策空间表述为

情况 2.当Q(S)Ø(不存在待处理保障需求)且发生事件类型为e(S)5 (有保障分队完成当前保障任务) 时,保障指挥人员需要决策保障分队m的重部署地点.注意此时A3(S){m}.设dmb为保障分队m到基地b的距离,Imb为指示函数,如果保障分队m剩余油料可以到达某基地b,则为1,否则为0,其表达式为

因此,有决策约束式为

该约束表示每一个保障分队只能部署到一个保障基地.设该情况下重部署决策列表为

情况2 下的决策空间表述为

情况 3.当Q(S)Ø(存在待处理保障需求) 且发生事件类型为e(S)5 (有保障分队完成当前保障任务) 时,保障指挥人员可以选择以下3 种决策:

1)分派任务: 分派哪一个保障分队执行队列中等待处理的保障任务;

2)重规划任务: 中断哪一个保障分队的当前任务,重安排其执行新的保障任务;

3)重部署保障分队: 如果保障分队m没有分派执行队列中等待处理的保障需求,重部署m到哪一个基地.

注意此时有A3(S){m}.约束表示为

约束(7)表示如果存在可重部署的保障分队,且其没有分派执行队列中的保障需求,则只能将它重部署到最多一个保障基地.此时决策空间表示为

情况 4.如果没有出现以上事件,也没有发生以上3 种情况,则约束空间D4Ø.

1.3 状态转移

设第k个事件发生时保障系统所处状态为Sk,保障系统通过决策动作dk使得系统状态从Sk演进到Sk+1,并设随机元素W(Sk,dk)表示系统处于Sk+1时发生的随机事件信息,整个保障系统的演进动力模型可以表示为

式中,ST表示状态迁移函数.

1.4 奖励函数

按照MDP 模型,当有保障分队调度 (分派或重规划) 执行保障任务时,该决策行为将会获得奖励.奖励值的设计也是影响强化学习能力的重要因素,本文保障系统中需求优先级、期望保障时间以及需求产生时刻等因素都会影响决策动作的奖励值.设C(Sk,dk)表示在系统处于状态Sk时,如果采取决策dk将会获得的立即奖励值,它的计算式设计为

1.5 目标函数及优化方程

基于给定策略π(一系列决策的组合),Dπ(Sk)(Sk)为从状态空间到决策空间的决策函数,用以指导在状态Sk下采取策略dk.MDP 模型的目的也就是从所有可行策略中计算得到优化策略π*,从而最大化系统的长远回报.因此,系统目标函数为

式中,γ为一个固定的折扣因子,为了便于计算,Bellman 优化方程利用迭代方式计算目标函数,其表达式为

式中,V(Sk)为状态Sk的值函数.

2 求解算法

由于维度灾(式(11)的状态空间维度过大)的影响,利用常规动态规划方法无法取得式(11)的精确解.为此,本文采用近似动态规划[20]的方法逼近式(11)的值函数.

2.1 随机事件的计算

另外,式(11)中还需要对期望值E[V(Sk+1)|Sk,dk]求极值,不仅计算量巨大而且会带来较大的统计误差,为此本文采用决策后状态思想[21-22],将先求期望值后求极值问题转换为先求极值后求期望值问题,从而降低了计算量和误差.该思想在前后两个状态之间 (Sk和Sk+1) 引入了一个中间状态,即决策后状态该状态在决策发生后事件发生前出现,属于确定性状态,因此,原来式(8)的一步状态转移转换为两步,即

其中,ST,x为确定性函数,ST,x和ST,w组合后与式(8)的ST等价.设决策后状态的价值为

将式(12)代入式(11),优化方程修改为

下面进一步讨论式(13)决策后状态价值的计算,由于式(12)为迭代过程,可以有

式(13)代入式(14)右边,引入决策后状态价值的优化方程可表示为

2.2 基函数的设计

尽管式(15)通过引入决策后状态变量减小了随机事件带来的计算复杂性和统计误差,但是对于式(15)而言,复杂的状态空间导致的维度灾问题仍然存在.为此,本文通过构造基函数捕捉决策后状态的特征,再以基函数为基础来设计近似函数以便逼近式(15)表示的价值函数.这里基函数的设计尤为重要[23-24],关系到最后近似价值函数的求解质量.为此本文设计了6 种基函数,通过它们的非线性组合(参见第2.3 节的神经网络)来表示价值函数.设φf()表示基函数,f为基函数特征,f.

1)第1 种基函数直接表示保障分队状态,数量为|M′|,计算式为

2)第2 种基函数捕捉保障分队执行保障任务(服务-客户对)的期望服务时间,数量为|M′|.设Imr为指示函数,如果保障分队m当前执行的保障任务为r,则为1,否则为0,计算式为

3)第3 种基函数捕捉保障分队执行保障任务的优先级,数量为|M′|,计算式为

4)第4 种基函数捕捉当前在队列中等待处理的保障需求优先级,数量为|R′|,计算式为

5)第5 种基函数捕捉每一个需求在系统中的逗留时间,数量为|R′|,计算式为

6)第6 种基函数捕捉每一个保障分队与保障申请点的距离,数量为|M′|×|R′|,该基函数结合保障分队的状态可以知道哪一个保障分队有足够油料分派或重规划到某需求点,其计算式为

2.3 神经网络的设计

由于保障系统状态空间和决策空间较为复杂,常规线性基函数组合的效果将会因此受到较大影响.所以本文以基函数的输出结果作为神经网络输入,即利用神经网络对基函数进行非线性组合[25],从而达到逼近式(15)值函数的目的.

为了使学习后的神经网络能够近似表达值函数,本文设计了3 层神经网络结构: 输入层、隐藏层和输出层.如图1 所示,输入层包含|F| 个输入,它的值为基函数的输出,如图1 中ϕ1,1表示第1 类基函数的第1 个函数输出值,输入节点个数为6 类基函数的总个数,输入层没有激活单元.为了减小基函数评估值的波动,帮助神经网络反向传播算法能够快速找到权重矩阵,在输入到输入层之前,本文对基函数评估值进行了均值归一化.

图1 神经网络结构示例Fig.1 Illustration of neural network structure

隐藏层包括H{1,2,···,|H|}个神经元,其个数|H| 为超参数,所以隐藏层的输入表达式为

式中,Ih表示隐藏层中第h个神经元的输入,θf,h为|F|×|H| 的权重矩阵,控制输入层到隐藏层的映射关系,隐藏层神经元的激活函数为sigmoid 函数,表示为

因此,隐藏层的输出表达式为

其中,Oh为第h个神经元的输出,|H| 个隐藏层神经元输出与输出层权重组合生成输出层的输入,其表达式为

式中,θh为|H|×1 的权重矩阵,控制隐藏层到输出层的映射关系,输出层只有一个神经元,激活函数与隐藏层的相同,也为sigmoid 函数,其表达式为

式中,θ(θf,h,θh) 为神经网络中需要学习的权重参数.

2.4 神经网络权重学习算法的设计

本文设计了基于强化学习策略迭代[26]的神经网络学习算法,如图2 所示,算法分为2 层循环,第1 层循环(内层循环)为策略评估,利用给定策略(上一次循环更新的神经网络),在模拟产生的事件驱动下,生成动态演进的状态价值并作为样本点保存;第2 层循环(外层循环)为策略改进,利用内层循环保存的样本点改进神经网络的权重矩阵.

图2 策略迭代算法流程Fig.2 Workflow of policy iteration algorithm

策略迭代算法外循环每次进行策略改进时都需要调用神经网络反向传播算法对权重参数进行训练,为了防止出现过拟合和泛化误差,本文在神经网络代价函数中加入了惩罚项,即

其中,K个样本点中,在步骤2.4 中存储,为神经网络估算值;Vk在步骤2.7 中存储,为标签值;正则化参数η用于平衡模型复杂度和边际误差.本文采用了自适应预估方法来计算合适的η值,计算式为

式中,v为样本数据的均值,σv为样本数据的标准差.

需要计算得到θ*值,使得代价函数最小,即θ*argmin{L(θ)}.为了提高计算速度,本文采用拟牛顿法求解,拟牛顿法需要的梯度信息可以利用神经网络的反向传播算法计算得到.

为了平滑θ权重矩阵,本文采用式(20) 来更新θ:

其中,an1/nβ,β(0.3,1],an的下标值n与策略改进外循环次数n一致,通过an控制θ值,在历史值 (θ)与新估计值 (θ*) 之间取得平衡.随着策略改进迭代次数n的增加,本算法越来越偏重于过去n-1 次迭代得到的历史值.

在策略迭代算法的每一次外循环 (策略改进)中,都会按式(18)对神经网络的权重进行更新,如果n＜N,则算法开始下一轮循环.算法中可调节参数包括N、K、|H|、η和β,其中,N为策略改进的迭代次数,K为策略评估的迭代次数,|H| 为隐藏层节点的个数,η是样本估计的正则化项,β是步长参数.

2.5 调度算法的使用时机及步骤

建立的神经网络模型可以看作一个具有预测能力的调度机.其使用时机为: 当战场态势变化,例如出现新的保障申请,如第1.1 节描述的当前系统状态随之改变.使用步骤如下:

1)在第1.2.2 节描述的决策约束下,生成各种可能的决策动作;

2) 按第1.3 节状态转移矩阵,基于当前状态,采取步骤1)生成的各种可能的决策动作,形成下一步状态集合S;

3)将下一步状态集合中的每一个状态作为第2.2 节叙述的基函数输入,基函数的输出为第1 阶段的线性预测值,用于降低计算复杂性;

4)为了具有非线性预测能力,如图1 所示,基函数的输出作为神经网络模型的输入,此时神经网络的输出为下一步状态的价值V(S),该价值为第2.4 节Bellman 方程迭代计算的 “期望” 价值;

5)当状态集合S中的每一个状态都经过步骤3)和步骤4),计算出相应期望价值后(该过程可以并行执行),导致下一步状态价值最大的决策可看作当前最优决策.

3 实验验证

本节通过一个分布式战场保障场景来验证动态调度算法的适用性.由于MDP 求解算法超参数较多,通过实验设计测试了不同参数设置对动态算法的影响,并比较了动态算法与两个比对策略的性能差异.

3.1 实验参数设置

本文以图3 所示的一个典型的分布式作战行动为背景,当交战区域中我方部队发出保障申请后,使用上文提出的数学模型及逼近算法计算调度结果,即决定是否接受该申请,如果接受该申请,分派哪一支分队处理.出于安全考虑,删除了图3 的背景地图,图3 中有2 个保障基地和2 个前进基地,与保障基地相比,前进基地较小,当没有申请所需物资装备时,需要从保障基地补充.图3 中还包括54 个交战地点,即保障申请点,分属12 个区域,由其发出保障申请.

图3 实验案例Fig.3 Experiment case

本文使用泊松分布生成保障需求的产生概率,为了能够接近实战背景,泊松分布的到达率参数由式(21)生成,即

式中,λ为保障申请发生率;pz为条件概率,表示当发生保障申请时,该申请是从交战区域z发出的概率;pkz为条件概率,表示当出现保障申请且该申请从交战区域z发出时,该申请优先级为k的概率.实验中保障申请发生率λ设为1/45,即平均每隔45 min发出一个保障申请,请求保障分队执行任务.为了集中反映系统的调度能力,条件概率pkz中紧急保障和一般保障的比例为0.8和0.2.式(9)中紧急保障的优先级权重为0.9,一般保障的权重为0.1,式(10)中折扣因子γ在实验中设为0.99,该设置使得系统重视未来事件的影响.

为了检验动态算法的性能,实验设计了2 个比对策略.比对策略A 采用常规的最近分配原则,该策略认为当前没有执行任务的保障分队为可用资源,当出现保障申请时,分配离该申请点(交战区域)最近的可用分队执行此项保障任务,比对策略A 不具备抢占调度能力.比对策略B 将比对策略A 进行了扩展,当出现优先级更高的保障申请时,允许其抢占其他保障分队当前执行的低优先级任务.两个比对策略使用的都是最近分配原则,该原则实际上只考虑当前的立即奖励进行决策(与式(9)相似),没有用到预测的未来信息(式(10)).另外,由于立即奖励没有考虑重部署决策,所以这两个比对策略都不具备重部署能力.

3.2 超参数调整

本文采用了全因子实验设计来检验不同的超参数对算法性能的影响,主要超参数设置如下: 策略改进迭代次数N{1,2,···,40},策略评估迭代次数K{500,1 000,2 000,4 000},步长参数β{0.3,0.5,0.7,0.9},隐藏层节点数|H|7,正则化项η采用自适应预估方法计算.为了能够得到合理的置信度,每一个组合运行100 遍仿真,每次仿真时长为1 000 min 以上.仿真实验结果如表1 所示,其中,性能相对改进量计算式为

表1 仿真实验结果Table 1 Simulation results

其中,Vi为采用i算法计算得到的价值,Vj为采用j算法计算得到的价值,表1 中Impr1,A和Impr1,B分别为本文基于神经网络的动态算法相较于比对策略A和策略B 得到的性能相对改进量.

另外,为了考量神经网络模型的性能,设计了基函数的线性回归模型作为比较算法,Impr2,A和Impr2,B分别为线性回归模型相较于比对策略A和策略B 得到的性能相对改进量.表1 中仿真结果数据的置信度都为95%.

表1 中左边3 列为仿真实验中设置的算法参数组合,为了节省篇幅,其中N值只取 (K,β) 因子组合中算法性能最大的取值,其他4 列表示动态算法相较于两个比对策略的总奖励回报 (式(15)) 的提高率,取置信度为95%的置信区间.从表1 中可以看出,当λ1/45 时,无论哪一种参数组合,重规划动态调度算法生成的方案都要优于比对策略,特别是当N28,K2 000,β0.5 时 (表1 中粗体字所示) 效果最好.另外,近似函数为神经网络模型时,调度性能要明显超过基于线性回归模型的近似函数,这主要是因为调度算法中用基函数表示的影响因素相互交织,呈非线性关系,所以用神经网络拟合效果较好.

3.3 性能指标比较测试

图4 显示了策略评估迭代次数K2 000 时,无论步长参数β取何值,相较于比对策略A,动态调度算法的性能都为最佳值.当K在增加到2 000前,动态算法的性能逐渐提高;当大于2 000 后,性能开始下降;在4 000 次迭代时性能明显下降.主要原因是在K4 000 时,本仿真实验的样本数据集增加到一定阈值,导致神经网络模型过拟合,从而产生低效率的调度结果.另外,从表1和图4 都可以看出,β取较小值 (0.3 或0.5) 时,算法收敛速度较慢,能够增加算法的调度效果.

图4 相较于比对策略A 的性能改进Fig.4 Improvement compared to policy A

表2 的第1 列为调度策略;第2 列和第3 列分别为当N28,K2 000,β0.5 时,不同优先级的保障申请响应时间 (从发出申请至保障分队到达的时间间隔) 的置信区间 (置信度为95%);第4 列为调度方案V值提高百分比的置信区间.从表2 可以看出,具备抢占调度能力的策略B和动态调度算法都比不具备抢占能力的策略A 性能好,另外还有一个现象也需要引起注意,随着第4 列显示的性能提高,在紧急保障申请的响应时间减少的同时,一般保障申请的响应时间却在增加.估计这与抢占调度特性有关,它抢占低优先级保障任务转而去执行高优先级任务,导致低优先级任务服务时间延长.

表2 动态算法和比对策略的性能比较Table 2 Comparison of the algorithms and policies

为了进一步检验算法的鲁棒性,在模拟一天24 小时的保障仿真中,对保障申请发生率λ和交战区域位置进行了数次改变.从图5 中可以看出,响应时间也相应发生了较大波动,但是动态调度算法性能还是明显好于比对策略.

图5 响应时间变化情况Fig.5 Response delay with time

保障申请率的变化对调度系统也有较大影响,为此,设置保障申请发生率λ从1/25 减小到1/65,图6 反映了动态调度算法和比对策略B 相较于策略A 的性能相对改进量变化情况.λ减小意味着保障申请发生率减小,动态调度算法和策略B 的性能相对改进量也逐渐减小,表示抢占调度和重部署带来的性能优势也在减小,因此在低强度战场上动态调度算法性能优势不明显,在保障申请率较高的高强度战场上抢占调度和重部署能力才能取得较明显的效果.

图6 保障申请发生率的敏感性分析Fig.6 Sensitivity analysis of maintenance request occurrence rate

4 性能定性分析

最后通过4 个场景来定性分析重规划能力的优势.第1 个场景状态中,假设某作战部队申请后装保障,此时只有离它较远的保障分队空闲,离它较近的保障分队预测能在较短时间内完成正在执行的任务.由于比对策略A和B 缺乏预测能力,会把较远的空闲保障分队分派出去,而动态调度算法需要最大化基于长期回报的奖励函数,所以先把该次申请放入队列,等候较近的保障分队空闲后再分派.

在第2 个场景的系统状态中,某保障分队刚被分派执行某高烈度区域的一个低优先级保障任务,这时同样区域发出了一个高优先级保障申请,此状态下,除非指挥员发出新的分派指令,否则策略A将保持该保障分队的任务不变.很明显此时好的调度算法应该主动中断保障分队的当前任务,重新分派它执行高优先级的紧急任务,从而取得更高的回报价值.

考虑第3 个场景的系统状态,某保障分队刚被分派执行某高烈度区域的一个低优先级保障任务,这时另一个较远距离的低烈度区域发出高优先级保障申请,此状态下动态调度算法需要根据神经网络模型的预测结果权衡,如果 “重规划” 动作产生的状态价值较小,则不应该实施抢占.

考虑第4 个场景的系统状态,某保障分队快要完成当前任务准备返回基地,这时一个离它较远(超过剩余油料支持路程)的区域发出保障申请.该状态下,比对策略的调度方案是要求该保障分队返回原基地补充后再执行新任务.而具有重部署能力的动态调度算法会指示保障分队前往距离申请点近的地方补充油料,从而更快地执行新任务.

综上所述,与比对策略不同,动态调度算法的决策基础是通过基函数组合的神经网络模型,它能够捕捉当前事件和可预测的未来事件带来的影响,因此能够产生更优的调度结果.

5 结束语

本文主要研究了战时后装保障中重规划(抢占调度、重分配及重部署)问题,以便生成高质量的保障资源调度策略,提高后装保障智能化水平.针对重规划问题设计了一个无限时域马尔科夫决策过程模型,其目标是最大化保障调度系统的长期折扣奖励.为了解决重规划模型的维度灾问题,利用神经网络对基函数进行非线性组合,从而达到逼近值函数的目的,并提出了基于强化学习策略迭代的神经网络学习算法.最后设计了一个高强度分布作战仿真场景,检验了不同问题特征及算法参数对调度性能的影响,验证了动态调度算法的适用性.

本文中MDP 模型的描述是对保障调度适用的对象或场景的限制条件,对于超出该模型描述的保障调度,也具有一定的借鉴意义.另外,如果调度场景与对象变化较大,如作战规模过大,保障基地数量位置动态变化时,由于机器学习能力限制,逼近函数(本文采用基函数+神经网络)也需要相应调整.

下一步工作需要改进当前研究的一些不足之处,例如在高强度作战中,可能某次保障申请需要的资源较大,超过了一个保障分队或基地的能力,需要调度多个分队协同保障.协同保障方面已经有一些相关研究成果,正在考虑如何与之结合.另一个重要研究方向是进一步扩展保障分队的类型及相应特性,这样可以比较不同保障分队的调度性能.另外,错误定义的保障需求优先级会影响保障分队的调度,这也是下一步需要解决的难点.