基于动态网络的自适应策略推理框架

2022-12-06张红杰

小型微型计算机系统 2022年12期

张红杰，曲成，李京

(中国科学技术大学计算机科学与技术学院，合肥 230026)

1 引言

深度强化学习(Deep reinforcement learning，DRL)使用深度神经网络表示智能体的策略函数，使其在许多复杂决策任务中表现优异，比如视频游戏[1]、自动驾驶[2]、金融投资[3]、路径规划[4]、资源分配[5]等.在强化学习任务中有两个关键组件：环境和智能体.智能体根据关键当前环境状态选择动作，环境执行该动作并转移到下一个状态，同时返回即时奖励.强化学习的目标是学习状态-动作映射函数，从而最大化完成任务时的累计奖励.因此完成任务的时间为环境状态转移时间与智能体推理时间之和[6].然而，为解决复杂的决策任务，智能体使用更大的神经网络，这将导致任务完成时间被显著延长.比如在视频游戏中智能体的低效推理，将会严重影响游戏帧率.因此如何在保证策略质量的前提下尽量降低推理代价变得至关重要.

神经网络推理时间正比于其浮点数计算量(floating point operations，FLOPs).不同计算设备的每秒钟浮点数运算次数(floating-point operations per second，FLOPS)不同，导致神经网络推理时间不同.为排除计算设备的影响，研究人员更关注浮点数计算量的减少程度.为降低神经网络的FLOPs，研究人员提出很多压缩和加速技术.这些技术可以分为两大类：一类是通过改变神经网络结构达到压缩和加速，比如神经网络剪枝[7-9]和参数量化技术[10-13].另一类是样本感知的动态神经网络[14-17]，根据样本的识别难度采用不同执行流程(不同的计算代价)，从而降低平均推理代价.动态神经网络与神经网络压缩技术是相互兼容的，两种技术理论上可以同时使用.本文从动态神经网络出发，旨在降低智能体在强化学习任务中的决策推理代价.

目前动态神经网络技术主要应用于图像处理(分类、图像分割等)，他们根据输入图像的内容和纹理细节区分样本识别难度.比如，在图1(a)中左边的图像由于复杂的纹理和特征使其分类难度远大于右边的图像，动态神经网络会赋予更多的计算代价(更大的神经网络)给左边的图像[14].然而现有的动态方法不能简单的应用于强化学习任务中，这里主要存在3个挑战.1)通过图像纹理和特征很难区分状态的难易程度.比如图1(b)中玩乒乓球的两个状态从内容上来看非常相似，但是对于智能体，左边的状态更难决策，因为“球”已经靠近智能体，此时需要考虑到未来的变化和奖励选择最优的动作击回“乒乓球”.相反图1(b)中右边的状态是简单的，因为“球”离开智能体靠近“对手”，此时智能体做任何动作都不会影响未来奖励；2)强化学习中没有分类标签以及置信度，而这些都是现有动态网络所必须的；3)当选择不同执行流程时需要考虑对未来状态的影响，毕竟强化学习是连续决策问题，累计奖励才是最终目标.因此，将动态神经网络应用于强化学习任务必须同时考虑任务目标和输入内容.

图1 图像分类与乒乓球任务的图像难易程度对比

为解决上述挑战，本文创新性的提出自适应策略推理框架(Adaptive Policy Inference，AdaPI)，使用动态网络降低策略推理代价.AdaPI类似于层次化DRL框架包含两层策略，即下层的子策略和上层的元策略.子策略网络有多个并具有不同大小，专门应对难易程度不同的状态.这些子策略通过预训练的“教师”策略网络压缩[18]而来.为保证最终策略质量，元策略将根据当前状态的难易程度选择合适的子策略.特别的，AdaPI使用策略梯度技术训练元策略，在保证策略质量的约束下最小化策略推理代价.为进一步减少元策略本身的推理代价，AdaPI共享了元策略和子策略的特征层(比如，卷积层).但是元策略必须在子策略运行前做出预测并决定选择哪个子策略网络应对当前状态.为解决该挑战，本文提出一种扩展的马尔可夫决策过程(extended Markov Decision Process，eMDPs)，使得元策略基于上一步的子策略、状态和动作预测当前状态下的子策略选择.

本文的主要贡献总结如下：

1)本文设计一种层次化的动态策略网络，以保证策略质量的前提下降低策略网络的推理代价.据目前所知，本文是首次将动态神经网络引入到强化学习任务中，并实现策略推理加速的工作.

2)为训练动态策略网络，本文提出通用训练框架AdaPI(1)https://www.dropbox.com/sh/2b7otd6zc4glss6/AAC5GrecF9sYA_cxOUR2N4Wza?d l=0，该框架能兼容现有神经网络压缩技术以及强化学习训练算法.

3)针对上层的元策略训练，本文提出eMDPs并推导出策略梯度，显著降低元策略的推理代价.

4)为评估AdaPI的性能，本文在gym平台提供的atari任务中进行实验，表明AdaPI在保证策略质量的前提下浮点数计算量少3.4倍.

2 相关研究

2.1 神经网络压缩

模型剪枝：DeepCompress通过删除小于阈值的参数达到减少网络大小的目的[7]，相似的想法层出不穷[8，9，19].进一步的，研究人员提出多种删除冗余神经元技术，减少网络大小的同时加速预测.比如，Srinivas等人提出免数据的剪枝算法，删除神经网络中相似神经元[20].类似的技术也相应被提出[21，22].

参数量化：分为全局参数量化和局部参数量化.全局量化使用单一的数值精度替代原始的浮点数，有效降低网络存储需求并加速数值计算[12，13].部分量化针对神经网络的不同层，采用不同的数值精度[23].Lin等人提出逐层量化，在最小化重构误差约束下，寻找每层最优数值精度[11].

知识蒸馏：受教师-学生模式的启发，研究者们尝试将神经网络学习的知识从大模型迁移到小模型，从而达到神经网络压缩和加速的目的.Hinton等人提出知识蒸馏(knowledge distillation，KD)通过Kullback-Leibler散度(KL divergence)学习大模型的知识[24].在深度强化学习中，策略蒸馏也采用KL散度将策略从大模型迁移到小模型[18，25，26].

2.2 动态神经网络

动态神经网络根据输入样本的不同选择不同的执行流程，以此降低平均预测代价.Shu等人设计了图像感知的框架，能根据输入图像的难度选择最高效的子模型进行预测[27].Huang等人提出多尺度密集网络(Multi-Scale Dense Networks， MSDNet)，采用多分枝网络模型，在保持与DenseNet相同的准确率下少2～5倍的FLOPs[14].MSDNet包含多个分支多个分类器，简单的图像会在底层的分支直接预测输出，减少预测代价.之后，Huang等人提出改进算法“采样和插值”，根据图像内容的冗余性进行采样，降低输入维度，从而减少计算量[15].最近，Huang等人设计了新框架Glance and Focus网络(GFNet)，自适应的寻找图像中的关键区域并针对关键区域进行预测，以此降低神经网络的计算量[16].进一步的，Cheng等人将神经架构搜索(Neural Architecture Search，NAS)技术用于动态神经网络的结构搜索，减少约48.8%的预测延迟[17].然而，在深度强化学习任务中，输入图像的内容简单且相似，很难将现有动态网络直接应用.为了降低强化学习任务的策略推理代价，本文设计了一种新颖的动态策略网络AdaPI.

3 基本概念定义

3.1 马尔可夫决策过程

马尔可夫决策过程(Markov Decision Process，MDP)基本元素可由4元组表示，即(S，A，R，P).其中S表示状态空间，A表示动作空间.R表示奖励函数，定义为R:S×A→R.P表示状态转移函数，定义为P:S×A→S.此外还需要初始状态分布ρ0以及确保收敛性的折扣因子，γ∈[0，1].深度强化学习的目标是寻找最优“状态-动作”映射函数，π:S→R最大化智能体与环境整个交互过程中的累计奖励.该交互过程可以形式化的表示为一条轨迹τ=(s0，α0，γ0，s1，α1，γ1，…)，而产生这条轨迹的概率表示为p(τ).其中at～π(·|st)，rt=R(st，at)以及st+1～P(·|st，at).优化目标的定义如式(1)所示:

(1)

通常使用状态价值函数表示当前状态st下的策略质量，如式(2)所示:

(2)

3.2 策略梯度

策略梯度(Policy Gradient，PG)给出参数化策略函数πθ的参数更新方向，使其最大化优化目标式(1).其中θ为可训练参数，比如神经网络权值.智能体沿着策略梯度方向更新θ直到最优或局部最优解.优化目标(1)中的参数θ隐藏在轨迹概率p(τ)中，如式(3)所示:

(3)

通过蒙特卡洛采样(Monte Carlo sampling，MC)技术可以评估策略梯度，如式(4)所示.这样的策略梯度是真实梯度的无偏估计，但其高方差问题导致训练极不稳定.

(4)

为降低策略梯度方差，优势演员-评论家算法(Advantage Actor Critic，A2C)将累计奖励替换为优势函数，如式(5)所示.其中价值函数Vπ(st)通过最小化与目标价值函数rt+γVπ(st+1)之间的均方误差(Mean Square Error，MSE)训练得到.

▽θJ(πθ)=Eτ～p(τ)[∑t≥0▽θlogπθ(at|st)Aπ(st，at)]

whereAπ(st，at)=rt+γVπ(st+1)-Vπ(st)

(5)

近端策略优化(Proximal Policy Optimization，PPO)采用重要性采样技术(Importance Sampling，IS)提高样本利用率，是目前多种任务中的最优强化学习算法.PPO的形式化定义如式(6)所示，其中KL为Kullback-Leibler散度.

s.t.KL(πθ(at|st)‖πθold(at|st))<δ

(6)

4 基于动态网络的自适应策略推理框架

4.1 框架总览

图2展示了AdaPI的整个框架结构及其组件.AdaPI包含两个主要模块：1)下层子策略网络(Policyi)构成的策略池(Policy Pool)，如前所述，这些子策略网络均是通过“教师”策略网络压缩而来;2)上层元策略，根据环境当前状态选择合适的子策略与环境进行交互.直觉上使用一个独立的元策略网络根据当前状态选择子策略即可，然而元策略网络的推理代价变得不可忽视.本文设计并实验了多种元策略网络模型，包括经典的卷积神经网络(convolutional neural network，CNN)、CNN+注意力机制以及二值化CNN.在保证AdaPI策略质量的前提下，这些动态网络的推理代价比AdaPI大约多31%，本文实验中有相关分析.

图2 AdaPI框架总览

为减少元策略推理代价，本文共享元策略与子策略的特征提取层(CNN卷积层)，如图3所示.由于子策略网络相互分离并具有不同结构，因此需要多个元策略网络(与子策略网络一一对应).当前状态使用哪个子策略网络取决于上一个状态使用的子策略网络，即当前状态的元策略动作kt～π(·|et-1，at-1，kt-1)，其中et-1表示上一时间步子策略的特征层输出(如图3所示).本文中，et和st均可以作为元策略网络的输入，因为其特征提取层共享.最终形成如图2所示的多元策略控制器(Meta Controller).

图3 元策略结构

4.2 问题形式化

AdaPI动态策略网络的目标是保持与“教师”网络相似的策略质量前提下，最小化推理代价(最大化负推理代价)，形式化定义如式(7)-式(8)所示.其中Cmetat和Ct表示t时间步元策略和子策略的推理代价.为便于推导，本文将推理代价均表示为负数，值越大代价越小.Vdyna代表动态策略网络πθ的状态价值函数，V0代表“教师”策略网络π0的状态价值函数.πφ和πϑ分别代表元策略和子策略(其中θ=(φ，ϑ)).本文将子策略网络大小进行排序，随着索引k增加网络逐渐减小，n表示子策略数量.特别的，k=0表示选择“教师”策略.

(7)

(8)

(9)

(10)

进一步的，为简化该优化问题，本文将其拆分成两个迭代优化问题，即策略优化和乘子优化.如式(11)所示:

(11)

4.3 扩展马尔可夫决策过程eMDPs

动态策略网络πθ的策略优化需要扩展MDP，一方面，引入多个子策略以及元策略，这类似于层次化DRL的定义.另一方面，元策略需要考虑前一步的状态及动作.层次化的MDP如图4所示，不同于基础MDP，动作at是状态st和子策略kt共同决定的.因此扩展马尔可夫决策过程下的交互轨迹τ～(s0，k0，a0，r0，s1，k1，a1，r1，…).

图4 扩展马尔可夫决策过程的概率图模型

下层子策略和上层元策略的MDP定义在图4的基础上.对于下层子策略来说，当前状态具体选择某个子策略是由上层元策略确定，不属于子策略考虑范围.相应的，上层元策略只根据状态选择合适的子策略，具体采用某个动作与环境交互是由子策略确定.综上，本文将子策略与元策略的MDPs分开定义并推导出相应的策略梯度.

4.3.1 子策略eMDPs

图5 子策略的扩展马尔可夫决策过程概率图模型

ML(Lt+1|Lt，at)=P((st+1，kt+1)|(st，kt)，at)

=P(kt+1|st，kt，at)P(st+1|st，at)

(12)

4.3.2 元策略eMDPs

元策略eMDPs的概率图模型如图6所示，其4元组定义为(H，K，RH，MH).其中Ht=(st-1，kt-1，at-1，st)表示状态，由于元策略基于前一步状态及动作预测当前状态的子策略kt，状态必须包含前一步信息.K表示动作空间，即子策略索引.RH(Ht，kt)表示元策略的奖励函数，如式(13)所示，即式(11)中策略优化目标.MH(Ht+1|Ht，kt)表示状态转移函数，如式(14)所示.ρ0(H0)表示初始状态分布.折扣因子γ∈[0，1]保持不变.元策略函数为πφ(·|st-1，at-1，kt-1).

图6 元策略的扩展马尔可夫决策过程概率图模型

RH(Ht，kt)=R((st-1，kt-1，at-1，st)，kt)

(13)

MH(Ht+1|Ht，kt)

=P((st，kt，at，st+1)|(st-1，kt-1，at-1，st)，kt)

=P(at|st，kt)P(st+1|st，at)

(14)

4.4 基于eMDPs的策略梯度

基于上下层eMDPs，本节推导出动态策略网络的策略梯度.两层策略网络采用同一条交互轨迹数据，并迭代训练.动态策略交互轨迹τ的概率分布p(τ)定义为式(15):

(15)

4.4.1 子策略梯度

根据强化学习的优化目标J(π)，其策略梯度由式(16)表示，上层元策略参数φ保持不变.

(16)

Eτ～p(τ)[∑t≥0[▽ϑlogπϑ(at|st，kt)]AL(Lt，At)]

(17)

VL(Lt)=Eat～πϑ；Lt+1～ML[RL(Lt，At)+γVL(Lt+1)]

(18)

为提升子策略训练速度，AdaPI在策略梯度基础上添加辅助优化目标.具体的，本文采用策略蒸馏技术让子策略模仿“教师”策略，改进后的损失函数如式(19)所示.其中，LossA2C表示A2C损失函数，即式(17)定义的策略梯度.α0和α1控制“教师”策略的影响程度.

Loss(ϑ)=LossA2C+α0KL(π0‖πϑ)+α1MSE(V0，VL)

(19)

4.4.2 元策略梯度

元策略梯度不受子策略参数ϑ影响，如式(19)所示.

(20)

其中子策略参数φ是唯一优化项，因此▽φlogp(τ)=▽φ∑t≥0logπφ(kt|st-1，at-1，kt-1).同样的，为降低策略梯度方差，使用优势函数替换累计奖励.元策略梯度以及价值函数VH(Ht)的定义如式(21)～式(22)所示.特别的，VH(Ht)与VL(Lt)之间存在对应关系，因此，只需训练VL(Lt)即可.

(21)

VH(Ht)=VH(st-1，at-1，kt-1，st)=∑ktπφ(kt|st-1，at-1，kt-1)V(st，kt)

=∑ktπφ(kt|st-1，at-1，kt-1)VL(Lt)

(22)

为提高动态策略网络的样本利用率，本文采用近端策略优化算法PPO替换上述策略，具体定义如式(6)所示.

4.5 乘子优化

问题形式化中，AdaPI迭代优化两个目标，一是策略优化，二是乘子优化.策略优化通过策略梯度进行参数更新，从而最大化累计奖励J(π).而乘子优化则是寻找最优的因子α，保证约束满足.公式(11)直观上解释是，当约束条件满足时，即Vdyna-V0+V0ε>0，需要减小α，使其更关注推理代价Ct.相反，当约束条件违背时，即Vdyna-V0+V0ε<0，需增大α，使其更关注环境的奖励Rt.然而，强化学习的不稳定性导致约束条件不稳定，α更新频繁，又进一步导致奖励函数频繁变化，策略学习更加不稳定.为解决该问题，AdaPI中乘子优化的频率远低于策略优化，同时，将α的取值限制在(10，100，1000，10000)4个离散值中，简化α的优化.

4.6 算法设计

如前所述，给定最优的“教师”策略网络π0，AdaPI训练动态策略网络，在保持策略质量的情况下，最小化策略推理代价.为提升训练速度，本文基于并行训练框架PAAC实现AdaPI.伪代码如算法1所示，PAAC采用多进程并行运行多个独立的环境从而产生成倍的样本，加速训练.特别的，AdaPI采用n-step技术平衡价值函数评估的方差和偏差，即与环境连续交互n步，计算累计奖励.

算法1.AdaPI训练伪代码

输入：子策略网络πϑ和VL，元策略网络πφ和VH，“教师”策略网络π0及价值函数V0，动态策略价值函数Vdyna，子策略k的推理代价Ck，元策略k的推理代价Cmetak，批大小bs，超参α0和α1，学习率η，更新次数N，最大迭代次数M，最大step次数tmax，约束参数ε

输出：子策略网络πϑ，元策略网络πφ

1. 初始化并行环境VecEnv，初始状态(s0，k0)

2. for i=1 to M

//全局迭代直到动态策略收敛

3. for t=0 totmax

//采样轨迹τ，采用n-step方式连续交互n次

4. 基于元策略πφ(·|st-1，at-1，kt-1)选择子策略kt

5. 基于子策略πϑ(·|st，kt)选择动作at

6.VecEnv执行at，返回st+1，rt

7. end for

8. 根据轨迹τ计算子策略的累计奖励

11. 根据轨迹τ计算元策略的累计奖励

14. 根据轨迹τ计算子策略的累计奖励

16. for t=1 to N

//策略梯度更新，基于PPO迭代更新πϑ和πφ

17. 从轨迹τ中采样批量数据(s，k，a，r，s′)

18. 评估“教师”策略π0(s)及价值函数V0(s)

19. 根据公式(18)～公式(19)优化子策略πϑ及价值函数VL

20. 根据公式(21)～公式(22)优化元策略πφ及价值函数VH

21. end for

22. 根据Rt拟合Vdyna

23. 计算约束条件Vdyna-V0+V0ε，调整乘子α

24.endfor

5 实验与结果分析

为验证动态策略网络的实际效果，本文基于gym平台提供的多项atari任务分析AdaPI的推理代价以及策略质量.具体而言，本节主要验证4个关键问题：

1)动态策略网络能否在保持策略质量前提下显著降低推理代价？

2)动态策略网络中元策略对策略质量的影响？

3)平衡策略质量与推理代价的参数的影响？

4)对状态难易程度的判断是否符合预期？

5.1 实验设置

1)任务设置：本文使用atari 2600中的11个视频游戏任务，并基于学习环境Arcade Learning Environment(ALE)[28]提供的接口与游戏进行交互.对视频游戏的图像进行裁剪并灰度化，使输入策略网络的状态为4×84×84(连续帧数×宽度×高度)的灰度值矩阵.所有任务奖励裁剪为[-1，1].

2)训练设置：神经网络及优化算法使用PyTorch 1.1.0版本实现.物理环境配置48核Intel(R) Xeon(R) Gold 5118 CPU @ 2.30GHz处理器，搭配4块GeForce GTX-1080 Ti 12 GB GPU.训练超参数的设置与PAAC一致，特别的，公式(19)中策略蒸馏参数α0=0.05、α1=0.05.策略质量约束参数ε=0.05.拉格朗日乘子α∈[10，100，1000，10000].子策略与元策略推理代价Cmetak和Ck的设置如表1所示.测试阶段，使用10个随机种子运行10次任务并计算平均推理代价及策略质量.

表1 各策略网络推理代价

表2 各策略网络结构及FLOPs

5.2 推理代价分析

表3 AdaPI平均FLOPs及推理时间

5.3 策略质量对比

表4展示各策略网络在11个任务上的策略质量对比.从表可知，AdaPI相较于“教师”策略平均得分上有微小的下降大约2.9%，这是由于实验设置中约束条件为ε=0.05，使得约束因子α≈100导致的.在问题形式化章节中，描述了针对不同计算场景和目标任务设置ε的重要意义.同时，本节也实验了α对策略质量和推理代价的影响.表中压缩后的子策略π1虽然推理代价低，但策略质量严重受损，大约21.4%的得分下降，导致在现实任务中很难应用.特别的，AdaPI在“alien”任务上得分下降约11%，原因是子策略π1得分太低，过多的选择π1对得分影响严重.相反，“hero”任务上，AdaPI的得分下降约0.07%，这得益于子策略π1的高分.同时，子策略π1的高分意味着该任务大部分状态都是容易决策的，元策略有较大的概率选择子策略π1，从而显著降低其推理代价.比如，“pong”任务上，子策略π1相较于“教师”策略得分下降6.6%，元策略有98%的概率会选择π1，使得AdaPI的FLOPs少约131×，并且保持了策略质量.

表4 各策略网络质量对比

表5展示约束因子α对平衡策略质量和推理代价的影响.理论上，随着α增加，AdaPI更偏向于环境的奖励，因此具有更高的得分.相反，随着α降低，AdaPI更偏向于减少推理代价，因此具有更少的FLOPs.在“breakout”和“space_invaders”两个任务上的实验结果验证了其效果.同时，本文发现，当α取值非常大时，AdaPI并不是完全选择“教师”策略网络π0，而是有一定的概率选择子策略π1.该结论说明在一部分状态下，选择任意子策略网络都具有相同的状态-动作价值.

表5 约束因子α的影响

5.4 消融实验

为验证AdaPI中采用多元策略的优势，本节固定训练好的子策略π0和π1，并使用了两种不同的元策略模型.首先，使用随机元策略πrandom对子策略进行选择，即每个状态下以50%的概率随机选择子策略与环境交互.然后是使用独立的CNN作为元策略网络πsep.不同于AdaPI共享子策略的卷积层，πsep根据当前状态直接预测子策略选择，即kt～πsep(·|st).πsep采用的网络结构如表2所示，其训练方式类似于AdaPI，将状态空间Ht替换为st即可.表6展示了消融实验的对比结果.随机元策略πrandom使得策略质量下降约14%.同时，πrandom按照50%的概率选择子策略使得FLOPs少约1.89×，推理时间约为1.425ms.相应的，独立元策略πsep使得策略质量下降约8.8%.虽然πsep选择子策略的概率近似于AdaPI，但是其高昂的πsep推理代价使得FLOPs为2979519，比AdaPI多31%.同时，πsep的推理时间约1.94ms，比AdaPI多61.7%.πmsdnet在策略质量下降6%，但子策略π0选择概率约50%显著大于AdaPI，平均FLOPs约5930720.此外，不同于通用框架AdaPI，πmsdnet网络结构固定，通用性更差，无法兼容其他神经网络压缩算法.综上所述，AdaPI无论在策略质量还是推理代价上均优于3种对比元策略.

5.5 案例可视化分析

图7展示AdaPI在“breakout”任务中的执行可视化，以此说明元策略对状态难易程度的判定以及子策略的差异性.图7显示了难易程度不同的状态(左列)、元策略动作分布(中列)和子策略动作分布(右列).基于可视化分析，状态难易的定义可以从两个角度阐述.从子策略网络输出角度，如果子策略π0和π1对当前状态输出的动作概率分布相似，说明子策略π1就能处理该状态，即简单状态(如图7(a)所示).相反，子策略π0和π1的输出完全不同，说明子策略π1不知道如何应对该状态，即困难状态，需要切换为π0(如图7(b)所示).从状态-动作价值角度，图7(a)显示“球”正在靠近“砖墙”，此时智能体采用任何动作对未来状态价值都没有影响，即简单状态.相反，图7(b)显示“球”正在靠近智能体控制的“球拍”，显然，以最优动作将“球”击回能最大化未来状态价值，即困难状态.综上所述，AdaPI的元策略能较为准确的识别出任务中的简单和困难状态，并选择合适的子策略网络与环境交互.

图7 AdaPI在“breakout”上的可视化

6 总结

本文提出了一种创新性的自适应策略推理框架AdaPI，首次将动态神经网络技术引入到深度强化学习领域并显著降低策略推理代价.具体而言，AdaPI根据环境当前状态的难易程度自适应的选择最佳子策略，保证策略质量的前提下最小化其推理代价.同时，AdaPI采用的层次化模式具有一定的通用性，下层子策略生成方式兼容现有成熟的神经网络压缩技术，上层元策略训练方式兼容现有深度强化学习训练算法.实际应用中通过控制策略质量的约束条件，最小化推理代价，使其快速应对不同的计算场景和任务.未来工作中，需要将子策略的网络设计自动化，比如采用神经架构搜索技术NAS，生成最适应当前任务的子策略池.同时，AdaPI的移动端推理平台正在构建，动态策略网络在计算能力受限的设备上高效执行存在网络切换、缓存、环境与智能体的资源分配等问题，将会作为未来工作进行研究和实现.