APP下载

一种基于联邦学习资源需求预测的虚拟网络功能迁移算法

2022-10-29周鑫隆陈前斌

电子与信息学报 2022年10期
关键词:需求预测网络系统能耗

唐 伦 吴 婷 周鑫隆 陈前斌

(重庆邮电大学通信与信息工程学院 重庆 400065)

(重庆邮电大学移动通信重点实验室 重庆 400065)

1 引言

网络功能虚拟化技术(Network Function Virtualization, NFV)可将传统网络硬件资源转化为虚拟网络资源,并在通用服务器上实例化为虚拟网络功能(Virtual Network Function, VNF)处理网络业务,这实现了网络的灵活与高效运用[1]。在NFV中,网络服务请求由一系列按既定顺序排列的VNF处理,这样有序排列的VNF集合称为服务功能链(Service Function Chain, SFC)[2]。由于网络流量的动态变化,VNF的资源需求与底层物理资源的可用性不匹配导致网络性能下降,或使某些物理节点的资源利用率较低增加多余能耗开销,利用VNF迁移技术可以保证网络性能和降低网络系统能耗。

现有许多文献已经研究了VNF的迁移问题,文献[3]研究如何优化SFC重配置以响应不断变化的网络流量需求和资源限制,并基于实时的网络信息提出一种基于禁忌搜索的VNF迁移算法,然而文献[3]缺少对VNF资源需求预测使VNF迁移存在“滞后”的时延问题。文献[4]提出一种基于在线深度信念网络的VNF资源需求预测方法,其根据预测结果提前迁移资源使用过载物理节点上的VNF保证网络性能,文献[5]提出一种基于图神经网络的VNF资源需求预测算法,并基于预测结果优先制定一种基于深度Dyna-Q学习的迁移策略,但是文献[4,5]所提多任务集中预测方法不仅会增加数据集中节点的数据训练负担从而降低数据训练效率,也会由于上传数据至集中节点训练造成数据泄露,甚至可能由于集中节点的内存不足以满足大规模数据训练要求导致数据无法训练。

综上所述,本文针对VNF迁移“滞后”带来的时延问题,引入一种双向门控循环单元(Bidirectional Gated Recurrent Unit, Bi-GRU)进行VNF资源需求预测,为缓解现有集中式机器学习存在的数据训练负担问题,本文引入联邦学习(Federated Learning, FL)框架辅助Bi-GRU模型训练,并基于此提出一种联邦双向门控循环单元(FedBi-GRU)的VNF资源需求预测算法,使各个预测模型在各自物理节点上训练从而缓解集中式节点训练负担和避免数据泄露风险。基于预测结果,以最小化VNF迁移后系统能耗为目标制定VNF迁移策略,又考虑到最小化能耗极有可能使网络资源使用不均衡,使系统难以容忍未来动态流量变化造成频繁迁移的问题,本文又引入负载均衡使系统更加稳定。由于网络流量的动态变化导致VNF的迁移决策问题多维且复杂,考虑到深度强化学习在高维复杂的空间中获得较好的优化效果,本文引入一种分布式近端策略优化(Distributed Proximal Policy Optimization, DPPO)的深度强化学习算法为VNF迁移做决策。

2 系统模型

2.1 网络场景

2.2 网络模型

2.2.1 物理网络

2.2.2 SFC

2.2.3 网络能耗模型

本节研究如何优化VNF迁移后的系统能耗,系统能耗主要来自底层物理节点能耗,物理节点能耗包括其运行状态能耗和状态切换能耗。运行状态能耗主要为物理节点能够运行的基础能耗和负载能耗,物理节点的负载能耗与其上的CPU资源利用率成正比[6],状态切换能耗主要由物理节点开断电产生[7]。因此物理节点n的CPU资源利用率表示为

2.2.4 负载均衡模型

其中,ω1和ω2分别表示CPU和存储资源对网络系统负载均衡影响的权重因子,本文假设两种资源对网络系统的影响相同,设ω1=ω2=0.5。

2.3 优化目标

综上所述,本文的优化目标为最小化VNF迁移过后的网络系统能耗和资源方差,由于系统能耗数量级远远大于资源方差,故对联合优化目标进行归一化,具体表示为

3 基于FedBi-GRU的VNF资源需求预测算法

3.1 基于在线训练的Bi-GRU预测算法

本文首先利用Bi-GRU算法对VNF的资源需求进行预测以便制定后续迁移计划,Bi-GRU是一种双向的门控循环单元(Gated Recurrent Unit,GRU),其计算原理与GRU相同[13]。

3.2 联邦多任务训练过程

网络流量流经一条SFC,其上的VNF会存在丰富关联信息,而上述预测方法只针对单个VNF的资源需求预测,这忽略了SFC上VNF之间信息的关联性,致使资源预测模型泛化性不足。由此文献[4,5]针对此问题提出一种集中式多任务模型训练方法,然而这种集中式模型训练方式存在数据泄露风险、数据集中节点数据存在训练负担,甚至会由于集中节点的内存不足以支持大规模数据训练导致数据无法训练。

因此,本文针对上述问题,提出一种基于联邦学习的分布式VNF网络资源需求预测框架—FedBi-GRU,该框架使VNF在各自部署的物理节点上根据本地数据进行Bi-GRU预测模型训练,省去数据上传过程,只需上传模型训练参数,并在SDN控制器处对各个VNF模型参数进行聚合以保证SFC上各个VNF的丰富关联信息,训练过程如下所示:

4 基于DPPO的VNF迁移算法

根据上述FeBi-GRU算法得到VNF资源需求预测结果,计算底层物理节点资源利用率,根据资源使用阈值判定过载或轻载的物理节点并根据优化目标制定迁移计划。因此,本节提出一种基于DPPO的深度强化学习算法求解上述迁移优化目标。该算法首先将上述优化目标转化成马尔可夫决策过程(Markov Decision Process, MDP)模型,其次通过DPPO算法求解该MDP模型得到优化目标函数的近似最优解。

4.1 MDP模型

4.2 DPPO训练过程

本文结合了A3C的异步优势和近端策略优化(Proximal Policy Optimization, PPO)的收敛性能优势,提出一种基于DPPO的VNF迁移算法。DPPO算法利用A3C多智体训练的框架,拥有1个全局网络和多个智能体网络,全局网络和多智体网络拥有相同的PPO结构。各个智能体被放置在不同的线程中独立进行随机模型训练,并定期向全局PPO网络推送损失函数的梯度,全局PPO网络将所收集梯度用来更新全局参数,智能体可从全局网络下载参数。DPPO采用了PPO新旧动作策略限制更新幅度的方式,因此DPPO需要考虑新旧动作策略的放置,本文将新生成的动作策略放入全局PPO网络中,而智能体的本地PPO网络则采用旧的动作策略与环境进行交互更新网络参数,详细过程如下所述:

基于DPPO的VNF迁移算法如表1所示。

表1 基于DDPO的VNF迁移算法

5 仿真与性能分析

5.1 仿真参数设置

本文针对VNF资源需求预测和迁移方案进行了实验仿真,有关网络的仿真参数如表2所示。

表2 仿真参数

5.2 VNF资源需求预测

本文将所提FedBi-GRU算法与多任务Bi-GRU、单任务Bi-GRU预测算法进行了性能比较,这3种算法都在真实数据集archive[17–19]上进行评估。本文以预测一条SFC上4个VNF的CPU资源需求为例,4个VNF分别使用10000条CPU数据,训练集与测试集按7:3进行。Bi-GRU网络选用隐藏层数为2,隐藏单元为20,时间步长为5,学习率为0.005的结构。多任务Bi-GRU在两层Bi-GRU的基础上添加回归层sigmoid[4,5]进行集中式训练,3种算法最大迭代次数为300。本文使用均方根误差(Root Mean Square Error, RMSE)衡量3种算法的预测性能,RMSE公式为

本文截取SFC上的一个VNF的30个CPU资源预测数据进行3种算法的对比,如图2和图3所示,不难看出FedBi-GRU与多任务Bi-GRU对VNF的CPU资源需求预测效果相差不大,而单任务Bi-GRU的预测效果最差。这是因为多任务Bi-GRU和FedBi-GRU使多个相关训练任务共享VNF之间的丰富关联信息,在提高预测精度的同时也提升了Bi-GRU模型的泛化性。但是FedBi-GRU作为一种分布式机器学习方法,不仅减轻了数据集中节点的训练负担也提高了数据训练效率,同时避免了内存短缺问题,因此FedBi-GRU算法在VNF的资源需求预测上具有可行性。

5.3 VNF迁移算法

基于DPPO的VNF迁移算法,线程设置为4,Kmax=M=500,本地PPO网络学习步长为50,折扣因子γv=0.99, Actor和Critic学习率都取0.001。

从图4、图5可以看出当CPU资源使用阈值上限为0.5,下限为0.1时,网络系统的能耗最低和网络资源方差最小,这是因为随着CPU资源使用阈值的下降,物理节点迸发的VNF迁移数量也越多,DPPO迁移算法能有效利用网络系统中物理节点的CPU资源,使整个网络系统的能耗和网络资源方差越小,网络系统的负载均衡能力越好。

本文将所提DPPO算法与文献[4]所提基于禁忌搜索的VNF迁移算法(TDMA)和A3C算法做了对比,图6和图7展示了不同算法在CPU资源使用阈值上下限为0.5,0.1时的对比,由此可知本文所提DPPO迁移算法在网络系统能耗和负载均衡方面取得了更好的效果。TDMA迁移算法在能耗和负载均衡方面效果较差,这是因为TDMA算法为一种启发式算法,随着SFC数量的增加,VNF映射的解搜索空间变得大而复杂,导致TDMA算法极易陷入局部最优解,使得更多迁移中的VNF映射到其邻域物理节点,使整个网络系统的资源利用不均衡,所以其能耗和网络资源方差相对其他算法来说较大。A3C与DPPO算法利用多个智能体全面探索网络环境,能寻找更丰富多样的VNF映射解空间,因此随着SFC数量增多,VNF数量映射动作增多时,能够更加有效利用网络资源,使得物理节点资源使用更加均衡,更加节省网络系统的能耗,所以两种算法的性能优于单智能体的PPO算法。DPPO算法的基础框架采用了PPO架构,A3C算法采用的是演员-评论家(Actor-Critic, AC)学习架构,PPO作为改进的AC算法,其利用新旧动作策略限制了VNF映射策略的幅度,使得VNF重映射更加稳定,所以提高了DPPO算法在VNF重映射的性能。

6 结束语

本文研究了网络切片环境下的VNF迁移问题,首先针对VNF迁移“滞后”性问题,本文提出一种基于分布式联邦学习的双向门控循环单元预测VNF的资源需求问题,并基于预测结果提出了一种分布式近端策略优化算法提前制定VNF迁移计划以保证网络服务的连续性。仿真结果表明,本文所提分布式资源预测机制有较高的预测精度。另外,本文所提分布式近端策略优化算法在降低网络系统能耗和保证负载均衡方面也起到了较好的作用。

猜你喜欢

需求预测网络系统能耗
120t转炉降低工序能耗生产实践
能耗双控下,涨价潮再度来袭!
探讨如何设计零能耗住宅
浅谈需求预测在企业中的应用
网络建设中存在的问题及对策研究
基于BP神经网络的济南市物流需求预测
基于灰色模型对上海市电力需求预测分析研究
一类变时滞模糊神经网络系统解的渐近概周期性
日本先进的“零能耗住宅”
汽车网络系统故障诊断与检修技术的问题与对策探讨