车联网中时延感知的计算卸载和资源分配策略

2023-07-01宋琦琳

西安邮电大学学报 2023年1期

江帆,李妍,宋琦琳

(1.西安邮电大学通信与信息工程学院,陕西西安 710121;2.西安邮电大学陕西省信息通信网络及安全重点实验室,陕西西安 710121)

车联网(Internet of Vehicles,IoV)和自动驾驶是5G移动通信的代表性应用场景之一[1]。为了支持丰富的车辆服务应用,车载设备需要处理各种计算密集型任务。但是,车辆有限的任务处理能力和存储空间难以应对愈发密集的计算任务需求[2]。为了改善上述问题,现有研究提出将基于移动边缘计算(Mobile Edge Computing,MEC)的协作通信技术引入到IoV中,从而将计算任务卸载到网络边缘的服务器上,满足车辆在运行过程中执行密集计算任务的要求[3-4]。

随着无线通信技术的发展,车辆用户以及处理任务的数量持续增加,对充分利用有限的频谱资源提出了更高要求。为了应对频谱资源匮乏的现状,非正交多址接入(Non-Orthogonal Multiple Access,NOMA)技术和MEC技术的结合引起了较高的关注[5]。文献[6]提出了一个混合型NOMA的卸载策略,有效降低了多用户卸载的时延和能耗,但没有考虑到MEC服务器有限的计算资源会影响卸载任务的执行时间。文献[7]提出的优化策略考虑了任务卸载、计算资源分配等联合优化问题,但忽略了周围空闲的车辆资源。

一些研究引入了车到车(Vehicle-to-Vehicle,V2V)通信技术[8],通过将车辆用户设备(Vehicle User Equipment,VUE)的一些计算任务卸载给邻近负载较轻的VUE完成,在充分利用周围闲置车辆资源的同时也减轻了MEC服务器的计算压力。但是,采用V2V技术也出现了一些新的问题,如文献[9-10]中涉及资源分配问题和频谱复用引起的干扰问题。因此,在融合多种通信技术的车联网中,研究合理高效的资源分配策略以支持车辆用户的动态需求尤为重要。另外,由于无线通信环境的复杂多变,传统优化策略复杂的计算步骤使得求解上述问题的效率较低,而机器学习算法相较于传统方法能更高效地找到上述问题的最优解,例如文献[6]中就使用了深度Q网络(Deep Q-Network,DQN)算法为用户选择最优卸载策略,但DQN算法存在的过估计问题一定程度上影响了算法效率。文献[11]中采用的深度竞争双Q网络算法(Dueling Double Deep Q-Network,D3QN)则可以减少DQN算法的过估计误差,有效地提高了DQN算法的学习效率。

为了改善IoV卸载场景下的多维资源分配问题,拟提出一种时延感知的计算卸载及资源分配策略。首先,根据最大时延限制的要求,判断一个计算任务是否需要卸载,然后通过支持向量机(Support Vector Machine,SVM)将需要卸载的计算任务按照时延和能耗的不同要求选择MEC处理模式和V2V处理模式,并将网络总成本构造为时延和能耗的加权和。最后,利用深度强化学习方法中的D3QN算法在不同的任务处理模式下分配计算或无线资源,最小化卸载过程中的总成本。为了验证所提策略的性能,将其与同一系统模型下的基于DQN算法的资源分配策略、基于正交多址接入的资源分配策略和随机资源分配策略等3种策略进行了对比。

1 系统模型及问题描述

1.1 系统模型

图1 系统模型

假定每个VUE都有一个密集的计算任务要处理,表示为{Ti,Ci},其中Ti表示第i个VUE的任务大小;Ci表示计算1比特数据所需的CPU周期数。然后,根据最大时延限制需求将VUE分为本地组和卸载组。如果VUE能够在最大允许时间内自己完成任务,就将其归类于本地组,表示为l∈={I+1,I+2,…,M};如果VUE不能单独完成任务,就将其划分到卸载组,表示为i∈={1,2,…,I}。对于卸载组中的VUE,考虑了V2V和MEC两种任务处理模式,由于MEC服务器计算能力较VUE更强,相同大小的任务在MEC服务器端的执行时延小。但是,一般情况下由于MEC服务器部署距用户较远,上传任务时需要更高的发射功率,可能会造成卸载过程中更多的能量消耗。因此,假设任务对计算时延有更高的要求时会选择MEC处理模式,否则将优先选择V2V处理模式以减少能耗。这里用λ∈{0,1}表示卸载结果,λ=0表示MEC处理模式,λ=1则表示V2V处理模式。

1.2 计算模型

1.2.1 MEC处理模式

在MEC处理模式下,基于NOMA技术,多个VUE可以通过同一子信道将任务卸载给BS,然后BS侧使用串行干扰消除技术对每个VUE的任务信息进行解码。根据NOMA原理[5],第i个VUE向MEC服务器卸载计算任务时的信干噪比(Signal to Interference Plus Noise Ratio,SINR)的表达式为

(1)

式中:hi和hj分别表示从第i个VUE和第j个VUE到MEC服务器的信道系数;Pi和Pj分别表示第i个VUE和第j个VUE的发射功率;N0表示噪声功率。在这里主要研究的是两用户NOMA系统,为了保证基站侧接收功率的差异从而成功解调各用户信号,采用了文献[12]中所提出的均匀信道增益差配对策略(Uniform Channel Gain Difference,UCGD)选择NOMA用户。

第i个VUE将任务上传到MEC服务器的传输时延的表达式为

(2)

式中:Ri=Blog2(1+ξi)表示从第i个VUE到MEC服务器的传输速率;B∈B1为MEC处理模式下的子信道带宽。

相应的传输能耗表达式为

(3)

MEC服务器执行第i个VUE卸载任务的计算时延表达式为

(4)

式中,fi表示MEC服务器为计算卸载任务分配的相应计算资源。

第i个VUE在MEC服务器计算过程中的等待能耗为

(5)

由于计算结果通常比较小,返回结果时的相应时延和能耗可以忽略不计。因此,MEC处理模式下的总时延和总能耗分别表示为

(6)

(7)

为了同时满足时延和能耗的约束,将卸载成本定义为时延和能耗的加权和,从而MEC处理模式下第i个VUE的总成本可以表示为

Ui=ωiDi+(1-ωi)Ei

(8)

式中,ωi是一个权重因子,表示不同的任务对时延和能耗的不同偏好,其取值在0到1之间。

1.2.2 V2V处理模式

(9)

从第i个VUE到第l个VUE的传输时延和能耗计算表达式分别为

(10)

(11)

考虑任务的优先级大小,假设V2V接收端在执行卸载任务之前优先执行自己的计算任务,第l个VUE完成其本地任务的计算时延为

(12)

式中,fl表示第l个VUE的计算资源。

第l个VUE完成卸载任务的计算时延和能耗的表达式分别表示为

(13)

(14)

式中,Pl=10-27(fl)2表示第l个VUE的电池功耗[14]。

根据以上假设,V2V接收端在处理完自身任务后才会选择帮助其他VUE,即来自第i个VUE的计算任务在完成V2V传输之前无法被接收端第l个VUE处理。因此,V2V处理模式下的传输时延由第l个VUE的本地计算时延和第i个VUE到第l个VUE的传输时延之间的较大者确定。V2V处理模式下的总时延和总能耗的表达式分别为

(15)

(16)

同样地,V2V处理模式下的成本函数可以表示为

(17)

基于以上分析,卸载过程的总成本表示为

(18)

1.3 问题描述

以最小化卸载过程的总成本为研究目标,旨在为每个VUE找到最优资源分配策略。因此,其优化问题可以构建为

(19)

由式(19)可以看出,总成本受到V2V对频谱复用策略MEC计算资源分配策略的共同影响。但是,结合约束条件可以观察到该资源分配问题是一个混合整数非线性规划问题,传统方法找到最优解的难度较大,而且难度也会随着VUE数量的增加而增大。因此,采用了强化学习方法中的D3QN算法为每个VUE找到最佳的资源分配策略。

2 计算卸载和资源分配策略

提出的策略包括两个阶段:在第一阶段,假设卸载任务可以通过时延需求和ω分为两种处理模式,这是一个线性可分的二分类问题,因此采用SVM分类器实现该过程[15];在第二阶段,根据分类结果,在不同的任务处理模式下利用D3QN算法完成相应的资源分配。

2.1 D3QN算法的基本要素

为了使用D3QN算法求解式(19)中提出的优化问题,首先将其与所提策略的资源分配场景相结合,以下给出了其相关元素的定义。

2.1.1 MEC处理模式场景

在MEC处理模式中,MEC服务器的计算资源首先被划分为单位大小,然后分配给每个任务相应大小的计算资源。这种情况下的算法要素定义如下。

1) 智能体。在资源分配策略中,BS负责处理信令信息和分配资源,因此将BS定义为算法的智能体。

2) 状态空间。选择MEC处理模式的每个VUE为一个状态,状态空间被定义为所有选择MEC处理模式的VUE,表示为s=[s1,s2,…,si]。

3) 动作空间。在MEC处理模式中,MEC服务器为卸载任务所分配的每一部分计算资源都可以被视为一个动作,因此,动作空间可以表示为a=[a1,a2,…,ai]。

5) 策略。采取的是ε-贪婪策略,即每次选择动作时以ε的概率随机选择动作,否则选择最大Q值所对应的动作。

2.2.2 V2V处理模式

在V2V处理模式中,需要将上行链路资源分配给V2V链路,此处理模式下的相关定义如下所述。

动作空间:V2V处理模式中,每个动作为已经分配给其他VUE的上行链路资源,从而动作空间表示为a=[a1,a2,…,aM]。

智能体、奖励和策略的定义与MEC处理模式中一致,此处不再赘述。

2.2 D3QN算法

基于以上定义,所采用的D3QN算法模型如图2所示。

图2 D3QN算法模型

由图2可以看出,D3QN算法的具体改进内容如下。

1) 将DQN神经网络的输出层分为当前状态值函数V(s)和动作优势函数A(s,a)两个支路,然后再将这两个分支合并成Q值输出[16]。其中,动作优势函数是衡量当前状态下采取不同动作时的相对价值。通过引入这个竞争网络,可以分别平衡预测网络和目标网络中动作对Q值的影响,从而使智能体做出更准确的判断。Q值的计算表达式为

(20)

式中:θ表示神经网络参数;β和φ分别表示状态值函数和动作优势函数的神经网络参数。

2) 为了避免DQN算法的高估问题,D3QN算法将动作选择和Q值估计进行了解耦[17]。由预测网络选择下一个状态下的动作,然后目标网络评估该动作并计算相应的Q值。此时目标Q值的计算表达式为

(21)

具体来说,在算法实现过程中,设置一个循环周期有i步,每一步对应一个用户使用上述贪婪策略获取资源的过程,同时计算当前步的奖励,然后将产生的交互数据存储在一个经验回放池中。经过数个时间步后,智能体将从经验回放池中随机抽取一小批经验数据进行训练,并更新网络参数。通过不断训练神经网络直到损失函数取得最小值,即算法达到收敛,此时对应的动作就是最优的资源分配策略。其中的损失函数定义为

Lt(θ)=E[(yt-Q(st-a,θ))2]

(22)

基于以上分析,基于D3QN算法的计算资源分配过程的伪代码如算法1所示。

算法1 基于D3QN的计算资源分配算法输入:MEC服务器的计算资源F1:初始化:经验回放池D,预测网络Q的参数θ,目标网络Q′的参数θ′2:for episode=1,2,… do3:初始化st=[s1,s2,…,si]4:for t=1,2,…,i do5:以概率ε随机选择一个动作at6:否则选择动作at=maxaQ(s,a;θ)7:执行动作at获得奖励rt(st,at),并转移到下一状态st+1,st=st+18:将(st,at,rt,st+1)存储到经验回放池D9:if经验回放池容量达到阈值then10:从经验回放池中随机采样一小批交互数据(st,at,rt,st+1)11:计算式(22)12:对于预测网络参数执行梯度下降算法 13:每K步重设Q′=Q14:End if 15:End for16:End for输出:资源分配结果

基于D3QN算法的无线资源分配过程与计算资源分配过程类似,这里不再赘述。所提时延感知的计算卸载和资源分配过程伪代码如算法2所示。

算法2 时延感知的计算卸载和资源分配策略输入:参数M,Ci,Ti,fi,DT1:for i=1,2,…,M do2:if (TiCi/f′i)≤DT then3:本地计算任务4:else SVM将需要卸载的任务分类5:if 第i个VUE选择MEC处理模式6:选择NOMA用户对7:利用算法1分配计算资源8:MEC服务器完成计算任务9:else if 第i个VUE选择V2V处理模式10:选择V2V用户对11:利用算法1分配无线资源12:V2V接收端执行计算任务13:End if14:End if15:End for输出:处理模式的选择结果,资源分配结果

3 仿真结果及分析

3.1 仿真参数

为了验证所提策略的性能,将其与同一系统模型下的基于DQN算法的资源分配策略、基于正交多址接入的资源分配策略(Orthogonal Multiple Access,OMA)和随机资源分配策略等3种策略进行了比较。仿真基于Python 3.8平台完成,其中D3QN算法网络模型采用了3个全连接层,并将第3个全连接层等分为状态值函数层和动作优势函数层;折扣因子为0.98;设置ε的值从0.08逐渐衰减至0.01,其余系统仿真参数如表1所示。

表1 仿真参数

3.2 结果分析

SVM的分类结果如图3所示,可以看出参与任务卸载的用户被训练好的SVM成功分为了两类。其中圆点表示选择V2V处理模式的用户,下三角表示选择MEC处理模式的用户。

图3 SVM分类结果

为了验证所采用D3QN算法的性能,将其和DQN算法的训练效率进行了对比,具体如图4所示。

图4 D3QN和DQN算法的训练效率对比

由图4可以看出,随着训练次数的增加,DQN算法在大约1 100次后趋于稳定,而D3QN算法收敛于950次左右并且获得的总成本更低。这是由于竞争网络的引入、动作选择与Q值计算的解耦都可以得到更准确的Q值,从而减少了无效的迭代训练过程,提高了训练的效率。

图5对采用不同策略的时延进行了对比,以验证所提策略对时延性能的提升。

图5 不同策略的时延对比

由图5可以看出,所提策略的累积时延均低于其他策略。首先,与随机分配策略和基于DQN算法的策略相比,采用的D3QN算法在卸载用户数逐渐增加时更有优势,可以更高效地分配计算资源和无线资源,从而降低了卸载时延。其次,采用NOMA技术可以在同一子信道上同时完成两个用户计算任务的卸载,而OMA只能为一个用户提供服务,从而有效地减少了时延。

为了验证所提策略对吞吐量性能的提升,对不同策略的吞吐量累积分布函数(Cumulative Distribution Function,CDF)进行了对比,具体如图6所示。

图6 不同策略的吞吐量对比

由图6可以看出,在相同概率下所提策略的吞吐量均大于其他策略。这是由于一方面D3QN算法可以有效地减少频谱复用干扰,另一方面采用的NOMA技术可以通过功率域的非正交复用共享频域资源,这两种策略都可以显著提高系统吞吐量。

图7对不同策略下的总成本进行了对比,以验证所提策略可以有效降低总成本。

图7 不同策略的总成本对比

由图7可以看出,随着卸载用户数的增加,所有策略的累计总成本也相应上升,但所提策略的总成本最低。这是由于所提策略在保证时延的同时,更好地平衡了时延和能耗,从而有效地降低了总成本。

4 结语

随着IoV的快速发展,激增的数据量对车辆端的计算能力以及各种资源提出了更高的要求,因此推动任务卸载和资源分配等技术的发展至关重要。针对该问题,提出了时延感知的计算卸载和资源分配策略。在所提出的策略中,首先利用SVM将卸载任务按照时延和能耗的要求分为MEC处理模式和V2V处理模式两类,每个VUE可以选择相应的任务处理模式。此外,为了进一步降低卸载传输时延,在MEC处理模式中采用了NOMA技术。最后,为了最小化卸载过程中的总成本,采用了D3QN算法在各处理模式中分配计算或无线资源。仿真结果表明,与现有的基于DQN算法的资源分配策略、基于OMA的资源分配策略和随机资源分配策略相比,所提的策略不仅优化了VUE卸载过程中的时延和吞吐量性能,还有效降低了系统卸载的总成本。