UUDN中双层Stackelberg博弈功率控制算法研究
2020-09-18张鹏飞张月霞
张鹏飞,张月霞
(北京信息科技大学 a.信息与通信工程学院; b.现代测控技术教育部重点实验室; c.高动态导航技术北京市重点实验室,北京 100101)
0 概述
近年来,随着移动互联网的广泛普及与移动智能设备的大量应用,5G系统业务需求出现大幅增长,如何提升系统吞吐量和容量成为5G领域的研究热点[1]。超密集网络(Ultra Dense Network,UDN)通过部署大量低功率接入点(Access Point,AP)可有效提高系统吞吐量和容量[2-3],但是网络节点的增加导致小区间干扰(Inter-Cell Interference,ICI)严重,从而降低了小区用户的服务质量[4]。针对该问题,研究者们提出以用户为中心的超密集网络(User-Centric Ultra Dense Network,UUDN),采用去蜂窝方式对传统蜂窝网络体系结构进行改进,使得处于小区任意地点的用户设备(User Equipment,UE)获得相同服务质量[5]。UUDN通过组建1个动态接入点组(Access Point Group,APG)使用户设备能实时接收到信号。每个用户设备有1个自身专属APG,在用户设备移动过程中,AP会根据其位置动态调整APG内的AP以使用户设备位于网络中心[6]。虽然UUDN能提高用户的服务质量,但是仍存在复杂的信号干扰,因此,如何减少信号干扰成为其亟需解决的问题。
针对上述问题,国内外学者们进行了深入研究,将功率控制作为抑制信号干扰的有效手段。文献[7]提出以用户为中心的蜂窝网上行功率控制方案,通过波束赋形层面有效提升系统容量,但仅适用于多进多出(Multiple In Multiple Out,MIMO)情况,未考虑超密集网络下多个用户之间的复杂干扰。文献[8]提出基于用户为中心的博弈论功率控制算法,针对5G异构网络进行分层博弈,有效提高了系统容量,但未考虑同层用户之间的干扰。文献[9]提出上行功率控制方案,分析了天线数目对系统容量的作用,但未考虑用户之间同频干扰的影响。文献[10]提出以用户为中心的动态小区分簇聚类算法,将用户分簇并采用贪婪算法对系统容量进行优化,虽然考虑了不同簇间的干扰,但其频谱效率大幅降低。上述算法在一定程度上提高了系统的吞吐量和容量,但是未对UUDN中同频小区间干扰问题进行研究,且缺乏可行性分析。
本文针对UUDN用户间存在复杂干扰及系统容量受限的问题,提出一种UUDN结构中双层Stackelberg博弈的功率控制(Two-Layer Stackelberg Game Power Control,TSGPC)算法。建立UUDN上行功率控制系统模型,采用TSGPC算法设定不同用户的收益函数,计算得到最优发射功率和最佳惩戒因子的纳什均衡解,并对纳什均衡解的存在性和唯一性进行证明。
1 系统模型
本文建立了UUDN上行功率控制系统模型,如图1 所示。协作用户1与协作基站1、协作用户2与协作基站2、服务用户1和服务用户k及服务基站这3组分别进行组内数据通信。以服务用户k为中心组建1个APG,大圆圈表示服务用户k的APG覆盖范围,APG中有1个服务基站,并有1个或多个协作基站。
图1 UUDN上行功率控制系统模型
假设在APG中有T个协作基站(1,2,…,q,…,T),有M个服务用户(1,2,…,k,…,M)与服务基站进行数据通信,有N个协作用户(1,2,…,i,…,j,…,N)与各自的协作基站进行数据通信。由于服务用户(1,2,…,k,…,M)均使用不同频率与服务基站通信,因此他们之间不存在干扰;而服务用户k与协作用户使用相同频率,因此他们之间存在相互干扰。假设服务用户以固定功率pt进行发射,而协作用户以可变功率pi进行发射,其中pi为第i个协作用户的发射功率,其对应协作基站q,则某个协作用户i的信噪比为:
(1)
UUDN上行功率控制系统模型取消了小区边缘用户,能为每个用户提供较高的服务质量。在该系统模型中,每个UE均有专属的动态APG为其提供服务。用户在移动过程中,无论位于何处,APG都将为其提供良好的链路通信质量。此外,服务用户能根据不同用户发射功率与收到的惩戒因子,动态调整自身发射功率,从而减小用户之间的干扰,提升系统吞吐量[11-12]。
2 TSGPC算法
2.1 TSGPC模型
在标准的博弈模型中,通常包含博弈参与者、参与者决策集以及博弈方收益函数3个基本元素。本文提出的TSGPC博弈模型中基本元素如下:
1)第1层博弈参与者。参与博弈的协作用户集合Ψ={1,2,…,N}。
2)第1层参与者的决策。每位参与者的决策可表示为{p1,p2,…,pi,…,pn},且各决策相互独立。
3)第1层博弈方的收益函数。协作用户i的收益函数为Ui(pi,λi)。
4)第2层博弈的参与者。参与博弈的协作用户集合Ψ={1,2,…,N}。
5)第2层参与者的决策。每位参与者的决策可表示为{λ1,λ2,…,λi,…,λn},且各决策相互独立。
6)第2层服务用户的收益函数UUk(pi,λi)。
在双层博弈之间,第1层博弈所求最佳发射功率会影响第2层博弈最佳惩戒因子的结果,而第2层博弈所求最佳惩戒因子也会影响第1层博弈最佳发射功率的结果,两者相互制约并调节以获取动态平衡,最终求解出协作用户的最优发射功率和最佳惩戒因子,使所有用户的收益达到最大。
2.2 协作用户收益
协作用户i发送信息到基站时,总希望使自身发送速率最大化,即实现最大传输速率Ri。由于所有协作用户为使自身收益最大化,均不考虑对其他用户的影响,因此各协作用户之间属于非合作博弈。
假设所有用户的传输带宽为单位带宽,则协作用户i的传输速率Ri表达式为:
(2)
然而协作用户的信号传输会对服务用户产生干扰,为减弱该干扰,需对协作用户设置抑制干扰函数如下:
Ci=λipili
(3)
Ui(pi,λi)=Ri-Ci=
(4)
2.3 服务用户收益
本文同时考虑了协作用户和服务用户的收益函数。服务用户的收益函数定义为服务用户对协作用户的总惩罚量减去协作用户干扰给服务用户造成的性能损失,表达式为[15]:
(5)
由于当惩戒因子λi较小时,协作用户的发射功率会增大,从而对服务用户造成强干扰,因此对协作用户发射的干扰进行以下限制:
(6)
若门限值T较小,则会给服务用户带来较大的性能损失。当协作用户发射功率给服务用户造成的干扰接近门限值时,服务用户的收益函数会增大。协作用户对服务用户的干扰功率不超过门限值T。
上述服务用户收益函数考虑了服务用户对协作用户的惩戒收益总量,并分析了协作用户对服务用户产生的干扰,函数设置更合理。当惩戒因子λi很大时,根据式(5),服务用户收益将增大,但是根据式(4),协作用户收益将减小,协作用户为增大收益会提高自身发射功率,导致服务用户收益降低,系统总干扰增加;当惩戒因子λi很小时,根据式(4),协作用户收益将增大,其会采用较高发射功率,但是根据式(5),服务用户收益将降低,系统总干扰增加。因此,需要服务用户和协作用户之间相互博弈,以获取最佳发射功率使双方收益达到最大。
3 Stackelberg博弈过程及求解
3.1 协作用户博弈目标
根据Stackelberg安全博弈模型,参与者任何决策都应满足服务用户收益UUk(pi,λi)和每个协作用户收益Ui(pi,λi)最大,而由于服务用户与协作用户的收益都是关于pi和λi的函数,因此优化目标可表示为:
(7)
(8)
约束条件为:
(9)
(10)
3.2 纳什均衡解的求解
对协作用户收益函数求导得到如下关系式:
(11)
(12)
由式(9)得到:
(13)
3.3 纳什均衡解的求解
(14)
根据式(14),服务用户收益为N+1减去1个关于λi的对勾函数,计算公式为:
(15)
(16)
(17)
由式(10)得到:
(18)
(19)
3.4 博弈流程
图2 博弈流程
4 纳什均衡解的存在性和唯一性证明
4.1 纳什均衡解的存在性
定理1对于协作用户的惩戒因子λi,协作用户之间非合作博弈必定存在纳什均衡解。非合作博弈存在纳什均衡解,需要满足以下条件:1)所有协作用户参与博弈的集合有限;2)所有协作用户的决策集合封闭有界;3)收益函数在所有协作用户的决策集上,且为连续拟凹函数。
证明具体过程如下:
1)参与博弈的协作用户人数Ψ={1,2,…,N},为有限集合。
3)对协作用户i的收益函数进行2阶求导得到:
(20)
4.2 纳什均衡解的唯一性
定理2对于协作用户的惩戒因子λi,协作用户间的非合作博弈必存在唯一纳什均衡解。非合作博弈收敛得到唯一纳什均衡解,需满足以下条件:1)函数具有非负性,即f(p)≥0;2)函数具有单调性,∀pa≥pb,f(pa)≥f(pb);3)函数具有扩展性:若α>1,则αf(p)≥f(αp)。
证明具体过程如下:
1)根据式(20),得到0≤p≤pmax且p(k+1)=f(p(k))>0。
2)对式(19)求导得到:
(21)
由于式(21)各项均为正数,f(p)′>0,因此f(p)为单调增函数,∀pa≥pb,f(pa)≥f(pb)。
3)令L(p)=αf(p)-f(αp),结合式(1)和式(12),将该式转化为:
(22)
其中,由于α>1,L(p)中各项均为正数,因此L(p)>0,即αf(p)≥f(αp)。综上可知,协作用户之间非合作博弈的纳什均衡解唯一。
5 实验与结果分析
5.1 参数设置
为验证TSGPC算法的有效性,本文构建以用户为中心的网络架构,将服务基站的半径覆盖范围设置为200 m,并假设存在4个服务用户和6个协作用户,具体参数设置如表1所示。
表1 仿真参数设置
5.2 结果分析
图3为TSGPC算法中不同协作用户的发射功率随迭代次数的收敛情况。可以看出,协作用户之间相互博弈,随着迭代次数的增加,协作用户自身发射功率逐渐提高,并在多次博弈后达到稳定状态。
图3 协作用户发射功率的收敛情况
图4为TSGPC算法中服务用户k和协作用户i收益随迭代次数的变化情况(由于协作用户收益曲线大致相同,因此以协作用户i(i=4)为例)。可以看出:在迭代初始阶段,协作用户i的发射功率低且惩戒因子小,导致服务用户k和协作用户i的收益较低;随着迭代次数的增加,由于协作用户之间相互博弈,其自身发射功率不断提高,导致协作用户i和服务用户k的收益增大,服务用户k为获取更大收益,提高了协作用户i的惩戒因子,从而造成协作用户i收益降低。协作用户之间通过相互博弈提高自身发射功率,提升了协作用户i和服务用户k的收益。最终协作用户通过多次博弈到稳定状态,使得服务用户和协作用户的收益达到最大。
图4 不同用户收益随迭代次数的变化情况
图5为K-G算法[16]、SGUPPC算法[17]、PCBSW算法与TSGPC算法中协作用户的信干噪比(Signal to Interference plus Noise Ratio,SINR)[18]随迭代次数的收敛情况。可以看出,上述4种算法经过博弈后均达到稳定状态,但是K-G算法、SGUPPC算法、PCBSW算法中协作用户的SINR仅收敛到6 dB,虽满足正常通信要求,但通信质量远不如TSGPC算法,TSGPC算法的通信质量更优。
图5 不同算法中协作用户的SINR收敛情况对比
图6为TSGPC算法和CHAOS算法中服务用户收益随惩戒因子的变化情况。可以看出:在TSGPC算法中服务用户收益随着惩戒因子增加而先增后减,并在惩戒因子为7×1012时达到最大值;CHAOS算法[19]中服务用户收益随着惩戒因子增大而逐渐降低。理论上,当协作用户的惩戒因子为0时,由于服务用户未对协作用户的发射功率进行惩罚,因此协作用户将提高发射功率以获取更高的协作用户收益,从而导致服务用户收益降低,此时服务用户收益为最小值。但图6中协作用户惩戒因子为0时,CHAOS算法中服务用户收益最大,这与理论值相悖。本文TSGPC算法优化了效用函数,使协作用户惩戒因子为0时,TSGPC算法中服务用户收益最小,这与理论值一致,同时经过博弈使服务用户收益逐渐提升。此外,TSGPC算法与CHAOS算法最终收敛值较接近,这证明了TSGPC算法的正确性。
图6 不同算法中服务用户收益随惩戒因子的变化情况
图7为TSGPC算法与Nash算法[20]的单位带宽吞吐量随协作用户数量的变化情况。可以看出,2种算法的系统吞吐量均随协作用户数量的增加而逐渐增大,但是当协作用户数量增大到一定程度后,系统吞吐量增速逐渐减缓。和Nash算法相比,TSGPC算法的系统吞吐量更大。
图7 不同算法中单位带宽吞吐量随协作用户数量的变化情况
6 结束语
本文在UUDN应用场景下提出TSGPC算法,通过建立UUDN上行功率控制系统模型,求解出最优发射功率控制方案和最佳惩戒因子,使协作用户与服务用户的收益最大化,并证明其纳什均衡解的存在性和唯一性。仿真实验表明,与SGUPPC、PCBSW等算法相比,该算法能更有效地降低UUDN用户间干扰,提升系统吞吐量与容量。下一步将在考虑用户速率的情况下改进功率,对功率、信道和用户速率进行联合优化,以满足多用户速率服务需求。