5G微蜂窝网络中基于分布式学习的时频资源联合调度算法

2016-08-01杨飞王海超

决策与信息·中旬刊 2016年6期

杨飞　王海超

【摘要】本文研究了微蜂窝网络中上行链路通信场景下移动用户的干扰管理问题，不同于现有大量基于信道调度和时隙调度的干扰避免方案，本文中每个移动用户可以自主选择接入的时频资源块，并根据反馈的干扰情况学习并动态调整策略；为了刻画用户之间的相互作用和影响，将该问题建模为一个非合作博弈，并证明该博弈模型为精确势能博弈，至少存在一个纯策略纳什均衡点，最优的纯策略纳什均衡点对应到全网干扰水平最小。最后，设计了一种基于异构独立修正算法的分布式学习算法。仿真分析表明，所提出的分布式学习算法可以有效地收敛到干扰最小化博弈的纳什均衡，相比于现有的干扰管理方案性能更优。

【关键词】干扰管理；时频资源调度；博弈论；分布式学习

一、引言

无线数据服务的需求成倍增加迫使移动运营商寻求新的方法来扩大覆盖，提高网络容量。微蜂窝技术被认为是满足用户迫切需求的最有效的手段之一。微蜂窝技术具有覆盖面小、传输能量低和安装方便的特点，主要用于提高网络容量或覆盖率。但是随着微蜂窝的超密集部署，现有的网络中的干扰情况越来越复杂。例如在频谱共享模式下的微蜂窝网络中的同层干扰问题愈加凸显，导致网络吞吐性能的恶化。因此，有效地干扰管理对于微蜂窝网络而言十分重要。

现有的干扰管理研究主要分为集中式和分布式干扰管理。集中式的干扰管理方法通常需要一个集中控制器来搜集全网的信息进行资源的优化分配，例如频率、时隙和功率的分配。但是由于在超密集的微蜂窝网络中，并非所有的微基站都由运营商部署，存在用户或者企业部署和管理的微基站，出于通信安全以及隐私考虑，全网信息的获取通常难以实现。其次，由于无线环境的动态变化，集中式优化决策方案的时效性较差，性能并不稳健。即使能够获取大规模微基站的即时优化所需信息，全网产生的大量回程链路的通信开销以及通信延迟都不能忽略。另一方面，分布式的资源分配方案因其较低的复杂度以及灵活稳健性引起了学术界的广泛关注。但目前现有的分布式方案中大量工作研究的是动态信道接入以及分布式时隙接入优化。

不同于现有大量基于信道调度和时隙调度的干扰避免方案，本文中每个移动用户可以自主选择接入的时频资源块，并根据反馈的干扰情况学习并动态调整策略。本文的主要贡献如下：

（一）提出了一种分布式的时频资源调度方法，与传统的主要集中在频率资源或时间资源的干扰管理方式不同，本文提出的干扰管理方式研究的是时频资源联合分配，即相邻用户在相同时隙占用不同的信道或在不同的时隙内占用相同信道以避免干扰。

（二）提出联合频率和时隙资源块接入的干扰最小化博弈，证明了它是一个精确势能博弈，且至少存在一个纯策略纳什均衡点，对应整个网络的最小干扰水平。

（三）提出了允许所有用户同时更新选择的基于分布式的联合时频资源调度的学习算法。该学习算法基于对独立修正算法（independent revision process （IRP））的扩展，允许所有用户独立操作且没有任何协调机制。

二、系统模型和问题描述

如图1所示，假设微蜂窝用户的位置是随机分布的，在上行链路通信中，当两个用户的微基站服务同时在同一信道上同时传输时，会互相干扰。由于用户的传输能量有限，因此其相应的干扰距离是有限的。上行传输中，对于基站侧而言，有两种类型的干扰：来自相邻基站用户的强干扰和来自非相邻用户的弱干扰，通常情况下只考虑来自相邻用户的强干扰，可以通过干扰图（冲突图）来刻画相邻小区之间的干扰情况，干扰图中可以将对应的微蜂窝基站和用户（后文中简称为微蜂窝用户对）视为A干扰图中的一个顶点，相邻的微蜂窝用户对之间存在干扰关系时，存在一条边连接对应的顶点。

将可用的频谱资源B划分为个子信道，信道集合为。一帧由选择时段和传输时段组成，用户在选择时段选择他们的信道和时隙，然后在传输时段传输数据。可用的传输时段又分为个时隙，时隙集合可表示。用表示微蜂窝基站的集合，并假设每个基站只服务一个用户，令表示对应用户的集合。

定理1：信道和时隙干扰最小化博弈是一个精确势能博弈，至少有一个纯策略纳什均衡点，对应整个网络的最低干扰水平。

证明：证明过程遵循文献[7]中定理2.2的证明思路，可证明信道和时隙干扰最小化博弈是一个精确势能博弈，同时，根据精确势能博弈的性质可证明纳什均衡点的存在性。

四、基于局部信息交互实现干扰最小化

上一节已经分析了信道和时隙干扰最小化博弈至少存在一个纯策略纳什均衡点。由于用户的超密集部署，难以通过集中式的方法实现全局优化，本文尝试使用分布式的方法来解决这个问题。目前研究中已经提出一些分布式的学习方案进行最优解的搜索，如空间并发自适应行动（C-SAP），无悔学习（NRL）算法等。本节设计了一种基于对独立修正算法（independent revision process （IRP））的扩展的学习算法，可以使得每个用户分布式的学习最佳的时频资源联合调度策略，该算法利用用户间的差异提高了收敛速度，可以实现了最优纳什均衡的搜索。

在步骤4中，用户通过不同的概率更新动作选择。如果当前的动作选择获得的回报较大时，用户保持当前动作选择的概率较大；而当现在的动作选择的回报较低时，用户更愿意进行探测，即更换其他的动作。在独立修订算法中，所有用户以相同的概率更新动作选择。较大的学习参数和导致较少的用户更新选择，收敛速度慢；而较小的学习参数允许大量相邻用户同时更新选择，算法可能无法收敛到纳什均衡点，本文中不同用户的异构学习参数可以解决这个问题。

五、仿真结果与分析

考虑一个蜂窝网络中一个的热点区域内的上行通信传输场景。每个微蜂窝基站服务一个最大功率为100mW的用户。有N个均匀分布的微蜂窝用户对，且数量范围为10到25对。如果两个蜂窝用户对之间的距离小于30m，那么它们是相邻用户（不同的阈值会导致不同的性能，在文献[6]中已有研究）。噪声功率是-130dbm，路径损耗指数为4。在下述模型中给出的信道和时隙的数量是不同的。

（一）学习算法的收敛性

假设在上述的网络中有40个用户，信道数和时隙数分别为6和1。图2通过与并发空间自适应行动和独立修正算法的比较显示了所提算法的收敛性。其中IRP算法和C-SAP算法的学习参数β分别是200和100，在独立修正算法中。所提的基于分布式学习的时频资源联合调度算法的参数设置为和，为迭代次数。仿真结果为100次蒙特卡洛独立试验的平均值。

图2表明所有算法的干扰水平随迭代次数的增加而减小，而且基于分布式学习的时频资源联合调度算法收敛到全局最优的速度快于其他两种学习算法，独立修正算法和空间并发自适应行动的收敛速度相近。仿真发现，由于独立修正算法在一次迭代中允许多个用户同时改变选择导致其收敛到纳什均衡的速度低于空间并发自适应行动。当时，每个用户都做出了最优选择，因此每一次迭代之后干扰水平都会降低。但对于独立修正算法，所有的用户都可能会改变其动作选择，相邻的用户可能同时更新动作选择，干扰水平可能不会在每次迭代后都减小。此外，在独立修正算法中的大小对于收敛速度是至关重要，小的值意味着用户更愿意更新选择，而大的值意味着保持当前选择的可能性更大。所提出的基于分布式学习的时频资源联合调度算法考虑到了用户之间的差异，收敛速度通常快于空间并发自适应行动算法，而且与空间并发自适应行动相比，基于分布式学习的时频资源联合调度算法可以在没有任何协调机制的情况下实现，这使得它能更灵活地应用于未来的超密集微蜂窝网络中。

（二）吞吐量性能评估

如图3所示，在信道数为1的条件下，每个用户的平均吞吐量随用户数的增加而减小。若将全部频谱分为两个信道，可以使干扰大大减轻，平均吞吐量大幅增加。

本文研究了各种参数对系统性能的影响。虽然用户可以独立地选择信道和时隙，但并没有使得平均吞吐量最大化的所需信道数和时隙数的先验信息。通过仿真发现，最大化吞吐量的参数与特定的场景有关，太多的信道和时隙会增加算法的复杂度和额外开销，故不需要设置太多时隙来避免相邻的强干扰。

图4反映了两种不同资源调度方法下的平均吞吐量随用户数的变化。时隙数随用户数的变化已在文献[3]的方案中表明，设置。当用户数量增加时，每个用户占用更少的信道和时隙资源，所以用户的吞吐量下降。结果表明，如果将频谱分为两个信道，用户可以获得较高的平均吞吐量。此外，所提方案在超密集部署的微蜂窝网络中更具优势，较文献[3]中的方案性能提高了约33%。但在吞吐量能够满足用户最低速率要求的前提下，信道和时隙不能分得太多。

六、总结

本文研究微蜂窝基站和用户随机分布的蜂窝系统中的分布式信道和时隙联合选择的问题。针对相邻用户间用户决策相互影响的特点，将这个问题建模为一个非合作博弈，证明了这是一个精确势能博弈，且至少存在一个纯策略纳什均衡点。为实现该纳什均衡的搜索，提出了一个允许所有用户同时更新选择的基于分布式学习的时频资源联合调度算法。仿真表明，所提分布式学习算法能够收敛到干扰最小化博弈的纳什均衡，且相比于其他现有的干扰管理方案有更好的性能。

参考文献

[1]Chandrasekhar V， Andrews J G， Gatherer A. Femtocell networks： a survey[J]. IEEE Communications Magazine， 2008， 46（9）：59-67.

[2]Zhang H， Wang Y， Ji H. Resource Optimization Based Interference Management for Hybrid Self-Organized Small Cell Network[J]. IEEE Transactions on Vehicular Technology， 2015：1-1.

[3]Ahuja K， Xiao Y， Mihaela V D S. Distributed Interference Management Policies for Heterogeneous Small Cell Networks[J]. IEEE Journal on Selected Areas in Communications， 2014， 33（6）：1112-1126.

[4]Ramesh Kumar M R， Bhashyam S， Jalihal D. Throughput improvement for cell-edge users using selective cooperation in cellular networks[C]// Ifip International Conference on Wireless and Optical Communications Networks. 2008：1 - 5.

[5]Samarakoon S， Bennis M， Saad W， et al. Backhaul-Aware Interference Management in the Uplink of Wireless Small Cell Networks[J]. IEEE Transactions on Wireless Communications， 2013， 12（11）：5813-5825.

[6]Aliu O G， Imran A， Imran M A， et al. A Survey of Self Organisation in Future Cellular Networks[J]. IEEE Communications Surveys & Tutorials， 2013， 15（1）：336-361.

[7]Xu Y， Wang J， Wu Q， et al. Opportunistic Spectrum Access in Cognitive Radio Networks： Global Optimization Using Local Interaction Games[J]. IEEE Journal of Selected Topics in Signal Processing， 2012， 6（2）：180-194.

[8]Young H P， Young H P. Individual strategy and social structure[J]. Princeton University， 1998.

[9]Neel J O， Reed J H， Gilles R P. Convergence Of Cognitive Radio Networks[C]// Wireless Communications and Networking Conference， 2004. WCNC. 2004 IEEE. 2004：2250 - 2255 Vol.4.

Marden J R， Shamma J S. Revisiting log-linear learning： Asynchrony， completeness and payoff-based implementation[J]. Ga

作者简介

杨飞，男，汉族，山东省滨州市，研究生，中国人民解放军理工大学信息与通信工程。