基于LTE-DRX 的超时策略梯度估计算法

2013-12-14李方伟

重庆邮电大学学报(自然科学版) 2013年3期

宋捷，李方伟，朱江

(重庆邮电大学，重庆400065)

0 引言

随着个人通信不断普及，在提供更高的频谱利用率、更高的数据传输速率以及更加丰富的多媒体业务的同时，终端的电量消耗问题就变得尤为重要。如何尽可能地延长电池的续航时间成为各个通信系统都应该考虑的问题。

长期演进系统(long term evolution，LTE)也提供了一种非连续接收(discontinuous reception，DRX)终端省电机制［1-3］。非连续接收机制作为无线通信系统链路层优化能量效率的一项重要方法被大多数无线通信系统所采纳。其基本思想是允许终端在没有数据传输的时刻关闭无线收发单元进入休眠模式，以降低额外能量开销。目前，针对长期演进系统的非连续接收机制(LTE-DRX)的研究已经在时延和吞吐量方面有部分建模分析，主要是研究了不同业务条件下终端功率与时延和吞吐量的关系，既节约了电量又能获得优良的用户体验。文献［4］详细分析了DRX省电机制的流程。文献［5-7］探讨了利用动态电源管理策略来达到终端节能的目的。文献［8-9］提出了在线优化和随机学习理论可以做出最优的决策来改进和优化系统性能。

本文通过分析LTE系统非连续接收机制节能方案，提出了基于动态电源管理超时策略梯度估计算法来减少状态转换过程中的电量消耗。该算法具有计算量小、自适应性强、时效性高等特点。仿真表明，该算法能够在保证系统性能的同时兼顾低时延和低能耗，具有较高的实用价值。

1 分析LTE-DRX省电机制

在LTE系统的不连续接收标准中，DRX的状态可以划分为激活状态、重传状态、休眠状态。然而，休眠状态又是由DRX长周期和DRX短周期组成。

在DRX工作过程中，首先启动On Duration Timer定时器，并开始监听物理下行控制信道(physical downlink control channel，PDCCH)，如果收到一个下行数据包，当用户终端(user equipment，UE)成功解码PDCCH的信息后，开启去激活计时器(inactivity timer)，进入激活状态。如果去激活定时器溢出之前又有新的数据到达则会再一次启动去激活定时器以延长激活的时间，直到数据传输成功并且去激活定时器溢出时无数据到达，则UE进入休眠状态。

当UE收到下行数据并且解码失败，它会启动2个定时器:去激活定时器和重传定时器(retransmission timer)。一个是用来延长监听的时间，另一个是估计重传会在重传定时器超时后进行。因此，在重传定时器溢出前UE可以不理会重传。若重传的数据解码成功，Inactivity Timer超时后进入休眠状态;若重传数据仍解码不成功，通过向演进型节点(evolved node B，eNB)反馈否定应答(negative acknowledge，NACK)并再次进行重传过程。休眠状态是由交替出现的睡眠状态和唤醒状态组成，在睡眠状态UE关闭无线收发机以节省电量，在唤醒状态UE打开无线收发单元，监听PDCCH并判断是否有下行数据传输。

不同的状态转换过程及相应的能量消耗如图1所示。

图1 状态转换能量消耗图Fig.1 State diagram for UE power consumption model

由以上分析发现，在DRX流程中涉及从睡眠状态到激活状态的转换，而不适当的状态切换造成多余的能量消耗。目前学术界对DRX的研究都是从定时器的参数来进行改进，固定的参数改进难以针对不同数据到达率自适应调整唤醒和休眠时间。同时由于数据的发送和接收具有随机性且无法预测，因此，必然会带来多余开销。本文提出了一种基于超时策略的自适应终端省电算法，并通过建立semi-Markov(半马尔可夫)模型来进行状态描述，将省电问题转化为带约束条件的优化问题。仿真结果表明，该机制在高度节能的同时能够获得良好的用户体验。

2 建立系统分析模型

2.1 超时策略分析

超时(time out)策略，将系统组件在持续空闲设定的时间间隔(超时阈值)后切换到低功耗状态，包括固定阈值和自适应阈值超时策略。超时策略具有简单易实现的特点，在多种应用环境中能够取得较好的应用效果。

采用超时策略的动态电源管理系统，服务处理器有工作、空闲和休眠3种运行状态。服务处理器完成当前系统中的服务请求后，将切换为空闲状态。空闲持续时间达到超时策略设定的时间阈值时，电源控制管理器发布控制指令将服务处理器转换至休眠状态，以减少功率消耗。当服务处理器处于休眠状态，有服务请求到达则唤醒服务处理器来提供服务。超时策略利用超时阈值均衡系统的性能与功耗。因此，我们可以采用超时策略的思想进行DRX周期中的休眠与激活时间的调节，同时采用semi-Markov模型对UE的动态特性进行精确的描述，使得状态切换的时机更准确减少了能量的多余消耗。公式(1)表示系统设置的阀值应该不小于状态转换的延迟。

(1)式中:Er表示系统退出关断状态所消耗的能量;Tr是相应的延迟;Pr是退出关断状态的功率;Tk是等待关断的时间。

超时策略算法比较简单，对负载的依赖程度小，而且改变阀值的大小即可提高系统的性能，特别是用于固定时限的问题时能够获得良好的省电效果。针对时限不固定的问题时，通过建立半马尔可夫模型对空闲时间进行预测来得到最优解。

2.2 semi-Markov控制模型

若终端处于某一种单一类型的服务中，且满足服务到达率为λ的独立Poisson分布。动态电源管理技术(dynamic power management，DPM)作为一种广泛应用于便携式移动通信终端的功耗控制技术，由电源管理控制器、等待服务队列和服务处理器组成。在实际的系统运行中，数据到达的时间间隔、所需的处理时间具有随机性，因此，DRX长短周期的切换过程可以看作一个semi-Markov过程。

设系统的状态空间S为

(2)式中:l表示空闲状态;s表示休眠状态;a表示工作状态;N代表服务请求个数。UE处于激活和休眠状态的功率消耗分别为Pl和Ps;状态转换时间服从T+ΔT上的均匀分布，转换过程的功率消耗用Ck表示。UE运行时，采用动态电源管理中的超时策略梯度估计算法来进行控制。用d来表示将UE从激活状态切换至休眠状态，则控制行动集D={dls}。当选用梯度算法时，用超时阈值τ∈［0，∞)表示DPM策略ω。

在超时策略ω的控制下，DRX的激活状态和休眠状态的转换问题可以用一个semi-Markov过程来描述:{Xt，t≥0，S，Q(ω，t)}，其中，Xt为 t时刻系统所处的状态，状态转移的联合概率分布可以表示为

(3)式中:i，j∈S;tn是第n次状态转移的时刻;Xn表示第n次状态转移后所处的状态，系统状态转移情况如图2所示。

图2 系统状态转移示意图Fig.2 State diagram for LTE-DRX performance analysis

UE从空闲到激活的状态转移概率为

设f(Xn，wn)为一个平均性能函数，其中，Xn表示所处的状态;wn表示对应状态下的电源管理策略。因此，系统的平均性能ηp可以表示为

设fcn为各个状态对应的功耗函数，Pn(τ)为对应状态的稳态概率。因此，系统的平均功耗可以表示为

因此，整个 semi-Markov过程可以表示为 S，Q(ω，t)，D，(ηp(τ)，ηc(τ))，并且要求在满足一定性能Z的条件下，使得系统的平均功耗最小。也就是要找到这个控制条件下最合适的τ值。

3 在线学习与优化

3.1 在线学习与优化概述

学习和优化的目的是观察和分析系统行为所获得的信息的基础上，做出最好的决策来优化和改进系统的性能。在系统实际运行的过程中，我们会得到实际的样本轨道，在样本轨道的前m个再生周期，通过在线学习可以得到性能势的估计值，不断去更新控制策略得到最优解，即可以在下个周期开始时进行改进。算法的流程图如图3所示。

图3 强化学习框图Fig.3 Block diagram of reinforcement learning

3.2 优化策略——DRX梯度估计算法

1)初始化DRX参数，选择状态切换的初始值τ0(即初始策略d0)，再生状态为i*，使m=1，n=0，c=0;因此，在初始状态 itnm=i0，tnm=0 启动并运行系统;

2)选择一个整数k;记录k次状态发生转移的时刻和转移状态，计算当前逗留的时间;

3)系统在初始策略d0下运行k个周期，并计算估计值g－d0;

4)将 g－d0作为性能势的估计值，选择dn+1∈ψ(g－dnk)进行策略更新;

5)若dn+1=dn，则令c=c+1;否则c=0。若c=N，算法终止，否则下一步;

6)系统策略变为dn+1，令n=n+1，在策略dn+1下观察系统一个周期的运行，并将第3步的估计值应用到最近的k个周期来更新g－dn+1，返回3)。

4 仿真结果与分析

为了验证算法的性能，我们采用第二部分的semi-Markov模型进行仿真。

当不同数据到达率的平均时延对比分析如图4所示，当数据到达率小的时候，时延提升比较明显，说明该算法能够在低数据到达率的时候快速地进行唤醒和休眠的状态转换。数据到达率高的时候也要比LTE标准响应迅速。

图5为不同数据到达率下能量消耗的对比，采用自适应算法后具有更好的节能效果。随着数据包的到达越来越多，系统的平均能量消耗均在增加。但是采用该算法后，因为系统可以根据梯度估计的最优解动态调整唤醒和休眠的时间间隔，因此，从图5中可以发现，当数据到达率小于0.4时系统所消耗的能量要明显低于LTE-DRX标准情况下的能量。但是当数据到达率大于0.4时，随着数据到达率逐渐增大2种算法的平均能量消耗的差值会逐渐减小。

图6为在不同时延下能量消耗的对比分析，随着时延的增大，所消耗的能量百分比也越大。但是由于该算法对时延的改善比较好，因此，明显可看出，在相同的时延下，采用梯度估计算法所消耗的能量更少。在相同能量消耗时，该算法的时延更低一些，所以，该算法在满足系统性能的同时兼具更好的自适应性和更优的节能性。

图5 平均能量消耗对比Fig.5 Comparison of average power consumption

图6 时延与能量消耗分析Fig.6 Performance analysis between delay and power consumption

5 结论

LTE-DRX终端省电机制是无线通信系统中能量优化的一种重要方法，但是在状态切换过程中依靠参数固定的定时器来控制会造成多余的能量开支。本文通过建立半马尔可夫模型分析与优化模型，将能量节省问题转化为一个带约束条件的优化问题。在此基础上提出了一种基于超时策略的梯度估计算法。本算法具有计算量小、估计准确、适应性强的特点，结合半马尔可夫模型对系统的精确描述，在兼顾时延的同时能够获得较好的节能效果。但是由于在线学习和预测需要保存部分历史数据才能进行更精确地预测，因此，要求较大的内存才能保证算法的省电性能，在今后研究中应当考虑如何在较少的历史信息下获得较准确预测值来获得性能提升。

［1］3GPP TS 36.321 Evolved Universal Terrestrial Radio Access(E-UTRA)Medium Access Control(MAC)protocol specification［EB/OL］.［2012-04-28］http://www.arib.or.jp/english/html/overview/doc/STD-T104v1_20/2_T104/ARIB-STD-T104/Rel10/36/A36321-a50.pdf

［2］沈嘉，索世强.3GPP长期演进(LTE)技术原理与系统设计［M］.北京:人民邮电出版社，2008.SHEN Jia，SUO Shiqiang.3GPP Long Term Evolution:Principle and System Design［M］.Beijing:Posts＆ Telecom press，2008.

［3］李方伟，彭喻伟.LTE-A中继网络中的终端省电机制研究［J］.重庆邮电大学学报:自然科学版，2012，24(2):185-189.LI Fangwei，PENG Yuwei.Power saving mechanism of LTE-A terminal based on relay technology［J］.Journal of Chongqing University of Posts and Telecommunications:Natural Science Edition，2012，24(2):185-189.

［4］ZHANG Yifan，GAO Songtao，TIAN Hui，et al.Delay analysis of DRX in LTE-advanced considering carrier aggregation［J］.The Journal of China Universities of Posts and Telecommunications，2011，18(6):1-7.

［5］BENINI L，BOGLIOLO A，DE M Icheli G.A survey of design techniques for system-level dynamic power management［J］.IEEE Transactions on Very Large Scale Integration Systems，2000，8(3):299-316.

［6］BENINI L，BOGLIOLO A，PALEOLOGO G A，et al.Policy optimization for dynamic power management［J］.IEEE Transactions on Computer Aided Design of Integrated Circuits and Systems，1999，18(6):813-833.

［7］吴琦，熊光泽.基于随机决策模型的动态功耗管理策略研究［J］.计算机学报，2007，30(4):622-628.WU Qi，XIONG Guangze.Study on Policy of Dynamic Power Management Based on Stochastic Decision Models［J］.Chinese Journal of Computers，2007，30(4):622-628.

［8］曹希仁著，陈曦，译.随即学习与优化—基于灵敏度的方法［M］.北京:清华大学出版社，2011.CAO Xiren，CHEN Xi.Stochastic Learning and Optimization A Sensitivity-Based Approach［M］.Beijing:Tsinghua university press，2011.

［9］YEH Juihung，LEE Chichen，CHEN Jyhcheng.Performance Analysis of Energy Consumption in 3GPP Networks［C］//IEEE.IEEE Transactions on Wireless Telecommunications Symposium.Taiwan:Conference Publications，2004:67-72.