APP下载

基于CEQ(λ)多智能体协同学习的互联电网性能标准控制指令动态分配优化算法

2016-10-11张孝顺余涛唐

电工技术学报 2016年8期
关键词:扰动指令分配

张孝顺余 涛唐 捷

(1. 华南理工大学电力学院 广州 510640 2. 广东电网公司韶关供电局 韶关 512026)

基于CEQ(λ)多智能体协同学习的互联电网性能标准控制指令动态分配优化算法

张孝顺1余 涛1唐 捷2

(1. 华南理工大学电力学院 广州 510640 2. 广东电网公司韶关供电局 韶关 512026)

在CPS指令动态分配过程中,应用单智能体Q(λ)算法下的CPS合格率虽然可以满足要求,但还存在收敛速度较慢、寻优空间较小等问题。为此,提出应用多智能体相关均衡强化学习的方法来弥补单智能体强化学习的不足。根据调频时延将 AGC机组分成煤电、气电和水电等类型,对CEQ(λ)应用于这n类智能体组成的CPS调节指令动态分配进行研究分析。标准两区域模型及南方电网模型仿真研究表明:多智能体CEQ(λ)算法适用于随机、机组组合复杂的互联电网CPS指令动态最优分配,能有效提高系统的适应性、鲁棒性和CPS考核合格率。

相关均衡 自动发电控制系统 协同学习 强化学习 随机优化

0 引言

自 1999年北美电力可靠性委员会提出评价互联电网自动发电控制系统(Automatic Generation Control,AGC)性能标准控制(Control Performance Standard,CPS)后,CPS合格率已成为衡量电网调度端AGC控制策略优劣的重要标准[1]。随着间歇式能源的大量并网,经典 PI控制[2-4]已难以满足随机性更强的复杂互联电网 AGC控制性能的要求。为此,国内外有不少学者把模糊预测控制[5]、模糊控制[6]人工神经网络[7]、强化学习[8]等适应性和灵活性更强的智能算法引入AGC控制器的设计,有效提高了CPS性能。

AGC控制系统的关键步骤之一就是把 CPS总调节指令根据一定的优化算法分配到各台 AGC机组。由于电网的负荷扰动是实时随机变化的,所以CPS指令优化分配是一个随机优化过程,对于优化算法的实时性要求较高。同时,各类 AGC机组具有不同的调节容量、调频时延、调节速率等特性,进一步增加了CPS指令优化分配的难度。目前,国内外学者对CPS指令分配的研究较少。在实际工程应用中,CPS指令往往按相同可调容量比例分配(PROP)[9],并没有考虑各机组间的动态调节特性的差异,且不能满足复杂工况下的CPS性能要求。文献[10]利用标准PSO算法进行调节功率分配,有效解决了CPS指令的最优分配问题。针对指令动态最优分配的几个难点,笔者采用了单智能体强化学习方法对CPS指令分配问题开展了系列研究[11-14],文献[12]中引入了具有多步回溯功能Q(λ)方法,有效解决了火电机组大时延问题,文献[13,14]则对强化学习算法进行了分层改进,有效避免了维数灾难问题。这些基于单智能体的动态优化方法虽然可以在满足电网CPS考核标准前提下得到收敛的均衡点,但其寻到的均衡点并不一定是最优的均衡点,算法在线寻优速度依存在较大的提升空间。

最近十余年来,从单智能体学习算法向多智能体学习算法发展成为机器学习领域的一个热点研究方向。其中,基于相关均衡的(Correlated-Equilibrium-Q, CEQ)学习算法是一个极具代表性的多智能体算法,已成功应用于机器人编队学习和无线电传输等领域[15]。

为进一步提高CPS指令分配过程中AGC机组的协同学习能力,本文结合多步回溯Q(λ)方法和经典 CEQ,提出了一种全新的多智能体学习算法CEQ(λ)(correlated-equilibrium-Q(λ)),并将该算法应用于CPS功率指令最优分配问题。同时,为验证CEQ(λ)算法的应用优势,本文还引入了其他分配方法,利用 IEEE标准两区域模型及南方电网模型进行仿真比较分析。

1 多智能体CEQ(λ)学习算法原理

1.1相关均衡

1.1.1相关均衡的定义

马尔科夫决策过程中,如果每个智能体在所有智能体的动作概率分布基础上最大化自己的奖励值,由此所形成的动态平衡即为相关均衡。相关均衡数学描述为

式中,A−i=∏j≠iAj,Ai为智能体i的动作集合;ai为智能体i的动作;ia′为智能体i的任一可选动作,且表示除智能体i的其他智能体的集合;π 为均衡策略(即动作概率);Ri为智能体i的立即奖励函数。如果某一策略π 对于所有智能体i、所有动作ai、a−i∈Ai(π (ai)>0) 式(1)均成立,这一策略即为相关均衡动态平衡点。

1.1.2相关均衡的求解

相关均衡可以通过线性规划简易求取。目标函数的选择一般有四种[16]:最大化所有智能体的奖励值之和 uCEQ;最大化所有智能体奖励的最小值eCEQ;最大化所有智能体奖励的最大值pCEQ;最大化任意一个智能体奖励的最大值dCEQ。

约束方程组如式(1)所示,对于n个智能体、每个智能体动作集合有 m个元素的马尔科夫对策(Markov Games, MG),其动作对(即变量)总共有mn个,约束方程总共有nm(m−1)个。可以证明,对于任意马尔科夫对策至少存在一个相关均衡点[17,18]。

1.2多智能体CEQ(λ)学习算法

1.2.1CEQ学习算法

CEQ是基于马尔科夫过程模型的一种多智能体学习控制技术,通常是在相关均衡策略约束下进行Q值的迭代来学习最优控制策略。

CEQ算法的一般原理是:计算所有智能体当前状态下的Q值;在给定均衡目标函数下通过线性规划求解相关均衡;执行最优联合动作策略,并观察系统响应,返回奖励值与当前状态,具体如图1所示。

图1 多智能体CEQ算法原理Fig. 1 Theory of multi-agent CEQ algorithm

给定所有智能体 i∈N,所有状态 s∈S和动作a∈A(s)在时刻t的Q值Qit(s,a);给定均衡策略πt;给定均衡目标函数 f;相关均衡条件下,由 MG规则可定义 t+1时刻智能体 i的状态-动作值函数Qit+1(s,a)和状态期望函数Vit+1(s)[19]为

式中,γ 为折扣因子,0≤γ ≤1;Ri(s,a)为智能体 i在状态 s执行动作 a后得到的立即奖励函数值;P[s′|s,a]为状态s在执行动作a后转移到状态s′的概率

相关均衡策略的线性约束描述为对所有智能体i、所有动作ai、a−i∈Ai(π (ai)>0) 式(4)均成立。

1.2.2资格迹

资格迹的引入可有效解决 CEQ算法下各类机组时滞环节所带来的延时控制问题[20];同时,均衡过程的求取涉及到大规模线性规划问题,频繁的求解过程也相当费时。因此,本文选取相对简单的TD(λ)[21]资格迹更新算法,即

式中,et(s,a)为t时刻状态-动作对(s,a)下的资格迹;(st,at)为t时刻实际的状态-动作对;λ为衰减因子,0≤λ≤1。

1.2.3CEQ(λ)学习算法

多智能体 CEQ(λ)学习算法通过直接优化可迭代计算的状态-动作对值函数 Qj(s, a),在线寻求最优联合动作策略以期望折扣报酬总和最大。由式(2)~式(5)可推导出CEQ(λ)学习算法的迭代更新式为

式中,α为学习因子,是一个常量。

2 CPS指令多智能体动态优化分配算法

2.1CPS指令动态分配原理

图2[14]是一个跟踪控制系统,在每个AGC控制周期,首先由CPS控制器形成一个CPS总调节指令,然后再根据一定的优化算法把CPS总调节指令分配到各台AGC机组。

图2 AGC系统负荷动态优化分配过程Fig.2 Process of dynamic optimization of CPS order allocation

与文献[11]相比,本文对基于离散时间的分配过程数学模型进一步改进,不再使用分配因子矩阵,而是使用机组出力组合空间更大的原始矩阵,具体描述为

式中,t为离散时刻;ΔPerror−i为第 i台机组接收的CPS指令与该机组实际出力的差;E为功率差的二次方值在时间段 T内的累积方差;ΔPorder-Σ为 AGC系统CPS指令值(MW);ΔPorder-i为分配到第i台机组的调节指令(MW);rateiP+为第i台机组的上升调节速率限制(MW/min);rateiP−为第i台机组的下降调节速率限制(MW/min);ΔPGi为第i台机组的实际调节出力(MW);分别为第i台机组调节容量上、下限(MW)。

2.2基于CEQ(λ)学习的动态优化分配算法

2.2.1平衡机组与动作空间

受到式(8)的第一个约束,本文提出的多智能体 CEQ(λ)学习算法只针对其中的 n−1类机组进行学习,而第n类机组的CPS指令调节量为

本文定义第n类机组为平衡机组。为了使机组总的出力能够较快而且较经济的平衡负荷,一般选用水电和液化天然气等调节容量上下限较小且时延性较小、调节速率较高、调节费用较小的机组参与均衡学习,而平衡机组一般选用燃煤机组。

本文提出的控制动作集A由各类机组的动作决定,即A={A1A2… An-1},远比文献[11-15]中仅由有限个离散动作值的分配因子集合A的动作空间大得多,使得其学习算法能够寻得更优的均衡点。此外,文献[11-15]中分配因子的离散性对各机组的调节动作次数较频繁,不太适应于实际电力系统中,而本文控制器中每类机组的动作集都是离散的增减出力值,例如A1={ −20 −10 −5 0 5 10 20}MW,使得各机组的相邻调整值波动比较小,符合实际 AGC机组的功率调整需要。

2.2.2均衡选择函数

如前文提到,一般常用的均衡选择函数有四类uCEQ、eCEQ、pCEQ和dCEQ。第一类均衡选择函数uCEQ公平“对待”每类机组的报酬值,物理意义为最大化所有智能体报酬之和。后三类均衡选择函数都是最大化某一类机组的报酬值,而CPS总指令需要区域电网内所有 AGC调节机组协同分配承担。同时,从式(8)可以看出,目标函数是最小化所有机组的功率偏差值之和。因此,本文中相关均衡的均衡选择函数选用uCEQ,即,在任意状态s中,有

2.2.3奖励函数

由于参与学习的机组只有n-1,且要满足式(8)中所有机组的功率偏差值之和最小,因此,对参与学习的机组i,本文在CPS分配器中设计的评价奖励函数Ri为

式中,ΔPerror-Σ为所有机组接收的 CPS总指令与该机组实际总出力的差。

2.2.4参数设置

在 CEQ(λ)算法中,折扣因子γ、学习因子α 和衰减因子λ这三个参数选取的不同将直接影响到算法的收敛性能[20,21]。在CPS指令动态分配中,算法的参数主要设置如下。

(1)折扣因子γ :表征Q函数更新过程中对过去已得到奖励值的折扣,由于当前奖励值对功率分配过程的影响更大,当γ 接近于 1时,寻优效果更好[20]。仿真实验表明:当γ 落在区间[0.7, 0.9]范围内时,算法收敛性能最好,本文取γ =0.8。

(2)学习因子α:表征算法的寻优速度和稳定性,一般来说,α 越大,收敛速度越快,但容易陷入局部最优[21]。仿真实验表明:α 越小时,更能保证算法全局收敛稳定,本文在预学习时取α =0.1,在线学习时取α =0.001。

(3)衰减因子λ:表征算法能回溯过去信息的远近,λ越大,能回溯的历史信息越多,但收敛速度更慢[12]。仿真实验表明:当λ 在[0.3, 0.7]范围内时,算法的动态寻优性能更好,本文取λ =0.5。

2.2.5CEQ(λ)算法流程

在CPS指令动态分配过程中,多智能体CEQ(λ)算法可完整描述如下。

输入:均衡选择函数f;折扣因子γ;学习因子α;衰减因子λ;

输出:Q、V矩阵更新值;联合动作策略π*;

初始化:Q、V值矩阵;初始状态s;初始动作a。

Repeat

(1)确定当前状态s,单独执行动作策略ai;

(2)观察其他机组的联合动作对a−i、下一状态s′;

(3)由式(11)获得该类机组的立即奖励值R(s,a);

(4)由式(4)和均衡选择函数f求取相关均衡策略πsi*;

(5)对所有机组j,执行:

①按照式(2)更新值函数Vj(s,a);

②按照式(6)估计值函数误差δj;

③按照式(5)更新资格迹元素ej(s,a);

④按照式(7)更新值函数Qj(s,a);

(6)if 当前状态s和下一状态s′是同一状态

由第(5)步更新Q值再次求取相关均衡策略πs′*;

else

执行第(7)步;

(7)由πsi*选择该机组最优动作ai′;

(8)s=s′,ai=ai′;

Forever

3 仿真算例

3.1标准两区域互联系统仿真研究

3.1.1仿真模型

以典型的 IEEE两区域互联系统的负荷频率控制模型[22]作为研究对象,原模型中仅有 1台机组模拟发电环节,在此算例中首先选择在A区域进行预学习仿真,所以在A区域使用三种机组模型替代原来的1台机组,分别为燃煤、液化天然气(Liquefied Natural Gas,LNG)和水电机组[11],其中三种机组模型在参考文献[20]中建立,B区域仍使用原来的1台机组模型。系统模型相关参数见表1,系统基准容量为 10 000MW。参考广东电网调度中心相关调研数据,按等比例计算三种类型机组的调节容量和调节速率,相关参数见表2。本文使用Simulink进行建模仿真研究。

表1 两区域互联系统模型参数Tab.1 System parameters for the two-area LFC model

表2 三种类型机组的相关参数Tab.2 Parameters for three units’ model

3.1.2仿真设计

算法以式(8)为控制目标,由S-function模块编写。学习步长一般为 AGC控制周期,标准算例中取8 s。

CEQ(λ)学习算法均选择燃煤机组作为平衡机组,LNG机组与水电机组参与相关均衡强化学习,其中输出动作离散集A1=A2={−100 −50 −20 −10 −5 0 5 10 20 50 100}MW,联合动作值个数有11×11=121个。因此,相关均衡约束方程总共有2× 11×(11−1)=220个。算法的状态空间以ΔPorder−Σ为输入状态量,并将其离散化为(− ∞, −1 000)、(−1 000, −500)、(−500, 0)、(0, 500)、(500, 1 000)和(1 000, +∞)。

3.1.3仿真实例

强化学习算法有在线和离线两种预学习模式,在线模式因大幅度最优策略搜索会引起系统振荡,危害系统安全性,所以本文控制器首先采用离线模式的预学习,直到完成足够迭代次数,收敛于最优联动策略π*,再投入到真实仿真环境参与在线优化运行。

1)周期性负荷扰动

在预学习阶段,对A区域各施加周期为8 000s,幅值±1 000MW的连续阶跃负荷扰动,以尽可能地遍历更多的负荷扰动场景。

图3 连续阶跃负荷扰动仿真Fig.3 A simulation with continuous and stepped load disturbance

图3a和图3b分别给出了同一扰动下应用Q(λ)学习算法和CEQ(λ)学习算法的系统机组出力曲线。在两种算法下,机组的实际出力均能较好跟踪CPS功率指令,但是 CEQ(λ)算法较 Q(λ)算法收敛速度快,此外,两种算法在收敛后,CEQ(λ)功率曲线相对比较平滑。可见,基于各机组相关均衡的CEQ(λ)算法具有更快的寻优速度。此外,如图3c所示,在整个学习时间内,相对 Q(λ)算法,CEQ(λ)算法的CPS1曲线也比较光滑,而且在收敛后CPS1值比较高。可见在相关均衡学习下,CEQ(λ)算法找到了比Q(λ)算法更优的均衡点。

2)阶梯式递增负荷扰动

在 A区域加入一组阶梯式递增的突增负荷扰动,检验算法的动态性能,如图4所示,每次负荷突增的幅度为800MW。

图4 阶梯式递增负荷扰动仿真Fig.4 A simulation with increasing step load disturbance

图 4a给出了阶梯式递增负荷扰动下应用 Q(λ)学习算法和CEQ(λ)学习算法的CPS指令曲线和系统机组出力曲线。从图中可以看出,Q(λ)算法时的CPS指令和实际发电总功率并不能很好地跟踪负荷扰动,总的输出曲线波动较大,而CEQ(λ)算法下的CPS指令和实际发电总功率基本重合同时基本都能跟踪到负荷扰动,说明在CEQ(λ)学习算法下找到更优的联合动作策略,图4b的CPS1实时值曲线也充分说明了这一点。

3)随机负荷扰动

在A区域加入一组随机的负荷扰动,检验算法的动态性能如图 5所示,第 1个负荷扰动幅值为500MW,第 2个负荷扰动幅值为 1 000MW,第 3个负荷扰动幅值为−1 000MW。

图5 随机负荷扰动仿真Fig.5 A simulation with stochastic load disturbance

图 5a给出了随机递增负荷扰动下应用 Q(λ)学习算法和CEQ(λ)学习算法的CPS指令曲线和系统机组出力曲线。从图中可以看出,Q(λ)和 CEQ(λ)算法均能较好地跟踪负荷扰动,但相对于 Q(λ)算法,CEQ(λ)算法下的实际总发功率能更好地动态匹配随机负荷扰动,此外,图5b中的CPS1实时值曲线也说明了 CEQ(λ)较 Q(λ)算法下找到更优的联合动作策略。

在周期性负荷、阶梯式递增负荷扰动和随机负荷扰动下,仿真区域A的统计性指标汇总见表3,其中,|Δf |、|EACE|、CPS1均为仿真时间内平均值。

表3 区域A仿真CPS指标对照表Tab.3 CPS compliance of area A

3.2南方电网实例仿真研究

3.2.1仿真模型

本节将在南方电网的整体框架下,以广东电网为主要研究对象。参考广东电网参与 AGC的机组的调研数据,根据机组类型、容量、调节速率及两次调频时延分为10个机群,具体参数见表4。

表4 广东电网AGC机组相关参数Tab.4 AGC units’ parameters in Guangdong power grid

3.2.2仿真设计

由于模型涉及的机群较多,直接利用 CEQ(λ)学习算法将会出现维数灾问题。因此,本节按调频时延将十类机群划分为燃煤、燃气、燃油和水电四种类别的机群。算法先对四种类别机组进行CPS指令分配,再根据得到的调节指令分配各类别到各自机群。其中,四种类别的学习过程中以第1类别为平衡机组,火电1选为类别1中的平衡机组。当机群获得功率指令后,本文采用相同可调容量比例分配方法(PROP)[9]把功率指令分配到各个实际的机组。

CEQ(λ)学习算法经过预学习后在丰水期和枯水期投入运行,自动进行在线更新。其中,丰水期水电机组可调容量为1 000MW,枯水期下降为500MW。

此外,本节还引入 PROP[8]与 Q(λ)算法[12]进行比较。在丰水期,PROP的分配因子向量为(0.21, 0.15, 0.20, 0.14, 0.08, 0.05, 0.05, 0.04, 0.05, 0.03),枯水期则变为(0.22, 0.15, 0.21, 0.14, 0.08, 0.06, 0.06, 0.04, 0.02, 0.02)。

3.2.3仿真实例

采用周期性的随机负荷扰动进行统计实验,扰动负荷的周期为1 000s,幅值不超过1 500MW。选择24h为考核周期,并以10min为CPS考核时段,广东电网统计性实验指标汇总见表5。其中:|Δf |、 |EACE|、CPS1分别为整个考核周期内频率偏差、区域控制误差(ACE)平均值、控制性能标准-指标1,CCPS2、CCPS为 24h内 CPS2、CPS考核合格率百分数,CCPS2考核标准阈限值 L10取南方电网总调推荐值288MW。

表5 丰、枯水期广东电网仿真结果CPS指标对照表Tab.5 CPS compliance of Guangdong power grid

由表5可知:在丰水期内,强化学习算法Q(λ) 和CEQ(λ)的CPS考核合格率均为100%,优于PROP算法。这也说明了基于强化学习的优化分配算法的在线学习能力,而采用固定比例的分配方式并不能较好适应复杂随机的电网环境。同时,从考核指标|Δf |、|EACE|和CPS1可以看出,相比Q(λ)算法,CEQ(λ)算法找到了更优的联合动作策略。

此外,从表5可以看出:由于水资源的减少,枯水期内三种方法的各项指标都有所下降。然而,CEQ(λ)算法的CPS考核合格率仍为100%,并且在整体控制效果上CEQ(λ)算法仍优于其他两种算法。可见,CEQ(λ)学习算法下的机组跟踪负荷的能力受水电机组可调容量的影响较小。

4 结论

本文提出了一种全新的多智能体 CEQ(λ)协同学习算法,并应用到互联电网的CPS指令动态优化分配问题中,相比单智能体算法,具有如下特点:

1)基于相关均衡的CEQ(λ)算法寻优速度更快,在线学习能力更好,更加符合CPS指令分配的实时滚动优化,能有效提高CPS的考核合格率。

2)CEQ(λ)算法下煤电机组承担负荷扰动的比重较大,同时受水电机组的调节容量影响较小,更加适用于煤电占优、水电资源匮乏的互联电网CPS指令动态分配。

3)当同时存在多个控制目标时,可以以加权的方式重新设计每个智能体的奖励函数,从而解决CEQ(λ)算法下多机组的 CPS指令动态分配的多目标优化问题。

[1] Jaleeli N, Vanslyck L S. NERC’s new control performance standards[J]. IEEE Transactions on Power Systems, 1999, 14(3): 1091-1099.

[2] 唐悦中, 张王俊. 基于 CPS的 AGC控制策略研究[J]. 电网技术, 2004, 28(21): 75-79. Tang Yuezhong, Zhang Wangjun. Research on control performance standard based control strategy for AGC[J]. Power System Technology, 2004, 28(21): 75-79.

[3] 高宗和, 滕贤亮, 涂力群. 互联电网 AGC分层控制与CPS控制策略[J]. 电力系统自动化, 2004, 28(1): 78-81. Gao Zonghe, Teng Xianliang, Tu Liqun. Hierarchical AGC mode and CPS control strategy for interconnected power systems[J]. Automation of Electric Power Systems, 2004, 28(1): 78-81.

[4] 李滨, 韦化, 农蔚涛. 基于现代内点理论的互联电网控制性能评价标准下的 AGC控制策略[J]. 中国电机工程学报, 2008, 28(25): 56-61. Li Bin, Wei Hua, Nong Weitao. AGC control strategy under control performance standard for interconnected power grid based on optimization theory[J]. Proceedings of the CSEE, 2008, 28(25): 56-61.

[5] 付鹏武, 周念成, 王强钢, 等. 基于时滞模型预测控制算法的网络化 AGC研究[J]. 电工技术学报, 2014, 29(4): 188-195. Fu Pengwu, Zhou Niancheng, Wang Qianggang, et al. Research on networked AGC system based on delay model predictive control algorithm[J]. Transactions of China Electrotechnical Society, 2014, 29(4): 188-195.

[6] 丁冬, 刘宗歧, 杨水丽, 等. 基于模糊控制的电池储能系统辅助 AGC调频方法[J]. 电力系统保护与控制, 2015, 43(8): 81-87. Ding Dong, Liu Zongqi, Yang Shuili, et al. Battery energy storage aid automatic generation control for load frequency control based on fuzzy control[J]. Power System Protection and Control, 2015, 43(8): 81-87.

[7] Zeynelgil H L, Demiroren A, Sengor N S. The application of ANN technique to automatic generation control for multi-area power system[J]. International Journal of Electrical Power & Energy Systems, 2002, 24(5): 345-354.

[8] 席磊, 余涛, 张孝顺, 等. 基于狼爬山快速多智能体学习策略的电力系统智能发电控制方法[J]. 电工技术学报, 2015, 30(23): 93-101. Xi Lei, Yu Tao, Zhang Xiaoshun, et al. A fast multi-agent learning strategy base on DWoLF-PHC(λ) for smart generation control of power systems[J]. Transactions of China Electrotechnical Society, 2015, 30(23): 93-101.

[9] 高宗和. 自动发电控制算法的几点改进[J]. 电力系统自动化, 2001, 25(22): 49-51. Gao Zonghe. Some algorithmic improvements on AGC software[J]. Automation of Electric Power Systems, 2001, 25(22): 49-51.

[10] 刘斌, 王克英, 余涛, 等. PSO算法在互联电网CPS功率调节中的应用研究[J]. 电力系统保护与控制, 2009, 37(6): 36-39. Liu Bin, Wang Keying, Yu Tao, et al. Study on the application of particle swarm optimization algorithm to power regulation of CPS in interconnected power grids[J]. Power System Protection and Control, 2009, 37(6): 36-39.

[11] 余涛, 王宇名, 刘前进. 互联电网 CPS调节指令动态最优分配 Q-学习算法[J]. 中国电机工程学报, 2010, 30(7): 62-69. Yu Tao, Wang Yuming, Liu Qianjin. Q-learningbased dynamic optimal allocation algorithm for CPS order of interconnected power grids[J]. Proceedings of the CSEE, 2010, 30(7): 62-69.

[12] 余涛, 王宇名, 甄卫国, 等. 基于多步回溯 Q学习的自动发电控制指令动态优化分配算法[J]. 控制理论与应用, 2011, 28(1): 58-69. Yu Tao, Wang Yuming, Zhen Weiguo, et al. Multi-step backtrack Q-learning based dynamic optimal algorithm for auto generation control order dispatch[J]. Control Theory & Applications, 2011, 28(1): 58-69.

[13] 余涛, 王宇名, 叶文加, 等. 基于改进分层强化学习的 CPS指令动态优化分配算法[J]. 中国电机工程学报, 2011, 31(19): 90-96. Yu Tao, Wang Yuming, Ye Wenjia, et al. Multiobjective dynamic optimal dispatch method for cps order of interconnected power grids using improved hierarchical reinforcement learning[J]. Proceedingsof the CSEE, 2011, 31(19): 90-96.

[14] Yu T, Wang Y M, Ye W J, et al. Stochastic optimal generation command dispatchbased on improved hierarchical reinforcement learning approach[J]. IET Generation, Transmission & Distribution, 2011, 5(8): 789-797.

[15] Bassar T, Olsder G J. Dynamic non-cooperative game theory[M]. London: SIAM Series in Classics in Applied Mathematics, 1999.

[16] Greenwald A, Hall K, Zinkevich M. Correlated Q-learning[J]. Journal of Machine Learning Research, 2007, 1: 1-30.

[17] Keiding H, Peleg B. Correlated equilibrium of games with many players[J]. International Journal of Game Theory, 2000, 29(3): 375-389.

[18] Littman M. Markov games as a framework for multiagent reinforcement learning[C]//Proceedings of the Eleventh International Conference on Machine Learning, 1994: 157-163.

[19] 刁浩然, 杨明, 陈芳, 等. 基于强化学习理论的地区电网无功电压优化控制方法[J]. 电工技术学报, 2015, 30(12): 408-414. Diao Haoran, Yang Ming, Chen Fang, et al. Reactive power and voltage optimization control approach of the regional power grid based on reinforcement learning theory[J]. Transactions of China Electrotechnical Society, 2015, 30(12): 408-414.

[20] Tao Y, Bin Z, Ka W C, et al. Stochastic optimal relaxed automatic generation control in non-Markov environment based on multi-step Q(λ) learning[J]. IEEE Transactions on Power Systems, 2011, 26(3): 1272-1282.

[21] 张汝波. 强化学习理论及应用[M]. 哈尔滨: 哈尔滨工程大学出版社, 2001.

[22] Weissgerber J. Dynamic models for steam and hydro turbines in power system studies[J]. IEEE Transactions on Power Apparatus and Systems, 1973, 92(6): 1904-1951.

Dynamic Optimal Allocation Algorithm for Control Performance Standard Order of Interconnected Power Grids Using Synergetic Learning of Multi-Agent CEQ(λ)

Zhang Xiaoshun1Yu Tao1Tang Jie2
(1. College of Electric Power South China University of Technology Guangzhou 510640 China 2. Shaoguan Power Supply Bureau Guangdong Power Grid Company Shaoguan 512026 China)

Although automatic generation control under CPS standard can be addressed by classic reinforcement learning Q(λ) algorithm, such problems as slow convergence and small optimal searching space still exist from the view point of multi-agent equilibrium solution. Therefore, this paper proposes correlated-equilibrium-Q(λ) (CEQ(λ)) learning. According to the response time delay of thermal plants, AGC adjustment units are first divided into different kinds of unit, such as coal, gas, hydro and so on. Then dynamic allocation orders of generators are analyzed by CEQ(λ) learning based multi-agent control framework. Simulation tests of two-area load frequency control model and China South Power Grid demonstrate that the CEQ(λ)-learning algorithm is more suitable for CPS instruction dynamic optimal allocation in stochastic and complex interconnection network, and it can enhance the robustness and adaptability of power systems in CPS assessment.

Correlated-equilibrium, automatic generation control system, synergetic learning, reinforcement learning, stochastic optimization

TM71

张孝顺 男,1990年生,博士研究生,研究方向为人工智能、强化学习、多智能体一致性等算法在电力系统中的应用。

E-mail: xszhang1990@sina.con(通信作者)

余 涛 男,1974年生,教授,博士生导师,研究方向为复杂电力系统的非线性控制理论和仿真。

E-mail: taoyul@scut.edu.cn

国家重点基础研究发展计划(973计划)(2013CB228205),国家自然科学基金(51177051、51477055)和中国南方电网科技项目资助。

2014-12-31 改稿日期 2015-10-12

猜你喜欢

扰动指令分配
Bernoulli泛函上典则酉对合的扰动
一类四次扰动Liénard系统的极限环分支
带扰动块的细长旋成体背部绕流数值模拟
应答器THR和TFFR分配及SIL等级探讨
(h)性质及其扰动
遗产的分配
一种分配十分不均的财富
杀毒软件中指令虚拟机的脆弱性分析
中断与跳转操作对指令串的影响
一种基于滑窗的余度指令判别算法