APP下载

多目标执行依赖启发式动态规划励磁控制

2012-04-13林小峰谢树平

电力系统及其自动化学报 2012年3期
关键词:最优控制端电压性能指标

林小峰,谢树平

(广西大学电气工程学院,南宁 530004)

在工程实际中,大多数最优控制问题是通过多个性能指标来描述的,而往往各个性能指标之间会出现不相容或者冲突的情况。另外这些性能指标之间由于表示的物理意义不一致,它们的单位和标度也是不一致的。以上情况就为多目标最优控制问题的求解带来了困难。

基于Bellman最优性原理,多目标动态规划是解决多目标最优控制问题非常有效的工具。在过去的几十年中,多目标最优控制取得了一些成果。Khargonekar和Liao等研究了线性系统的多目标最优控制问题。Liao提出了一种微分动态规划方法来解决多目标最优控制问题。然而这些方法要求性能指标函数必须具有二阶连续导数,并且仍然按照传统动态规划在时间上由后往前的逆时序求解方法,这就为实时控制带来了很大的局限性。另外动态规划方法随着系统状态和动作空间的增大存在维数灾问题。多目标最优化问题中,向量值型性能指标函数使得维数灾更加严重。

自适应动态规划ADP(adaptive dynamic programming)是Werbos在动态规划基础上结合神经网络和强化学习提出的一种自适应评价设计方法。自适应动态规划方法有四种基本结构,分别为:启发式动态规划HDP(heuristic dynamic programming)、二次启发式动态规划DHP(dual heuristic dynamic programming)、执行依赖启发式动态规划ADHDP(action-dependent heuristic dynamic programming)、执行依赖二次启发式动态规划ADDHP(action-dependent dual heuristic dynamic programming)。它可以解决以上提到的维数灾问题;并且在时间上是由前往后顺时序计算,可以递推优化运行,适合实时控制的要求。本文基于自适应动态规划提出一种多目标ADHDP算法来解决多目标最优控制问题。

励磁系统对于同步发电机的安全运行及其所在电力系统的稳定性有重要作用。励磁控制通常有两个主要目的,其一是维持发电机端电压在设定值上无静差稳定运行;其二则是为系统提供正阻尼电磁力矩。即既要准确跟踪端电压参考值,又要快速使系统稳定,同时发挥电压自动调节器AVR(automatic voltage regulator)和电力系统稳定器PSS(power system stabilizer)的功能。同步发电机励磁控制在同时考虑AVR和PSS两项性能指标的情况下可以用多目标最优控制问题来描述。传统最优控制求解都是基于电力系统局部线性化模型来设计的,只能保证在运行点附近具有良好性能。鉴于多目标ADHDP无需对象模型,可自适应优化控制性能等特点,本文将其应用在同步发电机的励磁控制系统中,取得了较好的效果。

1 多目标最优控制的原理

本文考虑的多目标最优控制问题形如

其中x0给定,控制集合U=(u′0,u′1,…)′,状态集合X=(x′0,x′1,…)′,状态变量xt∈Rn,控制变量ut∈Rm,有界可测噪声ξi∈Rp。

在多目标最优控制问题(P)中,有k个性能指标函数,每一个性能指标函数满足

使得向量型性能指标函数最小化,对应的状态为

定义 解组合(X*,U*)为最优,如果不存在其他可行解(X,U)使得对于所有i,J[i](X,U)≤J[i](X*,U*)。

此处,定义

令U*∈EZ,X*为相应的状态序列。那么对于任意时刻t,控制序列(u*t+1,u*t+2,…)重构出以下问题的最优解。

2 多目标ADHDP

2.1 原理及推导过程

基于以上最优性必要条件定义,提出一种新型的递推算法——多目标执行依赖启发式动态规划。对于多目标性能指标函数而言,由于各个性能指标函数之间可能存在着相互冲突或者互为代价的情况,并且更为严重的是在非线性系统中存在随机干扰ξt,因此动态规划方法难于对其求解。为能够使用动态规划算法来求解这类向量型性能函数的最优化问题,引入向量的欧几里德范数(Euclid-norm),将向量型性能指标函数转化为适合动态规划求解的标量型性能指标函数。向量型函数的2-范数(2-norm)表示为

由于上面假设yt≥0,问题(P1(t))的向量型最小形式可以转化为

据此定义效用函数

因此上面最优化问题又可以重写成

上述性能指标函数可以变形为

根据Bellman最优性原理

即假设时间t+1以后的最优代价函数J*(t+1)已知。因此,在t时刻的最优控制u*(t)可以表示为

以上推导过程即为动态规划的求解思路,它要求知道t+1以后的最优代价J*(t+1)。动态规划的求解是一种由后往前的逆时序求解,需要大量的存储空间和计算时间,这必然会出现前言所述的维数灾问题,也无法达到实时性的要求。因此本文针对此多目标最优控制问题提出了一种递推形式的多目标ADHDP。该方法根据自适应评价设计的思想,用一种带参数的函数结构来近似事先未知的代价函数J*(t+1)。它通过递推更新的方法在控制过程中不断更新和逼近最优代价函数和求解最优控制。

图1为自适应评价设计原理,其中评价模块为带参数函数近似结构,用来获得代价函数;执行模块也是带参数函数结构,用于求解如式(13)所示的最小化问题。自适应评价设计的机理就是通过不断的调整两个模块函数近似结构的内部参数来逼近最优控制量u*(t)。

图1 自适应评价设计原理Fig.1 Adaptive critic design principle

评价模块的逼近过程是通过最小化误差函数,即

当EC趋近于0的时有

这与式(11)表示的代价函数相同。实现了用函数结构逼近代价函数的任务。

对于执行模块,也可以通过函数近似结构逼近的方法来获取最优控制u*(t)。即通过最小化代价函数来调整参数获取u*(t)。由于代价函数为正数值,所以设定其目标值为0。

2.2 基于人工神经网络的实现

人工神经网络是一种可以无限逼近任意非线性函数的一种函数映射结构。本文即通过逐次调整人工神经网络的权重来逼近代价函数J*(t+1)和求解最优控制u*(t)。本文采用三层前馈神经网络,其中隐含层神经元个数为l,输入层到隐含层的连接权矩阵为υ,隐含层到输出层的连接矩阵为W,则其输出可以表示为

其中σ(υTχ)∈Rl,[σ(z)]i为激活函数,[σ(z)]i=由此该多目标ADHDP方法可以用图2表示。

图2 ADHDP结构Fig.2 ADHDP structure

(1)评价网络

评价网络是对性能指标函数(12)的近似,其输出可以表示为

其目标为U(x(t),u(t))+J(x(t+1)),则评价网络的误差可以表示为

使用梯度下降法来调整权重,则评价网络的更新规律表示为

式中:lC>0为评价网络的学习率;wC(t)是评价网络t时刻的权矩阵。

(2)执行网络

执行网络的输入为状态x(t),输出为最优控制u(t)。网络输出u(t)可以表示为

执行网络的输出目标定义为0,因此其误差函数定义为

同样应用梯度下降法,与评价网络类似,可以得到类似的权值更新规律,

2.3 多目标ADHDP动态规划参数训练过程

以上可以看出需要对两个网络权重进行调整使之得到理想的可接受的性能。本文给出的训练方法是执行网络和评价网络交替进行的递进方式。

步骤1 初始化网络权重,给出精度ε。

步骤2 计算u(t),J(t),U(t)。

步骤3 计算u(t+1),进而计算J(t+1)。

步骤4 根据式(19)和式(24)定义的误差,按照上述权值调整规律调整评价网络权重。

步骤5 转步骤2。

3 同步发电机的励磁控制

同步发电机系统是一个典型的非线性系统,包含很强的非线性特性和随机干扰。在工程上通常考虑如图3所示的单机无穷大电力系统模型来研究同步发电机的控制问题。

图3 单机-无穷大电力系统模型Fig.3 Single machine infinite-bus power system

同步电机的电气部分采用六阶模型。该模型考虑了定子、磁场及转子绕组的动态特性。使用随转子转动的d-q坐标系。

其电压方程组为

式中:Vd为定子d轴端电压;Vq为定子q轴端电压;V′f,d为励磁绕组端电压相对定子绕组的等效值;V′k,d为阻尼绕组d轴端电压相对于定子绕组的等效值;V′k,q1、V′k,q2为阻尼绕组q轴端电压相对于定子绕组的等效值;id、iq分别为定子绕组d、q轴电流;i′f,d为励磁绕组相对于定子绕组的等效电流值;i′k,d为阻尼绕组d轴电流相对于定子绕组的等效值;i′k,q1、i′k,q2为阻尼绕组q轴电流相对于定子绕组的等效值;Rs为定子每相绕组电阻;R′k,d、R′k,q1、R′k,q2为阻尼绕组电阻相对于定子绕组的等效值;φd为定子d轴端总磁链;φq为定子q轴总磁链;φ′f,d为励磁绕组总磁链相对定子绕组的等效值;φ′k,d为阻尼绕组d轴总磁链相对于定子绕组的等效值;φ′k,q1、φ′k,q2为阻尼绕组q轴总磁链相对于定子绕组的等效值。

本文考虑励磁功率系统为快速励磁系统,由于这种系统的励磁时间常数基本接近为零,励磁电压与调节器输出可以视为线性关系,即

首先要定义多目标问题的性能指标函数,而对于同步发电机来说,首先要考虑的是端电压的跟踪稳定,然后考虑的是频率的稳定。因此,可将性能指标函数定义为

式中:ΔV(t)是t时刻端电压与参考端电压之间的差值;Δω(t)为相对于同步转速的偏差;uR为控制器的输出;ue则为对uR的一个稳态估计值,即其理想值。这里需要说明的是,uR也是通过一个神经网络来估算的;而如果系统是一个仿射系统并且其模型已知的情况下,可以直接求得。本文使用神经网络来实现。

按照式(8)所示方法获得性能指标函数为

执行网络的输入选取了参考电压和同步转速。另外还选取了三个时间拍的端电压跟踪偏差及同步转速的偏差,在其中引入各自的误差及误差的差分,可以保证系统跟踪的同时还能有一定的趋势预测作用,保证系统的稳定。因此执行网络输入为Vr(t),ΔV(t),ΔV(t-1),ΔV(t-2),ω0Δω(t),Δω(t-1),Δω(t-2),其输出为uR。评价网络输入为ΔV(t),Δω(t),uR(t)-ue(t),输出为J。

评价网络采用BP调整算法的三层前馈网络,其拓扑结构为3-8-1,如图4所示。

图4 评价网络Fig.4 Critic network

评价网络的正向计算过程为

式中:Cin(t)=[uR(t)-ue(t)]ΔV(t)Δω(t)]′,Ch1j和Ch2j分别表示隐藏层第j个神经元的输入和输出;Wc1输入层到隐藏层的权值矩阵;Wc2隐藏层到输出层的权值矩阵。

根据式(20)定义的误差,评价网络采用梯度下降法进行训练,其权值更新过程见如下推导:

(1)隐藏层到输出层的权值矩阵Wc2。

(2)输入层到隐藏层的权值矩阵Wc1。

执行网络也是采用BP调整算法的三层前馈网络,其拓扑结构为8-30-1。类似地

执行网络的前向计算过程为

式中:Ah1j(t)、Ah2j(t)分别为执行网络隐藏层第个神经元的输入和输出;Wa1为执行网络输入层到隐藏层的权值矩阵;Wa2为执行网络隐藏层到输出层的权值矩阵。

通过最小化式(24)定义的误差的,同样采用梯度下降法。

(1)执行网络隐藏层到输出层的权值矩阵Wa2。类似地,可以得到

(2)执行网络输入层到隐藏层的权值矩阵Wa1。

4 数值仿真

根据以上所描述的多目标自适应动态规划方法,在单机无穷大系统上进行仿真研究。单机无穷大系统中,发电机参数为Pn=200 MVA,Vn=16.8 k V(rms),fn=50 Hz,其仿真结果见图5~图7。

(1)初始运行学习过程 多目标自适应动态规划方法是在没有先验知识的情况下投入运行的,主动学习系统动态特性,自适应学习控制律。下面是在初始条件全部为零的情况下的投入运行到稳定状态的系统曲线,见图5。

图5 初始运行与学习Fig.5 Initial running and learning

图6 阶跃扰动Fig.6 Step disturbance

图7 三相短路扰动Fig.7 Three phase short circuit disturbance

(2)端电压阶跃扰动 此项实验主要考察在发电机参考电压发生变化时,发电机端电压Vt的跟踪特性和稳态精度。同时也考察转速偏差Δω的变化。实验给出10%的阶跃,通过图6可以看出,系统能够快速无静差跟踪参考值,并且具有较好的动态特性。

(3)三相短路扰动 在线路侧发生三相短路0.1 s后,切除短路重新合闸成功后的机端电压和转速偏差的变化响应,见图7,系统很快地恢复机端电压并且具有很好的动态稳定性,系统动态响应特性较好。

5 结语

多目标执行依赖启发式动态规划方法无需被控对象数学模型,通过递推方式逐步优化系统性能,并且随着对象特性的改变自适应调整控制器参数。在多目标的处理方面成功地应用2-范数形式重新推导了ADHDP算法,为带向量型性能指标函数的最优控制问题的求解提供了一种可行方法。最后,该方法在同步发电机励磁控制系统的仿真中取得了良好的性能,验证了其有效性。

[1] 李志民,卢曦,孙勇,等(Li Zhimin,Lu Xi,Sun Yong,et al).同步发电机云模型励磁控制器的设计(Design of cloud model excitation controller for synchronous generator)[J].电力系统及其自动化学报(Proceedings of the CSU-EPSA),2010,22(3):91-95.

[2] 王兴贵,黄忠良(Wang Xinggui,Huang Zhongliang).同步发电机励磁系统的智能变结构控制(Intelligent sliding mode variable structure control for synchronous generator excitation system)[J].电力系统及其自动化学报(Proceedings of the CSU-EPSA),2006,18(6):79-82.

[3] 杨伟,赵虎,刘俊(Yang Wei,Zhao Hu,Liu Jun).发电机组励磁与汽门协调控制器的设计(Design of coordinated controller of generators'excitation and valve)[J].电力系统及其自动化学报(Proceedings of the CSU-EPSA),2010,22(4):107-112.

[4] Wei Qinglai,Zhang Huaguang,Dai Jing.Model-free multiobjective approximate dynamic programming for discrete time nonlinear systems with general performance index functions[J].Neurocomputing,2009,72(7/8/9):1839-1848.

[5] 姚舜才,潘宏侠(Yao Shuncai,Pan Hongxia).粒子群优化同步电机分数阶鲁棒励磁控制器(Fractional order PID controller for synchronous machine excitation using particle swarm optimization)[J].中国电机工程学报(Proceedings of the CSEE),2010,30(21):91-97.

[6] 陈前,毛承雄,陆继明,等(Chen Qian,Mao Chengxiong,Lu Jiming,et al).基于改进Elman网络的最优励磁控制器(Linear optimal excitation controller based on modified Elman neural network)[J].大电机技术(Large Electric Machine and Hydraulic Turbine),2007,(3):51-55.

[7] 李啸骢,郭栋,韦化,等(Li Xiaocong,Guo Dong,Wei Hua,et al).超导磁储能与发电机励磁的多指标非线性协调控制(Multi-index nonlinear coordinated control for SMES and generator excitation)[J].中国电机工程学报(Proceedings of the CSEE),2007,27(28):29-33.

[8] Liao L-Z,Shoemaker C A.Convergence in unconstrained discrete-time differential dynamic programming[J].IEEE Trans on Automatic Control,1991,36(6):692-706.

[9] Liao L-Z,Li D.Adaptive differential dynamic programming for multiobjective optimal control[J].Automatica,2002,38(6):1003-1015.

[10]Al-Tamimi A,Lewis F L,Abu-Khalaf M.Discretetime nonlinear HJB solution using approximate dynamic programming:Convergence proof[J].IEEE Trans on Systems,Man and Cybernetics,2008,38(4):943-949.

猜你喜欢

最优控制端电压性能指标
条件平均场随机微分方程的最优控制问题
沥青胶结料基本高温性能指标相关性研究
带跳跃平均场倒向随机微分方程的线性二次最优控制
基于CPSO-RBF神经网络喷氨量的最优控制
锂离子电池组充电均衡电路及其均衡策略研究
人工心脏无位置传感器无刷直流电动机非导通相端电压分析
储热水箱分层性能指标的研究进展
WebGIS关键性能指标测试技术研究
采用最优控制无功STATCOM 功率流的解决方案
计算长电缆电机端电压的递推算法