APP下载

深度强化学习增强的电力系统研究*

2022-06-24都小利

山西电子技术 2022年3期
关键词:马尔科夫能源管理代理

程 琳,唐 毅,都小利

(国网安徽省电力有限公司培训中心,安徽 合肥 230022;2.安徽电气工程职业技术学院,安徽 合肥 230051)

1 背景介绍

电力系统是一个复杂的动态大型电气元件网络,经历数百年的发展。在此期间,经济、技术、环境和政治激励措施推动传统电网转变为更复杂、更健壮、更高效和更可持续的智能电网[1-3]。同时,智能电网促进了所有参与者之间的双向能量流,并伴随着双向信息流[4]。包括生产商、消费者、输配电系统运营商,这些因素给电力系统带来了不同方面的问题。首先,可再生能源的高渗透率给电力系统带来更大的不确定性。此外,对电力市场的放宽管制和客户的积极参与使得找到允许整合分布式能源资源的解决方案更加复杂[5-6]。为解决这些问题,需要有效的方法来规划和运行网格。这种持续的电网转型导致了业务交易和电力物理流动的不确定性和复杂性[7]。

2 深度强化学习

深度强化学习结合深度学习的感知功能和强化学习的决策能力。它更接近人类的思维方式,被认为是真正的人工智能。深度强化学习的基本框架如图1所示。

强化学习用于计算最大化满意度标准的行为策略,同时,通过与给定环境的反复试验进行交互,可以获得长期的奖励总和。为实现这些功能,强化学习框架由一个决策者组成,称为代理,在由状态St建模的环境中运行。代理能够根据当前状态St采取某些行动。在时间t选择一个动作后,代理收到一个标量奖励rt+1并发现自己处于一个新状态st+1中,该状态取决于当前状态和选择的动作,如图1所示。

图1 深度学习网络架构

2.1 马尔科夫决策过程

满足马尔科夫性质的马尔科夫决策过程是强化学习的一种基本形式。马尔科夫性质意味着过程的未来只取决于当前状态。

图2 马尔科夫决策过程

它可以描述为:

P(st+1|s0,a0,…st,at)=P(st+1|st,at).

(1)

其中P是状态转移概率。

在每个阶段,代理采取一个行动来改变它在环境中的状态并提供奖励。为了进一步处理奖励值,提出了价值函数和最优策略。

2.2 价值函数与最优策略

为最大化当前时间t后的长期累积奖励,在时间T结束的有限时间范围的情况下,回报Rt等于:

(2)

为找到最优策略,一些算法基于价值函数V(s),它表示代理达到给定状态s的好处。这样的函数取决于代理遵循的实际策略π:

(3)

类似地,动作值函数Q表示在策略π下在状态s中采取动作a的值

Qπ(st,at)=E[Rt|st=s,at=a]=

(4)

在Q-学习算法中,Q函数可以用贝尔曼方程的迭代形式表示:

Qπ(st,at)=E[rt+1+γQπ(st+1,at+1)|st,at].

(5)

最优策略π是在长期内实现最大累积奖励的策略:

π*=argmaxVπ(s).

(6)

此时,最佳价值函数和动作价值函数将是:

V*(s)=maxVπ(s).

(7)

Q*(s,a)=maxQπ(s,a).

(8)

2.3 深度强化学习算法

基于价值的方法通过在每次迭代中改进价值函数,直到价值函数收敛,从同一环境中采样的任何轨迹中学习。对于表格RL,例如Q-learning,Q函数的迭代过程如式(9)所示,而在DRL中,它的更新过程如式(10)所示。此时,目标函数可以定义为式(11)。

Q(s,a)←Q(st,at)+α[rt+1+

γmaxQ(st+1,a)-Q(st,at)].

(9)

θt+1=θt+α(rt+1+γmaxQ(st+1,a,θ)-

Q(st,at,θ)θQ(st,at,θ).

(10)

J(θ)=E[(rt+1+γmaxQ(st+1,at+1,θ)-

Q(st,at,θ))2].

(11)

基于策略的方法通过在每一步重新定义策略并根据这个新策略计算值直到策略收敛,直接优化感兴趣的数量,同时在函数近似下保持稳定。首先,将目标函数的梯度作为策略参数计算,如(11)所示,然后权重矩阵将根据(12)进行更新。

(12)

θ←θ+αθJ(θ).

(13)

3 在电力系统中的应用

经过多年探索,已经发表多篇关于深度强化学习在电力系统中的应用的论文。这些应用涵盖电力系统中广泛的决策、控制和优化问题,包括能源管理、需求响应、电力市场等。

3.1 能源管理

在电力系统,特别是微电网中,能源管理问题将源、负载、存储系统和公用电网联系起来,能源管理在几个方面发挥着重要作用。一是可以提高可再生能源的利用率,管理家电消费。此外,它还可以规划存储调度策略并响应实时电价。大多数能源管理问题可以转化为顺序决策问题,并且可以通过深度强化学习很好地解决。

3.2 需求响应

需求响应(DR)是智能电网中的一个典型问题,它通过价格或激励来保持客户的电力需求和公用事业公司的供应之间的平衡。为提高电网的稳定性和转移峰值需求,需求响应需要将消费者的反馈和消费纳入控制回路。因此,深度强化学习是一种有效的最优控制方法,使用数据驱动的支持模型来解决这类问题。

3.3 电力市场

分级电力市场可分为电力批发市场和零售电力市场。它通过信息和权力将服务提供商与电力公司和客户结合起来,如图3所示。

图3 分层电力市场模型

4 结论

随着智能电网的研究和发展,电力系统随着可再生能源并网和市场化的深入发展,面临新的挑战。传统方法在解决电力系统中的许多问题时面临许多困难,因此对DRL等人工智能方法的需求越来越大。

猜你喜欢

马尔科夫能源管理代理
基于三维马尔科夫模型的5G物联网数据传输协议研究
强化“两能制度”建设为推动实现碳达峰碳中和提供更为有力的支撑保障
基于叠加马尔科夫链的边坡位移预测研究
城市更新背景下合同能源管理的发展现状及建议
基于改进的灰色-马尔科夫模型在风机沉降中的应用
合同能源管理会计核算优化对策
马尔科夫链在企业沙盘模拟教学质量评价中的应用
马尔科夫链在企业沙盘模拟教学质量评价中的应用
复仇代理乌龟君
108名特困生有了“代理妈妈”