真实交通数据下的实时电动汽车智能充电策略*

2023-05-12朱敬华

计算机与数字工程 2023年1期

杨悦潘刚朱敬华

（1.黑龙江大学计算机科学与技术学院哈尔滨 150000）（2.黑龙江大学数据科学与技术学院哈尔滨 150000）

1 引言

全球经济的快速发展，消耗了大量的能源，并且排放了大量的污染气体，使得环境问题越来越严重。汽车尾气排放已成为全球变暖和空气污染的主要原因。国家大力倡导使用清洁能源降低环境污染，因此EV 越来越多［1～4］。但交通拥堵，电量不足，和用户充电体验感较差等问题也随之而来，亟需解决［5］。鉴于此，EV 的充电调度优化问题引起人们的重视，如何帮助EV选择最佳的充电站，降低交通拥堵，减少排队的时间，“去哪里充电”“什么时候充电”需要解决，但是目前这方面的研究并不充分。

充电调度策略的本质是在多种不确定因素条件下，对EV进行充电调度，获得最优的充电策略［6～7］。文献［8］使用蚁群算法来解决EV充电调度问题，但是使用这种方法具有局限性，并且收敛速度较慢。文献［9］使用两层遗传算法解决EV智能充电问题，但其不能解决大规模计算量问题。文献［10］从EV充电需求的角度进行分析，并从EV、交通网络、充电站等方面提出了一种优化充电路径的方法，但其没有考虑交通条件的随机性。文献［11］提出一种基于云边缘协作的EV 充放电调度方法，以保护用户的隐私。但没有考虑EV充放电期间对电池的损耗，没有获得更公平的充放电管理策略。

随着AlphaZero 的成功，在决策问题上DRL 表现出巨大的潜力，更多的研究人员使用基于DRL的方法来解决EV的充电调度问题。文献［12］提出了考虑交通条件的随机性、用户的通勤行为和有效的定价过程的DRL 的实时调度方法，但没有考虑天气变化的随机性，不能保证电量需求得到满足。文献［13］提出一种用于网约车调度的供需感知DRL 模型，采用具有演员家-评论家（Actor-Critic）网络结构来学习最优的网约车调度策略。文献［14］提出一种基于DRL 的EV 充电导航方法，并利用其近似求出模型的最佳解，获得充电策略，但没有考虑到多辆EV之间的相互影响，如排队情况、交通拥堵等。

本文针对交通状况、天气变化、EV 到达时间的随机性以及电价不确定性因素，采用基于无模型的DRL方法，在明确EV充电过程的状态空间、动作空间后，设计了一种混合整数优化目标函数。由于随机变化的场景导致系统维度很高，并且所设计的混合整数优化目标属于NP 难问题，本文通过设计一种基于DRL 的SAC 算法，保证了用户的充电需求。同时，由于电价的不确定性，通过基于注意力机制的GRU（Gated Recurrent Unit）深度网络来实时预测电价，从而引导EV进行有效的充电任务，进一步为用户节省充电成本。本文的主要贡献包括三个方面：

1）由于随机变化的道路交通状况和电价信息，设计一种充电调度模型，该模型实现了用户的充电成本、电池退化成本、时间代价以及期望充电误差最小化；

2）利用基于注意力机制的GRU网络进行实时电价预测，以引导EV选择电价低时进行充电任务，实现较低的用户充电成本，电价预测结果表明使用基于注意力机制的GRU 网络要优于单独使用GRU或LSTM（long short-term memory）预测方法；

3）由于随机变化的交通状态导致系统维度很高，并且所设计的混合整数优化目标属于NP 难问题，提出了一种基于DRL 的SAC 算法来求解最优充电策略。实验表明，在相同场景下所提出方法的实验效果要优于其他DRL算法，并且该方法显著地降低了用户的充电费用，改善了用户的充电体验。

2 系统模型

表1 常用符号

本节详细介绍提出的EV充电调度模型。由于能源价格具有波动性，根据EV自身需求，用户选择在合适的时间段进行充电任务，从而使得EV 的成本最小化，这里的成本包括EV充电成本、电池退化成本以及用户期望误差成本。另外，由于道路交通流量的变化性和充电站排队充电的不确定性，在满足EV 充电需求的同时，尽量使用户在充电任务过程中花费较少的时间。系统架构图如图1 所示，首先，根据电价的历史信息，使用基于注意力机制的GRU 网络来提取历史电价数据特征，从而实现高准确度的未来24h 电价预测。然后，使用基于DRL的SAC 方法，通过交通状况、天气情况、电价、充电站状况来确定EV的最优充电策略。整个过程的目标函数表示为

图1 系统架构图

2.1 充电成本

当EV 选择充电站进行充电任务后，即会产生一定的充电成本，表示为

其中，Δt1表示EV 充电时间，表示电池容量，xij是二进制变量，值为0表示第i辆EV 不选择充电站j，反之则选择。

2.2 电池退化成本

EV在行驶过程和充电期间的电池退化成本［15～16］的表达式为

2.3 行驶时间

EV在发出充电请求时，系统会给EV规划最佳的行驶至充电站路径，EV 的行驶时间受到道路交通网络变化的影响，其行驶时间表示为

由于道路的通行速度受很多外部因素影响，本文考虑天气环境因素，不同的天气状况对道路的影响程度是不同的，具体将在第3 节的方法设计部分详细阐述。

2.4 排队等待时间

EV行驶至充电站时，如果前面有其他EV正在进行充电，那么就需要在该充电站进行排队等候充电，它的排队等待时间表示为

其中，φj,t表示充电站j 的充电效率，Δtsamp表示采样时间。

2.5 用户期望误差成本

用户在充电任务之前有一个预期的充电电量，在实际到达充电站时，与实际充电电量的差通过误差系数转化成用户期望误差成本，表示为

其中，ω表示期望误差成本系数，其测量单位为元/kWh2。

2.6 约束条件

2.6.1 充电/放电功率约束

第i辆EV 在t时刻的充放电功率Pi,t不应该超出充放电功率的最大值，它表示为

2.6.2 充放电状态约束

第i 辆EV 在t 时刻的充放电状态只能有一种，当EV 状态为充电状态时，放电功率值为0，反之，充电功率值为0，它表示为

其中，Ai,t表示第i辆EV在t时刻的一个动作，大于0，代表充电行为；小于0，代表放电行为。

2.6.3 充电站选择约束

第i辆EV在选择充电站充电过程中，只能选择区域内一个充电站作为选择对象，它表示为

其中，xij{0,1}。

2.6.4 充电电量约束

第i辆EV在t时刻充电电量不应该超出充电站的剩余电量，表示为

2.6.5 EV剩余电量约束

综上，将EV充电调度描述为优化问题如下：

其中，K1，K2，K3，K4，K5是设定的权重值，分别表示每个组成部分对整体的重要程度。

3 智能充电策略

本节针对第2 节的优化问题提出求解方法，由于优化问题（12）具有高维度、多约束的性质，因此属于NP 难问题［17］。在使用传统方法求解时，很难在短时间内获得精确解，所以提出一种基于DRL的人工智能算法来逼近模型的最优解，它可以自适应地学习最优策略，不需要任何不确定性的先验知识。由于DRL 基于MDP，本文首先将式（12）的优化问题转化为MDP形式。

3.1 系统状态

考虑到时变的交通条件和天气状况因素对系统状态产生影响，本文将一天24h 作为一个循环周期，系统状态st描述为以下形式：

其中，Wt表示天气质量情况，它是一个四维数据，通常写成如下：

这里，第一个分量表示温度，第二个分量表示湿度，第三个分量表示有无雾霾，第四个分量表示空气质量指数。

3.2 系统动作

智能体根据当前系统状态st做出合适的动作at，表示为

3.3 系统奖励

本文优化问题（12）的目标是最小化EV充电成本和电池退化成本以及最大化用户的满意度。智能体在做出一个动作后，系统会根据当前环境状态信息给予智能体一定的即时奖励Rimm(st,at)，然后更新系统状态。表示如下：

在经过时间T 后，系统将会收到一个总的奖励值：

其中，γ[0 ,1] 是折扣系数，它平衡了即时奖励和未来奖励之间的重要性。

3.4 实时电价预测

由于电价以周期性的方式波动，并具有时序特征，因此从历史的电价信息推断未来的价格趋是合理的。GRU 比LSTM 网络的结构更加简单，参数也更少，因此降低了模型的训练时间成本。但GRU在提取电价特征时不能灵活区分电价的高低，而注意力机制提供了一种关注重要信息的方法，可以从众多电价信息中，更注重选择电价低时去充电来降低充电成本。

GRU 结构如图2（a）所示，图中Rt和Zt分别表示重置门和更新门，以实现对历史电价信息的加强与遗忘。具体公式表述如下：

其中，WR，UR，WZ，UZ，Wh，Uh为权重矩阵；σ()· ，tanh()· 为激活函数；*表示矩阵中对应元素依次相乘。

图2 GRU结构图

其中，VT，We，w1为权重系数；b，b1为偏置量；f表示softmax函数。

3.5 基于SAC的充电调度算法

由于随机变化的情况导致系统维度很高，并且电动汽车的充电任务是一种连续性动作，所以设计了一种基于DRL 的SAC 算法，来寻找最佳充电策略。SAC 算法本身是一种基于off-policy 的智能学习算法［18］，它解决了主流的on-policy 算法（如PPO算法［19］）所存在的采样效率低的问题。同时，SAC算法也解决了基于off-policy算法（如DDPG算法［20］）的收敛效果差，对超参数敏感的问题。此外，虽然PPO 算法和DDPG 算法可以解决连续动作空间，但它们面临着高估的问题。具有最大熵目标的SAC算法可以提供样本高效的学习和稳定性，可用于解决本文所考虑的EV连续充电调度的复杂场景。

图3 为SAC 网络结构图，首先，EV 充电环境等信息通过输入Actor 网络映射生成充电动作，利用参数化的DNN 来近似策略πξ( )at|st，根据当前的EV 充电环境状态st选择并执行充电动作at，得到奖励rt、下一个状态st+1和系统结束标志done，接着将元组（st，at，rt，st+1，done）存储在经验重放池中。Critic 网络负责估计状态价值和状态-动作的价值，为了区分不同样本之间的相关性，Critic从经验重放池中随机抽取少量样本，分别训练状态价值V函数和状态动作价值Q函数，产生的损失函数L(ϕ)和L(δ)进行反向传播，使用随机梯度下降方法更新DNN 参数，并用Vϕ(st)和Qδ(st,at)更新Ac⁃tor 的参数。在本文中，电动汽车作为智能体，它通过环境的状态（电价，电量，道路交通流量等）输入，Actor 网络会给出相应的动作输出，电动汽车执行这个动作后，系统会反馈给电动汽车一个回报值，通过这个反馈来判断当前的策略是好还是坏，经过不断地训练学习更新网络参数，最终Actor 网络的参数即为最优的策略网络参数，电动汽车输入状态变量，智能体就会反馈给电动汽车一个最优的充电策略，即去哪个充电站进行充电任务。细节见算法1。

图3 SAC网络结构图

对于标准的强化学习，目标是最大奖励的期望。而对于SAC，采用了最大熵框架来提高鲁棒性。最大熵目标为

其中，ℋ(π(∙|st))=-logπ(∙|st)是熵项，用于控制最优策略的随机性；ρπ是由策略π生成的状态-动作的分布；β为温度参数，用来评价熵项的重要程度。

最大熵的学习通过策略迭代进行改进，包括策略评估和策略提升，通过不断重复这两阶段，智能体最终会在策略迭代中找到最优策略。SAC 使用神经网络对Q函数和策略函数进行近似，使用软策略迭代，将策略评估与策略提升的模式变为交替对上述两个近似网络进行梯度更新。在策略评估阶段，soft state value函数由最小化残差训练：

其中，ϕ为soft state value函数的参数，δ为soft Q函数参数，ξ为策略函数的参数。

Soft Q函数通过最小化Bellman残差训练：

其中，q(st,at)=r(st,at)+γEst+1～p[Vϕˉ(st+1)]。

在策略提升阶段，策略网络的参数通过最小化KL散度期望来训练：

算法1 基于SAC的充电调度算法

输入：交通状况，天气情况，电价，充电站状况；

输出：选择的充电站编号，充电电量。

1. 初始化：训练迭代次数episode，训练时间步数t，目标平滑系数t，空经验重放池D，Q 函数参数δ1，δ2，策略参数ξ，V函数参数ϕ；

2.设置目标参数ϕtar¬ϕ；

3.for episode=1，2，……do

4. for t=0，1，2，……do

5. 从环境中获取状态st；

6. 将st输入策略网络，选择动作at～πξ(·|st) ；

7. 执行动作at，得到奖励rt，进入下一个状态st+1，并判断st+1是否为最终状态；

8. 将元组（st，at，rt，st+1，done）存入D；

9. end for

10. for t=0，1，2，…do

11. 从D中随机抽取一小批样本；

12. 对Q函数和V函数计算目标：

13. 通过式（27）由梯度下降更新参数ϕ；

14. 通过式（28）由梯度下降更新参数δ；

15. 通过式（30）由梯度上升更新参数ξ；16. 更新目标价值网络：

17. end for

18.end for

4 实验及结果分析

在这一部分，评估所提出的SAC 算法性能，并验证了实验的有效性。

4.1 实验设置

本文所考虑的是两条相交的并且为十字型的道路结构，充电站分别安装在每条道路的一侧，电动汽车处于十字型道路的路口。数据集来源于百度API 和文献［14］，具体参数设置如表2 所示。在训练过程中，使用了三种类型网络，分别为soft state value、soft Q 以及策略网络，其中，soft state val⁃ue 网络输入层特征维度为25，输出层特征维度为1，两个隐藏层特征维度为256，激活函数使用Re⁃lu。Soft Q 网络输入层特征维度为29，输出层特征维度为1，两个隐藏层特征维度为256，激活函数使用Relu。策略网络输入层特征维度为25，输出层特征维度为4，两个隐藏层特征维度为256，激活函数使用Tanh（x）。SAC 算法采用的是off-policy 进行学习，所以设置一个大小为105的经验重放池用于存储训练数据，随机从中抽取小批量样本进行学习，经过1200 轮的训练得到最终模型。所有的实验是在一台具有4核英特尔处理器，8GB 显卡的终端上运行的。

表2 数据实验信息

4.2 性能分析

4.2.1 电价预测

首先收集历史的电价数据，然后使用基于注意力机制的GRU 网络对其进行预测，结果如图4 所示。在相同的网络参数下，也进行了单独使用LSTM 和GRU 网络进行预测的结果，从图4 可以明显看出，使用基于注意力机制的GRU 网络进行电价预测曲线与真实值曲线的拟合程度更高，所以其效果要优于其它两种算法。

图4 不同算法的电价预测结果图

图5 表示的是使用基于注意力机制的GRU 网络进行电价预测时的训练过程损失图，分别进行了在不同学习率下的试验，从图5 可以看出，当学习率为｛10-3，10-4，10-5｝时，训练过程的损失值随着训练轮数的增加而不断减小。

图5 基于注意力机制的GRU网络的训练过程损失图

4.2.2 学习率影响

本小节评估了不同学习率对所提出的SAC 算法性能的影响。如图6，学习率的设置有｛10-3，10-5，10-6｝。学习率为｛10-3｝的奖励前期逐渐增大，在100 至200 轮间有减小趋势，在400 轮后上升至最大值并趋于稳定。学习率为｛10-5｝的奖励一直呈上升趋势，在300 轮后达到最大值并趋于稳定。学习率为｛10-6｝的奖励一直上升，在900 轮后趋于稳定。综合来看，学习率为｛10-5｝的奖励要优于其他学习率的奖励。

图6 SAC算法在不同学习率下的标准化累积奖励图

4.2.3 对比算法结果

在相同环境设置下，评估了SAC算法与PPO算法的对比结果。如图7，SAC 算法的奖励随着训练轮数的增加而不断增加，最终在300 轮后趋于稳定；PPO 算法奖励总体来看呈上升趋势，但是最终稳定后的奖励要小于SAC 算法的奖励，因此，本文提出的基于SAC 算法的充电调度策略具有有效性和优越性。

图7 SAC算法与PPO算法的对比图

4.2.4 优化目标的结果

本文的目标函数是最小化EV 充电成本、电池退化成本、行驶时间、排队等待时间以及用户期望误差成本。充电成本、电池退化成本以及用户期望误差成本结果如图8 所示，圆形曲线表示的是网络模型中隐藏层维度为64 维时的目标函数优化图像，方形曲线则表示的是隐藏层维度为256 维时的目标函数优化图像，二者随着训练轮数的增加都呈现了逐渐减小的趋势。随着训练轮数的增加，EV充电成本从一开始的1050逐渐下降到100左右，且从300 轮后趋于稳定；电池退化成本从一开始的200 逐渐下降到20 左右，且从400 轮后趋于稳定；用户期望误差成本从一开始的19000 逐渐下降到800左右，且从350轮后趋于稳定。

图8 充电成本、电池退化成本和用户期望误差成本的训练结果图

用户在计划EV 充电时，都是期望能够快速到达最近的充电站且避免排队等候，本实验中，EV的行驶时间和排队等待时间如图9 所示，随着训练轮数的增大，二者的值都是从一开始的较大值不断减小至最小值，且趋于稳定。

图9 行驶时间和排队等待时间的训练结果图

5 结语

本文考虑了道路交通状况和天气变化的随机性所带来的影响，将EV 充电调度问题描述为MDP，提出了一种基于DRL 的SAC 算法，既保证了用户的实时充电需求，又确定了该实时调度问题的最优策略。由于电价的不确定性，通过基于注意力机制的GRU 深度网络来提取电价特征，从而引导EV 进行有效的充电任务，实现较少的充电成本。实验表明，提出的基于注意力机制的GRU 网络的方法比单独使用GRU 或LSTM 的方法进行电价预测的效果好；在满足用户对电量的需求和降低充电成本方面，基于SAC的充电调度策略优于PPO。

未来研究更复杂的道路状况和节假日人流密集的情况，尝试采用多智能体DRL 方法进一步学习更优的调度策略。