基于强化学习的电动出租车充电负荷预测

2022-04-28于海东刘文彬文祥宇

山东电力技术 2022年4期

于海东，刘文彬，文祥宇

（国网山东省电力公司电力科学研究院，山东济南 250003）

0 引言

随着城市空气污染、化石能源短缺等问题日趋凸显，电动汽车的推广在全国多个城市受到广泛重视。电动汽车的大量普及对配电网安全稳定运行具有双重影响，一方面无序充电会降低电能质量并造成线路、变压器过载等一系列问题［1］，但另一方面充电负荷的时空灵活性有助于风电等可再生能源的消纳［2］。相比其他类型电动汽车，电动出租车更具有出行密度高、出行路线不固定的特点，其充电行为应急性强，充电负荷时空分布高度随机，预测难度大。

针对电动汽车充电负荷预测已有较多研究。文献［3-4］通过挖掘充电站运行数据预测未来短期内充电负荷，未考虑电动汽车作为移动用电负荷的时空转移特性。文献［5-6］对电动汽车每日出行的各个环节进行概率建模，然后基于蒙特卡洛法仿真车辆行为。文献［7］在蒙塔卡洛法基础上补充系统动力学模型预测未来电动私家车保有量及充电负荷。文献［8］基于更具随机性的时刻出行概率模型计算充电负荷。文献［9］采用多智能体理论研究了电动汽车的电价响应机制。文献［10］采用卡口监控数据，基于马尔可夫链建立各路段转移概率模型，求解稳态交通流量及充电负荷。文献［11］采用马尔可夫决策过程模拟车辆行驶过程中的路径选择。然而，上述研究主要面向家用电动汽车，其时空行为模型并不适用于电动出租车。

目前针对电动出租车充电行为分析及负荷预测的研究相对较少。文献［12］采用时间间隔系数表征电动出租车相邻两次充电行为的时间间隔，并通过时间间隔系数推导每次充电起始荷电状态的概率分布。文献［13］采用网格划分，定义各个交通小区在城市空间内的地理位置，根据出行需求生成概率与出行吸引概率生成电动出租车乘用需求。

在前文提到的诸多电动汽车负荷预测相关文献中，大多假设低于某阈值时车辆在当前停留地点进行充电，不能反映驾驶人充电决策的复杂性。尤其是电动出租车充电随机性极强，主观假设充电判据往往不能得到可信的负荷预测结果。文献［14］制定了驾驶人心理到快充概率之间的转换规则，引入云模型以体现驾驶人决策的随机性与模糊性，但仅考虑了电量对充电决策的影响。文献［15］引入马尔可夫决策过程模拟电动汽车用户充电行为，设置用户满意度指标作为充电判据，通过求解贝尔曼方程得到最优充电决策，但计算量较大，求解难度高。

综上，提出一种以强化学习为核心的电动出租车充电行为模拟及负荷预测方法。首先借鉴交通领域的重力模型，考虑不同行驶里程下出租车出行需求占比，建立电动出租车出行时空行为概率模型。然后，采用强化学习模拟驾驶人在实际运营中不断积累经验形成合理充电习惯的过程。定义电动出租车充电决策问题的状态空间和动作空间，构建强化学习环境，提出基于单位时间净收益与单位电量净成本的奖励值函数。最后，通过蒙特卡洛法仿真大量电动出租车出行及充电行为，形成合理的充电策略，并以此作为充电判据进行负荷预测。

1 总体框架

采用强化学习实现电动出租车充电负荷预测，其总体框架如图1 所示。强化学习考虑智能体与环境的交互问题，智能体在特定的环境中运行，智能体对环境的感知称为状态；智能体通过动作反馈给环境，当执行某一种动作后，通过环境背后暗含的转移概率使得状态发生改变；环境会根据潜在的奖励值模型反馈给智能体一个奖赏，智能体运行的核心目的是尽可能地实现奖赏的最大化。

图1 电动出租车充电负荷预测总体框架

针对电动出租车负荷预测问题，智能体指电动出租车，环境指出租车出行时空行为概率模型。状态包括时间、空间、电量等可影响车辆充电决策的感知信息，动作是驾驶人对是否充电和充多少电的决定。上述动作作用域出租车出行时空行为模型，更新时间、空间、电量，并且可通过载客收益及充电费用等因素对智能体进行奖赏，指导充电策略的进一步更新。策略是由状态到动作的映射关系，采用Q值表来表示这种映射关系，Q值反映在某种状态下采用某种动作产生的潜在远期收益，Q值高的动作相对更优。选取蒙特卡洛（Monte Carlo，MC）、单步回溯（State⁃Action⁃Reward⁃State⁃Action，SARSA）及多步回溯算法SARSA（λ）这3 种Q值更新算法［16］，比较在出租车充电负荷预测问题上的训练速度与效果。

2 电动出租车出行时空行为概率模型

2.1 交通小区出行流量重力模型

依据重力模型计算各交通小区间的出行流量。重力模型类比牛顿万有引力定律，认为由交通小区i到交通小区j的出行流量与交通小区i的出行发生量及交通小区j的出行吸引量成正比，而与交通小区i、j之间的交通阻抗成反比［17］，如式（1）和式（2）所示。

式中：fij为由交通小区i到交通小区j的出行流量；Oi为交通小区i的出行需求发生量；Dj为交通小区j的出行需求吸引量；Rij为交通小区i、j之间的交通阻抗，一般可取为交通小区间距离dij的γ 级幂函数；α1、α2、Kijt为待定系数，其中α1、α2可根据经验在0.5～1.0 范围内取值，后续算例参考文献［6］，取α1=α2=1；Kijt的取值进一步考虑了时间、区域功能类别（住宅区H、工作区W、商业区S）对出行量的影响［18］。

2.2 出租车载客出行目的地概率模型

采用由出行距离决定的隶属度函数［19］计算各交通小区间居民选择出租车进行出行的概率，如式（3）所示。

式中：pij为从交通小区i前往交通小区j的居民选择搭乘出租车概率；pmax为不同里程下居民选择出租车进行出行的最大概率；dpeak为居民选择出租车进行出行的概率最大时对应的出行里程；β1、β2为模型参数。参考国内大中型城市出租车行程距离分布，可取Pmax=0.4，dpeak=7.6，β1=0.3，β2=1.4。

载客目的地由乘客决定，因此其概率分布满足始发地交通小区居民出行目的地空间分布特性。若行程始发地所在路段两侧交通小区分别为i1与i2，则目的地落在交通小区k的概率如式（4）所示。

2.3 寻客时间及车辆速度概率模型

出租车寻客时间与出租车附近交通小区当前时段出行需求密度有关。一般来说，可以认为单位时间某交通小区生成的出行需求数量满足泊松分布，那么时间上相邻的两次出行需求间的时间间隔满足指数分布，进而出租车寻客时间近似满足指数分布，如式（5）所示。

式中：tse为出租车寻客时间；λse为指数分布参数，λse与泊松分布参数相对应，表示单位时间某事件平均发生次数，因此λse可表示单位时间生成的出租车用车需求数量。

根据前述模型确定出租车载客行程起止点后，假设车辆按最短路径行驶。考虑到各路段交通流量及通行能力差异，本文通过美国联邦公路局函数（Bureau of Public Road，BPR）对车辆通行时间进行建模，如式（6）所示。

式中：ti为通过某路段所需要的时间；ti0为该路段自由通行时间；Q为该路段此时交通流量；C为该路段通行能力；a、b为模型待定参数，建议取值a=0.15，b=4［20］。

3 基于强化学习的充电决策模型

3.1 状态空间及动作空间

计及时间、空间、电量3 方面要素，对状态空间进行定义。

在时间要素方面，以2 h 为粒度划分时间，即一日内时间维度共分为12 种状态。现行公共充电桩多采用分时定价策略以实现电力负荷削峰填谷，因此充电电价与时间直接关联。此外用车需求密度也呈现明显的时间分布特性，因此时间要素对充电决策有着显著影响。

在空间要素方面，受制于Q值表规模，状态空间中对空间位置的描述不可能十分精确。考虑车辆当前所处交通小区功能类别，简要划分为住宅区H、工作区W、商业区Y 这3 类，如某路段两侧可能分属不同类型交通小区，设定优先级顺序为Y、H、W。车辆目前位置到最近充电站的距离将直接决定前往充电站的时间成本，因此其对充电决策有着重要影响，将车辆目前位置到最近充电站的距离分为小于3 km、3～8 km、大于8 km 这3 档。综合以上两方面因素，空间维度共划分为3×3=9种状态。

电量要素方面，根据电池荷电状态（State of Charge，SOC）S划分为6 种状态：S<15%、15%≤S<30%、30%≤S<45%、45%≤S<60%、60%≤S<75%及S≥75%。

综上，总状态空间包含的状态数量N=12×9×6=648。

共定义5种动作：“不充电”、“慢速充电至60%”、“慢速充电至90%”、“快速充电至60%”及“快速充电至90%”。这样，综合状态空间与动作空间，共有648×5=3240种可能的状态—动作组合。

3.2 奖励值模型

奖励值的定义是构建针对出租车充电决策的强化学习算法需要解决的关键问题。不同的奖励值定义方式将显著影响出租车充电决策问题的学习效果，合理定义奖励值函数是强化学习算法能否反映现实中驾驶人决策过程的关键所在。

3.2.1 载客过程

载客过程中驾驶人总是希望在尽可能短的时间里赚取尽可能多的钱，也就是实现单位时间净收益（式（7））的最大化。

式中：R'trip为某次载客行程的单位时间净收益；Ptrip为载客收入；cpower为电动出租车平均单位时间电耗成本；Ttrip为此次载客行程时间；fSOC为反映里程焦虑而引入的低电量惩罚项；μ为惩罚因子，取值原则是在不影响单位时间载客收益最大化这一训练目标的前提下，尽可能避免过低电量的出现，通过观察多次仿真试验结果选择合理取值。

为避免极端值对训练结果的影响，将单位时间净收益进行归一化，如式（9）所示。

式中：R'trip1与R'trip2分别为载客行程单位时间净收益满意阈值与不满意阈值，可通过调研出租车驾驶人收入水平并除以工作时间进行估计。对原始奖励值R'trip进行限幅，使之保持在-1～1。

3.2.2 充电过程

充电过程中驾驶人总是希望基于尽可能低的费用补充尽可能多的电量，也就是实现单位SOC 充电成本（式（10））最小化。

式中：Dch为充电电价；Cb为动力电池容量；Sch为此次充电补充的SOC；Tch为包括驱车前往充电站在内的整个充电过程时间花费；Etaxi为电动出租车平均单位时间经济效益。

同样对单位SOC 充电成本进行归一化，如式（11）所示。

式中：R'ch2与R'ch1分别为充电行为单位SOC 成本满意阈值与不满意阈值。对奖励值进行限幅，使之保持在-1～1。

4 电动出租车充电负荷预测流程

以基于强化学习的充电行为决策为核心，采用蒙特卡洛法仿真大量出租车出行与充电行为，并预测充电负荷，其流程如图2所示。

图2 电动出租车充电负荷预测流程

充电行为决策学习环节可分为外循环与内循环。外循环模拟一辆电动出租车在一日内的运行，该周期可称为“回合”（episode），每回合开始时对时间、位置状态进行随机抽样，设定初始SOC，然后进入内循环。

内循环指车辆完成一次载客行为或者充电一次，该周期称为“步”（Step）。每一步中首先根据当前状态及策略确定动作。如果不充电，根据式（5）计算寻客时间，根据式（4）对载客出行目的地进行抽样。确定目的地坐标点后，沿最短路径前往目的地，根据BPR 函数对各个路段的通行时间与平均速度进行计算，更新时间与电量。到达目的地后采用式（7）—式（9）计算奖励值，更新Q值及充电策略并进入下一步。如果充电，前往距离最近的充电站，执行既定的充电模式与目标电量，按照式（10）—式（11）计算奖励值，更新Q值及充电策略并进入下一步。

充电负荷计算环节仍然执行前述外循环与内循环，但将充电策略固定为学习环节最终结果，不再进行奖励值计算及Q值更新。

5 算例分析

5.1 算例参数说明

在图3 所示的某规划区中仿真电动出租车行驶及充电行为，以说明前文所建立的充电负荷预测模型有效性。

图3 算例交通网络示意图

电动出租车动力电池容量为48 kWh，快充功率60 kW，慢充功率14 kW；车辆初始SOC 设定为90%。考虑到车辆工作时间的多样性，按一定比例分为短班制与长班制，具体设置如表1 所示。出租车计费标准设为：3 km 以内收取起步价14 元，超过3 km 但低于10 km 的部分，按3 元/km 计费，超过10 km 的部分按3.6元/km计费。

表1 车辆工作时间设置

强化学习相关参数方面，学习因子α=0.1，折扣率γ=0.95，衰退系数λ=0.95。每当Q值表发生更新时，采用Q值跟踪法［18］动态更新相应状态-动作组合概率，导出新的充电策略。

电动出租车平均单位时间电耗成本cpower=5元/h，单位时间净收益满意阈值R'trip1=60元/h，不满意阈值R'trip2=36 元/h，电动出租汽车平均单位时间经济效益Etaxi=42元/h；单位电量充电成本满意阈值R'ch2为1.67 元/kWh；计及分时电价，设置充电费用如表2 所示；单位电量充电成本不满意阈值R'ch1为3.33元/kWh；惩罚因子μ=0.1；初始策略为：当且仅当车辆SOC低于15%时执行动作“快速充电至90%”，其他情况均执行动作“不充电”。

表2 分时充电电价设置

5.2 算例结果与分析

分别采用MC、SARSA 及SARSA（λ）3 种算法对充电行为策略进行学习。由于现实中驾驶人充电决策最根本的目的在于实现收益最大化，因此以下以单日载客总收入减去充电总支出得到的净收益反映学习效果，结果如图4所示。图中每一点表示近5 000回合净收益平均值，减小随机性以便对比训练效果。

图4 Q值更新算法收敛性能比较

3种算法均在迭代过程中不断优化充电策略，提高单日净收益。MC 方法收敛速度最慢，在图中展示的1.1×105回合中未见收敛；SARSA 算法的单日净收益在7×104～8×104回合存在一段停滞，可能收敛于局部最优解，而后又经历探索过程逐渐离开，在9×104回合处基本收敛，平均单日净收益约820 元；SARSA（λ）算法经历约4.5×104回合后基本收敛，平均单日净收益约826 元。SARSA（λ）算法在收敛速度上优于SARSA 算法及MC 方法，训练结果略微优于SARSA算法。

SARSA（λ）算法相对最优，以下负荷预测结果均来自SARSA（λ）算法经历105回合获得的充电行为策略。在不更新策略的情况下再进行10 000回合（即仿真10 000辆电动出租车行驶及充电行为），获得的各充电站负荷曲线如图5所示。

图5 日充电负荷曲线

各充电站充电负荷时间分布特性较为一致，峰谷差异显著。04：00—10：00 时段电量充足且电价较高，充电负荷整体较低；10：00—14：00 为平时段电价，14：00—16：00 虽然为电价高峰但车辆经长时间运营电量整体较低，因此10：00—16：00 总体呈现负荷午高峰；22：00 之后进入电价低谷，同时大量电动出租车完成一天的工作，需要补充电量以备次日运营，因此22：00—次日02：00 呈现充电负荷晚高峰；午高峰到晚高峰之间的时段，车辆基本不需要再额外充电，因此16：00—22：00 充电负荷较低。不同充电站充电负荷总量有一定差异。位于中心城区的充电站2 充电负荷最高，日用电量为5.84×105kWh；位于次中心城区的充电站3 次之，日用电量为4.14×105kWh；位于周边城区的充电站1 充电需求最低，日用电量为3.96×105kWh。

电价对充电决策的引导得到了有效反映。例如，在夜间电价低谷时段出现了充电负荷晚高峰，而07：00—10：00 的电价高峰限制了充电行为。但另一方面，续航能力限制导致14：00—16：00 时段出现大量刚性充电需求，目前的电价设置无法规避该时段充电负荷高峰。

为缩减时间成本，日间电动出租车相对偏好快充，但由于快充费用较高，慢充仍有一定的吸引力。06：00—20：00 期间快慢充负荷比例为1.35：1。夜间大量车辆结束工作，充电时间充裕，充电负荷以慢充为主。随着车辆续航性能的提升，日间充电需求将进一步降低，夜间慢充负荷会不断提升。

将车辆做出充电决策时所处的状态（时间、位置、SOC）称为充电需求点。从负荷预测结果中随机抽取760 次充电行为，其充电需求点空间分布如图6所示。靠近充电站（（1.5，9）、（7.5，9）、（9，3））的位置充电需求相对密集；中心及次中心城区充电需求较为密集，而周边城区充电需求相对稀疏；3 类功能区充电需求密度差异不明显。

图6 充电需求点空间分布

5.3 对比分析

将充电行为判据替换为文献［12］所述的快慢充概率云模型（以下简称“云模型”），在相同的交通网络和相同的车辆行为特性参数下进行负荷预测，对比本文所提出的强化学习方法，结果如图7 所示。两种方法预测所得到的日充电负荷时间分布、快慢充需求比例相近，但是云模型未反映出夜间（22：00—次日02：00）慢充偏好较高的特点。