APP下载

深度强化学习算法在高铁快运站内无人运输系统中的应用

2023-09-07李红雨袁韵美胡俊豪南京铁道职业技术学院江苏南京210031

物流科技 2023年16期
关键词:快运无人高铁

李红雨,袁韵美,胡俊豪 (南京铁道职业技术学院,江苏 南京 210031)

1 背景介绍

近年来,我国高速铁路网建设日趋完善,高铁快运逐步进入大众视野,为广大群众提供了更为便捷、快速的快运服务[1]。目前高铁快运业务主要以载客动车组为载体,通过高铁确认车、高铁行李柜、高铁扣票车厢等多种形式组织干线运输,联合EMS、顺丰、京东等物流企业完成两端集货配送[2]。随着高铁快运站点布局逐步完善、货运动车组上线以及未来日趋旺盛的“当日达”“次晨达”等快运需求,未来我国高铁快运业务将迎来井喷式发展。

目前,在高铁站内高铁站台与中铁快运营业部间的货物运输仍以人力推车为主,存在人工调度繁琐、劳动强度大、准时性差、综合效率低等问题,难以适应未来高铁快运业务量激增的情况,更难以适应未来可能出现的临时性快运需求、动态化调度调整及站内货物中转等作业模式[3]。

在此背景下,本文提出了构建高铁快运站内无人车辆运输系统的设想,并应用深度强化学习算法实现复杂动态需求下高铁快运站无人运输调度作业。

2 模型构建

高铁快运站内的无人车辆运输系统主要由运输网络、无人车辆、运输需求、具备充电设施设备的物流基地或节点组成。

运输网络:在离散时间视图下构建一个有向的物流网络图G(V,V),图中的每个顶点i∈V由运输网络中的交叉口、升降电梯、货物运输起讫点、具备充电设施设备的物流基地或节点组成,(i,j)∈V表示以上节点间的通道,其中通道的长度表示为Dij,通道的行驶时间表示为Tij。在图G中,将每个节点根据高铁站内的实际情况赋予坐标位置并根据设置之间的通道联通关系。

无人车辆:用V表示所有无人驾驶的运输车辆,车辆属性主要包括续航里程、物流需求等。在规划过程中,运输能力为Ck的无人车辆k∈V在节点∈V收到运输需求Qk并开始运输,最终停止在∈V。每辆无人配送车配备有容量为的电池,无人车辆的初始电池电量为,在通道(i,j)内消耗电量,此外,充电设施的充电速率为Rk。

运输需求:Q表示系统中没有任何车辆接收到运输请求。对于系统中的任意运输需求q,和分别表示运输需求的起点和终点,Tq和Cq则分别表示运输需求的运输时间与运输能力。

充电基地/补电节点:系统中设置两类充电设施,分别为位于物流基地的高效充电基地Vd和位于运输过程中途经的补电节点Vg,其中每个补电节点可为每辆无人车辆在最长t时间限制内补充电量Ωg,t。可见,充电基地Vd虽然充电效率高,但车辆需要多次往返,运输效率低,而途中补电节点Vg虽然充电效率低且充电量有限,但较为方便,因此系统中如何兼顾运输需求和充电策略是路径优化的关键。

3 在线选路策略

基于上述分析,在高铁快运场站运输系统内制定在线路径规划策略,旨在当系统中运输需求、车辆性质、交通拥堵等因素发生实时变化时制定新的运输路径,以最大规模满足运输需求、最小化车辆行驶距离为目标设置目标函数如下:

其中,C为一个较大的常数,,均为0-1指标,前者表示运输需求q是否由无人车辆k完成,后者表示无人车辆是否会通过路径(i,j)。对所有车辆作出可行的路径规划,必须符合系统约束,约束条件如下。

规划的路线必须是连通的;交通需要得到满足;物流任务必须在动车组列车到达前规定时间内完成;每辆车的载重不得超过其物流能力;车辆在充电过程中不存在电量耗尽或过充的情况;需要观察充电装置的充电极限。

为了将目标问题建模为有约束的闭式表达式,需要使用0-1变量和连续变量,这样就使该问题变成了在面对规模实例时,无法用精确算法求解,仅能寻求有效近似算法的NPH问题。而NPH问题只能在给定的静态系统条件下做出离线路径规划,无法满足在高铁快运站调度中产生的具有不确定性的临时物流运输调度问题。

随着深度强化学习技术的发展,不断有新的研究被用于解决组合优化问题。该技术可以通过深度强化学习网络参数的调整取代数学规划中求解的庞大计算量与计算时间,以达到更快地适应高铁快运中场站调度系统动态变化的目的[4]。但应用深度强化学习技术的求解效果非常依赖于神经网络结构与模式参数的训练过程。因此本文采用深度强化学习尝试设计一种适用于不确定性高铁快运站运输的物流系统调度策略。

4 优化策略

不确定的物流运输调度问题就是在给定的运输网络G内,面对不确定性运输需求,在约束条件下,求解车辆行程序列。本文应用深度强化学习算法进行决策优化,主要通过基于神经网络技术构建的信息中心负责管理系统状态和相关信息。初始状态下,系统将当前动态信息发送给各无人车辆,无人车辆根据当前系统状态绘制路径,并将此结果传递至深度强化学习网络,以进行下一步的行程规划。最后,信息中心收集所有无人车辆的行程信息,无人车辆根据路线图完成物流任务。

每辆车在了解系统当前运行状态后,首先会创建一个漫游地图并输入到深度强化学习网络中。当该物流网络的节点大于100时,解的质量会有所下降,但同时车辆对下一目标是否选择提货、发货、充电的判断将更加敏感和准确。在此基础上,可以基于无人车辆可能停靠的位置和途径连接点将交通网络简化为每辆车更小的行程图,并通过最短路径算法计算路径距离、能量消耗和预估旅行时长。

本文的主要目标是将系统状态和车辆行驶路径图作为输入条件,规划出最小的总行驶距离。为此,本文通过构建嵌入式指针网络模型,为系统中的无人车辆设计最优的路径规划。

在指针网络模型中编码器网络输入系统信息、系统状态、规划路径,在编码器进行初始化嵌入后,通过公式(2)更新嵌入值;节点特征可以传播到其他相邻节点,公式(3)为线性传播函数;输入数据如公式(4)所示;解码过程如公式(5)、(6)所示;条件概率计算如公式(7)、(8)所示。

5 模型求解

本文引入深度强化学习算法的目的是减轻在复杂多变的运输网络中庞大的计算负担。针对NP-hard车辆路径规划问题,利用一个精确的求解器来进行大量的数据训练耗时过长,因此,本文采用无模型策略的强制学习技术来确定模型参数。

首先,为单个无人车辆设计激励函数,将路径优化问题的训练目标作为奖励函数的主要考虑因素,对违反约束的行为进行惩罚,整体训练目标包括从分布中进行蒙特卡罗采样,通过参数调整,使奖励最大化,如公式(9)所示。

目标奖励函数和约束惩罚函数如公式(10)、(11)、(12)所示。

其中,

策略梯度通过梯度上升来更新策略函数,使策略函数能够最大化累积,梯度函数可以用蒙特卡罗抽样方法近似表示。策略梯度通过梯度上升来更新策略函数,使策略函数能够最大化累积,梯度函数可以用蒙特卡罗抽样方法近似表示。

通过异步训练更新模型参数,在每次迭代过程中,首先采用新的路径并进行规划,然后生成奖励值,同时进行梯度计算,最后进行小范围调整,以更新模型参数。当参数收敛或达到预计的最大迭代次数时,算法停止。

6 求解分析

本文根据长三角地区某具有中铁快运业务的高铁站实际布局,模拟未来高铁快运量激增情况。需求以随机生成的方式设定;取货、送货地点以中铁快运站点、高铁站台货运车厢点为主,以出租车停靠点、旅客候车服务点、长途汽车停靠点等为辅进行随机设置,取送地点为高铁站台货运车厢点时提高送货期限限制;每个需求从5~20个单位随机值间设置;每辆车初始充电状态在0.2~0.9之间随机设置,充电效率在0.8~0.9之间随机设置,每辆车的物流装载能力在20~50单位间随机设置。

本文对比了在车辆路径优化问题上的3类主要方法,如表1所示。通过精准算法求出最优解,但总体计算时间较长,不适用于随机产生物流需求的运输系统;在1分钟计算时长限制下,启发式算法中遗传学算法更适用于全局性搜索[5],而禁忌搜索算法更适合局部搜索,但计算的总行驶距离均不理想;与启发式算法相比,本文采用的深度强化学习算法在1分钟计算时限下求解效率明显提升。

7 结 论

本文构建了高铁快运场站内无人车辆运输系统,并应用深度强化学习算法实现了复杂动态需求下高铁快运站无人运输调度作业,以解决未来高铁快运站内运输过程中大规模运量、动态化需求问题。通过模型构建与实例验证,能够发现深度强化学习算法可高效解决封闭系统内不确定物流运输调度问题。

猜你喜欢

快运无人高铁
国内外高铁快运业务发展的对比及启示
智能轨道快运系统用综合无线通信系统的设计
高铁会飞吗
无人战士无人车
反击无人机
铁路零散快运发展建议及思考
诗到无人爱处工
无人超市会流行起来吗?
人地百米建高铁
中国高铁快运强势品牌构建对策研究