APP下载

基于深度强化学习的交通信号灯控制

2020-03-05陈树德彭佳汉高旭赖晓晨

现代计算机 2020年3期
关键词:信号灯神经网络决策

陈树德,彭佳汉,高旭,赖晓晨

(大连理工大学软件学院,大连116000)

0 引言

交通问题,是一个复杂时变且随机的动力学问题[1,2]。随着城市不断发展和交通车辆数目的不断上升,出现了诸如交通拥堵现象频繁,交通事故率上升等问题[3]。这直接或间接导致了能源和资源的浪费;以及诸如空气污染和长期的噪音问题[4,5]。因此更加有效的通调系统显得尤为重要。

目前,这些问题的解决方案一般是通过设计自动驾驶车辆[6]或者搭建智能交通控制系统[7],其中交通信号灯控制(TLC[8])就是一个被广泛探究的智能交通控制系统方向。在传统的信号控制系统中,如SCATS、SCOOT等,它们往往在线下通过算法计算出固定的信号灯配比方案,但这显然无法应对交通事件的随机性问题。

同时,对比同样结合了深度强化学习的Schutera Mark等人的方法[9],他们的方法虽然可以有效且实时地优化单个路口的信号灯配比,但却没有考虑一个交通路网中多个路口间的强耦合性,对于路网交通状态整体恶化的情况无法做出有效的应对。因此,本文针对多个路口间的强耦合性,提出了一个基于深度强化学习的信号灯控制系统。我们的方法先是通过长短期记忆模型(LSTM-RNN[10])预测未来的交通信息,进而辅助Deep Deterministic Policy Gradient(DDPG[11])制定合理的信号灯时长配比。本文提出的方法,相对于过往方法具有以下的优势:(1)实时性与灵活性,相对于线下指定好的信号灯配比方案,我们的方法具有合理应对突发状况的能力。(2)充分利用了路口间的强耦合性,而不仅仅局限与单一路口的决策环境。(3)看得更远的决策能力,通过与预测网络的协同训练,深度强化神经网络将获得利用推理结果解决问题的能力。

1 理论背景

1.1 LSTM-RNN

循环神经网络(RNN)模型是深度神经网络中的一个重要分支,其设计来目的主要是用于处理序列信息。针对于我们的问题而言,交通状况信息是具有明显时序关系的信息,因此使用该种网络进行处理将更具优势。同时,利用循环神经网络进行数据的预测已经被证明具有有效性。长短期记忆模型,同样是一种循环神经网络,它通过长短时记忆单元替换普通神经元,从而解决普通循环神经网络无法有效利用及保留历史信息的问题,适于处理和预测间隔和延迟相对较长的重要事件。在交通问题中,一次事故往往能影响未来数小时的路况。LTM无疑能更加有效地处理这类问题。

1.2 DDPG神经网络

DDPG是将深度学习神经网络与DPG(Determinis⁃tic Policy Gradient[12])的策略学习方法融合。相对于DPG的核心改进是:采用深度神经网络作为策略函数和Q函数的模拟,即策略网络和Q网络;然后使用深度学习的方法来训练上述神经网络。相对于DQN[13]方法,它拥有连续的决策空间,这对于我们的问题来说是至关重要的,信号灯配比是处于连续空间的问题。

其中策略函数定义为At=μ(St),即将状态S映射为决策A的函数。而Q函数定义为Vt=Q(St,At),则是将状态S和对应决策A映射为价值V的函数。两者对应的神经网络,即策略网络和Q网络则是基于深度学习对两函数进行拟合。同时,该方法也吸取了DDQN的优越技巧,通过设定在线网络(实际梯度下降操作作用的网络)和线下网络(实际做出决策与交互的网络)来解决学习过程不稳定的问题。

2 方法设计

2.1 低因素微观层次的交通仿真软件

我们通过寻找开源的交通数据集为仿真环境提供基础设定,由此提升仿真的真实性与合理性。这些基础设计包括:(1)地图信息,基于数据集所在的具体地理位置,在数值上1:1还原其道路长度,路口分支,车道数目等信息。(2)车流信息,根据数据集中每一时刻的车辆位置信息(经纬度),所处道路信息和车速信息,还原这个区域在一日之中的车流概况。即根据每条道路的交通工具数量计算每一时刻每一条道路的交通工具数量权重,进而将每一辆车进入地图和路线选择视为一种概率事件,以此控制仿真环境中的车辆产生和路线规划。从而令得仿真环境更加接近现实的交通路况。

2.2 基于循环LSTM神经网络的路网拥挤度预测

在实际交通环境中,先前发生的某次突发事件或某个交通状态可能对一段时间后的交通状态存在影响,然而普通的循环神经网络的隐藏层并不能实现对某个状态进行有选择的长时间记忆的功能。因此,我们选用LSTM单元来作为循环神经网络的隐藏层节点,从而克服上述的问题。具体网络结构如下:网络的输入为所有道路双向车道的拥挤度指标组成的一维向量。其中,基于道路的车流密度和车辆平均速度信息设计交通拥挤度评价指标(TF):

式中,CVN为道路车流密度,MVN为道路的历史最大车流密度,CTV为道路车辆平均速度,MTV为道路的历史最大车辆平均速度,α为权重参数。第一项综合考虑了当前道路的饱和度以及占有率,第二项考虑交通流的运行速度特征,并借助权值调节它们对指标的综合影响。此指标具有较强的描述性和实用性。

2.3 基于DDPG神经网络的信号灯优化

本文中,DDPG网络分为决策网络和评价网络(Q网络),这两个网络每个又分线上和线下。在线网络就是实际使用数据进行训练的网络。其中,进行评价网络训练的价值指标r的衡量,在本文设定为车辆平均通过时间的相反数。

其中,Tacc为某车从进入虚拟仿真环境开始到离开环境为止的时间,Nout为某个时段内驶出环境的车辆数。该式子的意思即,所有辆车从进入虚拟仿真环境开始到离开环境为止的时间,在决策间隔(我们设定DDPG每15秒进行一次决策)中的均值。而奖励值则为该衡量的变动值,即一旦平均通过时间能够减少,那么减少的部分就是奖励值。

而对于线下的网络而言,则是每隔若干次线上网络训练,都将其全部的参数在数值上向在线网络进行平均滑动操作。并且,实际做出决策和产生训练数据都是使用线下网络。因而线下网络与线上网络的网络结构一致。具体网络结构如下:

评价网络输入是状态和动作的组合,即全部方向道路当前和未来的路况信息组成的一维向量,拼接上信号灯状态数组成的一维向量。本文中,我们的决策形式是给所有路口的所有信号灯状态分配时长,而不是决定信号灯当前状态的持续时长。其中动作空间的取值是0-1,映射为20秒至60秒的红绿灯方案时长。

2.4 整体架构

系统整体架构如图1所示。仿真环境不断产生当前路况数据交付Lstm预测网络;后将得到的预测路况和当前路口以及奖励信息传入目标(线下)决策网络;目标决策网络立即做出决策并回传仿真环境,同时将本次决策记录以状态转换对(状态转换对由前状态,决策,后状态,奖励组成)的形式在记忆缓存中;在线网络则随机地从记忆缓存中抽取数据进行学习;目标网络则在在线网络若干次训练后进行一次参数软更新。

图1整体系统结构

3 实验

3.1 数据集

本文中,我们总共选用了两个数据为仿真环境提供基础设定,分别是深圳市出租车数据集和上海市出租车数据集。这两个数据集都包含了车辆至少一天的GPS定位信息、车速信息。

图2为深圳市出租车数据集在进行预处理后的可视化呈现,其中颜色代表着该道路在当前时刻的拥挤度(TF),越红则拥挤度越高。

图2深圳出租车数据集可视化

3.2 实验设计

以分钟为尺度计算出一日之中每条道路的拥挤度指标(TF)。并以此作为指导仿真环境车辆产生和路径规划的依据。同时,对预测网络效果进行验证。

图3中橙点为其中一条路一天1440分钟的拥挤度指标的实际数据,蓝点是该条路预测出的拥挤度指标。可以看出,预测网络能较为准确的预测未来的路况信息。图4中为仿真环境产生的数据,是全部道路拥挤度指标在一天之中每隔15秒的均值。可以看出仿真程序具有与真实数据类似的车流波动,且一天的首尾拥挤度值一致,说明其具有较为可靠的仿真性能。

图3单条路拥挤度的预测结果对比图

图4仿真环境全道路拥挤度指标均值

3.3 实验结果

如图5所示,蓝色点为原环境的全部道路拥挤度指标在一天之中每隔15秒的均值,而橙色点则是在运用我们的系统进行优化后的对应数据。与原环境对比,由DDPG神经网络调整后的交通网络,整体的交通拥挤度有了明显的下降。可以看到,在一天之中的早高峰被直接削除,同时推迟了晚高峰出现的时间点和持续时间。同时,所有时间段上,交通拥挤度(TF)都低于原环境的交通拥挤度。而对于行车个体而言,他们的平均通过时间有了明显的减少。其中,图上两处数据断层是原数据集数据项缺失导致的。

图5应用优化方案前后全道路拥挤度指标均值对比图

3.4 优化方法横向对比

SCATS方法:(悉尼自适应交通控制系统)一种实时方案选择控制系统,信号周期和绿信比的实时选择是以子系统的整体需要为出发点,即根据子系统内的关键交叉口的需要确定共用周期时长。交叉口的相应绿灯时间,按照各相位饱和度相等或接近的原则,确定每一相位绿灯占信号周期的百分比。随着信号周期的调整,各相位绿灯时间也随之变化。本实验利用深圳市出租车数据集实现SCATS方法,并将该方法调整后的数据与DDPG神经网络方法进行对比。

TRANSYT方法:该系统是一种脱机配时优化的定时控制系统,全称是(Traffic Network Study Tool)“交通网络研究工具”,是定时式脱机操作交通信号控制系统,本文利用深圳市出租车数据集实现TRANSYT方法,将实验结果与DDPG神经网络实验结果进行对比。

如图6所示,蓝色点为原环境,青色点为我们的方法,红色点为SCATS方法,绿色点为TRANSYT方法。在此图中,SCATS方法的散点图出现明显的断层,且在断层出拥挤度指标明显下降,这是由于数据集在那两个断层处数据缺失,又由于该优化方法的特性,导致在端点道路(处于仿真环境外围的出口入口道路)的拥挤度会突然下降。但在后续数据的证明中,端点部分的拥挤度并不能给整个路网状况带来改善。可以注意到的是,在数据正常的前段中,SCATS在拥挤度指标方面是最为差劲的,而TRANSYT方法在全程中都与我们的方法持平。这样印证了,仅仅考虑单个路口的信息作出决策,而不去利用路口之间的强耦合性的话,决策效果将会大打折扣。

图6各方法全道路拥挤度指标均值

4 结语

深度学习技术是时下与未来各领域的研究热点。然而在交通领域中与人工智能结合的实践尚为少数。本文基于深度学习的循环神经网络和强化学习,构建出了一个行之有效的信号灯控制系统,验证了人工智能与交通领域结合的有效性,并讨论了利用多路口强耦合性的优越性。显而易见的是,我们的工作存在很多可以改善的地方,例如更加全面的交通仿真,例如更加优秀的神经网络结构和更加全面的实验等。但是,可以窥见的是,人工智能或深度学习与交通领域的结合是具有巨大潜力的组合。我们应当进一步加强智能交通调控的研究,令其理论更加地成熟,甚至最终成为现实中交通管理的一部分。

猜你喜欢

信号灯神经网络决策
基于神经网络的船舶电力系统故障诊断方法
MIV-PSO-BP神经网络用户热负荷预测
基于改进Hopfield神经网络的对地攻击型无人机自主能力评价
决策大数据
决策大数据
决策大数据
诸葛亮隆中决策
信号灯为什么选这三个颜色?
三次样条和二次删除相辅助的WASD神经网络与日本人口预测
交通信号灯