一种无人车无信号保护路口左转规划方法

2022-05-25夏志远黄妙华李其仲

合肥工业大学学报（自然科学版） 2022年5期

夏志远,黄妙华,李其仲

(1.武汉理工大学现代汽车零部件技术湖北省重点实验室,湖北武汉 430070; 2.武汉理工大学汽车零部件技术湖北省协同创新中心,湖北武汉 430070; 3.武汉理工大学湖北省新能源与智能网联车工程技术研究中心,湖北武汉 430070)

随着社会的科技进步以及人们对交通安全和交通效率的要求更高,无人驾驶汽车技术在近年来取得了长足的进步。但目前的无人驾驶汽车距离功能完备安全可靠的要求还有很长的路要走。此外,受到经济发展、基础设施建设等因素制约,我国目前还很难做到道路上只有无人驾驶汽车;在未来的一段时间内,无人驾驶汽车与有人驾驶汽车混行在道路上会成为过渡时期不可避免的局面。在无人驾驶汽车领域尚未解决的问题中,无信号保护左转是一个较难解决的问题,这主要是由于有人驾驶汽车的驾驶意图难以判断。根据美国交通部在2010年的一项统计,在超过200万起事故中左转判断失误导致了其中22.2%的事故,而右转只占了其中的1.2%[1]。为了避免风险,美国快递公司UPS规定司机在运输过程中尽可能地避免左转[2];谷歌无人驾驶汽车项目waymo甚至设计了一种通过4次右转等于1次左转的方法来规避左转行为,然而在实际应用中,由于城市规划问题，有时会出现右转之后汽车直接上了高速公路并前往更远地方的状况[3]。除了保证安全性,流畅完成左转同样比较困难。根据记录,Waymo无人驾驶汽车在一个没有信号灯的丁字路口左转时较难找到合适的机会切入正常行驶的车流中,而相同的情况下人类驾驶员能够快速找到合适的时机完成左转,这对致力于提升交通效率的无人驾驶汽车来说是不可接受的[4]。综上所述,尽管人们想出了很多办法尽可能减少左转,但左转行为仍然无法完全避免,因此，研究安全高效的左转行为具有重大意义,在涉及左转行为的问题中又以无信号保护路口的左转最难。

近年来,学者们针对无人驾驶汽车路口决策规划做了许多研究,常见的有基于预测的方法、基于推理的方法和基于部分可观察马尔科夫决策过程(partially observable Markov decision process,POMDP)的方法等。

基于预测的方法通过分析环境车辆的动态信息(速度、加速度、航向角、车道等)预测环境车辆的行为并针对性地进行规划决策。文献[5-7]采用的基于碰撞时间预测是一种比较流行的方法,它将路口规划问题转化为动态避障,这种方法的场景适应性较好,但对时间的预测精度尚不能满足复杂场景下安全性需求;文献[8]基于驾驶意图估计的决策框架提供了相对可靠的粗略预测,但这种方法不考虑车辆之间的时间与空间关系,因此在安全性方面往往较为保守,在避碰方面不够牢靠;文献[9-10]采用模型预测控制的方法,可以同时解决规划和控制问题,但该方法需要对车辆和环境做精确建模,计算资源消耗较大,实时性较差。基于预测的方法尚存在一定局限性:一方面，由于感知系统感知结果的误差存在、预测算法的计算能力不足等问题导致预测精度尚不能满足无人驾驶车辆的安全性需求;另一方面,基于预测的方法预测结果的时效性存在一定限制,对未来时间预测的准确性会随着时间的推移而大大降低。

基于推理的方法是根据当前环境判断周围车辆行为以推理出当下无人驾驶车辆最合适的动作。文献[11]采用有限/混合状态机的方法,通过满足“条件”触发“动作”来从当前行驶状态转换为目标行驶状态,该方法实现简单、应用广泛，但应对复杂交通场景能力不足;文献[12]提出基于规则冲突表算法,利用路口交通规则建立完整的应对机制,无人车根据不同的交通场景查表找到相应的动作并执行,但其应对不确定情形的反应能力不足;文献[13]基于知识的推理决策模型假定完全了解其他车辆的状态和意图,并且不考虑所有交通参与者之间的相互作用,该方法尚存在一定缺陷。基于推理的方法局限性在于忽略了环境的动态性和不确定性,系统很难充分地考虑复杂的道路交通状况。

POMDP是一种新兴的无人驾驶决策框架,这是一种基于未来行为的不确定性检索最优行为并实现交互的方法[14]。文献[15]在使用POMDP算法进行路口规划时通常根据道路几何选取参考路径,然后依据参考路径进行速度规划,这种采用参考路径的规划方法计算资源消耗较小，但在某些场景下通行效率较低。POMDP的局限性在于“维数灾难”,即运算量会随维数数目、历史数据的增长而呈指数型增长,这对算力要求较高。此外,该POMDP的逻辑推理能力较弱,无法对城区道路丰富的结构化特征进行推理。

本文提出一种解决无人驾驶汽车在无信号保护路口左转规划问题的方法。

首先,提出一种基于左转规划区对角线分割(diagonal division of the planning area of left turns,DDPALT)的路径生成方法,以期通过分割路口并考虑车辆特定约束找到多条左转路径备选。该方法一方面针对不同几何形状与几何尺寸的交叉路口能够提供一种通用高效的路径生成方法,环境适应性好;另一方面在复杂的交通状况中,可以根据环境车辆不同的动态行为针对性地在备选路径中选择合适的路径,在一些场景下能够提升无人驾驶汽车通过路口的通行效率。

其次,引入POMDP方法构建速度规划器，并利用一个朴素贝叶斯分类器求解沿备选路径的最优加速度。引入POMDP的优势在于它能够提供一种通用的、系统的、不确定性情形下的速度规划框架以应对交叉口复杂多变的环境,相较于现有的方法，POMDP在环境适应性、行车安全性等方面均有提升。

为了表述方便,本文统一将无人驾驶车辆表述为自主车,环境车辆则用编号表示。

1 基于DDPALT的路径生成方法

根据驾驶经验,驾驶员在有环境车辆的路口左转时会先等待环境车辆的反应,并通过环境车辆可能的驾驶意图选择合适的行驶路径。参考这一思路,本文DDPALT方法首先根据路口几何尺寸与几何特征划出车辆左转可能通过的区域,然后将该区域分割并考虑车辆的转向特性生成序列路径。

1.1 左转规划区

左转规划区和不对称规划区示意图如图1所示。图1a中,中心黑色线围成的几何区域为自主车辆完成左转行为的规划区域,该区域是由自主车当前车道、目标车道以及另外2个方向的道路口围成的几何多边形,以下称为左转规划区。中国道路存在很多不对称的路口,如图1b东西向和南北向的车道不垂直相交,但左转规划区的划定与图1a中类似。

图1 左转规划区和不对称路口规划区示意图

在左转规划区内规划路径需要考虑:

(1) 所规划的路径其最小半径应大于或等于自主车最小转弯半径。

(2) 自主车的航向角应在到达目标车道之前与目标车道中线对齐。

综合上述两点,本文采用沿对角线分割左转规划区以找到合适左转路径的方法。

1.2 路径生成

为了找到合适的左转路径,采用的规划方法如图2所示。

图2 常规路口规划和不对称路口规划示意图

以图2a为例,ABCDE包围的几何图形为左转规划区,EF为∠AED平分线,G、H为EF上的2个点,分别对应车辆最小转弯半径rmin和车辆到达目标点前完成转向所允许的最大半径rmax2个约束,以0.5 m为步长分割GH得到Gi(i=1,2,3,…),Gi即为所要规划的左转路径圆弧中点。以自主车起始点、Gi和目标点为航路点,利用直线和圆弧生成序列路径,其中圆弧半径在[rmin,rmax]区间以0.5 m为步长序列分布,圆弧两端分别与AB中线、CD中线相切,剩余部分由直线相连,最终形成图2a中3条白色序列路径。图2b展示了在不对称路口中用该方法生成的路径。

采用DDPALT方法生成的路径有较好的环境适应性,DDPALT生成的路径数量会随着路口几何尺寸变化而变化。当路口几何尺寸非常大时会生成多条路径供自主车选择;而当路口比较小时,2.1节中提及的2个约束会重合成一条路径。不仅如此,DDPALT生成的路径会随着路口几何特征变化而变化,从图2b可以看出,即使是不对称路口也能够生成若干符合条件的路径。这种方法在应对中国道路上复杂多样的路口有一定参考意义。

2 POMDP速度规划器

POMDP通常用于不确定性环境下的决策,在本文所假设的场景中,自主车要在无法获知环境车辆驾驶意图的情况下完成左转动作,选用POMDP作为速度规划器是一个较合适的选择。POMDP通常被定义为一个元组(S,A,T,R,o,O,γ)。其中:S为状态空间;A为动作空间;T为条件转移概率空间;R为奖励函数;o为观测空间;O为观测模型;γ为折扣因子。

2.1 状态空间

因为驾驶环境是交互的,在路口场景中任意环境车辆都有可能对自主车产生影响,所以该模型的状态空间被表示为将要进入路口及正处在路口中的所有车辆,该模型中状态空间被定义为:

S={S0,S1,S2,…,Sn}

(1)

其中：S0表示自主车的状态；Si(i=1,2,…,n)表示路口中环境车辆的状态。为了降低i求解POMDP过程中可能出现的维度灾难风险,借鉴Frenet坐标系的思想来描述车辆的状态以达到降低维度加速计算的目的,即

Si=(si,vi,ri),i=0,1,2,…,n

(2)

其中:si为车辆沿当前路径行驶的距离;vi为车辆速度;ri为车辆的路径,r0代表自主车选择的路径,由第2节中求解的序列路径组成,ri(i≥1)代表环境车辆的路径,其被离散为左转、右转、直行。

2.2 动作空间

在左转问题中,车辆的动作空间被定义为面向纵向加速度av的控制,方向盘转角由专门的路径规划器控制,此处不做过多引申。综合考虑交叉口安全限制、成员舒适性及车辆性能,纵向加速度被离散为-4～2 m/s2,步长为1 m/s2,最大速度被限制为35 km/h,动作空间被定义为:

A=av

(3)

2.3 奖励函数

奖励函数模型需要综合考虑效率、安全、成员舒适性等因素,将奖励函数模型设置为:

R=Rd+Rv+Ra+Rc

(4)

Rd为自主车完成左转越过目标车道停止线的收益,当到达目的地后应当给予较高的奖励,因此被定义为:

(5)

其中:si为自主车沿着当前路径行驶的距离;sdestination为车辆自主车初始位置到目标车道停止线的距离。

Rv为速度收益,即考察自主车实际速度跟随参考速度vref的能力,而v为车辆实时速度。Rv被定义为:

Rv=-(v-vref)2

(6)

Ra为加速度收益,频繁的加速度变化会使乘员感到不安宁,因此当加速度发生变化时:

Ra=-100

(7)

Rc为碰撞收益,无人驾驶车辆的安全性需要得到保障,将Rc设为:

Rc=-10 000

(8)

2.4 观测空间

由于需要考虑环境中所有可能的影响,观测空间被定义为交叉口中除了自主车之外的所有的车辆,即

O={O1,O2,O3,…,On}

(9)

为了简化计算,在模型中忽略传感器的误差。在无人驾驶车辆与有人驾驶车辆混行状态下,有人驾驶车辆的位置、航向角以及瞬时速度是可以被自主车感知到的,但有人驾驶车辆的驾驶意图很难精确预测,其观测状态定义为:

Oi=(vi,xi,yi),i=1,2,3,…,n

(10)

2.5 环境车辆驾驶意图估计

由于环境车辆的驾驶意图不可知,本文引入一个二维朴素贝叶斯分类器,利用该分类器处理观测空间中环境车辆的坐标信息Di,n(其中:i表示车辆编号;n=1时代表速度,n=2时代表位移),并给出预测概率为:

Di=

(11)

精确预测环境车辆的路径较难实现,但能够预测车辆驶入特定路径的概率为:

(12)

在车辆驾驶意图不可知的条件下,假设环境车辆驶入每条路径具有相同的先验概率,则有:

P(ri=r1)=P(ri=r2)=P(ri=r3),

i=1,2,3

(13)

其中:1代表左转代号;2代表直行代号;3代表右转代号。

环境所有车辆的驾驶意图概率为:

P(ri=rj|Di,1,Di,2)=

(14)

关于P(Di,1/2|rj)的取值,为了简化计算采用高斯分布来模拟预测,即P(Di,1|rj)=N(0,4.0),P(Di,2|rj)=N(0,6.0)。

至此观测模型Oi=(vi,xi,yi)(i=1,2,3,…,n)可以由每个潜在路径的概率简化产生。

2.6 模型求解

求解POMDP问题分为在线和离线方法。

离线方法会事先考虑环境中所有的静态及动态问题,并且将这些问题嵌入至POMDP模型中,再利用一个离线POMDP求解器在车辆发出控制指令之前找到一个好的策略。这种方法在环境未知且其他车动态未知的情况下,构建的POMDP模型过于庞大且很难求解[16]。

在线方法只对环境及其动态的已知部分建模,并允许在更多关于环境的信息上可用时变更执行。与离线方法相比,在线方法在算力要求、计算效率、场景适应性方面均有显著优势。

本文采用自适应置信树(adaptive belief tree,ABT)来在线解决该问题。ABT方法在模型运行时会根据POMDP模型的变化来修改模型中受到影响的部分,及时地剪枝也能够避免模型过于庞大的问题。

ABT结构示意图如图3所示。ABT通过维护一个高度为H(H为树的层数,图3中的高度为2层)的信念树T来精准表示POMDP问题中的状态转换关系,T中的每一个圈代表一个信念b和该信念下所处的状态s；T的根表示初始置信值为b0；每条树枝b-b′由一个动作a和一个观测o标记,这条树枝表示当自主车处在置信b状态下执行动作a并根据观测模型接收到观测o时,置信将会更新其下一个置信为b′。为了搜索每个置信树,自主车的系统将执行一个后序遍历,在每个叶节点上,系统模拟一个默认策略来获得其值的下界。

在每个内部节点,系统采用贝尔曼最优性原则来选择一个最佳动作,其公式如下:

(15)

通过递归计算动作分支A的最大值和观测分支O的平均值,求得置信b的近似最优策略变量V(b)。然后,自主车执行策略的第1个动作。由于树的生长顺序是动作分支A-观测分支O在高度H下循环生长,因此当行为空间或观测空间非常大时,构建或搜索全树是不现实的。

图3 ABT结构示意图

为了解决这个问题,本文采取了一些改进措施。首先,因为在(15)式中第2项计算了观测分支的平均值,所以不需要遍历所有的观测分支来确定一个近似最优值,观测分支的抽样子集足以估计这个平均值;其次,定义一个子树,称为确定性稀疏部分可见树,它只包含当前采样场景下所有策略遍历的置信树节点和边。在文献[17]中证明了一个小的强子树能够产生一个具有有界限制的近似最优策略。

3 仿真结果

利用PreScan和MATLAB/Simulink进行联合仿真,所提及的内容均运行在英特尔酷睿i7-4710MQ处理器上(主频2.5 GHz)。在无信号保护路口左转场景中,左转汇入车流和多对向车是较难解决的问题,据此设定2种不同的测试场景以验证本文算法。在测试场景中,环境车辆的行驶轨迹与速度是预先设置的,自主车可以获得环境车辆的位置、速度和航向角,但自主车不可获知环境车辆驾驶意图。

测试场景一如图4所示。图4a中:3辆车汇入同一车道,自主车对向和右侧车道各有一辆车分别沿路线R4和R5行驶,自主车在未能判断2辆车驾驶意图之前保持低速行驶;在对向车快速右转通过路口及右侧车减速后,图4c显示自主车提升了对向车右转和右侧车直行的概率,自主车根据该假设在备选路径中选择了一条最靠左的轨迹(图4a中路线R1),并在对向车右转后加速驶离路口。图4b中,X-Y为全局空间位置坐标系,Z轴代表时间。结合图4a、图4b可以看出,自主车与对向右转车及右侧直行车的时空间曲线并未相交,计算出最小距离后结合车辆的几何尺寸可以判断并未发生碰撞。

测试场景二如图5所示。图5a中,自主车对向车道有3辆车排成1列以相同的速度沿路线R4行驶。从图5a可以看出,自主车轨迹与对向3辆车轨迹不可避免地会发生重叠,自主车根据分类器中对对向3辆车轨迹的判断选择了一条较远的轨迹(图5a中路线R1),并在对向3辆车通过路口后加速完成左转动作。通常评价生成轨迹好坏的标准是检验轨迹是否最短,但在图5a中展示的场景较为特殊,尽管自主车选择的路径不是最短的,但考虑对向3辆车的移动特性,选择较远的路径能够避免自主车长时间等待,以缩短自主车通过路口的时间,提升通行效率。

图4 测试场景一

图5 测试场景二

为了验证本文方法的高效性,对比测试采用DDPALT和基于参考路径的方法在同样场景下通过路口所耗时间,结果如图6所示。

图6 DDPALT与参考路径方法左转通过路口所耗时间的对比

图6a中,白色路线R1为使用DDPALT规划的路径,中间路线R2为参考路径。图6b展示了对向车直行时采用参考路径自主车完成左转动作所耗时间和采用DDPALT完成左转动作所需要的时间,其中,横坐标为位移，纵坐标为时间。设定自主车从起始点出发到达目标车道停止线与目标车道中线的交点这段位移为完成左转动作所需要的位移。

从图6b可以看出,采用参考路径的方法比采用DDPALT所耗时间长了0.66 s。这证明本文所提出的规划方法在部分特定场景中可以提高自主车左转效率。

4 结论

本文提出DDPALT路径生成方法并结合POMDP的速度规划方法来解决无人驾驶车辆无信号保护路口左转规划问题。得出结论如下:

(1) DDPALT能够快速准确地依据车辆转向特性和路口几何特性找到若干条可通行的路径,所生成的路径环境适应性好,能够应对不同的动态环境。

(2) 利用朴素贝叶斯分类器估计环境车辆的驾驶意图在本文中是一个创新性的应用,分类器所提供的驾驶意图预估能够为POMDP求解器提供一个可信度较高的初始置信,这为后续求解带来极大的方便。本文采用的ABT方法克服了求解POMDP问题过程中容易出现的维数爆炸问题,实现了POMDP问题的高效近似求解,这在工程应用中具有一定的现实意义。

(3) 相较于现有方法,本文方法在保证安全性的同时减少了车辆左转通过无信号路口的时间,与采用参考路径方法的对比测试结果表明,通行效率得到了提升。多场景的仿真实验说明本文方法能够应对相对复杂的动态环境。