基于博弈论的自动驾驶车高速公路换道决策机制研究

2022-03-18石蕊张辉王霁宇端帅

交通科技与管理 2022年4期

石蕊张辉王霁宇端帅

摘要随着信息技术及汽车产业的快速融合，促进了自动驾驶技术迅猛发展。目前，许多主流车企陆续加快L3及以上自动驾驶功能产品的研发及试验进程。而多数L3及以上级别智能汽车的设计运行范围中会声明其具备自主超车及变道功能，因此对L3以上级别的换道行为进行研究、提升自动驾驶功能下换道安全性就显得十分重要。研究通过解析影响高速公路环境下自动驾驶车辆主动换道决策的多重信息，之后具体解析直接对换道行为产生影响的车辆间的博弈交互机理，建立了基于博弈论的自动驾驶车高速公路换道行为的决策机制，将为自动驾驶车换道行为仿真以及后续的自动驾驶换道行为评价提供支撑。

关键词换道决策;博弈论;高速公路;自动驾驶;主动换道

中图分类号 U463.6文献标识码 A文章编号 2096-8949（2022）04-0004-04

0 引言

近年来，我国鼓励推动汽车网联化、智能化与电动化协同发展，智能汽车呈现强劲发展势头。随着关键技术的不断突破，车载激光雷达等真值设备达到国际先进水平，L2级别乘用车新车市场渗透率达到20%。截止2021年9月，我国已有3 500多千米的道路实现智能化升级，搭载联网终端车辆超过500万辆[1]。

然而自动驾驶车的普及率及技术成熟度逐步提升的同时也给交通管理带来了新的挑战，尤其是在未来混行环境下给交通安全带来的挑战。跟驰及换道作为车辆在路上行驶的两种基本形态，L3及以上级别的智能汽车能够自动化地完成这两个形态。相比于跟驰状态，换道行为涉及与本车道及目标车道车辆的复杂交互。智能汽车相较于完全手动驾驶汽车具有感知时间更短、感知范围更广的优势，可以进行交互的信息也有不同，因此不能用传统的换道理论来解释自动驾驶车的换道行为。

换道行为的自动化作为自动驾驶车辆行驶过程的关键环节，对于指导自动驾驶车辆的安全高效行驶有着重要意义。当前对于自动驾驶车辆在高速公路上的换道研究尚处于起步阶段，相关的现有研究和基础理论尚不够完善，且研究中所述换道情境及验证中应用的场景与实际的高速公路通行环境存在一定程度的差别。

当前研究通常将换道全过程拆解为产生换道意图、换道决策和换道执行三个阶段。最原始的換道决策模型是由Gipps提出的Gipps 换道模型[2]。Motohiro[3]等以换道车辆与周围车辆的速度差、间隙等为参数，建立神经网络模型，利用大规模的轨迹数据进行标定，用于预测车辆的换道决策。Wang[4]等以驾驶安全性、舒适性和效率为多重目标，考虑了不同驾驶决策对周围车辆加速度的影响，从而对驾驶决策机制进行优化。近几年来，国内外学者开始尝试基于博弈论思想解析车辆的换道行为。Kita[5]提出将博弈论中信息交互博弈的思想策略带入换道决策中。Talebpour[6]提出混流环境下的换道行为是非合作博弈行为，并基于此建立换道模型。Be11[7]应用博弈论理论对考虑高速公路交通流来研究车辆换道对交通流运行的影响程度。

根据上述研究，可以看出博弈论为含有多重信息且具备竞争倾向的问题提供了解决方法和分析手段，适用于该研究期望的高速公路自动驾驶车主动换道的场景。因此，研究对高速通行环境下影响自动驾驶车换道的多重交互信息进行分析，界定博弈类型建立换道决策机制并通过实际通行数据完成验证。

1 基于博弈论的自动驾驶车辆换道策略机制建立

传统交通流理论中根据车辆换道的动机将车辆的换道行为划分为自由换道和强制换道。该文主要研究自动驾驶车的主观自动换道行为，场景如图1所示，Lane1上行驶的AV车产生换道至目标车道Lane2的意图，假定AV车为可以自动完成主动换道全过程的L3级别自动驾驶车辆，Lane1的前车RV1及Lane 2的后车RV2均为完全人工驾驶的非网联车辆。车辆AV做出从Lane1换道Lane2的决策过程可以视为其与其他车辆交互博弈的过程。AV为了寻求更大的行驶空间产生了换道意图，而周围受到影响的其他车辆需考虑自身所处的环境决定是否进行让行，周围车辆采取的策略的不同都会影响AV最终的决策结果。该文主要研究有换道意图的自动驾驶车AV与目标车道后车RV2间的博弈，下面将确定两者间的博弈类型及作用机理。

1.1 博弈类型界定及博弈机理解析

每一个博弈的主要构成要素包括参与者、每个参与者所采取的策略以及参与者采取相应的策略所带来的收益函数。根据博弈双方的期望收益，通常可以将博弈划分为合作博弈与非合作博弈。非合作博弈下根据参与者行动顺序的可见性和参与者信息的完整性又可分为完全信息动态博弈、完全信息静态博弈、不完全信息动态博弈和不完全信息静态博弈四种类型。

上述两车在博弈过程中知晓对方的坐标、所处车道等信息，为完全信息博弈，区别在于AV作为配备真值测试设备的自动驾驶车在感应时间、感应范围上具备一定优势;研究假定两车同时采取是否换道/是否让行的决策，因此为静态博弈;在博弈中，两车的预期目标均为自身的收益达到最佳，因此为非合作博弈。故AV与RV2间的博弈类别界定为完全信息下的非合作静态博弈。这个博弈对应的基本要素为[8]：

（1）参与者：为AV和RV2;

（2）决策：可供AV选择的决策有换道/原车道继续行驶，可供RV2选择的决策有减速让行/加速阻止;

（3）收益函数：两车不论采取何种决策都会产生一定的收益，将建立两车的收益函数对收益程度进行量化表达。

1.2 换道决策机制建立

依据上述博弈要素分析，可以得到两车博弈的收益矩阵，如表1所示。其中m1、m2为AV采取的换道、不换道策略，u1为AV的收益函数;n1、n2为RV2采取的让行、不让行策略，u2为RV2的收益函数。

假定此非合作博弈存在策略（mi，ni），满足纳什均衡，即使式（1）成立：

而策略（mi，ni）也将作为该研究对博弈换道的预测策略。

1.2.1 收益函数确定

在进行换道过程的收益评估时，学者们通常从安全（距离）收益[9]或速度收益（时间）的维度[10]来建立效益函数。研究将结合两个维度建立收益函数，AV及RV2采取何种策略所得到的收益计算方式如下：

式中：-AV未决策前的最优行驶速度;

-AV采取决策后的稳定跟车速度;

-AV采取决策后稳定跟车的距离;

-RV2未决策前的最优行驶速度;

-RV2采取决策后的稳定跟车速度;

-RV2采取决策后稳定跟车的距离。

1.2.2 换道决策机制

根据式（2）提出的博弈收益函数，从AV视角进行博弈决策机制，换道决策流程为：换道意图产生—信息收集整合—博弈分析—收益计算—执行决策（换道、不换道）。

2 实际数据验证

为验证机制的有效性，选择使用自动驾驶车进行高速公路测试时的数据进行决策预测。试验车是蔚来ES6，在高速公路上可以完成自动变道。

该车配备了由GPS定位、惯性测量单元、激光雷达等组成的测试系统，能够准确识别车辆周围的车道信息、车辆等目标物，计算之间的距离、速度和位置，并在数采内，实现数据分析与评价。此次道路测试选定的测试路线为天津市某段绕城高速公路，总长248.8 km。于每天不同时间段对此路线进行测试采集。

提取测试过程中发生的自由变道成功及失败场景，并对数据进行清洗，获得72个主动换道成功场景、31个失败场景，本验证将对这些场景进行换道拆解，根据换道决策前的跟车间隙、周边车速、车流密度等信息进行综合收益评估，对其是否换道展开预测。后续将预测后结果与实际场景比对计算准确率。

2.1 自动换道成功场景验证

提取测试过程中的换道场景，在换道意图产生后根据试验车采集的自车与周边数据进行换道决策预测，如图2所示，试验车根据环境，产生换道意图，此时对试验车及目标车道后车进行收益计算，表2为试验车与目标后车的博弈收益矩阵。

纳什均衡后，不论RV2是否让行，AV的最佳策略都是换道，但该次的最佳策略是RV2让行，AV换道，这也与实际情况相符。依次测算所有换道成功场景，准确率达90.2%。

2.2 自动换道失败场景验证

提取的自动换道失败场景是指试验车在自动驾驶功能开启的工况下进行换道，但由于自车或周围的因素请求人工接管，由安全员决定是否继续换道，如图3样例所示，计算试验车及目标车道后车的收益函数值，如表3所示。

纳什均衡后，该次博弈的最佳策略是RV2不让行，AV换道。实际情况是AV在选择换道后，RV2采取加速策略，AV自动驾驶功能退出，人工接管换道，与预测决策相符。依次测算所有提取的有效场景，预测准确率为82.7%。

2.3 验证结果分析

研究采用实际自动驾驶数据分析了自动换道执行成功和失败两种工况下的共103个场景进行换道决策预测。结果显示该研究的换道决策机制具备一定程度的可靠性，尤其在成功工况下准确率较高。

相较于成功工况，自动换道失败工况预测准确率较低，经场景回放分析，自动换道失败原因大部分是由于试验车没有充分考虑目标车道后车加速的可能性，在后车突然加速后退出了自动驾驶功能，存在决策失误的可能，也体现了博弈思想在车辆策略决策方面具有一定的积极意义。

3 结语

该文应用博弈论理论从安全及效率维度建立了换道决策机制，通过实际数据进行高速自动驾驶换道决策预测，准确率证明了机制的有效性，也体现了博弈思想对于自动驾驶汽车决策的积极意义。

参考文献

[1]北京日报. 全国新能源车保有量超600万辆！网联汽车测试里程突破500万公里[EB/OL] . （2021-9-25）. https：//baijiahao.baidu.com/s？id=1711869964531068507&wfr=spider&for=pc.

[2]Gipps P G. A Model for the Structure of Lane-Changing Decision[J]. Transportation Research Part B Methodological， 1986（5）： 403-414.

[3]Motohiro， Fujita， Koji， et al. Predicting driver's lane-changing decisions using a neural network model. Simulation Modelling Practice & Theory International Journal of the Federation of European Simulation Societies， 2014.

[4]Wang D， Hu M， Wang Y. Model predictive control-based cooperative lane change strategy for improving traffic flow[J]. Advances in Mechanical Engineering， 2016（2）： 1-17.

[5]Kita H. A merging–giveway interaction model of cars in a merging section： a game theoretic analysis[J]. Transportation Research， Part A （Policy and Practice）， 1999（3-4）： 305-312.

[6]Talebpour A， Mahmassani H S， Hamdar S H. Modeling lane-changing behavior in a connected environment： A game theory approach[J]. transportation research procedia， 2015（59）： 216-232.

[7]Bell M. A game theory approach to measuring the performance reliability of transport networks[J]. Transportation Research Part B， 2000（6）： 533-545.

[8]Mckelvey R， Mclennan A， Turocy T， et al. Gambit： Software Tools for Game Theory[J]. Modern Healthcare， 2005（5）.

[9] 薛春銘. 基于博弈的车辆协作换道策略研究[D]. 大连：大连理工大学， 2017.

[10]杨晓芳，张盛，付强. 基于博弈论的完全信息下的驾驶行为研究[J]. 公路交通科技， 2015（7）： 105-111.