基于条件模仿学习的辅助驾驶决策模型研究

2023-06-22戴瑞儒

现代信息科技 2023年5期

摘要：随着我国机动车数量的不断增加，交通安全隐患问题越来越严重。针对传统模仿学习效率低下的问题，提出一种基于条件模仿学习的辅助驾驶决策模型，在线模仿学习过程中，构建专家经验池和个人经验池来动态分配学习数据，提高辅助驾驶决策的准确度，同时采用图像语义切割和先验知识迁移技术提取图像特征，提高预测的效率和准确性。模拟实验表明，该辅助驾驶决策模型显著降低了平均预测误差，使得辅助驾驶决策更加贴合个人的驾驶习惯。

关键词：辅助驾驶；条件模仿学习；时序语义；图像特征提取

中图分类号：TP18 文献标识码：A 文章编号：2096-4706（2023）05-0078-04

Research on Assisted Driving Decision-making Model Based on Conditional Imitation Learning

DAI Ruiru

（Department of Applied Technology， Sichuan Preschool Educators College， Mianyang 621000， China）

Abstract： With the increasing number of motor vehicles in China， the problem of traffic hidden dangers is becoming more and more serious. Aiming at the problem of low efficiency of traditional simulation learning， this paper proposes an assisted driving decision-making model based on conditional simulation learning. In the process of online simulation learning， expert experience pool and personal experience pool are constructed to dynamically allocate learning data to improve the accuracy of assisted driving decision-making. At the same time， image semantic cutting and prior knowledge transfer technology are used to extract image features to improve the efficiency and accuracy of prediction. The simulation experiment shows that the average prediction error is significantly reduced by the assisted driving decision model， which makes the assisted driving decision more suitable for personal driving habits.

Keywords： assisted driving; conditional imitation learning; temporal semantics; image feature extraction

0 引言

随着居民生活水平的不断提高，机动车数量越来越多，导致交通状况越发复杂，堵车、环境污染、交通事故也随之而来。辅助驾驶技术作为保证驾驶安全的手段，可以有效降低交通事故发生的概率，同时通过优化行车路线也可以有效降低碳排放，具有良好的环境效益和经济效益。

近年来，随着电动汽车的推广和普及，智能自动化已经成为其区别于传统燃油车的最大特点，各大车企、互联网巨头以及芯片公司将自动驾驶作为未来汽车发展的制高点，纷纷投入大量的资金推出各自的自动驾驶方案。随着人工智能技术的日趋成熟，以深度学习为代表的技术引起大部分厂商的关注，越来越多的算法得以在自动驾驶中使用，如红绿灯识别、行人检测、车道检测、主动刹车等。虽然这些技术无法在实际应用中取代人的作用，但不可否认的是它们极大地改善了驾驶环境。以图像为输入，经决策模型获得控制信息，有效降低了控制信息的不确定性传递。然而这种决策的有效性很大程度上取决于对图像中特征信息提取的效率和准确度。由于驾驶环境千变万化，驾驶员的驾驶习惯各不相同，妥善处理环境中的不确定性并有效解决数据离散等问题成为基于模仿学习辅助驾驶决策系统必须面对的难点。

1 基于图像语义的模仿学习辅助驾驶决策模型

1.1 条件模仿学习

在模仿学习过程中，输入的观察图像和控制行为是一对一映射的，在复杂的路况环境下，不同时间不同地点的处理逻辑也不尽相同，基于单一对应关系的控制很难奏效。为了有效应对复杂状况下的模仿学习处理逻辑，Codevilla等提出了条件模仿学习的方法，将目标信息和专家经验建模为向量函数，然后与汽车感知模块相结合进行模仿学习，使得車辆的控制行为更接近于正常处理的流程。

当车辆在t时刻感知到周围的状态信息为statt，对应的车辆控制信息为ctrlt，除了道路的环境信息外，此时正常形式的车辆控制指令为pctrlt，即pctrlt=E（statt， pctrlt），通过不断积累的专家经验将集合改为，损失函数为：

（1）

感知结果通过卷积神经网络进行特征提取，然后与汽车测量值m进行融合，同时将乘客的命令输入到决策网络中，确定最终的控制信息。但这种卷积神经网络的结构过于单一，难以实现复杂图像的高维特征识别，且效率较为低下，导致模型预测不准（或者预测的时效性不足），从而导致自动驾驶决策失败。

1.2 基于图像语义的模仿学习决策模型

实践表明，专家经验数据对于自动驾驶来说不仅是很好的训练数据，也体现了一个不断丰富并趋于完美的过程，而专家经验数据的有效利用则是决定自动驾驶成败的关键因素。基于图像语义的模仿学习决策模型框架如图1所示。

辅助驾驶决策模型的决策主要包括宏观决策和微观决策两个方面，其中宏观决策用于确定车辆的前进路线，如行车方向、行车车道、行车速度等。微观决策主要是根据当前车辆运行状态信息以及车辆感知的环境信息获取车辆动态控制信息，如加减速、变换车道、紧急制动、转向控制信息等。

1.3 宏观决策

宏观决策信息是指根据驾车人的决策条件（如目的地、道路选择等）确定宏观的驾驶导航信息，同时加上对路径上道路交通管理标识（如路段限速、车道选择、红绿灯信息、交通标志信息等）的识别。导航信息中关键节点的状态，以及道路周边交规标志形成的交规语义信息，在全连接层融合处理然后决定车辆在行驶过程中的主要宏观路径，在这里可以统称为道路选择条件。微观决策信息是指根据当前车辆的控制参数信息获取到的车辆状态信息（如当前车速、油耗、车辆的运行路线等）以及通过车辆传感器获取到的车辆周边信息（如车辆周边的车辆信息及其速度、运行趋势等），通过卷积神经网络对图像信息进行分析，连同车辆的状态信息生成车辆周边环境的时序信息。宏观决策信息与微观决策信息共同交由决策模型生成最终的控制信息。

宏观决策信息是由导航信息和交规信息共同生成的，导航信息中包含很多的关键节点，这些关键节点是指导航路线中的位置坐标p（x， y， z），一般是由导航卫星计算得来，在辅助驾驶决策过程中，关键节点信息可以用特征向量ωi表示，整个行车路径用W=f （ p，w1，w2，…，wn）表示，下一个导航点的平均航路朝向为：

（2）

其中，p和ωi表示当前位置p（x， y， z）和当前朝向θ组成，如图2所示。

在计算宏观导航信息时，必须考虑到交通规则对导航信息的影响，交通标识包括：危险标志、限速标志、强制标志，以及红绿灯等交通信号。交通标识语义识别采用基于深度学习的语义提取方法，对交规语义信息的提取采用的是YOLOv5网络，具体过程如下：

（1）输入端采用mosaic数据增强点缩放、裁剪以及重新排布的方式提升特征点识别，同时采用不同的阈值计算不同环境下特征点的最佳锚框值，进而识别图像中的关键特征点。

（2）使用Focus和CSP组件，实现图像卷积值和残差值的计算。

（3）预测网络采用CIoU_loss损失函数作为目标边界值的优化目标，精准识别具体的道路标志信息。

1.4 微观决策

微观决策信息是指从车辆状态信息和车载传感器获取的图像信息分析得来。车辆的状态信息主要包括车辆的速度、胎压、车辆重量、刹车片压力、制动距离、燃油量、气缸压力等，这些参数都是车辆微观控制阶段的重要参数，为图像信息提供的决策信息提供直接的参考数据。车载传感器获取到的图像信息以及部分交规语义信息是车辆微观控制的决定性变量，其中交规语义信息在动态决策信息中属于较为恒定的变量，因此在微观决策信息中不做太多考虑，其他的数据可称之为车辆微观控制信息。微观控制信息源于：图像语义分割信息；通过迁移先验知识增强对图像的特征提取；记忆网络中关联时间内的图像序列。

图像语义分割的目的是通过对图像的像素点进行标签和分类，同时以像素组合的方式进行简化，以便让图像的神经网络表征更加明显，用以区分如道路标识、车辆分割线、行人、其他车辆以及障碍物等对象。基于图像语义分割的图像如图3所示。

本文决策模型的图像语义分割模块使用图像分割网络SegNet，同时将分割的图像与原始图像进行融合，从而提高图像的特征提取能力。

先验知识迁移学习是降低辅助驾驶决策难度的重要手段，一般来说，决策系统首先分析传感器获得的图像信息，然后根据实际情况做出正确的行车决策，在此过程中，图像语义信息的分析和识别占据了重要地位。所谓的先验知识迁移就是将其他领域中被验证或者广泛使用的图像识别模型或参数，根据辅助驾驶所需的特定参数进行相应的转换之后迁移到辅助驾驶决策过程中。相对于从零开始的经验积累来说，先验知识迁移是提高决策效率，降低决策成本的重要手段。通过对先验知识的学习，可以让辅助驾驶决策在尽可能短的时间内完成基本的功能。

微观决策的运作包括两个部分：基于模仿学习的离线学习模块和基于确定性策略梯度算法的在线学习模块。通过离线学习模块对辅助驾驶的标签数据进行训练，避免大量无用的探索，在线学习模块可以在实际使用过程中不断完善和修正辅助驾驶决策模型。微观决策的主要过程如图4所示。

微观决策的主要过程如下：通过先验知识对模拟学习网络进行训练，构建模仿学习网络，然后使用部分先验知识在模仿学习网络的构建中形成专家经验缓存池。与此同时，使用部分先验知识的结果对在线学习网络进行预训练，得到基本的在线学习网络。之后在线学习网络开始运行，随着车辆的运行，在線学习网络通过学习驾驶员的处理行为，不断地丰富个人经验缓存池，同时借助先验知识不断丰富专家经验缓存池，然后以专家经验缓存池和个人经验缓存池的内容作为数据支撑，强化训练在线学习网络，使得学习网络不断地逼近真实的车辆决策过程。

2 仿真实验及结果分析

2.1 实验环境

本实验在ubuntu 20.04操作系统下进行，使用CARLA-simulator 0.9.9和Unreal Engine 4.24进行场景模拟，实验具体参数如表1所示。

2.2 宏观决策测试

基于CARLA Benchmark进行测试，数据训练场景为城镇地图T1，测试场景为城镇地图T2，两个场景中分别设有红绿灯、多岔路口等，如图5所示。按照Benchmark的要求设定四种任务，分别为起点到终点的直行、转弯、导航和动态导航等。

测试过程中，除了关注模拟车辆是否准确到达目的地外，还要关注测试结果的稳定性。因此测试的指标包括任务成功率、轨迹成功率和失败惩罚比例。其中成功率是成功次数succ与总次数total的比值；轨迹成功率是实际运行长度L0与轨迹长度L1的比值；惩罚比例由设定系数C0和惩罚系数p组成。评估指标res如下：

（3）

将本文方法与基线方法CIL进行对比试验，测试结果的评估指标积分如表2所示。

从测试结果中可以看出，在静态场景下，两种方法在训练城镇T1中都具有较高的成功率，但是在测试城镇T2中的成功率会普遍下降，本文所提方法的成功率不管是在训练城镇中还是在测试城镇中都很高。在动态导航测试场景下，CIL基线方法的成功率较低，且在训练环境和测试环境中波动较大，而本文所提方法的波动性较小，表现出较强的鲁棒性。

2.3 微观决策测试

在微观决策测试过程中，采用TORCS模拟器中的两张地图进行试验，每张地图采集800组数据，然后使用这些数据来訓练模仿学习网络。由于使用了模拟器，故只能通过打标签的方式构建先验知识，总共构建400组数据作为先验知识。通过先验知识指导模拟网络的训练，进而生成专家经验缓存池，循环测试生成1 600组数据，TORCS模拟的加速和减速设置为自动，车辆自重、刹车性能等在本实验中并未加以考虑。

两张地图上的训练性能如图6所示。

试验结果表明，地图的难度越大，模拟学习网络性能越差，主要原因是收集的数据较少，但是两张图的最终训练结果相差不多，这些结果足以训练在线学习网络，不会对整个模型的最终性能产生较大的影响。运行训练好的模型，每隔100步记录一下评估指标res的值，以此来检验算法的性能，结果如图7所示。

虽然初期训练数据的数量较少，但是在整体测试中的效率要明显高于基准算法。从纵坐标的数据来看，在线学习模型的方式可以持续改进训练结果，因此算法会随着训练次数的增加最终稳定下来。

3 结论

随着机动车数量的不断增加，车辆越来越转向其功能属性，如何增强用户的乘车体验，降低能源消耗是当前车企需要着重考虑的问题。以图像为输入，经决策模型获得控制信息，有效降低了控制信息的不确定性传递。有鉴于此，本文采用图像语义切割和先验知识迁移技术提取图像特征，提高预测的效率和准确性，同时考虑到不同人驾驶习惯的不同，通过构建专家经验池和个人经验池来动态分配学习数据，既提高了辅助驾驶决策的准确性，又可保证辅助决策结果更加符合驾驶员的个人驾驶习惯。

参考文献：

[1] 高波.基于多传感器感知的辅助驾驶技术研究 [D].西安：西安工业大学，2021.

[2] 王强.基于深度强化学习的自动驾驶控制决策研究 [D].大庆：东北石油大学，2022.

[3] 李沛安.基于深度神经网络的交通场景图像语义分割研究 [D].北京：北京交通大学，2020.

[4] 赵树煊，张洁，汪俊亮，等.基于两阶段深度迁移学习的面料疵点检测算法 [J].机械工程学报，2021，57（17）：86-97.

[5] CODEVILLA F，M?LLER M，L?PEZ A，et al. End-to-end driving via conditional imitation learning [J/OL].arXiv：1710.02410v2 [cs.RO].[2022-11-05].https：//arxiv.org/abs/1710.02410v2.

[6] 李小艳，宋亚林，乐飞.残差密集块的卷积神经网络图像去噪 [J].计算机系统应用，2022，31（10）：166-174.

[7] 李壮飞，杨风暴，郝岳强.一种基于残差网络优化的航拍小目标检测算法 [J].国外电子测量技术，2022，41（8）：27-33.

[8] 王海军，何艳，周豪，等.基于YOLOv5网络模型对铁路轨道障碍物检测与识别 [J].中国储运，2022（9）：86-87.

[9] 林禹，赵泉华，沈昭宇，等.改进SegNet与迁移学习的遥感建筑物分割方法 [J].测绘科学，2022，47（6）：78-89.

[10] 王成康，黄李波.基于CARLA的驾驶仿真平台搭建 [J].佳木斯大学学报：自然科学版，2021，39（3）：27-29.

[11] 符莎.基于UNREAL ENGINE的沉浸式加工中心造型定制设计技术 [J].机电产品开发与创新，2022，35（5）：162-165.

[12] 朱坚.基于深度强化学习的无人车路径规划研究 [D].西安：西安工业大学，2021.

作者简介：戴瑞儒（1968.03—），男，汉族，陕西商洛人，讲师，本科，研究方向：电气设备自动控制、工业企业生产过程自动化、电机和仪表检测等。

收稿日期：2022-11-08

现代信息科技

2023年5期

基于条件模仿学习的辅助驾驶决策模型研究

杂志排行

现代信息科技的其它文章