网刊加载中。。。

使用Chrome浏览器效果最佳,继续浏览,你可能不会看到最佳的展示效果,

确定继续浏览么?

复制成功,请在其他浏览器进行阅读

基于安全风险预测的自动驾驶自适应巡航控制优化  PDF

  • 汪敏 1
  • 涂辉招 1
  • 薛东飞 2
  • 李浩 1
  • 李千山 2
1. 同济大学 道路与交通工程教育部重点实验室,上海 201804; 2. 宝马中国研发中心,上海 200232

中图分类号: U491

最近更新:2024-04-11

DOI:10.11908/j.issn.0253-374x.23401

  • 全文
  • 图表
  • 参考文献
  • 作者
  • 出版信息
EN
目录contents

摘要

从周边车辆运动学状态参数和道路设施条件参数中提取场景特征指标和安全风险度量指标,采用极端梯度提升模型(XGboost)和长短时记忆模型(LSTM)进行安全风险预测,由此提出基于安全风险预测的自动驾驶自适应巡航控 制(ACC)优化方法,并选取碰撞发生概率、速度平均值、速度标准差3种指标评价ACC表现。通过Prescan和Simulink联合仿真推演,验证了ACC优化方法的合理性和有效性。结果表明,基于安全风险预测的ACC优化方法的控制表现优于一般ACC;利用LSTM预测安全风险,相比XGboost具有更好的ACC优化表现;预测安全风险时增加道路设施条件参数,显著提升了ACC表现,降低了自动驾驶碰撞发生概率。

巡航控制是自动驾驶汽车决策控制系统重要组成之

1。频繁加减速、紧急制动等巡航控制,不仅影响交通通行效率和稳定2,还会影响车辆行驶过程中的安全性和舒适3,甚至导致严重的碰撞事4-5。预测自动驾驶汽车行驶过程中安全风险并进行合理有效的巡航控制,对提升自动驾驶汽车应急避险能力、降低碰撞事故发生概率具有重要意义。

自动驾驶巡航控制通常包括自适应巡航控制(adaptive cruise control,ACC

6-7、协同自适应巡航控制(cooperative adaptive cruise control,CACC7-8等。ACC原理是基于目标前车的运动学状态,根据车头间9、车头时10等利用车辆运动学模型进行速度控制。然而,在有车辆切11-12、切13等道路交通条件复14的路段,自动驾驶汽车难以保证ACC和CACC响应的及时性和有效性。虽然有研究将周边更多目标车的运动学状态和驾驶行为特征纳入巡航控制考虑之中,并定义了风险15、风险16等来量化周边车辆对自动驾驶汽车造成的潜在威胁,但是,基于多目标车的ACC控制策略在叠加多车综合影响时存在困难,因此难以应用到实际车辆控制系统中。此外,传统ACC策略没有将道路设施条件考虑在控制模型中,自动驾驶汽车不会因道路线形变化、匝道出入口等进行速度优化,导致ACC在复杂道路设施条件和复杂交通条件耦合作用下响应不及时,易引发自动驾驶汽车人工接管或碰撞。近年来,不少研究通过深度强化学17-18等方式,提出了端对端的控制策19-21,这不仅可辨别造成自动驾驶潜在碰撞的风险源,还可实现自动驾驶汽车轨迹选择和路径规划,如变道轨迹优化、纵向速度控制等。然而,深度强化学习对用于模型训练的数据规模和数据质量要求高,且难以解释其内在关联性,因此“稀疏”和“长尾”场景中存在决策失效的潜在隐患。

本文考虑自动驾驶汽车和周边车辆的运动学状态以及道路设施条件,量化自动驾驶汽车行驶过程中安全风险并利用深度学习等模型进行安全风险预测,由此提出基于安全风险预测的自动驾驶ACC控制优化方法。搭建基于Prescan和Simulink的联合仿真推演平台,构建自动驾驶汽车安全风险预测模块和ACC优化模块,基于实际导入的路网开展仿真模拟,验证ACC优化方法的合理性和有效性。

1 模型与方法

1.1 名词定义

(1)最小车头间距:自动驾驶汽车跟随前车稳定行驶时预设的最小跟车距离。最小车头间距越大,自动驾驶汽车有更长的时间对前车行为做出反应。

(2)自动驾驶限速:预设的自动驾驶汽车最大速度,依据道路限速和驾驶习惯自主设定,且不应超过道路限速和自动驾驶汽车运行设计域(operational design domain,ODD)的速度要求。

(3)安全风险度量指标:自动驾驶汽车行驶过程中,表征其安全风险程度的定量化评价指标,包括碰撞时距(time to collision,TTC)、避免碰撞减速率(deceleration rate to avoid a crash,DRAC)、单步概率驾驶风险场(single step probabilistic driving risk field,SPDRF)等。本文提出基于概率的指标进行安全风险度量。

(4)场景特征指标:场景特征指标指从自车和周边车辆运动学参数和道路设施条件参数中提取,用作自动驾驶汽车场景描述的指标。

(5)预测时长:预测时长是预测时刻与当前时刻的时间差。

(6)ACC控制优化:在ACC的基础上,自动驾驶系统根据周边车辆运动学状态和道路设施条件,进行的速度控制优化。本文仅指纵向速度控制优化,不涉及自动驾驶汽车变道控制。

1.2 参数与指标

1.2.1 场景特征指标

自动驾驶汽车运行安全风险与周边车辆的运动学状态相关。选取车辆运动学参数包括自车速度、自车加速度、前车速度、前车加速度、跟车间距、周边车辆(除前车)平均速度、周边车辆速度标准差等7个参数。此外,道路曲率、交叉口或匝道出入口、中央分隔带可通过性等道路设施条件也会影响自动驾驶汽车运行安全风险。本文以快速路作为实验场景,主要考虑道路曲率和匝道出入口对安全风险的影响。选取道路曲率半径和距匝道出入口的距离2个道路设施条件参数。针对不同安全风险预测模型,提取不同的场景特征指标。在长短时记忆(long short-term memory model,LSTM)模型中,提取以上9个参数的时间序列构成场景特征指标用作场景描述。在极端梯度提升(extreme gradient boosting,XGboost)模型中,提取以上9个参数中每个参数时间序列的均值、标准差、最大值、最小值,耦合成36个场景特征指标用作场景描述。

1.2.2 安全风险度量指标

常用安全风险度量纵向指标有TTC、DRAC等,主要考虑车辆发生纵向碰撞的风险。横纵向指标有SPDRF等,同时考虑车辆发生横纵向碰撞的风险。本文在SPDRF指标的基础上,提出综合碰撞概率指标(synthetic collision probability index,SCPI)作为安全风险度量指标。SCPI值介于0和1之间,表征车辆在一段时间内发生碰撞的综合概率。

自动驾驶汽车与周边车辆 it 秒内发生碰撞的概率P(i)

P(i)=NDloni-Δvloniτ0.5t2,u,σ·                         NDlat(i)-Δvlat(i)τ0.5t2,u,σ (1)

式中:N 表示正态分布,大括号内3个参数依次表示分布统计对象、均值、标准差; DloniDlat(i) 分别为自动驾驶汽车与周边车辆 i 的纵向距离和横向距离;Δvloni 和Δvlat(i) 分别为自动驾驶汽车与周边车辆 i 的纵向速度差和横向速度差;τ 为自动驾驶系统的响应时间,其与传感器的数据采集频率和决策时延有关,本文依据自动驾驶感知、决策实际情况,τ 取为 0.1 s;u,σ 分别为自动驾驶汽车加速度分布的均值和标准差,假设加速度服从高斯分布,其值介于-3 m·s-2 和 3 m·s-2的概率为0.997 3,满足行驶过程中舒适性要求。

自动驾驶汽车在 t 秒内安全风险为

                       RSCPI=1-i=1n(1-Pi)                        (2)

式中:n 为自动驾驶汽车目标范围内周边车辆数量。

1.3 安全风险预测模型

1.3.1 模型种类

利用XGboost和LSTM进行安全风险预测。XGboost是回归预测模型的一种,相比于传统的梯度提升决策树(gradient boosting decison tree,GBDT),其在处理大规模数据和特征识别方面具有优势;LSTM是循环神经网络(recurrent neural network,RNN)的一种,其具有时序记忆功能,可进行时序预测。

针对XGboost模型,基于36个场景特征指标和对应预测时长下的安全风险度量指标,进行模型训练,再用训练的模型进行预测。XGboost模型安全风险预测结果为

ΔRSCPI(T+Δt)=MXGboost(F1(T)) (3)

式中:RSCPI(T+Δt)T+Δt 时刻的安全风险;T 为自动驾驶汽车行驶的当前时刻;Δt 为预测时长;F1(T) 为36个场景特征指标在 T 时刻的值;MXGboost 为训练的XGboost模型。

针对LSTM模型,除了提取9个参数的时间序列构成场景特征指标用作场景描述外,还考虑安全风险度量指标的时序自相关性,LSTM模型安全风险预测结果为

RSCPI(T+Δt)=MLSTM(F2(T),RSCPI(T)) (4)

式中:F2(T) 为9个参数时间序列构成的场景特征指标;MLSTM 为训练的LSTM模型。

1.3.2 模型评价

以安全风险度量指标的决定系数R2作为模型预测效果评价指标,其可评价安全风险预测值和真实值的拟合程度。

1.4 自适应巡航控制优化

1.4.1 控制模型

传统ACC模型是基于经典的比例‒积分‒微分(proportion integral differential,PID)控制模型而来。以前后车位置差和速度差作为输入,以自动驾驶汽车的预期加速度作为控制策略。

aACC=k1xl-xa-x0+k2(vl-va) (5)

式中:aACC为自动驾驶汽车的预期加速度;xlxa 分别为前车和自动驾驶汽车的位置;vlva 分别为前车和自动驾驶汽车的速度;x0 为自动驾驶汽车的最小车头间距;k1k2分别为位置差和速度差的权重系数,且 k1 + k2 =1,通常取 k1 = k2 =0.5。

传统ACC模型基于前后车位置差和车速差,因此对前车的准确识别是良好控制表现的基础。在前方有多辆车以及有切入、切出等车辆特殊行为下,自动驾驶汽车对目标前车错误或不及时的识别会导致ACC响应不及时。基于周边车辆运动学参数和道路设施条件实现安全风险预测,可提前识别车辆的特殊行为,对提高ACC响应的及时性有重要的意义。

在ACC模型的基础上,将安全风险预测结果RSCPI作为控制模型的输入,得到基于安全风险预测的自适应巡航控制(safety risk-based adaptive cruise control, RACC)优化模型。

aRACC=m1xl-xa-x0+m2vl-va+m3RSCPI (6)

式中:m1m2 分别为修正后的位置差和速度差权重系数,m3 为安全风险权重系数,m1m2m3 通过仿真模拟迭代得到,不同道路场景下数值可能不同,且 m1 + m2 + m3 = 1。

1.4.2 控制表现对比评价

依据实际道路路网构建仿真环境,搭建自动驾驶汽车感知模块、决策模块、控制模块,以及周边车辆的运动学模型,实现自动驾驶汽车仿真推演。用仿真过程中自动驾驶汽车碰撞发生概率、速度平均值、速度标准差作为巡航控制表现评价指标,分别反映巡航控制的安全性、通行效率及行驶稳定性。碰撞发生概率越小,安全性越好;速度平均值越大,通行效率越高;速度标准差越小,行驶稳定性越好。

当两车间的距离小于车长时则判断为发生了碰撞,碰撞发生概率反映决策控制的安全性,为

Pcollision=ScollisionStotal (7)

式中:Scollision 为仿真运行过程中发生碰撞的数据条数; Stotal 为仿真运行过程中的整体数据条数。

速度平均值反映决策控制下通行效率,为

Vmean=1Stotalva (8)

速度标准差反映决策控制下行驶稳定性,为

Vstd=(va-Vmean)2Stotal-1 (9)

2 实例分析

2.1 仿真场景搭建

2.1.1 仿真软件和平台

利用可视化仿真工具Simulink和自动驾驶仿真工具Prescan搭建联合仿真平台,实现自动驾驶汽车的传感器仿真、车辆动力学仿真、交通流仿真以及决策控制。Prescan可实现高逼真场景搭建和车辆传感器布设,内置有车辆动力学模型和智能交通流仿真模块(intelligent traffic module,ITM); Simulink可实现自动驾驶决策控制算法的开发,二者结合具有较好的仿真模拟推演效果。

传感器仿真:利用Prescan的多种传感器实现传感器仿真。根据仿真需要,可自主选择短距离雷达、长距离雷达、摄像头等多种传感器进行数据感知融合,也可以选择理想化的传感器进行周边车辆识别定位和车道识别。本文不考虑传感器感知精度对安全风险预测的影响,因此选择理想化的传感器,向自动驾驶汽车准确传递感知范围内周边车辆信息和道路环境信息(如车道边缘、车道线等),作为决策控制的输入。

车辆动力学仿真:指通过仿真的手段建立车辆预期加速度和车辆实际油门踏板受力、制动踏板受力、方向盘转角之间的关系。利用Prescan中内置的小汽车动力控制模型作为车辆动力学仿真模块,其输入是车辆预期的加速度,输出是自动驾驶汽车的油门踏板受力、制动踏板受力、方向盘转角。

交通流仿真:利用Prescan中的ITM模块定义周边车辆的车型比例及各种车型的控制模型,根据实验路段的实际交通流量,生成交通流。

联合仿真平台结构如图1所示。

图1  联合仿真平台结构

Fig.1  Structure of co-simulation platform

2.1.2 场景搭建

道路场景:选取某快速路全路段(包括上下匝道)作为实验路段。从开放街道地图(open street map,OSM)导入道路路网到Prescan中,尽可能真实还原实际路网拓扑关系,并保证其连通性。

自动驾驶汽车:本文不考虑自动驾驶汽车的变道策略,因此自动驾驶汽车具有车道保持和纵向速度控制2种控制模块,车道保持通过感知车道边界和车道线实现,纵向速度控制通过上述ACC和RACC实现。

周边车辆:通过实际交通调查,此实验路段实际车型组成比例为小汽车5%,大中型客货车10%,集卡车85%,年平均日交通量为20 000 pcu d-1,道路限速为80 km h-1。通过ITM模块构建对应的交通流,交通流中小汽车、大中型客货车、集卡车均采用内置的横纵向模型控制,可实现车辆的跟驰、换道,大量基于实际交通状况的仿真推演后,即可实现有车辆切入、切出等典型场景的模拟。

2.1.3 仿真实验对照组

为探究不同安全风险预测模型、不同参数输入以及不同控制模型对自动驾驶ACC的影响,开展多次仿真实验对照,分为4个实验组,不同实验组下模型和参数设置如表1所示。每次仿真开始时随机重置交通流状态预热100 s。每个实验组在该快速路全路段仿真20次,其中用于模型训练的10次,用于模型控制表现评价的10次,单次仿真时长为1 800 s。ACC评价指标取10次仿真的平均值。

表1  仿真实验对照组
Tab.1  Control group of simulation experiment
对照组

安全风险

预测模型

是否考虑道路设施条件参数控制模型
实验组1 LSTM RACC
实验组2 XGboost RACC
实验组3 LSTM RACC
实验组4 LSTM ACC

2.2 控制表现对比

2.2.1 不同安全风险预测模型对RACC控制表现的影响

(1)安全风险预测

对比LSTM模型和XGboost模型的预测效果,以SCPI预测值的R2为评价指标对预测效果进行评价。此组对照中,固定最小车头间距为20 m,自动驾驶限速80 km·h-1(与道路限速一致),即22.2 m·s-1。2种模型预测效果如图2所示。

图2  LSTM和XGboost安全风险预测效果

Fig.2  Prediction effects of safety risk by LSTM and XGboost

图2给出了LSTM模型和XGboost模型对SCPI预测效果,结果表明:两种模型的安全风险预测效果均随着预测时长的增大而变差,但LSTM预测效果随预测时长增大而变差的趋势相对XGboost更缓慢。当预测时长小于1.6 s时,XGboost模型的预测效果好于LSTM模型,表明XGboost模型在极短时的安全风险预测中具有一定优势;当预测时长大于1.6 s时,LSTM模型的预测效果好于XGboost模型。这是因为LSTM模型中考虑了安全风险的时序记忆,因此在较长时安全风险预测中具有更好的预测效果。当预测时长在4.0 s以内时,LSTM模型和XGboost模型的SCPI预测值R2均大于0.7,说明这两种模型安全风险预测结果和实际计算结果拟合均较好。

(2)不同预测模型下RACC控制表现

实验组1和2对比分析,探究不同安全风险预测模型对RACC表现的影响。将XGboost和LSTM的安全风险预测结果,分别作为RACC的输入进行控制优化。以自动驾驶汽车的碰撞发生概率、速度平均值、速度标准差作为RACC效果的评价指标。图3给出了两种模型安全风险预测的RACC效果。结果表明:利用LSTM预测安全风险,相比XGboost具有更好的RACC表现,即自动驾驶汽车碰撞发生概率更小、速度平均值更高、速度标准差更小。这也说明,LSTM作为安全风险预测模型时,RACC的安全性更好、通行效率更高、行驶稳定性更好,表明LSTM模型中对于时序的考虑有助于自动驾驶汽车进行控制优化。

图3  不同预测模型下RACC控制表现

Fig.3  Control performance of RACC of different prediction models

2.2.2 道路设施条件对控制表现的影响

实验组1和3对比分析,探究是否考虑道路设施条件对RACC的影响,如图4所示。结果表明:当增加道路设施条件参数作为安全风险预测的输入时,ACC碰撞发生概率显著降低,但速度平均值和速度标准差差异不显著。说明自动驾驶汽车碰撞事故多是复杂道路设施条件和复杂交通条件耦合作用的结果。及时识别复杂道路设施条件作为安全风险预测的输入,并进行巡航控制优化,有利于降低自动驾驶汽车碰撞发生概率。

图4  道路设施条件影响下RACC控制表现

Fig.4  Control performance of RACC considering road infrastructure condition

2.2.3 不同控制模型下控制表现对比

实验组1和4对比分析,探究所提出的优化模型RACC和传统ACC模型控制表现差异,如图5所示。相比于传统ACC模型,RACC模型控制下,自动驾驶汽车碰撞发生概率更小、速度平均值更高、速度标准差更小。说明RACC对提高自动驾驶汽车行驶过程中的安全性、通行效率、行驶稳定性有积极的作用。未来自动驾驶汽车巡航控制系统中,可增加安全风险感知与预测模块,作为决策控制的输入之一,对促进自动驾驶汽车适应复杂道路交通条件具有重要意义。

图5  RACC模型与ACC模型控制表现对比

Fig.5  Comparison of control performance of RACC model and ACC model

2.2.4 最小车头间距和自动驾驶限速影响分析

除了安全风险预测模型和ACC控制模型以外,最小车头间距和自动驾驶限速也会影响自动驾驶控制表现。图6给出了巡航控制表现随最小车头间距和自动驾驶限速变化的三维图。结果表明,自动驾驶限速越小、最小车头间距越大,自动驾驶汽车发生碰撞的概率越小。随着最小车头间距变大,速度平均值先增加后减小,速度标准差变小。实际应用过程中应充分考虑自动驾驶汽车的实际驾驶能力和响应速度来采用合理的最小车头间距。

图6  控制效果随最小车头间距和自动驾驶限速变化

Fig.6  Variation of control performance with minimum car-following distance and speed limit of autonomous vehicles

3 结论

本文选取了反映自动驾驶汽车周边车辆运动学状态以及道路设施条件的9个参数,提取对应的时间序列并耦合成场景特征指标,提出SCPI作为安全风险度量指标,采用回归预测模型XGboost和时序预测模型LSTM进行安全风险预测,由此提出基于安全风险预测的自动驾驶ACC优化方法RACC,通过Prescan和Simulink联合仿真平台,分析验证RACC控制表现,结果表明:

(1)相比于XGboost模型,LSTM模型安全风险预测结果作为巡航控制优化方法的输入时,RACC会有更好的巡航控制表现。

(2)在自动驾驶汽车行驶过程中,增加道路设施条件作为安全风险预测的输入,有利于降低碰撞发生概率和提高自动驾驶系统的安全性。考虑道路设施条件的ACC控制优化是未来车路信息交互的应用方向之一。

(3)相比于传统ACC控制模型,RACC模型在提高自动驾驶汽车安全性、通行效率、行驶稳定性方面具有优势。

研究成果可为自动驾驶ACC系统优化和主动安全风险防控提供支撑,具有一定理论与实际应用价值。本文主要针对单辆自动驾驶汽车的纵向速度控制,没有考虑多辆自动驾驶汽车以及变道等横向行为。后续研究中,可进一步探索多辆自动驾驶汽车的工况下,基于安全风险预测的车辆横纵向轨迹控制对安全性、通行效率、行驶稳定性的影响,并验证RACC的可靠性和实用性。

作者贡献声明

汪 敏:数据处理,模型构建,实证分析,结果讨论。

涂辉招:总体架构,研究方法,结果讨论,论文润色。

薛东飞:研究方法,思路梳理,结果分析,结论总结。

李 浩:研究思路,指标确定,研究方法,论文润色。

李千山:数据处理,平台搭建,研究方法,结果讨论。

参考文献

1

DAI Y JLI X HSUN Z Pet al. Optimization-based interactive speed planning of autonomous vehicles in structured environments [C]// Proceedings of the 3rd International Conference on Unmanned Systems (ICUS). HarbinIEEE2020714-720. [百度学术] 

2

SEO J HKWON S KKIM K D. A discrete-time linear model predictive control for motion planning of an autonomous vehicle with adaptive cruise control and obstacle overtaking [J]. Advances in Mechanical Engineering2022148): 1. [百度学术] 

3

OZIOKO E FKUNKEL JSTAHL F. Speed harmonisation strategy for human-driven and autonomous vehicles co-existence [C]// Proceedings of the Computing Conference on Intelligent Computing. ChamIntelligent Computing202234-66. [百度学术] 

4

HUANG WTIAN YFAN Zet al. Estimation of the safety coefficient of autonomous vehicles and collision avoidance planning at the T-shape intersection [J]. CAAI Transactions on Intelligent Systems201385): 408. [百度学术] 

5

DIXIT SMONTANARO UDIANATI Met al. Trajectory planning for autonomous high-speed overtaking in structured environments using robust MPC [J]. IEEE Transactions on Intelligent Transportation Systems2020216): 2310. [百度学术] 

6

MILANES VSHLADOVER S E. Modeling cooperative and autonomous adaptive cruise control dynamic responses using experimental data [J]. Transportation Research Part C: Emerging Technologies201448285. [百度学术] 

7

KAYACAN E. Multiobjective H-infinity control for string stability of cooperative adaptive cruise control systems [J]. IEEE Transactions on Intelligent Vehicles201721): 52. [百度学术] 

8

BODDUPALLI SRAO A SRAY S. Resilient cooperative adaptive cruise control for autonomous vehicles using machine learning [J]. IEEE Transactions on Intelligent Transportation Systems2022239): 15655. [百度学术] 

9

LI Z GDUAN H J. Acceleration estimation method and sliding mode control design for car-following distance control [J]. Procedia Engineering2011151176. [百度学术] 

10

ELMORSHEDY LABDULHAI BKAMEL I. Quantitative evaluation of the impacts of the time headway of adaptive cruise control systems on congested urban freeways using different car following models and early control results [J]. IEEE Open Journal of Intelligent Transportation Systems20223288. [百度学术] 

11

LU C RAAKRE A. A new adaptive cruise control strategy and its stabilization effect on traffic flow [J]. European Transport Research Review2018102): 1. [百度学术] 

12

MILANES VSHLADOVER S E. Handling cut-in vehicles in strings of cooperative adaptive cruise control vehicles [J]. Journal of Intelligent Transportation Systems2016202): 178. [百度学术] 

13

LIU YWANG WZHAO D. Modified cooperative adaptive cruise control strategy for optimizing cooperative driving in freeway weaving segments [J]. Transportation Research Record202226763): 214. [百度学术] 

14

MA JQIAN KGONG Z Y. Optimization of ACC system spacing policy on curved highway [C]// Proceedings of the International Conference on Materials ScienceEnergy Technology, Power Engineering (MEP). HangzhouAIP Conference Proceedings20171-13. [百度学术] 

15

REN YZHENG LYANG Wet al. Potential field-based hierarchical adaptive cruise control for semi-autonomous electric vehicle [J]. Proceedings of the Institution of Mechanical Engineers Part D: Journal of Automobile Engineering201923310): 2479. [百度学术] 

16

HE YYANG SCHAN C Yet al. Visualization analysis of intelligent vehicles research field based on mapping knowledge domain [J]. IEEE Transactions on Intelligent Transportation Systems2021229): 5721. [百度学术] 

17

LIAO J DLIU TTANG X Let al. Decision-making strategy on highway for autonomous vehicles using deep reinforcement learning [J]. IEEE Access20208177804. [百度学术] 

18

XU G FHE X KCHEN M Zet al. Hierarchical speed control for autonomous electric vehicle through deep reinforcement learning and robust control [J]. Iet Control Theory and Applications2022161): 112. [百度学术] 

19

黄志清曲志伟张吉. 基于深度强化学习的端到端无人驾驶决策 [J]. 电子学报2020489): 9. [百度学术] 

HUANG ZhiqingQU ZhiweiZHANG Jiet al. End-to-end autonomous driving decision based on deep reinforcement learning [J]. Acta Electronica Sinica2020489): 9. [百度学术] 

20

XIAO C XLU PHE Q Z. Flying through a narrow gap using end-to-end deep reinforcement learning augmented with curriculum learning and Sim2Real [J]. IEEE Transactions on Neural Networks and Learning Systems2023345): 2701. [百度学术] 

21

FENG SYAN X TSUN H Wet al. Intelligent driving intelligence test for autonomous vehicles with naturalistic and adversarial environment [J]. Nature Communications2021121): 1. [百度学术]