网刊加载中。。。

使用Chrome浏览器效果最佳,继续浏览,你可能不会看到最佳的展示效果,

确定继续浏览么?

复制成功,请在其他浏览器进行阅读

智能网联汽车多目标预测优化换道决策方法  PDF

  • 程硕 1
  • 夏新 2
  • NAKANO Kimihiko 1
1. 东京大学 生产技术研究所,东京 153-0041,日本; 2. 加州大学洛杉矶分校 土木与环境工程系,洛杉矶 90095,美国

中图分类号: U463.6

最近更新:2024-07-17

DOI:10.11908/j.issn.0253-374x.22353

  • 全文
  • 图表
  • 参考文献
  • 作者
  • 出版信息
EN
目录contents

摘要

换道决策是智能网联汽车的核心难题之一,其面临着高动态、复杂交通场景下需要综合考虑行驶安全及效率等目标的巨大挑战。提出一种多目标预测优化的换道决策方法,主要包括动力学矩阵建模及多目标预测优化问题解算。基于智能网联汽车的通讯大数据信息构建交通流矩阵模型,然后分别设计表征车辆换道安全、行驶效率的动力学模型,通过多目标综合预测优化方法,求解条件约束下预测优化问题从而优化出最优换道决策指令。结果表明,所提出的预测优化换道方法较其他方法提高了智能汽车的行驶安全性和效率。

智能网联汽车通过环境感知与网联、智能决策与控制以及底盘执行实现无人驾驶,有望极大地降低由于人为因素造成的交通事故,提高交通安全性以及交通效

1。因此,智能汽车成为国际汽车行业科技创新前沿,是国际各国科技竞争的战略高地。国内外学者们针对智能汽车的环境感2、决策控3、线控底盘设4等关键领域均进行了广泛深入的研究工作。其中,智能决策环节是实现安全高效的无人驾驶的必备前提,是智能汽车产业化应用的关键技5

智能汽车在高动态、复杂不确定的交通环境下,依赖智能决策模块为车辆提供安全、可行的包括直行、左转、右转等在内的动作指

6。国际各大研究机构均已对智能汽车决策技术进行了大量的研究工作,目前研究的智能决策方法可以分为4类:基于专家经验的规则式决策方7、基于代价函数优8、基于神经网络算法的“端到端”决策方9以及基于强化学习的决策策10。尽管已有文献开展了旨在解决智能汽车决策控制问题的各种方法的研究,现有成果尚不足以保证在复杂交通下准确地为智能汽车提供安全、高效决策指令。Niehaus 7学者早在1994年就针对规范化高速道路的智能汽车决策问题提出了基于规则决策方法。Wei 11构建了一种预测人类驾驶员意图的方法,在此基础上提出了基于代价函数库的行为规划器以生成优化的驾驶操作策略。Li 8也同样基于专门的代价函数设计,提出旨在给出合理驾驶操作的优化算法。另一方面,混合可观的马尔科夫决策过程也被尝试应用于智能汽车超车决策问题的优化12。近年来,随着计算机算力不断提升,“端到端”决策算法开始受到学者们的关注。Bojarski 9建立了一个卷积神经网络并进行数据训练,旨在通过输入车辆前视摄像头图像信息直接由神经网络给出方向盘转角。

由于强化学习算法可以处理时序优化问题并为长期目标寻找优化策略,该算法逐渐被应用到智能汽车决策问题的研究中,成为近年来的研究热点。强化学习算法可在现有策略和随机探索之间采取动作,然后与环境交互获得实时奖励,通过最大化累积奖励来获得最优策略。Wang

13研究了一种基于强化学习的决策方法,设计了有封闭贪婪策略的动作值函数估计器。Zuo10提出了多目标马尔科夫决策过程,设计了用于高速公路自动驾驶的多目标策略迭代决策算法。Chen14针对两车道高速工况下智能汽车的超车问题,基于DQN (Deep Q-Learning)算法设计了超车决策控制策略。You15首先构建了考虑有经验驾驶员驾驶风格以及道路几何特性的随机马尔科夫决策过程,在此基础上设计了相应的奖励函数,通过训练强化学习算法得到智能汽车驾驶操作指令,仿真结果证明了提出算法的有效性。

由于预测控制方法可估计系统未来动态行为而提升控制效果,近年来预测控制方法也逐渐被应用于变道决策控制问题

16。刘启远和孙剑等提出超车时间预测模型以预测周围交通参与者超车持续时17,此外,一些学者基于神经网络算法通过车辆轨迹数据识别车辆换道意图并预测换道轨18。考虑到交通场景的复杂多变性,董俊一提出考虑周边驾驶人行为预测的换道决策模19。当前许多研究均基于车辆轨迹数据特征,采用神经网络模型学习预测换道意图和轨迹。模型预测优化控制则多用于轨迹跟踪控制,提升车辆路径跟随性20

已有的各种文献针对智能汽车的决策技术均开展了深入研究,并且取得了积极进展。考虑到规则式决策策略适应性有待提高、基于代价函数优化的决策方法难以应对高复杂动态交通环境、基于神经网络的学习算法在训练中存在不确定性且可解释性较弱对智能汽车行驶安全带来隐患,本文提出一种多目标预测优化换道决策方法以为智能汽车提供在复杂交通流下安全、高效运行的决策指令。当前针对换道决策问题的预测方法多集中于通过分析车辆交通流轨迹数据,借助于神经网络模型学习轨迹特征对换道意图进行预测。概率模型输出结果存在不确定性。本文基于车辆动力学模型预测,通过多目标优化求解,可在保证车辆安全行驶的边界条件内优化车辆行驶效率。

本文提出的多目标预测优化换道决策方法总体架构如图1所示,从大数据信息中提取与自车决策相关的周围车辆的运动特征,借助于网联大数据信息实时构建动态交通流矩阵模型;基于车间相互运动关系推导出换道决策安全的动力学边界模型和表征自车行驶效率的动力学模型;从而设计出换道决策的有约束多目标预测优化方法,实现安全高效的换道决策规划。

图1  多目标预测优化换道决策方法总体架构

Fig. 1  Overall framework of multi-objective predictive optimization-based lane change decision-making method

1 动态交通流矩阵模型构建

高动态、复杂多变的真实交通场景给智能汽车决策带来了潜在风险,智能汽车能够在海量的网联交通大数据中精准筛选出与其决策控制密切相关的车辆动态信息是其进行安全、高效决策控制的基础。考虑如图2所示的经典结构化道路交通,根据自车与周围车辆的相对运动关系,整合出与自车运动直接相关的周围车辆信息,构建出动态实时变化的交通流矩阵数学模型Θcars公式(1)所示。

Θcars=CflCfmCfrCslCsmCsrCrlCrmCrr (1)

式中:Cij为具有车辆动力学属性的类参数,其定义如公式(2)所示。i代指f/s/r(前方、侧方、后方),j代指l/m/r(左侧、中间、右侧)。

Cijx,y,vx,vy,lid,Δd,Δv,Δa (2)

式中:类参数分别为绝对坐标x,y,绝对速度vx,vy,车道序号lid,自车与他车之间的相对距离Δd,相对速度Δv以及相对加速度Δa

图2  经典结构化道路交通流建模示意图

Fig. 2  Traffic flow modeling of typical structure road

车辆运行过程中,算法根据网联交通大数据信息筛选出上述车辆类参数,动态构建出完备的交通流矩阵,保证了变道决策所需信息的正确输入。这样,才能实现安全、高效地变道决策。

2 多目标预测优化的换道决策

2.1 换道安全动力学边界条件

安全性是换道决策策略最重要的性能,因此车辆在换道时必须避免与交通流矩阵中任意车辆发生碰撞。本文定义出换道安全的动力学数学边界表达,进一步地,在动力学边界限制下对换道决策进行预测优化。

为方便后续动力学安全边界和预测优化分析,本文构建交通流中车辆行驶距离‒时间(s-t)图和车道‒行驶距离(l-s)图模型,如图3所示,为典型交通流s-tl-s图。一般地,考虑一个交通流系统,同一车道内,车与车之间的相对距离决定了碰撞是否发生,即车辆安全。本文定义碰撞集Ωc公式(3)所示:

Ωc=CijCijΘcarsd(Cij,Csm)Cdis,Cijlid=Csmlid (3)

式中:d(,)为两辆车之间的距离;Cdis为设定的常数,当两车之间的距离小于Cdis意味着碰撞发生。

图3  典型交通流s-tl-s

Fig. 3  Illustration of s-t and l-s of typical traffic flow

换道决策指令满足自车碰撞集为空集,即Ωc=,则可以保证车辆换道决策的安全。因此,换道安全的动力学安全边界条件可以描述为

ulcargulcAlcCijΘcarsd(Cij,Csm)>Cdis,  Cijlid=Csmlid (4)

式中:ulc为换道动作;Alc为换道指令动作集合。

考虑实际交通场景的高动态性、复杂性,动力学安全条件需要考虑车辆未来时刻的运动轨迹。本文根据车间动力学运动关系和公式(4)所示的换道动力学安全边界条件进一步推导自车与他车运动关系预测安全边界表达:

Δd(k+ik)=kk+iΔv(k)t+12Δa(k)t2+Δd(k)dt>Cdis,  ip,  CijΘcarsCijlid=Csmlid (5)

式中:k为当前采样时刻;p为预测时域。

2.2 行驶效率数学表征

自车车辆在某一车道行驶时,主要根据摄像头或者毫米波雷达探测到的与前方车辆之间的运行关系,由自适应巡航跟车策略控制车辆纵向加速度,使得自车与前车保持一定的安全距离和车速行驶。但是在复杂、动态的交通流中,前方车辆可能长时间低速行驶,如果一直跟踪其后会导致自车行驶效率降低。此时,自车可以通过主动变道指令进行变道,避免在低速车辆后面跟车,以提高车辆行驶效率。因此,本文基于自适应巡航策略的车间运动动力学模型推导行驶效率数学表征。

自适应巡航控制策略目标是自车与前车以相同的速度保持期望距离ddes

3。一般地,期望距离ddes定义为

ddes=τhvx,sm+d0 (6)

式中:τh为跟车时距;d0为距离常数;vx,sm为自车车速。

巡航跟车控制策略根据速度偏差Δvacc和距离偏差Δdacc来调整自车加速度asm实现,其中,ΔvaccΔdacc计算公式如下:

Δvacc=vx,fm-vx,smΔdacc=Δdfm-ddes (7)

式中:vx,fm为前车车速;Δdfm为自车与前车距离。

考虑车辆动力系统特性,本文将自车纵向加速度asm与期望纵向加速度ades之间的关系描述为一阶惯性环节:

asm=kaTas+1ades (8)

式中:kaTa均为常数。ades=kvΔvacc+kdΔdacc,其中kvkd分别为相对速度和相对距离的增益值,均为常数。

因此,定义三维状态空间xacc=[ΔdaccΔvaccasm],可以推导出跟车系统模型如下:

x˙acc=01-τh00-100-1/Taxacc+00ka/Taades+010asm (9)

显然地,车辆行驶效率由车速决定,由相同时间内的行驶距离反映。因此,本文基于公式(9)所示的跟车系统模型推导包含行驶效率的数学表征。定义变道决策系统状态空间为公式(10)所示,推导出决策系统如公式(11)和(12)所示。

xlc=ΔdaccΔvaccasmvx,smssm (10)
x˙lc=Φxlc+wlc+Γϖlc (11)

式中:wlc=adesϖlc=asm;系统矩阵ΦΓ分别为

Φ=01-τh0000-10000-1/Ta000010000010=00ka/T00,Γ=01000 (12)

考虑到预测优化问题以离散形式迭代计算,本文使用零阶保持离散化方法将变道决策系统离散化:

xlc(k+1)=Φkxlc(k)+kwlc(k)+Γkϖlc(k) (13)

2.3 预测优化换道决策

基于换道决策的行驶效率数学表达和安全动力学边界条件,本节继续推导预测优化换道决策方法。自车换道动作ulc不同直接决定了自车交通流动态矩阵Θcars变化,从而导致预测时域p内换道决策系统的状态xlc和碰撞集Ωc的变化。

由此,本文提出的预测优化换道决策即在预测时域p时刻内在换道动力学安全边界条件约束下预测优化ulc,使得变道决策系统状态中ssm为最大,即可优化出最优预测换道指令。具体地,本文提出的预测优化换道数学描述为

maxulcAlcssm(p)s.t.xlc(k+i)=Φk+i-1xlc(k+i-1)+k+i-1wlc(k+i-1)+Γk+i-1ϖlc(k+i-1)Δd(k+ik)>Cdis,CijΘcarsCijlid=Csmlid, ipulcΘcars (14)

这样,根据网联交通大数据信息迭代求解公式(14)所示的换道预测优化问题,即可得到满足换道安全和行驶效率最优的换道决策指令。

3 实验结果与分析

为了验证多目标预测优化换道决策方法的性能,使用典型三车道高速公路场景进行策略测试验证与分析,测试工况为自车在随机动态交通流中从起点行驶至终点,总长为2 000 m。同时,将本文提出的预测优化方法与基于规则式换道策略性能进行对比分析。设计测试场景中自车由本文提出的多目标预测换道策略控制。此外测试交通流中设置三类车辆:激进运动型、常规驾驶型、保守型。各个车辆使用测试软件平台模型根据交通流状况自主控制车辆运动,不同风格车辆的运动参数根据动力学响应特性具体配置如表1

21-22

表1  测试场景中交通流车辆配置参数
Tab. 1  Vehicle configuration parameters of traffic flow in test scenario
车辆类型最大加速度/(ms-2最大减速度/(ms-2最高车速/(ms-1最小间隙/m
激进运动型 5.5 5.5 30 1
常规驾驶型 3 2.5 25 2.5
保守型 3 2.5 20 2.5
自车 4 5.5 35 1.5

智能汽车换道安全性通过测试场景下发生碰撞的次数进行评价;行驶效率则主要通过自车从起点到终点总时长来对比分析。此外,换道次数也是评价换道决策方法的重要指标,通过比较分析不同策略在不同测试环境下的换道次数来分析其性能及适应性。测试中本文提出控制策略的主要参数如表2所示。首先对预测优化算法的效果进行性能分析,然后进行随机交通流场景多次测试,并与专家规则策略、强化学习策略进行对比比较,具体测试分析结果如下文所述。

表2  多目标预测换道策略主要参数
Tab. 2  Key parameters of multi-objective predictive lane-change strategy
参数预测时域跟车时距距离常数距离增益速度增益
数值 5 2.0 4.5 0.63 0.96

3.1 预测优化换道决策方法结果分析

本小节给出对提出的预测优化换道决策方法进行验证的测试结果和分析。图4图5给出了以自车为中心的动态交通流矩阵模型中车辆行驶距离和车速的变化曲线。自车左侧车辆和右侧车辆相应曲线间断部分代表该时刻自车旁边没有相应的侧方障碍车辆。数据曲线突变点则是由于车辆变道,车间运动关系发生变化,例如,在测试进行到大约3、32、66 s以及103 s时,图4中所示的自车周围车辆的行驶距离发生突变或者中断。

图4  自车及周围车辆s-t

Fig. 4  s-t diagram of ego vehicle and its neighbor cars

图5  自车及周围车辆的车速曲线

Fig. 5  Longitudinal speed of ego vehicle and its neighbor cars

图6 给出了基于动态交通流矩阵模型的自车与变道相关的周围车辆之间的相对速度和相对距离曲线,分别是自车与其左前方、正前方、右前方的前方车辆以及左后方和右后方的后方车辆之间的相对运动关系。本文提出的预测优化换道决策方法基于上述的自车与旁车的运动数据进行多目标预测优化给出换道决策指令,如图7给出的自车s-tl-s图,其中0代表左车道,1代表中间车道,2代表右车道,在整个测试过程中自车进行了4次变道,并且自车没有发生碰撞事故。他们分别是由左车道变至中间车道、由中间车道变至右车道、由右车道变至中间车道、以及由中间车道变至右车道。

图6  周围车辆与自车之间的相对速度和相对距离图

Fig. 6  Relative speed and distance between ego vehicle and its neighbor cars

图7  自车s-tl-s

Fig. 7  s-t and l-s of ego vehicle

图8 为自车行驶速度曲线并且在图中标记了本文提出的变道决策给出变道指令的时刻点。由图8可知,在测试工况的第3、32 s以及103 s执行换道后,自车车速均有提升,此外,第66 s的换道操作则使得自车车速大幅下降的趋势终止,而基本维持换道前的车速。

图8  自车行驶速度图

Fig. 8  Longitudinal speed of ego vehicle

具体地,将图8图6结合进行分析。在第3 s变道后,自车与正前车的相对距离有较小幅度增大,但是与正前方车辆相对速度则由大约-6 ms-1且继续下降的趋势转变为上升趋势,可见此次变道操作为自车加速过程提供了更长的加速时间。由图6明显可见,在第32 s和103 s的变道操作后,自车与前方车辆相对距离大约由原来的30 m增大为80 m,为自车加速提供了更大的加速空间。在第66 s的换道操作之前,自车正在由于前方车辆的阻塞进行减速操作,换道之后,自车与正前方车辆相对速度由大约-8 ms-1转变为-1 ms-1,自车变道至快车车道,终止了自车的减速操作。由此可见,本文提出的预测优化换道决策方法使得自车行驶速度提升,提高了车辆行驶效率。

3.2 随机交通流测试结果对比分析

为了进一步验证本文提出方法的性能,设计了一组随机交通流测试场景对本文换道决策方法进行测试,并且与两个基于专家经验的规则换道策略和强化学习策略进行对比分析。本文使用的强化学习策略为近端策略优化算法(proximal policy optimization, PPO

23,设计考虑车速、变道次数、碰撞次数的奖励函数,进行1 000轮学习后PPO策略收敛,训练具体指标如图9所示。PPO策略随着训练学习轮数增加,奖励值逐渐收敛。虽然碰撞次数有所下降,但是仍存在碰撞事故。PPO策略参数如下:衰减因数0.95,学习率0.000 01,批量尺寸32。

图9  强化学习策略训练结果

Fig. 9  Training results of reinforcement learning-based strategy

通过分析不同策略的行驶车速、碰撞检测次数以及变道次数来比较各自性能。4种控制方法的各组交通流测试场景的测试结果统计如图10~12所示。由图10可知,本文提出的换道决策方法在批量测试试验中使得自车平均行驶速度较2种规则控制策略及PPO学习策略均较高。其中,规则策略1为较为激进的换道策略,规则策略2为保守换道策略。图10可知,激进换道策略控制下自车车速也较保守换道策略高。具体地,结合表3可知,4种换道决策控制策略控制下自车车速统计值分别为(17.600 7±0.615 0) ms-1、(17.598 6±0.584 4) ms-1、(17.482 4±0.644 5) ms-1和(16.603 9±0.417 1) ms-1。由此,4种控制策略行驶效率性能结论为:预测优化换道方法>激进换道策略>保守换道策略>PPO换道策略。

图10  不同策略下车速统计结果对比

Fig. 10  Comparison of vehicle speeds controlled by different strategies

图11  不同策略下碰撞次数统计结果对比

Fig. 11  Comparison of collision numbers controlled by different strategies

图12  不同策略下变道次数统计结果对比

Fig. 12  Comparison of lane change numbers controlled by different strategies

表3  不同换道策略的性能统计结果
Tab. 3  Statistics performance results of different lane change strategies
换道策略

行驶速度

/(ms-1

碰撞检测次数换道次数
预测优化方法 17.600 7±0.615 0 0 2.533 3±0.915 5
强化学习策略 16.603 9±0.417 1 3.266 7±2.463 1 90.133 3±5.026 6
规则策略1 17.598 6±0.584 4 110.667±18.546 0 9.635 3±18.533 3
规则策略2 17.482 4±0.644 5 0 2.200 0±1.146 4

更重要地,如图11所示,在预测优化决策方法和保守换道策略控制下自车碰撞检测次数均为0,但是在激进换道策略控制下自车被检测出碰撞的次数平均为(110.667±18.546)。从安全角度来看,激进换道策略完全不可取。4种策略行驶安全性对比可为:预测优化换道方法=保守换道策略>PPO换道策略>>激进换道策略。

图12所示为不同换道策略控制下自车平均换道次数。显然地,PPO学习换道策略和激进换道策略的换道次数远远多于预测优化方法和保守换道策略。结合表3可知,4种策略统计值分别为(2.533 3±0.915 5)、(9.635 3±18.533 3)、(2.200 0±1.146 4)和(90.133 3±5.026 6)。特别地,如图12所示,保守控制策略换道次数统计数据存在一个异常值,而预测优化控制方法换道次数统计数据分布较保守策略较均匀稳定。因此从换道策略对不同交通流的适应性角度来看,预测优化换道方法>保守换道策略>>PPO学习换道策略>激进换道策略。

结合图1012以及表3,综上可知,本文提出的换道决策方法使得智能汽车更安全、更高效地行驶,具有较好的适用性。

4 结论

针对高动态、复杂交通场景下难以综合考虑行驶安全及效率等目标的问题,本文研究了一种多目标预测优化的换道决策方法。通过构建交通流矩阵模型分析交通流行驶距离‒时间以及车道‒行驶距离模型,设计出动力学安全边界约束和行驶效率数学表达,通过预测优化给出换道决策指令。

典型工况测试与分析结果表明,所设计的预测换道决策方法能在保证车辆不发生碰撞的同时给出合适的变道指令,以提升车辆行驶速度,提高行驶效率。通过对比,所提出方法比常规规则换道策略和强化学习策略安全性更高、行驶速度更高。

下一步工作考虑部署换道决策算法至试验车上进行实车道路测试。并且进一步考虑换道过程中局部路径规划问题,综合整车动力学性能,提升多目标预测换道决策算法性能。

作者贡献声明

程 硕:探索并设计了多目标预测优化换道方法,完成了算法设计分析与论文撰写。

夏 新:执行测试实验,处理并分析了试验数据。

NAKANO Kimihiko:指导了换道优化方法设计思路、设计实验步骤。

参考文献

1

SPIELBERG N ABROWN MKAPANIA N Ret al. Neural network vehicle models for high-performance automated driving[J/OL]. Science Robotics2019428): eaaw1975. https://doi.org/10.1126/scirobotics.aaw1975. [百度学术] 

2

THANDAVARAYAN GSEPULCRE MGOZALVEZ J. Generation of cooperative perception messages for connected and automated vehicles[J/OL]. IEEE Transactions on Vehicular Technology20206912): 16336. https://doi.org/10.1109/TVT.2020.3036165. [百度学术] 

3

CHENG SLI LMEI M Met al. Multiple-objective adaptive cruise control system integrated with DYC[J/OL]. IEEE Transactions on Vehicular Technology2019685): 4550. https://doi.org/10.1109/TVT.2019.2905858. [百度学术] 

4

TANG CKHAJEPOUR A. Wheel modules with distributed controllers: a multi-agent approach to vehicular control[J/OL]. IEEE Transactions on Vehicular Technology20206910): 10879. https://doi.org/10.1109/TVT.2020.3019376. [百度学术] 

5

LI LWANG XWANG Ket al. Parallel testing of vehicle intelligence via virtual-real interaction[J/OL]. Science Robotics2019428): eaaw4106. https://doi.org/10.1126/scirobotics.aaw4106. [百度学术] 

6

FENG SYAN XSUN Het al. Intelligent driving intelligence test for autonomous vehicles with naturalistic and adversarial environment[J/OL]. Nature Communications2021121): 748. https://doi.org/10.1038/s41467-021-21007-8. [百度学术] 

7

NIEHAUS ASTENGEL R F. Probability-based decision making for automated highway driving[J/OL]. IEEE Transactions on Vehicular Technology1994433): 626. https://doi.org/10.1109/25.312814. [百度学术] 

8

LI MSTRAUB FKUNERT Met al. A novel cost function for decision-making strategies in automotive collision avoidance systems[C/OL]//2018 IEEE International Conference on Vehicular Electronics and Safety (ICVES). 20181-8. https://doi.org/10.1109/ICVES.2018.8519591. [百度学术] 

9

BOJARSKI MDEL TESTA DDWORAKOWSKI Det al. End to end learning for self-driving cars[R/OL]//arXiv e-prints. (2016-04-01)[2021-12-11]. https://ui.adsabs.harvard.edu/abs/2016arXiv160407316B. [百度学术] 

10

XU XZUO LLI Xet al. A reinforcement learning approach to autonomous decision making of intelligent vehicles on highways[J/OL]. IEEE Transactions on Systems, Man, and Cybernetics: Systems20205010): 3884. https://doi.org/10.1109/TSMC.2018.2870983. [百度学术] 

11

WEI JDOLAN J M. A robust autonomous freeway driving algorithm[C/OL]//2009 IEEE Intelligent Vehicles Symposium. [S.l.]:IEEE20091015-1020. https://doi.org/10.1109/IVS.2009.5164420. [百度学术] 

12

SEZER V. Intelligent decision making for overtaking maneuver using mixed observable Markov decision process[J/OL]. Journal of Intelligent Transportation Systems2018223): 201. https://doi.org/10.1080/15472450.2017.1334558. [百度学术] 

13

WANG PCHAN C Y. Formulation of deep reinforcement learning architecture toward autonomous driving for on-ramp merge[C/OL]//2017 IEEE 20th International Conference on Intelligent Transportation Systems (ITSC). [S.l.]:IEEE20171-6. https://doi.org/10.1109/ITSC.2017.8317735. [百度学术] 

14

CHEN WXIE GJI Wet al. Decision making for overtaking of unmanned vehicle based on deep Q-learning[C/OL]//2021 IEEE 10th Data Driven Control and Learning Systems Conference (DDCLS). [S.l.]:IEEE2021350-353. https://doi.org/10.1109/DDCLS52934.2021.9455523. [百度学术] 

15

YOU CLU JFILEV Det al. Highway traffic modeling and decision making for autonomous vehicle using reinforcement learning[C/OL]//2018 IEEE Intelligent Vehicles Symposium (IV). [S.l.]:IEEE20181227-1232. https://doi.org/10.1109/IVS.2018.8500675. [百度学术] 

16

SUH JCHAE HYI K. Stochastic model-predictive control for lane change decision of automated driving vehicles[J/OL]. IEEE Transactions on Vehicular Technology2018676): 4771. https://doi.org/10.1109/TVT.2018.2804891. [百度学术] 

17

刘启远孙剑田野. 机非交互路段非机动车越线超车行为建模与仿真[J]. 同济大学学报(自然科学版)20194711): 1585. [百度学术] 

LIU QiyuanSUN JianTIAN Yeet al. Modeling and simulation of non-motor vehicle overtaking behaviors on non-interactive road section[J]. Journal of Tongji University (Natural Science)20194711):1585. [百度学术] 

18

吕思雨. 车辆换道意图识别及换道轨迹预测[D]. 广州广州大学2022. [百度学术] 

LV Siyu. Lane change intention recognition and lane change trajectory prediction[D]. GuangzhouGuangzhou University2022. [百度学术] 

19

董俊一. 考虑驾驶风格的智能驾驶换道决策模型研究[D]. 长春吉林大学2022. [百度学术] 

DONG Junyi. Research on lane change decision model considering driving styles for autonomous driving[D]. ChangchunJilin University2022. [百度学术] 

20

FALCONE PBORRELLI FASGARI Jet al. Predictive active steering control for autonomous vehicle systems[J]. IEEE Transactions on Control Systems Technology2007153): 566. [百度学术] 

21

SZUMSKA E MJURECKI R. The Effect of Aggressive Driving on Vehicle Parameters[J/OL]. Energies20201324): 6675. https://doi.org/10.3390/en13246675. [百度学术] 

22

LI YMIYAJIMA CKITAOKA Net al. Evaluation method for aggressiveness of driving behavior using drive recorders[J/OL]. IEEJ Journal of Industry Applications201541): 59. https://doi.org/10.1541/ieejjia.4.59. [百度学术] 

23

SCHULMAN JWOLSKI FDHARIWAL Pet al. Proximal policy optimization algorithms[J/OL]. 2017.[2022-08-01]. https://arxiv.org/abs/1707.06347. [百度学术]