摘要
面向高速公路多路段可变限速协同控制需求,针对高维参数空间高效训练寻优难题,提出了应用多智能体深度确定性策略梯度(MADDPG)算法的高速公路可变限速协同控制方法。区别于既有研究的单个智能体深度确定性策略梯度(DDPG)算法,MADDPG将每个管控单元抽象为具备Actor-Critic强化学习架构的智能体,在算法训练过程中共享各智能体的状态、动作信息,使得各智能体具备推测其余智能体控制策略的能力,进而实现多路段协同控制。基于开源仿真软件SUMO,在高速公路典型拥堵场景对提出的控制方法开展管控效果验证。实验结果表明,提出的MADDPG算法降低了拥堵持续时间和路段运行速度标准差,分别减少69.23 %、47.96 %,可显著提高交通效率与安全。对比单智能体DDPG算法,MADDPG可节约50 %的训练时间并提高7.44 %的累计回报值,多智能体算法可提升协同控制策略的优化效率。进一步,为验证智能体间共享信息的必要性,将MADDPG与独立多智能体DDPG(IDDPG)算法进行对比:相较于IDDPG,MADDPG可使拥堵持续时间、速度标准差均值的改善提升11.65 %、19.00 %。
交通事故导致的偶发交通拥堵是高速公路运营长期面临的痛点问
可变限速控制以路侧限速信息发布设备为界划分管控单元,基于实时交通流状态对管控单元的限速值进行调
传统可变限速控制研究基于模型预测控制(model predictive control, MPC)框架,求解优化模型获得最优的控制策
强化学习(reinforcement learning, RL)方法通过智能体与环境间的不断交互进行试错学习,自主探索最优控制策略,克服了传统MPC研究依赖交通流预测模型精度的局
基于深度强化学习(deep reinforcement learning, DRL)的可变限速控制克服了传统RL方法不适用于高维连续状态空间的缺陷。DRL将RL与深度学习结合,利用神经网络的函数逼近能力,拟合管控效果与交通流状态之间的复杂非线性关系。Wu
多智能体深度强化学习(multi agent deep reinforcement learning, MADRL)是DRL的拓展,主要可分为两类:①智能体间相互独立;②智能体间能进行交互。在第一类研究中各智能体只能观测到本地的信息,无法接收到其他智能体的状态及动作决策信
面向高速公路多路段协同控制需求,针对高维参数空间高效训练寻优难题,本文提出了基于MADRL算法的高速公路可变限速协同控制方法。利用深度网络捕捉连续高维状态输入特征,通过训练过程中系统全局信息共享进行多路段联动,最终实现了可变限速协同控制策略的高效寻优,并基于仿真实验验证了该方法在典型拥堵管控场景下的效果及优越性。
本文考虑的高速公路可变限速协同控制实验路段如

图1 高速公路可变限速协同控制实例
Fig. 1 Example of coordinated VSL control for freeways
为了将可变限速控制与MADRL关联起来,控制问题需要推导为通过与环境交互进行试错学习的MDP。MDP过程包括,S代表状态空间,A代表动作空间,P代表状态转移概率,R代表回报值分布,表示定义即时奖励和历史奖励的相对重要性的折扣因子。在每一个离散的时间步长(每个时间步长之间间隔为5 min),智能体都会根据一些策略π来选择动作,环境相应的由状态转移到状态,智能体收到回报值,智能体的训练目标是最大化累计回报值。考虑上述高速公路可变限速协同控制场景,智能体(Agent)、状态(State)、动作(Action)和回报值函数(Reward)设计如下所示:
① 智能体:将路段可变限速控制器视为智能体,每个路段的智能体可以对该路段区域设置不同限速随后通过路侧设备进行发布,智能体数量即为路段数量N。
② 状态:状态是实时交通流环境或交通流演变的体现。鉴于动态交通流的复杂性,很难精确表示交通流如何从一个状态转移到新状态。本文将交通流状态定义为路段速度均值、路段速度标准差、路段流量均值和路段流量标准差的集合,即每个路段的交通流状态均为4维空间,总状态空间的维度为4N。
③ 动作:动作即智能体施加给控制路段的限速值。结合实际工程应用情况,将限速值最小值设置为60 km·
④ 回报值:目标导向是深度强化学习的基础,深度强化学习通过学习选择动作,使累计回报值最大化。在本研究中,多路段可变限速协同控制的主要目标包括提升交通安全和交通效率两方面。
交通安全方面,选用对事故发生概率(称为事故风险)有显著影响的速度标准差和速度均值指
交通效率方面,既有研
最终综合交通安全和效率两方面,确定回报函数r如下:
(1) |
式中:、分别代表安全、效率两类奖励值的权重,其数值由高速公路管理部门结合实际工程经验确定为0.8、0.2。
本文采用多智能体深度确定性策略梯度(multi-agent deep deterministic policy gradient, MADDPG)算

图2 基于MADDPG的高速公路可变限速协同控制优化算法框架
Fig. 2 Coordinated VSL control optimization framework for freeways based on MADDPG
为了实现多智能体间的协同,利用整个交通流环境的整体状态和动作(即所有路段的交通流状态及限速值)对每个智能体进行训练,对于每个时间步长t,每个智能体的Critic网络都能获得所有智能体的观测值和给出的动作,即所有路段的交通流状态及限速,并依据全局状态、动作信息输出,作为对智能体i的策略评价值Q,其中为第i个Critic网络的参数值。而Actor i通过其当前的管控策略,根据观测到的单一路段的状态给出相应路段的限速动作,即,因此当离线训练过程结束进行实际应用时不需要使用Critic网络,仅通过每个路段的Actor网络对该路段进行管控,实现了集中式训练和分布式应用。通过这种集中式训练的方法使得每个智能体具备推断其余智能体策略的能力,从而加速训练并获得最优的协同策略。由于每个智能体对应路段的空间位置不同,各智能体能学习到互异的分布式策略。最终训练得到的各智能体有不同的Actor、Critic网络参数。
传统的RL智能体会对状态、动作和回报值进行逐步采样,在利用这些数据更新参数后立即丢弃这些经验数据,这种方法导致样本之间具有强烈的时间相关性并且可能会将重要的数据快速遗忘,本文通过经验回放(experience replay)来解决上述问题。经验回放设置会将训练过程中产生的数据进行存储记忆(replay memory),存储上限为,当数据量达到阈值后,不断地从存储记忆中随机批量采样B个数据样本以更新所有智能体。为了探索更多潜在最优策略,在每次选择动作时都都加入随机高斯噪声N,随后通过来选择具体动作。
为了使得训练过程更为稳定,引入目标网络(target networks))和)。每个Critic网络通过最小化损失值函数来更新网络参数,其中为学习率,为偏导符号,如式(
(2) |
(3) |
(4) |
Actor网络的参数更新如
(5) |
(6) |
基于MADDPG的算法训练流程总结如下所示:
(1)确定智能体的个数N,初始化每个Actor和Critic网络分别为和),初始化目标网络的参数, ,,设置训练周期M、时间步长T、批次数据量B、经验回放的存储上限及启动阈值,令。
(2)进行第m个周期中第t个步长的训练。
(3)感知每个路段的当前交通流状态集合,在随机高斯噪声下每个路段Actor网络的输出限速动作组成集合,各路段在限速下转移到状态集合,并基于
(4)将数据进行存储记忆,当存储数据量大于时随机抽取B个数据用于更新各路段智能体。
(5)基于式(
(6),若,转步骤(2),否则转步骤(7)。
(7),利用、来更新目标网络,为目标网络更新率。若,则令,转步骤(2),否则结束算法,输出最终的目标网络参数作为智能体网络参数。
各智能体的Actor、Critic网络结构如

图3 深度网络结构
Fig. 3 Structure of deep neural networks
全连接层 | 输入维度 | 输出维度 |
---|---|---|
FC1 | 4N | 196 |
FC2 | 2N | 128 |
FC3 | 324 | 128 |
FC4 | 128 | 64 |
FC5 | 64 | 1 |
全连接层 | 输入维度 | 输出维度 |
---|---|---|
FC1 | 4 | 256 |
FC2 | 256 | 128 |
FC3 | 128 | 64 |
FC4 | 64 | 1 |
基于开源仿真软件SUMO搭建仿真模型模拟典型拥堵管控场景,以仿真环境作为MADDPG算法的交互环境对算法进行训练,验证了本文提出的MADDPG算法对于交通流安全、效率的改善效果。
由事故等异常事件导致的偶发性拥堵(后续简称为拥堵)是高速公路的典型管控场景之一,当发生拥堵时交通效率会大幅下降,同时也极易发生追尾事故,影响交通安全程度。本文参考经典文献[

图4 无限速控制下拥堵场景交通流状态时空分布热力图
Fig. 4 Traffic state spatiotemporal heatmaps in traffic jam scenario without VSL control
将单次场景仿真作为可变限速控制策略优化算法的一个训练周期,针对单次仿真,0~5 min用于仿真预热,5~10 min用于产生交通拥堵波,10~15 min让其自然向上传播,从第15 min开始,每隔5 min每个路段对应的智能体都会根据前5 min的路段交通流状态选择路段限速并施加到仿真环境中,即限速的变化间隔为5 min,并基于算法训练流程不断优化控制策略,共训练100个周期。仿真过程中的跟驰模型和换道模型分别设置为智能驾驶人模型(intelligent driver model, IDM)和LC2013模型,并基于实证交通流数据进行标定,驾驶行为模型、仿真环境及MADDPG算法的相关参数的取值如
参数 | 取值 |
---|---|
期望加速度/(m· | 1.4 |
期望减速度/(m· | 2.0 |
期望车头时距/s | 1.6 |
最小车头间距/m | 2.4 |
单次仿真时长/s | 3 600 |
训练周期M | 100 |
限速动作更新频率/(min· | 5 |
控制步长上限T | 10 |
智能体数量(路段数量)N | 6 |
批次数据量B | 64 |
经验回放存储上限 | 100 000 |
经验回放启动阈值NT | 100 |
学习率 | 0.000 1 |
目标网络更新率 | 0.01 |
在基于SUMO构建的拥堵场景中对算法进行训练和测试,可变限速控制智能体的设置通过Python完成,利用TraCI接口实现智能体和SUMO仿真环境的交互。控制逻辑如

图5 SUMO平台可变限速控制实施逻辑
Fig. 5 VSL control logic in SUMO platform
从效率和安全两方面对算法的效果进行量化评估。考虑到拥堵场景管控的主要目标是使由低速车辆导致的交通拥堵波加速消散,结合拥堵场景仿真设计及低速车辆的判定阈值设计,本研究中的拥堵判定条件设定为:路段中存在某一长度超过100 m的区域的平均速度低于50 km·

图6 测试场景速度均值时空分布热力图
Fig. 6 Average speed spatiotemporal heatmaps in testing scenario

图7 测试场景速度标准差时空分布热力图
Fig. 7 Speed standard deviation spatiotemporal heatmaps in testing scenario
评价指标\\控制算法 | 无限速控制 | MADDPG | IDDPG |
---|---|---|---|
拥堵持续时间/min | 39 | 12 (-69.23 %) | 17 (-56.67 %) |
低速车辆总数 | 582 | 373 (-35.91 %) | 433 (-25.60 %) |
速度标准差均值/(km· | 2.21 | 1.15 (-47.96 %) | 1.57 (-28.96 %) |
累计回报值 | 532.51 | 711.06 (+33.53 %) | 630.60 (+18.42 %) |
为验证多智能体设置的优越性,将MADDPG与经典文献中的DDP

图8 基于DDPG的高速公路可变限速控制优化算法框架
Fig. 8 VSL control optimization framework for freeways based on DDPG
MADDPG和DDPG的训练过程对比如

图9 MADDPG和DDPG训练过程对比
Fig. 9 Comparison of training progress of MADDPG and DDPG
两种算法在拥堵场景测试时的回报值对比曲线如

图10 MADDPG和DDPG在测试场景的回报值对比曲线
Fig. 10 Reward comparison of MADDPG and DDPG in testing scenario
综上所述, MAADPG的性能优于DDPG。从训练效率来看,MADDPG算法的达到收敛所需的训练时间约为DDPG的50 %,从测试回报值曲线来看,两者均能改善拥堵场景的交通流运行,但MADDPG算法能获得更高的回报值、取得更好的改善效果,表明多智能体设置能有效提升算法性能。
为验证多智能体利用全局信息训练管控算法的必要性,将MADDPG算法与同为多智能体深度强化学习算法的独立DDPG(independent DDPG, IDDPG

图11 基于IDDPG的高速公路可变限速控制优化算法框架
Fig. 11 VSL control optimization framework for freeways based on IDDPG
评价指标结果汇总如
(1)本文面向高速公路多路段协同管控需求,提出了一种基于MADRL算法(MADDPG)的高速公路可变限速协同控制方法。利用深度网络提取高维连续交通流状态特征,将每个路段均视为一个智能体,进行了集中式训练和分布式应用:集中式训练过程中共享各智能体的交通流状态和限速动作信息,使得在训练过程中每一路段的智能体能推测其余路段智能体的策略,而分布式应用保证各智能体在实际应用过程中能仅基于本路段的交通流状态进行最优可变限速管控。
(2)基于SUMO软件搭建高速公路多路段环境,以典型拥堵管控场景仿真实验为例对所提出算法的效果进行验证。结果表明MADDPG使拥堵持续时间下降了69.23 %,使低速车辆总数减少了35.91 %,使速度标准差减少了47.96 %,使累计回报值提升了33.53 %,能显著提高交通效率与安全。
(3)与单智能体DRL算法(DDPG)相比,MADDPG使算法收敛的训练耗时缩短约50 %、累计回报值提升7.44 %,表明MADDPG在训练效率和交通流运行改善方面均优于DDPG,多智能体算法可提升协同控制策略的优化效率。
(4)与智能体间相互独立、无信息交互的MADRL算法(IDDPG)相比,MADDPG在交通流运行改善方面有显著优势:拥堵持续时间、低速车辆总数、速度标准差均值分别进一步降低11.65 %、10.31 %、19.00 %,累计回报值进一步提升15.11 %。表明利用全局信息训练算法实现多路段协同能有效提高交通流管控成效。
(5)本文的算法效果在典型拥堵场景仿真实验中得到了验证。在未来研究中,可以考虑将算法在更大规模的路网中进行测试分析,同时也可以考虑将方法拓展到多种管控策略的协同控制研究中,例如进行可变限速控制与匝道控制的协同研究等。
作者贡献声明
余荣杰:提供研究思路、技术指导,完善、修订论文。
徐 灵:提供研究思路、技术指导及实验数据。
章锐辞:提供研究思路,设计并开展实验,撰写论文。
参考文献
KEJUN L, MEIPING Y, JIANLONG Z, et al. Model predictive control for variable speed limit in freeway work zone[C]//2008 27th Chinese Control Conference. Kunming: IEEE, 2008: 488-493. [百度学术]
包杰. 基于多源数据的城市路网交通事故风险研究[D]. 南京:东南大学,2019. [百度学术]
BAO Jie. Research on crash risk of urban road network based on multi-source data[D]. Nanjing: Southeast University. 2014. [百度学术]
HARBORD B. M25 controlled motorway-results of the first two years[C]//9th International Conference on Road Transport Information and Control. [S.l.]: IET Digital Library, 1998: 149-154. [百度学术]
MIRSHAHI M, OBENBERGER J, FUHS C A, et al. Active traffic management: The next step in congestion management[R]. [S.l.]: United States. Federal Highway Administration, 2007. [百度学术]
HOOGENDOORN S P, DAAMEN W, HOOGENDOORN R G, et al. Assessment of dynamic speed limits on freeway A20 near Rotterdam, Netherlands[J]. Transportation Research Record, 2013, 2380(1): 61. [百度学术]
李志斌. 快速道路可变限速控制技术[D]. 南京:东南大学,2014. [百度学术]
LI Zhibin. Variable speed limit technique on expressways[D]. Nanjing: Southeast University, 2014. [百度学术]
HAN Y, YU H, LI Z, et al. An optimal control-based vehicle speed guidance strategy to improve traffic safety and efficiency against freeway jam waves[J]. Accident Analysis & Prevention, 2021, 163: 106429. [百度学术]
LI Z, ZHU X, LIU X, et al. Model-based predictive variable speed limit control on multi-lane freeways with a line of connected automated vehicles[C]//2019 IEEE Intelligent Transportation Systems Conference (ITSC). Edmonton: IEEE, 2019: 1989-1994. [百度学术]
HAN Y, HEGYI A, YUAN Y, et al. Resolving freeway jam waves by discrete first-order model-based predictive control of variable speed limits[J]. Transportation Research Part C: Emerging Technologies, 2017, 77: 405. [百度学术]
LU X Y, SHLADOVER S. MPC-based variable speed limit and its impact on traffic with V2I type ACC[C]//2018 21st International Conference on Intelligent Transportation Systems (ITSC). Edmonton: IEEE, 2018: 3923-3928. [百度学术]
YU R, ABDEL-ATY M. An optimal variable speed limits system to ameliorate traffic safety risk[J]. Transportation Research Part C: Emerging Technologies, 2014, 46: 235. [百度学术]
WANG C, XU Y, ZHANG J, et al. Integrated traffic control for freeway recurrent bottleneck based on deep reinforcement learning[J]. IEEE Transactions on Intelligent Transportation Systems, 2022, 23(9): 15522. [百度学术]
LI Z, LIU P, XU C, et al. Reinforcement learning-based variable speed limit control strategy to reduce traffic congestion at freeway recurrent bottlenecks[J]. IEEE Transactions on Intelligent Transportation Systems, 2017, 18(11): 3204. [百度学术]
WU Y, TAN H, QIN L, et al. Differential variable speed limits control for freeway recurrent bottlenecks via deep actor-critic algorithm[J]. Transportation Research Part C: Emerging Technologies, 2020, 117: 102649. [百度学术]
KE Z, LI Z, CAO Z, et al. Enhancing transferability of deep reinforcement learning-based variable speed limit control using transfer learning[J]. IEEE Transactions on Intelligent Transportation Systems, 2020, 22(7): 4684. [百度学术]
ROY A, HOSSAIN M, MUROMACHI Y. A deep reinforcement learning-based intelligent intervention framework for real-time proactive road safety management[J]. Accident Analysis & Prevention, 2022, 165: 106512. [百度学术]
CHU T, WANG J, CODECÀ L, et al. Multi-agent deep reinforcement learning for large-scale traffic signal control[J]. IEEE Transactions on Intelligent Transportation Systems, 2019, 21(3): 1086. [百度学术]
SARTORETTI G, KERR J, SHI Y, et al. Primal: Pathfinding via reinforcement and imitation multi-agent learning[J]. IEEE Robotics and Automation Letters, 2019, 4(3): 2378. [百度学术]
GUILLEN-PEREZ A, CANO M D. Multi-agent deep reinforcement learning to manage connected autonomous vehicles at tomorrows intersections[J]. IEEE Transactions on Vehicular Technology, 2022, 71(7): 7033. [百度学术]
QIE H, SHI D, SHEN T, et al. Joint optimization of multi-UAV target assignment and path planning based on multi-agent reinforcement learning[J]. IEEE Access, 2019, 7: 146264. [百度学术]
WU T, ZHOU P, LIU K, et al. Multi-agent deep reinforcement learning for urban traffic light control in vehicular networks[J]. IEEE Transactions on Vehicular Technology, 2020, 69(8): 8243. [百度学术]
LI Z, YU H, ZHANG G, et al. Network-wide traffic signal control optimization using a multi-agent deep reinforcement learning[J]. Transportation Research Part C: Emerging Technologies, 2021, 125: 103059. [百度学术]
YU R, ABDEL-ATY M. Utilizing support vector machine in real-time crash risk evaluation[J]. Accident Analysis & Prevention, 2013, 51: 252. [百度学术]
周召敏. T-CPS下考虑低速车影响的交通拥堵特征分析及抑制策略研究[D]. 重庆:重庆大学, 2020. [百度学术]
ZHOU Zhaomin. Research on low-speed-vehicles-based congestion characteristics and congestion control methods in T-CPS[D]. Chongqing: Chongqing University, 2020. [百度学术]
全国人大常委会. 中华人民共和国道路交通安全法[M]. 北京:全国人大常委会, 2021. [百度学术]
The Standing Committee of the National People’s Congress. Road traffic safety law of the People’s Republic of China[M]. Beijing: The Standing Committee of the National People’s Congress, 2021 [百度学术]
LOWE R, WU Y I, TAMAR A, et al. Multi-agent actor-critic for mixed cooperative-competitive environments[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems (NIPS’17). [S.l.]: Curran Associates Inc., 2017: 6379-6390. [百度学术]
ZHANG Z, ZHENG J, ZOU C. Multi-empirical discriminant multi-agent reinforcement learning algorithm based on intra-group evolution[C]// 2019 2nd International Symposium on Big Data and Applied Statistics. [S.l.]: IOP Publishing, 2020: 012038-012053. [百度学术]