摘要
以典型匝道控制场景为研究对象,利用状态值函数、显著图及输入扰动,理解深度强化学习模型在交通控制中的决策机理。利用状态值函数评判模型是否能够认识到交通状态的变化,通过显著图分析特定环境状态下模型感知到的环境状态特征和决策动作规律,应用输入扰动分析扰动后匝道控制动作匹配率和控制效果并鉴别关键区域。结果表明,基于深度强化学习的匝道控制模型能够准确评判交通状态的优劣,感知到交通状态的关键特征,并做出合理的决策动作。
近年来,强化学习方法在交通控制领域,如地面交叉口信号控
强化学习通过不断学习环境与控制动作的相互反馈,构建复杂的非线性数学关系。深度神经网络提供更加复杂的网络结构,更有利于提取环境中的复杂信息,从而达到更好的控制效果。然而,深度强化学习模型往往缺乏可解释性,即无法通过数学模型了解模型识别到的信息以及控制原理。模型的可解释性对于强化学习在实际工程中的应用具有重要意
强化学习模型具有特异性,针对游戏领域的可解释性分析成果难以直接迁移至交通控制领域。本文利用强化学习解释工具,聚焦实际交通控制场景,实现对强化学习模型的解析。匝道控制作为交通控制领域的经典场景之一,相关研究非常丰富,可分为基于规则、基于预测模型和基于强化学习模型3类。本文主要讨论基于强化学习模型的匝道控制。Fares
选取典型匝道控制场景,以Liu
常用匝道控制可以分为周期式和停走式。周期式匝道控制固定周期时长为C,通过调整绿灯时长实现动态控制;停走式匝道控制固定一个较短的绿灯时长L(2~4 s),通过调整红灯时长满足管控需求。Liu
以覆盖匝道控制区域的交通视频图像为输入(见

图1 匝道控制状
Fig.1 Ramp metering stat

图2 基于深度强化学习的匝道控制框
Fig.2 Ramp metering framework based on deep reinforcement learnin
本文采用基于值函数的强化学习算法,通过训练动作值函数Q(s,a),寻找能够最大化累积奖励的最优控制策略。训练后的最优动作值函数Q(s,a)可衡量状态s下采取动作a的价值,价值最大的动作即为最优控制动作。为了更好地从图像数据中提取状态环境特征,Q(s,a)由卷积神经网络与全连接神经网络共同组成。
采用状态值函数、显著图和输入扰动,对上述基于深度强化学习的匝道控制模型进行解析。状态值函数和显著图用于解释特定环境状态下模型感知到的关键微观交通特征和控制规律,输入扰动用于分析不同区域信息对控制动作和控制效果的宏观影响。
状态值函数是强化学习对当下环境状态优劣的评价,状态值越高说明强化学习模型认为当下状态越优。因此,通过对比状态值与实际状态在时间上的变化趋势,可评估模型是否准确认识状态的变化。
环境在t时刻处于状态s,智能体采用策略π而产生的未来累积奖励Gt的期望为给定动作策略π下的状态值函数vπ(s),定义为
(1) |
状态值是模型在采用策略π时对当前状态的评价,反映了模型对当下状态优劣的认识。状态值越低意味着模型认为状况越差。状态值函数可通过 Q(s,a)估计,当环境在t时刻处于状态s且智能体选择动作a时,智能体采用策略π而产生的未来累积奖励Gt的期望被称为给定动作策略π下动作值函数 qπ(s,a),其定义为
(2) |
最优策略π*下,有
(3) |
式中,vπ*(s)为在采用最优策略π时状态s的状态值函数。训练好的动作值函数Q(s,a)是qπ*(s,a)的一个较优估计。基于
(4) |
显著
本文采用基于梯度的方法,通过计算动作值函数对状态的Jacobian矩阵,量化环境状态图像中每个像素点对于动作价值的影响程度,并可视化构建环境状态的显著图。显著图构建流程如

图3 显著图计算流程
Fig.3 Calculation process of saliency map
(1) 计算Jacobian矩阵。将动作值函数Q中的参数w作为输入,环境状态s作为变量,并计算相应的导数,即,得到环境状态s的Jacobian矩阵。
(2) 平均化。选取由连续的3帧交通图像组成的三维矩阵作为状态环境输入。为了便于分析,对3帧图像形成的位置矩阵平均化得到二维矩阵。
(3) Gaussian过滤。采用Gaussian平滑对平均化后的二维图像矩阵进行过滤,以消除噪声的影响。
(4) 划分正负梯度。分别将梯度为正值和负值的像素点提取出来,并为空缺区域补零,形成2个梯度矩阵
(5)归一化。分别对正负梯度矩阵
通过以上步骤对和进行可视化即可得到正显著图(PSM)和负显著图(NSM)。在PSM中,若某区域梯度值较大,则说明模型认为该区域出现车辆有利于提升动作价值,即有利于提高通行效率。在NSM中,若某区域梯度值较大,则说明模型认为该区域出现车辆会降低动作价值,即有可能降低通行效率。
当前环境下的车辆位置分布可以直观地反映当前的交通状态。将车辆位置与相应的PSM和NSM叠合,用于理解影响匝道控制的关键环境特征和匝道控制动作规律。首先,通过分析PSM与NSM中正负梯度矩阵和的分布特征,鉴别对动作价值影响较大的区域,并结合车辆位置对其现实意义进行合理推断;其次,结合显著图的主要特征与即将采取的信号控制动作,建立环境特征与控制动作之间的联系,分析匝道控制的动作规律。
遮挡原始环境的部分区域,形成扰动环境,并以此为控制输入,输出匝道控制动作和控制效果;对比分析原始和扰动环境下输出动作和控制效果的差异,以鉴别各区域信息对匝道控制决策的重要性。
通过动作匹配率和行程时间2个指标对区域重要性进行评价。动作匹配率Ra表示未扰动和扰动环境下控制动作的一致性,用于衡量各区域内信息对匝道控制决策的贡献度,定义为
(5) |
式中:、分别为原始和扰动环境下第n次仿真t时刻采用的信号相位;I(x,y)为示性函数,当x和y相等时输出1,不相等时输出0;Na为一次仿真内动作决策总数;Nsim为所有仿真次数。在计算动作匹配率Ra时,基于原始环境状态和扰动环境状态分别对信号相位和进行决策,但最终执行的相位永远都是。
动作匹配率可以衡量局部区域特征对控制决策的贡献度,但无法判断被扰动区域的特征是否有利于匝道控制做出更合适的控制动作。因此,采用主线平均行程时间衡量控制效果,对比采用和信号相位的控制效果。
以典型匝道控制场景为实验场景,道路拓扑如

图4 实验场景
Fig.4 Experimental scenario

图5 主线及上匝道交通流量
Fig.5 Traffic flow on mainline and on-ramp
为了验证基于深度强化学习的匝道控制模型的控制效果,采用不同的随机种子进行20次仿真,计算每一次仿真中控制与无控制下的主线平均行程时间,并在

图6 无控制与控制下主线平均行程时间箱形图
Fig.6 Box plot of average mainline travel time without and with control
采用通过合流区的主线平均行程时间作为交通状态优劣的衡量指标,对比主线平均行程时间和匝道控制算法给出的状态值,分析模型是否能够准确识别交通状态。

图7 主线平均行程时间及状态值随时间的变化
Fig.7 Variation of average mainline travel time and state value with time
从
以t1~t3 和t4~t6时刻为例,利用显著图分析模型对状态环境的理解和决策的合理性。图

图8 t1~t6 时刻NSM
Fig.8 NSM at t1~t6

图9 t1~t6 时刻PSM
Fig.9 PSM at t1~t6

图10 t=08∶55∶52时刻的NSM与PSM
Fig.10 NSM and PSM at t=08∶55∶52
图
如

图11 扰动区域与动作匹配率
Fig.11 Perturbated area and action match ratio
为了分析扰动对于匝道控制效果的影响,

图12 输入扰动后主线平均行程时间箱形图
Fig.12 Box plot of average mainline travel time under input perturbation
(1)基于深度强化学习的匝道控制模型能够认识到环境状态中影响匝道控制决策的关键特征,如匝道排队、加速车道排队和主线空档,并辨别上述特征对于交通状态的正面和负面影响。
(2)基于深度强化学习的匝道控制模型能够根据感知到的关键特征做出合理的动作决策。结合显著图和对应的控制动作发现,该模型能够根据主线和匝道交通状态控制信号灯相位,从而提升交通效率。
(3)基于深度强化学习的匝道控制模型主要关注合流区及其近端上游区域的信息,缺少这些区域信息的模型控制效果显著下降,合流区下游和远端上游的信息对控制动作影响较小。
未来研究将从4个方面展开:由于实际应用环境复杂,难以对显著图中所有的显著特征进行分析,不同显著特征的实际含义尚需进一步研究;基于本文成果,优化交通检测器部署,为匝道控制提供经济有效的信息;预先从视频图像中提取匝道控制主要关注的特征,提升深度强化学习模型的训练速度,改善模型的控制效果;通过元学习或迁移学习增强模型的泛化能力,使其适应更加多样化的匝道控制场景,并探究深度强化学习模型在不同场景下的控制效果及决策机理。
作者贡献声明
刘 冰:模型构建,研究方案实施,论文撰写。
唐 钰:提供研究思路,模型构建,论文完善。
暨育雄:提供研究思路,技术指导,论文完善。
沈 煜:技术指导,论文完善。
杜豫川:技术指导,论文完善。
参考文献
LI Zhenning, YU Hao, ZHANG Guohui, et al. Network-wide traffic signal control optimization using a multi-agent deep reinforcement learning[J]. Transportation Research, Part C: Emerging Technologies, 2021, 125: 103059. [百度学术]
ZHANG Chengwei, TIAN Yu, ZHANG Zhibin, et al. Neighborhood cooperative multiagent reinforcement learning for adaptive traffic signal control in epidemic regions[J]. IEEE Transactions on Intelligent Transportation Systems, 2022, 23(12):25157. [百度学术]
CHU Tianshu, WANG Jie, CODECÀ L, et al. Multi-agent deep reinforcement learning for large-scale traffic signal control[J]. IEEE Transactions on Intelligent Transportation Systems, 2020, 21(3): 1086. [百度学术]
WANG Chong, XU Yang, ZHANG Jian, et al. Integrated traffic control for freeway recurrent bottleneck based on deep reinforcement learning[J]. IEEE Transactions on Intelligent Transportation Systems, 2022, 23(9):15522. [百度学术]
HAN Yu, WANG Meng, LI Linghui, et al. A physics-informed reinforcement learning-based strategy for local and coordinated ramp metering[J]. Transportation Research, Part C: Emerging Technologies, 2022, 137: 103584. [百度学术]
韩靖. 基于强化学习的城市快速路交织区入口匝道智能控制方法[D]. 南京:东南大学,2017. [百度学术]
HAN Jing. The intelligent on-ramp metering at urban expressway weave area[D]. Nanjing: Southeast University, 2017. [百度学术]
HEUILLET A, COUTHOUIS F, DÍAZ-RODRÍGUEZ N. Explainability in deep reinforcement learning[J]. Knowledge-Based Systems, 2021, 214: 106685. [百度学术]
WELLS L, BEDNARZ T. Explainable AI and reinforcement learning: a systematic review of current approaches and trends[J]. Frontiers in Artificial Intelligence, 2021, 4: 550030. [百度学术]