典型匝道控制场景下深度强化学习决策机理解析
作者:
作者单位:

1.同济大学 道路与交通工程教育部重点实验室,上海 201804;2.纽约大学 坦登工程学院, 纽约 11201

作者简介:

刘 冰,博士生,主要研究方向为共享交通规划与管理。E-mail: bingliu@tongji.edu.cn

通讯作者:

暨育雄,教授,博士生导师,工学博士,主要研究方向为交通全息感知与智能计算、智能公交管理及控制。 E-mail: yxji@tongji.edu.cn

中图分类号:

U491

基金项目:

上海市科委科研计划(19DZ1209100);浙江省重点研发计划(2021C01011)


Understanding Deep Reinforcement Learning Algorithm in Typical Ramp Metering Scenarios
Author:
Affiliation:

1.Key Laboratory of Road and Traffic Engineering of the Ministry of Education, Tongji University, Shanghai 201804, China;2.Tandon School of Engineering, New York University, New York 11201, USA

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    以典型匝道控制场景为研究对象,利用状态值函数、显著图及输入扰动,理解深度强化学习模型在交通控制中的决策机理。利用状态值函数评判模型是否能够认识到交通状态的变化,通过显著图分析特定环境状态下模型感知到的环境状态特征和决策动作规律,应用输入扰动分析扰动后匝道控制动作匹配率和控制效果并鉴别关键区域。结果表明,基于深度强化学习的匝道控制模型能够准确评判交通状态的优劣,感知到交通状态的关键特征,并做出合理的决策动作。

    Abstract:

    This paper presents the control mechanism of deep reinforcement learning (DRL) in a typical ramp metering scenario. The state value function is used to evaluate if the DRL model has the ability to distinguish the change of state. The saliency map is used to perceive the state key features and control pattern for the DRL model under specific traffic states. By using the input perturbation, the action match ratio and control performance under perturbed data are analyzed to explore the key areas of control. The results show that the DRL model can evaluate the traffic state accurately, distinguish the key features, and then make reasonable decisions.

    参考文献
    相似文献
    引证文献
引用本文

刘冰,唐钰,暨育雄,沈煜,杜豫川.典型匝道控制场景下深度强化学习决策机理解析[J].同济大学学报(自然科学版),2024,52(6):928~934

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2022-09-30
  • 最后修改日期:
  • 录用日期:
  • 在线发布日期: 2024-06-28
  • 出版日期: