城市生态道路混合交通流节能驾驶策略优化

曾小清，朱明昌，郭开易，王奕曾，冯栋梁; ZENG Xiaoqing; ZHU Mingchang; GUO Kaiyi; WANG Yizeng; FENG Dongliang

网刊加载中。。。

使用Chrome浏览器效果最佳，继续浏览，你可能不会看到最佳的展示效果，

确定继续浏览么?

复制成功，请在其他浏览器进行阅读

城市生态道路混合交通流节能驾驶策略优化 PDF

- ORCID：
曾小清 ¹
✉
- ORCID：
朱明昌 ¹
- ORCID：
郭开易 ¹
- ORCID：
王奕曾 ²
- ORCID：
冯栋梁 ³
✉

1. 同济大学道路与交通工程教育部重点实验室，上海 201804； 2. 上海交通大学船舶海洋与建筑工程学院，上海 200240； 3. 上海市市政工程建设发展有限公司，上海 200025

中图分类号： U491

最近更新：2024-12-25

DOI：10.11908/j.issn.0253-374x.23360

摘要

针对生态道路自动网联车在混合交通流条件下的驾驶节能问题，提炼对于生态道路节能驾驶问题影响较大的野生动物通道场景，构建面向车联网的野生动物通道应用框架；并构建生态道路车联网环境下的车辆驾驶模型，运用动态规划进行离散化分析和状态划分，优化建立混合交通流车辆节能驾驶模型；通过强化学习Q-learning算法，对单辆汽车的节能驾驶模型进行优化求解；基于上海城市生态道路，建构考虑野生动物通道动物穿行风险的仿真场景，开展对车联网环境下的混合交通流节能驾驶策略仿真验证。结果表明该节能策略在车联网环境下能够使生态道路上车辆节省油耗量在6 %~11 %之间，并且节能效果将随着混合车流密度的增加而更优，验证了模型的合理性，以及算法求解的有效性。

关键词

交通工程; 生态道路; 车联网; 节能驾驶; 强化学习

随着“碳达峰、碳中和”战略目标的提出，我国把以绿色低碳循环的发展方式置于宏观政策的顶层设计之中，能源的高效利用为其中的追求目标之一。临港、赤峰港、崇明岛作为上海城市布局中重要的绿色战略空间，也正在全力打造世界级生态绿林地。其中的生态道路由于强调资源节约、环境保护与可持续发展的重要性，并且周边有一定量的大型哺乳动物和湿地鸟类栖息，因此更加关注道路所经路段的栖息动物的生命安全、物种的多样性及栖息地保育。研究车联网环境下的生态道路节能驾驶问题，既符合当前自动网联车（CAV）领域的发展趋势，又可对生态道路的生态保育功能起到促进作用，从而提升对周围环境的生态保护功能。

生态道路是一种具有生态保育功能的道路，是针对生态敏感地区道路建设的最新研究^［

1］。2020年，曾小清等^{［参考文献 2

百度学术}2］从道路全生命周期、可持续发展要点等角度，提出了不同维度的生态道路建设评价体系。许多公路建设在生态敏感地带，动物穿行情况对动物、车辆和人员都产生了不利影响^{［参考文献 3

百度学术}3］。据统计，捷克在过去的20年间，共有超过1.5万人因为动物与车辆的碰撞而身亡^{［参考文献 4

百度学术}4］。2016年，Viani^{［参考文献 5

百度学术}5］利用无线分布式技术，在道路两侧安装无线传感器，形成网络结构，用于检测道路周边的野生动物情况，在存在风险的时间段给与过路车辆的动态提醒。2016年，Capraz等^{［参考文献 6

百度学术}6］分别运用神经网络、线性回归、支持向量机，生成三种油耗模型，且三种模型均具有较好的预测精度。针对车联网节能驾驶方面的研究，2014年Gaspar等^{［参考文献 7

百度学术}7］提出了一种节能预测巡航控制策略，该策略能够适应周围车辆的运动，能够在不恶化交通状况的情况下尽量减少油耗，从而保证设计速度和当地交通流量之间的平衡。2019年，Qi等^{［参考文献 8

百度学术}8］研究了使用自动网联车数据的能源管理系统EMS，与高度依赖模型预测的传统模型不同，EMS开发了一种完全数据驱动的深度强化学习方法，经测试该模型油耗平均节省了16.3 %。

本文考虑车联网环境下的生态道路节能驾驶问题，构建混合交通流车辆驾驶模型，并明确生态道路动物通道特殊场景。结合车联网技术，针对优化混合交通流下的汽车油耗问题，利用动态规划方法进行离散化分析和状态划分，建立节能驾驶模型。并设计Q-learning算法框架，引入贪婪策略，提高算法的求解效率，实现节能驾驶模型的优化求解。最后通过上海崇明实景生态道路数据案例，搭建基本仿真环境，展开节能驾驶策略模拟，从而对本文构建的节能驾驶模型的有效性进行验证。

1 生态道路驾驶场景构建

1.1　生态道路

生态道路是在绿色道路的基础上，加入动物生存环境的保护，将整个生态环境的保护纳入道路设计、建设、运维的考虑范围^［

9-10］。因此，生态道路现阶段突出保护所经路段的栖息动物的生命安全、物种的多样性及栖息地保育的重要性。在生态道路行驶的过程中，既要满足周边野生动物穿行道路的安全，又要满足车辆安全及节能减排驾驶的要求。在生态道路中，影响车辆行驶的因素主要来自野生动物通道的设置。出于对建设的经济性、普遍性和存在大型哺乳动物的考虑，目前生态道路上的动物通道主要是缓坡形式通道^{［参考文献 11

百度学术}11］，但会在一定程度上限制汽车驾驶员的驾驶行为。

1.2　生态道路车联网驾驶应用框架

本文搭建一种车联网在生态道路野生动物通道的应用框架，如图1所示。该框架中，主要包含路侧单元、车联网平台、道路车辆三部分，路侧单元由动物检测识别模块、信息传输模块、路侧警示单元构成。动物检测识别模块利用红外相机技术、图像识别技术，对野生动物通道范围内的动物出没情况进行识别判断，当发现通道周边存在动物时，动物检测识别模块将动物出现的位置、数目等信息通过信息传输模块上报至车联网平台中。车联网平台在接收动物出没信息后，将相关区域的临时限速信息、禁止变道信息发布给路段中的网联车辆，同时将此信息通过信息传输模块发送给路侧警示单元，并由路侧警示单元发布临时限速、禁止变道等警示信息，用于警示路段中的非网联车辆。

图1 生态道路车联网驾驶应用框架

Fig. 1 Application framework of ecological road IoV driving

2 模型构建及求解方法

2.1　车联网混合交通流驾驶模型

2.1.1　油耗模型

从本文研究内容的角度出发，对获取汽车的速度、加速度以及道路坡道等信息相对容易，却难以获取发动机状态的相关参数。再考虑到仿真道路的坡度较小、模型输出结果精度需要尽可能高，因此最终选取输入量为汽车驾驶状态的油耗模型。VT-Micro模型^［

12］是由美国弗吉尼亚理工学院研究开发的典型的速度‒加速度回归模型，模型如式（1）所示：

l n M_{o} = \{\begin{matrix} \sum_{i = 0}^{3} \sum_{j = 0}^{3} M_{i j} v^{i} a^{j}, a \geq 0 \\ \sum_{i = 0}^{3} \sum_{j = 0}^{3} L_{i j} v^{i} a^{j}, a < 0 \end{matrix}

（1）

式中： $M_{o}$ 为车辆瞬时排放率或者油耗率，g·s^－1； $M_{i j}$ 为加速时模型的回归系数； $L_{i j}$ 为减速时模型的回归系数；v为瞬时速度，km·h^－1；a为瞬时加速度，km·h^－1·s^－1。

根据文献对此模型的研究^［

13］，通过设定模型单位变化时间为1 s，计算油耗、二氧化碳排放量时的回归系数取值，并运用该回归系数计算车辆单位时间油耗，其速度适合区间为［0 km·h^－1， 120 km·h^－1］，加速度适合区间为［－6 km·h^－1·s^－1， 16 km·h^－1·s^－1］，表明适用于本文的研究场景。

2.1.2　车辆跟驰与变道

车联网环境下的自动驾驶汽车由于配备了激光雷达、红外视频等测距装备，处在车联网环境下，可实现更快反应时间制动，从而得到较为精确、数值较小的安全距离值。对于人工驾驶员手动驾驶车辆，根据驾驶员不同驾驶风格，可划分为激进型、保守型、谨慎型三类^［

14］，通过引入驾驶员冒险系数

β

，用于描述和模拟人工驾驶员的驾驶风格，计算跟车安全距离，对Gipps安全距离跟驰模型改进^{［参考文献 15-16}15-16］，模型示意图见图2，公式如式（2）—（3）所示：

D_{s a, n} = x_{n + 1} (t) - x_{n} (t) - l_{n + 1} = v_{n} (t) τ_{n} + \frac{v_{n} {(t)}^{2}}{2 b_{n}} - β \frac{v_{n + 1} {(t)}^{2}}{2 b_{n + 1}}

（2）

v_{s a, n} (t) = - b_{n} τ_{n} + \sqrt[]{β v_{n + 1} {(t)}^{2} + b_{n}^{2} τ_{n}^{2} + 2 b_{n} d_{n} (t)}

（3）

式中： $D_{s a, n}$ 表示车辆n的最小安全跟车距离，m； $x_{n + 1} (t)$ 表示前方车辆n+1在t时刻的位置，m； $l_{n + 1}$ 表示前方车辆n+1的车长，m； $v_{n} (t)$ 表示车辆n在t时刻的速度，m·s^－1； $τ_{n}$ 表示车辆n采取紧急制动前所需要的反应时间，s； $b_{n}$ 表示车辆n的最大减速度，m·s^－2； $v_{s a, n} (t)$ 表示车辆n在t时刻不与前车发生碰撞的安全速度，m·s^－1，； $d_{n} (t)$ 表示车辆n在t时刻与前方车辆的距离，m。对于自动驾驶车辆可将冒险系数定为固定值 $β = 1$ ；人工手动驾驶车辆冒险系数 $β \in (0,1)$ 。

图2 跟车安全距离示意图

Fig. 2 Schematic diagram of safe distance for following

在实际驾驶环境中，车辆在驾驶时可能会出现随机慢化现象。本文考虑利用Richards植物生长曲线用于对随机慢化概率的描述，将道路车流密度与驾驶员随机慢化概率建立起函数映射关系，从而模拟不断增大的道路车流密度加重驾驶员的心理负担，导致其更可能选择在驾驶过程中进行减速的现象。根据相关研究成果^［

17］，将随机慢化概率的初始值设置为0.1，生长的最大值A设置为0.4，生长效率K设置为0.05，代谢率m设置为0.05，随机慢化概率曲线方程如式（4）—（5）所示：

P_{s l o w} = 0.2 + 0.2 {(1 - B \cdot e^{- 0.05 ρ})}^{\frac{1}{- 0.95}}

（4）

ρ = \frac{N}{L}

（5）

式中：B为1 km道路所能承载的最多车辆数目； $ρ$ 为道路车流密度；N为道路上的车辆总数；L为道路长度。随着车流密度的逐渐增大，驾驶员的心理负担逐渐变重，随机慢化概率的增长率也逐渐变大。当经过拐点后，由于驾驶员已经处于高度紧张状态，越来越大的车流密度对于驾驶员心理的新增刺激逐渐减弱，随机慢化概率的增长率逐渐降低，最终逼近概率最大值0.4。

本文中，考虑车辆的自由变道行为，前方车辆行驶速度过慢，相邻车道具备变道条件，车辆产生变道需求。采用预期安全距离变道模型，确保变道行为的安全，模型如下：

d_{n} < m i n ((v_{n} + a_{n}) t, v_{m a x} t)

（6）

d_{n, o t} > d_{n}

（7）

d_{n, b a} > D_{s a, n, b a}

，

d_{n, o t} > D_{s a, n, o t}

（8）

式中： $d_{n}$ 为车辆n与前方车辆的距离； $d_{n, o t}$ 和 $d_{n, b a}$ 分别为车辆n与相邻车道前方和后方车辆距离；t为仿真时间间隔； $D_{s a, n, b a}$ 和 $D_{s a, n, o t}$ 分别为车辆n与相邻车道后方和前方的最小安全距离。

当满足变道条件后，变道仍具有一定的随机性，引入变道经济型参数 $λ$ 模拟该现象。再次引入Richards 植物生长曲线，建立考虑驾驶员变道考虑心理的临界变道概率模型，使其更贴近真实情况，如式（9）所示：

\begin{array}{l} P_{c h} = 0.5 + 0.5 {(1 + e^{- 6 (λ - 1)})}^{\frac{1}{- 0.15}}, λ \in (1,2) \\ P_{c h} = 1, λ \in [2, + \infty) \end{array}

（9）

2.2　车联网生态道路节能驾驶模型

本文为求解被控网联车辆在存有野生动物通道的生态道路长路段中的区间驾驶节能最优策略，根据其在车联网环境中所获取的交通信息（如：前后方车辆的相对距离、速度），利用动态规划方法与强化学习算法，在满足约束条件下，进行驾驶策略的求解，最终得到一个指导车辆安全、节能运行的驾驶策略^［

17］。

（1）模型建立

基于动态规划的理论，本文将生态道路长路段驾驶空间按照空间进行均匀离散化划分，从而得到连续的多个阶段，并将汽车驾驶状态划分为距离、速度、相对状态三类。考虑实际驾驶情况，对安全距离进行扩展，以满足汽车驾驶行为的要求。定义跟车距离适中为当前跟车距离能够满足后车匀速跟车的安全性要求。因此，扩展后的相对跟车距离计算公式如式（10）—（11）所示：

D_{m i d, n} = v_{n} (t) \cdot \frac{v_{n + 1} (t)}{2 b_{n + 1}} + \frac{v_{n} {(t)}^{2}}{2 b_{n}} - \frac{v_{n + 1} {(t)}^{2}}{2 b_{n + 1}}

（10）

D_{f a r, n} = [v_{n} (t) + a_{n}] \cdot \frac{v_{n + 1} (t)}{b_{n + 1}} + \frac{v_{n} {(t)}^{2}}{2 b_{n}} - \frac{v_{n + 1} {(t)}^{2}}{2 b_{n + 1}}

（11）

式中： $D_{m i d, n}$ 为车辆n的适中跟车距离； $D_{f a r, n}$ 为车辆n的较远跟车距离； $v_{n} (t)$ 为车辆n在t时刻的速度，m·s^－1； $a_{n}$ 为车辆n的最大加速度，m·s^－2； $b_{n}$ 为车辆n的最大减速度，m·s^－2。

假设前方驾驶空间的长度为L，并把驾驶空间等分为n个区间，每个区间的长度定为 $l_{g a p}$ ，一般情况下 $l_{g a p}$ 的取值较小，区间内的运行速度可以简化取阶段始末速度的平均值。根据该前提求得子区间的运行时间如式（12）所示：

T_{k} = \frac{2 l_{g a p}}{v_{k} + v_{k + 1}}

（12）

因为假定子区间内加速度恒定，因此结合油耗模型计算公式，每一阶段状态转移时的燃油消耗量，如式（13）所示：

E_{k} = M_{o} T_{k}

（13）

式中： $E_{k}$ 为k阶段的排放率或油耗率，单位g； $M_{o}$ 为车辆瞬时排放率或油耗率，g·s^－1。

（2）目标函数及约束

本文研究的优化对象为油耗型网联车辆，因此节能驾驶模型的目标为优化对象在整个驾驶状态中的总油耗量最小。结合2.1.1节所提出的汽车驾驶油耗模型，利用动态规划方法，将优化问题离散化后，优化目标函数如下：

E = m i n (\sum_{k = 0}^{n} E_{k}) = m i n (\sum_{k = 0}^{n} M_{o} T_{k}) = m i n (\sum_{k = 0}^{n} M_{o} \frac{2 l_{g a p}}{v_{k} + v_{k + 1}})

（14）

式中：E为优化对象的总油耗量，L； $l_{g a p}$ 为子区间的长度。

在利用优化目标函数对潜在策略进行评价时，需要考虑对于驾驶行为的约束。车辆性能、驾驶安全和驾驶舒适性等条件将会对驾驶行为产生约束。并且由于存在野生动物通道，道路速度的限制也将处于动态过程中，生态道路的不同驾驶场景将对应着不同的路段限速值，故而对驾驶速度、加速度进行限制如下：

a_{m i n} \leq a_{k} = \frac{v_{k + 1}^{2} - v_{k}^{2}}{2 l_{g a p}} \leq a_{m a x}

（15）

0 < v_{k} \leq v_{k, m a x}

（16）

v_{k} \leq v_{s a, k}

，

v_{k, 0} = 0

（17）

式中： $v_{k}$ 为被控车辆在 $k$ 阶段的车速，m·s^－1； $v_{k, m a x}$ 为 $k$ 阶段时路段允许的最大车速； $v_{s a, k}$ 为k阶段时当前交通流所允许的最大安全车速； $a_{m i n}$ 、 $a_{m a x}$ 分别为被控车辆的最大减速度、最大加速度，m·s^－2； $v_{k, 0}$ 为被控车辆的起点速度，为0则意味静止。

2.3　基于强化学习的节能驾驶策略

本文中，由于相对距离状态的判断涉及被控车辆与混合交通流之间的交互，求解状态转移概率较为复杂。因此，利用强化学习算法的优势，通过被控车辆不断在环境中的试错，从而求解最优策略。结合本文研究，采用无模型的强化学习Q-learning算法，由于状态量较多，提出结合贪婪搜索的算法，与Q-learning算法相结合，从而加快被控车辆的节能驾驶策略学习。如式（18）所示，当运用该算法后，在当前状态进行动作选择时，以 $ϵ$ 的概率随机选择一个可行动作执行，以 $(1 - ϵ)$ 的概率选择值函数表中当前状态下数值最高所对应的动作执行。从而减弱算法在迭代学习中的随机性，达到减少迭代次数、提高收敛速度的效果。

I_{a c t} = \{\begin{matrix} r a n d o m (0, n_{a}) 0 \leq p < ϵ \\ I_{m a x (Q_{S, A})} ϵ \leq p \leq 1 \end{matrix}

（18）

式中： $I_{a c t}$ 表示当前状态最终选择动作的序号； $n_{a}$ 表示当前状态下可供选择的动作总数， $n_{a} \geq 1$ ； $p$ 表示每次决策前生成的随机数， $0 \leq p \leq$ 1 ； $r a n d o m (0, n_{a})$ 表示在可供选择的动作序号中的随机序号； $I_{m a x (Q_{S, A})}$ 表示选择对应最大Q值的动作序号。

2.3.1　环境状态信息

在Q-learning 算法的迭代学习中，Q表中的数值来源于多阶段决策中的状态，并且状态需要贴近优化问题的实际情况，能够对不同动作的结果进行模拟、区分。根据被控车辆的驾驶特性以及对于汽车油耗的仿真需求，将状态分为：①被控车辆绝对位置：车辆所处的绝对位置也通过区间离散化后的每个阶段k 进行表示；②被控车辆车道：由于本文考虑的驾驶情况为同向两车道，利用0和1来表示当前所位于的车道，0代表左边车道，1代表右边车道；③被控车辆当前的相对距离：考虑将与本车道前车的距离、与相邻车道前车的距离、与相邻车道后车的距离统一用相对距离考虑，共有18种状态；④被控车辆车速：由于本文研究中的被控车辆初始速度、可选加速度均为整数，因此算法中的速度也用非负整数表示；⑤状态转变耗时：不同动作的选择所消耗的时间也将不一致，具体计算由前后状态的距离差、速度差、加速度所求得；⑥汽车油耗量：不同动作的选择所造成的汽车油耗量也有所差异，具体计算由前后状态的速度差、加速度、状态转变耗时所求得。

2.3.2　动作与奖励函数

根据实际驾驶情况，并出于尽可能减少算法数据空间量的考虑，将算法中的动作集合分为：加速、最大加速、减速、最大减速、匀速不变道和匀速变道，一共有6种动作可供算法学习。

奖励函数需要对子区间、整个驾驶过程的油耗量进行评估，兼顾每次状态转移和整体策略学习时的油耗最优性。故而，在算法的奖励函数中引入与本车道前车的相对距离作为反馈值。根据相对位置的远近依次降低奖励数值，以表示对于较远跟车距离的提倡。

R (s_{k}, a_{i}) = α \cdot [R - M_{o} (v_{k}, a_{k}) \cdot T (s_{k}, a_{i})] + β \cdot h (s_{k}, a_{i})

（19）

式中： $R (s_{k}, a_{i})$ 表示在R表中 $s_{k}$ 状态、 $a_{i}$ 动作时的奖励数值； $R$ 为固定正整数，用于表示油耗越低获得的奖励越高； $M_{o} (v_{k}, a_{k})$ 表示 $v_{k}, a_{k}$ 时，车辆瞬时排放率或油耗率； $T (s_{k}, a_{i})$ 表示 $s_{k}$ 状态、 $a_{i}$ 动作时的状态转移所需时间； $h (s_{k}, a_{i})$ 表示 $s_{k}$ 状态、 $a_{i}$ 动作时的状态转移后的跟车距离奖励值； $α$ 表示油耗系数，决定了油耗奖励值在整体中的占比； $β$ 表示距离系数，决定了跟车距离奖励值在整体中的占比。h根据与本车道相对位置远、中、近，取值5、3、1。

结合贝尔曼方程，Q表数值更新的贝尔曼方程也将更新成式（20）：

Q^{'} (s_{k}, a_{i}) = (1 - α) \cdot Q (s_{k}, a_{i}) + α \cdot \{R (s_{k}, a_{i}) + γ \cdot m a x [Q (s_{k + 1})]\}

（20）

式中： $Q^{'} (s_{k}, a_{i})$ 表示更新后的Q表中 $s_{k}$ 状态、 $a_{i}$ 动作时的数值； $Q (s_{k}, a_{i})$ 表示更新前的Q表中 $s_{k}$ 状态、 $a_{i}$ 动作时的数值； $R (s_{k}, a_{i})$ 表示在R表中 $s_{k}$ 状态、 $a_{i}$ 动作时的奖励数值； $m a x [Q (s_{k + 1})]$ 表示更新前的Q表中 $s_{k + 1}$ 状态下的最大数值； $α$ 表示学习效率， $0 < α < 1$ ； $γ$ 表示折扣因子， $0 < γ < 1$ 。

3 节能驾驶策略仿真分析

3.1　仿真基础数据

选取上海市崇明区建设公路区段（建同路—虹桥路之间）作为生态道路的仿真路段，路段起始于建设公路起讫桩号K4+180处，终于起讫桩号K6+320处，总长2 140 m。结合前人研究及实际情况^［

18-19］，仿真分两个场景进行研究，场景1不考虑生态道路限制，假定当前无动物穿越风险，960 m至1 060 m之间区域路段限速仍为40 km·h^－1。场景2考虑生态道路对车辆驾驶的限制，当前存在动物穿越风险，路段960 m至1 060 m之间区域的道路限速为30 km·h^－1，并且严禁车辆变道，仿真数据参考表1。根据现行《公路工程技术标准》^{［参考文献 20

百度学术}20］，四车道一级公路能适应的年平均日交通量为15 000至30 000辆，故而本文在仿真中将车流密度的仿真上限定为30 pcu·km^－1。由于自动网联汽车的占比将对仿真实验的结果产生较大的影响，将对于不同自动网联车占比下的仿真情况进行实验，从而验证所提出的节能驾驶策略对于不同程度混合交通流环境的适应性。

表1 混合交通流模型的仿真参数

Tab. 1 Simulation parameters of mixed traffic flow model

参数	符号	数值
路段长度/ m	L	2 140
车道数	m	2
自动网联汽车车长/ m	$l_{c a v}$	5
普通汽车车长/ m	$l_{h v}$	5
路段限速/ （km·h^-1）	$v_{1}$	60\40
动物通道临时限速/ （km·h^-1）	$v_{2}$	30
一般减速度/ （m·s^-2）	$a_{1}$	0.6
较大减速度/ （m·s^-2）	$a_{2}$	1
减速起始位置/ m	$x_{1}$	760
动物通道起始位置/ m	$x_{2}$	960
动物通道结束位置/ m	$x_{3}$	1 060
车流密度/ （pcu·km^-1）	$ρ$	0~30
随机慢化概率	$P_{s l o w}$	0.2~0.5
变道概率	$P_{c h}$	0.5~1
阶段间隔/ m	$l_{g a p}$	10
各阶段限速/ （km•h^-1）	$v_{k, m a x}, k \in [0,95]$	60
	$v_{k, m a x}, k \in [96,106]$	40（场景1） 30（场景2）
	$v_{k, m a x}, k \in [107,214]$	40

3.2　生态道路节能驾驶仿真

3.2.1　节能驾驶策略求解

在求解过程前，对驾驶状态集合进行优化。根据模拟的路段环境参数及被控车辆的仿真参数，计算被控车辆在路段中所被允许的最大速度，得到两个场景最大速度曲线如图3所示。当汽车减速度为－3 m·s^－2时，从60 km·h^－1降至30 km·h^－1所需要的制动距离约为35 m，在动物穿行风险路段需提前减速制动，图中阴影部分表示被控车辆的可行速度范围，非阴影部分表示该速度状态不可取，从而降低驾驶状态的可转移集合数目，提高强化学习算法的计算速度。

图3 两场景下被控车辆可行速度范围

Fig. 3 Speed range of controlled vehicle in two scenarios

求解过程利用2.3节所构建的强化学习算法，对于节能驾驶策略进行迭代学习。依照2.3节算法流程，设定学习率 $α$ 为0.1，折扣因子 $γ$ 为0.9，贪婪度 $ϵ$ 为0.5，迭代学习次数为5 000。同时，将对算法迭代学习过程中的收敛情况进行校验。因为本文所探讨的环境状态量较多，Q表、R表的规模较大，通过对收敛情况的分析，可以明晰所求得到的Q表是否为全局最优，避免陷入局部最优的情况之中。在仿真过程中，对于算法在迭代学习过程的收敛性进行计算，得出结果如图4所示。从图4收敛曲线可看出，在循环迭代3 000次后，计算求得的车辆油耗量变得较为固定，具有收敛的特征。

图4 算法收敛情况结果图

Fig. 4 Results of algorithm convergence

3.2.2　仿真结果

（1）场景1：无生态道路驾驶限制

在仿真过程中，混合交通流的车流密度从0开始，以5 pcu·km^－1为一个梯度进行上升，直至30 pcu·km^－1。关于自动网联汽车所占的比例，则从0开始，即模拟当前路段上全为人工驾驶的普通汽车，以20 % 为一个梯度进行上升，直至100 %，即模拟当前路段进入到完全自动网联化驾驶的情况。经过算法的迭代学习，最终各个环境下的被控车辆燃油消耗量结果如图5所示。

图5 场景1中不同驾驶环境下最小油耗结果

Fig. 5 Results of minimum fuel consumption under different driving environments in Scenario 1

在图5中，被控车辆的驾驶控制策略分为常规驾驶策略和本文所提节能驾驶策略。仿真过程中考虑不同CAV占比、不同车流密度的环境，用于对两类驾驶策略的充分比较。在相同的CAV占比情况下，随着路段车流密度的增加，被控车辆的驾驶空间将受到更大的抑制，从而导致驾驶策略的波动，因此两种驾驶策略的油耗量都在不同程度的上升，且本文所提的节能驾驶策略上升更为平缓，说明在路段更为拥挤时，本文的算法将具有更为优异的节能效果。表2中进一步对加驾驶策略节能效果进行比较，新增一类节能驾驶策略^［

20］作为对照驾驶策略，两种节能驾驶策略均能在场景1下实现降低油耗效果，且随着车流密度增加而更优，本文所提节能驾驶策略节省油耗量在5 %至11 %之间。

表2 场景1仿真结果表

Tab. 2 Simulation results in Scenario 1

						CAV比率/ %
		0		20		40		60		80		100
车流密度/ （pcu·km^-1）	策略	油耗量/ mL	效果/ %	油耗量/ mL	效果/ %	油耗量/ mL	效果/ %	油耗量/ mL	效果/ %	油耗量/ mL	效果/ %	油耗量/ mL	效果/ %
0	对照	107.94	4.83	107.94	4.83	107.94	4.83	107.94	4.83	107.94	4.83	107.94	4.83
0	本文	107.18	5.5	107.18	5.5	107.18	5.5	107.18	5.5	107.18	5.5	107.18	5.5
5	对照	119.27	5.05	117.68	5.5	116.67	5.31	114.93	5.43	113.74	5.07	112.65	4.82
5	本文	118.54	5.64	117.72	5.47	116.45	5.49	115.28	5.14	113.87	4.96	112.45	4.99
10	对照	128.67	6.72	126.17	6.01	124.21	6.15	121.65	6.34	120.53	5.53	119.83	4.66
10	本文	127.21	7.78	125.49	6.52	124.05	6.27	121.83	6.2	120.71	5.38	119.03	5.3
15	对照	135.56	9.13	134.26	8.87	131.48	9.18	128.92	8.06	127.35	6.94	125.67	6.43
15	本文	135.95	8.87	133.37	9.48	130.76	9.68	128.07	8.67	126.74	7.38	125.17	6.81
20	对照	146.45	8.72	143.66	8.43	140.23	8.52	135.41	9.64	134.16	7.64	132.82	6.81
20	本文	145.39	9.38	142.74	9.02	139.45	9.03	136.24	9.08	134.59	7.35	132.15	7.28
25	对照	152.15	11	148.91	10.2	146.04	10.21	143.37	9.53	141.59	9.01	140.17	7.98
25	本文	152.67	10.7	148.29	10.58	145.37	10.62	143.21	9.63	141.73	8.92	140.83	7.54
30	对照	159.36	11.16	155.67	11.81	152.26	11.85	149.21	11.31	146.04	11.68	143.57	11.63
30	本文	158.02	11.9	154.82	12.28	152.07	11.96	148.08	11.98	145.31	12.12	142.97	11.99

（2）场景2：生态道路驾驶限制

场景2与场景1相比，考虑动物穿越风险，动物穿越路段具有道路驾驶限制。经过算法的迭代学习，各个环境的被控车辆燃油消耗如图6所示。

图6 场景2中不同驾驶环境下最小油耗结果

Fig. 6 Results of minimum fuel consumption under different driving environments in Scenario 2

与场景1相同，考虑不同CAV占比、不同车流密度的环境，用于对两类驾驶策略的充分比较。从图6中结果可以看出，在不同CAV占比、车流密度的情况下，本文所提出的节能驾驶策略都具有降低的车辆油耗量，具有一定的节能效果。表3进一步对上述现象进行数据分析，数据结果可得，本文所提的节能驾驶策略与参考文献中的对照组驾驶策略在场景1、2均能实现降低油耗量的效果，并且节能效果将随着车流密度的增加而更优。总体而言，本文所提的节能算法的节省油耗量在6 %至11 %之间。相较于场景1，场景2的驾驶空间和策略变化更大，油耗量存在一定的差异，整体上场景2的节能效果更优异。

表3 场景2仿真结果表

Tab. 3 Simulation results in Scenario 2

						CAV比率/ %
		0		20		40		60		80		100
车流密度/ （pcu·km^-1）	策略	油耗量/ mL	效果/ %	油耗量/ mL	效果/ %	油耗量/ mL	效果/ %	油耗量/ mL	效果/ %	油耗量/ mL	效果/ %	油耗量/ mL	效果/ %
0	对照	125.69	6.04	125.69	6.04	125.69	6.04	125.69	6.04	125.69	6.04	125.69	6.04
0	本文	123.97	7.32	123.97	7.32	123.97	7.32	123.97	7.32	123.97	7.32	123.97	7.32
5	对照	136.72	8.24	134.56	8.08	133.23	7.78	131.7	7.72	130.56	7.19	128.82	6.97
5	本文	136.9	8.11	134.08	8.41	133.45	7.63	132.3	7.3	130.26	7.4	128.24	7.39
10	对照	147.09	8.61	144.09	8.32	142.21	8.67	140.44	7.61	139.79	6.75	137.83	6.12
10	本文	146.26	9.13	143.59	8.65	141.29	9.26	139.97	7.92	139.42	6.99	136.12	7.27
15	对照	156.01	10.26	152.13	10.47	149.82	10.79	147.61	8.9	144.14	9.78	142.07	8.35
15	本文	155.78	10.4	151.7	10.72	148.61	11.51	146.42	9.63	143.21	10.35	142.05	8.36
20	对照	166.33	7.94	162.41	8.58	158.1	9.75	153.97	10.44	150.69	10.79	148.91	9.7
20	本文	165.16	8.59	161.45	9.12	157.06	10.34	153.82	10.53	151.02	10.59	148.06	10.21
25	对照	172.06	10.65	168.57	11.64	164.76	10.95	162.37	10.32	159.33	9.4	156.01	9.3
25	本文	171.74	10.81	168.05	11.91	164.24	11.23	161.54	10.78	158.87	9.66	156.55	8.98
30	对照	177.28	11.4	174.97	11.12	170.39	11.86	168.86	10.49	164.35	11.83	162.78	11.63
30	本文	175.16	12.46	174.52	11.34	169.54	12.29	167.78	11.06	164.57	11.71	162.62	11.72

图7、图8分别为车流密度为20 pcu·km^－1、CAV车辆占比20 %情况下的被控车辆的速度曲线以及累计油耗曲线图。被控车辆的驾驶速度始终满足道路限速的要求，满足驾驶安全要求。在速度曲线图中，出现了三次明显的减速过程，中间的减速过程是由于生态道路动物通道的速度限制所导致，其余两次的减速是由于被控车辆前方跟车距离不够而导致的。在累计油耗曲线图中，被控车辆的整体油耗上升过程比较平缓，出现的4次油耗波动对应着被控车辆的加速过程。与常规策略相比，节能驾驶策略在本场景下的节能效果达到9.12 %。

图7 模型求解的速度曲线

Fig. 7 Speed of model solution

图8 累计油耗曲线

Fig. 8 Cumulative fuel consumption

4 结论

（1）本文明确了生态道路场景，指出对生态道路交通影响较大的动物通道，并提出利用车联网技术，构建动物通道与车联网技术结合的应用系统，厘清了系统组成部分及信息交互方式，并构建了车联网在生态道路的节能驾驶应用框架；

（2）考虑利用Richards植物生长曲线用于对随机慢化概率的模拟，提出将道路车流密度与驾驶员随机慢化概率建立起函数映射关系，本文改进建立了车联网混合交通流驾驶模型，能更好地模拟实际驾驶者的决策心理和生态道路特点；

（3）针对生态道路动物通道驾驶场景，运用动态规划构建节能驾驶模型，对驾驶空间和状态进行离散化，构建优化目标函数和约束函数。并利用强化学习针对不完全已知模型的求解优势特点，对已构建模型的环境、状态、动作、奖励进行分析，搭建Q-learning强化学习算法的基本框架。并引入贪婪决策算法，进一步提升算法求解效率；

（4）选取上海城市生态道路建立两类仿真场景，开展对算法的求解过程、收敛性的仿真验证。根据两类场景仿真结果可知，本文所提出节能策略在车联网环境下能够使生态道路上车辆节省油耗量在6 %~11 %之间，并且节能效果将随着混合车流密度的增加而更优。证明了本文模型对于汽车节能驾驶具有效果，并且在不同程度的交通流环境中均能发挥作用，有较好的普适性，对于生态道路的节能驾驶研究能提供一定的参考价值。该研究成果具有在存有动物穿行的生态道路上应用的前景，解决现有的由于动物穿行问题造成的生态道路驾驶安全、节能和碳排放问题。

作者贡献声明

曾小清：研究方案构思，整体思路设计，论文撰写修改。

朱明昌：建模，算法设计，论文修订。

郭开易：算法设计，数据分析，论文修订。

王奕曾：论文审阅与修订。

冯栋梁：研究数据整理，论文修订。

参考文献

ANDERSON J L. Measuring sustainability in civil engineering： Development， testing and implementation of the Green roads rating system［M］. Washington： University of Washington， 2012. [百度学术]

曾小清，林海香，方云根，等. 基于复杂度算法的安全指标分配分析［J］. 同济大学学报（自然科学版）， 2020， 50（1）： 1. [百度学术]

ZENG Xiaoqing， LIN Haixiang， FANG Yungen， et al. Safety target assignment analysis method based on complexity algorithm［J］. Journal of Tongji University （Natural Science）， 2020， 50（1）： 1. [百度学术]

贺俊翔. 生态道路综合评价指标体系研究［D］. 上海：同济大学， 2021. [百度学术]

HE Junxiang. Study on comprehensive evaluation index system of ecological road［D］. Shanghai： Tongji University， 2021. [百度学术]

MRTKA J， BORKOVCOVA M. Estimated mortality of mammals and the costs associated with animal—vehicle collisions on the roads in the Czech Republic［J］. Transportation Research Part D： Transport and Environment， 2013， 18： 51. [百度学术]

VIANI F， POLO A， GIAROLA E. Performance assessment of a smart road management system for the wireless detection of wildlife road-crossing［C］// 2016 IEEE International Smart Cities Conference （ISC2）. Trento： IEEE， 2016： 1-6. [百度学术]

CAPRAZ A G， ÖZEL P， SEVKLI M， et al. Fuel consumption models applied to automobiles using real-time data： A comparison of statistical models ［J］. Procedia Computer Science， 2016， 83： 774. [百度学术]

GASPAR P， NEMETH B. Design of adaptive cruise control for road vehicles using topographic and traffic information［J］. IFAC Proceedings Volumes， 2014， 47（3）： 4184. [百度学术]

QI X， LUO Y， WU G， et al. Deep reinforcement learning enabled self-learning control for energy efficient driving［J］. Transportation Research Part C： Emerging Technologies， 2019， 99： 67. [百度学术]

曾小清，贺俊翔，陆阳，等. 基于DEMATEL-ISM模型的生态道路综合评价指标筛选［J］. 城市道桥与防洪， 2022， 10： 187. [百度学术]

ZENG Xiaoqing， HE Junxiang， LU Yang， et al. Screening of comprehensive evaluation indexes of ecological road based on DEMATEL-ISM model［J］. Urban Roads Bridges & Flood Control， 2022， 10： 187. [百度学术]

IGONDOVA E， PAVLICKOVA K， MAJZLAN O. The ecological impact assessment of a proposed road development （the Slovak approach）［J］. Environmental Impact Assessment Review， 2016， 59： 43. [百度学术]

侯祥. 公路建设中野生动物保护措施的研究［D］. 西安：西北大学， 2011. [百度学术]

HOU Xiang. Study on wildlife protection measures in highway construction［D］. Xian： Northwest University， 2011. [百度学术]

AHN K， RAKHA H， TRANI A. Estimating vehicle fuel consumption and emissions based on instantaneous speed and acceleration levels［J］. Journal of Transportation Engineering， 2002， 128（2）： 182. [百度学术]

杨巧丽. 智能网联驾驶环境下的三车道交通流模型研究［D］. 长沙：湖南大学， 2019. [百度学术]

YANG Qiaoli. Research on three-lane traffic flow model for intelligent connected driving environment［D］. Changsha： Hunan University， 2019. [百度学术]

马力，施树明. 基于车联网的驾驶博弈行为仿真［C］// 2016中国汽车工程学会年会论文集. 吉林：中国汽车工程学会， 2016： 1996-2001. [百度学术]

MA Li， SHI Shuming. Simulation of driving game behavior based on vehicular Ad-hoc network［C］// Proceedings of 2016 SAE-China Congress. Jilin： SAE-China Congress， 2016： 1996-2001. [百度学术]

GIPPS P G. A model for the structure of lane-changing decisions［J］. Transportation Research Part B： Methodological， 1986， 20（5）： 403. [百度学术]

顾海燕. 车联网环境下高速公路车辆跟驰模型及仿真研究［D］. 南京：东南大学， 2017. [百度学术]

GU Haiyan. Research on freeway car-following modeling and simulation in connected vehicle environment［D］. Nanjing： Southeast University， 2017. [百度学术]

YING P， ZENG X， SONG H， et al. Energy-efficient train operation with steep track and speed limits： A novel Pontryagin's maximum principle-based approach for adjoint variable discontinuity cases［J］. IET Intelligent Transport Systems， 2021， 15（9）： 1183. [百度学术]

魏修建，胡荣鑫，苏航. 双车道自动‒手动驾驶汽车混合交通流博弈模型及其仿真［J］. 系统工程， 2018， 36（11）： 21. [百度学术]

WEI Xiujian， HU Rongxin， SU Hang. Mixed traffic flow game model and simulation of automatic and manual driving vehicle in two-lane condition［J］. Systems Engineering， 2018， 36（11）： 21. [百度学术]

马丽娜. 基于元胞自动机的自动驾驶‒手动驾驶交通流特性研究［D］. 成都：西南交通大学， 2017. [百度学术]

MA Lina. Research on characteristics analysis of Automated-manual vehicles traffic based on the cellular automata model［D］. Chengdu： Southwest Jiaotong University， 2017. [百度学术]

中华人民共和国交通运输部. 公路工程技术标准： JTG B01—2014［S］. 北京：人民交通出版社， 2014. [百度学术]

Ministry of Transport of the People’s Republic of China. Technical standard of highway engineering： JTG B01—2014［S］. Beijing： People’s Communications Press， 2014. [百度学术]

城市生态道路混合交通流节能驾驶策略优化 PDF

摘要

关键词

1 生态道路驾驶场景构建

1.1 生态道路

1.2 生态道路车联网驾驶应用框架