摘要
基于电子警察(LPR)数据和网联车辆轨迹数据,提出了一种基于集成学习的信号控制交叉口排队长度估计方法。通过分析不同数据条件下估计方法的适用条件和精度水平,运用随机森林方法设计集成学习器,并构建电子警察和网联车辆轨迹感知信息及不同方法估计结果和真实排队长度之间的非线性映射关系。仿真结果表明:本方法的平均绝对误差为1.3 m•周
作为城市道路网络中的重要节点,信号控制交叉口是交通拥堵的常发地点。排队长度能够形象、直观地反映信号控制交叉口的拥挤程度,是交叉口运行效率评价的重要指标之一,也是交叉口信号控制优化的重要参
根据检测器数据的不同,现有的信号控制交叉口排队长度估计方法可分为基于定点检测器(线圈、地磁等)数据的方法和基于移动检测器(浮动车等)数据的方法。基于定点检测器数据的方法又可分为输入输出模
近年,由于平安城市建设和交通执法管理的需要,电子警察设备在我国城市道路广泛布设,电子警察数据可提供所有车辆通过交叉口停车线的时刻、所在车道及车辆ID等断面全样观测信息,相比于线圈等传统定点检测器,其数据质量更高、覆盖范围更广。另一方面,随着智能网联汽车、移动导航等新技术的推广和应用,海量网联车辆轨迹数据的实时获取成为可能,网联车辆轨迹数据可提供抽样车辆的个体连续观测信息。上述2类数据在交通流观测上形成了时间和空间的互补,也为交叉口信号控制评价和优化提供了新机遇。因此,国内外学者基于电子警察和网联车辆轨迹数据提出了很多信号控制交叉口排队长度估计方法,包括基于电子警察数据的方
提出了一种基于集成学习的信号控制交叉口排队长度估计方法,有效集成基于电子警察和网联车辆轨迹数据的排队长度估计方法的优点,可适应多样的交通状态和数据条件,从而实现更加可靠且准确的排队长度估计。
根据数据源的不同,现有信号控制交叉口排队长度估计方法可分为基于固定式检测设备数
由于数据检测过程中的误差及干扰,因此基于单数据源的排队长度估计方法的可靠性、稳定性难以保证。随着信息技术的革新,数据融合技术与数据挖掘技术的不断发展,部分学者尝试融合多源检测数据。Badillo
随着电子警察设备在我国广泛布设,部分学者尝试融合电子警察数据与其他类型数据。陶晶
综上所述,基于电子警察数据的排队长度估计已有初步研究,但受限于其检测机理,单截面数据驱动的方法主要适用于未饱和场景,并且交通波的完整重构仍需多截面数据;而基于网联车辆轨迹数据的方法多需已知到达类型分布、浮动车采样率等参数,并且主要适用于轨迹数据渗透率高的场景。2种数据源在交通状态和数据条件上的适应性具有明显的互补性,虽已有融合了电子警察数据与网联车辆轨迹数据的排队长度估计方法,但仍主要适用于轨迹数据采样率较高的路口。集成学习可通过构建并结合多个机器学习器做最后的决策,发挥各类方法的优势互补性,被广泛应用于交通状态评估领
李爱

图1 变点分析模型研究场景
Fig.1 Research scenario of CPA model
基于连云港市朝阳路-通灌北路交叉口所采集的真实电子警察数据对该方法进行实证验证。结果表明,该方法的估计精度为80.4%。然而,该方法基于如下假设:排队车辆与非排队车辆的驶离车头时距均值与方差存在较大波动;最后一辆排队车辆与第一辆非排队车辆的车头时距明显增大,当周期内所捕获的电子警察数据满足任一条件时才能进行有效估计。因此,当饱和度从0.4增加至0.8时,排队车辆与非排队车辆特征差异变得不明显,该方法的精度显著降低,平均绝对误差增加了1.0 辆•周
Li

图2 交通波模型研究场景
Fig.2 Research scenario of shockwave-based model
基于微观仿真软件Vissim对该方法进行了仿真验证及敏感性分析。结果表明,在轨迹渗透率为20%的情况下,上传时间间隔为5、15、25 s时平均绝对误差分别为1.8、2.6、3.2 辆。由于该方法需基于车辆轨迹点识别车辆运行状态及关键启停点,其估计精度取决于轨迹数据的渗透率,在实际情况下轨迹数据的渗透率多低于10
Tan

图3 贝叶斯模型研究场景
Fig.3 Research scenario of Bayesian-based model
基于深圳市福中路-皇岗路交叉口真实数据对该方法进行了实证验证与仿真验证。结果表明,该模型的平均绝对误差为3.1 辆•周
由前期相关研究成果可知,基于电子警察数据的变点识别方法适用于排队车队与非排队车队消散过程具有明显差异的场
根据基学习器间关系的不同,集成学习可分为串行集成方法与并行集成方法。前者假设各基学习器间存在较强的依赖性,各基学习器的学习模型仅能按顺序生成,训练耗时长,常见方法为AdaBoost算法、梯度提升
在基于随机森林的集成学习模型中,通过不同的饱和度、轨迹渗透率组合生成训练数据,并且一个周期即是一个样本。此外,原始输入数据主要分为数据层变量与决策层变量2类,前者可直接从2类数据源中获取信息,即电子警察数据所包含的周期车流量、轨迹数据所包含的周期内排队轨迹数与周期内非排队轨迹数,而后者包含上述3种方法的排队长度估计方法的结果。训练数据集格式定义如下所示:
(1) |
式中:为输入特征向量;为标签变量,即第个周期的真实排队长度。在输入特征向量中,表示当前第个周期内电子警察设备所采集到的交通流量,、分别表示当前第个周期内采样轨迹数据中排队车辆轨迹与非排队车辆轨迹数量,、、分别表示基于当前第个周期所采集的基于电子警察数据的变点识别方法、基于网联车辆轨迹数据的交通波方法以及基于数据融合的贝叶斯方法的估计结果。
基学习器通常基于现有学习算法从训练数据中产生,如决策树算法、BP神经网络算法、支持向量机等。其中,随机森林是一类主要以决策树模型为基学习器的模型。因此,以CART(classification and regression tree)决策树算
(1)对任意的划分特征,对应的任意划分点,在基于原始数据集得到训练集后,可进一步把训练集划分成2个子集与。通过遍历特征向量中的变量,求取使得2个子集与以及2个子集之和的均方差最小的对应划分点和最优切分变量,计算式如下所示:
(2) |
式中:(m=1,2)表示第个子区域内真实排队长度的均值。
(2)用选定的数值对划分区域并决定相应的输出值,计算式如下所示:
(3) |
(4) |
式中:表示第个区域中训练集的记录数。
(3)继续对2个区域与分别调用第(1)步与第(2)步进行训练集划分,直至满足停止条件,即达到决策树的深度限制或叶子节点的个数限制,此时共可得到个区域。
(4)将输入空间划分为个区域,可生成决策树,如下所示:
(5) |
式中:表示基学习器对应的输出结果;表示最终生成的区域个数;表示判定所属区域的函数,当时,反之。
以上便是基于CART决策树算法的基学习器训练过程。基于上述步骤,给定一组特征数据,可基于该基学习器得到对应的输出结果。
基于上述基学习器训练方法可获取各基学习器的输出结果,在此基础上需进一步确定结合策略以求得系统集成的输出。根据实现方法的不同,集成学习的结合策略可分为投票法、平均法与学习法。平均法相较于其余方法,适用于大规模集成,并且无需与其他学习器结
假设该集成学习器共包含个基学习器,并且每个基学习器在样本空间上的排队长度估计结果为,最终的排队长度计算式如下所示:
(6) |
式中:为基学习器所对应的权重系数,通常要求且。
根据各基学习器的计算结果,即CART决策树结果进行基学习器集成,可在给定输入数据条件下,得到排队长度输出结果。在此基础上,训练集数据与排队长度输出结果可作为集成学习的模型输入,进一步估计排队长度。
在将得到的训练集数据与排队长度输出结果作为模型输入的基础上,本研究基于随机森林方法进行集成学习,主要分为数据准备、模型训练以及模型评估3个阶段,建模流程如

图4 基于随机森林的交叉口排队长度估计建模流程
Fig.4 Framework of queue length estimation based on random forest method
Step 1 设置随机森林算法的主要参数,即决策子树棵数。
Step 2 假设
代表原始数据样本,基于抽样方法生成训练样本子集。在此过程中,考虑到轨迹数据渗透率等参数的随机波动性,其样本容量可能在一定范围内波动,而自助法重采样技术适用于任一样本容量场景,可基于有限的样本资料多次重复抽样,并重新建立起足以代表母体样本分布的新样本,在解决本研究问题时具有更大优
Step 3 假设代表总特征空间,基于随机子空间思想,从中随机抽取个特征,并基于CART决策树算法进行节点分裂。给定一组特征数据,可基于该基学习器得到对应的输出结果。
Step 4 重复Step 2与Step 3,构建棵决策子树。在此过程中,对于每棵决策子树不进行剪枝,任其自由生长,形成随机森林。
Step 5 基于所构建的棵决策子树,对未知样本做出决策,即计算未知样本对应下的排队长度估计结果,并取平均值作为随机森林输出结果。
在基于自助法重采样技术生成训练样本的过程中,每次约有1/3的样本不会出现在所采集的样本集合中,此类数据称为袋外(OOB)数据,即OOB样本。OOB样本未参与决策树的建立,可用于所构建的随机森林模型的效果评估。首先计算每个样本作为OOB样本时决策树的分类情况,然后通过基学习器集成步骤求取该样本的分类结果,并用分类错误个数占样本总数的比率作为随机森林的OOB误分率,也称袋外错误率。袋外错误率越低,说明测试集上表现好,模型的泛化能力更强。
以连云港市朝阳东路-通灌北路交叉口为研究对象,基于微观仿真软件Vissim建立仿真模型,并将2条东进口直行车道作为目标车道,如

图5 仿真场景
Fig.5 Simulation scenario
仿真模型的时长设置为9 000 s,仿真运行的前600 s为预热时间,不作为验证数据,因此可获取65个有效周期的数据。考虑车辆到达随机性对实验结果的影响,仿真中设置不同的随机种子多次运行,本实验中设置10个随机种子。此外,为验证饱和度、轨迹渗透率的影响,共设置11个饱和度场景(0.4~0.9,间隔0.05)、15个采样率范围(5%~20%,间隔2%;20%~50%,间隔5%)。每个场景包括65个周期,共计10 725(=65×11×15)组仿真数据。
由仿真模型所采集到的模拟电子警察数据与车辆轨迹数据得到原始特征向量,共包含了3个数据层变量(周期内车流量、周期内排队轨迹数、周期内非排队轨迹数)与3个决策层变量(基于变点识别方法的排队长度估计结果、基于交通波的排队长度估计结果、基于贝叶斯方法的排队长度估计结果)。为评估不同特征的重要性程度,首先基于随机森林模型对不同的特征进行选择测试,特征重要性结果如

图6 特征重要性
Fig.6 Importance of features
特征个数是影响随机森林模型估计精度的重要因素之一。为评估特征个数对模型精度的影响,基于如

图7 标定参数对模型估计精度的影响
Fig.7 Effect of calibrated parameters on model estimation accuracy
相较于决策树算法,随机森林模型的优势主要在于多棵子树的随机性,因此决策子树棵数是影响随机森林估计精度的另一重要参数。
基于4.2节的特征选择与参数优化结果,将随机森林模型的特征个数设置为6,最优决策子树棵数设置为15,在此基础上进行仿真验证。此外,还将基于电子警察数据的变点识别方法、基于网联车辆轨迹数据的交通波方法、基于电子警察与网联车辆轨迹数据融合的贝叶斯方法进行对比验证。在随机森林建模过程中,基于随机抽样方法选取75%的原始数据(8 042组)用于模型训练的数据集,选取剩余25%的原始数据(2 683组)作为验证数据集,并选用平均绝对误差()与平均绝对百分比误差()对模型精度进行评价。和计算式如下所示:
(7) |
(8) |
式中:表示基于集成学习的排队长度估计值;表示排队长度真实值;表示当前研究时段内所含的周期个数。
在相同数据条件下,基于电子警察数据的变点识别方法、基于网联车辆轨迹数据的交通波方法、基于电子警察与网联车辆轨迹数据融合的贝叶斯方法,以及本方法的估计精度结果如

图8 不同排队长度估计模型精度对比
Fig.8 Comparison of estimation accuracy between different queue length estimation models
为验证集成学习方法在处理本研究问题的优势,选取8种常用模型进行对比分析,其中包括4种常用线性模型(岭回归、套索回归、弹性网络回归、贝叶斯回归)与4种常用的非线性模型(随机森林、梯度下降树(GBDT)、AdaBoost回归、多层感知机)。为确保不同模型评价指标的一致性,基于随机抽样方法,选取75%的原始数据(8 042组)用于模型建立,选取剩余25%的原始数据(2 683组)作为验证数据集,不同模型的平均绝对误差与平均绝对百分比误差如

图9 不同学习模型精度对比
Fig.9 Comparison of estimation accuracy between different learning models
由
通过融合我国城市道路交通检测中的2类新型数据源——电子警察数据和网联车辆轨迹数据,提出了一种基于集成学习的信号控制交叉口排队长度估计方法。分析3种现有的排队长度估计方法的适用性,基于集成学习方法(随机森林)建立了2类数据源、3种方法估计结果与真实排队长度之间的非线性映射关系,并考虑饱和度、轨迹渗透率等因素生成仿真实验数据训练和优化集成学习器,实现对上一信号周期内车辆排队长度的后估计。相较于3种现有的排队长度估计方法,本研究的平均绝对误差低于1 辆•周
本研究仍存在一定的不足。例如,该方法需基于大量历史数据训练模型,对原始数据积累具有较高的要求。真实数据条件下,电子警察设备存在时钟漂移现象,轨迹数据也存在漂移点,2类数据源的时钟校准结果不匹配可能导致排队长度估计精度的降低。进一步的工作将解决上述问题,通过构建数据治理模块,对2类数据源进行校核与修复,提高排队长度的估计精度,并在此基础上开展基于真实场景的实证验证分析。
作者贡献声明
吴 浩:模型构建,算法验证,论文撰写。
刘 磊:模型构建,算法验证。
唐克双:模型构建,论文撰写与修订。
参考文献
杨晓光, 赵靖, 马万经, 等. 信号控制交叉口通行能力计算方法研究综述[J]. 中国公路学报, 2014, 27(5): 148. [百度学术]
YANG Xiaoguang, ZHAO Jing, MA Wanjing, et al. Review on calculation method for signalized intersection capacity[J]. China Journal of Highway and Transport, 2014, 27(5): 148. [百度学术]
SHARMA A, BULLOCK D M, BONNESON J A. Input-output and hybrid techniques for real-time prediction of delay and maximum queue length at signalized intersections[J]. Transportation Research Record: Journal of the Transportation Research Board, 2007, 2035(1): 690. [百度学术]
VIGOS G, PAPAGEORGIOU M. A simplified estimation scheme for the number of vehicles in signalized links[J]. IEEE Transactions on Intelligent Transportation Systems, 2010, 11(2): 312. [百度学术]
LEE S, WONG S C, LI Y C. Real-time estimation of lane-based queue lengths at isolated signalized junctions[J]. Transportation Research, Part C: Emerging Technologies, 2015, 56: 1. [百度学术]
ZHAN X, LI R, UKKUSURI S. Lane-based real-time queue length estimation using license plate recognition data[J]. Transportation Research, Part C: Emerging Technologies, 2015, 57: 85. [百度学术]
ZHAN X, LI R, UKKUSURI S V. Link-based traffic state estimation and prediction for arterial networks using license-plate recognition data[J]. Transportation Research, Part C: Emerging Technologies, 2020, 117: 102660. [百度学术]
SKABARDONIS A, GEROLIMINIS N. Real-time monitoring and control on signalized arterials[J]. Journal of Intelligent Transportation Systems, 2008, 12(2): 64. [百度学术]
姚荣涵, 王殿海. 拥挤交通流当量排队长度变化率模型[J]. 交通运输工程学报, 2009, 9(2): 93. [百度学术]
YAO Ronghan, WANG Dianhai. Change rate models of equivalent queue length for congested traffic flow[J]. Journal of Traffic and Transportation Engineering, 2009, 9(2): 93. [百度学术]
LIU H X, WU X, MA W, et al. Real-time queue length estimation for congested signalized intersection[J]. Transportation Research, Part C: Emerging Technologies, 2009, 17(4): 412. [百度学术]
贾利民, 陈娜, 李海舰, 等. 基于单个地磁传感器的交叉口排队长度估计[J]. 吉林大学学报(工学版), 2016, 46(3): 8. [百度学术]
JIA Limin, CHEN Na, LI Haijian, et al. Intersection queue length estimation with single magnetic sensor[J]. Journal of Jilin University (Engineering and Technology Edition), 2016, 46(3): 8. [百度学术]
李爱杰, 唐克双, 董可然. 基于单截面低频检测数据的信号交叉口排队长度估计[J]. 交通信息与安全, 2018, 36(1): 57. [百度学术]
LI Aijie, TANG Keshuang, DONG Keran. Estimation of queuing length at signalized intersections using low-frequency point detector data[J]. Journal of Transport Information and Safety, 2018, 36(1): 57. [百度学术]
YAO J, TANG K. Cycle-based queue length estimation considering spillover conditions based on low-resolution point detector data[J]. Transportation Research, Part C: Emerging Technologies, 2019, 109: 1. [百度学术]
CHANG T H, LIN J T. Optimal signal timing for an oversaturated intersection[J]. Transportation Research, Part B: Methodological, 2000, 34(6): 471. [百度学术]
BAN X J, HAO P, SUN Z. Real time queue length estimation for signalized intersections using travel times from mobile sensors[J]. Transportation Research, Part C: Emerging Technologies, 2011, 19(6): 1133. [百度学术]
RAMEZANI M, GEROLIMINIS N. Queue profile estimation in congested urban networks with probe data[J]. Computer-Aided Civil and Infrastructure Engineering, 2015, 30(6): 414. [百度学术]
LI F, TANG K, YAO J, et al. Real-time queue length estimation for signalized intersections using vehicle trajectory data[J]. Transportation Research Record: Journal of the Transportation Research Board, 2017, 2623(1): 49. [百度学术]
YIN J, SUN J, TANG K. A Kalman filter-based queue length estimation method with low-penetration mobile sensor data at signalized intersections[J]. Transportation Research Record: Journal of the Transportation Research Board, 2018, 2672(45): 253. [百度学术]
ZHANG H, LIU H, CHEN P, et al. Cycle-by-cycle maximum queue length estimation at signalized intersections in connected vehicle environment[C]// 97th Annual Meeting of the Transportation Research Board. Washington DC: Transportation Research Board, 2018:1-9. [百度学术]
COMERT G, CETIN M. Queue length estimation from probe vehicle location and the impacts of sample size[J]. European Journal of Operational Research, 2009, 197(1): 196. [百度学术]
HAO P, BAN X, GUO D, et al. Cycle-by-cycle intersection queue length distribution estimation using sample travel times[J]. Transportation Research, Part B: Methodological, 2014, 68: 185. [百度学术]
TIAPRASERT K, ZHANG Y, WANG X, et al. Queue length estimation using connected vehicle technology for adaptive signal control[J]. IEEE Transactions on Intelligent Transportation Systems, 2015, 16(4): 2129. [百度学术]
TAN C, YAO J, TANG K, et al. Cycle-based queue length estimation for signalized intersections using sparse vehicle trajectory data[J]. IEEE Transactions on Intelligent Transportation Systems, 2021, 22(1): 91. [百度学术]
谈超鹏, 姚佳蓉, 唐克双. 基于抽样车辆轨迹数据的信号控制交叉口排队长度分布估计[J]. 中国公路学报, 2021, 34(11): 282. [百度学术]
TAN Chaopeng, YAO Jiarong, TANG Keshuang. Queue length distribution estimation at signalized intersections based on sampled vehicle trajectory data[J]. China Journal of Highway and Transport, 2021, 34(11): 282. [百度学术]
TANG K, WU H, YAO J, et al. Lane-based queue length estimation at signalized intersections using single-section license plate recognition data[J]. Transportmetrica B: Transport Dynamics, 2022, 10(1): 293. [百度学术]
TAN C, LIU L, WU H, et al. Fuzing license plate recognition data and vehicle trajectory data for lane-based queue length estimation at signalized intersections[J]. Journal of Intelligent Transportation Systems, 2020, 24(5): 449. [百度学术]
MA D, LUO X, JIN S, et al. Estimating maximum queue length for traffic lane groups using travel times from video-imaging data[J]. IEEE Intelligent Transportation Systems Magazine, 2018, 10(3): 123. [百度学术]
LUO X, MA D, JIN S, et al. Queue length estimation for signalized intersections using license plate recognition data[J]. IEEE Intelligent Transportation Systems Magazine, 2019, 11(3): 209. [百度学术]
BADILLO B, RAKHA H, RIOUX T, et al. Queue length estimation using conventional vehicle detector and probe vehicle data[C]//International IEEE Conference on Intelligent Transportation Systems. Anchorage: IEEE, 2012: 1674-1681. [百度学术]
CAI Q, WANG Z, ZHENG L, et al. Shock wave approach for estimating queue length at signalized intersections by fusing data from point and mobile sensors[J]. Transportation Research Record: Journal of the Transportation Research Board, 2014, 2422(1): 79. [百度学术]
BHASKAR A, QU M, CHUNG E. Bluetooth vehicle trajectory by fusing bluetooth and loops: motorway travel time statistics[J]. IEEE Transactions on Intelligent Transportation Systems, 2015, 16(1): 113. [百度学术]
吴翱翔. 基于多源数据的信号控制信号交叉口排队状态感知方法研究[D]. 上海: 同济大学, 2014. [百度学术]
WU Aoxiang. Research on the queue status sense of signalized intersections based on multi-source data[D]. Shanghai: Tongji University, 2014. [百度学术]
陶晶晶. 基于多源数据融合的单点信号控制交叉口排放估计与优化[D]. 上海: 同济大学, 2017. [百度学术]
TAO Jingjing. Emission estimation and optimization of signalized intersection based on multi-source data[D]. Shanghai: Tongji University, 2017. [百度学术]
QOM S, HADI M, XIAO Y, et al. Queue length estimation for freeway facilities: based on combination of point traffic detector and automatic vehicle identification data[J]. Transportation Research Record: Journal of the Transportation Research Board, 2017, 2616(1): 19. [百度学术]
李爱杰. 基于路段定点检测器与电警数据融合的交叉口排队长度估计与预测[D]. 上海: 同济大学, 2018. [百度学术]
LI Aijie. Queue length estimation and prediction based on e-police and point detector data at signalized intersections[D]. Shanghai: Tongji University, 2018. [百度学术]
XIAO J, XIAO Z, WANG D, et al. Short-term traffic volume prediction by ensemble learning in concept drifting environments[J]. Knowledge-Based Systems, 2019, 164: 213. [百度学术]
CHEN X, CAI X, LIANG J, et al. Ensemble learning multiple LSSVR with improved harmony search algorithm for short-term traffic flow forecasting[J]. IEEE Access, 2018, 6: 9347. [百度学术]
ZHANG C, MA Y. Ensemble machine learning: methods and applications[M]. Berlin: Springer Science & Business Media, 2012. [百度学术]
LIU Y, WU H. Prediction of road traffic congestion based on random forest[C]//2017 10th International Symposium on Computational Intelligence and Design (ISCID). Hangzhou:IEEE, 2017, 2: 361-364. [百度学术]
DOGRU N, SUBASI A. Traffic accident detection using random forest classifier[C]// 15th Learning and Technology Conference (L&T). Jeddah: IEEE, 2018: 40-45. [百度学术]
LOH W Y. Classification and regression tree methods[M]// Encyclopedia of Statistics in Quality and Reliability. New York: Wiley, 2008. [百度学术]
ABNEY S. Bootstrapping[C]//Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics. Groningen: Association for Computational Linguistics, 2002: 360-367. [百度学术]