摘要
针对当前多目标追踪算法应对路侧交通场景的缺陷,提出一种基于路侧摄像头的多目标追踪算法。选择one‑shot追踪算法路线,基于FairMOT设计神经网络,使单个网络同时生成目标检测结果与外观特征结果,增强实时性效果;采用新的数据关联方式,减少遮挡对追踪器的影响;引入新的运动相似度度量方式——缓冲交并比,弥补线性运动预测模型产生的误差;提出基于速度判别的丢失轨迹移除算法和基于历史位置匹配算法,实现长时间遮挡轨迹的身份恢复。在UA‑DETRAC公开多目标追踪数据集上进行实验,验证该算法有效性。为证明该算法在真实路侧环境的适用性,在国家智能网联汽车(上海)试点示范区开放道路采集真实路侧场景数据。最后,将该算法和SORT、DeepSORT、ByteTrack、FairMOT算法在真实路侧场景数据上进行对比实验。实验结果表明,本算法在identification F‑Score、ID switch、fragmentation、mostly tracked、mostly lost、multiple object tracking accuracy等评估指标上优于其他算法。
随着物联网、人工智能和5G 等技术的快速发展,旨在缓解道路拥堵、减少交通事故的智能交通系统(intelligent transportation systems, ITS)应运而
路侧感知传感器包括激光雷达、毫米波雷达、摄像机及它们的组
多目标追踪主要分为生成模型方法和判别模型方法两大类。生成模型方法对当前帧中的目标对象区域进行数学建模,在下一帧中寻找与目标最相似的区域作为跟踪结果,如mean shif
目前基于检测结果的多目标追踪算法分为两类:two-shot系列算法和one-shot系列算法。
two-shot系列算法将检测网络和外观特征提取网络完全分离,用两个神经网络分别完成检测和外观特征提取。DeepSOR
one-shot系列算法使用一个神经网络,同时进行目标检测和外观特征提取。JDE(joint detection and embedding
基于上述研究现状,本文开展路侧多目标追踪研究,设计一种基于路侧摄像头的多目标追踪算法,以基于检测结果的多目标追踪算法为基础,选择合适的检测网络和外观特征提取网络。在公开数据集上评测,验证算法的先进性。在真实场景数据上测试,验证算法在真实环境的有效性。
基于路侧摄像头的多目标追踪面临以下挑战:
首先,多目标追踪算法运行速度慢。当前主流的多目标追踪算法是two-shot系列算法。目标检测网络首先处理每帧图片,找到目标对象,生成检测框。特征提取网络对检测框中目标进行外观特征提取。由于目标检测与外观特征提取串行进行,算法运行速度慢。以DeepSORT及其扩展算法为例,根据本地运行结果和公开论文结果,DeepSORT在AMD锐龙6800H CPU和NVIDIA GeForce RTX 3060 Laptop GPU的硬件条件下,处理速度为9.07 FPS(frames per second)。StrongSORT在Tesla V100 GPU的硬件条件下,处理速度为7.10 FPS。BoT-SORT在英特尔酷睿i9-11900F CPU和NVIDIA GeForce RTX 3060 Laptop GPU的硬件条件下,处理速度为4.50 FPS。随着多任务学习的成熟,可将目标检测和外观特征提取融合到一个网络,并行运行目标检测与外观特征提取。本算法借鉴FairMOT,设计合适的目标检测网络与外观特征提取网络,提高算法运行速度。
其次,路侧多目标追踪算法抗遮挡能力差。在路侧场景中,遮挡往往来自车辆间遮挡,交通信号灯、标志物对车辆、行人的遮挡,车辆对行人的遮挡,如

图1 路侧遮挡现象
Fig.1 Roadside occlusion phenomenon
然而BYTE无法应对严重遮挡情况,即前车完全遮挡后车,检测器无法检测到被遮挡目标,没有检测结果与轨迹匹配,造成轨迹中断、丢失。当轨迹被长时间严重遮挡后,当前算法无法实现轨迹身份恢复。路侧交通场景中,长时间严重遮挡通常来自红灯期间车辆停靠。现实生活中,红灯时间为20~40 s,摄像头采样速率为30 FPS。红灯期间,遮挡时长为600~1 200帧。如

图2 路侧场景中的长时间遮挡
Fig.2 Long-term occlusion in roadside scenarios
最后,路侧多目标追踪算法应对突发状况差。大多追踪算法使用卡尔曼滤波进行运动预测。卡尔曼滤波为匀速运动模型,只能应对规则运动。路侧场景经常出现突发情况,例如目标突然拐弯、提速,如

图3 路侧突发状况
Fig.3 Roadside emergencies
本算法使用基于FairMOT设计的卷积神经网络同时进行目标检测和外观特征提取,使用卡尔曼滤波,预测上一时刻轨迹在新时刻的运动状态,最后使用四阶段匹配算法进行关联计算,完成多目标追踪。框架结构如

图4 算法框架结构
Fig.4 Framework structure of algorithm
首先,时刻图像经过神经网络得到检测结果与外观特征结果。-1时刻轨迹集合划分为:追踪轨迹、未确认轨迹、丢失轨迹。追踪轨迹与丢失轨迹经过卡尔曼滤波预测,得到在时刻轨迹预测位置,与高分检测物进行高置信度物体匹配。匹配失败轨迹与低分检测物进行低置信度物体匹配。前两次匹配基于BYTE数据关联方式,两次匹配使用BIoU运动相似度度量。低置信度物体匹配失败的轨迹与前两次匹配失败的检测物进行历史位置匹配。最后,对于历史位置匹配失败的检测物,选出其中的高置信度物体,与未确认轨迹进行未确认轨迹匹配。经过上述4次匹配,得到时刻轨迹集合。
本算法使用的目标检测卷积神经网络和外观特征提取卷积神经网络均基于FairMOT。使用两个独立同质分支网络分别进行目标检测和外观特征提取,平等对待目标检测任务与外观特征提取任务。解决以往one-shot系列算法过度关注目标检测,外观特征提取过度依赖目标检测,提取的外观特征无法有效表征目标的缺陷。
本算法使用的卷积神经网络流程如

图 5 卷积神经网络流程
Fig.5 Process of convolutional neural network

图6 编码器‒解码器网络
Fig.6 Encoder-decoder network

图7 目标检测分支网络
Fig.7 Branch network of object detection

图8 提取外观特征分支网络
Fig.8 Branch network of appearance feature extraction
本算法使用BYTE数据关联方式,减少遮挡对追踪器的干扰;提出新的丢失轨迹移除策略与匹配策略,恢复受长时遮挡轨迹的原始身份。
传统追踪算法只考虑高分检测框,把低分检测框视为背景干扰,直接舍弃。但低分检测框不仅包含干扰,还包含因遮挡致使置信度分数降低的检测目标,一味舍弃会造成检测缺失。
检测器无法精准识别被遮挡目标,造成被遮挡目标置信度分数低。被遮挡目标被丢弃,造成轨迹中断、丢失。
对此,本文引入BYTE数据关联方式。
首先设置阈值,以阈值为界,将检测物体分成高分集合与低分集合。
第一阶段,BYTE将高分检测物和轨迹进行匹配,匹配使用的相似度度量为运动特征度量与外观特征度量的结合。
第二阶段,BYTE将低分检测物和第一次匹配失败的轨迹进行匹配。考虑到低分物体往往受到遮挡,外观特征不可靠,第二次匹配采用的相似度度量是运动特征度量。
被遮挡目标与轨迹的运动特征相似度大于背景与轨迹的运动特征相似度,轨迹优先与被遮挡目标匹配,没有成功匹配的背景干扰被丢弃。这使得BYTE准确将背景过滤,保留被遮挡目标。

图9 BYTE效果展示
Fig.9 Demonstration of BYTE effect
以往追踪器不会考虑轨迹丢失的原因。轨迹丢失可能由于目标离开画面,也可能由于目标被严重遮挡。对于丢失的轨迹,追踪器只保留30帧,在这30帧中,丢失的轨迹与检测结果继续进行匹配。30帧后,若轨迹仍处于丢失状态,追踪器移除丢失轨迹。长时间遮挡导致轨迹丢失时间超过30帧,轨迹被移除。被遮挡目标重新显现后,因没有轨迹与该目标匹配,该目标被追踪器初始化为新轨迹,导致长时间遮挡前后轨迹身份切换。
本文采用基于速度判别的丢失轨迹移除算法删除离开画面的丢失轨迹,保留被长时间遮挡的丢失轨迹,为基于历史位置的匹配算法运行提供条件。同时使用基于历史位置的匹配算法将检测目标与丢失轨迹关联,完成身份恢复。
(1)基于速度判别的丢失轨迹移除算法。
物体离开画面要满足两个条件:①边界条件,物体处在画面边界区域;②速度条件,物体的速度背离画面中心点。以

图10 状态向量说明
Fig.10 Explanation of state vector
设图片的宽为,高为,为轨迹未丢失时状态量,为边界框左上角坐标,为边界框的宽和高,为边界框中心点坐标。设为轨迹丢失时状态量,由经过卡尔曼滤波预测得到。如
对于丢失的轨迹,判断是否满足边界条件。,目标在上边界;(,目标在左边界;(,目标在下边界;,目标在右边界。为比例系数,设为0.5。
同时进行速度判断,速度判断采用相邻帧中心点坐标位置判断。,目标速度向左;,目标速度向右;,目标速度向上;,目标速度向下。
边界条件与速度条件严格对应,满足条件的丢失轨迹被移除。被长时间遮挡的丢失轨迹不满足以上条件被保留。
基于速度判别的丢失轨迹移除算法流程如图11 所示。其中,为丢失轨迹集合中的一个元素,即一个丢失轨迹。、为时刻轨迹对应目标框的横坐标、纵坐标,、为时刻轨迹的宽、高。、为时刻轨迹的中心横坐标、纵坐标。、为时刻轨迹的中心横坐标、纵坐标
输入:丢失轨迹集合 |
---|
输出:保留轨迹集合 |
1: for in |
2: if and do |
3: delete |
4: if and do |
5: delete |
6: if and do |
7: delete |
8: if and do |
9: delete |
10: 将保留的丢失轨迹赋值给: |
11: return |
(2)基于历史位置的匹配算法。
该算法基于路侧交通场景的特点,用于第3次匹配,匹配的双方为高置信度物体匹配失败的检测框、低置信度物体匹配失败的检测框与低置信度物体匹配失败的轨迹。两者之间的相似度度量为运动相似度,即目标检测框与轨迹历史边界框的IoU(intersection over union)。
历史边界框信息在轨迹经过卡尔曼滤波预测之前获取,是上一时刻经过目标检测结果修正的轨迹位置。对于丢失轨迹,由于位置信息没有经过修正,存在偏差。即轨迹丢失以后,历史位置不再更新,保持不变。

图12 丢失轨迹移除算法和历史位置匹配效果展示
Fig.12 Demonstration of lost trajectory removal algorithm and historical position matching effect
BIoU扩大轨迹边界框与目标检测框的匹配计算空间,弥补卡尔曼滤波带来的预测偏差。现实场景中会出现目标对象突然转弯、提速,导致卡尔曼滤波构建的匀速运动模型失效。经过卡尔曼滤波预测后,轨迹预测位置与实际测量位置差距大,IoU数值低,关联失败,轨迹中断。
BIoU在不改变边界框的中心点位置、宽高比、形状的前提下,扩大边界框面积,如
(1) |
式中:为扩充系数。

图13 BIoU展示
Fig.13 BIoU display
表示原始的边界框,为左上角坐标,、为边界框的宽、高。扩展后的边界框为。

图14 IoU与BIoU计算区域
Fig.14 Computation domain of IoU and BIoU
BIoU也会造成匹配空间过度放大,产生错误关联。为缓解匹配空间过度放大,本算法在高置信度物体匹配时选用小扩充系数,在低置信度物体匹配时选用大扩充系数。

图15 BIoU效果展示
Fig.15 Demonstration of BIoU performance
本实验的模型训练部署在百度飞桨AI Studio高级GPU服务器,核心数量4,线程数量8;显卡为Tesla V100,显存大小为32 GB。神经网络训练使用PaddlePaddle实现。
本实验的算法验证使用AMD Ryzen 7 6800H with Radeon Graphics,核心数量8,线程数量16;显卡为NVIDIA GeForce RTX 3060 Laptop GPU,6 GB显存;算法验证使用PaddlePaddle实现。
UA-DETRA
本文在国家智能网联汽车(上海)试点示范区开放道路采集真实场景数据,包含4个不同路口场景,2个时间段,视频总长度达到13.81 min。将采集数据拆分为训练数据与测试数据,训练数据6.92 min,测试数据6.89 min。
对采集的数据,按照国际公开数据集标
类别 | ID | 类别 | ID |
---|---|---|---|
ignored region | 0 | truck | 6 |
pedestrian | 1 | tricycle | 7 |
people | 2 | awning⁃tricycle | 8 |
bicycle | 3 | bus | 9 |
car | 4 | motor | 10 |
van | 5 | others | 11 |
实验使用的算法评估指标包括身份切换次数、多目标跟踪准确度、身份识别指标、中断、大部分跟踪、部分跟踪、大部分丢失。
身份切换(ID switch,IDS)次数为追踪器分配身份发生错误变换的次数,每当轨迹身份发生一次错误变化,身份切换次数加1。多目标跟踪准确度(multiple object tracking accuracy,MOTA
追踪算法产生的大部分跟踪轨迹数目越多,大部分丢失轨迹数目越少,算法性能越好。
本实验选取的对比算法有:SORT(使用YOLOv
本文首先在UA-DETRAC数据集上进行实验,验证本算法的先进性。然后在真实场景路侧数据进行对比实验,验证本算法的场景适用性。
为了与公开论
算法 | IDF1/% | IDS | FM | MT | PT | ML | MOTA/% |
---|---|---|---|---|---|---|---|
SORT DeepSORT ByteTrack FairMOT 本文 |
72.8 70.8 72.5 68.1 73.0 |
440 1 073 430 819 620 |
6 300 4 479 6 186 8 074 4 318 |
1 328 1 315 1 376 1 307 1 351 |
815 765 796 760 795 |
194 257 165 270 191 |
52.7 51.3 50.9 45.4 54.6 |
为保证实验的公平性,各个算法的神经网络在相同真实场景训练集上训练,训练轮次为100,训练策略一致。实验结果如
算法 | IDF1/% | IDS | FM | MT | PT | ML | MOTA/% |
---|---|---|---|---|---|---|---|
SORT DeepSORT ByteTrack FairMOT 本文 |
84.1 82.1 83.5 83.4 86.5 |
40 75 26 139 24 |
432 512 325 613 320 |
98 95 104 100 113 |
24 26 22 26 14 |
10 11 6 6 5 |
71.7 70.8 71.2 74.1 75.3 |
针对路侧多目标追踪算法普遍存在的问题,提出一种基于路侧摄像头的多目标追踪算法。在UA-DETRAC数据集与真实场景数据集上进行对比实验,结果表明:
(1)基于FairMOT的神经网络同时输出检测结果和外观特征。算法在真实场景处理速度达到13.16 FPS,实时性效果增强。
(2)BYTE数据关联方式增强追踪器抗遮挡性能。在目标被遮挡条件下,实现追踪,轨迹保持连续。基于速度判别的丢失轨迹移除算法和基于历史位置的匹配算法实现长时间被遮挡轨迹身份恢复。
(3)BIoU扩大轨迹边界框与目标检测框之间的匹配空间,弥补卡尔曼滤波预测误差,有效减少身份切换。
(4)在公开数据集与真实路侧交通场景下,本文算法均优于其他先进的多目标追踪算法。
在未来的研究工作中,将会在上述基于路侧摄像头的多目标跟踪算法的基础上,进一步研究路侧场景跨摄像头多目标追踪,并和摄像机标定技术结合,使追踪器输出轨迹的真实世界坐标。
作者贡献声明
王 平:系统设计思路。
姚宇阳:算法设计与实现,仿真分析与论文的撰写。
王新红:论文润色。
参考文献
刘睿健.“协同”有道,“无人”驾成!——车路协同自动驾驶系统发展漫谈[J]. 中国交通信息化, 2020(10):18. [百度学术]
LIU Ruijian. “Collaboration” is the way, “driverless” is the goal!‒ a discussion on the development of collaborative autonomous driving systems[J]. China Transportation Informatization, 2020(10): 18. [百度学术]
冉斌, 谭华春, 张健, 等. 智能网联交通技术发展现状及趋势[J]. 汽车安全与节能学报, 2018, 9(2): 119. [百度学术]
RAN Bin, TAN Huachun, ZHANG Jian, et al. Development status and trends of intelligent connected transportation technology[J]. Journal of Automotive Safety and Energy Conservation, 2018,9(2):119. [百度学术]
张新钰, 邹镇洪, 李志伟, 等. 面向自动驾驶目标检测的深度多模态融合技术[J]. 智能系统学报, 2020, 15(4): 758. [百度学术]
ZHANG Xinyu, ZOU Zhenhong, LI Zhiwei, et al. Deep multimodal fusion technology for autonomous driving object detection[J]. Journal of Intelligent Systems, 2020,15(4): 758. [百度学术]
COMANICIU D, RAMESH V, MEER P. Real-time tracking of non-rigid objects using mean shift[C]//IEEE Conference on Computer Vision and Pattern Recognition. Hilton Head: IEEE, 2000: 142-149. [百度学术]
OKUMA K, TALEGHANI A, DEFREITAS N, et al. A boosted particle filter: multitarget detection and tracking[C]//European Conference on Computer Vision. Berlin, Springer: 2004: 28-39. [百度学术]
KALMAN R E. A new approach to linear filtering and prediction problems[J]. Trans ASME-J Basic Eng, 1960, 82(1): 35. [百度学术]
WOJKE N, BEWLEY A, PAULUS D. Simple online and realtime tracking with a deep association metric[C]//IEEE International Conference on Image Processing. Beijing: IEEE, 2017: 3645-3649. [百度学术]
BEWLEY A, GE Z, OTT L, et al. Simple online and realtime tracking[C]//IEEE International Conference on Image Processing. Phoenix: IEEE, 2016: 3464-3468. [百度学术]
AHARON N, ORFAIG R, BOBROVSKY. BoT-SORT: robust associations multi-pedestrian tracking[J/OL].[2022-07-07]. https://arxiv.org/abs/2206.14651v2. [百度学术]
YUN D, CHENG Z, YANG S, et al. StrongSORT: make deepsort great again[J]. IEEE Transactions on Multimedia, 2023, 25(1941): 8725. [百度学术]
DU Y, WAN J, ZHAO Y, et al. Giaotracker: a comprehensive framework for mc-mot with global information and optimizing strategies in visdrone 2021[C] //IEEE International Conference on Computer Vision. Montreal: IEEE, 2021: 2809-2819. [百度学术]
WILLIAMS C, RASMUSSEN C. Gaussian processes for regression[C]//8th International Conference on Neural Information Processing Systems.Denver:MIT, 1995: 514–520. [百度学术]
WANG Z, ZHENG L, LIU Y, et al. Towards real-time multi-object tracking[C]//16th European Conference on Computer Vision. Glasgow: Springer, 2020: 107-122. [百度学术]
HANG Y, WANG C, WANG X, et al. Fairmot: on the fairness of detection and re-identification in multiple object tracking[J]. International Journal of Computer Vision, 2021, 129(11): 3069. [百度学术]
KAIWEN D, SONG B, XIE L, et al. CenterNet: keypoint triplets for object detection[C]//IEEE International Conference on Computer Vision. Seoul: IEEE, 2019: 6569-6578. [百度学术]
ZHANG Y, SUN P, JIANG Y. Bytetrack: multi-object tracking by associating every detection box[C]//17th European Conference on Computer Vision. Tel Aviv: Springer, 2022: 1-21. [百度学术]
FAN Y, SHIGEYUKI O, SHOICHI M, et al. C-BIoU: hard to track objects with irregular motions and similar appearances? Make it easier by buffering the matching space[C]//IEEE/CVF Winter Conference on Applications of Computer Vision. Waikoloa: IEEE, 2023: 4799-4808. [百度学术]
YU F, WANG D, SHELHAMER E, et al. Deep layer aggregation[C]//IEEE International Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 3865-3875. [百度学术]
WEN Longyin, DU Dawei, CAI Zhaowei, et al. UA-DETRAC: a new benchmark and protocol for multi-object detection and tracking[DB/OL]. [2020-01-24]. https://arxiv.org/abs/1511.04136. [百度学术]
MILAN A, LEAL-TAIX L, REID I, et al. Mot16: a benchmark for multi-object tracking[DB/OL]. [2016-05-03]. https://arxiv.org/abs/1603.00831. [百度学术]
BERNARDIN K, STIEFELHAGEN R. Evaluating multiple object tracking performance: the clear mot metrics[J]. EURASIP Journal on Image and Video Processing,2008(2008): 1. [百度学术]
LUITEN J, OSEP A, DENDORFER P, et al. Hota: a higher order metric for evaluating multi-object tracking[J]. International Journal of Computer Vision, 2021, 129(11): 548. [百度学术]
REDMON J, FARHADI A. Yolov3: an incremental improvement.[J/OL].[2018-04-08].https://arxiv.org/abs/1804.02767, 2018. [百度学术]
REN S, HE K, GIRSHICK R, et al. Faster R-cnn: towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 39(6): 1137. [百度学术]
YU Chaoshun, YANG Jianxi, JIANG Shixin, et al. ECCNet: efficient chained centre network for real-time multi-category vehicle tracking and vehicle speed estimation[J/OL]. [2022-06-06]. https://trid.trb.org/view/2043508. [百度学术]