摘要
提出了基于注意力(attention)机制的LSTM(long short⁃term memory)交通异常检测模型,并利用整体交通网格点数据对交通流量进行异常检测。模拟数据集的验证结果表明,Attention⁃LSTM预测模型具有较好的检测效果;SKAB(skoltech anomaly benchmark)公开数据集进一步检验了模型的检测能力。以上海市出租车GPS实时数据代表实时交通流状况,对交通流异常进行检测,并对检测结果进行了分析,验证了Attention⁃LSTM模型的有效性。
随着我国经济和社会的不断发展,大型和超大型城市不断涌现,与之相伴相生的“大城市病”也越来越严重。“交通拥挤”作为大城市病的重要“症状”之一,受到广泛关
交通异常检测是交通运输工程领域的一个重要分支,在大数据时代,城市管理者希望将交通监控设备、车载GPS设备等采集的交通数据与现有算法相结合,对道路状况进行分析预测,从而达到智慧交通管理的目的。目前交通异常检测的难点主要有:①模型运行效率与检测结果的准确性之间的权衡。随着深度学习的发展,为了追求更高的检测准确性,许多复杂的深层模型被提出,希望通过增加模型复杂性来提高准确性,结果导致模型的运行时间增加,不利于实际投入使用,但若为追求高效运行,使用简单的模型又会影响检测的准确性。因此需要在模型运行效率与检测结果的准确性之间进行合理的权衡。②异常检测的泛化能力。道路交通流量会受到许多不同因素的影响,且不同的区域受影响的权重存在差
交通异常检测与交通流量预测有非常紧密的联系,这个领域的研究主要经历了统计方法、机器学习方法和深度学习方法三个阶段,其中,相较于统计方法和机器学习方法,深度学习方法通过深层次的神经网络层学习复杂的非线性关系,从而发掘出更深层次的特征关系,因而越来越多的研究采用深度学习方法。在交通流异常检测方面,目前较为常见的异常检测基础模型是由Hochreiter
随着研究的逐步深入,许多研究开始考虑将LSTM模型作为基础,与传统统计模型或其他深度学习模型相结合,从而实现更高准确度的异常检测。刘世泽
综合来看,目前的交通异常检测和流量预测主要是基于LSTM网络构建,且存在着模型不断复杂化的发展趋势。高度复杂的模型固然会带来较高的检测准确性,但不应忽视交通领域对偶发性交通异常所需的高效、实时的需求,需要兼顾模型运行效率与检测准确性。由此,本文提出的Attention-LSTM交通异常检测模型,在控制模型复杂度的基础上充分利用交通流量数据的时空特性;同时采用不同数据集对该模型进行比较分析,展现了其在不同数据集上的适应能力以及对异常事件高效准确的检测性能。
长短期记忆(LSTM)神经网络由Hochreiter
Attention机制最早由Bahdanau
本文提出模型结构如

图1 Attention-LSTM交通异常检测模型
Fig.1 Attention-LSTM traffic anomaly detection model

图2 Event Duration=5时的异常检测效果
Fig.2 Effect of anomaly detection at event duration of 5

图3 选取的实际地图范围与模型检测输出
Fig.3 Real map and model detection output of selected area
输入降维部分参考了Gugulothu
(1) |
式中:为原始数据矩阵和为线性变换矩阵;为降维后的数据矩阵。
维度恢复部分与输入降维部分相对应,需要将原本降低的输出维度恢复。为此本文采用与输入降维部分相同的方式,将输出维度由恢复至。其数学表达为
(2) |
式中:为预测数据矩阵;和为线性变换矩阵;为维度恢复后的预测数据矩阵。
预测计算部分具体过程如下:首先,将经过降维处理的输入矩阵依序代入第一层LSTM中计算,并将各时间点的输出值进行组合,得到维度为的输出矩阵,其中h为LSTM单元隐状态的维度。
(3) |
其次,将最后一个时刻的输出值传入第二层LSTM层作为输入,由此得到此后个时间段的输出矩阵,维度为。
(4) |
最后,对两层LSTM层的输出进行Attention计算,其中,作为查询矩阵,键值对矩阵和均为。另外,受Vaswani
(5) |
(6) |
(7) |
本文将交通流量数据处理为在一定时间间隔内位于各网格中的出租车的数量矩阵。设置时间集合为,共个时间段,设置网格点集合为,共个网格点。设为在时间段内于网格点中的出租车数量,为时间段内所有网格点的全局出租车流量,则为所有时间段内的全局交通流量,其数学表达如下:
(11) |
考虑到交通流量数据中部分网格点处于车流量较小的区域,如水域、工厂、农田等,这些区域通常不容易发生交通异常事件,即使发生异常事件对市区整体的交通情况影响也极小,因此本文考虑通过设定交通流量的阈值来排除这些网格点对模型预测准确性的影响。设分别为网格点的交通流量值的均值与方差,阈值为,当时,该点交通流量值为0,其数学表达式如下:
(12) |
根据本文建立的Attention-LSTM异常检测模型,对于任意的,使用已知的实际交通流量来预测未来的交通流量,其中参数为用于预测的交通流量的时间序列长度,为模型的预测时间序列长度。在本文中,设置,。
通过对训练集的学习,得到完成训练的模型参数,并以此为基础,代入测试集进行计算,由此得到对于任意时间点的交通流量预测值,以函数代表模型的计算过程,得到计算过程的数学表达如下:
(13) |
对于任意的网格点,可以计算位于该点的交通流量的预测值与实际值的差的均值与标准差,即对于数据集,与分别为数据集的均值与标准差。基于统计学中大多随机误差都服从正态分布,因此本文假设模型的预测误差服从正态分布,并由此建立模型预测误差的分布函数为。
(14) |
在得到了各时间点的交通流量预测值以及各网格点的预测误差正态分布函数后,进行一步计算异常值得分以对异常事件进行检测。
对于任意网格点,模型预测值与实际值之间的误差应满足正态分布,而当异常事件发生时,预测值与实际值会出现较大的偏差。因此,本文选择将预测值与实际值的差代入正态分布的密度函数中计算,其数学式如下:
(15) |
由于正态分布的密度函数满足钟型对称结构,当偏差值越偏离正态分布,则值将越小。为满足异常偏差越大,异常值越大的需求,本文以式(15)为基础,将网格点于时间点的异常值得分定义为
(16) |
当异常事件发生时,与之相关的网格点的异常值得分将远大于其他的网格点。本文将时间点的各网格点的异常值得分进行汇总,得到该时间点异常值总得分为
(17) |
由此,通过对各时间点的异常值总得分进行比较,可以及时发现异常事件的发生时间,进一步,可以比较该时间点各网格点的具体异常值大小以确定异常事件的发生地点。对于是否存在异常的阈值的确定,可以根据不同数据进行调整,本文将比时间窗口内异常值总得分均值高50%的情况认为出现异常。
本文的数据实验由3部分组成,实验一是使用Net Logo软件,建立车辆流动规则,模拟在一定区域内交通流量的变化情况,并人为添加持续时间不同的交通异常事件。将本文提出的Attention-LSTM模型与自回归模型(AR)以及LSTM模型的异常事件检测效果进行比较。考虑到模拟数据具有虚构性,无法体现现实交通数据的复杂性与多变性,实验二使用SKAB这一在现实中收集的多维传感数据集,并将异常检测结果与排行榜上其他模型进行比较。实验结果验证了Attention-LSTM模型交通异常检测的优越性与对实际数据的优秀适应能力。在此基础上,实验三使用2014年12月28日至2015年1月10日14 d内的出租车GPS数据,对模型检测到的异常事件进行实证分析,证明模型对检测实际交通异常事件的可行性与准确性。
本文使用Net Logo模拟特定区域中车辆的轨迹随时间的变化情况,借鉴Zhou
(1)该区域内的车辆总数固定,由参数CarNumber决定。
(2)车辆分为两种状态,受雇与失业,受雇车辆的比例由EmployRate决定。
(3)随机生成住宅与公司的位置,各住宅和各公司的车辆数分别由PeoplePerCommunity和PeoplePerCompany决定。
(4)将1 d划分为120个时间段,即5个时间段为1 h。每日的第110至次日第19时间段为休息时间,此时受雇车辆于家中休息,失业车辆于原地休息。
(5)每日的第20至第39时间段为上班时间,受雇车辆由住宅向公司移动;每日第40至第89时间段为工作时间,受雇车辆停留在公司;每日第90至第109时间段为下班时间,受雇车辆由公司向住宅移动。
(5)除休息时间外的所有时间段,失业车辆于区域内随机游荡。
(6)随机生成一定数量的异常事件,事件发生地点随机生成,事件数量与异常持续时间分别由参数EventNumber与EventDuration决定。
(7)当异常事件发生时,一定数量的受雇车辆和失业车辆会受到影响,临近异常点的部分车辆会受到阻碍,由参数AttractRate决定。各参数的名称及含义见
参数名称 | 参数意义 |
---|---|
CarNumber | 区域内的车辆总数 |
EmployRate | 区域内处于受雇状态的车辆比例 |
PeoplePerCommunity | 各住宅的车辆数量 |
PeoplePerCompany | 各公司的车辆数量 |
EventNumber | 异常事件数量 |
EventDuration | 异常事件持续时间 |
AttractRate | 受异常事件影响的车辆比例 |
模拟数据分为训练数据和测试数据两部分,训练数据根据规则(1)~(5)生成无异常事件的车辆轨迹数据,代入不同模型中进行训练。测试数据则根据规则(1)~(7)生成含有一定数量的异常事件的车辆轨迹数据,代入已训练的模型中进行异常检测,由此比较不同模型的异常事件检测能力。
模拟数据设置时间长度为7 d,即共840个时间段。将区域划分为共121个网格点。为比较模型对不同持续时长的异常事件的检测能力,本文设置了3种异常持续时间。以下以的情况为例,其中异常事件数量为9 ,模型的预测结果如
竖直黑线所标记的是异常事件发生的时间点,可以发现在这些时间点的异常值总得分与其他时间的异常值总得分有较大的偏差,可以认为模型对异常事件的检测是显著的。
本文使用时间序列的传统统计模型自回归(AR)模型与深度学习中的LSTM预测模型作为比较基准。使用接受者操作特性曲线下方的面积大小(AUC)作为比较标准,各方法在3种不同的异常持续时间(5/10/20)下的AUC值如
模型 | 异常持续时间 | ||
---|---|---|---|
5 | 10 | 20 | |
AR(p=1) | 0.962 4 | 0.960 7 | 0.944 5 |
AR(p=2) | 0.961 3 | 0.954 4 | 0.948 6 |
LSTM | 0.996 6 | 0.990 1 | 0.989 4 |
Attention⁃LSTM | 0.999 7 | 0.992 1 | 0.997 4 |
在异常事件持续时间为5、10和20个时间段时,Attention-LSTM模型都有最好的效果。对于Attention-LSTM模型与AR模型及LSTM预测模型间存在的差异,本文从两个角度进行分析。一是对深度学习模型与统计模型的差异分析:AR模型本质上是时间序列数据的线性回归,而深度学习中的LSTM模型能提供非线性函数,增加模型的复杂度,提升学习能力。由此发现无论是LSTM模型还是Attention-LSTM模型,表现都优于AR模型。二是对LSTM预测模型与Attention-LSTM模型的对比分析:交通流量数据存在周期性且受到交通网络中其他网格的影响,而Attention机制能找到与当前交通流量相似程度最高的历史时间点并赋予高权重,从而充分利用交通流量的历史信息,提升模型的准确性。
SKAB v0.9公开数据集为工业传感器收集到的实际多元时间序列数据。该数据按照事件顺序收集,具有时间序列的特征。传感器之前存在相关性关系,不同的传感器之前的相关性权重不同。由于多元传感器异常数据与交通流量数据存在类似性质,可以看做同一类数据进行分析处理。该数据集数据结构如
参数名 | 意义 |
---|---|
Datetime | 写入数据库的日期和时间 |
Accelerometer1RMS | 振动加速度 |
Accelerometer2RMS | 振动加速度 |
Current | 电动机的安培数 |
Pressure | 水泵后的回路压力 |
Temperature | 发动机机体的温度 |
Thermocouple | 循环回路中流体的温度 |
Voltage | 电动机上的电压 |
RateRMS | 回路内流体的循环流量 |
Anomaly | 该点是否异常(0或1) |
该数据集提供了用于评估模型检测能力的指标算法,其采用的指标为F1分数、漏报率(MAR)与误报率(FAR)。将SKAB数据集应用于本文模型,并与排行榜上的其他模型比较检测效果,其结果如
模型 | F1 | 误报率/% | 漏报率/% |
---|---|---|---|
Perfect detector | 1.00 | 0 | 0 |
T⁃squared+Q (PCA) | 0.67 | 13.95 | 36.32 |
Attention⁃LSTM | 0.67 | 15.73 | 35.73 |
MSCRED | 0.64 | 13.56 | 41.16 |
T⁃squared | 0.56 | 12.14 | 52.56 |
Autoencoder | 0.45 | 7.56 | 66.57 |
Isolation forest | 0.40 | 6.86 | 72.09 |
Null detector | 0 | 0 | 100.00 |
由
综合来看,实验一在模拟的交通数据上证明了本文提出的Attention-LSTM模型较于传统模型中的AR模型与深度学习中的LSTM模型有更好的异常检测能力。为排除模拟数据的影响,实验二使用了多维传感器现实数据,值得注意的是,SKAB数据集具有与交通流量数据集相似的时空特性。在该数据集上,Attention-LSTM模型表现出很好的检测效果,其在不同的变量维度,不同的时间序列长度甚至不同的应用场景上,有着很好的适应能力。由此可以得出结论,本文提出的基于Attention的交通异常检测模型较传统方法中的自回归模型与深度学习方法中的LSTM预测模型存在优势,本文进一步将模型用于实际的上海市出租车GPS轨迹数据中以检验其对实际交通异常事件的检测能力。
本文使用了上海市出租车的实际GPS轨迹数据进行实验。数据的时间跨度为2014年12月28日至2015年1月10日,共14 d的数据。本文将后7天即2015年1月4日至2015年1月10日的数据作为训练集,将前7天即2014年12月28日至2015年1月3日的数据作为测试集。
为充分减少交通流量值较低的地区对模型效果的影响,本实验只选取了上海外环线以内的地区,具体覆盖范围如
本文选取的区域内有河流等出租车无法到达的地方,同时为了消除部分交通流量较小的网格点的影响,本文设最低流量阈值ThreLow=50。
由于本实验中选取的区域面积较大,覆盖较广,即使对网格进行降维处理后仍有1 903个网格点。而在现实情况中,当异常事件发生时,异常事件通常集中在少部分网格点,如果采用对模拟数据的检验方法,将各网格点的异常值大小进行累加,会导致噪音很多,异常事件检测效果很差。因此,本文将每个时间点的异常值最高的前5个网格的平均值作为当前时间点整个地区的异常值得分。

图4 交通异常检测结果
Fig.4 Result of traffic anomaly detection
对两个时间段的检测结果进一步分析,本文发现2014年12月28日上午的异常事件是由于当天举办硕士研究生招生考试,大量考生乘坐出租车前往考点,进而导致在部分考点周边路段出现大规模堵车;而2014年12月31日上午的异常事件是由于当天有许多跨年庆祝活动在上海市区举办,市民由郊区涌向市区,导致上海绕城高速与外环高速往市区方向路段的持续拥堵。
由此,本文证明了该模型能对实际GPS数据进行处理分析,并对现实中发生的交通异常事件进行有效检测,且能快速精确地定位异常事件的发生位置。
本文针对交通异常事件的检测问题,将Attention机制引入交通异常事件检测领域中,将Attention-LSTM模型与其他模型进行对比分析,证实了Attention-LSTM模型的优越性。进一步将模型用于实际GPS数据中,对现实中的异常事件有很好的检测效果,证实了本文模型实际应用的有效性。通过Attention机制的注意力权重分配特性,使得算法对交通异常事件更为敏感,在模拟数据集、公开数据集以及上海出租车GPS数据集上,检测准确性均更高,可见,Attention-LSTM模型具有良好的适应能力。与此同时,Attention-LSTM模型尽量精简了结构,降低了模型训练时的成本,使得其在处理 2 000维左右的高维度交通数据时,也能够较为快速地完成。本文也形成了一套完整的从模型训练、方法迁移到实际应用的设计方案,比较适合无标签的数据集分析。
作者贡献声明
郑大庆:方法构思,实验设计和论文撰写。
林陈威:数据整理,代码设计和论文撰写。
王昺杰:数据整理,代码设计和论文撰写。
参考文献
沈洁, 张可云. 中国大城市病典型症状诱发因素的实证分析[J]. 地理科学进展, 2020, 39(1): 1. [百度学术]
SHEN Jie, ZHANG Keyun. An empirical analysis of factors leading to typical urban problems in China[J]. Progress in Geography, 2020, 39(1): 1. [百度学术]
EAGLE N. Behavioral inference across cultures: using telephones as a cultural lens[J]. IEEE Intelligent Systems, 2008, 23(4): 62. [百度学术]
GASSON M N, KOSTA E, ROYER D, et al. Normality mining: privacy implications of behavioral profiles drawn from GPS enabled mobile phones[J]. IEEE Transactions on Systems, Man, and Cybernetics:Part C (Applications and Reviews), 2011, 41(2): 251. [百度学术]
GAO Jun, ZHENG Daqing, YANG Su. Sensing the disturbed rhythm of city mobility with chaotic measures: anomaly awareness from traffic flows [J]. Journal of Ambient Intelligence and Humanized Computing, 2021,11(6):1. [百度学术]
曾阳艳, 苏雅, 张琪慧. 基于EMD-LSTM神经网络的交通流量预测模型[J]. 商学研究, 2021, 28(3): 110. [百度学术]
ZENG Yangyan, SU Ya, ZHANG Qihui. Traffic flow prediction model based on empirical mode decomposition and long short-term memory neural network[J]. Commercial Science Research, 2021, 28(3): 110. [百度学术]
HOCHREITER S, SCHMIDHUBER J . Long short-term memory[J]. Neural Computation, 1997, 9(8): 1735. [百度学术]
ZHENG Zhao, CHEN Weihai, WU Xingming, et al. LSTM network: a deep learning approach for short-term traffic forecast[J]. IET Intelligent Transport Systems, 2017, 11(2): 68. [百度学术]
刘世泽, 秦艳君, 王晨星, 等. 基于深度残差长短记忆网络交通流量预测算法[J]. 计算机应用, 2021, 41(6): 1566. [百度学术]
LIU Shize, QIN Yanjun, WANG Chenxing, et al. Traffic flow prediction algorithm based on deep residual long short-term memory network[J]. Journal of Computer Applications, 2021, 41(6): 1566. [百度学术]
彭桐歆, 韩勇, 王程, 等. 基于混合深度学习模型的短时地铁客流量预测[J/OL]. 计算机工程.[2021-08-10]. https://doi.org/10.19678/j.issn.1000-3428.0061309. [百度学术]
PENG Tongxin, HAN Yong, WANG Cheng, et al. Short-term metro passenger flow prediction based on hybrid deep-learning model [J/OL]. Computer Engineering. [2021-08-10]. https://doi.org/10.19678/j.issn.1000-3428.0061309. [百度学术]
KONG Xiangjie, GAO Haoran, ALFARRAJ O, et al. HUAD: hierarchical urban anomaly detection based on spatio-temporal data[J]. IEEE Access, 2020, 8: 26573. [百度学术]
宋瑞蓉, 王斌君, 仝鑫, 等. 融合多维时空特征的交通流量预测模型[J]. 科学技术与工程, 2021, 21(31): 13439. [百度学术]
SONG Ruirong, WANG Binjun, TONG Xin, et al. Traffic flow forecasting model based on multi-dimensional spatial and temporal characteristics[J]. Science Technology and Engineering, 2021, 21(31): 13439. [百度学术]
廖挥若, 杨燕. 基于注意力的时空神经网络城市区域交通流量预测[J]. 计算机应用研究, 2021, 38(10): 2935. [百度学术]
LIAO Huiruo, YANG Yan. Predicting citywide traffic flow using attention-based spatial-temporal neural network[J]. Application Research of Computers, 2021, 38(10): 2935. [百度学术]
王海起, 王志海, 李留珂, 等. 基于网格划分的城市短时交通流量时空预测模型[J/OL]. 计算机应用. [2022-02-07]. http://kns.cnki.net/kcms/detail/51.1307.TP.20210930.0905.002.html. [百度学术]
WANG Haiqi, WANG Zhihai, LI Liuke, et al. Spatial-temporal prediction model of urban short-term traffic flow based on grid division[J/OL]. Journal of Computer Applications .[2022-02-07]. http://kns.cnki.net/kcms/detail/51.1307.TP.20210930.0905. 002.html. [百度学术]
GERS F, SCHMIDHUBER J, CUMMINS F. Learning to forget: continual prediction with LSTM[J]. Neural Computation, 2000, 12(10): 2451. [百度学术]
YANG Su. On feature selection for traffic congestion prediction[J]. Transportation Research Part C, 2013, 26: 160. [百度学术]
SHEWALKAR A, NYAVANANDI D, LUDWIG S A. Performance evaluation of deep neural networks applied to speech recognition: RNN, LSTM and GRU[J]. Journal of Artificial Intelligence and Soft Computing Research, 2019, 9(4): 235. [百度学术]
MOHAMED B, MOHAMED M, RICHARD D, et al. Parallel long short-term memory for multi-stream classification[C]// 2016 IEEE Spoken Language Technology Workshop. San Diego: IEEE, 2016: 218-223 [百度学术]
BAHDANAU D, CHO K, BENGIO Y. Neural machine translation by jointly learning to align and translate[C]// 3rd International Conference on Learning Representations. San Diego: OpenReview.net, 2015: 1-15. [百度学术]
XU K, BA J, KIROS R, et al. Show, attend and tell: neural image caption generation with visual attention[C]// 32nd International Conference on International Conference on Machine Learning. Lille: JMLR.org, 2015: 2048–2057. [百度学术]
GAO Jun, ZHENG Daqing, YANG Su. Perceiving spatiotemporal traffic anomalies from sparse representation-modeled city dynamics[J/OL]. Personal and Ubiquitous Computing[2021-10-10]. https://doi.org/10.1007/s00779-020-01474-4. [百度学术]
GUGULOTHU N, MALHOTRA P, VIG L, et al. Sparse neural networks for anomaly detection in high-dimensional time series[C]// AI4IOT Workshop at IJCAI 2018. Stockholm: Morgan Kaufmann, 2018: 1-7. [百度学术]
VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[C]// 31st International Conference on Neural Information Processing Systems. Long Beach: Curran Associates, 2017: 6000–6010. [百度学术]
TIBSHIRANI R. Regression shrinkage and selection via the lasso[J]. Journal of the Royal Statistical Society, Series B (Methodological), 1996, 58(1): 267. [百度学术]
ZHOU Wenbin, YANG Su. Outlier detection on large-scale collective behaviors[C]// 4th International Joint Conference on Computational Sciences and Optimization. Kunming: IEEE, 2011: 635-639. [百度学术]