摘要
利用悬浮系统的多类监测数据,提出了一种基于改进典型相关分析(canonical correlation analysis, CCA)的中低速悬浮系统异常检测方法。运营线数据验证了该方法能获得较好的阈值,且与基于K-medoids的方法和基于支持向量数据域描述(support vector data description, SVDD)的方法相比,该方法能获得更高的检测率。
中低速磁浮列车作为一种新型的城市轨道交通工具,越来越得到公众的关注和认可。悬浮系统作为中低速磁浮列车的关键系统之一,其安全性和可靠性对中低速磁浮列车的运行具有十分重要的影响。其中,异常检测技术作为一种提高系统运行安全的有效手段,受到了学术界和工业界的广泛关注和研究。因此,为提高中低速磁浮列车悬浮系统的安全性和可靠性,研究悬浮系统的异常检测技术具有十分重要的意义。
国外,Harrou等提出了一种基于主成分分析(principal component analysis,PCA)的MCUSUM异常检测策略,能更好地检测出系统的微小异
国内,对于车载灵活数据速率控制器局域网络,罗峰等提出了一种基于支持向量机的异常入侵检测算
此外,虽然在实际工程应用中,根据《中低速磁浮交通车辆悬浮控制系统技术条件 CJ/T458-2014》,目前悬浮系统已具备一套自诊断系统,且该自诊断系统根据上述经验阈值进行异常检测,但额定的悬浮间隙以及间隙波动的情况比较复杂。主要有:
(1)根据线路情况和列车的状况调整额定的悬浮间隙,如北京线设计为8mm,长沙线为9mm等,且悬浮控制器会根据速度的变化来调整额定的悬浮间隙。另外,由于每个传感器和结构安装的差异性使得每个点的额定悬浮间隙不一定是8mm。
(2)列车运行时由于速度、轨道不平顺等多种因素综合作用,或者列车悬浮静止时由于车轨共振等因素作用导致异常的间隙值低于经验阈值,从而导致漏报。
综上所述,虽然LSTM等深度学习方法取得了较好的结果,但实际工程中不能标记出足够多的异常数据。而多元分析技术能利用历史数据进行异常检测,且不需要大量的异常数据,甚至直接通过健康数据就能检测异常数据。常用的多元分析技术有基于PCA、基于偏最小二乘方法( partial least squares,PLS) 和基于典型相关分析(canonical correlation analysis,CCA)的异常检测方法。虽然三种方法都有模型训练和异常检测两步,但又有一定的区别。基于PCA的检测方法在整个过程中只考虑一个数据集,基于PLS的检测方法考虑的是过程变量和质量相关变量,而基于CCA的检测方法面向的是系统中存在明确的输入输出关系且输入输出数据在线可测的情况,即基于CCA 的检测方法可以视为基于PCA和基于PLS的检测方法的一种扩
由于悬浮系统在不同的运行场景下所产生的数据之间存在较大的差异,故需要对数据进行划分,以便在不同的运行场景下进行异常检测,这样有利于提高检测的可靠性。悬浮系统在运行中会产生大量的数据,主要包括悬浮间隙、电磁铁电流、悬浮电磁铁的垂向加速度、悬浮控制器的输入电压和车辆运行速度。

图1 某一个悬浮控制单元在某一天的间隙数据
Fig. 1 The gap data of a certain suspension control unit on a certain day
为了更为直观地反映两者之间的差异,从悬浮系统的历史数据中选择一段列车从始发站运行到终点站的悬浮系统历史数据,如

图2 悬浮系统的历史数据曲线
Fig. 2 The historical data curve of the suspension system
结合工程经验和运营数据,本文从站间行驶和站内静止悬浮中分别选择一些典型的异常。
本文从站间行驶的历史数据中选择含有3类异常的数据。

图3 第1类异常的数据
Fig. 3 The first type of abnormal data

图4 第2类异常的数据
Fig. 4 The second type of abnormal data

图5 第3类异常的数据
Fig. 5 The third type of abnormal data
本文从站内静止悬浮的历史数据中选择含有第4类异常的数据。

图6 第4类异常的数据
Fig. 6 The fourth type of abnormal data
考虑多维时间序列进行异常检测时,一般会面临两方面的问题:检测异常的指标难以建立和数据呈非高斯分布难以处理。
由于经验阈值方法仅采用悬浮系统的间隙数据,并没有充分利用悬浮系统的其它数据,导致该方法对于第3类和第4类异常的检测能力存在一定的不足。对此,利用悬浮系统的间隙、电流、加速度、电压和速度等数据,采用CCA建立指标。
由于悬浮系统中间隙、电流、加速度、电压和速度等数据并不都服从高斯分布,导致当直接通过CCA处理悬浮数据并获得检测指标,即二次统计量后,二次统计量不服从高斯分布。此时,通过常规的阈值设置方法获得的异常阈值,很容易导致误报或漏报的情况。因此,需要将二次统计量的分布转换成高斯分布。
对此,通过Box-Cox变换将每种类别建立的二次统计量转换为高斯分布变量,并利用高斯分布的特点来确定不同类别下的异常阈值。
假设某一个类别下的N个过程数据样本可表示为
(1) |
(2) |
式中:和(i=1,…,N)是在相同类别下测得的过程输入和输出向量;l和m分别为输入和输出的变量个数。
(3) |
(4) |
其中,,。
用X和Y表示去均值后的输入和输出数据,即
(5) |
(6) |
然后输入和输出的协方差和互协方差可以估算为
(7) |
(8) |
(9) |
根据CCA技
(10) |
通过奇异值将相关矩阵E分解为
(11) |
式中:为相关矩阵的左奇异向量;为右奇异向量;为典型相关系数,表示非零奇异值个数。,,是典型的相关系数,和是对应的奇异向量。
令
(12) |
(13) |
(14) |
残差可以定义为
(15) |
出于检测目的构造了二次统计量[
(16) |
为了确定与系统的不同健康状况相对应的的范围,可以通过Box-Cox变换将非高斯分布转换为高斯分
Box-Cox转换的过程为通过
(20) |
其中,是一个使得每个独立的服从正态分布的常数。为了确定的值,定义将联合概率密度函数为
(21) |
其中,是n阶单位向量。
固定时,将和的似然函数表示为
(22) |
此外,和的最大似然函数为
(23) |
(24) |
因此,似然函数的最大值为
(25) |
(26) |
忽略
(27) |
通过最大似然法确定的值。如果存在,则导致,则
是适用的。
(28) |
在经过
通过Box-Cox变换将的分布转换为高斯分布后,选择作为异常阈值,这意味着在这个范围内约99.73%的样本是健康
异常检测的流程如

图7 异常检测流程图
Fig. 7 The flow chart of anomaly detection
模型训练主要是通过健康的历史数据获得每个类别下的异常检测模型和用于异常检测的、、、、、、、、、和。模型训练的步骤为
(1)获得n个类别;
(2)在第个类别下获得N个健康样本,分别构建和;
(5)根据
(6)存储该类别下、、、、;
(7) 是,返回到步骤2);否则,结束。
而异常检测主要是根据数据判断系统当前的类别,然后调取该类别下的、、、、、、、和用于计算当前的残差,再将残差与和进行比较。异常检测的步骤为
(1)获得k时刻的数据和;
(2)判断和切换当前的类别;
(3)选择当前类别下和;
(6)判断:
系统是健康的;
其他系统是异常的。
使用悬浮系统的监测数据,其中一段数据为健康数据,另一段数据为含有3类异常的数据。由于使用多维数据,因此,只通过长度为4个采样点的移动时间窗口获得140 000组训练数据。

图8 悬浮系统数据的正态分布检验图
Fig. 8 The normal distribution test chart of suspension system data
由于多维数据中有部分数据不呈高斯分布,如果直接采用CCA处理多维数据并获得二次统计量Q,那二次统计量Q的分布也不理想,如
(29) |

图9 Q的分布直方图
Fig. 9 The distribution histogram of Q

图10 Q值及传统方法的阈值
Fig. 10 Q value and the threshold of the traditional method

图11 Q的正态分布检验图
Fig. 11 The normal distribution test chart of Q

图12 Q1曲线
Fig. 12 The Q1 curves

图13 Q1分布直方图
Fig. 13 The distribution histogram of Q1
斯分布。为了进一步证明这点,可通过Q1的正态分布检验图进行直观显示,如

图14 Q1的正态分布检验图
Fig. 14 The normal distribution test chart of Q1

图15 站间行驶下3类异常的检测结果
Fig. 15 The detection results for three types of abnormalities under driving between stations
速度的测量数据和二次统计量及其对应的阈值,3类异常分别用3个虚线框圈出,从左往右分别是第1类、第2类和第3类异常,且图f中正方形为本文方法检测出的异常点。由图f可知,本文提出的方法能有效检测出3类异常。

图16 本文方法对第4类异常的检测结果
Fig. 16 The detection result for the fourth type of anomaly by the method in this paper
第4类异常持续的时间为538个采样点,本文的方法能检测出531个点,这说明本文方法能有效检测出第4类异常。
为验证所提方法的有效性,从现有的运营线数据中提取了32个第1类异常数据、104个第2类异常数据、41个第3类异常数据、208个第4类异常数据,分别采用本文的方法、基于K-medoids的方
由表可知,对于第2类异常,3种方法的检测率都为100%;对于第1类和第3类异常,本文方法的检测率明显比另外两种高;对于第4类异常,3种方法的检测率都为100%。综上所述,与基于K-medoids的方法和基于SVDD的方法相比,本文的方法能更有效地检测出4类异常。
针对悬浮系统异常检测问题,为进一步提高异常检测率,提出了一种基于改进的CCA的多维时间序列异常检测方法。通过CCA处理悬浮系统的多维数据以获得故障检测指标,即二次统计量。由于悬浮系统中部分数据呈非高斯分布导致二次统计量也呈非高斯分布的问题,使用Box-Cox变换将每种类别下建立的二次统计量转换为高斯分布变量,并利用高斯分布的置信区间来确定异常阈值。实验结果表明,本文方法能有效检测出4类异常,而且与基于K-medoids的方法和基于SVDD的方法相比,能更有效地检测出4类异常。
本文方法的贡献主要有:
(1) 利用悬浮系统的多维健康数据,提出了一种基于改进的CCA的多维时间序列异常检测方法,该方法对4类异常的检测率都在96%以上。
(2) 使用Box-Cox变换将每种类别下建立的二次统计量转换为高斯分布变量,解决了呈非高斯分布的二次统计量导致传统阈值设定不合理的问题。
作者贡献声明
王平:算法研究的执行人,构造新的算法,完成数据分析和实验验证、论文初稿的写作。
梅子:数据分析,论文写作与修改。
龙志强:研究的构思者及负责人。
参考文献
HARROU F, KADRI F, CHAABANE S, et al. Improved principal component analysis for anomaly detection: Application to an emergency department[J]. Computers & Industrial Engineering, 2015, 88: 63. [百度学术]
BI M, XU J, WANG M, et al. Anomaly detection model of user behavior based on principal component analysis[J]. Journal of Ambient Intelligence and Humanized Computing, 2016, 7(4): 547. [百度学术]
XIE K, LI X, WANG X, et al. On-Line anomaly detection with high accuracy[J]. IEEE/ACM Transactions on Networking, 2018, 26(3): 1222. [百度学术]
PAN D, LIU D, ZHOU J, et al. Anomaly detection for satellite power subsystem with associated rules based on Kernel Principal Component Analysis[J]. Microelectronics Reliability, 2015, 55(9/10): 2082. [百度学术]
YIN C, ZHANG S, YIN Z, et al. Anomaly detection model based on data stream clustering [J]. Cluster Computing, 2019, 22(S1): 1729. [百度学术]
GU J, JIANG Z, FAN W D, et al. Real-time passenger flow anomaly detection considering typical time series clustered characteristics at metro stations[J]. Journal of Transportation Engineering, Part A: Systems, 2020, 146(4): 04020015. [百度学术]
LI L, DAS S, JOHN HANSMAN R, et al. Analysis of flight data using clustering techniques for detecting abnormal operations [J]. Journal of Aerospace Information Systems, 2015, 12(9): 587. [百度学术]
LYU L, JIN J, RAJASEGARAR S, et al. Fog-empowered anomaly detection in IoT using hyperellipsoidal clustering [J]. IEEE Internet of Things Journal, 2017, 4(5): 1174. [百度学术]
OREILLY C, GLUHAK A, IMRAN M A. Distributed anomaly detection using minimum volume elliptical principal component analysis [J]. IEEE Transactions on Knowledge and Data Engineering, 2016, 28(9): 2320. [百度学术]
DING N, MA H, GAO H, et al. Real-time anomaly detection based on long short-term memory and Gaussian mixture model[J]. Computers & Electrical Engineering, 2019, 79: 106458. [百度学术]
YANG W, SHEN G W, WANG W, et al. Anomaly detection in microblogging via co-clustering[J]. Journal of Computer Science and Technology, 2015, 30(5): 1097. [百度学术]
YAN W. Detecting gas turbine combustor anomalies using semi-supervised anomaly detection with deep representation learning [J]. Cognitive Computation, 2020, 12(2): 398. [百度学术]
LU Y, WANG J, LIU M, et al. Semi-supervised machine learning aided anomaly detection method in cellular networks[J]. IEEE Transactions on Vehicular Technology, 2020, 69(8): 8459. [百度学术]
FENG Q, ZHANG Y, LI C, et al. Anomaly detection of spectrum in wireless communication via deep auto-encoders[J]. The Journal of Supercomputing, 2017, 73(7): 3161. [百度学术]
LI Z, LI J, WANG Y, et al. A deep learning approach for anomaly detection based on SAE and LSTM in mechanical equipment [J]. The International Journal of Advanced Manufacturing Technology, 2019, 103(1/4): 499. [百度学术]
LIANG P, YANG H D, CHEN W S, et al. Transfer learning for aluminium extrusion electricity consumption anomaly detection via deep neural networks [J]. International Journal of Computer Integrated Manufacturing, 2018, 31(4/5): 396. [百度学术]
罗峰,胡强,侯硕,等.基于支持向量机的CAN-FD网络异常入侵检测[J].同济大学学报(自然科学版),2020,48(12):1790. [百度学术]
LUO Feng, HU Qiang, HUO Shuo, et al. Anomaly intrusion detection for CAN-FD bus by support vector machine[J]. Journal of Tongji University(Natural Science),2020, 48(12): 1790. [百度学术]
何书锋,孙钿奇,王诏,等.基于深度学习的多波束海底地质数据异常值检测方法[J]. 计算机应用与软件, 2021, 38(4): 95. [百度学术]
HE Shufeng, SUN Dianqi, WANG Zhao, et al. Anomaly detection method fot multibeam seabed geological data based on deeo learning[J]. Computer Applications and Software, 2021, 38(4): 95. [百度学术]
王慧珍,王立德,杨岳毅, 等.基于Logistic集成学习的列车MVB网络异常检测方法研究[J]. 机车电传动, 2021(1): 138. [百度学术]
WANG Huizhen, WANG Lide,YANG Yueyi, et al. Anomaly detection for MVB network based on Logistic ensemble learning[J]. Electric Drive for Locomotives,2021(1): 138. [百度学术]
李晨,王布宏,田继伟,等.基于LSTM-OCSVM的无人机传感器数据异常检测[J]. 小型微型计算机系统, 2021, 42(4): 700. [百度学术]
WANG Chen, WANG Buhong, TIAN Jiwei, et al. Anomaly detection method for UAV sensor data based on LSTM-OCSVM[J]. Journal of Chinese Computer Systems, 2021, 42(4): 700. [百度学术]
闫媞锦,夏元清,张宏伟,等.一种非规则采样航空时序数据异常检测方法[J].航空学报,2021,42(4):558. [百度学术]
YAN Tijin, XIA Yuanqing, ZHANG Hongwei, et al. An anomaly detection method for irregularly sampled spacecraft time series data[J]. Acta Aeronautica ET Astronautica Sinica,2021,42(4):558. [百度学术]
韩昭蓉,黄廷磊,任文娟,等.基于Bi-LSTM模型的轨迹异常点检测算法[J]. 雷达学报, 2019, 8(1): 36. [百度学术]
HAN Zhaorong, HUANG Tinglei,REN Wenjuan, et al. Trajectory outlier detection algorithm based on Bi-LSTM model[J]. Journal of Radars, 2019, 8(1): 36. [百度学术]
姚宇,冯健,张化光,等.一种基于椭球体支持向量描述的异常检测方法[J]. 山东大学学报(工学版), 2017, 47(5): 195. [百度学术]
YAO Yu, FENG Jian, ZHANG Huaguang, et al. Weighted hyper-ellipsoidal support vector data description with negative samples for outlier detection[J]. Journal of Shandong University(Engineering Science), 2017, 47(5): 195. [百度学术]
王杰,张雪英,李凤莲,等.改进DM-SVDD算法的异常检测研究及应用[J].太原理工大学学报, 2021, 52(5): 764. [百度学术]
WANG Jie, ZHANG Xueying, LI Fenglian, et al. Research and application of anomaly detection based on improved DM-SVDD algorithm[J]. Journal of Taiyuan University of Technology, 2021, 52(5): 764. [百度学术]
王雯珩,于雷,王晓龙,等.基于夹角余弦的核动力系统异常检测算法设计[J].原子能科学技术, 2021, 55(S1): 98. [百度学术]
WANG Wenheng, YU Lei, WANG Xiaolong, et al. Design of anomaly detection algorithm for nuclear power system based on included angle cosine[J]. Atomic Energy Science and Technology, 2021, 55(S1): 98. [百度学术]
孙笑笑,侯文杰,沈沪军,等.基于上下文感知的多角度业务流程在线异常检测方法[J].计算机集成制造系统, 2021, 27(9): 2532. [百度学术]
SUN Xiaoxiao, HOU Wenjie, SHEN Hujun, et al. Multi-perspective online anomaly detection method of business processes based on context awareness[J]. Computer Integrated Manufacturing Systems, , 2021, 27(9), 2532. [百度学术]
陈志文,彭涛,阳春华, ,等.基于改进的典型相关分析的故障检测方法[J]. 山东大学学报(工学版), 2017, 47(5): 44. [百度学术]
CHEN Zhiwen, PENG Tao, YANG Chunhua, et al. A fault detection method based on modified canonical correlation analysis[J]. Journal of Shandong University(Engineering Science), 2017, 47(5): 44. [百度学术]
ANDERSON T W. An introduction to multivariate statistical analysis[R]. New York:Wiley, 1962. [百度学术]
YIN S, DING S X, HAGHANI A, et al. A comparison study of basic data-driven fault diagnosis and process monitoring methods on the benchmark Tennessee Eastman process[J]. Journal of Process Control, 2012, 22(9): 1567. [百度学术]
CHEN Z, DING S X, ZHANG K, et al. Canonical correlation analysis-based fault detection methods with application to alumina evaporation process[J]. Control Engineering Practice, 2016, 46: 51. [百度学术]
SERDIO F, LUGHOFER E, PICHLER K, et al. Residual-based fault detection using soft computing techniques for condition monitoring at rolling mills [J]. Information Sciences, 2014, 259: 304. [百度学术]
NG R, HAN J.CLARANS: a method for clustering objects for spatial data mining[J]. IEEE Transactions on Knowledge and Data Engineering, 2002, 14(5): 1003 [百度学术]