摘要
为了保证磁浮列车的安全、可靠运行,研究了悬浮系统在参数摄动条件下的悬浮控制问题。首先,对电磁悬浮(EMS)型磁浮列车的基本悬浮单元建模,给出了电流控制模型;然后,建立了悬浮系统的强化学习环境以及软演员-评论家(SAC)智能体,并设计了加速训练的奖励函数与“吸死”处理方案;最后,提出了基于强化学习的悬浮控制方法。与传统比例-积分-微分(PID)控制方法的对比结果表明,本方法具有更快的动态响应,在损失50%线圈匝数或磁极面积变化时具有更好的跟踪精度。
高速磁浮由电磁力实现非接触的支承、导向、牵引以及部分制动,并且通过长定子和非接触供电的形式获取动力和列车所需电能,可摆脱黏着利用和滑动受流这2个制约传统轮轨速度的主要因素,实现更高速度的运
悬浮系统作为EMS型高速磁浮列车实现无接触运行的关键一环,其性能直接决定了列车的乘坐舒适度以及运行安全性。奇然
针对外界干扰造成悬浮间隙波动的问题,余建国
随着处理器的发展,越来越多的智能算法也被应用于悬浮控制。陈琛
上述研究更多地关注外界扰动下控制系统的鲁棒性。在悬浮列车运行过程中,线圈匝数可能因匝间短路而变化,电磁铁磁极面积也可能因车体过弯或晃动而变化。针对上述悬浮系统参数的变化,目前相关研究相对较少。为此,提出了一种基于强化学习的悬浮控制算法,用于减小系统参数摄动对系统性能的影响。首先,给出了悬浮系统的状态空间、动作空间以及模拟环境;其次,分析了悬浮系统环境中奖励函数对于智能体训练的影响,并提出了可实现快速训练的奖励函数;然后,基于软演员-评论家(SAC)智能体,提出了抗参数摄动的悬浮系统控制算法;最后,通过与传统方法的对比,对所提算法的有效性进行了验证。
EMS型高速磁浮列车利用悬浮电磁铁与轨道之间的电磁吸力平衡车体重力和扰动,实现磁浮车体的稳定悬浮,悬浮系统结构如

图1 EMS型高速磁浮悬浮系统示意
Fig.1 Schematic diagram of EMS high-speed magnetic suspension syste
假设电磁中铁磁材料的磁导率无穷,磁势均匀地降落在气隙上,并且忽略绕组的漏磁通,可以得到电磁铁的电感为
(1) |
式中:N为电磁铁绕组匝数;为主极磁通;为磁路磁阻;A为铁芯面积;为控制电流;为真空磁导率;c(t)为悬浮间隙。
由
(2) |
(3) |
可以发现,电磁铁吸力和悬浮间隙的平方成反比,即气隙越小吸力越大,这是悬浮系统不稳定的原因所在。在垂直方向上,电磁铁的运动方程为
(4) |
式中:m为电磁铁等效质量;为外界干扰。
在平衡点处,有
(5) |
式中:i0为平衡点电流;c0为平衡点悬浮间隙。由此,可以得到电流控制的基本悬浮单元模型,如下所示:
(6) |
由于
(7) |
取悬浮间隙以及电磁铁速度(向下为正)为状态量,电流i为系统输入,间隙c为输出,可以得到系统状态方程为
(8) |
由
通过智能体与环境之间的交互学习,强化学习方法可获取当前状态以及相应的奖励,然后调整输出以获得最大化的奖励回报,从而实现目标。通常,强化学习方法为了获取回报最大化的策略,容易陷入局部最优;而SAC算法在奖励中加入了策略的熵,使算法尽可能多地探索可行解,从而获得更优
一个马尔可夫决策过程包含状态空间S、动作空间A、状态转移概率、奖励函数以及折扣因子,为当前的状态和动作。强化学习的智能体通过策略和环境进行交互,通过优化策略使累积奖励(即回报)最大,计算式如下所示:
(9) |
式中:P为策略空间;T为总步数;t为当前步数;为当前奖励;E为期望。
如前所述,通常强化学习方法以获取最大化回报为目的对策略进行学习,即:
(10) |
式中:为最优策略;为策略轨迹分布的边际。然而,该算法容易集中于某一个动作,从而陷入局部最优。为了改善这一情况,可在学习过程中加入策略
(11) |
式中:为温度系数,用于调节探索程度。可以看出,在相同奖励条件下,智能体倾向于选择熵大的策略,从而拓宽探索的范围。在最大熵条件下,贝尔曼方程修正为
(12) |
式中:为状态价值函数。
策略的迭代更新包括策略评估以及策略更新,前者可由
(13) |
式中:为策略分布的集合(本研究中为高斯分布);为更新前的Q函数;)为配分函数,用于归一化;DKL为Kullback-Leibler旋度,求其最小值使得策略分布向软Q函数的指数更新。
为了保证模型的性能,采用深度神经网络对软Q函数以及策略分布进行近似。软Q网络的参数θ可通过最小化软贝尔曼误差实现,如下所示:
(14) |
式中:为经验回放池;θ为Q值网络的参数;为目标Q值网络的参数。V值可通过
(15) |
(16) |
式中:τ为0至1之间的数。
策略网络的参数可以通过最小化
(17) |
(18) |
式中:N为高斯分布;为策略网络的参数;为高斯噪声;输出均值和方差。
(19) |
为了实现温度系数的自适应调整,在新的区域扩大探索范围,在旧的区域缩小探索范围,Haarnoja
(20) |
对于悬浮系统来说,智能体的状态空间可设为各传感器的值或可从传感器推导得到的值,包括悬浮间隙、电磁铁运动速度,即。根据悬浮系统实际情况,间隙范围为[cmin,cmax],速度范围为[,]。智能体的动作为控制量i,即。由于SAC算法中用tanh函数将输出动作限制在了[-1,1],因此需要将SAC输出的动作进行线性变换,将其映射至实际电流范围[imin,imax]。
环境模型为智能体提供了当前动作和状态的奖励,以及该条件下的下一状态。对于悬浮系统而言,下一状态可通过对
(21) |
式中:Ts为系统采样时间。
由于机械结构对于电磁铁运动范围的限制,因此电磁铁的运动速度存在以下限制:
(22) |
Zhao
(23) |
由于采用电压控制方案,因此存在电压项ut,其余2项分别为悬浮间隙偏离项以及系统振动项。
本质上来说,
(24) |
0.9为大于0小于1的值,可以通过调整其值来调节奖励函数对于不同误差的敏感程度。

图2 指数函数形式的间隙误差奖励函数
Fig.2 Reward function of gap error with exponential function form
基于SAC算法的悬浮控制框架如

图3 基于SAC的悬浮控制框架示意图
Fig.3 Schematic diagram of SAC-based suspension control framework

图4 基于SAC的悬浮控制智能体训练算法
Fig.4 SAC-based agent training algorithm for suspension control

图5 基于SAC的悬浮控制
Fig.5 SAC-based suspension control
为了验证基于SAC的悬浮控制方法的性能,将该方法与传统的PID控制分别在损失50%线圈和过弯道时磁极面积变化下的控制性能进行对比。
设置总环境更新步数M为350 000次,单回合最大步数W为1 000,采样/控制周期为0.001 s,系统参数如
物理参数 | 参数值 |
---|---|
悬浮块质量/kg | 750 |
线圈匝数 | 270 |
目标间隙/m | 0.008 |
电磁铁面积/ | 0.115 |
真空磁导率/(H∙ |
4π×1 |
线圈电阻/Ω | 3.84 |
等效负载/kN | 24.5 |

图6 式(23)奖励函数下的每回合累积回报
Fig.6 Return of each episode with reward function (23)

图7 式(24)奖励函数下的每回合累积回报
Fig.7 Return of each episode with reward function (24)
为了验证基于SAC悬浮控制方法的抗参数摄动性能,将该方法与传统PID控制在各类情况下的控制性能进行对比。依据模型(7)以及文献[

图8 静态起浮时SAC与PID控制性能对比
Fig.8 Comparison of performance between SAC and PID in term of static suspension

图9 线圈匝数改变时SAC与PID控制性能对比
Fig.9 Comparison of performance between SAC and PID in term of coil turn change
磁浮列车运行过程中,在弯道时电磁铁磁极面积将发生变化。

图10 磁极面积变化时SAC与PID控制性能对比
Fig.10 Comparison of performance between SAC and PID in term of pole area change
由
综合上述,SAC控制比PID控制具有更好的平稳性并且具备更快的响应速度。对于电磁铁线圈匝数减半、磁极面积减半等情况,相当于引入了较大的参数变动甚至是故障状态,使得被控系统与原系统产生了较大的差异,控制器难以实现对参考间隙的准确跟踪。此种条件下,SAC算法相比PID算法具有更好的性能,可在一定程度上减小间隙误差。
针对磁浮列车动态条件或者故障条件下参数变化引起的传统悬浮控制性能下降问题,提出了一种基于强化学习的悬浮控制方法。建立了悬浮系统的强化学习环境,利用SAC算法的全局探索能力减小了悬浮系统在不同系统参数下的间隙跟踪误差。此外,针对悬浮系统存在的“吸死”现象,提出了奖励函数,提高了强化学习智能体的训练效率。与传统的PID控制算法相比,所提的SAC控制算法具有更优越的性能。SAC算法的起浮时间仅为PID算法的20.83%;在50%电磁铁线圈匝数损失时,SAC算法的间隙误差仅为PID算法的39.18%;在磁极面积缓慢变化减小时,SAC算法的间隙误差为PID算法的30%。由于目前的悬浮控制器算力性能无法支持所提的SAC悬浮控制算法的实时在线实施,下一阶段将对网络模型的小型化进行研究,从而实现基于SAC的在线悬浮控制。
作者贡献声明
胡轲珽:设计、编写算法及撰写论文。
徐俊起:模型构建及数据支持。
刘志刚:提供研究思路。
林国斌:技术指导及论文审定。
参考文献
熊嘉阳, 邓自刚. 高速磁悬浮轨道交通研究进展[J]. 交通运输工程学报, 2021, 21(1): 177. [百度学术]
XIONG Jiayang, DENG Zigang. Research progress of high-speed maglev rail transit [J]. Journal of Transit and Transportation Engineering, 2021, 21(1): 177. [百度学术]
余浩伟, 寇俊瑜, 李艳. 600 km/h 高速磁浮在国内的适应性及工程化发展[J]. 铁道工程学报, 2020, 37(12): 16. [百度学术]
YU Haowei, KOU Junyu, LI Yan. Adaptability and engineering development of 600 km/h high-speed maglev in China [J]. Journal of Railway Engineering Society, 2020, 37(12): 16. [百度学术]
梁建英. 中国高速磁浮交通系统发展现状与展望[J]. 科学, 2022, 74(5): 31. [百度学术]
LIANG Jianying. Current status and outlook of high-speed magnetic levitation transportation system development in China[J]. Science, 2022, 74(5): 31. [百度学术]
齐然, 罗京. 中低速磁浮列车悬浮控制系统研究[J]. 电力机车与城轨车辆, 2016, 39(3): 29. [百度学术]
QI Ran, LUO Jing. Suspension control system research for middle-low maglev trains [J]. Electric Locomotives & Mass Transit Vehicles, 2016, 39(3): 29. [百度学术]
MUNDERH Y, HADER A. Modeling and control for a magnetic levitation system based on SIMLAB platform in real time [J]. Results in Physics, 2018, 8: 153. [百度学术]
NI Fei, MU Siyuan, KANG Jinsong, et al. Robust controller design for maglev suspension systems based on improved suspension force model[J]. IEEE Transactions on Transportation Electrification, 2021, 7(3): 1765. [百度学术]
孙友刚, 李万莉, 林国斌, 等. 低速磁浮列车悬浮系统动力学建模及非线性控制[J]. 同济大学学报(自然科学版), 2017, 45(5): 741. [百度学术]
SUN Yougang, LI Wanli, LIN Guobin, et al. Dynamic modeling and nonlinear control research on magnetic suspension systems of low-speed maglev train [J]. Journal of Tongji University (Natural Science), 2017, 45(5): 741. [百度学术]
靖永志, 冯伟, 王森, 等. 基于自适应非奇异终端滑模的悬浮控制策略 [J]. 西南交通大学学报, 2022, 57(3):566. [百度学术]
JING Yongzhi, FENG Wei, WANG Sen, et al. Levitation control strategy based on adaptive non-singular terminal sliding mode [J]. Journal of Southwest Jiaotong University, 2022, 57(3):566. [百度学术]
佟来生, 张文跃, 郑文文, 等. HJI理论下滑模鲁棒控制对磁浮列车悬浮特性影响研究[J]. 机械科学与技术, 2021, 40(9):1439. [百度学术]
TONG Laisheng, ZHANG Wenyue, ZHENG Wenwen, et al. Influence of HJI theory sliding mode robust control on suspension characteristics of maglev train [J]. Mechanical Science and Technology for Aerospace Engineering, 2021, 40(9):1439. [百度学术]
余建国, 木柏林. 基于LADRC的悬浮控制优化研究[J/OL]. 铁道科学与工程学报. DOI:10.19713/j.cnki.43-1423/u.T20220069. [百度学术]
YU Jianguo, MU Bailin. Research on optimization of suspension control based on LADRC [J/OL]. Journal of Railway Science and Engineering. DOI:10.19713/j.cnki.43-1423/u.T20220069. [百度学术]
陈萍, 史天成, 于明月, 等. 中低速磁浮列车滑模自抗扰悬浮控制算法[J/OL]. 铁道科学与工程学报. DOI:10.19713/j.cnki.43-1423/u.T20220349. [百度学术]
CHEN Ping, SHI Tiancheng, YU Mingyue, et al. Sliding mode active disturbance rejection levitation control algorithm of the medium and low speed maglev vehicles [J/OL]. Journal of Railway Science and Engineering. DOI:10.19713/j.cnki.43-1423/u.T20220349. [百度学术]
HU Wenjie, ZHOU Yonghua, ZHANG Zhenlin, et al. Model predictive control for hybrid levitation systems of maglev trains with state constraints[J]. IEEE Transactions on Vehicular Technology, 2021, 70(10): 9972. [百度学术]
KLAUCO M, KALUZ M, KVASNICA M. Real-time implementation of an explicit MPC-based reference governor for control of a magnetic levitation system[J]. Control Engineering Practice, 2017, 60: 99. [百度学术]
ZHANG Liwei, ZHANG Yue, ZHANG Chao, et al. Research on the improvement of feedback linearization control in suspension system countering inductance variation[J]. Mathematical Problems in Engineering, 2019, 2019(2):1. [百度学术]
SUN Ning, FANG Yongchun, CHEN He. Tracking control for magnetic-suspension systems with online unknown mass identification[J]. Control Engineering Practice, 2017, 58: 242. [百度学术]
陈琛, 徐俊起, 林国斌, 等. 具有径向基网络加速度反馈的磁浮列车悬浮系统滑模控制[J]. 同济大学学报 (自然科学版), 2021, 49(12): 1642. [百度学术]
CHEN Chen, XU Junqi, LIN Guobin, et al. Sliding mode control of maglev train suspension system with neural network acceleration feedback [J]. Journal of Tongji University (Natural Science), 2021, 49(12): 1642. [百度学术]
王强. 基于神经网络逼近的磁浮列车动态悬浮控制[J]. 科学技术与工程, 2021, 21(28):12117. [百度学术]
WANG Qiang. Dynamic levitation control of maglev train based on neural network approximation[J]. Science Technology and Engineering, 2021, 21(28):12117. [百度学术]
欧阳清华, 樊宽刚, 雷爽. 磁悬浮球的自适应径向基函数控制方法研究[J/OL]. 铁道科学与工程学报. DOI:10.19713/j.cnki.43-1423/u.T20220727. [百度学术]
OUYANG Qinghua, FAN Kuangang, LEI Shuang. Research on adaptive radial basis function control method of magnetic levitation ball [J/OL]. Journal of Railway Science and Engineering. DOI:10.19713/j.cnki.43-1423/u.T20220727. [百度学术]
SUN Yougang, XU Junqi, CHEN Chen, et al. Reinforcement learning-based optimal tracking control for levitation system of maglev vehicle with input time delay[J]. IEEE Transactions on Instrumentation and Measurement, 2022, 71: 1. [百度学术]
SUN Yougang, XU Junqi, QIANG Haiyan, et al. Adaptive neural-fuzzy robust position control scheme for maglev train systems with experimental verification[J]. IEEE Transactions on Industrial Electronics, 2019, 66(11): 8589. [百度学术]
HAARNOJA T, ZHOU A, HARTIKAINEN K, et al. Soft actor-critic algorithms and applications[J/OL]. [2022-10-30]. https://doi.org/10.48550/arXiv.1812.05905. [百度学术]
乔骥, 王新迎, 张擎, 等. 基于柔性行动器-评判器深度强化学习的电-气综合能源系统优化调度[J]. 中国电机工程学报, 2021, 41(3):819. [百度学术]
QIAO Ji, WANG Xinying, ZHANG Qing, et al. Optimal dispatch of integrated electricity-gas system with soft actor-critic deep reinforcement learning [J]. Proceedings of the CSEE, 2021, 41(3):819. [百度学术]
ZHAO Feiran, YOU Keyou, SONG Shiji, et al. Suspension regulation of medium-low-speed maglev trains via deep reinforcement learning[J]. IEEE Transactions on Artificial Intelligence, 2021, 2(4): 341. [百度学术]