网刊加载中。。。

使用Chrome浏览器效果最佳,继续浏览,你可能不会看到最佳的展示效果,

确定继续浏览么?

复制成功,请在其他浏览器进行阅读

基于强化学习的电磁悬浮型磁浮列车悬浮控制  PDF

  • 胡轲珽 1,2
  • 徐俊起 1
  • 刘志刚 3
  • 林国斌 1
1. 同济大学 国家磁浮交通工程技术研究中心,上海 201804; 2. 同济大学 交通运输工程学院,上海 201804; 3. 同济大学 铁道与城市轨道交通研究院,上海 201804

中图分类号: U27

最近更新:2023-03-01

DOI:10.11908/j.issn.0253-374x.23006

  • 全文
  • 图表
  • 参考文献
  • 作者
  • 出版信息
EN
目录contents

摘要

为了保证磁浮列车的安全、可靠运行,研究了悬浮系统在参数摄动条件下的悬浮控制问题。首先,对电磁悬浮(EMS)型磁浮列车的基本悬浮单元建模,给出了电流控制模型;然后,建立了悬浮系统的强化学习环境以及软演员-评论家(SAC)智能体,并设计了加速训练的奖励函数与“吸死”处理方案;最后,提出了基于强化学习的悬浮控制方法。与传统比例-积分-微分(PID)控制方法的对比结果表明,本方法具有更快的动态响应,在损失50%线圈匝数或磁极面积变化时具有更好的跟踪精度。

高速磁浮由电磁力实现非接触的支承、导向、牵引以及部分制动,并且通过长定子和非接触供电的形式获取动力和列车所需电能,可摆脱黏着利用和滑动受流这2个制约传统轮轨速度的主要因素,实现更高速度的运

1。常压条件下,高速磁浮的经济可用时速达600 km•h-1,填补了高速铁路与航空运输之间的速度空白,为超大城市间的快速出行提供条2。600 km•h-1高速磁浮系统样机的成功联调标志着我国电磁悬浮(EMS)型高速磁浮交通研究已达到新的阶3

悬浮系统作为EMS型高速磁浮列车实现无接触运行的关键一环,其性能直接决定了列车的乘坐舒适度以及运行安全性。奇然

4提出了一种渐起渐落的策略,提高了磁浮列车起浮/降落过程的平稳性。Munderh5基于最优控制,提出了一种线性二次型调节(LQR)悬浮控制器,相比于比例-积分-微分(PID)控制器,该控制器提高了系统稳定性,并且具有更快的响应速度。然而,上述方法的本质仍然是线性控制,存在着对扰动敏感的问题。为此,Ni6引入了反馈线性化,对轨道齿槽效应和负载扰动进行了补偿,取得了较好的悬浮效果。孙友刚7提出了基于滑模控制的悬浮控制方法,提高了系统的鲁棒性。在此基础上,靖永志8根据当前状态,利用自适应控制对滑模趋近率进行在线调节,提高了系统的动态性能。佟来生9将哈密顿-雅可比不等式(HJI)理论引入滑模控制,实现了在轨道不平顺激励下的悬浮间隙稳定。

针对外界干扰造成悬浮间隙波动的问题,余建国

10提出了基于线性自抗扰控制(LADRC)的悬浮控制器,并和PID控制和滑模控制进行了对比,结果表明LADRC具有更好的抗干扰性能。陈萍11融合了滑模控制和自抗扰控制的优点,提出了滑模自抗扰悬浮控制算法,在取得较好悬浮控制效果的同时,实现了部分传感器失效下的稳定悬浮。Hu12在模型预测控制的基础上考虑了状态约束,在获得较好抗干扰性能的同时优化了系统能耗。Klauco13针对模型预测控制计算量大的问题,将离线分段仿射函数和二进制搜索树相结合,实现了亚毫秒级的悬浮系统模型预测控制。Zhang14针对不同电感参数引起的悬浮间隙波动问题,提出了多平衡点反馈线性化方法,从而提高了系统的动态性能。Sun15提出了一种幅值饱和的自适应控制方法,可准确估计悬浮点的质量,并实现位置的准确跟踪。

随着处理器的发展,越来越多的智能算法也被应用于悬浮控制。陈琛

16在滑模控制的基础上,引入了加速度反馈,并通过径向基函数神经网络对振动进行了抑制。王17利用神经网络的逼近功能,对外界扰动进行抑制,实现了非线性负载力和不平顺扰动下的平稳悬浮。欧阳清华18提出了自适应径向基函数悬浮控制方法,并验证了该方法性能优于滑模控制。Sun19利用神经网络对时变的质量进行估计,并对输入延时进行补偿。Sun20结合了滑模控制、自适应模糊估计器以及神经-模糊切换率,提出了一种可对参数摄动进行补偿的悬浮控制方法。

上述研究更多地关注外界扰动下控制系统的鲁棒性。在悬浮列车运行过程中,线圈匝数可能因匝间短路而变化,电磁铁磁极面积也可能因车体过弯或晃动而变化。针对上述悬浮系统参数的变化,目前相关研究相对较少。为此,提出了一种基于强化学习的悬浮控制算法,用于减小系统参数摄动对系统性能的影响。首先,给出了悬浮系统的状态空间、动作空间以及模拟环境;其次,分析了悬浮系统环境中奖励函数对于智能体训练的影响,并提出了可实现快速训练的奖励函数;然后,基于软演员-评论家(SAC)智能体,提出了抗参数摄动的悬浮系统控制算法;最后,通过与传统方法的对比,对所提算法的有效性进行了验证。

1 悬浮系统建模

EMS型高速磁浮列车利用悬浮电磁铁与轨道之间的电磁吸力平衡车体重力和扰动,实现磁浮车体的稳定悬浮,悬浮系统结构如图1所示。一节列车由若干悬浮架组成,每个悬浮架由4个基本悬浮单元组成。每个悬浮单元包括一套完整的悬浮系统,由悬浮电磁铁、悬浮控制器以及悬浮传感器等组成,具体结构如图1左图所示。间隙传感器和电流传感器将间隙和电流信息反馈至控制器,通过计算得到参考电流im,ref,由斩波器调节电磁铁电流im,输出合适的电磁力,从而保持车体的悬浮。由此可见,对悬浮单元进行研究,具有一定的代表性。

图1  EMS型高速磁浮悬浮系统示意

6

Fig.1  Schematic diagram of EMS high-speed magnetic suspension system[

6]

假设电磁中铁磁材料的磁导率无穷,磁势均匀地降落在气隙上,并且忽略绕组的漏磁通,可以得到电磁铁的电感为

L(c,i)=Ni(t)φT=Ni(t)Ni(t)RT=μ0N2A2c(t) (1)

式中:N为电磁铁绕组匝数;φT为主极磁通;RT为磁路磁阻;A为铁芯面积;i(t)为控制电流;μ0为真空磁导率;ct)为悬浮间隙。

式(1)可知,电磁铁电感与悬浮间隙有关,是一个时变量。当悬浮间隙波动时,电感随之波动。电磁铁吸力计算式为

Fe(i,c)=B2Aμ0=μ0N2A4i(t)c(t)2 (2)
BφTA=μ0Ni(t)2c(t) (3)

可以发现,电磁铁吸力和悬浮间隙的平方成反比,即气隙越小吸力越大,这是悬浮系统不稳定的原因所在。在垂直方向上,电磁铁的运动方程为

md2c(t)dt2=mg+fd(t)-Fe(i,c) (4)

式中:m为电磁铁等效质量;fd(t)为外界干扰。

在平衡点处,有

mg=Fei0,c0 (5)

式中:i0为平衡点电流;c0为平衡点悬浮间隙。由此,可以得到电流控制的基本悬浮单元模型,如下所示:

Fe(i,c)=B2Aμ0=μ0N2A4i(t)c(t)2md2c(t)dt2=mg+fd(t)-Fe(i,c)mg=Fei0,c0 (6)

由于式(6)中存在非线性项,难以用工程中常用的线性控制方法进行控制器设计,因此在平衡点(i0c0)线性化展开,略去高阶项后得到

Fe(i,c)=Fe(i0,c0)+KIΔi(t)-KCΔc(t)KC=Feci0,c0=μ0N2Ai022c03KI=Feii0,c0=μ0N2Ai02c02 (7)

取悬浮间隙以及电磁铁速度(向下为正)为状态量X=(Δc,Δc˙)T,电流Δi为系统输入,间隙Δc为输出,可以得到系统状态方程为

X˙=01KC/m0X+0-KI/mΔiY=10X (8)

式(8)可知,系统的开环极点为±KC/m,存在复平面右侧的极点,说明该系统不稳定,需要引入反馈控制。

2 基于SAC算法的悬浮控制算法设计

通过智能体与环境之间的交互学习,强化学习方法可获取当前状态以及相应的奖励,然后调整输出以获得最大化的奖励回报,从而实现目标。通常,强化学习方法为了获取回报最大化的策略,容易陷入局部最优;而SAC算法在奖励中加入了策略的熵,使算法尽可能多地探索可行解,从而获得更优

21。因此,采用SAC算法对EMS型高速磁浮的悬浮系统进行控制,提高控制系统对于参数摄动的鲁棒性。

2.1 马尔可夫决策过程

一个马尔可夫决策过程包含状态空间S、动作空间A、状态转移概率p(stst-1,at-1)、奖励函数r(s,a) S×AR以及折扣因子γstat为当前的状态和动作。强化学习的智能体通过策略π:SA和环境进行交互,通过优化策略使累积奖励(即回报)最大,计算式如下所示:

maxπP J(π)=maxπPEt=1Tγt-1rtπ (9)

式中:P为策略空间;T为总步数;t为当前步数;rt为当前奖励;E为期望。

2.2 SAC算法

如前所述,通常强化学习方法以获取最大化回报为目的对策略进行学习,即:

π*=argmaxπEst,at~ρπtR(st,at) (10)

式中:π*为最优策略;ρπ为策略π轨迹分布的边际。然而,该算法容易集中于某一个动作,从而陷入局部最优。为了改善这一情况,可在学习过程中加入策略

22,从而增加输出动作的分散程度,增强智能体的探索能力,如下所示:

π*=argmaxπtEst,at~ρπr(st,at)奖励函数+αH(π(st))策略H(π(st))=Est,at~ρπ(-logπt(atst)) (11)

式中:α为温度系数,用于调节探索程度。可以看出,在相同奖励条件下,智能体倾向于选择熵大的策略,从而拓宽探索的范围。在最大熵条件下,贝尔曼方程Qst,at修正为

Qst,atrst,at+γEst+1(V(st+1))Vst=Eat~π(Q(st,at)-αlog π(atst)) (12)

式中:Vst为状态价值函数。

策略的迭代更新包括策略评估以及策略更新,前者可由式(12)实现,后者由下式实现:

πnew=argminπΠDKLπ'(st)exp1αQπold (st,)Zπold(st) (13)

式中:Π为策略分布的集合(本研究中为高斯分布);Qπold(st,)为更新前的Q函数;Zπold(st)为配分函数,用于归一化;DKL为Kullback-Leibler旋度,求其最小值使得策略分布向软Q函数的指数更新。

为了保证模型的性能,采用深度神经网络对软Q函数以及策略分布进行近似。软Q网络的参数θ可通过最小化软贝尔曼误差实现,如下所示:

JQ(θ)=Est,at~D12Qθ(st,at)-(r(st,at)+γEst+1(Vθ¯(st+1)))2 (14)

式中:D为经验回放池;θQ值网络的参数;θ¯为目标Q值网络的参数。V值可通过式(12)利用Q值进行参数化。式(14)可通过随机梯度求最小值,计算式如下所示:

^θJQ(θ)=θQθ(st,at)(Qθ(st,at)-(r(st,at)+γ(Qθ¯(st+1,at+1)-αlog(πϕ(at+1st+1)))) (15)

式(14)式(15)中的θ¯由下式进行更新:

θ¯τθ+(1-τ)θ¯ (16)

式中:τ为0至1之间的数。

策略网络的参数可以通过最小化式(13)实现,利用式(17)对策略重参数化可得式(18),如下所示:

at=fϕ(εt;st)=fϕ,μ(st)+εtfϕ,σ(st) (17)
Jπ(ϕ)=Est~D,εt~N(αlogπϕ(fϕ(εt;st)st)-Qθ(st,fϕ(εt;st))) (18)

式中:N为高斯分布;ϕ为策略网络的参数;εt为高斯噪声;fϕ输出均值和方差。式(17)可通过下式的近似梯度进行迭代求解:

^ϕJπ(ϕ)=ϕαlog(πϕ(atst))+(atαlog(πϕ(atst)-             atQ(st,at))ϕfϕ(εt;st) (19)

为了实现温度系数的自适应调整,在新的区域扩大探索范围,在旧的区域缩小探索范围,Haarnoja

21将其归纳为期望熵约束下最大化期望回报,如下所示:

maxπ0:TEρπt=0Tr(st,at)
s.t. Est,at~ρπ(-log(πt(atst)))H,t (20)

2.3 基于SAC的悬浮控制算法

2.3.1 智能体设定

对于悬浮系统来说,智能体的状态空间可设为各传感器的值或可从传感器推导得到的值,包括悬浮间隙、电磁铁运动速度,即S=c,c˙。根据悬浮系统实际情况,间隙范围为[cmincmax],速度范围为[c˙minc˙max]。智能体的动作为控制量i,即A=i。由于SAC算法中用tanh函数将输出动作限制在了[-1,1],因此需要将SAC输出的动作进行线性变换,将其映射至实际电流范围[iminimax]。

2.3.2 环境模型

环境模型为智能体提供了当前动作和状态的奖励,以及该条件下的下一状态。对于悬浮系统而言,下一状态可通过对式(6)进行离散化获取,如下所示:

c¨(t)=g+fdm-μ0N2Ai2(t)4mc2(t)c˙(t+1)=c¨(t)Tsc(t+1)=c˙(t)Ts (21)

式中:Ts为系统采样时间。

由于机械结构对于电磁铁运动范围的限制,因此电磁铁的运动速度存在以下限制:

c˙=0,ccminFe<00,ccmaxFe>0c˙,其他 (22)

Zhao

23参照LQR的能量函数,同时考虑状态误差与消耗能量,使策略π向设定间隙靠近,并且减少能量消耗、减小间隙波动,从而给出悬浮系统的奖励函数,如下所示:

r(st,ut)=-(ct-c0)2-0.1c˙t2-0.05ut2 (23)

由于采用电压控制方案,因此存在电压项ut,其余2项分别为悬浮间隙偏离项以及系统振动项。

本质上来说,式(23)是一种负奖励函数,智能体容易选择提前结束本次回合来提高奖励回报。为此,文献[

23]中未设置提前结束的条件,而是设置了固定的回合步数。然而,由式(6)可知,电磁铁吸力与间隙的平方成反比,间隙越小吸力越大,未经良好训练的智能体容易发生“吸死”现象。在“吸死”现象发生后,悬浮间隙不再发生变化,此后的步数对于智能体的训练效果较差,这可能导致智能体的训练收敛较慢。因此,从正向奖励的角度设计奖励函数。对于靠近控制目标的状态和动作给予更高的奖励,反之则给予较小的奖励。如此,智能体将避免回合结束来保证回报的最大化。为了实现这一目的,采用指数函数形式的奖励函数,如下所示:

r(st,it)=0.9(1 000(ct-c0))2+0.005×0.9ct2+0.05×0.9it (24)

0.9为大于0小于1的值,可以通过调整其值来调节奖励函数对于不同误差的敏感程度。图2给出了不同底数条件下奖励函数对于间隙误差的敏感性。通过实际测试,取底数为0.9。在此种条件下,可以设置发生“吸死”条件即为回合结束,从而提高智能体训练效率。

图2  指数函数形式的间隙误差奖励函数

Fig.2  Reward function of gap error with exponential function form

2.3.3 控制算法流程

基于SAC算法的悬浮控制框架如图3所示。Actor由包含2个全连接层的神经网络组成,神经元个数分别为400和300,激活函数为ReLU函数。得到均值μ和方差σ之后,采样得到动作at,并通过tanh函数进行幅值映射。Actor通过动作at与环境进行交互,环境给出下一状态st以及奖励rt,获取经验(st,at,rt,st+1)并存入经验回放池D。Critic中采用了2个Q网络以提高训练的稳定性,取2个网络输出的最小值。

图3  基于SAC的悬浮控制框架示意图

Fig.3  Schematic diagram of SAC-based suspension control framework

控制算法包括训练和实际控制两部分,分别如图45所示。

图4  基于SAC的悬浮控制智能体训练算法

Fig.4  SAC-based agent training algorithm for suspension control

图5  基于SAC的悬浮控制

Fig.5  SAC-based suspension control

3 算法验证与分析

为了验证基于SAC的悬浮控制方法的性能,将该方法与传统的PID控制分别在损失50%线圈和过弯道时磁极面积变化下的控制性能进行对比。

3.1 智能体训练结果

设置总环境更新步数M为350 000次,单回合最大步数W为1 000,采样/控制周期为0.001 s,系统参数如表1所示。为了表明所提奖励函数对于提高训练效率的有效性,分别在式(23)(电压项修改为电流项)和式(24)奖励函数条件下对智能体进行多次训练,结果分别如图67所示。可以发现:式(23)奖励函数条件下,在训练步数达到最大值35×104之后,算法仍然没有收敛;而在式(24)奖励函数条件下,算法在22×104处基本都实现收敛。相比于式(23)奖励函数,式(24)奖励函数可极大地提高智能体的训练效率,节约训练时间。

表1  系统参数
Tab.1  System parameters
物理参数参数值
悬浮块质量/kg 750
线圈匝数 270
目标间隙/m 0.008
电磁铁面积/m2 0.115
真空磁导率/(H∙m-1 4π×10-7
线圈电阻/Ω 3.84
等效负载/kN 24.5

图6  式(23)奖励函数下的每回合累积回报

Fig.6  Return of each episode with reward function (23)

图7  式(24)奖励函数下的每回合累积回报

Fig.7  Return of each episode with reward function (24)

3.2 与传统算法的对比验证

为了验证基于SAC悬浮控制方法的抗参数摄动性能,将该方法与传统PID控制在各类情况下的控制性能进行对比。依据模型(7)以及文献[

16]的参数整定方法,所用的PID参数为kp=20 000,ki= 1 200,kd=1 000。为了更加真实地反映运行条件,仿真采用式(6)的非线性模型,而非式(7)的线性化模型。在以下所有仿真中,都对电磁铁施加 [-10 000,10 000] N的随机干扰力。

3.2.1 静态起浮

图8为静态起浮时PID控制和SAC控制下的间隙误差和控制电流。从图8a可以看出,SAC控制和PID控制均有较好的控制效果,可以达到较为平稳的悬浮状态。相较而言,SAC控制比PID控制具有更快的动态响应,SAC控制在0.05 s时即可到达平稳悬浮状态,而PID控制则需花费0.24 s左右。由于随机干扰的存在,电磁铁电流需要进行调整,使悬浮间隙保持稳定。可以发现,SAC控制的电流相比于PID控制的电流波动更小,平稳性更好。。

图8  静态起浮时SAC与PID控制性能对比

Fig.8  Comparison of performance between SAC and PID in term of static suspension

3.2.2 电磁铁线圈匝数变化

图9为悬浮条件下发生电磁铁线圈短路故障,有效线圈匝数从270变为135时PID控制和SAC控制的间隙误差和控制电流。当故障发生后,SAC控制下的间隙误差为0.96 mm,PID控制下的间隙误差为2.45 mm,PID控制的间隙误差相较于SAC控制大了1.49 mm。悬浮间隙存在限制且相对较小,大的间隙误差增加了电磁铁触轨的风险。从图9b可以看出,当有效线圈匝数减小之后,因为PID控制的间隙误差较大,其悬浮所需的电流也相应增大,从而增加了悬浮系统的能耗。

图9  线圈匝数改变时SAC与PID控制性能对比

Fig.9  Comparison of performance between SAC and PID in term of coil turn change

3.2.3 电磁铁磁极面积变化

磁浮列车运行过程中,在弯道时电磁铁磁极面积将发生变化。图10为磁极面积从0.1150 m2在1 s内逐步减小至0.0575 m2时PID控制和SAC控制的间隙误差和控制电流。

图10  磁极面积变化时SAC与PID控制性能对比

Fig.10  Comparison of performance between SAC and PID in term of pole area change

图10a可知:磁极面积的变化对于SAC控制下的悬浮间隙影响不是很大,仅产生了0.3 mm左右的间隙误差;而对于PID控制下的悬浮间隙而言,间隙误差达到了1 mm,相比SAC控制增加了0.7 mm。SAC控制的间隙误差只有PID控制的30%。图8b中两者的电流相差相对较小,这是因为两者的绝对误差相对较小。

综合上述,SAC控制比PID控制具有更好的平稳性并且具备更快的响应速度。对于电磁铁线圈匝数减半、磁极面积减半等情况,相当于引入了较大的参数变动甚至是故障状态,使得被控系统与原系统产生了较大的差异,控制器难以实现对参考间隙的准确跟踪。此种条件下,SAC算法相比PID算法具有更好的性能,可在一定程度上减小间隙误差。

4 结语

针对磁浮列车动态条件或者故障条件下参数变化引起的传统悬浮控制性能下降问题,提出了一种基于强化学习的悬浮控制方法。建立了悬浮系统的强化学习环境,利用SAC算法的全局探索能力减小了悬浮系统在不同系统参数下的间隙跟踪误差。此外,针对悬浮系统存在的“吸死”现象,提出了奖励函数,提高了强化学习智能体的训练效率。与传统的PID控制算法相比,所提的SAC控制算法具有更优越的性能。SAC算法的起浮时间仅为PID算法的20.83%;在50%电磁铁线圈匝数损失时,SAC算法的间隙误差仅为PID算法的39.18%;在磁极面积缓慢变化减小时,SAC算法的间隙误差为PID算法的30%。由于目前的悬浮控制器算力性能无法支持所提的SAC悬浮控制算法的实时在线实施,下一阶段将对网络模型的小型化进行研究,从而实现基于SAC的在线悬浮控制。

作者贡献声明

胡轲珽:设计、编写算法及撰写论文。

徐俊起:模型构建及数据支持。

刘志刚:提供研究思路。

林国斌:技术指导及论文审定。

参考文献

1

熊嘉阳邓自刚. 高速磁悬浮轨道交通研究进展[J]. 交通运输工程学报2021211): 177. [百度学术] 

XIONG JiayangDENG Zigang. Research progress of high-speed maglev rail transit [J]. Journal of Transit and Transportation Engineering2021211): 177. [百度学术] 

2

余浩伟寇俊瑜李艳. 600 km/h 高速磁浮在国内的适应性及工程化发展[J]. 铁道工程学报20203712): 16. [百度学术] 

YU HaoweiKOU JunyuLI Yan. Adaptability and engineering development of 600 km/h high-speed maglev in China [J]. Journal of Railway Engineering Society20203712): 16. [百度学术] 

3

梁建英. 中国高速磁浮交通系统发展现状与展望[J]. 科学2022745): 31. [百度学术] 

LIANG Jianying. Current status and outlook of high-speed magnetic levitation transportation system development in China[J]. Science2022745): 31. [百度学术] 

4

齐然罗京. 中低速磁浮列车悬浮控制系统研究[J]. 电力机车与城轨车辆2016393): 29. [百度学术] 

QI RanLUO Jing. Suspension control system research for middle-low maglev trains [J]. Electric Locomotives & Mass Transit Vehicles2016393): 29. [百度学术] 

5

MUNDERH YHADER A. Modeling and control for a magnetic levitation system based on SIMLAB platform in real time [J]. Results in Physics20188153. [百度学术] 

6

NI FeiMU SiyuanKANG Jinsonget al. Robust controller design for maglev suspension systems based on improved suspension force model[J]. IEEE Transactions on Transportation Electrification202173): 1765. [百度学术] 

7

孙友刚李万莉林国斌. 低速磁浮列车悬浮系统动力学建模及非线性控制[J]. 同济大学学报(自然科学版)2017455): 741. [百度学术] 

SUN YougangLI WanliLIN Guobinet al. Dynamic modeling and nonlinear control research on magnetic suspension systems of low-speed maglev train [J]. Journal of Tongji University (Natural Science)2017455): 741. [百度学术] 

8

靖永志冯伟王森. 基于自适应非奇异终端滑模的悬浮控制策略 [J]. 西南交通大学学报2022573):566. [百度学术] 

JING YongzhiFENG WeiWANG Senet al. Levitation control strategy based on adaptive non-singular terminal sliding mode [J]. Journal of Southwest Jiaotong University2022573):566. [百度学术] 

9

佟来生张文跃郑文文. HJI理论下滑模鲁棒控制对磁浮列车悬浮特性影响研究[J]. 机械科学与技术2021409):1439. [百度学术] 

TONG LaishengZHANG WenyueZHENG Wenwenet al. Influence of HJI theory sliding mode robust control on suspension characteristics of maglev train [J]. Mechanical Science and Technology for Aerospace Engineering2021409):1439. [百度学术] 

10

余建国木柏林. 基于LADRC的悬浮控制优化研究[J/OL]. 铁道科学与工程学报. DOI:10.19713/j.cnki.43-1423/u.T20220069. [百度学术] 

YU JianguoMU Bailin. Research on optimization of suspension control based on LADRC [J/OL]. Journal of Railway Science and Engineering. DOI:10.19713/j.cnki.43-1423/u.T20220069. [百度学术] 

11

陈萍史天成于明月. 中低速磁浮列车滑模自抗扰悬浮控制算法[J/OL]. 铁道科学与工程学报. DOI:10.19713/j.cnki.43-1423/u.T20220349. [百度学术] 

CHEN PingSHI TianchengYU Mingyueet al. Sliding mode active disturbance rejection levitation control algorithm of the medium and low speed maglev vehicles [J/OL]. Journal of Railway Science and Engineering. DOI:10.19713/j.cnki.43-1423/u.T20220349. [百度学术] 

12

HU WenjieZHOU YonghuaZHANG Zhenlinet al. Model predictive control for hybrid levitation systems of maglev trains with state constraints[J]. IEEE Transactions on Vehicular Technology20217010): 9972. [百度学术] 

13

KLAUCO MKALUZ MKVASNICA M. Real-time implementation of an explicit MPC-based reference governor for control of a magnetic levitation system[J]. Control Engineering Practice20176099. [百度学术] 

14

ZHANG LiweiZHANG YueZHANG Chaoet al. Research on the improvement of feedback linearization control in suspension system countering inductance variation[J]. Mathematical Problems in Engineering201920192):1. [百度学术] 

15

SUN NingFANG YongchunCHEN He. Tracking control for magnetic-suspension systems with online unknown mass identification[J]. Control Engineering Practice201758242. [百度学术] 

16

陈琛徐俊起林国斌. 具有径向基网络加速度反馈的磁浮列车悬浮系统滑模控制[J]. 同济大学学报 (自然科学版)20214912): 1642. [百度学术] 

CHEN ChenXU JunqiLIN Guobinet al. Sliding mode control of maglev train suspension system with neural network acceleration feedback [J]. Journal of Tongji University (Natural Science)20214912): 1642. [百度学术] 

17

王强. 基于神经网络逼近的磁浮列车动态悬浮控制[J]. 科学技术与工程20212128):12117. [百度学术] 

WANG Qiang. Dynamic levitation control of maglev train based on neural network approximation[J]. Science Technology and Engineering20212128):12117. [百度学术] 

18

欧阳清华樊宽刚雷爽. 磁悬浮球的自适应径向基函数控制方法研究[J/OL]. 铁道科学与工程学报. DOI:10.19713/j.cnki.43-1423/u.T20220727. [百度学术] 

OUYANG QinghuaFAN KuangangLEI Shuang. Research on adaptive radial basis function control method of magnetic levitation ball [J/OL]. Journal of Railway Science and Engineering. DOI:10.19713/j.cnki.43-1423/u.T20220727. [百度学术] 

19

SUN YougangXU JunqiCHEN Chenet al. Reinforcement learning-based optimal tracking control for levitation system of maglev vehicle with input time delay[J]. IEEE Transactions on Instrumentation and Measurement2022711. [百度学术] 

20

SUN YougangXU JunqiQIANG Haiyanet al. Adaptive neural-fuzzy robust position control scheme for maglev train systems with experimental verification[J]. IEEE Transactions on Industrial Electronics20196611): 8589. [百度学术] 

21

HAARNOJA TZHOU AHARTIKAINEN Ket al. Soft actor-critic algorithms and applications[J/OL]. [2022-10-30]. https://doi.org/10.48550/arXiv.1812.05905. [百度学术] 

22

乔骥王新迎张擎. 基于柔性行动器-评判器深度强化学习的电-气综合能源系统优化调度[J]. 中国电机工程学报2021413):819. [百度学术] 

QIAO JiWANG XinyingZHANG Qinget al. Optimal dispatch of integrated electricity-gas system with soft actor-critic deep reinforcement learning [J]. Proceedings of the CSEE2021413):819. [百度学术] 

23

ZHAO FeiranYOU KeyouSONG Shijiet al. Suspension regulation of medium-low-speed maglev trains via deep reinforcement learning[J]. IEEE Transactions on Artificial Intelligence202124): 341. [百度学术]