网刊加载中。。。

使用Chrome浏览器效果最佳,继续浏览,你可能不会看到最佳的展示效果,

确定继续浏览么?

复制成功,请在其他浏览器进行阅读

基于强化学习和路况信息的燃料电池汽车能量管理策略  PDF

  • 宋震 1
  • 闵德豪 1
  • 陈会翠 1
  • 潘越 2
  • 章桐 1
1. 同济大学 汽车学院, 上海 201804; 2. 上海捷氢科技有限公司 动力系统部, 上海 201804

中图分类号: U461

最近更新:2022-08-11

DOI:10.11908/j.issn.0253-374x.22792

  • 全文
  • 图表
  • 参考文献
  • 作者
  • 出版信息
EN
目录contents

摘要

为提升整车经济性和耐久性,提出了一种基于强化学习和路况信息的燃料电池汽车能量管理策略。首先,根据关键部件参数搭建了动力系统模型,并根据城市道路工况特征在VISSIM软件中搭建交通模型并提取了车辆行驶数据及路况数据。其次,将路况数据作为输入,利用长短期记忆神经网络对车速进行预测。最后,基于强化学习算法,将预测车速、加速度以及动力电池荷电状态作为输入,燃料电池系统功率作为输出进行能量管理策略的设计。仿真结果表明,所提策略的百公里氢耗量与动态规划策略相比仅相差1.27%,且燃料电池系统的平均功率波动降低了5.01%,因此可有效提升整车的经济性和耐久性。

燃料电池汽车因其零排放、能量转换效率高、续航里程长等优点近年来备受关

1,但其制造成本和使用成本高、耐久性较差、冷启动时间长等问题极大限制了燃料电池汽车的商业化进程。目前,燃料电池汽车通常由燃料电池和辅助电源混合驱动,不同动力源输出功率的分配方式是影响整车经济性、耐久性等性能的重要因素之一。良好的能量管理策略能有效解决动力源间的功率分配问题,有利于提升整车性2

燃料电池汽车能量管理策略可分为规则型、优化型和学习型3大

3。规则型策略基于专家经验或模糊逻辑设计,实时性好但功率分配结果达不到全局最优。优化型策略基于最优控制原理设计,功率分配结果可达到近似最优或全局最优,但实时性一般较差。近年来,基于人工智能算法的学习型能量管理策略发展迅速,包括支持向量机、人工神经网络、强化学习等。通过人工智能算法对车辆行驶数据的分析与学习,学习型策略在优化性方面可以达到近似最优或全局最优,且实时性较优化策略有大幅提升。Lin4提出了一种基于反向传播神经网络的速度预测方法,并基于此方法设计了燃料电池汽车的能量管理策略。结果表明,所提出的策略能有效提升经济性,整车氢耗量较规则型策略减少了17.07%。Muñoz5开发了一种基于非线性自回归模型神经网络的燃料电池汽车在线能量管理策略,通过不同工况下燃料电池和动力电池间的最优功率分配结果训练神经网络。仿真结果显示,所提出的策略在高速和城际工况下可节省等效氢耗2%,在城市道路工况下可节省等效氢耗18%。林歆悠6采用强化学习Q-learning算法设计了燃料电池汽车的能量管理策略,并通过硬件在环试验对策略进行验证,结果显示城市行驶工况下整车综合能耗可降低20.8%。此外,车速预测对于能量管理策略的设计也尤为重要,通过一定时域内的车速预测,能量管理策略能根据预测车速提前进行功率分配,从而优化分配结果,提升策略性7

通过以上文献分析可见,燃料电池汽车能量管理策略的目标是在行驶过程中更好地分配不同动力源间的需求功率以获得较好的整车经济性和耐久性,强化学习算法是一种能够让机器是通过不断尝试和试错,累加和学习经验,最终在环境中拿到高分的智能算法,非常适合用来解决功率分配这类问题。基于此,本文构建了城市道路交通模型并提取路况信息进行了车速预测研究,同时基于预测车速结合强化学习深度确定性策略梯度算法(deep deterministic policy gradient,DDPG)进行能量管理策略的设计。仿真结果显示,整车经济性和耐久性均得到了较好的提升。

1 燃料电池汽车动力系统建模

本文所研究的燃料电池汽车的动力系统型式为并联式,即燃料电池和锂离子电池分别通过DC/DC变换器和DC/AC变换器与功率总线相连,两动力源均可单独向驱动电机供电。动力系统由燃料电池系统、锂离子电池、驱动电机、DC/DC变换器、DC/AC变换器、主减速器等部件组成。具体结构如图1所示,主要参数如表1所示。

图1  燃料电池汽车动力系统构型

Fig.1  Architecture of FCV powertrain

表1  动力系统主要部件参数
Tab.1  Parameters of powertrain components
部件参数参数值
燃料电池系统 额定功率/kW 50
峰值功率/kW 60
锂离子电池 容量/(A·h) 37
总线额定电压/V 350
最大电流/A 100
持续电流/A 72
荷电状态允许范围/% 5-95
驱动电机 峰值功率/kW 160
最大转速/(r/min) 12000

1.1 燃料电池模型

燃料电池建模采用功率效率模型,其功率与效率关系如图2所示。燃料电池系统峰值功率为60 kW,对应效率43%。高效率区功率为5~15 kW,最高效率为54%。

图2  燃料电池系统功率与效率关系曲线

Fig2  Fuel cell system power versus efficiency

1.2 锂离子电池模型

锂离子电池建模采用Rint内阻等效电路模型,其电流I和荷电状态(SOC)的变化率SOC·

I=UOCV-UOCV2-4RessPess2Ress (1)
SOC·=-IQ=-UOCV-UOCV2-4RessPess2QRess (2)

式中:UOCV为锂离子电池的开路电压;Ress为锂离子电池内阻;Pess为锂离子电池输出功率;Q为锂离子电容器的额定容量。

2 基于路况信息的车速预测

2.1 交通道路模型搭建及路况信息提取

本文选择VISSIM软件进行城市道路交通模型的搭建,具体如图3所示。为了较为真实地还原城市实际交通状况,模型中包含道路、人行道、十字路口、交通信号灯、乘用车、商用车。其中,东西方向道路为双向6车道,南北方向道路为双向4车道,乘用车与商用车的比例为80%和20%。

图3  道路交通模型示意图

Fig3  Schematic diagram of traffic modell

车辆在城市道路行驶过程中,其车速受前车的运行状态影响较大,因此在搭建的模型中我们除了提取目标车辆的车速与加速度,还提取前车的车速与加速度,这四部分将共同作为车辆预测算法的输入。

2.2 基于长短期记忆神经网络的车速预测算法

车速数据通常可以看作为一种随时间变化的物理量,那么车速预测问题则可以被当成时间序列问题进行处理。基于长短期记忆神经网络(long short-term memory,LSTM)作为一种特殊的循环神经网络,可以通过对比当前与过去输入信息来优化网络参数,使之更适合处理和预测事件序列,因而能有效处理车速预测问题,故本节将采用LSTM进行车速预测算法的设计。

所采用的LSTM结构如图4所示,包括1个输入层、3个隐藏层、1个输出层。输入层节点数为4个,4个节点分别对应神经网络的4个输入变量,即本车车速和加速度、前车车速和加速度。输出层为节点数为1个,对应下一时刻的预测车速。隐藏层节点数均为100个。为了达到更好的神经网络训练效果,使每一个神经元都学习到足够的信息,在第1和第3个隐藏层后进行神经元丢失(dropout)处理,丢失率为0.2。

图4  LSTM结构图

Fig.4  Architecture of LSTM

2.3 车速预测结果分析

将VISSIM中提取的数据分为训练集和测试集,比例分别为80%和20%。为了提高网络训练的收敛速度和输出的准确性,训练前先对车速和加速度数据进行0-1标准化处理。基于训练集数据对LSTM网络进行训练优化,再通过测试集进行预测精度的验证,得出的车速预测结果和误差如图5所示。从图5a可以看出,预测车速能够较好地跟随实际车速;图5b显示训练集和测试集上的车速预测误差能够达到10-3级,表明所设计的预测算法精度满足预期效果,可以较好地进行车速预测。

a  预测车速和原始车速对比

b  训练集和验证集上的误差

图5  车速预测结果

Fig.5  Results of velocity prediction

3 基于强化学习的能量管理策略设计

车辆功率分配是一个连续的控制过程,而强化学习中的DDPG算法适合处理优化控制问题中控制变量和状态变量都连续的问题,故本节将采用DDPG算法进行能量管理策略的设计。

DDPG算法由策略神经网络和评价神经网络两部分构成,策略神经网络和评价神经网络又各包含了两个神经网络,即当前网络和目标网络。其中策略当前网络和策略目标网络的输入分别为研究对象的当前和下一时刻的状态,输出分别为当前状态和下一时刻状态下所采取的动作。评价当前网络和目标网络的输入分别为研究对象当前的状态和动作与下一时刻的状态和动作,输出为当前状态和动作的价值以及下一时刻状态和动作的价值,算法的具体流程如表2所示。

表2  DDPG算法流程
Tab.2  Procedures of DDPG algorithm
DDPG算法流程

输入: 策略当前网络参数θμ, 策略目标网络参数θμ, 评价当前网络参数θQ, 评价目标网络参数θQ',衰减因子γ,软更新系数τ,经验回放采样数n,目标网络参数更新频率f,迭代回合数M,单回合迭代次数T,随机过程N

输出: 最优的策略当前网络参数θμ和评价当前网络参数θQ

1. 随机初始化θμ θQ, 并令θμ=θμθQ'=θQ。初始化经验回放池P

2. for 回合数=1∶M do

获得初始状态S1

for t =1∶T do

a) 基于策略当前网络,输入状态St得到动作At=μ(St)+Nt

b) 执行动作At得到新状态St+1和奖励Rt

c) 将(St, At, Rt, St+1)存入P

d) 令St = St+1

e) 从P中随机采样n个样本(Si, Ai, Ri, Si+1),i=1,2,…,n, 计算当前目标Qyi

yi=Ri+γQ'(Si+1, μ'(Si+1), θQ')

f) 基于均方差损失函数L=1ni=1n(yi-Q(Si,Ai,θQ))2,通过梯度反向传播更新评价当前网络的参数θQ

g) 基于损失函数J(θμ)=-1ni=1nQ(Si,Ai,θQ),通过梯度反向传播更新策略当前网络的参数θμ

h) 当M % f =1,更新评价目标网络和策略目标网络参数:

θQ=τθQ +(1-τθQ'

θμ=τθμ +(1-τθμ

end for

end for

表2中的状态S具体为车速、加速度和锂离子电池的SOC,动作A为燃料电池系统输出功率。奖励函数R包含4个部分:燃料电池系统的瞬时氢耗、锂离子电池SOC的维持成本、燃料电池系统效率和燃料电池系统功率变化,其具体形式如下:

R=-α[fuel(t)]+β[SOCref-SOC(t)]2-γ[efffc(t)]2+ω[Pfcs(t)-Pfcs(t-1)]2 (3)

式中:α是氢耗量的权重;β是锂离子电池SOC维持的权重;SOCref是SOC的参考值(本文取0.6);γ是燃料电池系统效率的权重;efffc是燃料电池系统效率;ω是燃料电池系统输出功率变化的权重;Pfsct)和Pfcst-1)是燃料电池系统当前时刻的输出功率和上一时刻的输出功率。奖励函数的负号表示DDPG算法将朝着使奖励值更大的方向优化函数参数。

图6展示了本文设计的能量管理策略的具体运作机理。燃料电池汽车作为与DDPG算法交互的外部环境,提供车速、加速度和SOC作为DDPG算法的输入,并通过奖励函数的值确定算法的优化的方向,DDPG算法根据车辆状态输出燃料电池系统输出功率。

图 6  能量管理策略运作机理

Fig.6  Principle of EMS

4 结果与讨论

通过采用预测车速作为训练数据对DDPG算法进行训练,得出训练好的燃料电池系统和锂离子电池的输出功率变化曲线如图7图8所示,锂离子电池的SOC的变化轨迹如图9所示。此外,本文还采用动态规划算法(dynamic programming,DP)进行相同车速下的仿真,得到了经济性全局最优的功率分配结果,其燃料电池系统和锂离子电池的输出功率结果、锂离子电池的SOC变化结果与DDPG策略的结果分别共同绘制在图7图9中。两种策略的仿真结果在经济性和耐久性方面的对比如表3所示。

图7  燃料电池系统输出功率

Fig.7  The output power of fuel cell system

图8  锂离子电池输出功率

Fig.8  The output power of lithium-ion battery

图9  锂离子电池SOC

Fig.9  SOC curve of lithium-ion battery

表3  不同策略下的燃料经济性和功率波动对比
Tab.3  Fuel economy and average power fluctuation under different strategies
策略

SOC

终值

百公里氢

耗量/kg

燃料经济性差异/%平均功率波动/kW功率波动差异/%
DP 0.6 1.814 - 1.776 -
DDPG 0.6 1.837 1.27 1.687 -5.01

为了维持锂离子电池的SOC的首末值平衡,需要对DDPG策略奖励函数中参数β以及DP策略中成本函数的SOC惩罚项参数进行调节。从表3可以看出,通过对相关参数的调节,两种策略的SOC终止均为0.6,与初始值相同,且DDPG策略的SOC轨迹在整个工况区间波动较DP策略更平缓,可有效防止锂离子电池的过充和过放,有利于锂离子电池寿命的延长。

将一个循环工况的氢耗等比例换算成百公里氢耗量,可以看出DDPG策略的百公里氢耗量与DP策略的百公里氢耗量相差仅1.27%,整车经济性达到了近似最优的水平。此外,由于在奖励函数中考虑了燃料电池功率变化这一因素,因而在策略的优化过程中,DDPG算法将会在满足动力性的前提下限制燃料电池功率的剧烈变化,从图6可以看出DDPG策略的燃料电池系统输出功率轨迹较DP策略的更加平缓。此外,从表3的对比结果也可以看出,DDPG策略的平均功率波动相较于DP策略的降低了5.01%,这表明DDPG策略能够有效减少动态加载工况对燃料电池寿命的影响,有利于提升车辆的耐久性。

本文用于训练策略网络的路况数据基于具有城市实际交通状况特征的道路交通模型所导出,具有较高的复杂性和随机性,故策略在面对其他复杂程度的工况数据时可以通过不断地训练优化以适应新工况,适应性和鲁棒性较强。在实车应用过程中,基于车辆历史工况数据对DDPG策略的参数进行训练优化,再将训练好的策略刷写进整车控制器中,DDPG策略根据预测车速进行功率的实时分配和输出,满足实车应用需求。

5 结论

本文设计了一种基于路况信息和强化学习DDPG算法的燃料电池汽车能量管理策略。首先在VISSIM中搭建交通模型并提取了所需路况信息,再基于路况信息和LSTM进行车速预测算法的设计,最后基于DDPG算法开发了能量管理策略。得出的主要结论如下:

(1) 基于前车车速和加速度、本车车速和加速度等信息对车辆速度进行预测,预测误差数量级达到10-3,满足预期效果。

(2) 基于DDPG算法的能量管理策略得到整车百公里氢耗量与DP策略相差仅1.27%,同时限制了运行过程中燃料电池系统输出功率的剧烈变化,平均功率波动较DP策略降低了5.01%,有效提升了整车经济性和耐久性。

在未来的研究工作中,会将更多影响燃料电池汽车耐久性的因素与本文所设计的强化学习策略相互结合进行研究,以期进一步提升整车经济性和寿命。

参考文献

1

CHEN HSONG ZZHAO Xet al. A review of durability test protocols of the proton exchange membrane fuel cells for vehicle[J]. Applied Energy2018224289. DOI: 10.1016/j.apenergy.2018.04.050. [百度学术] 

2

YUE MJEMEI SGOURIVEAU Ret al. Review on health-conscious energy management strategies for fuel cell hybrid electric vehicles: Degradation models and strategies[J]. International Journal of Hydrogen Energy20194413): 6844. DOI: 10.1016/j.ijhydene.2019.01.190. [百度学术] 

3

倪如尧刘金玲许思传. 燃料电池汽车能量管理控制策略研究[J]. 汽车实用技术20191): 34. DOI:10.16638/j.cnki.1671-7988.2019.01.011. [百度学术] 

NI RuyaoLIU JinlingXu Sichuan. Current research of energy management strategies for FCHEVs: A review[J]. Automobile Applied Technology20191): 34. DOI: 10.16638/j.cnki.1671-7988.2019.01.011. [百度学术] 

4

LIN XWANG ZWU J. Energy management strategy based on velocity prediction using back propagation neural network for a plug-in fuel cell electric vehicle[J]. International Journal of Energy Research2020452): 2629. DOI: 10.1002/er.5956. [百度学术] 

5

MUÑOZ P MCORREA GGAUDIANO M Eet al. Energy management control design for fuel cell hybrid electric vehicles using neural networks[J]. International Journal of Hydrogen Energy20174248): 28932. DOI: 10.1016/j.ijhydene.2017.09.169. [百度学术] 

6

林歆悠夏玉田魏申申. 基于增强学习算法的插电式燃料电池电动汽车能量管理控制策略[J]. 工程科学学报20194110): 1332. DOI: 10.13374 /j.issn2095--9389.2018.10.15.001. [百度学术] 

LIN XinyouXIA YutianWEI Shenshen. Energy management control strategy for plug-in fuel cell electric vehicle based on reinforcement learning algorithm[J]. Chinese Journal of Engineering20194110): 1332. DOI: 10.13374 /j.issn2095--9389.2018.10.15.001. [百度学术] 

7

刘秀杰. 基于车速测的FCV能量管理策略研究[D]. 大连大连理工大学2018. [百度学术] 

LIU Xiujie. Research on FCV energy management strategy based on speed prediction[D]. DalianDalian University of technology2018. [百度学术]