摘要
集装箱码头装船时堆场翻箱具有时序性与动态性,属于NP(non‒deterministic polynomial)难问题。针对常见的顺岸式集装箱码头堆场,以最小化总翻箱次数为优化目标,考虑翻箱对装船连续性及效率的影响,基于马尔科夫决策过程构建装船时堆场翻箱模型,设计逆向强化学习算法。为验证算法的有效性,以随机决策为基准,将设计的逆向强化学习算法与码头常见规则决策、随机决策对比。结果表明,贝位堆存状态不佳时,常见的规则决策不一定优于随机决策;逆向强化学习算法可有效挖掘隐含专家经验,收敛至最小翻箱次数的概率更高,且不同堆存状态下均能更好地限制单次发箱的翻箱次数,可实现装船时堆场翻箱智能决策。
集装箱码头堆场装船发箱和翻箱效率直接影响岸边装船作业和船舶靠泊时间,是提升集装箱港口竞争力的重要突破口之一。受船舶配载等不确定信息的影响,堆场装船前预翻箱整理往往不能完全满足发箱要求,装船时翻箱作业不可避免。由于装船时翻箱不产生价
Caserta
逆向强化学习(inverse reinforcement learning, IRL)是机器学习的重要分支,可挖掘示例数据中隐含信息,克服已有智能算法难以挖掘专家经验的局限,为实现装船时堆场翻箱智能决策奠定基础。Bengio
现有研究的CRP模型通常以最小化堆场总翻箱次数为优化目标,较少限制单次发箱对应的翻箱次数;算法难以有效挖掘隐含专家决策经验,堆存状态不佳时,优化效果有限。为此,论文从模型及算法两个方面进行研究,实现以下创新:
(1)以最小化总翻箱次数为目标,同时限制单次发箱对应的翻箱次数,将堆场翻箱过程描述为MDP,构建装船时堆场翻箱动态决策模型。
(2)设计基于IRL的装船时堆场翻箱智能决策算法,挖掘并应用翻箱方案中隐含的专家决策信息。
论文设计的模型和算法可以实现装船时堆场翻箱智能决策,能有效解决各种堆存状态下的装船时堆场翻箱决策问题。
以常见的顺岸式集装箱码头为对象,研究装船时堆场翻箱问题。贝位内空箱位编号为0,集装箱发箱顺序用非0不重复编号表示,编号越小发箱越早,编号最小的集装箱为目标箱。各列最早发箱的集装箱不在最上层时,位于其上的集装箱为阻塞箱。如

图1 堆场贝位初始堆存状态
Fig.1 Initial storage state of bay in storage yard
装船时堆场发箱作业包括取箱操作和翻箱操作。取箱操作将位于列最上层的目标箱移至水平搬运设备,搬运至岸边装船;翻箱操作将目标箱上方的阻塞箱依次移至贝位内空箱位,直至目标箱位于最上层。装船时堆场翻箱落箱位在翻箱前为空箱位,需满足集装箱翻箱后不悬空。翻箱决策需避免后续不必要翻箱,减少总翻箱次数,同时保障单次发箱对应的翻箱次数均衡。

图2 集装箱1发箱后堆存状态
Fig.2 Storage status after delivering of container 1
根据顺岸式集装箱码头生产实际做如下假设:
(1)贝位内仅堆存同一尺寸类型集装箱,各拟装船集装箱发箱顺序已知且唯一。
(2)装船过程中,不允许其他集装箱进入拟装船集装箱所在贝位。
(3)翻箱操作发生在单一堆场贝位内,翻箱仅针对目标箱上方的阻塞箱。
:贝位列标号集合。
:贝位层标号集合。
:贝位内拟装船集装箱集合。
:当前目标箱发箱顺序,。
:贝位列标号,。
:贝位层标号,。
:作为下标时,表示第列第层的集装箱箱位。
:当前目标箱的阻塞箱数量,时无阻塞箱,。
:贝位堆存状态,贝位同型矩阵,元素值为对应箱位集装箱发箱顺序,对应箱位为空时取0。
:目标箱有个阻塞箱的贝位状态。
:状态的下一个堆存状态,其中,状态不是最终状态。
:贝位所有可能的堆存状态构成的有限集合,。
:发生状态转移的时刻。初始堆存状态下,,状态不是最终状态时,转移到时刻为,转移到的时刻为,定义状态与时刻的对应关系后,作为下标可与状态通用。
:状态转移时刻集合,。
:时刻目标箱前一个集装箱完成发箱,目标箱上方阻塞箱总数。
:目标箱上方个阻塞箱中最上层的阻塞箱,无阻塞箱时,。
:堆场贝位内发箱作业动作,分为取箱和翻箱,目标箱有阻塞箱时为翻箱动作,目标箱无阻塞箱时为取箱动作,翻箱落箱位不同,作业动作不同,。
:作业动作集合,翻箱时,元素为落箱位不同的翻箱动作,取箱时,元素为一个取箱动作,。
:堆存状态转移概率,为状态下采取动作后,转移到的概率。
:堆存状态转移概率集合,。
:折扣因子,平衡当前奖励与未来奖励,。
:从时刻到最终状态,获得的累积奖励。
:发箱动作选择策略,为既定状态下执行所有可能动作的概率分布。
:状态动作值函数,表示从状态出发,采取动作后,再使用策略的累积奖励。
:回报函数,计算状态转移时环境给出的奖励值,时,。
:价值函数,用于计算状态下,采取策略转移到最终状态的累积奖励期望。
:一个正整数,用于限制单次发箱的翻箱次数,堆存状态良好时可取值为2,否则取值为初始贝位堆存状态下各列中最大阻塞箱数。
:表示第列第层的集装箱箱位是否被占用,被占用时为1,否则为0。
:表示第列第层的集装箱箱位是否悬空,悬空时为1,否则为0。
:表示是否对目标箱最上层阻塞箱以外的集装箱翻箱,是则为1,否则为0。
:表示第列的阻塞箱数量是否超过,超过时为1,否则为0。
初始贝位已知时,取箱次数等于拟装船集装箱数量,翻箱次数越少,发箱‒翻箱移动作业序列越短。每次作业动作后,贝位状态发生转移,记非最终状态为,最上层阻塞箱为,转移情况为:若,目标箱阻塞箱为0,发箱动作后转移到,目标箱更新为,目标箱的阻塞箱数量更新为,最上层阻塞箱更新为,为;若,对阻塞箱翻箱,目标箱的阻塞箱数量减一,最上层阻塞箱序号更新,为。初始贝位状态经过取箱、翻箱及落箱位决策,逐步更新到最终状态,翻箱方案记录每次翻箱操作动作。装船时堆场发箱过程时序性明显,描述为MDP,记为。以最小化总翻箱次数为优化目标,同时控制单次发箱对应的翻箱次数,构建基于MDP的翻箱模型,目标函数如
(1) |
, | (2) |
, | (3) |
, | (4) |
, | (5) |
, | (6) |
, | (7) |
, | (8) |
, | (9) |
, | (10) |
MDP具有动态性,状态转移与时刻有关,可用时刻表示状态。
基于MDP的装船时堆场翻箱问题,旨在找到一种策略,在状态下采取对应的动作,使总翻箱操作回报累计值最大,即每次根据当前状态选择翻箱动作时,选择价值函数最大的状态作为,最大状态价值函数由最优状态动作值函数得到。用*表示最优,装船时堆场翻箱动态决策的目标函数可改写成如
, | (11) |
, | (12) |
装船时堆场翻箱问题具有MDP特性,可用RL方法求解。为克服RL回报函数依赖人为确定的局限,设计基于IRL的装船时堆场翻箱智能决策算法,挖掘专家翻箱方案中隐含的决策经验,应用于装船时堆场翻箱落箱位选择,实现装船时堆场翻箱智能决策。
RL中状态转移后,环境会给出奖励,训练数据是状态、动作和奖励值构成的系列。不同于RL,IRL的输入是专家示例,不需环境给出奖励,训练数据是状态‒动作序列。装船时翻箱问题中,发箱动作矩阵可由相邻状态矩阵相减求出。以
在翻箱、取箱动作矩阵中,非0元素绝对值为被操作集装箱发箱顺序编号,元素位置对应于堆场贝位中位置。翻箱动作矩阵中,负值元素位置对应堆场贝位中翻箱动作起始位置,正值元素位置对应翻箱落箱位。取箱动作矩阵中无正值元素,负值元素位置对应当前目标箱所在集装箱箱位。发箱动作矩阵可由相邻状态矩阵计算得到,此时,专家示例可只用贝位状态序列表示。
基于IRL构建回报函数,需先将状态映射为状态特征向量,并根据专家示例进行求解,相关理论如下:
(13) |
(14) |
(15) |
(16) |
其中,是基函数,将状态映射到状态特征向量中。为参数向量,是根据专家示例构建回报函数的关键。表示专家方案,表示所求方案,为极小的正数。
IRL假设待求回报函数下专家示例最优,回报函数为状态特征向量和参数向量的内积,如
特征向量需简洁全面地刻画堆场贝位堆存状态,特征向量元素选取当前目标箱发箱顺序、目标箱的阻塞箱数量、有空箱位的列的数量、空列的数量。进行翻箱落箱位选择,需分析有空位的列的性质,为此,判断当前目标箱最上层阻塞箱发箱顺序是否晚于其他列的最早发箱顺序,并关注当前堆存状态下阻塞箱数量达到的列数。每次进行翻箱动作选取之前,采取较为常见的蒙特卡洛模拟方法,计算下一个状态所有可能的特征期望。
回报函数影响RL的求解质量,人为确定具有很强的主观性,复杂问题甚至难以给出直观的回报函数。为此,以专家翻箱方案为训练数据,基于IRL还原回报函数,同时结合RL方法,设计基于IRL的装船时堆场翻箱智能决策算法,挖掘并应用专家翻箱方案中隐含决策经验,实现装船时堆场翻箱智能决策。
IRL分为最大边际和最大熵两大类,前者包括学徒学习、最大边际规划、结构化分类等,后者包括最大熵、相对熵和深度IRL等。学徒学习算法所需数据少,决策空间离散时可定量比较各策略,为此,设计学徒学习算法从专家翻箱方案中学习回报函数,结合RL实现问题求解:先基于学徒学习还原专家示例中的回报函数,用于RL进行策略迭代;对比当前策略与专家策略,基于最大边际求参数向量。循环以上两步,改进回报函数至能反应专家意图为止。装船时堆场翻箱智能决策算法流程如

图3 基于IRL的装船时堆场翻箱智能决策算法流程
Fig.3 Flow chart of intelligent decision algorithm based on IRL for yard relocation during loading
装船时堆场贝位按照既定发箱顺序发箱,若当前目标箱位于贝位内列的最上层,直接提箱装船;若当前目标箱不位于贝位内列的最上层,依次对其上方各集装箱进行翻箱操作,直至当前目标箱位于列的最上层,提箱装船。翻箱决策的本质是对当前拟翻箱的集装箱进行落箱箱位选取,最基础的翻箱决策不考虑总翻箱次数及单次发箱对应的翻箱次数,随机选择不悬空的空箱位作为翻出集装箱的落箱位。
由于随机决策无任何优化,在码头生产实际中,通常考虑翻出集装箱对后续装船的影响,依照一定的经验规则选取落箱箱位,尽量避免翻出集装箱再次阻塞贝位内其他集装箱,减少总翻箱次数。
基于规则的决策在集装箱码头生产实际中被广泛使用,但贝位堆存状态不佳时,其优化效果有限,甚至存在劣于随机决策的可能。
为验证本文算法与模型的有效性,将设计的IRL算法与码头常见规则决策、随机决策对比。
策略一:随机决策。随机选择不悬空的空箱位,作为翻出集装箱的落箱位。
策略二:规则决策。在有不悬空空箱位的列中,优先选取列内最早发箱顺序晚于被翻集装箱的列,作为翻出集装箱的落箱位;没有这样的列时,随机选择空列;没有空列时,随机选择不悬空的空箱位,作为翻出集装箱的落箱位。
策略三:基于IRL的决策。挖掘并应用专家翻箱方案中隐含决策经验,设计基于IRL的装船时堆场翻箱智能决策算法,基于奖惩机制选择奖励期望最大的不悬空空箱位,作为翻出集装箱的落箱位。
吞吐量和装卸效率是集装箱码头的重要统计指标,目前已形成完整的统计体系。相比之下,集装箱堆场翻箱率为翻箱次数与总操作次数的比值,受采集技术及堆存状态波动等影响,目前只有少数港口对翻箱率进行过初步统计,尚未形成统一有效的统计体系。根据集装箱码头生产实际,装船时堆场翻箱率通常为15%至30%不等,堆场堆存空间不足、集装箱堆存状态欠佳时,将有所增加。算例以常见的6列4层贝位为例,考虑翻箱空间需求,贝位内最多堆存21个集装箱,选取翻箱率20%、30%、40%进行算例设计较为合理,对应翻箱次数为4.2、6.3和8.4次。考虑到算例设计时翻箱方案和翻箱次数未知且需要设置初始堆存状态,为此,进行简化将贝位初始状态阻塞箱数量设置为4个、6个和8个。由于贝位初始状态阻塞箱总数是装船时堆场贝位翻箱次数的下界,该设置方法对应的翻箱率一定大于或约等于20%、30%和40%,比集装箱码头堆场实际堆存状态复杂,能够适应堆场翻箱决策需要。
定义贝位初始状态阻塞箱总数与待发集装箱总数比值为阻塞箱占比。如

图4 3种堆场贝位初始堆存状态
Fig.4 Initial storage state of bay in three scenarios
3种状态下策略一、策略二和策略三对应的100个方案的翻箱次数箱形图如

图5 3种策略的翻箱次数箱形图
Fig.5 Box plot of relocation times of three policies
为避免岸桥等待集装箱,装船时贝位翻箱需限制单次发箱的翻箱次数,优秀的翻箱策略更易形成总翻箱次数较少的方案,同时可限制方案中单次发箱的翻箱次数。以最小总翻箱次数及其出现概率、连续多次翻箱的概率为重要指标,3种策略的翻箱方案结果如
由
(1)基于IRL的决策可产生总翻箱次数最少的方案,且该类方案出现的次数明显高于其他2种策略。说明其他2种策略随机性大,基于IRL的决策对应的方案收敛至最小翻箱次数的概率显著增大。
(2)阻塞箱占比增加时,规则决策适应性不强,阻塞箱占比28.5%时,出现3回及以上连翻3次翻箱的方案数远高于其他2种策略。说明规则设计与贝位初始状态有关联,提炼规则用于装船时堆场翻箱决策的难度较大。
(3)基于IRL的决策在阻塞箱占比较大时,连续翻箱3次为3回及以上的方案数显著少于其他2种策略。说明贝位堆存状态不佳时,基于IRL的决策在限制单次发箱的翻箱次数上优势更明显。
(4)堆场贝位堆存较满且阻塞箱占比约20.0%及以上时,很难避免多次翻箱,翻箱率远高于阻塞箱占比。
Kim
为验证IRL的有效性,选取常见的6列4层贝位规模,与OH算
装船时集装箱堆场发箱作业时序性明显,以最小化总翻箱次数为目标,同时限制连续多次翻箱,基于MDP构建混合整数模型。为克服RL回报函数难以确定的局限,设计IRL算法学习专家示例,挖掘专家经验应用于翻箱决策中。以随机决策为基准,将基于IRL的决策与码头常见规则决策、随机决策对比。基于IRL决策时,总翻箱次数收敛于最小翻箱次数的概率更大;堆场贝位状态较差时,优化方案总翻箱次数集中分布于较小翻箱次数处,单次发箱时翻箱多次的情况得到有效限制。与已有智能算法进行对比,发现IRL可以有效控制总翻箱次数,受算法循环迭代次数多的影响,耗时相对较长,但在可接受范围。基于IRL制定翻箱方案可解决常见智能算法难以提炼并应用专家经验的局面,实现专家决策中隐含经验在翻箱决策中的智能应用。
作者贡献声明
张艳伟:提出研究方向,设计论文框架并指导模型构建、论文撰写。
蔡梦蝶:构建模型,进行编程求解及论文撰写。
参考文献
宓为建, 张晓华, 秦曌, 等. 集装箱码头装船贝内发箱顺序决策[J]. 中国工程机械学报, 2016, 14(4): 369. [百度学术]
MI Weijian, ZHANG Xiaohua, QIN Zhao, et al.Decisions on container retrievingorders forcontainer terminals[J]. Chinese Journal of Construction Machinery, 2016, 14(4): 369. [百度学术]
郑斯斯, 王爱虎. 路径优化算法求解集装箱码头堆场翻箱问题[J]. 工业工程与管理, 2017, 22(3): 31. [百度学术]
ZHENG Sisi, WANG Aihu. Paths optimum algorithm for the container relocation problem in the container terminals[J]. Industrial Engineering and Management, 2017, 22(3): 31. [百度学术]
CASERTA M, SCHWARZE S, VOß S. A mathematical formulation and complexity considerations for the blocks relocation problem[J]. European Journal of Operational Research, 2012, 219(1): 96. [百度学术]
EXPÓSITO-IZQUIERDO C, MELIÁN-BATISTA B, MORENO-VEGA J M. An exact approach for the blocks relocation problem[J]. Expert Systems with Applications, 2015, 42(17/18): 6408. [百度学术]
ZEHENDNER E, CASERTA M, FEILLET D, et al. An improved mathematical formulation for the blocks relocation problem[J]. European Journal of Operational Research, 2015, 245(2): 415. [百度学术]
PETERING M E H, HUSSEIN M I. A new mixed integer program and extended look-ahead heuristic algorithm for the block relocation problem[J]. European Journal of Operational Research, 2013, 231(1): 120. [百度学术]
GALLE V, BARNHART C, JAILLET P. A new binary formulation of the restricted container relocation problem based on a binary encoding of configurations[J]. European Journal of Operational Research, 2018, 267(2): 467. [百度学术]
JIN B. On the integer programming formulation for the relaxed restricted container relocation problem[J]. European Journal of Operational Research, 2020, 281(2): 475. [百度学术]
TANAKA S, TAKII K. A faster branch-and-bound algorithm for the block relocation problem[J]. IEEE Transactions on Automation Science and Engineering, 2016, 13(1): 181. [百度学术]
TRICOIRE F, SCAGNETTI J, BEHAM A. New insights on the block relocation problem[J]. Computers and Operations Research, 2018, 89: 127. [百度学术]
FORSTER F, BORTFELDT A. A tree search procedure for the container relocation problem[J]. Computers and Operations Research, 2012, 39(2): 299. [百度学术]
TANAKA S, MIZUNO F. An exact algorithm for the unrestricted block relocation problem[J]. Computers and Operations Research, 2018, 95: 12. [百度学术]
TING C J, WU K C. Optimizing container relocation operations at container yards with beam search[J]. Transportation Research Part E: Logistics and Transportation Review, 2017, 103: 17. [百度学术]
BACCI T, MATTIA S, VENTURA P. The bounded beam search algorithm for the block relocation problem[J]. Computers and Operations Research, 2019, 103: 252. [百度学术]
FEILLET D, PARRAGH S N, TRICOIRE F. A local-search based heuristic for the unrestricted block relocation problem[J]. Computers and Operations Research, 2019, 108: 44. [百度学术]
BENGIO Y, LODI A, PROUVOST A. Machine learning for combinatorial optimization: a methodological tour d’horizon[J]. European Journal of Operational Research, 2021, 290(2): 405. [百度学术]
RUVOLO P, FASEL I, MOVELLAN J. Optimization on a budget: a reinforcement learning approach[C]//22nd Annual Conference on Neural Information Processing Systems,NIPS 2008.Vancouver:Currn Associates Inc, 2009: 1385–1392. [百度学术]
ZENG Y, XU K, YIN Q, et al. Inverse reinforcement learning based human behavior modeling for goal recognition in dynamic local network interdiction[J]. Indian Journal of Medical Research, 2016, 120(3): 151. [百度学术]
陈希亮,曹雷,何明,等.深度逆向强化学习研究综述[J].计算机工程与应用, 2018, 54(5):24. [百度学术]
CHEN Xiliang, CAO Lei, HE Ming , et al. Overview of deep inverse reinforcement learning[J]. Computer Engineering and Applications, 2018, 54(5): 24. [百度学术]
LIN J L, HWANG K S, SHI H, et al. An ensemble method for inverse reinforcement learning[J]. Information Sciences, 2020, 512: 518. [百度学术]
ABBEEL P, NG A Y. Apprenticeship learning via inverse reinforcement learning[C]//Proceedings, Twenty-First International Conference on Machine Learning,ICML 2004.Banff:Association for Computing Machinery, 2004: 1–8. [百度学术]
杨放青,王超,姜滨,等.舰载机出动回收调度策略生成方法[J].北京理工大学学报, 2018, 38(10):1030. [百度学术]
YANG Fangqing, WANG Chao, JIANG Bin, et al. A method of policy automated generation for carrier aircraft sortie and recovery scheduling[J]. Transactions of Beijing Institute of Technology, 2018, 38(10): 1030. [百度学术]
KIM K H, HONG G P. A heuristic rule for relocating blocks[J]. Computers and Operations Research, 2006, 33(4): 940. [百度学术]