摘要
为预测地铁列车延误发生后不同类型乘客可容忍候车时间以深化非正常运营情况下地铁乘客出行行为方面研究,引入生存分析理论并建模。首先明确乘客可容忍候车时间的定义并分析其特征,在此基础上选择参数模型及Weibull分布构建考虑影响因素的乘客可容忍候车时间预测模型,最后通过行为(RP)和意向(SP)混合问卷调查获得的数据标定并检验模型。结果表明:乘客放弃等待而选择出站的意愿会随候车时间增加而增加;乘客可容忍候车时间与每周地铁使用频率、日常出行地铁全程耗时、整个行程预留时间、本次出行地铁全程耗时显著正相关;乘客上下班、上下学时可容忍候车时间小于购物娱乐等其他出行目的;日常地铁上下班乘客可容忍候车时间在5.4 min以上的概率高于80 %,但超过14.3 min的概率低于50 %。
地铁列车延误发生后,不可避免地会对乘客出行产生一定影响。一部分乘客会在站台原地等待后续列车,若不及时采取客流疏导,时间一长站台便容易出现拥挤,产生许多安全隐患;一部分乘客会更改其在城市轨道交通系统内的出行路径,虽然避免了在站台集聚,但却对途经的非原路径区段造成了额外的客流负担,使得拥挤风险加剧;还有一部分乘客会离开城市轨道交通系统改用其他交通方式出行,对道路交通产生了一定的压力。造成上述乘客出行行为差异的一个关键原因,便是乘客对于候车时间的忍耐程度不尽相同。因此,合理预测不同类型乘客可容忍候车时间,对突发事件下的乘客路径选择行为预测、客流诱导和疏散对策制定等方面均具有重要意义。
目前国内确定乘客可容忍候车时间的方法虽然已经从最初的分类统计进行规律总
生存分析是生物统计研究领域的热点,主要研究观测对象的生存状
考虑到列车延误发生后,乘客普遍优先重视出行时
生存分析用于研究观测对象从规定的观测起点到发生给定终点事件可能经历的时间,观测对象在此期间标记为存活状态,这段时间定义为生存时间T,为连续型非负随机变量。则观测对象生存时间T超过给定时间t的概率S(t)为
(1) |
式中:S(t)在生存分析中称为生存函数;F(t)为生存时间T的分布函数,表示观测对象生存时间T不超过时间t的概率。
若观测对象在时间t处于存活状态,则会相应地计算该观测对象在t到t+△t这一极小时间区间内发生终点事件的可能程度h(t),即:
(2) |
式中:h(t)在生存分析中称为风险函数,也可理解为在时间t仍存活的观测对象将发生终点事件的条件概率密度; f(t)为生存时间T的概率密度函数; S(t)为生存时间T的生存函数。
生存分析主要讨论风险函数h(t)受协变量影响的情
将乘客进入站台开始候车作为观测起点,因等待过久而失去耐心选择出站作为终点事件,则乘客在此期间的候车时间可定义为生存时间,其可容忍候车时间便是离开站台时已等待的时间。
为了得到可容忍候车时间的具体分布并建立可容忍候车时间与各影响因素之间的量化关系,本文选择构建生存分析参数模型,这方面常用的模型有比例风险模型和加速失效时间模型。比例风险模型构造的风险函数与协变量回归方
(3) |
式中:称为基准风险函数,指没有任何因素影响下观测对象在时间t的基础风险,即,其函数形式根据假定生存时间服从的概率分布确定;和分别为协变量和回归系数向量;n为协变量个数。
加速失效时间模型构造的风险函数与协变量回归方
(4) |
式中:观测对象在时间t的基础风险为,相当于将时间t调整了倍,由此得名加速失效时间模型;和分别为协变量和回归系数向量;n为协变量个数。
至于是选择比例风险模型还是加速失效时间模型,应根据所研究对象发生终点事件的风险特点先合理假定生存时间服从的概率分布,若该概率分布只适用于其中一种模型,则无需做选择;若都适用,此时这两种模型的预测结果一致且彼此的回归系数存在相互转换关
目前既有文献[

图1 生存分析参数模型常用概率分布的风险函数
Fig. 1 Hazard functions of commonly used probability distributions in survival analysis
本文的研究对象乘客无法获知准确列车延误持续时间,使得其难以确定最终等到列车需要花费的总时间,而一直在站台原地等待又会使整个行程的耗时不断增加,因此已投入的候车时间越长,乘客越容易出现焦躁与不安情绪,放弃继续等待而出站选择其他交通方式,从而及时控制整个行程耗时的可能性就越高。这意味着随着候车时间增加,乘客放弃等待而选择出站的意愿也在增加,即发生终点事件的风险在不断增加。根据
由于Weibull分布的形状参数k决定了分布变化趋势,故通常作为待估计常数,不与协变量构建回归方
如果构建比例风险模型,根据
如果构建加速失效时间模型,根据
综上所述,本文基于生存分析最终构建的乘客可容忍候车时间预测模型为
(5) |
式中:T为乘客可容忍候车时间;S(t)、f(t)分别对应生存函数和概率密度函数;X为影响乘客可容忍候车时间的因素所组成的协变量向量;k为形状参数,为了符合风险函数值随候车时间增加而增加的特点,需满足;λ为尺度参数,有两种回归方程可供选择;和、和为相应的回归系数向量和截距,,。
模型中的参数通过极大似然估计法确定。对于乘客样本,模型的似然函数为
(6) |
式中:为乘客i在观测期间的候车时间;为乘客i的可容忍候车时间影响因素的属性值向量;为乘客i的状态变量,若观测结束时仍在站台原地候车则,否则;m为乘客样本数。
为获知乘客年龄、出行目的等体现个体差异
在综合参考既有文献[
乘客个人属性和平时出行特征属于RP调查,主要获取体现乘客个体差异性的信息。乘客个人属性涉及4项调查内容:性别、年龄、职业、月收入。平时出行特征涉及7项调查内容:主要乘坐地铁出行所在城市、每周地铁使用频率、乘坐地铁主要出行目的、乘坐地铁主要出行时段、地铁全程耗时(进站到出站)、选择地铁出行时为整个行程预留的时间、实际遭遇列车晚点经历。其中,职业、实际遭遇列车晚点经历主要为无效问卷的筛选提供辅助信息,后续不作为潜在影响因素考虑。
模拟情景下出行特征属于SP调查,主要调查乘客在不同出行情景下可容忍候车时间偏好。模拟情景设定被调查者现在进行一次以地铁为主方式的出行,预计地铁全程耗时为20/30/40/50/60 min,出行目的、出行时段、为整个行程预留的时间与平时出行特征一致,在站台候车时被告知列车晚点且持续时间不明,从而询问被调查者在这种情况下可容忍候车时间(一旦超过该时间便会直接出站选择其他交通方式)。每位被调查者可得到5组数据,彼此因模拟情景不同而具有独立性。
本文借助问卷星平台采取网络问卷的形式进行调查,调查时间为2021年3月1日至14日,共收集主要乘坐地铁出行所在城市填写了上海的问卷932份。在此基础上进行无效问卷剔除,共计65份,具体涉及部分属性(职业、年龄、月收入、乘坐地铁主要出行目的)之间存在正常逻辑冲突的问卷28份、填写时间过短的问卷7份、实际列车晚点经历下在站台原地候车时间大于对照模拟情景下可容忍候车时间的问卷30份。最终得到的有效问卷数为867份,在0.05显著性水平下符合抽样样本数要
乘客个人属性、平时出行特征方面,调查数据的男女比接近1:1;年龄分布占比最高的是23~30岁,为43.8 %;职业以企事业人员为主,占74.1 %;月收入分布中10 001~20 000元的占比最高,为28.0 %;主要乘坐地铁出行所在城市均为上海;每周地铁使用频率占比最高的是5 d,为34.3 %;乘坐地铁主要出行目的以上下班为主,占65.2 %;主要在早、晚高峰乘坐地铁出行的比例为68.4 %;地铁全程耗时在31~40 min的占比最高,为27.5 %;选择地铁出行时为整个行程预留的时间在6~10 min的占比最高,为38.4 %,且预留时间在15 min以内的比例达到75.0 %;39.9 %的被调查者曾经历列车晚点,在站台等待是最普遍的选择。具体统计结果如
模拟情景下出行特征方面,随着地铁全程耗时的增加,乘客可容忍候车时间呈现了总体增加的趋势,其中15 min以内的占比始终高于68 %,如

图2 不同地铁全程耗时模拟情景下乘客可容忍候车时间的分布
Fig. 2 Distributions of passenger tolerable waiting time under different metro travel time scenarios
对上述问卷调查获得的定量和定性数据进行赋值,从而生成模型用数据集。其中,涉及时间的变量均转化为连续型变量,无序分类变量尽量将特点相近的分类归在一起,以减少哑元变量的引入,如出行目的中上下班和上下学有硬性到达时间要求,可同属一类,其他出行目的则另属一类。各变量的定义及赋值说明如
由于一个被调查者会得到5组不同地铁全程耗时出行情景下可容忍候车时间数据(每组数据x1至x8相同,x9、t存在差异),故最终生成的数据集共有4 335个乘客样本。
可容忍候车时间相当于观测结束时已经出站乘客的候车时间,即每个乘客的状态变量δ均为1,回归方程选择以便于参数标定,则似然函数可由
(7) |
采用向后逐步回归法对潜在协变量进行筛选及极大似然估计,显著性水平取0.05,具体计算过程由Stata数据分析软件完成,最终的协变量筛选及参数估计结果如
从
最终标定得到的地铁列车延误情况下乘客可容忍候车时间预测模型为
(8) |
式中:T为乘客可容忍候车时间;x4、x5、x7、x8、x9分别为乘客的每周地铁使用频率、出行目的、平时出行地铁全程耗时、整个行程预留时间、本次出行地铁全程耗时,取值详见
考虑到每种协变量组合均会生成不同的生存函数曲线,难以逐一比较并分析,本文选择将每周地铁使用频率为5 d(x4 = 2)、出行目的为上下班(x5 = 1)、整个行程预留时间为10 min(x8 = 10),每次出行地铁全程耗时稳定(平时出行地铁全程耗时x7 为 本次出行地铁全程耗时x9 为 10/20/30/40/50/60 min)的日常地铁上下班乘客作为对象,对其可容忍候车时间进行结果讨论,以便为早晚高峰地铁运营延误发生后的应急处理方案的选择提供时限参考。将上述协变量组合代入

图3 日常地铁上下班乘客可容忍候车时间的生存函数
Fig. 3 Survival functions of tolerable waiting time of metro-oriented commuters
从
本文以无法获知准确列车延误持续时间,且在系统内绕行路径不可行的乘客为研究对象,基于生存分析理论构建了这类乘客在个人属性、出行特征等影响因素下的可容忍候车时间预测模型,主要结论如下:
(1)本文的研究对象乘客具有因等待过久而失去耐心选择出站的意愿随候车时间增加而增加的特点,为此在构建生存分析参数模型时应选择Weibull分布。基于Weibull分布的比例风险模型和加速失效时间模型可相互转换,因此最终的预测模型对两者进行了整合。
(2)基于RP和SP混合问卷调查获得的数据挑选潜在协变量并标定模型,结果表明:乘客可容忍候车时间与每周地铁使用频率、平时出行地铁全程耗时、整个行程预留时间、本次出行地铁全程耗时显著正相关;乘客上下班、上下学时可容忍候车时间小于购物娱乐等其他出行目的。
(3)根据模型预测结果,日常地铁上下班乘客可容忍候车时间在5.4 min以上的概率高于80 %,但超过14.3 min的概率低于50 %,可为早晚高峰地铁运营延误发生后的应急处理方案的选择提供时限参考。
该模型可为预测列车延误情况下不同乘客的可容忍候车时间提供有效方法,有利于深化非正常运营情况下地铁乘客出行行为方面的研究。后续进一步的研究工作是补充更多城市的乘客数据集进行模型推广,更深入客观地从中挖掘显著影响因素及其影响规律。
作者贡献声明
王镇波:数据分析,模型构建。
叶霞飞:理论框架搭建,论文修改指导。
王 治:问卷设计,论文核心结论提炼。
参考文献
何明卫, 梁洁, 帅春燕, 等. 公交候车时间容忍阈值的分布特征及影响因素[J]. 交通运输系统工程与信息, 2019, 19(5): 231. [百度学术]
HE Mingwei, LIANG Jie, SHUAI Chunyan, et al. Distribution characteristics and influencing factors of tolerance threshold of waiting time[J]. Journal of Transportation Systems Engineering and Information Technology, 2019, 19(5): 231. [百度学术]
李春晓. 城市轨道交通突发事件下乘客路径选择行为建模与仿真[D]. 北京: 北京交通大学, 2017. [百度学术]
LI Chunxiao. Modeling and simulation of passenger route choice behavior under emergencies of urban rail transit[D]. Beijing: Beijing Jiaotong University, 2017. [百度学术]
曲振. 列车延误条件下城市轨道交通时刻表优化模型研究[D]. 北京: 清华大学, 2016. [百度学术]
QU Zhen. Research on rescheduling optimization model with train delay in urban rail transit[D]. Beijing: Tsinghua University, 2016. [百度学术]
TAVASSOLI A, MESBAH M, SHOBEIRINEJAD A. Modelling passenger waiting time using large-scale automatic fare collection data: An Australian case study[J]. Transportation Research Part F: Traffic Psychology and Behaviour, 2018, 58: 500. [百度学术]
RAHIMI E, SHAMSHIRIPOUR A, SHABANPOUR R, et al. Analysis of transit users’ waiting tolerance in response to unplanned service disruptions[J]. Transportation Research Part D: Transport and Environment, 2019, 77: 639. [百度学术]
贺立. Weibull参数模型和半竞争风险模型的变量选择问题[D]. 杭州: 浙江大学, 2018. [百度学术]
HE Li. Variable selection of Weibull parameter model and semi-competing risk model[D]. Hangzhou: Zhejiang University, 2018. [百度学术]
王建文. 生存分析参数回归模型拟合及其SAS实现[D]. 太原: 山西医科大学, 2008. [百度学术]
WANG Jianwen. Parametric regression methods in survival analysis and their corresponding SAS procedures[D]. Taiyuan: Shanxi Medical University, 2008. [百度学术]
蒋宏, 方守恩, 陈雨人. 删失数据下事件持续时间多因素生存分析模型[J]. 同济大学学报(自然科学版), 2012, 40(12): 1808. [百度学术]
JIANG Hong, FANG Shouen, CHEN Yuren. Multivariate survival analysis models for incident duration with censored data[J]. Journal of Tongji University(Natural Science), 2012, 40(12): 1808. [百度学术]
刘启远, 孙剑, 田野, 等. 机非交互路段非机动车越线超车行为建模与仿真[J]. 同济大学学报(自然科学版), 2019, 47(11): 1585. [百度学术]
LIU Qiyuan, SUN Jian, TIAN Ye, et al. Modeling and simulation of cross-line overtaking behavior of non-motorized vehicles at mixed flow road section[J]. Journal of Tongji University(Natural Science), 2019, 47(11): 1585. [百度学术]
Stata Corp. Stata survival analysis reference manual release 15[Z]. Texas: Stata Press, 2017. [百度学术]
CURRIE G, MUIR C. Understanding passenger perceptions and behaviors during unplanned rail disruptions[J]. Transportation Research Procedia, 2017, 25:4392. [百度学术]
LIN T, SHALABY A, MILLER E. Transit user behaviour in response to subway service disruption[C]// Annual Conference of the Canadian Society for Civil Engineering. London: [s.n.], 2016: TRA-930-1 - TRA-930-11. [百度学术]
ROY S, BASU D. An approach towards estimating critical value of waiting time at transit stops[J]. Journal of Traffic and Transportation Engineering (English Edition), 2021, 8(2): 257. [百度学术]