摘要
以某市连续5日全天公交阶梯收费刷卡数据、公交出行GPS(global positioning system)数据及公交站点数据为基础,结合出行链算法与随机森林网络,构建了一套公交下车站点融合分析模型。在模型中,首先匹配GPS数据与公交站点数据,确定不同时刻的公交到站信息,再以乘客上车站点位置、出行频率、活动空间、下车点用地类型分布、下车概率为输入,识别乘客下车站点,最终下车站点推算率提升至100%,全样本有效率达76.2%,相比现有基于出行链的方法,识别有效率提升37%。
公共交通因其成本低、能耗低、占用资源少等优点,成为众多城市倡导的出行方式。随着相关政
在下车站点推算方法中,集计推算是一种常用、便捷的估计方法,但该方法仅能推算出站点客流总量,无法确定每位乘客的下车站点。个体推算方法中,基于公交出行链的估计考虑较多,这些方法相对容易且易于理解。2002年,James
但基于公交出行链的经典推算方法难以估计单次、独立出行的下车站点,造成估计客流不能代表所有公交乘客真实的出行情况。一些研究通过补充多日刷卡记录推算更多的数据,其主要思路是在多日数据中寻找相似的出行记录或与他日出行记录建立连接修复断裂出行链。但该方法在海量数据中需要设定复杂的规则,同时并不能有效地提升推算率。为解决该问题 Gordon
乘客在选择某线路某站点上车后,可供选择的下车站点是有限的,因此相关研究将乘客下车站点推算视为分类问题,采用机器学习方法实现推
对于这类数据,也有学者从概率角度进行分析。胡继华
然而,大部分公交线路采用“一票制”收费方式,乘客下车时不会进行刷卡操作,基于公交IC卡的下车站点估计缺乏有效验证。对此,本文首先利用随机森林算法对现有出行链算法进行优化,构建了完整的公交出行下车站点估计模型。然后结合具有公交上下站点的阶梯收费刷卡数据,对两种算法的识别效果进行实证评估,保障了算法的可靠性。
根据个体乘坐公交的行为模式,下车站点推算包括两个步骤:首先结合乘客常见行为模式,构建出行链估计模型,再针对出行链断裂等复杂情况,利用随机森林网络进行进一步优化。
个体每日出行活动具有一定规律性,其公交出行多呈现时空闭环特性。本文结合现有研究,以个体多日或连续的公交出行行为为基础,首先构建包含下述3条推断的出行链估计模型,初步推算下车站点。
(1)当乘客存在相邻的两次乘车出行,若后次的乘车站点位于前次乘车站点的下游,则乘客前次乘车的下车站点位于后次乘车站点附近。
(2)当乘客为最后一次乘车出行,若该乘车站点远离当日第一次乘车站点,则为返程出行,下车站点应位于第一次乘车站点附近。
(3)当乘客为最后一次乘车出行,若该上车站点靠近当日第一次乘车站点,则为非返程出行,下车站点位于第一次乘车的下车站点附近。
由于个体出行行为相对复杂,仅依靠出行链模型不可能实现所有情况分析,尤其是单次刷卡记录和出行链断裂记录。对此本文结合随机森林网络,对两类数据的下车站点进行预测。利用公交IC卡数据推算下车站点可视为一种分类问题,即通过乘客上车时间、乘坐线路等特征筛选最可能的下车站点。随机森林网络是一种统计学习算法,通过重抽样方法从原始样本中抽取多个样本,对每个样本进行决策树建模,组合多棵决策树的预测并投票得出最终结果。随机森林网络具有分类回归精度高、不易过拟合、高维数据适应性强等优点,适用于复杂问题的分类与拟合分析。公交下车站点估算本质可视为一种分类问题,本文以下车站点编号为目标,将上车时间、乘坐线路、上车站点、持卡类型、用地性质等个体属性作为输入,构建相应随机森林网络。
(1) |
式中:H(x)为随机森林对输入变量x的最终预测; hi(x)为单个决策树分类模型;I(X)为示性函数。边缘函数是随机森林网络的重要属性,代表着对于输入变量X的分类中,正确分类得票数超过错误分类得票数的概率,边缘函数越大,随机森林分类的正确率越高,决策树与整个森林的边缘函数如公式(
(2) |
(3) |
式中:与分别为决策树与整个森林的边缘函数;为所取平均值;为判断正确的分类概率;为判断错误的其他分类的概率的最大值。
(4) |
(5) |
(6) |
最终随机森林网络模型表达式如
(7) |
式中:为随机森林中待标定参数;T为待标定参数的个数;n为输入变量维度。
公交阶梯收费刷卡数据是乘客下站识别的基础,相比传统公交IC卡数据,乘客在分段计费线路的上下车均要刷卡,为个体层面数据验证提供了保障。本文公交IC卡数据涵盖某市连续5个工作日城市区域全部数据,共计11条分段计费线路,215 212条刷卡数据。线路均为中长距离干线,沿城市主要客流走廊布设,占城市公交总运量的40%,具有良好的代表性。刷卡数据字段包含乘客持卡编号、刷卡时间、乘坐线路、乘坐车辆、刷卡行为等信息,其中刷卡行为用以说明乘客是上车还是下车。
公交GPS用于确定公交实时位置,判断公交到站情况。其数据字段包含车辆牌照、线路、时间、速度和经纬度等信息。
由于公交GPS数据不包含公交进出站信息,需要联合公交站点数据,识别不同时间公交到站点。数据字段包括站点名称,经纬度,途经线路等,
乘客公交出行中将产生多种关联信息,合理的输入参数是下车站点估计的关键,根据个体实际分析,本文选择如下特征,同时结合其他信息构造新的特征,作为随机森林的输入。
个体的一日活动通常具有规律,同一时段、同一路线及站点的活动目的相对固定,下车站点也基本相同。
为保障识别结果的准确,上车时间以小时为间隔进行离散化,上车路线、上车站点利用标签编码法(label encoding),从0开始进行重新编码。
活动半径表征乘客活动空间大
(8) |
式中:为活动半径;为形心到上车站点i的距离。
图1 活动半径计算原理
Fig.1 Calculation principle of active radius
由于活动半径与出行频率分别为连续型与接近连续型变量,直接使用难以获得准确估计结果,同时无法直接确定分类类型。对此,本文利用K‒means聚类方法对两个变量分别聚为3类,以划分不同出行特征的乘客,
为了更直观地展示特征取值分布,将取值进行min‒max归一化,取值界限约束到[0,1]之间。以出行频率f为例,转换函数如
(9) |
式中:为出行频率f中第k个取值;为归一化后的取值;为所有出行频率f中的最小值;为所有出行频率f中的最大值。
图2 公交乘客聚类
Fig.2 Clustering of bus passengers
不同用地类型下的站点客流吸引力存在较大差异,本文以站点周围500 m半径为活动范围,统计下游主要用地类型,
图3 站点500 m覆盖用地示意图
Fig.3 Schematic diagram of 500m site land use coverage
由于乘客并不会在所有下游站点进行选择,本文以R为活动空间影响阈值,提取当前站点到R内特定站点C的用地面积,并将最大面积作为输入特征。
(10) |
式中:C为阈值范围内的下游站点数;R为活动范围直径; 为线路非直线系数;为线路平均站间距。
受站点周边区域人口、岗位和土地利用等因素的影响,不同站点的下车客流存在差异,区域内站点下车客流能够反映出区域的吸引力,吸引力较大的区域更有可能吸引乘客下车。本文将同一群体在同一线路、同一方向、同一站点的下车分布频率作为先验概率,则概率最大的站点为乘客最可能前往站点。以0.5为最大概率的下限值,若最大概率大于下限值,则最大概率对应的站点可推算为下车站点,若小于下限值则需要采用其他规则重新推算。其中,本文利用乘客下车信息直接获取该先验概率,对于非阶梯收费线路,可预先调查获取目标线路各站点的下车乘客数,再统计获取目标站点下游站点的下车概率。
对于无法确定最大概率站点(概率>0.5)的情况,可利用相邻站点概率分布进行叠加,以此反映相邻站点周边区域的下车吸引力。如
图4 站点连续区域下车概率示意图
Fig.4 Probability diagram of getting off in continuous area of station
本文针对5个连续工作日内采集的215 158条公交出行数据,分别对比现有公交出行链模型、随机森林算法与本文构建融合模型的下车站点识别差异,并结合推算率、有效率、正确率3种指标分析识别结果。其中正确率代表估计站点与实际站点一致;有效表示推算站点与实际站点误差在一个站范围内。
(11) |
(12) |
式(
针对公交出行链模型无法推算的35.5%剩余数据,将既有的随机森林方法与本文提出的融合模型的识别效果进行对比,如
图
图5 下车站点短距离误差分布
Fig.5 Error distribution of short distance at leaving station
图6 下车站点长距离误差分布
Fig.6 Error distribution of long distance at leaving station
从长距离出行的误差分布来看,近80%的误差在0~1 km之内,误差在5 km以上的占6.4%。由于城市交通出行需求研究中,常以交通小区为基本单位,占地面积为1~2 k
准确预测公交客流下车站点是了解站点客流、线路客流以及公交起讫点的基础,有助于把握公交出行特征,对智能公交规划、调度、运营、管理具有重要的意义。
(1)本文以公交阶梯收费刷卡数据、车载GPS数据为基础,在传统公交出行链识别算法基础上,结合随机森林算法,构造了一套公交下车站点融合分析模型。首先基于公交出行链的方法,估计大部分乘客的下车站点,然后对未推算记录,利用随机森林方法进一步完成估计。
(2)构建的融合模型针对刷卡记录的下车站点成功推算率达到100%,全样本有效率达76.2%,其中近80%的记录误差在1 km范围以内。说明本文提出模型具有较高的识别效果,能够满足区域层面(交通小区)的分析需求。
作者贡献声明
杨 飞:核心思想提炼。
姜海航:论文撰写,论文修改。
郭煜东:论文撰写,论文修改。
刘建国:数据收集处理,论文撰写。
周 涛:资料整理,思想提炼。
参考文献
中华人民共和国国务院. 国务院关于城市优先发展公共交通的指导意见(国发〔2012〕64号)[EB/OL]. [2013-01-15]. http://www.gov. cn/zhengce/content/2013-01/05/content_3346.htm. [百度学术]
The State Council of the People’s Republic of China. Guiding opinions of the State Council on giving priority to the development of public transport in cities(No.64 Document in 2012 of State Council)[EB/OL]. [2013-01-15]. http://www.gov.cn/zhengce/content/2013-01/05/content_3346.htm. [百度学术]
JAMES J B, ROBERT N, ADAM R, et al. Origin and destination estimation in New York City with automated fare system data[J]. Transportation Research Record Journal of the Transportation Research Board, 2002, 1817: 183. [百度学术]
MUNIZAGA M A, PALMA C. Estimation of a disaggregate multimodal public transport origin–destination matrix from passive smartcard data from Santiago, Chile[J]. Transportation Research Part C: Emerging Technologies, 2012, 24: 9. [百度学术]
ALSGER A, ASSEMI B, MESBAH M, et al. Validating and improving public transport origin–destination estimation algorithm using smart card fare data[J]. Transportation Research Part C: Emerging Technologies, 2016, 68: 490. [百度学术]
HE L, TRÉPANIER M. Estimating the destination of unlinked trips in transit smart card fare data[J]. Transportation Research Record, 2015, 2535(1): 97. [百度学术]
KUMAR P, KHANI A, HE Q. A robust method for estimating transit passenger trajectories using automated data[J]. Transportation Research, 2018, 95: 731. [百度学术]
GORDON J B, KOUTSOPOULOS H N, WILSON N H M. Estimation of population origin–interchange–destination flows on multimodal transit networks[J]. Transportation Research Part C: Emerging Technologies, 2018, 90: 350. [百度学术]
YAN F, YANG C, UKKUSURI S V. Alighting stop determination using two-step algorithms in bus transit systems[J]. Transportmetrica A: Transport Science, 2019, 15(2): 1522. [百度学术]
杨鑫. 基于IC卡数据的公交客流智能推断方法研究[D]. 北京: 北京邮电大学, 2019. [百度学术]
YANG Xin. Research on intelligent bus passenger flow inferring method based on IC card data[D]. Beijing: Beijing University of Posts and Telecommunications, 2019. [百度学术]
JUNG J, SOHN K. Deep-learning architecture to forecast destinations of bus passengers from entry-only smart-card data[J]. Iet Intelligent Transport Systems, 2017, 11(6): 334. [百度学术]
ASSEMI B, ALSGER A, MOGHADDAM M, et al. Improving alighting stop inference accuracy in the trip chaining method using neural networks[J]. Public Transport, 2020, 12(1): 89. [百度学术]
胡继华,邓俊,黄泽. 结合出行链的公交IC卡乘客下车站点判断概率模型[J]. 交通运输系统工程与信息, 2014, 14(2): 62. [百度学术]
HU Jihua, DENG Jun, HUANG Ze. Trip-chain based probability model for identifying alighting stations of smart card passengers[J]. Journal of Transportation Systems Engineering and Information Technology, 2014, 14(2): 62. [百度学术]
李佳怡, 张锦, 张静文,等. 城市公交乘客下车站点推算方法和有效性评价[J]. 武汉大学学报(信息科学版), 2018, 43(8): 1172. [百度学术]
LI Jiayi, ZHANG Jin, ZHANG Jingwen, et al. An algorithm to identify passengers’ alighting stations and the effectiveness evaluation[J]. Geomatics and Information Science of Wuhan University, 2018, 43(8): 1172. [百度学术]