摘要
手机导航轨迹数据具有多种交通方式,反映大规模人群的活动情况,适合开展不同交通方式下的出行模式研究。基于手机导航数据,利用LightGBM模型实现出行交通方式分类,得到步行、机动车和非机动车3种交通方式下的人群轨迹。基于这3类交通方式,给出人群出行在周末和工作日下时间、空间和距离的分析指标,并对上海4天数百万条手机导航数据开展了实验分析。结果表明:在时间分布上,上海居民的周末出行高峰比工作日更晚并且持续时间更短,出行方式主要以机动车和步行为主;在空间分布上,机动车主要集中在高架区域,步行主要集中在地铁站附近,高架路和地铁站的引导标志不充足,周末交通枢纽和商圈类热点区域比工作日多;在距离分布上,导航出行距离符合截断幂律分布,人群导航出行以中短距离为主,并随距离增长迅速衰减。研究结果可以为城市规划、城市交通管理政策的制定提供理论依据和技术支撑。
大规模人群出行可以揭示人类活动规律,在人类日常活动性研究、交通状况预测、城市规划等方面具有广阔的应用前景。目前国内外研究学者已经开展了大量研究,根据数据源,相关工作可分为基于单一数据源的人群出行模式分析以及基于多源数据的出行模式分析。
基于单一数据源的大规模人群出行模式研究所使用的数据一般包括手机信令数据、出租车轨迹数据、网约车订单数据等。例如,丁亮
单一的数据源通常只能代表部分群体的行为,而多源数据融合能更全面地反映整体的活动模式,增强分析结果的代表性。Ma
综上所述,使用单一来源数据或多源数据都可以满足一定场景下的大规模人群出行模式分析,但前者存在时空分辨率低、交通方式单一、用户群体组成单一、采集成本高、样本量小等问
使用的上海GIS数据来源于OpenStreetMap网站。上海市位于长江入海口,常住人口2 489.43万人,行政区划面积6 340.5k
所用的手机导航数据时间范围为2017年9月16日(周六)至2017年9月19日(周二),原始数据格式如
日期 | 时间 | 用户ID | 经度/(°) | 纬度/(°) | 速度/(km· | 方位角/(°) |
---|---|---|---|---|---|---|
2017-09-18 | 06:54:45 | 794c6f51f4d51074 | 121.355 547 | 31.290 222 | 86 | 278 |
2017-09-18 | 06:54:45 | Cd1ae0429f488249 | 121.403 642 | 31.286 996 | 51 | 103 |
… | … | … | … | … | … | … |
2017-09-18 | 06:54:45 | a6a91e7567acd6cf | 120.910 564 | 31.658 986 | 0 | 0 |
日期 | GPS点数 | 不同ID数 |
---|---|---|
09-16(周六) | 1 470 631 299 | 1 690 704 |
09-17(周日) | 1 391 451 332 | 1 561 675 |
09-18(周一) | 1 267 941 832 | 1 454 796 |
09-19(周二) | 1 359 194 630 | 1 451 457 |
4天总数 | 5 489 219 093 | 6 158 632 |
原始导航数据中存在脏数据、轨迹未分割等问题,因此需要进行预处理。具体包括:
(1)冗余数据清洗:主要包括同一用户在同一时刻记录的多个不同或相同坐标点。记录时间不在合理范围内的坐标点。
(2)轨迹分割:采用时间间隔分割法,提取单一用户的所有导航数据并按时间排序,若前后两数据点时间间隔超过时间间隔阈值,则在中断点上将原始轨迹划分为2条轨迹。手机导航轨迹采样间隔为1s,但城市环境中存在高楼、高架桥、隧道等遮挡,可能导致定位中断一段时间,因此时间间隔阈值设置为5min。
(3)异常轨迹清洗:冗余数据清洗仅针对数据点层面的异常,但有些异常或无效点无法根据单个点识别,因此在完成轨迹分割后再进行轨迹清洗。包括两方面:①误触数据清洗,对于持续时间不足10s、位移不足10m的轨迹,认为是用户误触产生,删除整条误触轨迹。②定位漂移数据清洗,部分轨迹中出现时间相邻的点在2个相距较远的位置来回跳动的情况,影响了导航轨迹长度的计算,这种情况认为出现了定位漂移,需删除整条轨迹。
经过预处理的导航数据无交通方式标注,还无法直接用于人群的出行模式分析,需要进行交通方式分类。本文采用轻量级梯度提升机模型(LightGBM)识别导航轨迹数据的步行、非机动车和机动车3种交通方
交通方式识别模型中使用60个特征:5%~95%每5分位数的速度特征(19个)、5%~95%每5分位数的加速度特征(19个)、5%~95%每5分位数的角度转变量(19个)、停留率、速度转变率、角度转变
特征 | 公式及描述 |
---|---|
速度特征 | ,其中为和之间的大圆距离,为点和之间的时间间隔。 |
加速度特征 | ,其中和分别为点和的速率,t为时间间隔。 |
角度转变量特征 | ,其中为点的方位角。 |
停留率 |
,其中||为轨迹中速度小于某一速度阈值的点数量,阈值取3.4 m· |
速度转变率 |
,其中||为轨迹中速率变化()大于某一阈值的点数量,,阈值取0.26m· |
转角转变率 |
,其中为转角转变量大于某一角度阈值的点数量,阈值取19 |
GeoLife是微软亚洲研究院提供的开源GNSS(Global Navigation Satellite System)轨迹数据集,收录了2007年4月至2012年8月期间182位志愿者的移动轨迹,其中65人标注了各段轨迹的交通方式,包括步行、自行车、公交车、汽车、火车、地铁、飞机
利用不同交通模式下的导航时间序列来分析导航人群的出行时间模式。以30min为间隔,分步行、非机动车和机动车3种交通方式,统计每个时间段内总的导航轨迹数量,得到的时间序列代表导航出行时间模式。通过分析时间序列的峰值等特征时间,按照不同的交通方式分析周末和工作日的人群出行时间模式。
利用不同交通模式下导航终点在城市空间中的热点来分析导航人群的出行空间模式,使用核密度分析法来计算热点。通过核密度分析法分析周末和工作日不同交通方式导航轨迹的空间模式,并结合高架路中心线、地铁站出入口等辅助数据对热点地区进行识别。空间模式分析流程如

图1 导航轨迹空间模式分析流程
Fig. 1 Flowchart for analysis of navigation trajectory spatial pattern
人群出行距离的分布反映了人群的活动性,截断幂律分布是一种概率分布模型,可以模拟导航轨迹的出行距离模式。
幂律分布属于重尾分布(heavy-tail),其概率密度函数尾部的衰减比指数函数慢,在双对数坐标系下呈现为一条直线,被广泛用于对人群活动性建模。对于人类活动性而言,虽然大部分人的活动集中在小范围内,但仍有一部分人会进行长距离的出行,例如去离家较远的机场、火车站、旅游景点等。对于城市内部的活动而言,人群的移动受到出行时间、城市边界的限制,移动的距离不是无限的,而是在长距离区间有更快的衰减速
(1) |
式中:p为轨迹数据长度服从的概率分布;d为轨迹数据长度;为截断幂律分布的系数;为幂律分布的指数(形状参数);为指数衰减因子。
导航距离模式分析的流程如

图2 导航距离模式分析流程
Fig. 2 Flowchart for analysis of navigation distance pattern
使用GeoLife数据集训练LightGBM交通方式识别模型,并进行5折交叉验证,模型在测试集上的平均准确率为0.944。用调参后的模型对测试集进行预测,得到的混淆矩阵如
交通方式 | 预测值 | 精确率 | 召回率 | F1分数 | ||
---|---|---|---|---|---|---|
机动车 | 步行 | 非机动车 | ||||
机动车 | 586 | 29 | 10 | 0.954 4 | 0.937 6 | 0.945 9 |
步行 | 16 | 574 | 17 | 0.932 0 | 0.958 1 | 0.944 9 |
非机动车 | 12 | 26 | 294 | 0.915 9 | 0.885 5 | 0.900 5 |
将训练好的模型应用于实验导航数据,并将识别出的交通方式附加到轨迹数据库中的相应轨迹上。以导航终止时间为标准进行统计,4天的轨迹总体情况如
日期 | 机动车轨迹数/条 | 步行轨迹数/条 | 非机动车轨迹数/条 | 总计轨迹数/条 |
---|---|---|---|---|
09-16(周六) | 1 110 307 | 1 081 356 | 125 658 | 2 192 921 |
09-17(周日) | 1 064 156 | 923 640 | 114 052 | 2 101 848 |
09-18(周一) | 994 633 | 863 981 | 112 985 | 1 971 599 |
09-19(周二) | 997 554 | 872 186 | 113 450 | 1 983 190 |
总计 | 4 166 650 | 3 741 163 | 466 145 | 8 373 958 |
分机动车、步行和非机动车3种交通方式分析导航轨迹的时间模式,结果如

图3 不同交通方式导航轨迹时间模式
Fig. 3 Navigation trajectory time pattern of different traffic modes
日期 | 第一峰值时刻 | 第二峰值时刻 | 第3峰值时刻 | 晚间转折点 |
---|---|---|---|---|
周末 | 11:00 | 14:00 | 17:30 | 20:00 |
工作日 | 8:30 | 13:30 | 18:00 | 20:00 |
3种导航方式的导航时间模式均呈现明显的早高峰—午高峰——晚高峰周期性,峰值时间基本一致,但峰值的强弱存在明显差异:机动车工作日午高峰较强,而步行、非机动车早晚高峰较强。周末(9月16日、9月17日)与工作日(9月18日、9月19日)的峰值持续时间和峰值时间也有所不同。周末高峰持续时间为11:00到17:30,工作日高峰持续时间为8:30到18:00,周末高峰持续时间比工作日减少3h。周末第一峰值时间比工作日推迟约2.5h,可以看出周末导航用户的生活节奏较为悠闲,上午出行高峰在11:00左右,而工作日则表现出通勤的特征,第一峰值时间在8:30左右。第二峰值在周末和工作日基本相同,分别出现在13:30到14:00,对应午休结束后的出行量回升。第3峰值在周末和工作日也基本相同,分别出现在17:30到18:00,对应外出就餐或通勤。转折点出现在20:00左右,导航数量下降速度放缓,这一点在周末尤其明显,可能与外出休闲娱乐有关。
分步行、非机动车和机动车3种交通方式分析导航轨迹的出行空间分布模式。
周末和工作日机动车轨迹终点的核密度图如

图4 机动车轨迹终点核密度
Fig. 4 Endpoint nuclear density map of motor vehicle trajectory
(1)高架道路。
(2)交通枢纽。
(3)隧道的出入口。
相比周末热点,工作日热点地区不包括A5五角场,这是因为工作日前往五角场商圈娱乐的人相对减少。
周末和工作日步行轨迹终点的空间分布如

图5 步行轨迹终点核密度
Fig. 5 Endpoint kernel density map of walking trajectory
这一现象表明地铁是上海市交通系统的重要组成部分,大量用户通过地铁出行,地铁站周围形成了人流密集区域,在如
工作日跨省外出、景区游玩和到市区娱乐的人减少,因此工作日虹桥枢纽(
周末和工作日非机动车轨迹终点的空间分布与步行轨迹类似,集中在内环以内的地铁站附近和商务楼宇密布的地区,如

图6 非机动车轨迹终点核密度
Fig. 6 Endpoint kernel density map of non-motor vehicle trajectory
相比周末,工作日热点地区不包括五角场站(
使用截断幂律分布拟合3种交通方式的导航轨迹,轨迹长度的概率密度分布散点图和拟合结果如

图7 轨迹长度的概率密度分布散点图与拟合效果
Fig. 7 Scatter plots of probability density distribution of trajectory lengths with fitting effects
交通方式 | ||||
---|---|---|---|---|
机动车 | 0.017 | 0.580 | 0.059 | 0.998 |
步行 | 0.015 | 1.894 | 0.025 | 0.999 |
非机动车 | 0.051 | 0.548 | 0.564 | 0.999 |
首先基于LightGBM模型构建了轨迹数据的交通方式分类模型,并在GeoLife测试集上取得了0.944±0.001的准确率。随后,该模型被应用到上海市数百万人口的手机导航轨迹数据上,实现了机动车、非机动车和步行的导航轨迹分类。最后,进一步分析了不同交通方式的导航轨迹数据在时间、空间和距离上的分布,并得到了以下结论:
(1)机动车、步行、非机动车3种交通方式的时间模式均表现出早高峰—午高峰—晚高峰周期性,出行方式主要以机动车和步行为主,并且周末出行高峰持续时间比工作日少3h,且周末的早高峰较工作日要晚2.5h,体现出周末导航出行高峰与工作日相比存在一定的滞后性。
(2)在出行空间模式方面,相比工作日,周末热点地区核密度更高、热点区域更多。机动车轨迹热点的分布与步行、非机动车轨迹有较大差异,机动车轨迹受路网的影响更大,热点地区出现在主要道路、交通枢纽、隧道出口;步行轨迹热点地区与地铁站吻合;非机动车热点地区与步行的分布类似。导航轨迹终点的空间热点提取结果可以为城市规划提供理论依据,热点高架区域需要增加引导标志和路网示意图,热点地铁站出入口内外需要在醒目处增加周边主要设施位置和地铁出入口位置的指示牌,出入口附近的地面上需要增加非机动车停放位并且在早晚通勤时段加强共享单车的调度和管理。
(3)3种交通方式的轨迹都可以用截断幂律分布较好地拟合,导航出行以中短距离为主,概率密度函数按照近似于幂函数的速度衰减,同时有一部分用户会进行长距离的导航,但在长距离出行区间概率密度函数衰减更快,近似于指数函数。
作者贡献声明
吴杭彬:提出研究思路、设计研究方案、论文结构把控及修改。
陈茜茜:实验分析、论文撰写。
靳慧玲:数据预处理、协助实验。
傅 琛:数据预处理、协助实验。
黄 炜:实验与论文撰写指导。
刘 春:实验与论文撰写指导。
参考文献
丁亮,钮心毅,宋小冬.上海中心城就业中心体系测度——基于手机信令数据的研究[J]. 地理学报, 2016, 71(3): 484. [百度学术]
DING Liang, NIU Xinyi, SONG Xiaodong. Measuring the employment center system in Shanghai central city: A study using mobile phone signaling data[J]. Acta Geographica Sinica, 2016, 71(3): 484. [百度学术]
WU H, FAN H, WU S. Exploring spatiotemporal patterns of long-distance taxi rides in Shanghai[J]. ISPRS International Journal of Geo-Information, 2017, 6(11): 339. [百度学术]
TANG J, ZHANG S, ZHANG W, et al. Statistical properties of urban mobility from location-based travel networks[J]. Physica A: Statistical Mechanics and its Applications, 2016, 461: 694. [百度学术]
LIU Y, KANG C, GAO S, et al. Understanding intra-urban trip patterns from taxi trajectory data[J]. Journal of Geographical Systems, 2012. 14(4): 463. [百度学术]
LIU W, WANG B, YANG Y, et al. Cluster analysis of microscopic spatio-temporal patterns of tourists’ movement behaviors in mountainous scenic areas using open GPS-trajectory data [J]. Tourism Management, 2022, 93: 104614. [百度学术]
LIU Y, SUI Z, KANG C, et al. Uncovering patterns of inter-urban trip and spatial interaction from social media check-in data[J]. PLoS ONE, 2014, 9(1): 1. [百度学术]
MA X, WU Y J, WANG Y, et al. Mining smart card data for transit riders’ travel patterns[J]. Transportation Research Part C: Emerging Technologies, 2013, 36: 1. [百度学术]
LIU L, BIDERMAN A, RATTI C. Urban mobility landscape: real time monitoring of urban mobility patterns[C]//Proceedings of the 11th International Conference on Computers in Urban Planning and Urban Management. Hong Kong: Citeseer, 2009: 1-16. [百度学术]
TANG L, ZOU Q, ZHANG X, et al. Spatio-temporal behavior analysis and pheromone-based fusion model for big trace data[J]. ISPRS International Journal of Geo-Information, 2017, 6(5): 151 [百度学术]
XIA F, WANG J, KONG X, et al. Exploring human mobility patterns in urban scenarios: A trajectory data perspective[J]. IEEE Communications Magazine, 2018, 56(3): 142. [百度学术]
岳梦雪.多源轨迹数据时空聚类及居民出行模式分析[D]. 湖北:武汉大学,2017. [百度学术]
YUE Mengxue. Spatio-temporal clustering of multi-source trajectory data and analysis of residents' travel patterns[D]. Hubei: Wuhan University, 2017. [百度学术]
陆锋,刘康,陈洁.大数据时代的人类移动性研究[J].地球信息科学学报,2014,16(5): 665. [百度学术]
LU Feng, LIU Kang, CHEN Jie. Research on human mobility in big data era[J]. Journal of Geo-information Science, 2014, 16(5): 665. [百度学术]
WU H, JIN H, XU Z, et al. Travel mode classification based on GNSS trajectories and open geospatial data[J]. Transactions in GIS, 2022, 26(6): 2598. [百度学术]
KE G, MENG Q, FINLEY T, et al. Lightgbm: A highly efficient gradient boosting decision tree[J]. Advances in Neural Information Processing Systems, 2017, 30: 3146. [百度学术]
王璞,刘洋,黄智仁. 一种轻量级梯度提升机的交通模式识别[J]. 哈尔滨工业大学学报, 2019, 51(9): 96. [百度学术]
WANG Pu, LIU Yang, HUANG Zhiren. Traffic pattern recognition of a lightweight gradient elevator[J]. Journal Harbin Institute Technology, 2019, 51(9): 96. [百度学术]
ZHENG Y, LI Q, CHEN Y, et al. Understanding mobility based on GPS data[C]//In Proceedings of ACM conference on Ubiquitous Computing (UbiComp 2008). Seoul: ACM Press, 2008: 312-321. [百度学术]
范永东. 模型选择中的交叉验证方法综述[D]. 太原: 山西大学, 2013. [百度学术]
FAN Yongdong. Overview of cross validation methods in model selection[D]. Taiyuan: Shanxi University, 2013. [百度学术]
ZHENG Z, RASOULI S, TIMMERMANS H. Two regime pattern in human mobility: Evidence from GPS taxi trajectory data[J]. Geographical Analysis, 2016, 48(2): 157. [百度学术]
GONZALEZ M C, HIDALGO C A, BARABASI A L. Understanding individual human mobility patterns[J]. Nature, 2008, 453(7196): 779. [百度学术]
TANG J, LIU F, WANG Y, et al. Uncovering urban human mobility from large scale taxi GPS data[J]. Physica A: Statistical Mechanics and its Applications, 2015, 438: 140. [百度学术]