摘要
提出了扩样和地理加权泊松回归(GWPR)相结合的方法来估计有限观测值下的路网流量。首先,采用基于空间相似性的扩样方法对不平衡的观测流量进行纠正;然后,考虑道路几何特征和建成环境等因素的影响,采用地理加权泊松模型估计车道的小时交通量。结果表明,与传统线性回归模型和原始样本下的地理加权泊松模型相比,组合模型具有最佳的估计性能。此外,自变量与交通量关系的局部空间异质性也得到了很好的捕捉。
交通流量是交通工程中的基础数据。交通流量的用途包括但不限于交通设施的规划和建设、交通政策的设计和实施、道路碰撞风险的量化和交通污染的评估。正是由于道路交通量的重要性,地方政府投入了大量资金和精力,并采用不同的方法来采集交通流量数据。其中,自动流量检测器(例如线圈检测器和摄像机)是采集交通流量的主要设备。使用流量检测器面临的一个重要问题是存在大量缺失
在以往的研究中,不同研究人员用不同的方法来估计交通量。基于扩展因子的模型是一种传统的交通流量估计方法。在该模型中,根据交通量的变化模式对路段进行聚类,然后利用扩展因子将观测到的交通量扩展到同一个聚类中没有交通量的路段。该方法简单易行,在世界范围内被广泛采
地理加权回归模型是一种可以捕捉研究区域内因变量和自变量变化关系的回归方法。与许多全局回归模型不同,地理加权回归模型是为每个研究单元构建一套模型参
使用空间模型的一个问题是道路网络中可用数据的不平衡分布。由于在估计路段交通量时,还考虑了附近的交通量,因此附近可用数据较少的道路估计性能较差。Eom
本研究提出采用扩样与地理加权泊松回归相结合的方法来对路网缺失流量进行流量估计。流量数据来源于上海市杨浦区安装的悉尼协调自适应交通系统(SCATS),共计2 217条车道,其中只有560条车道有可用流量。首先,采用基于空间相似性的扩样方法来纠正缺失流量的空间不平衡。然后,基于扩样后数据利用地理加权泊松模型估计路网中所有车道的交通流量。最后,为了验证组合模型的性能,采用10倍的交叉验证方法比较了3种不同的模型,即MLR模型、GWPR模型以及扩样与GWPR组合模型。本文研究结果为在观测值有限且不平衡的情况下提高流量估计的精度提供了一种可行方案。
本研究的步骤如下:首先,采用Moran’s I指数来检验不同交叉口的交通量之间是否存在空间相关性。第二,采用扩样技术对空间分布不平衡的流量样本进行校正。第三,在扩样样本的基础上,采用GWPR方法提取交通流量与各自变量之间的关系。最后,采用10倍交叉验证法验证扩样和GWPR组合模型的有效性。
Moran’s I指数广泛用于检验线性回归的残差之间是否存在空间自相
(1) :正相关,在空间上表现为高值(低值)样本与高值(低值)样本聚集。
(2) :负相关,在空间上表现为高值样本与低值样本聚集。
(3) :不相关,在空间上表现为高值或低值样本随机分布。
本文提出了一种新的基于空间相似性的扩样方法来扩充流量样本。首先,定义空间相似性指标, 如
车道 i 和车道 j的空间相似性定义为
(1) |
式中:为空间相似性; 为车道i终点的X坐标; 为车道i终点的Y坐标; 为车道i的第k个特征;为车道j的第k个特征。考虑到车道特征的不同尺度,在计算空间相似性之前,需要对所有特征进行min-max规范化。
GWPR采用由距离定义的权重矩阵来处理空间自相关问题。在估计中,样本附近的观测值具有更高的权重。GWPR为每一个样本估计一组局部参数。本研究使用R语言中的 “spgwr”包对GWPR模型的进行估计。GWPR模型定义如下:
(2) |
式中: 为样本i的因变量向量(i= 1, 2,…, n, n 为样本总数); 为样本i的第k个特征向量;为截距项; 为相应系数;p 为特征(自变量)总数; 为样本i的误差项。
样本i的估计系数可由下式得到:
(3) |
式中: 为样本i的空间权重矩阵,由
本研究采用高斯函数计算空间权重矩阵,它将权重作为距离的连续函数来计算,以确保有足够的局部观测值来估计模
(4) |
(5) |
式中: 为样本i与样本j的欧式距离;n为样本总数;θ 为带宽。
本研究以位于上海中心城区东北部的杨浦区为研究区域。杨浦区土地面积60.73 k
本研究的路网如

图1 研究区域和已知流量分布
Fig. 1 Study area and known traffic volume distribution
本研究以早晨7:00—8:00车道小时交通量为因变量,以道路几何特征和建成环境特征为自变量。
在道路几何特征中,所有车道方向变量都是哑变量,其中直行方向为参考方向。其他道路几何特征包括路段长度、路段等级、下游道路等级、路段车道数量、公交线路数量、是否单行道、是否公交专用道、是否与快速路平行,以及上下游是否连接快速路。受数据条件的限制,建成环境特征包括车道附近的人口密度、平均房价、到最近三甲医院的距离、到最近购物中心的距离以及到最近大学的距离。变量选择使用MLR进行,统计上不显著以及方差膨胀因子(VIF)大于5.0的变
上海市公交专用道在工作日上午7:00至10:00和下午16:00至19:00时段内限制非公交车辆通行。
使用第1.2节中提出的扩样方法,将原始数据集从560车道扩大到2 217车道(整个路网)。如
Moran’s I检验用于检验不同车道上小时交通量的空间相关性。原始样本的Moran’s I指数为0.055 6,P值为0.000 6。扩样后的样本,Moran’s I指数为0.147 4,P值为0。Moran’s I检验表明车道小时交通流量之间存在显著的正空间相关性。也就是说,在空间上高流量车道与高流量车道聚集,低流量车道与低流量车道聚集。因此,利用空间模型来处理空间相关性是非常必要的。
本研究分别对3个模型进行了拟合和比较,它们分别是使用原始样本的MLR(模型1),使用原始样本的GWPR(模型2),和使用扩样后样本的GWPR(模型3),结果见
***表示显著性水平为0;**表示显著性水平为0.001。
对于模型1,所有方向相关变量与小时流量呈负相关(参考方向为直行)。其他变量,包括下游道路等级、路段车道数、最近医院距离、是否为公交专用道以及是否与快速路平行,也都与流量呈负相关。相反,公交线路数、附近的房价、附近的人口密度以及上下游是否连接快速路都呈现出正相关关系。
对于模型2和模型3,每条车道都有自己的回归系数。在

图2 已知车道交通量和估计车道交通量
Fig.2 Known lane traffic volume and estimated lane traffic volume
为了比较模型的估计性能,本文进行了10倍的交叉验证,并采用了R平方值(
综上所述,扩样技术和GWPR的联合使用不仅提高了模型的解释能力,而且提高了预测精度。值得注意的是,使用原始样本的GWPR性能与MLR相近,即对于空间分布不均衡或大量缺失数据的样本而言,GWPR本身并不会提高模型的性能。这也再次验证拟合模型前对不平衡的缺失数据的处理是有意义的。
除了高精度外,高解释性也是选择GWPR的原因。如

图3 部分变量系数值与显著性的空间分布
Fig. 3 Spatial distribution of the values and significance of some variables
对于与车道方向变量,其中直行车道作为基本参考。右转变量与研究区域的交通量始终呈负相关,并且在大多数车道上统计显著(P值<0.1)。左转变量与右转变量相似。表明右转和左转车道的交通量均低于直行车道,这是符合实际的,因为在大多数交叉口,直行车道流量都大于转弯车道流量。
在63%的车道中,路段车道数与交通量呈负相关,即路段车道数越多,每条车道的交通量越低。值得注意的是,这一结论似乎与一些现有研究不一
另一个与交通量呈全局负相关的道路几何特征是公交专用道变量,表明公交专用道的设置显著降低了车道流量。人口密度与大多数车道(78%)的交通量呈正相关,这与之前的各种研究一
本研究为观测值有限且分布不均时的交通流量估计提供了一种新的方法。首先用扩样技术填充不平衡缺失数据,然后用地理加权回归模型(GWPR)估计车道交通量。结果表明,与传统的MLR或直接使用GWPR相比,采样扩展技术和GWPR结合的方法具有更好的交通量估计性能。此外,GWPR可以很好地捕捉自变量与交通量关系的空间异质性,为解释自变量的影响提供更多的细节。
值得进一步研究的是,首先,由于数据条件的限制,本研究未能包含足够的土地利用和社会人口特征,例如岗位密度和土地利用率等。这些因素都与交通量关系密切。若将它们纳入到模型中可以进一步提高模型拟合优度和精度。此外,大量新的数据源如手机数据、GPS数据等也在不断涌现,可以将这些新数据源与传统SCATS数据集成,以获得更高的流量估计性能。
参考文献
XIAO X, CHEN Y S, YUAN Y. Estimation of missing flow at junctions using control plan and floating car data[C]// 18th Euro Working Group on Transportation. Delft: Ewgt, 2015: 113-123. [百度学术]
Federal Highway Administration. Traffic monitoring guide[R]. Washington D C: Federal Highway Administration, 2012. [百度学术]
ANDERSON M D, SHARFI K, GHOLSTON S E. Direct demand forecasting model for small urban communities using multiple linear regression[J]. Transportation Research Record, 2006, 1981: 114. [百度学术]
ZHAO F, CHUNG S. Contributing factors of annual average daily traffic in a Florida county - exploration with geographic information system and regression models[J]. Transportation Research Record, 2001, 1769: 113. [百度学术]
MORLEY D W, GULLIVER J. Methods to improve traffic flow and noise exposure estimation on minor roads[J]. Environmental Pollution, 2016, 216: 746. [百度学术]
SEKULA P, MARKOVIC N, VANDER LAAN Z, et al. Estimating historical hourly traffic volumes via machine learning and vehicle probe data: a Maryland case study[J]. Transportation Research Part C-Emerging Technologies, 2018, 97: 147. [百度学术]
CASTRO-NETO M, JEONG Y, JEONG M K, et al. AADT prediction using support vector regression with data-dependent parameters[J]. Expert Systems with Applications, 2009, 36(2): 2979. [百度学术]
WU J Q, XU H. Annual average daily traffic prediction model for minor roads at intersections[J]. Journal of Transportation Engineering Part A-Systems, 2019, 145(10): 100. [百度学术]
EOM J K, PARK M S, HEO T Y, et al. Improving the prediction of annual average daily traffic for nonfreeway facilities by applying a spatial statistical method[J]. Artificial Intelligence and Advanced Computing Applications, 2006 (1968): 20. [百度学术]
SELBY B, KOCKELMAN K M. Spatial prediction of traffic levels in unmeasured locations: applications of universal kriging and geographically weighted regression[J]. Journal of Transport Geography, 2013, 29: 24. [百度学术]
WANG X K, KOCKELMAN K M. Forecasting network data spatial interpolation of traffic counts from texas data[J]. Transportation Research Record, 2009, 2105: 100. [百度学术]
YU H T, PENG Z R. Exploring the spatial variation of ridesourcing demand and its relationship to built environment and socioeconomic factors with the geographically weighted Poisson regression[J]. Journal of Transport Geography, 2019, 75: 147. [百度学术]
BRUNSDON C, FOTHERINGHAM A S, CHARLTON M E. Geographically weighted regression: a method for exploring spatial nonstationarity[J]. Geographical Analysis, 1996, 28(4): 281. [百度学术]
YANG H T, LU X Z, CHERRY C, et al. Spatial variations in active mode trip volume at intersections: a local analysis utilizing geographically weighted regression[J]. Journal of Transport Geography, 2017, 64: 184. [百度学术]
ZHAO F, PARK N. Using geographically weighted regression models to estimate annual average daily traffic[J]. Transportation Research Record, 2004(1879): 99. [百度学术]
TAJMAJER T, SPLAWINSKA M, WASILEWSKI P, et al. Predicting annual average daily highway traffic from large data and very few measurements[C]// 2016 Ieee International Conference on Big Data. Washington D C: [百度学术]
s.n.], 2016: 1493-1501. [百度学术]
CHEN P, HU S H, SHEN Q, et al. Estimating traffic volume for local streets with imbalanced data[J]. Transportation Research Record, 2019, 2673: 598. [百度学术]
LESAGE J,PACE R K. Introduction to spatial econometrics [M]. Boca Raton:Chapman and Hall,2009. [百度学术]
WANG C H, CHEN N. A geographically weighted regression approach to investigating the spatially varied built-environment effects on community opportunity[J]. Journal of Transport Geography, 2017, 62: 136. [百度学术]
杨浦区统计局. 2017年杨浦统计年鉴[R]. 上海:上海杨浦区统计局, 2017. [百度学术]
Yangpu District Bureau of Statistics. 2017 Yangpu district statistical yearbook[R]. Shanghai: Yangpu District Bureau of Statistics, 2017. [百度学术]
SCATS. Why choose SCATS? [EB/OL]. [2019-9-15]. https://www.scats.com.au/why-choose-scats-performance.html. [百度学术]