摘要
为了深入探究影响高速公路桥梁路段风险的显著因素,论文应用交通秩序指数综合评估交通安全风险,并以此为因变量,研究桥梁路段交通流、道路属性及外部环境等要素和交通安全风险间的关系。在构建安全风险识别模型的基础上,通过个体条件期望图挖掘影响高速公路桥梁路段的安全风险关联因素。结果表明:相较于梯度提升决策树模型,随机森林模型对于交通安全风险识别的准确性更高;此外,在影响因素中,拥堵是影响桥梁路段安全风险的重要交通流因素;在能见度较低及不良天气情况下,交通风险较高;并且,跨河桥上、下游过渡段是高速公路桥梁路段中交通安全风险最高的区域。研究结果为高速公路桥梁路段的交通安全风险识别及影响要素挖掘提供了新的思路和方法,有助于交通管理部门精准实施靶向治理。
相对高速公路的普通路段、隧道、服务区等,桥梁路段因其所处位置特殊性、外部环境复杂性,故其发生的交通事故严重性也最
当前,面向桥梁路段交通安全风险相关研究,国内外学者主要关注由桥梁结构特征所产生的风险,例如陈丰
针对交通安全风险评估问题,其解决方法主要以事故数据为因变量构建其与人、车、路、环境间的关联关系模型。例如You
针对风险关联要素挖掘问题,相较传统统计模型、线性模型和因果推断模型,基于树模型的机器学习算法虽具有更强大的非线性分类和自学习能力,在识别多源要素耦合作用下的交通安全风险更具优
综上所述,本文针对高速公路桥梁路段的安全评价及关联因素挖掘问题开展研究,论文以风险驾驶行为及交通运行状态为核心形成交通秩序指数以评价交通安全风险,突破交通事故数据不均衡的限制,及对于潜在的交通安全风险影响要素深度挖掘问题,分别建立基于机器学习模型(随机森林、梯度提升决策树)的高速公路桥梁路段风险识别模型,并通过个体条件期望图挖掘交通流特征、路段属性、外部环境条件、时间属性与高速公路桥梁路段风险等级间的量化关系,以期实现对多因素安全风险间耦合作用的深度挖掘,消除基于部分依赖图的影响要素解析中由数据异质性及非均匀效应的影响。研究结果为解决高速公路桥梁路段安全问题提供了新的视角,为主动安全防控和靶向治理方案提供理论支持。
本研究以鄂东长江大桥为研究对象,其是中国湖北省境内连接黄石市和黄冈市的重要过江通道。论文所选数据来源于高德导航软件的浮动车轨迹数据和当地交通管理部门的事故调查数据。高德导航软件数据集包含路段编号、交通流运行状态、外部环境及驾驶行为。事故调查数据集包含事故发生时间及所处的道路桩号。
研究以同质性为划分原则,将鄂东长江大桥划分为6个区域,分别为高速公路路基直线段、高速公路路基曲线段、跨河桥上游过渡段、跨河桥下游过渡段、跨河桥段、跨线桥段。但由于跨河桥上、下游过渡区分别连接圆曲线和互通立交匝道,而部分学者已证明圆曲线和互通立交匝道对驾驶行为有较大负面影
在原始数据集中,部分变量可直接用于风险影响因素解析,例如路段限速值、能见度等。其余变量需在原始数据的基础上提取获得新的特征变量,例如速度变异系数、延误系数等。具体定义如下。
激进驾驶行为事件主要包含急加速、急减速、急左并道、急右并道、急左转和急右转。激进驾驶行为数据是由手机传感器采集,其可精准辨识用户在行车过程中实时发生的激进驾驶行为事件,并记录事件发生的时间和经纬度。而受用户隐私保护协议的限制,具体的判定算法无法给出。此外,因不同道路长度和某时段内导航软件用户数量的差异,原始数据无法在同一尺度下衡量路段风险程度。故需将原始激进驾驶行为发生的次数转化为集计数据后再开展分析,集计激进驾驶行为频次的计算方法如下:
(1) |
式中:与分别表示某天和某时();表示路段编号;为日时路段发生的驾驶行为事件频次;为日时路段发生的激进驾驶行为次数之和;表示路段长度;为日时路段的导航软件实际用户量。
相关研究表明,高风险和较高的事故频次与某路段内交通流平均速度的离散程度和速度变异系数(coefficient of speed variation, CSV)有显著关
(2) |
式中:为日时路段的交通流速度标准差; 为日时路段的交通流速度平均值。
当前,交通安全分析主要以事故作为评价指标,但交通事故具有偶发性、局部性、滞后性等特质,无法覆盖全时空域的风险场景,易忽略事故发生时的潜在风险要素,实际应用过程中,难以开展全局动态交通安全评估与辨识。此外,由于事故数据数量和质量的限制,传统统计分析及大数据机器学习算法均难以发挥真正效能,导致影响因素解析能力不足。借助导航软件,依托海量驾驶行为及交通流状态数据,为提出以风险替代指标为核心的交通安全风险评价方法提供了新的机遇。Yao
交通秩序指数是由优劣解距离法(technique for order preference by similarity to an ideal solution, TOPSIS)及熵权法等算法将多类激进驾驶行为与速度变异系数加权而得。交通秩序指数的计算方法如
(4) |
式中:为日时路段的交通秩序指数;、表示激进驾驶行为和车流速度波动的风险评分;为激进驾驶行为和速度波动风险评分在交通秩序指数中所占的权重, 。
激进驾驶行为风险评分是由TOPSIS算法综合急加速、急减速、急左转等激进驾驶行为频次计算而得。TOPSIS算法是一种多目标决策分析中常用的有效方法,其已在交通安全分析领域获得广泛应用。而速度波动风险评分的计算方法如
(5) |
式中:分别表示中的最大值和最小值。
激进驾驶行为和速度波动风险评分在交通秩序指数中所占的权重由
(6) |
式中:表示激进驾驶行为或车流速度波动风险评分的样本标准差。
交通秩序指数是综合评判道路秩序程度的指标,为了使其能研判路段内的风险水平,故采用K-均值聚类方法将划为三个风险等级,并以聚类后各类别的最大值、最小值设定区间划分阈值,具体定义如下:
高风险道路:交通秩序较差,风险较高:[0, 0.359 8)
中风险道路:交通秩序良好,风险适中:[0.359 8, 0.410 7)
低风险道路:交通秩序较好,风险较低:[0.410 7, +
随机森林是一种以决策树为基础的算法,在训练模型的过程中引入随机属性选择,并采用引导聚集方法,最终结合多个弱分类器形成强分类器。由于随机森林模型结合了多个弱分类器的预测结果,故随机森林模型可以较好地控制过拟合问题。此外,随机森林模型相较于人工神经网络、支持向量机等,其在小样本集上拥有更加出色的分类识别能
在已知训练集,模型将随机重复采样次,获得的不同训练集用以训练弱分类器。训练后的模型通过计算个弱分类器的类别概率均值,获得最终的分类结果,如
(7) |
式中:为结合个弱分类器的预测值所形成的预测均值,即为随机森林模型的最终预测结果。
本文选择梯度提升决策树模型为风险等级识别性能的对比模型。与随机森林模型不同在于,随机森林是一种引导聚集算法,该类算法会对样本重采样,预测结果是各个分类器的平均值。而梯度提升决策树模型是一种提升算法,基于上次迭代后预测器的分类结果更新样本权值和分类器权值,因此随着模型迭代次数的增加,模型的预测偏差会降低。这两种模型都可有效控制过拟合问题,且在不同的应用场景和数据特质下有不同的性能表现。
此外,在建立高速公路桥梁路段安全风险识别模型时,均需要完成以下步骤:
(1)基于随机分布原则按7:3的比例将数据集划分为训练集和测试集,训练集用于训练识别模型,测试集用于评估模型的分类性能;
(2)训练模型时,采用十折交叉验证方法将训练集的数据随机切分为10份,每次训练会以9个子样本结合1个子样本验证的形式进行;
(3)本文使用网格搜索方式进行参数调优,实现指定参数值的穷举式搜索。
为了评估安全风险识别模型的性能,以机器学习模型中常用的分类评价指标准确率、召回率、精确率和作为模型评价指标。
对于多分类预测,以各类别所占样本集的比例为权重,计算各类别中每个评价指标的加权平均值。召回率()、精确率()、的相关定义如下:
(8) |
(9) |
(10) |
式中:表示交通风险等级的类别编号();为交通风险等级的总类别数,即,为第类在全样本集所占的比例;的相关定义请见
传统的部分依赖图可反映响应变量和一个或多个特征间依赖关系的平均值,其可能掩盖由特征耦合作用产生的异质关系,只有当特征间相关交互较弱时,才可客观反映特征对自变量的影响关系。由于上述原因,Goldstein
设,且为的补集。此时,测试样本集下,的依赖关系可以表达为
(11) |
每个子集都有其个体的依赖关系,当特征固定且变化时,可给出此时的边际贡献。由于无法直接求解和的值,可通过计算
(12) |
式中:为集中样本的个数;为集中的不同取值。
首先,论文分别构建基于随机森林及梯度提升决策树的安全风险识别模型,并通过网格搜索调参及交叉验证提升识别模型的准确性。基于样本权重的召回率、精确率等指标评估模型的识别性能,并在后续分析中保留性能最佳的模型。其次,基于基尼指数的特征重要性排序,筛选对风险等级识别结果影响最大的7个影响要素。最后,应用个体条件期望图解析这些变量与风险等级间的关联关系。模型构建及分析流程图如

图1 模型构建及分析流程图
Fig. 1 Flowchart of modeling and feature analysis
网格搜索优化调参及十折交叉验证后,随机森林及梯度提升决策树模型的混淆矩阵如

图2 风险等级识别模型的混淆矩阵
Fig. 2 Confusion matrix of risk level identification models
特征重要性是一种衡量某特征对全局预测结果影响程度的指标,特征重要性越高,表明该特征对风险等级的识别结果影响作用越大。由

图3 随机森林模型的特征重要性排序
Fig. 3 Feature importance score in RF model
个体条件期望值是综合衡量全样本集中,仅当某单因素变化时导致分类结果变化程度的指标。若某因素水平下的个体条件依赖值均值越高,则表明模型分类结果为高风险等级的概率越高。即在当前外部条件下,交通秩序差,安全风险高。
在交通流特征类变量中,延误系数、平均车流速度与限速值差、交通流量等级会对风险等级的识别结果有较大影响。
延误系数方面,由

图4 交通流特征的个体条件期望图
Fig. 4 Plots of individual conditional expectation of traffic flow factors
平均车流速度与限速值差方面,由
交通流量等级方面,
在外部环境类变量中,能见度、风力等级和天气状况会对风险等级的识别结果有较大影响。
天气情况方面,由

图5 外部环境及道路属性的个体条件期望图
Fig. 5 Plots of individual conditional expectation of external environment factors and road condition factors
风力等级方面,由
能见度方面,如
路段类型方面,由
针对跨河桥上、下游过渡段,可能造成其高风险的原因是:首先,在这两个路段内均存在桥梁伸缩缝。伸缩缝是一种桥梁特殊构造物,会对行车造成负面影响,其造成的桥头跳车可能导致驾驶员的心率失常、行车不舒适
根据2016年至2019年4月内不同路段类型的事故空间分布,如
论文主要依托导航软件所采集的高频、精准、海量的浮动车轨迹数据,采用基于激进驾驶行为和速度变化特性的交通秩序指数作为安全风险替代指标,主要贡献在于突破了传统事故分析中偶发性、局部性、滞后性等局限,实现全时空域下高速公路桥梁路段的交通安全风险辨识。此外,研究应用个体条件期望图描述及可视化黑箱模型的内部影响关系。相较于传统的部分依赖图,个体条件期望图可在一定程度上避免数据异质性及非均匀效应的影响。所获得的主要结论如下:
(1)道路属性方面,跨河桥上游及下游过渡区是高速公路桥梁路段交通秩序较差的区域,存在较大的交通安全风险;
(2)交通流方面,交通拥堵的严重程度与安全秩序水平呈负相关关系。延误系数每增加0.1,高风险等级的发生概率将增加8 %。此外,平均车速与限速值差与安全风险间呈非线性关系,当二者差值约为24 km·
(3)外部环境方面,在能见度较低及不良天气情况下,交通风险较高;随桥梁侧风作用逐步增强,安全风险略微上升。
本文研究结果对于桥梁路段行车安全改善工程和风险防控措施具有参考意义,特别是在主动安全防控方案的设计具有理论支撑作用。在跨河桥上游过渡区及下游过渡区路段宜统一限速,并设置可变信息情报板、注意桥头跳车标志等。在桥梁路段可增设雾天行车诱导灯,一定程度上缓解由于能见度较低及不良天气条件导致的跟车距离难以判断、道路轮廓模糊等驾驶风险。
高速公路桥梁路段的交通安全风险还与桥梁的跨径、桥型、跨越对象、是否设置风屏障等结构特性有关,未来可采集不同类型的桥梁路段行车数据开展秩序分析,进一步深入探究桥梁结构因素对交通安全风险的影响。此外,本文仅简单分析事故与交通安全风险替代指标间的对应结果,未来可探究二者间的深层次关联关系。
作者贡献声明
赵晓华:提出论点,文献综述,模型推导,初稿修改,校稿。
杨海益:方法论,模型编程实现及构建,初稿撰写。
姚 莹:论文修改,数据分析,模型调参及优化。
郭 淼:研究内容,论文写作与修改。
亓 航:模型构建,文献总结。
戴义博:数据库构建,文献总结。
苏岳龙:需求调研,提供数据。
参考文献
SUN Zongyuan, LIU Shuo, LI Dongxue, et al. Crash analysis of mountainous freeways with high bridge and tunnel ratios using road scenario-based discretization[J]. Plos One, 2020, 15(8): 1. [百度学术]
陈丰,彭浩荣,马小翔, 等. 侧风作用下货车驾驶员反应行为模型[J].同济大学学报(自然科学版), 2020, 48(5): 702. [百度学术]
CHEN Feng, PENG Haorong, MA Xiaoxiang, et al. Model of driving behavior of truck driver under crosswind[J]. Journal of Tongji University (Natural Science), 2020, 48(5): 702. [百度学术]
周晋冬, 潘晓东, 马小翔. 桥头跳车对人体心率负荷强度影响因素的研究[J]. 公路工程, 2013, 38(6): 38. [百度学术]
ZHOU Jindong, PAN Xiaodong, MA Xiaoxiang. Research on the factors that affecting the human heart rate intensity of vehicle bumping at bridge-head[J]. Highway Engineering, 2013, 38(6): 38. [百度学术]
《中国公路学报》编辑部.中国桥梁工程学术研究综述·2021[J].中国公路学报,2021,34(2):1. [百度学术]
Editorial Department of China Journal of Highway and Transport.Review on China′s bridge engineering research: 2021 [J]. China Journal of Highway and Transport, 2021, 34(2): 1. [百度学术]
YOU Jinming, WANG Junhua, GUO Jingqiu. Real-time crash prediction on freeways using data mining and emerging techniques[J]. Journal of Modern Transportation,2017,25(2):116. [百度学术]
马聪, 张生瑞, 马壮林, 等. 高速公路交通事故非线性负二项预测模型[J]. 中国公路学报, 2018, 31(11): 176. [百度学术]
MA Cong, ZHANG Shengrui, MA Zhuanglin, et al. Nonlinear negative binomial regression model of expressway traffic accident frequency prediction[J]. China Journal of Highway and Transport, 2018, 31(11): 176. [百度学术]
CHEN Shengdi, ZHANG Shiwen, XING Yingying, et al. The impact of truck proportion on traffic safety using surrogate safety measures in China[J]. Journal of Advanced Transportation, 2020, 2020(6): 1. [百度学术]
陆建, 程泽阳. 道路交通网络安全风险辨识研究进展[J]. 东南大学学报(自然科学版), 2019, 49(2):201. [百度学术]
LU Jian, Cheng Zeyang. Research and development of road traffic network security risk identification[J]. Journal of Southeast University (Natural Science), 2019, 49(2): 201. [百度学术]
MAHMOUD Nada, ABDEL-ATY Mohamed , CAI Qing, et al. Vulnerable road users' crash hotspot identification on multi-lane arterial roads using estimated exposure and considering context classification[J]. Accident Analysis & Prevention, 2021, 159: 1. [百度学术]
吴萌. 高速公路匝道区驾驶负荷特性研究[D]. 武汉:武汉理工大学, 2013. [百度学术]
WU Meng. Study on driving workload characteristics of highway ramp area[D]. Wuhan: Wuhan University of Technology, 2013. [百度学术]
Transportation Research Board.Highway capacity manual[R]. Washington D C: National Research Council, 2000. [百度学术]
CAI Qing, ABDEL-ATY Mohamed , YUAN Jinghui, et al. Real-time crash prediction on expressways using deep generative models[J]. Transportation Research Part C Emerging Technologies, 2020, 117(1): 1. [百度学术]
YAO Ying, ZHAO Xiaohua, ZHANG Yunlong, et al. Development of urban road order index based on driving behavior and speed variation[J]. Transportation Research Board, 2019, 2673(7): 466. [百度学术]
MAFI S, ABDELRAZIG Y, DOCZY R. Analysis of gap acceptance behavior for unprotected right and left turning maneuvers at signalized intersections using data mining methods: A driving simulation approach[J]. Transportation Research Board, 2018, 2672(38): 160. [百度学术]
GOLDSTEIN A, KAPELNER A, BLEICH J, et al. Peeking inside the black box: Visualizing statistical learning with plots of individual conditional expectation[J]. Journal of Computational and Graphical Statistics, 2015, 24(1): 44. [百度学术]
LI Guofa, LAI Weijian, SUI Xiaoxuan, et al. Influence of traffic congestion on driver behavior in post-congestion driving[J]. Accident Analysis & Prevention, 2020, 141: 1. [百度学术]
YOU Jinming, WANG Junhua, GUO Jingqiu. Real-time crash prediction on freeways using data mining and emerging techniques[J]. Journal of Modern Transportation, 2017, 25(2): 116. [百度学术]
陈昭明, 徐文远, 曲悠扬, 等. 基于混合Logit模型的高速公路交通事故严重程度分析[J]. 交通信息与安全, 2019, 37(3): 42. [百度学术]
CHEN Zhaoming, XU Wenyuan, QU Youyang, et al. Severity of traffic crashes on freeways based on mixed logit model[J]. Journal of Transport Information and Safety, 2019, 37(3): 42. [百度学术]
CHEN Feng, CHEN Suren, MA Xiaoxiang. Analysis of hourly crash likelihood using unbalanced panel data mixed logit model and real-time driving environmental big data[J]. Journal of Safety Research, 2018, 65(6): 153. [百度学术]
YONAS A, LEE Z. Improving the ability of drivers to avoid collisions with snowplows in fog and snow[R]. Minnesota: Minnesota Department of Transportation, 2006. [百度学术]