基于惯性传感数据概率密度分布演化特征的分心驾驶状态辨识

余荣杰，张雪晨，何阳，吴晓; YU Rongjie; ZHANG Xuechen; HE Yang; WU Xiao

网刊加载中。。。

使用Chrome浏览器效果最佳，继续浏览，你可能不会看到最佳的展示效果，

确定继续浏览么?

复制成功，请在其他浏览器进行阅读

基于惯性传感数据概率密度分布演化特征的分心驾驶状态辨识 PDF

- ORCID：
余荣杰 ¹
✉
- ORCID：
张雪晨 ¹
✉
- ORCID：
何阳 ²
- ORCID：
吴晓 ²

1. 同济大学交通学院，上海 201804； 2. 北京嘀嘀无限科技发展有限公司，北京，100089

中图分类号： U491

最近更新：2024-12-25

DOI：10.11908/j.issn.0253-374x.23104

摘要

不良驾驶行为是道路交通事故的主要致因，近三分之一的事故由分心驾驶引发，辨识分心驾驶状态可有效提升行车安全。然而，当前的分心辨识方法依赖于多源融合感知数据，无法应用于大规模的现存车辆。提出了一种基于泛在惯性测量单元（IMU）数据的两阶段分心辨识方法：第一阶段采用概率密度分布演化，以实现在驾驶行为与行驶工况强耦合情况下的分心状态表征；第二阶段则利用一阶段获得的驾驶行为分布演化特征，采用深度森林算法构建分心驾驶状态辨识模型，以应对复杂的现实场景。为验证所提出的分心辨识方法，使用了上海网约车智能手机惯性测量数据进行实证研究，实验结果表明：实证数据初步验证了所提出方法的有效性，分心驾驶行为特性主要体现在车辆行进方向；与传统表征指标相比，所提出的驾驶行为分布演化特征能够有效提升分心辨识模型性能，准确率、精确率分别提升了20.4 %和10.2 %；所采用的深度森林模型与支持向量机和梯度增强决策树相比，在保持高召回率的同时减少了超10 %的误报情况。

关键词

分心驾驶辨识; 惯性测量单元（IMU）; 概率密度分布演化; 深度森林

当前，全球道路交通安全形势严峻，每年因道路交通事故死亡人数超过135万人，位列全球致死率排行榜第七名，道路交通安全改善需求迫切^［

1］。道路交通事故的首要致因是驾驶人的不良驾驶行为^{［参考文献 2

百度学术}2］，其中近三分之一的道路交通事故成因与分心驾驶行为有关^{［参考文献 3

百度学术}3］。研究表明，澳大利亚43 %的驾驶人在调查中表示开车时会接听电话和收发信息^{［参考文献 4

百度学术}4］；在美国，2019年的道路交通事故记录显示，约24 %的驾驶人开车时使用了耳机、手持或免提电话^{［参考文献 5

百度学术}5］。随着车载智能设备和移动互联终端的普及、人机交互新模式的出现，产生吸引驾驶人注意力的新型干扰，预计在未来人机共驾时代由分心引发的事故将进一步增加^{［参考文献 6

百度学术}6］。

分心驾驶状态的辨识方法基于其数据来源主要分为两类：一类通过心电仪、眼动仪和摄像头等，直接监测驾驶人的心生理反应及肢体动作等内部特征^［

7］；另一类则使用车载传感器和路侧检测设备等，获取车辆运动、轨迹、道路设施及运行环境等外部信息进行驾驶行为表征，间接辨识驾驶状态^{［参考文献 8

百度学术}8］。近年来，新型智能汽车借助多源融合感知数据来实现分心辨识^{［参考文献 9

百度学术}9］。然而，受技术装备限制，大量现存车辆难以充分获取此类数据。这种限制性使得需要关注仅使用泛在数据进行分心驾驶状态辨识的研究。泛在数据具有广泛的可获取性，但其在分心辨识领域尚未得到充分研究。本研究的目的是填补这一研究领域的空白，并探索基于泛在数据的分心驾驶状态辨识方法，以解决现有技术装备限制所带来的挑战。

既有分心状态辨识研究多基于驾驶模拟、实验数据，然而驾驶模拟无法完全还原真实的环境条件和驾驶人状态。随着传感器技术的应用与普及，如今几乎所有的智能手机都搭载了惯性测量单元（inertial measurement unit， IMU），驾驶过程中无需额外安装专用设备或其他传感器，只需依靠智能手机即可采集到丰富的运动数据。这种便利性使得IMU数据成为一种广泛可获取的数据源，可用于驾驶行为分析^［

10］和分心状态辨识。目前，基于IMU数据进行运动特征学习和运动状态识别的可行性已经得到证实，是反映车辆运动状态、辨识驾驶行为的数据源之一^{［参考文献 11

百度学术}11］。本文提出一种基于IMU数据的两阶段分心驾驶状态辨识方法，主要内容如下：

（1）第一阶段驾驶行为表征。泛在IMU数据受到驾驶人驾驶状态、行驶工况等多要素的影响，基于IMU的运动学统计指标难以体现分心特征。本文提出了基于概率密度分布演化的驾驶行为表征方法，解决了驾驶行为与行驶工况强耦合情况下分心特征表达的问题，采用相同的IMU数据集对比本文方法与针对车辆运动数据的传统表征方法，分布演化特征使得分心辨识准确率和精确率分别提升20.4 %和10.2 %。

（2）第二阶段基于一阶段所得的驾驶行为演化特征，使用深度森林（deep forest， DF）算法构建分心辨识模型，解决了因驾驶行为具有异质性、随机性，导致基于特征的分心辨识方法难普适于复杂现实场景的问题。相较于常见的SVM（支持向量机）和XGBoost（梯度增强决策树）算法，使用深度森林可在保持相同高召回率的前提下提升精确率超过10 %。

1 研究综述

分心驾驶状态辨识研究的核心在于基于车辆运动数据表征驾驶行为以及选择适用的分类算法。本章将从分心驾驶行为表征和辨识算法两个方面对既有研究展开分析讨论，归纳总结研究进展和不足。

1.1　分心驾驶行为表征

基于自然驾驶数据的传统驾驶行为表征主要包含车辆自身运动特征及外部驾驶场景特征两个方面：在车辆运动特征方面，常选用车辆速度^［

12-13］、加速度和加速、制动踏板压力及方向盘转矩等的数理统计特征指标（如均值、方差和波动性等）^{［参考文献 14

百度学术}14］；在驾驶场景特征方面，常用车道位置偏移标准差^{［参考文献 15

百度学术}15］、平均车头时距^{［参考文献 16

百度学术}16］等指标来刻画分心驾驶行为。

既有研究由多种数据指标的数理统计结果共同构成多维度的驾驶行为特征表达，然而仅基于泛在的车辆运动学数据，其统计特征结果受到驾驶人分心状态和车辆行驶工况的多重影响，驾驶行为与行驶工况强耦合导致分心状态下的异常驾驶行为难表征，无法辨识分心驾驶状态。

1.2　分心驾驶辨识算法

分心驾驶状态辨识可以看作是一种分类问题，需要通过构建一个有效的分类器识别分心驾驶状态与驾驶常态。现有的分心驾驶行为检测方法主要分为两类：①基于运动特征的方法；②基于学习建模的方法。

基于运动特征指标的辨识方法是通过设置固定阈值或观察指标是否呈现一定的变化规律，例如是否超速、车辆速度波动性超过最大值等来判断是否存在分心^［

17］。这一方法的难点为阈值的选定依赖于严格的控制条件和驾驶场景设定，无法普适于复杂多变的现实驾驶场景，容易引发误报^{［参考文献 18

百度学术}18］。目前，基于学习建模的方法应用最为广泛^{［参考文献 19-20}19-20］，例如支持向量机^{［参考文献 21

百度学术}21］、随机森林（random forest， RF）^{［参考文献 22

百度学术}22］、动态贝叶斯网络^{［参考文献 23

百度学术}23］等。但传统机器学习算法仍依赖人工提取的特征、对泛在数据的适用性较差，而深度森林^{［参考文献 24

百度学术}24］等深度学习方法能够通过特征的组合、增强以及自主学习来解决这一问题，并且具有参数简洁且模型结构灵活等优点。

针对已有研究存在的不足，本文提出一种由表征‒建模两阶段组成的分心驾驶状态辨识方法，整体框架如图1所示。图中，x表示原始输入数据，f、G表示特征提取所用映射函数。在第一阶段，提出基于概率密度分布演化特征的驾驶行为表征方法，通过量化分心状态发生前后数据分布的演变，从原始输入数据中提取分心驾驶特征，具体内容详见第2章；在第二阶段中，基于第一阶段所得驾驶行为分布演化特征，使用深度森林构建分心驾驶状态辨识模型，具体内容详见第3章。

图1 表征‒建模两阶段分心辨识方法框架示意图

Fig. 1 Schematic diagram of characterization-modeling two-stage distraction recognition method

2 驾驶行为表征

本章介绍两阶段分心驾驶状态辨识方法的第一阶段——驾驶行为表征，提出了一种基于概率密度分布演化的驾驶行为表征方法，实现基于泛在数据的分心驾驶行为表征。

2.1　数据说明

本文使用上海市2022年1—2月的网约车实证驾驶数据，包括行车途中智能手机IMU数据和驾驶人分心报警记录。IMU采集车辆运动过程中用户端绝对时间和侧、纵、垂三轴方向加速度数据，频率为10 Hz，三轴分别对应车辆的行进方向、横摆方向以及垂直地面方向，记为X、Y、Z轴。重力作用下，Y轴加速度始终存在重力加速度分量。分心报警是根据驾驶室视频检测模型得到的，本文的检测阈值结合分心驾驶的视线转移研究^［

25］定义如下：驾驶人持续左顾右盼（超过2 s）或低头（2.5 ~ 5 s）视作分心驾驶，而分心报警记录则为分心发生时刻的时间戳数据。上述模型方法得到的分心样本，在精度达90 %的前提下，召回率超过60 %。对分心样本的视频数据进行人工交叉检验，若驾驶人没有明显的分心驾驶行为（如持续观察后视镜或者在交叉口、路边停车使用手机），则将该样本视作“非分心”并删除该分心记录。另外，认知分心或注意力不集中等由于没有引起驾驶人视线的偏离而难以检测，因此被排除在外。经过滤，共得到895条分心报警记录。

2.2　数据预处理

本文采用自然驾驶环境下车内智能手机的IMU数据，由于手机摆放姿态、机械振动导致存在数据误差，同时存在数据损坏、缺失等问题，需要进行数据清洗：

（1）筛选垂直加速度 $a_{y i}$ 与重力平行的样本 $S = \{s_{1}, s_{2}, \dots, s_{n} | s_{i} = (a_{i}^{x}, a_{i}^{y}, a_{i}^{z}), 8 \leq |a_{i}^{y}| \leq 10\}$ ，当 $- 8 \leq a_{i}^{y} \leq - 10$ 时，根据式（1）进行数据校正；采用常见于导航控制系统及信号处理的卡尔曼滤波去除噪声。

\begin{array}{l} δ (a_{i}^{y}) = - a_{i}^{y} \\ δ (a_{i}^{z}) = - a_{i}^{z} \end{array}

(1)

式中： $δ$ 为校正函数； $a_{i}^{y}, a_{i}^{z}$ 分别为垂向和横向加速度。

经过上述数据预处理过程，得到含分心报警标签的平衡数据集 $S^{*}$ ，用于后续分心驾驶行为表征和分心驾驶状态辨识建模。

（2）采用线性插值方法填补数据缺失，增强数据完整性和可靠性，便于后续的分析和建模；

2.3　概率密度分布演化特征

车辆行驶过程中，将驾驶行为视作一个随机变量，其状态取值受到驾驶人状态和行驶工况的共同影响，仅使用泛在IMU数据无法判断行驶工况，传统数理统计特征方法不适用于IMU数据表征分心驾驶行为。参考陈建兵、李杰等^［

26］提出的基于概率守恒原理的随机事件描述方法，概率密度演化的内在物理机制是系统物理状态的演化。本文认为驾驶行为演化也服从概率分布规律，可以基于概率密度分布演化进行驾驶行为表征：假设在一个时间窗口内驾驶行为受到除分心状态外的其他要素影响相似时，将处在一个相对稳定的状态下，即具有固定的概率密度分布。

本文提出的基于概率密度分布演化的驾驶行为表征技术路线如图2所示。基于IMU数据进行驾驶行为表征分为以下三步进行：

图2 驾驶行为表征技术路线

Fig. 2 Technical route of driving behavior characterization

（1）样本时间片段选取。对 $S^{*}$ 选取用于分心状态辨识的时间片段集合 $X$ ，分心样本 $X_{A b}$ 选取规则详见2.3.1，非分心样本 $X_{N}$ 则任取相同长度片段。

（2）数据分布获取。对于选取的分心/非分心时间片段： $x_{i}^{n}$ 或 $x_{i}^{a b}$ （i表示第i个样本），基于滑动窗口获取各窗格内IMU数据的概率密度分布 $D_{i, j}$ （j表示第j个窗口），滑动窗口的设置参数详见4.2节。

（3）分布差异量化特征提取。计算时间片段 $x_{i}^{n}$ 或 $x_{i}^{a b}$ 内各相邻窗口之间的分布差异量化值 $Δ D_{i}$ （ $Δ D_{i, j}$ 的集合），即IMU数据概率密度分布演化特征，用以表征分心状态和常态驾驶下的驾驶行为。

2.3.1　分心状态影响时间片段选取

本文通过确定受到分心状态影响的时间范围以制定分心样本片段选取规则，得到的分心时间片段 $x_{i}^{a b}$ 总长度为65 s，如图3所示。

图3 时间片段长度 $x_{i}^{a b}$ 示意图

Fig. 3 Schematic diagram of distraction slice( $x_{i}^{a b}$ )

图3中， $T_{a}$ 为正常驾驶状态时间（baseline）， $T_{b}$ 为判别分神驾驶所需最短时间， $T_{c}$ 为分神状态的可能持续影响时间， $t_{0}$ 为驾驶人采取风险补偿措施的时刻， $t_{1}$ 为分神驾驶行为的起始时刻， $t_{2}$ 为触发分神报警的时刻。

（1）分心发生的起始时刻为 $t_{1}$ ，经过 $T_{b}$ 时间被识别到，触发分心报警时刻为 $t_{2}$ ， $T_{b}$ 通常为2~3 s^［

27］；

（2）考虑驾驶人可能提前采取风险补偿，在执行除驾驶任务外的其他分心操作前（ $t_{0}$ 时刻）就采取相应措施，例如减速、增加跟车间距等，本文设置 $t_{0}$ ~ $t_{2}$ 的时间长度为5 s（满足 $t_{0}$ ~ $t_{1}$ >0）；

（3）分心状态对驾驶行为的影响存在滞后性，后续影响持续时间 $T_{c}$ 通常为3~30 s^［

28］，本文设置

T_{c}

的时间长度为30 s；

（4）分心发生前的20~30 s反映正常驾驶状态^［

29］，可以作为量化后期分心状态下行为分布演化特征的基准，设置

T_{a}

的时间长度为30 s。

2.3.2　分布演化特征提取

经2.3.1节提取获取原始数据集 $X : \{\forall x \in X : x \in R^{c \times l}\}$ ，其中， $c = 3$ 表示加速度数据的三轴方向、 $l = 650$ 表示时间片段长度。原始数据集中包含分心样本数据集 $X_{A b} \subseteq X (\{\forall x \in X_{A b} : y = 1\})$ 和非分心样本数据集 $X_{N} \subseteq X (\{\forall x \in X_{N} : y = 0\})$ 。首先，使用滑动窗对原始数据 $X$ 进行采样，滑动采样函数为 $ϕ$ ，每一次滑动采样得到 $ϕ_{i, j} \in R^{c \times n}$ ， $ϕ_{i, j} = ϕ_{j} (x_{i})$ 表示样本数据 $x_{i}$ 在第 $j$ 个滑动窗口的采样结果，其中 $j \in {1,2, \dots, l - n}$ ， $l$ 为 $x_{i}$ 时间片段长度， $n$ 为滑动窗口长度，则每个样本数据 $x_{i}$ 采样后形成 $ϕ_{i} = ϕ (x_{i}) \in R^{(l - n) \times c \times n}$ 。

对滑动窗口采样所得数据 $ϕ_{i}$ ，本文使用直方图形式拟合概率密度分布，分布拟合函数为 $D = f (ϕ_{i})$ ，对于每个滑动窗口数据 $ϕ_{i, j}$ 可得到其分布 $D_{i, j}$ 。计算两相邻滑动窗 $D_{i, j} = f (ϕ_{i, j})$ 和 $D_{i, j + 1} = f (ϕ_{i, j + 1})$ 之间的概率密度分布差异作为分布演化特征。具体地，采用6种指标值计算两两分布之间的相似度^［

30］，用以度量分布差异，分布差异量化函数为

G

，

∆ D_{i, j} = G (D_{i, j}, D_{i, j + 1})

，其中

G

为计算不同分布差异量化指标和分布形态差异值的

k (k = 6)

个计算函数

g

的集合，其定义分别如式（2）—（10）所示。据此，由原始数据

x_{i}

得到驾驶行为演化特征集合

∆ D_{i} = G (f (ϕ_{i})) \in R^{k \times c \times (l - n - 1)}

。

KL散度（Kullback-Leibler divergence）：

g_{K L} (D_{i}, D_{i + 1}) = \sum D_{i + 1} l o g (\frac{D_{i + 1}}{D_{i}}), D_{i} \neq 0

(2)

JS散度（Jensen-Shannon divergence）：

M = \frac{1}{2} (D_{i} + D_{i + 1})

(3)

\begin{array}{l} g_{J S} (D_{i}, D_{i + 1}) = \frac{1}{2} g_{K L} (D_{i}, M) + \frac{1}{2} g_{K L} (D_{i + 1}, M) \end{array}

(4)

EM距离（Earth-Mover’s distance）：

g_{E M} (D_{i}, D_{i + 1}) = \begin{matrix} i n f \\ γ \in Π (D_{i}, D_{i + 1}) \end{matrix} E_{(x, y) ~ γ} [‖x - y‖]

(5)

式中： $γ$ 为 $x, y$ 联合分布，它的边缘分布为 $D_{i}$ 和 $D_{i + 1}$ ；inf表示下确界；E为期望。

TV距离（total variation distance）：

g_{T V} (D_{i}, D_{i + 1}) = \begin{matrix} s u p \\ x \in X \end{matrix} |D_{i + 1} - D_{i}|

(6)

式中：sup表示上确界，即最小上界。以正态分布为标准量度数据分布形态，采用作差的方式计算偏度和峰度的变化，量化两两分布之间的差异。

偏度（Skewness）：

γ (X) = E [{(\frac{X - μ}{σ})}^{3}] = \frac{E X^{3} - 3 μ σ^{2} - μ^{3}}{σ^{3}}

(7)

g_{γ} (D_{i}, D_{i + 1}) = γ (X_{i + 1}) - γ (X_{i})

（8）

峰度（Kurtosis）：

K u r t (X) = E [{(\frac{X - μ}{σ})}^{4}] = \frac{μ_{4}}{σ^{4}} = \frac{E [{(X - μ)}^{4}]}{{(E [{(X - μ)}^{2}])}^{2}}

（9）

g_{K u r t} (D_{i}, D_{i + 1}) = K u r t (X_{i + 1}) - K u r t (X_{i})

(10)

式中： $X$ 是分布为D的随机变量； $μ$ 为均值； $σ$ 为标准差。

基于多种特征融合的分布差异量化值 $∆ D_{i}$ （KL散度、JS散度、EM距离、TV距离、偏度差值和峰度差值）即为驾驶行为的分布演化特征。

3 辨识模型构建

本章介绍两阶段分心驾驶状态辨识方法的第二阶段——辨识模型构建，基于第一阶段的分心驾驶行为表征，本文提出采用深度森林算法构建常态和分心驾驶的分类辨识模型，经实证数据验证本模型可应用于现实场景中的分心辨识。

3.1 深度森林

深度森林是由Zhou等^［

24］提出的一种深度学习算法。其基本原理是随机森林算法，受到深度神经网络对原始数据逐层处理提取特征的启发，算法采用了联级森林结构，联级结构中的每一层都是由决策树组成的森林的集合，如图4所示。假设有C个预测类别，输入特征变量后每层的各个随机森林均输出C维类向量，层内输出结果联接并与输入特征结合再输入下一层，层间表征向量维度如式（11）所示。联级森林的最后一层（L-level）输出最终的类向量结果，计算过程如式（12）所示，其最大元素索引值即为预测类别。

D i m = W + F \times C

(11)

F i n a l C l a s s = \frac{1}{F} \sum_{f = 1}^{F} C l a s s (f)

(12)

式中： $D i m$ 为表征向量的维度； $W$ 为原始特征的维数大小； $F$ 为每一层中的随机森林数量；C为分类数； $F i n a l C l a s s$ 为输出向量结果； $F$ 为随机森林的数量； $C l a s s (f)$ 为随机森林 $f$ 所输出的分类向量。

图4 联级森林结构示意图

Fig. 4 Schematic diagram of cascade forest structure

深度森林在特征关系处理方面，设置多粒度扫描结构进一步增强特征学习的能力。多粒度扫描层基于滑动窗口对输入特征进行切片，生成若干特征向量的集合，再分配与输入特征相同的标签，依次作为单独实例通过随机森林进行训练，其分别输出的分类向量被联接作为生成的特征向量。

3.2　分心辨识建模

驾驶行为受到“人‒车‒路‒环境”多因素的共同影响，传统基于运动学特征指标阈值的分心驾驶状态辨识方法依赖于单一或受控环境下的驾驶场景，存在局限性，深度森林学习建模的方法基于历史数据驱动，可以适用于复杂现实场景下的分心辨识。相比传统机器学习建模方法依赖先验知识的手工特征提取，深度学习方法的特征学习能力较强，能够实现对IMU数据三轴方向及多种特征耦合关系的自主学习、挖掘。此外，基于深度森林的分心驾驶状态辨识模型，其联级森林结构层数可以自适应确定，从而自动设置模型复杂度，具有参数简洁、结构灵活的特点，适用于不同规模的训练数据，且可解释性强，能够输出各输入特征的重要度。

模型输入变量：按照2.3所述的分心驾驶行为表征方法，利用滑动窗口提取概率密度分布演化特征，由原始数据 $x \in R^{c \times l}$ 得到 $∆ D \in R^{c \times (l - n - 1) \times 6}$ ，按照图5所示的形式输入深度森林模型中。图中，l表示数据时间片段长度，n表示滑动窗口长度，c（c=3）表示加速度的方向轴数。 $∆ D$ 在多粒度扫描层中，由自适应滑动窗口采样生成若干二次特征向量，拉平后经由随机森林获得相同数量的输出分类向量，分类结果合并联接作为输入特征变量进入联级森林结构中，输出变量为样本非分心/分心的0-1分类结果。

图5 建模过程

Fig. 5 Process of modeling

4 实验结果

本文基于上海网约车智能手机IMU数据针对上述提出的两阶段分心驾驶状态辨识模型开展实证实验，具体包括以下三个部分：①验证本文提出的基于IMU数据表征分心驾驶行为方法的有效性；②对比基于概率密度分布演化特征和基于传统驾驶行为表征方法的分心辨识效果；③对比深度森林模型与常用机器学习模型SVM、XGBoost在平衡数据集下的分心辨识模型性能。

本文选择使用准确率（Accuracy， ACC）和 $F_{α}$ 分数来评价分心辨识模型的性能。其中，ACC反映模型分类辨识的准确度， $F_{α}$ 分数反映模型的综合表现能力，由精确率（Precision）、召回率（Recall）计算得到。分心驾驶状态辨识本质上是一个分类问题，出于对驾驶安全的考虑，分心辨识更多关注的是召回率，强化召回率的辨识方法更多地表现为不漏掉可能发生的分心行为，即将所有可能的分心驾驶行为判断为分心。因此使用 $F_{α}$ 分数来衡量模型性能是一个较为合理的选择，其计算方法如式（13）—（14）所示：

F_{α} = \frac{(α^{2} + 1) P_{r e} \cdot r_{e}}{α^{2} \cdot P_{r e} + r_{e}}

(13)

式中： $α$ 为权重参数，可用来调节 $F$ 分数对不同指标的权重，当 $α$ 越大时，对召回率的权重会越大于对精确率的权重，本文暂使用 $α = 1$ ； $P_{r e}$ 为模型精确率， $r_{e}$ 为模型召回率。

F_{1} = \frac{2 \cdot P_{r e} \cdot r_{e}}{P_{r e} + r_{e}}

(14)

4.1　分心驾驶行为表征方法验证

设计实验证实基于IMU数据概率密度分布演化特征的方法能够有效表征分心驾驶行为。针对分心样本 $X_{a b}$ ，参考2.3.1中时间片段的定义，提取驾驶人分心片段及其分心发生1 h内的任一非分心片段，其中分心片段报警时刻前、后各5 s分别为分心前期和后期，非分心片段基准时期30 s后的任意5 s为常态驾驶时期。拟合数据概率密度分布，分别计算上述三个时期相较于其对应基准时期（30 s）的分布差异指标值，即驾驶行为分布演化特征。将三类数据集划分为训练集和测试集，其中训练集和测试集各占总样本数的80 %和20 %，采用随机森林的方法建模，对驾驶常态时期与分心前期、驾驶常态时期与分心后期分别进行二分类辨识，数据集各参数说明如表1所示，输出模型辨识结果及各概率密度分布演化特征的重要度，分别如表2和图6所示。

表 1 数据集参数说明

Tab. 1 Parameter description of dataset

参数	描述
数据集名称	分心前期 $S_{a b}^{q}$ 、分心后期 $S_{a b}^{h}$ 、常态时期 $S_{n}$
数据集比例	分心前期：分心后期：常态时期 = 1：1：1
特征数量	6
数据标签	0-非分心（常态时期样本）、1-分心（分心前/后期）
数据集划分	训练集：测试集 = 4：1

表 2 模型辨识结果

Tab. 2 Results of recognition model

模型评价指标	辨识常态时期和分心前期	辨识常态时期和分心后期
准确率	0.941	0.953
精确率	0.912	0.924
召回率	0.650	0.731

图6 驾驶行为根部演化特征重要度

Fig. 6 Importance of driving behavior distribution evolution characterizations

实验结果证明，本文所提出的表征方法能够仅基于泛在IMU数据，在驾驶行为与工况强耦合的情况下，挖掘分心驾驶与常态驾驶相比的异常特征，用以分心驾驶行为的表征和辨识。

（1）根据特征重要度结果，纵向驾驶行为表征指标（Z轴）重要度最高，表明分心驾驶行为特征主要体现在纵向加速度异常变化方面，而垂直方向加速度由于重力作用基本维持在9.8 m·s^-2左右，因此，垂直方向（Y轴）特征重要度最低，并不反映分心驾驶状态信息。

（2）各用于计算驾驶行为演化特征的分布差异量化指标重要度（JS散度> KL散度> EM距离> TV距离>峰度差值>偏度差值）表明，分布差异量化指标相较于分布形态差异值在表征分心驾驶行为上效果更好，其中JS散度弥补了KL散度不对称性问题，能够更好地通过两分布之间差异量化来刻画分心驾驶行为分布演化的特征。

4.2　驾驶行为表征指标对比

设计实验基于IMU数据对比本文提出的分布演化特征与传统驾驶行为表征对于分心状态辨识模型效果的影响：分布演化特征按本文2.3节所述方法提取，而传统驾驶行为表征方法计算加速度、加速率和速度累积变化量的数理统计特征值作为分心驾驶行为特征（包括极值、均值、标准差、变异系数和时间波动率等）。

首先，需要确定提取分布演化特征的滑动窗参数。设计实验确定最佳窗口长度和窗口重叠程度，考虑长度较大的滑动窗重叠度较高时才能获取足够多的有效窗口，当窗口长度为30 s和40 s时，配置95 %的重叠度；同样，长度较短的时间窗则不设置过高的窗口重叠度；时间窗口数量在7~25个范围之内视为有效。经过建模对比实验，最终选择窗口长度10 s、重叠度75 %为最佳滑动窗口参数，实验结果如表3所示。

表 3 滑动窗参数对比实验结果

Tab. 3 Comparison experiment results of sliding-window parameters

		窗口长度/ s
		5	10	15	20	25	30	40
重叠度/ %	0	0.689
	25	0.624	0.636
	50	0.682	0.673	0.631
	75		0.696	0.669	0.635	0.594
	95						0.592	0.578

对比基于IMU数据概率密度分布演化特征和传统驾驶行为表征进行深度森林建模的模型结果，如表4所示。

表 4 分布演化特征与传统行为表征的建模结果对比

Tab. 4 Comparison of driving behavior evolution characterizations and conventional characterizations

	传统统计特征	分布演化特征	变化率/ %
准确率	0.593	0.714	+20.4
精确率	0.579	0.638	+10.2
召回率	0.780	0.810	+3.8
$F_{1}$ 分数	0.664	0.714	+7.5

传统表征驾驶行为的统计特征指标转换为演化特征后，模型准确率（Accuracy）提升了20.4 %；基于传统统计特征的模型精确率（Precision）和 $F_{1}$ 值较低，转变为分布演化特征后模型性能出现较为显著的提升，精确率和 $F_{1}$ 值分别达到0.6和0.7以上，分别增长了10.2 %和7.5 %；模型召回率（Recall）方面，基于传统统计特征的模型召回率已经达到0.7以上，而基于分布演化特征的建模能够在此基础上进一步提升，减少分心驾驶状态的漏报。

4.3　辨识模型对比

基于概率密度分布演化得到的分心驾驶行为特征，采用深度森林与常用机器学习方法（SVM、XGBoost）分别建立分心辨识模型，输出并对比模型综合评价结果，如图7所示。

图7 三类辨识模型结果

Fig. 7 Performance of three different models

深度森林和XGBoost的各项指标均优于SVM，其中深度森林展现出最优的模型性能。在准确率、精确率和 $F_{1}$ 值上的表现最好，相较于其他两类模型均有一定的提升效果，能够在关注驾驶安全、保持分心召回率较高的条件下，使得模型的精确率提升12 %~16 %，提高分类辨识的正确率、减少了误报情况。

5 结语

本文提出了一种仅基于泛在车辆运动数据的表征‒建模两阶段分心状态辨识。第一阶段采用概率密度分布演化行为表征方法，解决了驾驶行为与工况强耦合情况下难以表征分心驾驶行为的问题，第二阶段采用深度森林建模的方法，突破了传统基于运动学特征指标方法在现实场景中的局限性，基于历史数据驱动建模实现分心辨识。

基于上海市网约车的IMU数据进行实证研究发现，分心状态下，驾驶行为在车辆行进方向上表现异常；与传统驾驶行为表征指标相比，采用概率密度分布演化来表征驾驶行为的模型在准确率和精确率上分别提升了20.4 %和10.2 %；使用深度森林模型能够准确辨识分心驾驶状态，在保证高召回率前提下，精确率提升超过10 %、误报减少。

本研究成果提供了一种使用泛在IMU数据表征和解析分心驾驶状态的方法，实现了驾驶分心辨识，能够支撑驾驶分心监测和警示系统在存量车辆上的推广应用，从而提升驾驶安全性，助力道路交通安全管理。同时，该方法还为理解分心驾驶状态特性以及分析其对交通事故的影响提供了一种使用泛在数据的思路和方法。

作者贡献声明

余荣杰：实验思路构思和方法设计，实验的监督和指导，初稿的审阅和修改。

张雪晨：数据分析、整理，实验探究和结果可视化，初稿撰写。

何阳：实验设计的核实，初稿的审阅和修改。

吴晓：初稿的审阅和修改。

参考文献

World Health Organization. Global status report on road safety 2018： summary［R］. Geneva： World Health Organization， 2018. [百度学术]

SUN H， WANG Q P， ZHANG P， et al. Spatialtemporal characteristics of tunnel traffic accidents in China from 2001 to present［J］. Advances in Civil Engineering， 2019， 2019（1）： 4536414. [百度学术]

HE J， CHAPARRO A， NGUYEN B， et al. Texting while driving： Is speech-based text entry less risky than handheld text entry？［J］. Accident Analysis & Prevention， 2014，72： 287. [百度学术]

WHITE K M， HYDE M K， WALSH S P， et al. Mobile phone use while driving： An investigation of the beliefs influencing drivers’ hands-free and hand-held mobile phone use［J］. Transportation Research Part F： Traffic Psychology and Behaviour， 2010，13（1）： 9. [百度学术]

National Center for Statistics and Analysis. Distracted driving 2019［R］. Washington D C： National Highway Traffic Safety Administration， 2021. [百度学术]

冯谢星，张新钰，张颖麟，等.针对打车软件的分心驾驶研究［J］.中国机械工程，2019，30（15）：1776. [百度学术]

FENG Xiexing， ZHANG Xinyu， ZHANG YingLin， et al. Study on distracted driving caused by taxi-hailing applications［J］. China Mechanical Engineering， 2019，30（15）：1776. [百度学术]

张兰芳，崔博宇，王俊骅，等.自然驾驶状态下使用手机对驾驶控制行为的影响［J］.同济大学学报（自然科学版），2019，47（12）：1756. [百度学术]

ZHANG Lanfang， CUI Boyu， WANG Junhua， et al. Effects of naturalistic mobile phone operations on driving control behavior［J］. Journal of Tongji University（Natural Science），2019，47（12）：1756. [百度学术]

孙剑，张一豪，王俊骅. 基于自然驾驶数据的分心驾驶行为识别方法［J］.中国公路学报，2020，33（9）：225. [百度学术]

SUN Jian， ZHANG Yihao， WANG Junhua. Detecting distraction behavior of drivers using naturalistic driving data［J］. China Journal of Highway and Transport， 2020，33（9）：225. [百度学术]

LIANG Y， MULLER S， SCHWENDNER D， et al. A scalable framework for robust vehicle state estimation with a fusion of a low-cost IMU， the GNSS， radar， a camera and lidar［C］//2020 IEEE/RSJ International Conference on Intelligent Robots and Systems （IROS）. ［S.l.］： IEEE， 2020： 1661-1668. [百度学术]

WAHLSTROM J， SKOG I， HANDEL P， et al. IMU-based smartphone-to-vehicle positioning［J］. IEEE Transactions on Intelligent Vehicles， 2016， 1（2）： 139. [百度学术]

ALKADI R， AL-AMERI S， SHOUFAN A， et al. Identifying drone operator by deep learning and ensemble learning of IMU and control data［J］.IEEE Transactions on Human-Machine Systems，2021，51（5）： 451 [百度学术]

BOWDEN V K， LOFT S， WILSON M D， et al. The long road home from distraction： Investigating the time-course of distraction recovery in driving［J］. Accident Analysis & Prevention， 2019， 124： 23. [百度学术]

余荣杰，龙晓捷，涂颖菲，等. 基于低频轨迹数据的分时租赁驾驶人驾驶风格分析［J］. 同济大学学报（自然科学版）， 2019， 47（10）： 1463. [百度学术]

YU Rongjie， LONG Xiaojie， TU Yingfei，et al. Driving style analysis for car-sharing drivers with low-frequency trajectory data［J］. Journal of Tongji University（Natural Science）， 2019，47（10）： 1463. [百度学术]

OMERUSTAOGLU F， SAKAR C O， KAR G. Distracted driver detection by combining in-vehicle and image data using deep learning［J］. Applied Soft Computing， 2020， 96： 106657. [百度学术]

李鹏辉，廖呈玮，郑志晓，等. 认知分心对车辆跟驰过程操控安全性的影响［J］. 中国公路学报， 2018， 31（5）： 167. [百度学术]

LI Penghui， LIAO Chengwei， ZHENG zhixiao， et al. Impact of cognitive distraction on vehicle control safety in car-following situation［J］. China Journal of Highway and Transport， 2018，31（5）： 167. [百度学术]

OSMAN M， MISHRA S， PALETI R. Injury severity analysis of commercially-licensed drivers in single-vehicle crashes： Accounting for unobserved heterogeneity and age group differences［J］. Accident Analysis & Prevention， 2018， 118： 289. [百度学术]

IRANMANESH S M， MAHJOUB H N， KAZEMI H， et al. An adaptive forward collision warning framework design based on driver distraction［J］. IEEE Transactions on Intelligent Transportation Systems， 2018， 19（12）： 3925. [百度学术]

葛慧敏，郑明强，吕能超，等. 驾驶分心综述［J］. 交通运输工程学报， 2021， 21（2）： 38. [百度学术]

GE Huimin， ZHENG Mingqiang， LYU Nengchao ， et al. Review on driving distraction［J］. Journal of Traffic and Transportation Engineering， 2021， 21（2）： 38. [百度学术]

DENG Q， SOEFFKER D. A review of the current HMM-based approaches of driving behaviors recognition and prediction［J］. IEEE Transactions on Intelligent Vehicles， 2021， 7（1）： 21. [百度学术]

徐文翔，王俊骅，傅挺. 基于注意力机制及分层网络的危险驾驶行为预测方法［J］. 同济大学学报（自然科学版）， 2022，50（5）：722. [百度学术]

XU Wenxiang， WANG Junhua， FU Ting. Aggressive driving behavior prediction method based on attention mechanism and hierarchical network［J］. Journal of Tongji University（Natural Science）， 2022，50（5）：722. [百度学术]

LIAO Y， LI S B E， LI G F， et al. Detection of driver cognitive distraction： an SVM based real-time algorithm and its comparison study in typical driving scenarios ［C］//2016 IEEE Intelligent Vehicles Symposium （IV）. ［S.l.］：IEEE， 2016： 394-399. [百度学术]

YAO Y， ZHAO X， DU H， et al. Classification of distracted driving based on visual features and behavior data using a random forest method［J］. Transportation Research Record， 2018， 2672（45）： 210. [百度学术]

LIANG Y， LEE J D. A hybrid bayesian network approach to detect driver cognitive distraction［J］. Transportation Research Part C： Emerging Technologies， 2014， 38： 146. [百度学术]

ZHOU Z H， FENG J. Deep forest［J］. National Science Review， 2019， 6（1）： 74. [百度学术]

STRICKLAND L D. Visual-manual NHTSA driver distraction guidelines for in-Vehicle electronic devices［J］. Federal Register （National Archives & Records Service， Office of the Federal Register），2012，77（37）： 11200. [百度学术]

陈建兵，李杰. 密度演化方法在概率分布估计中的应用研究［J］. 同济大学学报（自然科学版）， 2006， 34（4）： 433. [百度学术]

CHEN Jianbing， LI Jie. Probability density evolution method for probability density function estimation of random variables［J］. Journal of Tongji University（Natural Science）， 2006， 34（4）： 433. [百度学术]

REIMER B， MEHLER B， DONMEZ B. A study of young adults examining phone dialing while driving using a touchscreen vs. a button style flip-phone［J］. Transportation Research Part F： Traffic Psychology and Behaviour， 2014， 23： 57. [百度学术]

REYES M L， LEE J D. Effects of cognitive load presence and duration on driver eye movements and event detection performance［J］. Transportation Research Part F： Traffic Psychology and Behaviour， 2008， 11（6）： 391. [百度学术]

OWENS J M， ANGELL L， HANKEY J M， et al. Creation of the naturalistic engagement in secondary tasks （NEST） distracted driving dataset［J］. Journal of Safety Research， 2015，54： 33. [百度学术]

ARJOVSKY M， CHINTALA S， BOTTOU L. Wasserstein GAN［EB/OL］. ［2017-12-06］. https：//doi.org/10.48550/arXiv.1701.07875. [百度学术]

基于惯性传感数据概率密度分布演化特征的分心驾驶状态辨识 PDF

摘要

关键词

1 研究综述

1.1 分心驾驶行为表征

1.2 分心驾驶辨识算法

2 驾驶行为表征

2.1 数据说明

2.2 数据预处理

2.3 概率密度分布演化特征