摘要
近年来,机器学习方法在车辆实时能耗预测方面得到了广泛应用,但实车采集数据中存在的精度不足、字段缺失以及多重共线性等问题,尤其是同款车型中驾驶工况和驾驶者行为存在显著差异,限制了能耗预测准确性和泛化能力的进一步提升。为此,本文系统考虑特征冗余度、数据平衡性、货运趟次、运输能力、路段拥挤程度和司机驾驶时长等因素,使用交互信息(MI)方法选择关键特征,并构建司机特征画像作为独立特征,进而结合XGBoost、RF和MLP等机器学习方法提出一种基于MI特征选择的能耗高精度预测方法,然后基于120辆轻型卡车的T-BOX采集数据进行实例验证。结果表明,本文提出的预测方法能够显著提高不同驾驶行为和驾驶工况下的能耗预测精度,研究成果可为开发预测轻卡能耗的通用模型提供参考。
目前,世界各国大多数机动车仍然依赖于石油等不可再生能源,其在运行过程中会排放大量的有害物质。面对石油资源逐渐短缺和环境质量不断恶化的境况,不仅需要加快新能源车辆的研发和推广,如何降低燃油车的燃料消耗也是当务之急。在这一背景下,轻卡逐渐成为了人们的关注焦点。这种车型主要用于500 km以内的短途运输,也是国内销量和保有量最高的货车种类。然而,公路货运卡车燃油消耗与其本身特性、行驶工况、货运种类、装载量等因素密切相关,因此精准的能耗预测对于提高运输效率、降低货运成本以及节能减排具有重要的意义。特别是在交通拥堵的情况下,油耗和排放量会因为平均速度降低和加减速频繁而增加。同时,轻卡行业目前面临大吨小标治理及合规化等要
近年来,不断有学者致力于车辆油耗模型的研究,早期的研究主要基于车辆动力学原理,其中以车辆比功率(VSP)模型、 VT-Micro模型和综合模态排放模型(CMEM)为代
赵晓
为提高车辆能耗预测准确性和模型泛化能力,本文针对轻型柴油卡车驾驶工况和驾驶者行为差异,构建司机特征画像作为独立特征。同时,本文使用交互信息(mutual information, MI)方法确定车辆运行对油耗影响的关键特征,再考虑行驶路段的拥挤程度,以此建立一种基于MI特征选择的能耗预测模型。最后,通过120辆轻卡的T-BOX采集数据进行模型验证。结果表明,本研究提出的能耗预测方法能够显著提高不同驾驶行为和驾驶工况下的预测精度,研究成果可以为开发预测轻卡能耗的通用模型提供参考。
本研究所用数据样本是通过车载数据采集终端(T-BOX)固件中的采集功能获取的轻型柴油卡车运行的数据集,在中国多个省市收集了120辆技术参数相同的轻型柴油卡车的行驶数据,提取驾驶员驾驶行为及车辆运行数据,车辆数据的采样间隔为10 s,数据格式如
车辆识别码 | 采集时间 | 经度 | 纬度 | 车速 | 大气压力 | 发动机净输出扭矩 | 摩擦扭矩 | 发动机转速 | 发动机燃料流量 |
---|---|---|---|---|---|---|---|---|---|
LETXXX50 | 1/12/2022 00:04:04 | 121.1392° | 31.28805° | 66.648 km/h | 103 kPa | 55 % | 6 % | 1638.5 r/min | 10.55 L/h |
LETXXX50 | 1/12/2022 00:04:14 | 121.1390° | 31.28956° | 68.578 km/h | 103 kPa | 48 % | 6 % | 1691.0 r/min | 9.30 L/h |
… | … | … | … | … | … | … | … | … | … |
车辆识别码 | 反应剂余量 | 进气量 | SCR入口温度 | SCR出口温度 | 发动机冷却液温度 | 累计里程 | 发动机状态 | 续航里程 | 剩余油量 |
LETXXX50 | 41.6 % | 184.3 kg/h | 296.219 ℃ | 286.3125 ℃ | 77 ℃ | 26 463 km | 开启 | 436 km | 65.2 % |
LETXXX50 | 41.6 % | 174.7 kg/h | 292.125 ℃ | 288.8125 ℃ | 79 ℃ | 26 464 km | 开启 | 435 km | 65.2 % |
… | … | … | … | … | … | … | … | … | … |
由于实际数据信息的采集与传输过程中,部分数据会出现异常或缺失现象,需要对原始数据进行数据清洗。主要包括时间跳变检查、缺失数据填充、对不符合实际情况的数据进行调整或剔除等,提高数据质量为后续建模等进行准备。
交互信息是一种度量两个随机变量之间的相互依赖性的方法,与相关系数不同,交互信息不仅可以捕获线性关系,还可以捕获更复杂的非线性关系。在机器学习和数据分析中,特征选择是提高模型性能和减少训练时间的关键步骤。特别是在面对高维数据时,选择与目标变量高度相关的特征可以大大提高模型的准确性。MI可以通过以下公式定义:
(1) |
式中: 是随机变量和之间的交互信息; 是和的联合概率分布;而和分别是和的边缘概率分布。
交互信息衡量的是通过观察 而获得 的信息量。如果两个变量完全独立,则它们之间的交互信息为零。如果 和 之间存在某种关系,则交互信息将大于零,且关系越强,交互信息的值越大。
对燃油消耗影响因素研究中,显示影响车辆能耗排放的因素众多,国内外文
油耗预测输入特征 | MI评分 | 排序 |
---|---|---|
发动机燃料流量平均值 | 1.602 504 | 1 |
进气量平均值 | 1.557 927 | 2 |
车速平均值 | 1.486 842 | 3 |
发动机净输出扭矩平均值 | 1.463 839 | 4 |
发动机转速标准差 | 1.425 313 | 5 |
发动机燃料流量标准差 | 1.418 684 | 6 |
发动机转速平均值 | 1.413 199 | 7 |
车速标准差 | 1.402 512 | 8 |
车速最小值 | 1.378 864 | 9 |
发动机净输出扭矩标准差 | 1.372 777 | 10 |
司机驾驶行为是影响车辆能耗的关键因素之一。在传统的驾驶行为研究中,分析重点往往放在与车辆实时工况如车速、发动机扭矩等紧密相连的特征上。然而,这种方法往往忽略了一些与驾驶行为直接相关的非工况统计量。为了更全面地理解和刻画这种行为模式,本研究引入了一系列描述司机驾驶习惯和运输模式的统计量,如
特征变量 | 单位 | 符号 | 特征变量 | 单位 | 符号 | |
---|---|---|---|---|---|---|
运营天数 | - | D | 总行驶里程 | km | MT | |
总运营时长 | h | TO | 日均行驶里程 | km | MTD | |
日均运营时长 | h | TOD | 夜间驾驶总时长 | h | NTD | |
总停留时长 | h | TS | 夜间驾驶时长比例 | - | NTR | |
日均停留时长 | h | TSD | 夜间驾驶频率 | - | NDF | |
总运营效率 | - | EO | 疲劳驾驶频率 | - | FDF |
车辆识别码 | D | TO | TOD | TS | TSD | EO | Mstart | Mend | MT | MTD | NTD | NTR | NDF | FDF |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
LETXXX43 | 31 | 100.275 | 3.234 677 | 38.191 67 | 1.231 989 | 0.724 182 | 55 124 | 57 975 | 2 851 | 91.967 74 | 0 | 0 | 0 | 0 |
LETXXX12 | 30 | 394.019 | 13.133 98 | 19.994 44 | 0.666 481 | 0.951 706 | 17 933 | 21 723 | 3 790 | 126.333 3 | 118.844 4 | 0.301 621 | 0.966 667 | 1 |
… | … | … | … | … | … | … | … | … | … | … | … | … | … | … |
统计数据如"总运营时长"、"运营天数"和"总运营效率"等,能够展示司机的工作节奏和驾驶时长。而与风险相关的统计指标,如"夜间驾驶总时长"、"夜间驾驶频率"和"疲劳驾驶频率",则表征了司机的驾驶风险驾驶倾向。Grandjean发现,疲劳是与驾驶性能下降相关的渐进过程,需要通过适当休息来缓
(2) |
式中: Dstart、 Dend分别为车辆运行开始和结束日期。
(3) |
式中: ti 为第i次运行的时间长度; m为运行的总次数。
(4) |
(5) |
式中: si 为第 i 次停留的时间长度。
(6) |
(7) |
(8) |
式中: Mstart、 Mend 分别为运行的开始累计里程、结束累计里程。
(9) |
(10) |
式中: ni 为第 i 次夜间驾驶的时间长度。夜间驾驶时段考虑为晚上23时至次日凌晨5时
(11) |
(12) |
式中: Dnight 为夜间驾驶的天数。
(13) |
式中: Dfatigue 为疲劳驾驶天数。疲劳驾驶是指司机驾驶车辆当天驾驶超过 8 h或连续驾驶超过 4
K-means 算法是一种广泛使用的无监督聚类分析算法,通过将数据集划分为 K 个相互独立的子集或簇,在没有先验知识的情况下完成数据的分类。通过选定一组聚类的中心点并最小化每个数据点到其最近中心点的距离,不断迭代直到聚类的中心点不再改变或达到设定的迭代次
对于包含 n 维数据点和要划分为 K 个簇的数据集X,数据对象之间采用欧氏距离来度量相异性,聚类目标可以表示为:
(14) |
式中: K是聚类的数量; 是第k个聚类的中心; 表示数据集中的第 i 个点; 是第k个聚类中的数据点数量。迭代新中心点的计算方法为:
(15) |
本研究利用手肘法判断最佳司机驾驶行为簇数量,其基本思想是通过运行聚类算法并计算不同的簇数量及其对应的误差平方和(sum of the squared error, SSE)来找到最佳的簇数量。随着K值的迭代增加,SSE通常会不断减少。手肘法的意思是找到SSE开始急剧减缓的最优K值。通常,在这个点之后增加更多的簇也无法显著提高模型的性能。
通过绘制K-SSE曲线并找到显著拐点,如

图1 K-SSE曲线
Fig.1 K-SSE curve
在对司机的驾驶行为进行多维度分析后,本研究成功地将司机行为分为3个不同的簇,如
Cluster | TO | TOD | TS | TSD | EO | Mstart | Mend | MT | MTD | NTD | NTR | NDF | FDF |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | 57.922531 | 3.041376 | 18.541667 | 31.893519 | 1.813962 | 2265.666667 | 125.676371 | 2.135455 | 0.047717 | 0.154631 | 0.011219 | 2265.666667 | 125.676371 |
1 | 146.297126 | 4.966305 | 29.620690 | 56.742912 | 1.898400 | 6682.068966 | 225.658111 | 22.773180 | 0.194183 | 0.743399 | 0.038488 | 6682.068966 | 225.658111 |
2 | 376.262500 | 12.542083 | 30.000000 | 24.855556 | 0.828519 | 2793.000000 | 93.100000 | 98.034722 | 0.258514 | 0.833333 | 1.000000 | 2793.000000 | 93.100000 |
簇0:此类别的司机具有较低的总运营时长和运营天数,以及较低的夜间驾驶和疲劳驾驶频率。这可能反映了这一群体的驾驶行为更倾向于白天、短途和非密集的运输任务。
簇1:此类别的司机展示了更长的总运营时长和运营天数,以及较高的夜间驾驶时长比例和疲劳驾驶频率。这些指标可能揭示了此类司机的运输任务更频繁、更密集,并且可能涉及更多的夜间驾驶。
簇2:此类别的司机具有最长的总运营时长和日均运营时长,夜间驾驶时长比例和疲劳驾驶频率也最高。这可能反映了一种高强度、长途的运输模式。
通过构建这些司机运输行为画像,本研究提供了对司机驾驶习惯和运输模式的宏观和微观视角。这些画像不仅涵盖了从驾驶时段到总行驶里程等多个维度,还揭示了与风险相关的统计指标,如夜间驾驶总时长、夜间驾驶频率和疲劳驾驶频率。
道路拥堵指数是对道路交通流量和道路容量的一个综合评估指标,旨在描述特定时间和地点的道路交通状态。百度地图智慧交通采用拥堵指数作为表征交通拥堵程度的客观指标,基于海量的用户定位大数据、交通出行大数据和车辆轨迹大数据等挖掘计算,实时展现各城市和特定路段的交通流动情况。该指数的计算方法主要是通过比对实际行程时间与畅通行程时间,拥堵指数越大代表拥堵程度越高,如
道路级 拥堵程度 | 畅通 | 缓行 | 拥堵 | 严重拥堵 |
---|---|---|---|---|
划分区间 | [1.00~1.50) | [1.50~2.00) | [2.00~4.00) | [4.00~] |
为了获取道路拥堵信息,本研究通过调用百度地图交通出行大数据平台的API接口来抓取多源数据。该抓取过程采用了定制的网络爬虫技术,确保数据采集的高效和准确。详细的数据处理流程如下:
(1) 数据请求:利用GPS信息,向API接口发送定位请求,从而获取与车辆行驶路径相关的道路拥堵原始数据。
(2) 数据解析:处理API返回的数据,该数据通常采用JSON或XML格式。进一步从中抽取关键信息,例如:省、市及道路名称,并基于此信息获取特定路段在不同时间的拥堵指数。
(3) 数据清洗:进行数据的初步处理,包括消除重复数据、修补缺失值以及处理异常值。
(4) 数据标准化: 将所有数据转化为统一格式,使得后续分析和处理更加便捷。
(5) 异常值处理: 通过统计方法检测并处理可能存在的异常值,如突发的交通事故或其他非常态的交通情况导致的数据偏差。
(6) 数据插值: 对于数据中可能出现的缺失部分,利用插值方法进行估算,确保数据的完整性。
(7) 数据匹配与融合: 数据经过上述处理后,与原始数据集进行匹配,并将拥堵指数作为一个新增列添加到原始数据中,确保数据的完整性和连贯性。
通过上述一系列处理步骤,成功地实现了对120辆轻型柴油卡车线路拥堵指数数据的获取。
油耗预测模型结构如

图2 模型训练流程图
Fig.2 Model training workflow diagram
本文采用3个主要评价指标对模型预测效果进行了评估:平均绝对误差(mean absolute error, MAE)、平均绝对百分比误差(mean absolute percentage error, MAPE)以及拟合优度
(16) |
(17) |
(18) |
式中: 是第i个油耗真实值; 是第i个油耗预测值; 是油耗真实值的平均值; n是样本数量。
模型的预测结果详见
评价指标 | 基本模型 | 优化模型 | |||||||
---|---|---|---|---|---|---|---|---|---|
MLP | RF | XGBoost | MI-Fusion-MLP | MI-Fusion-RF | MI-Fusion-XGBoost | ||||
0.725 3 | 0.761 7 | 0.728 4 | 0.847 9 | 0.871 5 | 0.850 6 | ||||
MAE | 1.743 5 | 1.498 4 | 1.739 1 | 1.362 1 | 1.156 9 | 1.343 8 | |||
MAPE/% | 14.56 | 12.62 | 14.58 | 11.25 | 9.46 | 11.06 |

图3 部分模型预测效果
Fig.3 Partial prediction performance of the model
本研究首先使用MI方法筛选了与油耗相关的关键车况特征,并利用实车运行数据构建司机运输行为画像作为独立特征。然后,基于百度地图交通出行大数据平台的API接口抓取车辆行驶路段道路拥堵指数。进一步,本文结合了XGBoost、RF和MLP机器学习方法,构建基于MI-Fusion特征选择的能耗高精度预测方法。实验结果表明本文提出的预测方法能够显著提高不同驾驶行为和驾驶工况下的能耗预测精度。其中MI-Fusion-RF模型预测准确率达到90.54%,其预测精度相比传统RF模型具有显著提升,预测准确率提高了 3.16%。
本研究的成果可为开发预测轻型柴油卡车能耗的通用模型提供实用参考。未来工作可进一步探讨不同类型和规模的车辆数据,考虑车辆载荷、行驶路段坡度、天气等多维因素,寻求更有效的模型设计方法,并在更广泛的应用场景中验证和优化,提高油耗的预测精度和实用性。
参考文献
国家统计局. 中华人民共和国2022年国民经济和社会发展统计公报[EB/OL]. [2023-02-28]. http://www.stats.gov.cn/sj/zxfb/202302/t20230228_1919011.html. [百度学术]
National Bureau of Statistics of China. Statistical communique on the national economic and social development of the People's Republic of China for the Year 2022[EB/OL]. [2023-02-28]. http://www.stats.gov.cn/sj/zxfb/202302/t20230228_1919011.html. [百度学术]
中华人民共和国国务院. 两部门联合约谈违规生产货车企业 深入推进货车“大吨小标”专项整治[EB/OL]. (2021-02-07)[2023-02-28]. https://www.gov.cn/xinwen/2021-02/07/content_5585567.htm. [百度学术]
The State Council of the People's Republic of China. Two departments jointly hold discussions with truck manufacturers violating regulations to deepen the special rectification of 'overloaded trucks with understated labels[EB/OL]. (2021-02-07)[2023-02-28]. https://www.gov.cn/xinwen/2021-02/07/content_5585567.htm. [百度学术]
WANG H, FU L, ZHOU Y, et al. Modelling of the fuel consumption for passenger cars regarding driving characteristics[J]. Transportation Research Part D: Transport and Environment, 2008, 13(7), 479. [百度学术]
YANG X, ZHIZHONG L, MIN-YE C, et al. Research on calculation software of fuel consumption for heavy trucks[C]// 2011 Third International Conference on Measuring Technology and Mechatronics Automation. Shanghai: IEEE, 2011, 2: 1121. [百度学术]
WANG J, RAKHA H A. Fuel consumption model for heavy duty diesel trucks: Model development and testing[J]. Transportation Research Part D: Transport and Environment, 2017, 55, 127. [百度学术]
DU Y, WU J, YANG S, et al. Predicting vehicle fuel consumption patterns using floating vehicle data[J]. Journal of Environmental Sciences, 2017, 59: 24. [百度学术]
WYSOCKI O, DEKA L, ELIZONDO D. Heavy duty vehicle fuel consumption modeling using artificial neural networks[C]// 2019 25th International Conference on Automation and Computing (ICAC). Lancashire: IEEE, 2019: 1. [百度学术]
赵晓华,姚莹,伍毅平,等. 基于主成分分析与BP神经元网络的驾驶能耗组合预测模型研究[J]. 交通运输系统工程与信息, 2016, 16(5): 185. [百度学术]
ZHAO Xiaohua, YAO Ying, WU Yiping, et al. Research on a combined driving energy consumption prediction model based on principal component analysis and BP neural networks[J]. Journal of Transportation Systems Engineering and Information Technology, 2016, 16(5): 185. [百度学术]
XU Z, WEI T, EASA S, et al. Modeling relationship between truck fuel consumption and driving behavior using data from internet of vehicles[J]. Computer‐Aided Civil and Infrastructure Engineering, 2018, 33(3): 209. [百度学术]
WICKRAMANAYAKE S, BANDARA H D. Fuel consumption prediction of fleet vehicles using machine learning: A comparative study[C]// 2016 Moratuwa Engineering Research Conference. Colombo: IEEE, 2016: 90. [百度学术]
YAO Y, ZHAO X, LIU C, et al. Vehicle fuel consumption prediction method based on driving behavior data collected from smartphones[J]. Journal of Advanced Transportation, 2020(4): 9263605.1. [百度学术]
DU Y, WU J, YANG S, et al. Predicting vehicle fuel consumption patterns using floating vehicle data[J]. Journal of Environmental Sciences, 2017, 59: 24. [百度学术]
黄赫,储江伟,艾曦峰,等.基于Python的汽车运行油耗预测模型的构建[J].电子测量技术,2021,44(20):113. [百度学术]
HUANG He, CHU Jiangwei, AI Xifeng, et al. Construction of a car fuel consumption prediction model based on Python [J]. Electronic Measurement Technology, 2021, 44(20): 113. [百度学术]
邹智宏,李超,邓聚才,等.基于mRMR特征优化算法的油耗预测建模研究[J].计算机仿真,2023,40(3):186. [百度学术]
ZOU Zhihong, LI Chao, DENG Jucai, et al. Research on fuel consumption prediction modeling based on mRMR feature optimization algorithm[J]. Computer Simulation, 2023, 40(3): 186. [百度学术]
GRANDJEAN E. Fatigue in industry[J]. Br J Ind Med, 1979, 36: 175. [百度学术]
KANEKO T, JOVANIS P. Multiday driving patterns and motor carrier accident risk: A disaggregate analysis[J]. Accid Anal Prev, 1992, 24: 437. [百度学术]
SAGASPE P, TAILLARD J, AKERSTEDT T, et al. Extended driving impairs nocturnal driving performances[J]. PloS One, 2008, 3(10): e3493. [百度学术]
YUAN Chunhui, YANG Haitao. Research on K-value selection method of K-means clustering algorithm[J]. J MDPI, 2019, 2(2): 226. [百度学术]
百度地图智慧交通. 百度地图交通出行大数据平台[EB/OL]. [2023-02-20]. https://jiaotong.baidu.com/congestion/city/urbanrealtime/. [百度学术]
Baidu Maps Intelligent Transportation. Baidu maps traffic and travel big data platform[EB/OL]. [2023-02-20]. https://jiaotong.baidu.com/congestion/city/urbanrealtime/. [百度学术]