摘要
分析了单桩承载力的主要影响因素,利用降维算法对静力触探数据进行预处理,使用树模型的重要性分析函数筛选主要特征,由贝叶斯优化算法确定超参数,提出了一种基于机器学习算法的打入桩竖向承载力预测模型。经过准度测试、蒙特卡洛模拟检验及与经验关系模型的对比,对预测模型的有效性和鲁棒性进行了评估。结果表明,支持向量机(SVM)模型、随机森林(RF)模型、极限梯度提升算法(XGBoost)模型均能较准确地预测打入桩竖向承载力,且准确性显著高于经验关系模型。根据综合分析结果,建议选择XGBoost模型用于打入桩竖向承载力的预测。
打入桩具有成本低、沉降少、对周边环境影响小等优点,在基础工程中已得到广泛使用,其竖向承载力的准确确定对桩基的设计和施工至关重要。静载试验是工程中直接确定竖向承载力的常用方法,但其人力物力成本较高。如何精准经济地确定承载力一直是业内学者的重要研究课
静力触探(CPT)是一种高效的原位测试手段,由于CPT探头贯入过程与打入桩入土过程相似,国内外学者基于CPT数据和大量工程实践经验提出了许多预测打入桩单桩承载力的经验方
为建立广泛适用且可靠性高的打入桩极限承载力预测模型,本文基于浙大桩基数据
单桩的极限承载能力和很多因素有关,如桩长、桩径、桩周土的物理力学性质、入土深度等。此外,工程实践中发现桩的几何形状、材料类型,成桩过程中的成桩工艺、加荷速率,施工工艺、施工方法等也会影响承载力。这些影响因素和桩的承载力之间存在着复杂的非线性关
本文从两方面考虑影响打入桩竖向承载力的主要因素,即桩周土的物理力学性质参数和桩身参数,前者包括地下水位深度、场地土物理力学性质(用CPT数据表征),后者包括桩身形状、桩体材料、桩长、桩外径、铸壁厚度、加载模式。
基于CPT数据的经验方法采用不同的端阻影响区来确定锥尖阻力()的均值,导致承载力计算结果差异较大。以美国某场地的抗压打入桩为例,分别采用《建筑桩基设计技术规范

图1 不同经验方法的端阻影响区范围
Fig. 1 Range of end resistance influence zone of different empirical methods
根据
机器学习模型可以输入全部静力触探数据,并利用降维算法获取主成分以减少信息损失,可以最大限度利用现场试验数据,同时规避CPT深度不满足端阻影响区范围的问题。
本文使用的数据来源于浙江大学搜集的全球52个场地及其116根打入桩(ZJU‒ICL
对桩身形状、桩体材料、加载模式等基数标量标签化处理以量化特征,如
特征 | 基数标量 | 标签值 |
---|---|---|
桩身形状 | 圆桩 | 0 |
方桩 | 1 | |
桩体材料 | 混凝土桩 | 0 |
钢桩 | 1 | |
加载模式 | 抗压桩 | 0 |
抗拔桩 | 1 |
其余输入参数中,地下水位深度、桩长、桩外径、铸壁厚度是比率标量;原始CPT数据是沿深度的矩阵,采用降维算法对其进行处理。
输出参数中,注意到No.40场地的某抗压桩为34 680 kN,超出ZJU‒ICL数据库桩承载力平均值1 000%,对预测模型而言为异常值,舍去。
ZJU‒ICL数据库52个场地中有21个场地含有和数据,31个场地仅有数据。对这21个场地的和进行多重共线性分析,计算其皮尔逊(Pearson)相关系数,如

图2 各场地双桥静探数据相关系数
Fig. 2 Correlation coefficient of CPT data at each site
主成分分析法(PCA)是解决多重共线性的主流数据降维算法,可以最大程度地保留数据信息。在线性变换过程中,计算数据协方差矩阵的特征向量,将其标准正交化,并按特征值的大小排序,前若干个特征值对应的数据变量方差最大,包含信息最多,其特征向量称为主成分,一般主成分的累积信息保留程度达85%以上即
以No.35场地为例,该场地CPT探测深度为20.6 m,探测精度为0.2 m,该组CPT数据包含103个样本,每组样本包含和,即
(1) |
式中:为样本集,每一组CPT样本。将和降成一维,设降维后数据为,标准正交基的集合为,则,其中,为
(2) |
设样本的均值为,样本的投影的均值为,则样本的协方差矩阵为
(3) |
则样本投影后的方差为
(4) |
要使得样本投影后的方差最大,则对于正交基要求,加上约束条件,故可通过拉格朗日乘数法构造一个目标函数:
(5) |
式中:为PCA降维时的目标函数,为拉格朗日乘数。
对目标函数求偏导且令偏导为0,可得
(6) |
观察式(6)可知是的特征值;是对应的特征向量,将所有的特征值排序,选择最大的若干个特征值对应的特征向量,即得到。
特征间相关度越高,PCA降维后信息损失越小。经过计算,各场地和数据横向降至一维后信息保留程度在99.55%至99.99%之间,如

图3 CPT降维的信息保留程度
Fig. 3 Information retention of CPT dimension reduction
将21个场地的值与31个场地的值沿深度方向用PCA算法降至低维,得到信息高度浓缩的CPT数据,其信息保留程度图如
从
以No.35场地为例,其CPT数据在横纵向降维后的结果如
深度/ m | / MPa | / MPa | |||||
---|---|---|---|---|---|---|---|
0.20 | 3.40 | 0.02 | -13.85 | -74.02 | -16.21 | -22.27 | 0.47 |
0.40 | 5.61 | 0.04 | -11.64 | ||||
20.40 | 34.98 | 0.31 | 17.73 | ||||
20.60 | 38.79 | 0.41 | 21.54 |
为降低模型复杂度并提高泛用性,使用树模型的特征重要性分析函数对输入参数进行初步筛选。以在树模型中作为划分属性的次数为重要性计算指标,11个输入参数的重要性分数如

图4 模型特征重要性分数
Fig. 4 Importance scores of model features
由
本文采用3种主流的机器学习算法对单桩承载力进行预测计算,分别是梯度下降算法的代表支持向量机(SVM)、梯度提升算法的代表随机森林(RF)、梯度提升算法的新秀XGBoost。
支持向量机(SVM)的基本模型是定义在特征空间上的间隔最大的线性分类器,通过使用核函数,支持向量机回归(SVR)可改变原数据维度以在新空间中进行线性回
对于这样的训练样本,希望通过训练学习得到一个回归模型以使得与尽可能接近,为权值向量,为偏置值。SVR能容忍与之间最多有的偏差,故SVR问题可形式化为如下优化问题:
(7) |
式中:为正则化常数;为样本数;为不敏感损失函数,如式(8)所示。
(8) |
引入松弛变量,优化问题转化为
(9) |
使用拉格朗日乘子法求得SVR的解如下所示:
(10) |
式中:为打入桩竖向承载力;为的伴随矩阵,能使得不为0的样本即为支持向量。
特征缩放对于梯度下降算法至关重要,对于SVM常采取Z-score标准化方法。经处理的数据符合均值为0,标准差为1的正态分布,公式如下:
(11) |
式中:为标准化前的参数;为相应参数的均值;为相应参数的标准差。
标准化的具体做法为:将训练集的特征参数和均标准化后再投入模型训练,然后输入测试集的特征参数到模型以预测测试集的单桩承载力。值得注意的是,对于测试集单桩承载力的反标准化,使用的是训练集中单桩承载力的均值和标准差。
随机森林(RF)是采用树模型的梯度提升算法中的代表,它通过组合多个单一决策树,实现了弱评估器的互补,提高了集成算法的整体性
给定为组成RF的棵决策树,、为两个随机向量,边缘函数(marginal function)为
(12) |
式中:为和的边缘函数;代表事件发生与0,1二值函数之间的对应关系;分类正确的向量用表示;分类不正确的向量用表示;代表取平均值。
边缘函数在RF算法中的概念为
(13) |
式中:为RF算法中和的边缘函数;预测正确的分类概率用来表示。
作为一个弱评估器,每棵决策树都与数据集中的一个原始数据集和一个未被抽取的样本组成的数据集互相对应。表示未被抽取的数据集数目,为对于输入的随机向量在中投票的分类类别为的比例,则
(14) |
RF模型的强度可用边缘函数的期望表征,即
(15) |
式中:为量化的RF算法的强度。
将公式(14)得出的代入到公式(15)中,则得到RF集成树模型的强度估计为
(16) |
对于作为梯度提升算法的RF和XGBoost,则不需要对数据做归一化处理。
XGBoost即极限梯度提升算法,它在普通树模型的基础上改进算法以提高精度,充分调用CPU的多线程并行以提升树达到自身的计算极
基于梯度增强决策树算法,XGBoost通过最小化目标函数至期望范围,预测值计算公式如下:
(17) |
式中:为预测值;为输入变量;为均值样本;为第个弱评估函数;为样本个数;为所有分类回归树的集合。
目标函数计算公式如下:
(18) |
式中:为预测值与实测值的偏差;为限制算法复杂度的正则化项。
最小化目标函数,通过正则化项平滑算法的学习权重后,最终得到目标函数的最优解如下:
(19) |
式中:为树结构;为迭代次数;为叶节点的数目;为叶子的实例集;和为正则化系数;和分别为损失函数的一阶导数和二阶导数。
根据3.3节的特征工程结果,选择桩长、加载模式、桩外径、、地下水位深度共5个特征作为模型的输入参数,单桩静载试验结果作为模型的输出参数,分别采用SVM、RF、XGBoost 3种机器学习算法建立预测模型。将ZJU‒ICL数据库的115组数据以7∶3的比例划分为训练集和测试集,考虑到数据集的不同划分会对模型的训练和测试造成较大影响,故将随机状态初始化为固定值。
在超参数的设置上,考虑到本文问题为非凸问题,采用贝叶斯优化算法针对训练集进行超参数寻优。选择三项式核函数构建SVM模型,对RF模型锁定random_state为0。调参结果如
机器学习模型 | 超参数 | 最优值 |
---|---|---|
SVM | C | 4.41 |
coef0 | 3.59 | |
gamma | 0.02 | |
RF | n_estimators | 10 |
max_depth | 15 | |
min_samples_split | 2 | |
min_samples_leaf | 1 | |
max_features | 1 | |
XGBoost | num_round | 111 |
eta | 0.43 | |
subsample | 0.57 | |
max_depth | 7 | |
colsample_bytree | 0.41 | |
colsample_bylevel | 0.82 | |
colsample_bynode | 0.11 |
对采用最优超参数的各模型进行训练,将模型在训练集上的预测结果与静载试验结果进行对比,并对预测值和实测值进行线性拟合,如

图5 各预测模型预测值与实测值比较(训练集)
Fig. 5 Comparison of predicted values and measured values of each prediction model (training set)
由
将训练好的模型应用于测试集,预测值与实测值对比结果如

图6 各预测模型预测值与实测值比较(测试集)
Fig. 6 Comparison of predicted values and measured values of each prediction model (testing set)
从
对各预测模型在数据集上的预测效果使用决定系数、均方根误差、平均绝对误差、平均绝对百分比误差等4种评估指标进行评价,以为主要指标降序排序,如
数据集 | 预测模型 | /
| /
| /
| |
---|---|---|---|---|---|
训练集 | XGBoost | 0.999 | 125.9 | 59.9 | 4.2 |
RF | 0.957 | 685.0 | 355.0 | 20.1 | |
SVM | 0.935 | 840.2 | 595.2 | 43.1 | |
测试集 | XGBoost | 0.965 | 780.3 | 541.2 | 24.0 |
SVM | 0.930 | 1 100.5 | 770.0 | 30.2 | |
RF | 0.906 | 1 270.7 | 779.1 | 31.2 |
由
蒙特卡洛模拟本质上是一种使用随机数来解决计算问题的方法,常用于检验模型在一定参数摄动下的鲁棒

图7 蒙特卡洛模拟评估指标概率密度
Fig. 7 Probability density of Monte Carlo simulation evaluation index
由
利用蒙特卡洛模拟对是否需要地下水位深度这项特征进行检验。以表现最佳的XGBoost模型为例,仅将地下水位深度从输入特征中剔除,其余参数不变,5 000次蒙特卡洛模拟结果的概率密度分布如

图8 蒙特卡洛模拟概率密度
Fig. 8
由
在ZJU‒ICL数据库52个场地中,共有12个场地存在静力触探深度小于该场地中打入桩桩长的情况,经过插值处理后,能运用经验公式的打入桩为87根。为了进一步评价本文模型的性能,选取《建筑桩基设计技术规范

图9 机器学习模型与经验关系模型对比
Fig. 9 Comparison of machine learning models and empirical relation models
由
预测方法 | 预测模型 | /
| /
| /
| |
---|---|---|---|---|---|
机器学习模型 (采用) | XGBoost | 0.966 | 883.7 | 566.7 | 23.9 |
SVM | 0.923 | 1 341.1 | 926.1 | 61.7 | |
RF | 0.907 | 1 470.0 | 781.9 | 26.2 | |
机器学习模型 (采用均值) | XGBoost | 0.941 | 1 174.3 | 717.8 | 25.7 |
RF | 0.892 | 1 587.1 | 838.3 | 26.3 | |
SVM | 0.866 | 1 762.8 | 1 192.6 | 81.3 | |
经验关系模型 | 桩基规范 | 0.764 | 2 344.6 | 1 470.0 | 65.6 |
LCPC | 0.749 | 2 415.7 | 1 144.1 | 35.0 | |
静探规程 | 0.733 | 2 493.8 | 1 511.1 | 83.7 |
由
本文采用PCA降维算法处理CPT数据,基于SVM、RF、XGBoost算法构建打入桩竖向承载力的预测模型,对模型的有效性和鲁棒性进行分析。主要结论如下:
(1)对单桩承载力的主要影响因素进行分析,经过特征工程筛选和蒙特卡洛模拟验证,最终确定影响打入桩竖向承载力的4个主要因素:桩长、加载模式、桩外径、桩周土参数(CPT数据表征)。
(2)采用PCA降维算法处理CPT数据以减少信息损失,同时规避CPT深度不满足端阻影响区范围的问题。模型的有效性分析结果表明,此处理方法切实可行。
(3)模型测试及蒙特卡洛模拟结果表明,SVM、RF、XGBoost模型均能较准确地预测打入桩竖向承载力。XGBoost模型总体性能最强且鲁棒性最好,RF模型总体性能较好但存在对高水平承载力预测效果较差的问题,SVM模型总体性能相对较差。
(4)机器学习模型的预测准确性显著高于经验关系模型。经验关系模型中,《建筑桩基设计技术规范
作者贡献声明
莫品强:数据采集,方案设计,指导论文修改。
林浩东:研究构思,算法实现,稿件撰写。
胡 静:稿件修订,稿件校核。
高 柳:协助完成论文内容。
庄培芝:参与论文的修改。
参考文献
郗锋, 翁光远. 基于数据融合技术的桩基承载力预测方法研究[J]. 华中科技大学学报(城市科学版), 2010, 27(4): 26. [百度学术]
CHI Feng, WENG Guangyuan. Research on prediction method of pile bearing capacity based on data fusion technology[J]. Journal of Huazhong University of Science and Technology (Urban Science ), 2010, 27(4): 26. [百度学术]
中华人民共和国住房和城乡建设部. 建筑桩基设计技术规范: JGJ94—2008[S]. 北京: 中国建筑工业出版社, 2008. [百度学术]
Ministry of Housing and Urban-Rural Development of the People’s Republic of China. Technical code for building pile foundation design: JGJ94—2008[S]. Beijing: China Architecture and Building Press, 2008. [百度学术]
李洪江, 刘松玉, 童立元. 基于CPTU测试p‒y曲线法及其在桩基水平承载中的应用[J]. 岩石力学与工程学报, 2017, 36(2): 513. [百度学术]
LI Hongjiang, LIU Songyu, TONG Liyuan. Testing p⁃y curve method based on CPTU and its application in horizontal bearing capacity of pile foundation[J]. Journal of Rock Mechanics and Engineering, 2017, 36(2): 513. [百度学术]
李镜培, 操小兵, 李林, 等. 静压沉桩与CPTu贯入离心模型试验及机制研究[J]. 岩土力学, 2018, 39(12): 4305. [百度学术]
LI Jingpei, CAO Xiaobing, LI Lin, et al. Centrifugal model test and mechanism study on the penetration of pile and CPTu under static pressure[J]. Rock and Soil Mechanics, 2018, 39(12): 4305. [百度学术]
MIAO Y, ZUO P, YIN J. An improved CPTu-based method to estimate jacked pile bearing capacity and its reliability assessment[J]. KSCE Journal of Civil Engineering, 2019, 23(9): 3864. [百度学术]
MOAYEDI H, HAYATI S. Applicability of a CPT-based neural network solution in predicting load-settlement responses of bored pile[J]. International Journal of Geomechanics, 2018, 18(6): 06018009. [百度学术]
SINGH T, PAL M, ARORA V K. Modeling oblique load carrying capacity of batter pile groups using neural network, random forest regression and M5 model tree[J]. Frontiers of Structural and Civil Engineering, 2019, 13(3): 674. [百度学术]
EBRAHIMIAN B, MOVAHED V. Application of an evolutionary-based approach in evaluating pile bearing capacity using CPT results[J]. Ships and Offshore Structures, 2017, 12(7):937. [百度学术]
GHORBANI B, SADROSSADAT E, BAZAZ J B, et al. Numerical ANFIS-based formulation for prediction of the ultimate axial load bearing capacity of piles through CPT data[J]. Geotechnical and Geological Engineering, 2018, 36(4): 2057. [百度学术]
苏世定, 杨仲轩, 郭望波. 黏土中打入桩竖向承载力计算方法效果评价[J]. 岩土力学, 2015, 36(增刊2): 389. [百度学术]
SU Shiding, YANG Zhongxuan, GUO Wangbo. Effect evaluation of calculation method for vertical bearing capacity of driven pile in clay[J]. Rock and Soil Mechanics, 2015, 36(S2): 389. [百度学术]
中国土木工程学会. 孔压静力触探测试技术规程: T/CCES1—2017[S]. 北京: 中国建筑工业出版社, 2017. [百度学术]
China Civil Engineering Society. Technical specification for pore pressure static contact detection test: T/CCES1—2017[S]. Beijing: China Architecture and Building Press, 2017. [百度学术]
BAGUELIN F, BURLON S, BUSTAMANTE M, et al. Justification de la portance des pieux avec la norme “Fondations profondes” NF P 94-262 et le pressiome’tre[C/CD]// Proceedings Journe’es Nationales de Ge’otechnique et de Ge’ologie de l’Inge’nieur JNGG2012. Bordeaux: [s.n.], 2012. [百度学术]
ESLAMI A, MOSHFEGHI S, HOSSEIN M. Piezocone and cone penetration test (CPTu and CPT) applications in foundation engineering[M]. Oxford: Butterworth-Heinemann, 2019. [百度学术]
VASWANI N, NARAYANAMURTHY P. Static and dynamic robust PCA and matrix completion: a review[J]. Proceedings of the IEEE, 2018, 106(8): 1359. [百度学术]
倪沙沙, 迟世春. 基于粒子群支持向量机的高心墙堆石坝渗透系数反演[J]. 岩土工程学报, 2017, 39(4): 727. [百度学术]
NI Shasha, CHI Shichun. Inversion of permeability coefficient of high core rockfill dam based on particle swarm support vector machine[J]. Journal of Geotechnical Engineering, 2017, 39(4): 727. [百度学术]
BREIMAN L. Random forests[J]. Machine Learning, 2001, 45(1): 5. [百度学术]
CHEN T, GUESTRIN C. XGBoost: a scalable tree boosting system[C]//Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2016: 785-794. [百度学术]
PHAM B T, LE L M, LE T T, et al. Development of advanced artificial intelligence models for daily rainfall prediction[J]. Atmospheric Research, 2020, 237:104845. [百度学术]