摘要
研究了基于深度学习目标检测技术的钢材智能计数方法。通过拍摄并标注大量施工现场的钢筋、圆钢管、方钢管图片,构建了包含近40万个计数点的数据集。基于YOLOv4目标检测算法,建立了钢材智能计数模型,并通过改进其网络结构、损失函数,以及采用合适的训练策略,提高了模型对于钢材的计数精度。检验表明,模型的平均精度为91.41%,平均绝对误差为4.07。利用上述成果开发的APP软件,可通过手机拍照、上传,完成实时计数。
建筑业是我国国民经济的支柱产业,但效益低、欠环保、耗能大的现状,距离高质量发展要求仍有巨大差距,与世界上发达国家和地区相比,亟需通过科技创新提升行业的智能化水平解决上述问题。智能建造是信息技术与工程建造深度融合的新模式,从根本上改变了建筑工程生产与组织方式,通过促进建造过程中信息的流动和融合来显著提高施工效率。“智能建造”作为一个新专业在2018年由同济大学提出,由于与当今科技发展趋势以及行业的现实需求高度吻合,目前已有100多所高校新增了此专业,反映出很高的社会认可度,也是建筑工业化协同发展未来15年的主要发展目标之
施工过程智能化是智能建造全过程的重要环节之一,而施工中钢筋(主要建材)、钢管(如用于脚手架的圆钢管、支撑体系的方钢管)等物料计数是施工过程管理、成本控制的关键环节。然而,当前施工实践中对于上述钢材的管理仍主要依赖于人工计数方式,效率低、成本高、自动化水平差。因此,钢材物料的智能计数是实现施工智能建造需要解决的关键问题之一,对照片进行图像处理实现钢材计数是目前最常见的思路。例如,Zhang
近年来,计算硬件性能的飞速提升以及算法研究的突破,使得深度学习在许多领域得到了成功应用,极大地提高了图像中目标检测的准确性。深度学习通过组合简单非线性模块学习非常复杂的函数,与传统的机器学习方法相比具有更强的特征提取能力和泛化能力,从而更易发现海量数据中的复杂结
基于深度学习的目标检测是典型的数据驱动模型,需要大量的真实样本进行模型训练和性能检验。面向最终的实际应用场景(即实际的光照条件和背景噪声),本研究利用普通智能手机拍摄了大量的实际施工工地的钢筋、圆钢管和方钢管的横截面照片,并对其中的钢材进行标注(

图 1 钢材标注示例
Fig. 1 Example of steel labeling
图片类别 | 图片数量/ 张 | 钢材数量/ 根 | 聚类中心(长,宽) |
---|---|---|---|
钢筋 | 991 | 181 375 | (32,32), (57,58), (89,90), (121,120), (153,152), (189,186), (232,229), (292,290),(395,396) |
圆钢管 | 1 019 | 154 044 | (25,24), (42,41), (60,59), (82,81), (110,108), (147,144), (187,182), (243,235), (316,312) |
方钢管 | 538 | 56 970 | (23,23), (45,40), (60,66), (70,122), (87,49), (102,87), (151,110), (198,201), (325,299) |
先验框是模型训练前预设的接近目标真实大小的框,算法是通过预测先验框的偏移量实现目标检测,合理的先验框设置能够加快模型的训练并提高检测的精度。因此,利用K-means聚类算法将数据集中每种钢材真实框的长宽分为最具代表性的9类,它们的聚类中心作为模型先验框,结果如

图 2 钢材聚类结果
Fig. 2 Result of steel clustering
目标检测中常用平均精度AP(average precision)、平均最大绝对误差MAE(mean absolute error)或平均均方根误差RMSE(root mean squared error)等指标来评价模型的性能。本文实践表明,采用单一指标评价不适合于钢材计数模型。原因在于,AP值是包含定位和计数信息的一个综合指标,不能直接区分两个因素各自的影响,而MAE、RMSE只包含计数信息,存在虽然数量准确(如漏了n个钢筋,而把n个其他物品计为钢筋)但实际是误检的情况。因此,本研究综合采用AP、MAE和RMSE这3个指标,各自的定义如下:
(1) |
式中:n为测试集中的图片数量;为在召回率为时的测试精度,使用预测框与真实框之间的交并比衡量定位的准确性,在本研究中使用AP50,即IOU(intersection over union)阀值为0.5来测试模型的检测效果。
MAE用于测试模型计数的准确性,而RMSE则用于测试模型计数的稳定性,定义如下:
(2) |
(3) |
式(
相比于相对误差,MAE能够直观地反映模型漏检的根数,同时不受单张图片中方钢管数量的影响,而且在实际使用场景中,统计人员也更关注漏检的根数。
3类钢材计数中,由于方钢管种类繁多,拥有不同的壁厚、长宽比和排列方式,因此计数最为困难。考虑到篇幅,本节以方钢管为例说明计数模型的建立,前述方钢管数据集以4:1划分为训练集和测试集。
YOLOv4是目前使用很广泛、计算速度快的单阶段目标检测算法,适合于钢材实时计数的需求。然而,虽然YOLOv4检测自然场景下水平物体的性能十分出色,但直接应用于具有较大纵横比且密集排列的方钢管却表现欠佳。这是因为,对施工现场非常常见的方钢管倾斜情况,照片采用水平标注框后产生的冗杂区域和各重叠区域将变得相对较 大(相比之下,钢筋、圆钢管的重叠和冗杂区域小),如

图 3 水平框标注方钢管和圆钢管
Fig. 3 Detection of square steel tube and circle pipe using horizontal frame
原模型将输出的特征图划分为不同数量的栅格单元,每个栅格单元有3个预测边界框,每个边界框包含坐标、置信度和类别信息,并采用 CIOU(complete intersection over union
(4) |
(5) |
式(

图 4 CIOU损失示意
Fig. 4 CIOU loss
目标检测的位置损失函数用于计算预测框与真实框之间差异。具体实现时,将旋转框的参数转化为高斯分布的数字特征(即均值和方差),采用KL(Kullback‒Leibler)散度和高斯‒瓦瑟斯坦距离(Gaussian‒Wasserstein distance,GWD

图 5 二维高斯分布模拟旋转矩形框
Fig. 5 Modeling of a rotating bounding box by two-dimensional Gaussian distribution
(6) |
(7) |
式中:、分别为二维高斯分布的均值向量、协方差矩阵;x、y、w、h、θ分别为旋转矩形框的橫坐标、纵坐标、宽、高、角度。二维高斯分布转化完成后,用公式(
(8) |
(9) |
(10) |
(11) |
式中:N表示二维正态分布;μ、分别为对应分布的均值向量和协方差矩阵;下标p、t分别表示预测框和真实框;Tr表示取矩阵的迹;表示向量的二范数;和分别为基于KL散度、高斯‒瓦瑟斯坦距离的损失函数;为可调参数,在本文中取为2。
YOLOv4原模型的3个先验框均为水平,用来拟合方钢管的旋转真实框会加大模型的训练难度,导致检测精度降低。对此,本文将原来的每个先验框增加6种角度,分别为-60°、-30°、 0°、30°、60°、90°,特征图上每个网格点共有18个先验框,虽然增加了网络检测头的厚度,但是能有效提高模型的检测精度。
此外,训练模型时需要从所有的先验框中区分正负样本,每个网格点上的正样本需要满足先验框与真实框的IOU大于某个阀值,并且其值也必须是该网格点上最大的。在水平目标检测中计算IOU是简单快速的,然而旋转框之间的IOU在训练阶段计算较为费时,故采用近似交并比ArIOU来计算训练阶段的IOU,其计算方法见
(12) |
式中:T表示真实框;A表示先验框;和分别表示真实框和先验框的角度;表示将角度调整为的先验框A;IOU表示求交并比。
(13) |
式中:1表示正样本;0表示负样本;、β、γ为可调参数,本文分别取为0.6、0.4、15°。
未改进的计数模型在训练的过程中的置信度函数采用二分类交叉熵损失,为了减少正样本与负样本之间的不均衡性对模型训练的影响,并增强模型对困难样本的敏感度,将原置信度损失换为Focal损
(14) |
式中:和分别为真实置信度和预测置信度;可调参数γ用于平衡难易样本的重要性,在训练过程中能够自动降低简单背景对训练权重的贡献度,使模型在训练时快速聚焦于学习困难的负样本,在训练过程中取为2。
在计算机视觉的目标检测任务中,一旦某个目标与某个特定图相关联,其他的特征图的相应位置将被视为背景,不同层次的特征就会产生冲突,干扰模型训练并降低特征提取的有效性。对此,采用注意力机制能使网络聚焦于重要的特征从而提高模型的精度。ASFF(adaptively spatial feature fusion

图 6 方钢管计数模型结构图
Fig. 6 Network of counting model of square steel pipe

图 7 SE模块的网络结构
Fig. 7 Network of SE module

图 8 ASFF的网络结构
Fig. 8 Network of ASFF module
不同的深度学习模型通常采用的训练策略各不相同,好的训练策略能够极大提高模型的检测效果。常用的训练策略有数据增强、学习率调整计划、迁移学习以及多尺度训练。
数据增强通过翻转、平移、旋转等对原始图片进行几何变换或通过颜色空间变换进行色彩增强,用于丰富训练集,使模型能够对不同的图片拥有更强的鲁棒性,如

图 9 图片数据增强
Fig. 9 Data augmentation of photo
迁移学习是从某个领域的任务中提取有用的特征并将其应用到新的任务中。直接训练深度学习模型而不使用迁移学习往往会训练出效果不理想的模型,因此在训练方钢管计数模型过程中采用COCO数据集上的预训练权重来进行权重初始化。由于方钢管数据集的图片数量不够充足,以及方钢管种类和形态上的较大差异,同时考虑到圆钢管和方钢管在特征上具有一定的相似性,将模型在圆钢管数据集上训练的权重作为方钢管计数模型的初始权重。
学习率是深度学习模型训练时控制模型权重进行梯度更新的一个超参数,取值过高会使模型在训练过程中难以收敛,太低又会使模型收敛的速度过慢,制定合适的学习率调整策略对模型的训练十分关键。本研究采用余弦退火的方式进行学习率的调整,如
(15) |
式中:为当前的学习率;和分别为学习率的最大值和最小值;i为循环序号;为当前已经执行完的训练次数;为第i次循环时总的训练轮次。在本研究将最大、最小学习率分别设置为0.000 2和0。

图 10 学习率曲线
Fig. 10 Learing rate
数据增强 | 学习率调整 | AP |
---|---|---|
N | N | 77.20 |
Y | N | 86.80 |
N | Y | 88.40 |
Y | Y | 91.41 |
注: 表中Y、N分别表示训练时是否加入相应的方式。
序号 | 注意力模块 | ASFF | GWD | KL | ||||
---|---|---|---|---|---|---|---|---|
AP | MAE | RMSE | AP | MAE | RMSE | |||
1 |
PS | N | 85.67 | 4.72 | 7.36 | 85.01 | 3.87 | 6.79 |
2 |
CBA | N | 88.42 | 3.73 | 5.62 | 86.60 | 4.22 | 6.18 |
3 |
S | N | 86.84 | 4.37 | 6.62 | 85.48 | 4.25 | 6.00 |
4 |
Triple attentio | N | 87.17 | 3.65 | 6.17 | 86.67 | 4.00 | 7.00 |
5 | PSA | Y | 84.45 | 3.92 | 5.79 | 84.78 | 4.50 | 7.26 |
6 | CBAM | Y | 88.50 | 3.65 | 5.88 | 85.76 | 3.98 | 6.63 |
7 | SE | Y | 91.41 | 4.07 | 5.85 | 83.80 | 4.45 | 6.74 |
8 | triple attention | Y | 84.99 | 4.70 | 7.40 | 83.20 | 4.21 | 6.80 |
注: 表中Y、N分别表示在网络中是否加入ASFF机制;GWD和KL分别表示使用高斯距和KL散度作为位置损失函数。

图 11 损失函数修改前后效果对比
Fig. 11 Comparison of result before and after modification of loss function

图 12 方钢管计数模型检测结果
Fig. 12 Detection results of square steel pipe counting model
上述方钢管计数模型的建立思路可以直接拓展至钢筋和圆钢管,并分别开发了各自的实时计数模

图 13 钢筋和钢管计数结果
Fig. 13 Counting results of rebar and steel pipe
为检验上述理论研究成果的实用性,真正解决现实工程问题,研究开发了基于手机的“钢材智能计数”APP并已上线,用户只需从应用商店下载注册即可使用,APP首页如

图 14 钢材智能计数APP首页
Fig. 14 Frontpage of intelligent steel counting APP
本文利用深度学习中的目标检测技术研究钢材的智能计数,通过改进YOLOv4模型来提升精度,在此基础上开发了实用APP,以解决建筑工地钢材人工统计费时费力的问题。研究得出以下结论:
(1)不同的钢材计数任务需要不同的检测模型,本研究针对钢筋、圆钢管以及方钢管开发了满足计数精度的不同模型。
(2)对于含有角度影响的方钢管计数,本研究在网络中加入了SE注意力机制、ASFF模块以及针对有角度物体的损失函数,并结合数据增强和学习率调整等策略显著提升了模型精度,在普通场景下方钢管计数模型能够达到90%以上的平均精度和4.07的平均绝对误差。
(3)研究成果形成了实用的APP,并已拥有大量的用户,可为实际的建设工程节省人力物力。
本文的研究仍有一些不足:因训练数据有限,方钢管计数模型在复杂场景下的计数能力仍有待提升;虽然实现了对建筑施工主要钢材的智能实时计数,但对其他材料(如工字钢、模板、砌块)的计数仍需新的模型,用同一个模型实现不同材料的计数是未来值得研究的问题。
作者贡献声明
陈 隽:制定论文总体思路,论文文稿修改。
陈文豪:模型构建,论文撰写和修改。
李 洋:协助实验,提供撰写建议。
参考文献
廖玉平. 加快建筑业转型 推动高质量发展——解读《关于推动智能建造与建筑工业化协同发展的指导意见》[J]. 中国勘察设计, 2020(9): 20. [百度学术]
LIAO Yupin. Speed up the transformation of construction industry and promote high-quality development-- interpretation of 《The Guidance on Promoting the Coordinated Development of Intelligent Construction and Construction Industrialization》 [J]. Survey and Design in China, 2020(9): 20. [百度学术]
ZHANG D, XIE Z, WANG C. Bar section image enhancement and positioning method in on-line steel bar counting and automatic separating system[C]//2008 Congress on Image and Signal Processing. Piscataway: IEEE, 2008, 2: 319-323. [百度学术]
YING X, WEI X, PEI X Y, et al. Research on an automatic counting method for steel bars’ image[C]//2010 International Conference on Electrical and Control Engineering. Piscataway: IEEE, 2010: 1644-1647. [百度学术]
ZHAO J, XIA X, WANG H, et al. Design of real-time steel bars recognition system based on machine vision[C]//2016 8th International Conference on Intelligent Human-Machine Systems and Cybernetics (IHMSC). Piscataway: IEEE, 2016, 1: 505-509. [百度学术]
SU Z, FANG K, PENG Z, et al. Rebar automatically counting on the product line[C]//2010 IEEE International Conference on Progress in Informatics and Computing. Piscataway: IEEE, 2010, 2: 756-760. [百度学术]
WU Y, ZHOU X, ZHANG Y. Steel bars counting and splitting method based on machine vision[C]//2015 IEEE International Conference on Cyber Technology in Automation, Control, and Intelligent Systems (CYBER). Piscataway: IEEE, 2015: 420-425. [百度学术]
LIU Y, LIU Y, SUN Z. Research on stainless steel pipes auto-count algorithm based on image processing[C]//2012 Spring Congress on Engineering and Technology. Piscataway: IEEE, 2012: 1-3. [百度学术]
LECUN Y, BENGIO Y, HINTON G, et al. Deep learning[J]. Nature, 2015, 521(7553): 436. [百度学术]
ZHAO Z Q, ZHENG P, XU S T, et al. Object detection with deep learning: a review[J]. IEEE Transactions on Neural Networks and Learning Systems, 2019, 30(11): 3212. [百度学术]
BOCHKOVSKIY A, WANG C Y, LIAO H Y M. YOLOv4: optimal speed and accuracy of object detection[J]. arXiv:2004.10934, 2020. [百度学术]
ZHENG Z, WANG P, LIU W, et al. Distance-IoU loss: faster and better learning for bounding box regression[C]//Proceedings of the AAAI Conference on Artificial Intelligence. Menlo Park: AAAI, 2020, 34(7): 12993-13000. [百度学术]
YANG X, YANG X, YANG J, et al. Learning high-precision bounding box for rotated object detection via kullback-leibler divergence[J]. Advances in Neural Information Processing Systems, 2021, 22:18381. [百度学术]
YANG X, YAN J, MING Q, et al. Rethinking rotated object detection with gaussian wasserstein distance loss[C]//International Conference on Machine Learning. [S.l.]:PMLR, 2021: 11830-11841. [百度学术]
LIN T Y, GOYAL P, GIRSHICK R, et al. Focal loss for dense object detection[C]//Proceedings of the IEEE International Conference On Computer Vision. Piscataway: IEEE, 2017: 2980-2988. [百度学术]
LIU S, HUANG D, WANG Y. Learning spatial fusion for single-shot object detection[J]. arXiv:1911.09516, 2019. [百度学术]
HU J, SHEN L, SUN G. Squeeze-and-excitation networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 7132-7141. [百度学术]
ZHANG H, ZU K, LU J, et al. Epsanet: an efficient pyramid split attention block on convolutional neural network[J]. arXiv:2105.14447,2021. [百度学术]
WOO S, PARK J, LEE J Y, et al. Cbam: convolutional block attention module[C]//Proceedings of the European Conference on Computer Vision. Munich: ECCV, 2018: 3-19. [百度学术]
MISRA D, NALAMADA T, ARASANIPALAI A U, et al. Rotate to attend: convolutional triplet attention module[C]//Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision. Piscataway: IEEE, 2021: 3139-3148 [百度学术]
LI Y, LU Y, CHEN J. A deep learning approach for real-time rebar counting on the construction site based on YOLOv3 detector[J]. Automation in Construction, 2021, 124: 103602. [百度学术]
LI Y, CHEN J. Computer vision–based counting model for dense steel pipe on construction sites[J]. Journal of Construction Engineering and Management, 2022, 148(1): 04021178. [百度学术]