摘要
结构检监测数据是确保结构运营状态良好、提供维护决策的基础。结构数据通常以人工检测、传感器采集为主,核实难度大、获取成本高。由于缺少有效数据审计方法,健康监测数据精度、可靠性无法检验,影响基础设施管养与结构运营。提出了基于本福特定律的桥梁健康监测数据审计方法,以人工检测裂纹长度、桥梁加速度数据为例开展实例分析,分析结果表明本福特定律对于结构检监测场景中自然形成数据具有较好适应性,可有效识别数据特征、反映数据异常。
当前我国基础设施建设成就举世瞩目,截至2020年,已建公路桥梁超80万座、隧道约2万千米、公路突破五百万公里、铁路达13.9万公里。随着基础设施数量和结构服役时间增加,结构运营维护的工作量与日俱增。为保障结构运营安全,常需要通过桥梁健康监测系统获取大量结构健康数据以掌握结构真实运行情况,供结构安全维护决策使用。
目前,结构健康监测数据主要由人工检查和传感器获取两种方式获取。在人工检测过程中,检测人员需携带并操作各种仪器检测或目测结构病害并对其性态指标采集,最终形成检测报告供业主单位使用。然而,受人工主观性和设备精度影响,相关检测数据常存在规范性弱、精确度低、检查工作完成度差等现实问题。另外,通过传感器获取的数据常由于传感器松动、信号中断等不可控因素导致数据出现噪声、跳点及漂移等现象。在工程中,人工检测数据的准确性与可靠性将直接影响安全维护决策的制定,传感器数据的稳定性则可能影响结构基频、振动响应等参数的计算,因此对结构病害的“误诊”将威胁结构的运营安全。随着土木工程领域结构健康监测系统的构建不断完善,所获取的数据体量不断增大,对桥梁健康监测数据进行审计,确保数据精度和可信度具有重要意义和客观需求。
数据审计是指通过已知的数据规律或关系对其真实性、可靠性检校的行为。一般的,常用的数据审计方法有两种,分别为基于跨源数据碰撞的逻辑关系检验法与基于数据规律的统计分布检验法。其中逻辑关系检验法是以健康监测系统中各项跨源数据之间存在的包含、相关等内在逻辑关系为判断标准,通过相互印证的方式实现数据的合法性验证。在大数据时代背景下,由于数据获取范围大、开放度高,数据内在逻辑关系检验法已得到较多运用,例如:中国1997—2001年间的GDP数据可信度被广泛讨论,孟
另一方面,在无法通过其他独立路径验证数据可信度或数据来源单一的情况下,常采用基于数据规律的统计分布检验法完成数据审计。其关键性问题是将待评估数据进行理论分析与长期实验研究,找出可以有效描述数据的统计分布。传统的用于数据审计的分布规律主要为正态分布、对数正态分布或指数分布等具体性分布,成邦文
近年来以本福特定律为代表的普适性数据描述方法在医学、社会学等领域都得到了一定发展,其认为自然数据中以“1”至“9”作为首位数字出现的概率呈现单调递减的趋势,该统计规律随样本数量增加而愈加明显。 2001年美国最大的能源交易商安然公司宣布破产,其财务账单并不符合本福特定律,说明其管理层已经出现了财务数据舞弊行为。Rauc
作者 | 年份 | 统计内容 |
---|---|---|
李金龙 | 2021 | 短视频播放量 |
Lee | 2020 | 各国新型冠状病毒感染人数 |
张龙 | 2020 | 我国全体上市公司财务报表 |
黄娟 | 2020 | 航天物资采购价格 |
梁静娴 | 2020 | 全球新冠疫情数据 |
Cole | 2020 | 各国污染排放量 |
段 | 2020 | 网络信用评价指标体系 |
孙六 | 2019 | 网络入侵监测 |
冯英 | 2017 | 煤矿瓦斯浓度的安全数据 |
段宗 | 2015 | 农林牧渔产值数据 |
刘云霞 | 2013 | 我国保险行业财务数据 |
Rauc | 2011 | 欧盟成员国宏观经济数据 |
Decker | 2011 | 选举投票数据 |
Judg | 2007 | 农民农作物收成 |
Gile | 2007 | eabY网站成功拍卖价格 |
Ch | 2007 | 联邦竞选交易资金 |
本福特定律凭借自身诸多优势,成为在各行各业中检测数据可靠性的有力武器,但在土木工程领域的适应性引入及分析研究较少。基于本福特定律的数据审计方法能够有效地发现数据异常,为今后各类数据的审计工作提供了新思路。
综上所述,考虑到土木工程领域需要通过数据审计的方式把控数据质量的现实需求以及基于数据规律的数据审计方法更符合相关任务的实际情况,因此,本文以桥梁健康监测 数据为例,将本福特定律作为数据规律统计工具,建立基于本福特定律的桥梁健康监测数据审计方法。通过实例分析,挖掘数据潜在价值,审计案例中数据的可靠性。
本福特定律,又称本福德法则、首位数定律。其认为自然世界的数据并不是完全意义上的随机数,具有由小到大的增长过程。如若每个数据从零增长,且增长率恒定,则由简单的数学推导可知:首位数从“1”增长到“2”的时间将大于从“2”增长到“3”的时间,以此类推。同理,一位数如此,两位数亦如此。因此,数据中的首位数字出现概率并不呈现均匀分布,而是以“1”为首位数的数据出现概率约为总数的三成,接近期望值1/9的3倍。推广来说,越大的数,以它为首位的数出现的概率越低。且本福特定律的适用性不受数据的单位、进制、及代数运算所影响。
本文将本福特定律适应性地引入土木工程领域,建立了基于本福特定律的桥梁健康监测数据审计方法如

图 1 基于本福特定律的桥梁健康检测数据审计方法
Fig. 1 Audit method of bridge health inspection data based on Benford’s law
由于健康监测系统数据(如:裂纹长度、宽度、结构加速度响应)属于自然增长,无外在干扰的情况下应符合美国物理学家Benfor
(1) |
式中:D为首位数字;Prob(D=di)表示数据中首位数字为di的概率。
(2) |
式中:Dk为第k位数字;Prob(D1=di,…,Dk=dk)表示数据中首位数为d1,次位数为d2,…, 第k位数字为dk时的概率。

图 2 本福特定律首位数字分布规律
Fig. 2 First digit distribution of Benford’s law
数据检验是量化评价数据规律性的有效手段,常用的统计学检验方法有卡方检验、K-S检验、相关性分析等。由于桥梁健康监测数据的特殊性与数据样本较大等因素,本文选用卡方统计量
(3) |
式中:ei为理论上整组数据的首位数字为i的概率;bi为经过统计整组数据中首位数字为i的概率。卡方统计量
(4) |
式中:X、Y为两组待检测数据向量;dcov(X,Y)为向量X、Y的距离协方差;dvar(X)、dvar(Y)分别为X、Y的距离方差。距离相关系数统计量dcor(X,Y)越大说明X、Y相关性越强。通常的,当dcor(X,Y)>0.8时,可认为两组数据具有良好的相关性。
由于数据体量、测量方式各异等原因,不同类别数据间与本福特定律的吻合度具有显著差异。因此遵循单一数据类型检验结果内部比较的原则,采用定量计算、定性分析的方式审计数据可靠性。
案例分析一选自我国华东地区一座千米级大跨径悬索桥的桥梁铺装裂纹长度数据。大桥主跨1 385 m;桥面为双向六车道高速公路,设计速度为100 km·

图 3 桥面铺装更新过程示意图
Fig. 3 Renewal process of bridge deck pavement
本文审计数据来自该桥2011至2014年人工检测时绘制的病害图纸,由计算机提取线病害信息,得到裂纹长度数据。病害检测共分为8次进行,期间桥面铺装经历了数次翻新,翻新后旧裂纹被完全修复,但随服役时间增加,新的桥面铺装又出现新裂纹。将全部裂纹数据汇总,重复测得的裂纹长度取平均值,共计15 495条有效数据。检测时间与其检测的裂纹数量统计如
2011-02 | 2011-04 | 2011-06 | 2012-08 | 2013-02 | 2013-04 | 2013-06 | 2014-12 | 全周期 | |
---|---|---|---|---|---|---|---|---|---|
裂纹数量/条 | 9 994 | 10 443 | 1 791 | 3 020 | 3 599 | 5 311 | 1 753 | 2 193 | 15 459 |
但由于检测维护工作时空跨度大,检测人员水平参差不齐,裂纹病害图纸绘制难度高,管理水平有限等原因,数据质量难以保证。因此,通过裂纹数据审计,可以进一步挖掘数据价值、评估人工检测数据质量,对相关工作有重要的参考意义和科研价值。
将人工检测所得裂纹长度数据首位数进行统计,取其中三组数据统计结果绘制首位数统计图如

图 4 全部铺装裂纹长度数据首位数统计
Fig 4 First digit statistics of all pavement crack length data

图 5 2011年4月检测数据首位数统计
Fig. 5 First digit statistics of test data in April 2011

图 6 2013年6月检测数据首位数统计
Fig. 6 First digit statistics of test data in June 2013
显然,裂纹长度首位数字分布与本福特定律曲线趋势大致相同,但统计数据中以“3”为首位的数字分布占比异常。将审计结果代入

图 7 基于本福特定律的裂纹数据
Fig. 7 Comparison of chi square test of crack data based on Benford’s law

图 8 基于本福特定律的裂纹数据距离相关系数检验对比图
Fig. 8 Comparison diagram of distance correlation coefficient test of crack data based on Benford’s law
各月份的统计数据中以“1”、“2”为首的数字较少且首位数为“3”的数字均偏多,除数字“3”外,首位数分布规律与本福特定律吻合度较高。数据检验结果表明,各次人工检测裂缝数据质量一般,2011年内的三次裂纹数据更符合裂纹自然开裂的理论值,数据可靠性稍好,但后续检测数据可靠性一般。据推测,包含以下原因:
(1)长度较短的裂纹难以察觉,设备精度不足等原因导致的人工检测困难,使 “1”和“2”为首的数字比例很低;
(2)检测人员对微小裂纹重视程度较低,致使300 mm以上的裂纹被检测人员重点关心且记录下来;
(3)经调研与分析,长度约380 mm的裂纹出现原因特殊,非自然随机产生,而是受迫于重车车轮的集中荷载作用,出现于车轮碾压区的横向裂纹,其长度接近重车车轮与桥面有效接触宽度,呈现出均值为380 mm的正态分布特征,影响了“3”为首的数据比例。
(4)数据规模较小导致首位数分布规律吻合度较低。
以上推论均在在

图 9 裂纹长度频率统计图
Fig. 9 Statistis of crack length frequency
案例分析二选取我国江南地区某斜拉桥的加速度传感器数据。该桥主跨500 m,于 2012年12月通车,传感器采集仪共三个通道,分别记录了该桥不同位置从2019年10月至2020年6月通车前的风致振动数据。其中通道一与通道二传感器放置于不同位置的同一方向,通道三单独放置于其他方向,布置图如

图 10 加速度传感器布置图
Fig. 10 Layout of acceleration sensor
采集仪每日在若干时间进行监测,每秒输出80个加速度数据。为方便审计,人为将数据按月划分,如
监测时间 | 数据总量/万 | 监测日期 | 数据总量/万 |
---|---|---|---|
2019.1 | 2 265 | 2020.03 | 11 450 |
2019.11 | 17 350 | 2020.04 | 3 931 |
2019.12 | 5 306 | 2020.05 | 5 505 |
2020.01 | 5 652 | 2020.06 | 2 416 |
2020.02 | 8 216 |
由于结构加速度同样属于外力作用下结构自然产生,因此加速度数据理应符合本福特定律,如若传感器故障,数据将不再呈现出均值为零的正态分布,统计结果偏离本福特定律。由于加速度传感器偶有发生信号不稳等故障情况,因此通过本次数据审计,检验传感器数据可靠性,分析传感器工作状态。
分别取三个通道的各月数据进行首位数审计,以2020年2月的数据为例,分别将三个通道的审计结果绘制如

图 11 2020年2月通道一数据首位数统计图
Fig. 11 Statistics of first digit of channel one data in February 2020

图 12 2020年2月通道二数据首位数统计图
Fig. 12 Statistics of first digit of channel two data in February 2020

图 13 2020年2月通道三数据首位数统计图
Fig. 13 Statistis of first digit of channel three data in February 2020
通道一、二的传感器布置方向相同,所测数据理应具有同样的特征。但由于通道一传感器故障,因此通道一加速度数据首位数分布情况与理论值吻合度较差。为检校其余月份通道二、三传感器工作状态,计算全部通道数据在各月内的首位数分布情况并代入式(
监测日期 | 通道一 | 通道二 | 通道三 |
---|---|---|---|
2019.10 | 0.005 386 03 | 0.007 344 2 | 0.002 631 7 |
2019.11 | 0.010 251 58 | 0.010 124 8 | 0.000 107 8 |
2019.12 | 0.024 207 07 | 0.100 801 3 | 0.001 495 9 |
2020.01 | 0.143 916 83 | 0.180 596 2 | 0.003 387 5 |
2020.02 | 0.112 948 42 | 0.000 593 2 | 0.000 635 8 |
2020.03 | 0.094 421 48 | 0.000 604 6 | 0.000 125 6 |
2020.04 | 0.364 422 63 | 0.001 622 2 | 0.001 303 7 |
2020.05 | 0.265 846 87 | 0.000 939 4 | 0.001 030 9 |
2020.06 | 0.265 846 87 | 0.001 249 7 | 0.002 517 9 |

图 14 三通道加速度数据首位数检验对比图
Fig. 14 Comparison of first number test of three channel acceleration data
本文建立了基于本福特定律的桥梁健康监测数据审计方法,并适应性地引入至桥梁健康检测系统的数据审计中。本文将铺装裂纹人工检测数据与加速度传感器数据进行审计,得到良好的效果,为土木工程领域检验数据质量提供了新方法、新思路。
本文中基于本福特定律的数据审计实例得到以下结论:
(1) 数据异常将使审计图表中首位数统计结果偏离本福特理论曲线,因此基于数据规律的审计方法能够深度挖掘数据价值,对异常数据提前预警。
(2) 经过数据审计,发现各次人工检测的裂纹数据质量各不相同,可能受检测方法、设备精度、检测人员主观性等因素影响,因此可通过该审计方法对检测单位的工作进行有效监督。
(3) 加速度传感器数据可能因设备或外在条件导致出现信号不稳、数据异常的现象,可通过该审计方法进行预警。
(4) 本文所述审计方法有望应用至桥梁健康检测系统的其他数据甚至土木工程领域的更多数据类型,有待进一步发展探索。
基于本福特定律的桥梁健康监测数据审计方法可以充分发掘数据的价值,评价数据质量。本文所述数据审计方法针对人工检测数据能够甄别数据真伪、评估数据可靠性;针对电子传感器所采数据,可以分辨异常数据、判断设备工作状态,为结构维护决策提供支撑。本文工作对工程结构健康监测的数据质量评定、数据可信度研究、传感器异常监测等具有重要意义。目前,土木工程领域的数据质量通常难以勘验,基于本福特定律的桥梁健康监测数据审计方法有望一定程度上提高数据质量,数据审计在土木工程大数据应用领域将具有较为广阔的发展前景。基于数据规律的数据审计方法相关研究相对匮乏,更多通过数据自身规律自检校数据质量的方法还需进一步研究。
作者贡献声明
陈艾荣:文章构思、方法设计。
李梓巍:数据处理、文章撰写、稿件修改。
潘玥:文章构思、监督和领导。
王达磊:初稿的审阅和修改。
马逸鹄:实验探究。
参考文献
孟连,王小鲁. 对中国经济增长统计数据可信度的估计[J]. 经济研究,2000(10):3. [百度学术]
MENG Lian, WANG Xiaolu. Estimation of the reliability of China’s economic growth statistics[J]. Economic Research Journal ,2000(10):3. [百度学术]
任若恩.中国GDP统计水分有多大——评两个估计中国GDP数据研究的若干方法问题[J].经济学(季刊),2002(4):37. [百度学术]
REN Ruoen. How big is the water content of China’s GDP statistics — Comment on some methods of two studies on estimating China’s GDP data[J]. China Economic Quarterly,2002(4):37. [百度学术]
成邦文,石林芬,杨宏进. 统计数据质量检查与异常点识别的模型与方法[J]. 系统工程, 2001(3): 85. [百度学术]
CHENG Bangwen, SHI Linfen, YANG Hongjin. Models and methods of statistical data quality inspection and outlier identification[J]. Systems Engineering, 2001(3): 85. [百度学术]
RANCH B, GOETTSCHE M, BRAEHLER G, et al. Fact and fiction in EU-governmental economic data[J]. German Economic Review, 2011, 12(3): 243. [百度学术]
梁静娴,罗玉波,陆丹青,等. COVID-19数据信息与Benford定律耦合度研究[C/CD]// 第十五届(2020)中国管理学年会论文集. 成都:[s.n.], 2020. [百度学术]
LIANG Jingxian, LUO Yubo, LU Danqing, et al. Research on coupling degree of COVID-19 data information and Benford’s law[C/CD]//Proceedings of the 15th (2020) China Management Annual Conference. Chengdu:[s.n.],2020. [百度学术]
李金龙,史惠. 基于本福特定律的短视频播放量合理性验证研究[J]. 广播与电视技术, 2021, 48(1): 39. [百度学术]
LI Jinlong, SHI Hui. Research on rationality verification of short-video playback amount based on Benford’s Law[J]. Radio & TV Broadcast Engineering, 2021, 48(1): 39. [百度学术]
LEE K, HAN S, JEONG Y, COVID-19, flattening the curve, and Benford’s law [J]. Physica A: Statistical Mechanics and its Applications, 2020. 559: 125090. [百度学术]
张龙逸. 对本福特法则的实证检验——以国内全体上市公司的财务报表为例[J]. 中国集体经济, 2020(28): 72. [百度学术]
ZHANG Longyi. An empirical test of Benford’s law—Taking the financial statements of all domestic listed companies as an example[J]. China Collective Economy, 2020(28): 72. [百度学术]
黄娟,曹建,顾笑一. 基于奔福德定律的航天物资采购价格风险分析[J]. 时代经贸, 2020(29): 30. [百度学术]
HUANG Juan, CAO Jian, GU Xiaoyi. Analysis on the price risk of aerospace materials purchase based on Benford’s law[J]. Economic & Trade Update, 2020(29): 30. [百度学术]
COLE M A, MADDISON D J, ZHANG L, Testing the emission reduction claims of CDM projects using the Benford’s Law[J]. Climatic Change, 2020. 160(3): 407. [百度学术]
段翀.基于K-S检验与距离相关分析的网络借贷信用评价指标体系构建[J].技术经济,2020,39(5):35. [百度学术]
DUAN Chong. Construction of evaluation index system of network credit based on significant differentiation of default[J]. Technology Economics,2020,39(5):35. [百度学术]
孙六英. 基于本福特定律和机器学习的网络入侵检测研究[D]. 武汉:武汉理工大学, 2019. [百度学术]
SUN Liuying. Research on network intrusion detection based on Benford’s law and machine learning[D]. Wuhan: Wuhan University of Technology, 2019. [百度学术]
冯英华. 基于本福特定律的煤矿安全数据真实性判定研究[J]. 东莞理工学院学报, 2017, 24(5): 14. [百度学术]
FENG Huaying. Determination of coal mine safety data authenticity based on Benford’ s law[J]. Journal of Dongguan University of Technology, 2017, 24(5): 14. [百度学术]
段宗然. 利用Benford法则研究农林牧渔产值数据质量的可靠性[D]. 秦皇岛:燕山大学, 2015. [百度学术]
DUAN Zongran. Study the reliability about data quality of farming, forestry, animal husbandry and fishery by using benford law[D]. Qinhuangdao: Yanshan University, 2015. [百度学术]
刘云霞,曾五一. 关于综合利用Benford法则与其他方法评估统计数据质量的进一步研究[J]. 统计研究, 2013, 30(8): 3. [百度学术]
LIU Yunxia, ZENG Wuyi. Further research about the comprehensive utilization of Benford’ s law and other methods to evaluate the statistical data quality[J]. Statistical Research, 2013, 30(8): 3. [百度学术]
DECKERT J, MYAGKOV M, ORDESHOOK P C, Benford’s law and the detection of election fraud[J]. Political Analysis, 2011, 19(3): 245. [百度学术]
JUDGE G, SCHECHTER L. Detecting problems in survey data using Benford’s Law[J]. Journal of Human Resources, 2009, 44(1) : 1. [百度学术]
GILES D. Benford’s law and naturally occurring prices in certain ebaY auctions[J]. Applied Economics Letters, 2007, 14(3): 157. [百度学术]
CHO W K T, GAINES B J. Breaking the (Benford) law: Statistical fraud detection in campaign finance[J]. The American Statistician, 2007, 61(3): 218. [百度学术]
BENFORD F. The law of anomalous numbers[J]. Proceedings of the American Philosophical Society, 1938, 78(4): 551. [百度学术]
HILL T P. A statistical derivation of the significant-digit law[J]. Statistical Science,1995,10(4): 354. [百度学术]