摘要
以往波束形成算法将潜在声源区域划分成若干网格,所有的声源被映射到一个个网格点上,会导致错误的声源定位与强度计算,并且计算精度与效率受网格间距大小的影响。采用多层感知机神经网络以及无网格策略,能够提高声源识别的空间分辨率与计算效率。通过使用单个平面麦克风阵列对三维等强度双点声源进行识别定位,发现相较于传统互谱算法,多层感知机能够改善平面阵列在深度方向上较差的空间分辨率性能。此外,在定位误差方面,多层感知机优于传统互谱算法,同时声源识别的强度误差有所降低。在低频时,多层感知机性能优于波束形成算法,可用来弥补波束形成算法空间分辨率性能不佳的局限性。
波束形成作为一种声场可视化技术,常用于声源定位。常用的波束形成算法主要包括传统互谱算法及其增强、解卷积算法等。传统互谱算法原理简单,运算速度快,具有较强的鲁棒性,然而它的主要缺点包括低频时较差的空间分辨率以及由于旁瓣效应造成的较差的动态范围。常用的解卷积算法包括CLEA
在经典假设(非相干声源、单极子传播、无混响环境、均匀介质)不成立的情况下,机器学习的应用前景广阔。深度学习作为一种特殊的机器学习,通过使用反向传播算法,能够从大量的数据中,找到输入与输出数据间的关系。近年来,随着深度学习与神经网络的发展,很多学者尝试将深度学习应用于声源识别,这些工作大多集中在获取声源的到达方向(direction of arrival,DOA)。最近几年,有一些学者开始使用深度学习方法研究如何确定声源的具体位置与强度。
2018年,Ma
基于网格点的策略限制了神经网络出色的非线性建模能力,也限制了声源识别的空间分辨率,因此本文采用无网格策略。所谓无网格策略即不将声源区域划分成若干网格,可以大大增加声源识别的空间分辨率。Castellini
三维空间声源定位在实际应用中具有非常重要的意义,比如对复杂的机械部件、发动机和一些气动声源等噪声源的定位。有两种方法实现三维波束形成:第一种方法是将声源潜在的三维空间划分为多个有一定间距的、平行于麦克风阵列的声平面,然后用二维平面麦克风阵列逐一扫描,寻找声源。这种方法应用简单,对麦克风阵列设备要求不高,缺点是单一平面麦克风阵列在垂直阵列方向上的空间分辨率较
本文在Castellini
对于处一个强度为的声源,第个麦克风上测到的声压为
(1) |
其中是处的声源到处麦克风的传递矢量,对于无来流时的单极子声源,其传递矢量为
(2) |
式中:是角频率;为声源到麦克风之间的距离矢量;为单极子声源在流体中的传播时间,其中为声速。对各个麦克风测到的声压信号进行加权,在声源区域任意一点上计算到的声压为
(3) |
式中:是所有麦克风测到的声压;是共轭转置;称为导向矢
(4) |
式中:是传递矢量;N是麦克风数量。将加权后的声压信号做自功率谱计:
(5) |
式中:是期望算子;“”是复共轭;是互谱矩阵。
导向矢量
(6) |
结合Sarradj
(7) |
本文提出的神经网络模型是针对回归的多层感知机(MLP)方法,给定一组输入‒输出连续变量,该模型的任务是在给定新的统计独立的输入数据的情况下预测新的连续输出。多层感知机是一种特定的前馈人工神经网络(ANNs),它有一个输入层,一个或多个隐藏层和一个输出层,可以根据任务(即分类或回归)进行模型构建,本文提出的模型是基于六层隐藏层的MLP架构,具有整流线性单元(ReLU)和线性激活函数。而且网络参数数量要满足以下条件4×S×M参数数
将互谱矩阵展开成一维向量作为输

图1 36通道麦克风的位置与声源区域和麦克风阵列的空间布局
Fig. 1 Location of 36-channel microphone with sound source area and spatial layout of microphone array
为了便于训练,将声源位置和强度分开,分别建立两个模型,一个输出预测声源的位置,另一个输出预测声源的强度。模型的参数和结构见
层数 | 神经元数 | 激活函数 | 层类型 |
---|---|---|---|
第1层 | 1 296 | ReLU | 输入层 |
第2层 | 200 | ReLU | 隐藏层 |
第3层 | 50 | ReLU | 隐藏层 |
第4层 | 20 | ReLU | 隐藏层 |
第5层 | 10 | ReLU | 隐藏层 |
第6层 | 3 | ReLU | 输出层 |
层数 | 神经元数 | 激活函数 | 层类型 |
---|---|---|---|
第1层 | 1 296 | ReLU | 输入层 |
第2层 | 200 | ReLU | 隐藏层 |
第3层 | 50 | ReLU | 隐藏层 |
第4层 | 20 | ReLU | 隐藏层 |
第5层 | 10 | ReLU | 隐藏层 |
第6层 | 1 | ReLU | 输出层 |
对于神经网络来说,收集大量数据用于模型的训练、验证和最终测试是很重要的。本文通过随机仿真生成的方法获得大量数据:加载麦克风阵列中各麦克风的位置;随机生成大量不同位置不同强度的双点等强度声源;根据
多层感知机预测声源具体的位置和强度,属于一个回归问题,因此选用均方误差作为损失函数,来衡量预测值和真实值之间的误差:
(8) |
式中:为模型预测的声源位置数量或强度数量;为真实的声源位置或强度;为预测的声源位置或强度。在神经网络训练过程中,通过调整权重参数和偏置来降低损失函数。这里选用Adam优化器来更新权重参数和偏置。学习率设为0.001,批处理参数(batch size)设为5 000,迭代100步。使用的电脑CPU速度为2.10 GHz,显卡型号为1070ti。
选用5 000 Hz时1万组随机分布的声源作为测试对象,选取0.005 m的网格长度,得到的声源位置误差和强度误差如

图2 基于传统互谱算法得到的声源1的位置误差与强度误差分布(5 000 Hz)
Fig. 2 Position error and intensity error distribution of sound source 1 based on conventional cross-spectrum algorithm (5 000 Hz)
相比于传统互谱算法,基于解卷积的CLEAN-SC算法性能更好,且不受阵列点传播函数的影响。

图3 网格边长为0.005 m得到的双声源位置误差与强度误差分布(5 000 Hz)
Fig. 3 Position error and intensity error distribution of dual sound sources with a mesh side length of 0.005 m (5 000 Hz)
对随机分布的等强度双点声源,保持频率为5 000 Hz,用160万训练数据去训练多层感知机,得到的损失曲线如

图4 基于160万训练数据得到的双声源的位置与强度损失曲线(5 000 Hz)
Fig. 4 Position and intensity loss curves of dual sound sources based on a training data of 1.6 million (5 000 Hz)

图5 基于160万训练数据得到的声源1的位置误差与强度误差分布(5 000 Hz)
Fig. 5 Position error and intensity error distribution of sound source 1 based on training data of 1.6 million (5 000 Hz)
对于随机分布的等强度双点单极子声源,保持频率为5 000 Hz,分别用40万、80万、160万的数据训练多层感知机,发现随着训练数据的增大,多层感知机逐渐充分学习到数据中隐藏的规律,位置误差和强度误差不断减小。
在声源定位过程中,声源频率是最重要的考虑因素之一。下面探讨声源频率对多层感知机与波束形成算法的影响。

图6 基于CLEAN得到的声源1的位置误差与强度误差分布(2 000 Hz)
Fig. 6 Position error and intensity error distribution of sound source 1 based on CLEAN (2 000 Hz)

图7 基于CLEAN得到的声源1的位置误差与强度误差分布(8 000 Hz)
Fig. 7 Position error and intensity error distribution of sound source 1 based on CLEAN (8 000 Hz)

图8 基于160万训练数据得到的声源1的位置误差与强度误差分布(2 000 Hz)
Fig. 8 Position error and intensity error distribution of sound source 1 based on training data of 1.6 million

图9 基于160万训练数据得到的声源1的位置误差与强度误差分布(8 000 Hz)
Fig. 9 Position error and intensity error distribution of sound source 1 based on training data of 1.6 million (8 000 Hz)
可以发现,随着声源频率的增大,位置误差和强度误差略有增大。相比基于CLEAN算法计算的声源位置误差及强度误差,在低频时,多层感知机的位置误差更小;高频时,多层感知机的位置误差偏大。声源强度方面,多层感知机的强度误差远小于波束形成算法得到的强度误差。
多层感知机算法与传统互谱算法、解卷积算法等波束形成算法有着明显区别。首先,多层感知机算法不需要预先得到声传播方程,即传递矢量,而传递矢量是波束形成算法的先决条件;其二是多层感知机算法甚至不需要预先知道麦克风在阵列中的位置,这也是波束形成算法的先决条件。第一个区别使得多层感知机算法有一个巨大优势,即可以在很多复杂场景中使用。在这些场景中,因传递矢量未知而无法使用波束形成算法。第二个区别使得多层感知机算法具有另一个优势,即可以避免麦克风在安装过程中由位置偏差引起的误差。但是,这些优势的前提是多层感知机算法可以准确地从互谱矩阵中计算到声源位置以及强度。
本文使用了具有Tensorflow后端的keras框架来搭建多层感知机神经网络,通过Matlab产生了大量仿真数据。通过训练后,对双点等强度声源的位置以及强度进行了预测,并与波束形成算法进行了对比,得到以下主要结论:
(1) 多层感知机训练过程需要几个甚至十几个小时,训练数据越多所需要的时间越久,消耗的计算资源越多,但是训练完成后的计算速度非常快。如果有大量数据需要处理,可以考虑使用多层感知机。随着训练数据的增加,多层感知机逐渐充分学习到数据中隐藏的规律,位置误差和强度误差均在减小。
(2) 相较于传统互谱算法,CLEAN等解卷积算法计算到的双点声源的位置误差大大减少了,但是强度方面,极端误差的值和出现的频次都要更大一些。波束形成算法强度误差较大,且主要集中在负半轴。多层感知机采用无网格策略,位置误差与强度误差与网格间距无关。
(3) 多层感知机在三个方向的位置误差、特别是Y方向的位置误差,远小于传统互谱算法的位置误差,但是性能不及CLEAN算法。在强度方面,多层感知机的性能好于各种波束形成算法。
(4) 随着声源频率的增大,波束形成算法计算到的声源位置的极端误差在减小,强度误差也有所改善;而多层感知机预测的位置误差和强度误差略有增大。多层感知机在低频时性能优于波束形成算法,可用来弥补波束形成算法在低频时空间分辨率性能不佳的局限性。
作者贡献声明
贺银芝:思路设计、文章撰写及修改。
杨现晖:数据处理及初稿撰写。
刘永铭:文献查阅及图表绘制。
杨志刚:提出修改建议。
庞加斌:提出修改建议。
参考文献
DOUGHERTY R, STOKER R. Sidelobe suppression for phased array aeroacoustic measurements[C] // 4th AIAA/CEAS Aeroacoustics Conference. Toulouse: American Institute of Aeronautics and Astronautics Inc, AIAA, 1998: 235-245. [百度学术]
SIJTSMA P. CLEAN based on spatial source coherence[J]. International Journal of Aeroacoustics, 2007, 6(4): 357. [百度学术]
BROOKS T F, HUMPHREYS W M. A deconvolution approach for the mapping of acoustic sources (DAMAS) determined from phased microphone arrays[J]. Journal of Sound and Vibration, 2006, 294(4/5): 856. [百度学术]
MA W, LIU X. Phased microphone array for sound source localization with deep learning[J]. Aerospace Systems, 2019, 2(2): 71. [百度学术]
宋章辰, 郭昊, 刘沛清. 基于卷积神经网络算法的麦克风阵列研究[C] // 中国力学大会论文集. 杭州:CCTAM, 2019: 549-561. [百度学术]
SONG Zhangchen, GUO Hao, LIU Peiqing. Research on microphone array based on convolutional neural network algorithm [C] // Proceedings of Chinese Congress of Theoretical and Applied Mechanics. Hangzhou: CCTAM, 2019: 549-561. [百度学术]
CASTELLINI P, GIULIETTI N, FALCIONELLI N, et al. A neural network based approach to gridless sound source identification[C] // Proceedings of the BeBeC. Berlin: [s.n.], 2020: 2-5. [百度学术]
CASTELLINI P, GIULIETTI N, FALCIONELLI N, et al. A neural network based microphone array approach to gridless noise source localization[J]. Applied Acoustics, 2021, 177: 107947. [百度学术]
KUJAWSKI A, HEROLD G, SARRADJ E. A deep learning method for grid-free localization and quantification of sound sources[J]. The Journal of the Acoustical Society of America, 2019, 146(3): 225. [百度学术]
王言彬, 徐长秋, 毛富哲. 基于深度学习的声源无网格定位及量化方法[J]. 电子测量技术, 2021, 44(16): 57. [百度学术]
WANG Yanbin, XU Changqiu, MAO Fuzhe. Gridless localization and quantification method of sound source based on deep learning [J]. Electronic Measurement Technology, 2021, 44(16): 57. [百度学术]
SARRADJ E. Three-dimensional acoustic source mapping with different beamforming steering vector formulations[J]. Advances in Acoustics and Vibration, 2012, 5(6):49. [百度学术]
BROOKS T, HUMPHREYS W. Three-dimensional applications of DAMAS methodology for aeroacoustic noise source definition [C] // 11th AIAA/CEAS Aeroacoustics Conference. Monterey: American Institute of Aeronautics and Astronautics Inc. [S.l.]:AIAA, 2005: 2014-2035. [百度学术]
MEYER A, DÖBLER D. Noise source localization within a car interior using 3D-microphone arrays[C] // Proceedings of the BeBeC. Berlin:[s.n.], 2006: 4-6. [百度学术]
MAFFEI M, BIANCO A. Improvements of the beamforming technique in pininfarina full scale wind tunnel by using a 3D scanning system[J]. SAE International Journal of Materials and Manufacturing, 2009, 1(1): 154. [百度学术]
PADOIS T, ROBIN O, BERRY A. 3D Source localization in a closed wind-tunnel using microphone arrays[C] // 19th AIAA/CEAS Aeroacoustics Conference. Berlin: AIAA International, 2013: 203-216. [百度学术]
PORTEOUS R, PRIME Z, VALEAU V, Three-dimensional beamforming of aeroacoustic sources[C] // INTER-NOISE and NOISE-CON Congress and Conference Proceedings. Melbourne: Australian Acoustical Society, 2014, 249(6): 2322-2330. [百度学术]
DÖBLER D, OCKER J, PUHLE C. On 3D–beamforming in the wind tunnel[C] // Proceedings of the BeBeC. Berlin: [s.n.], 2016: 1-7. [百度学术]
OCKER J, PAUL L. Laser geometry detection in the Porsche wind tunnel — Base for 3D beamforming and deformation measurements [C] // 18th Internationales Stuttgarter Symposium. Stuttgart: [s.n.], 2018: 935-948. [百度学术]
PORTEOUS R, PRIME Z, DOOLAN C J, et al. Three-dimensional beamforming of dipolar aeroacoustic sources[J]. Journal of Sound and Vibration, 2015, 355: 117. [百度学术]