高磊,劉振奎,魏曉悅,張昊宇,張奎
(蘭州交通大學 土木工程學院,甘肅 蘭州 730070)
據(jù)統(tǒng)計,截至2020年底,我國投入運營的鐵路隧道共16 798 座,總計19 630 km[1]。隨著鐵路交通基礎設施的完善,我國由隧道建設高潮期轉(zhuǎn)入運營維護期,更多的襯砌病害將暴露出來,如何快速識別、處理襯砌病害是鐵路隧道運營維護的重要環(huán)節(jié)。襯砌背后空洞是鐵路隧道中較為普遍的病害之一,不僅嚴重影響襯砌與圍巖之間的相互作用,使得結(jié)構(gòu)承載不均勻,導致二次襯砌產(chǎn)生裂縫,誘發(fā)滲漏水、鋼筋腐蝕和凍害等一系列安全隱患,嚴重時還會發(fā)生襯砌掉塊,威脅車輛安全行駛和人員生命安全[2]。經(jīng)過幾十年的發(fā)展,各種無損檢測技術(shù)被應用到隧道檢測中,目前成體系的空洞檢測技術(shù)主要有:地質(zhì)雷達檢測技術(shù)[3]、紅外熱像檢測技術(shù)[4]和超聲波檢測技術(shù)[5]等。然而先進的檢測技術(shù)在檢測效率、精確度以及設備檢測環(huán)境要求等方面存在不足,無法廣泛應用于隧道病害檢查維修,人工巡檢仍是隧道襯砌病害最常用的檢測方法。在中國、日本、美國等國家,人工敲擊檢查作為隧道人工巡檢的一種手段,被廣泛應用于襯砌狀態(tài)檢查,通過檢查錘敲擊襯砌發(fā)出的聲音初步判定混凝土密實度、襯砌內(nèi)部和背后空洞的情況[6]?;诼曇籼卣鞯墓收?、疾病診斷技術(shù)廣泛應用于養(yǎng)殖、風電、機械等多個領域。黎煊等[7]在豬場環(huán)境下采集豬聲音樣本,用語音處理技術(shù)進行預處理,基于時間規(guī)整算法提取短時能量和MFCC 組成聯(lián)合特征參數(shù),構(gòu)建5層深度信念網(wǎng)絡的豬咳嗽聲識別模型,實現(xiàn)了通過檢測豬咳嗽聲進行生豬養(yǎng)殖疾病預警;孫玉偉等[8]提取斷路器合閘聲音的MFCC 和GFCC,作為聲音聯(lián)合信號特征,通過線性判別分析(LDA)和主成分分析(PCA)進行降維后,運用改進的稀疏表示分類算法對聯(lián)合倒譜系數(shù)進行學習和識別,實現(xiàn)斷路器機械故障診斷。龍磊等[9]通過麥克風在軌道旁收集列車經(jīng)過時聲音信號,對聲音進行多普勒畸變校正后,基于核特征矩陣聯(lián)合近似對角化方法(KJADE)提取列車軌邊聲音信號的非線性特征參數(shù),運用支持向量機訓練模型,實現(xiàn)對軸承外圈、內(nèi)圈、滾子故障和正常4 種狀態(tài)的聲學診斷;王培力等[10]收集錢塘江潮聲,提取潮涌樣本與非潮涌樣本的MFCC 特征,建立SVM 涌潮檢測模型,判斷錢塘江是否發(fā)生涌潮。但是尚未有學者針對隧道敲擊檢查聲作出特征分析和智能識別研究。因此,分析隧道敲擊檢查聲音的信號特征,建立一種檢查錘敲擊聲音智能識別診斷模型,對加快人工巡檢效率、提高目前巡檢作業(yè)的信息化程度有著重要的意義?;诖耍疚膶嵉夭杉F路隧道空洞敲擊檢查聲音音頻文件,篩選出645個聲音樣本,通過預加重、加窗和分幀處理后,分析了有空洞與無空洞2種狀態(tài)下檢查錘敲擊聲音的時域特征和頻域特征,并提取24 維Mel 頻率倒譜系數(shù)作為機器學習數(shù)據(jù)集。運用主成分分析法對數(shù)據(jù)集進行降維處理,經(jīng)混合粒子群算法優(yōu)化的支持向量機訓練后建立鐵路隧道空洞敲擊檢查聲音智能識別模型,最后將模型應用于實際鐵路隧道空洞敲擊檢查聲音識別分類,為鐵路隧道空洞檢查智能化作出新探索。
本文研究數(shù)據(jù)采集自蘭州鐵路局2021年春檢隧道內(nèi)部,用采樣頻率48 kHz 的錄音筆錄制隧道敲擊檢查聲音,并以“.wav”格式儲存。為保證錄音效果以及方便后期處理,在作業(yè)人員準備對某一部位敲擊檢查時開始錄音,對該部分檢查完畢后停止錄音。采集聲音文件中包含過多無空洞狀態(tài)聲音,需要初步對錄制的聲音文件進行篩選,將過多的無空洞樣本音頻剔除。用matlab 對音頻文件進行分割處理,并對聲音信號手工標注,最終得到645 個樣本數(shù)據(jù),包含空洞樣本213 個,非空洞樣本432個。不同狀態(tài)下檢查錘敲擊襯砌聲音在1 s內(nèi)的幅度如圖1和圖2所示。
圖1 無空洞狀態(tài)敲擊聲Fig.1 Percussive sound in non-voids state
圖2 有空洞狀態(tài)敲擊聲Fig.2 Percussive sound in voids state
1.2.1 預加重
將聲音信號通過一個高通濾波器,增強高頻部分的聲音信號。通常用到的傳遞函數(shù)如式(1):
其中:H(z)為傳輸函數(shù);λ為預加重系數(shù),取0.94。
預處理后結(jié)果如式(2):
其中:U(n)為預加重后的信號;u(n)為n時刻的敲擊聲音樣本值。
1.2.2 分幀、加窗
分幀可用matlab 中enframe 函數(shù)實現(xiàn),幀長K取值為256,相鄰2 幀之間的重疊區(qū)域為80,加窗選取漢明窗進行處理。漢明窗如式(3)所示,加窗過程如式(4)。
其中:φ(n)為分幀后各幀的語音信號。
1.3.1 時域特征
短時能量是一種常用的時域特征,表示語音信號能量釋放強弱的特征,用于區(qū)分濁音段和清音段。短時能量如圖3 和圖4 所示,第j幀語音信號的短時能量可由下式得到:
圖3 無空洞狀態(tài)短時能量Fig.3 Short-time energy of percussive sound in non-voids state
圖4 有空洞狀態(tài)短時能量Fig.4 Short-term energy of percussive sound in voids state
其中:Sj由式(4)得到,表示加窗分幀后第j幀的語音信號。
同一聲音采用不同分幀參數(shù)或窗函數(shù),計算出的短時能量數(shù)值會不同,同時受采集設備和聲源之間距離的影響,不同距離錄制的聲音樣本短時能量也會不同,因此無法根據(jù)短時能量具體數(shù)值區(qū)分2 種聲音。但是2 種不同類型的聲音短時能量的震蕩幅度和時間卻又有很大區(qū)別,如表1所示。
表1 短時能量特征對比Table 1 Short-time energy characteristics comparison
1.3.2 頻域特征
在語音分析中,頻譜分析可以用于揭示語音信號的頻率分布情況[11],而頻譜分析常用“聲譜圖”來表示。聲譜圖被稱為“可視語音”,具有重要的實用價值,反映了信號的動態(tài)頻譜特征。本文采用快速傅里葉變換(Fast Fourier Transform)進行語音信號頻譜分析。FFT是一種高效的傅里葉變換算法,由于其計算量小的顯著優(yōu)點,在信號處理技術(shù)領域獲得了廣泛應用。
其中:Sj(n)為輸入的語音信號,由式(4)得到;N表示傅里葉變換的點數(shù),取默認值。
聲譜圖上因其不同的灰度,形成不同的紋路,稱之為“聲紋”,聲紋因人而異,因此可以在司法、安全等場合得到應用。如圖5 和圖6 所示,在無空洞狀態(tài)下,深黑色部位呈現(xiàn)“片狀”分布,且在有空洞狀態(tài)下呈現(xiàn)“條狀”分布,表2 列出2種聲紋特征詳細對比。
表2 聲紋特征對比Table 2 Comparison of voiceprint features
圖5 無空洞狀態(tài)聲譜Fig.5 Sonogram in non-voids state
圖6 有空洞狀態(tài)聲譜Fig.6 Sonogram in non-voids state
梅爾頻率倒譜系數(shù)[12](MFCC)是一種接近人耳聽覺的基于聲音頻率的非線性梅爾刻度對數(shù)能量頻譜的線性變換,自動語音和說話人識別中廣泛使用的特征。其提取步驟如圖7所示。
圖7 MFCC提取步驟Fig.7 Extraction steps for MFCC
1) 將式(4)得到的頻譜特征取模平方后通過梅爾三角濾波器式(7),并提取每個刻度上對數(shù)能量,三角濾波器的階數(shù)L取24。
2)最后用離散余弦變換(DCT),得到12維MFCC系數(shù)C,M取值為12。
3) 對上式得到的12 維MFCC 系數(shù)C取1 階差分,用來表示語音信號幀與幀之間的動態(tài)變化,最終將2 次得到的系數(shù)合并得到24 維MFCC 特征參數(shù)C′(12維MFCC和12維1階差分)。
4)取均值
由于單個聲音樣本提取到的MFCC 特征參數(shù)C′是h×24 的矩陣(h大于2 000),需要降低特征參數(shù)的行數(shù)后才能通過智能算法進行模型訓練。取均值是聲音識別中常用的處理方式,將每段聲音信號的MFCC 特征參數(shù)C′縱向取均值,使其變?yōu)?×24維的向量c,作為該聲音特征的表示。
粒子群算法(Particle Swarm Optimization)是一種根據(jù)鳥群覓食行為設計得到基于群體協(xié)作的隨機搜索算法,常用于尋優(yōu)或優(yōu)化其他各種算法。將自然選擇的原理運用到粒子群算法迭代過程中,將群體中最差的一半粒子,用最好的一半粒子代替,同時保持原來每個粒子的個體最優(yōu)值,以達到加快運算速度、獲取全體最優(yōu)的效果[13]。
1)設置粒子速度和位置。
設D維空間個體粒子個數(shù)為N,第i個個體的位置表示如下:
第i個個體的速度表示如下。
2)尋找個體和全局極值。
將每個粒子迄今為止的最優(yōu)保存為粒子的個體極值Bestp,將整個粒子群搜索到的最優(yōu)位置保存為全局極值Bestg。
4)比較適應值與當前Bestp和Bestg,更新極值。
5) 對粒子群按照適應度排序,將最差的一半粒子用最好的一半粒子替換,同時保留原單個粒子迄今為止的最優(yōu)值。
6) 判斷是否達到停止條件,如果達到條件,輸出結(jié)果;否則返回第3步繼續(xù)搜索。
在機器學習領域,主成分分析法[14](PCA)常作為一種降低維度、加快機器運算速度、提高準確率的方法。其原理是通過正交變換,用一組較少綜合指標,代替原來眾多的指標。
SVM 分類器的原理是尋找一個最優(yōu)超平面,使其盡可能遠離所有類別的數(shù)據(jù)點,對于線性不可分問題,通過核映射方法將其轉(zhuǎn)化為高維空間的線性可分問題,從而實現(xiàn)分類,本文SVM 分類器的核函數(shù)選用高斯核函數(shù)(RBF)。PSO-SVM 模型則是用粒子群優(yōu)化算法對SVM 算法中RBF 核函數(shù)的最優(yōu)核參數(shù)σ和懲罰因子g進行尋優(yōu),從而優(yōu)化SVM 分類器。PCA-混合PSO-SVM 模型建模流程如圖8所示。
圖8 智能識別模型流程圖Fig.8 Flow chart of intelligent recognition model
某隧道起訖里程DK358+585~DK361+210,隧道全長2 625 m,其中暗洞長2 608 m,(ⅠⅠ級圍巖1 850 m,ⅠⅠⅠ級圍巖490 m,ⅠV 級圍巖140 m,V級圍巖128 m),明洞17 m。位于谷地高山區(qū),山高谷深,氣候惡劣。山脈呈南北向縱貫延展,谷嶺相間,地勢起伏跌宕最低點標高為2 065 m。隧道 為 單 線 隧 道, 線 路 縱 坡 9.0‰/15 m,10.8‰/2 550 m 和1.0‰/60 m 的單面坡,隧道位于直線上。隧道運營期間,隧道襯砌出現(xiàn)裂縫,部分裂縫伴有滲水病害。對該段隧道進行敲擊檢查,獲取敲擊檢查聲音樣本,并結(jié)合該隧道之前的地質(zhì)雷達檢測報告,得到該段隧道空洞情況如表3。
表3 實際空洞情況Table 3 Actual voids situation
本文所建立的空洞敲擊檢查聲音模型是基于MATLAB2019B軟件建立,建模過程如下。
1) 數(shù)據(jù)集PCA降維
將1.1 中收集到的645 個聲音樣本(空洞樣本213 個,非空洞樣本432 個)和3.1 實際工程案例中取得的15 個聲音樣本(空洞樣本9 個,非空洞樣本6 個)提取MFCC 參數(shù),取均值后得到每段聲音的特征向量ci(1≤i≤660)。所有特征向量ci共同組成數(shù)據(jù)集T660×24,作為本文所需的樣本數(shù)據(jù)集。運用主成分分析法降維,各個維度的主成分貢獻率如圖9所示。一般地,當各維度特征值累計貢獻率達到85%以上,就說明主成分分析后的特征包含了大部分主要信息,如圖9,前15個主成分的累計貢獻率已達到91.63%,柱狀圖中特征值從第16 個因子開始以后逐漸趨于水平。由此,取主成分分析后得分矩陣的前15 維,組成最終樣本數(shù)據(jù)集U660×15。模型的輸出用“0”和“1”分別表示襯砌背后“無空洞”和“有空洞”。
圖9 特征貢獻率Fig.9 Contribution of features
2) 樣本分割
根據(jù)機器學習數(shù)據(jù)集劃分方式,將樣本劃分為訓練集、驗證集和測試集,訓練集用于訓練智能分類模型,驗證集用于調(diào)整模型參數(shù)和評估模型的分類效果,測試集一般選用實際工程樣本,用來評估模型的泛化能力,是對模型的測試和“考核”。將春檢645個聲音樣本的MFCC 特征和主成分分析后的樣本數(shù)據(jù)按4∶1 的比例劃分訓練集U1516×15和驗證集U2129×15,將實際工程案例中取得的15個樣本的PCA數(shù)據(jù)作為測試集U315×15。
3) 模型訓練
將訓練集U1516×15按照圖8 所示流程用于模型訓練。PCA-混合PSO-SVM 模型參數(shù)設置為:學習因子c1=0.4,c2=0.9,慣性權(quán)重η=0.8,初始種群數(shù)目N=100,最大迭代次數(shù)M=100。粒子群算法適應度函數(shù)用均方誤差函數(shù)表示:
其中:為第i個樣本的SVM輸出值;Yi為第i個樣本的理論輸出值。
4) 模型性能對比
常見的分類性能度量指標有準確率(Accuracy)、查準率(Precision)、查全率(Recall)和綜合評價指標F1 度量(F1-Score)[15]。對訓練好的PCA-混合PSOSVM 模型進行5 折交叉驗證,得出模型綜合性能,并與PSO-SVM 和普通SVM 進行對比,對比結(jié)果如表4 所示。本文模型各方面性能均略高于PSOSVM,且遠高于普通SVM 模型;本文模型訓練時間只有PSO-RBF 訓練時間的一半,說明本文模型耗時短且具有良好的分類性能。
表4 模型性能對比Table 4 Model performance comparison
測試集U315×15為實際工程中收集的聲音的特征集,用于測試模型的實用性,測試結(jié)果如表5。本文模型能夠在實際應用中準確地對所有聲音樣本進行分類;PSO-SVM 模型在識別第7 個樣本時出現(xiàn)錯誤,說明PSO-SVM 模型在識別空洞敲擊聲音時效果較差;普通SVM 模型對其中4 個樣本作出錯誤的判斷,效果不理想。
表5 實例驗證對比Table 5 Verification and comparison of examples
1)在采集隧道檢查過程中檢查錘敲擊聲音后,運用聲音信號特征分析基本方法,對2種狀態(tài)下聲音樣本的時域特征和頻域特征進行分析,并提取MFCC特征參數(shù)。在不同狀態(tài)下短時能量和聲紋都表現(xiàn)出明顯的不同。
2) 通過主成分分析法對數(shù)據(jù)集進行降維,用混合PSO 算法優(yōu)化SVM 的核函數(shù)參數(shù)σ和懲罰因子g,建立PCA-混合PSO-SVM模型,與普通PSOSVM 算法和傳統(tǒng)SVM 算法而言,本文模型有著較高的準確率和較快的訓練速度,能夠根據(jù)敲擊檢查聲音準確判斷出隧道背后是否存在空洞。如何根據(jù)聲音特征判斷襯砌背后空洞的大小和深度等,是下一步研究的重點。
3) 目前鐵路隧道快速無損檢測還無法大范圍普及,人工檢查仍是使用最廣泛的檢查方法,通過研究敲擊檢查聲音智能識別,為隧道智能化診斷做出新探索,對加快人工檢查速度、提高信息化程度和實現(xiàn)無紙化作業(yè)有著重要的意義。