萬智勇,周松斌,劉憶森,肖 明,李 昌,邱澤帆
(1.廣東省科學(xué)院智能制造研究所廣東省現(xiàn)代控制技術(shù)重點(diǎn)實(shí)驗(yàn)室,廣州 510070;2.廣東工業(yè)大學(xué)自動(dòng)化學(xué)院,廣州 510006)
隨著工業(yè)無人化、智能化的快速發(fā)展,工廠中的機(jī)械設(shè)備運(yùn)行狀態(tài)監(jiān)測與診斷顯得尤為重要。傳統(tǒng)人工巡檢手段存在檢測效率低、費(fèi)時(shí)費(fèi)力等問題。因此基于振動(dòng)、聲發(fā)射等傳感手段的機(jī)械設(shè)備狀態(tài)識(shí)別與故障診斷方法被廣泛研究。聲學(xué)傳感通過麥克風(fēng)采集聲音來判斷被測目標(biāo)狀態(tài),具有成本低、非接觸、可在線等優(yōu)勢,在音頻監(jiān)控[1]、機(jī)械產(chǎn)品質(zhì)量檢測[2]、設(shè)備預(yù)測性維護(hù)[3]、機(jī)械運(yùn)行狀態(tài)監(jiān)測等領(lǐng)域展現(xiàn)出應(yīng)用潛力,受到研究者的廣泛關(guān)注。
實(shí)際中,機(jī)械設(shè)備故障率低、種類多且發(fā)散,想要窮舉采集各類型、工況下的機(jī)械異常聲,從而構(gòu)造有監(jiān)督的異常檢測模型十分困難。因此研究無監(jiān)督機(jī)械異常聲檢測算法,預(yù)測識(shí)別未知異常據(jù)有重要的實(shí)際意義。無監(jiān)督異常檢測算法主要包含基于分布估計(jì)、基于重建、基于分類等幾種方法[4]。其中典型的基于分布估計(jì)的方法包括高斯混合模型(GMM)[5]及基于距離度量聚類的k-means[6]算法等;常用的基于分類的方法如單類支持向量機(jī)(OC-SVM)[7]等。而基于重建的方法則是通過壓縮-重構(gòu)數(shù)據(jù),假設(shè)異常數(shù)據(jù)會(huì)具有更大的重構(gòu)誤差實(shí)現(xiàn)異常檢測[8]。例如采用主成分分析(PCA)[9]對數(shù)據(jù)壓縮-重構(gòu)來進(jìn)行異常檢測。
自動(dòng)編碼器[10-13](AE)是一種基于深度學(xué)習(xí)的異常檢測方法。由于其網(wǎng)絡(luò)結(jié)構(gòu)相對簡單、泛化性能好等優(yōu)點(diǎn)被廣為研究與應(yīng)用。許多學(xué)者也提出其各種變體,用于各類異常檢測問題研究。如尹愛軍等[14]用變分自編碼器(VAE)實(shí)現(xiàn)對軸承運(yùn)行健康狀態(tài)的定量評估;戴俊等[15]將生成對抗網(wǎng)絡(luò)(GAN)與自動(dòng)編碼器融合用于機(jī)械系統(tǒng)異常檢測;TOUATI等[16]用改進(jìn)的稀疏自編碼器(SAE)實(shí)現(xiàn)了對異構(gòu)遙感圖像隨時(shí)間變化的檢測;ZONG等[17]更是將深度自編碼器與高斯混合模型相結(jié)合,提出深度高斯混合模型(DAGMM)用于無監(jiān)督異常檢測。
當(dāng)前,采用AE進(jìn)行機(jī)械異常聲檢測存在兩個(gè)方面的挑戰(zhàn)。一是工業(yè)場景下采集的機(jī)械聲音信號特征提取較為困難。AE提取到的低維特征有效性不高,導(dǎo)致異常檢測精度低[18]。二是一些機(jī)械設(shè)備運(yùn)行聲音存在明顯的非穩(wěn)態(tài)特征,而一般AE由全連接網(wǎng)絡(luò)組成,難以有效地提取時(shí)序變化特征,導(dǎo)致對于非穩(wěn)態(tài)異常聲識(shí)別效果差。
針對上述兩個(gè)問題,本文提出基于雙通道自監(jiān)督編碼器的異常檢測方法。該方法利用循環(huán)神經(jīng)網(wǎng)絡(luò)和自監(jiān)督分類器,提升AE對聲音信號的時(shí)頻特征提取能力,增強(qiáng)其面向異常檢測的區(qū)分能力,提升檢測精度。通過MIMII數(shù)據(jù)集[19]中4種機(jī)械異常聲檢測驗(yàn)證該算法的有效性。
自編碼器是一種典型的無監(jiān)督深度學(xué)習(xí)模型,其能夠從無標(biāo)簽樣本中學(xué)習(xí)樣本的低維特征,并重建信號。其由兩個(gè)基本結(jié)構(gòu)組成:編碼器ε(·)和解碼器D(·),編碼器通過多層神經(jīng)元將輸入數(shù)據(jù)壓縮、降維。解碼器則是將由編碼器壓縮的低維表示重構(gòu)樣本。其表達(dá)為:
z=ε(x|θε|)
(1)
(2)
門控循環(huán)單元(GRU)網(wǎng)絡(luò)[20]是循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種,它是長短期記憶(LSTM)網(wǎng)絡(luò)[21]的一種改進(jìn)形式。GRU網(wǎng)絡(luò)解決了普通RNN網(wǎng)絡(luò)存在的梯度消失問題,并且相比于使用遺忘門、輸入門和輸出門來控制隱含層的輸入輸出和狀態(tài)信息的LSTM網(wǎng)絡(luò),GRU擁有更簡單的結(jié)構(gòu),其內(nèi)部只有更新門和重置門。在大多數(shù)實(shí)驗(yàn)下,GRU都能得到與LSTM相似的結(jié)果,并且其計(jì)算性能比LSTM更好[22]。GRU的內(nèi)部結(jié)構(gòu)圖如圖1所示,其計(jì)算過程如式(3)~式(6)所示。
zt=σ(Wzht-1+Uzxt+bz)
(3)
rt=σ(Wrht-1+Urxt+br)
(4)
(5)
(6)
式中,Wz、Wr、Wh、Uz、Ur、Uh為權(quán)重矩陣;bz、br、bh為偏置;σ為sigmoid函數(shù);tanh為雙曲正切函數(shù)。
聲音數(shù)據(jù)的處理應(yīng)包含當(dāng)前時(shí)刻前后時(shí)序的全部信息,而普通的GRU網(wǎng)絡(luò)只計(jì)算一個(gè)方向上的時(shí)序信息。因此在本文中采用雙向GRU(BiGRU)網(wǎng)絡(luò),來計(jì)算聲音數(shù)據(jù)的前后向時(shí)序信息。
圖1 GRU內(nèi)部結(jié)構(gòu)圖
雙通道特征融合自監(jiān)督編碼器(DCSS-AE)結(jié)構(gòu)如圖2所示。該算法由3個(gè)部分組成:雙通道特征融合編碼器(double channel encoder)、解碼器(decoder)和自監(jiān)督分類器(self-supervised classifier)。
圖2 雙通道特征融合自監(jiān)督編碼器網(wǎng)絡(luò)結(jié)構(gòu)
DCSS-AE的工作原理如下:①輸入信號進(jìn)入BiGRU網(wǎng)絡(luò)構(gòu)成的時(shí)序通道提取聲音信號時(shí)序特征,并將每層將得到的時(shí)序特征通過跳接結(jié)構(gòu),傳遞給頻域通道中對應(yīng)的層;②頻域通道由全連接網(wǎng)絡(luò)構(gòu)成,每個(gè)全連接層將上一層的輸出與跳接時(shí)序特征以級聯(lián)方式融合,作為下一全連接層的輸入,共同提取聲音信號的低維表示;③將雙通道特征融合編碼器從正常數(shù)據(jù)學(xué)得的低維表示輸入自監(jiān)督分類器和解碼器中;④解碼器將聲音數(shù)據(jù)的低維表示重構(gòu)輸出;⑤自監(jiān)督分類器學(xué)習(xí)區(qū)分不同編號的機(jī)器聲音數(shù)據(jù),并輸出數(shù)據(jù)所屬編號的分類概率;⑥在訓(xùn)練過程中對雙通道自編碼器和自監(jiān)督分類器進(jìn)行聯(lián)合優(yōu)化。
雙通道特征融合編碼器εd(·)由于BiGRU網(wǎng)絡(luò)的參與,使得它學(xué)習(xí)到的低維特征包含了時(shí)序信息,從而令解碼器對于聲音的時(shí)序關(guān)系能夠很好的重建,而對于時(shí)序關(guān)系異常的聲音信號則會(huì)有較大的重構(gòu)誤差,從而實(shí)現(xiàn)非穩(wěn)態(tài)聲音的異常識(shí)別。雙通道特征融合編碼器可表示為:
zt=εd([x,xt]|θεd)
(7)
式中,θεd為雙通道特征融合編碼器的參數(shù);zt為雙通道特征融合編碼器學(xué)得的正常樣本低維表示;[,]為矩陣拼接;xt為聲音時(shí)序特征數(shù)據(jù)。
自監(jiān)督分類器C(·)以雙通道特征融合編碼器得到的正常聲音低維表示zt作為輸入,通過學(xué)習(xí)區(qū)分輸入數(shù)據(jù)所屬于的機(jī)器編號來引導(dǎo)自編碼器學(xué)習(xí)機(jī)器聲音的時(shí)頻特征,提升雙通道編碼器提取特征的有效性。自監(jiān)督網(wǎng)絡(luò)可表示為:
(8)
訓(xùn)練過程中,以所有機(jī)器編號的機(jī)器聲音數(shù)據(jù)作為輸入,訓(xùn)練目標(biāo)編號機(jī)器的異常檢測模型。為了使得自監(jiān)督分類器和雙通道自編碼器能夠聯(lián)合優(yōu)化,DCSS-AE的訓(xùn)練損失函數(shù)定義為:
Loss=LAE+LSS
(9)
式中,LAE為雙通道自編碼器的損失函數(shù);LSS為自監(jiān)督分類器的損失函數(shù)。
LAE為正常數(shù)據(jù)重構(gòu)誤差。為了讓自編碼器只學(xué)習(xí)目標(biāo)編號機(jī)器聲音的時(shí)頻特征,該損失僅計(jì)算該編號的機(jī)器聲音重構(gòu)誤差,定義為:
(10)
LSS為所有輸入信號的機(jī)械聲編號分類交叉熵,定義為:
(11)
檢測過程中,將雙通道自編碼器的重構(gòu)誤差損失作為目標(biāo)編號測試樣本的異常分?jǐn)?shù):
(12)
為了驗(yàn)證本文所提出方法在機(jī)械系統(tǒng)異常聲檢測中的有效性,使用公開數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),并與4種現(xiàn)有異常檢測方法進(jìn)行性能對比。對比方法包括自編碼器(AE)、變分自編碼(VAE)、深度高斯混合模型(DAGMM)、單分類支持向量機(jī)(OC-SVM)。
實(shí)驗(yàn)采用公開數(shù)據(jù)集MIMII進(jìn)行驗(yàn)證,該數(shù)據(jù)集包括四種不同的機(jī)器在運(yùn)行狀態(tài)下的聲音,每種共4臺(tái)機(jī)器編號為0、2、4、6,并且采集的聲音樣本包含有真實(shí)環(huán)境下的工業(yè)背景噪音。采樣率為16 kHz,每個(gè)聲音樣本長約10 s。數(shù)據(jù)集中包含有訓(xùn)練集和測試集。訓(xùn)練集中只有對應(yīng)機(jī)器正常運(yùn)行狀態(tài)下的聲音樣本,而測試集中則包含機(jī)器正常狀態(tài)下運(yùn)行的聲音樣本和在各種異常狀態(tài)下運(yùn)行的聲音樣本。數(shù)據(jù)集的具體描述如表1所示。
表1 聲音數(shù)據(jù)樣本劃分
實(shí)驗(yàn)中對原始聲音數(shù)據(jù)進(jìn)行與DCASE2020 Challenge Task2中相同的預(yù)處理:將原始聲音時(shí)域數(shù)據(jù)轉(zhuǎn)換成對數(shù)梅爾譜,其中快速傅里葉變換點(diǎn)數(shù)設(shè)置為1024,滑窗512,梅爾特征取128維。以5 fps,每次滑動(dòng)1 fps數(shù)據(jù)作為一個(gè)訓(xùn)練樣本。因此每個(gè)聲音樣本處理成約344個(gè)長度為640的訓(xùn)練樣本輸入網(wǎng)絡(luò),DCSS-AE的網(wǎng)絡(luò)參數(shù)設(shè)置如表2所示。對比方法中的AE與VAE均采用與DCASE2020 Challenge Task2中基線系統(tǒng)相同的網(wǎng)絡(luò)結(jié)構(gòu)。網(wǎng)絡(luò)訓(xùn)練使用Adam優(yōu)化器,學(xué)習(xí)率0.000 1,迭代次數(shù)為100次,批大小512。
表2 網(wǎng)絡(luò)參數(shù)
本文實(shí)驗(yàn)均在Linux系統(tǒng)下開展,編程使用python3.6,基于神經(jīng)網(wǎng)絡(luò)的模型采用pytorch1.2框架搭建,OCSVM模型采用sklearn庫實(shí)現(xiàn)。實(shí)驗(yàn)所用計(jì)算機(jī)搭載TITAN V顯卡,12 G內(nèi)存。
為了從多個(gè)角度評價(jià)模型性能,使用測試集樣本異常分計(jì)算AUC指標(biāo)[21],并基于測試集樣本正常/異常判定結(jié)果,計(jì)算精確度(Precision)、召回率(recall)、F1分(F1-socre)作為模型檢測效果的評價(jià)指標(biāo)。
其中正常/異常的判定采用基線系統(tǒng)所提出的異常分?jǐn)?shù)閾值確定方法:將所有訓(xùn)練樣本輸入訓(xùn)練好的模型中,得到訓(xùn)練樣本的異常數(shù)進(jìn)行Γ分布統(tǒng)計(jì),取該Γ分布百分比函數(shù)(ppf函數(shù))0.9處的異常分?jǐn)?shù)作為測試樣本的正常/異常的判定閾值φ。
3.4.1 對比實(shí)驗(yàn)
本文提出DCSS-AE網(wǎng)絡(luò)與對比方法在測試集上計(jì)算AUC、精確度、召回率、F1分進(jìn)行性能評估,測得結(jié)果如表3所示。由表中結(jié)果可知,與對比方法比較,DCSS-AE最終取得了最優(yōu)的異常檢測性能,其在fan、valve、slider、pump 4個(gè)數(shù)據(jù)集上的AUC結(jié)果分別為0.722,0.896,0.905,0.719,平均AUC為0.811。DCSS-AE在4個(gè)數(shù)據(jù)集的平均AUC較AE、VAE、DAGMM、OCSVM等方法分別提升了11.8%,6.2%,35.7%和38.5%。此外,對比4種機(jī)械聲數(shù)據(jù)集,DCSS-AE在非穩(wěn)態(tài)聲音數(shù)據(jù)集上的提升顯著高于穩(wěn)態(tài)數(shù)據(jù)集:在fan和pump兩個(gè)穩(wěn)態(tài)聲數(shù)據(jù)集上相對于AE的AUC提升為3.8%,而在valve和slider這兩個(gè)非穩(wěn)態(tài)聲數(shù)據(jù)集上,相對于AE的AUC結(jié)果提升達(dá)到19.2%。
表3 DCSS-AE與對比方法在MIMMI異常聲檢測數(shù)據(jù)集上的結(jié)果對比
為了進(jìn)一步說明本方法相對于AE的改進(jìn)作用,將穩(wěn)態(tài)聲音(fan、pump)及非穩(wěn)態(tài)聲音(valve、slider)聲音樣本的異常分?jǐn)?shù)可視化,如圖3所示。
圖3 各模型對四種數(shù)據(jù)集異常檢測分?jǐn)?shù)可視化對比
由圖3可見,對于fan、pump數(shù)據(jù)集,其正常聲呈現(xiàn)穩(wěn)態(tài)特征,各幀數(shù)據(jù)之間沒有明顯的時(shí)序相關(guān)性。而該數(shù)據(jù)集的異常樣本,也呈現(xiàn)穩(wěn)態(tài),其異常主要體現(xiàn)在頻域。從異常分?jǐn)?shù)對比可見,時(shí)序特征提取通道和自監(jiān)督器的加入,能夠令編碼器有效學(xué)習(xí)到其頻域特征,DCSS-AE相比于一般AE,在樣本頻域異常處的異常分?jǐn)?shù)明顯增大。另一方面,slider和valve數(shù)據(jù)集的正常聲和異常聲都為非穩(wěn)態(tài)聲,呈現(xiàn)出明顯的周期性時(shí)序變化,DCSS-AE由時(shí)序特征提取通道的加入,能夠記住正常樣本的時(shí)序特征,然而正常聲和異常聲樣本的時(shí)序特性并不相同,因此該方法與其他對比方法相比,能夠更有效地檢測出非穩(wěn)態(tài)聲音異常。
從異常分?jǐn)?shù)的結(jié)果可見,4種對比方法在非穩(wěn)態(tài)的異常樣本的異常幀處,異常分會(huì)有不同程度的提高,但都沒有能夠?qū)崿F(xiàn)顯著的誤差區(qū)分性。而DCSS-AE通過兩種策略結(jié)合,有效提取非穩(wěn)態(tài)正常樣本的時(shí)序特征與頻域特征,DCSS-AE在樣本異常幀處(亮線處)產(chǎn)生的重建誤差明顯增大,而在正常幀處的異常分仍然保持一個(gè)較低的水平,異常檢測表現(xiàn)提升顯著。異常分?jǐn)?shù)的可視化結(jié)果與表3中的異常檢測結(jié)果也表現(xiàn)出高度的一致性。
3.4.2 消融實(shí)驗(yàn)
為了驗(yàn)證方法中自監(jiān)督分類器和時(shí)序特征提取通道的有效性,本節(jié)進(jìn)行消融實(shí)驗(yàn)驗(yàn)證,3種模型結(jié)構(gòu)分別為:
(1)雙通道自編碼器(DC-AE)。該自編碼器由雙通道編碼器和解碼器組成,未添加自監(jiān)督分類器結(jié)構(gòu)。
(2)自監(jiān)督編碼器(SS-AE)。該模型由單通道編碼器,解碼器和自監(jiān)督分類器組成,沒有添加時(shí)序特征提取通道。
(3)雙通道自監(jiān)督編碼器(DCSS-AE)。該模型為本文提出方法,包含有雙通道時(shí)頻特征融合編碼器、解碼器和自監(jiān)督分類器3個(gè)部分。
以上3種模型在MIMII數(shù)據(jù)集上的AUC結(jié)果如表4所示。
表4 消融實(shí)驗(yàn)結(jié)果對比
由表4可知,加入BiGRU跳接結(jié)構(gòu)的DC-AE在4種數(shù)據(jù)上的平均AUC指標(biāo)比基線系統(tǒng)(AE)提升了5.7%,尤其在非穩(wěn)態(tài)異常較多的valve數(shù)據(jù)集上提升了16.1%。表明跳接結(jié)構(gòu)的BiGRU網(wǎng)絡(luò)使得傳統(tǒng)自編碼器能夠獲得更好的時(shí)序特征。而加入自監(jiān)督分類器的SS-AE模型在四種數(shù)據(jù)上與基線系統(tǒng)(AE)相比有不同程度的提升,平均AUC指標(biāo)提升了8.5%,尤其在穩(wěn)態(tài)異常較多的pump數(shù)據(jù)集上提升了17.8%。說明自監(jiān)督分類器的加入能夠引導(dǎo)傳統(tǒng)自編碼器學(xué)得正常聲音更好的頻域特征。本文提出的方法在四種數(shù)據(jù)集上的平均AUC指標(biāo)比基線系統(tǒng)提高了11.8%,與DC-AE和SS-AE相比分別提高了5.7%和3.1%。證明傳統(tǒng)自編碼器在跳接BiGRU網(wǎng)絡(luò)結(jié)構(gòu)加入和自監(jiān)督分類器的引導(dǎo)后,學(xué)得了聲音數(shù)據(jù)更好的時(shí)序特征和頻域特征,在AUC上實(shí)現(xiàn)了檢測性能的提升。
本文提出了基于雙通道特征融合的自監(jiān)督編碼器的機(jī)械聲音異常檢測算法。該算法設(shè)計(jì)雙通道自編碼器,兩個(gè)通道分別用于時(shí)序信息與頻域信息提取,并通過雙通道的多層級跳接結(jié)構(gòu)實(shí)現(xiàn)時(shí)頻特征融合;此外,本方法設(shè)計(jì)機(jī)械聲自監(jiān)督分類器引導(dǎo)雙通道自編碼器的訓(xùn)練,通過編號分類的附屬任務(wù)提升自編碼器提取的低維特征有效性。相比于一般自編碼網(wǎng)絡(luò),該網(wǎng)絡(luò)能夠更好地提取聲音數(shù)據(jù),尤其是非穩(wěn)態(tài)聲音數(shù)據(jù)的時(shí)頻特征,達(dá)到更好的異常檢測效果,在機(jī)械聲異常檢測領(lǐng)域展現(xiàn)出良好的應(yīng)用前景。