毛文濤,楊 超,劉亞敏,田思雨
(1.河南師范大學(xué)計(jì)算機(jī)與信息工程學(xué)院,河南新鄉(xiāng) 453007;2.智慧商務(wù)與物聯(lián)網(wǎng)技術(shù)河南省工程實(shí)驗(yàn)室(河南師范大學(xué)),河南新鄉(xiāng) 453007)
(*通信作者電子郵箱maowt@htu.edu.cn)
隨著現(xiàn)代工業(yè)的迅速發(fā)展,各類機(jī)械設(shè)備的工作環(huán)境變得越來越復(fù)雜。軸承作為機(jī)械設(shè)備的關(guān)鍵支承部件,長期在大載荷、強(qiáng)沖擊等復(fù)雜工況下工作,且受沖擊能力較差,是機(jī)械設(shè)備中最易受損的零件之一,一旦軸承發(fā)生意外失效,將造成重大安全事故和人員財(cái)產(chǎn)損失。因此,對軸承早期故障及時(shí)進(jìn)行有效的檢測極為重要,是故障預(yù)測與健康管理(Prognostic and Health Management,PHM)[1]的關(guān)鍵技術(shù)環(huán)節(jié)。近年來,隨著傳感技術(shù)的發(fā)展,基于數(shù)據(jù)驅(qū)動(dòng)的早期故障檢測技術(shù)開始受到關(guān)注。從狀態(tài)監(jiān)控?cái)?shù)據(jù)中提取早期故障信息,提高異常檢測結(jié)果的準(zhǔn)確性和實(shí)時(shí)性,具有明確的學(xué)術(shù)價(jià)值和應(yīng)用需求。
由于振動(dòng)信號可以直接反映出其工作狀態(tài),現(xiàn)有的早期故障檢測方法較多采用振動(dòng)信號進(jìn)行研究。傳統(tǒng)的早期故障檢測方法通常包括兩個(gè)步驟:1)從時(shí)域、頻域、時(shí)頻域提取手工特征;2)建立機(jī)器學(xué)習(xí)檢測模型。對于傳統(tǒng)手工特征提取方法,Yan等[2]通過提取時(shí)域信號中的近似熵并將其作為中結(jié)構(gòu)缺陷嚴(yán)重程度的指標(biāo),當(dāng)近似熵值增加時(shí)表示機(jī)器的可靠性正在下降,從而實(shí)現(xiàn)對機(jī)器設(shè)備的健康狀態(tài)診斷;Qiu 等[3]通過使用最小化香農(nóng)熵來優(yōu)化Morlet 小波變換因子,并利用基于奇異值分解的周期檢測方法來選擇適合小波變換的尺度,最終實(shí)現(xiàn)對機(jī)械設(shè)備的故障檢測;對于建立機(jī)器學(xué)習(xí)檢測模型,Liu 等[4]針對故障振動(dòng)信號的多分量特征和故障特征,建立沖擊時(shí)間頻率字典,然后使用短時(shí)信號來匹配字典,最后提取與原始信號最相關(guān)的原子分量作為支持向量機(jī)(Support Vector Machine,SVM)的輸入,從而構(gòu)建故障檢測模型;楊洪柏等[5]使用輪廓圖對多維特征可視化后,去除聚類性弱、對故障區(qū)分無益的冗余特征維度,并采用反向傳播神經(jīng)網(wǎng)絡(luò)算法進(jìn)行故障診斷。但是,這類方法的不足在于提取特征時(shí)較依賴于對象的先驗(yàn)知識(shí),且模型多為淺層結(jié)構(gòu),判別能力存在一定的局限性;同時(shí),此類方法默認(rèn)訓(xùn)練數(shù)據(jù)與目標(biāo)數(shù)據(jù)屬于同一特征分布空間內(nèi),當(dāng)目標(biāo)數(shù)據(jù)處于異工況下時(shí),其數(shù)據(jù)分布往往也不同,從而限制檢測模型的性能。
近年來,深度學(xué)習(xí)的迅速發(fā)展為早期故障檢測提供了新方法[6]。如Wen 等[7]提出了一種將軸承振動(dòng)信號轉(zhuǎn)換為二維圖像的轉(zhuǎn)換方法,該方法可以提取轉(zhuǎn)換后的二維圖像的特征,并消除手工特征的影響,最終基于LeNet-5實(shí)現(xiàn)對軸承的故障檢測;Akcay等[8]提出了一種基于條件學(xué)習(xí)對抗網(wǎng)絡(luò)的故障檢測模型,該模型通過在生成器網(wǎng)絡(luò)中使用編碼器-解碼器-編碼器,使模型將輸入映射到較低維向量,然后將其用于重建生成的輸出向量,最終通過對比生成的數(shù)據(jù)與原始數(shù)據(jù)的差異性實(shí)現(xiàn)故障檢測。上述基于深度學(xué)習(xí)方法的故障檢測模型的優(yōu)勢在于:利用多層神經(jīng)網(wǎng)絡(luò),深度學(xué)習(xí)可從原始數(shù)據(jù)中自適應(yīng)性地提取特征,具有判別能力強(qiáng)和較少依賴先驗(yàn)信息的優(yōu)點(diǎn)[9],因此可用來提取表征能力良好的早期故障特征,并構(gòu)建端到端的檢測模型。然而,此類方法的不足在于,深度網(wǎng)絡(luò)的訓(xùn)練依賴于一定的數(shù)據(jù)量,但在實(shí)際應(yīng)用中,受復(fù)雜工況所限,目標(biāo)軸承的狀態(tài)監(jiān)測數(shù)據(jù)通常難以大量采集,因此限制了深度學(xué)習(xí)的建模效果。而引入歷史積累的同型號軸承數(shù)據(jù),由于工作環(huán)境和設(shè)備狀態(tài)的不同,數(shù)據(jù)分布可能存在一定的差異,所訓(xùn)練的模型并不完全適用于目標(biāo)軸承,導(dǎo)致檢測結(jié)果準(zhǔn)確度下降。
由于深度學(xué)習(xí)理論模型通常要求訓(xùn)練數(shù)據(jù)與測試數(shù)據(jù)屬于獨(dú)立同分布,即要求其處于同一特征分布空間,而在許多實(shí)際場景下,由于目標(biāo)數(shù)據(jù)與訓(xùn)練數(shù)據(jù)通常存在著一定的分布差異,從而限制了模型的性能?;诖?,國內(nèi)外學(xué)者開始將注意力轉(zhuǎn)移至深度遷移學(xué)習(xí)方法,遷移學(xué)習(xí)的最大特點(diǎn)是能通過大量已有數(shù)據(jù)、提升在少量且數(shù)據(jù)分布不同的目標(biāo)域數(shù)據(jù)上的建模效果。如借助最大均值差異(Maximum Mean Discrepancy,MMD)、聯(lián)合分布適配(Joint Distribution Adaptation,JDA)等遷移學(xué)習(xí)方法[10-11],在已有的大量訓(xùn)練數(shù)據(jù)集上構(gòu)建遷移故障檢測模型,提升在少量目標(biāo)數(shù)據(jù)集上的檢測結(jié)果。例如,Lu 等[12]通過在多層自編碼器的訓(xùn)練過程中添加MMD領(lǐng)域適配正則化約束,來提高不同工況下軸承數(shù)據(jù)的檢測精確度;雷亞國等[13]提出機(jī)械裝備故障的深度遷移診斷方法,將實(shí)驗(yàn)室環(huán)境中積累的故障診斷知識(shí)遷移應(yīng)用于工程實(shí)際裝備。Mao 等[14]對軸承信號進(jìn)行三通道重構(gòu),并對預(yù)訓(xùn)練好的VGG-16 模型進(jìn)行微調(diào)適配,實(shí)現(xiàn)對目標(biāo)軸承的早期故障檢測。上述方法的本質(zhì)是將源域的故障機(jī)理信息遷移到目標(biāo)領(lǐng)域,以此提升目標(biāo)對象的診斷或檢測效果。但對于早期故障檢測,從強(qiáng)噪聲背景下的弱信號中提取特征難度較大,特征區(qū)分度不明顯。尤其需要注意的是,受環(huán)境、裝配條件等因素影響,正常狀態(tài)信號不可避免地出現(xiàn)不規(guī)則波動(dòng),上述模型容易將此類正常狀態(tài)樣本檢測為故障,從而導(dǎo)致較高的誤報(bào)警。綜合上述分析,提升早期故障檢測效果的關(guān)鍵在于:1)縮小因工況不同等因素產(chǎn)生的數(shù)據(jù)分布差異,使得不同工況數(shù)據(jù)訓(xùn)練得到的檢測模型能夠有效應(yīng)用于目標(biāo)軸承數(shù)據(jù);2)提高強(qiáng)噪聲背景下正常樣本與早期故障樣本的差異性,放大弱信號特征區(qū)分度,使得處于早期故障狀態(tài)的樣本與因不規(guī)則波動(dòng)引起的偽故障樣本盡可能區(qū)分開,從而降低誤報(bào)警率。
由于檢測模型無法有效識(shí)別故障樣本與偽故障樣本,從而引起較高的誤報(bào)警率,為解決此問題,本文擬通過放大或縮小早期故障樣本與偽故障樣本的異常程度,使得檢測模型能夠更容易識(shí)別正常樣本與異常樣本,從而降低誤報(bào)警率。據(jù)文獻(xiàn)調(diào)研發(fā)現(xiàn),注意力機(jī)制為上述問題提供了解決思路。注意力機(jī)制的本質(zhì)是對數(shù)據(jù)進(jìn)行加權(quán)學(xué)習(xí),在深度學(xué)習(xí)模型中,通常使用sigmoid 函數(shù)對數(shù)據(jù)進(jìn)行加權(quán)處理。不同的權(quán)重表示數(shù)據(jù)的不同的重要程度。該技術(shù)在圖像識(shí)別[15]、語音識(shí)別[16]等領(lǐng)域都已取得良好的效果。而在PHM 領(lǐng)域內(nèi),也有學(xué)者嘗試通過引入注意力機(jī)制解決相關(guān)問題。如孔子遷等[17]通過使用注意力結(jié)構(gòu)對不同時(shí)間點(diǎn)的特征自適應(yīng)地動(dòng)態(tài)加權(quán)融合,最終通過分類器進(jìn)行識(shí)別,實(shí)現(xiàn)行星齒輪箱的端對端故障診斷;吳靜然等[18]利用全卷積神經(jīng)網(wǎng)絡(luò)提取深度特征,并采用注意力機(jī)制將特征進(jìn)行融合,最后利用多分類函數(shù)實(shí)現(xiàn)旋轉(zhuǎn)機(jī)械故障診斷。上述方法的優(yōu)勢都在于:注意力機(jī)制能夠通過自適應(yīng)性學(xué)習(xí)對數(shù)據(jù)進(jìn)行加權(quán)處理,放大數(shù)據(jù)的區(qū)分度,從而提升模型效果。
針對以上問題,本文提出一個(gè)多尺度注意力深度領(lǐng)域適配模型,將早期故障信息在不同工況數(shù)據(jù)之間的遷移,來提高檢測效果。該方法通過在殘差注意力網(wǎng)絡(luò)[15]中增加不同尺寸的濾波器,并使用卷積-反卷積來重構(gòu)輸入信息,通過自適應(yīng)性學(xué)習(xí)來放大或者縮小早期故障樣本和偽故障樣本的異常程度,從而獲取表征能力更強(qiáng)的多尺度注意力特征,使得早期故障樣本與偽故障樣本的區(qū)分度更高。同時(shí),在注意力模型的損失函數(shù)中引入最大均值差異MMD正則化約束,在多尺度注意力特征基礎(chǔ)上尋找對早期故障更敏感的公共特征表示,使得模型能夠在從源域到目標(biāo)域進(jìn)行數(shù)據(jù)遷移的同時(shí),有效區(qū)分正常狀態(tài)樣本與早期故障樣本,降低誤報(bào)警率。
本文的主要工作如下:
1)提出了一種基于殘差注意力網(wǎng)絡(luò)的多尺度注意力網(wǎng)絡(luò)框架。相比原始的殘差注意力網(wǎng)絡(luò)結(jié)構(gòu),本文通過在殘差注意力網(wǎng)絡(luò)中增加不同尺寸的濾波器,并使用卷積-反卷積來重構(gòu)輸入信息并獲得數(shù)據(jù)的權(quán)重信息,即注意力信息,通過將注意力信息與多尺度深度特征融合,從而提取區(qū)分度更強(qiáng)的多尺度注意力特征,放大早期故障樣本與偽故障樣本的差異性,使得提取的注意力特征更有利于異工況下的數(shù)據(jù)遷移,因此更適用于早期故障檢測。
2)提出了一種新的基于深度領(lǐng)域適配的早期故障檢測模型。與現(xiàn)有遷移診斷方法不同,該方法將注意力機(jī)制與遷移學(xué)習(xí)機(jī)制結(jié)合,一方面引入注意力機(jī)制獲取區(qū)分度高的早期故障特征,然后構(gòu)建基于交叉熵和最大均值差異正則化約束的損失函數(shù),實(shí)現(xiàn)領(lǐng)域適配,從而提取對早期故障更為敏感的領(lǐng)域共享注意力特征,降低誤報(bào)警率。根據(jù)本文文獻(xiàn)調(diào)研,目前采用注意力遷移學(xué)習(xí)策略的早期故障檢測工作尚不多見。
在計(jì)算機(jī)視覺領(lǐng)域,對于傳統(tǒng)的深度神經(jīng)網(wǎng)絡(luò)模型,國內(nèi)外學(xué)者普遍認(rèn)為網(wǎng)絡(luò)的層數(shù)越深,網(wǎng)絡(luò)的非線性表達(dá)能力就越強(qiáng),同時(shí)也意味著該網(wǎng)絡(luò)所能學(xué)習(xí)到數(shù)據(jù)的潛在信息也就越多。如從經(jīng)典的LetNet-5[19],一個(gè)5 層的神經(jīng)網(wǎng)絡(luò)模型,到AlexNet[20](8 層)以至于GoogleNet[21](22 層)。神經(jīng)網(wǎng)絡(luò)模型的層數(shù)對于模型的性能的確至關(guān)重要,但是當(dāng)網(wǎng)絡(luò)層數(shù)增加至一定數(shù)量后,性能反而會(huì)下降。這是因?yàn)楫?dāng)網(wǎng)絡(luò)層數(shù)過深時(shí),由于神經(jīng)網(wǎng)絡(luò)模型的參數(shù)是通過鏈?zhǔn)角髮?dǎo)的方式得到,所以會(huì)出現(xiàn)梯度消失或者梯度爆炸現(xiàn)象,導(dǎo)致在較深層時(shí)梯度很難優(yōu)化,這使得網(wǎng)絡(luò)模型難以訓(xùn)練,從而影響著網(wǎng)絡(luò)的性能。
為解決此問題,He 等[22]提出了深度殘差網(wǎng)絡(luò)(deep Residual Network,ResNet)模型。主要思想是:對于一個(gè)由幾層堆積而成的堆積層結(jié)構(gòu),當(dāng)其輸入信息為x時(shí)將通過網(wǎng)絡(luò)學(xué)習(xí)到的特征記作H(x),網(wǎng)絡(luò)模型希望可以學(xué)習(xí)的目標(biāo)是殘差F(x)=H(x) -x,這樣使得原始的學(xué)習(xí)特征其實(shí)是H(x)。當(dāng)殘差為F(x)=0時(shí),此時(shí)堆積層相當(dāng)于是一個(gè)恒等映射,至少網(wǎng)絡(luò)性能不會(huì)下降。而實(shí)際上,學(xué)習(xí)目標(biāo)F(x)僅僅會(huì)接近于0,并不會(huì)等于0,這就使得堆積層在輸入特征的基礎(chǔ)上仍然可以學(xué)習(xí)到新的特征,從而使得網(wǎng)絡(luò)模型擁有更好的性能。殘差網(wǎng)絡(luò)的單元結(jié)構(gòu)如圖1所示。
圖1 殘差網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Residual network structure
殘差單元可以表示為:
其中:h(xl)代表第l個(gè)殘差單元的輸入;F是殘差函數(shù),代表學(xué)習(xí)到的殘差;xl+1=f(yl)表示恒等映射,f代表修正線性單元(Rectified Linear Unit,ReLU)激活函數(shù)?;谑剑?)~(2),可以求得從淺層l到深層L的深度特征:
對于梯度消失或者梯度爆炸現(xiàn)象,在ResNet 中,相較于直接堆疊網(wǎng)絡(luò)層數(shù)的網(wǎng)絡(luò)模型,因?yàn)榻輳竭B接的存在,梯度的計(jì)算方法由乘法變?yōu)榱思臃āp失函數(shù)用loss表示,則有:
注意力機(jī)制借鑒了人類視覺所特有的大腦信號處理機(jī)制,當(dāng)人類快速掃描一幅圖像時(shí),大腦的注意力總是會(huì)集中在人所想要重點(diǎn)關(guān)注的目標(biāo)區(qū)域,進(jìn)而獲取更多所需要關(guān)注的目標(biāo)的細(xì)節(jié)信息,同時(shí)抑制其他無關(guān)信息。注意力機(jī)制的本質(zhì)是對數(shù)據(jù)進(jìn)行加權(quán)學(xué)習(xí),在深度學(xué)習(xí)模型中,通常使用sigmoid 函數(shù)對數(shù)據(jù)進(jìn)行加權(quán)處理,不同的權(quán)重表示數(shù)據(jù)的不同的重要程度。該技術(shù)在圖像識(shí)別、語音識(shí)別等領(lǐng)域都已取得良好的效果。
常見的注意力機(jī)制常應(yīng)用于語音識(shí)別等領(lǐng)域,文獻(xiàn)[16]將注意力機(jī)制融入至深度殘差網(wǎng)絡(luò)結(jié)構(gòu)中,構(gòu)建一種殘差注意力網(wǎng)絡(luò)結(jié)構(gòu),達(dá)到了較好的圖像分類效果。殘差注意力網(wǎng)絡(luò)模塊的結(jié)構(gòu)如圖2 所示,主要分為兩個(gè)分支:Trunk Branch和Soft Mask Branch。
圖2 殘差注意力網(wǎng)絡(luò)Fig.2 Residual attention network
其中:Trunk Branch 由兩個(gè)殘差單元組成,用于提取深度特征T(x);Soft Mask Branch 由兩個(gè)線性插值下采樣和兩個(gè)雙線性插值上采樣順序組成,用于重構(gòu)原始輸入信息,并將重構(gòu)后的輸出經(jīng)過sigmoid 函數(shù)映射到0~1 范圍內(nèi),用以表征注意力信息。最終的輸出特征H(x)定義為:
其中:M(x)作為特征選擇器,用來增強(qiáng)特征表示能力,并抑制來自Soft Mask Branch 特征的噪聲。當(dāng)M(x)趨于0時(shí),T(x)的值接近T(x),這意味著當(dāng)注意力信息為0時(shí),由殘差注意力網(wǎng)絡(luò)模型提取的特征等價(jià)于由殘差網(wǎng)絡(luò)提取的特征。由于Soft Mask Branch 的存在,經(jīng)過殘差注意力網(wǎng)絡(luò)模型提取的特征比由殘差網(wǎng)絡(luò)提取的特征更具備表征能力。
在實(shí)際場景中,從強(qiáng)噪聲背景下的弱信號中提取特征難度較大,特征區(qū)分度不明顯;同時(shí),受環(huán)境、裝配條件等因素影響,待檢測的目標(biāo)軸承數(shù)據(jù)與歷史積累的訓(xùn)練數(shù)據(jù)存在分布差異,且正常狀態(tài)信號不可避免地出現(xiàn)不規(guī)則波動(dòng),導(dǎo)致檢測模型將此類正常狀態(tài)樣本檢測為故障,從而導(dǎo)致較高的誤報(bào)警。為解決此問題,本文提出了一種基于多尺度注意力機(jī)制的深度領(lǐng)域適配模型,包括三通道預(yù)處理、多尺度注意力網(wǎng)絡(luò)以及領(lǐng)域適配模塊。最終利用提取到的多尺度注意力早期故障公共特征,構(gòu)建基于多尺度注意力深度領(lǐng)域適配的早期故障檢測模型,使得基于源域數(shù)據(jù)訓(xùn)練的檢測模型能夠有效識(shí)別目標(biāo)域數(shù)據(jù)的健康狀況,降低誤報(bào)警率。
由于本文所使用的注意力殘差網(wǎng)絡(luò)模型的原始輸入為三通道形式的圖像數(shù)據(jù),因此,本文首先將軸承的一維振動(dòng)信號變換為三通道形式,分別為原始振動(dòng)信號通道、邊際譜通道以及頻譜通道。預(yù)處理流程如圖3所示。
圖3 數(shù)據(jù)預(yù)處理Fig.3 Data pre-processing
1)原始振動(dòng)信號通道:由加速度傳感器采集到的振動(dòng)信號。
2)邊際譜通道:對原始振動(dòng)信號進(jìn)行希爾伯特-黃變換(Hilbert-Huang Transform,HHT)[23]。使用經(jīng)驗(yàn)?zāi)B(tài)分解對原始振動(dòng)信號分解如式(6)所示:
其中:x(t)表示原始信號;ci(t)表示第i個(gè)本征模態(tài)函數(shù)(Intrinsic Mode Function,IMF)分量;k表示IMF 分量總數(shù);rk(t)表示原始信號剩下的余項(xiàng)。對每個(gè)IMF分量進(jìn)行HHT:
其中τ是對t的取值。
且構(gòu)建解析信號:
對希爾伯特譜積分得到最終邊際譜:
其中:w=,代表瞬時(shí)頻率。
3)頻譜通道:對原始振動(dòng)信號x(t)進(jìn)行快速傅里葉變換(Fast Fourier Transform,F(xiàn)FT)[24]。利用式(11)將x(t)變換為頻譜數(shù)據(jù)X(k)。
其中:t代表時(shí)間;N代表信號的長度。
將得到的原始振動(dòng)信號、邊際譜數(shù)據(jù)以及頻譜數(shù)據(jù)合并為三通道數(shù)據(jù),作為網(wǎng)絡(luò)模型的輸入。
本節(jié)在殘差注意力網(wǎng)絡(luò)的基礎(chǔ)上,引入多尺度的注意力機(jī)制,對模型結(jié)構(gòu)和損失函數(shù)進(jìn)一步改進(jìn),從而提取有效表示早期故障的多尺度注意力領(lǐng)域共享特征。具體而言,本文在圖2 中Soft Mask Branch 模塊引入卷積和反卷積,代替了殘差注意力網(wǎng)絡(luò)中Soft Mask Branch 的線性插值和雙線性插值,使得模型可以更好地還原輸入信息,從而有利于注意力信息的提??;同時(shí),在Trunk Branch 中,由于數(shù)據(jù)尺寸大小的限制,本文只設(shè)置了一個(gè)殘差單元,且在殘差單元后添加了兩個(gè)不同尺寸的卷積核,然后再進(jìn)行拼接,以提取更豐富的深度特征。最終,將注意力信息與深度特征融合,提取表征能力更強(qiáng)的多尺度注意力特征。多尺度注意力模塊如圖4所示。
圖4 多尺度注意力模塊Fig.4 Multi-scale attention module
如圖4 所示,本文對2.2 節(jié)的Soft Mask Branch 和Trunk Branch 進(jìn)一步改進(jìn)。其中Trunk Branch 使用一個(gè)ResNet 基礎(chǔ)網(wǎng)絡(luò)結(jié)構(gòu)以及一個(gè)1×1 卷積和一個(gè)3×3 卷積,用于提取深度特征F(x);Soft Mask Branch 使用了兩個(gè)3×3 卷積和兩個(gè)反卷積來還原輸入信息,并通過Sigmoid函數(shù)將重構(gòu)后的輸出T(x)映射到0~1,代表注意力信息。最終的注意力特征H(x)被定義為:
為了實(shí)現(xiàn)從源域到目標(biāo)域的數(shù)據(jù)遷移,本文在提取的多尺度注意力特征的基礎(chǔ)上,構(gòu)建基于交叉熵和MMD正則化約束的損失函數(shù),以縮小源域和目標(biāo)域的數(shù)據(jù)分布差異性。MMD 是用來度量在再生希爾伯特空間中兩個(gè)數(shù)據(jù)的分布距離。則源域與目標(biāo)域數(shù)據(jù)的距離為:
其中:H 表示再生核希爾伯特空間;n表示樣本數(shù)量;分別表示源域樣本和目標(biāo)域樣本。式(13)表示兩個(gè)域的樣本在非線性映射φ(·)上的均值差異。通過尋找一個(gè)φ(·)使得式(9)最小化,即可誘導(dǎo)得到兩個(gè)域之間的公共特征空間。
需要注意的是,式(13)是衡量兩個(gè)域之間的分布差異。而在早期故障檢測問題中,由于源域和目標(biāo)域都存在正常和異常兩種狀態(tài)的樣本。若直接將全壽命階段數(shù)據(jù)進(jìn)行領(lǐng)域最小化,則忽略了不同工況下數(shù)據(jù)之間的健康狀況。因此,此處分別計(jì)算源域正常樣本和目標(biāo)域正常樣本、源域異常樣本和目標(biāo)域異常樣本之間的MMD距離,以適配不同健康狀況下的數(shù)據(jù)分布,得到具有普適性的領(lǐng)域共享特征表示。具體表達(dá)如下:
同時(shí),二分類的交叉熵?fù)p失函數(shù)如式(15)所示:
其中:Ms為訓(xùn)練樣本數(shù)量;是訓(xùn)練樣本的健康狀態(tài)標(biāo)記;是訓(xùn)練樣本的預(yù)測標(biāo)記的概率分布。將這兩部分損失函數(shù)集成在一起,最終得到深度遷移早期故障檢測模型的目標(biāo)函數(shù):
其中:X=(T(x)+1)*F(x),代表源域數(shù)據(jù)和目標(biāo)域數(shù)據(jù)的多尺度注意力特征。
本文所提出的多尺度注意力深度領(lǐng)域適配模型流程如圖5 所示,它是在殘差注意力網(wǎng)絡(luò)模型框架的基礎(chǔ)上進(jìn)一步的改進(jìn),主要包括數(shù)據(jù)預(yù)處理模塊、多尺度殘差注意力模塊和領(lǐng)域適配模塊。數(shù)據(jù)預(yù)處理模塊是將原始數(shù)據(jù)分解為原始信號-邊際譜-頻譜三通道形式。多尺度殘差注意力模塊是通過不同尺寸大小的卷積來提取表征能力更強(qiáng)的多尺度深度特征,同時(shí)利用反卷積結(jié)構(gòu)來提取數(shù)據(jù)中的注意力信息,然后通過將注意力信息與多尺度深度特征融合,從而獲得對早期故障更為敏感的多尺度注意力特征。將提取到的多尺度注意力特征通過領(lǐng)域適配模塊,構(gòu)建基于交叉熵?fù)p失和最大均值差異正則化約束的損失函數(shù),從而使得基于源域數(shù)據(jù)訓(xùn)練的早期故障檢測模型能夠?qū)Ξ惞r下目標(biāo)數(shù)據(jù)進(jìn)行有效的檢測。
圖5 多尺度注意力深度領(lǐng)域適配模型流程Fig.5 Flowchart of deep domain adaptation model with multi-scale attention
對于式(16)給出的目標(biāo)函數(shù),可采用小批量梯度下降法[25]反向逐層更新訓(xùn)練參數(shù),具體優(yōu)化步驟如下:
2)前向傳播:①隨機(jī)選取批量訓(xùn)練樣本執(zhí)行式(12),獲取領(lǐng)域共享注意力特征。②根據(jù)式(13)計(jì)算源域數(shù)據(jù)與目標(biāo)域數(shù)據(jù)之間的交叉熵?fù)p失值。③根據(jù)式(14)計(jì)算源域正常數(shù)據(jù)數(shù)據(jù)與目標(biāo)域正常數(shù)據(jù)、源域異常數(shù)據(jù)與目標(biāo)域異常數(shù)據(jù)之間MMD 值。④執(zhí)行式(16)計(jì)算模型目標(biāo)函數(shù)值,并進(jìn)行迭代,如果迭代次數(shù)小于epoch 的值,則執(zhí)行步驟3);否則就結(jié)束迭代,轉(zhuǎn)至步驟4)。
3)反向傳播:采用小批量梯度下降法,反向逐層更新訓(xùn)練參數(shù)W0、b0的值;返回步驟2)。
4)目標(biāo)域數(shù)據(jù)健康狀態(tài)識(shí)別:保存網(wǎng)絡(luò)參數(shù)W0、b0,將待檢測目標(biāo)域數(shù)據(jù)輸入至檢測模型中,返回輸出層的檢測結(jié)果,即可預(yù)測目標(biāo)域數(shù)據(jù)的健康狀態(tài)分布。
為了驗(yàn)證所提方法的有效性,本文所使用的實(shí)驗(yàn)數(shù)據(jù)是IEEE PHM-2012 數(shù)據(jù)挑戰(zhàn)提供的軸承加速壽命實(shí)驗(yàn)數(shù)據(jù),實(shí)驗(yàn)數(shù)據(jù)來自PRONOSTIA 實(shí)驗(yàn)臺(tái)[26]。該數(shù)據(jù)集包含了從正常到故障的整個(gè)生命周期。
數(shù)據(jù)集由三個(gè)不同工況下的軸承的全壽命數(shù)據(jù)組成:工況1 下發(fā)動(dòng)機(jī)的轉(zhuǎn)速為1 800 r/min,負(fù)載為4 000 N;工況2 下發(fā)動(dòng)機(jī)轉(zhuǎn)速為1 650 r/min,負(fù)載為4 200 N;工況3 下發(fā)動(dòng)機(jī)轉(zhuǎn)速為1 500 r/min,負(fù)載為5 000 N。每個(gè)工況下分別對7 個(gè)不同軸承進(jìn)行數(shù)據(jù)采集實(shí)驗(yàn)。本文使用工況1 下數(shù)據(jù)作為源域數(shù)據(jù),工況2下軸承數(shù)據(jù)作為目標(biāo)域數(shù)據(jù)進(jìn)行實(shí)驗(yàn)。
在本實(shí)驗(yàn)中,訓(xùn)練數(shù)據(jù)由源域數(shù)據(jù)和少量目標(biāo)域輔助數(shù)據(jù)組成,包括工況1下的1~4號四個(gè)源域軸承數(shù)據(jù)和工況2下的1 號軸承輔助數(shù)據(jù),測試數(shù)據(jù)由工況2 下2、4 號兩個(gè)軸承數(shù)據(jù)組成。這些軸承數(shù)據(jù)均包含了從正常到完全退化的全壽命周期信號。具體組成如表1所示。
表1 訓(xùn)練、測試數(shù)據(jù)劃分表Tab.1 Training and testing data division table
為獲得有效的早期故障數(shù)據(jù),本文首先采用一種常用的早期故障檢測方法——基于支持向量數(shù)據(jù)描述(Support Vector Data Description,SVDD)[27]的方法,對軸承運(yùn)行狀態(tài)進(jìn)行狀態(tài)劃分。具體做法是:選取樣本序列前500 個(gè)樣本的HHT邊際譜特征作為訓(xùn)練集,構(gòu)建SVDD 模型,設(shè)定當(dāng)不再出現(xiàn)正常樣本的識(shí)別結(jié)果時(shí),記為早期故障位置。其中SVDD正則化參數(shù)設(shè)為0.01,使用徑向基核函數(shù)(Radial Basis Function,RBF),核參數(shù)設(shè)為0.1。在源域數(shù)據(jù)和輔助數(shù)據(jù)上的狀態(tài)劃分結(jié)果如圖6 所示(為了合理展示檢測結(jié)果,在圖6和圖9 中,設(shè)置標(biāo)簽“+1”表示正常狀態(tài),“-1”表示異常狀態(tài),由此對異常檢測結(jié)果進(jìn)行標(biāo)識(shí))。為了有效對比,圖6 同時(shí)給出了相應(yīng)軸承數(shù)據(jù)的均方根(Root Mean Square,RMS)值。SVDD 是目前常用的早期故障檢測方法,而RMS 作為衡量信號能量高低的指標(biāo),通常也能用于早期故障檢測。
圖6 源域數(shù)據(jù)和輔助數(shù)據(jù)的SVDD狀態(tài)劃分結(jié)果Fig.6 SVDD state division results of source domain data and auxiliary data
分析圖6 可知,所有子圖中的檢測結(jié)果在軸承的初始正常階段均出現(xiàn)較多的誤報(bào)警,這是由于在運(yùn)行過程中受運(yùn)行環(huán)境等因素的影響,采集到的振動(dòng)信號出現(xiàn)不規(guī)則波動(dòng),即偽故障樣本,檢測模型若不具備一定的抗干擾能力,無法準(zhǔn)確識(shí)別正常狀態(tài)樣本與偽故障樣本,從而出現(xiàn)了較多的誤報(bào)警。且從圖6可以看出,由SVDD檢測模型得到的狀態(tài)劃分結(jié)果與軸承振動(dòng)信號的RMS 值大致相對應(yīng),當(dāng)RMS 值明顯增高時(shí),檢測結(jié)果顯示軸承處于異常狀態(tài),即早期故障。然而RMS 值并不能作為衡量軸承運(yùn)行健康狀態(tài)的唯一指標(biāo),只能作為參考依據(jù),這是因?yàn)镽MS 值只是一種統(tǒng)計(jì)量,具有一定的滯后性。
簡化起見,源域數(shù)據(jù)和輔助數(shù)據(jù)的狀態(tài)劃分結(jié)果如表2所示。
在本文中,Trunk Branch 中卷積核大小是3×3,stride 是1,使用ReLU 作為Trunk Branch 的激活函數(shù);Soft Mask Branch 中卷積核大小是3×3,stride 是1,反卷積核大小是3×3,stride 是1,使用Sigmoid 激活函數(shù)將反卷積的結(jié)果歸一化至0~1,flatten 層節(jié)點(diǎn)數(shù)是128。小批量梯度下降法中,學(xué)習(xí)率是0.000 1,batch_size 大小是50,keep_prob 是0.7,epoch 是1 000。實(shí)驗(yàn)所用電腦配置是Ubuntu 16.4,顯卡Tesla K40m,64 GB內(nèi)存,本文所使用的算法環(huán)境是Python 3.6。
表2 狀態(tài)劃分結(jié)果Tab.2 State division results
根據(jù)表2 給出的狀態(tài)劃分結(jié)果,使用源域數(shù)據(jù)和輔助數(shù)據(jù)作為訓(xùn)練集,利用所提方法建立多尺度注意力深度領(lǐng)域適配早期故障檢測模型,最終對目標(biāo)軸承數(shù)據(jù)進(jìn)行分類。需要注意的是,目標(biāo)軸承數(shù)據(jù)同樣需要采用3.1 節(jié)方法預(yù)處理為三通道數(shù)據(jù)形式。
本文以工況2 下2 號和4 號軸承為目標(biāo)數(shù)據(jù),分別采用HHT 邊際譜和本文方法所提的128 維特征,并使用t-分布式隨機(jī)鄰域嵌入(t-distributed Stochastic Neighbor Embedding,t-SNE)法[28]進(jìn)行特征可視化,如圖7 所示??擅黠@看出,圖7(a)、(c)中正常樣本與異常樣本雖然有較明顯的區(qū)分度,但在圖7(a)的異常樣本內(nèi)圈邊緣處混雜著不少正常樣本,圖7(c)中正常樣本外圈處同樣混雜著不少異常樣本,這也是導(dǎo)致檢測模型出現(xiàn)誤報(bào)警的原因。而在圖7(b)、(d)中,本文方法所提的特征可視化效果較好,正常樣本與異常樣本區(qū)分度明顯,且誤報(bào)警數(shù)量較少。
圖7 工況2下的2號和4號軸承特征分布Fig.7 Feature distribution diagrams of No.2 and No.4 bearings under operating condition 2
為驗(yàn)證所提方法的可解釋性,本文設(shè)置一組基礎(chǔ)對照實(shí)驗(yàn),即通過在原始?xì)埐钭⒁饬W(wǎng)絡(luò)添加MMD 正則化約束項(xiàng)。訓(xùn)練過程loss值的下降過程如圖8所示。
圖8 loss下降過程Fig.8 loss decline process
分析圖8可知,圖8(a)中的對比方法在迭代至800輪左右時(shí),loss值不再下降,模型達(dá)到收斂狀態(tài);而圖8(b)中本文方法在迭代至400 輪左右時(shí),loss已經(jīng)基本上趨于平穩(wěn),即模型達(dá)到收斂狀態(tài)。究其原因,本文方法的反卷積結(jié)構(gòu)能夠獲取更豐富的注意力信息,且利用不同尺度大小的卷積提取深度特征表征能力更強(qiáng),融合后的注意力特征對早期故障更敏感,因此模型會(huì)更快地達(dá)到收斂狀態(tài)。
對于早期故障檢測問題,由于其本質(zhì)是流數(shù)據(jù)的異常檢測,需要從貫序到達(dá)的監(jiān)控?cái)?shù)據(jù)中檢測出異常狀態(tài),現(xiàn)有研究[29]多采用檢測位置和誤報(bào)警數(shù)來評價(jià)模型的可靠性。為了對檢測模型的可靠性和準(zhǔn)確性進(jìn)行評價(jià),本文采用退化過程的RMS 曲線進(jìn)行驗(yàn)證。由于RMS 曲線是退化過程的一種廣泛采用的特征表示,因此具有較好的參考價(jià)值。
以工況2 下2 號和4 號軸承為目標(biāo)軸承,檢測結(jié)果如圖9所示。本文設(shè)定當(dāng)正常樣本消失、連續(xù)出現(xiàn)異常樣本時(shí),記為報(bào)警時(shí)間點(diǎn)。為對比起見,圖9 中同樣提供了目標(biāo)軸承的RMS曲線和基于SVDD的檢測結(jié)果。
由圖9 和表2 可知,SVDD 的檢測結(jié)果在軸承正常運(yùn)行階段出現(xiàn)了較多的誤報(bào)警,同時(shí),當(dāng)RMS 值出現(xiàn)較為明顯的波動(dòng)時(shí),誤報(bào)警數(shù)也隨之變多。這是因?yàn)闄z測模型不具備一定的抗干擾能力,無法識(shí)別偽故障樣本,導(dǎo)致檢測結(jié)果不夠魯棒。而本文所提方法的檢測結(jié)果在正常樣本與異常樣本之間區(qū)分更為明顯,能夠在不延遲報(bào)警時(shí)間點(diǎn)的情況下,有效地降低誤報(bào)警數(shù)。究其原因,注意力模塊通過自適應(yīng)性學(xué)習(xí)來放大或者縮小早期故障樣本和偽故障樣本的異常程度,使得早期故障樣本與偽故障樣本的區(qū)分度更高;同時(shí)通過引入MMD領(lǐng)域適配約束項(xiàng),縮小源域樣本與目標(biāo)域樣本的分布差異,使得模型能夠在從源域到目標(biāo)域進(jìn)行數(shù)據(jù)遷移的同時(shí),有效區(qū)分正常狀態(tài)樣本與早期故障樣本,降低誤報(bào)警率。
為進(jìn)一步驗(yàn)證本文方法的有效性,表3 給出了本文方法與8 種代表性的早期故障檢測方法的實(shí)驗(yàn)結(jié)果。這8 種方法中,LOF(Local Outlier Factor)[30]和iForest[31]是兩種典型的異常檢測算法,其中LOF閾值為8,iForest樹的數(shù)目為100。SRD(Sparse Residual Distance)[32]是一種代表性的基于統(tǒng)計(jì)指標(biāo)分析的故障檢測方法。BEMD-AMMA(Bandwidth EMD with Adaptive Multiscale Morphology Analysis)[33]被認(rèn)為是最新的一種基于信號分析的早期故障檢測方法。DAFD(Domain Adaptation for Fault Diagnosis)[12]是一種代表性的基于自編碼器實(shí)現(xiàn)深度領(lǐng)域適配的遷移診斷方法,其中自編碼器的網(wǎng)絡(luò)結(jié)構(gòu)設(shè)為[500,100,50],即提取的深度特征維度為50。SDFM(Self-adaptive Deep Feature Matching)[6]是一種基于深度學(xué)習(xí)的異常序列匹配的早期故障在線檢測方法,所采用的自動(dòng)編碼器結(jié)構(gòu)是[800,512,50],即提取的深度特征維度為50,滑動(dòng)窗口大小為100。遷移成分分析(Transfer Component Analysis,TCA)[34]和測地線流式核(Geodesic Flow Kernel,GFK)方法[35]是兩種典型的遷移學(xué)習(xí)算法,這兩種算法的輸入為HHT 邊際譜,檢測模型為SVDD。本文認(rèn)為這八種方法可涵蓋不同角度的對比。
由圖9(b)中的RMS 曲線可知,4 號軸承的早期故障階段持續(xù)時(shí)間極短,因此表3中對軸承4五種對比方法與本文方法的報(bào)警時(shí)間點(diǎn)均沒有太大差異。定義誤報(bào)警率計(jì)算公式為:誤報(bào)警率=誤報(bào)警數(shù)/總樣本數(shù)。通過對軸承2 的檢測結(jié)果計(jì)算可知,以上八種對比方法的平均誤報(bào)警率為2.01%,本文方法誤報(bào)警率為0.75%,誤報(bào)警率相對降低了62.7%。軸承4對比方法的平均誤報(bào)警率為1.73%,本文方法的誤報(bào)警率為0.67%,誤報(bào)警率相對降低了61.3%。
表3 PHM數(shù)據(jù)集工況二對比檢測結(jié)果Tab.3 Comparative test results under operating condition 2 of PHM dataset
分析表3 的實(shí)驗(yàn)結(jié)果可知,與其他方法相比,本文方法能夠在更少誤報(bào)警的情況下,更早判斷出軸承的異常狀態(tài)。因此,本文方法可以被認(rèn)為對早期故障更為敏感,以及有著更好的魯棒性,更適用于早期故障檢測。
圖9 目標(biāo)軸承數(shù)據(jù)的檢測結(jié)果Fig.9 Detection results of target bearing data
本文針對早期故障檢測的需求特點(diǎn),提出了一種基于多尺度注意力機(jī)制的深度領(lǐng)域適配模型。該模型將多尺度注意力機(jī)制和遷移學(xué)習(xí)結(jié)合,既能提取對早期故障更為敏感的注意力特征,同時(shí)也可有效利用不同工況監(jiān)測數(shù)據(jù)蘊(yùn)含的故障機(jī)理信息。從實(shí)驗(yàn)結(jié)果來看,本文所提取的多尺度注意力特征,對早期故障與偽故障樣本的區(qū)分度更明顯,更具備表示性,有效增強(qiáng)了檢測模型的魯棒性,并顯著降低誤報(bào)警率。本文所使用的注意力機(jī)制是從計(jì)算機(jī)視覺領(lǐng)域移植而來的,盡管其在PHM 領(lǐng)域內(nèi)雖然能夠有效應(yīng)用,但可解釋較差。接下來將進(jìn)一步探索適合一維信號使用的注意力機(jī)制,使其能夠更有效地應(yīng)用于早期故障檢測。