趙志宏,孫美玲,竇廣鑒
(1.石家莊鐵道大學(xué) 信息科學(xué)與技術(shù)學(xué)院,河北 石家莊 050043;2.石家莊鐵道大學(xué) 省部共建交通工程結(jié)構(gòu)力學(xué)行為與系統(tǒng)安全國家重點實驗室,河北 石家莊 050043)
在現(xiàn)代工業(yè)過程中,機械設(shè)備日益向自動化和大型化方向發(fā)展,機械設(shè)備的故障診斷越來越受到重視。
滾動軸承是旋轉(zhuǎn)機械的核心部件,其不同載荷下、不同位置、不同直徑的故障,可能會對機械設(shè)備的性能、穩(wěn)定性和壽命產(chǎn)生巨大的影響[1]。因此,對軸承進行故障診斷具有重要的意義。
近些年,軸承故障診斷逐漸成為一大研究熱點,有大量學(xué)者針對軸承故障診斷展開了研究,并且成果頗豐。基于機器學(xué)習(xí)的故障診斷方法主要包括支持向量機(support vector machine, SVM)、反向傳播(back propagation,BP)神經(jīng)網(wǎng)絡(luò)、人工神經(jīng)網(wǎng)絡(luò)(artificial neural network, ANN)以及概率神經(jīng)網(wǎng)絡(luò)等。雖然這些方法取得了不錯的結(jié)果,但是特征提取過程通常依賴于人工經(jīng)驗和專家知識,而且淺層神經(jīng)網(wǎng)絡(luò)無法有效提取出一些微小故障特征。
深度學(xué)習(xí)(deep learning, DL)[2]可以采用逐層貪婪學(xué)習(xí)機制,從原始數(shù)據(jù)中自動提取深層次特征[3],很好地解決了上述問題。丁雪等人[4]將多尺度卷積神經(jīng)網(wǎng)絡(luò)和注意力機制相結(jié)合,更加充分地提取了特征,實驗表明該模型具有較強的魯棒性。楊慧等人[5]使用雙向門控循環(huán)神經(jīng)網(wǎng)絡(luò)(bidirectional gated recurrent neural network,BiGRU)和自注意力機制,對滾動軸承進行了故障診斷。趙志宏等人[6]設(shè)計了雙向長短詞記憶模型(bi-directional long short-term memory, BiLSTM),該網(wǎng)絡(luò)可自動提取軸承的原始振動信號特征,從而進行軸承故障診斷。趙凱輝等人[7]設(shè)計了Inception模型,并提取了多尺度特征信息,設(shè)計了BLSTM網(wǎng)絡(luò),賦予特征信息時間依賴性,得到了較高的故障診斷精度。ZHANG Jiang-quan等人[8]將軸承的原始振動數(shù)據(jù)轉(zhuǎn)換為二維灰度圖像,將其作為卷積神經(jīng)網(wǎng)絡(luò)的輸入,從而成功地進行了軸承故障診斷。
這些傳統(tǒng)深度學(xué)習(xí)方法要求訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)的分布是相同的,并且要有足夠的帶標簽訓(xùn)練數(shù)據(jù)對模型進行訓(xùn)練;而在實際生產(chǎn)中,數(shù)據(jù)的采集通常是在不同轉(zhuǎn)速和不同負載下進行的,因此,很難獲得分布相同的數(shù)據(jù)。
遷移學(xué)習(xí)(TL)旨在利用源域的先驗知識以增強模型在目標域的性能[9],其可以很好地解決以上問題,在自然語言處理、計算機視覺等許多研究領(lǐng)域都有很好的應(yīng)用效果[10]。域適應(yīng)方法是遷移學(xué)習(xí)中一種常見的方法,其主要思想是首先利用深度神經(jīng)網(wǎng)絡(luò)提取故障特征,然后加入自適應(yīng)層來減小源域和目標域之間的特征分布距離[11]。因此,精確測量源域和目標域的特征分布距離并使分布距離最小變得極為重要。
沈長青等人[12]利用ResNet50網(wǎng)絡(luò)和多尺度特征提取器,提取了源域和目標域特征,通過計算它們的最大均值差異來學(xué)習(xí)域不變特征,從而得到泛化性能較好的故障診斷模型。雷亞國等人[13]使用堆疊多級殘差單元的殘差網(wǎng)絡(luò)提取特征,將最大最小距離(max min distance,MMD)和偽標記學(xué)習(xí)相結(jié)合來減小域間分布差異,得到了較好的故障診斷效果。SHAO Jia-jie等人[14]使用多內(nèi)核MMD (multiple-kernel MMD, MK-MMD)和域混淆函數(shù)作為損失函數(shù),進行了遷移學(xué)習(xí)軸承故障診斷。LIU Yong-zhi等人[15]使用Wasserstein距離作為度量方法來適應(yīng)源域和目標域,最終進行了變工況下的軸承故障診斷。SUN Bao-chen等人[16]提出了一種簡單且高效的無監(jiān)督域適應(yīng)方法-相關(guān)對齊(CORrelation alignment, CORAL),該方法使用線性變換對齊目標域和源域特征的協(xié)方差,不需要任何目標標簽進行遷移學(xué)習(xí);但是該方法依賴線性變換,不是端到端的訓(xùn)練。因此,SUN Bao-chen等人[17]對CORAL算法進行了拓展,使用非線性變換,提出了Deep CORAL,并將其應(yīng)用到深度神經(jīng)網(wǎng)絡(luò)中。
筆者針對不同工況下滾動軸承振動信號數(shù)據(jù)分布差異大、故障特征提取不全面、有標簽數(shù)據(jù)獲取困難等問題,對特征提取網(wǎng)絡(luò)和域適應(yīng)度量方法進行改進,提出一種基于多尺度殘差網(wǎng)絡(luò)的域適應(yīng)軸承故障識別方法。
筆者在殘差網(wǎng)絡(luò)中加入多尺度殘差塊,并采用空洞卷積來增大感受野,從而提取出多個不同尺度的特征信息,并避免梯度消失和梯度爆炸問題;此外,對CORAL進行改進,提出一種新的域適應(yīng)方法-對數(shù)相關(guān)對齊(logCORAL),使用logCORAL進行源域和目標域之間的特征分布對齊,提取域不變特征。
域適應(yīng)(DA)是遷移學(xué)習(xí)中一種常用方法,用于源域和目標域任務(wù)相同但是數(shù)據(jù)分布不同的情況。其基本思想是在保持源域任務(wù)精度的前提下,縮小表示空間上源域與目標域的特征分布距離。
域適應(yīng)示意圖如圖1所示。
深度神經(jīng)網(wǎng)絡(luò)模型通常會加入大量的卷積層和池化層,使模型擁有大量的參數(shù),隨著網(wǎng)絡(luò)層的增加會出現(xiàn)網(wǎng)絡(luò)退化、梯度爆炸等問題。殘差網(wǎng)絡(luò)(residual neural network,ResNet)[18]采用跳躍連接的方法,可以避免這些問題。
淺層殘差網(wǎng)絡(luò)中的殘差塊結(jié)構(gòu)如圖2所示。
圖2 殘差塊結(jié)構(gòu)圖Fig.2 Residual block structure diagram
殘差塊由short cut、卷積層(Conv)、批歸一化層(BN)和ReLU激活函數(shù)組成。其中,x是殘差塊的輸入。設(shè)F(x)為卷積路徑的非線性函數(shù),則殘差塊的輸出可以用下式來表示:
y=F(x)+x
(1)
殘差表示為F(x)=y-x,殘差網(wǎng)絡(luò)的訓(xùn)練目標是使殘差F(x)的值盡可能為0,進而防止隨著網(wǎng)絡(luò)加深而產(chǎn)生精度下降的現(xiàn)象。
軸承的灰度圖像只包含亮度信息,可以有效避免模型學(xué)習(xí)到一些不必要的信息,從而提高模型的泛化能力。因此,筆者將軸承振動信號轉(zhuǎn)換為灰度圖像,將其作為故障診斷模型的輸入。
具體的轉(zhuǎn)換方法如下:
步驟1。將提取的軸承一維振動信號樣本轉(zhuǎn)化為L×L的二維矩陣A,公式如下:
A(e,f)=G(L×(e-1)+f)
(2)
式中:G()為二維矩陣轉(zhuǎn)換函數(shù);A(e,f)(e,f∈(0,L])為轉(zhuǎn)換的矩陣中第e行第f列元素的值。
步驟2。將二維矩陣A轉(zhuǎn)化為灰度圖像D。具體操作是將二維矩陣進行歸一化處理,即將其中的值壓縮到(0,1)區(qū)間內(nèi);再乘以255,轉(zhuǎn)化為二維灰度圖像的像素值,公式如下:
(3)
式中:D(e,f)(e,f∈(0,L])為軸承振動信號灰度圖像矩陣中第e行第f列的像素值;max(A)為矩陣A中元素的最大值;min(A)為矩陣A中元素的最小值。
CORAL損失函數(shù)計算方式如下:
(4)
CT和CS計算公式如下:
(5)
(6)
然而大量實驗表明,CORAL在軸承故障診斷中的表現(xiàn)不是很好,不能很好地對齊源域和目標域的特征。所以筆者提出了一種新的域適應(yīng)方法-對數(shù)相關(guān)對齊(logCORAL)。
在計算方面,取對數(shù)之后求導(dǎo)更加容易,因此反向傳播速度更快,訓(xùn)練速度也會提高。
logCORAL的損失計算公式如下:
(7)
筆者設(shè)計的故障診斷模型主要包括數(shù)據(jù)預(yù)處理模塊、特征提取模塊和故障識別模塊。源域和目標域之間是參數(shù)共享的。
模型結(jié)構(gòu)圖如圖3所示。
圖3 故障診斷模型結(jié)構(gòu)圖Fig.3 Structure diagram of fault diagnosis model
故障診斷模型包括:
1)數(shù)據(jù)預(yù)處理模塊。在數(shù)據(jù)預(yù)處理模塊中,將軸承故障原始信號轉(zhuǎn)換為灰度圖像,并將灰度圖像作為模型的輸入;
2)特征提取模塊。特征提取網(wǎng)絡(luò)由卷積層、最大池化層、多尺度殘差塊以及全連接層組成。
特征提取網(wǎng)絡(luò)結(jié)構(gòu)圖如圖4所示。
圖4 特征提取網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.4 Feature extraction network structure diagram
由于滾動軸承信號具有非線性且不平穩(wěn)的特點,傳統(tǒng)的殘差網(wǎng)絡(luò)內(nèi)部采用單一尺寸的卷積核,對軸承特征的提取不夠精準。
為提取更加豐富的特征信息,且有效避免深層網(wǎng)絡(luò)結(jié)構(gòu)的梯度消失問題,筆者對殘差網(wǎng)絡(luò)進行了改進,設(shè)計一種多尺度殘差塊,使用空洞率為2的空洞卷積來增大感受野。
多尺度殘差網(wǎng)絡(luò)(MsRN)結(jié)構(gòu)圖如圖5所示。
圖5 MsRN結(jié)構(gòu)圖Fig.5 Structure diagram of MsRN
MsRN內(nèi)部有4個不同大小的卷積核(2×2,3×3,4×4,4×4),可以從不同尺度的卷積核中學(xué)習(xí)軸承的局部特征;并將每個卷積核的輸出通過concat融合在一起,然后傳到殘差結(jié)構(gòu)中的1×1卷積層;
3)故障識別模塊。筆者使用交叉熵損失作為源域分類損失,利用logCORAL作為域間損失來最小化域之間的特征分布差異;將源域的交叉熵損失和域間損失共同作為訓(xùn)練的損失函數(shù)。
因此,損失函數(shù)J的表示方法如下:
J=Jc+αJd
(8)
式中:J為總的損失函數(shù);Jc為源域分類器上的交叉熵損失;α為平衡超參數(shù);Jd為logCORAL損失。
筆者使用隨機梯度下降法(stochastic gradient descent,SGD)作為優(yōu)化器,通過反向傳播更新參數(shù),當(dāng)達到一定的迭代次數(shù)時,停止訓(xùn)練,得到此時的訓(xùn)練模型。
基于多尺度殘差網(wǎng)絡(luò)域適應(yīng)的軸承故障診斷主要包括以下3個步驟:
步驟1。采集不同工況下的軸承原始振動信號數(shù)據(jù),將軸承振動信號按照長度為1 024、步長為8進行抽樣,并將其轉(zhuǎn)化為尺度為32×32的二維灰度圖像,作為源域數(shù)據(jù)和目標域數(shù)據(jù)(故障類型有10類,每類有700個樣本,一共有7 000個樣本);
步驟2。將預(yù)處理后得到的源域和目標域數(shù)據(jù)同時輸入到特征提取網(wǎng)絡(luò)中,進行故障特征提取,將源域特征輸入到分類器中,使得模型在源域數(shù)據(jù)上有較好的精度,由分類器得到源域數(shù)據(jù)的交叉熵損失(cross entropy)。利用域適應(yīng)方法對提取出的兩個域的特征進行特征分布對齊,這里的域適應(yīng)方法使用的是logCORAL。訓(xùn)練中總的損失函數(shù)J的表示方法如式(8)所示;
步驟3。將目標域測試樣本輸入到已經(jīng)訓(xùn)練好的故障診斷模型中,得到模型最終的分類精度。
故障診斷流程圖如圖6所示。
圖6 故障診斷流程圖Fig.6 Fault diagnosis flowchart
筆者選用CWRU軸承公開數(shù)據(jù)集進行變工況下的遷移實驗,并與其他方法進行對比實驗。
CWRU軸承數(shù)據(jù)集的試驗臺如圖7所示。
圖7 美國凱斯西儲大學(xué)軸承試驗臺Fig.7 Bearing test bench of CWRU
軸承有4種狀態(tài),分別為內(nèi)圈故障(IRF)、外圈故障(ORF)、滾子故障(RF)和正常狀態(tài)(N)。采樣頻率為12 kHz。每種故障類型存在0.533 4 mm,0.355 6 mm和0.177 8 mm這3種不同的損傷直徑,共有10種軸承狀態(tài)。故障數(shù)據(jù)采集自4種不同的負載條件,分別為0 hp、1 hp、2 hp和3 hp。
軸承實驗運行的負載、轉(zhuǎn)速與工況信息如表1所示。
表1 CWRU數(shù)據(jù)集工況信息
筆者將不同工況視為不同的遷移任務(wù),共進行12個遷移任務(wù)的實驗:0 hp→1 hp,0 hp→2 hp,0 hp→3 hp,1 hp→0 hp,1 hp→2 hp,1 hp→3 hp,2 hp→0 hp,2 hp→1 hp,2 hp→3 hp,3 hp→0 hp,3 hp→1 hp,3 hp→2 hp。例如0→1表示源域為0 hp工況下向目標域為1 hp下進行遷移。
為了更好地突出軸承的特征,減少模型的復(fù)雜度,提高模型的訓(xùn)練速度和準確度,并且提高模型的泛化能力,筆者對軸承數(shù)據(jù)集進行了預(yù)處理,將其轉(zhuǎn)化為二維灰度圖像。
不同工況軸承振動信號的二維灰度圖如圖8所示。
從圖8可以看出:灰度圖可以將軸承的10種狀態(tài)很好地表現(xiàn)出來。
圖8 CWRU軸承數(shù)據(jù)的二維灰度圖Fig.8 2D grayscale image of CWRU bearing data
滾動軸承在不同的負載條件下工作,會造成振動信號分布不一致。為了驗證基于多尺度殘差網(wǎng)絡(luò)域適應(yīng)的軸承故障診斷方法的診斷準確性以及在不同工況下的遷移學(xué)習(xí)能力,筆者對其進行不同工況條件下的故障診斷實驗。
該實驗使用的軸承振動數(shù)據(jù)是在設(shè)備驅(qū)動端采集到的。數(shù)據(jù)集的詳細信息如表2所示。
表2 不同工況下的故障類型
為了驗證基于多尺度殘差網(wǎng)絡(luò)域適應(yīng)的軸承故障診斷模型在變工況軸承故障診斷中的性能和優(yōu)勢,筆者將該模型與4種不同的方法進行對比,分別為聯(lián)合分布適應(yīng)模型(joint distribution adaptation, JDA)[19]、CORAL、MMD[20]221以及未使用遷移學(xué)習(xí)的CNN[20]221。
JDA為傳統(tǒng)遷移學(xué)習(xí)方法,通過將源域和目標域數(shù)據(jù)映射到一個共同的高維再生核希爾伯特空間,以此來減小兩個域之間的距離,以此來進行特征對齊。CORAL使用的特征提取網(wǎng)絡(luò)為MsRN網(wǎng)絡(luò),域適應(yīng)度量方法使用的是交叉熵損失和CORAL。MMD方法和未使用遷移的CNN方法利用的是文獻[20]的實驗結(jié)果。其中,特征提取網(wǎng)絡(luò)均使用CNN,CNN由5個卷積層、1個池化層、2個全連接層和1個輸出層組成;此外,前者使用MMD損失來進行領(lǐng)域分布對齊,后者使用交叉熵損失作為分類損失。
不同模型12個遷移任務(wù)的故障診斷準確率如表3所示。
表3 不同方法的變工況故障診斷結(jié)果(%)
從表3可以看出:JDA通過將軸承的原始振動信號映射到高維空間中,以最小化兩個域的特征分布距離,遷移效果最差,故障診斷準確率最低,僅為74.75%。CORAL、MMD、CNN和logCORAL方法使用深度神經(jīng)網(wǎng)絡(luò)從軸承故障樣本中學(xué)習(xí)特征,可以有效避免有用信息數(shù)據(jù)的丟失,所以利用深度學(xué)習(xí)方法提取出的特征要優(yōu)于傳統(tǒng)方法提取出的特征。
另外,與遷移學(xué)習(xí)方法CORAL相比,logCORAL方法在12個遷移任務(wù)中都得到了更好的診斷效果,準確率達到了96.53%,而CORAL方法僅有82.85%的準確率。說明該方法可以比CORAL學(xué)習(xí)到具有更高相關(guān)性的故障特征,最大程度減小了目標域和源域的特征分布差異。
以上結(jié)果表明,該模型可以有效地提取出更多有用的特征,并且使得源域和目標域之間的分布差異最小,證明了該方法的遷移有效性以及較其他方法的優(yōu)越性。
為了驗證整個模型的有效性以及MsRN和logCORAL各自的必要性,筆者選取0 hp遷移至1 hp、2 hp和1 hp遷移至0 hp、2 hp這6種工況,進行變工況下的消融實驗。消融實驗中,筆者將logCORAL-MsRN方法分別與CORAL-MsRN、CORAL-ResNet50、logCORAL-ResNet50等進行對比。
消融實驗故障診斷結(jié)果如表4所示。
表4 CWRU試驗臺的消融實驗故障診斷結(jié)果(%)
從表4可以看出:CORAL-ResNet50的準確率最低,為81.65%,說明筆者設(shè)計的模型整體在軸承故障診斷中起了正向作用;logCORAL-ResNet50的準確率為82.25%,低于logCORAL-MsRN的準確率98.58%,說明筆者采用的多尺度殘差塊可以提取出多個不同尺度的故障特征,并且引入空洞卷積之后增大了感受野,使得提取出的特征更加全面和豐富,且具有更高的相關(guān)性,有助于特征更好地對齊;CORAL-MsRN的準確率為88.63%,低于logCORAL-MsRN,說明改進后的域適應(yīng)度量方法logCORAL比CORAL的效果要好,可以更有效地減小目標域和源域之間的特征分布差異。
總之,通過消融實驗驗證了logCORAL-MsRN方法整體的有效性,以及特征提取網(wǎng)絡(luò)MsRN和域適應(yīng)度量方法logCORAL各自的必要性。
為了更直觀地驗證logCORAL-MsRN方法的優(yōu)越性,筆者隨機選取1 hp→2 hp遷移任務(wù),利用t-SNE算法對不同模型進行特征可視化。
可視化結(jié)果如圖9所示。
圖9中包含CWRU源域和目標域的10種故障類型,角標Source表示源域數(shù)據(jù),Target表示目標域數(shù)據(jù)。
從圖9(e)、圖9(f)可以看出:使用多尺度殘差網(wǎng)絡(luò)作為特征提取網(wǎng)絡(luò),CORAL作為域適應(yīng)度量方法,無法將特征準確分類;并且源域和目標域樣本之間距離較遠,無法很好地進行特征對齊,因此準確度較低;
但從圖9(g)、圖9(h)可以看出:logCORAL-MsRN方法使用多尺度殘差網(wǎng)絡(luò)作為特征提取網(wǎng)絡(luò),logCORAL作為域適應(yīng)度量方法,經(jīng)過深度遷移學(xué)習(xí)可以將相同類別的樣本聚合在一起,將不同類別的樣本分散開來;同時,源域和目標域樣本之間距離很近但沒有重合,證明該方法的分類和遷移效果較好,因此準確度較高。
圖9(a)、圖9(b)使用ResNet50作為特征提取網(wǎng)絡(luò),CORAL作為域適應(yīng)度量方法。圖9(c)、圖9(d)使用ResNet50作為特征提取網(wǎng)絡(luò),logCORAL作為域適應(yīng)度量方法。經(jīng)過遷移訓(xùn)練之后圖9(c)、圖9(d)相同樣本之間聚合較為緊密,分類效果和特征對齊效果都比圖9(a)、圖9(b)好[21]。
由于圖9(c)、圖9(d)和圖9(g)、圖9(h)的故障診斷效果明顯優(yōu)于圖9(a)、圖9(b)和圖9(e)、圖9(f),所以證明logCORAL域適應(yīng)度量方法是有效的,而且比CORAL更適合用于域適應(yīng)軸承故障診斷。又因為圖9(e)、圖9(f)和圖9(g)、圖9(h)的故障診斷效果比圖9(a)、圖9(b)和圖9(c)、圖9(d)要好,表明多尺度殘差網(wǎng)絡(luò)是有效的,具有強大的特征提取能力,可以充分提取出源域和目標域的域不變特征。
為了提高軸承故障診斷的分類精度,筆者提出了一種基于多尺度殘差網(wǎng)絡(luò)的對數(shù)相關(guān)對齊(logCORAL-MsRN)的域適應(yīng)軸承故障識別方法(模型),并使用CWRU軸承數(shù)據(jù)集對該方法的有效性進行了實驗驗證。
研究結(jié)果表明:
1)多尺度殘差網(wǎng)絡(luò)MsRN可以提取出豐富的軸承故障特征,解決了特征提取不充分的問題,且有效避免了深層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中的梯度消失問題;
2)對CORAL算法進行改進,提出了一種域適應(yīng)方法logCORAL。與CORAL相比,logCORAL可以有效減小域間差異,更好地對齊源域和目標域之間的特征分布;
3)在不同工況條件下,與JDA、CORAL、MMD以及未使用遷移的CNN相比,logCORAL模型遷移故障診斷效果更好,平均準確率達到了96.53%。而JDA、CORAL、MMD和CNN的準確率分別為74.75%、82.85%、80.21%、80.50%。
在后續(xù)的工作中,筆者將在該研究內(nèi)容的基礎(chǔ)上對跨設(shè)備的軸承故障診斷展開研究,并通過不斷優(yōu)化模型得到更高的故障診斷準確率。