向 玲, 張興宇, 胡愛軍, 邴漢昆, 楊 鑫
(1.華北電力大學 機械工程系,河北保定 071003; 2.華電電力科學研究院有限公司,杭州 310030)
轉子是旋轉機械的核心組成部分,在旋轉機械中起著重要作用。在實際運行中,轉子常因設計、制造、安裝和運行條件等因素,會產(chǎn)生各種故障,影響機械設備正常工作[1]。隨著科學技術的發(fā)展,對機械設備故障診斷的方法越來越先進[2]。充分挖掘轉子設備中的有效信息,實現(xiàn)機械設備故障的智能診斷已成為研究熱點。
近年來,借鑒深度學習在多個領域成功應用的經(jīng)驗,將深度學習應用到故障診斷領域,取得了不錯的效果。Janssens等[3]使用卷積神經(jīng)網(wǎng)絡(CNN)對齒輪箱中的軸承和齒輪故障進行分類,準確率提高了約6%。Lu等[4]使用堆疊降噪自編碼(SDA)在噪聲環(huán)境下準確地區(qū)分出旋轉機械部件的狀態(tài)。Yuan等[5]使用循環(huán)神經(jīng)網(wǎng)絡(RNN)預測航空發(fā)電機的壽命。Zhu等[6]結合對稱點模式(SDP)圖像和CNN診斷轉子故障,準確率可達96.5%。王新偉等[7]提出了基于XGBoost算法的汽輪機轉子故障診斷模型,能夠識別汽輪機的9種故障。為提高齒輪箱狀態(tài)監(jiān)測效率和準確性,劉旭斌等[8]提出了基于堆疊去噪自編碼-長短期記憶網(wǎng)絡(SDAE-LSTM)的故障監(jiān)測模型,該模型能夠及時發(fā)現(xiàn)齒輪箱異常。以上方法將深度學習算法引入故障診斷領域,提高了旋轉機械故障診斷的準確率,但在實際運行中,很難收集到足夠的數(shù)據(jù),且將模型應用于新的診斷任務時,需要對整個模型進行再訓練。
遷移學習是一種跨領域、跨任務的學習方法,能夠利用已有知識解決不同問題[9],已被引入智能故障診斷領域。Shao等[10]基于遷移學習,利用預訓練好的模型提取低層次特征,再使用時頻圖微調(diào)高層次網(wǎng)絡,在小樣本數(shù)據(jù)集上提升了齒輪和軸承的故障診斷準確率。Chen等[11]提出暫態(tài)混沌神經(jīng)網(wǎng)絡(TCNN)遷移學習框架,在不同工況數(shù)據(jù)集下,使目標域上分類的平均準確率達到99.03%。He等[12]提出一種經(jīng)過優(yōu)化的深度傳遞自編碼方法,利用源域足夠的輔助數(shù)據(jù)對優(yōu)化的深度自編碼器進行預訓練,并將參數(shù)傳遞至目標模型,在不同工況間的遷移準確率達到93%。
針對轉子系統(tǒng)實際故障樣本少的情況,筆者提出了基于殘差網(wǎng)絡(ResNet)和長短期記憶網(wǎng)絡(LSTM)的并行網(wǎng)絡(RLPN)的轉子故障遷移診斷方法,利用ResNet-LSTM并行網(wǎng)絡能夠同時提取時間和空間特征的優(yōu)勢,以及遷移學習對樣本需求量較少的優(yōu)勢,解決了小樣本下轉子故障診斷問題。使用ResNet模塊提取信號的空間特征,采用LSTM模塊提取信號的時間特征,再將時間和空間特征進行特征融合,增強模型特征的表達能力。然后在源域中訓練模型,再采用參數(shù)遷移的方法,在目標域中完成轉子故障的分類,實現(xiàn)小樣本下的轉子多故障識別。
遷移學習是從源域中學習知識并應用到目標域中,使目標域能夠更好地完成故障診斷任務[13]。領域和任務是遷移學習的2個基本概念。領域D={χ,P(X)},其中X={x1,…,xn}?χ,xi表示源域的第i個樣本,χ代表源域的樣本空間,P(X)表示χ的邊緣概率分布;任務T={γ,f(·)},定義Y={y1,…,y2}?γ,yi表示目標域的第i個樣本,γ代表目標域的樣本空間,目標是學習預測函數(shù)f(·):X→Y。
給定源域DS和源任務TS、目標域DT和任務TT,遷移學習是學習DS和TS的知識,在目標域DT中提高任務TT中的預測函數(shù)f(·)。
針對轉子故障遷移診斷問題,將在2種不同工況下采集的數(shù)據(jù)設為源域和目標域,將源域中訓練的模型參數(shù)向目標域遷移,借助源域和源任務知識,學習源域和標簽之間的函數(shù)映射關系,再利用目標域中的少量有標簽的樣本微調(diào)優(yōu)化模型,實現(xiàn)對目標域的故障識別。
當采用深度學習進行網(wǎng)絡訓練時,隨著網(wǎng)絡層數(shù)的增加,網(wǎng)絡在訓練過程中會出現(xiàn)梯度消失和退化問題。He等[14]在2016年提出了ResNet,該網(wǎng)絡具有極強的特征提取能力,解決了網(wǎng)絡準確率隨著網(wǎng)絡層數(shù)增加而產(chǎn)生飽和甚至下降的問題,ResNet模型結構如圖1所示。
圖1 ResNet模型結構
殘差單元的表達式為:
yl=f(xl,Wl)+h(xl)
(1)
xl+1=g(yl)
(2)
式中:xl為上一個模塊的輸入;Wl為卷積層的權重矩陣;f(xl,Wl)為xl經(jīng)過2次卷積操作后的輸出;h(xl)為恒等映射函數(shù),目的是保證輸入xl與f(xl,Wl)尺寸相同;yl為未經(jīng)過ReLU激活函數(shù)前的殘差輸出;g(yl)為ReLU激活函數(shù);xl+1為yl經(jīng)過ReLU激活函數(shù)后的輸出。
基于上式,在h(xl)=xl時,由淺層l到深層L的學習特征表達式為:
(3)
利用鏈式求導法則可求得反向傳播過程的梯度:
(4)
式中:Lloss為交叉熵損失函數(shù)。
由式(4)可知,ResNet在誤差反向傳播中,可使得梯度大于0,避免梯度消失。ResNet模塊的主要思路是引入跳躍連接,在反向傳播過程中,可以通過跳躍連接將誤差有效地傳遞給上一層,避免普通卷積網(wǎng)絡隨著網(wǎng)絡層數(shù)的增加而產(chǎn)生梯度消失的現(xiàn)象。
在解決序列數(shù)據(jù)的依賴問題時采用循環(huán)神經(jīng)網(wǎng)絡(RNN)模型,該模型具有保持短期記憶的能力。神經(jīng)元不僅可以接受自身的信息,還可以接受其他神經(jīng)元的信息,在故障診斷領域表現(xiàn)出極強的生命力。但對于傳統(tǒng)的RNN,由于其內(nèi)部tanh層的特點,當序列數(shù)據(jù)較長時,初始的記憶信息會消失,存在梯度爆炸和消失問題,很難保持長時間的記憶。
LSTM模型是RNN模型的變體,其引入了門控制機制,以控制信息的累積速度,可有效解決長期記憶的問題[15]。LSTM模型結構如圖2所示。
圖2 LSTM模型結構
LSTM模型前向傳播過程為:
ft=σ(Wf·xt+Rf·ht-1+bf)
(5)
it=σ(Wi·xt+Ri·ht-1+bi)
(6)
(7)
(8)
ot=σ(Wo·xt+Ro·ht-1+bo)
(9)
ht=ot⊙tanh(Ct)
(10)
LSTM用3個門動態(tài)控制內(nèi)部狀態(tài),以決定應該遺忘多少歷史信息,以便更好地提取序列信號中的時間特征。
所提RLPN模型能夠?qū)σ痪S時序信號數(shù)據(jù)進行時間特征和空間特征的提取,更深層次地挖掘數(shù)據(jù)中的有效信息。模型由輸入層、卷積層、池化層、LSTM模塊、ResNet模塊、全局池化層、特征融合層及分類輸出層組成。模型結構及其內(nèi)部傳輸方式如圖3所示,模型各個單元的參數(shù)見表1。
圖3 RLPN結構圖
表1 模型參數(shù)表
RLPN故障遷移診斷模型的整體流程圖如圖4所示,通過遷移學習方法對故障數(shù)據(jù)分類,得到最終的識別結果。
由圖4可知,RLPN遷移診斷的具體流程如下:
(1) 獲取不同工況下的轉子振動數(shù)據(jù),將其劃分為有標簽的源域和帶有少量標簽的目標域,并將數(shù)據(jù)標準化,每1 024個點劃分為1個小樣本。
(2) 構建RLPN網(wǎng)絡模型,將源域數(shù)據(jù)輸入網(wǎng)絡模型,采用交叉熵損失函數(shù)和反向傳播算法對網(wǎng)絡參數(shù)進行更新訓練。
圖4 RLPN遷移診斷的流程
(3) 訓練完畢后,將網(wǎng)絡結構和網(wǎng)絡參數(shù)遷移到目標域,將目標域帶有少量標簽的數(shù)據(jù)作為目標域訓練集輸入網(wǎng)絡模型,固定除分類層外的所有層,對分類層參數(shù)進行參數(shù)的重新訓練與微調(diào)。
(4) 模型重新訓練完畢后,將無標簽的源域數(shù)據(jù)作為目標域的測試集輸入模型完成故障分類,得到最終的識別結果。
選用圖5所示的Bently轉子實驗臺開展轉子故障實驗,分析RLPN轉子故障遷移診斷方法。該裝置由電機、轉軸、傳感器、滑動軸承、預加載架和轉速調(diào)節(jié)器組成,使用傳感器采集振動幅值數(shù)據(jù)。
分別采集1 500 r/min(工況A)、1 600 r/min(工況B)、1 700 r/min (工況C)和2 000 r/min (工況D)這4個工況下的正常、輕度碰摩故障、重度碰摩故障、1 mm裂紋故障和3 mm裂紋故障共20類狀態(tài)數(shù)據(jù)。深度學習模型擁有強大的學習能力,能夠自適應提取信號特征,采樣頻率只需滿足采樣定理即可,因此統(tǒng)一取采樣頻率為5.12 kHz。每類數(shù)據(jù)包含72個樣本,其中訓練集和測試集按照2∶8的比例劃分,分別是14個樣本和58個樣本,每個樣本包含1 024個數(shù)據(jù)點,可得源域和目標域各包含5×72×1 024=368 640個數(shù)據(jù)點。最后,將4個工況劃分為4個遷移任務,即T1、T2、T3和T4,見表2。
表2 轉子故障診斷任務描述表
轉子在B工況下的原始信號波形如圖6所示,由圖6可知,僅依據(jù)時域數(shù)據(jù)很難通過人工完成故障診斷。
(a) 正常
為了驗證RLPN轉子故障遷移診斷方法的創(chuàng)新性和有效性,在相同的數(shù)據(jù)集上使用ResNet-LSTM串行網(wǎng)絡模型(模型1)、LSTM模型(模型2)、CNN模型(模型3)、CNN-LSTM并行網(wǎng)絡模型(模型4)、本文所提模型(模型5),開展轉子故障遷移診斷對比實驗。
根據(jù)以往設計經(jīng)驗確定模型的超參數(shù),為保證對比實驗的一致性,訓練均采用Adam優(yōu)化器,迭代次數(shù)為1 500。針對較重要的超參數(shù),使用網(wǎng)格搜索法確定,學習率的搜索范圍為[0.1,0.01,0.001,0.000 1,0.000 01],批處理大小的搜索范圍為[16,32]。最終確定模型超參數(shù)見表3。
表3 轉子故障診斷超參數(shù)
采用遷移準確率作為上述5種模型的遷移診斷結果判斷指標,如表4和圖7所示。由表4和圖7可知,平均準確率最低的是LSTM模型,為87.41%,且在T3任務上的準確率僅為70.69%,說明LSTM在遷移診斷中的穩(wěn)定性較差,診斷效果一般。CNN-LSTM并行網(wǎng)絡模型的平均準確率達到96.98%,高于LSTM模型和CNN模型,論證了采用并行網(wǎng)絡擁有更好的特征提取能力。本文的RLPN模型是CNN-LSTM并行網(wǎng)絡模型,其中的CNN模塊被ResNet模塊替換,其平均準確率可達99.83%,高于其他4種模型,實現(xiàn)了對轉子5種不同狀態(tài)的精準分類。
表4 轉子實驗遷移診斷結果
圖7 轉子實驗遷移診斷結果
以T1任務為例,5種模型的準確率曲線如圖8所示。由圖8可知,經(jīng)過約600次迭代后,RLPN模型的準確率達到100%,且趨于穩(wěn)定,高于其他4個模型,表明該模型訓練效果良好。
為了更清晰地說明模型對測試集的識別效果,采用混淆矩陣展示模型在T1任務上的診斷結果,如圖9所示。由圖9可知,5種模型遷移診斷均能準確識別轉子1 mm的裂紋。其中,ResNet-LSTM串行網(wǎng)絡模型對正常和輕度碰摩2種健康狀況的識別無效;LSTM模型能夠有效識別2種裂紋狀態(tài),對正常、輕度碰摩和重度碰摩3種狀態(tài)的識別準確
(a) ResNet-LSTM串行網(wǎng)絡模型
率可達88%及以上;CNN模型能夠有效識別重度碰摩和1 mm的裂紋,而對正常狀態(tài)的識別準確率僅為79%;CNN-LSTM并行網(wǎng)絡模型難以識別3 mm的裂紋,其準確率僅為64%,對其他4種狀態(tài)的識別準確率可達93%以上;只有RLPN模型能精準識別5種狀態(tài),識別準確率高達100%。綜上所述,RLPN模型可以從原始振動信號中提取出充足的特征,從而實現(xiàn)精確的故障識別任務。
為直觀分析RLPN模型在轉子故障遷移診斷中的有效性,采用t分布隨機鄰域嵌入(t-SNE)算法對T1任務原始數(shù)據(jù)和模型提取的特征(分類層的輸出)降維至二維平面,并以散點圖進行可視化處理,如圖10所示。
由圖10(a)可知,原始數(shù)據(jù)類間距小,所有類型混雜在一起,無法準確分類。圖10(b)中正常和輕度碰摩2種健康狀況基本重合,同樣無法準確識別。圖10(c)、圖10(d)和圖10(e)中,有少量類別重合在一起,只能識別部分故障。圖10(f)中5種類別類間距大,所提方法能夠有效提取信號中的顯性可分辨特征,準確地識別故障,充分驗證了RLPN模型在遷移學習轉子故障診斷中的優(yōu)越性。
(1) 基于RLPN模型的遷移診斷方法能夠深入挖掘轉子數(shù)據(jù)樣本中的時空特征,獲取更充分的特征參數(shù),實現(xiàn)小樣本下的轉子故障遷移診斷,為轉子智能故障診斷提供了新的方法。
(2) 基于RLPN模型的遷移診斷方法平均準確率達到99.83%,優(yōu)于CNN-LSTM并行網(wǎng)絡模型,更高于只提取信號空間特征的CNN模型、只提取信號時間特征的LSTM模型,以及ResNet模塊與LSTM模塊級聯(lián)的ResNet-LSTM模型。