楊永燦,劉 韜,柳小勤,王廷軒,王振亞
(昆明理工大學(xué)機電工程學(xué)院,云南 昆明 650500)
行星齒輪箱作為整個傳動系統(tǒng)的關(guān)鍵部件,被廣泛應(yīng)用于機械裝備中[1]。因工程環(huán)境的復(fù)雜性與多變性,齒輪箱中的齒輪和軸承等核心部件極易發(fā)生損壞。齒輪箱的健康狀況與整臺設(shè)備的運行有著緊密聯(lián)系,因此,對行星齒輪箱的狀態(tài)監(jiān)測與性能評估是工程實際中的重中之重[2]。
近年來,深度學(xué)習(xí)作為機器學(xué)習(xí)的熱點方向,因其強大的特征提取能力,在機械設(shè)備故障診斷領(lǐng)域被廣泛應(yīng)用。雷亞國等[3]將機器學(xué)習(xí)模型改進(jìn)并應(yīng)用于設(shè)備的故障診斷中;Chen等[4]通過繪制振動信號特征統(tǒng)計圖來作為卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)的輸入,進(jìn)行了故障診斷;胡蔦慶等[5]通過經(jīng)驗?zāi)B(tài)分解的方法對行星齒輪箱振動信號預(yù)處理,輸入到CNN模型中進(jìn)行故障識別;孔子遷等[6]通過時頻融合并結(jié)合注意力機制,實現(xiàn)了行星齒輪箱故障診斷。近些年來,深度學(xué)習(xí)在故障診斷領(lǐng)域被廣泛應(yīng)用,但模型的輸入過分依賴先驗知識,沒有利用深度學(xué)習(xí)強大的特征提取能力。于是,一些學(xué)者對一維振動信號直接作為深度學(xué)習(xí)模型的輸入展開了研究,曲建嶺等[7]建立了1D-CNN的“端到端”自適應(yīng)故障診斷算法,實現(xiàn)了軸承故障診斷;Wu等[8]使用1D-CNN模型對固定軸齒輪箱和行星齒輪箱進(jìn)行了故障診斷研究,證明具有較強的特征提取能力。雖然有許多的學(xué)者將深度學(xué)習(xí)理論應(yīng)用于機械設(shè)備故障診斷領(lǐng)域,但是由于實際工況多變,數(shù)據(jù)噪聲干擾大,因此,深度學(xué)習(xí)網(wǎng)絡(luò)在面臨實際工況數(shù)據(jù)時,難以充分挖掘表征有故障信息的特征,從而影響識別結(jié)果。另外,模型訓(xùn)練參數(shù)過大,不利于實現(xiàn)快速故障診斷。
在行星齒輪箱中,多個部件共同運轉(zhuǎn),其構(gòu)造較為煩瑣,使得信號頻率成分復(fù)雜;另外載荷大范圍波動導(dǎo)致振動信號具有強烈的時變性,不同時間內(nèi)的信號特征不同[9-10]。因此,針對行星齒輪箱故障信號成分復(fù)雜和時變性強的特點,本文提出了一種基于注意力機制的一維卷積神經(jīng)網(wǎng)絡(luò)行星齒輪箱故障診斷方法。使用一維卷積神經(jīng)網(wǎng)絡(luò)強大的特征學(xué)習(xí)能力對行星齒輪箱進(jìn)行特征學(xué)習(xí),同時,引入注意力機制對提取的特征序列進(jìn)行自適應(yīng)的加權(quán),突出有用的故障特征信息,提升網(wǎng)絡(luò)在變工況工作環(huán)境下的行星齒輪箱故障診斷性能。
卷積神經(jīng)網(wǎng)絡(luò)(CNN)具有特定的結(jié)構(gòu),與其他的深度神經(jīng)網(wǎng)絡(luò)相比,有稀疏連接和權(quán)值參數(shù)共享的特性。CNN的組成部分描述如下。
CNN的主要模塊是卷積層,它使用濾波器對輸入數(shù)據(jù)進(jìn)行一系列卷積運算,并輸出相應(yīng)的特征[11]。其數(shù)學(xué)模型可以表示為
(1)
(2)
但是,當(dāng)直接使用式(2)對特征進(jìn)行歸一化時,模型學(xué)習(xí)到的特征會受到影響,會使網(wǎng)絡(luò)表達(dá)能力下降,于是引入重構(gòu)參數(shù)γi和βi對歸一化值進(jìn)行調(diào)整,恢復(fù)原始網(wǎng)絡(luò)的特征分布。這個過程可以描述為
(3)
數(shù)據(jù)進(jìn)行BN規(guī)范化后,接著采用激活函數(shù)對數(shù)據(jù)進(jìn)行非線性映射。修正線性單元(rectified linear unit,ReLU)激活函數(shù)可以有效地加快模型收斂,選用ReLU作為激活函數(shù)??梢缘玫捷敵鰹?/p>
(4)
然后進(jìn)行池化操作,主要是降低上一層輸出的維度,實質(zhì)是有效減輕計算量,保留重要的信息,從而減少所需的計算資源和時間。為了更好地保留數(shù)據(jù)紋理特征,以及使模型獲得更快的收斂速度,本文采用最大池化操作,函數(shù)表示為
(5)
通過一系列的卷積和池化逐層進(jìn)行深度特征提取,然后將提取的特征進(jìn)行扁平處理輸入全連接層,公式為
(6)
wf為相鄰層之間的權(quán)重矩陣;bf為偏置;sm為輸入數(shù)據(jù);σ(·)為激活函數(shù)。通常在全連接層之后為了得到模型的預(yù)測輸出,連接Softmax函數(shù)實現(xiàn)類別分類,即
(7)
fk(y)為Softmax函數(shù)對每個類別的預(yù)測值;C為訓(xùn)練樣本數(shù)。
為使損失率趨于最小,模型訓(xùn)練采用交叉熵[13]作為損失函數(shù),公式為
(8)
θ為模型的訓(xùn)練參數(shù);hk為第k個目標(biāo)的輸出類別;fk(θ)為第k類樣本預(yù)測概率值;J(θ)為誤差損失值。
行星齒輪箱工作環(huán)境載荷大范圍波動,導(dǎo)致振動信號具有強烈的時變性。當(dāng)行星齒輪箱內(nèi)出現(xiàn)局部故障時,故障位置對其他嚙合的齒輪產(chǎn)生脈沖激勵,使整個系統(tǒng)產(chǎn)生共振,使得振動信號成分復(fù)雜。因此,在同一工況下不同時間內(nèi)采集的信號特征有差異,有些特征是可以表征故障信息的,有些可能會帶來干擾,使得模型的泛化能力降低。
注意力機制通過對不同的信號片段的特征自適應(yīng)加權(quán)進(jìn)行信息篩選,突出有重要信息的故障特征,抑制無效的特征。其結(jié)構(gòu)如圖1所示,C為深度特征提取層獲得特征通道數(shù);L為特征通道的特征數(shù)目。
圖1 注意力機制
首先,獲取CNN網(wǎng)絡(luò)各通道輸出的特征序列H=[h1,h2,h3,…,hN],N為序列的長度。然后,將特征序列H輸入到全連接層,從而得到各通道的注意權(quán)重S=[s1,s2,s3,…,sN],接著利用注意權(quán)重S與原始特征序列相乘得到注意力篩選后的特征序列。其注意力機制加權(quán)篩選的原理可描述為
wf=δ(H)
(9)
S=softmax(αTwf)=[s1,s2,s3,…,sN]
(10)
H′=HST
(11)
δ(·)為激活函數(shù);αT為可學(xué)習(xí)的參數(shù);H′為注意力篩選后的特征。
1.3.1 模型構(gòu)建
本文將1D-CNN結(jié)合注意力機制技術(shù),構(gòu)建故障診斷模型,即使用1D-CNN從原始振動信號中學(xué)習(xí)齒輪故障特征,然后采用注意力機制自適應(yīng)地獲取特征的重要程度,根據(jù)這個重要程度增強能表征故障信息的特征,對無效的特征進(jìn)行抑制,使網(wǎng)絡(luò)獲得更多判別信息。其網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)如圖2所示。
圖2 行星齒輪故障診斷模型結(jié)構(gòu)
故障診斷模型主要由輸入層、深度特征提取層、注意力機制層以及全連接層組成。輸入層是以行星齒輪箱的一維振動信號樣本作為輸入。深度特征提取層包括卷積層、BN層和池化層,交替方式出現(xiàn)卷積池化對輸入的原始信號進(jìn)行深度特征學(xué)習(xí)。其中,由于池化未改變特征的分布,故BN僅在卷積層之后使用。通過一系列的卷積池化提取深度特征后,利用注意力機制技術(shù)對不同信號片段的特征自適應(yīng)加權(quán)進(jìn)行信息篩選,同時對篩選后的特征重新標(biāo)記,最后將標(biāo)記好的特征序列送到Softmax分類器中實現(xiàn)端到端的行星齒輪箱故障診斷。
1.3.2 行星齒輪箱故障診斷流程
基于AM的1D-CNN故障診斷流程如圖3所示。首先將AM與1D-CNN結(jié)合,完成模型的構(gòu)建;然后初始化模型參數(shù),采用Softmax分類器映射輸出特征,以交叉熵作為損失函數(shù)J(θ)更新模型參數(shù);接著完成模型的預(yù)訓(xùn)練,保存模型參數(shù);最后當(dāng)模型訓(xùn)練好后,對模型進(jìn)行測試,重新加載預(yù)訓(xùn)練的模型,學(xué)習(xí)新故障信號的特征,輸出故障診斷結(jié)果。具體步驟描述如下:
圖3 模型故障診斷流程
a.信號采集。采用振動傳感器對行星齒輪箱故障信號進(jìn)行采集,用于訓(xùn)練構(gòu)建的模型。
b.數(shù)據(jù)劃分。把獲取到的故障信號數(shù)據(jù)隨機劃分為訓(xùn)練集和測試集。
c.模型構(gòu)建與訓(xùn)練。設(shè)計模型結(jié)構(gòu),使模型參數(shù)初始化,利用訓(xùn)練集數(shù)據(jù)對模型進(jìn)行預(yù)訓(xùn)練,并反復(fù)利用前向傳播和反向傳播求取參數(shù)梯度,不斷更新模型參數(shù),直到準(zhǔn)確率滿足要求,保存最優(yōu)的模型。
d.故障診斷測試。模型訓(xùn)練結(jié)束后,用測試集的數(shù)據(jù)對模型進(jìn)行測試,驗證其診斷性能。
本次實驗的實驗平臺如圖4a所示,由伺服電機、行星齒輪減速器(包含行星齒輪箱)、PLC控制器、驅(qū)動器和負(fù)載擺臂等組成,其中,行星齒輪箱的內(nèi)部結(jié)構(gòu)如圖4b所示。利用該實驗平臺可以實現(xiàn)多種故障振動信號的采集。電機轉(zhuǎn)速由PLC控制器來改變,轉(zhuǎn)速由0勻加速到500 r/min,再從500 r/min勻減速到0,使得擺臂固定在120°內(nèi)往復(fù)擺動。擺臂主要目的是為實驗臺提供負(fù)載,通過在擺臂的不同位置添加圓盤,實現(xiàn)實驗臺的不同負(fù)載狀態(tài)的設(shè)置。本實驗通過線切割加工故障,模擬設(shè)置了行星輪缺齒、行星輪裂紋、太陽輪缺齒、太陽輪裂紋和正常狀態(tài),共有5種行星齒輪箱的健康狀態(tài)。在行星齒輪箱表面安裝加速度傳感器,型號為PCB353B01,信號采集卡為National Instrument 9234,通過Signal Express 2015軟件平臺進(jìn)行數(shù)據(jù)記錄,采樣頻率設(shè)置為10 kHz。為排除隨機因素的影響,對行星齒輪箱的每種健康狀態(tài)的不同負(fù)載進(jìn)行數(shù)據(jù)采集,即每種健康狀態(tài)有5個樣本,共有25個樣本。
本文實驗選用如圖4a所示的圓盤位置負(fù)載狀態(tài)下的行星齒輪箱信號進(jìn)行分析。為了加快模型的運算效率,對原信號進(jìn)行1/3的降采樣處理,取數(shù)據(jù)樣本長度為17 500。降采樣后,每種故障模式得到200組信號樣本數(shù)據(jù),訓(xùn)練集隨機選擇信號樣本數(shù)據(jù)的70%,其余的信號樣本數(shù)據(jù)作為測試集。具體信息如表1所示。
圖4 模擬實驗臺及行星齒輪箱內(nèi)部結(jié)構(gòu)
表1 齒輪箱5種健康狀態(tài)
本文所處理的是行星齒輪箱的一維振動信號,樣本維數(shù)較低??紤]到較多的卷積層數(shù)目可能會引起模型過擬合問題,因此,本文在固定2層卷積層的前提下,再考慮其他的模型參數(shù)。輸入層所輸入的為沒有做任何預(yù)處理的一維振動信號,因此在第1卷積層中設(shè)計了寬卷積核,以更好地抑制噪聲并捕獲有用的信息[14]。
選擇模型其他參數(shù)時,合適的參數(shù)可以在保證準(zhǔn)確率較高的前提下加快模型的訓(xùn)練速度[7],因此,為了盡可能覆蓋更多參數(shù)組合的選擇,以及降低人工選擇模型參數(shù)的隨機性,本文引入了網(wǎng)格搜索算法來尋最優(yōu)模型的參數(shù)。首先將各個參數(shù)可能的取值進(jìn)行排列與組合,然后使用各參數(shù)組合對構(gòu)建的模型進(jìn)行訓(xùn)練,通過交叉驗證對模型診斷性能進(jìn)行測試。擬合函數(shù)遍歷所有的參數(shù)組合后,自動選擇最佳參數(shù)組合,參數(shù)優(yōu)化結(jié)果如表2所示。
表2 模型主要參數(shù)
另外,批處理量為64,迭代次數(shù)為30,正則化是L2范數(shù)。通過ADAM算法進(jìn)行優(yōu)化,對每一個參數(shù)的學(xué)習(xí)率進(jìn)行動態(tài)調(diào)整,使模型的結(jié)果更接近于真實值且有較強的泛化性。
本文引入了回調(diào)函數(shù)對模型在訓(xùn)練過程中的表現(xiàn)進(jìn)行預(yù)先保存,得到最佳的模型參數(shù)。訓(xùn)練集數(shù)據(jù)和測試集數(shù)據(jù)的準(zhǔn)確率如圖5所示。
圖5 診斷準(zhǔn)確率曲線
在圖5中可以看到,模型訓(xùn)練結(jié)果良好,沒有過擬合現(xiàn)象,經(jīng)過30次的循環(huán)迭代,測試集的準(zhǔn)確率達(dá)到99.6%,利用回調(diào)函數(shù)保存了此時的模型參數(shù)。為了進(jìn)一步地反映本文構(gòu)建的模型對行星齒輪箱故障類型的識別能力,引入了多分類混淆矩陣對行星齒輪箱故障識別結(jié)果進(jìn)行詳細(xì)分析,如圖6所示。
圖6 多分類混淆矩陣
在圖6中可以看到,測試集300個樣本中,只有行星輪裂紋故障的1個樣本被誤判為正常狀態(tài)。其余的行星齒輪箱5種狀態(tài)都能100%識別出來。因此可以看出,本文構(gòu)建的模型有較高的故障識別率。
為了驗證本文構(gòu)建的模型的性能,將廣泛應(yīng)用的1D-CNN、全連接神經(jīng)網(wǎng)絡(luò)(FCNN)和多尺度卷積神經(jīng)網(wǎng)絡(luò)(MC-CNN)[15]對行星齒輪箱實驗數(shù)據(jù)進(jìn)行分析和比較。激活函數(shù)、優(yōu)化器、損失函數(shù)、Dropout的比例和迭代次數(shù)等均和本文構(gòu)建的模型設(shè)置相同。對比了4種方法在行星齒輪箱單一故障狀態(tài)下的準(zhǔn)確率,結(jié)果如表3所示。
表3 4種模型的故障診斷準(zhǔn)確率 %
由表3可知,本文構(gòu)建的模型對行星齒輪箱診斷準(zhǔn)確率明顯優(yōu)于其他的模型。通過對比測試集準(zhǔn)確率,本文模型、1D-CNN、MC-CNN和FCNN的診斷準(zhǔn)確率分別為99.6%、91.8%、93.4%和67.6%。另外,4種模型對故障4的識別率均比較高,但在其他故障狀態(tài)識別均沒有本文構(gòu)建的模型好,有2個隱含層的FCNN模型整體準(zhǔn)確率較低,且有嚴(yán)重過擬合的現(xiàn)象。
為了更進(jìn)一步展示本文模型對行星齒輪箱不同狀態(tài)振動數(shù)據(jù)特征的學(xué)習(xí)能力,引入t-SNE技術(shù)對各個深度學(xué)習(xí)模型學(xué)習(xí)到的特征降維,并可視化進(jìn)行分析比較。具體地,分別將各個深度學(xué)習(xí)模型所提取特征在二維空間表示。
通過t-SNE捕獲的特征形狀如圖7所示。可以看到,原始振動信號通過本文構(gòu)建的模型自適應(yīng)的學(xué)習(xí)處理之后,行星齒輪箱同一故障類型的大部分樣本很好地聚集在一起,并且有效地對不同類型的樣本進(jìn)行了區(qū)分。在1D-CNN和FCNN模型中,同一類別的樣本沒有很好地聚集在一起,甚至不同類別的樣本特征映射點有相互重疊,很難區(qū)分出故障狀態(tài),表明1D-CNN和FCNN模型的自適應(yīng)學(xué)習(xí)能力較差。MC-CNN模型中,同一類別的多數(shù)樣本能夠聚攏在一起,但是不同類別樣本之間并未有效分離,說明MC-CNN模型沒有突出關(guān)于齒輪箱故障信息的特征??偠灾ㄟ^以上的模型對比,本文模型能夠凸顯行星齒輪箱故障重要的信息特征,對無用的特征進(jìn)行了有效抑制,可以準(zhǔn)確有效地識別行星齒輪箱故障狀態(tài)。
圖7 各個模型可視化結(jié)果
本文提出基于注意力機制的一維卷積神經(jīng)網(wǎng)絡(luò)故障診斷方法。通過對行星齒輪箱原始振動信號進(jìn)行深度特征提取,結(jié)合注意力機制對提取的特征序列自適應(yīng)的賦予不同的權(quán)重,克服了傳統(tǒng)模型無法充分挖掘故障信息的局限性。利用故障模擬實驗臺數(shù)據(jù)驗證,該模型能夠有效地解決信號成分復(fù)雜和時變性強的問題。與其他廣泛應(yīng)用的深度學(xué)習(xí)模型相比,基于注意力機制的1D-CNN模型具有良好的診斷性能,有較好的魯棒性與工程實際價值。