吳佳敏, 王發(fā)令, 鄒鶴敏, 李潤錦, 張 龍
(1.廣州鐵科智控有限公司,廣州 510000,E-mail:wujiamin@gzrsic.com;2.華東交通大學(xué) 機電與車輛工程學(xué)院,南昌 330013)
齒輪箱是軌道機車車輛轉(zhuǎn)向架傳動系統(tǒng)中最重要的機械部件,其典型的工況特點為頻繁啟停,加速減速時間短,瞬時載荷大[1]。然而復(fù)雜的工況使其齒輪、軸承和齒圈等關(guān)鍵部件發(fā)生磨損和疲勞裂紋故障,影響車輛的行車安全[2-3]。隨著機車車輛不斷向復(fù)雜、高速、高效及重載方向發(fā)展,齒輪傳動系統(tǒng)的安全性和可靠性越來越重要。因此,研究變工況下的齒輪箱故障診斷方法對保障行車安全、降低維護成本具有重要意義。
近年來,基于深度學(xué)習(xí)(deep Learning, DP)的故障診斷算法快速發(fā)展[4-7]。Liu等[8]通過長短時記憶網(wǎng)絡(luò)對時域信號進行特征提取,用于診斷旋轉(zhuǎn)機械故障??凳貜姷萚9]利用變分模態(tài)分解(variational mode decomposition,VMD)信號,再結(jié)合時域和頻域特征構(gòu)造多特征集,引入半監(jiān)督遷移成分分析方法,實現(xiàn)變工況下旋轉(zhuǎn)機械故障診斷。Chen等[10]將時、頻域特征作為卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)的輸入實現(xiàn)齒輪箱智能診斷。張龍等[11]將一維原始信號和二維連續(xù)小波變換提取的時頻信號,通過雙通道卷積神經(jīng)網(wǎng)絡(luò)進行深度特征提取,融合成新的深度時頻特征,經(jīng)歸一化指數(shù)函數(shù)實現(xiàn)機車軸承故障診斷。Jiao等[12]使用三種編碼器提取原始數(shù)據(jù)的故障特征,融合構(gòu)造多變量編碼器信息,通過卷積神經(jīng)網(wǎng)絡(luò)實現(xiàn)旋轉(zhuǎn)機械智能診斷。Wang等[13]將信號進行短時傅里葉變換(short time fourier transform,STFT),獲取相應(yīng)時頻特征,輸入到CNN實現(xiàn)旋轉(zhuǎn)機械故障診斷。羅宏林等[14]通過有監(jiān)督的學(xué)習(xí)模式構(gòu)造自編碼器,將不同工況特征集向參考工況做特征映射,實現(xiàn)變工況下的軸箱故障診斷。以上方法在智能故障診斷領(lǐng)域取得了顯著的效果,極大的提高了診斷的準(zhǔn)確性,但大多數(shù)模型均需要人為提取特征,特征提取過程中容易丟失部分特征信息,使得模型的適應(yīng)性不高。尤其在變工況條件下,需要建立不同的模型以適應(yīng)不同的工況。
基于此,提出一種基于深度卷積神經(jīng)網(wǎng)絡(luò)(deep convolutional neural network,DCNN)和遷移學(xué)習(xí)(transfer learning,TL)的變工況機車齒輪箱智能故障診斷方法。針對傳統(tǒng)故障診斷方法難以充分挖掘故障相關(guān)特征信息的問題,將多通道特征信息有機融合,搭建DCNN自適應(yīng)挖掘多通道深度特征。針對變工況服役條件下模型通用性差且需要大量有標(biāo)簽樣本的問題,采用遷移學(xué)習(xí)來提高模型的魯棒性。將源域特征遷移至目標(biāo)域,實現(xiàn)少樣本下的變工況齒輪箱故障診斷。試驗證明該方法在變工況齒輪箱故障診斷中的有效性。
深度卷積神經(jīng)網(wǎng)絡(luò)是包含卷積運算和深度結(jié)構(gòu)的前饋神經(jīng)網(wǎng)絡(luò),因其具有強大的特征表達能力,已廣泛應(yīng)用于圖像識別等諸多領(lǐng)域[15-16]。一個典型的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,包括輸入層(input)、卷積層(convolutional layer)、池化層(pooling layer)、全連接層(fully-connected layer)和輸出層(output)。其中卷積層和池化層可以有多層連接,即為深度卷積網(wǎng)絡(luò)。
圖1 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖
輸入層可以處理一維二維甚至多維數(shù)據(jù),但是輸入數(shù)據(jù)需要經(jīng)過標(biāo)準(zhǔn)化處理,標(biāo)準(zhǔn)化處理可以提高神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)速率,本文將表征振動的聲音信號通過多通道信息融合作為DCNN模型的輸入。
卷積層作用是對輸入特征進行卷積運算。深層卷積神經(jīng)網(wǎng)絡(luò)能提取數(shù)據(jù)中更復(fù)雜的特征,通過多層卷積操作逐層將特征抽象出來,卷積層運算如下。
(1)
ReLu激活函數(shù)是最常用的激活函數(shù),優(yōu)點很明顯:運算速度快;不會出現(xiàn)梯度問題;與實際神經(jīng)元作用原理最接近,只有受到正向刺激才能被激活,其表達式為:
(2)
池化層一般是接于卷積層之后,對提取出的特征進行池化處理。本文采用最大值池化來減少數(shù)據(jù)量并防止模型的過擬合。
(3)
數(shù)據(jù)經(jīng)卷積和池化操作后會連接一個全連接層,該全連接層于傳統(tǒng)BP神經(jīng)網(wǎng)絡(luò)類似,通過全連接的形式使用不同分類算法對輸入數(shù)據(jù)進行分類:
(4)
輸出層是最后一層網(wǎng)絡(luò),根據(jù)Softmax函數(shù)得到各類別的概率即可確定分類結(jié)果,其表達式為:
O=φ(gvwo+mo)
(5)
式中:O為各類別對應(yīng)的概率;gv表示全連接層的輸出;wo和mo為權(quán)值和偏置。
遷移學(xué)習(xí)的主要目標(biāo)是通過使用源域任務(wù)中的知識來提高目標(biāo)任務(wù)的性能[17-18]。遷移學(xué)習(xí)依賴于機器學(xué)習(xí)算法來完成學(xué)習(xí)任務(wù),可以用來解決經(jīng)典的分類問題[19]。此外,還可以保留學(xué)習(xí)所獲取的知識用于其他的相似的任務(wù)。如圖2所示,遷移學(xué)習(xí)通過源域訓(xùn)練學(xué)習(xí)得到模型,將此模型遷移應(yīng)用于相近機器或者工況下,完成目標(biāo)域的任務(wù)。
圖2 遷移學(xué)習(xí)
本文基于深度卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上實現(xiàn)模型的遷移學(xué)習(xí)。DCNN用于自動處理給定數(shù)據(jù)集的故障相關(guān)特征抽象提取,保存源域?qū)W習(xí)訓(xùn)練獲取的知識用于目標(biāo)域中,DCNN前饋方式如式(6)和(7)所示。
H=φ(W1P+b1)
(6)
Q=φ(W2H+b2)
(7)
式中:W1和W2權(quán)重矩陣;P和Q為輸入和輸出矩陣;隱含層矩陣為H;b1和b2分別是對應(yīng)的偏置;φ(x)是ReLu激活函數(shù)。損失函數(shù)如式(8)所示。
(8)
式中:xi是輸入向量;n是訓(xùn)練樣本的個數(shù)。卷積神經(jīng)網(wǎng)絡(luò)目標(biāo)是通過反向傳播和隨機梯度下降最小化損失熵的值。
多通道信息融合是指把四個通道采集的聲學(xué)信號作為DCNN的輸入,其思路框架圖如圖3所示。其中多維輸入矩陣可以看作圖片識別中RGB彩色三通道圖片,卷積神經(jīng)網(wǎng)絡(luò)可以視為一個融合工具,可以從多通道信息中抽象概括出高層次特征。
圖3 多通道信息融合思路框架圖
端對端DCNN模型結(jié)構(gòu)如圖4所示。
圖4 端到端卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
從樣本中自適應(yīng)提取特征,其中包括從四個通道中采集的16 000個采樣點的時域信號。網(wǎng)絡(luò)前兩層是兩個卷積層,每個卷積層有32個濾波器(卷積核的個數(shù)),這兩層卷積層主要目的是初步提取特征,得到低級的抽象特征。隨后緊接著一個最大池化層,用以降低整個數(shù)據(jù)的量級。池化層之后接有兩個卷積層,進一步抽象提取出終極的特征,每個卷積層有64個濾波器。卷積層3和卷積層4之后緊接第二個最大池化層,進一步減小數(shù)據(jù)量。卷積層5和卷積層6能抽象出高級的特征,此時濾波器個數(shù)分別為32和16。之后接有一個平均池化層,為最后的全連接層分類做準(zhǔn)備。全連接層與輸出層相連接在最后,將卷積池化層逐層抽象出的特征進行分類,實現(xiàn)齒輪故障模式識別。
針對目前大多數(shù)傳統(tǒng)故障診斷方法通常難以充分挖掘故障相關(guān)特征信息、常見模型在變工況服役條件下通用性差以及實際工程應(yīng)用中往往難以獲取充足標(biāo)簽數(shù)據(jù)等問題,提出一種基于深度卷積遷移學(xué)習(xí)的變工況機車齒輪箱智能故障診斷方法。其具體步驟如下,卷積遷移診斷流程如圖5所示。
圖5 卷積遷移診斷流程圖
(1) 首先采集齒輪箱原始聲音信號,將采集的聲音信號根據(jù)工況不同分為兩個數(shù)據(jù)集,分別用于源域以及目標(biāo)域;
(2) 將所獲信號分段,同時融合四個通道信息的片段作為輸入樣本;
(3) 將源域樣本輸入DCNN網(wǎng)絡(luò)中訓(xùn)練模型,滿足訓(xùn)練要求后,保存訓(xùn)練模型把源域所學(xué)知識存儲;
(4) 隨后把所學(xué)知識進行知識遷移,用少量目標(biāo)域樣本微調(diào)訓(xùn)練模型,使得模型更適用于目標(biāo)域,把微調(diào)后的模型保存(知識存儲)用于目標(biāo)域的故障識別;
(5) 完成故障診斷。
為盡量減少噪聲對本次實驗的影響,基于聲學(xué)信號的齒輪箱故障實驗在半消聲的實驗場地進行。本次實驗所用的實驗臺由兩級齒輪變速箱、變頻電機、電磁制動器張力控制器、變頻器和測試系統(tǒng)組成。測量系統(tǒng)包括四個自由場麥克風(fēng),數(shù)據(jù)采集儀器和數(shù)據(jù)記錄軟件。麥克風(fēng)和數(shù)據(jù)采集儀器通過卡口螺母連接器接口連接以進行數(shù)據(jù)傳輸,并通過專用軟件記錄數(shù)據(jù),整個實驗臺如圖6所示。齒輪箱的結(jié)構(gòu)簡圖如圖7所示,兩級齒輪箱的減速比為23/34,高速軸的減速比為18/81,低速軸的減速比為16/83。
圖6 齒輪箱實驗臺
圖7 齒輪箱結(jié)構(gòu)簡圖
此實驗中選擇低速軸上齒輪作為故障齒輪,分別測試正常齒輪、斷齒故障、點蝕故障和磨損故障齒輪四種狀態(tài)下的聲音信號,分為空載和負載兩種工況。所有這些齒輪的聲音信號都是通過四通道的麥克風(fēng)陣列采集,四個麥克風(fēng)呈球形包絡(luò)面對稱排列,依據(jù)標(biāo)準(zhǔn)坐標(biāo)進行設(shè)置排步。三種故障類別示意圖如圖8所示。
圖8 齒輪故障類型
調(diào)整變頻器將電動機的轉(zhuǎn)速設(shè)置為恒定1 800 r/min,在半消音環(huán)境下,假設(shè)齒輪箱其他部分如軸承和軸等受到振動的干擾較小,測量的聲音信號可以看作為僅包含齒輪自身嚙合的振動。此外通過控制可編程電磁制動器,調(diào)節(jié)控制電流張力設(shè)置為0 mA和0.45 mA,用以模擬空載狀態(tài)和13.5 Nm的負載狀態(tài)。麥克風(fēng)的采樣頻率為16 000 Hz。每個音頻文件采集記錄了60 s的數(shù)據(jù),對于每種故障那個類型的齒輪,通過四通道數(shù)據(jù)采集卡采集了40個音頻文件。
以齒輪減速箱低速軸為研究對象,從正常齒輪、斷齒齒輪、點蝕齒輪和磨損齒輪收集聲音信號。
數(shù)據(jù)集中包括有無負載兩種工況,每種工況包括四類齒輪狀態(tài),每類狀態(tài)采集了四個通道的音頻文件,每個通道采集了40個音頻文件,每個音頻文件包含了60 s的音頻數(shù)據(jù)。將60 s的音頻數(shù)據(jù)分為6個10 s的音頻片段。每種工況數(shù)據(jù)集中一共有960個音頻片段。每個音頻片段分為10個無重疊區(qū)的1秒樣本。通過實驗驗證分析發(fā)現(xiàn)1 s長樣本在音頻處理中是最適合的尺寸長度,所以選擇樣本長度為1 s。
本文使用該實驗所有數(shù)據(jù)作為數(shù)據(jù)集。根據(jù)有無負載分為無負載數(shù)據(jù)集A和有負載數(shù)據(jù)集B。選擇樣本長度為1 s,將樣本輸入到端到端卷積神經(jīng)網(wǎng)絡(luò)模型中進行訓(xùn)練測試。數(shù)據(jù)集A和數(shù)據(jù)集B,一共可以獲得9 600×2=19 200個樣本。單個樣本數(shù)據(jù)較大,也可以反映出深度網(wǎng)絡(luò)對大數(shù)據(jù)處理能力的優(yōu)越性。
為交叉驗證遷移學(xué)習(xí)的性能,首先以A為訓(xùn)練集,B為測試集驗證從無負載工況下遷移知識到有負載工況下的效果,隨后,以B為訓(xùn)練集A為測試集驗證從有負載工況下遷移知識到無負載工況下的效果。表1和表2分別給出了兩種遷移學(xué)習(xí)下訓(xùn)練集和測試集的樣本數(shù)量。
表1 A-B遷移學(xué)習(xí)數(shù)據(jù)樣本
表2 B-A遷移學(xué)習(xí)數(shù)據(jù)樣本
在網(wǎng)絡(luò)結(jié)構(gòu)確定的基礎(chǔ)上,進一步需要確定網(wǎng)絡(luò)的相關(guān)參數(shù)。選用Relu函數(shù)作為深度卷積網(wǎng)絡(luò)模型的激活函數(shù),學(xué)習(xí)速率大小根據(jù)默認設(shè)置0.001,批大小根據(jù)實驗驗證最優(yōu)選擇為20。梯度下降時選用Adam(Adaptive Moment Estimation, Adam)優(yōu)化函數(shù)優(yōu)化損失函數(shù)。訓(xùn)練時選擇Epoch為10,每個卷積層使用Padding操作使得卷積之后樣本長度不變,同時卷積層卷積核的步幅都為1。網(wǎng)絡(luò)各層詳細參數(shù)如表3所示。此外,所設(shè)計模型運算條件為:CPU采用AMD銳龍2600X6核12線程;GPU采用NNIDIA-GTX-1060顯卡,顯存為6 GB:運行內(nèi)存為16 GB。Tensorflow使用的版本為“1.9.0”,python使用版本為“3.6.2”,Anaconda使用的版本為“4.3.30”,Spyder使用版本為“3.3.2”。
表3 端到端卷積神經(jīng)網(wǎng)絡(luò)詳細參數(shù)
將獲取的樣本輸入DCNN卷積神經(jīng)網(wǎng)絡(luò)中訓(xùn)練網(wǎng)絡(luò),訓(xùn)練集樣本個數(shù)為1 920,每個Epoch訓(xùn)練完成,用480個驗證集驗證模型是否過擬合。訓(xùn)練每個Epoch都監(jiān)測訓(xùn)練集的測試準(zhǔn)確率,一旦準(zhǔn)確率下降立即停止訓(xùn)練網(wǎng)絡(luò),此時網(wǎng)絡(luò)繼續(xù)訓(xùn)練沒有實際意義,不僅不會增加網(wǎng)絡(luò)性能,還可能使得網(wǎng)絡(luò)出現(xiàn)過擬合。
訓(xùn)練過程如圖9所示。綠色虛線表示訓(xùn)練集準(zhǔn)確率(Accuracy of training data),綠色實線表示驗證集準(zhǔn)確率(Accuracy of validation data),紅色虛線表示測試集損失值(Loss of training data),紅色實線表示驗證集損失值(Loss of validation data)。訓(xùn)練過程一共訓(xùn)練了53 044個參數(shù),訓(xùn)練過程參數(shù)如表4所示,訓(xùn)練集準(zhǔn)確率逐漸趨于1,為與驗證集準(zhǔn)確率曲線區(qū)分,兩條曲線分開表示,損失值曲線同理也分開表示,測試集損失值逐漸趨于0。
表4 訓(xùn)練過程參數(shù)
圖9 訓(xùn)練集和驗證集損失函數(shù)和準(zhǔn)確率
在訓(xùn)練過程中保存驗證集測試時損失熵值最低時的模型,并將此模型所學(xué)習(xí)特征做知識遷移。將訓(xùn)練好的模型用另一工況下的數(shù)據(jù)集中的400個訓(xùn)練樣本微調(diào)模型參數(shù),得到遷移學(xué)習(xí)齒輪箱故障識別模型,并用其余2 000個測試樣本測試最終得到的遷移學(xué)習(xí)故障識別模型的識別效果。
圖10和圖11是未使用另一工況少量樣本微調(diào)模型參數(shù),直接用另一工況的數(shù)據(jù)集測試原始模型的故障識別效果。從圖10A-B未遷移知識測試結(jié)果中看出,沒有對模型進行參數(shù)微調(diào)的遷移學(xué)習(xí)有大量錯誤識別,有部分斷齒故障被錯誤識別為疲勞故障。從圖11B-A未遷移知識測試結(jié)果中可以看出,把大量點蝕故障錯誤識別成斷齒故障,所有疲勞故障都錯誤識別成為斷齒故障,更為嚴重的是大量無故障樣本被識別為點蝕故障和斷齒故障。測試結(jié)果表明未進行模型參數(shù)微調(diào),模型無法準(zhǔn)確識別另一工況下的齒輪箱故障。對遷移知識之后的模型進行參數(shù)調(diào)整是必要的,圖12和圖13是參數(shù)調(diào)整之后模型對測試數(shù)據(jù)的測試結(jié)果。
圖10 A-B未遷移知識混淆矩陣
圖11 B-A未遷移知識混淆矩陣
圖12 A-B遷移學(xué)習(xí)混淆矩陣
圖13 B-A遷移學(xué)習(xí)混淆矩陣
從圖12A-B遷移學(xué)習(xí)和圖13B-A遷移學(xué)習(xí)結(jié)果中看出,兩種工況互相遷移學(xué)習(xí)的測試結(jié)果都達到了100%的故障識別率,相比于未進行模型參數(shù)微調(diào)的測試結(jié)果有很大的準(zhǔn)確率提升。表5是遷移學(xué)習(xí)參數(shù)調(diào)整測試過程的測試報告。如測試報告顯示,無論是常規(guī)的評定參數(shù)準(zhǔn)確率、召回率和F1分數(shù),還是微平均、宏平均和權(quán)重平均都是100%的值,遷移知識微調(diào)后的模型是齒輪箱故障識別的最優(yōu)模型。
表5 測試報告
使用目標(biāo)域工況下的少量樣本微調(diào)模型能準(zhǔn)確識別源域工況下和目標(biāo)域工況下的多重工況故障,模型通用性增強。
為進一步凸顯遷移學(xué)習(xí)在變工況齒輪箱故障識別的優(yōu)勢,通過與傳統(tǒng)的機器學(xué)習(xí)方法對比。黃良沛等[20]用小波對樣本進行三層分解,將分解得到的8個分量的特征參數(shù)作為特征向量輸入BP神經(jīng)網(wǎng)絡(luò)進行故障識別。于德介等[21]提出一種基于EMD和SVM的齒輪故障診斷方法,對原始信號進行EMD分解,將得到的多個IMF分量取能量值并擇優(yōu)作為SVM的輸入訓(xùn)練模型進而識別齒輪的故障類型。同時僅用DCNN診斷模型,對遷移知識模型不進行參數(shù)調(diào)整,直接用某一工況下的樣本訓(xùn)練,用另一工況下的樣本測試模型。對比方法的準(zhǔn)確率結(jié)果如表6所示。
表6 方法對比結(jié)果
直接用DCNN訓(xùn)練測試,沒有進行遷移學(xué)習(xí)的參數(shù)調(diào)整,運用無負載數(shù)據(jù)集A中的樣本作為訓(xùn)練集,用有負載數(shù)據(jù)集B中的樣本為測試集測試齒輪箱故障,識別準(zhǔn)確率98.1%;相反用數(shù)據(jù)集B做訓(xùn)練集,數(shù)據(jù)集A做測試集,識別準(zhǔn)確率只有54.2%。運用基于WP和BP的方法用數(shù)據(jù)集A訓(xùn)練模型,數(shù)據(jù)集B測試,識別準(zhǔn)確率為88.3%;使用數(shù)據(jù)集B訓(xùn)練模型,數(shù)據(jù)集A測試,識別準(zhǔn)確率為81.7%。運用基于EMD和SVM的方法用數(shù)據(jù)集A訓(xùn)練模型,數(shù)據(jù)集B測試,識別準(zhǔn)確率為64.2%;使用數(shù)據(jù)集B訓(xùn)練模型,數(shù)據(jù)集A測試,識別準(zhǔn)確率為45.6%?;贓MD和SVM方法識別效果較差,基于WP和BP方法較好,基于DCNN的方法從A遷移至B效果較好,從數(shù)據(jù)集B-A效果較差,總體來說這三種方法都無法滿足變工況的齒輪箱故障識別精度。遷移DCNN無論從數(shù)據(jù)集A-B,還是從數(shù)據(jù)集B-A都能達到100%的識別準(zhǔn)確率,能夠滿足齒輪箱故障識別要求。
表7和表8是每種方法實現(xiàn)故障識別需要的平均時長。DCNN由于將特征提取這一步驟隱含在訓(xùn)練中不需要額外的特征提取步驟,而是通過卷積神經(jīng)網(wǎng)路自適應(yīng)提取抽象特征,故所需時間遠小于其它兩種傳統(tǒng)機器學(xué)習(xí)方法。
表7 A-B方法時長對比
表8 B-A方法時長對比
為實現(xiàn)機車車輛齒輪箱變工況故障診斷,提出一種基于深度卷積遷移學(xué)習(xí)的變工況齒輪箱智能故障診斷方法。該方法將多通道信息進行有機融合,搭建深度卷積網(wǎng)絡(luò)從大量數(shù)據(jù)中自適應(yīng)泛化抽象數(shù)據(jù)特征,使用不同工況下少量多通道信號樣本預(yù)訓(xùn)練源域模型,由源域向目標(biāo)域做特征遷移映射,再將目標(biāo)域樣本輸入預(yù)訓(xùn)練DCNN模型進行故障識別。通過齒輪箱故障實驗聲學(xué)數(shù)據(jù)驗證,該方法能快速準(zhǔn)確地實現(xiàn)變工況齒輪智能故障診斷,并且與傳統(tǒng)的機器學(xué)習(xí)方法進行對比, 說明了知識遷移的必要性和有效性。本文提出的智能故障診斷模型具有一定的優(yōu)勢,為齒輪的故障監(jiān)測提供了一種新的方法。