郭旭東, 宋瀏陽, 王華慶*, 徐福健, 董作一
(1.北京化工大學 機電工程學院,北京 100029;2.中國航發(fā)湖南動力機械研究所,湖南 株洲 412000;3.中化化肥有限公司,北京 100031)
機械設備性能與健康狀態(tài)會在工作過程中呈現(xiàn)出衰退趨勢,當衰退達到一定程度時,設備將無法完成規(guī)定的生產要求,進而造成難以挽回的經濟損失和資源浪費。因此在機械設備的運行階段,要保障系統(tǒng)的安全可靠運行,需要對其狀態(tài)進行監(jiān)測,通過獲取的監(jiān)測信息來預測其剩余使用壽命(Remaining Useful Life,RUL),而對于RUL的預測將成為預防性維護的重要依據(jù),能夠為制定合理的維護策略提供有效的支持[1]。
航空發(fā)動機的RUL預測是機械設備性能健康狀態(tài)檢測中最具挑戰(zhàn)性的技術之一[2]。通常,RUL估計主要是根據(jù)傳感器采集的時間序列數(shù)據(jù),預測機械喪失其運行能力之前的剩余時間。現(xiàn)有的RUL估計方法可以分為三類:基于物理模型的方法,基于數(shù)據(jù)驅動的方法和混合方法?;谖锢砟P偷姆椒ɡ霉收狭踊c故障機制的先驗知識,以數(shù)學方式對設備的劣化模式進行建模及RUL估計,例如Paris-Erdogan Model[3]和指數(shù)模型[4],但工業(yè)實踐中難以獲得足夠的先驗知識限制了這類方法的應用?;跀?shù)據(jù)驅動的方法通過不同的機器學習方法來估計RUL[5],例如支持向量回歸(Support Vector Regression,SVR)[6]和人工神經網(wǎng)絡(Artificial Neural Network,ANN)[7],但這類方法需要事先獲得大量數(shù)據(jù)?;旌戏椒ńY合了前兩種方法的優(yōu)點:基于物理知識構建模型,通過數(shù)據(jù)驅動的方法對特征提取器參數(shù)進行優(yōu)化以進行RUL估計。特征提取器可以將原始信號轉換為低維向量,從而更易于進行故障識別及壽命預測。但是,在將原始信號轉換為低維向量的過程中會損失部分有用信息,而且針對新任務需要重新設定特征提取器參數(shù),因此使預測過程變得耗時。
深度學習作為新興的機器學習方法,可以自動準確地基于低級特征學習構建高級特征來預測RUL。遞歸神經網(wǎng)絡(Recurrent Neural Network,RNN)作為解決壽命預測問題的一種方案,可以跨時間步長從先前處理的數(shù)據(jù)中提取有用信息,并將其集成到當前的單元狀態(tài)中以對順序數(shù)據(jù)進行建模[8-9]。理論上RNN可以表示長時間步長狀態(tài)之間的依賴關系,但是由于梯度爆炸或梯度彌散現(xiàn)象的存在,導致RNN在實際應用中“記憶能力”受限,往往只能學習到短時間步長的依賴關系。Hochreiter等[10]提出的長短期記憶網(wǎng)絡(Long Short-Term Memory,LSTM)具備一定的長距離時序數(shù)據(jù)信息挖掘能力,被廣泛應用于語音識別、機器翻譯、故障預測和負荷預測等領域。處理過長時間序列時,傳統(tǒng)LSTM會出現(xiàn)不穩(wěn)定和梯度消失現(xiàn)象,故而不能捕捉較長時序數(shù)據(jù)中的信息[11-12]。而卷積神經網(wǎng)絡(Convolution Neural Network,CNN)由于同一特征映射面上的神經元權值相同,可實現(xiàn)并行學習。借助CNN的高維特征提取能力與并行學習能力,并利用LSTM短序列時序預測能力,出現(xiàn)了融合CNN與LSTM網(wǎng)絡進行行為預測、語音識別等研究[13-14]。但是傳統(tǒng)的CNN-LSTM模型未考慮多傳感器數(shù)據(jù)的融合,無法體現(xiàn)數(shù)據(jù)驅動的全面性,導致預測精度不高,而且CNN與LSTM網(wǎng)絡聯(lián)合方式多為嵌入式,預測精度提升的難度較大。
因此,筆者提出了一種基于改進CNN-LSTM模型的RUL預測方法,該方法不依賴于特征提取器,可直接處理時間序列,利用變窗口采樣得到不同長度的時間序列,通過融合CNN與LSTM子網(wǎng)絡得到高維特征表示,使用感官融合層對具有不同時標的高維特征進行編碼,以捕獲時間序列中的潛在分層結構,從而獲得更準確的預測結果。
1.1.1 LSTM網(wǎng)絡
在處理與時間序列相關的問題時,RNN由于自身的網(wǎng)絡結構,比其他的網(wǎng)絡更有優(yōu)勢。與常見的神經網(wǎng)絡不同,如圖1所示(xt為輸入數(shù)據(jù),A為神經元,ht為神經元A的輸出),RNN隱藏層的輸出將作為輸入反復迭代,這意味著隱藏層在一段時間內具有自連接特性。因此,RNN在處理時序相關數(shù)據(jù)方面具有一定優(yōu)勢。
圖1 RNN神經元
數(shù)學上,在時間t處的隱藏層的輸出描述如下:
h(t)=φ(Wht-1+Uxt+b)
(1)
式中,W和U分別為隱藏層神經元的輸入數(shù)據(jù)xt和先前輸出ht-1的權重系數(shù);t和t-1為時間;b為偏差。然而,由于在模型訓練期間反向傳播過程中存在梯度消失問題, RNN無法獲取數(shù)據(jù)中的長期依存關系。因此,在LSTM網(wǎng)絡結構中,LSTM神經元通過取代傳統(tǒng)的RNN隱藏神經元來構建LSTM層。每個LSTM神經元都有3個精心設計的門函數(shù),即遺忘門、輸入門和輸出門。LSTM神經元中的3個門函數(shù)為控制信息的輸入和刪除提供了良好的非線性控制機制,具有發(fā)現(xiàn)和記憶長期依存關系的能力。輸入門決定了將進入神經元狀態(tài)的信息,遺忘門決定了神經元狀態(tài)中需要丟棄的信息,輸出門決定從神經元狀態(tài)導出什么信息。
LSTM神經元的計算過程可以用數(shù)學式表示為
ft=σ(Wfxt+Rfht-1+bf)
(2)
it=σ(Wixt+Riht-1+bi)
(3)
將LSTM網(wǎng)絡單元展開,每個單元都包含輸入xt,輸出ot以及儲存總線C。
如圖2所示,ft為遺忘門,輸出如式(2)所示。其中,σ為sigmoid函數(shù),控制該門的輸出在(0,1)之間,將ft與Ct-1進行點乘,可控制從Ct-1到Ct的信息流動。輸出門用于候選函數(shù)Ct的連接。
圖2 LSTM神經元
在使用輸入門和遺忘門后,通過式(4)決定添加到總線C的信息:
Ct=ft?Ct-1+it?tanh(Wcxt+Rcht-1+bc)
(4)
最后輸出門通過式(5)對來自于總線C的信息進行過濾,決定最終輸出。
ot=σ(Woxt+Roht-1+bo)?tanh(Ct)
(5)
由于結構特殊,LSTM網(wǎng)絡對分類及回歸問題都較為有效。
1.1.2 CNN模型
CNN目前在計算機視覺領域應用中已成為最受歡迎的深度學習模型之一。與傳統(tǒng)神經網(wǎng)絡相比,CNN由于受局部感受野的啟發(fā),具有局部連接、權值共享、空間池化的特性,因此具有較好的平移、縮放和扭曲不變性,使抽象特征提取能力更強。
CNN的特征提取層在學習過程中隱式地從訓練數(shù)據(jù)中提取特征,避免了依賴經驗知識進行特征提取的過程;再者由于同一特征映射面上的神經元權值相同,所以網(wǎng)絡可以并行學習,也是卷積網(wǎng)絡相對于神經元彼此相連網(wǎng)絡的一大優(yōu)勢。CNN以其局部權值共享的特殊結構在語音識別和圖像處理方面有著獨特的優(yōu)越性,其布局更接近于實際的生物神經網(wǎng)絡,權值共享降低了網(wǎng)絡的復雜性,特別是多維輸入向量的圖像可以直接輸入網(wǎng)絡的特點降低了特征提取和分類過程中數(shù)據(jù)重建的復雜度。
如圖3所示,DenseNet在稠密卷積模塊(Dense Block)中將每一層的特征都輸入給之后的所有層,使所有層的特征都堆疊起來。傳統(tǒng)卷積網(wǎng)絡中L層有L個連接,但稠密卷積網(wǎng)絡L層有L(L-1)/2個連接。稠密卷積模塊對于特征的復用性更強,可以加強特征傳播,減輕梯度消失問題。DenseNet提升了信息和梯度在網(wǎng)絡中的傳輸效率,每層都能直接從損失函數(shù)得到梯度,并且直接得到輸入信號,可訓練更深的網(wǎng)絡并且具有正則化的效果。其他網(wǎng)絡致力于從深度和寬度來提升網(wǎng)絡性能,而DenseNet致力于從特征重用的角度來提升網(wǎng)絡性能。
圖3 DenseNet連接結構
本文提出的CNN-LSTM網(wǎng)絡結構使用隨時間推移展開的遞歸架構建模實現(xiàn)對RUL的估計,該模型可學習處理變化的時間步長的前后信息。此外,由于CNN與LSTM網(wǎng)絡各自輸出高級特征,因此融合來自CNN與LSTM特征表示子網(wǎng)絡的高級特征對于預測結果至關重要。本文提出了一種變窗口取樣方法,通過大小不同的窗口對多個傳感器信號進行取樣和融合,在網(wǎng)絡訓練過程中,加入感官融合層替代全連接層實現(xiàn)高維特征融合。圖4為基于改進的CNN-LSTM網(wǎng)絡實現(xiàn)RUL預測流程圖,整個流程大致分為數(shù)據(jù)預處理、高維特征表示、特征融合和RUL預測4個部分。
CNN-LSTM網(wǎng)絡結構必須融合CNN與LSTM特征表示子網(wǎng)絡獲得的多種高維特征。最直接的方法是將CNN和LSTM學習到的特征串聯(lián)輸入到Softmax層,但是,這種簡單的融合方法效果很差。本文提出基于感官融合層的高維特征融合方法,如圖4所示,首先將CNN和LSTM輸出的高維特征經過向量拼接(concatenate)方式合并,并行輸入Dense層。用DenseNet層代替?zhèn)鹘y(tǒng)的全連接層(Flatten)。Dense層將CNN與LSTM子網(wǎng)絡的高維特征映射到一維數(shù)據(jù)中,實現(xiàn)特征融合。而且Dense層的連接方式可以使網(wǎng)絡輕量化,降低硬件要求,有助于工業(yè)化應用。
圖4 基于改進的CNN-LSTM網(wǎng)絡實現(xiàn)RUL預測流程圖
當優(yōu)化算法陷入局部最優(yōu)點時,與梯度下降算法相比,SGDR(Stochastic Gradient Descent with Warm Restarts)[15]可以通過突然增大學習率跳出局部最優(yōu)點找到通向全局最優(yōu)點的路徑,而不足之處在于重啟時學習率有突變會導致訓練誤差突然增大,因此本文采用改進的SGDR算法來解決這個問題。網(wǎng)絡第t次迭代時SGDR算法學習率變化曲線如式(6)所示,學習率每間隔一定周期后初始化為某個預先設定值,然后采用余弦衰減逐漸降低學習率,其中αmax和αmin分別為第m個周期中學習率的上界和下界,Tm為重啟周期,Tcur為從上次重啟之后的回合周期數(shù)。改進的算法增加了線性增長部分,學習率變化趨勢如圖5所示,避免了重啟時學習率突變現(xiàn)象。
圖5 改進的SGDR學習率變化示意圖
(6)
本文研究以渦扇發(fā)動機的狀態(tài)監(jiān)測數(shù)據(jù)作為輸入的RUL預測模型。渦扇發(fā)動機傳感器種類多,運行周期長,其狀態(tài)監(jiān)測數(shù)據(jù)具有維度高、數(shù)據(jù)量大的特點。高維數(shù)據(jù)帶來的維數(shù)災難問題會影響模型的預測精度和收斂速度,故有必要進行特征維度約減工作。對于大樣本輸入數(shù)據(jù),傳統(tǒng)機器學習方法的預測性能受到限制,適宜設計深度學習模型來捕捉特征間的復雜關系。渦扇發(fā)動機狀態(tài)監(jiān)測數(shù)據(jù)由C-MAPSS[16]軟件模擬得出,C-MAPSS逼真地模擬不同運行條件下渦扇發(fā)動機的退化過程,其輸出為整個退化過程的各種傳感器信號以及運行參數(shù)等狀態(tài)監(jiān)測數(shù)據(jù)。同文獻[16]一致,本文選用C-MAPSS輸出的21種信號以及3種運行參數(shù)進行RUL預測,所選狀態(tài)監(jiān)測數(shù)據(jù)的具體描述如表1所示。
表1 渦扇發(fā)動機狀態(tài)監(jiān)測描述
C-MAPSS數(shù)據(jù)集如表2所示,包含4個不同工況下的子數(shù)據(jù)集(FD001-FD004),每個子數(shù)據(jù)集包含多臺發(fā)動機在不同工況下由21個傳感器采樣的全壽命數(shù)據(jù),并分為訓練集和測試集。數(shù)據(jù)集的更多結構細節(jié)見文獻[16]。發(fā)動機在開始時刻均正常運行,在某個未知的時間點出現(xiàn)故障。在訓練集中故障不斷劣化,直到系統(tǒng)停止。測試集數(shù)據(jù)是在系統(tǒng)發(fā)生故障之前的某個時間截取的。實驗目的是根據(jù)測試數(shù)據(jù)訓練模型,實現(xiàn)測試集數(shù)據(jù)剩余運行時間的估計。
表2 C-MAPSS數(shù)據(jù)集
不同的數(shù)據(jù)往往具有不同的量綱和量綱單位,為了消除指標之間的量綱影響,需要進行數(shù)據(jù)標準化處理。原始數(shù)據(jù)經過數(shù)據(jù)標準化處理后,各指標處于同一數(shù)量級,有利于進行綜合對比評價。本文分別對每個數(shù)據(jù)集進行歸一化處理,并使用最小-最大歸一化將輸入和RUL值縮放到(0~1)范圍。
(7)
在C-MAPSS數(shù)據(jù)集中,F(xiàn)D001和FD003具有7個恒定讀數(shù)的傳感器。但是,由于4個數(shù)據(jù)集的恒定讀數(shù)不一致,因此在本研究中保留這些傳感器數(shù)值。除了21個傳感器特征和3個運行參數(shù)特征,將運行周期也作為特征之一,即模型輸入共25個特征。由于測試集退化時間序列的最短長度為31,為保證所有渦扇發(fā)動機數(shù)據(jù)可以被使用,最小窗口尺寸選為30。
本文應用隨機搜索輔以經驗微調的機制實現(xiàn)超參數(shù)選擇。具體網(wǎng)絡結構參數(shù)設定為:可變窗口大小設定為{30,50,70,90,110}。優(yōu)化器選用Adam優(yōu)化器,SGDR的初始學習率設置為0.0005,線性增長周期設為5個周期,重啟學習率設置為0.001,余弦下降周期設置為10。使用提前終止策略,若40個周期內驗證集的損失值不再下降則提前終止。其余參數(shù)選擇見表3。
表3 隨機搜索超參數(shù)選擇
2.4.1 基于改進CNN-LSTM的RUL預測結果
模型訓練完成后,在操作情況較為復雜的FD003中利用10臺發(fā)動機對訓練后的改進LSTM網(wǎng)絡進行性能驗證。圖6比較了11個發(fā)動機的預測RUL和真實RUL差值,橫坐標為發(fā)動機編號,柱狀圖高度為真實值與預測值差值大小,單位為周期。
圖6 預測值與真實值差值圖
由圖6可知,差值最大的發(fā)動機為第18號發(fā)動機,差值為36,其真實壽命為209,差值占總體的17.2%,其余10臺壽命差值都較小,這能夠很好地反映所提方法預測發(fā)動機RUL的準確程度。在訓練過程中,將測試發(fā)動機的監(jiān)測信號依次輸入CNN-LSTM模型,得到預測的RUL如圖7所示,顯示了FD001中72臺發(fā)動機的實際RUL與預測RUL。結果表明,預測的RUL與實際RUL十分接近。
圖7 預測值與真實值
2.4.2 結果對比
為驗證所提出的基于改進CNN-LSTM的RUL預測方法的有效性,使用5種不同的方法進行對比分析。所有實驗均在具有8 GB RAM和GeForce GTX 1660Ti GPU的Intel Core i7第9代處理器上進行。使用Python 3.6以及TensorFlow實現(xiàn)所提網(wǎng)絡。將訓練數(shù)據(jù)按照[95:5]的比例隨機分為訓練集和驗證集,以評估提出網(wǎng)絡架構的性能。將CNN-LSTM結果與其他5種預測方法進行比較,其中CNN-LSTM(1)為嵌入式融合網(wǎng)絡,第1層為LSTM網(wǎng)絡,第2、第3層為CNN網(wǎng)絡,其余超參數(shù)與本文所提出的網(wǎng)絡相同,輸入為普通滑動窗口獲得的時間序列,窗口大小為30。CNN-LSTM(2)為本文所提出的改進CNN-LSTM預測網(wǎng)絡。
使用均方根誤差(RMSE)作為評價標準。
(8)
實驗結果如表4所示,結果表明所提出的CNN-LSTM在RMSE指標評估下優(yōu)于其他所有方法。與傳統(tǒng)CNN相比,所提方法效果有較好提升,例如在FD001數(shù)據(jù)集中,所提方法比CNN的RMSE值降低了7.9。與未使用所提架構CNN-LSTM方法相比,在FD002數(shù)據(jù)集中,RMSE值從18.79降低到16.62,降低了13.06%。
表4 基于不同預測方法的RMSE值
針對航空發(fā)動機的RUL預測問題,本文提出了一種改進的CNN-LSTM的RUL預測方法。該方法使用可變窗口獲得長度不同的時間序列,利用CNN和LSTM子網(wǎng)絡實現(xiàn)高維特征表示,通過感官融合層實現(xiàn)特征融合,針對訓練過程中損失函數(shù)曲線震蕩、不易收斂問題,提出了改進的SGDR學習率更新機制,最后預測RUL?;贑-MAPSS數(shù)據(jù)集將所提方法與其他方法進行對比,結果表明,本文所提的方法預測效果更好。
但是本實驗基于原始時域信號進行,而在工程中通常使用降采樣信號預測RUL,這會導致預測精度下降,甚至難以預測。針對上述問題,未來考慮與其他深度學習方法相結合,如注意力機制等,實現(xiàn)工程信號的高精度壽命預測。