王體春,吳廣勝,咸玉貝,胡玉峰
(1.南京航空航天大學(xué) 機電學(xué)院,南京 210000;2.中國民用航空華東地區(qū)管理局,上海 200000)
滾動軸承無論在制造業(yè)、運輸業(yè)或者是航空航天業(yè)中都是旋轉(zhuǎn)機械中必不可少的組成部分,例如雷達(dá)驅(qū)動機構(gòu)中的滾動軸承或者是直升機傳動系統(tǒng)中的滾動軸承,無論是哪種旋轉(zhuǎn)機械,滾動軸承都起到至關(guān)重要的作用。然而,由于其經(jīng)常工作在惡劣的環(huán)境中,發(fā)生故障是不可避免的,并且伴隨著故障的發(fā)生常常導(dǎo)致安全事故和重大經(jīng)濟損失,比如直升機驅(qū)動機構(gòu)受損導(dǎo)致的安全事故和雷達(dá)故障停機所需的維護成本。所以對滾動軸承的剩余壽命進行準(zhǔn)確的預(yù)測是非常必要的,準(zhǔn)確的剩余壽命預(yù)測可以幫助我們提前制定維修計劃,延長設(shè)備使用時間,保證人身安全。
以深度學(xué)習(xí)為基礎(chǔ)的基于數(shù)據(jù)驅(qū)動的方法可以實現(xiàn)端到端的機械設(shè)備健康監(jiān)測[1-2],雷亞國等[3]提出了一種利用機械頻域信號訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)的方法,Zhao等[4]提出的深度殘差伸縮網(wǎng)絡(luò)(DRSN)用于機械故障診斷,Wang等[5]提出的結(jié)合軟閾值與注意力機制的時間卷積神經(jīng)網(wǎng)絡(luò)(TCN-SA)。上述三者的優(yōu)勢都在于無需具備信號處理技術(shù)與故障診斷的先驗知識,借助深度學(xué)習(xí)模型就可以完成故障特征的自適應(yīng)提取與健康狀況的智能診斷。然而前兩者使用的模型忽略了振動信號的時序特性,Wang等[5]提出的TCN-SA雖然利用了振動信號的時序特性,但是由于膨脹卷積的稀疏采樣方式存在網(wǎng)格效應(yīng)(gridding effect),損失了信息的連續(xù)性與相關(guān)性,并且軟閾值函數(shù)完全保留了閾值以外的信號,其中可能存在噪聲。基于此,本文提出一種TCN-HS模型,該方法將混合膨脹卷積(hybrid dilated convolution)與自適應(yīng)斜率軟閾值函數(shù)(self-adaptive slope thresholding)融合到時間卷積網(wǎng)絡(luò)中,混合膨脹卷積解決了網(wǎng)格效應(yīng)(gridding effect),自適應(yīng)斜率軟閾值函數(shù)則進一步對經(jīng)過軟閾值降噪后的信號特征進行篩選,以PHM2012軸承數(shù)據(jù)集進行算法性能對比,驗證了所提模型的有效性。
TCN-HS的基本模塊組成如圖1所示,由預(yù)激活模塊、閾值計算模塊和斜率計算模塊組成。
圖1 TCN-HS基本模塊
1.1.1預(yù)激活模塊
根據(jù)激活函數(shù)與卷積層的相對位置關(guān)系,其組合方式可以分為“預(yù)激活”與“后激活”[6],TCN-HS模型采用“完全預(yù)激活”,即批標(biāo)準(zhǔn)化層和激活函數(shù)都放到一維膨脹因果卷積的前面,如圖2所示。使用預(yù)激活有2個優(yōu)點:①f變?yōu)楹愕扔成?使得網(wǎng)絡(luò)更易于優(yōu)化;② 使用批標(biāo)準(zhǔn)化層作為預(yù)激活可以加強對模型的正則化。
在預(yù)激活模塊中激活函數(shù)選擇LeakyRelu,LeakyReLu犧牲了梯度的硬零稀疏性,因此在優(yōu)化期間更穩(wěn)健。式(1)為LeakyReLU函數(shù)。
(1)
式中:a為泄漏率,在[0,1]的區(qū)間內(nèi),這樣函數(shù)就保留了一些負(fù)軸的信息,而非全部舍棄掉。
圖2 完全預(yù)激活模塊
丟棄層是為了防止訓(xùn)練中模型發(fā)生過擬合。丟棄層后為膨脹因果卷積層,膨脹卷積(dilated convolution)[7]是通過跳過部分輸入使filter可以應(yīng)用于大于filter本身大小的區(qū)域,等同于通過增加空洞從原始filter中生成更大的filter。和傳統(tǒng)卷積不同的是,膨脹卷積在卷積操作時存在空洞,采樣時的間距由膨脹率(dilation rate)即圖3中的d控制。
圖3 膨脹卷積
輸入層的膨脹率d=1,表示對于輸入的每個像素都進行采樣,隱藏層膨脹率d=2,表示對于本層的輸入,間隔一個點采樣一個作為輸入。一般來講,層數(shù)越深,當(dāng)前層的膨脹率越大。所以,膨脹卷積可以使感受野隨著層數(shù)越深而呈指數(shù)型增長,這樣在網(wǎng)絡(luò)中就可以用較少的網(wǎng)絡(luò)層數(shù),卻獲得了普通卷積網(wǎng)絡(luò)深度很大時才可以獲得的感受野。
1.1.2自適應(yīng)斜率軟閾值函數(shù)模塊
軟閾值函數(shù)通常被用于振動信號的去噪中[8],軟閾值函數(shù)如式(2)所示。
(2)
式中:t表示閾值,是一個正數(shù)。從式(2)可以看出,軟閾值化就是將[-t,t]區(qū)間內(nèi)的信號特征置為0,將大于t的信號特征減t,將小于-t的信號特征加t。軟閾值函數(shù)還有一個好處就是求導(dǎo)后梯度只有0和1,如式(3)所示,這樣避免了梯度爆炸和梯度消失現(xiàn)象。
(3)
但同時軟閾值函數(shù)也完全保留了閾值區(qū)域之外的特征,這些特征可能包括噪聲,影響剩余壽命預(yù)測的結(jié)果。因此,TCN-HS使用了一種自適應(yīng)斜率軟閾值函數(shù)[9]來代替軟閾值函數(shù)。自適應(yīng)斜率單元使網(wǎng)絡(luò)能夠有效地學(xué)習(xí)閾值區(qū)域之外的有用信息,對于軟閾值函數(shù)篩選出的特征賦予不同的權(quán)重,而不是完全保留它們。自適應(yīng)斜率閾值的函數(shù)表示為:
(4)
式中:x表示輸入;y表示輸出;t表示閾值;a表示斜率。在TCN-HS中,自適應(yīng)軟閾值斜率函數(shù)由閾值計算模塊和斜率計算模塊組成。
閾值計算模塊如圖4所示,在這個模塊中,首先輸入在絕對值層的所有特征的絕對值,獲得的輸入的絕對值經(jīng)過全局平均池化層,得到一個特征A;在另一條路徑中,全局平均池化層輸出的特征輸入到一個以Sigmoid 函數(shù)作為最后一層的子網(wǎng)絡(luò)中,這樣子網(wǎng)絡(luò)的輸出會歸一化到0~1,將全連接層的輸出記為α。最終的閾值可以表示為α×A。因此,閾值就是一個0~1的數(shù)字乘以特征圖的絕對值的平均值。通過這種方式,保證了閾值為正,而且不會太大。
圖4 閾值計算模塊
自適應(yīng)斜率軟閾值函數(shù)的斜率計算模塊如圖5所示,與閾值計算模塊相似,二者的不同之處是本模塊只有一條路徑,即對輸入特征圖的所有特征求絕對值,經(jīng)過全局平均池化層后直接輸入到子網(wǎng)絡(luò)中,最后經(jīng)過Sigmoid函數(shù)歸一化之后的全連接網(wǎng)絡(luò)的輸出就是斜率a。
圖5 斜率計算模塊
值得注意的是,經(jīng)過上述2個模塊的運算,不同的樣本就有了不同的閾值。因此,在一定程度上,可以理解成一種特殊的注意力機制:軟閾值函數(shù)可以注意到與當(dāng)前任務(wù)無關(guān)的特征,通過軟閾值化,將它們置為零;或者說,注意到與當(dāng)前任務(wù)有關(guān)的特征,將它們保留下來并且輸出,而斜率則是對軟閾值函數(shù)已經(jīng)篩選出的特征進一步賦予不同的權(quán)重。在訓(xùn)練過程中,模型會自適應(yīng)調(diào)整閾值t與斜率a的值來使模型輸出與真實值之間的差值最小化。
表1為TCN、融合軟閾值函數(shù)的TCN和融合自適應(yīng)軟閾值函數(shù)的TCN在處理同一段加了噪聲的軸承加速度信號時進行軸承剩余壽命預(yù)測的結(jié)果,可以看出融合了自適應(yīng)軟閾值函數(shù)的模型效果最好。
表1 不同模型結(jié)果
1.1.3殘差連接
殘差鏈接[10]解決了深層網(wǎng)絡(luò)的訓(xùn)練問題,在神經(jīng)網(wǎng)絡(luò)中,當(dāng)網(wǎng)絡(luò)很深時,除了增加計算資源消耗以及模型過擬合問題外,還會出現(xiàn)梯度消失或是梯度爆炸問題,導(dǎo)致淺層網(wǎng)絡(luò)參數(shù)無法更新,而殘差連接可以實現(xiàn)網(wǎng)絡(luò)各層級之間的跨層傳遞信息。殘差連接將輸出表述為輸入和輸入的一個非線性變換的線性疊加,如圖6所示。假設(shè)層間需要學(xué)習(xí)的隱藏映射為H(x),殘差映射為F(x)=H(x)-x,那么原本需要學(xué)習(xí)的映射H(x)便為殘差函數(shù)F(x)+x,即殘差定義為:殘差等于輸出減輸入。
圖6 殘差連接
1.2.1TCN-HS模型結(jié)構(gòu)
上文中提到的3種模塊組成了TCN-HS的基本模塊,將TCN-HS模塊與一維卷積層、一維最大池化層、一維全局平均池化層和全連接層進行堆疊就可以得到TCN-HS模型,模型的輸入是一個2D張量,輸出即為預(yù)測的結(jié)果,模型的整體結(jié)構(gòu)如圖7所示。
圖7 TCN-HS網(wǎng)絡(luò)結(jié)構(gòu)
1.2.2TCN-HS模型超參數(shù)設(shè)置
在相同卷積核大小并且神經(jīng)網(wǎng)絡(luò)中參數(shù)量相當(dāng)?shù)那闆r下,因為擴張率(dilation rate)的存在,傳統(tǒng)的膨脹卷積相較于普通卷積具有更大的感受野。但是膨脹卷積是一種稀疏采樣的方式,所以膨脹卷積存在網(wǎng)格效應(yīng)(gridding effect),即會損失信息的連續(xù)性,當(dāng)多個膨脹卷積疊加時,有些特征直接被跳過了,這些被跳過的特征可能存在的關(guān)鍵信息的缺失,會影響模型的最終預(yù)測結(jié)果。膨脹卷積膨脹率為[1,2,3]的感受野如圖8所示。
圖8 膨脹卷積膨脹率為[1,2,3]的感受野
為了解決膨脹卷積存在的網(wǎng)格效應(yīng)問題,將混合膨脹卷積替換膨脹卷積。假設(shè)有N個卷積層并且卷積核大小為K×K,膨脹系數(shù)為[r1,…,ri,…,rn],混合膨脹卷積(HDC)[11]的目標(biāo)是讓一系列卷積操作后的最終感受野完全覆蓋一個方形區(qū)域,沒有任何漏洞或缺失的邊緣。定義“2個非零值之間的最大距離”為(Mi即第i層2個非0元素的距離):
Mi=max[Mi+1-2ri,Mi+1-2(Mi+1-2ri),ri]
(5)
定義Mn=rn,設(shè)計目標(biāo)是讓M2≤K。例如,對于內(nèi)核大小K=3,當(dāng)M2=2時,膨脹率設(shè)置為r=[1,2,5]顯然是實現(xiàn)了目標(biāo)。實際上,并不是在下采樣后對所有層使用相同的膨脹率,而是對每層使用不同的膨脹率。在設(shè)置膨脹率時,組內(nèi)公約數(shù)不能大于1。膨脹卷積膨脹率為[1,2,5]的感受野如圖9所示。
圖9 膨脹卷積膨脹率為[1,2,5]的感受野
頂層可以訪問與原始配置相同區(qū)域的更廣泛的像素范圍內(nèi)的信息。這一過程在所有層中重復(fù),從而使頂層的感受野保持不變??紤]到混合膨脹卷積理論和下一節(jié)的實驗結(jié)果對比,本文的超參數(shù)設(shè)置如表2所示。
表2 超參數(shù)設(shè)置
模型中的優(yōu)化器為Adam,Adam吸收了Adagrad(自適應(yīng)學(xué)習(xí)率的梯度下降算法)和動量梯度下降算法的優(yōu)點,既能適應(yīng)稀疏梯度(即自然語言和計算機視覺問題),又能緩解梯度震蕩的問題,可以根據(jù)歷史梯度的震蕩情況和過濾震蕩后的真實歷史梯度對變量進行更新。
Xavier普通初始化器用于初始化網(wǎng)絡(luò)權(quán)值。對擴張的因果卷積層設(shè)置L2正則化項,以減少過擬合。學(xué)習(xí)率為0.001,小批大小為128,epoch為800。
實驗采用PHM 2012數(shù)據(jù)挑戰(zhàn)發(fā)布的軸承運行至故障數(shù)據(jù)集,數(shù)據(jù)采集自加速退化平臺PRONOSTIA[12],如圖10所示。
圖10 加速退化平臺PRONOSTIA
試驗臺水平和垂直放置2個加速度計,收集來自x和y2個方向的振動信號。采樣率為25.6 kHz,每10 s記錄0.1 s的數(shù)據(jù)。為安全起見,當(dāng)振動數(shù)據(jù)幅值超過20g(1g=9.8 m/s2)時,停止實驗。數(shù)據(jù)集共包括3種工況的數(shù)據(jù):① 負(fù)載4 000 N,轉(zhuǎn)速1 800 r/min的7個軸承;② 負(fù)載4 200 N,轉(zhuǎn)速1 650 r/min的7個軸承;③ 負(fù)載5 000 N,轉(zhuǎn)速1 500 r/min的3個軸承。
實驗結(jié)果的評估采用3個性能指標(biāo),即平均絕對誤差(MAE),均方根誤差(RMSE)和一個對PHM2012進行改進的評分函數(shù),稱為score,被用來評價所開發(fā)的方法的性能。MAE和RMSE是PHM領(lǐng)域常用的評價指標(biāo),方便與領(lǐng)域中的其他優(yōu)秀作者的實驗結(jié)果進行比較。
(6)
(7)
在工程實際中,對剩余壽命的低估(即當(dāng)前預(yù)測結(jié)果小于實際的剩余使用壽命)和對剩余壽命的高估(當(dāng)前預(yù)測結(jié)果大于實際的剩余使用壽命)對機器運行的影響不同,低估可能導(dǎo)致不必要的停機,而高估則更加嚴(yán)重,可能導(dǎo)致事故和人員傷亡。因此,高估要比低估受到更嚴(yán)厲的懲罰。此外,在機械使用壽命中,后期剩余使用壽命預(yù)測的準(zhǔn)確性比早期更重要,因為機器在生命周期的早期出現(xiàn)缺陷的可能性相對較低。這意味著在機械全壽命周期的后期,應(yīng)該給預(yù)測結(jié)果分配較大的權(quán)重。因此,為了客觀、全面地評價預(yù)測模型,本文采用了改進的PHM2012評分函數(shù),最終的得分函數(shù)如式(8)所示。
(8)
式中:n表示總時間步數(shù);m表示早期的百分比;ω1和ω2分別表示早期和晚期的權(quán)重。本文取ω1=0.35,ω2=0.65,m=n/2,即對壽命后半段的預(yù)測比早期更可靠、更有意義。ω1和ω2的值是根據(jù)用戶輸入通過實驗確定的。Score的取值在區(qū)間(0,1),數(shù)值越大,預(yù)測性能越好。值得注意的是,Score的值不一定與MAE和RMSE的值一致。由于MAE和RMSE在實驗數(shù)據(jù)的生命周期中為每個預(yù)測分配相等的權(quán)重,它們不區(qū)分高估和低估。因此,可能存在高估的MAE和低估的RMSE情況。因此,在MAE或RMSE與Score不一致的情況下,將Score作為模型選擇的度量標(biāo)準(zhǔn)。
模型的輸入為x軸和y軸信號進行堆疊后的數(shù)組,維度為(2 560,2),超參數(shù)設(shè)置見表1,實驗流程如圖11所示。
圖11 實驗流程
預(yù)處理包括對振動數(shù)據(jù)和剩余使用壽命進行歸一化處理,如果直接使用真實的剩余使用壽命值作為輸出標(biāo)簽,一個剩余使用壽命值可能對應(yīng)不同軸承[13]的多種不同退化狀態(tài)。因此,在數(shù)據(jù)準(zhǔn)備過程中,使用各個軸承的壽命百分比作為輸出標(biāo)簽,即每個軸承的實際剩余使用壽命在[0,1]范圍內(nèi)歸一化。歸一化的剩余使用壽命定義如式(9)所示。
(9)
式中:yt表示時刻t的真實剩余使用壽命;y表示總的壽命。實驗采用交叉驗證的方法,本文利用工況一和工況二的數(shù)據(jù)進行實驗驗證,對于每種工況,均保留一個軸承用于測試,其余的軸承用于訓(xùn)練模型,所有軸承都經(jīng)過測試。圖12為軸承1_4和軸承2_4的壽命預(yù)測曲線。
圖12 軸承1_4和軸承2_4壽命預(yù)測曲線
最終結(jié)果如表3所示,可以看出在大多數(shù)情況下,TCN-HS的MAE、RMSE以及得分Score結(jié)果均優(yōu)于其他模型。
表3 不同模型在PHM2012數(shù)據(jù)集的結(jié)果
續(xù)表(表3)
從表3還可以看出,TCN-HS雖然在某個軸承如軸承1_2或軸承2_4的預(yù)測結(jié)果比不上TCN-SA模型,但是從整體來看還是TCN-HS的效果更好,比如工況2的軸承TCN-HS的預(yù)測得分平均分為0.82,而TCN-SA只有0.61。
表4為TCN-HS和TCN-SA在預(yù)測軸承剩余使用壽命時的模型參數(shù)量和計算時間。
表4 TCN-HS與TCN-SA參數(shù)量與計算時間
從表4可以看出,雖然TCN-HS的參數(shù)量比TCN-SA更多,計算時間也比TCN-SA稍長,但是從預(yù)測的結(jié)果來看,TCN-HS慢的0.15 s可以忽略不計。
剩余使用壽命預(yù)測是PHM最具挑戰(zhàn)性的任務(wù)之一。針對現(xiàn)階段時興的幾種模型在預(yù)測任務(wù)中存在的問題,提出了一種融合混合膨脹卷積和自適應(yīng)斜率軟閾值函數(shù)的時間卷積網(wǎng)絡(luò)模型TCN-HS。TCN-HS中帶有剩余連接的膨脹因果卷積的層次結(jié)構(gòu)已經(jīng)證明可以很好地捕捉時間序列數(shù)據(jù)中的長序列。在網(wǎng)絡(luò)中嵌入自適應(yīng)斜率軟閾值作為激活函數(shù)改進非線性變換。設(shè)計了2個子網(wǎng)絡(luò)自適應(yīng)學(xué)習(xí)閾值和斜率。PHM2012滾動軸承的實例研究驗證了所開發(fā)方法的魯棒性。今后的工作將延伸到以下幾個方向,首先,進一步改進網(wǎng)絡(luò)結(jié)構(gòu)來進行更加準(zhǔn)確地預(yù)測;其次,在工程實際中,采集到的數(shù)據(jù)通常是不同工況下的,設(shè)計變工況自適應(yīng)的魯棒的預(yù)測方法對于剩余使用壽命預(yù)測從實驗室研究到行業(yè)中的實際應(yīng)用至關(guān)重要?;谀P秃蛿?shù)據(jù)驅(qū)動的預(yù)測方法都有其自身的局限性,利用兩者優(yōu)勢的混合方法可能是更好的方向。