劉 琦
(92493部隊60分隊,遼寧 葫蘆島 125000)
滾動軸承是在機械設(shè)備中非常重要的關(guān)鍵部件之一。據(jù)統(tǒng)計,超過50%的旋轉(zhuǎn)機器故障與軸承故障有關(guān),實施滾動軸承狀態(tài)監(jiān)測與故障診斷具有非常重要的意義。
在當今工業(yè)現(xiàn)場,應(yīng)用最多的是基于信號分析的故障診斷技術(shù),其主要判據(jù)是故障特征頻率和特征圖譜。這種診斷方法要求技術(shù)人員熟悉設(shè)備的故障機理,了解設(shè)備的機械結(jié)構(gòu),儲備大量的先驗知識,但其診斷效率和準確度不高,難以適應(yīng)日益復雜的機械設(shè)備系統(tǒng)。隨著大數(shù)據(jù)時代的到來與人工智能技術(shù)的突破,機器學習顯示出了巨大的潛力,智能診斷方法在故障診斷中顯示出了充分的可行性和優(yōu)越性[1]。在機電大數(shù)據(jù)時代,如何有效利用海量生產(chǎn)制造數(shù)據(jù)并發(fā)揮出數(shù)據(jù)的價值,越來越成為工業(yè)轉(zhuǎn)型的研究熱點和重要突破口。
滾動軸承出現(xiàn)損壞故障的原因是復雜多樣的。大體上,可以將軸承的故障主要劃分為以下3種:外圈故障、內(nèi)圈故障、滾珠故障。本文軸承故障數(shù)據(jù)來源于DC競賽開源數(shù)據(jù)的真實軸承振動信號數(shù)據(jù)集,數(shù)據(jù)集提供了792個數(shù)據(jù)樣本。通過按時間序列連續(xù)采樣,數(shù)值范圍為1~6000,得到振動信號能量值。采用的軸承具有3種直徑(直徑1,直徑2,直徑3),結(jié)合3種故障狀態(tài),將軸承的故障類別定義為9類,外加正常的工作狀態(tài),共將軸承的工作狀態(tài)定義為10類。標簽數(shù)據(jù)代表軸承的工作狀態(tài),用數(shù)字0~9表示,軸承的工作狀態(tài)類別見表1。
表1 軸承的工作狀態(tài)類別Table 1 Working state category of bearing
因數(shù)據(jù)集是軸承采集的真實數(shù)據(jù),且數(shù)據(jù)質(zhì)量很高,本實驗不需對異常值進行處理。因此,本實驗數(shù)據(jù)的數(shù)據(jù)清洗工作主要為缺失值的處理,本文采取填補法處理缺失值??紤]到實驗數(shù)據(jù)為時序數(shù)據(jù),針對空值取其前后各10組數(shù)據(jù)的平均值作為估計值。
本實驗數(shù)據(jù)是軸承在一段時間內(nèi)的振動信號數(shù)值及其故障類別,振動信號數(shù)值已經(jīng)說明,時間序列的同列取值不相關(guān),甚至可以認為每一組數(shù)據(jù)時間序列數(shù)目也不一樣,所以必須對時序數(shù)據(jù)提取特征。本文提取了平均值、標準差、方差、最小值、最大值、中位數(shù)、偏度、峰度等8個時序數(shù)據(jù)特征值。
故障診斷可以視作一個模式識別問題,正常運行狀態(tài)與各種故障狀態(tài)都可以看作是一種特定的模式,可以根據(jù)提取出的特征進行分類識別。
如果預測的是離散值,例如“好西瓜”“壞西瓜”,那么此類學習任務(wù)稱為“分類”。當分類任務(wù)只包含兩個類別時,稱為“二分類”任務(wù),例如判斷一個水果是不是西瓜,只會得到“是”或“不是”兩種輸出;當分類任務(wù)包含多個類別時,稱為“多分類”任務(wù),例如判斷一個水果是西瓜、蘋果、菠蘿還是橙子等多個水果中的哪一種。
對于N個類別而言,多分類學習的基本思路是“拆解法”,即將多分類任務(wù)拆解為若干個二分類任務(wù)。具體而言,首先選定合適的拆分策略對問題進行拆解,然后針對每個拆解出來的二分類任務(wù)訓練一個分類器,最終通過某些策略對分類器的結(jié)果進行集成即可得到最終的多分類結(jié)果。
隨機森林是一種采用決策樹為基礎(chǔ)模型的Bagging擴展變體,進一步在決策樹的訓練過程中引入了隨機屬性選擇,在穩(wěn)定性和準確性上取得了良好效果,得到了廣泛的應(yīng)用。
簡單來說,隨機森林就是獨立取出訓練樣本生成決策樹,通過建立多棵決策樹進而組成一片“森林”。與單棵的決策樹進行比較,隨機森林采用合適的策略將多棵決策樹的結(jié)果進行結(jié)合,分類結(jié)果由多棵決策樹共同決定,彌補了決策樹存在過擬合情況的缺陷,分類精度更高。
為了解決梯度提升決策樹(GBDT)在海量數(shù)據(jù)中遇到的問題,2017年微軟在GBDT的基礎(chǔ)上推出了LightGBM算法,在模型訓練速度和內(nèi)存方面進行了一定的優(yōu)化,取得了不錯的應(yīng)用表現(xiàn)。
under the new global economic and trade situation.(209)很明顯“順應(yīng)全球經(jīng)貿(mào)發(fā)展趨勢”在漢語是謂語,但在英語譯文中是狀語;“積極主動”是定語修飾“開放戰(zhàn)略”,但是英語中更適合作狀語 actively promote the opening--up strategy。實際上漢語應(yīng)該這樣表達“更加積極主動地實行開放戰(zhàn)略,所以有的極個別漢語表達是具有迷惑性的,無意中會引起翻譯的困難。
面對海量數(shù)據(jù),GBDT算法處理起來相對復雜,計算開銷非常大,難以兼顧精度和效率。而LightGBM模型的提出,主要在基于梯度的單邊采樣(GOSS)和互斥特征綁定(EFB)兩個方面做出了改進,大大降低了計算復雜度,在提升了模型計算效率的同時,還可以保證較高的準確率。
極限提升樹算法(XGBoost),是陳天奇提出的基于Boosting思想的一種梯度提升改進方法。XGBoost能夠利用CPU進行多線程并行計算,具有較高的運行效率;同時XGBoost在傳統(tǒng)GBDT算法的基礎(chǔ)上,對代價函數(shù)實現(xiàn)二階泰勒級數(shù)展開,把樹模型復雜度作為正則項加到優(yōu)化目標中,減少了過擬合的可能性,使學習到的模型泛化能力更高,加快了收斂速度[3]。XGBoost以其靈活、高速、穩(wěn)健等眾多優(yōu)點,使其在機器學習和數(shù)據(jù)挖掘等科研領(lǐng)域廣受關(guān)注,目前多被用于構(gòu)建故障診斷預測模型。
卷積神經(jīng)網(wǎng)絡(luò)(CNN)是一種經(jīng)常用來處理具有類似于網(wǎng)格結(jié)構(gòu)的數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò),是目前主流深度學習算法之一[4]。
卷積神經(jīng)網(wǎng)絡(luò)是典型的層疊結(jié)構(gòu),其網(wǎng)絡(luò)基本結(jié)構(gòu)包括輸入層、卷積層、池化層、全連接層和輸出層,示意圖如圖1所示。
圖1 典型卷積網(wǎng)絡(luò)結(jié)構(gòu)示意圖Fig.1 Schematic diagram of a typical convolutional network structure
在經(jīng)過數(shù)據(jù)預處理、特征處理與分析等流程之后,就可以開始構(gòu)建模型了。一般地,會基于已有數(shù)據(jù)構(gòu)建多個模型,從中選出與數(shù)據(jù)最為匹配的模型。此時,就需要利用評價指標衡量模型的效果。結(jié)合本文的研究任務(wù),選取查準率、召回率、F1-Score、ROC曲線和AUC作為模型評價指標。
2.6.1 查準率
查準率(Precision)的定義是模型判為正例的所有樣本中有多少是真正的正樣本,其定義如式(1)所示:
2.6.2 召回率
2.6.3 F1-Score
F1-Score的定義是精確率和召回率的調(diào)和平均值,其定義如式(3)所示:
2.6.4 ROC曲線和AUC
ROC(Receiver Operating Characteristic) 曲 線 和 AUC(Area Under Curve)常用來評價分類器的優(yōu)劣。ROC曲線的橫軸為假正例率(FPR),即反例被誤判為正例的比率;縱軸是真正例率(TPR),即正例被判斷正確的比率。通常,ROC曲線越接近左上角,分類器的性能越好。
AUC是ROC曲線下的面積,面積越大意味著分類器效果越好。
在實際的數(shù)據(jù)集中,測試數(shù)據(jù)中的正負樣本的分布很可能隨著時間變化,而ROC曲線具有一個特性,即在正負樣本的分布變化時ROC曲線仍然能夠保持不變。因此,ROC和AUC在眾多評價標準中深受研究人員喜愛。
2.6.5 損失函數(shù)
損失函數(shù)(loss function)是用來估量模型的預測值與真實值的不一致程度,通過使損失函數(shù)最小化,使模型達到收斂狀態(tài),減少模型預測值的誤差。
3.1.1 隨機森林模型分類實驗結(jié)果
隨機森林模型實驗同樣取全部數(shù)據(jù)樣本的70%作為訓練集,30%作為測試集。使用隨機森林模型后,軸承故障診斷預測分類結(jié)果如圖2所示。
圖2 隨機森林分類實驗結(jié)果Fig.2 Random forest classification experiment results
隨機森林模型的總體分類準確率為0.95378。由圖2中可知,有11個故障樣本的故障類型被誤判,占全部樣本4.6%。在誤判的故障類型中,有10個誤判樣本均來自于故障2(內(nèi)圈故障)或故障3(滾珠故障)。這是因為外圈故障振動信號周期性沖擊特性明顯,故障特性明顯,而內(nèi)圈故障和滾珠故障因其結(jié)構(gòu)和工作特性故障特征不太明顯,因此容易產(chǎn)生誤判。同時,可以觀察到,故障2(內(nèi)圈故障)或故障3(滾珠故障)均屬于直徑1的軸承,可以理解為故障結(jié)果誤判與軸承直徑也存在一定關(guān)系。
3.1.2 LightGBM模型分類實驗結(jié)果
LightGBM模型實驗同樣取全部數(shù)據(jù)樣本的70%作為訓練集,30%作為測試集。使用LightGBM模型后,軸承故障診斷預測分類結(jié)果如圖3所示。
LightGBM模型的總體分類準確率為0.95798。由圖3中可知,有10個故障樣本的故障類型被誤判,占全部樣本4.2%。在誤判的故障類型中,有5個誤判樣本來自于故障2,占所有誤判結(jié)果的一半,造成這種誤判現(xiàn)象的原因很可能是內(nèi)圈故障信號波形周期性沖擊特性較為不明顯,故障表現(xiàn)的較為微弱,容易產(chǎn)生誤判。同時,故障2的樣本數(shù)相比于其他樣本較少,也可能因此無法達到理想的訓練效果,從而影響實驗結(jié)果。
圖3 LightGBM分類實驗結(jié)果Fig.3 LightGBM classification experiment results
圖6 10次訓練Fig.6 10 times training
圖7 20次訓練Fig.7 20 times training
3.1.3 XgBoost模型分類實驗結(jié)果
XgBoost模型實驗同樣取全部數(shù)據(jù)樣本的70%作為訓練集,30%作為測試集。使用XgBoost模型后,軸承故障診斷預測分類結(jié)果如圖4所示。
圖4 XgBoost分類實驗結(jié)果Fig.4 XgBoost classification experiment results
XgBoost模型的總體分類準確率為0.94537。由圖4可知,有13個故障樣本的故障類型被誤判,占全部樣本5.4%。在誤判的故障類型中,有8個誤判樣本均來自于故障2或故障3,造成這種誤判現(xiàn)象的原因很可能與隨機森林模型結(jié)果誤判原因相同。
3.1.4 CNN模型分類實驗結(jié)果
CNN模型實驗同樣取全部數(shù)據(jù)樣本的70%作為訓練集,30%作為測試集。使用CNN模型進行訓練后,軸承故障診斷預測分類結(jié)果如圖5~圖8所示。
圖5 5次訓練Fig.5 5 times training
圖8 30次訓練Fig.8 30 times training
可以看出,經(jīng)歷了5次訓練后的CNN模型總體分類準確率較低,僅為0.64285,有29個有故障樣本被判為無故障,此外還有大量的有故障樣本的故障類型被誤判;經(jīng)歷了10次訓練后的CNN模型總體分類準確率大幅提升為0.98739;經(jīng)歷了20次訓練后的CNN模型僅有1個樣本的故障類型被誤判;最終,經(jīng)歷30次訓練后,CNN模型的訓練結(jié)果已經(jīng)達到了1.00000,達到了軸承故障診斷與預測的最佳預期效果。
ROC和AUC評價指標結(jié)果如圖9~圖11所示。
圖9 隨機森林分類后的ROC曲線和AOCFig.9 ROC curve and AOC after random forest classification
圖11 XgBoost分類后的ROC曲線和AOCFig.11 ROC curve and AOC after XgBoost classification
使用CNN模型進行多次訓練后,查準率、召回率、F1-score、損失函數(shù)評價指標的變化如圖12~圖15所示。
圖12 精確率隨訓練次數(shù)變化Fig.12 The accuracy rate varies with the number of training sessions
圖15 損失函數(shù)隨訓練次數(shù)變化Fig.15 The loss function changes with the number of training
由以上圖表可以看到,在訓練20次時,模型訓練結(jié)果已經(jīng)趨近最優(yōu);在訓練30次時,可以認為達到了最佳的訓練效果。
圖10 LightGBM分類后的ROC曲線和AOCFig.10 ROC curve and AOC after LightGBM classification
圖13 召回率隨訓練次數(shù)變化Fig.13 The recall rate varies with the number of training sessions
圖14 F1-score隨訓練次數(shù)變化Fig.14 F1-score Changes with the number of training
對比隨機森林、LightGBM、XgBoost以及CNN模型(訓練30次)的評價結(jié)果,匯總見表2,繪制柱狀圖如圖16所示。
表2 模型評價結(jié)果對比Table 2 Comparison of model evaluation results
圖16 模型評價結(jié)果對比Fig.16 Comparison of model evaluation results
從表2和圖16中可以看出,在機器學習的4個模型中,對比查準率、召回率和F1分數(shù)這3個評價指標,LightGBM模型均獲得最高的評價結(jié)果,但是隨機森林模型取得了最高的AUC分數(shù),為0.997,比LightGBM模型的0.995得分還要高出0.002。AUC代表的是分類或者排序能力,與分類閾值無關(guān),因此查準率高的模型其AUC指標也是可能出現(xiàn)較低值的。在本實驗中,CNN模型展現(xiàn)了其非常優(yōu)秀的分類能力,經(jīng)過30次迭代訓練,其各項指標已經(jīng)達到最優(yōu)。
本文以滾動軸承為研究對象,對滾動軸承多分類故障診斷技術(shù)進行了研究,卷積神經(jīng)網(wǎng)絡(luò)分類速度快、精度高,展現(xiàn)出優(yōu)異的分類能力,可在其基礎(chǔ)上進行擴展優(yōu)化,獲得更優(yōu)的分類結(jié)果。