郭佳靖,姜 宏,章翔峰,冉祥鋒
(新疆大學 機械工程學院,烏魯木齊 830047)
滾動軸承作為機械設備中易受損的部件之一,其工作條件相對惡劣。一旦發(fā)生故障將導致機械設備的嚴重損壞以及災難性事故的發(fā)生。若能夠及時針對滾動軸承損傷程度進行準確評估,更加主動地啟動維護模式,對于減少事故發(fā)生率,提高設備使用效率都擁有重要的意義及應用價值。
對滾動軸承損傷程度進行準確識別,首先要提取能夠表征損傷程度加深的特征量。歐璐等[1]通過提取信號Hilbert包絡譜的頻率特征和能量熵特征實現(xiàn)軸承故障診斷。程小涵、劉蘊哲等[2-3]結(jié)合時頻域統(tǒng)計特征和能量譜指標,利用投影尋蹤和距離評估判別方法研究特征指標的聚類性和敏感性,篩選出關(guān)鍵特征完成軸承故障識別。本文決定結(jié)合時、頻域特征指標建立特征集。為降低計算的復雜性及提高分類精度,需將表征軸承損傷狀態(tài)變化的敏感特征篩選出來。郭宏偉等[4]利用皮爾遜相關(guān)系數(shù)對選出的特征進行冗余分析,再利用SVMRFE算法篩選出關(guān)鍵特征。肖艷與王欣杰等[5-6]利用ReliefF和F-score特征選擇方法剔除冗余特征,實現(xiàn)關(guān)鍵特征的選擇。各個特征選擇方法的選擇標準并不相同,利用單一方法容易造成特征的錯選和漏選[7]。因此本文提出一種基于最大相關(guān)最大距離的特征選擇方法,利用皮爾遜相關(guān)系數(shù)度量類別與特征間的相關(guān)性,利用ReliefF和F-score方法評判特征的類別可分性,以完成關(guān)鍵特征的選擇。將篩選的敏感特征子集對應的數(shù)據(jù)樣本輸入到概率神經(jīng)網(wǎng)絡[8]分類器中進行訓練和識別,完成軸承損傷程度的評估。
實現(xiàn)對軸承的損傷程度的準確識別,關(guān)鍵是要找到對損傷狀態(tài)變化較為敏感和聚類能力強的特征指標。由于軸承故障機理的復雜性,單一特征或單域特征難以全面、準確刻畫軸承運行狀態(tài)的復雜性[9]。針對軸承不同故障對應的振動信號與特征指標的關(guān)系已有諸多研究,但是對軸承某一故障損傷程度加深情況下信號與特征指標的關(guān)系研究較少。針對軸承損傷狀態(tài)的變化,特征的敏感性和聚類性也不一樣,為選取關(guān)鍵特征以全面描述軸承損傷程度變化,同時能夠兼顧所選特征的敏感性和穩(wěn)定性,決定選取時域特征和頻域特征構(gòu)建多域特征集。時域特征指標共18個,包括12個有量綱指標和6個無量綱指標。頻率特征指標共12個。30個特征指標的表達式如表1所示。
表1 時頻域特征指標
多數(shù)特征選擇方法利用特征間的相關(guān)性來排除冗余特征,或通過評估特征的類別可分能力篩選出聚類能力強的敏感特征。然而,在實際計算時只能兩兩比較特征間的相關(guān)性,當特征數(shù)目較大時,運算量巨大且效率低下。針對特征冗余性的判斷若沒有統(tǒng)一標準易造成錯誤決策,從而影響后續(xù)軸承損傷程度識別的準確率[10]。評判特征間的類別可分能力其實就是要找到使不同類別樣本的類間距離最大,類內(nèi)距離最小的特征量。不同距離評判方法擁有不同篩選特性和適用范圍,利用單一距離評判方法易造成關(guān)鍵特征的漏選和錯選。遂提出一種將相關(guān)性評價函數(shù)和距離評價函數(shù)相結(jié)合的特征選擇方法。
最大相關(guān)最大距離(MRMD)方法的重點是找到一種特征排序度量標準,其中包括:分析目標類別和特征子集間的相關(guān)性以及不同特征的類別可分性。本文利用皮爾遜相關(guān)系數(shù)度量類別與特征間的關(guān)聯(lián)度,利用兩種距離評價函數(shù)評判特征的類別可分能力。在特征集中選出相關(guān)性和距離綜合最大的特征,得到低冗余度和目標類關(guān)聯(lián)性強的特征子集。
為便于理解該方法,針對算法中需要用到的概念和已知量進行符號定義。將輸入數(shù)據(jù)D分為N個標簽,特征集中共有M個特征F={fi,i=1,…,M},目標類別為C。目標是找到包含m個關(guān)鍵特征的特征子集Rm,達到對不同樣本類別的進行分類達到最大貢獻。
目標類別C和特征子集Rm具有最大的相關(guān)性,此時可以得到最小的分類誤差。皮爾森相關(guān)系數(shù)適用于連續(xù)變量的計算并且易于實現(xiàn),選擇該測度計算相關(guān)性。
兩個向量X和Y的皮爾遜相關(guān)系數(shù)可以定義為:
(1)
(2)
(3)
(4)
xK和yK是向量X和Y中的第K個元素,結(jié)合兩個特征向量可以組合為多維向量。特征i的最大相關(guān)性可以定義為:
maxMRi=|PCC(Fi,Ci)|(1≤i≤M)
(5)
為進一步排除冗余特征,在最大距離特征評價準則下綜合ReliefF和F-score兩種特征選擇方法完成關(guān)鍵特征的篩選工作。
Relief算法的核心思想是對每個待識別的特征分配一個相關(guān)性加權(quán)值,使用加權(quán)值的大小衡量特征的類別可分能力。本文用其改進算法ReliefF對多類軸承損傷程度樣本進行區(qū)分。
在該算法中,對每一個不同類都找出所選樣本的k個近鄰,使用每類的先驗概率進行加權(quán),將k個近鄰對權(quán)值的貢獻進行平均實現(xiàn)權(quán)值的更新,該方法提高了特征有效性估計的可靠性。其算法的實現(xiàn)過程如下所示:
輸入?yún)?shù):特征權(quán)值初始化為零:Wj=0
(1)forj=1:T
從訓練樣本中選擇一個樣本x
(2)fori=1:M
找出x的k個同類近鄰;
(3)for 從每一個類別C≠class(x)
找出樣本x的k個不同類近鄰;
(4)計算每個特征的權(quán)值
(6)
將計算所得的Wi根據(jù)其值大小進行排序,取Wi較大的前k個特征作為所篩選的關(guān)鍵特征。
F-score是一種基于類內(nèi)類間距離的特征評價算法。實際碰到的問題多是多分類問題,需將原始公式進行改良。文獻[11]對原公式進行了具體改進從而適合多分類樣本的特征評價問題。
給定樣本集xk∈Dm,k=1,2,3,…,n;N為樣本類別數(shù),nj為第j類樣本的個數(shù),其中j=1,2,…,N。第i個特征的F-score值如下定義:
(7)
通過式(6)和式(7)可以定義最大距離的表達式,如下所示:
maxMDi=max(Wi+Fi)
(8)
在對計算所得評分進行歸一化后,可以線性相加綜合反應該特征的類別可分性和類別相關(guān)性,結(jié)合上述兩個約束標準可以定義最大相關(guān)最大距離的表達式如下所示:
max(MDi+MRi)
(9)
在式(9)中目標類別與特征子集間的相關(guān)性以及不同特征的類別可分性占有相同的權(quán)重,利用此公式不一定能得到最優(yōu)特征子集。因此對最大相關(guān)與最大距離賦予不同的權(quán)重因子以獲得最好的特征選擇結(jié)果,對式(9)進行改進如下所示:
max(μMDi+(1-μ)MRi)
(10)
式中,μ的取值范圍為0≤μ≤1,遞增步長為0.1。
利用MRMD特征選擇方法進行軸承損傷程度的識別步驟如下:
(1)研究對象為軸承內(nèi)圈裂紋故障,包括4種不同損傷程度的數(shù)據(jù)樣本,分為訓練樣本集和待測樣本集。對原始數(shù)據(jù)樣本提取時域、頻域特征統(tǒng)計量共計30個,組成原始特征集。
(2)將權(quán)重因子以0.1為步長進行賦值,即μ=0,0.1,…,1。利用MRMD分別得到不同權(quán)重因子對應的特征子集。利用ELM[12]以每次遞增一個特征的方式計算分類正確率,以分類正確率為評判標準確定最佳權(quán)重因子μ以及應選取關(guān)鍵特征的個數(shù)m。
(3)分別采用皮爾遜相關(guān)系數(shù)、ReliefF、F-score、MRMD特征選擇方法,對建立的多域特征集的各個特征進行評分并排序。比較4種特征選擇方法的排序結(jié)果。將得分高的前m個特征作為敏感特征子集。
(4)同樣以分類器正確率為標準,驗證4種特征評價方法所篩選的特征子集是否具有較好的類別可分性和類別相關(guān)性。將特征子集對應的訓練樣本輸入到PNN分類器中進行訓練和測試,根據(jù)分類正確率對不同的特征選擇方法的性能進行評判,完成軸承損傷程度的識別。
為了驗證本文所提出方法的有效性,軸承試驗數(shù)據(jù)來源美國Case Western Reserve University 滾動軸承驗測試數(shù)據(jù)[13]。對象選擇電動機驅(qū)動端支撐軸承,型號為SKF6205。使用電火花加工在軸承上布置單點故障。故障類型選擇內(nèi)圈裂紋故障,裂紋寬度分別為0.18mm、0.35mm、0.53mm、0.71mm。采樣頻率為12 kHz,轉(zhuǎn)速為1797r/min,采集4種不同損傷程度的數(shù)據(jù)樣本。
每種狀態(tài)數(shù)據(jù)樣本取28組數(shù)據(jù)共計112組,每組數(shù)據(jù)包括4096個點,組成112×4096原始特征矩陣,計算特征值組成112×30特征矩陣作為特征選擇算法初始輸入信息。類別標簽N=4,待選特征子集F中共30個特征,依照前節(jié)給出所定義計算公式帶入具體參數(shù)計算特征評分。利用分類器進行識別時,每種狀態(tài)數(shù)據(jù)取16組作為訓練樣本,12組為測試樣本用于軸承損傷程度的識別。
根據(jù)已知參數(shù)利用MRMD方法按照步驟(2)求取不同權(quán)重因子對應的特征子集并進行降序排列。采用ELM分類器測試特征子集,按照排序結(jié)果逐一添加特征。ELM激活函數(shù)選擇Sigmoid函數(shù),隱含層節(jié)點數(shù)為4。不同權(quán)重對應分類正確率的變化如圖1所示。
(a) μ=0.1~0.4對應分類正確率曲線
(b) μ=0.5~0.7對應分類正確率曲線
(c) μ=0.8~1對應分類正確率曲線 圖1 不同權(quán)重對應分類正確率曲線
由圖1可知,隨著特征數(shù)目的增加分類正確率先逐漸增大到達峰值后呈緩慢下降趨勢。不同權(quán)重對應的最高分類正確率也不同,當μ=0.4時達到最高分類正確率為97.1%,所需特征數(shù)目為6個。所以本文選擇權(quán)重因子μ=0.4,選取前m個關(guān)鍵特征的個數(shù)m=6。
接下來采用皮爾遜相關(guān)系數(shù)、ReliefF、F-score以及本文所提出的MRMD特征選擇方法,對建立的多域特征集的各個特征進行評分并排序。依照前節(jié)給出的計算公式帶入具體參數(shù)計算評分,結(jié)果如圖2所示。
(a) 皮爾遜相關(guān)系數(shù)評分
(b) F-score評分
(c) ReliefF評分
(d) MRMD評分 圖2 特征評分結(jié)果
由圖2中的評分結(jié)果可以看出4種特征選擇方法得到的評價結(jié)果有較大差別。為更直觀的了解所篩選特征的重要性,將所有特征值按評分從高到低排序。依照之前計算所得m=6,4種特征選擇算法統(tǒng)一選取評分最高的前6個特征,排序結(jié)果如表2所示。4種特征選擇方法所選取的6個特征存在著較大的差別。為驗證MRMD較其他方法擁有較好的特征篩選能力,將4種方法所篩選特征對應的數(shù)據(jù)分布樣本輸入到PNN中進行訓練和識別,驗證MRMD方法所篩特征的類別可分能力。
表2 特征排序結(jié)果
PNN的學習與訓練過程較為簡單,能夠較快的完成樣本的訓練和預測工作且噪聲對其影響較低,能夠用線性方法計算非線性數(shù)據(jù)。輸入層神經(jīng)元個數(shù)特征矩陣的維數(shù)30;模式層神經(jīng)元個數(shù)等于總樣本數(shù)112,激活函數(shù)為高斯函數(shù);求和層神經(jīng)元個數(shù)為樣本類別數(shù)4。
每種損傷狀態(tài)共計28組數(shù)據(jù),其中16組作為訓練樣本,12組作為測試樣本。由于樣本均為隨機選取,對測試樣本重復10次識別過程,得到共計120組樣本的損傷程度識別結(jié)果,并以平均準確率近似代表實際準確率,分類準確率如表3所示,括號內(nèi)為識別樣本總數(shù)。
表3 分類準確率
由表3可以看出,由MRMD所選特征樣本輸入到PNN分類器中得到的測試集準確率高達97.92%,只有極少部分數(shù)據(jù)樣本出現(xiàn)錯誤識別。以分類正確率為依據(jù)可知MRMD特征選擇方法具有較好的特征評價和篩選能力。表中前3種方法特征樣本的測試集準確率較低,不能單獨使用某一方法進行特征篩選。
針對軸承損傷程度難以識別的問題,以軸承內(nèi)圈裂紋故障為研究對象,提出一種基于MRMD特征評價準則的特征選擇方法,研究30種常用時頻域特征指標對不同損傷程度軸承數(shù)據(jù)的敏感性和類別可分性。利用MRMD方法對所有特征進行評價,將得到的評分來衡量各特征指標的類別可分能力。MRMD方法集成皮爾遜相關(guān)系數(shù)、F-score、ReliefF特征選擇算法,綜合考慮不同類別數(shù)據(jù)樣本間的距離以及不同類數(shù)據(jù)樣本和類別標簽間的相關(guān)性。最后結(jié)合西儲大學的軸承實驗數(shù)據(jù),依據(jù)評分排序得到6個關(guān)鍵特征。利用PNN分類器進行驗證,MRMD方法得到較高的正確率,證明該方法在軸承損傷程度識別方面的可行性和使用價值,其較單一特征選擇方法能夠篩選出類別可分能力強的關(guān)鍵特征。該方法的提出能為軸承狀態(tài)的檢測和安全運行篩選出可靠特征,提高了軸承故障診斷的準確性和可靠性。