趙 楠,趙榮珍
(蘭州理工大學(xué) 機電工程學(xué)院,蘭州 730050)
旋轉(zhuǎn)機械故障診斷技術(shù)對于流程工業(yè)的安全可靠運行發(fā)揮著重要作用[1]。隨著該類裝置必須向優(yōu)質(zhì)高效運行目標(biāo)邁進,其監(jiān)測信息的規(guī)模也在擴大,這使得旋轉(zhuǎn)機械故障監(jiān)測系統(tǒng)獲取海量數(shù)據(jù),從而推動旋轉(zhuǎn)機械故障診斷領(lǐng)域進入“大數(shù)據(jù)”時代[2]。面對積累的工業(yè)大數(shù)據(jù)資源,必須使用合理、高效的智能決策技術(shù)將其開發(fā)利用,這對于快速發(fā)展旋轉(zhuǎn)機械智能制造至關(guān)重要[3-4]。
故障模式識別是旋轉(zhuǎn)機械故障診斷的本質(zhì)問題,其目的在于獲得高識別精度[5]。為此,多種分類器應(yīng)運而生,典型的分類算法包括神經(jīng)網(wǎng)絡(luò)(neural network)、支持向量機(support vector machine,SVM)、K最近鄰分類算法(K-nearest neighbor,KNN)等。這些分類算法對于平衡數(shù)據(jù)能夠取得較好的識別效果,然而對于不平衡數(shù)據(jù)中少數(shù)類樣本的識別精度不高[6]。其原因在于這些算法受到數(shù)據(jù)不平衡的影響,在特征學(xué)習(xí)過程中偏向于多數(shù)類樣本學(xué)習(xí),而對少數(shù)類樣本普遍存在著學(xué)習(xí)不足的情況,導(dǎo)致分類器存在對于少數(shù)類樣本識別精度較低的缺陷[7]。在實際情況下的機械設(shè)備監(jiān)測中,設(shè)備故障的發(fā)生屬于少數(shù)類,檢測的數(shù)據(jù)大多數(shù)為正常工作數(shù)據(jù),這種情況容易使得分類器將故障狀態(tài)數(shù)據(jù)誤判為正常狀態(tài)數(shù)據(jù),進而錯過機械設(shè)備的最佳維護時間,造成難以估計的后果和損失[8]。
就不平衡數(shù)據(jù)的分類算法而言,目前較為典型的方法包括集成學(xué)習(xí)法、代價敏感法、單類學(xué)習(xí)法等。其中,集成學(xué)習(xí)法根據(jù)不平衡數(shù)據(jù)構(gòu)建多個具有差異性的分類器,并按照一定方式將分類器識別結(jié)果整合以提高整體分類器對于不平衡數(shù)據(jù)的識別精度。但它存在著多個分類器訓(xùn)練時間長、基分類器類型和數(shù)量選擇較為困難的缺陷。代價敏感法則以錯分代價這一概念為基礎(chǔ),著重關(guān)注錯誤代價較高類別所對應(yīng)的樣本,并使得分類錯誤的總代價最低,從而優(yōu)化分類算法。其缺陷在于難以真實準(zhǔn)確地估計錯分代價,并且不適用于少數(shù)類樣本數(shù)量過少的情況。而單類學(xué)習(xí)法僅利用單一類別的訓(xùn)練數(shù)據(jù)進行訓(xùn)練,能夠減少訓(xùn)練時間,對于處理少數(shù)類樣本數(shù)量極少的情況具有一定優(yōu)勢。然而該方法在訓(xùn)練少數(shù)類樣本時容易發(fā)生過擬合現(xiàn)象,導(dǎo)致分類方法泛化能力偏低。為尋找一種泛化能力強、識別精度高的不平衡數(shù)據(jù)模式識別方法,本文擬將云理論中的云模型引入對于旋轉(zhuǎn)機械不平衡故障數(shù)據(jù)的處理過程中。
云模型具有優(yōu)良的數(shù)學(xué)性質(zhì),能夠?qū)崿F(xiàn)數(shù)據(jù)的可視化效果,因此被廣泛應(yīng)用于各個領(lǐng)域,模式識別是云模型應(yīng)用的重要方面之一[9-13]。云模型能夠?qū)崿F(xiàn)定性概念與定量值間的相互轉(zhuǎn)換,在以不平衡數(shù)據(jù)訓(xùn)練分類器的過程中,通過逆向云發(fā)生器(backward cloud generator,BCG)將多數(shù)類樣本與少數(shù)類樣本轉(zhuǎn)換為期望、熵、超熵3個數(shù)字特征,再通過正向云發(fā)生器(forward cloud generator,FCG)將數(shù)字特征繪制成相同云滴點數(shù)的云圖,有效地減少了不平衡數(shù)據(jù)對于分類過程的影響,解決對不平衡數(shù)據(jù)分類時少數(shù)類樣本識別精度較低的問題。
基于上述緣由,故本文擬對利用云模型改善旋轉(zhuǎn)機械故障數(shù)據(jù)集質(zhì)量問題進行研究,將借助于云圖概念改進云分類器以解決不平衡故障數(shù)據(jù)集的分類與識別問題。欲為工業(yè)大數(shù)據(jù)的智能決策技術(shù)實現(xiàn),提供數(shù)據(jù)運算的基礎(chǔ)理論依據(jù)。
云模型理論是李德毅院士以概率論與模糊數(shù)學(xué)理論兩者為基礎(chǔ)所提出的研究定性概念與其定量表示的認(rèn)知計算模型,其賦予樣本點隨機確定度以統(tǒng)一刻畫概念中的模糊性、隨機性以及關(guān)聯(lián)性[14]。生成云模型最為關(guān)鍵的兩個步驟是構(gòu)建正向、逆向云發(fā)生器。其中:逆向云發(fā)生器計算樣本數(shù)據(jù)的3個數(shù)字特征,既期望(Ex)、熵(En)、超熵(He);正向云發(fā)生器依據(jù)逆向云發(fā)生器輸出的3個數(shù)字特征繪制云圖。兩者相輔相成。
云模型按照云滴概率分布的不同,可分為正態(tài)云、高斯云、冪律云等。正態(tài)分布是概率分布中最基本、最重要、最為廣泛應(yīng)用的模型。因此,正態(tài)隸屬函數(shù)也成為模糊理論中最常使用的隸屬函數(shù),本文所使用的正態(tài)云模型正是以正態(tài)分布和正態(tài)隸屬函數(shù)為基礎(chǔ)構(gòu)建的。
云模型通過逆向云發(fā)生器與正向云發(fā)生器實現(xiàn)定量數(shù)據(jù)與定性概念之間的相互轉(zhuǎn)換,以期望、熵、超熵這3個數(shù)字特征描述一個不確定性概念,這3個數(shù)字特征在云圖中的表示如圖1所示,所代表的含義如下:
期望Ex——期望是云滴在論域空間的中心值,也是最能代表定性概念的點。
熵En——熵值既論域空間中云滴可被定性概念接受的取值范圍,是定性概念不確定性的度量,能夠反應(yīng)云滴的離散程度。
超熵He——超熵是熵值的熵,既熵值的不確定性度量,代表云滴的凝聚程度,超熵值越小則云滴的離散程度也越小。
圖1 云圖中的數(shù)字特征Fig.1 Digital features in cloud chart
正向云發(fā)生器能夠完成定性概念到定量值的轉(zhuǎn)換,它能夠通過3個數(shù)字特征生成云圖中的云滴。構(gòu)建正態(tài)云模型時所使用的二階正向正態(tài)云發(fā)生器算法FCG(Ex,En,He,n)如圖2所示,具體步驟如下:
輸入(Ex,En,He,n)3個數(shù)字特征及生成的云滴個數(shù)n
輸出n個云滴xi及其所對應(yīng)的隸屬度μ(xi)
算法步驟:
步驟1生成一個正態(tài)隨機數(shù)yi=RN(En,He),yi以En為期望、以He2為方差;
步驟4根據(jù)隸屬度μ(xi)以及正態(tài)隨機數(shù)xi在數(shù)域中生成一個云滴;
步驟5循環(huán)步驟1~步驟4,直至生成n個云滴(i=1∶n)。
圖2 正向云發(fā)生器Fig.2 Forward cloud generator
與圖2所示的正向云發(fā)生器相反,逆向云發(fā)生器能夠完成定量值到定性概念的轉(zhuǎn)換,它將精確數(shù)值轉(zhuǎn)換為3個數(shù)字特征所表示的定性概念。本文選擇較為常用的無需確定隸屬的逆向云分類器算法BCG(xi),如圖3所示,具體步驟如下:
輸入樣本點xi(i=1,2,…,n)
輸出反映定性概念的3個數(shù)字特征Ex,En,He
算法步驟:
圖3 逆向云發(fā)生器Fig.3 Backward cloud generator
對于云模型在模式識別中的應(yīng)用,多數(shù)方法是將由正向云發(fā)生器改進出的隸屬度公式與逆向云發(fā)生器相結(jié)合,由此構(gòu)造云分類器對數(shù)據(jù)進行處理分析[16-18]。這種分類方法沒有很好的利用所繪制的云圖,得到的識別結(jié)果與云圖并無直接關(guān)系。為此,本文提出一種改進的云分類器,依據(jù)云圖間的位置關(guān)系判斷出測試數(shù)據(jù)所屬類別。將這種改進的云分類器應(yīng)用于旋轉(zhuǎn)機械故障診斷的數(shù)據(jù)不平衡情況,提高模式識別精度的同時,實現(xiàn)識別結(jié)果的可視化。
融合了云模型的數(shù)據(jù)挖掘方法考慮到模糊性與隨機性,其結(jié)果相較于多種數(shù)據(jù)挖掘方法更加合理,有利于數(shù)據(jù)挖掘的智能化[19]。正態(tài)云模型通過逆向云發(fā)生器與正向云發(fā)生器二者結(jié)合的方式,將不平衡數(shù)據(jù)中的多數(shù)類樣本與少數(shù)類樣本繪制成云滴點數(shù)相同的云圖,能夠有效的降低不平衡數(shù)據(jù)對于模式識別結(jié)果的影響。本文借助云模型對不平衡數(shù)據(jù)分類的優(yōu)勢,以繪制云圖為基礎(chǔ)提出一種改進的云分類器。
構(gòu)建云分類器是云模型理論應(yīng)用于模式識別領(lǐng)域的關(guān)鍵環(huán)節(jié)。本節(jié)依據(jù)各類云圖間的位置關(guān)系提出改進云分類器。首先,通過逆向與正向云發(fā)生器繪制各類數(shù)據(jù)云圖;然后,比較測試數(shù)據(jù)云圖與各類訓(xùn)練數(shù)據(jù)云圖之間中心線的距離,以對測試數(shù)據(jù)進行分類;最后,選擇距離最小的訓(xùn)練數(shù)據(jù)云圖對應(yīng)類別作為測試數(shù)據(jù)的判別結(jié)果,完成模式識別的同時實現(xiàn)特征數(shù)據(jù)的可視化表達。以3個類別的訓(xùn)練數(shù)據(jù)為例,測試數(shù)據(jù)通過改進云分類器進行分類的可視化識別結(jié)果表達,如圖4所示。其中:Ex1,Ex2,Ex3對應(yīng)3種訓(xùn)練數(shù)據(jù)云圖的中心線;Ex對應(yīng)測試數(shù)據(jù)云圖的中心線。由圖4可知,測試數(shù)據(jù)云圖與第二類訓(xùn)練數(shù)據(jù)云圖的中心線距離最短,因此將測試數(shù)據(jù)歸為第二類別。
圖4 改進云分類器的可視化結(jié)果表達Fig.4 Improve the visualization result expression of cloud classifier
由逆向云發(fā)生器及正向云發(fā)生器的過程推導(dǎo)可知,對于某一特征下的單個待測樣本,其期望值為特征值本身,熵值與超熵值為零,使得該樣本能夠計算得出云圖中心線對應(yīng)于x軸的坐標(biāo)值(即期望Ex),而無法求解出云滴在云圖中對應(yīng)于y軸的坐標(biāo)值(即隸屬度μ(xi)),不能繪制出單個待測樣本的云圖,進而模式識別也難以進行。為解決該問題,依據(jù)云圖中位置關(guān)系提出類別判別公式D=|Ex-Ext|,將待測樣本的期望值減去各個訓(xùn)練樣本的期望值,絕對值最小的差值所對應(yīng)訓(xùn)練樣本狀態(tài)即為待測樣本狀態(tài)。通過上述判別準(zhǔn)則,以測試數(shù)據(jù)繪制云圖、以判別公式對待測樣本進行分類,完成的改進云分類器構(gòu)建流程如圖5所示,具體應(yīng)用步驟如下:
輸入單一特征下的t組訓(xùn)練數(shù)據(jù)與測試數(shù)據(jù)、云滴個數(shù)n,其中t為數(shù)據(jù)的類別個數(shù)
輸出識別結(jié)果d
算法步驟:
步驟1生成數(shù)字特征,將某一特征下各個類別的訓(xùn)練數(shù)據(jù)與該特征下的測試數(shù)據(jù)作為逆向云發(fā)生器的輸入,得到t+1組數(shù)字特征(Ex,En,He);
步驟2繪制云圖,將生成的t+1組數(shù)字特征作為正向云發(fā)生器的輸入,分別得到由各組數(shù)字特征衍生出的n個云滴(xi,μi)(i=1∶n),將各組云滴繪制成所對應(yīng)的訓(xùn)練數(shù)據(jù)及測試數(shù)據(jù)云圖;
步驟3計算距離,通過公式D=|Exj-Ext|(j=1∶j),其中j為測試數(shù)據(jù)所包含的待測樣本數(shù)量。計算出待測樣本所對應(yīng)的期望值Exj與各個狀態(tài)下訓(xùn)練數(shù)據(jù)云圖所對應(yīng)的期望值Ext之間差值的絕對值,即待測樣本期望值與各個訓(xùn)練數(shù)據(jù)云圖中心線之間的距離;
步驟4模式識別,取t個距離中最小值Dmin所對應(yīng)的期望值Exj=d(t∈1∶t),則判定第d個訓(xùn)練數(shù)據(jù)云圖所對應(yīng)的類別即為待測樣本的識別結(jié)果。即將待測樣本歸類于云圖中心線間距離最近的訓(xùn)練數(shù)據(jù)所屬類別。
改進的云分類器能夠使識別結(jié)果與所繪制的云圖對應(yīng),實現(xiàn)識別結(jié)果的可視化。但該分類器在分類的過程中只利用數(shù)據(jù)集中的單一特征,不利于獲得較高識別精度,同時造成了數(shù)據(jù)資源浪費。為解決這一問題,將本文所提方法與集成學(xué)習(xí)方法相結(jié)合,以n個特征訓(xùn)練對應(yīng)個數(shù)的云分類器,形成n組識別標(biāo)簽,再將這些標(biāo)簽通過相對多數(shù)投票法進行整合,選取標(biāo)簽數(shù)量最多的類別作為識別結(jié)果。
圖5 改進云分類器流程圖Fig.5 Improved cloud classifier flow chart
通過集成學(xué)習(xí)的方式將多個云分類器進行組合,使得分類方法能夠處理多個特征,但在分類過程中,并不是特征數(shù)量越多越好。過多的特征數(shù)量將會導(dǎo)致分類器訓(xùn)練時間過長、分類模型復(fù)雜,甚至?xí)档湍J阶R別精度[20]。因此,本研究采用ReliefF算法對初始特征集中的特征進行選擇,以選取出特征數(shù)量適當(dāng)并有利于實施分類的低維特征集進行模式識別。構(gòu)建低維特征集的過程中,通過ReliefF算法計算出初始特征集中各個特征的權(quán)重,并依據(jù)權(quán)重的降序排序?qū)μ卣鬟M行重新排序,以選取出權(quán)重較大的前m個優(yōu)質(zhì)特征構(gòu)成低維特征集。ReliefF算法計算特征權(quán)重的過程中,首先從初始特征集中隨機選取一個樣本Ri(i=1,2,…,m),從Ri的同類樣本子集中尋找Ri的k個近鄰樣本,記為Hj(j=1,2,…,k),從Ri的不同類樣本子集中尋找Ri的k個近鄰樣本,記為Mj(j=1,2,…,k);其次將選好的各樣本代入特征A的權(quán)重w(A)迭代公式(式(1));最后對上述步驟進行m次重復(fù),以完成權(quán)重公式的m次迭代,得到初始特征集中各個特征的權(quán)重。
(1)
式中:抽樣次數(shù)m為公式的迭代次數(shù);diff(A,Ri,Hj)為樣本Ri與樣本Hj在特征A上的距離;class(Ri)為樣本Ri所屬類別;C≠class(Ri)為類別C與樣本Ri不為同類別;P(C)為C類別樣本占總樣本數(shù)量的比例。
為能夠達到較高的識別精度,同時減少分類算法運行時間、降低分類模型復(fù)雜度,通過網(wǎng)格搜索法選取最優(yōu)特征數(shù)量m以及ReliefF算法中近鄰樣本數(shù)k。
將改進云分類器與上述集成學(xué)習(xí)算法、ReliefF算法相結(jié)合,所構(gòu)建的不平衡數(shù)據(jù)模式識別方法流程圖如圖6所示,具體步驟如下:
步驟1采集旋轉(zhuǎn)機械的原始振動信號并進行預(yù)處理,構(gòu)造初始特征集;
步驟2通過ReliefF算法對初始特征集進行特征選取,構(gòu)建低維特征集;
步驟3依據(jù)低維特征集劃分出不平衡訓(xùn)練集和測試集;
步驟4將單一特征下的各狀態(tài)訓(xùn)練數(shù)據(jù)及待測樣本代入改進的云分類器,構(gòu)建出低維特征集特征個數(shù)的云分類器,并繪制各狀態(tài)云圖;
步驟5將各個云分類器的識別結(jié)果通過相對多數(shù)投票法進行結(jié)合,輸出故障識別結(jié)果。
圖6 建立方法的流程圖Fig.6 Flow chart of the establishment method
為驗證本文所提不平衡數(shù)據(jù)模式識別方法的有效性,使用無錫厚德自動化儀表有限公司所提供的綜合故障模擬試驗臺,模擬滾動軸承運行狀態(tài)并對不同狀態(tài)下的振動信號進行采集,通過本方法對所采集的數(shù)據(jù)進行模式識別,使用的試驗臺如圖7所示。
試驗采用NSK6308型號軸承,通過加速度傳感器采集軸承在正常、內(nèi)圈故障、外圈故障、滾動體故障、保持架故障共5種狀態(tài)下的振動信號。試驗設(shè)置采樣頻率為8 000 Hz,采樣轉(zhuǎn)速分別為2 600 r/min,2 800 r/min,3 000 r/min的運行狀態(tài)。對所采集的振動信號進行小波消噪,截取同一轉(zhuǎn)速下的各個狀態(tài)振動信號80組,共計400組樣本,樣本長度為1 024點。提取該樣本的時域特征6個、頻域特征10個、時頻域特征4個,共計20個特征,具體特征組成情況如表1所示。試驗臺設(shè)置有5個信號采集通道,故所構(gòu)成的初始特征集特征維數(shù)為100。為便于后續(xù)計算、利于云圖可視化表達,將初始特征集進行歸一化,歸一化區(qū)間為[-1,1]。
圖7 綜合故障模擬試驗臺Fig.7 Comprehensive failure simulation test bench
表1 故障特征組成情況Tab.1 Fault feature composition
通過RelifF算法計算初始特征集中各個特征的權(quán)重,以3 000 r/min運行狀態(tài)下的初始特征集為例得到的權(quán)重狀態(tài),如圖8所示。圖8中,特征序號1~20代表通道1振動信號的表1中所述20個特征,依此類推。將此權(quán)重降序排序,取權(quán)重較大的前m個權(quán)重所對應(yīng)的特征構(gòu)成低維特征集。采用網(wǎng)格搜索法,選取ReliefF算法中的k近鄰樣本數(shù)為7、低維特征集的特征數(shù)為29。3 000 r/min運行狀態(tài)下低維特征集的特征組成情況,如表2所示,特征排序按照其權(quán)重由大到小進行排列。以表2中序號5特征為例,其表示低維特征集中的第5個特征為通道1下的頻譜一階重心(表1中的序號10特征)。將此低維特征集按照5∶5劃分為平衡訓(xùn)練集與測試集,兩者樣本數(shù)均為200。取訓(xùn)練集中的正常樣本40個、內(nèi)圈故障樣本20個、外圈故障樣本20個、滾動體故障樣本10個、保持架故障樣本10個,完成不平衡訓(xùn)練集的構(gòu)建。為便于后續(xù)試驗的表達,將本文提出的依據(jù)云圖間距離的不平衡數(shù)據(jù)模式識別方法命名為以云圖間距離為基礎(chǔ)的云模型模式識別方法(distance cloud model,DCT)。
圖8 特征權(quán)重圖Fig.8 Feature weight histogram
表2 低維特征集的特征組成情況Tab.2 Feature composition of low-dimensional feature set
獲得高的識別精度是模式識別研究的目的所在,為驗證本文所提方法對于不平衡數(shù)據(jù)的故障識別能力,選用3.1節(jié)所述的3 000 r/min運行狀態(tài)下的數(shù)據(jù)進行驗證,按照該節(jié)所述方法構(gòu)造維數(shù)為29的低維特征集、劃分不平衡訓(xùn)練集以及測試集。對于不平衡數(shù)據(jù)的各類訓(xùn)練數(shù)據(jù)、各類測試數(shù)據(jù)的云圖繪制,如圖9所示。圖9中的測試數(shù)據(jù)云圖均能得到正確分類;DCT方法對于測試集的識別結(jié)果如表3所示。該結(jié)果證明了DCT方法對于不平衡數(shù)據(jù)的多數(shù)類樣本、少數(shù)類樣本均能實施正確分類,驗證了本文方法的可行性。為證明DCT方法與其他分類方法對于不平衡數(shù)據(jù)的分類具有一定優(yōu)勢,將本方法與BP(back propagation)神經(jīng)網(wǎng)絡(luò)、SVM、以及云模型和集成極限學(xué)習(xí)機相結(jié)合的滾動軸承故障診斷方法(ensemble-extreme learning machine,E-ELM),這3種故障識別算法進行識別精度對比。BP、SVM分類方法均選用之前所述的3 000 r/min運行狀態(tài)下的低維特征集所劃分的不平衡訓(xùn)練集以及測試集,將不平衡訓(xùn)練集代入各個分類方法進行訓(xùn)練、測試集進行測試,其中SVM的核函數(shù)使用高斯徑向基函數(shù)(radial basis function,RBF),BP神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)為29-100-5。E-ELM方法按照文獻[21]所述步驟,提取3 000 r/min 運行狀態(tài)振動信號的云特征構(gòu)建初始特征集,特征集劃分訓(xùn)練、測試集的比例和不平衡訓(xùn)練集的構(gòu)建方法均與本文方法相一致,將ELM分類器的隱層神經(jīng)元個數(shù)設(shè)置為25,其余參數(shù)按照趙榮珍等研究中的參數(shù)選擇部分進行設(shè)置。本文所提方法以及各分類算法對于平衡數(shù)據(jù)、不平衡數(shù)據(jù)的識別結(jié)果見表3。
圖9 3 000 r/min下的各類數(shù)據(jù)云圖Fig.9 Various data cloud images under 3 000 r/min
表3 各分類方法識別精度Tab.3 Identification accuracy of classification methods
由表3分析可知,各算法對于平衡數(shù)據(jù)識別精度較高,BP神經(jīng)網(wǎng)絡(luò)、SVM、E-ELM的各狀態(tài)平均識別精度分別為98.45%,97%,98.5%,而本文所提DCT方法的平均識別精度為100%,具有一定的優(yōu)勢。對于不平衡數(shù)據(jù),BP神經(jīng)網(wǎng)絡(luò)、SVM、E-ELM的識別精度明顯下降,對于訓(xùn)練樣本數(shù)量較少的保持架狀態(tài)識別精度下降至95.5%,77.5%,90%,平均識別精度也下降至97.3%,90%,96.5%,而本文所提DCT方法的平均識別精度保持不變。其原因在于,BP神經(jīng)網(wǎng)絡(luò)對樣本的依賴性強,少數(shù)類樣本的識別精度會明顯低于多數(shù)類樣本識別精度;SVM在對不平衡數(shù)據(jù)實施分類時,分類面會向少數(shù)類樣本方向偏移,導(dǎo)致部分少數(shù)類樣本被誤判為多數(shù)類樣本,降低了少數(shù)類樣本的識別精度;E-ELM中所使用的ELM分類器與BP神經(jīng)網(wǎng)絡(luò)都基于前饋神經(jīng)網(wǎng)絡(luò)的架構(gòu)之下,故ELM同樣對樣本有著較強的依賴性,少數(shù)類樣本識別精度相對較低。而DCT方法通過逆向、正向云發(fā)生器將多數(shù)類、少數(shù)類訓(xùn)練樣本繪制成云滴點數(shù)相同的云圖,并依據(jù)云圖間距離對測試樣本進行分類,一定程度減少了不平衡數(shù)據(jù)對于分類的影響。因此,相較于其他分類算法,本文方法在不平衡數(shù)據(jù)故障識別中具有一定優(yōu)勢。
對于某一轉(zhuǎn)速的軸承不平衡故障數(shù)據(jù),所提方法有著較高的識別精度,然而旋轉(zhuǎn)機械的軸承在實際運轉(zhuǎn)情況下轉(zhuǎn)速不唯一,甚至?xí)霈F(xiàn)速度波動的干擾。因此,需要對本文方法對于不同工況的適用性以及抗速度波動干擾能力進行驗證。為驗證本文所提的DCT方法在不同轉(zhuǎn)速下的識別能力,分別采用3.1節(jié)介紹的2 600 r/min,2 800 r/min,3 000 r/min這3種工況下的軸承故障數(shù)據(jù)進行識別。為驗證本文方法的抗速度波動干擾能力,將兩種轉(zhuǎn)速下的軸承故障初始特征集按照5∶5進行混合,2 600 r/min,2 800 r/min初始特征集合并成維數(shù)相等的2 600~2 800 r/min初始特征集,2 800 r/min,3 000 r/min初始特征集合并成維數(shù)相等的2 800~3 000 r/min初始特征集,并通過DCT方法對兩個混合轉(zhuǎn)速的初始特征集進行識別。將2 600 r/min,2 800 r/min,3 000 r/min,2 600~2 800 r/min,2 800~3 000 r/min 故障初始特征集的轉(zhuǎn)速命名為轉(zhuǎn)速A、B、C、D、E,不平衡數(shù)據(jù)構(gòu)建以及試驗參數(shù)選擇按照3.1節(jié)所述方法進行。DCT方法對于不同工況的不平衡數(shù)據(jù)識別結(jié)果,如表4所示。
表4 DCT方法對于不同工況下的不平衡數(shù)據(jù)識別結(jié)果Tab.4 DCT method for the identification results of unbalanced data under different working conditions
由表4可以看出,DCT方法對于不同工況下的不平衡數(shù)據(jù)仍有較高模式識別精度并有良好的抗速度波動干擾能力,故本文所提方法在軸承故障不平衡數(shù)據(jù)的模式識別領(lǐng)域具有較好的適用性。
DCT方法在本實驗室所測的軸承數(shù)據(jù)集上對樣本分布不平衡的少數(shù)類樣本能夠取得較高的識別精度,而該方法是否適用于其他數(shù)據(jù)集需要進一步驗證。為驗證本文所提方法的泛化性能,采用美國凱斯西儲大學(xué)電氣工程實驗室的滾動軸承數(shù)據(jù)進行試驗驗證。所使用數(shù)據(jù)采集于機械系統(tǒng)驅(qū)動端的加速度傳感器,負(fù)載為1 hp、采樣頻率為12 kHz,故障損傷直徑為0.533 4 mm。數(shù)據(jù)集中包含了軸承運轉(zhuǎn)的正常狀態(tài)以及3種故障狀態(tài):內(nèi)圈故障、外圈故障、滾動體故障。對各個狀態(tài)振動信號進行小波消噪,并截取各類振動信號80組,共計320組樣本,樣本長度為2 048點。按照3.1節(jié)所述方法構(gòu)建特征集,選取權(quán)重較大的前10個特征構(gòu)成低維特征集,不平衡訓(xùn)練集組成情況為:正常狀態(tài)樣本40個、內(nèi)圈故障樣本20個、外圈故障樣本20個、滾動體故障樣本20個。由DCT方法得到的識別結(jié)果如圖10所示。
圖10 不平衡數(shù)據(jù)集識別結(jié)果圖Fig.10 Unbalanced data set identification result graph
由圖10分析得出,對于此不平衡數(shù)據(jù)集,內(nèi)圈狀態(tài)的識別精度為97.5%,其中一個樣本被誤分為正常狀態(tài),其余狀態(tài)的識別精度均能達到100%。由此可見,本文所提的DCT不平衡數(shù)據(jù)模式識別方法具有較好的泛化性。
針對不平衡數(shù)據(jù)分類時少樣本數(shù)據(jù)識別精度較低的問題,提出了一種基于云模型的不平衡數(shù)據(jù)模式識別方法。該方法以RelifF算法對特征集進行二次選擇,精簡分類器結(jié)構(gòu)、減少計算量;通過云模型中的逆向、正向云發(fā)生器將多數(shù)類樣本以及少數(shù)類樣本繪制成云滴點數(shù)相同的各類數(shù)據(jù)云圖,依據(jù)測試數(shù)據(jù)云圖與訓(xùn)練數(shù)據(jù)云圖間的距離判別測試數(shù)據(jù)類型,有效避免了不平衡數(shù)據(jù)對于識別過程的影響;結(jié)合集成學(xué)習(xí)方法,將各個特征的云分類器進行整合,解決了云分類器僅處理單一特征的問題,提高了識別精度。
研究結(jié)果表明,本文所建立的方法相較于其他模式識別方法對旋轉(zhuǎn)機械軸承的不平衡數(shù)據(jù)有著較高識別精度,同時本方法適用于不同工況數(shù)據(jù)以及公開數(shù)據(jù)集,具有一定的泛化性,為旋轉(zhuǎn)機械的智能故障識別方法提供了一種新的參考方案。