楊 宇 李 杰 潘海洋 程軍圣
湖南大學(xué)汽車車身先進(jìn)設(shè)計(jì)制造國(guó)家重點(diǎn)實(shí)驗(yàn)室,長(zhǎng)沙,410082
滾動(dòng)軸承的故障診斷本質(zhì)上是一個(gè)模式識(shí)別的過(guò)程。神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等模式識(shí)別方法在滾動(dòng)軸承故障診斷中應(yīng)用廣泛。但人工神經(jīng)網(wǎng)絡(luò)具有存在局部極小點(diǎn)、收斂速度慢、網(wǎng)絡(luò)學(xué)習(xí)和記憶不穩(wěn)定等缺陷,而且如何根據(jù)特定問(wèn)題來(lái)確定網(wǎng)絡(luò)的結(jié)構(gòu)目前尚無(wú)很好的辦法,仍需憑經(jīng)驗(yàn)和試驗(yàn)[1];支持向量機(jī)(support vector machine,SVM)分類結(jié)果受到核函數(shù)及參數(shù)的影響,而且該方法處理大量數(shù)據(jù)時(shí)由于有尋優(yōu)的過(guò)程而計(jì)算量很大[2]。除了本身固有的缺陷外,神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)在進(jìn)行模式識(shí)別時(shí)都忽略了從原始數(shù)據(jù)中提取的特征值之間的相互內(nèi)在關(guān)系。
然而,在機(jī)械故障診斷中,所有或部分特征值之間大都具有一定的內(nèi)在關(guān)系,而且這種內(nèi)在關(guān)系在不同的系統(tǒng)或類別(相同的系統(tǒng)在不同的工作狀態(tài)下)間具有明顯的不同。因此,可以對(duì)各個(gè)特征值之間的相互內(nèi)在關(guān)系建立數(shù)學(xué)模型,對(duì)于不同的類別可以得到不同的數(shù)學(xué)模型,從而可以采用這些數(shù)學(xué)模型對(duì)被測(cè)試樣本的特征值進(jìn)行預(yù)測(cè),把預(yù)測(cè)結(jié)果作為分類的依據(jù),進(jìn)一步進(jìn)行模式識(shí)別?;诖?,Raghuraj等[3]提出了一種新的模式識(shí)別方法——基于變量預(yù)測(cè)模型的模式識(shí)別(variable predictive model based class discriminate,VPMCD)方法,同時(shí)還將該方法與神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等其他模式識(shí)別方法進(jìn)行了對(duì)比,驗(yàn)證了VPMCD方法的有效性和優(yōu)越性。然而VPMCD法是采用最小二乘回歸估計(jì)參數(shù),最小二乘回歸是建立在自變量之間不存在高度線性相關(guān)的假定基礎(chǔ)上的,而實(shí)際情況中各種自變量之間總是存在著一定的線性相關(guān)性的。當(dāng)這種相關(guān)程度比較高時(shí),采用最小二乘法會(huì)導(dǎo)致回歸分析的正則方程組出現(xiàn)病態(tài),從而使最小二乘法的參數(shù)估計(jì)不穩(wěn)定,模型擬合精度難以保證,在此基礎(chǔ)上進(jìn)行預(yù)測(cè)將可能產(chǎn)生嚴(yán)重的偏差甚至錯(cuò)誤[4]。
針對(duì)這一缺陷,本文提出了VPMCD方法的改進(jìn)方法,采用主成分回歸估計(jì)來(lái)代替最小二乘估計(jì)。主成分回歸估計(jì)方法[5]是對(duì)普通最小二乘估計(jì)方法的一種改進(jìn)方法。主成分回歸估計(jì)法在簡(jiǎn)化結(jié)構(gòu)、消除預(yù)測(cè)變量之間的線性相關(guān)性方面起到了明顯的效果,因此,在回歸估計(jì)時(shí)具有比最小二乘法更好的性能。
本文將改進(jìn)的VPMCD方法應(yīng)用于滾動(dòng)軸承故障診斷,先采用局部特征尺度分解(local characteristic-scale decomposition,LCD)方法[6]將滾動(dòng)軸承振動(dòng)信號(hào)分解成若干個(gè)內(nèi)稟尺度分量(intrinsic scale component,ISC),然后分別求出前幾個(gè)ISC分量的近似熵[7]作為特征值組成特征向量,最后采用改進(jìn)的VPMCD方法得到各故障特征值的預(yù)測(cè)模型,并利用預(yù)測(cè)模型對(duì)待診斷樣本的故障類型和工作狀態(tài)進(jìn)行分類和識(shí)別。
VPMCD方法是一種基于變量預(yù)測(cè)模型的模式識(shí)別方法,它認(rèn)為被用來(lái)將系統(tǒng)劃分為不同類別的全部或部分特征值之間具有內(nèi)在變量關(guān)系,利用不同類別之間的相互內(nèi)在關(guān)系建立數(shù)學(xué)模型,并采用各類訓(xùn)練樣本數(shù)據(jù)對(duì)模型參數(shù)進(jìn)行估計(jì)得到不同的預(yù)測(cè)模型,再通過(guò)預(yù)測(cè)模型對(duì)測(cè)試樣本進(jìn)行預(yù)測(cè)分類。
以機(jī)械故障診斷問(wèn)題為例,采用p個(gè)不同的特征值X = (X1,X2,…,Xp)來(lái)描述一個(gè)故障類別,對(duì)于其中的特征值Xi來(lái)說(shuō),當(dāng)故障類別不同時(shí),其他的一個(gè)或者多個(gè)特征值對(duì)Xi的影響也會(huì)發(fā)生變化。因此,特征值Xi與其余的一個(gè)或者多個(gè)特征值之間存在著一定的函數(shù)關(guān)系,而這種關(guān)系既可以是線性的,也可以是非線性的。為了識(shí)別滾動(dòng)軸承的故障類型,需要有能夠描述這些函數(shù)關(guān)系的數(shù)學(xué)模型,以便對(duì)測(cè)試樣本的特征值進(jìn)行預(yù)測(cè),進(jìn)一步對(duì)測(cè)試樣本進(jìn)行分類,這種模型稱為變量預(yù)測(cè)模型。
為特征值Xi定義的變量預(yù)測(cè)模型是一個(gè)線性或非線性的回歸模型,可以選擇以下四種模型之一。
(1)線性模型(L):
(2)線性交互模型(LI):
(3)二次交互模型(QI):
(4)二次模型(Q):
式中,Xi為被預(yù)測(cè)變量;Xj(j≠i)、Xk為預(yù)測(cè)變量;b0、bj、bjj、bjk為模型參數(shù)(回歸系數(shù));r為模型階數(shù),r≤p-1。
以p個(gè)特征值為例,選取上述四種模型中任意一個(gè)模型,用特征值Xj(j≠i)對(duì)Xi進(jìn)行預(yù)測(cè),都可以得到:
式(5)稱為變量Xi的變量預(yù)測(cè)模型VPMi,其中e為預(yù)測(cè)誤差。
VPMCD方法的步驟如下:
Raghuraj等[3]提出的VPMCD方法在預(yù)測(cè)模型的訓(xùn)練過(guò)程中采用最小二乘法進(jìn)行參數(shù)估計(jì),但是當(dāng)自變量間存在高度線性相關(guān)時(shí),用最小二乘法進(jìn)行參數(shù)估計(jì)會(huì)出現(xiàn)病態(tài),這樣會(huì)使得估計(jì)得到的參數(shù)很不穩(wěn)定,在具體取值上與真實(shí)值有較大偏差。
多元線性回歸分析[8]的一個(gè)基本假設(shè)是自變量之間不存在多重共線性(線性相關(guān)現(xiàn)象),要求設(shè)計(jì)矩陣Z的秩rank(Z)=q+1(q為自變量個(gè)數(shù))。如果自變量之間存在完全的線性關(guān)系,則它們之間的相關(guān)系數(shù)為1。一般情況下,自變量之間存在著程度不同的線性相關(guān)現(xiàn)象,自變量之間的簡(jiǎn)單相關(guān)系數(shù)在0~1之間變化,這時(shí)稱變量之間存在著近似共線性。變量間存在著近似共線性是一種普遍現(xiàn)象。
當(dāng)對(duì)回歸模型
用最小二乘法進(jìn)行參數(shù)估計(jì)時(shí),所得的估計(jì)量為
其中,Z為設(shè)計(jì)矩陣,Z′Z為z1,z2…zq的相關(guān)系數(shù)矩陣,當(dāng)自變量間存在完全的多重共線性時(shí),設(shè)計(jì)矩陣Z的秩rank(Z)<q+1,此時(shí)|Z′Z|=0,(Z′Z)-1不存在,正規(guī)方程組Z′Z^β =Z′y 的解不唯一。當(dāng)自變量間存在近似共線性,且這種近似共線性程度較高時(shí),此時(shí)|Z′Z|≈0,(Z′Z)-1的對(duì)角元素很大的方差陣D(^β)=σ2(Z′Z)-1(σ2為方差估計(jì)函數(shù))的對(duì)角元素很大,因而β0,β1,β2,…,βq的估計(jì)度很低。它將給回歸分析帶來(lái)如下影響:①估計(jì)量的方差很大,不能正確判斷預(yù)測(cè)變量對(duì)被預(yù)測(cè)變量的影響程度。②回歸系數(shù)的方差不斷增大,回歸系數(shù)的估計(jì)值對(duì)于樣本數(shù)據(jù)的微小變化非常敏感,其估計(jì)值的穩(wěn)定性變差。③多元回歸方程用于預(yù)測(cè)時(shí),樣本數(shù)據(jù)中存在的多重共線性問(wèn)題會(huì)在預(yù)測(cè)中存在,它對(duì)預(yù)測(cè)結(jié)果會(huì)產(chǎn)生影響,預(yù)測(cè)結(jié)果不確定性會(huì)增大。針對(duì)這一缺陷,本文提出了基于主成分估計(jì)的VPMCD方法,即采用主成分估計(jì)代替最小二乘估計(jì)。
作為最小二乘估計(jì)的一種改進(jìn)方法,主成分估計(jì)通過(guò)對(duì)原始變量相關(guān)矩陣內(nèi)部結(jié)構(gòu)關(guān)系的研究,找出影響模型過(guò)程的幾個(gè)綜合指標(biāo),使綜合指標(biāo)為原來(lái)變量的線性組合。綜合指標(biāo)不僅保留了原始變量的主要信息,彼此之間又不相關(guān),使得在分析模型時(shí)容易抓住主要矛盾。主成分估計(jì)在回歸分析中已經(jīng)得到了廣泛的應(yīng)用,本文只就其剔除變量間多重共線性的過(guò)程進(jìn)行闡述。
在進(jìn)行分析前,將各變量進(jìn)行標(biāo)準(zhǔn)化處理,以消除不同變量存在不同量綱的影響。標(biāo)準(zhǔn)化數(shù)據(jù)后,設(shè)
將主成分估計(jì)和最小二乘估計(jì)在自變量出現(xiàn)高度線性相關(guān)時(shí)的預(yù)測(cè)結(jié)果進(jìn)行比較,結(jié)果如表1所示。假設(shè)已知x1、x2與y的關(guān)系服從線性回歸方程:
其中ε為預(yù)測(cè)誤差,x1,x2與ε各取12組值,如表1所示。
表1 數(shù)據(jù)的取值
在滾動(dòng)軸承故障振動(dòng)信號(hào)特征提取算法中,近似熵在描述信號(hào)的復(fù)雜性時(shí)具有較好的抗噪、抗干擾能力,而且利用較短數(shù)據(jù)即可以較穩(wěn)健地估計(jì)出信號(hào)的近似熵。同時(shí),近似熵能用于隨機(jī)過(guò)程和確定性過(guò)程,其取值大小會(huì)隨著隨機(jī)過(guò)程和確定過(guò)程的混合比例不同而不同[7]。因此,近似熵能表征信號(hào)的復(fù)雜程度和產(chǎn)生新模式的概率,可將其應(yīng)用于故障診斷領(lǐng)域。而且,文獻(xiàn)[7]指出,在實(shí)際計(jì)算中,數(shù)據(jù)長(zhǎng)度N為有限值,當(dāng)近似熵的嵌入維數(shù)s=2,相似容量r=0.1SDx~0.2SDx(SDx為原始數(shù)據(jù)x(i)的標(biāo)準(zhǔn)差)時(shí),熵值對(duì)N的依賴程度最小,具有較合理的統(tǒng)計(jì)特性。因此,可以通過(guò)近似熵算法對(duì)滾動(dòng)軸承振動(dòng)信號(hào)進(jìn)行特征提取。
然而滾動(dòng)軸承振動(dòng)信號(hào)往往表現(xiàn)出非平穩(wěn)、非線性特性,若直接進(jìn)行近似熵計(jì)算會(huì)影響診斷精度,因此,必須先對(duì)原始振動(dòng)信號(hào)進(jìn)行處理。
本文將近似熵算法和LCD算法應(yīng)用于滾動(dòng)軸承故障診斷中,通過(guò)LCD將滾動(dòng)軸承振動(dòng)信號(hào)分解為若干個(gè)平穩(wěn)的ISC分量,計(jì)算每個(gè)ISC分量的近似熵,再利用不同ISC分量中提取的近似熵之間存在相互關(guān)系這一特點(diǎn),采用改進(jìn)的VPMCD方法建立預(yù)測(cè)模型,從而進(jìn)行模式分類。
本文將改進(jìn)的VPMCD方法應(yīng)用于滾動(dòng)軸承故障診斷中,采用美國(guó)西儲(chǔ)大學(xué)電氣工程實(shí)驗(yàn)室的滾動(dòng)軸承試驗(yàn)數(shù)據(jù)來(lái)對(duì)該方法的有效性和優(yōu)越性進(jìn)行驗(yàn)證,所采用的軸承型號(hào)、參數(shù)和試驗(yàn)裝置見(jiàn)文獻(xiàn)[9]。采樣頻率為48kHz,電機(jī)負(fù)載為0.746kW,轉(zhuǎn)速為1772r/min,故障類型分別為:正常狀態(tài)、外圈故障、內(nèi)圈故障、滾動(dòng)體故障。故障點(diǎn)的直徑為0.01778mm,故障深度為0.02794mm,每種狀態(tài)各得到200個(gè)樣本。
對(duì)各樣本的原始信號(hào)進(jìn)行LCD分解,信號(hào)分解中選擇標(biāo)準(zhǔn)偏差法作為終止判據(jù),選擇鏡像對(duì)稱延拓方法減少邊界效應(yīng)。由于滾動(dòng)軸承故障振動(dòng)信號(hào)的故障信息主要集中在高頻段,因此,可選取前四個(gè)ISC分量,并對(duì)各分量求取近似熵值(算法中選擇s=2,r=0.2SDx),分別標(biāo)記為x1、x2、x3、x4。將所得的近似熵值組成特征向量,以此作為分類器的輸入進(jìn)行模式識(shí)別。
對(duì)于四類狀態(tài),每類狀態(tài)可以得到四組特征值,在進(jìn)行訓(xùn)練和預(yù)測(cè)之前,先對(duì)各特征值的線性相關(guān)性進(jìn)行分析。從四組特征值中選取其中一組作為被預(yù)測(cè)變量,其余三組作為預(yù)測(cè)變量,通過(guò)相關(guān)分析,得到各變量之間的相關(guān)系數(shù)。對(duì)不同類別的不同預(yù)測(cè)變量進(jìn)行相關(guān)分析時(shí)會(huì)出現(xiàn)相似的情況,由于篇幅有限,本文在表2中只列舉了外圈故障狀態(tài)下,當(dāng)被預(yù)測(cè)變量為x4時(shí),各預(yù)測(cè)變量之間的相關(guān)系數(shù)矩陣。
表2 預(yù)測(cè)變量間的相關(guān)系數(shù)矩陣
從表2可以看出,各預(yù)測(cè)變量與其平方項(xiàng)之間,各預(yù)測(cè)變量與其所在的交互項(xiàng)之間的相關(guān)系數(shù)都很高,例如x1與的相關(guān)系數(shù)為0.9965,x1與x1x2的相關(guān)系數(shù)為0.7661。當(dāng)模型類型選用LI、Q、QI時(shí),用最小二乘法進(jìn)行參數(shù)估計(jì)會(huì)出現(xiàn)較大偏差,進(jìn)而影響分類精度。
為了證明改進(jìn)的VPMCD相對(duì)于原始方法能更好地運(yùn)用于滾動(dòng)軸承故障診斷,本文分別用Re-substitution(簡(jiǎn)稱RS)檢驗(yàn)、K-fold cross-validation(簡(jiǎn)稱K-CV)檢驗(yàn)、Jack-Knife(簡(jiǎn)稱JK)檢驗(yàn)對(duì)兩種方法進(jìn)行驗(yàn)證,其中RS檢驗(yàn)?zāi)茯?yàn)證算法的自相容性[10],K-CV檢驗(yàn)和JK檢驗(yàn)是較為客觀和嚴(yán)格的交叉檢驗(yàn)[11],能反映算法的推廣能力。
用RS檢驗(yàn)驗(yàn)證時(shí),在兩種方法下通過(guò)訓(xùn)練得到各變量的最佳模型階數(shù)和模型類型如表3和表4所示。
表3 VPMCD訓(xùn)練得到的最佳模型類型和最佳模型階數(shù)
表4 改進(jìn)VPMCD訓(xùn)練得到的最佳模型類型和最佳模型階數(shù)
表3和表4中的預(yù)測(cè)模型類型和模型階數(shù)都是以最小預(yù)測(cè)誤差平方和作為判別依據(jù)得到的。然而,從兩表中可以看出,原始VPMCD方法通過(guò)訓(xùn)練得到的都是三階二次交互模型,而改進(jìn)的VPMCD方法通過(guò)訓(xùn)練得到的預(yù)測(cè)模型類型和模型階數(shù)隨著被預(yù)測(cè)變量和狀態(tài)的不同而不同。這是因?yàn)樵糣PMCD方法用最小二乘估計(jì)時(shí)認(rèn)為隨著變量數(shù)目的增加,由估計(jì)所得的模型擬合性應(yīng)該更好。但是隨著預(yù)測(cè)變量的增加,變量間的線性相關(guān)性也相應(yīng)增加了,這樣反而有可能降低估計(jì)精度。
通過(guò)三種檢驗(yàn)(本文取K-CV檢驗(yàn)中的K=10),對(duì)比兩種方法的分類結(jié)果,如圖1~圖4所示。
圖1 兩種算法的RS檢驗(yàn)精度
圖2 兩種算法的10-CV檢驗(yàn)精度
圖3 兩種算法的JK檢驗(yàn)精度
圖4 兩種算法在三種檢驗(yàn)下的總檢驗(yàn)精度
從圖1~圖4中可以看出,兩種算法的檢驗(yàn)精度都比較高,但是相比而言,改進(jìn)VPMCD方法的檢驗(yàn)精度比原方法有所提高。例如,在RS檢驗(yàn)中(圖1),改進(jìn)VPMCD方法的外圈故障狀態(tài)檢驗(yàn)精度 (93.00%)比 原始 VPMCD 方 法(90.5%)提高了2.5個(gè)百分點(diǎn);在10-CV檢驗(yàn)中(圖2),改進(jìn)VPMCD方法的內(nèi)圈故障狀態(tài)檢驗(yàn)精度(95.00%)比原方法(93.00%)提高了2個(gè)百分點(diǎn);在JK檢驗(yàn)中(圖3),改進(jìn)VPMCD方法的外圈故障狀態(tài)檢驗(yàn)精度(93.00%)比原始VPMCD方法(90.00%)提高了3個(gè)百分點(diǎn)。因此,從圖4中可以看出,改進(jìn)VPMCD方法在三種檢驗(yàn)下的總檢驗(yàn)精度都要高于原VPMCD方法,這說(shuō)明該方法無(wú)論是在算法的自相容性方面還是在算法的推廣性方面都要優(yōu)于原方法,而且該方法在三種檢驗(yàn)下的高識(shí)別精度也說(shuō)明了它非常適合于滾動(dòng)軸承故障診斷。
改進(jìn)的VPMCD方法在參數(shù)估計(jì)時(shí)將主成分估計(jì)代替原始VPMCD中的最小二乘估計(jì),彌補(bǔ)了最小二乘估計(jì)在變量間出現(xiàn)高度線性相關(guān)時(shí)難以估計(jì)出較穩(wěn)定的回歸參數(shù)的不足。通過(guò)試驗(yàn)比較可知,改進(jìn)的VPMCD方法不僅具有非常高的識(shí)別精度,而且在自相容性、推廣性方面都要優(yōu)于原始VPMCD方法,因此該方法更加適合于滾動(dòng)軸承的故障診斷。
值得一提的是,雖然試驗(yàn)中從同一振動(dòng)信號(hào)下的不同ISC分量中提取的近似熵都具有一定的相互關(guān)系,但是這種相互關(guān)系的具體情況卻難以確定,而且特征值之間相互內(nèi)在關(guān)系的實(shí)際預(yù)測(cè)模型也無(wú)法得到。然而,本文的重點(diǎn)在于利用特征值之間的相互內(nèi)在關(guān)系建立預(yù)測(cè)模型,達(dá)到模式識(shí)別的目的,這種內(nèi)在關(guān)系的具體情況并不需要知道,相應(yīng)的實(shí)際模型也可以利用具體的模型來(lái)近似代替,只要達(dá)到所需要的分類精度即可。VPMCD方法是在假設(shè)特征值之間存在相互內(nèi)在關(guān)系的前提下,通過(guò)訓(xùn)練樣本從四種預(yù)測(cè)模型(L型、LI型、Q型和QI型)中選擇最佳預(yù)測(cè)模型,以此作為實(shí)際模型的近似模型,并通過(guò)近似模型對(duì)測(cè)試樣本進(jìn)行測(cè)試,從而對(duì)滾動(dòng)軸承的故障類型和工作狀態(tài)進(jìn)行分類。試驗(yàn)數(shù)據(jù)的分析結(jié)果表明,該方法達(dá)到了較高的識(shí)別精度,能有效地對(duì)滾動(dòng)軸承的工作狀態(tài)和故障類型進(jìn)行識(shí)別。
[1]Wang C C,Kang Yuan,Shen Pingchen,et al.Applications of Fault Diagnosis in Rotating Machinery by Using Time Series Analysis with Neural Network[J].Expert System with Application,2010,37(2):1696-1702.
[2]Fei Shengwei,Zhang Xiaobin.Fault Diagnosis of Power Transformer Based on Support Vector Machine with Genetic Algorithm[J].Expert Systems with Application,2009,36(8):11352-11357.
[3]Raghuraj R,Lakshminarayanan S.Variable Predictive Models-a New Multivariate Classification Approach for Pattern Recognition Applications[J].Pattern Recognition,2009,42(1):7-16.
[4]Breiman L.Heuristics of Instability and Stabilization in Model Selection[J].The Annals of Statistics,1996,24(4):2350-2383.
[5]Gurmessa T K,Bárdossy A.A Principal Component Regression Approach to Simulate the Bed-evolution of Reservoirs[J].Journal of Hydrology,2009,368:30-41.
[6]程軍圣,鄭近德,楊宇.一種新的非平穩(wěn)信號(hào)分析方法-局部特征尺度分解[J].振動(dòng)工程學(xué)報(bào),2012,25(2):215-220.Cheng Junsheng,Zheng Jinde,Yang Yu.A Nonstationary Signal Analysis Approach—the Local Characteristic—Scale Decomposition Method[J].Journal of Vibration Engineering,2012,25(2):215-220.
[7]Pincus S M.Approximate Entropy as a Measure of System Complexity[J].Proc.Nati.Acad.Sci.USA,1991,88:2297-2301.
[8]Brown C E.Use of Principal-component,Correlation,and Stepwise Multiple-regression Analyses to Investigate Selected Physical and Hydraulic Properties of Carbonate-rock Aquifers[J].Journal of Hydrology,1993,147:169-195.
[9]Case Western Reserve University Bearing Data Center.Bearing Data Center Fault Test Data.[EB/OL].[2009-10-01].http://www.eecs.case.edu/laboratory/bearing.
[10]Cai Yudong,Ricardo P W,Jen C H,et al.Application of SVM to Predict Membrane Protein Types[J].Journal of Theoretical Biology,2004,226:373-376.
[11]Mardia K V,Kent J T,Bibby J M.Multivariate Analysis[M].London:Academic Press,1979.