劉遠(yuǎn)紅, 劉 帆, 李 鑫
(1. 東北石油大學(xué) 電氣信息工程學(xué)院, 黑龍江 大慶 163318; 2. 大慶鉆探工程公司 鉆井三公司, 黑龍江 大慶 163000)
隨著科學(xué)技術(shù)的不斷進(jìn)步, 機(jī)械設(shè)備逐漸朝著智能化的方向發(fā)展, 對(duì)其運(yùn)行的可靠性要求越來(lái)越高。為確保機(jī)械設(shè)備可靠穩(wěn)定地運(yùn)行, 必須對(duì)關(guān)鍵性部件進(jìn)行狀態(tài)監(jiān)測(cè)和故障診斷。軸承作為機(jī)械設(shè)備中最為關(guān)鍵的部件之一, 其運(yùn)行可靠性是設(shè)備正常、 穩(wěn)定工作的前提, 因此對(duì)軸承的故障分析非常必要。
為盡可能地全面反映軸承故障信息, 需要各類(lèi)傳感器收集大量復(fù)雜的高維軸承運(yùn)行數(shù)據(jù)。高維數(shù)據(jù)不僅增加了計(jì)算復(fù)雜度, 還造成了維數(shù)災(zāi)難。因此, 軸承故障診斷方法的核心問(wèn)題是從高維數(shù)據(jù)中提取出顯著特征[1]。近年來(lái), 許多研究人員投入了大量的精力, 利用流形學(xué)習(xí)算法提取數(shù)據(jù)的重要特征。流形學(xué)習(xí)算法[2,3]通過(guò)在高維空間中挖掘數(shù)據(jù)集的內(nèi)在幾何結(jié)構(gòu), 并在低維空間中對(duì)該結(jié)構(gòu)進(jìn)行保持, 以實(shí)現(xiàn)數(shù)據(jù)維度的約簡(jiǎn)。一般來(lái)說(shuō), 流形學(xué)習(xí)算法大致可分為兩類(lèi): 線(xiàn)性算法[4]和非線(xiàn)性算法[5]。經(jīng)典的線(xiàn)性算法, 如主成分分析(PCA: Principal Components Analysis)[6]、 多維尺度縮放(MDS: Multidimensional Scaling)[7]、 線(xiàn)性判別分析(LDA:Linear Discriminant Analysis)[8]等通過(guò)構(gòu)造高維和低維空間之間的線(xiàn)性函數(shù), 從而可以很容易地將高維樣本的數(shù)據(jù)投影到低維空間。非線(xiàn)性算法如等距特征映射ISOMAP(Isometric Mapping)[9]、 局部切空間排列(LTSA:Local Tangent Space Alignment)[10]和局部線(xiàn)性嵌入(LLE: Locally Linear Embedding)[11]等通過(guò)尋找局部結(jié)構(gòu)降低數(shù)據(jù)集的維數(shù)。ISOMAP通過(guò)測(cè)地線(xiàn)距離測(cè)量成對(duì)距離, 并在低維空間中保留測(cè)地線(xiàn)距離。LTSA通過(guò)切空間表示每個(gè)鄰域的局部結(jié)構(gòu)。LLE利用局部線(xiàn)性重建權(quán)系數(shù)表示局部結(jié)構(gòu)。
然而, 所有這些流形聚類(lèi)算法都假設(shè)特征向量嵌入在歐幾里德空間中, 并使用歐幾里德度量或其變體執(zhí)行聚類(lèi)。雖然這在某些情況下可能是合適的, 但如果數(shù)據(jù)樣本不在歐幾里德空間上, 由于歐氏距離不能很好地刻畫(huà)樣本之間的真實(shí)幾何關(guān)系, 傳統(tǒng)的降維方法在聚類(lèi)性能上表現(xiàn)不理想。因此, 在非歐氏空間考慮高維數(shù)據(jù)的特征提取方法顯得更合理。例如, 黎曼流形用于MIMO(Multiple-Input Multiple-Output)雷達(dá)目標(biāo)檢測(cè)[12], 對(duì)稱(chēng)半正定矩陣通常用于擴(kuò)散張量成像和結(jié)構(gòu)張量分析[13]。
筆者用相空間重構(gòu)方法構(gòu)造出對(duì)稱(chēng)正定矩陣(SPD: Symmetric Positive Definite Matrices)形式的樣本點(diǎn)表示, 賦予SPD流形黎曼度量使其成為可微黎曼流形[14]。然而, 由于黎曼流形不是線(xiàn)性向量空間, 所以許多歐氏空間上的特征提取算法不能直接在黎曼流形上實(shí)現(xiàn)。為了能在黎曼流形上進(jìn)行特征提取, 筆者提出了黎曼圖嵌入方法對(duì)高維黎曼流形進(jìn)行初步降維, 再將流形上的所有數(shù)據(jù)點(diǎn)投影到其切線(xiàn)空間, 即歐幾里德空間。在切空間中結(jié)合主成分分析(PCA)和線(xiàn)性判別分析(LDA)算法進(jìn)行識(shí)別和分類(lèi)。
對(duì)稱(chēng)矩陣空間表示為S1={X∈RN×N,X=XT}, 正定矩陣空間表示為S2={X∈RN×N,vTXv>0, ?v∈RN}, SPD矩陣定義為S=S1∩S2, SPD矩陣位于可微黎曼流形上[14]。因此, 許多黎曼幾何工具可應(yīng)用于SPD矩陣。兩個(gè)SPD矩陣X1、X2之間的黎曼距離是流形上連接其長(zhǎng)度最小的曲線(xiàn)。
黎曼距離的計(jì)算形式有多種不同的方法, 在本文中, 采用仿射不變黎曼度量(AIRM: Affine Invariant Riemannian Metric)[15]
(1)
對(duì)n個(gè)N×N階的SPD矩陣所構(gòu)成的黎曼流形表示為Sn, 對(duì)Sn中的任意一點(diǎn)X, 經(jīng)過(guò)X點(diǎn)的所有切向量的集合構(gòu)成切空間TXM,TXM={logXXi,Xi∈Sn}。切空間中的每個(gè)切向量Li均可看成是與其指數(shù)映射之間的測(cè)地線(xiàn)在X處的導(dǎo)數(shù)。指數(shù)與對(duì)數(shù)映射定義為
logX(Si)=Li=X1/2log(X-1/2SiX-1/2)X1/2
(2)
Exp(Li)=Si=X1/2exp (X-1/2LiX-1/2)X1/2
(3)
其中l(wèi)og(·)、 exp(·)分別為矩陣的對(duì)數(shù)、 指數(shù)算子, 這兩個(gè)算子是黎曼流形和其切空間之間一一對(duì)應(yīng)的映射算子。
SPD流形的均值在分類(lèi)中起著重要作用。其被定義為X∈Sn且到流形上的所有數(shù)據(jù)點(diǎn)具有距離平方和最小的點(diǎn)
(4)
傳統(tǒng)的軸承故障診斷方法主要通過(guò)對(duì)采集到的一維時(shí)域向量信號(hào)進(jìn)行分析, 這種向量模型不能反映數(shù)據(jù)的結(jié)構(gòu)信息從而導(dǎo)致了特征提取算法性能的下降。筆者選用相空間重構(gòu)方法[16]構(gòu)造數(shù)據(jù)的SPD模型。
一個(gè)系統(tǒng)在某一時(shí)間的狀態(tài)稱(chēng)為相, 決定狀態(tài)的幾何空間稱(chēng)為相空間。時(shí)間序列的相空間重構(gòu)是將一維的時(shí)間序列擴(kuò)展到三維甚至高維的相空間中, 將時(shí)間序列中蘊(yùn)含的信息充分地顯露出來(lái)。筆者選用延時(shí)重構(gòu)法構(gòu)造SPD模型。延時(shí)重構(gòu)算法通過(guò)在一定延遲時(shí)間中排列原始信號(hào)恢復(fù)系統(tǒng)的固有狀態(tài)變量, 這對(duì)故障診斷非常有用。延遲相空間重構(gòu)法有兩個(gè)關(guān)鍵參數(shù), 即嵌入維d和時(shí)間延遲τ。在Takens定理中, 對(duì)理想的無(wú)限長(zhǎng)和無(wú)噪聲一維時(shí)間序列,d和τ可取任意值, 但現(xiàn)實(shí)應(yīng)用中的時(shí)間序列都是有噪聲的有限長(zhǎng)序列, 嵌入維數(shù)和時(shí)間的選擇有著重要意義, 否則會(huì)影響重構(gòu)相空間質(zhì)量。關(guān)于時(shí)間延遲與嵌入維數(shù)的選取方法, 目前主要有兩種觀(guān)點(diǎn): 一是認(rèn)為兩者是互不相關(guān)的, 先求出時(shí)間延遲后再求出嵌入維數(shù), 常用的方法有自相關(guān)法、 平均位移法和復(fù)自相關(guān)法等; 另一種觀(guān)點(diǎn)認(rèn)為兩個(gè)參數(shù)是相關(guān)的, 實(shí)際中比較常用的C-C法就屬于此類(lèi), 該方法使用關(guān)聯(lián)積分同時(shí)估計(jì)時(shí)間延遲τ和嵌入維數(shù)d。筆者采用兩個(gè)參數(shù)不相關(guān)的觀(guān)點(diǎn), 對(duì)嵌入維數(shù)d, 由于Cao[17]方法對(duì)噪聲具有較強(qiáng)的魯棒性, 且不需要人工設(shè)定閾值, 因此采用Cao方法, 而時(shí)間延遲τ由Taken理論確定[18]。
設(shè)原始故障數(shù)據(jù)向量樣本Xi∈RD,i=1,2,…,n,n為樣本個(gè)數(shù),D為原始信號(hào)維度, 當(dāng)嵌入的相空間個(gè)數(shù)為d, 延遲時(shí)間為τ時(shí), 嵌入數(shù)據(jù)的維度為d1=D-(d-1)×τ。通過(guò)相空間重構(gòu)得到轉(zhuǎn)換矩陣ω∈Rd×d1, 原始信號(hào)的SPD矩陣可以表示為
Xi=ωωT∈Rd×d1
(5)
筆者提出了一種保持測(cè)地線(xiàn)距離的降維算法尋找SPD流形的低維嵌入, 并在此基礎(chǔ)上提出了一種有效的分類(lèi)算法。
受局部保持算法(LPP: Locality Preserving Projections)[19]的啟發(fā), 對(duì)樣本之間的局部流形結(jié)構(gòu)進(jìn)行編碼。簡(jiǎn)言之, 如果兩個(gè)高維樣本相似, 則它們對(duì)應(yīng)的低維表示也應(yīng)該相似。為學(xué)習(xí)黎曼流形的低維嵌入, 首先為黎曼流形上的數(shù)據(jù)點(diǎn)構(gòu)造一個(gè)黎曼圖G=(υ,ε;H)。假設(shè)對(duì)流形上的數(shù)據(jù)集X=[X1,X2,…,Xn],Xi∈S,Xi∈RN×N(i=1,2,…,n),G=(υ,ε;H)表示有n個(gè)頂點(diǎn)的圖,υ、ε分別表示頂點(diǎn)集和邊集。每個(gè)頂點(diǎn)對(duì)應(yīng)一個(gè)樣本。相似度矩陣H∈Rn×n定義了圖G的結(jié)構(gòu), 通常使用如下熱核函數(shù)計(jì)算圖的結(jié)構(gòu)
(6)
其中K(Xi)為頂點(diǎn)Xi的近鄰集合, 近鄰點(diǎn)選擇時(shí)使用之前提到的仿射不變黎曼測(cè)度,dij=δ(Xi,Xj),σ為核參數(shù), 如果hij≠0, 則第i,j個(gè)頂點(diǎn)由權(quán)重為hij的邊連接。
為保持SPD矩陣的結(jié)構(gòu), 采用雙映射Yi=UXiUT,U為映射矩陣,U∈RM×N(M (7) 根據(jù)數(shù)學(xué)方法使用迭代更新求解, 迭代項(xiàng)為 (8) (9) 其中t為迭代次數(shù), 初始值設(shè)為U1=[IM,0],U∈RM×N。 為擴(kuò)展歐氏空間中的聚類(lèi)算法, 在黎曼圖嵌入得到的低維SPD流形基礎(chǔ)上借助黎曼幾何工具, 找出流形的中心點(diǎn)并將所有樣本點(diǎn)投影到其切空間中。在切空間中向量化切向量SPD矩陣, 采用PCA和LDA的融合算法對(duì)樣本進(jìn)行聚類(lèi)。 LDA即線(xiàn)性判別分析算法,該算法通過(guò)從高維空間中提取出最具鑒別能力的低維特征,利用這些低維特征可以很好地區(qū)分不同類(lèi)別的樣本,將屬于同一類(lèi)別的樣本集合在一起,不同類(lèi)樣本盡可能分開(kāi), 即選取使樣本類(lèi)間離散度與樣本類(lèi)內(nèi)離散度之間的比值達(dá)到最大的特征。PCA是進(jìn)行數(shù)據(jù)分析、 提取數(shù)據(jù)特征的一種典型的統(tǒng)計(jì)分析方法[6]。LDA、 PCA 的基本方法比較常用, 不再單獨(dú)贅述。 采用PCA特征提取, 其主要目的是盡量減少特征維數(shù), 解決維數(shù)災(zāi)難問(wèn)題, 希望得到的少數(shù)特征有利于故障分離, 但PCA在降維后丟失了很多故障判別信息。而在單獨(dú)使用LDA進(jìn)行故障分類(lèi)時(shí), 會(huì)遇到樣本的類(lèi)內(nèi)散度矩陣為奇異的問(wèn)題,即小樣本問(wèn)題。為解決上述問(wèn)題, 筆者融合兩種算法進(jìn)行數(shù)據(jù)聚類(lèi)。具體過(guò)程如下: 先使用PCA對(duì)數(shù)據(jù)進(jìn)行投影, 得到特征子空間的投影矩陣, 再利用LDA算法在特征子空間中求得最優(yōu)變換矩陣, 這不僅使樣本的內(nèi)類(lèi)散度矩陣是非奇異而且充分利用了PCA、LDA算法的各自?xún)?yōu)點(diǎn)。 為簡(jiǎn)化表示, 筆者所提出的算法記為RGPLDA算法。為評(píng)估降維的性能, 將算法應(yīng)用于軸承故障數(shù)據(jù)集, 并將算法與兩種競(jìng)爭(zhēng)算法局部線(xiàn)性嵌入算法LLE[11]和黎曼李群保持算法Lie-LPP[20]進(jìn)行比較。 為保證實(shí)驗(yàn)的充分性, 使用兩組實(shí)際軸承數(shù)據(jù)集: CWRU(Case Western Reserve University)數(shù)據(jù)集和OL(Own Lab)數(shù)據(jù)集。數(shù)據(jù)集的詳細(xì)信息如下。 1) CWRU數(shù)據(jù)集。軸承數(shù)據(jù)集取自凱斯西儲(chǔ)大學(xué)軸承數(shù)據(jù)網(wǎng)站。實(shí)驗(yàn)平臺(tái)由電機(jī)、 扭矩傳感器/編碼器、 測(cè)功機(jī)和控制器組成。該平臺(tái)可采集4類(lèi)數(shù)據(jù), 采樣頻率為12 kHz。這4類(lèi)樣本包括正常、 滾珠故障、 內(nèi)圈故障和外圈故障樣本。每類(lèi)數(shù)據(jù)的樣本數(shù)為100個(gè), 維數(shù)為1 024。筆者選取了荷載為0 HP情況下的一組數(shù)據(jù)。 2) OL數(shù)據(jù)集。此數(shù)據(jù)集從本實(shí)驗(yàn)室實(shí)際軸承故障仿真試驗(yàn)臺(tái)上采集。試驗(yàn)平臺(tái)由電機(jī)、 軸承和變速箱組成。OL數(shù)據(jù)集包含了相同采樣頻率, 不同電機(jī)轉(zhuǎn)速下的兩個(gè)數(shù)據(jù)子集OL1和OL2。OL1數(shù)據(jù)集是在有荷載時(shí), 采樣頻率為10 kHz、 轉(zhuǎn)速為1 000 r/min時(shí)采集。OL2數(shù)據(jù)集是在相同條件下電機(jī)轉(zhuǎn)速為500 r/min時(shí)的運(yùn)行數(shù)據(jù)。數(shù)據(jù)子集分別采集了4類(lèi)數(shù)據(jù), 包括正常、 滾珠故障、 內(nèi)圈故障和外圈故障數(shù)據(jù)。每類(lèi)數(shù)據(jù)的樣本數(shù)為100個(gè), 維數(shù)為1 024。 在第1個(gè)實(shí)驗(yàn)中, 通過(guò)將可視化結(jié)果與其他兩種相關(guān)的降維方法(LLE和Lie-LLP)比較, 評(píng)估提出的方法的聚類(lèi)性能。用3種算法將數(shù)據(jù)集直接投影到三維空間, 圖1和圖2分別給出了在兩個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果。“☆”點(diǎn)表示正常數(shù)據(jù), “O”點(diǎn)表示內(nèi)圈故障數(shù)據(jù), “+”點(diǎn)表示滾珠故障數(shù)據(jù), “◇”點(diǎn)表示外圈故障數(shù)據(jù)。從圖1和圖2可以直觀(guān)地看出, RGPLDA算法較其他兩種算法有明顯的可分性?xún)?yōu)勢(shì); LLE算法在低維的可分性差, 在數(shù)據(jù)集CWRU、 OL1上均不能識(shí)別故障類(lèi)型; Lie-LPP算法在數(shù)據(jù)集OL1上出現(xiàn)了3種類(lèi)型數(shù)據(jù)的混合、 重疊, 分類(lèi)效果不理想。由此可見(jiàn)在黎曼流形上RGPLDA算法的有效性。 圖1 不同降維算法在CWRU數(shù)據(jù)集上得到的三維嵌入結(jié)果Fig.1 The 3D (Three-Dimensional) embedding results obtained by different dimension reduction algorithms on the bearing data set CWRU 圖2 不同降維算法在OL1數(shù)據(jù)集上得到的三維嵌入結(jié)果Fig.2 The 3D (Three-Dimensional) embedding results obtained by different dimension reduction algorithms on the bearing data set OL1 在第2個(gè)實(shí)驗(yàn)中, 為進(jìn)一步驗(yàn)證所提出方法在降維方面的優(yōu)異性能, 筆者研究了訓(xùn)練樣本數(shù)量對(duì)LLE、 Lie-LPP和RGPLDA識(shí)別精度的影響。如圖3和圖4所示, 隨著訓(xùn)練樣本數(shù)量的增加, 數(shù)據(jù)的識(shí)別準(zhǔn)確率逐漸提高。RGPLDA算法在數(shù)據(jù)集CWRU、 OL1上的識(shí)別準(zhǔn)確率明顯優(yōu)于其他兩種算法。隨著訓(xùn)練樣本的增加, RGPLDA算法的準(zhǔn)確率可以達(dá)到100%,這充分說(shuō)明了算法適用于軸承故障診斷的性能。 在第3個(gè)實(shí)驗(yàn)中引入Fisher度量, 定量驗(yàn)證RGPLDA算法分類(lèi)的優(yōu)勢(shì)。Fisher度量是一種常用的估計(jì)數(shù)據(jù)集可識(shí)別性的統(tǒng)計(jì)指標(biāo), 計(jì)算公式如下 (13) 圖3 在CWRU數(shù)據(jù)集上不同訓(xùn)練 圖4 在OL1數(shù)據(jù)集上不同訓(xùn)練 樣本數(shù)目下的精度 樣本數(shù)目下的精度 Fig.3 Accuracy under different number of Fig.4 Accuracy under different number of training training samples samples on on CWRU data set OL1 data set 表1 3種算法在OL2數(shù)據(jù)集上的Fisher度量 筆者利用局部結(jié)構(gòu)信息結(jié)合黎曼幾何知識(shí), 提出了一種非歐氏空間中的特征提取方法。軸承故障診斷的實(shí)驗(yàn)為所提方法的優(yōu)勢(shì)提供了有力的依據(jù)。未來(lái)的研究中, 希望進(jìn)一步通過(guò)實(shí)驗(yàn)參數(shù)的設(shè)置優(yōu)化算法, 并研究算法在其他領(lǐng)域的應(yīng)用。2.2 切空間分類(lèi)器
3 實(shí)驗(yàn)結(jié)果及分析
3.1 實(shí)驗(yàn)數(shù)據(jù)集
3.2 實(shí)驗(yàn)結(jié)果分析
4 結(jié) 語(yǔ)