王志華,趙 冬,余永華
(1.武漢理工大學 能源與動力工程學院,武漢430063;2.青島海事局,山東 青島266011)
目前內(nèi)燃機的故障診斷主要是利用信號分析處理技術提取表征內(nèi)燃機狀態(tài)的特征參數(shù),通過特征參數(shù)判斷內(nèi)燃機的狀態(tài),并進一步判斷是否存在故障及故障種類。研究表明[1-2],一個有故障的被測系統(tǒng),其測試數(shù)據(jù)中必然包含各種復雜的模糊化聯(lián)系。常規(guī)邏輯推理方法無法從大量的測試數(shù)據(jù)中既快又準地診斷出故障部位。因此提出在被測系統(tǒng)正常運行的情況下,可先測得一批數(shù)據(jù),由于系統(tǒng)功能本身所決定,這批樣本點必有內(nèi)部的聯(lián)系;采用模糊聚類分析的方法,對樣本點進行分析,得出正常系統(tǒng)的標準功能模式;再對系統(tǒng)實際運行時的測試值進行模糊聚類分析,一旦系統(tǒng)出現(xiàn)故障時,其聚類中心必定與原先正常時的標準模式發(fā)生偏移。根據(jù)模糊距離的分析和計算,可以得出哪些系統(tǒng)功能以多大的隸屬度發(fā)生了故障。顯然,這種與標準模式相比較的方法,可以說是一種模式識別的方法。
模糊C均值聚類算法中,C是指將有限樣本集X={x1,x2,…,xn}劃分成C 類,各樣本以一定的程度隸屬于C個不同空域。用μij表示第j個樣本隸屬于第Ⅰ個類的隸屬度,μij滿足如下條件:
2)=1,?i,即每個樣本對全部聚類中心隸屬度之和為1;
3)∈ (0,1),?i,即每個聚類中心包含的樣本個數(shù)介于0和n之間。
模糊C均值算法的出發(fā)點是基于對目標函數(shù)的優(yōu)化,通過對平方誤差函數(shù)求最優(yōu)值:
式中:U——初始隸屬度矩陣;
m——權(quán)重指數(shù),m∈[1,+∞];
V——聚類;
V=(V1,V2,…,Vi,…,VC)T;
dij——樣本到中心矢量的距離,
dij=‖Sj-Vi‖;
Sj——第j個樣本;
Vi——第i個聚類中心矢量。
可以看出,模糊C均值聚類算法的實質(zhì)就是尋找這樣一組中心矢量,使各樣本到其的加權(quán)距離平方和達到最小。
通過對目標函數(shù)的優(yōu)化,便可以找到μij和dij的關系。利用拉格朗日乘子法使E(U,V)取極小值,最終可以得到:
據(jù)此,若樣本集X、聚類類別數(shù)C和權(quán)重系數(shù)m為已知,就能通過迭代算法確定最佳模糊分類矩陣和聚類中心。
根據(jù)上述模糊C均值聚類算法的原理,其計算步驟如下[3-5]:
初始矩陣的確定可采用模糊傳遞閉包法先對樣本進行組合,得到初始隸屬矩陣。該方法的作用對象是樣本矩陣Sij(i表示樣本序號,j表示樣本的某一特性),算法如下:
1)樣本矩陣初始化。可采用極值標準化公式把數(shù)據(jù)壓縮到[0,1]。
2)構(gòu)造模糊關系矩陣R=(rij),rij為相似系數(shù),即描述樣本i和j之間的相似程度。采用最大-最小法求解。
3)求出模糊等價關系矩陣R~。通過平方計算法可以快速求得R~,即依次求出R2,R4,…,R2k,直到R2k=R2k-1為止,這時R~=R2k。
4)采用λ-截矩陣法進行分類,λ∈[0,1]是R~中的隸屬度,按不同的隸屬度對模糊等價關系矩陣R~作λ-截矩陣后,所得的Rλ也具有等價關系,并給出了一個λ水平的分類,從而把樣本分成不同的C類。
1)直接用樣本均值,計算各類樣本的初始聚類中心V(0)1,V(0)2,…,V(10)C。
2)求各樣本與這幾類樣本中心的近似程度。采用最大-最小法。
式中:uik——樣本初始化矩陣的元素;
vjk——樣本中心的元素;
rij——第i個樣本與第j個樣本之間的近似程度。
3)計算初始隸屬矩陣U(0)。
4)給定m,計算U(l)和V(l)i(l為迭代次數(shù))。
5)給定任意小正數(shù)ε,檢驗是否滿足
若滿足條件則迭代結(jié)束;否則,回到2.2中的2)繼續(xù)迭代,最終得到分類矩陣U和聚類中心V。
模糊聚類分析的過程,是一個把多個特征參數(shù)的冗余或互補信息依據(jù)某種準則進行信息融合,從而獲得標準特征模式的過程。
模糊模式識別問題可描述為:已知C個已知模式A1,A2,…,AC和一個待檢模式B,都是論域U上的模糊向量,試問待檢模式B與哪個已知模式最接近。
當已知模式與待檢模式都用模糊向量表示時,模糊模式識別問題就簡化為兩個向量的比較和擇近問題,也就是比較待檢模糊向量B與各已知模糊向量AC之間的貼近度。設每個模式A都是論域U={u1,u2,…,uM}中的一個模糊向量,若有j∈(1,2,…,C),使σ(B,Aj)=) (9)則稱B與Aj最貼近,也就是待檢模式B應歸入已知模式Aj中,從而完成故障識別。
式(9)中的σ稱為兩個模糊向量的貼近度。模糊貼近度可以是相似系數(shù)或者距離,
選取在不同狀態(tài)下柴油機表面振動信號的時域、頻域、時頻分析的特征參數(shù)組成特征向量用于模糊模式識別。表1列出了柴油機再五種不同狀態(tài)下的部分特征向量。應用模糊C-均值聚類算法,對以上10個樣本向量利用最大最小法求出模糊貼近度并構(gòu)造模糊關系矩陣R,求出模糊等價關系矩陣R~,進行λ-截矩陣分類,并根據(jù)機理將其大致分為5類。
在利用均值法計算初始聚類中心V(0)I(I=1,2,…,C),并計算U(0),取m=2,ε=1×10-5,通過式計算U(I)和V(I)i,并反復迭代進行精確聚類分析,最終得到分類矩陣U和聚類中心V。
利用模糊C均值聚類很好地將向量1和向量2,向量3和向量4,向量5和向量6,向量7和向量8,向量9和向量10分別聚類。這一點可以從分類矩陣的數(shù)值中得出結(jié)論。如果有新的樣本向量需要識別,只需計算它與聚類中心的幾種模式的模糊貼近度即可。
表1 柴油機在五種不同狀態(tài)下的部分特征向量
1)柴油機表面振動信號的時域、頻域、時頻分析的特征參數(shù)組成特征向量可表征柴油機的狀態(tài);
2)運用模糊C均值聚類方法可以準確地對表征柴油機狀態(tài)的特征向量進行分類識別。
[1]王志華.基于模式識別的柴油機故障診斷技術研究[D],武漢:武漢理工大學,2004.
[2]張邦禮,尹朝東,曹龍漢.柴油機故障診斷中的遺傳與模糊C-均值混合聚類分析算法[J],計算機工程與應用,2002(3):254-256.
[3]Erigui II,Krishnaparam R.Clustering by Competitive Agglomeration[J].Pattern Recognition,1997,30(7):1109-1119.
[4]Pal N R,Bezdek J C.On Cluster Validity for the Fuzzy c-Means Model[J].IEEE Trans.Fuzzy Systems,1995,3(3):370-379.
[5]高新波,李 潔.模糊C-均值聚類算法中參數(shù)m的優(yōu)選[J].模式識別與人工智能,2000(3):8-9.