蔡斌斌,蔣 鵬,金煒東,秦 娜
(西南交通大學(xué)電氣工程學(xué)院,成都610031)
一種動態(tài)特征選取方法及其在故障診斷中的應(yīng)用
蔡斌斌,蔣 鵬,金煒東,秦 娜
(西南交通大學(xué)電氣工程學(xué)院,成都610031)
針對高鐵故障數(shù)據(jù)的特點,以高速列車走行部(主要指轉(zhuǎn)向架)常見故障的實測數(shù)據(jù)為研究對象,提出一種動態(tài)特征選取方法。通過結(jié)合Fisher比率和模糊熵方法對其特征空間進(jìn)行評估,有效去除冗余特征,利用加權(quán)平均方法選取優(yōu)化的特征子集,從而實現(xiàn)故障分類。實驗結(jié)果表明,與Fisher比率方法、模糊熵方法相比,該方法能提高不同列車速度下高鐵故障的分類準(zhǔn)確度及低速時的分類穩(wěn)定性;與原特征空間方法相比,使用該方法提取最優(yōu)特征空間后各列車速度下的分類準(zhǔn)確率平均提高了5.2%。
特征選取;模糊熵;Fisher比率;故障分類;相似性分類器;魯棒性
特征評估和特征選取是模式識別中一個重要的研究內(nèi)容,在模式識別中往往會提取多個特征,但是在眾多的特征中哪些特征起到的作用大、哪些是無用的特征是研究的重點和難點,同時也引起了國內(nèi)外研究者的關(guān)注。目前有多種特征選取方法。特征選擇是從原始特征集中選取特征子集的過程,適當(dāng)?shù)奶卣鬟x擇可有效去除不相關(guān)和冗余特征,提升算法學(xué)習(xí)效率[1-3]。特征選擇方法可以分為:嵌入,過濾和包裹等方法。國內(nèi)外許多學(xué)者提出多種特征評價準(zhǔn)則,取得了明顯效果。然而,單一的特征評價準(zhǔn)則往往只從不同側(cè)面評價特征,無法全面評價特征子集的好壞,從而造成特征選擇的普適性較差、分類精度較低。目前,針對特征評估指標(biāo)的研究已經(jīng)較成熟。但是單從一個指標(biāo)難以全面評估特征的優(yōu)劣,因此多準(zhǔn)則、多尺度特征評估方法是目前研究的主要內(nèi)容。例如,文獻(xiàn)[4]提出多準(zhǔn)則特征評估方法融合MCF-RFE算法不僅能有效提高分類精度而且具有較好的穩(wěn)定性,優(yōu)于基準(zhǔn)算法SVM-RFE。文獻(xiàn)[5]提出輪詢式多準(zhǔn)則思想,從根本上突破了目前各評價準(zhǔn)則的局限性,能較快地進(jìn)行特征選擇。文獻(xiàn)[6]提出MCFR多準(zhǔn)則特征排序方案,該方案能夠智能地利用各準(zhǔn)則得到魯棒性較好的特征排序。由此可見,多準(zhǔn)則特征評估方法優(yōu)于單一特征評估方法。但是將多個特征評估方法融合起來,是目前研究的重點和難點問題。如何針對特定數(shù)據(jù)選取合適的特征評估指標(biāo)以及如何將不同的評估指標(biāo)融合起來是目前尚未解決的問題。
由于高速鐵路走行部(主要指轉(zhuǎn)向架)故障檢測往往采用多路振動或者位移傳感器同時采集振動數(shù)據(jù),并將時域數(shù)據(jù)變換到頻域以增加檢測穩(wěn)定性。另外,多路傳感器采集的數(shù)據(jù)常常伴有較強(qiáng)的噪聲,而且數(shù)據(jù)的不一致性也較強(qiáng)。Fisher比率方法計算簡單、穩(wěn)定性高,非常適合處理高維特征數(shù)據(jù)。針對高鐵故障數(shù)據(jù)的特點,本文以高速列車走行部常見故障的實測數(shù)據(jù)為研究對象,提出一種基于Fisher比率和模糊熵的動態(tài)特征選取方法,先采用Fisher比率和模糊熵方法分別對特征進(jìn)行排序,并利用一種加權(quán)平均方法選取優(yōu)化的特征集合。
2.1 模糊熵方法
熵是信息論中一個非?;静⑶抑匾母拍?它度量了一個系統(tǒng)或一段信息的不確定性,描述了一個模糊集的模糊性程度。本文采用文獻(xiàn)[7]中的基于相似性測度的模糊熵方法。
2.1.1 相似性測度
相似性測度一個基本的計算方法為:首先計算樣本集x=(x(f1),x(f2),…,x(ft)),第i類樣本集xi的冪均值得到一個能夠較好地代表第i類理想的特征向量vi=(vi(fi),…,vi(ft)),然后計算待分類樣本x與理想特征向量 v之間的相似度值 S(x,v),最后根據(jù)S(x,v)的大小判斷x屬于哪一類。在理想情況下,如果x屬于第i類則得到S(x,v)=1,反之S(x,v)=0。
2.1.2 基于相似性測度的模糊熵方法
模糊熵的定義很多,考慮到模糊集合的概念在克勞德·艾爾伍德·香農(nóng)(Shannon C E)概率熵的基礎(chǔ)上提出模糊熵的公式:
其中,μA(xj)(0≤μA(xj)≤1)表示模糊數(shù)。引入相似性測度,令μA(xj)等于xj與理想特征向量中第j個特征vj之間的相似度S(xj,vj),如果相似度值越接近1/2,模糊熵值越大;相反,如果相似度值越大(或越小),模糊熵值越小。將每一個特征所有樣本的模糊熵值相加得到每一個特征的模糊熵值。模糊熵值越大說明該特征包含的信息量越少,可以適當(dāng)去除。
2.2 Fisher比率方法
Fisher比率方法用于估計某一特征的有效性,作為一個品質(zhì)因數(shù)在聲音識別領(lǐng)域和特征選擇方面得到廣泛應(yīng)用。Fisher比率定義為類間均值的方差與類內(nèi)平均方差的比值,該方法選出的特征類間差距大,類內(nèi)差距?。?-11]。Fisher比率計算方法如下[8]:
設(shè)共有K類,第j類中特征向量個數(shù)為Nj,則第i個特征的Fisher比率值定義為:
其中,Bi為類間方差;Wi為第i個特征總的類內(nèi)方差。兩者在數(shù)學(xué)上的定義如下:
其中,μij和Wij分別為第j類中第i個特征的均值和方差;μi是第i個特征總的均值。具體計算方法如下:
其中,xijn是第j類、第n個特征向量中的第i個特征。
2.3 特征評價
由式(1)~式(7)可分別求得基于模糊熵、Fisher比率準(zhǔn)則的特征排序,取一定的權(quán)值得到兩方法結(jié)合后的特征排序。
基于模糊熵和Fisher比率方法分別對原始特征空間每個通道的各個特征進(jìn)行評價。由于特征的模糊熵權(quán)值越小該特征對分類的作用越大,而特征的Fisher比率權(quán)值越大該特征對分類的作用越大,為了使兩者對應(yīng)將特征的模糊熵值按從小到大順序排序、Fisher比率值從大到小排序,最后得到排序后每個特征對應(yīng)的序號,分別記為:
基于2種不同的準(zhǔn)則得到αen和αFr2種不同的排序,將2種排序線性求和,得到基于2種不同準(zhǔn)則的特征的綜合排序序號,記為:
其中,x(i)=axen(i)+bxFr(i),本文取a∶b=1∶1。對α按從小到大順序排列得到特征排序,根據(jù)特征排序選擇最優(yōu)特征空間。
為驗證本文方法的有效性和優(yōu)越性,對標(biāo)準(zhǔn)測試數(shù)據(jù)集和高速列車的實測故障數(shù)據(jù)分別進(jìn)行實驗。
3.1 標(biāo)準(zhǔn)數(shù)據(jù)集實驗
3.1.1 實驗設(shè)計
基于本文方法首先對標(biāo)準(zhǔn)數(shù)據(jù)集Ionosphere,Pima Indians Diabetes進(jìn)行仿真驗證。數(shù)據(jù)集Ionosphere, Pima Indians Diabetes可在UCI數(shù)據(jù)庫中獲得。表1是對標(biāo)準(zhǔn)數(shù)據(jù)集Ionosphere,Pima Indians Diabetes的簡單描述。
表1 標(biāo)準(zhǔn)數(shù)據(jù)集
在實驗中,采用相似性分類器進(jìn)行分類,具體如下:首先得到能夠較好地代表各類的理想特征向量,然后將待分類樣本及理想特征向量歸一化,計算待分類樣本與每一類理想特征向量的相似度,根據(jù)相似度大小判斷該樣本屬于哪一類。在理想情況下,如果待分類樣本屬于某一類,那么它與該類理想特征向量的相似度值為1,否則為0。因此,待分類樣本與哪一類理想向量的相似度值最大,那么該樣本就屬于哪一類。
3.1.2 結(jié)果分析
圖1表示數(shù)據(jù)集Ionosphere基于3種方法在每次去掉一個冗余特征的過程中得到的各特征空間的分類準(zhǔn)確率,表2、表3分別表示兩數(shù)據(jù)集基于3種方法得到的最優(yōu)特征空間及分類準(zhǔn)確率。
圖1 Ionosphere數(shù)據(jù)集中不同特征空間的分類準(zhǔn)確率
表2 Ionosphere數(shù)據(jù)集的分類準(zhǔn)確率
表3 PimaIndians Diadetes數(shù)據(jù)集的分類準(zhǔn)確率
首先從總體上看,與Fisher比率、模糊熵方法相比,在對兩數(shù)據(jù)集選取最優(yōu)特征空間的過程中,本文方法能更穩(wěn)定、高效地選取最優(yōu)特征,并得到較好的分類準(zhǔn)確率。由圖1和表2可知,模糊熵方法選取21個特征時得到的最高分類準(zhǔn)確率81.196 6%,低于原特征空間分類準(zhǔn)確率84.900 3%。Fisher比率方法選取 9個特征時,最高分類準(zhǔn)確率達(dá)到86.039 9%,本文方法只需選擇4個特征,最高分類準(zhǔn)確率達(dá)到84.900 3%。同樣選取前4個特征,模糊熵方法的分類準(zhǔn)確率只有74.928 8%,Fisher比率方法為80.057 0%。本文方法在保持和Fisher比率方法準(zhǔn)確率相近的情況下,有效地選取了最優(yōu)特征空間,使計算量大大降低。由表3可知,與原特征空間相比3種方法都能去除冗余特征、提高分類準(zhǔn)確率。原特征空間分類準(zhǔn)確率為73.3073%,而本文方法只需選取 4個特征得到最高分類準(zhǔn)確率74.218 8%,模糊熵方法選取7個特征時得到最高分類準(zhǔn)確率74.088 5%,Fisher比率方法選取6個特征時得到最高分類準(zhǔn)確率74.218 8%,而同樣取4個特征,模糊熵方法準(zhǔn)確率只有71.614 6%,Fisher比率方法分類準(zhǔn)確率只有62.369 8%。表2和表3中各空間的平均分類準(zhǔn)確率也表明了本文方法的魯棒性和優(yōu)異性。
3.2 高鐵實測數(shù)據(jù)實驗
3.2.1 實驗設(shè)計
為驗證本文方法在高鐵故障實測數(shù)據(jù)中的有效性,對某型高速列車實測數(shù)據(jù)進(jìn)行仿真驗證。分別提取高速列車4種工況實測數(shù)據(jù)小波系數(shù)的均值、方差及快速傅里葉變換的均值、方差8維特征,每種工況得到20組樣本,4種工況總共80組樣本。首先運(yùn)用3種方法對所有樣本的特征進(jìn)行評估,去除冗余特征,然后從4種工況中分別選出一組作為訓(xùn)練數(shù)據(jù),剩余76組作為測試數(shù)據(jù),將每組測試數(shù)據(jù)分別與4個訓(xùn)練數(shù)據(jù)進(jìn)行比較,由于單個傳感器得到的信息不完整、錯誤率高,DS[12-13]數(shù)據(jù)融合算法能夠?qū)⒉煌暾男畔⒓右跃C合,形成相對完整、一致的感知描述,從而實現(xiàn)更加準(zhǔn)確的識別和判斷功能。因此,本文選取通道11,13,14,15,20,22,采用相似性分類器與DS數(shù)據(jù)融合的分類方法,首先計算待分類樣本與各類理想特征向量的相似度得到相似度向量,相似度向量歸一化作為分類證據(jù),根據(jù)DS合成規(guī)則將6個通道得到的證據(jù)融合得到一個綜合的證據(jù),設(shè)定閾值p=0.5,當(dāng)樣本屬于某種工況的概率大于p,則認(rèn)為該樣本屬于該工況。
3.2.2 結(jié)果分析
表4~表7分別表示原特征空間及運(yùn)用模糊熵、Fisher比率、模糊熵與Fisher比率結(jié)合(本文方法) 3種方法提取最優(yōu)特征空間后各速度下的分類準(zhǔn)確率。表8為不同特征空間下5種速度的平均分類準(zhǔn)確率。圖2表示各速度下基于3種方法提取的最優(yōu)特征空間分類準(zhǔn)確率對比。
表4 基于原特征空間的分類準(zhǔn)確率
表5 基于模糊熵方法的分類準(zhǔn)確率
表6 基于Fisher比率方法的分類準(zhǔn)確率
表7 基于本文方法的分類準(zhǔn)確率
表8 不同特征空間下的平均分類準(zhǔn)確率
圖2 3種方法的分類準(zhǔn)確率對比
由表4、表5可得,應(yīng)用模糊熵提取各速度下的最優(yōu)特征均為前7個特征。與原特征空間分類準(zhǔn)確率相比,速度為120 km/h,160 km/h分類準(zhǔn)確率不變,速度為140 km/h時有顯著提高,準(zhǔn)確率提高22%左右,速度為220 km/h準(zhǔn)確率雖有提高但并不明顯僅有1%左右,速度為200 km/h時準(zhǔn)確率下降2%。由此可得,模糊熵方法只對速度為140 km/h的分類準(zhǔn)確率有提高,而其他速度下的準(zhǔn)確率不變甚至下降,說明模糊熵方法對于特征評價不穩(wěn)定。
由表4、表6可得,Fisher比率方法提取各速度下的最優(yōu)特征空間均為前5個特征。各個速度下的準(zhǔn)確率均有提高,較為明顯的是140 km/h時提高6%,160 km/h,220 km/h時準(zhǔn)確率提高4%左右,平均精度提高3.4%。表明Fisher比率方法不僅能夠有效地降低特征維數(shù)而且能夠提高分類精度。
由于表7為Fisher比率與模糊熵結(jié)合的方法提取各速度下的最優(yōu)特征個數(shù)及分類準(zhǔn)確率。由表4、表7可得,Fisher比率與模糊熵結(jié)合的方法有效地簡化了特征空間,除了120 km/h識別率提高1%,其他速度下均有明顯提高。140 km/h時識別率提高最明顯,高達(dá)12%;160 km/h,200 km/h時提高4%左右,200 km/h識別率達(dá)到100%;220 km/h時準(zhǔn)確率提高5%。
由表5~表7及圖2可得,速度為200 km/h, 220 km/h方法的識別率在Fisher比率及模糊熵方法的基礎(chǔ)上又有提高;速度為140 km/h時保持了兩方法中識別率較高者;120 km/h,140 km/h時識別率在兩方法的基礎(chǔ)上折中。可見,本文方法具有較好的魯棒性,能夠有效地提高分類準(zhǔn)確度,平均分類準(zhǔn)確率提高5.2%。
本文針對高鐵故障數(shù)據(jù)的特點,提出模糊熵和Fisher比率相結(jié)合的方法對其特征空間進(jìn)行評估,并以高速列車的故障數(shù)據(jù)作為研究對象進(jìn)行驗證。實驗結(jié)果證明,該方法能夠提高高鐵多種故障分類的準(zhǔn)確度,針對標(biāo)準(zhǔn)測試數(shù)據(jù)集的實驗也證明了該方法的魯棒性和優(yōu)異性。
[1] Liu Huan,Yu Lei.Toward Integrating Feature Selection Algorithms for Classification and Clustering[J].IEEE Transactions on Knowledge and Data Engineering,2005, 17(3):491-502.
[2] Guyon I,Elissee A.An Introduction to Variable and FeatureSelection[J].JournalofMachine Learning Research,2003,3(3):1157-1182.
[3] 楊 藝,韓德強(qiáng),韓崇昭.基于排序融合的特征選擇[J].控制與決策,2011,26(3):397-401.
[4] Feng Yang,Mao K Z.RobustFeatureSelection for Microarray Data Based on Multicriterion Fusion[J].ACM Transactions on Computational Biology and Bioinformatics,2011,8(4):1080-1092.
[5] 李勇明,張素娟,曾孝平,等.輪詢式多準(zhǔn)則特征選擇算法的研究[J].系統(tǒng)仿真學(xué)報,2009,21(7):2010-2017.
[6] Yan Weizhong.Fusion in Multi-criterion Feature Ranking[C]//Proceedings of the 10th International Conference on Information Fusion.Quebec,Canada:[s.n.],2007:1-6.
[7] Luukka P.Feature Selection Using Fuzzy Entropy Measures with Similarity Classifier[J].ExpertSystemswith Application,2011,38(4):4600-4607.
[8] Zabidi A,MansorW.TheEffectofF-ratio in the Classification of Asphyxiated Infant Cries Using Multilayer Perception Neural Network[C]//Proceedings of EMBS Conference on Biomedical Engineering & Science.Kuala Lumpur,Malaysia:IEEE Press,2010:126-129.
[9] Saha G,Senapati S,Chakroborty S.An F-ratio Based Optimization on Noisy Data for Speaker Recognition Application[C]//Proceedings of INDICON'05.[S.l.]: IEEE Press,2005:352-355.
[10] Abdulla W H,Kasbov N.Reduced Feature-setBased ParallelCHMM Speech Recognition Systems[J].Information Sciences,2003,156(1/2):21-38.
[11] Liu Donghui,Liang Youngchun,Li Aihua,et al.The Study of Improved Fisher Ratio for Default Diagnosis of Power Transformer[C]//Proceedings of the 7th World Congress on Intelligent Control and Automation.Chongqing,China:[s.n.],2008:6867-6870.
[12] 徐從富,耿衛(wèi)東,潘云鶴.面向數(shù)據(jù)融合的DS方法綜述[J].電子學(xué)報,2001,29(3):393-396.
[13] 權(quán) 文,王曉丹,王 堅,等.一種基于局部沖突分配的DST組合規(guī)則[J].電子學(xué)報,2012,40(9):1180-1184.
編輯 陸燕菲
A Dynamic Feature Selection Approach and Its Application in Fault Diagnosis
CAI Binbin,JIANG Peng,JIN Weidong,QIN Na
(School of Electrical Engineering,Southwest Jiaotong University,Chengdu 610031,China)
According to the characteristic of fault data of high-speed train,a dynamic feature selecting algorithm is proposed to research the measured data of the running gear(referring mainly to bogie)of high-speed train.The approach combines the advantages of Fisher ratio and fuzzy entropy dynamically,which manages to evaluate features more accurately and removes the redundant features effectively to obtain superior feature subset by weighted average method.The new approach can improve classification accuracy.Experimental results for fault data of high-speed train show that the proposed approach not only improves the classification accuracies significantly,but also strengthens the stability in low speed.The overall-precise improvement is 5.2%after extracting the optimal feature space in average compared with that of the original feature space.
feature selection;fuzzy entropy;Fisher ratio;fault classification;similarity classifier;robustness
1000-3428(2014)11-0139-04
A
TP391
10.3969/j.issn.1000-3428.2014.11.028
國家自然科學(xué)基金資助重點項目(61134002)。
蔡斌斌(1989-),女,碩士研究生,主研方向:數(shù)據(jù)融合,信息處理;蔣 鵬,講師、博士;金煒東,教授、博士;秦 娜,博士研究生。
2013-10-14
2013-12-25E-mail:caibinbin0320@126.com
中文引用格式:蔡斌斌,蔣 鵬,金煒東,等.一種動態(tài)特征選取方法及其在故障診斷中的應(yīng)用[J].計算機(jī)工程, 2014,40(11):139-142.
英文引用格式:Cai Binbin,Jiang Peng,Jin Weidong,et al.A Dynamic Feature Selection Approach and Its Application in Fault Diagnosis[J].Computer Engineering,2014,40(11):139-142.