夏 虎 , 莊 健 , 周 璠 , 于德弘
(1. 西安交通大學(xué) 機(jī)械工程學(xué)院, 西安 710049;2. 一汽-大眾汽車有限公司, 長春 130011)
采用多目標(biāo)進(jìn)化模型的無監(jiān)督故障特征選擇算法
夏 虎1, 莊 健1, 周 璠2, 于德弘1
(1. 西安交通大學(xué) 機(jī)械工程學(xué)院, 西安 710049;2. 一汽-大眾汽車有限公司, 長春 130011)
高維故障特征數(shù)據(jù)易影響診斷的處理速度和識別率,而傳統(tǒng)單目標(biāo)特征選擇算法易融入主觀偏好,從而影響特征選擇的質(zhì)量。為此,提出一種無監(jiān)督的多目標(biāo)進(jìn)化特征選擇算法。采用熵度量作為相關(guān)度目標(biāo),采用相關(guān)系數(shù)的概念設(shè)計(jì)了冗余度目標(biāo),算法同時(shí)將這兩個(gè)目標(biāo)作為優(yōu)化對象;利用樣本在各個(gè)特征上的分布信息,設(shè)計(jì)了導(dǎo)向性的種群初始化過程和變異算子,以提高算法的優(yōu)化能力;還利用集成的方法得到了所有特征的重要度序列。對5組UCI數(shù)據(jù)和3組往復(fù)式壓縮機(jī)故障數(shù)據(jù)的測試結(jié)果表明,該算法比已有的幾種特征選擇算法更具優(yōu)勢。
特征選擇;多目標(biāo)進(jìn)化算法;冗余度;故障診斷
隨著機(jī)械設(shè)備的復(fù)雜化和大型化,從信號中提取單一特征用以監(jiān)測設(shè)備運(yùn)行狀態(tài)的方法往往難以滿足實(shí)際需求。而另一方面,多種信號的獲取途徑(如利用不同類型的傳感器或不同的測試位置)和豐富的信號處理技術(shù)則為研究人員提供了大量的特征。因此,基于多種特征的故障診斷技術(shù)被許多研究人員采納[1-3],成為一種發(fā)展趨勢。然而這些特征數(shù)據(jù)包含不少無關(guān)和冗余的信息,如果直接應(yīng)用于故障診斷,不僅增加了問題求解的復(fù)雜度,還可能影響診斷的準(zhǔn)確度。所以,設(shè)計(jì)合理的特征選擇算法用以提取合適的特征子集成為必要。
特征選擇本質(zhì)上是一個(gè)組合優(yōu)化問題。當(dāng)特征維數(shù)過高時(shí),窮舉的方法難以在多項(xiàng)式時(shí)間內(nèi)找到最優(yōu)解。因此,許多學(xué)者利用貪婪搜索或智能優(yōu)化的方法搜索最優(yōu)解,取得了很好的效果;文獻(xiàn)[4]提出一種基于熵度量的序列后向選擇算法;文獻(xiàn)[5]提出一種基于進(jìn)化蒙特卡洛方法的特征選擇算法并用于滾動(dòng)軸承的故障診斷;文獻(xiàn)[6]則采用粒子群優(yōu)化技術(shù)提取齒輪傳動(dòng)箱的故障特征;但是,上述優(yōu)化算法通常以某一個(gè)評價(jià)指標(biāo)作為優(yōu)化對象,只能從單個(gè)角度評價(jià)求解質(zhì)量,影響了特征選擇的效果。比如,文獻(xiàn)[4]采用的熵度量方法主要反映了特征與數(shù)據(jù)結(jié)構(gòu)間的相關(guān)度,而沒有考慮已選特征之間的冗余度,造成獲取的特征子集可能保留了一些冗余特征,而忽視了一些重要的特征。
多目標(biāo)進(jìn)化優(yōu)化技術(shù)可以從多個(gè)角度評價(jià)特征子集的質(zhì)量,并將這些評價(jià)指標(biāo)作為目標(biāo)函數(shù)同時(shí)進(jìn)行優(yōu)化,避免了單一目標(biāo)引起的偏好。目前已有學(xué)者提出了各自的多目標(biāo)特征選擇算法[7-8],它們都是在已有單目標(biāo)優(yōu)化技術(shù)的基礎(chǔ)上,將最小化特征子集的規(guī)模作為另一個(gè)優(yōu)化目標(biāo);但是特征子集的規(guī)模是一個(gè)離散目標(biāo),通常求得的解集中每個(gè)特征規(guī)模下只能對應(yīng)一個(gè)解,這使得規(guī)模相同但具體特征不同的其它特征子集無法被發(fā)現(xiàn)。而這些特征子集對于故障診斷也是有用的。舉例說明:假設(shè)特征子集1包含a、b兩個(gè)特征,特征子集2包含a、c兩個(gè)特征,二者的性能相近;但b和c來自于不同的信號源,若只得到特征子集1,當(dāng)b所需的信號無法提供時(shí)(如傳感器不便于安裝),所得的解將喪失意義。此外,多目標(biāo)特征選擇算法最終得到的是一系列的折中解,需要從中選取性能優(yōu)良的解,但目前可用的無監(jiān)督方法還較少[7]。
針對上述問題,本文在已有研究基礎(chǔ)上,提出一種新的多目標(biāo)進(jìn)化特征選擇算法(Multi-Objective Feature Selection Algorithm,MOFS)。該算法具有以下特點(diǎn):① 從相關(guān)度和冗余度兩個(gè)角度評價(jià)特征子集的質(zhì)量,能夠獲取多個(gè)特征規(guī)模相同的特征子集,為診斷人員提供了更多的決策空間;② 利用樣本間的距離值構(gòu)建相關(guān)度和冗余度這兩個(gè)目標(biāo)函數(shù),使得本文算法為一種無監(jiān)督的方法,利于在樣本類標(biāo)記信息缺乏或者不完全的情況下完成故障特征的選??;③ 設(shè)計(jì)一種集成方法將所得各個(gè)特征子集進(jìn)行融合,得到特征的重要度序列,從而自動(dòng)產(chǎn)生一個(gè)最優(yōu)的解。最后,通過對多組UCI數(shù)據(jù),往復(fù)式壓縮機(jī)氣閥泄漏故障和氣缸劃傷故障數(shù)據(jù)的測試,表明本文算法性能優(yōu)于多種已有的特征選擇算法。
利用相關(guān)度和冗余度的概念定義了一組最小化的目標(biāo)函數(shù),用以評價(jià)特征子集的質(zhì)量。其中相關(guān)度傾向保留所有與數(shù)據(jù)結(jié)構(gòu)關(guān)聯(lián)緊密的特征,而冗余度則會(huì)排除與已選特征相關(guān)度高的特征,二者存在一定的矛盾關(guān)系,是典型的多目標(biāo)優(yōu)化問題。
相關(guān)度目標(biāo)采用文獻(xiàn)[4]所提的熵度量指標(biāo),其定義為
(1)
Sij=exp(-αDij)
(2)
其中,N是數(shù)據(jù)樣本的個(gè)數(shù);α是一個(gè)權(quán)重系數(shù),由式(2)計(jì)算所得;Dij是樣本i和樣本j在x所表示的特征子集下的歐式距離;Da表示所有樣本在全空間下歐式距離的平均值。在計(jì)算目標(biāo)值之前,Sij的取值必須歸一化到[0,1]。當(dāng)選擇的特征子集合理時(shí),樣本i和樣本j若屬于同類,則Sij的取值很小,若屬于異類,則Sij的取值很大。根據(jù)函數(shù)SijlgSij+(1-Sij)lg(1-Sij)的特性,Sij取值接近0或者1時(shí),該函數(shù)的取值均會(huì)很小,從而使得好的特征子集對應(yīng)較小的f1(x)取值。
冗余度目標(biāo)則利用了相關(guān)系數(shù)的概念,當(dāng)相關(guān)系數(shù)的絕對值越小,特征子集所包含的冗余就越小。該目標(biāo)具體設(shè)計(jì)為
(3)
其中,nx表示特征子集的個(gè)數(shù);d是總的特征個(gè)數(shù);xj和xk分別表示x中第j個(gè)和第k個(gè)元素的取值;bij表示第i個(gè)樣本在第j個(gè)特征上的取值,baj表示所有樣本在第j個(gè)特征上的均值。當(dāng)被選中的兩個(gè)特征越相關(guān),則|cjk|的取值越接近1,而當(dāng)兩個(gè)特征越獨(dú)立,則取值越接近0。因此在特征子集規(guī)模確定的情況下,冗余度小的特征子集對應(yīng)的目標(biāo)函數(shù)f2(x)的取值會(huì)更小。
本文提出的多目標(biāo)特征選擇算法采用二元編碼方式,個(gè)體x={x1,x2,…,xd},x的取值范圍為{0,1}d,當(dāng)取值為1時(shí)表示該特征被選中。在初始化階段,種群中一半數(shù)量的個(gè)體采用隨機(jī)的方式生成,由于合適的特征子集一般遠(yuǎn)小于總的特征集,因此以較小概率p1決定某一個(gè)特征被選中;另一半數(shù)量的個(gè)體則利用特征的分布信息生成。具體而言,計(jì)算所有樣本取值在各個(gè)特征上的方差,然后根據(jù)式(4)計(jì)算特征被選中的概率p2。式(4)的表達(dá)式為
(4)
其中vj表示在第j個(gè)特征上所有樣本取值的方差。方差越大,樣本的分布就越分散,表明不同類的數(shù)據(jù)在該特征上越易被區(qū)分。而在公式(4)中,當(dāng)?shù)趈個(gè)特征方差取值較大時(shí),它的比值容易超過平均水平,使得概率p2大于0.5,從而該特征更易被選中。
為了便于下文的理解,這里給出多目標(biāo)優(yōu)化的一些相關(guān)概念。若個(gè)體x1和x2滿足fi(x1)≤fi(x2),i=1,2,…,m,m為目標(biāo)函數(shù)的個(gè)數(shù),并且至少在一個(gè)目標(biāo)函數(shù)上滿足fi(x1) 2.1 交叉、變異算子設(shè)計(jì) 交叉所需的父代個(gè)體采用二元聯(lián)賽選擇的方法獲取,即:① 隨機(jī)選取個(gè)體x1和x2,比較二者的Pareto支配關(guān)系,選取Pareto占優(yōu)解作為父代個(gè)體;② 若二者互不支配,則比較它們在目標(biāo)空間的鄰域密度,密度小的個(gè)體選為父代個(gè)體,其中密度評估方法采用經(jīng)典的擁擠距離方法[9];③ 若二者密度相同,則等概率隨機(jī)選取。算法中的交叉算子采用雙點(diǎn)交叉的方法,即隨機(jī)選取兩個(gè)交叉點(diǎn)u和v,父代個(gè)體{x11,…,x1u,…,x1v,…,x1d}和{x21,…,x2u,…,x2v,…,x2d}交叉后為{x11,…,x2u,…,x2v,…,x1d}和{x21,…,x1u,…,x1v,…,x2d}。 本文設(shè)計(jì)了一種抗冗余度的變異算子。首先以概率p3決定當(dāng)前個(gè)體是否進(jìn)行變異,若被選中,則隨機(jī)選取其中一維jr,根據(jù)式(3)計(jì)算第jr個(gè)特征與其他已經(jīng)被選中特征之間的相關(guān)系數(shù)。然后從中選取相關(guān)系數(shù)絕對值的最大值,記為p4。若xjr=1,則以概率p4令xjr=0;若xjr=0,則以概率1-p4令xjr=1。該變異的含義為:當(dāng)?shù)趈r個(gè)特征已經(jīng)被選中時(shí),若p4取值很大,說明它與某個(gè)被選中的特征冗余,則以較大概率舍棄;當(dāng)?shù)趈r個(gè)特征未被選中時(shí),若p4取值很小,說明它與被選中的特征之間冗余度小,則以較大概率1-p4選入特征子集。 2.2 算法流程 決策者從Pareto解集中選取一個(gè)特征子集時(shí)需要對多個(gè)解進(jìn)行測試,增加了工作量,并且決策者有時(shí)還需要得到特征的重要度序列。為此本文設(shè)計(jì)了一種集成方法對特征進(jìn)行排序,決策者只需要指定特征個(gè)數(shù)即可獲得相應(yīng)的特征子集。其具體方法為:① 計(jì)算每個(gè)Pareto解對應(yīng)的特征子集的規(guī)模,將所有規(guī)模為z的解存入同一個(gè)集合中,記為Sz,z∈[1,d];② 對每個(gè)集合,選擇函數(shù)值f1最小的解,放入集合A,選擇函數(shù)值f2最小的解,放入集合B;③ 分別計(jì)算集合A和B中每個(gè)特征被選中的次數(shù),記為tAj和tBj;④ 按照式(5)計(jì)算第j個(gè)特征的重要度wj,取值越大表明越重要。 wj=tAj+rtBj (5) 其中r表示權(quán)重系數(shù),因?yàn)槟繕?biāo)函數(shù)f2不能單獨(dú)用于提取重要特征,集合B施加的影響應(yīng)弱于集合A,所以r取值在(0,1)之間。 將所有特征的重要度值降序排列即為最終的集成結(jié)果。若指定特征子集規(guī)模z,則前z個(gè)特征即為最優(yōu)特征子集。 4.1 UCI數(shù)據(jù)測試 5組UCI數(shù)據(jù)分別為Iris、Monk3、Wine、Australian和Glass。將各個(gè)算法所得結(jié)果按重要度降序排列,結(jié)果如表1所示。MOFS1的特征重要度排序方法為:統(tǒng)計(jì)每個(gè)特征在所得Pareto解集中出現(xiàn)的次數(shù),次數(shù)越多越重要。由于Iris和Monk3的重要特征是已知的,可用以檢驗(yàn)算法是否能正確選取特征,其中重要特征對應(yīng)的序號用黑色加粗字體表示。Iris和Monk3的測試結(jié)果表明所有算法均能正確選出重要的特征。進(jìn)一步的,本文采用C50算法測試各個(gè)算法在Wine、Australian和Glass數(shù)據(jù)集上的分類正確率,結(jié)果如圖1所示??梢姡N算法在Wine和Glass數(shù)據(jù)集上有相似的性能;但是在Australian數(shù)據(jù)集上,MOFS性能要優(yōu)于其它兩種方法,其在較小特征子集規(guī)模下已達(dá)到較高正確率,說明所得的特征重要度序列更加合理。 4.2 壓縮機(jī)故障數(shù)據(jù)測試 壓縮機(jī)故障數(shù)據(jù)由圖2所示實(shí)驗(yàn)平臺獲得。該平臺通過加速度傳感器獲取缸蓋上方的振動(dòng)信號,通過壓力和溫度傳感器獲取各級閥腔進(jìn)氣口和出氣口的壓力、溫度信號,以及儲(chǔ)氣罐出口處的壓力信號。加速度傳感器頻率測量范圍為0.7~10 kHz,采集頻率為40 kHz,溫度和壓力信號的采集頻率為1 kHz。以主軸旋轉(zhuǎn)10圈(約0.6 s)時(shí)間所采集的信號作為一個(gè)樣本來源,提取不同傳感器所得信號的特征。按照文獻(xiàn)[3]所列常見特征,加速度信號提取的特征包括原始信號的11個(gè)時(shí)域特征,13個(gè)高頻(3 ~10 kHz)頻域特征和13個(gè)低頻(0.7~3 kHz)頻域特征,以及3層db10小波重構(gòu)后的高頻和低頻特征。閥腔壓力信號的特征包括平均壓力,最大壓力和最小壓力。閥腔溫度信號的特征包括平均溫度和溫度變化率。儲(chǔ)氣罐出口壓力信號的特征包括平均壓力和壓力變化率。數(shù)據(jù)集VData1為一級缸氣閥泄漏故障數(shù)據(jù),包含50個(gè)正常工況的樣本,50個(gè)進(jìn)氣閥2 mm通孔泄漏的樣本,50個(gè)排氣閥2 mm通孔泄漏的樣本和50個(gè)進(jìn)排氣閥均2 mm通孔泄漏的樣本。數(shù)據(jù)集VData2為二級缸進(jìn)氣閥泄漏故障數(shù)據(jù),包含50個(gè)正常樣本,以及進(jìn)氣閥1 mm、2 mm、 3 mm和5 mm通孔泄漏的樣本各50個(gè)。數(shù)據(jù)集CData1為二級缸氣缸內(nèi)壁劃傷故障數(shù)據(jù),包含50個(gè)正常樣本,50個(gè)進(jìn)氣閥2 mm通孔泄漏的樣本,50個(gè)輕微劃傷(一道深1 mm寬2 mm的通槽)的樣本,50個(gè)嚴(yán)重劃傷(兩道深1 mm寬2 mm的通槽)的樣本,50個(gè)輕微劃傷并伴隨進(jìn)氣閥2 mm通孔泄漏的樣本和50個(gè)嚴(yán)重劃傷并伴隨進(jìn)氣閥2 mm通孔泄漏的樣本。 表1 不同算法對5組UCI數(shù)據(jù)所得的特征重要度序列 圖1 C50算法在不同特征選擇算法所得特征子集上的分類正確率Fig.1 Classification of C50 with different feature subsets 為了保證故障數(shù)據(jù)處理的快速性和準(zhǔn)確性,選取特征子集的規(guī)模為7。然后分別將決策樹分類算法C50和聚類算法k-means應(yīng)用于三種特征選擇算法所得的特征子集,以檢驗(yàn)它們對故障數(shù)據(jù)特征的選擇能力,其結(jié)果如表2和表3所示。結(jié)果表明:① MOFS對各種故障數(shù)據(jù)集的分類正確率和聚類質(zhì)量(RI取值越高越好)均優(yōu)于另外兩種特征選擇方法;② MOFS在特征子集上的聚類結(jié)果優(yōu)于在全體特征集上的聚類結(jié)果,而EUFS和MOFS1由于特征子集選擇的不合適,反而使得在VData2數(shù)據(jù)集上的聚類質(zhì)量下降;③ 由于加速度傳感器距離氣缸劃傷的故障源較遠(yuǎn),且CData1中包含復(fù)合故障,使得故障模式不易區(qū)分,所以分類和聚類結(jié)果均差于VData1和VData2,但利用MOFS所選特征子集得到的結(jié)果仍然具有較高的質(zhì)量。 表2 不同特征選擇算法對壓縮機(jī) 故障數(shù)據(jù)分類正確率的影響 A:兩級往復(fù)式壓縮機(jī);B:信號調(diào)理模塊;C:信號采集模塊;D:負(fù)載模塊(氣動(dòng)馬達(dá)和磁粉制動(dòng)器構(gòu)成)圖2 往復(fù)式壓縮機(jī)故障實(shí)驗(yàn)平臺Fig.2 Experimental platform on fault simulation of reciprocating compressor 數(shù)據(jù)集MOFSMOFS1EUFS全部特征VData10.98530.95580.94770.9330VData20.94370.88920.90620.9277CData10.93000.87530.88670.8685 提取三種特征選擇算法在VData2數(shù)據(jù)集上所得的前3個(gè)重要特征構(gòu)成一個(gè)三維空間,觀察樣本的分布情況,如圖3所示??梢娭挥蠱OFS能完全將各個(gè)類的樣本分離開,而EUFS和MOFS1均有不同類的樣本發(fā)生重疊。這進(jìn)一步說明本文算法所得的特征重要度序列能更好的反映特征的真實(shí)重要度。 圖3 VData2數(shù)據(jù)集在前三個(gè)特征所構(gòu)成空間下的分布情況Fig.3 Distribution of VData2 in the first tree features obtained by different algorithms 已有多目標(biāo)特征選擇算法以特征數(shù)量作為第二個(gè)目標(biāo)函數(shù),使得每個(gè)特征子集規(guī)模下至多存在一個(gè)Pareto解。但是有的特征可能在現(xiàn)場難以獲取(如傳感器不易安裝,特征提取手段復(fù)雜等),不利于決策人員的后續(xù)操作。而MOFS則可以提供更多的選擇空間。以VData2為例,當(dāng)選定3個(gè)特征時(shí),MOFS1只能得到一個(gè)解,所選特征均為加速度傳感器的頻域特征,聚類所得RI指標(biāo)為0.896 2;而MOFS獲得兩個(gè)解,其中一個(gè)解的特征為頻域特征,聚類所得RI指標(biāo)為0.899 2,另一個(gè)解的特征為閥腔進(jìn)氣口壓力特征,聚類所得RI指標(biāo)為0. 857 9。雖然后者的聚類質(zhì)量略差,但許多壓縮機(jī)提供有壓力測點(diǎn),壓力信號更易于獲取。 提出的特征選擇算法采用了多目標(biāo)進(jìn)化模型來實(shí)現(xiàn)特征子集的優(yōu)化。在目標(biāo)函數(shù)方面,設(shè)計(jì)了相關(guān)度和冗余度兩個(gè)目標(biāo)函數(shù),既保留了相關(guān)特征,又剔除了冗余特征,有效避免了單一目標(biāo)偏好對特征選擇結(jié)果的影響。在算子設(shè)計(jì)方面,利用樣本在各個(gè)特征上的方差,設(shè)計(jì)了導(dǎo)向性的初始化方法和變異算子,充分利用了樣本中包含的已知信息。在實(shí)驗(yàn)方面,該算法在標(biāo)準(zhǔn)UCI數(shù)據(jù)集和多種往復(fù)壓縮機(jī)復(fù)雜故障數(shù)據(jù)上均取得了很好的效果,能夠準(zhǔn)確捕捉到重要特征。尤其在故障數(shù)據(jù)集的識別中,其獲得的特征子集在分類正確率和聚類質(zhì)量上均優(yōu)于單目標(biāo)特征選擇算法EUFS和僅優(yōu)化特征數(shù)量的多目標(biāo)特征選擇算法MOFS1,以及采用全部特征所得的結(jié)果。此外,該算法可以得到多個(gè)性能相近的候選特征子集,為決策人員提供了更大的選擇空間。 [ 1 ] Niu G,Han T,Yang B S,et al. Multi-agent decision fusion for motor fault diagnosis [J]. Mechanical Systems and Signal Processing, 2007, 21(3): 1285-1299. [ 2 ] Lei Y G,He Z J,Zi Y Y,et al. New clustering algorithm-based fault diagnosis using compensation distance evaluation technique [J]. Mechanical Systems and Signal Processing, 2008, 22(2): 419-435. [ 3 ] Lei Y G,He Z J,Zi Y Y,et al. Fault diagnosis of rotating machinery based on multiple ANFIS combination with GAs [J]. Mechanical Systems and Signal Processing, 2007, 21(5): 2280-2294. [ 4 ] Dash M,Liu H,Yao L. Dimensionality reduction of unsupervised data [C] // Proceeding of 9th IEEE International Conference on Tools with Artificial Intelligence. IEEE COMP SOC, 1997. 532-539. [ 5 ] 劉曉平, 鄭海起, 祝天宇. 基于進(jìn)化蒙特卡洛方法的特征選擇在機(jī)械故障診斷中的應(yīng)用 [J]. 振動(dòng)與沖擊, 2011, 30(10):98-101. LIU Xiao-ping, ZHENG Hai-qi, ZHU Tian-yu. Feature selection in machine fault diagnosis based on evolutionary Monte Carlo method [J]. Journal of Vibration and Shock, 2011, 30(10):98-101. [ 6 ] 潘宏俠, 黃晉英, 毛鴻偉, 等. 基于粒子群優(yōu)化的故障特征提取技術(shù)研究 [J]. 振動(dòng)與沖擊, 2008, 27(10):144-147. PAN Hong-xia, HUANG Jin-ying, MAO Hong-wei, et al. Fault-characteristic extracting technology based on particle swarm optimization [J]. Journal of Vibration and Shock, 2008, 27(10):144-147. [ 7 ] Handl J, Knowles J. Feature subset selection in unsupervised learning via multiobjective optimization [J]. International Journal of Computational Intelligence Research, 2006, 2(3):217-238. [ 8 ] Mierswa I, Wurst M. Information preserving multi-objective feature selection for unsupervised learning [C]// Keijzer M. Proceeding of 8th Annual Genetic and Evolutionary Computation Conference. USA:Assoc Computing Machinery, 2006, 1545-1552. [ 9 ] Deb K, Pratap A, Agarwal S, et al. A fast and elitist multiobjective genetic algorithm: NSGA-II [J]. IEEE Transactions on Evolutionary Computation, 2002, 6(2):182-197.[10] Quinlan R. Data mining tools see5 and c5.0[EB/OL]. http://www.rulequest.com/see5-info.html, 2004. Unsupervised feature selection algorithm with a multi-objective evolutionary model for fault diagnosis XIA Hu1, ZHUANG Jian1, ZHOU Fan2,YU De-hong1 (1. School of Mechanical Engineering, Xi’an Jiaotong University, Xi’an 710049,China;2. FAW-Volkswagen Automotive Company Ltd, Changchun 130011, China) Feature selection is necessary for high-dimensional fault features since it can improve efficiency and accuracy of a fault diagnosis. However, traditional feature selection algorithm always has a strong bias towards a single criterion, it is harmful to the quality of feature selection. An unsupervised feature selection algorithm based on a multi-objective evolutionary model was proposed to solve this problem. A relevance objective based on entropy measure and a redundancy objective based on correlation coefficients were simultaneously optimized. Both initialization process and mutation operator were also designed by utilizing the distribution information of samples in each feature. Besides, an ensemble method was proposed to obtain the importance sequences. Experiments for five sets of UCI data and three groups of valve fault data of reciprocating compressors demonstrated the better performance of the proposed algorithm. feature selection; multi-objective evolutionary algorithm; redundancy measure; fault diagnosis 國家自然科學(xué)基金面上項(xiàng)目(51375363);廣東省戰(zhàn)略性新興產(chǎn)業(yè)核心技術(shù)攻關(guān)項(xiàng)目(2012A090100010);西安市科技計(jì)劃項(xiàng)目(CX1250④) 2013-03-05 修改稿收到日期:2013-06-04 夏虎 男,博士生,1986年6月生 莊健 男,副教授,碩士生導(dǎo)師,1974年6月生 TP391.41 A 10.13465/j.cnki.jvs.2014.08.0113 基于集成的最優(yōu)解選取方法
4 實(shí)驗(yàn)分析
5 結(jié) 論