陶新民,張冬雪,郝思媛,徐 鵬
(哈爾濱工程大學(xué) 信息與通信工程學(xué)院,哈爾濱 150001)
機(jī)械設(shè)備的狀態(tài)監(jiān)測和故障診斷本質(zhì)上是一個模式識別的過程,其包括故障特征信息提取和狀態(tài)識別兩部分[1]。在狀態(tài)識別階段,由于傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)方法需要大量的典型故障樣本來訓(xùn)練,從而使其應(yīng)用受到制約。支持向量機(jī)(Support Vector Machines,SVM)是在統(tǒng)計學(xué)習(xí)理論基礎(chǔ)上發(fā)展起來的一種新的機(jī)器學(xué)習(xí)方法,它在解決模式識別的小樣本問題時表現(xiàn)出了優(yōu)良性能,因此越來越受到研究人員的重視,現(xiàn)已廣泛應(yīng)用到故障檢測領(lǐng)域[2-7]。
然而,傳統(tǒng)SVM故障診斷方法都是基于樣本均衡的前提條件下進(jìn)行的。在故障檢測這種特殊的應(yīng)用領(lǐng)域,由于故障樣本的收集十分困難,導(dǎo)致用于訓(xùn)練的故障樣本數(shù)遠(yuǎn)遠(yuǎn)少于正常樣本,這就引起了失衡數(shù)據(jù)下的故障診斷問題。傳統(tǒng)的支持向量機(jī)對均衡數(shù)據(jù)集而言具有良好的分類能力,然而當(dāng)面對失衡數(shù)據(jù)集時,分類面就會向樣本數(shù)量較少的一類移動,從而使支持向量機(jī)過擬合樣本點數(shù)目多的一類,而低估樣本點數(shù)目少的一類,最終導(dǎo)致算法的故障漏檢率增大。除了故障診斷,失衡數(shù)據(jù)也大量存在于其他領(lǐng)域,如網(wǎng)絡(luò)入侵、信用卡欺詐檢測、醫(yī)療檢測、文本分類和信息檢索等,因此如何提高失衡數(shù)據(jù)下SVM算法的分類性能一直是眾多學(xué)者關(guān)注的重點。
針對失衡數(shù)據(jù)分類問題,學(xué)者們相繼提出了多種改進(jìn)算法。其中文獻(xiàn)[9]通過SMOTE[10]對數(shù)據(jù)上采樣的預(yù)處理技術(shù)實現(xiàn)訓(xùn)練數(shù)據(jù)的均衡,然而由于訓(xùn)練樣本的增加可能會使決策域減小,導(dǎo)致算法過度擬合。同時,人為增加樣本有可能導(dǎo)致噪聲點增加,從而降低分類精度。下采樣算法則是一個與上采樣相反的方法,它通過減少多數(shù)類樣本的方式來實現(xiàn)數(shù)據(jù)的均衡。其中包括隨機(jī)下采樣[11],以及借鑒實例簡約的 CNN(Condensed Nearest Neighbor)算法[12],但是由于下采樣算法只隨機(jī)選取了多數(shù)類的一個子集,而被選取出來的子集對改善SVM分類界面是否有效卻未知,如選擇不當(dāng)可能會導(dǎo)致分類效果很不理想[13-15]。因此,如何在保證數(shù)據(jù)均衡的同時,能讓保存的樣本信息對決策界面的生成更有效,成為利用下采樣提高失衡數(shù)據(jù)下SVM算法分類性能的關(guān)鍵。
鑒于此,本文提出一種基于譜聚類[16]的下采樣算法,首先在核空間中對正常樣本進(jìn)行聚類,然后根據(jù)聚類結(jié)果選擇具有代表性的正常樣本子集。在樣本選擇時根據(jù)與故障樣本間的距離比例進(jìn)行選擇,從而實現(xiàn)故障樣本和正常樣本之間的數(shù)據(jù)均衡。試驗中將本文算法應(yīng)用在軸承故障診斷領(lǐng)域,并同其他算法進(jìn)行了比較,實驗結(jié)果表明本文建議的算法在數(shù)據(jù)失衡情況下分類性能較其他算法有較大幅度提高。
支持向量機(jī)是由Vapnik等提出的一類新型的機(jī)器學(xué)習(xí)算法。它是建立在統(tǒng)計學(xué)習(xí)理論和結(jié)構(gòu)風(fēng)險最小化原則之上,通過固定經(jīng)驗風(fēng)險,最小化置信風(fēng)險,將輸入空間映射到高維內(nèi)積空間,有效避免了“維數(shù)災(zāi)難”。在解決小樣本集、非線性高維數(shù)模式識別問題上具有很大優(yōu)勢,并在故障診斷領(lǐng)域受到普遍關(guān)注。
以兩類訓(xùn)練樣本集為例,設(shè)給定的訓(xùn)練樣本集為{(x1,y1),(x2,y2),…,(xn,yn)},yi∈{+1,- 1},i=1,2,…,n代表樣本類別,核函數(shù)為K。構(gòu)造代價函數(shù)使其最小:
約束條件是:
其中:ξi是松弛變量,表示訓(xùn)練樣本的錯分程度,C是懲罰常數(shù),控制對錯分樣本的懲罰程度,w和b分別為判決函數(shù)f(x)=(w·x)+b的權(quán)向量和閾值。拉格朗日函數(shù)為:
其中:αi和βi是拉格朗日算子。根據(jù)KKT條件:
αi>0的樣本是支持向量。判別函數(shù)為:
由于多數(shù)類和少數(shù)類樣本數(shù)目失衡,分布在SVM分類界面附近的樣本比例也不相同,從而導(dǎo)致多數(shù)類樣本成為支持向量的概率遠(yuǎn)遠(yuǎn)大于少數(shù)類樣本。由式(6)可知,算法最終學(xué)習(xí)得到的分類界面就會向少數(shù)類樣本移動,這樣勢必會導(dǎo)致SVM分類器對小數(shù)量樣本類別產(chǎn)生較大的測試誤差。因此,為了提高SVM分類器的分類性能,必須解決SVM算法在失衡數(shù)據(jù)情況下分類邊界向少數(shù)類樣本偏移的問題。
在處理失衡樣本的問題中,目前的下采樣算法只是將遠(yuǎn)離邊界的樣本進(jìn)行了刪除,或者隨機(jī)選取多數(shù)類的一個子集,沒能考慮采樣后子集的信息是否有效。這種方法雖然能實現(xiàn)訓(xùn)練樣本數(shù)目間的均衡,但對改善SVM的分類界面沒有任何影響,這是由于SVM算法分類界面的形成只與支持向量有關(guān)。因此,為了能有效改善SVM分類界面的位置,使其向多數(shù)類樣本方向偏移,就需要刪除部分邊界樣本,為了不改變多數(shù)類樣本集合空間結(jié)構(gòu),本文利用聚類算法對多數(shù)類樣本聚類,然后選擇那些聚類中具有局部空間代表意義的樣本作為新的訓(xùn)練樣本,如此即可實現(xiàn)對多數(shù)類樣本集合進(jìn)行有目的地篩選。
在聚類算法的選擇上,我們選擇譜聚類算法(Spectral Clustering Algorithm)。該算法首先根據(jù)給定的樣本數(shù)據(jù)集定義一個描述成對數(shù)據(jù)點相似度的親合矩陣,并計算矩陣的特征值和特征向量,最后選擇合適的特征向量聚類不同的數(shù)據(jù)點。由于這種算法不用對數(shù)據(jù)的全局結(jié)構(gòu)作假設(shè),并且具有識別非凸分布聚類的能力,因此非常適合于許多實際問題中。另外,譜聚類算法能在核空間聚類,這使其能與SVM算法實現(xiàn)無縫連接。下面簡介一下譜聚類算法:
定義一個無方向圖G=(V,E),其中定點集合V={v1,v2,…,vn},n是樣本個數(shù),假設(shè) G 是個加權(quán)圖,它的兩個定點vi和vj的邊由wij>0表示。進(jìn)一步定義該圖的加權(quán)連接矩陣為W=(wij),i,j=1,…,n。如果wij=0則表示vi和vj頂點間沒有邊。由于G是個無向圖,因此wij=wji。其中頂點vi?V的度及圖的度矩陣分別定義為:
對應(yīng)該圖的標(biāo)準(zhǔn)化圖拉普拉斯矩陣定義為:譜聚類具體算法描述如下:
輸入:相似矩陣S∈Rn×n,聚類個數(shù)k
(1)根據(jù)相似矩陣構(gòu)造無方向相似圖G=(V,E),
其中W作為它的加權(quán)連接矩陣;
(2)計算標(biāo)準(zhǔn)化圖拉普拉斯矩陣Lsym;
(3)計算拉普拉斯矩陣Lsym的前k個特征矢量μ1,μ2,…,μk;
(4)將 μ1,μ2,…,μk作為列生成 U∈Rn×k;
(5)通過對U矩陣中的每一行進(jìn)行標(biāo)準(zhǔn)化處理tij生成 T∈Rn×k;
(6)對于每一行 i=1,2,…,n,ti∈Rk作為 T 矩陣的第i行的向量;
(7)對(ti)i=1,2,…,n利用K-means算法進(jìn)行聚類形成 C1,C2,…,Ck;
將利用上述基于譜聚類的下采樣算法對多數(shù)類樣本進(jìn)行預(yù)處理,然后將采樣后的多數(shù)類樣本子集同全部少數(shù)類樣本共同組合成新的訓(xùn)練樣本集,輸入到SVM算法中進(jìn)行訓(xùn)練學(xué)習(xí)。具體步驟如下:
(1)設(shè)置預(yù)采樣的多數(shù)類樣本點個數(shù)MajorN=m*MinorN;m為兩者數(shù)量上的比例;
(2)算法首先利用多數(shù)類樣本集合建立一個基于高斯核的相似矩陣S∈Rn×n,n是原有多數(shù)類樣本的個數(shù);
(3)然后利用上述的譜聚類算法對多數(shù)類樣本進(jìn)行聚類分析生成聚類 A1,…,Ak,k=MajorN;
(4)選擇每一個聚類中具有代表性的樣本點,其中在每一個聚類中樣本選擇數(shù)取決于該聚類的大小以及該聚類中的樣本與少數(shù)類樣本點的平均距離的大小,聚類越大,則選擇的樣本數(shù)就越多;離少數(shù)類樣本越近則選擇的越少,如此選擇是為了有目的地刪除多數(shù)類中的邊界樣本信息點。具體公式如下:
其中:Ksizei為聚類Ai的大小,IDisti為聚類Ai到少數(shù)類的平均距離,是每一個聚類中選擇的樣本個數(shù);
(6)將采樣得到的多數(shù)類訓(xùn)練樣本子集和全部的少數(shù)類樣本組合作為新的訓(xùn)練樣本,輸入到SVM算法中進(jìn)行訓(xùn)練學(xué)習(xí),其中核參數(shù)與相似矩陣S的核參數(shù)相同,即譜聚類和 SVM分類算法都在一個空間中進(jìn)行;
(7)最后,根據(jù)訓(xùn)練得到的分類界面進(jìn)行新樣本的類別辨識。
圖1是在失衡比例為100∶1時SVM分類情況。其中十字型為多數(shù)類樣本,圓圈為少數(shù)類樣本,而被圈起來的十字為支持向量。我們清楚地看到SVM分類邊界向著少數(shù)類方向進(jìn)行了偏移。而圖2為m=5時譜聚類下采樣失衡數(shù)據(jù)下SVM算法的分類界面情況,其中正方形點為多數(shù)類到少數(shù)類的最遠(yuǎn)點;六角形為多數(shù)類到少數(shù)類的中心點;倒三角形為多數(shù)類到少數(shù)類的最近點,不難看出通過處理后的SVM的分類性能得到了改善,分類邊界向著多數(shù)類方向偏移。
圖1 數(shù)據(jù)樣本比例為100∶1時SVM算法的分類邊界Fig.1 Classification boundary of SVM under the proportion 100∶1
圖2 譜聚類下采樣后SVM算法分類邊界的變化Fig.2 The classification boundary of the spectral clustering under-sampling SVM
以往適用于均衡數(shù)據(jù)分類的以整體分類錯誤為目標(biāo)的性能評估指標(biāo),已不再適合失衡數(shù)據(jù)集分類。由于傳統(tǒng)的性能評估是從整體分類器考慮的,以此為指導(dǎo)訓(xùn)練學(xué)習(xí)得到的失衡數(shù)據(jù)分類器容易將少數(shù)類樣本錯分。這是因為少數(shù)類樣本數(shù)目所占比例不大,將其分錯對總體的分類性能指標(biāo)的影響并不大。針對傳統(tǒng)性能指標(biāo)存在的缺陷,近年來很多學(xué)者提出一些用于失衡數(shù)據(jù)分類的性能評測指標(biāo),常見的有以下幾種:
表1 混合矩陣Tab.1 Hybrid matrix
首先定義在失衡數(shù)據(jù)集中少數(shù)類(正類)為P,多數(shù)類(負(fù)類)為N;FP是指將多數(shù)類樣本錯分成少數(shù)類的數(shù)目,而FN是指將少數(shù)類樣本錯分成多數(shù)類的數(shù)目,同理TP和TN分別表示少數(shù)類和多數(shù)類樣本被正確分類的個數(shù)。由此可以得到:
少數(shù)類樣本查全率:
多數(shù)類樣本查全率:
少數(shù)類樣本查準(zhǔn)率:
多數(shù)類樣本錯分率:
幾何平均正確率G-mean:
少數(shù)類的F-measure:
性能指標(biāo)G綜合考慮了少數(shù)類和多數(shù)類兩類樣本的分類性能,如果分類器分類偏向于其中一類會影響另一類的分類正確率,從而G值會很小。性能指標(biāo)F則考慮少數(shù)類樣本的查全率和查準(zhǔn)率的相結(jié)合,其中任何一個值都能影響F值的大小,所以它能綜合地體現(xiàn)出分類器對少數(shù)類的分類效果。
為了展示樣本數(shù)據(jù)集失衡時對傳統(tǒng)支持向量機(jī)算法分類性能的影響以及本文提出的算法在失衡數(shù)據(jù)情況下的分類能力,采用來自美國Case Western Reserve University電氣工程實驗室的實驗數(shù)據(jù)[14]。該振動信號的收集來自于安裝在感應(yīng)電機(jī)輸出軸支撐軸承上端機(jī)殼上的振動加速度傳感器。實驗?zāi)M了滾動軸承的4種運行狀態(tài):① 正常運行狀態(tài);② 外圈故障;③ 內(nèi)圈故障;④ 滾動體故障。
近年來,基于相空間重構(gòu)(RPS)模式的故障診斷方法得到了廣泛應(yīng)用,為此本文選用訓(xùn)練樣本易得的正常樣本相空間的投影系數(shù)作為故障特征。即首先確定正常樣本相空間的參數(shù),然后取其他類型的樣本在該空間的投影系數(shù)作為故障診斷的特征[1],具體描述如下:
若軸承振動信號時間序列為:y1,y2,y3,…,yn(yi∈ R)當(dāng)正常樣本相空間的嵌入維數(shù)為m,延遲時間間隔為τ,則采用時間延遲技術(shù)重構(gòu)相空間為:
式中:xi為信號在重構(gòu)相空間的投影系數(shù),其中相空間的參數(shù)利用互信息函數(shù)指標(biāo)來確定,嵌入維度選擇文獻(xiàn)[1]提供的方法。試驗確定的正常樣本相空間的延遲間隔τ等于2,嵌入維度m等于5,因此故障診斷的特征為5維矢量。最終形成正常樣本、內(nèi)圈故障樣本、外圈故障樣本和滾動體故障樣本四種5維矢量作為故障檢測特征。
本文選擇1 000個正常樣本、1 000個內(nèi)圈故障樣本、1 000個外圈故障樣本和1 000個滾動體故障樣本組成訓(xùn)練集,同樣分別選擇10 000個樣本組成測試樣本集合。為了測試本文算法在數(shù)據(jù)失衡情況下的分類性能,實驗中取失衡比例分別為 100∶1、50∶1、40∶1、30∶1、20∶1、10∶1 的內(nèi)圈、外圈以及滾動體故障樣本點進(jìn)行試驗。將本文基于譜聚類下采樣失衡SVM算法(SC-SVM)同基于SVM算法、基于隨機(jī)下采樣SVM算法(RU-SVM)、基于CNN下采樣SVM算法和基于SMOTE過采樣SVM算法的試驗結(jié)果進(jìn)行比較。試驗中SVM核函數(shù)為高斯核函數(shù),核寬度為10。懲罰因子C=10。SMOTE算法中的 K值為6。將F-measure、G-mean作為性能測評指標(biāo)。其中圖3、圖4為內(nèi)圈故障檢測結(jié)果,圖5、圖6為外圈故障檢測結(jié)果,圖7、圖8為滾動體故障檢測結(jié)果,圖中各類算法分別為SCSVM(基于譜聚類下采樣支持向量機(jī))、SVM(傳統(tǒng)支持向量機(jī))、RUSVM(隨機(jī)下采樣支持向量機(jī))、CNNSVM(簡明最近鄰支持向量機(jī))、SMOTESVM(少數(shù)類上采樣算法支持向量機(jī))。
從試驗結(jié)果可以看出,隨著失衡比例系數(shù)的增大,各種算法的分類性能都在逐漸下降,但本文算法仍優(yōu)于其他算法,原因在于本文算法充分結(jié)合了SVM算法的特點,利用譜聚類在核空間對樣本進(jìn)行聚類,并且有目的的選擇多數(shù)類樣本點進(jìn)行下采樣,同時還與SVM算法無縫連接,使得本文算法的失衡數(shù)據(jù)分類性能優(yōu)于其他算法。從試驗結(jié)果可知,傳統(tǒng)SVM算法在樣本失衡時少數(shù)類樣本錯分率達(dá)到100%,分類性能極其不理想。而隨機(jī)下采樣算法由于去除樣本隨機(jī),可能會導(dǎo)致有效樣本被刪除,因此分類效果也很不理想。CNN算法由于是通過將遠(yuǎn)離分類邊界的多數(shù)類樣本進(jìn)行刪除的方式來實現(xiàn)樣本均衡,而在SVM算法中,決定分類邊界位置的都是邊界樣本,因此該算法雖然實現(xiàn)了數(shù)據(jù)均衡,但分類邊界并沒有發(fā)生改變,分類效果同樣也不理想。而SMOTE上采樣算法本身對數(shù)據(jù)十分依賴,即要求少數(shù)樣本集合是凸集,所以當(dāng)少數(shù)類樣本缺乏代表性時,分類效果就會受到了很大影響。
圖3 不同比例失衡內(nèi)圈故障數(shù)據(jù)下F-measure性能比較Fig.3 Comparison of F-measure performance between different proportions of imbalanced datas under inner faults
圖4 不同比例失衡內(nèi)圈故障數(shù)據(jù)下G-mean性能比較Fig.4 Comparison of G-mean performance between different proportions of imbalanced datas under inner fault
圖5 不同比例失衡外圈故障數(shù)據(jù)下F-measure性能比較Fig.5 Comparison of F-measure performance between different proportions of imbalanced datas under outer faults
圖6 不同比例失衡外圈故障數(shù)據(jù)下G-mean性能比較Fig.6 Comparison of G-mean performance between different proportions of imbalanced datas under outer faults
圖7 不同比例失衡滾動體故障數(shù)據(jù)下F-measure性能比較Fig.7 Comparison of F-measure performance between different proportions of imbalanced datas under ball faults
圖8 不同比例失衡滾動體故障數(shù)據(jù)下G-mean性能比較Fig.8 Comparison of G-mean performance between different proportions of imbalanced datas under ball faults
為了驗證高斯核半徑參數(shù)對本文算法性能的影響,試驗中選內(nèi)圈故障樣本、外圈故障樣本、滾動體故障樣本來進(jìn)行,其中正常樣本與故障樣本比例為50∶1,選取不同高斯核參數(shù)值觀察F-measure和G-mean的性能變化,試驗結(jié)果如圖9~10所示。當(dāng)高斯核半徑很小時,由于分類器過度依賴訓(xùn)練樣本,因此出現(xiàn)了過擬合現(xiàn)象,分類效果不好。隨著高斯核參數(shù)的增大,算法的性能逐漸提高,而當(dāng)參數(shù)值達(dá)到一定程度,分類器的學(xué)習(xí)能力開始逐漸變差,錯分率也隨之增大,這是由于本文算法是下采樣算法,所選取的樣本都具有一定的代表性,因此希望SVM應(yīng)具備一定的學(xué)習(xí)能力。因此結(jié)合試驗結(jié)果可知,當(dāng)核寬度選取為0.8~13時本文算法的分類性能最佳。
為了比較算法之間的效率,本文利用訓(xùn)練后的支持向量的個數(shù)作為評測標(biāo)準(zhǔn),這是由于SVM分類算法的決策函數(shù)只與支持向量有關(guān),因此計算量也同樣與其個數(shù)有關(guān)系。在該試驗中,本文選擇1 000個正常樣本、1 000個內(nèi)圈故障樣本、1 000個外圈故障樣本和1 000個滾動體故障樣本組成訓(xùn)練集,同樣分別選擇10 000個樣本組成測試樣本集合。本文將正常樣本與故障樣本比例定于50∶1,對內(nèi)圈故障樣本、外圈故障樣本和滾動體故障樣本的支持向量數(shù)目進(jìn)行了統(tǒng)計,試驗結(jié)果如表2。從試驗結(jié)果可知,雖然隨機(jī)下采樣算法支持向量個數(shù)略少于本文算法,但是分類效果卻遠(yuǎn)遠(yuǎn)低于本文算法。而上采樣算法支持向量的個數(shù)則是本文算法的百倍以上,計算量很大,根本無法滿足故障診斷領(lǐng)域?qū)崟r檢測的需要,因此可以說在綜合考慮算法分類性能同檢測與訓(xùn)練時間方面,本文算法要優(yōu)于其他算法。
圖9 不同Sigma下F-measure值Fig.9 F-measure value under different Sigma
圖10 不同sigma下G-mean值Fig.10 G-mean value under different Sigma
表2 不同算法的支持向量數(shù)量對比Tab.2 Comparison of the number of support vectors between different algorithms
本文針對傳統(tǒng)支持向量機(jī)算法在解決故障檢測問題時,由于失衡數(shù)據(jù)的影響導(dǎo)致分類性能下降的問題,提出一種基于譜聚類下采樣失衡SVM故障診斷方法。試驗部分將該算法與其他算法進(jìn)行比較,結(jié)果表明本文算法在F-measure及G-mean性能上均優(yōu)越于其他算法。試驗部分也考察了核寬度的取值對算法性能的影響,結(jié)果表明當(dāng)參數(shù)適當(dāng)增大時會有利于提高算法的分類性能。試驗最后將本文算法得到的支持向量的數(shù)目與其他算法進(jìn)行比較,結(jié)果表明本文算法在提高算法分類性能的同時也大大降低了故障檢測的時間。需要指出的是本文算法具有很強(qiáng)的推廣能力,不僅適合于故障檢測,也同樣適用于其他失衡數(shù)據(jù)情況下的應(yīng)用領(lǐng)域。
[1]陶新民,杜寶祥,徐 勇.基于HOS奇異值譜和SVDD的軸承故障檢測方法[J].振動工程學(xué)報,2008,21(2):401-405.TAO Xin-min,DU Bao-xiang,XU Yong. Bearingfault detection using SVDD based on HOS-singular value spectrum[J].Journal of Vibration Engineerin,2008,21(2):401-405.
[2]王紅軍,張建民,徐小力.基于支持向量機(jī)的機(jī)械系統(tǒng)狀態(tài)組合預(yù)測模型研究[J].振動工程學(xué)報,2006,19(2):242-245.WANG Hong-jun,ZHANG Jian-min,XU Xiao-li.Study on combination trend prediction technologyformechaninery system based on SVM[J].Journal of Vibration Engineerin,2006,19(2):242 -245.
[3]唐和生,薛松濤.序貫最小二乘支持向量機(jī)的結(jié)構(gòu)系統(tǒng)識別[J].振動工程學(xué)報,2006,19(3):382-387.TANG He-sheng,XUE Song-tao.Sequential LS-SVM for structural systems identification[J].Journal of Vibration Engineerin,2006,19(3):382 -387.
[4]張建明,曾建武.基于粗糙集的支持向量機(jī)故障診斷[J].清華大學(xué)學(xué)報(自然科學(xué)版),2007,47(S2):1773-1777.ZHANG Jian-ming,ZENG Jian-wu.Fault diagnosis based on RS and SVM[J].Journal of Tsinghua University(Science and Technology),2007,47(S2):1773 -1777.
[5]袁勝發(fā),褚福磊.支持向量機(jī)及其在機(jī)械故障診斷中的應(yīng)用[J].振動與沖擊,2007,26(11):29-34.YUAN Sheng-fa,CHU Fu-lei.Support vection machines and its application in machine fault diagnosis[J].Journal of Vibration and Shock,2007,26(11):29 -34.
[6]袁勝發(fā),褚福磊.次序二叉樹支持向量機(jī)多類故障診斷算法研究[J].振動與沖擊,2009,28(3):51-54.YUAN Sheng-fa,CHU Fu-lei.Mult-iclass fault diagnosis based on support vector machines with sequenced binary tree archtecture[J].Journal of Vibration and Shock,2009,28(3):51-54.
[7]Ravikumar B,Thukaram D.Application of support vector machines for fault diagnosis in power transmission system[J].Iet Generation Transmission &Distribution,2008,2(1):119-130.
[8]Akbani R,Kwek S,Japkowicz N.Applying support vector machines to imbalanced datasets[C].Proceedings of the 2004 European Conference on Machine Learning(ECML'2004),2004:39 -50.
[9]Liu Y,An A,Huang X.Boosting prediction accuracy on imbalanced datasets with SVM ensembles[C].Proceedings of the 10th Pacific-Asia Conference on Knowledge Discovery and Data Mining(PAKDD'06),Singapore,2006:107 -118.
[10]Chawla N,Bowyer K,Hall L,et al.SMOTE:synthetic minority over-sampling technique[C]. International Conference on Knowledge Based Computer Systems,2002:321-357.
[11]Akban I R,Kwek S,Japkow I.Applying support vector machines to imbalanced datasets[C]Proc of the 15th European Conference on Machines Learning,2004:39 -50.
[12]Bastista G E,Prati R C,Monard M C.A study of the behavior of several methods for balancing machine learning training data[J].ACM SIGKDD Exploration Newsletter,2004,6(1):20-29.
[13]陶新民,徐 晶,童智靖.失衡數(shù)據(jù)下基于陰性免疫的過抽樣算法[J].控制與決策,2010,25(6):867 -873.TAO Xin-min,XU Jing,TONG Zhi-jing. Over-sampling algorithm based on negative immune in imbalanced data sets learning[J],Control and Decision,2010,25(6):867 -873.
[14]Sun Y,Kamel M S,Wong A K C.Cost-sensitive boosting for classification of imbalanced data[J].Pattern Recognition,2007,40(12):3358 -3378.
[15]曾志強(qiáng),吳 群,廖備水,等.一種基于核SMOTE的非平衡數(shù)據(jù)集分類方法[J].電子學(xué)報,2009,39(11):2489-2495.ZENG Zhi-qiang, WU Qun, LIAO Bei-shui, et al. A classification method for imbalance data set based on kernel SM0TE[J].Acta Electronica Sinica,,2009,39(11):2489-2495.
[16]王 玲,薄列峰,焦李成.密度敏感的半監(jiān)督譜聚類[J].軟件學(xué)報,2007,18(10):2412 -2422.WANG Ling,BO Lie-feng,JIAO Li-cheng.Density-sensitive semi-supervised spectral clustering[J].Journal of Software,2007,18(10):2412-2422.