夏愛民 溫祥西 張宏志
(1.后勤學(xué)院研究生管理大隊(duì)北京 100036;2.空軍工程大學(xué)空管領(lǐng)航學(xué)院陜西西安 710077;3.61139部隊(duì)北京 100091)
一種基于支持向量的二進(jìn)制粒子群網(wǎng)絡(luò)故障特征選擇算法
夏愛民1溫祥西2張宏志3
(1.后勤學(xué)院研究生管理大隊(duì)北京 100036;2.空軍工程大學(xué)空管領(lǐng)航學(xué)院陜西西安 710077;3.61139部隊(duì)北京 100091)
網(wǎng)絡(luò)故障診斷中大量無關(guān)或冗余的特征會(huì)降低診斷的精度,需要對(duì)初始特征進(jìn)行選擇。Wrapper模式特征選擇方法分類算法計(jì)算量大,為了降低計(jì)算量,本文提出了基于支持向量的二進(jìn)制粒子群(SVB-BPSO)的故障特征選擇方法。該算法以SVM為分類器,首先通過對(duì)所有樣本的SVM訓(xùn)練選出SV集,在封裝的分類訓(xùn)練中僅使用SV集,然后采用異類支持向量之間的平均距離作為SVM的參數(shù)進(jìn)行訓(xùn)練,最后根據(jù)分類結(jié)果,利用BPSO在特征空間中進(jìn)行全局搜索選出最優(yōu)特征集。在DARPA數(shù)據(jù)集上的實(shí)驗(yàn)表明本文提出的方法能夠降低封裝模式特征選擇的計(jì)算量且獲得了較高的分類精度以及較明顯的降維效果。
網(wǎng)絡(luò)故障 特征選擇 二進(jìn)制粒子群 支持向量
網(wǎng)絡(luò)故障的診斷本質(zhì)上是一個(gè)模式識(shí)別問題,現(xiàn)有的網(wǎng)絡(luò)故障診斷方法往往直接將收集的網(wǎng)絡(luò)故障數(shù)據(jù)送入分類器進(jìn)行訓(xùn)練和識(shí)別。但是原始特征中往往含有冗余特征甚至噪聲特征,這些冗余特征不僅會(huì)增加訓(xùn)練的復(fù)雜度,還可能降低分類精度。在最終的診斷應(yīng)用中,還會(huì)影響診斷速度??梢姀牟杉某跏脊收霞羞x出最能代表故障特性的穩(wěn)定特征子集對(duì)診斷具有十分重要的意義。
近年來,特征選擇問題得到了廣泛的研究,根據(jù)是否依賴機(jī)器學(xué)習(xí)算法,特征選擇算法可以分為兩大類:一類為Wrapper型算法,另一類為Filter型算法[1-3]。Filter型特征選擇算法獨(dú)立于機(jī)器學(xué)習(xí)算法,計(jì)算代價(jià)小,效率高但效果一般,典型的算法包括采用類間距離作為親和度函數(shù)的AICSA算法[4];而Wrapper型特征選擇算法則需要依賴某種或多種機(jī)器學(xué)習(xí)算法,計(jì)算代價(jià)大,效率低但選擇效果好,例如文獻(xiàn)[5-6]提出的BPSO-SVM特征選擇算法。本文選擇Wrapper型算法,Wrapper首先要考慮的是采用哪種機(jī)器學(xué)習(xí)方法進(jìn)行分類。支持向量機(jī)(SVM)建立在結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則基礎(chǔ)之上,具有很強(qiáng)的學(xué)習(xí)能力和泛化性能,本文選擇SVM作為Wrapper的機(jī)器學(xué)習(xí)算法。但是,前面已經(jīng)提到Wrapper最大的缺點(diǎn)是計(jì)算代價(jià)特別高:BPSO-SVM需要進(jìn)行大量的SVM訓(xùn)練,阻礙了這些方法的實(shí)用性。因此,如何降低Wrapper型特征選擇的計(jì)算代價(jià)成為亟待解決的問題。而這些計(jì)算主要是由SVM訓(xùn)練引起,需要從SVM訓(xùn)練過程中去尋求解決方法。
本文分析了典型的基于SVM的Wrapper型特征選擇算法,從提高訓(xùn)練參數(shù)的優(yōu)化速度以及減少訓(xùn)練規(guī)模這兩個(gè)方面降低整個(gè)選擇算法的計(jì)算代價(jià)。并結(jié)合二進(jìn)制粒子群(BPSO)算法尋找最優(yōu)的特征組合,提出一種新穎的基于支持向量的二進(jìn)制粒子群(SVB-BPSO)特征選擇算法。SVB-BPSO僅使用支持向量集作為BPSO尋優(yōu)時(shí)SVM的訓(xùn)練集,且在參數(shù)尋優(yōu)時(shí)通過固定RBF核帶寬僅尋找最優(yōu)的懲罰因子的方式快速確定最終的最優(yōu)分類精度,降低了整個(gè)選擇過程的計(jì)算代價(jià)。
本節(jié)分析現(xiàn)有的典型特征選擇算法的計(jì)算代價(jià),從中找出減少計(jì)算量的途徑和方法。首先分析BPSO-SVM,它是一種典型的Wrapper特征選擇模型。特征選擇實(shí)際上是一個(gè)組合優(yōu)化問題,可以采用一些啟發(fā)式的搜索算法求解,關(guān)鍵是如何設(shè)置優(yōu)化目標(biāo)。在該算法中,優(yōu)化的目標(biāo)函數(shù)綜合考慮分類準(zhǔn)確性(accuracy)和特征維數(shù)(feature_dim):
其中,SVM的accuracy是通過交叉驗(yàn)證的方式得到的。計(jì)算accuracy過程中,如文獻(xiàn)[5]所提的采用5折交叉驗(yàn)證,則對(duì)于每個(gè)選取的參數(shù)均需要進(jìn)行5次SVM訓(xùn)練才能確定最終的accuracy;考慮交叉驗(yàn)證獲得最優(yōu)的參數(shù)過程,無論采用網(wǎng)格搜索還是啟發(fā)式算法都需進(jìn)行多次SVM訓(xùn)練。若不考慮參數(shù)的尋優(yōu),如文獻(xiàn)[6]中,采用LIBSVM的缺省設(shè)置,則得到的accuracy無法保證是最佳的,也就影響了目標(biāo)函數(shù)的準(zhǔn)確性。因此,如果能夠快速找到最優(yōu)的SVM訓(xùn)練參數(shù)將能降低算法的計(jì)算量。
另一個(gè)方面,SVM的訓(xùn)練過程是一個(gè)求解二次規(guī)劃的過程,它的計(jì)算代價(jià)與訓(xùn)練樣本的個(gè)數(shù)相關(guān)。在不降低分類準(zhǔn)確度的情況下減少參與訓(xùn)練的樣本個(gè)數(shù)也能夠降低算法的計(jì)算量。文獻(xiàn)[7]提出一種基于SVM的遞歸特征約簡算法(SVM-recursive feature elimination,SVM-RFE),通過定義的評(píng)價(jià)函數(shù)來評(píng)估每一個(gè)特征維對(duì)分類的敏感度(貢獻(xiàn)度),最終為每個(gè)特征按照敏感度進(jìn)行排序,最終通過排序表定義若干個(gè)嵌套的特征子集訓(xùn)練并評(píng)估這些子集的優(yōu)劣,選出最優(yōu)的特征。它的評(píng)價(jià)函數(shù)為:
通過第二部分的分析,本文提出的SVB-BPSO特征選擇算法框圖如圖1所示。首先對(duì)訓(xùn)練樣本進(jìn)行SVM訓(xùn)練(包括通過5折交叉進(jìn)行參數(shù)尋優(yōu)),獲得最終的SV集;對(duì)選擇的SV集通過BPSO算法進(jìn)行尋優(yōu)找到最終的最優(yōu)特征集;最后將測試樣本代入最優(yōu)特征集中進(jìn)行測試得到最終的分類結(jié)果。圖中,New SV集代表的是當(dāng)前粒子編碼對(duì)應(yīng)的SV集。
圖1 SVB-BPSO特征選擇算法框圖
下面就框圖中的參數(shù)尋優(yōu)以及BPSO特征選擇進(jìn)行詳細(xì)介紹。
3.1 SVM參數(shù)快速確定
SVM訓(xùn)練需要確定的參數(shù)包括核參數(shù)和懲罰因子,這些參數(shù)的選取對(duì)最終的分類結(jié)果會(huì)產(chǎn)生較大的影響進(jìn)而影響特征選擇結(jié)果[9-10]。在文獻(xiàn)[6]中并未考慮SVM訓(xùn)練參數(shù)的尋優(yōu)問題,雖然SVM具有較大的最優(yōu)區(qū)域,但是僅通過簡單設(shè)定往往不是最優(yōu)的參數(shù)。SVM的訓(xùn)練參數(shù)的尋優(yōu)問題是一直是SVM學(xué)習(xí)中的一個(gè)熱點(diǎn)問題,效果比較好的包括交叉驗(yàn)證和網(wǎng)格搜索以及一些智能搜索算法相結(jié)合的方法,但是這些方法需要大量的SVM訓(xùn)練??焖僬业揭粋€(gè)較優(yōu)的參數(shù)能夠較大的降低算法的計(jì)算量。常用的核函數(shù)包括線性核函數(shù)、多項(xiàng)式核函數(shù)(Polynomial Function)、徑向基核函數(shù)(Radial Basic Funtion,RBF)以及感知核函數(shù)(Sigmoid Function)。文獻(xiàn)[11]評(píng)估結(jié)果顯示,徑向基核函數(shù)(Radial Basic Function,RBF)的無窮維映射特性使之具有很強(qiáng)的學(xué)習(xí)能力且只需優(yōu)化核帶寬一個(gè)參數(shù),故本文選擇RBF作為SVM的核函數(shù)。下面對(duì)RBF核函數(shù)進(jìn)行分析,首先給出RBF核函數(shù)的數(shù)學(xué)表達(dá)式:
圖2顯示了不同核寬度值對(duì)RBF核函數(shù)的影響。
圖2 不同參數(shù)的徑向基核函數(shù)
3.2 BPSO算法
粒子群算法是Kennedy和Eberhart模仿鳥類群體行為的智能優(yōu)化算法,可解決連續(xù)函數(shù)的優(yōu)化問題[12]。在算法中,群體中的每個(gè)粒子都是一個(gè)潛在的解,通過學(xué)習(xí)歷史中自身的最優(yōu)位置Pb和群體最優(yōu)位置Pg來更新位置和速度,并根據(jù)粒子的位置計(jì)算適應(yīng)度函數(shù)來判斷解的優(yōu)劣,不斷迭代找到最優(yōu)解。
其中,t為迭代次數(shù),c1和c2為學(xué)習(xí)因子,r1和r2為[0,1]之間的隨機(jī)數(shù)。
為解決粒子群在離散問題中的應(yīng)用,Kennedy和Eberhart又在標(biāo)準(zhǔn)粒子群的基礎(chǔ)之上提出了二進(jìn)制粒子群優(yōu)化算法[10]。其原理和速度的更新方式不變,只是將粒子位置的每一維分量限制為0或1,并根據(jù)速度的sigmoid函數(shù)變換來控制粒子的位置更新:
本文提出的SV-BPSO算法采用wrapper特征選擇模型,利用BPSO的自動(dòng)尋優(yōu)能力在特征空間中進(jìn)行全局搜索,得到不同特征組合。根據(jù)SVM分類結(jié)果判斷這些特征組合的分類性能,并不斷更新選取的特征集,直至搜索到取得最佳分類結(jié)果的特征組合。與神經(jīng)網(wǎng)絡(luò)、遺傳算法等優(yōu)化算法相比,PSO具有所需確定的參數(shù)較少,收斂速度更快等優(yōu)點(diǎn);與順序選擇算法等常用特征選擇方法相比,PSO不易陷入局部極值,能得到全局最優(yōu)解。
3.3 基于SVB-BPSO的特征選擇
如果將整個(gè)特征空間看作解空間,不同特征組合看作解空間中不同位置處的粒子,粒子中各位置分量取值對(duì)應(yīng)特征組合中各特征分量的狀態(tài)。在BPSO尋優(yōu)中,首先需要根據(jù)問題對(duì)候選解進(jìn)行編碼:把每一個(gè)特征定義為粒子的二進(jìn)制變量,粒子空間維數(shù)D由原始特征集維數(shù)決定。如果第i位為1,那么第i個(gè)特征就被選中,否則這個(gè)特征就被丟棄。
BPSO算法中,某個(gè)粒子的位置矢量決定了某種特征子集的組合方式,而整個(gè)群體最優(yōu)點(diǎn)Pg確定了系統(tǒng)的最優(yōu)特征組合,適應(yīng)度函數(shù)Fit指導(dǎo)粒子群搜索方向。特性選擇的目的是使用盡可能少的特征得到相同或更優(yōu)的分類性能,因此,適應(yīng)度函數(shù)需要綜合考慮分類準(zhǔn)確性(accuracy)和特征維數(shù)(feature_dim)。式(1)給出的適應(yīng)度函數(shù)將這兩部分視作同等重要,但是當(dāng)accuracy較小時(shí)(如0.6),若feature_dim為1,則F=0.3+0.5=0.8,此時(shí)的F高于當(dāng)accuracy達(dá)到1而feature_dim為2(F=0.5+0.25=0.75),我們顯然不能認(rèn)為第一種情況好于第二種情況。其它文獻(xiàn)給出的目標(biāo)函數(shù)同樣沒有很好的解決這兩部分的權(quán)值關(guān)系。若原始樣本集訓(xùn)練獲得的分類精度(accuracy_1),在以下假設(shè)的前提下:
假設(shè)1:經(jīng)過特征選擇后獲得的最終accuracy同accuracy_1相差不大。
從文獻(xiàn)[5-8]中對(duì)大量數(shù)據(jù)集的實(shí)驗(yàn)可以看出經(jīng)過特征選擇得到的最終accuracy一般略高于或者略低于accuracy_1,這說明假設(shè)是可以成立的。另外,考慮在目標(biāo)函數(shù)中,我們更注重最終的accuracy,且認(rèn)為當(dāng)feature_dim對(duì)目標(biāo)函數(shù)的影響較accuracy低一個(gè)數(shù)量級(jí)時(shí)由accuracy主導(dǎo)目標(biāo)函數(shù)值。我們給出的最終的目標(biāo)函數(shù)為:
結(jié)合3.2,給出BPSO進(jìn)行特征選擇的步驟:輸入:初始樣本集為類別數(shù),lsv為支持向量個(gè)數(shù)),種群規(guī)模np,最大迭代次數(shù)iter,適應(yīng)度函數(shù)Fit,閾值Th。
步驟1:初始化粒子位置和速度,設(shè)定粒子規(guī)模np,最小和最大飛行速度vmin和vmax,最大迭代次數(shù)iter,適應(yīng)度函數(shù)閾值Th,計(jì)算每個(gè)粒子適應(yīng)度函數(shù)Fit,初始化pb、pg以及迭代次數(shù)n=1。
根據(jù)式(8)和(9)更新每個(gè)粒子的速度vid和位置xid
返回2
else停止迭代,輸出群體最佳位置Pg和Fit(Pg)。
步驟5:選擇當(dāng)前種群中最優(yōu)個(gè)體Pg中為1的基因位對(duì)應(yīng)S中的樣本特征,構(gòu)成約簡樣本集
4.1 數(shù)據(jù)處理
目前網(wǎng)絡(luò)中各種攻擊事件和病毒越來越多,導(dǎo)致網(wǎng)絡(luò)中產(chǎn)生大量的"軟故障",如網(wǎng)絡(luò)服務(wù)異常、操作系統(tǒng)崩潰、鏈路擁塞甚至中斷等。本文選擇了DARPA評(píng)估數(shù)據(jù)集[13],以攻擊下的網(wǎng)絡(luò)狀態(tài)模擬網(wǎng)絡(luò)故障。該數(shù)據(jù)集包含四類網(wǎng)絡(luò)攻擊,分別是DoS、Probe、R2L和U2R,每條記錄均有41個(gè)特征值。為了確保數(shù)據(jù)的普適性,從原始數(shù)據(jù)集中以等間隔采集法選取訓(xùn)練集樣本和測試樣本,具體情況如表1所示:
表1 實(shí)驗(yàn)樣本集結(jié)構(gòu)
此外樣本特征屬性值之間的不同度量,使得樣本向量在計(jì)算距離時(shí)取值范圍偏大的屬性占據(jù)了主導(dǎo)地位,大大弱化了取值范圍偏小的特征的貢獻(xiàn),無法正確反映樣本間的真實(shí)差異。設(shè)特征集合中的第i個(gè)特征的最大最小值分別為,則通過式(12)的歸一化處理將訓(xùn)練和測試集中的樣本特征值映射到[0,1]區(qū)間:
4.2 實(shí)驗(yàn)結(jié)果與分析
對(duì)以上經(jīng)過預(yù)處理的樣本數(shù)據(jù)集,分別使用文獻(xiàn)[4]提出的AICSA方法、文獻(xiàn)[5]提出的BPSO-SVM方法和文獻(xiàn)[6]的BPSO-SVM方法,文獻(xiàn)[7]的SVM-RFE、文獻(xiàn)[8]的SV-RFE以及本文的SVB-BPSO方法進(jìn)行特征選擇,并對(duì)測試樣本進(jìn)行分類,分別比較選擇的時(shí)間、得到的特征維數(shù)、測試的診斷精度。其中,BPSO的種群規(guī)模取20,最大迭代次數(shù)取100,SVM的訓(xùn)練工具采用LIBSVM[14](注意:LIBSVM中的參數(shù)核函數(shù)的表示形式為:,這里即為訓(xùn)練中的參數(shù)g,其表達(dá)式與式(3)不同,因此設(shè)置參數(shù)時(shí))。得到是實(shí)驗(yàn)結(jié)果如表2所示:
表2 實(shí)驗(yàn)結(jié)果
其中,時(shí)間比是其它方法同本文方法所用時(shí)間的比值。從實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn)基于Filter思想的AICSA特征選擇方法能夠獲得最低的選擇時(shí)間,遠(yuǎn)遠(yuǎn)快于其它算法。這是因?yàn)樵贔ilter的選擇中僅分析數(shù)據(jù)之間的關(guān)系,不考慮分類,但是它獲得的分類精度也低于其它方法。經(jīng)過文獻(xiàn)[5]提出的BPSO-SVM方法選擇出來的特征得到了最高的分類精度,但是它所花的時(shí)間遠(yuǎn)遠(yuǎn)高于其它方法,這主要是因?yàn)樗谟?xùn)練中采用5折交叉驗(yàn)證方式確定參數(shù)并訓(xùn)練,這中間需要進(jìn)行大量的SVM訓(xùn)練,因此它需要較長的時(shí)間。另外由于它考慮了訓(xùn)練參數(shù)且訓(xùn)練使用的是所有數(shù)據(jù),它最終得到的選擇結(jié)果也是最好的。文獻(xiàn)[6]中并未考慮參數(shù)設(shè)置問題,本文由于在前期進(jìn)行了歸一化處理,在使用缺省設(shè)置參數(shù)時(shí)能夠獲得較好的訓(xùn)練效果。在其它一些數(shù)據(jù)集實(shí)驗(yàn)時(shí)還是表現(xiàn)出了訓(xùn)練參數(shù)對(duì)最終提取結(jié)果還是有較大影響的。在訓(xùn)練時(shí)間上,即使不需要參數(shù)設(shè)置,但是每次計(jì)算目標(biāo)函數(shù)過程中的訓(xùn)練集仍為所有數(shù)據(jù),因此它的尋優(yōu)時(shí)間高于本文方法。SVM-RFE通過SVM得到Lagrange乘數(shù),通過式(2)判斷每一維的分類敏感性,式(2)的計(jì)算不涉及SVM訓(xùn)練,因此它的尋優(yōu)時(shí)間較短。SV-RFE SVM方法減少了參與尋優(yōu)的樣本,但是每次均要進(jìn)行SVM訓(xùn)練計(jì)算判別函數(shù),時(shí)間上較SVM-RFE略長,但是這兩種方法得到的最終分類精度低于本文方法以及文獻(xiàn)[5]中的BPSO-SVM,且選擇的特征維數(shù)較多。實(shí)驗(yàn)結(jié)果很明顯的體現(xiàn)出本文方法的優(yōu)勢(shì):用了一個(gè)較短的尋優(yōu)時(shí)間獲得了相對(duì)較高的分類精度以及較明顯的維數(shù)降低效果。
特征選擇在網(wǎng)絡(luò)故障診斷領(lǐng)域能夠提高診斷的精度和速度,作為目前特征提取效果較好的Wrapper模式選擇算法由于計(jì)算目標(biāo)函數(shù)時(shí)需要進(jìn)行分類訓(xùn)練,帶來大量的計(jì)算。為了降低Wrapper模式中的計(jì)算量,本文從SVM分類器的訓(xùn)練出發(fā),通過對(duì)SVM訓(xùn)練參數(shù)確定以及參與訓(xùn)練樣本個(gè)數(shù)兩個(gè)方面考慮降低SVM的訓(xùn)練代價(jià)。并對(duì)分類結(jié)果和選擇出的樣本維數(shù)的綜合考慮,利用BPSO在特征空間中進(jìn)行全局搜索選出最優(yōu)特征集。最后,在DARPA數(shù)據(jù)集上的特征提取實(shí)驗(yàn)表明本文提出的方法能夠折中的獲得較優(yōu)的分類精度較好的降維效果以及較低的運(yùn)算代價(jià)。本文提出的方法能夠?yàn)榫W(wǎng)絡(luò)故障診斷中的特征選擇問題提供一種新的較優(yōu)的途徑。
[1]Zhu Z,Ong Y,Dash M.Wrapper-filter feature selection algorithm using a memetic framework[J].IEEE Transactions on Systems,Man,and Cybernetics-Part B:Cybernetics, 2007,37(1):70-76.
[2]Zhao Mingyuan,Fu Chong,Ji Luping,Tang Ke,Zhou Mingtian.Feature selection and parameter optimization for support vector machines:A new approach based on genetic algorithm with feature chromosomes[J].Expert Systems with Applications 2011,38(5):5197-5204.
[3]Kim S.,Oommen B.On using prototype reduction scheme to optimize kernel-based Fisher discriminant analysis.IEEETransactions on Systems,Man,and Cybernetics-Part B: Cybernetics,2008,38(2):564-570.
[4]Zhang Li,Meng Xiangru,Wu Weijia,Zhou Hua.Network Fault Feature Selection Based on Adaptive Immune Clonal Selection Algorithm[A].2009 International Joint Conference on Computation Sciences and Optimization[C].Hainan, China:2009,969-973.
[5]潘泓,李曉兵,金立左,夏良正.一種基于二值粒子群優(yōu)化和支持向量機(jī)的目標(biāo)檢測算法[J].電子與信息學(xué)報(bào),2011,33 (1):117-121.
[6]喬立巖,彭喜元,彭宇.基于微粒群算法和支持向量機(jī)的特征子集選擇方法[J].電子學(xué)報(bào),2006,34(3):496-498.
[7]Guyon,I.,Weston,J.,Barnhill,S.,Vapnik,V..Gene selection for cancer classification using support vector machines[J].Machine Learning,2012,46(1/3):389-422.
[8]Eunseog Youn,Lars Koenig,Myong K.Jeong,Seung H. Baek.Support vector-based feature selection using Fisher's linear discriminant and Support Vector Machine[J].Expert Systems with Applications 2010,37(9):6148-6156.
[9]Vapnik.An Overview of Statistical Learning Theory[J].IEEE Transaction on Neural Network,2009,10(5):998-999.
[10]Chapelle O,Vapnik V,Bousquet O,et al.Choosing multiple parameters for support vector machine[J].Machine Learning,2012,46:131-159.
[11]王泳,胡包鋼.應(yīng)用統(tǒng)計(jì)方法綜合評(píng)估核函數(shù)分類能力的研究[J].計(jì)算機(jī)學(xué)報(bào),2008,31(6):942-952.
[12]Kennedy J,Eberhart R C,Shi Y H.Swarm intelligence[M].北京:人民郵電出版社,2009.
[13]University of California Irvine.UCI KDD Archive [DB/OL].http://kdd.ics.uci.edu/
[14]Chih-Chung Chang,Chih-Jen Lin.LIBSVM:A library for support vector machines[EB/OL].http://www.csie. ntu.edu.tw/~cjlin/libsvm.
A Support Vector Based Binary Particle Swarm Optimization Feature Selection Algorithm
XIA Ai-min1,WEN Xiang-xi2,ZhANG Hong-zhi3
(1.Graduate Management Unit of The Logistics College,PLA,Beijing 100036,China; 2.Institute of Air Traffic Control and Navigation,Air Force Engineering University,Xi'an Shanxi 710077,China;3.61139 PLA Troops,Beijing 100091,China)
In network fault diagnosis,many irrelevant and redundant features lessen the performance of diagnosis,feature selection is introduced on this condition.The wrapper feature selection algorithms get large calculation cost,a support vector based binary particle swarm optimization(SVB-BPSO)feature selection algorithm was proposed in this paper.The support vectors(SVs)are selected from the whole datasets by SVM training,the following wrapper classification focus only on these SVs.The training parameter is decided by average distance between different class SVs.Based on the SVM classifiers,the BPSO is used for searching the whole feature space to find the best feature subset.Experiments on DARPA datasets show the proposed method can reduce the wrapper feature selection's calculation cost while gets good performance on diagnosis accuracy and dimensional decrease.
network fault;feature selection;BPSO;support vector
TP391.4
A
1008-1739(2014)23-68-6
定稿日期:2014-11-12
計(jì)算機(jī)與網(wǎng)絡(luò)2014年23期