• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于雙模糊信息的特征選擇算法*

      2017-12-13 05:44:47李素姝王士同
      計(jì)算機(jī)與生活 2017年12期
      關(guān)鍵詞:訓(xùn)練樣本特征選擇子集

      李素姝,王士同,李 滔

      江南大學(xué) 數(shù)字媒體學(xué)院,江蘇 無錫 214122

      基于雙模糊信息的特征選擇算法*

      李素姝+,王士同,李 滔

      江南大學(xué) 數(shù)字媒體學(xué)院,江蘇 無錫 214122

      在對傳統(tǒng)特征選擇算法進(jìn)行研究的基礎(chǔ)上,提出了一種基于雙模糊信息的特征選擇算法(feature selection algorithm based on doubly fuzziness information,F(xiàn)SA-DFI)。第一種模糊體現(xiàn)在對最小學(xué)習(xí)機(jī)(least learning machine,LLM)進(jìn)行模糊化后得到模糊最小學(xué)習(xí)機(jī)(fuzzy least learning machine,F(xiàn)UZZYLLM)中;另一種模糊則是在基于貢獻(xiàn)率模糊補(bǔ)充這一方法中體現(xiàn)的,其中貢獻(xiàn)率高的特征才可能被選入最終的特征子集。算法FSA-DFI是將FUZZY-LLM和基于貢獻(xiàn)率的模糊補(bǔ)充方法結(jié)合得到的。實(shí)驗(yàn)表明,和其他算法相比,所提特征選擇算法FSA-DFI能得到更好的分類準(zhǔn)確率、更好的降維效果以及更快的學(xué)習(xí)速度。

      特征選擇;雙模糊;最小學(xué)習(xí)機(jī);模糊隸屬度;模糊補(bǔ)充

      1 引言

      大數(shù)據(jù)的興起需要更多性能優(yōu)良的機(jī)器學(xué)習(xí)算法和特征選擇新方法。特征選擇的目標(biāo)是為了找到具有代表性的特征子集,能表示出整個(gè)數(shù)據(jù)域的特性。在一個(gè)典型的特征選擇方法中,包括產(chǎn)生候選子集、評估子集、終止選擇以及驗(yàn)證子集是否有效這幾步。

      對特征選擇算法的研究最早可以追溯到20世紀(jì)60年代,當(dāng)時(shí)的研究領(lǐng)域主要是在統(tǒng)計(jì)學(xué)和信號處理方向,涉及到的特征也很少。90年代以來,對大規(guī)模數(shù)據(jù)的預(yù)處理問題不斷涌現(xiàn),原有的特征選擇算法已不能滿足需求,許多學(xué)者開始研究新算法?;诨バ畔⒌奶卣鬟x擇(mutual information-based feature selection,MIFS)算法[1]是由Battiti給出的一種考慮特征之間相關(guān)性的方法,此種方法需要預(yù)先指定與特征冗余程度有關(guān)的參數(shù)。基于最小冗余最大相關(guān)(minimum redundancy maximum relevance,mRMR)算法[2],使用互信息衡量特征的相關(guān)性和冗余度,并使用信息差和信息熵兩個(gè)代價(jià)函數(shù)來尋找特征子集,但是計(jì)算速度比較慢,冗余度和相關(guān)性評價(jià)方法單一,也不能根據(jù)用戶需求設(shè)置特征維度?;跅l件互信息(conditional mutual information,CMI)算法[3],融入聚類思想,其在特征選擇過程中一直保持特征互信息不變。Fleuret提出基于條件互信息最大化選擇(conditional mutual information maximization,CMIM)算法[4],采取一種變通的方式,使用單個(gè)已選特征代替整個(gè)已選子集以估算條件互信息。另外還有雙方聯(lián)合信息(joint mutual information,JMI)方法[5]、雙輸入對稱相關(guān)(double input symmetrical relevance,DISR)方法[6]、條件最大熵特征提取(conditional infomax feature extraction,CIFE)[7]以 及 ICAP(interaction capping)[7]方法等可以用來進(jìn)行特征選擇。然而,上述算法都是在全局范圍內(nèi)對數(shù)據(jù)進(jìn)行操控,并且難以兼顧泛化性能、學(xué)習(xí)效率和降維性能。

      近年來,有關(guān)人工神經(jīng)網(wǎng)絡(luò)的研究發(fā)展迅速,而在其實(shí)際應(yīng)用中,大部分的神經(jīng)網(wǎng)絡(luò)模型是基于BP神經(jīng)網(wǎng)絡(luò)及其變化形式。BP算法雖然有神經(jīng)網(wǎng)絡(luò)的普遍優(yōu)點(diǎn),但存在如收斂速度慢、易陷入局部最優(yōu)等問題[8]。針對這些問題,Wang等人通過揭示單層前向神經(jīng)網(wǎng)絡(luò)(single-layer feedforward neural network,SLFN)的極限學(xué)習(xí)機(jī)(extreme learning machine,ELM)[9]以及中心化的嶺回歸之間的關(guān)系,提出了SLFN的最小學(xué)習(xí)機(jī)(least learning machine,LLM)理論[10]。與BP算法相比,LLM算法具有較高的學(xué)習(xí)效率和較強(qiáng)的泛化性能,也適用于求解大規(guī)模樣本問題。然而,在實(shí)際應(yīng)用中發(fā)現(xiàn)一些輸入樣本并不能被準(zhǔn)確地分配到相應(yīng)的類別[11],因此LLM算法仍然存在一些局限性。對LLM引入模糊隸屬度,從而得到模糊最小學(xué)習(xí)機(jī)FUZZY-LLM的概念,使得不同的輸入樣本會對輸出結(jié)果的學(xué)習(xí)產(chǎn)生不同的影響。

      為了彌補(bǔ)傳統(tǒng)特征選擇算法難以兼顧泛化性能、學(xué)習(xí)效率和高辨識能力特征子集獲取的不足,同時(shí)改進(jìn)LLM算法存在的一些局限性,本文提出了一種新算法——基于雙模糊信息的特征選擇算法(feature selection algorithm based on doubly fuzziness information,F(xiàn)SA-DFI),其雙模糊具體體現(xiàn)在FUZZY-LLM算法以及基于貢獻(xiàn)率的模糊補(bǔ)充方法中。具體來說,首先將FUZZY-LLM作為一種訓(xùn)練樣本方法運(yùn)用于每個(gè)特征對其進(jìn)行分類,此時(shí)即可得到第一種模糊信息;然后使用一種新的模糊隸屬度函數(shù)將其映射到模糊子空間,即可得到每個(gè)特征對應(yīng)的模糊隸屬度集;接著利用模糊隸屬度集和基于貢獻(xiàn)率的模糊補(bǔ)充方法可得到第二種模糊信息,用這種模糊信息指導(dǎo)特征選擇過程的進(jìn)行,將貢獻(xiàn)率高的特征加入最終的特征子集。

      2 LLM與FUZZY-LLM

      2.1 LLM

      假定已有構(gòu)造好的L個(gè)無限可微的核函數(shù)g(xi,θ1),g(xi,θ2),…,g(xi,θL),L表示隱含層節(jié)點(diǎn)個(gè)數(shù),其中θ1,θ2,…,θL表示核的L個(gè)不同的參數(shù)向量,例如ELM中的wi,bi。關(guān)于樣本集D={xi,yi,i=1,2,…,N}中輸入、輸出樣本的逼近問題,可用下述的嶺回歸實(shí)現(xiàn):

      式中,C為正則化參數(shù),令H=[h1,h2,…,hN]T。其中,hi=[g(xi,θ1),g(xi,θ2),…,g(xi,θL)],T=[t1,t2,…,tN]T。

      根據(jù)文獻(xiàn)[12]的數(shù)據(jù)中心化思想,式(1)對應(yīng)的嶺回歸還可等價(jià)于下述中心化嶺回歸問題的解。即令,其中IN×N是對角元素值為1,其余元素為0的N×N單位矩陣,1∈RN為一個(gè)所有元素為實(shí)數(shù)1的列向量,可以看出LT=L。因此,式(1)的解為:

      當(dāng)C非常大時(shí),β退化為:

      其中,(LH)?為LH的偽逆(Moore-Penrose generalized inverse)。

      LLM算法實(shí)現(xiàn)簡單且學(xué)習(xí)效率非常高,能以較強(qiáng)的泛化能力實(shí)現(xiàn)函數(shù)逼近,也適用于求解大規(guī)模樣本問題。LLM算法還可應(yīng)用于回歸問題及深度學(xué)習(xí)領(lǐng)域[13-14]。

      2.2 FUZZY-LLM

      在分類問題中,有些訓(xùn)練樣本比其他樣本更重要,重要的訓(xùn)練樣本應(yīng)該被正確地分類,而那些被噪聲破壞的樣本意義不大,可以被丟棄。換句話說,存在一個(gè)模糊隸屬度si(0<si≤1)和每個(gè)訓(xùn)練樣本xi有關(guān)。在分類問題中,模糊隸屬度si可以看成是相應(yīng)的訓(xùn)練樣本對某一類的重要程度。選擇合適的模糊隸屬度也是比較容易的。首先,選擇σ>0作為模糊隸屬度較低的邊界;其次,定義時(shí)間為主要屬性,使得模糊隸屬度si成為時(shí)間ti的函數(shù):

      其中,t1≤t2≤…≤tN是樣本到達(dá)系統(tǒng)的時(shí)間。這里假設(shè)最后一個(gè)樣本xN最重要,令sN=f(tN)=1,第一個(gè)樣本x1最不重要,使得s1=f(t1)=σ。若要使得模糊隸屬度與時(shí)間成線性關(guān)系,可以令

      再應(yīng)用邊界條件得到:

      若要使得模糊隸屬度為時(shí)間的二次函數(shù),可以令

      再應(yīng)用邊界條件可得:

      因此,對LLM進(jìn)行模糊化后得到FUZZY-LLM。

      考慮一個(gè)帶有類標(biāo)及模糊隸屬度的訓(xùn)練樣本集合D={xi,yi,si,i=1,2,…,N},yi∈{+1,-1},yi表示類標(biāo),其中每個(gè)樣本,模糊隸屬度σ≤si≤1,σ表示一個(gè)大于0的較小值。前面提到,模糊隸屬度si是相應(yīng)的訓(xùn)練樣本對某一類的重要程度,而參數(shù)是對錯(cuò)誤的一個(gè)衡量,那么式子就是對不同權(quán)重錯(cuò)誤的衡量。關(guān)于樣本集D中輸入、輸出樣本的逼近問題,可用下述的嶺回歸實(shí)現(xiàn):

      基于KKT理論,訓(xùn)練模糊LLM等價(jià)于解決下述對偶最優(yōu)化問題:

      使用KKT相應(yīng)的最佳性條件如下:

      將式(11)和式(12)放入式(13)中替換,等式可以寫成:

      其中,T=[t1,t2,…,tN]T;模糊矩陣為:

      因此,不同模糊矩陣的輸入樣本點(diǎn)會對輸出權(quán)重β的學(xué)習(xí)產(chǎn)生不同的影響。根據(jù)文獻(xiàn)[15],當(dāng)訓(xùn)練樣本個(gè)數(shù)較小時(shí),F(xiàn)UZZY-LLM分類器的決策函數(shù)表達(dá)如下:

      當(dāng)訓(xùn)練樣本個(gè)數(shù)較大時(shí),對應(yīng)的決策函數(shù)為:

      對于二分類問題,F(xiàn)UZZY-LLM只有一個(gè)輸出節(jié)點(diǎn)且最終的決策值是。針對多分類問題,可以使用一對余方法(one versus rest,OVR)[16],訓(xùn)練樣本的預(yù)測類標(biāo)就是有最高決策值的輸出節(jié)點(diǎn)的序列數(shù):

      2.3 FUZZY-LLM實(shí)驗(yàn)研究

      用UCI(http://archive.ics.uci.edu/ml/)中的7個(gè)數(shù)據(jù)集Wine、Cleveland、Ionosphere、Dermatology、Wdbc、Glass、Sonar進(jìn)行實(shí)驗(yàn),觀察LLM和FUZZY-LLM算法性能的表現(xiàn)差異。在LLM、FUZZY-LLM中使用的激勵(lì)函數(shù)形式是sigmoid型,隱含節(jié)點(diǎn)數(shù)為20,C為220,F(xiàn)UZZY-LLM中σ設(shè)為0.1。表1是兩種算法測試準(zhǔn)確率和訓(xùn)練時(shí)間的比較。可以看出,LLM和FUZZY-LLM的訓(xùn)練速度都很快,F(xiàn)UZZY-LLM的學(xué)習(xí)性能并不比LLM差。

      在本文算法的雙模糊信息中,將模糊隸屬度的概念引入到LLM中即可得到FUZZY-LLM算法,那么使用該算法對輸入樣本進(jìn)行訓(xùn)練即可得到第一種模糊信息。由于FUZZY-LLM學(xué)習(xí)性能很好,本文用這種新算法作為一種訓(xùn)練方法,即將這種方法用于每個(gè)特征的訓(xùn)練樣本對其分類,得到所有分類器的決策值,用于后文將要介紹的模糊隸屬度函數(shù)的求解。

      Table 1 Performance comparison of LLM and FUZZY-LLM表1LLM和FUZZY-LLM性能比較

      3 特征選擇

      本章主要介紹本文所提出的第二種模糊,即使用基于貢獻(xiàn)率的模糊補(bǔ)充方法來進(jìn)行特征選擇。首先介紹一種求樣本模糊隸屬度的新方法,通過該方法進(jìn)而可以得到每個(gè)特征的模糊隸屬度集;接著利用模糊隸屬度集和基于貢獻(xiàn)率的模糊補(bǔ)充方法可得到第二種模糊信息,用其可以指導(dǎo)特征選擇過程的進(jìn)行,以得到最佳特征子集。

      3.1 模糊隸屬度集

      D中的訓(xùn)練樣本根據(jù)類標(biāo)排列如下:

      對于有M類的樣本集,用FUZZY-LLM方法對每個(gè)特征單獨(dú)訓(xùn)練以獲得每個(gè)樣本對所屬類的模糊隸屬度。但是模糊隸屬度不僅僅是由所屬類的決策函數(shù)值決定,還和其他分類器的輸出值有關(guān)。用xi,j表示樣本xi的第j個(gè)特征,i=1,2,…,N。Ak(xi,j)∈[0,1]表示樣本xi,j對所屬第k類的模糊隸屬度,fk(xi,j)表示由xi,j訓(xùn)練的第k個(gè)分類器的決策值,MXi,j,k表示由剩下的(K-1)個(gè)分類器獲得的最大決策值:

      則模糊隸屬度函數(shù)中的自變量Fk(xi,j)表示如下:

      模糊隸屬度函數(shù)Ak(xi,j)的表達(dá)式可以計(jì)算如下:

      (1)當(dāng)fk(xi,j)>MXi,j,k時(shí),表明樣本對所在類的模糊隸屬度比較高,Ak(xi,j)∈[0.5,1]。

      (2)當(dāng)fk(xi,j)<MXi,j,k時(shí),表明樣本對所在類的模糊隸屬度比較低,Ak(xi,j)∈[0,0.5]。

      (3)當(dāng)fk(xi,j)=MXi,j,k或MXi,j,k=1時(shí),模糊隸屬度為0.5,表明樣本的分類情況不確定。另外,λ為可調(diào)參數(shù),其對樣本所屬類別的模糊隸屬度有較大影響。

      現(xiàn)在將第k類中樣本的模糊隸屬度用一個(gè)集合表示,如式(23)所示:

      其中,ci表示樣本xi,j所屬類的類標(biāo)。S(j)還可用下式定義:

      其中,As(xi,j)表示xi,j對模糊集S的隸屬程度。

      為了客觀地描述上述概念,圖1描繪了第j個(gè)特征的模糊隸屬度集S(j)與訓(xùn)練樣本分布之間的關(guān)系。從圖中可以看出,大部分樣本都有較高的模糊隸屬度(超過0.5),表明只考慮單個(gè)特征j時(shí),能夠很好地將這些樣本區(qū)分開。而小部分樣本有比較低的模糊隸屬度(小于0.5),表明特征j并不能將它們正確區(qū)分開。S(j)關(guān)注的是與每個(gè)樣本有關(guān)的局部特性。

      模糊隸屬度集S(j)的基數(shù)就是模糊隸屬度集中元素累加之和,表示如下:

      Fig.1 Relationship betweenS(j)and distribution of training patterns圖1 S(j)與訓(xùn)練樣本分布之間的關(guān)系

      基數(shù)值|S(j)|主要是用來直觀地評判一個(gè)特征的分類能力。若S(j)中絕大部分樣本As(xi,j)的值都接近于1,則|S(j)|的值也比較大,就可以得出這一特征中訓(xùn)練樣本的分類是比較正確的,由此可推出此特征的分類性能相對較高。而若|S(j)|的值比較低,也可說明其中很多樣本都被分錯(cuò),則此特征的分類性能較差?;鶖?shù)|S(j)|注重于對特征分類能力的整體評判。

      3.2 基于貢獻(xiàn)率的模糊補(bǔ)充方法

      3.2.1 模糊域中相關(guān)定義

      定義1兩個(gè)模糊隸屬度集合S(j)和S(q)的并集可以用S-norm[17]來定義,這里采用S3(A,B)=max(A,B)形式如下(http://www.nicodubois.com/bois5.2.htm):

      定義2(S(j)|-|S(q))兩個(gè)特征模糊隸屬度集合的差值定義如下[18]:

      定義3(G(t))讓表示被選上的t個(gè)特征的集合,G(t)表示包含在F(t)中所有特征的模糊隸屬度集合的并集,其提供了一種近似方法去評估在第t次迭代中已選特征所獲得的數(shù)據(jù)覆蓋的質(zhì)量:

      定義4(ES(zlt))若是在第t次迭代中的一個(gè)候選特征。表示特征和G(t-1)有關(guān)的額外貢獻(xiàn),是由提供的隸屬度的剩余部分,G(t-1)表示在迭代中累積的并集。候選特征的額外貢獻(xiàn)可用下式表達(dá):

      3.2.2 基于貢獻(xiàn)率的模糊補(bǔ)充方法描述

      在已選擇第一個(gè)特征后,進(jìn)行如下算法1過程:

      (2)選擇特征判定條件:

      基于貢獻(xiàn)率的模糊補(bǔ)充特征方法能夠促進(jìn)特征之間的合作,確保新加入進(jìn)來的特征具有補(bǔ)充意義。換句話說,新加入進(jìn)來的特征能夠?yàn)橐堰x特征子集帶來更高的模糊隸屬度,而不是被之前已經(jīng)選擇出來的特征所完全覆蓋。

      3.3 FSA-DFI算法過程描述

      本文提出了一種基于雙模糊信息的特征選擇新算法FSA-DFI。首先將FUZZY-LLM作為一種訓(xùn)練樣本方法運(yùn)用于每個(gè)特征對其進(jìn)行分類得到第一種模糊信息;然后使用一種新的模糊隸屬度函數(shù)得到每個(gè)特征對應(yīng)的模糊隸屬度集,最后使用模糊隸屬度集和基于貢獻(xiàn)率的模糊補(bǔ)充方法得到第二種模糊信息,用這種模糊信息指導(dǎo)特征選擇過程的進(jìn)行以得到最佳特征子集。若初始特征集合,n表示特征總數(shù)。本文算法步驟描述如下:

      (1)初始化,定義初始模糊隸屬度并集G(0)=?,初始已選特征子集F(0)=?,設(shè)定閾值E,設(shè)定可調(diào)參數(shù)λ。

      (2)計(jì)算特征的模糊隸屬度集,根據(jù)前述3.1節(jié)的式(20)~(24),計(jì)算特征集fs中每個(gè)特征的模糊隸屬度集合S(zj),j=1,2,…,n。

      (3)選擇第一個(gè)特征,計(jì)算所有特征的模糊隸屬度集基數(shù),選擇使得基數(shù)最大的特征:

      (4)進(jìn)行3.2.2小節(jié)中算法1的過程。

      (5)輸出最后被選擇出來的特征集合。

      3.4 FSA-DFI算法結(jié)束條件

      將FSA-DFI算法應(yīng)用在Wine數(shù)據(jù)集上,觀察隨著特征數(shù)目變化,分類精度和貢獻(xiàn)率的變化情況。這里數(shù)據(jù)集劃分為訓(xùn)練和測試部分(70%,30%),產(chǎn)生的特征子集通過KNN1分類器進(jìn)行評估,閾值E設(shè)為0.1%。圖2展示了被選擇特征數(shù)目相對應(yīng)的分類精度變化和貢獻(xiàn)率的變化。貢獻(xiàn)率一開始呈指數(shù)下降,而分類精度呈上升趨勢后趨于穩(wěn)定。閾值E作為算法結(jié)束條件,獲得了9個(gè)特征,分類精度達(dá)到穩(wěn)定值98.11%。

      Fig.2 Evolution of contribution rateand classification rate versus number of selected features圖2 被選擇特征數(shù)目相對應(yīng)的分類精度變化和貢獻(xiàn)率的變化

      4 實(shí)驗(yàn)研究與結(jié)果分析

      4.1 實(shí)驗(yàn)數(shù)據(jù)集及實(shí)驗(yàn)平臺簡介

      本文采用9個(gè)來自UCI的真實(shí)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),如表2所示。為避免結(jié)果的偶然性,對數(shù)據(jù)集隨機(jī)抽取其中的70%作為訓(xùn)練樣本,剩下的30%作為測試樣本并進(jìn)行10重交叉驗(yàn)證。特征選擇結(jié)束后得到的特征子集使用KNN1分類器對其進(jìn)行測試,得到最終的實(shí)驗(yàn)結(jié)果。

      Table 2 List of datasets表2 數(shù)據(jù)集列表

      實(shí)驗(yàn)平臺:所有數(shù)據(jù)集在Intel Core i3-3240×2 CPU,主頻為3.4 GHz,內(nèi)存為4 GB,編程環(huán)境為Matlab2013a上進(jìn)行仿真實(shí)驗(yàn)。

      4.2 參數(shù)設(shè)置

      (1)經(jīng)過實(shí)驗(yàn)發(fā)現(xiàn),式(22)中的參數(shù)λ在{1.0,1.5,2.0,2.5,3.0,3.5}中取值。這里選取3個(gè)數(shù)據(jù)集(Iris、Vehicle、Cleveland)觀察λ對本文算法FSA-DFI泛化性能的影響,如圖3所示,可發(fā)現(xiàn)在這3個(gè)數(shù)據(jù)集中,該參數(shù)是比較敏感的。

      (2)算法中的閾值E從{0.1,0.2,…,1.0}中選擇。E的值越小,表明選擇的特征數(shù)目越多,降維程度越低,但能獲得更高的測試準(zhǔn)確率,反之亦然。

      (3)FUZZY-LLM算法中正則參數(shù)C取值為220,隱含層節(jié)點(diǎn)數(shù)L取為20,算法最常用的激勵(lì)函數(shù)形式為sigmoid型。

      Fig.3 Effect of parameterλon accuracy of FSA-DFI algorithm圖3 參數(shù)λ對FSA-DFI算法準(zhǔn)確率的影響

      4.3 評價(jià)指標(biāo)

      實(shí)驗(yàn)主要以測試準(zhǔn)確率、降維程度(DR)和特征選擇時(shí)間作為主要評價(jià)指標(biāo)。其中,測試準(zhǔn)確率是由10次隨機(jī)劃分所得準(zhǔn)確率求均值得到,降維程度計(jì)算如下:

      4.4 算法性能比較分析

      本文的對比實(shí)驗(yàn)分為兩部分:第一部分9組實(shí)驗(yàn)是對不同特征選擇方法的泛化性能進(jìn)行比較分析,與FSA-DFI算法進(jìn)行比較的有CMIM[4]、JMI[5]、DISR[6]、CIFE[7]、ICAP[7]、MIFS[1]、CMI[3]、mRMR[2]算法,實(shí)驗(yàn)結(jié)果如表3所示。為方便比較,使得CMIM、JMI、DISR、CIFE、ICAP、MIFS、CMI和mRMR這幾種算法最終選擇的特征數(shù)目和本文算法FSA-DFI相同,即降維程度相同。表3中第二列是數(shù)據(jù)集在不同特征選擇算法中所選擇的特征數(shù)目。這些算法運(yùn)行效率都很高,運(yùn)行時(shí)間幾乎為0,不進(jìn)行比較。

      第二部分9組實(shí)驗(yàn)是在本文的特征選擇算法中采用不同訓(xùn)練方法進(jìn)行比較的結(jié)果,與FUZZY-LLM方法進(jìn)行比較的是 SVM[19]、LS-SVM[20]、FSVM[21]和LLM。其中,SVM、LS-SVM和FSVM的核函數(shù)是高斯RBF形式,如式(34)所示:

      Table 3 Evaluation of test accuracy表3 測試準(zhǔn)確率對比

      SVM、LS-SVM、FSVM實(shí)驗(yàn)中正則參數(shù)C設(shè)為220,σ為1,參數(shù)λ值同F(xiàn)UZZY-LLM;FSVM中模糊隸屬度si的計(jì)算同F(xiàn)UZZY-LLM,F(xiàn)SVM中SMO(sequential minimal optimization)算法的參數(shù)TolKKT為0.001,MaxIter為 15 000,KKTViolationLevel為 0,KernelCacheLimit為5 000。LLM方法中所有參數(shù)同F(xiàn)UZZY-LLM。實(shí)驗(yàn)結(jié)果如表4~表6所示,最優(yōu)結(jié)果都用粗體標(biāo)出。

      從表3中可以看出,本文所提出的FSA-DFI算法泛化性能很高,其中在 Wdbc、Wine、Vehicle、Cleveland、Glass這5個(gè)數(shù)據(jù)集上具有最高的測試準(zhǔn)確率,在其他幾個(gè)數(shù)據(jù)集上也具有不錯(cuò)的性能。

      從表4~表6中可以看出,本文提出的訓(xùn)練方法FUZZY-LLM 在 Heart、Wine、Cleveland、Ionosphere、Wdbc和Glass這6個(gè)數(shù)據(jù)集中都具有很高的準(zhǔn)確率,而且在Cleveland和Glass這兩個(gè)數(shù)據(jù)集中,本文算法的準(zhǔn)確率要遠(yuǎn)高于SVM及其延伸算法。另外,在Heart、Wine、Iris、Cleveland、Ionosphere、Wdbc、Vehicle和Glass這8個(gè)數(shù)據(jù)集中,本文算法時(shí)間花費(fèi)很少,可見其學(xué)習(xí)效率非常高,同時(shí)在這些數(shù)據(jù)集中也能保持不錯(cuò)的降維效果。同F(xiàn)UZZY-LLM相比,SVM算法通過犧牲學(xué)習(xí)效率以換取較高的測試準(zhǔn)確率;LS-SVM算法也是通過犧牲準(zhǔn)確率以換取較高的降維性能;而FSVM和LLM的總體性能也不如FUZZYLLM。在大規(guī)模數(shù)據(jù)集Wdbc、Vehicle和Segment中,相比于其他算法,采用FUZZY-LLM這種訓(xùn)練方法的效率依然很高,可見該算法可以很好地解決大規(guī)模數(shù)據(jù)集的分類問題??傊?,本文算法既能得到很好的泛化能力,又能獲得不錯(cuò)的降維效果,同時(shí)還具有非常高的學(xué)習(xí)效率,三者兼顧,還可以用于解決大規(guī)模數(shù)據(jù)集的分類問題。

      Table 4 Comparison results of different training methods in Iris、Wine and Glass datasets表4 在Iris、Wine和Glass數(shù)據(jù)集中采用不同訓(xùn)練樣本方法的比較結(jié)果

      Table 6 Comparison results of different training methods in Wdbc、Vehicle and Segment datasets表6 在Wdbc、Vehicle和Segment數(shù)據(jù)集中采用不同訓(xùn)練樣本方法的比較結(jié)果

      5 實(shí)際問題實(shí)驗(yàn)探究

      本文算法FSA-DFI將在4個(gè)真實(shí)存在的高維生物醫(yī)學(xué)數(shù)據(jù)集上進(jìn)行測試,如表7所示。其中,Leukemia和Colon數(shù)據(jù)集取自于http://datam.i2r.a-star.edu.sg/datasets/krbd/index.html,SRBCT和DLBCL數(shù)據(jù)集取自于http://www.gems-system.org/,這些數(shù)據(jù)集都是基因表達(dá)數(shù)據(jù)。

      Table 7 List of high dimensional datasets表7 高維數(shù)據(jù)集列表

      Colon數(shù)據(jù)集的樣品是患者體內(nèi)取出后20 min內(nèi)在液氮中快速冷凍的結(jié)腸腺癌樣品,其包括22個(gè)正常(標(biāo)為“positive”)和40個(gè)腫瘤樣品(標(biāo)為“negative”),每個(gè)樣品有 2 000 個(gè)基因;Small,round blue cell tumors(SRBCT)of childhood,小圓形藍(lán)色腫瘤數(shù)據(jù)集有83個(gè)樣品,每個(gè)樣品有2 308個(gè)基因,分為EWS、RMS、BL、NB這4類;Diffuse large b-cell lymphomas(DLBCL)and follicular lymphomas,彌漫性大b細(xì)胞淋巴瘤和濾泡性淋巴瘤有72個(gè)樣品,每個(gè)樣品有5 469個(gè)基因,分為DLBCL和FL這兩類;Leukemia數(shù)據(jù)集取自于Golub報(bào)道的白血病患者樣品的集合,數(shù)據(jù)集由72個(gè)樣品組成,包含對應(yīng)于來自骨髓和外周血的急性淋巴母細(xì)胞性白血?。ˋLL)的25個(gè)樣品和急性髓細(xì)胞性白血?。ˋML)的47個(gè)樣品,每個(gè)樣品測量超過7 129個(gè)基因。

      Colon、SRBCT、DLBCL和Leukemia數(shù)據(jù)集經(jīng)過算法FSA-DFI測試后選擇出來的特征數(shù)目依次是8、12、7、3。從表8可知,與傳統(tǒng)特征選擇方法相比,本文算法FSA-DFI在高維數(shù)據(jù)集中的分類精度依然很高。從圖4和圖5可得,與現(xiàn)存的其他分類方法相比,本文所提出的基于分類方法FUZZY-LLM所進(jìn)行的特征選擇算法在應(yīng)用到實(shí)際的生物醫(yī)學(xué)數(shù)據(jù)集問題中依然能夠獲得很高的泛化性能和學(xué)習(xí)效率。另外,基于這幾種分類方法進(jìn)行特征選擇后得到的降維程度都接近100%,這里不予表示。FSA-DFI算法應(yīng)用在Colon、SRBCT、DLBCL和Leukemia數(shù)據(jù)集中的降維度分別為99.59%、99.47%、99.87%、99.96%。因而可得,本文所提出的基于分類方法FUZZY-LLM所進(jìn)行的特征選擇算法FSA-DFI在應(yīng)用到實(shí)際的高維生物醫(yī)學(xué)數(shù)據(jù)集問題中依然能夠兼顧泛化性能、降維程度以及學(xué)習(xí)效率。

      6 結(jié)束語

      本文提出了一種基于雙模糊信息的特征選擇新算法FSA-DFI,該算法能夠在獲取高辨識能力特征子集的同時(shí)獲得很好的泛化性能,最突出的特點(diǎn)就是學(xué)習(xí)效率高,甚至在許多高維數(shù)據(jù)集中能獲得比較優(yōu)良的性能,因此可以很好地解決高維數(shù)據(jù)集、大規(guī)模數(shù)據(jù)集的分類問題。該算法的雙模糊具體體現(xiàn)在FUZZY-LLM算法以及基于貢獻(xiàn)率的模糊補(bǔ)充方法中。具體來說,首先將FUZZY-LLM作為一種訓(xùn)練樣本方法運(yùn)用于每個(gè)特征對其進(jìn)行分類,此時(shí)即可得到第一種模糊信息;然后使用一種新的模糊隸屬度函數(shù)得到每個(gè)特征對應(yīng)的模糊隸屬度集,第二種模糊信息是從模糊隸屬度集和基于貢獻(xiàn)率的模糊補(bǔ)充方法中得到的,用其可以指導(dǎo)特征選擇過程的進(jìn)行,以得到最佳特征子集,這種方式加強(qiáng)了特征間的協(xié)作關(guān)系,從而得到具有最小冗余最大相關(guān)性的特征子集。

      Table 8 Comparison results of different feature selection methods in Colon,SRBCT,DLBCLand Leukemia datasets表8 在Colon、SRBCT、DLBCL和Leukemia數(shù)據(jù)集中應(yīng)用不同特征選擇方法的比較結(jié)果

      Fig.4 Comparison of test accuracy results using different classification methods in Colon,SRBCT,DLBCL and Leukemia datasets圖4 在Colon、SRBCT、DLBCL和Leukemia數(shù)據(jù)集中采用不同分類方法測試準(zhǔn)確率的比較

      Fig.5 Comparison of feature selection time using different classification methods in Colon,SRBCT,DLBCL and Leukemia datasets圖5 在Colon、SRBCT、DLBCL和Leukemia數(shù)據(jù)集中采用不同分類方法特征選擇時(shí)間的比較

      [1]Battiti R.Using mutual information for selecting features in supervised neural net learning[J].IEEE Transactions on Neural Networks,1994,5(4):537-550.

      [2]Zhang Ning,Zhou You,Huang Tao,et al.Discriminating between lysine sumoylation and lysine acetylation using mRMR feature selection and analysis[J].PLOS One,2014,9(9):e107464.

      [3]Sotoca J M,Pla F.Supervised feature selection by clustering using conditional mutual information-based distances[J].Pattern Recognition,2010,43(6):2068-2081.

      [4]Fleuret F.Fast binary feature selection with conditional mutual information[J].Journal of Machine Learning Research,2004,5(3):1531-1555.

      [5]Kerroum M A,Hammouch A,Aboutajdine D.Textural feature selection by joint mutual information based on Gaussian mixture model for multispectral image classification[J].Pattern Recognition Letters,2010,31(10):1168-1174.

      [6]Bennasar M,Hicks Y,Setchi R.Feature selection using joint mutual information maximisation[J].Expert Systems with Applications,2015,42(22):8520-8532.

      [7]Brown G,Pocock A,Zhao Mingjie,et al.Conditional likelihood maximisation:a unifying framework for information theoretic feature selection[J].Journal of Machine Learning Research,2012,13(1):27-66.

      [8]Jing Guolin,Du Wenting,Guo Yingying.Studies on prediction of separation percent in electrodialysis process via BP neural networks and improved BP algorithms[J].Desalination,2012,291(14):78-93.

      [9]Huang Guangbin,Zhou Hongming,Ding Xiaojian,et al.Extreme learning machine for regression and multiclass classification[J].IEEE Transactions on Systems,Man&Cybernetics:Part B Cybernetics,2012,42(2):513-529.

      [10]Wang Shitong,Chung F L.On least learning machine[J].Journal of Jiangnan University:Natural Science Edition,2010,9(5):505-510.

      [11]Zhang W B,Ji H B.Fuzzy extreme learning machine for classification[J].Electronics Letters,2013,49(7):448-450.

      [12]Zhang Changshui,Nie Feiping,Xiang Shiming.A general kernelization framework for learning algorithms based on kernel PCA[J].Neurocomputing,2010,73(4/6):959-967.

      [13]Wang Shitong,Chung F L,Wu Jun,et al.Least learning machine and its experimental studies on regression capability[J].Applied Soft Computing,2014,21(8):677-684.

      [14]Wang Shitong,Jiang Yizhang,Chung F L,et al.Feedforward kernel neural networks,generalized least learning machine,and its deep learning with application to image classification[J].Applied Soft Computing,2015,37(C):125-141.

      [15]Huang Guangbin,Zhu Qinyu,Siew C K.Extreme learning machine:theory and applications[J].Neurocomputing,2006,70(1/3):489-501.

      [16]Student S,Fujarewicz K.Stable feature selection and classification algorithms for multiclass microarray data[J].Biology Direct,2012,7(1):33.

      [17]Azadeh A,Aryaee M,Zarrin M,et al.A novel performance measurement approach based on trust context using fuzzy T-norm and S-norm operators:the case study of energy consumption[J].Energy Exploration&Exploitation,2016,34(4):561-585.

      [18]Dereli T,Baykasoglu A,Altun K,et al.Industrial applications of type-2 fuzzy sets and systems:a concise review[J].Computers in Industry,2011,62(2):125-137.

      [19]Chang C C,Lin C J.LIBSVM:a library for support vector machines[J].ACM Transactions on Intelligent Systems and Technology,2011,2(3):389-396.

      [20]Suykens J A K,Gestel T V,Brabanter J D,et al.Least squares support vector machines[J].Euphytica,2002,2(2):1599-1604.

      [21]Lin Chunfu,Wang Shengde.Fuzzy support vector machines[J].IEEE Transactions on Neural Networks,2002,13(2):464-471.

      附中文參考文獻(xiàn):

      [10]王士同,鐘富禮.最小學(xué)習(xí)機(jī)[J].江南大學(xué)學(xué)報(bào):自然科學(xué)版,2010,9(5):505-510.

      Feature SelectionAlgorithm Based on Doubly Fuzziness Information*

      LI Sushu+,WANG Shitong,LI Tao

      School of Digital Media,Jiangnan University,Wuxi,Jiangsu 214122,China

      2016-10,Accepted 2016-12.

      Based on the traditional feature selection algorithms,this paper proposes a new feature selection algorithm based on doubly fuzziness information(FSA-DFI).One fuzziness is involved in the fuzzified version of least learning machine(LLM),i.e.,FUZZY-LLM,and the other fuzziness is involved in the contribution-rate based fuzzy complementary method in which the features with high contribution rates may be finally selected.The proposed feature selection algorithm is built on the combination of FUZZY-LLM and the contribution-rate based fuzzy complementary method.Experiments indicate that the proposed feature selection algorithm has better classification accuracy,better dimension reduction and faster learning speed,in contrast to other comparative algorithms.

      feature selection;doubly fuzziness;least learning machine;fuzzy membership degree;fuzzy complementary

      +Corresponding author:E-mail:lss85318977@163.com

      10.3778/j.issn.1673-9418.1610058

      *The National Natural Science Foundation of China under Grant No.61170122(國家自然科學(xué)基金).

      CNKI網(wǎng)絡(luò)優(yōu)先出版:2017-01-03,http://www.cnki.net/kcms/detail/11.5602.TP.20170103.1028.002.html

      LI Sushu,WANG Shitong,LI Tao.Feature selection algorithm based on doubly fuzziness information.Journal of Frontiers of Computer Science and Technology,2017,11(12):1993-2003.

      A

      TP181

      LI Sushu was born in 1993.She is an M.S.candidate at School of Digital Media,Jiangnan University.Her research interests include artificial intelligence and pattern recognition,etc.

      李素姝(1993—),女,江蘇南通人,江南大學(xué)數(shù)字媒體技術(shù)學(xué)院碩士研究生,主要研究領(lǐng)域?yàn)槿斯ぶ悄埽J阶R別。

      WANG Shitong was born in 1964.He is a professor and Ph.D.supervisor at School of Digital Media,Jiangnan University,and the member of CCF.His research interests include artificial intelligence and pattern recognition,etc.

      王士同(1964—),男,江蘇揚(yáng)州人,江南大學(xué)數(shù)字媒體技術(shù)學(xué)院教授、博士生導(dǎo)師,CCF會員,主要研究領(lǐng)域?yàn)槿斯ぶ悄?,模式識別等。

      LI Tao was born in 1990.He is an M.S.candidate at School of Digital Media,Jiangnan University.His research interests include artificial intelligence and pattern recognition,etc.

      李滔(1990—),男,四川綿陽人,江南大學(xué)數(shù)字媒體技術(shù)學(xué)院碩士研究生,主要研究領(lǐng)域?yàn)槿斯ぶ悄?,模式識別等。

      猜你喜歡
      訓(xùn)練樣本特征選擇子集
      由一道有關(guān)集合的子集個(gè)數(shù)題引發(fā)的思考
      拓?fù)淇臻g中緊致子集的性質(zhì)研究
      關(guān)于奇數(shù)階二元子集的分離序列
      人工智能
      Kmeans 應(yīng)用與特征選擇
      電子制作(2017年23期)2017-02-02 07:17:06
      寬帶光譜成像系統(tǒng)最優(yōu)訓(xùn)練樣本選擇方法研究
      融合原始樣本和虛擬樣本的人臉識別算法
      基于稀疏重構(gòu)的機(jī)載雷達(dá)訓(xùn)練樣本挑選方法
      聯(lián)合互信息水下目標(biāo)特征選擇算法
      每一次愛情都只是愛情的子集
      都市麗人(2015年4期)2015-03-20 13:33:22
      佛山市| 丹阳市| 长丰县| 永德县| 靖宇县| 攀枝花市| 宜昌市| 萨迦县| 进贤县| 淅川县| 冕宁县| 深圳市| 黄龙县| 福清市| 桐乡市| 卫辉市| 南漳县| 桂东县| 当阳市| 景东| 华宁县| 休宁县| 河曲县| 宾川县| 武城县| 颍上县| 南和县| 壶关县| 舒城县| 贵德县| 洪雅县| 宝鸡市| 太谷县| 鄱阳县| 沙湾县| 莒南县| 富蕴县| 永泰县| 团风县| 涞水县| 永清县|