• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      一種改進的特征子集區(qū)分度評價準則

      2022-06-18 10:37:28謝娟英吳肇中鄭清泉王明釗
      自動化學(xué)報 2022年5期
      關(guān)鍵詞:特征選擇子集分類器

      謝娟英 吳肇中 鄭清泉 王明釗 ,2

      大數(shù)據(jù)時代的數(shù)據(jù)不僅樣本量劇增,維數(shù)也日益劇增,引發(fā)維數(shù)災(zāi)難[1],增加計算復(fù)雜度,而且冗余和不相關(guān)特征使得分類器性能較差,給數(shù)據(jù)分析帶來挑戰(zhàn).因此,特征選擇及其評價成為一個研究熱點[2?6].

      特征選擇旨在發(fā)現(xiàn)具有強分類能力且互不相關(guān)或盡可能互不相關(guān)的少量特征構(gòu)成特征子集.特征搜索策略包括完全搜索、隨機搜索和啟發(fā)式搜索3大類[7].特征選擇算法可分為:Filter[8],Wrapper[9],Embedded[10],Hybrid[11?13],以及Ensemble[14]幾大類.Filter 方法根據(jù)獨立于分類器的特征重要性評價準則,如卡方檢驗等來判斷特征的分類能力,選擇分類性能強的特征構(gòu)成特征子集.Filter 方法獨立于學(xué)習(xí)過程,速度快,但需要閾值作為停止準則,且準確率較低.Wrapper 方法依賴于分類器,需要將訓(xùn)練樣本分為訓(xùn)練子集和驗證子集兩部分,特征選擇則過程中,以分類器在驗證子集的性能判斷相應(yīng)特征子集的分類能力,選擇分類能力強的特征子集.構(gòu)建基于特征子集的分類模型,以測試集對模型進行評價,從而評價特征子集和相應(yīng)特征選擇算法的性能.Wrapper 方法中,特征選擇過程中使用的學(xué)習(xí)算法完全是一個 “黑匣子”.因此,Wrapper方法依賴于學(xué)習(xí)過程,準確率較高,但計算量大,且存在過適應(yīng)風(fēng)險.Embedded 方法通過優(yōu)化一個目標函數(shù)實現(xiàn)特征選擇,特征選擇在優(yōu)化目標函數(shù)過程中完成,不需要將訓(xùn)練樣本分成訓(xùn)練子集和驗證子集,但構(gòu)造合適的優(yōu)化目標函數(shù)困難.Hybrid 方法集成Filter 方法和Wrapper 方法的優(yōu)勢,采用Filter 方法獨立于分類器的準則度量特征分類能力大小,以一定的啟發(fā)式策略來搜索特征子集,采用Wrapper 方法的以分類器分類性能評價相應(yīng)特征子集的分類能力.因此,Hybrid 方法得到廣泛關(guān)注.Ensemble 方法集成不同特征選擇算法實現(xiàn)特征選擇,一般情況下具有較好性能,能選擇到分類能力較好的特征子集,但需要訓(xùn)練多個不同分類器.

      Relief 算法[15]是經(jīng)典的Filter 方法,但只適用于二分類問題.Relief-F[16]算法將Relief 由二分類擴展到多分類問題.LVW (Las Vegas wrapper)算法[17]在拉斯維加斯方法(Las Vegas method)框架下使用隨機搜索策略實現(xiàn)特征選擇.SVM-RFE(SVM-recursive feature elimination)[18]基于SVM(Support vector machine)和后向剔除思想實現(xiàn)特征選擇,是經(jīng)典的Embedded 特征選擇算法,是為解決超高維基因選擇問題提出的算法,但若每次只剔除一個基因,時間消耗將成為瓶頸.為此,作者Guyon 指出,對于超高維基因選擇,每次迭代,可一次剔除上百個基因,但她沒有給出到底一次剔除多少個基因合適的理論依據(jù)和實踐指導(dǎo).mRMR(Max-relevance,min-redundancy)[19]基于特征相關(guān)性,旨在選擇到分類能力強且冗余度最小的特征構(gòu)成特征子集,但不同的相關(guān)性度量可能會得到不同的結(jié)果.F-score[20]是衡量特征在兩類間分辨能力的有效準則.Xie 等將F-score 推廣用于任意類分類問題[13,21],并提出考慮特征測量量綱的改進F-score 特征重要度評價準則D-score[22],用于皮膚病診斷.針對F-score 和D-score 僅考慮單個特征區(qū)分能力,沒有考慮特征聯(lián)合貢獻的問題,謝等提出了考慮特征聯(lián)合貢獻的特征子集區(qū)分度衡量準則DFS (Discernibility of feature subsets)[23],從而獲得分類能力更優(yōu)的特征子集.LLE Score (Locally linear embedding score)[24]算法通過局部線性嵌入,實現(xiàn)非線性維約簡[25],進行腫瘤基因選擇.AVC (Feature selection with AUC-based variable complementarity)算法[26]通過最大化變量互補性實現(xiàn)特征選擇.最大化ROC 曲線下面積的基因選擇算法[27]實現(xiàn)了非平衡基因數(shù)據(jù)的特征選擇.特征選擇算法DRJMIM (Dynamic relevance and joint mutual information maximization)[28]充分考慮特征相關(guān)性和特征相互依賴性,采用動態(tài)相關(guān)性和最大化聯(lián)合互信息實現(xiàn)特征選擇.基于鄰域粗糙集的特征選擇算法[29]基于鄰域熵的不確定性度量,從基因表達數(shù)據(jù)集中選擇差異表達基因?qū)崿F(xiàn)癌癥分類.謝等對非平衡基因數(shù)據(jù)的差異表達基因選擇進行了系統(tǒng)研究[30],提出了16 種針對非平衡基因數(shù)據(jù)的特征選擇算法.Li 等[31]從數(shù)據(jù)視圖角度對特征選擇算法進行總結(jié),將特征選擇算法分為基于相似度的方法、基于信息論的方法、基于稀疏學(xué)習(xí)的方法,以及基于統(tǒng)計的方法4 大類.

      特征選擇研究已引起研究者廣泛關(guān)注,是高維小樣本癌癥基因數(shù)據(jù)分析的首要步驟,也是其他高維數(shù)據(jù)分析的基礎(chǔ).然而,現(xiàn)有特征選擇算法對特征分類能力的評價,多數(shù)僅考慮單個特征的分類貢獻,并忽略了特征測量量綱的影響,DFS[23]準則考慮了特征的聯(lián)合貢獻,但其沒有考慮不同測量量綱對特征分類貢獻的影響,值域差異懸殊的特征,相當(dāng)于被賦予了差異懸殊的權(quán)重,無法準確度量特征對分類的貢獻量.為此,提出GDFS (Generalized discernibility of feature subsets)新準則,引入離散系數(shù)對DFS 準則進行改進,客觀度量特征子集的分類能力.以ELM (Extreme learning machine)為分類工具評估特征子集的分類性能.UCI (University of California in Irvine)機器學(xué)習(xí)數(shù)據(jù)庫數(shù)據(jù)集和基因數(shù)據(jù)集的實驗測試,以及與DFS和現(xiàn)有經(jīng)典特征選擇算法的實驗比較與統(tǒng)計顯著性檢測表明,提出的GDFS 特征子集區(qū)分度評價準則是一種有效的特征子集分類能力度量準則,能選擇到分類性能很好的特征子集.

      1 GDFS 特征子集區(qū)分度

      設(shè)數(shù)據(jù)集X包含l(l ≥2)個 類,第c(c=1,···,l)類樣本數(shù)為nc.

      1.1 DFS 特征子集區(qū)分度

      DFS 特征子集區(qū)分度衡量準則[23]考慮特征子集所包含特征的聯(lián)合作用,評價特征子集的類別間區(qū)分能力大小.則含有i個特征的特征子集的區(qū)分度DFS 定義為式(1).

      1.2 GDFS 特征子集區(qū)分度

      離散系數(shù)(變異系數(shù))是樣本標準差與樣本均值之比,消除了特征測量量綱對度量樣本離散程度的標準差大小的影響,離散系數(shù)越大表明數(shù)據(jù)離散程度越大,反之越小[32].

      DFS 沒有考慮特征測量量綱對特征重要度的影響,不同特征取值范圍差異懸殊情況下,相當(dāng)于對取值較大特征賦予了較大權(quán)重,使其容易被選擇到,從而影響特征選擇結(jié)果的客觀性.為了客觀度量每個特征的分類能力,避免特征測量量綱不同帶來的影響,提出GDFS 特征子集區(qū)分能力度量準則,克服DFS 的缺陷,以便發(fā)現(xiàn)真正具有區(qū)分能力的特征.GDFS 定義為式(2).

      式(2)中分子表示l個類別對應(yīng)當(dāng)前i個特征的類別間離散系數(shù),其值越大,表示各類別間的分散程度越好;分母表示l個類別對應(yīng)當(dāng)前i個特征的類內(nèi)離散系數(shù)之和,其值越小,表示各類別越緊湊.因此,式(2)的值越大,表明當(dāng)前i個特征構(gòu)成的特征子集的分類能力越強.

      1.3 GDFS 正確性理論分析

      GDFS 針對DFS 沒有考慮特征測度對特征區(qū)分能力影響的缺陷提出采用離散系數(shù)對DFS 進行改進,因此,若能證明離散系數(shù)不受測度影響,而標準差受測度影響,則可證明GDFS 正確.為此,提出下面的定理,并進行理論證明.

      2 極限學(xué)習(xí)機

      極限學(xué)習(xí)機ELM 是基于單隱層前饋神經(jīng)網(wǎng)絡(luò)的機器學(xué)習(xí)算法[33].ELM 隨機產(chǎn)生輸入層和隱藏層之間的連接權(quán)重和隱藏層閾值,只需要設(shè)定隱藏層結(jié)點數(shù)便能獲得唯一最優(yōu)的隱藏層到輸出層的連接權(quán)重.

      假設(shè)有N個訓(xùn)練樣本對 (xi,ti),xi ∈Rn,ti ∈Rm,激活函數(shù)為g(·),則有個隱結(jié)點的單隱層前饋神經(jīng)網(wǎng)絡(luò)的數(shù)學(xué)模型描述為式(3).

      其中,wj表示第j個隱結(jié)點和所有輸入結(jié)點間的權(quán)重向量,βj表示第j個隱結(jié)點和所有輸出結(jié)點間的權(quán)重向量,bj是第j個隱結(jié)點的閾值.

      帶有個隱結(jié)點的ELM,激活函數(shù)g(·) 能夠以零誤差逼近N個訓(xùn)練樣本,即存在βj,wj,bj,使式(3)成立.式(3)可簡寫為式(4)矩陣形式.

      3 基于GDFS 的特征選擇算法

      假設(shè)S為包含n個特征的特征全集,C是選擇的特征子集,C初始化為空集,劃分數(shù)據(jù)集為訓(xùn)練集和測試集,在訓(xùn)練集進行特征選擇,采用SFS,SBS,SFFS 和SBFS 特征搜索策略,以GDFS 評價特征子集性能,得到算法1~4 描述的4 種混合特征選擇算法:GDFS+SFS,GDFS+SBS,GDFS+SFFS,GDFS+SBFS.

      算法1.GDFS+SFS 特征選擇算法

      4 實驗結(jié)果與分析

      為了避免實驗結(jié)果受不同數(shù)據(jù)集劃分的影響,采用5-折交叉驗證實驗,以獲得平均的實驗結(jié)果.并在實驗前,隨機打亂樣本獲得隨機實驗數(shù)據(jù).打亂方法為:隨機生成一個足夠大2 維數(shù)組,數(shù)組元素的取值為1~數(shù)據(jù)集規(guī)模之間的一個隨機數(shù),交換數(shù)組每行兩個元素值對應(yīng)樣本.

      4.1 ELM 與SVM 性能比較

      本小節(jié)采用DFS 特征子集評價準則,結(jié)合SFS,SBS,SFFS 和SBFS 特征搜索策略,分別采用ELM 和SVM 分類工具引導(dǎo)特征選擇過程,比較基于相應(yīng)特征子集的ELM 和SVM 分類器的性能,選擇分類性能好的分類器.實驗采用UCI 機器學(xué)習(xí)數(shù)據(jù)庫[34]的iris,thyroid-disease,glass,wine,Heart Disease,WDBC (Wisconsin diagnostic breast cancer),WPBC (Wisconsin prognostic breast cancer),dermatology,ionosphere 和Handwrite 數(shù)據(jù)集.數(shù)據(jù)集描述見表1.thyroid-disease 是thyroid gland data 數(shù)據(jù)集;Heart Disease 為processed Cleveland,刪掉6個含有缺失數(shù)據(jù)的樣本,樣本數(shù)由303 變?yōu)?97;WPBC 刪掉了4個含有缺失數(shù)據(jù)的樣本,樣本數(shù)由198 變?yōu)?94;dermatology 刪掉了8個含有缺失數(shù)據(jù)的樣本,因此樣本數(shù)由366 變?yōu)?58;Handwrite 選擇了前2類進行實驗.

      表1 實驗用UCI 數(shù)據(jù)集描述Table 1 Descriptions of datasets from UCI

      SVM 分類器采用林智仁等[35]開發(fā)的SVM 工具箱,核函數(shù)采用RBF (Radial basis function)核函數(shù)[36],參數(shù)采用默認值.ELM 采用RBF 核函數(shù),參數(shù)為默認值,隱藏層結(jié)點數(shù)以5 為步長增加,根據(jù)交叉驗證結(jié)果選擇最優(yōu)隱結(jié)點數(shù)[33].為避免ELM 的隨機初始輸入權(quán)重向量和隱結(jié)點閾值影響實驗結(jié)果,實驗中設(shè)定閾值為0.01,當(dāng)訓(xùn)練數(shù)據(jù)集的分類正確率在一定范圍內(nèi)波動時,認為分類正確.圖1~4 展示了分別采用ELM 與SVM 為分類器,以DFS 度量特征子集性能的5-折交叉驗證實驗平均結(jié)果.

      圖1 實驗結(jié)果顯示:采用SFS 搜索策略,以ELM 分類器引導(dǎo)特征選擇過程得到的特征子集不僅規(guī)模小,且在絕大部分數(shù)據(jù)集上的分類性能更好.圖2~圖3 實驗結(jié)果顯示,采用SBS 和SFFS 搜索策略,以ELM 或SVM 為分類器,除了Handwrite數(shù)據(jù)集,其他數(shù)據(jù)集的特征數(shù)量差別不大,但ELM分類器得到的特征子集分類能力更強.圖4 的實驗結(jié)果顯示:ELM 分類器選擇的特征子集的規(guī)模在多數(shù)數(shù)據(jù)集上比SVM 得到的特征子集規(guī)模稍大,但ELM 分類器得到的特征子集的分類性能優(yōu)于SVM 選擇的特征子集的分類性能.

      圖1 DFS+SFS 算法的5-折交叉驗證實驗結(jié)果Fig.1 The 5-fold cross-validation experimental results of DFS+SFS

      圖2 DFS+SBS 算法的5-折交叉驗證實驗結(jié)果Fig.2 The 5-fold cross-validation experimental results of DFS+SBS

      圖3 DFS+SFFS 算法的5-折交叉驗證實驗結(jié)果Fig.3 The 5-fold cross-validation experimental results of DFS+SFFS

      特征選擇的目標是:發(fā)現(xiàn)規(guī)模小且分類性能好的特征子集.綜合圖2~圖4 的實驗結(jié)果可見,采用ELM 分類器能夠獲得分類能力更好的特征子集.

      圖4 DFS+SBFS 算法的5-折交叉驗證實驗結(jié)果Fig.4 The 5-fold cross-validation experimental results of DFS+SBFS

      4.2 GDFS 與DFS 性能比較

      本小節(jié)在第4.1 節(jié)實驗基礎(chǔ)上,選擇使DFS 性能更優(yōu)的ELM 分類器,測試提出的GDFS 特征子集性能評價準則的優(yōu)越性.提出的4 種特征選擇算法GDFS+SFS,GDFS+SBS,GDFS+SFFS,GDFS+SBFS 與原DFS+SFS,DFS+SBS,DFS+SFFS,DFS+SBFS 在表1 數(shù)據(jù)集的5-折交叉驗證的實驗結(jié)果如表2~表5 所示,加粗和加下劃線表示最優(yōu)實驗結(jié)果.

      表2~表5 的5-折交叉驗證實驗結(jié)果顯示:GDFS+SFS,GDFS+SBS,GDFS+SFFS 和GDFS+SBFS 選擇的特征子集的分類能力均分別優(yōu)于DFS+SFS,DFS+SBS,DFS+SFFS 和DFS+SBFS 算法選擇的特征子集的分類能力.因此,GDFS 比DFS選擇的特征子集的分類能力更強.從各算法選擇的特征子集規(guī)模來看,GDFS+SFS 選擇的特征子集規(guī)模最小,接著是GDFS+SFFS 和GDFS+SBFS算法,GDFS+SBS 算法選擇的特征子集規(guī)模較大.另外,GDFS+SFS,GDFS+SBS,GDFS+SBFS 比DFS+SFS,DFS+SBS,DFS+SBFS 選擇的特征子集規(guī)模平均值略小,GDFS+SFFS 與DFS+SFFS選擇的特征子集規(guī)?;鞠喈?dāng),前者略大一點.

      表2~表5 的5-折交叉驗證實驗結(jié)果還顯示,GDFS+SFFS 算法選擇的特征子集的分類性能最好,GDFS+SFS 和GDFS+SBS 選擇的特征子集的分類能力相當(dāng),不如GDFS+SFFS,但優(yōu)于GDFS+SBFS 算法選擇的特征子集的分類能力.

      2.7 圖表 每幅圖單獨占1頁,集中附于文后,表格隨正文附出。圖表應(yīng)按其在正文中出現(xiàn)的先后次序連續(xù)編碼,并應(yīng)冠有圖(表)題。說明性的資料應(yīng)置于圖(表)下方注釋中,并在注釋中標明圖表中使用的全部非共知共用的縮寫。本刊采用三橫線表(頂線、表頭線、底線),如遇有合計或統(tǒng)計學(xué)處理行(如t值、P值等),則在此行上面加一條分界橫線;表內(nèi)數(shù)據(jù)要求同一指標有效位數(shù)一致,一般按標準差的1/3確定有效位數(shù)。線條圖應(yīng)墨繪在白紙上,高寬比例為5∶7左右。計算機繪制圖者應(yīng)提供激光打印圖樣。凡能使用文字表達清楚的內(nèi)容,盡量不用表和圖,如使用表和圖,則文中不必重復(fù)其數(shù)據(jù),只需摘述其主要內(nèi)容。

      表2 GDFS+SFS 與DFS+SFS 算法的5-折交叉驗證實驗結(jié)果Table 2 The 5-fold cross-validation experimental results of GDFS+SFS and DFS+SFS algorithms

      表3 GDFS+SBS 與DFS+SBS 算法的5-折交叉驗證實驗結(jié)果Table 3 The 5-fold cross-validation experimental results of GDFS+SBS and DFS+SBS algorithms

      表4 GDFS+SFFS 與DFS+SFFS 算法的5-折交叉驗證實驗結(jié)果Table 4 The 5-fold cross-validation experimental results of GDFS+SFFS and DFS+SFFS algorithms

      表5 GDFS+SBFS 與DFS+SBFS 算法的5-折交叉驗證實驗結(jié)果Table 5 The 5-fold cross-validation experimental results of GDFS+SBFS and DFS+SBFS algorithms

      綜上分析可見,提出的GDFS 比原始DFS 更優(yōu),能選擇到分類能力好且規(guī)模較小的特征子集.其中,GDFS+SFFS 算法選擇的特征子集分類能力最優(yōu),且規(guī)模較小.因此后面對比實驗中僅選擇GDFS+SFFS 算法與現(xiàn)有經(jīng)典算法進行比較.

      4.3 GDFS 與其他特征選擇算法的比較

      本小節(jié)用6個經(jīng)典基因數(shù)據(jù)集Colon[37]、Prostate[38]、Myeloma[39]、Gas2[40?41]、SRBCT[42]和Carcinoma[31]進一步測試提出的特征子集性能評價準則GDFS 的優(yōu)越性.數(shù)據(jù)集詳細信息見表6.實驗將比較提出的GDFS+SFFS 與現(xiàn)有特征選擇算法DFS+SFFS[23],Relief[15?16],DRJMIM[28],mRMR[19],LLE Score[24],AVC[26],SVM-RFE[18],VMInaive(Variational mutual information)[43],AMID (AUC and mutual information difference)[30],AMIDDWSFS (Dynamic weighted SFS using dynamic AUC and mutual information difference)[30],CFR(Composition of feature relevancy)[44],FSSC-SD(Feature selection by spectral clustering based on standard deviation)[45]選擇的特征子集的ELM 分類器的分類準確率Accuracy、查準率precision、查全率recall、查準率和查全率的調(diào)和平均F-measure、正負類查準率的調(diào)和平均F2-measure[30],ROC(Receiver operating characteristic)曲線下面積AUC (Area under and ROC curve)[46?48].

      由于基因數(shù)據(jù)集所含特征數(shù)成千上萬,為了減少各特征選擇算法的運行時間開銷,實驗首先采用D-score 算法[22]對表6 數(shù)據(jù)集進行特征預(yù)選擇,剔除部分不相關(guān)和冗余特征,得到各數(shù)據(jù)集的候選特征子集,各算法在候選特征子集上進行特征選擇.表7 展示了GDFS+SFFS 與特征選擇算法DFS+SFFS、Relief、DRJMIM、mRMR、LLE Score、AVC、SVM-RFE、VMInaive、AMID、AMIDDWSFS、CFR 及FSSC-SD 的5-折交叉驗證實驗結(jié)果,加粗和下劃線表示最優(yōu)結(jié)果.對比算法的參數(shù)設(shè)置為:Relief 算法的最近鄰數(shù)為3;LLE Score算法的類內(nèi)鄰域為4,類外鄰域為12;AVC 算法的preSelePara 參數(shù)為默認值.

      表6 實驗使用的基因數(shù)據(jù)集描述Table 6 Descriptions of gene datasets using in experiments

      表7 各算法選擇的特征子集的ELM 分類器的Accuracy、AUC、recall、precision、F-measure 和F2-measure 實驗結(jié)果顯示,提出的GDFS+SFFS算法所選特征子集的分類能力除了在Prostate 數(shù)據(jù)集的AUC、在Gas2 的recall、在Carcinoma 的F2-measure 略低于DFS+SFFS 算法外,在該3個數(shù)據(jù)集的其他5個評價指標,以及在其他3個基因數(shù)據(jù)集的6個評價指標Accuracy、AUC、recall、precision、F-measure 和F2-measure 均優(yōu)于原始DFS+SFFS 算法.從特征子集規(guī)模來看,提出的GDFS+SFFS 算法除了在Carcinoma 數(shù)據(jù)集的特征子集規(guī)模略高于(即選擇的特征數(shù)稍多于) DFS+SFFS 算法外,在其他數(shù)據(jù)集得到的特征子集的規(guī)模(特征數(shù))都不高于DFS+SFFS.因此,可以說提出的特征子集區(qū)分度評價準則GDFS 優(yōu)于原始DFS,能選擇到規(guī)模較小且分類能力強的特征子集.

      另外,提出的GDFS+SFFS 算法所選特征子集的ELM 分類器的precision 和F2-emeasure 在5/6個數(shù)據(jù)集是最優(yōu)的,F-measure 在4/6個數(shù)據(jù)集優(yōu)于所有對比算法,AUC 和recall 分別在3/6和2/6個數(shù)據(jù)集上取得所有對比算法的最優(yōu)值.對比算法VMInaive在Colon 數(shù)據(jù)集的AUC、recall 和F-measure 優(yōu)于對比算法,AUC 和recall 的值均為最大值1,但此時其F2-measure 為0,說明該算法將測試集的全部負類樣本均誤識為正類樣本.算法CFR 在Colon 數(shù)據(jù)集也存在選擇的特征子集的ELM 分類器的recall 指標為最大值1,但F2-measure 為0 的問題,也是將測試集的負類樣本全部誤識為正類樣本造成的.另外,表7 的整體實驗結(jié)果來看,GDFS+SFFS 算法選擇的特征子集的分類性能是所有13個算法中最好的.

      表7 各算法在表6 基因數(shù)據(jù)集的5-折交叉驗證實驗結(jié)果Table 7 The 5-fold cross-validation experimental results of all algorithms on datasets from Table 6

      表7 各算法在表6 基因數(shù)據(jù)集的5-折交叉驗證實驗結(jié)果 (續(xù)表)Table 7 The 5-fold cross-validation experimental results of all algorithms on datasets from Table 6 (continued table)

      以上分析顯示:提出的特征子集評價準則GDFS 比原始DFS 準則更好,能選擇出規(guī)模小且分類能力更好的特征子集;另外,GDFS 選擇的特征子集的分類能力優(yōu)于特征選擇算法Relief、DRJMIM、mRMR、LLE Score、AVC、SVM-RFE、VMInaive、AMID、AMID-DWSFS、CFR 和FSSC-SD 所選特征子集的分類能力.

      4.4 統(tǒng)計重要性檢驗

      為了檢驗提出的GDFS+SFFS 特征選擇算法與對比特征選擇算法Relief、DRJMIM、mRMR、LLE Score、AVC、SVM-RFE、VMInaive、AMID、AMID-DWSFS、CFR、FSSC-SD以及DFS+SFFS 是否具有統(tǒng)計意義上的顯著性區(qū)別,采用Friedman 檢驗來檢驗各算法之間的差異[49?51].在Friedman 檢驗檢測到算法間的顯著性不同之后,利用Nemenyi 后續(xù)檢驗來檢測算法對的兩算法之間是否存在統(tǒng)計意義上的顯著性不同.根據(jù)Nemenyi 檢驗方法,在給定統(tǒng)計顯著性水平α?xí)r,如果任一算法對的兩算法之間的平均序數(shù)差小于臨界閾值CD,則以置信度 1?α接受零假設(shè) “兩算法性能相同”,否則拒絕原(零)假設(shè),認為兩算法性能存在顯著性不同.其中臨界閾值CD=,這里的M和N 分別表示算法個數(shù)和數(shù)據(jù)集個數(shù),qα可通過查表獲取.各算法所選特征子集的ELM 分類器的Accuracy、AUC、recall、precision、F-measure 和F2-measure 在α=0.05 時的Friedman 檢驗結(jié)果如表8 所示.

      由表8 的Friedma 檢驗結(jié)果可知,各算法所選特征子集的ELM 分類器的Accuracy、AUC、recall、precision、F-measure 和F2-measure 指標對應(yīng)的p值均小于0.05.因此,我們可以拒絕零假設(shè) “各特征選擇算法性能相同”,則各算法所選特征子集在6個基因數(shù)據(jù)集上的分類性能存在顯著性差異.

      表8 各算法所選特征子集分類能力的Friedman 檢測結(jié)果Table 8 The Friedman's test of the classification capability of feature subsets of all algorithms

      在各算法存在顯著性差異的基礎(chǔ)上,采用Nemenyi 后續(xù)檢驗來進一步驗證各算法對的兩算法之間的性能是否顯著性不同.當(dāng)α=0.05,算法個√數(shù)為13 時,我們查表可知qα=3.13,由CD=計算可得臨界閾值CD=7.4491,則可信水平為0.95 時,每一對算法采用其選擇的特征子集對應(yīng)ELM 分類器的Accuracy、AUC、recall、precision、F-measure 和F2-measure 指標值的Nemenyi 檢驗結(jié)果如圖5 所示.

      圖5 各特征選擇算法的Nemenyi 檢驗結(jié)果Fig.5 Nemenyi test results of 13 feature selection algorithms in terms of performance metrics of ELM built on their selected features

      圖5(a)的Nemenyi 檢驗結(jié)果顯示,GDFS 在Accuracy 指標上與其他對比算法無顯著差異.眾所周知,基因數(shù)據(jù)集的不平衡性,分類準確率已經(jīng)不適于評價特征子集分類性能[30].盡管如此,圖5(a)的檢驗結(jié)果顯示,GDFS 與其他12 種對比算法之間是存在差異的,與DFS 的差異最大,且優(yōu)于DFS算法.圖5(b)的Nemenyi 檢驗結(jié)果顯示,GDFS在AUC 指標上與LLE Score 和CFR 算法存在顯著性差異,且優(yōu)于LLE Score 和CFR 算法,與其他10 種對比算法無顯著差異,但存在差異,且GDFS 性能最優(yōu).圖5(c)的Nemenyi 檢驗結(jié)果顯示,GDFS 在recall 指標上與SVM-RFE 存在顯著差異,與其他對比算法無顯著差異,但從實驗結(jié)果可以看出GDFS 與其他11 種特征選擇算法間存在差異,且GDFS 性能最優(yōu),優(yōu)于DFS 算法.圖5(d)的Nemenyi 檢驗結(jié)果可見,GDFS 在precision 指標上與LLE Score、SVM-RFE 和CFR 算法存在顯著性差異,且優(yōu)于LLE Score、SVM-RFE 和CFR算法,與其他9 種對比算法無顯著差異,但存在差異,且優(yōu)于DFS,是13 種特征選擇算法中性能最優(yōu)的.圖5(e)的Nemenyi 檢驗結(jié)果顯示,GDFS 在Fmeasure 指標上與LLE Score 和SVM-RFE 算法存在顯著性差異,且優(yōu)于LLE Score 和SVM-RFE 算法,與其他10 種對比算法無顯著差異,但存在差異,且GDFS 性能最優(yōu),優(yōu)于DFS.圖5(f)的Nemenyi 檢驗結(jié)果顯示,GDFS 在F2-measure 指標上與LLE Score、CFR、VMInaive和AMID-DWSFS算法存在顯著性差異,且優(yōu)于LLE Score、VMInaive、AMID-DWSFS 和CFR 算法,與其他8 種對比算法無顯著差異,但存在差異,且GDFS 性能最優(yōu),優(yōu)于DFS.

      圖5 各算法的Nemenyi 檢驗結(jié)果還顯示,對比算法DFS、Relief、DRJMIM、mRMR、LLE Score、AVC、SVM-RFE、VMInaive、AMID、AMIDDWSFS、CFR 和FSSC-SD,各對算法間不存在統(tǒng)計意義上的顯著性差異.另外,提出的GDFS 優(yōu)于DFS,盡管其間沒有統(tǒng)計意義上的顯著性差異,但圖5 的Nemenyi 檢驗結(jié)果揭示,除了recall 指標,GDFS 與DFS 間的等級比較差異值大于2.5,且recall 指標時,GDFS 與DFS 的等級比較差異值也大于1.5,這說明盡管GDFS 與DFS 沒有統(tǒng)計意義上的顯著性差異,但其間存在差異.這一點與表7 的實驗結(jié)果一致.

      以上統(tǒng)計重要性分析顯示:提出的GDFS 特征子集區(qū)分度評價準則優(yōu)于原始DFS,GDFS+SFFS算法優(yōu)于12個對比特征選擇算法,能選擇到分類性能更好的特征子集.12個對比算法兩兩之間不存在顯著性差異.提出的GDFS 準則與原始DFS 特征子集評價準則選擇的特征子集的分類能力有差異,且GDFS 優(yōu)于DFS,但不存在統(tǒng)計意義上的顯著性差異.

      綜合以上UCI 機器學(xué)習(xí)數(shù)據(jù)集和經(jīng)典基因數(shù)據(jù)集的5-折交叉驗證實驗結(jié)果得出:提出的GDFS 特征子集區(qū)分度評價準則是一種有效的特征子集辨識能力評價準則,UCI 機器學(xué)習(xí)數(shù)據(jù)集和經(jīng)典基因數(shù)據(jù)集的實驗測試比較驗證了基于該準則的特征選擇算法能選擇到分類性能更好的特征子集,達到了保持數(shù)據(jù)集辨識能力不變情況下進行數(shù)據(jù)維數(shù)壓縮的目的.

      5 結(jié)論

      提出了一種特征子集區(qū)分能力評價新準則GDFS,克服了DFS 準則沒有考慮特征測量量綱對特征子集區(qū)分能力大小影響的缺陷;GDFS 結(jié)合SFS、SBS、SFFS 和SBFS 搜索策略,以ELM 為分類器引導(dǎo)特征選擇過程,提出GDFS+SFS、GDFS+SBS、GDFS+SFFS 和GDFS+SBFS 共4 種混合特征選擇算法.

      UCI 機器學(xué)習(xí)數(shù)據(jù)集和經(jīng)典基因數(shù)據(jù)集的5-折交叉驗證實驗,以及與DFS 和經(jīng)典特征選擇算法Relief、DRJMIM、mRMR、LLE Score、AVC、SVM-RFE、VMInaive、AMID、AMID-DWSFS、CFR 和FSSC-SD 的性能比較和統(tǒng)計重要性檢驗表明,提出的GDFS 特征子集區(qū)分度評價準則是一種有效的特征子集辨識能力衡量準則,其選擇的特征子集優(yōu)于DFS、Relief、DRJMIM、mRMR、LLE Score、AVC、SVM-RFE、VMInaive、AMID、AMIDDWSFS、CFR 和FSSC-SD 選擇的特征子集,具有更優(yōu)的分類性能.GDFS 準則在提升和保持數(shù)據(jù)集辨識能力情況下降低了數(shù)據(jù)的維度.

      猜你喜歡
      特征選擇子集分類器
      由一道有關(guān)集合的子集個數(shù)題引發(fā)的思考
      拓撲空間中緊致子集的性質(zhì)研究
      關(guān)于奇數(shù)階二元子集的分離序列
      BP-GA光照分類器在車道線識別中的應(yīng)用
      電子測試(2018年1期)2018-04-18 11:52:35
      Kmeans 應(yīng)用與特征選擇
      電子制作(2017年23期)2017-02-02 07:17:06
      加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
      結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
      聯(lián)合互信息水下目標特征選擇算法
      每一次愛情都只是愛情的子集
      都市麗人(2015年4期)2015-03-20 13:33:22
      基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識別
      噶尔县| 宣武区| 保山市| 富锦市| 定州市| 宣汉县| 河曲县| 屏边| 化州市| 天等县| 涞水县| 昌图县| 十堰市| 闽侯县| 周宁县| 东至县| 花莲市| 洛阳市| 河南省| 奎屯市| 长武县| 普兰店市| 大竹县| 通河县| 翼城县| 盘锦市| 湖南省| 洪江市| 云龙县| 伊通| 正镶白旗| 丰台区| 苍山县| 沅陵县| 墨竹工卡县| 广宗县| 双峰县| 克什克腾旗| 上栗县| 湘乡市| 湾仔区|