潘雪航
摘 要:高維數(shù)據(jù)存在大量的冗余變量和噪聲,傳統(tǒng)的分類方法在高維情況下通常效果不佳。為提高分類性能,將迭代稀疏組套索和支持向量機(jī)結(jié)合,提出了一種新的高維分類方法iSGL-SVM。分別在prostate和Tox_171數(shù)據(jù)集上驗(yàn)證了所提出的方法,并與其它三種方法進(jìn)行比較。實(shí)驗(yàn)結(jié)果表明,該方法具有更好的變量選擇效果和較高的分類精度,可廣泛應(yīng)用于高維小樣本數(shù)據(jù)集的分類。
關(guān)鍵詞:迭代稀疏組套索;支持向量機(jī);高維分類;變量選擇
中圖分類號(hào):O212 ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A
Abstract:There are a lot of redundant variables and noise in high-dimensional data, and traditional classification methods usually do not work well in high-dimensional situations. In order to improve the classification performance, the iterative sparse group lasso is combined with support vector machine, and a new high-dimensional classification method iSGL-SVM is proposed. The proposed method was verified on the prostate and Tox_171 datasets respectivelyand compared with the other three methods. The experimental results showed that the method has better variable selection effects and higher classification accuracy, which can be widely used for classification of high-dimensional small sample datasets.
Key words:iterative sparse group lasso; support vector machine; high-dimensional classification; variable selection
近年來,機(jī)器學(xué)習(xí)、生物信息學(xué)等各領(lǐng)域都出現(xiàn)了高維數(shù)據(jù),并且已經(jīng)很大程度上超過了以往的規(guī)模。如何從高維數(shù)據(jù)中提取重要信息,獲得特征子集來進(jìn)行數(shù)據(jù)分析一直是學(xué)者們面臨的挑戰(zhàn)。
通常情況下,高維數(shù)據(jù)包含成千上萬個(gè)變量和少量樣本,即p>>n,同時(shí)存在大量的冗余變量和噪聲。在進(jìn)行分類時(shí),分類模型的性能依賴于選擇合適的特征變量,同時(shí)去除不相關(guān)的特征變量。通過剔除冗余變量,能夠帶來更低的過擬合風(fēng)險(xiǎn),更少模型的復(fù)雜性(因此提高了泛化能力)以及更低的計(jì)算成本[1]。因此,從高維小樣本數(shù)據(jù)中去除冗余變量和選擇相關(guān)變量可以提高分類模型的學(xué)習(xí)效率和分類準(zhǔn)確率,從而有效地預(yù)測(cè)和制定政策。通常,在數(shù)萬個(gè)變量中,只有一小部分變量起到關(guān)鍵性作用。換句話說,大多數(shù)變量與數(shù)據(jù)分類無關(guān),這產(chǎn)生了噪聲和降低了分類準(zhǔn)確性。從機(jī)器學(xué)習(xí)的角度來看,變量太多總是會(huì)導(dǎo)致過擬合,對(duì)分類產(chǎn)生負(fù)面影響。因此,具有高預(yù)測(cè)精度的變量選擇方法對(duì)于有效的高維數(shù)據(jù)分類是理想的[2]。
在科學(xué)研究中,分類模型已成為人工智能各個(gè)領(lǐng)域的有用工具,例如金融信用風(fēng)險(xiǎn)評(píng)估[3],信號(hào)處理和模式識(shí)別[4]。為了避免維數(shù)災(zāi)難,從高維、海量的高維數(shù)據(jù)中選擇有效的特征變量是分類的關(guān)鍵[5]。近年來,越來越多的學(xué)者熱衷于使用稀疏方法作為分類的特征變量選擇方法,因?yàn)樗粌H能有效地解決維數(shù)災(zāi)難問題,而且能消除冗余變量和噪聲,顯著提高分類效果[6-8]。
Liu等人[9]提出了一種數(shù)據(jù)自適應(yīng)核懲罰SVM 方法,這是一種同時(shí)實(shí)現(xiàn)特征選擇和分類的新方法,特別是在數(shù)據(jù)不平衡的情況下;Li等[10]提出了一個(gè)用于精神分裂癥疾病分類的深度經(jīng)典相關(guān)稀疏自動(dòng)編碼器模型,并將提出的稀疏自動(dòng)編碼器模型應(yīng)用于SNP數(shù)據(jù)和功能磁共振成像數(shù)據(jù)以檢驗(yàn)其性能;Mohammed等人[11]使用了空間結(jié)構(gòu)化的spike-and-slab先驗(yàn),開發(fā)了一種貝葉斯方法來對(duì)多主體高維腦電圖數(shù)據(jù)進(jìn)行分類。Huo等[12]將Sparse Group Lasso與支持向量機(jī)結(jié)合,提出了一種新的高維分類SGL-SVM方法。
本研究的創(chuàng)新點(diǎn)在于改進(jìn)了Huo提出的SGL-SVM分類方法,將SGL方法替換成iSGL[13],提出了一種新的高維數(shù)據(jù)分類方法iSGL-SVM。該方法的優(yōu)勢(shì)是在變量選擇部分,能夠自動(dòng)選擇所有正則化參數(shù),選擇的特征變量更加準(zhǔn)確可靠,提高了變量選擇效果。
1 iSGL-SVM分類方法
傳統(tǒng)的分類方法,如Fisher判別、邏輯回歸等,在低維的情況下,即樣本量大于變量個(gè)數(shù)時(shí),能夠很好地將不同標(biāo)簽的樣本分類,分類效果較好。但是,當(dāng)出現(xiàn)高維情況時(shí),由于存在大量的冗余變量和噪聲,如果使用傳統(tǒng)的分類方法進(jìn)行分類,分類效果會(huì)大大下降。所以需要使用高效的變量選擇方法選擇特征變量,然后使用分類器進(jìn)行分類。
通常情況下,高維數(shù)據(jù)以分組形式出現(xiàn)[14],例如單核苷酸多態(tài)性(SNP)和功能性磁共振成像數(shù)據(jù)(fMRI)。一個(gè)來解釋預(yù)測(cè)變量群體結(jié)構(gòu)的常用方法是Group Lasso(簡(jiǎn)稱GL)。但這種方法只能實(shí)現(xiàn)組間稀疏,無法實(shí)現(xiàn)組內(nèi)稀疏,因此往往會(huì)選擇過多冗余變量。
2 實(shí)證分析
2.1 數(shù)據(jù)來源
實(shí)證分析使用兩個(gè)數(shù)據(jù)集,一個(gè)二類prostate數(shù)據(jù)集和一個(gè)四類Tox_171數(shù)據(jù)集。Prostate數(shù)據(jù)集來源Singh等人[16]的研究。包含102例樣本數(shù)據(jù),其中正常人50例,患者52例,每個(gè)樣本包含12600個(gè)變量,樣本標(biāo)簽分別記為0和1。TOX_171數(shù)據(jù)集來源Stienstra等人[17]的研究。包含171例樣本數(shù)據(jù),每個(gè)樣本包含5748個(gè)變量,樣本標(biāo)簽分別記為1、2、3和4。
兩個(gè)數(shù)據(jù)集具有以下特點(diǎn): (1)所有實(shí)驗(yàn)數(shù)據(jù)均為真實(shí)的高維小樣本數(shù)據(jù);(2)變量數(shù)量遠(yuǎn)大于樣本數(shù)量,即p>>n。(3)這些數(shù)據(jù)集包含大量冗余和不相關(guān)的變量。
2.2 評(píng)價(jià)指標(biāo)
模型評(píng)價(jià)使用包括ACC、AUC、Kappa、召回率和F1評(píng)分等在內(nèi)的評(píng)價(jià)指標(biāo)。分類精度ACC定義如下:
根據(jù)表1,兩個(gè)數(shù)據(jù)集的結(jié)果同時(shí)表明,使用RBF核函數(shù)時(shí),分類性能最好。因此,在之后的實(shí)驗(yàn)中,支持向量機(jī)選擇RBF核函數(shù)進(jìn)行分類。
在兩個(gè)數(shù)據(jù)集上,首先對(duì)歸一化后的數(shù)據(jù)集采用Kruskal-Wallis秩和檢驗(yàn)。KW檢驗(yàn)?zāi)軌驒z驗(yàn)多個(gè)總體分布是否存在顯著差異,依次對(duì)不同總體的第i個(gè)變量進(jìn)行KW檢驗(yàn)。這個(gè)步驟能夠除去數(shù)據(jù)集中大量的冗余變量,便于后續(xù)的變量選擇。
然后,對(duì)處理后的數(shù)據(jù)集使用現(xiàn)有的iSGL-SVM方法進(jìn)行分類,同時(shí)與EN-SVM、GL-SVM和SGL-SVM方法進(jìn)行對(duì)比,選擇RBF徑向基核函數(shù)的支持向量機(jī)作為分類算法。
對(duì)于prostate數(shù)據(jù)集,使用5倍交叉驗(yàn)證對(duì)數(shù)據(jù)集進(jìn)行測(cè)試和預(yù)測(cè)。對(duì)于TOX_171數(shù)據(jù)集,使用10倍交叉驗(yàn)證進(jìn)行訓(xùn)練。使用R語言編程,計(jì)算出ACC等分類指標(biāo),比較兩個(gè)數(shù)據(jù)集上四種不同算法對(duì)分類的影響。對(duì)于不同方法的平均精確率ACC值見表2。
根據(jù)表2,prostate數(shù)據(jù)集上,iSGL-SVM的分類精度達(dá)到了95%,而其他三種方法都在92%左右。由于該數(shù)據(jù)集只有兩類,iSGL-SVM和其余三種方法的差別較小,優(yōu)勢(shì)并不明顯;TOX_171數(shù)據(jù)集上,iSGL-SVM的分類精度達(dá)到了86%,EN-SVM的精度在83%左右,其余兩種方法的準(zhǔn)確度都低于80%,說明iSGL-SVM在多類數(shù)據(jù)集上分類效果更好,更具有優(yōu)勢(shì)。
同時(shí),分別對(duì)prostate數(shù)據(jù)集上進(jìn)行的20次5倍交叉驗(yàn)證和TOX_171數(shù)據(jù)集上進(jìn)行的20次10倍交叉驗(yàn)證計(jì)算了AUC、precision(陽性預(yù)測(cè)值)、F1評(píng)分和recall(召回率)四個(gè)評(píng)價(jià)指標(biāo)。取AUC和Kappa值20次實(shí)驗(yàn)的均值作了箱線圖,見圖1和圖2。20次實(shí)驗(yàn)的F1評(píng)分、recall和precision指標(biāo)均值見表3和表4。
由圖1和圖2,iSGL-SVM方法在prostate數(shù)據(jù)集的AUC均值為0.9665,在TOX_171數(shù)據(jù)集的Kappa均值為0.8196,均高于其他分類方法,說明iSGL-SVM選擇的特征變量更加準(zhǔn)確可靠,獲得了更高的分類效果。同時(shí),由表3和表4,iSGL-SVM很好地獲得了陽性預(yù)測(cè)值和召回率之間的權(quán)衡,而且從最高的F1評(píng)分(召回率和陽性預(yù)測(cè)值的加權(quán)調(diào)和平均)可以知道iSGL-SVM分類方法在高維數(shù)據(jù)分類上優(yōu)于其他分類方法。這表明iSGL-SVM分類方法改善了高維數(shù)據(jù)的分類和預(yù)測(cè)。
3 結(jié) 論
將迭代稀疏組套索與支持向量機(jī)結(jié)合,提出了一種新的高維分類方法iSGL-SVM。實(shí)驗(yàn)結(jié)果表明,所提出的iSGL-SVM 方法在高維小樣本數(shù)據(jù)中的分類表現(xiàn)優(yōu)于其他三個(gè)相關(guān)方法。選擇的變量更可靠,準(zhǔn)確率更高。因此,所提出的方法在數(shù)據(jù)分類和預(yù)測(cè)方面顯示出很大的前景,可廣泛應(yīng)用于高維小樣本數(shù)據(jù)集的分類。
本研究只選擇了支持向量機(jī)這一類分類方法,為此,可研究不同分類方法的影響,從而提高原方法的變量選擇效果及預(yù)測(cè)效果。
參考文獻(xiàn)
[1]BLUM A L, LANGLEY P. Selection of relevant features and examples in machine learning[J]. Artificial Intelligence, 1997, 97(1-2): 245-271.
[2]WANG Y, LI X, RUIZ R. Weighted general group lasso for gene selection in cancer classification[J]. IEEE Transactions on Cybernetics, 2018, 49(8): 2860-2873.
[3]ZHANG L, HU H, ZHANG D. A credit risk assessment model based on SVM for small and medium enterprises in supply chain finance[J]. Financial Innovation, 2015, 1(1): 14.
[4]KHOKHAR S, ZIN A A B M, MOKHTAR A S B, et al. A comprehensive overview on signal processing and artificial intelligence techniques applications in classification of power quality disturbances[J]. Renewable and Sustainable Energy Reviews, 2015, 51: 1650-1663.
[5]BHARAT S. A meta-heuristic regression-based feature selection for predictive analytics[J]. Data Science Journal, 2014, 13: 106-118.
[6]BORGI M A, LABATE D, EL ARBI M, et al. Sparse multi-stage regularized feature learning for robust face recognition[J]. Expert Systems with Applications, 2015, 42(1): 269-279.
[7]ALGAMAL Z Y, LEE M H. Penalized logistic regression with the adaptive LASSO for gene selection in high-dimensional cancer classification[J]. Expert Systems with Applications, 2015, 42(23): 9326-9332.
[8]GAO J, KWAN P W, SHI D. Sparse kernel learning with LASSO and bayesian inference algorithm[J]. Neural Networks, 2010, 23(2): 257-264.
[9]LIU X, ZHAO B, HE W. Simultaneous feature selection and classification for data-adaptive kernel-penalized SVM[J]. Mathematics, 2020, 8(10): 1846.
[10]LI G, HAN D, WANG C, et al. Application of deep canonically correlated sparse autoencoder for the classification of schizophrenia [J]. Computer Methods and Programs in Biomedicine, 2020, 183: 105073.
[11]MOHAMMED S, DEY D K,ZHANG Y. Classification of high-dimensional electroencephalography data with location selection using structured spike-and-slab prior[J]. Statistical Analysis and Data Mining: The ASA Data Science Journal, 2020, 13(5): 465-481.
[12]HUO Y, XIN L, KANG C, et al. SGL-SVM: A novel method for tumor classification via support vector machine with sparse group Lasso [J]. Journal of Theoretical Biology, 2020,486: 110098.
[13]LARIA J C, CARMEN A M, LILLO R E. An iterative sparse-group Lasso [J]. Journal of Computational and Graphical Statistics, 2019, 28(3): 722-731.
[14]GOSSMANN A, CAO S, BRZYSKI D, et al. A sparse regression method for group-wise feature selection with false discovery rate control [J]. IEEE/ACM Transactions on Computational Biology and Bioinformatics, 2018, 15(4): 1066-1078.
[15]SIMON N, FRIEDMAN J, HASTIE T, et al. A sparse-group Lasso [J]. Journal of Computational and Graphical Statistics, 2013, 22(2): 231-245.
[16]SINGH D, FEBBO P G, ROSS K N, et al. Gene expression correlates of clinical prostate cancer behavior [J]. Cancer Cell, 2002, 1(2): 203-209.
[17]STIENSTRA R, SAUDALE F, DUVAL C, et al. Kupffer cells promote hepatic steatosis via interleukin-1beta-dependent suppression of peroxisome proliferator-activated receptor alpha activity [J]. Hepatology, 2010, 51(2): 511-522.