哈爾濱醫(yī)科大學(xué)衛(wèi)生統(tǒng)計(jì)教研室(150086) 王璟濤 侯 艷 李 康
高維組學(xué)變量篩選方法的穩(wěn)定性評(píng)價(jià)方法及應(yīng)用*
哈爾濱醫(yī)科大學(xué)衛(wèi)生統(tǒng)計(jì)教研室(150086) 王璟濤 侯 艷 李 康△
目的在高維組學(xué)變量篩選過程中,當(dāng)數(shù)據(jù)發(fā)生輕微變化時(shí),變量篩選方法篩選出的變量會(huì)發(fā)生一定的變化。本文探索如何評(píng)價(jià)篩選變量的結(jié)果是否穩(wěn)定。方法通過模擬實(shí)驗(yàn),分析對(duì)比了HD、SCSR、TD、KI、CW、RCW六種穩(wěn)定性評(píng)價(jià)方法的準(zhǔn)確性及變異程度,并通過實(shí)例結(jié)合PLS、svmRFE和RF三種變量篩選方法對(duì)SCSR方法進(jìn)行了考察。結(jié)果當(dāng)變量排序?yàn)殡S機(jī)產(chǎn)生時(shí),SCSR、KI和RCW三種方法基本能夠在取各種變量數(shù)目情況下始終接近于最小值0。對(duì)于置換標(biāo)簽和變量值后的數(shù)據(jù)集,PLS、RF、svmRFE三種方法的穩(wěn)定性幾乎完全相同,SCSR、KI和RCW三種穩(wěn)定性評(píng)價(jià)指標(biāo)在取不同篩選閾值時(shí)都達(dá)到了最小期望值。在評(píng)價(jià)指標(biāo)的穩(wěn)定性上,HD和SCSR能夠保持很小的變異,具有更好的穩(wěn)健性。結(jié)論SCSR的準(zhǔn)確性和穩(wěn)定性最好,推薦作為穩(wěn)定性評(píng)價(jià)指標(biāo)。
組學(xué) 高維數(shù)據(jù) 變量篩選 穩(wěn)定性
在高維組學(xué)研究中,變量篩選通常用于選擇能夠提高判別模型分類效果的最小變量子集。除了提高判別效果,在高維組學(xué)中,研究人員利用變量篩選方法剔除與疾病狀態(tài)無關(guān)的噪聲變量,篩選出與疾病狀態(tài)緊密相關(guān)、對(duì)疾病狀態(tài)具有一定預(yù)測(cè)價(jià)值的變量,并將這些變量作為潛在的生物學(xué)標(biāo)志物。
在進(jìn)行變量篩選時(shí),為防止判別模型的過擬合,研究人員可以按照一定比例將數(shù)據(jù)集隨機(jī)分為訓(xùn)練集和測(cè)試集,在訓(xùn)練集上進(jìn)行變量篩選后,再利用測(cè)試集檢驗(yàn)所篩變量對(duì)疾病狀態(tài)的預(yù)測(cè)能力。通常,研究人員往往更加關(guān)注篩選出的變量用于判別模型后分類性能的提高,卻經(jīng)常忽略篩選變量結(jié)果的穩(wěn)定性,這種不穩(wěn)定性有可能降低潛在生物學(xué)標(biāo)志物的可信程度。因此,在變量篩選應(yīng)用中,對(duì)于特定的高維組學(xué)數(shù)據(jù),研究評(píng)價(jià)不同變量篩選方法的穩(wěn)定性,篩選出更為可靠的潛在生物學(xué)標(biāo)志物十分必要。本文在介紹了六種變量篩選穩(wěn)定性評(píng)價(jià)指標(biāo)的基礎(chǔ)上,對(duì)其特點(diǎn)進(jìn)行研究,并結(jié)合實(shí)例分析為如何選擇變量篩選方法提供一定的依據(jù)。
本文研究的穩(wěn)定性是指變量篩選方法對(duì)于訓(xùn)練集輕微變動(dòng)的敏感性。在目前的研究中,對(duì)于穩(wěn)定性的評(píng)價(jià)通常是通過對(duì)變量篩選方法在不同訓(xùn)練集上篩選變量子集之間的一致性進(jìn)行評(píng)價(jià)。
圖1展示了評(píng)價(jià)穩(wěn)定性的一般過程[1]:①對(duì)于給定的數(shù)據(jù)集,從其中抽取比例為e的樣本形成子集,共抽取W次,得到W個(gè)樣本子集D1,D2,……,DW;②對(duì)每個(gè)樣本子集進(jìn)行變量篩選,變量篩選結(jié)果以變量重要性排序的形式體現(xiàn),保留每個(gè)變量排序結(jié)果中的前s個(gè)變量,得到 W個(gè)篩選變量子集:V1,V2,……,VW;③利用穩(wěn)定性評(píng)價(jià)指標(biāo)計(jì)算所有篩選變量子集中兩兩之間的一致性,得到一個(gè)一致性矩陣;④求所有一致性結(jié)果的均值,得到最終的穩(wěn)定性評(píng)價(jià)結(jié)果。
其中,第③步是整個(gè)評(píng)價(jià)過程中的核心部分,目前有許多文章提出了評(píng)價(jià)兩個(gè)篩選變量子集之間一致性的方法。
圖1 變量篩選方法穩(wěn)定性評(píng)價(jià)的一般過程
Kevin Dunne利用Hamming距離作為兩個(gè)篩選變量子集之間的一致性評(píng)價(jià)指標(biāo)[2],其表達(dá)式為
其中,M為原始數(shù)據(jù)集中變量的個(gè)數(shù);mi,mj為所有篩選變量子集中的任意兩個(gè);cik表示所有變量中第k個(gè)變量被篩選變量子集mi納入的情況,如果該變量被納入篩選變量子集mi,則其值為1,否則其值為0。
然后,計(jì)算所有篩選變量子集兩兩之間的Hamming距離的均值,W個(gè)篩選變量子集兩兩之間共計(jì)算得到W(W-1)/2個(gè)Hamming距離,所以均值為
Barbosa提出將穩(wěn)定性顯著的變量(self-consisitent selections,SCS)個(gè)數(shù)與篩選變量子集長(zhǎng)度的比值作為評(píng)價(jià)篩選方法穩(wěn)定性的指標(biāo)[3],即 SCSR(self-consisitentselections ratio)。這里假設(shè)某個(gè)變量在所有篩選變量子集中被納入的次數(shù)服從二項(xiàng)分布,二項(xiàng)分布的參數(shù)P等于篩選變量子集的長(zhǎng)度與總的變量個(gè)數(shù)M的比值。設(shè)置檢驗(yàn)水準(zhǔn)為0.01,將出現(xiàn)次數(shù)高于該界值的變量當(dāng)做SCS,利用Holm-Bonferroni校正多重檢驗(yàn)的影響。然后計(jì)算每個(gè)篩選變量子集中SCS的個(gè)數(shù)與篩選變量子集長(zhǎng)度的比值SCSR,將所有篩選變量子集的SCSR的均值作為評(píng)價(jià)指標(biāo)。
Kalousis使用Tanimoto距離作為篩選變量子集一致性的評(píng)價(jià)指標(biāo)[4],統(tǒng)計(jì)量的計(jì)算公式為
其中,分子為任意兩個(gè)篩選變量子集交集的長(zhǎng)度,分母為這兩個(gè)篩選變量子集并集的長(zhǎng)度。
然后,計(jì)算所有篩選變量子集兩兩之間Tanimoto距離的均值,作為作為變量篩選方法的穩(wěn)定性的評(píng)價(jià)指標(biāo),即
在兩個(gè)篩選變量子集的交集中,有一部分變量可能由于隨機(jī)波動(dòng)導(dǎo)致。對(duì)于兩個(gè)長(zhǎng)度相等的篩選變量子集,當(dāng)一個(gè)篩選變量子集固定時(shí),隨機(jī)產(chǎn)生另一篩選變量子集,則兩個(gè)篩選變量子集重合部分的變量個(gè)數(shù)服從超幾何分布,其期望值為 s2/M。Kuncheva對(duì)Tanimoto距離法進(jìn)行了改進(jìn),將這一部分變量從重合部分中剔除[5],構(gòu)造了兩個(gè)篩選變量子集之間一致性的評(píng)價(jià)指標(biāo)Ic,其表達(dá)式為
其中,s為每個(gè)篩選變量子集的長(zhǎng)度,r為兩個(gè)篩選變量子集的交集的長(zhǎng)度,M為原始數(shù)據(jù)集中的變量個(gè)數(shù)。
然后,計(jì)算所有篩選變量子集兩兩之間的Ic的均值,作為作為變量篩選方法的穩(wěn)定性的評(píng)價(jià)指標(biāo),即
Somol將所有篩選變量子集中包含的變量進(jìn)行綜合考慮,記S為所有篩選變量子集中的變量構(gòu)成的集合,篩選變量子集個(gè)數(shù)為W,每個(gè)篩選變量子集的長(zhǎng)度均為s,所有變量出現(xiàn)的次數(shù)總和(即集合S的長(zhǎng)度)為V=W*s,集合S中出現(xiàn)的變量個(gè)數(shù)為A(A≤M),記 Ff為其中第 f個(gè)變量出現(xiàn)的次數(shù)(f=1,2,…,A),因此所有變量出現(xiàn)的次數(shù)總和 V也等于引入了評(píng)價(jià)指標(biāo) C(S),即
這一指標(biāo)的含義是計(jì)算集合S中每個(gè)變量出現(xiàn)的次數(shù)與所有變量出現(xiàn)的總次數(shù)之比的均值。
然后,在指標(biāo) C(S)中的每一項(xiàng)乘以一個(gè)權(quán)重wf=Ff/V,得到 CW指標(biāo)[6],用以衡量加權(quán)的一致性(weighted consistency),即
上述CW未調(diào)整篩選變量子集個(gè)數(shù)W和原始數(shù)據(jù)集的變量個(gè)數(shù)M對(duì)一致性的影響,即隨著W和M的增大,CW也會(huì)隨之增大。為此,Somol計(jì)算出新的衡量指標(biāo),即首先在給定W和M的情況下CW的最大值和最小值
其中,G為V除以M后的余數(shù),即G=mod(V/M);H為V除以W后的余數(shù),即H=mod(V/W);然后利用最大值、最小值對(duì)CW進(jìn)行調(diào)整,構(gòu)建RCW指標(biāo)[6],用以衡量相對(duì)加權(quán)的一致性(relative weighted consistency),即
這里,模擬的方法是對(duì)1000個(gè)變量進(jìn)行隨機(jī)排序,然后分別取前 1%,5%,10%,15%,20%,25%,…,95%,100%的變量作為篩選變量子集,利用六種指標(biāo)進(jìn)行評(píng)價(jià),重復(fù)100次,取其平均值。由于變量重要性的順序在每次排列時(shí)是隨機(jī)給出的,因此穩(wěn)定性應(yīng)接近最小期望值。結(jié)果顯示,在六種評(píng)價(jià)方法中,KI、SCSR和RCW三種統(tǒng)計(jì)量值基本能夠在取各種變量數(shù)目情況下始終處于最小值0附近,而其他三種方法則在變量選入數(shù)目不同時(shí),統(tǒng)計(jì)量的值明顯變化;TD和CW僅在取變量總數(shù)目的1%時(shí),其值接近于0;HD則呈拋物線狀,在任何情況下其值都不接近0(見圖2)。
圖2 各種評(píng)價(jià)指標(biāo)對(duì)隨機(jī)產(chǎn)生的篩選變量子集的評(píng)價(jià)結(jié)果
取卵巢癌代謝組數(shù)據(jù),其中有2106個(gè)變量,病例組140例,對(duì)照組158例。將是否患病的標(biāo)簽和變量值不斷打亂,分別用偏最小二乘法(PLS)[7]、隨機(jī)森林(RF)[8]、支持向量機(jī)后退法(svmRFE)[9]進(jìn)行變量篩選,并保留前 1%,5%,10%,15%,20%,25%,…,95%,100%的變量作為篩選變量子集,重復(fù)100次,然后利用六種指標(biāo)進(jìn)行評(píng)價(jià)。結(jié)果顯示,PLS、RF和svmRFE三種變量篩選方法的結(jié)果完全重合(見圖3),而SCSR、KI和RCW三種穩(wěn)定性評(píng)價(jià)指標(biāo)在取不同篩選閾值時(shí)都達(dá)到了最小期望值,與前面的結(jié)果一致。
圖3 各種評(píng)價(jià)指標(biāo)對(duì)變量篩選方法在轉(zhuǎn)換數(shù)據(jù)上的穩(wěn)定性的評(píng)價(jià)結(jié)果
為了對(duì)六種指標(biāo)的自身穩(wěn)定性進(jìn)行比較,本研究進(jìn)行了如下模擬實(shí)驗(yàn):模擬產(chǎn)生A、B兩組數(shù)據(jù),包含20個(gè)差異變量,A組差異變量服從N(0,1)的正態(tài)分布,B組差異變量服從N(1,1)的正態(tài)分布,任意兩差異變量間的相關(guān)系數(shù)為ρ=0.9;然后加入980個(gè)噪聲(無差異變量),形成樣本數(shù)據(jù)。樣本量分別設(shè)置為30、50、100,計(jì)算各項(xiàng)指標(biāo)的參數(shù)設(shè)置為 e=0.9,W=1000??紤]模擬的計(jì)算量較大,這里僅使用偏最小二乘(PLS)方法進(jìn)行變量篩選,篩選的閾值分別取前1%、2%、3%、5%、10%、20%、50%的變量。上述過程模擬50次,然后分別計(jì)算六種指標(biāo)的變異系數(shù)。結(jié)果表明:在六種評(píng)價(jià)方法中,HD和SCSR在不同情況下均十分穩(wěn)定,變異系數(shù)恒接近0(圖4);KI、CW、RCW和TD則相對(duì)不夠穩(wěn)定,尤其在樣本量較小情況(n=30)時(shí),變異較大(圖4)。
圖4 不同指標(biāo)的變異系數(shù)
實(shí)例取自四個(gè)數(shù)據(jù)集,包括一個(gè)代謝組數(shù)據(jù)和三個(gè)基因表達(dá)數(shù)據(jù)(見表1)?,F(xiàn)用SCSR方法分析比較PLS、RF、svmRFE三種不同變量篩選方法得到結(jié)果的穩(wěn)定性。
表1 四個(gè)數(shù)據(jù)集的相關(guān)信息
首先,將數(shù)據(jù)集進(jìn)行標(biāo)準(zhǔn)化、歸一化處理。然后分別利用PLS、RF、svmRFE進(jìn)行變量篩選,計(jì)算SCSR的參數(shù)設(shè)置為e=0.9,W=100,保留排序靠前的0.5%、1%、2%、5%、10%、25%、50%的變量,分別計(jì)算 SCSR。結(jié)果表明:PLS方法篩選出變量的穩(wěn)定性最好,其次是svmRFE方法,穩(wěn)定性最差的是RF方法(圖5)。
圖5 不同數(shù)據(jù)集上三種變量篩選方法的SCSR值
1.變量篩選方法的穩(wěn)定性是指數(shù)據(jù)的輕微變動(dòng)引起結(jié)果變化的情況。實(shí)際中,如果篩選出的變量具有很好的穩(wěn)定性,則更有理由相信得到的結(jié)果具有較好的重現(xiàn)性,否則需要慎重對(duì)待得到的結(jié)果。
2.本文在簡(jiǎn)要介紹了六種穩(wěn)定性評(píng)價(jià)指標(biāo)的基礎(chǔ)上,通過設(shè)置適當(dāng)?shù)臈l件和模擬實(shí)驗(yàn)分析對(duì)比了六種指標(biāo)的性質(zhì)。結(jié)果顯示,KI、SCSR和RCW三種方法相對(duì)較好,特別是SCSR方法無論在準(zhǔn)確性和穩(wěn)定性上都具有更好的性質(zhì),是我們推薦使用的方法。
3.通過實(shí)例分析,利用SCSR在四種數(shù)據(jù)集上對(duì)PLS、RF、svmRFE三種變量篩選方法的穩(wěn)定性進(jìn)行了分析。結(jié)果顯示,總體上PLS的穩(wěn)定性最好,svmRFE次之,RF方法的穩(wěn)定性最差。
4.從應(yīng)用角度看,對(duì)于代謝組數(shù)據(jù),無論取多少變量作為“差異變量”,使用svmRFE和RF方法篩選出的變量都不夠可靠,PLS方法則顯現(xiàn)出很好的穩(wěn)定性,從中說明了為什么PLS方法在代謝組學(xué)中有著更廣泛的應(yīng)用。對(duì)于基因組表達(dá)數(shù)據(jù),在取2%的變量作為“差異變量”時(shí),三種方法篩選變量的穩(wěn)定性相差并不大,也從另一方面說明,svmRFE和RF方法可能對(duì)“差異大小”更為敏感,很可能基因組表達(dá)數(shù)據(jù)中大概只有2%的基因是真正的差異基因,這與文獻(xiàn)報(bào)道一致。
[1]Salem A,Zheng Z,Huan L.A Dilemma in Assessing Stability of Feature Selection Algorithms.International Conference on High Performance Computing and Communications Banff:IEEE,2011:701-707.
[2]Kevin D,Padraing C,F(xiàn)rancisco A.Solutions to Instability Problems with Sequential W rapper-based Approaches to Feature Selection.Journal of Machine Learning Research,2002,2:748-769.
[3]M iron BK.Robustness of Random Forest-based gene selection methods.BMC bioinformatics,2014,15(1):8-15.
[4]Kalousis A,Prados J,Hilario M.Stability of feature selection algorithms:a study on high-dimensional spaces.Know ledge and Information Systems,2007,12(1):95-116.
[5]Kuncheva LI.A stability index for feature selection.IASTED International Multi-Conference:artificial intelligence and applications Innsbruck:IASTED,2007:390-395.
[6]Somol P,Jana N.Evaluating the Stability of Feature Selectors That Optimize Feature Subset Cardinality.Proceedings of the 2008 Joint IAPR International Workshop on Structural,Syntactic,and Statistical Pattern Recognition,2008:956-966.
[7]武海濱,張濤,趙發(fā)林,等.基于偏最小二乘線性判別分析的遺傳算法在代謝組學(xué)特征篩選中的應(yīng)用.中國(guó)衛(wèi)生統(tǒng)計(jì),2013,30(4):517-520,524.
[8]武曉巖,李康.隨機(jī)森林方法在基因表達(dá)數(shù)據(jù)分析中的應(yīng)用及研究進(jìn)展.中國(guó)衛(wèi)生統(tǒng)計(jì),2009,26(4):437-440.
[9]武振宇,李康.支持向量機(jī)在基因表達(dá)數(shù)據(jù)分類中的應(yīng)用研究.中國(guó)衛(wèi)生統(tǒng)計(jì),2007,24(1):8-11.
[10]Uriarte R,Andres SA.Gene selection and classification of microarray data using random forest.BMC bioinformatics,2006,7(1):3-15.
Theory and Application of Stability Measurement of Vaviable Selection Methods in High-dimensional Data
Wang Jingtao,Hou Yan,Li Kang(Department of Health Statistics,School of Public Health,Harbin Medical University(150086),Harbin)
ObjectiveIn the process of feature selection,the results of feature selection methods will be diffierent as instances vary slightly.Our research is to study how to measure the stability of the feature preference.MethodsWe perform simulation experiments to compare the accuracy and variation degree of six measurement of stability:HD,SCSR,TD,KI,CW,RCW.SCSR is further studied by applying PLS,RF,svmRFE to real data.ResultsWhen the feature preference is generated randomly,SCSR,KI,RCW are always close to them inimumnomatter the number of features remained.When we apply PLS,RF and svm-RFE to the data which labels and value of features is permutated and measure stability of results,the stabilities of PLS,RF and svmRFE are almost identical,and SCSR,KI,RCW are still close to them inimum no matter the number of features remained.In the terms of stability of measures themselves,the variation of HD and SCSR are small,this two measures have better robustness.ConclusionSCSR performs best in the terms of accuracy and variation degree,and is recommended by us as the measure of stability.
Omics;High-dimisional data;Feature selection;Stability
國(guó)家自然科學(xué)基金資助(81473072)
△通信作者:李康,E-mail:likang@ems.hrbmu.edu.cn
(責(zé)任編輯:郭海強(qiáng))