王福友, 白 冰, 徐平峰
(長春工業(yè)大學(xué) 基礎(chǔ)科學(xué)學(xué)院, 吉林 長春 130012)
基于SIS的基因表達(dá)數(shù)據(jù)分析
王福友, 白 冰, 徐平峰*
(長春工業(yè)大學(xué) 基礎(chǔ)科學(xué)學(xué)院, 吉林 長春 130012)
用SIS方法對36位白血病患者中7 126個基因的高維數(shù)據(jù)進(jìn)行降維,結(jié)合Lasso變量選擇方法選出可能的致病基因。根據(jù)響應(yīng)變量的數(shù)據(jù)類型建立了廣義線性模型(Logistic模型)。通過比較AIC & BIC準(zhǔn)則以及CV交叉驗證方法下的擬合概率圖得出最優(yōu)模型。
高維數(shù)據(jù); 變量選擇; SIS方法; Lasso
現(xiàn)代技術(shù)不斷發(fā)展,很多領(lǐng)域都產(chǎn)生海量復(fù)雜的數(shù)據(jù),尤其是在醫(yī)學(xué)和生物信息學(xué)等方面,尋找癌癥的致病基因或影響因素一直是一個非常重要的問題,因為基因的數(shù)目非常多,而醫(yī)學(xué)實驗的觀測樣本卻非常少,這種典型的高維數(shù)據(jù)導(dǎo)致計算量迅速上升;高維數(shù)據(jù)導(dǎo)致空間的樣本數(shù)變少,使得某些統(tǒng)計上的漸近性難以實現(xiàn);傳統(tǒng)的數(shù)據(jù)處理方法在處理這類數(shù)據(jù)時不能滿足穩(wěn)健性要求[1],確定致病基因比較困難。這些新現(xiàn)象產(chǎn)生了許多挑戰(zhàn)性的工作。
事實上,許多高維統(tǒng)計學(xué)習(xí)問題都可以抽象為如下問題:從實際中可以得到一個或多個輸出變量y,以及與它們有關(guān)的特征或協(xié)變量x1,x2,…,xp的n次觀測,我們需要基于這些觀測建立y與x1,x2,…,xp的數(shù)學(xué)模型。與傳統(tǒng)統(tǒng)計方法不同的是,此處一般情況協(xié)變量的維數(shù)p大于n,有時甚至是遠(yuǎn)大于n(p>>n)。這種情況下通常認(rèn)為真實模型位于一個低維空間(至少協(xié)變量維數(shù)p要比樣本容量n低),也就是常說的稀疏性(sparsity)假定[2],否則,建立的模型根據(jù)所觀測的樣本是不可識別的。因此,在維數(shù)較高時采取的方法一般是變量降維,即變量選擇。
那么,如何在大量的基因中對變量進(jìn)行選擇,SIS方法就是處理高維情況下降維問題的,這是一種截斷式的選擇方法,在某些約束條件下,SIS可以把高維線性模型從p維降到[nγ] Fan和Lv[4]提出了一種新的較簡單降維方法----安全獨立篩選(SIS)方法。 令Y=(y1,y2,…,yn)T是n維獨立響應(yīng)變量,n是樣本容量??紤]線性回歸模型 Y=Xβ+ε 其中β=(β1,β2,…,βp)T是一個p維參數(shù)ε=(ε1,ε2,…,εn)T;X=(X1,X2,…,Xn)T是一個n×p的設(shè)計矩陣,為方便討論,假定X為列標(biāo)準(zhǔn)化的矩陣,Y為中心化向量。即X中每一列所代表的變量的樣本均值為0,樣本標(biāo)準(zhǔn)差為1,Y的樣本均值為0。 令M*={1≤i≤p;βi≠0}為我們感興趣的真實稀疏模型的指標(biāo)集,s=|M*|代表M*中元素的個數(shù),也就是真實模型中回歸系數(shù)不為0的個數(shù)。令ω=(ω1,ω2,…,ωp)T對于任何給定的γ∈(0,1),定義子模型MY={1≤i≤p;|ωi|為前最大的[γn]個},其中[nγ]表示nγ整數(shù)部分。 這樣就可以把全模型指標(biāo)集{1,2,…,p}降到一個子模型指標(biāo)集MY,其中,元素的個數(shù)nγ 1)σ=10-3(初定),m=n/logn; 3)把|ωi|按照從大到小排序,并選取其中m個最大的|ωi|, 不妨記為|ω|(1),|ω|(2),…,|ω|(m); 5)選取|ω|(1),|ω|(2),…,|ω|(m1)所對應(yīng)的自變量,不妨記其對應(yīng)的觀測分量為z1,z2,…,zm1,注意z1,z2,…,zm1為x1,x2,…,xp的一個子集,其變量個數(shù)為m1。 文中引用數(shù)據(jù)為白血病基因表達(dá)數(shù)據(jù)集[5]中的部分?jǐn)?shù)據(jù),包含20個急性淋巴細(xì)胞白血病(y=0)和14個急性骨髓性白血病(y=1)患者的p=7 126個基因表達(dá)數(shù)據(jù)。其中y表示分類因變量(y=0或1)。{x1,x2,…,xp}表示白血病基因自變量。 利用SIS結(jié)合Tibshirani提出的Lasso懲罰似然方法[6]討論數(shù)據(jù)中34名觀測樣本的基因篩選問題,并給出相應(yīng)結(jié)果。 首先在R軟件中,應(yīng)用SIS程序包中懲罰似然函數(shù)把7 126個治病基因經(jīng)過自變量篩選,將維度降低,然后再結(jié)合傳統(tǒng)的模型選擇方法如AIC準(zhǔn)則、BIC準(zhǔn)則[7]、10折交叉驗證法[8](CV)等給出最終模型的解釋變量及相應(yīng)參數(shù)向量。 經(jīng)研究表明,在R軟件的SIS程序包中,SIS過程選擇的最終模型類型為cv.ncvreg、cv.glmnet的擬合模型。對于懲罰函數(shù)的選項,如果懲罰函數(shù)為SCAD、MCP,則返回的擬合對象的類型為ncvreg(適用于建立普通線性回歸模型);否則,當(dāng)懲罰函數(shù)為Lasso時,返回的擬合對象的類型為glmnet(適用于建立廣義線性模型或Cox比例風(fēng)險模型[9])。在本研究實例中,因變量是分類的離散變量,建立的是Logistic回歸模型。所以只給出了Lasso懲罰函數(shù)下的結(jié)果,見表1。 在表1中,SIS過程從試驗組7 126個基因中通過Lasso篩選出自變量,以此達(dá)到降維的目的,當(dāng)然也給出了相應(yīng)的參數(shù)向量: 1)結(jié)合CV(10折交叉驗證)得到最終模型的參數(shù)估計值為x2020,x3252,x3320,x4847,x5817,x6041,x6373,分別對應(yīng)模型中x1,x2,…,x7。 2)結(jié)合AIC準(zhǔn)則得到最終模型的參數(shù)估計值為x1779,x2020,x3252,x3320,x4847,x5817,分別對應(yīng)模型中x1,x2,…,x6。 3)結(jié)合BIC準(zhǔn)則得到最終模型的參數(shù)估計值為x1779,x2020,x3320,x4847,x5817,分別對應(yīng)模型中x1,x2,…,x5。 類似于通常的預(yù)測方法,不同方法下預(yù)測的擬合概率圖分別如圖1~圖3所示。 圖1 CV法下預(yù)測的擬合概率圖 圖2 AIC準(zhǔn)則下預(yù)測的擬合概率圖 圖3 BIC準(zhǔn)則下預(yù)測的擬合概率圖 理論上,Logistic[10]模型最佳的預(yù)測擬合圖應(yīng)是一條S曲線,在3種最終模型的參數(shù)估計都通過檢驗的情況下,顯然CV(10折交叉驗證)下的擬合概率圖更加趨近于一條S曲線,也就得到了符合本例數(shù)據(jù)的最佳模型,即應(yīng)用懲罰函數(shù)Lasso+CV方法給出的廣義線性模型: 對醫(yī)學(xué)上高維數(shù)據(jù)基于SIS方法進(jìn)行了分析。變量選擇是一種特殊的模型選擇方法,文中給出了SIS方法與經(jīng)驗似然有機(jī)結(jié)合SIS+CV方法以及SIS+AIC等方法。這個算法既保留了原有方法的漸近性質(zhì),又降低了實際中對誤差項的分布要求,取長補(bǔ)短、計算簡單、想法直觀。研究結(jié)果表明,文中方法在對高維線性模型作變量選擇時,其結(jié)果整體上可信度很高。 總之,近年來,對于各種研究領(lǐng)域中有關(guān)高維數(shù)據(jù)的研究一直在進(jìn)行,尤其是在醫(yī)學(xué)方面,在大量的基因組中尋找治病基因,并逐步走向成熟,對理論的探討以及對實例的處理也都有很多成果。而且關(guān)于對高維數(shù)據(jù)處理和變量選擇的問題應(yīng)用面也越來越廣泛。隨著對高維數(shù)據(jù)問題的研究發(fā)現(xiàn),現(xiàn)今對高維數(shù)據(jù)的處理方法越來越多元化。文中所考慮的高維數(shù)據(jù)變量選擇方法只是處理高維數(shù)據(jù)方法中的一部分,隨著科學(xué)技術(shù)的迅猛發(fā)展和理論研究的進(jìn)一步探究,更多新的方法逐漸被提出,高維數(shù)據(jù)的變量選擇研究領(lǐng)域也將得到更進(jìn)一步發(fā)展。 [1] 劉卓.高維數(shù)據(jù)分析中的降維方法研究[D].長沙:中國人民解放軍國防科學(xué)技術(shù)大學(xué),2002. [2] 李玲玲.高維線性模型的變量選擇[D].南寧:廣西師范大學(xué),2007. [3] 喬治·H.鄧特曼.廣義線性模型[M].上海:上海人民出版社,2011. [4] Fan J, Lv J. Sure independence screening for ultrahigh dimensional feature space [J]. J. R. Stat. Soc. Ser. B,2008,70:849-911. [5] Golub T R, Slonim D K, Tamayo P, et al. Molecular classification of cancer: class discovery and class prediction by gene expression monitoring [J]. Science,1999,5439(286):531-537. [6] Tibshirani R. Regression shrinkage and selection via the Lasso [J]. Journal of the Royal Statistical Society,2011,73(3):267-288. [7] 崔靜.廣義線性模型下罰估計量的性質(zhì)[D].西安:西北大學(xué),2011. [8] Feng Y, Yu Y. Consistent cross-validation for tuning parameter selection in high-dimensional variable selection [EB/OL].[2017-06-11].http://www.statslab.cam.ac.uk/~yy366/index_files/1308.5390v1.pdf. [9] Saldana D, Feng Y. SIS: An R rackage for sure independence screening in ultrahigh dimensional statistical models[EB/OL].[2017-06-11].http://www.stat.columbia.edu/~yangfeng/pubs/jss1375.pdf. [10] 陳勝利,覃家君.基于logistic增長模型的企業(yè)集團(tuán)生存關(guān)系分析[J].長春工業(yè)大學(xué)學(xué)報:自然科學(xué)版,2005,26(1):54-58. AnalysisofgeneexpressiondatabasedonSISmethod WANG Fuyou, BAI Bing, XU Pingfeng* (School of Basic Sciences, Changchun University of Technology, Changchun 130012, China) With SIS method, the dimension of 7 126 genes data from 36 leukemiapatients is decreased, and then the possible pathogenic genes are selected by means of Lasso variables. Based on data type of the variables, a generalized linear model (Logistic model) is established. The optimal model for fitting probability graph is obtained, by comparing the AIC & BIC criterion with Cross Validation (CV) verfification. high dimensional data; variable selection; SIS method; Lasso. 2017-06-11 國家自然科學(xué)基金資助項目(11401047,11571050); 吉林省科技廳發(fā)展計劃基金資助項目(20140520059JH) 王福友(1992-),男,河北石家莊人,長春工業(yè)大學(xué)碩士研究生,主要從事圖模型方向研究,E-mail:994742613@qq.com. *通訊作者:徐平峰(1979-),男,漢族,吉林長春人,長春工業(yè)大學(xué)副教授,博士,主要從事圖模型方向研究,E-mail:xupingfeng@ccut.edu.cn. 10.15923/j.cnki.cn22-1382/t.2017.5.01 O 212.4 A 1674-1374(2017)05-0417-041 高維線性模型的變量選擇
1.1 SIS方法介紹
1.2 SIS方法過程
2 基因表達(dá)數(shù)據(jù)實例分析
2.1 數(shù)據(jù)描述
2.2 方法應(yīng)用及分析
3 結(jié) 語