趙俊琴 王 慧 王 彤△
·應(yīng)用研究·
基于LASSO的高維數(shù)據(jù)線性回歸模型統(tǒng)計(jì)推斷方法比較*
趙俊琴1,2王 慧1王 彤1△
目的 比較五種基于LASSO的高維數(shù)據(jù)線性回歸模型統(tǒng)計(jì)推斷方法:LASSO-懲罰計(jì)分檢驗(yàn),多重樣本拆分、穩(wěn)定選擇、低維投影、協(xié)方差檢驗(yàn)。方法 采用R軟件模擬不同情形的高維數(shù)據(jù),用五種方法做統(tǒng)計(jì)推斷,以期望假陽(yáng)性率和檢驗(yàn)效能為評(píng)價(jià)指標(biāo),比較這五種方法在不同高維數(shù)據(jù)情形下的表現(xiàn)。結(jié)果 在理想高維數(shù)據(jù)情形下,除協(xié)方差檢驗(yàn)推斷結(jié)果保守外,其余方法表現(xiàn)都較好。在復(fù)雜高維數(shù)據(jù)情形下,LASSO-懲罰計(jì)分檢驗(yàn)的檢驗(yàn)效能是五種方法中最高的,其次為多重樣本拆分,而LASSO-懲罰計(jì)分檢驗(yàn)的EFP也是最高的,多重樣本拆分的EFP基本接近0。結(jié)論 在常見(jiàn)復(fù)雜高維數(shù)據(jù)中LASSO-懲罰計(jì)分檢驗(yàn)和多重樣本拆分是兩種較好的高維線性回歸模型統(tǒng)計(jì)推斷方法,兩者相對(duì)而言前者較寬松,后者較保守。在實(shí)際應(yīng)用中可根據(jù)應(yīng)用需求來(lái)選擇合適的統(tǒng)計(jì)推斷方法。
高維數(shù)據(jù) LASSO 統(tǒng)計(jì)推斷 線性回歸
高通量檢測(cè)技術(shù)的發(fā)展帶來(lái)了如基因、多肽、蛋白組學(xué)等大規(guī)模數(shù)據(jù)。這類預(yù)測(cè)變量p大于樣本量n,甚至p隨著n的增長(zhǎng)呈數(shù)量級(jí)增長(zhǎng)的數(shù)據(jù)被稱為高維數(shù)據(jù)[1]。如何從大量的預(yù)測(cè)變量中迅速準(zhǔn)確地篩選出少數(shù)真實(shí)變量集是高維數(shù)據(jù)分析面臨的重要問(wèn)題。目前針對(duì)高維數(shù)據(jù)的變量篩選方法已發(fā)展較為完善,主要包括懲罰類變量篩選方法(LASSO、彈性網(wǎng)等)、主成分分析法、偏最小二乘法等。然而基于有限樣本建立的模型的可靠性和穩(wěn)定性還需要進(jìn)一步通過(guò)統(tǒng)計(jì)推斷來(lái)給出答案。
由于高維數(shù)據(jù)的變量篩選方法大多依靠稀疏假定,存在很多系數(shù)為零的變量,分布的不連續(xù)性導(dǎo)致很難得到系數(shù)估計(jì)值的近似分布,因此高維數(shù)據(jù)的統(tǒng)計(jì)推斷領(lǐng)域還未有公認(rèn)的好方法。LASSO(least absolute shrinkage and selection operator)可獲得最優(yōu)解和解的稀疏性,自提出以來(lái)備受歡迎。因此本研究將介紹現(xiàn)有的基于LASSO的高維數(shù)據(jù)線性回歸模型統(tǒng)計(jì)推斷方法,分別是協(xié)方差檢驗(yàn)(covariance test)、多重樣本拆分(multiple sample-splitting)、穩(wěn)定選擇(stability selection)、低維投影(Low-dimensional projection estimate)、LASSO-懲罰計(jì)分檢驗(yàn)(LASSO penalized score test),并作比較,目的在于推薦其中較好的方法。
1.LASSO簡(jiǎn)介
LASSO的主要思想是在最小二乘法的基礎(chǔ)上加入一個(gè)懲罰項(xiàng)λ‖β‖1,通過(guò)使系數(shù)的絕對(duì)值和小于某一個(gè)常數(shù)來(lái)最小化殘差平方和,同時(shí)與y關(guān)系弱的自變量系數(shù)被懲罰為0從而實(shí)現(xiàn)稀疏性。相比最小二乘法,LASSO犧牲了一些無(wú)偏性但實(shí)現(xiàn)了解的稀疏性,使模型更為穩(wěn)定。LASSO解是凸函數(shù),可獲得最優(yōu)解,見(jiàn)公式(1)。
(1)
選擇合適大小的調(diào)整參數(shù)λ很重要(λ過(guò)大,可能導(dǎo)致過(guò)多變量被懲罰為0,從而遺漏重要變量;反之,可能導(dǎo)致最終模型過(guò)度擬合而可解釋性差)。目前λ的估計(jì)方法主要有:交叉驗(yàn)證法、廣義交叉驗(yàn)證法和無(wú)偏風(fēng)險(xiǎn)估計(jì)分析[2]。下文中未做特別說(shuō)明的λ選擇方法均為交叉驗(yàn)證法。
2.協(xié)方差檢驗(yàn)
協(xié)方差檢驗(yàn)[3]是基于LASSO解路徑的方法,即隨著λ從某個(gè)值(在該λ下LASSO模型只包含截距項(xiàng))減小到0,每一次λ減小有一個(gè)變量進(jìn)入模型,然后檢驗(yàn)該變量所引起的殘差平方和的改變量是否在殘差方差解釋的范圍內(nèi),直到下一個(gè)進(jìn)入模型的變量被檢驗(yàn)為無(wú)統(tǒng)計(jì)學(xué)意義終止,由該變量之前所有變量構(gòu)成最終模型。
3.多重樣本拆分
多重樣本拆分法源自對(duì)單樣本拆分的改進(jìn)。單樣本拆分的主要思想是拆分樣本、降維、用經(jīng)典檢驗(yàn)方法做推斷。但單樣本拆分法的結(jié)果不穩(wěn)定,過(guò)于依賴樣本的拆分結(jié)果[4]。為了提高可重復(fù)性,Meinshausen和Meier提出多重樣本拆分[5],將樣本隨機(jī)拆分為兩份樣本量相同的子樣本,第一份采用LASSO篩選變量得到變量集,第二份用最小二乘法作參數(shù)估計(jì),并采用經(jīng)典檢驗(yàn)方法對(duì)變量作檢驗(yàn)。以上整個(gè)過(guò)程重復(fù)B次,將P值合并。重復(fù)次數(shù)B達(dá)到50到100即可。
4.穩(wěn)定選擇
5.低維投影
6.LASSO-懲罰計(jì)分檢驗(yàn)
采用R軟件模擬高維數(shù)據(jù)不同情形。
設(shè)置自變量矩陣Xn×p,每一行表示一個(gè)觀測(cè),每一列表示一個(gè)自變量。X1,…,Xp均為服從正態(tài)分布N(0,1)的獨(dú)立隨機(jī)變量,隨機(jī)誤差項(xiàng)服從標(biāo)準(zhǔn)正態(tài)分布。
7種樣本量:n=50、75、100、150、200、300、400;兩種自變量個(gè)數(shù):p=100、300;
兩種自變量間相關(guān)性:(1)自變量間相互獨(dú)立corr(Xi,Xj)=0;(2)自變量間的相關(guān)性隨著自變量在矩陣中距離越遠(yuǎn)而遞減corr(Xi,Xj)=0.5|i-j|。LASSO在處理相關(guān)性較強(qiáng)的數(shù)據(jù)中表現(xiàn)較差,第二種相關(guān)性設(shè)定可觀察五種方法的推斷結(jié)果是否依賴于LASSO的變量估計(jì)結(jié)果;
按照以上參數(shù)的設(shè)置生成高維數(shù)據(jù)(見(jiàn)圖1、圖2),模擬次數(shù)B=100,分別用前面介紹的五種方法進(jìn)行變量篩選及統(tǒng)計(jì)推斷。其中穩(wěn)定選擇的重復(fù)抽樣次數(shù)設(shè)為500,截?cái)帱c(diǎn)πthr取0.6;多重樣本拆分的拆分次數(shù)設(shè)為50;LASSO-懲罰計(jì)分檢驗(yàn)采用近似方差估計(jì)法。結(jié)果評(píng)價(jià)指標(biāo)為期望假陽(yáng)性率(expected false positives,EFP)和檢驗(yàn)效能,分別定義如下:
(2)
(3)
‖β‖0表示真實(shí)非零回歸系數(shù)的個(gè)數(shù),Pjk表示第k(k∈(1,…,B))個(gè)模擬數(shù)據(jù)中第j個(gè)變量的P值。
分別以EFP和檢驗(yàn)效能為縱坐標(biāo),五種方法為橫坐標(biāo)作圖。圖1顯示隨著自變量個(gè)數(shù)的增加,五種方法的EFP均明顯增加。圖2顯示真實(shí)回歸系數(shù)的降低,使五種方法的檢驗(yàn)效能均大幅度降低,特別是在小樣本的情況下降低更為明顯。在理想高維數(shù)據(jù)情形下(a圖)穩(wěn)定選擇的表現(xiàn)是五種方法中最好的,但在實(shí)際情況下理想的高維數(shù)據(jù)很難見(jiàn)到。常見(jiàn)復(fù)雜高維數(shù)據(jù)情形下(h圖)LASSO-懲罰計(jì)分檢驗(yàn)發(fā)現(xiàn)真實(shí)非零變量的能力優(yōu)于其余四種方法,且其對(duì)非零變量可識(shí)別性的要求低,但期望假陽(yáng)性率高。多重樣本拆分發(fā)現(xiàn)真實(shí)變量的能力雖然依賴于非零變量可識(shí)別性,但當(dāng)要求不滿足時(shí)結(jié)果僅次于LASSO-懲罰計(jì)分檢驗(yàn),且其期望假陽(yáng)性率極低。
在常見(jiàn)復(fù)雜高維數(shù)據(jù)中LASSO-懲罰計(jì)分檢驗(yàn)和多重樣本拆分是兩種較好的高維數(shù)據(jù)線性回歸模型統(tǒng)計(jì)推斷方法.兩者相對(duì)而言前者較寬松,后者較保守。在實(shí)際應(yīng)用中無(wú)法得知真實(shí)數(shù)據(jù)非零變量可識(shí)別性的高低,但可根據(jù)實(shí)際需求來(lái)選擇合適的統(tǒng)計(jì)推斷方法。例如,若是探索性分析想要從大量數(shù)據(jù)信息中檢測(cè)出可能與結(jié)果變量相關(guān)的所有變量,或是在惡性疾病相關(guān)基因的檢測(cè)中,檢測(cè)出與其相關(guān)的所有可能基因來(lái)進(jìn)一步驗(yàn)證,則可用LASSO-懲罰計(jì)分檢驗(yàn),檢測(cè)結(jié)果較全面。若是驗(yàn)證性分析,要求被檢測(cè)為有意義的變量與結(jié)果變量存在實(shí)際相關(guān)的概率很高,則可用多重樣本拆分。
圖1 五種方法的EFP
(橫坐標(biāo)數(shù)字1~6分別代表:LASSO-懲罰計(jì)分檢驗(yàn)λ分別為0.05、0.07、0.1、0.2、0.5、0.7;7:多重樣本拆分;8:穩(wěn)定選擇;9:低維投影;10:協(xié)方差檢驗(yàn)。樣本量n,○ 50,×100,+200,◇ 400,□ 75,△ 150,○ 300)
圖2 五種方法的檢驗(yàn)效能
受計(jì)算機(jī)運(yùn)行速度等方面的限制,本次研究的數(shù)據(jù)模擬較為簡(jiǎn)單,模擬次數(shù)較少。LASSO在處理存在強(qiáng)相關(guān)的數(shù)據(jù)時(shí)仍存在局限性[10],所以可以考慮將LASSO-懲罰計(jì)分檢驗(yàn)的懲罰類變量篩選方法換做彈性網(wǎng)或ISIS(iterative sure independence screening)等處理強(qiáng)相關(guān)數(shù)據(jù)的方法來(lái)降低假陽(yáng)性率。多重樣本拆分在非零變量可識(shí)別性低時(shí)效能較低,可以考慮將子樣本中變量篩選方法改為其他對(duì)該條件要求低的變量篩選方法。
[1]Greenshtein E,Ritov YA.Persistence in high-dimensional linear predictor selection and the virtue of over-parametrization.Bernoulli,2004,10(6):971-988.
[2]張秀秀,王慧,田雙雙,等.高維數(shù)據(jù)回歸分析中基于LASSO的自變量選擇.中國(guó)衛(wèi)生統(tǒng)計(jì),2013,30(6):922-926.
[3]Lockhart R,Taylor J,Tibshirani RJ,et al.A significance test for the LASSO.The Annals of Statistics,2014,42(2):413-468.
[4]Dezeure R,Bühlmann P,Meier L,et al.High-dimensional Inference:Confidence interval,p-values and R-Software hdi.Statistical Science,2015,30(4):533-558.
[5]Meinshausen N,Meier L,Bühlmann P.P-values for high-dimensional regression.Journal of the American Statistical Association,2009,104(488):1671-1681.
[6]Meinshausen N,Bühlmann P.Stability Selection.Journal of the Royal Statistical Society,B,2010,72(4):417-473.
[7]Zhang CH,Zhang SS.Confidence intervals for low dimensional parameters in high dimensional linear models.Journal of the Royal Statistical Society,B,2014,76(1):217-242.
[8]Geer SVD,Bühlmann P,Ritov Ya,et al.On asymptotically optimal confidence regions and tests for high-dimensional models.The Annals of Statistics.2014,42(3):1166-1202.
[9]Voorman A,Shojaie A,Witten D.Inference in High Dimensions with the Penalized Score Test[EB/OL].Statistics,2014.
[10]閆麗娜,王彤.懲罰COX模型和彈性網(wǎng)技術(shù)在高維數(shù)據(jù)生存分析中的應(yīng)用.太原:山西醫(yī)科大學(xué),2011.
(責(zé)任編輯:郭海強(qiáng))
* 國(guó)家自然科學(xué)基金資助(81473073)
1.山西醫(yī)科大學(xué)衛(wèi)生統(tǒng)計(jì)教研室(030001)
2.河北省疾病預(yù)防與控制中心
△ 通信作者:王彤,E-mail:wtstat@21cn.com
中國(guó)衛(wèi)生統(tǒng)計(jì)2017年2期