• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于LASSO的高維數(shù)據(jù)線性回歸模型統(tǒng)計(jì)推斷方法比較*

    2017-06-05 14:20:14趙俊琴
    關(guān)鍵詞:高維計(jì)分協(xié)方差

    趙俊琴 王 慧 王 彤△

    ·應(yīng)用研究·

    基于LASSO的高維數(shù)據(jù)線性回歸模型統(tǒng)計(jì)推斷方法比較*

    趙俊琴1,2王 慧1王 彤1△

    目的 比較五種基于LASSO的高維數(shù)據(jù)線性回歸模型統(tǒng)計(jì)推斷方法:LASSO-懲罰計(jì)分檢驗(yàn),多重樣本拆分、穩(wěn)定選擇、低維投影、協(xié)方差檢驗(yàn)。方法 采用R軟件模擬不同情形的高維數(shù)據(jù),用五種方法做統(tǒng)計(jì)推斷,以期望假陽(yáng)性率和檢驗(yàn)效能為評(píng)價(jià)指標(biāo),比較這五種方法在不同高維數(shù)據(jù)情形下的表現(xiàn)。結(jié)果 在理想高維數(shù)據(jù)情形下,除協(xié)方差檢驗(yàn)推斷結(jié)果保守外,其余方法表現(xiàn)都較好。在復(fù)雜高維數(shù)據(jù)情形下,LASSO-懲罰計(jì)分檢驗(yàn)的檢驗(yàn)效能是五種方法中最高的,其次為多重樣本拆分,而LASSO-懲罰計(jì)分檢驗(yàn)的EFP也是最高的,多重樣本拆分的EFP基本接近0。結(jié)論 在常見(jiàn)復(fù)雜高維數(shù)據(jù)中LASSO-懲罰計(jì)分檢驗(yàn)和多重樣本拆分是兩種較好的高維線性回歸模型統(tǒng)計(jì)推斷方法,兩者相對(duì)而言前者較寬松,后者較保守。在實(shí)際應(yīng)用中可根據(jù)應(yīng)用需求來(lái)選擇合適的統(tǒng)計(jì)推斷方法。

    高維數(shù)據(jù) LASSO 統(tǒng)計(jì)推斷 線性回歸

    高通量檢測(cè)技術(shù)的發(fā)展帶來(lái)了如基因、多肽、蛋白組學(xué)等大規(guī)模數(shù)據(jù)。這類預(yù)測(cè)變量p大于樣本量n,甚至p隨著n的增長(zhǎng)呈數(shù)量級(jí)增長(zhǎng)的數(shù)據(jù)被稱為高維數(shù)據(jù)[1]。如何從大量的預(yù)測(cè)變量中迅速準(zhǔn)確地篩選出少數(shù)真實(shí)變量集是高維數(shù)據(jù)分析面臨的重要問(wèn)題。目前針對(duì)高維數(shù)據(jù)的變量篩選方法已發(fā)展較為完善,主要包括懲罰類變量篩選方法(LASSO、彈性網(wǎng)等)、主成分分析法、偏最小二乘法等。然而基于有限樣本建立的模型的可靠性和穩(wěn)定性還需要進(jìn)一步通過(guò)統(tǒng)計(jì)推斷來(lái)給出答案。

    由于高維數(shù)據(jù)的變量篩選方法大多依靠稀疏假定,存在很多系數(shù)為零的變量,分布的不連續(xù)性導(dǎo)致很難得到系數(shù)估計(jì)值的近似分布,因此高維數(shù)據(jù)的統(tǒng)計(jì)推斷領(lǐng)域還未有公認(rèn)的好方法。LASSO(least absolute shrinkage and selection operator)可獲得最優(yōu)解和解的稀疏性,自提出以來(lái)備受歡迎。因此本研究將介紹現(xiàn)有的基于LASSO的高維數(shù)據(jù)線性回歸模型統(tǒng)計(jì)推斷方法,分別是協(xié)方差檢驗(yàn)(covariance test)、多重樣本拆分(multiple sample-splitting)、穩(wěn)定選擇(stability selection)、低維投影(Low-dimensional projection estimate)、LASSO-懲罰計(jì)分檢驗(yàn)(LASSO penalized score test),并作比較,目的在于推薦其中較好的方法。

    基本原理

    1.LASSO簡(jiǎn)介

    LASSO的主要思想是在最小二乘法的基礎(chǔ)上加入一個(gè)懲罰項(xiàng)λ‖β‖1,通過(guò)使系數(shù)的絕對(duì)值和小于某一個(gè)常數(shù)來(lái)最小化殘差平方和,同時(shí)與y關(guān)系弱的自變量系數(shù)被懲罰為0從而實(shí)現(xiàn)稀疏性。相比最小二乘法,LASSO犧牲了一些無(wú)偏性但實(shí)現(xiàn)了解的稀疏性,使模型更為穩(wěn)定。LASSO解是凸函數(shù),可獲得最優(yōu)解,見(jiàn)公式(1)。

    (1)

    選擇合適大小的調(diào)整參數(shù)λ很重要(λ過(guò)大,可能導(dǎo)致過(guò)多變量被懲罰為0,從而遺漏重要變量;反之,可能導(dǎo)致最終模型過(guò)度擬合而可解釋性差)。目前λ的估計(jì)方法主要有:交叉驗(yàn)證法、廣義交叉驗(yàn)證法和無(wú)偏風(fēng)險(xiǎn)估計(jì)分析[2]。下文中未做特別說(shuō)明的λ選擇方法均為交叉驗(yàn)證法。

    2.協(xié)方差檢驗(yàn)

    協(xié)方差檢驗(yàn)[3]是基于LASSO解路徑的方法,即隨著λ從某個(gè)值(在該λ下LASSO模型只包含截距項(xiàng))減小到0,每一次λ減小有一個(gè)變量進(jìn)入模型,然后檢驗(yàn)該變量所引起的殘差平方和的改變量是否在殘差方差解釋的范圍內(nèi),直到下一個(gè)進(jìn)入模型的變量被檢驗(yàn)為無(wú)統(tǒng)計(jì)學(xué)意義終止,由該變量之前所有變量構(gòu)成最終模型。

    3.多重樣本拆分

    多重樣本拆分法源自對(duì)單樣本拆分的改進(jìn)。單樣本拆分的主要思想是拆分樣本、降維、用經(jīng)典檢驗(yàn)方法做推斷。但單樣本拆分法的結(jié)果不穩(wěn)定,過(guò)于依賴樣本的拆分結(jié)果[4]。為了提高可重復(fù)性,Meinshausen和Meier提出多重樣本拆分[5],將樣本隨機(jī)拆分為兩份樣本量相同的子樣本,第一份采用LASSO篩選變量得到變量集,第二份用最小二乘法作參數(shù)估計(jì),并采用經(jīng)典檢驗(yàn)方法對(duì)變量作檢驗(yàn)。以上整個(gè)過(guò)程重復(fù)B次,將P值合并。重復(fù)次數(shù)B達(dá)到50到100即可。

    4.穩(wěn)定選擇

    5.低維投影

    6.LASSO-懲罰計(jì)分檢驗(yàn)

    模擬研究

    采用R軟件模擬高維數(shù)據(jù)不同情形。

    設(shè)置自變量矩陣Xn×p,每一行表示一個(gè)觀測(cè),每一列表示一個(gè)自變量。X1,…,Xp均為服從正態(tài)分布N(0,1)的獨(dú)立隨機(jī)變量,隨機(jī)誤差項(xiàng)服從標(biāo)準(zhǔn)正態(tài)分布。

    7種樣本量:n=50、75、100、150、200、300、400;兩種自變量個(gè)數(shù):p=100、300;

    兩種自變量間相關(guān)性:(1)自變量間相互獨(dú)立corr(Xi,Xj)=0;(2)自變量間的相關(guān)性隨著自變量在矩陣中距離越遠(yuǎn)而遞減corr(Xi,Xj)=0.5|i-j|。LASSO在處理相關(guān)性較強(qiáng)的數(shù)據(jù)中表現(xiàn)較差,第二種相關(guān)性設(shè)定可觀察五種方法的推斷結(jié)果是否依賴于LASSO的變量估計(jì)結(jié)果;

    按照以上參數(shù)的設(shè)置生成高維數(shù)據(jù)(見(jiàn)圖1、圖2),模擬次數(shù)B=100,分別用前面介紹的五種方法進(jìn)行變量篩選及統(tǒng)計(jì)推斷。其中穩(wěn)定選擇的重復(fù)抽樣次數(shù)設(shè)為500,截?cái)帱c(diǎn)πthr取0.6;多重樣本拆分的拆分次數(shù)設(shè)為50;LASSO-懲罰計(jì)分檢驗(yàn)采用近似方差估計(jì)法。結(jié)果評(píng)價(jià)指標(biāo)為期望假陽(yáng)性率(expected false positives,EFP)和檢驗(yàn)效能,分別定義如下:

    (2)

    (3)

    ‖β‖0表示真實(shí)非零回歸系數(shù)的個(gè)數(shù),Pjk表示第k(k∈(1,…,B))個(gè)模擬數(shù)據(jù)中第j個(gè)變量的P值。

    結(jié) 果

    分別以EFP和檢驗(yàn)效能為縱坐標(biāo),五種方法為橫坐標(biāo)作圖。圖1顯示隨著自變量個(gè)數(shù)的增加,五種方法的EFP均明顯增加。圖2顯示真實(shí)回歸系數(shù)的降低,使五種方法的檢驗(yàn)效能均大幅度降低,特別是在小樣本的情況下降低更為明顯。在理想高維數(shù)據(jù)情形下(a圖)穩(wěn)定選擇的表現(xiàn)是五種方法中最好的,但在實(shí)際情況下理想的高維數(shù)據(jù)很難見(jiàn)到。常見(jiàn)復(fù)雜高維數(shù)據(jù)情形下(h圖)LASSO-懲罰計(jì)分檢驗(yàn)發(fā)現(xiàn)真實(shí)非零變量的能力優(yōu)于其余四種方法,且其對(duì)非零變量可識(shí)別性的要求低,但期望假陽(yáng)性率高。多重樣本拆分發(fā)現(xiàn)真實(shí)變量的能力雖然依賴于非零變量可識(shí)別性,但當(dāng)要求不滿足時(shí)結(jié)果僅次于LASSO-懲罰計(jì)分檢驗(yàn),且其期望假陽(yáng)性率極低。

    討 論

    在常見(jiàn)復(fù)雜高維數(shù)據(jù)中LASSO-懲罰計(jì)分檢驗(yàn)和多重樣本拆分是兩種較好的高維數(shù)據(jù)線性回歸模型統(tǒng)計(jì)推斷方法.兩者相對(duì)而言前者較寬松,后者較保守。在實(shí)際應(yīng)用中無(wú)法得知真實(shí)數(shù)據(jù)非零變量可識(shí)別性的高低,但可根據(jù)實(shí)際需求來(lái)選擇合適的統(tǒng)計(jì)推斷方法。例如,若是探索性分析想要從大量數(shù)據(jù)信息中檢測(cè)出可能與結(jié)果變量相關(guān)的所有變量,或是在惡性疾病相關(guān)基因的檢測(cè)中,檢測(cè)出與其相關(guān)的所有可能基因來(lái)進(jìn)一步驗(yàn)證,則可用LASSO-懲罰計(jì)分檢驗(yàn),檢測(cè)結(jié)果較全面。若是驗(yàn)證性分析,要求被檢測(cè)為有意義的變量與結(jié)果變量存在實(shí)際相關(guān)的概率很高,則可用多重樣本拆分。

    圖1 五種方法的EFP

    (橫坐標(biāo)數(shù)字1~6分別代表:LASSO-懲罰計(jì)分檢驗(yàn)λ分別為0.05、0.07、0.1、0.2、0.5、0.7;7:多重樣本拆分;8:穩(wěn)定選擇;9:低維投影;10:協(xié)方差檢驗(yàn)。樣本量n,○ 50,×100,+200,◇ 400,□ 75,△ 150,○ 300)

    圖2 五種方法的檢驗(yàn)效能

    受計(jì)算機(jī)運(yùn)行速度等方面的限制,本次研究的數(shù)據(jù)模擬較為簡(jiǎn)單,模擬次數(shù)較少。LASSO在處理存在強(qiáng)相關(guān)的數(shù)據(jù)時(shí)仍存在局限性[10],所以可以考慮將LASSO-懲罰計(jì)分檢驗(yàn)的懲罰類變量篩選方法換做彈性網(wǎng)或ISIS(iterative sure independence screening)等處理強(qiáng)相關(guān)數(shù)據(jù)的方法來(lái)降低假陽(yáng)性率。多重樣本拆分在非零變量可識(shí)別性低時(shí)效能較低,可以考慮將子樣本中變量篩選方法改為其他對(duì)該條件要求低的變量篩選方法。

    [1]Greenshtein E,Ritov YA.Persistence in high-dimensional linear predictor selection and the virtue of over-parametrization.Bernoulli,2004,10(6):971-988.

    [2]張秀秀,王慧,田雙雙,等.高維數(shù)據(jù)回歸分析中基于LASSO的自變量選擇.中國(guó)衛(wèi)生統(tǒng)計(jì),2013,30(6):922-926.

    [3]Lockhart R,Taylor J,Tibshirani RJ,et al.A significance test for the LASSO.The Annals of Statistics,2014,42(2):413-468.

    [4]Dezeure R,Bühlmann P,Meier L,et al.High-dimensional Inference:Confidence interval,p-values and R-Software hdi.Statistical Science,2015,30(4):533-558.

    [5]Meinshausen N,Meier L,Bühlmann P.P-values for high-dimensional regression.Journal of the American Statistical Association,2009,104(488):1671-1681.

    [6]Meinshausen N,Bühlmann P.Stability Selection.Journal of the Royal Statistical Society,B,2010,72(4):417-473.

    [7]Zhang CH,Zhang SS.Confidence intervals for low dimensional parameters in high dimensional linear models.Journal of the Royal Statistical Society,B,2014,76(1):217-242.

    [8]Geer SVD,Bühlmann P,Ritov Ya,et al.On asymptotically optimal confidence regions and tests for high-dimensional models.The Annals of Statistics.2014,42(3):1166-1202.

    [9]Voorman A,Shojaie A,Witten D.Inference in High Dimensions with the Penalized Score Test[EB/OL].Statistics,2014.

    [10]閆麗娜,王彤.懲罰COX模型和彈性網(wǎng)技術(shù)在高維數(shù)據(jù)生存分析中的應(yīng)用.太原:山西醫(yī)科大學(xué),2011.

    (責(zé)任編輯:郭海強(qiáng))

    * 國(guó)家自然科學(xué)基金資助(81473073)

    1.山西醫(yī)科大學(xué)衛(wèi)生統(tǒng)計(jì)教研室(030001)

    2.河北省疾病預(yù)防與控制中心

    △ 通信作者:王彤,E-mail:wtstat@21cn.com

    猜你喜歡
    高維計(jì)分協(xié)方差
    帶定性判斷的計(jì)分投票制及其公理刻畫(huà)
    引導(dǎo)素質(zhì)教育的新高考計(jì)分模式構(gòu)想:線性轉(zhuǎn)化計(jì)分模式
    基于單片機(jī)的中國(guó)式摔跤比賽計(jì)分器開(kāi)發(fā)設(shè)計(jì)
    電子制作(2019年9期)2019-05-30 09:42:06
    一種改進(jìn)的GP-CLIQUE自適應(yīng)高維子空間聚類算法
    基于加權(quán)自學(xué)習(xí)散列的高維數(shù)據(jù)最近鄰查詢算法
    不確定系統(tǒng)改進(jìn)的魯棒協(xié)方差交叉融合穩(wěn)態(tài)Kalman預(yù)報(bào)器
    一種基于廣義協(xié)方差矩陣的欠定盲辨識(shí)方法
    計(jì)分考核表在績(jī)效管理中的應(yīng)用效果
    一般非齊次非線性擴(kuò)散方程的等價(jià)變換和高維不變子空間
    高維Kramers系統(tǒng)離出點(diǎn)的分布問(wèn)題
    安阳市| 绵阳市| 马尔康县| 咸宁市| 蒙山县| 泾川县| 台山市| 岳阳市| 海伦市| 南和县| 瑞安市| 瓮安县| 天津市| 湘阴县| 扎赉特旗| 泾阳县| 武安市| 南丹县| 台江县| 六盘水市| 且末县| 航空| 徐汇区| 嘉善县| 三门县| 湘潭县| 棋牌| 元朗区| 迁安市| 泰兴市| 龙海市| 周宁县| 沾化县| 鸡泽县| 平阳县| 原阳县| 松桃| 类乌齐县| 辛集市| 清涧县| 琼海市|