黃文靜, 鄧 丹, 杜杰琳, 吳明月
(重慶醫(yī)科大學(xué) 公共衛(wèi)生與管理學(xué)院,重慶 400016)
隨著信息和技術(shù)的快速發(fā)展,數(shù)據(jù)搜集能力越來越強(qiáng),數(shù)據(jù)的規(guī)模和復(fù)雜程度都是前所未見的,特別是激增的變量維數(shù)給傳統(tǒng)的統(tǒng)計學(xué)帶來了巨大挑戰(zhàn)。在高維情形下,變量個數(shù)p要大于樣本量n,而且高維變量之間通常具有很強(qiáng)的相依性,此時,設(shè)計矩陣X不是滿秩的,回歸參數(shù)的估計往往也不是唯一的[1]。因此,如何對高維變量建模和參數(shù)估計是統(tǒng)計學(xué)關(guān)注的重點(diǎn)問題。正則化方法是處理高維數(shù)據(jù)常用的一種方法。Lasso[2]是人們熟知的正則化方法,但是當(dāng)數(shù)據(jù)中存在某種結(jié)構(gòu)(如組結(jié)構(gòu))時,Lasso不能很好地利用這種結(jié)構(gòu)。因此,作為Lasso的推廣,隨后進(jìn)一步提出Group Lasso[3]和Overlapping Group Lasso[4]等,這些方法在高維數(shù)據(jù)分析中均得到了廣泛的應(yīng)用,但是這些方法通常需要提前給出預(yù)測變量的組結(jié)構(gòu),然而在有些應(yīng)用中很難得到這種結(jié)構(gòu)。相比組結(jié)構(gòu),預(yù)測變量的圖結(jié)構(gòu)更容易獲得。在生物學(xué)研究中,每個個體包含了成千上萬的基因,這些基因有的單獨(dú)作用,有的相互作用,而基因之間相互作用的大量信息可以用來構(gòu)建預(yù)測變量的圖結(jié)構(gòu),其中基因表示圖中的節(jié)點(diǎn),調(diào)控關(guān)系表示圖中的邊。即使在沒有先驗(yàn)信息的條件下,仍然可以通過協(xié)差陣(精度矩陣)的稀疏估計[5-7]構(gòu)造這些基因的圖結(jié)構(gòu)。Yu和Liu[8]在線性模型的框架下,提出一種利用預(yù)測變量圖結(jié)構(gòu)的方法,該方法具有一定的普遍性。目前,邏輯回歸是處理分類數(shù)據(jù)的有效工具,正則化方法也被廣泛應(yīng)用于處理大p小n的邏輯回歸問題[9-10],本文將在文獻(xiàn)[8]的基礎(chǔ)上將圖結(jié)構(gòu)應(yīng)用到邏輯回歸模型中,為了評價這一方法的性能,將其與現(xiàn)有的許多方法進(jìn)行比較,研究比較了不同圖結(jié)構(gòu)下的仿真實(shí)例,還將其應(yīng)用到乳腺癌基因?qū)嵗校抡鎸?shí)驗(yàn)結(jié)果和實(shí)際數(shù)據(jù)分析表明:該方法在估計、預(yù)測和模型的變量選擇上均具有優(yōu)越性。
設(shè)(X,Y)為隨機(jī)變量,其中X∈Rp,Y∈{0,1}。假設(shè)X服從均值為Op×1,協(xié)差陣為Σ的多元正態(tài)分布。給定X=x,Y的條件分布記為Pβ*(Y=1|x)=pβ*(x)。邏輯回歸模型為
損失函數(shù)為
(
β
)=
(
β
;
x
,
Y
)= -
Yf
β
(
x
)+ log(1+exp(
f
β
(
x
)))
相應(yīng)的風(fēng)險函數(shù)和經(jīng)驗(yàn)風(fēng)險函數(shù)分別記為
P(β0,β)=E(β0,β;X,Y)
Pn(β0,β)=
由文獻(xiàn)[12]的定理2.1及文獻(xiàn)[13]的條件3.1,有
β*∝Σ-1(η(y)-μ)
(1)
令Σ-1=Ω=(ωij)i,j=1,2,…,p,其中Ω為精度矩陣,由式(1)可知,β*可表示為β*=Ωγ,γ=η(y)-μ。因此,文獻(xiàn)[10]的方法可以推廣到邏輯回歸模型,于是有
(2)
(3)
基于預(yù)測變量的圖結(jié)構(gòu)G確定領(lǐng)域N1,N2,…,Np(注意到j(luò)∈Nj,j∈Nj,j=1,…,p)。
求解如下優(yōu)化問題:
(4)
(5)
目前,有很多R包可以求解優(yōu)化問題式(5),如grpLasso[9],grpreg[15]以及gglasso[16]。本文利用Zeng和Breheny[9]提供的R包求解優(yōu)化問題式(5),該方法能夠直接求解重疊組結(jié)構(gòu)的Group Lasso 問題。
相比于目前流行的正則化方法(如Lasso,Group Lasso等),本文的方法更具一般性。當(dāng)預(yù)測變量的圖結(jié)構(gòu)沒有邊時,本文方法等價于Adaptive Lasso;當(dāng)預(yù)測變量的圖結(jié)構(gòu)由若干個獨(dú)立的完全圖組成,本文方法等價于Group Lasso;當(dāng)預(yù)測變量的圖結(jié)構(gòu)為完全圖時,本文方法與嶺回歸有相同的非零解[11]。因此,本文的方法是一種更加一般的方法,Adaptive Lasso,Group Lasso和嶺回歸都可以看作是本文所提方法的特例。另外,本文的方法也可以用來處理Overlapping Group Lasso問題。
例1 (Ω分塊對角)p=100,s*=15,真實(shí)的系數(shù)向量β*=(0.3,0.3,…,0.3,0,0,…,0)T,預(yù)測變量按如下方式生成:
Xj=Z1+0.4εj,Z1~N(0,1), 1≤j≤5Xj=Z2+0.4εj,Z2~N(0,1), 6≤j≤10Xj=Z3+0.4εj,Z3~N(0,1), 11≤j≤15Xj~N(0,1), 16≤j≤100
例2 (Ω帶狀)p=100,β*與例1相同,預(yù)測變量(X1,X2,…,Xp)T~N(0,Σ),其中Σij=0.5|i-j|。此時,若|i-j|=1,有ωii=1.333,ωij=-0.677;若|i-j|>1,則ωij=0。
例3 (Ω稀疏)p=100,預(yù)測變量(X1,X2,…,Xp)T~N(0,Ω-1),其中Ω-1=B+δI。B中非對角線元素以概率0.05取0.5,以概率0.95取0,對角線元素為0。選取δ使得Ω的條件數(shù)為p。令β*=Ωγ,其中γ=(γ1,γ2,…,γp)T,且γi=0.1,i=1,2,3,4,否則,γi=0。
表1—表3給出了不同方法在不同的圖結(jié)構(gòu)中的表現(xiàn),其中l(wèi)2距離和預(yù)測誤差衡量的是模型的估計和預(yù)測能力,RFPR和RFNR衡量是模型的變量選擇能力。LG-O和LG表示本文所提方法分別利用真實(shí)圖結(jié)構(gòu)和估計圖結(jié)構(gòu)得到的結(jié)果。表1—表3中的結(jié)果表明:當(dāng)圖結(jié)構(gòu)比較簡單時,本文方法與其他方法相當(dāng)(表1所示);當(dāng)圖結(jié)構(gòu)比較復(fù)雜時,本文方法無論從估計和預(yù)測方面還是從模型選擇方面都明顯優(yōu)于其他方法,與具有Oracle性質(zhì)的SCAD和MCP方法比較仍具有優(yōu)越性(表2,表3所示)。
表4給出了不同方法RNMR和RZMR的表現(xiàn)。表4結(jié)果表明:即使圖結(jié)構(gòu)比較簡單時,其他方法的RNMR和RZMR也很差。本文的方法在圖結(jié)構(gòu)較簡單時明顯優(yōu)于其他方法,當(dāng)圖結(jié)構(gòu)較復(fù)雜時,也要優(yōu)于其他方法,這表明本文方法有效地利用了預(yù)測變量圖結(jié)構(gòu)的信息。
表1 例1中不同方法在模型估計、預(yù)測和模型選擇能力的比較
表2 例2中不同方法在模型估計、預(yù)測和模型選擇能力的比較
表3 例3中不同方法在模型估計、預(yù)測和模型選擇能力的比較
表4 不同模型的NMR和ZMR的比較
*注:…表示不可用值,沒有用的預(yù)測變量之間沒有相連的邊。
以上模擬結(jié)果表明:即使圖結(jié)構(gòu)未知,本文方法仍然能夠有效地利用預(yù)測變量圖結(jié)構(gòu)信息,從而提高模型在估計、預(yù)測以及變量選擇等方面的表現(xiàn)。
本節(jié)將上述方法應(yīng)用于公開的乳腺癌實(shí)際數(shù)據(jù),包括133名受試者22 283個基因表達(dá)水平,其中34名為病理完全反應(yīng)(pCR)受試者,99名為殘留病(RD)受試者。該數(shù)據(jù)可以通過網(wǎng)址http://Bioinformatics. mdanderson.org/pubdata.html下載??紤]到迭代算法運(yùn)行的速度以及計算機(jī)的限制,將主要比較本文的方法與Lasso方法、嶺回歸方法、Adaptive Lasso方法以及Elastic Net方法的效果。
為了估計精度矩陣,將數(shù)據(jù)集和測試集分別隨機(jī)劃分為大小為112和21的兩部分,然后將整個過程重復(fù)100次。每次都采用分層抽樣的方法從對應(yīng)的組中選取5個pCR個體和16個RD個體作為測試集(大體相當(dāng)于每組的1/6),其余的個體作為訓(xùn)練集。在每個訓(xùn)練集上,利用兩樣本t檢驗(yàn)選取最顯著的113個基因作為預(yù)測變量。注意到,訓(xùn)練集的樣本量為n=112,比變量的維度p=113稍小,這一點(diǎn)可以用來檢驗(yàn)p>n時各種方法的表現(xiàn)。利用訓(xùn)練集估計精度矩陣Ω,基于該精度矩陣?yán)肎raphical Lasso估計預(yù)測變量的圖結(jié)構(gòu)G,其圖結(jié)構(gòu)如圖1所示,圖中包含113個節(jié)點(diǎn),190條邊。訓(xùn)練集用來擬合模型。利用測試集數(shù)據(jù)計算均方誤差值(FMSE)來評估模型,利用10折交叉驗(yàn)證選取調(diào)節(jié)參數(shù)[7,17]。
實(shí)例分析結(jié)果如圖2所示,圖2給出了不同方法在對乳腺癌數(shù)據(jù)進(jìn)行建模分析時的平均均方誤差箱線圖。結(jié)果可以看出本文的方法在MSE的表現(xiàn)上優(yōu)于Lasso方法、Adaptive Lasso和Elastic Net方法,比嶺回歸的結(jié)果稍差。實(shí)際數(shù)據(jù)分析結(jié)果與數(shù)值模擬結(jié)果一致,說明該方法有效。
圖1 乳腺癌數(shù)據(jù)的圖結(jié)構(gòu)
圖2 乳腺癌數(shù)據(jù)集中不同方法的FMSE
提出一種基于預(yù)測變量圖結(jié)構(gòu)的高維邏輯回歸模型,該模型可以用來對高維圖結(jié)構(gòu)數(shù)據(jù)或者重疊組結(jié)構(gòu)數(shù)據(jù)進(jìn)行邏輯回歸建模,即使預(yù)測變量的圖結(jié)構(gòu)未知,本研究的方法仍然能夠利用這種結(jié)構(gòu)提高模型在估計、預(yù)測以及變量選擇等方面的表現(xiàn)。另外,目前流行的方法,如Lasso方法、Group Lasso和嶺回歸方法等都可以看作是本文模型的特例。數(shù)值模擬和實(shí)例分析應(yīng)用表明:該模型在有限樣本情形下是有效的,并且可廣泛應(yīng)用于高通量基因數(shù)據(jù)中存在圖結(jié)構(gòu)的疾病分類研究中。