王碩楊 陳銳峰
山東大學(xué)
基因與壽命關(guān)系的統(tǒng)計(jì)分析
王碩楊 陳銳峰
山東大學(xué)
在人體眾多基因當(dāng)中,人類的壽命只與某些特定的基因高度相關(guān)。本文以兩組獨(dú)立的基因組,每組200個(gè)基因作為研究對(duì)象,通過線性回歸模型的方法,對(duì)眾多基因進(jìn)行篩選,找到與人體壽命高度相關(guān)的基因。額外的,本文還應(yīng)用了廣義相關(guān)性測(cè)量的方法對(duì)基因進(jìn)行篩選,通過結(jié)果的對(duì)比比較找到最佳的結(jié)果。
基因;制藥;線性回歸;一般相關(guān)性測(cè)量
本文首先檢驗(yàn)所用數(shù)據(jù)的正態(tài)性,即所用數(shù)據(jù)是否滿足正態(tài)假設(shè)。篩選自變量是本文研究的重中之重,首先本文采用了線性回歸的思想和方法篩選自變量。在第一部分中,本文采取了前進(jìn)法、后退法以及逐步回歸的方法,結(jié)合AIC、BIC作為基本準(zhǔn)則,對(duì)自變量進(jìn)行篩選。進(jìn)而,本文采用交叉驗(yàn)證的方法對(duì)得到的多個(gè)結(jié)果進(jìn)行優(yōu)化。
線性回歸過程:
1.1boxcox變換
1.2數(shù)據(jù)清理:本文采用R語言中的函數(shù)OutlierTest() 與cook's distance的理論來檢驗(yàn)異常值,最終遵循保守的做法,保留下了除去因變量缺失或?yàn)?以外的所有數(shù)據(jù)。
1.3多重共線性的檢測(cè):研究發(fā)現(xiàn),一些自變量具有非常大的VIF值,進(jìn)而本文發(fā)現(xiàn)多重共線性普遍存在于自變量之間,進(jìn)而本文需做進(jìn)一步的改善來消除多重共線性。
1.4自變量篩選:自變量的篩選是線性模型中最重要的一部分。本文采用了前進(jìn)法、后退法以及逐步回歸法的方法篩選自變量,并且均分別結(jié)合了AIC、BIC作為篩選準(zhǔn)則。對(duì)于以上提及的兩種準(zhǔn)則,試驗(yàn)分別產(chǎn)生了3個(gè)線性回歸模型。然后,本文通過交叉驗(yàn)證的方法,將兩組數(shù)據(jù)組分別分成10個(gè)片段,找到使得CV值達(dá)到最小的模型作為本文該部分的最佳模型。
1.5線性回歸模型結(jié)論
剩余壽命作為因變量:基于交叉驗(yàn)證的模型:就第一組數(shù)據(jù)組而言,基于AIC準(zhǔn)則并采用前進(jìn)法的模型被認(rèn)為是自變量選擇的最佳模型。就第二組數(shù)據(jù)組而言,基于AIC準(zhǔn)則并采用后退法的模型被認(rèn)為是自變量選擇的最佳模型。篩選模型之后,明顯發(fā)現(xiàn)多重共線性得到了顯著的改善,VIF圖也證實(shí)了這一說法?;趌asso回歸的模型:就第一組數(shù)據(jù)組而言,最終保留下了4個(gè)高度相關(guān)的自變量(基因):PYY, FLJ20323, FNDC4, CELP;就第二組數(shù)據(jù)組而言,最終保留下了6個(gè)與因變量高度相關(guān)的基因:BRP44L, PYY,F(xiàn)NDC4, SLC38A3, CASKIN2, SPIN。
2.1函數(shù)選擇
2.2GMC過程
選擇一個(gè)函數(shù)。 設(shè)定λ1和λ2的值,或者設(shè)定單個(gè)λ的值。 然后預(yù)先規(guī)定一個(gè)參考值,選取跑完數(shù)據(jù)之后自變量系數(shù)大于該規(guī)定的參考值的自變量,記錄下篩選出來的自變量的指數(shù),將其余的自變量的系數(shù)設(shè)定為0. 隨后通過篩選出的自變量的系數(shù)計(jì)算出廣義相關(guān)性測(cè)量的值。改變?chǔ)?和λ2的值,或者改變單個(gè)λ的值, 重復(fù)第二至第四三個(gè)步驟。 通過循環(huán)改變?chǔ)?和λ2的值(或者是改變單個(gè)λ的值)100次,找到結(jié)果最大的廣義相關(guān)性測(cè)量的值并找到相應(yīng)的自變量,即本文得到的最終的模型。這些得到的自變量便是與因變量高度相關(guān)的基因組。基于不同的預(yù)定的模型,重復(fù)步驟1至步驟6的過程,對(duì)每個(gè)模型找到使得廣義相關(guān)性測(cè)量達(dá)到最大值的自變量及廣義相關(guān)性測(cè)量的值,進(jìn)而進(jìn)行比較。
2.3GMC 模型結(jié)論
剩余壽命作為因變量:方法1:當(dāng)采用函數(shù)g3(x)= x3時(shí),兩個(gè)數(shù)據(jù)組的廣義相關(guān)性測(cè)量達(dá)最大值,并且值比其他四個(gè)函數(shù)均大恨多。因此最終本文選擇模型函數(shù)g3(x)= x3。方法2: 對(duì)于第一個(gè)數(shù)據(jù)組,當(dāng)采用函數(shù)g4(x)= ex時(shí),廣義相關(guān)性測(cè)量達(dá)最大值。此時(shí)函數(shù)g3(x)= x3同樣可以得到非常大的結(jié)果。對(duì)于第二個(gè)數(shù)據(jù)組,當(dāng)采用函數(shù)g3(x)= x3時(shí),廣義相關(guān)性測(cè)量達(dá)最大值。因此總的而言,函數(shù)g3(x)= x3最穩(wěn)定,即為本文的最佳選擇。
函數(shù)的選取在GMC的運(yùn)用中是至關(guān)重要的,不同的函數(shù)可能會(huì)得到迥異的廣義相關(guān)性測(cè)量的值。從最終的結(jié)果我可以知道,當(dāng)本文選取二次或三次函數(shù)時(shí),得到的結(jié)果要優(yōu)于其他函數(shù)得到的結(jié)果,尤其是三次函數(shù)表現(xiàn)最佳。這也就是說,因變量和擬合值之間很有可能是存在二次方或者三次方的關(guān)系的。同時(shí)本文注意到,因變量與自變量之間的相關(guān)關(guān)系也有可能因?yàn)镽優(yōu)化的局限性而被隱藏。舉個(gè)例子說明,廣義相關(guān)性測(cè)量的值在第二種方法中采用指數(shù)函數(shù)關(guān)系時(shí)突然變得很大,當(dāng)出現(xiàn)這樣的情況時(shí),我還需要做進(jìn)一步的檢測(cè)。額外地,當(dāng)本文對(duì)beta的值進(jìn)行兩次優(yōu)化時(shí),結(jié)果會(huì)變得更高效,即廣義相關(guān)性測(cè)量的值會(huì)變得更大,然而這樣得到的結(jié)果非常接近于1,即失去了方法存在的意義。最后,本文還直接對(duì)總體自變量進(jìn)行了抽樣選取,但結(jié)果發(fā)現(xiàn)這樣得到的結(jié)果不能覆蓋所有可能得到的結(jié)果,甚至不到其十分之一。
[1]Carroll, R. J. and Cline, D. B. H. (1988). An asymptotic theory for weighted least- squares with weights estimated by replication. Biometrika,75, 35-43.
[2]Carroll, R. J. and Ruppert, D. (1984). Power transformations when ftting theoret- ical models to data. J. Am. Stat. Assoc, 79, 321-328.
王碩楊(1994-),男,漢族,山東省青島市人,數(shù)學(xué)學(xué)士,單位:山東大學(xué),研究方向:數(shù)理統(tǒng)計(jì)。
陳銳峰(1994-),男,漢族,重慶市人,學(xué)生,統(tǒng)計(jì)學(xué)士,單位:山東大學(xué),研究方向:數(shù)理統(tǒng)計(jì)。