• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基因與壽命關(guān)系的統(tǒng)計(jì)分析

    2016-03-16 03:03:26王碩楊陳銳峰
    環(huán)球市場(chǎng) 2016年12期
    關(guān)鍵詞:因變量廣義線性

    王碩楊 陳銳峰

    山東大學(xué)

    基因與壽命關(guān)系的統(tǒng)計(jì)分析

    王碩楊 陳銳峰

    山東大學(xué)

    在人體眾多基因當(dāng)中,人類的壽命只與某些特定的基因高度相關(guān)。本文以兩組獨(dú)立的基因組,每組200個(gè)基因作為研究對(duì)象,通過線性回歸模型的方法,對(duì)眾多基因進(jìn)行篩選,找到與人體壽命高度相關(guān)的基因。額外的,本文還應(yīng)用了廣義相關(guān)性測(cè)量的方法對(duì)基因進(jìn)行篩選,通過結(jié)果的對(duì)比比較找到最佳的結(jié)果。

    基因;制藥;線性回歸;一般相關(guān)性測(cè)量

    1.線性回歸相關(guān)理論與方法的應(yīng)用

    本文首先檢驗(yàn)所用數(shù)據(jù)的正態(tài)性,即所用數(shù)據(jù)是否滿足正態(tài)假設(shè)。篩選自變量是本文研究的重中之重,首先本文采用了線性回歸的思想和方法篩選自變量。在第一部分中,本文采取了前進(jìn)法、后退法以及逐步回歸的方法,結(jié)合AIC、BIC作為基本準(zhǔn)則,對(duì)自變量進(jìn)行篩選。進(jìn)而,本文采用交叉驗(yàn)證的方法對(duì)得到的多個(gè)結(jié)果進(jìn)行優(yōu)化。

    線性回歸過程:

    1.1boxcox變換

    1.2數(shù)據(jù)清理:本文采用R語言中的函數(shù)OutlierTest() 與cook's distance的理論來檢驗(yàn)異常值,最終遵循保守的做法,保留下了除去因變量缺失或?yàn)?以外的所有數(shù)據(jù)。

    1.3多重共線性的檢測(cè):研究發(fā)現(xiàn),一些自變量具有非常大的VIF值,進(jìn)而本文發(fā)現(xiàn)多重共線性普遍存在于自變量之間,進(jìn)而本文需做進(jìn)一步的改善來消除多重共線性。

    1.4自變量篩選:自變量的篩選是線性模型中最重要的一部分。本文采用了前進(jìn)法、后退法以及逐步回歸法的方法篩選自變量,并且均分別結(jié)合了AIC、BIC作為篩選準(zhǔn)則。對(duì)于以上提及的兩種準(zhǔn)則,試驗(yàn)分別產(chǎn)生了3個(gè)線性回歸模型。然后,本文通過交叉驗(yàn)證的方法,將兩組數(shù)據(jù)組分別分成10個(gè)片段,找到使得CV值達(dá)到最小的模型作為本文該部分的最佳模型。

    1.5線性回歸模型結(jié)論

    剩余壽命作為因變量:基于交叉驗(yàn)證的模型:就第一組數(shù)據(jù)組而言,基于AIC準(zhǔn)則并采用前進(jìn)法的模型被認(rèn)為是自變量選擇的最佳模型。就第二組數(shù)據(jù)組而言,基于AIC準(zhǔn)則并采用后退法的模型被認(rèn)為是自變量選擇的最佳模型。篩選模型之后,明顯發(fā)現(xiàn)多重共線性得到了顯著的改善,VIF圖也證實(shí)了這一說法?;趌asso回歸的模型:就第一組數(shù)據(jù)組而言,最終保留下了4個(gè)高度相關(guān)的自變量(基因):PYY, FLJ20323, FNDC4, CELP;就第二組數(shù)據(jù)組而言,最終保留下了6個(gè)與因變量高度相關(guān)的基因:BRP44L, PYY,F(xiàn)NDC4, SLC38A3, CASKIN2, SPIN。

    2.GMC模型篩選自變量

    2.1函數(shù)選擇

    2.2GMC過程

    選擇一個(gè)函數(shù)。 設(shè)定λ1和λ2的值,或者設(shè)定單個(gè)λ的值。 然后預(yù)先規(guī)定一個(gè)參考值,選取跑完數(shù)據(jù)之后自變量系數(shù)大于該規(guī)定的參考值的自變量,記錄下篩選出來的自變量的指數(shù),將其余的自變量的系數(shù)設(shè)定為0. 隨后通過篩選出的自變量的系數(shù)計(jì)算出廣義相關(guān)性測(cè)量的值。改變?chǔ)?和λ2的值,或者改變單個(gè)λ的值, 重復(fù)第二至第四三個(gè)步驟。 通過循環(huán)改變?chǔ)?和λ2的值(或者是改變單個(gè)λ的值)100次,找到結(jié)果最大的廣義相關(guān)性測(cè)量的值并找到相應(yīng)的自變量,即本文得到的最終的模型。這些得到的自變量便是與因變量高度相關(guān)的基因組。基于不同的預(yù)定的模型,重復(fù)步驟1至步驟6的過程,對(duì)每個(gè)模型找到使得廣義相關(guān)性測(cè)量達(dá)到最大值的自變量及廣義相關(guān)性測(cè)量的值,進(jìn)而進(jìn)行比較。

    2.3GMC 模型結(jié)論

    剩余壽命作為因變量:方法1:當(dāng)采用函數(shù)g3(x)= x3時(shí),兩個(gè)數(shù)據(jù)組的廣義相關(guān)性測(cè)量達(dá)最大值,并且值比其他四個(gè)函數(shù)均大恨多。因此最終本文選擇模型函數(shù)g3(x)= x3。方法2: 對(duì)于第一個(gè)數(shù)據(jù)組,當(dāng)采用函數(shù)g4(x)= ex時(shí),廣義相關(guān)性測(cè)量達(dá)最大值。此時(shí)函數(shù)g3(x)= x3同樣可以得到非常大的結(jié)果。對(duì)于第二個(gè)數(shù)據(jù)組,當(dāng)采用函數(shù)g3(x)= x3時(shí),廣義相關(guān)性測(cè)量達(dá)最大值。因此總的而言,函數(shù)g3(x)= x3最穩(wěn)定,即為本文的最佳選擇。

    3.結(jié)論

    函數(shù)的選取在GMC的運(yùn)用中是至關(guān)重要的,不同的函數(shù)可能會(huì)得到迥異的廣義相關(guān)性測(cè)量的值。從最終的結(jié)果我可以知道,當(dāng)本文選取二次或三次函數(shù)時(shí),得到的結(jié)果要優(yōu)于其他函數(shù)得到的結(jié)果,尤其是三次函數(shù)表現(xiàn)最佳。這也就是說,因變量和擬合值之間很有可能是存在二次方或者三次方的關(guān)系的。同時(shí)本文注意到,因變量與自變量之間的相關(guān)關(guān)系也有可能因?yàn)镽優(yōu)化的局限性而被隱藏。舉個(gè)例子說明,廣義相關(guān)性測(cè)量的值在第二種方法中采用指數(shù)函數(shù)關(guān)系時(shí)突然變得很大,當(dāng)出現(xiàn)這樣的情況時(shí),我還需要做進(jìn)一步的檢測(cè)。額外地,當(dāng)本文對(duì)beta的值進(jìn)行兩次優(yōu)化時(shí),結(jié)果會(huì)變得更高效,即廣義相關(guān)性測(cè)量的值會(huì)變得更大,然而這樣得到的結(jié)果非常接近于1,即失去了方法存在的意義。最后,本文還直接對(duì)總體自變量進(jìn)行了抽樣選取,但結(jié)果發(fā)現(xiàn)這樣得到的結(jié)果不能覆蓋所有可能得到的結(jié)果,甚至不到其十分之一。

    [1]Carroll, R. J. and Cline, D. B. H. (1988). An asymptotic theory for weighted least- squares with weights estimated by replication. Biometrika,75, 35-43.

    [2]Carroll, R. J. and Ruppert, D. (1984). Power transformations when ftting theoret- ical models to data. J. Am. Stat. Assoc, 79, 321-328.

    王碩楊(1994-),男,漢族,山東省青島市人,數(shù)學(xué)學(xué)士,單位:山東大學(xué),研究方向:數(shù)理統(tǒng)計(jì)。

    陳銳峰(1994-),男,漢族,重慶市人,學(xué)生,統(tǒng)計(jì)學(xué)士,單位:山東大學(xué),研究方向:數(shù)理統(tǒng)計(jì)。

    猜你喜歡
    因變量廣義線性
    漸近線性Klein-Gordon-Maxwell系統(tǒng)正解的存在性
    Rn中的廣義逆Bonnesen型不等式
    調(diào)整有限因變量混合模型在藥物經(jīng)濟(jì)學(xué)健康效用量表映射中的運(yùn)用
    中國藥房(2022年7期)2022-04-14 00:34:30
    線性回歸方程的求解與應(yīng)用
    適應(yīng)性回歸分析(Ⅳ)
    ——與非適應(yīng)性回歸分析的比較
    從廣義心腎不交論治慢性心力衰竭
    二階線性微分方程的解法
    偏最小二乘回歸方法
    有限群的廣義交換度
    回歸分析中應(yīng)正確使用r、R、R23種符號(hào)
    大化| 湘西| 磐安县| 宝坻区| 原平市| 乌拉特前旗| 筠连县| 磐石市| 秦皇岛市| 屏东市| 阿拉善左旗| 秦皇岛市| 会东县| 信丰县| 张家港市| 会东县| 托里县| 即墨市| 师宗县| 汶上县| 保亭| 九江县| 孟村| 颍上县| 邵阳县| 铜川市| 积石山| 来凤县| 崇礼县| 谷城县| 夏津县| 达州市| 滨海县| 义乌市| 岳阳县| 台山市| 长武县| 精河县| 曲水县| 谢通门县| 搜索|