• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      多步驟決策樹(shù)方法在基因表達(dá)數(shù)據(jù)上的應(yīng)用研究*

      2017-03-09 08:18:02哈爾濱醫(yī)科大學(xué)衛(wèi)生統(tǒng)計(jì)學(xué)教研室150081馬李冰李貞子
      關(guān)鍵詞:差異基因決策樹(shù)聚類

      哈爾濱醫(yī)科大學(xué)衛(wèi)生統(tǒng)計(jì)學(xué)教研室(150081) 馬李冰 侯 艷 李貞子 李 康

      多步驟決策樹(shù)方法在基因表達(dá)數(shù)據(jù)上的應(yīng)用研究*

      哈爾濱醫(yī)科大學(xué)衛(wèi)生統(tǒng)計(jì)學(xué)教研室(150081) 馬李冰 侯 艷 李貞子 李 康△

      基因芯片技術(shù)得到的基因表達(dá)譜數(shù)據(jù)具有維數(shù)高、噪聲大、樣本量小、非線性等特點(diǎn),如何從高維數(shù)據(jù)中提取含在其中的生物學(xué)信息,是醫(yī)學(xué)和生物學(xué)研究中面臨的一個(gè)重大挑戰(zhàn)?;虮磉_(dá)數(shù)據(jù)分析的重要任務(wù)是篩選差異表達(dá)基因及對(duì)基因或樣品進(jìn)行分類,通過(guò)比較正常和疾病狀態(tài)下基因表達(dá)的差異,研究疾病的發(fā)病機(jī)制、早期診斷和治療方法。

      目前用于高維組學(xué)數(shù)據(jù)的變量篩選方法主要有單變量篩選和多變量篩選[1],常用的單變量篩選方法有Satterthwaitt檢驗(yàn)、SAM(significance analysis of microarrays)法、Wilcoxon秩和檢驗(yàn)等;多變量篩選方法有隨機(jī)森林(random forest,RF)、Boost方法等方法。單變量和多變量篩選各有優(yōu)缺點(diǎn),單變量篩選方法簡(jiǎn)單而快速,獨(dú)立于判別模型,但是不考慮變量之間的相關(guān)關(guān)系;多變量篩選方法則能夠考慮變量之間的交互作用。然而,任何一種多變量分析方法都有其局限性,如其適用范圍和分析重點(diǎn)不同,為此可以把不同的分析方法結(jié)合在一起,對(duì)數(shù)據(jù)進(jìn)行分析,可以得到更為豐富和可靠的結(jié)果。

      本文在ClarLynda[2]等提出的多步驟分析策略的基礎(chǔ)上,給出了一種新的多步驟決策樹(shù)分析方法,這種方法將不同的數(shù)據(jù)降維方法有機(jī)融合在一起,先對(duì)數(shù)據(jù)進(jìn)行變量初篩,然后對(duì)篩出來(lái)的差異變量做指標(biāo)聚類,對(duì)每一類做主成分分析,用幾個(gè)主成分基因進(jìn)行判別分析。多步驟決策樹(shù)經(jīng)過(guò)多次降維,使數(shù)據(jù)維數(shù)災(zāi)難大大降低,提高的數(shù)據(jù)分析的效能,決策樹(shù)判別分析也為疾病分型提供依據(jù),逆向?qū)ふ腋髦鞒煞窒嚓P(guān)的差異基因,可對(duì)疾病的發(fā)病機(jī)制提供有效的信息。本文在簡(jiǎn)要介紹多步驟決策樹(shù)方法的基礎(chǔ)上,通過(guò)實(shí)際數(shù)據(jù)分析,探索其準(zhǔn)確性,并與單變量篩選SAM和多變量篩選RF進(jìn)行比較。

      原理與方法

      多步驟決策樹(shù)(multistep decision tree,MDT)是針對(duì)高維組學(xué)數(shù)據(jù)的一種篩選方法,即將變量篩選、變量聚類和主成分分析結(jié)合在一起的分析方法,主要有四個(gè)連續(xù)的步驟組成,流程如圖1所示,具體分析過(guò)程如下:

      圖1 多步驟決策樹(shù)分析流程圖

      1.用SAM方法篩選差異基因

      首先使用SAM對(duì)原始的基因表達(dá)矩陣進(jìn)行單變量篩選,得到“差異基因”。SAM變量篩選的閾值選擇q≤0.05,q≤0.05的基因即為有意義的差異基因,其中q為經(jīng)FDR(false discovery rate,錯(cuò)誤發(fā)現(xiàn)率)校正后的P值。

      SAM是目前被認(rèn)為較好的基因篩選方法[3],其基本思想就是在傳統(tǒng)的t檢驗(yàn)公式的分母上加上一個(gè)較小的正數(shù)S0(S0是能夠使變異系數(shù)最小的值),使構(gòu)建的統(tǒng)計(jì)量在分子(均數(shù)差值)較小的情況下不容易得到較大的值[4]。針對(duì)每個(gè)基因i,d(i)能夠反映基因表達(dá)強(qiáng)度與類別之間的關(guān)系。具體的算法如下:

      (1)

      (2)

      (3)

      2.變量聚類分析

      為了對(duì)數(shù)據(jù)進(jìn)一步進(jìn)行降維,對(duì)上述篩選得到的差異基因做變量聚類分析。變量聚類是依據(jù)變量之間的距離,把可能相關(guān)的變量聚為一類。通常有兩種變量聚類方法:一種是用變量的相關(guān)矩陣進(jìn)行聚類,另一種是用因子分析或者主成分分析得到的變量結(jié)構(gòu)進(jìn)行聚類。最常用的是第一種,即先計(jì)算變量之間的距離矩陣(如,相關(guān)矩陣),然后對(duì)相關(guān)系數(shù)矩陣做聚類,最后獲得同質(zhì)的聚類[5]。

      本研究采用相關(guān)矩陣進(jìn)行變量聚類。首先對(duì)差異基因矩陣做相關(guān)分析,然后計(jì)算相關(guān)矩陣的歐幾里得(Euclid)距離,用最長(zhǎng)距離法(completelinkagemethod)將相關(guān)的差異基因聚類,聚類的結(jié)果為6類,分別記為類clustA,clustB,……,clustG。

      3.主成分分析

      為了將不同聚類類別的基因作為整體進(jìn)行判別分析,降低維數(shù)災(zāi)難,本研究進(jìn)一步對(duì)每個(gè)聚類類別的基因做主成分分析,構(gòu)建主成分基因。以碎石圖為依據(jù)選擇最佳主成分(PCs)個(gè)數(shù),所有能夠解釋該類基因50%方差的主成分都會(huì)被選擇,每個(gè)主成分基因(metagenes)是該聚類中的基因表達(dá)變量與其載荷的矩陣相乘。如聚類3中有2個(gè)主成分基因,分別記為clustC-1,clustC-2。

      4.決策樹(shù)

      決策樹(shù)是一種基于信息論的直觀快速分類方法,將對(duì)象空間劃分為若干子集。目前決策樹(shù)方法中比較流行的算法有ID3、C4.5、CART和SPRINT等[7]。其中最具有代表性的是Quinlan提出的C4.5算法[8]。C4.5算法是ID3的改進(jìn)算法,該算法根據(jù)信息增益率(informationgainratio)來(lái)選擇變量,改善了ID3算法用信息增益選擇屬性的缺點(diǎn),同時(shí)C4.5能對(duì)連續(xù)屬性進(jìn)行離散化處理,克服了ID3只能處理離散變量的不足。

      信息增益率指信息增益與初始信息量的比值[7],對(duì)于樣本集T,設(shè)樣本量為n,共有m個(gè)類別,類別i在總樣本集中出現(xiàn)的概率Pi,I(T)為樣本集T的信息熵,那么樣本集T的信息熵是:

      (4)

      假設(shè)根據(jù)變量A將樣本集T劃分為v個(gè)子集,其中子集Tj包含的樣本個(gè)數(shù)為nj,則劃分后的熵為

      (5)

      為了觀察主成分基因?qū)膊〉呢暙I(xiàn)大小,以及對(duì)數(shù)據(jù)分類判別的效果,可以在構(gòu)建主成分基因的基礎(chǔ)上研究疾病分型,并結(jié)合生物學(xué)功能數(shù)據(jù)庫(kù)研究發(fā)病機(jī)制。本研究采用C4.5算法根據(jù)研究對(duì)象狀態(tài)構(gòu)建決策樹(shù),使用前剪枝法進(jìn)行決策樹(shù)修剪,修剪規(guī)則是每個(gè)終點(diǎn)葉上至少包含總的研究對(duì)象的10%,即最小實(shí)例數(shù)(minNumObj)不小于總樣本數(shù)的10%。為避免過(guò)擬合,在此對(duì)層數(shù)不做限制,采用十折交叉驗(yàn)證(cross-validation)的方法進(jìn)行判別分析,并計(jì)算靈敏度、特異度和信息比,評(píng)價(jià)判別模型的預(yù)測(cè)效果。

      實(shí)例分析

      為研究多步驟決策樹(shù)方法在實(shí)際高維基因表達(dá)數(shù)據(jù)上的效果,選取3個(gè)卵巢癌基因表達(dá)數(shù)據(jù)進(jìn)行分析,數(shù)據(jù)的基本情況如表1。為與單獨(dú)使用一種的變量篩選方法比較,分別對(duì)多步驟決策樹(shù)、SAM和隨機(jī)森林篩選出來(lái)的變量構(gòu)建決策樹(shù)判別模型,比較其在基因表達(dá)數(shù)據(jù)上的分析效果和預(yù)測(cè)的準(zhǔn)確性。

      表1 三個(gè)卵巢癌基因表達(dá)數(shù)據(jù)的樣本分布情況

      1.GSE12470數(shù)據(jù)分析

      多步驟決策樹(shù)分析:首先用SAM進(jìn)行變量篩選,篩選出健康、早期、晚期差異基因256個(gè);對(duì)這256個(gè)差異基因進(jìn)行指標(biāo)聚類,聚為6類,分別記為ClusterA,…,ClusterF;然后分別對(duì)這6個(gè)類別進(jìn)行主成分分析,按照貢獻(xiàn)率大于50%,每一類最佳主成分個(gè)數(shù)分別是1,1,1,1,1,2,將各主成分載荷分別與原始變量矩陣相乘,產(chǎn)生出7個(gè)主成分基因,分別記為ClusterA-1,ClusterB-1,ClusterC-1,ClusterD-1,ClusterE-1,ClusterF-1,ClusterF-2。

      SAM分析:?jiǎn)巫兞亢Y選用SAM方法,依然選用q≤0.05的變量,篩選出健康、早期、晚期差異基因256個(gè)。

      RF分析:多變量篩選選擇隨機(jī)森林,隨機(jī)森林樹(shù)設(shè)置為500(ntree=500),每個(gè)分裂點(diǎn)樣本預(yù)測(cè)個(gè)數(shù)設(shè)置為(mtry=148),分別選擇前50,100,200,300個(gè)差異基因。

      使用十折交叉驗(yàn)正方法對(duì)決策樹(shù)模型進(jìn)行評(píng)價(jià)。根據(jù)研究對(duì)象狀態(tài)共構(gòu)建了5棵決策樹(shù),分別分析這些主成分基因?qū)】?、早期、晚期的判別效果,以及不同兩類的分類效果,并選擇靈敏度、特異度、信息比作為評(píng)價(jià)指標(biāo),結(jié)果如表2所示。

      圖2繪出了GSE12470數(shù)據(jù)分析判別的靈敏度和特異度。結(jié)果表明,在靈敏度、特異度上,多步驟決策樹(shù)通過(guò)多步降維得到主成分基因的判別分析的效果多數(shù)情況下優(yōu)于單純的SAM分析和隨機(jī)森林分析,信息比結(jié)果也顯示,多數(shù)情況使用多步驟決策樹(shù)方法建立的模型能提供更多的預(yù)測(cè)信息。

      圖3為GSE12470數(shù)據(jù)分析得到的決策樹(shù)圖。由圖可知,在區(qū)分不同疾病狀態(tài)時(shí),不同的主成分基因?qū)膊顟B(tài)的作用不同。聚類A的主成分基因能夠區(qū)分健康對(duì)象和早期卵巢癌患者,聚類B能夠區(qū)分健康對(duì)象和晚期卵巢癌患者,聚類E能夠區(qū)分早期卵巢癌和晚期卵巢癌患者。

      表2 GSE12470數(shù)據(jù)分析的判別效果比較

      圖2 GSE12470數(shù)據(jù)分析判別靈敏度、特異度、信息比

      圖3 GSE12470決策樹(shù)圖

      為研究A、B和E這3個(gè)聚類所包含的差異基因,可以逆向?qū)ふ覙?gòu)成這些主成分基因的差異基因,如在KEGG中尋找這些差異基因的通路,并在文獻(xiàn)中查找該基因是否與卵巢癌相關(guān)。表3結(jié)果顯示,在能查到通路的差異基因中,聚類A有33.33%的基因在同一通路,聚類B中有45.45%的基因在同一通路,聚類E有38.46%的基因在同一通路,通過(guò)查閱文獻(xiàn),上述每類中都有確定與卵巢癌發(fā)病機(jī)制相關(guān)的基因,并有一些基因與其他的癌癥相關(guān),這些基因有可能是卵巢癌的潛在標(biāo)志物。

      表3 聚類A,B,E中的基因通路查詢結(jié)果

      2.GSE18520和GSE26712數(shù)據(jù)分析

      為驗(yàn)證多步驟決策樹(shù)分析數(shù)據(jù)的效果,同時(shí)分析了第二個(gè)和第三個(gè)基因表達(dá)數(shù)據(jù)。

      對(duì)于數(shù)據(jù)GSE18520,SAM篩選出差異基因3206個(gè),聚為6類,進(jìn)行主成分分析后,對(duì)主成分基因進(jìn)行決策樹(shù)建模。隨機(jī)森林篩選變量后,分別取前 500,

      1000,2000,3000,3206,用決策樹(shù)建模。對(duì)于數(shù)據(jù)GSE26712,SAM篩選出差異基因3539個(gè),聚為6類,用相同的方法進(jìn)行分析(RF取500,1000,2000,3000,3539個(gè)基因)。模型評(píng)價(jià)用十折交叉驗(yàn)證方法,并用靈敏度、特異度和信息比對(duì)判別效果進(jìn)行比較,結(jié)果如表4和圖4。結(jié)果顯示,多步驟決策樹(shù)在這兩組數(shù)據(jù)中的分析效果都較單純SAM和單純隨機(jī)森林變量篩選方法更優(yōu)。

      表4 GSE18520和GSE26712分析判別效果比較

      討 論

      分析基因組學(xué)數(shù)據(jù),多步驟決策樹(shù)方法有幾個(gè)優(yōu)點(diǎn):首先,通過(guò)不同分析階段對(duì)數(shù)據(jù)降維,能更好地揭示基因組學(xué)數(shù)據(jù)結(jié)構(gòu);其次,在各個(gè)分析階段最大程度保留了數(shù)據(jù)變量的信息,使結(jié)果解釋變得更加容易;再有,分析的最后一步構(gòu)建的決策樹(shù)對(duì)數(shù)據(jù)結(jié)構(gòu)和分布無(wú)任何假定,可以較好地進(jìn)行分類;最后,可以通過(guò)建立的預(yù)測(cè)模型逆向?qū)ふ覙?gòu)成主成分基因的各差異基因,并可以根據(jù)主成分基因的構(gòu)造,結(jié)合生物數(shù)據(jù)庫(kù)進(jìn)一步研究基因的功能。三個(gè)實(shí)際數(shù)據(jù)分析都表明本文給出的方法較單一分析方法更為有效。多步驟決策樹(shù)方法主要的局限性是多步驟決策樹(shù)使用了不同方法,前面分析方法的效果會(huì)影響后面分析的效果。盡管如此,多步驟決策樹(shù)方法提供了一種新的分析思路,目的是提高數(shù)據(jù)挖掘和分析的效率。

      圖4 GSE18520和GSE26712判別分析效果

      [1]Saeys Y,Inza I,Larranaga P.A review of feature selection techniques in bioinformatics.Bioinformatic,2007,23(19):2507-2517.

      [2]Williams-DeVane CR,Reif DM,Hubal EC,et al.Decision tree-based method for integrating gene expression,demographic,and clinical data to determine disease endotypes.BMC Systems Biology,2013,7:119.

      [3]Tusher V G,Tibshirani R,Chu G.Significance analysis of microarrays applied to the ionizing radiation response.Proc Natl Acad Sci USA,2001,98:5116-5121.

      [4]趙發(fā)林,閆曉光,李康.幾種差異基因分析方法及篩選效果比較.中國(guó)衛(wèi)生統(tǒng)計(jì),2008,25(4):354-356.

      [5]Bandyopadhyay S,Mukhopadhyay A,Maulik U.An improved algorithm for clustering gene expression data.Bioinformatics,2007,23(21):2859-2865.

      [6]Wold S.Principle Component Analysis.Chemometrics and Intelligent Laboratory Systems,1987,2:37-52.

      [7]陳安,陳寧,周龍?bào)J.數(shù)據(jù)挖掘技術(shù)及應(yīng)用.北京:科學(xué)出版社,2006.

      [8]李楠,段隆振,陳萌.決策樹(shù)C 4.5算法在數(shù)據(jù)挖掘中的分析及應(yīng)用.計(jì)算機(jī)與現(xiàn)代化,2008,12(4):160-163.

      [9]Quinlan JR.Induction of Decision Tree.Machine Learning,1986,1:81-106.

      [10]Kosuke Yoshihara,Atsushi Tajima,et al.Gene expression profiling of advanced-stage serous ovarian cancers distinguishes novel subclasses and implicates ZEB2 in tumor progression and prognosis.Cancer Sci,2009,10(8):1421-1428.

      [11]Mok SC,Bonome T,Vathipadiekal V,et al.A Gene Signature Predictive for Outcome in Advanced Ovarian Cancer Identifies a Survival Factor:Microfibril-Associated Glycoprotein 2.Cancer Cell,2009,16(6):521-532.

      [12]Bonome T,Levine DA,Shih J,et al.A Gene Signature Predicting for Survival in Suboptimally Debulked Patients with Ovarian Cancer.Cancer Res,2008,68(13):5478-5486.

      (責(zé)任編輯:郭海強(qiáng))

      國(guó)家自然科學(xué)基金資助(81302511,81473072);黑龍江省博士后資助經(jīng)費(fèi)(LBH-Z14174)

      △通信作者:李康,E-mail:likang@ems.hrbmu.edu.cn

      猜你喜歡
      差異基因決策樹(shù)聚類
      ICR鼠肝和腎毒性損傷生物標(biāo)志物的篩選
      基于RNA 測(cè)序研究人參二醇對(duì)大鼠心血管內(nèi)皮細(xì)胞基因表達(dá)的影響 (正文見(jiàn)第26 頁(yè))
      一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹(shù)算法
      決策樹(shù)和隨機(jī)森林方法在管理決策中的應(yīng)用
      電子制作(2018年16期)2018-09-26 03:27:06
      基于DBSACN聚類算法的XML文檔聚類
      基于決策樹(shù)的出租車乘客出行目的識(shí)別
      基于改進(jìn)的遺傳算法的模糊聚類算法
      基于肺癌CT的決策樹(shù)模型在肺癌診斷中的應(yīng)用
      一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
      SSH技術(shù)在絲狀真菌功能基因篩選中的應(yīng)用
      建瓯市| 伊春市| 昌图县| 汝州市| 钟祥市| 普宁市| 阳东县| 荣成市| 洛宁县| 太谷县| 巩留县| 桐庐县| 萍乡市| 呼玛县| 义乌市| 福海县| 柳州市| 乌拉特后旗| 和静县| 宁乡县| 盈江县| 革吉县| 庐江县| 江孜县| 商丘市| 晋城| 乌兰察布市| 永善县| 鄂尔多斯市| 南木林县| 隆尧县| 牡丹江市| 项城市| 邹城市| 义乌市| 棋牌| 白山市| 西充县| 封开县| 建水县| 汝阳县|