儲宇強
安徽大學(xué)經(jīng)濟學(xué)院,合肥,230601
根據(jù)中國癌癥中心發(fā)布的《2017年中國腫瘤登記年報》顯示,我國每天約有1萬人被確診癌癥,平均每分鐘就有7人,其中肺癌的發(fā)病率和死亡率高居榜首。此外,癌癥種類復(fù)雜多樣,且具有較長潛伏期和較高復(fù)發(fā)率[1],早期癌癥的醫(yī)學(xué)診斷和分類成功率不容樂觀。因此,積極探索實用有效的方法對癌癥進行精確診斷和預(yù)測至關(guān)重要。
DNA微陣列(DNA Microarray),又稱基因芯片,可監(jiān)測細胞基因表達水平,具有高效率、高通量和集約化的特性[2]。從發(fā)病機制看,癌癥是復(fù)雜的基因病,通常由基因突變以及基因表達的改變所導(dǎo)致。因此,基于基因表達譜數(shù)據(jù)中差異表達信息,能夠識別并篩選出癌癥關(guān)鍵基因[3]。眾所周知,基因表達調(diào)控(regulation of gene expression)是指對基因轉(zhuǎn)錄和翻譯的起止及發(fā)生速率的調(diào)節(jié)過程。轉(zhuǎn)錄的進行要有RNA聚合酶來催化,RNA聚合酶對DNA序列的特異性識別須轉(zhuǎn)錄因子(transcription factor)介導(dǎo)[4],轉(zhuǎn)錄因子對DNA序列的綁定具有雙重作用,通常稱能促進基因轉(zhuǎn)錄活動的調(diào)控為“上調(diào)控”,抑制基因轉(zhuǎn)錄活動的調(diào)控為“下調(diào)控”。
截至目前,已有各種不同的方法用于解決基因選擇的難題。1999年Golub等人在分析白血病DNA微陣列數(shù)據(jù)時提出了“信噪比”(signal-to-noise ratio)準(zhǔn)則,引領(lǐng)了利用基因表達譜數(shù)據(jù)解決腫瘤基因篩選難題的方向[5]。隨后,研究者提出基于概率模型的基因選擇算法,且實驗結(jié)果更顯著有效。Baldic等人提出了進行降維的貝葉斯方法[6];2005年,李穎新等人提出“分類信息指數(shù)”分類標(biāo)準(zhǔn),使用SVM-RFE 的方法進行基因選擇[7]。2006年,李建中等人提出一種與樣本類別分布沒有聯(lián)系的基因篩選算法[8]。由于絕大多數(shù)的變量信息隱藏在數(shù)據(jù)中,需要通過概率統(tǒng)計模型推斷或集成得出,所以,使用概率統(tǒng)計方法對DNA微陣列數(shù)據(jù)分析具有必要性。本文基于基因表達調(diào)控概率,篩選癌癥關(guān)鍵基因,并在肺癌數(shù)據(jù)集上進行模擬驗證,結(jié)果表明本文所提出的方法能夠高效實現(xiàn)癌癥關(guān)鍵基因的選擇。
外部環(huán)境會影響基因的表達水平。通過建立基因表達調(diào)控概率模型,可以預(yù)測有特定表現(xiàn)型的關(guān)聯(lián)基因或疾病??紤]到二元的情況,假設(shè)微陣列數(shù)據(jù)可以用G行S列的微陣列表達數(shù)據(jù)矩陣E表示。其中,元素ag1s1指基因g1在樣本s1中的表達水平測得值。在矩陣E中行向量代表基因,縱向量代表樣本,把所有樣本分為兩類,分別以Y=1和Y=-1表示。假設(shè)Y=1類中的樣本數(shù)目為m,Y=-1類的為n,每一個目標(biāo)樣本s可以由Ys∈{1,-1}表示,則有m+n=S恒成立。
相對于某種外部環(huán)境,基因在差異環(huán)境下可能具有三種表達調(diào)控狀態(tài):非顯著調(diào)控狀態(tài)、上調(diào)控狀態(tài)和下調(diào)控狀態(tài)。下文分別給出各調(diào)控狀態(tài)的數(shù)學(xué)定義及計算公式。
定義1上調(diào)控概率。對于一基因g,令
(1)
(2)
pgsu指以Y組類為參考時,基因g在樣例s中的上調(diào)控概率。(其中,a為基因在參考組樣例中的表達值,ags為基因g在樣本s中的表達值,q為參考樣例數(shù)目)
定義2下調(diào)控概率。對于一基因g,令
(3)
(4)
pgsd指以Y組類為參考時,基因g在樣例s中的下調(diào)控概率。(其中,a為基因在參考組樣例中的表達值,ags為基因g在樣本s中的表達值,q為參考樣例數(shù)目)
從統(tǒng)計的角度,由一個樣本推斷基因的潛在規(guī)則是不夠的。因此,本文對每一個基因定義了如下兩種調(diào)控事件:
定義3調(diào)控事件U?;騡在樣類Y=1中的表達水平總是高于在樣類Y=-1中的表達水平,即U:(ag(y=1)>ag(y=-1)) ,該事件的發(fā)生概率被稱作上調(diào)控事件概率并以符號P(U) 表示。
定義4調(diào)控事件D。基因g在樣類Y=1中的表達水平總是低于在樣類Y=-1中的表達水平,即D:(ag(y=1) 因為絕對獨立的基因表達調(diào)控概率不能得到,本文選擇使用在一個特定的背景情況C的條件概率,而不是絕對的獨立事件的概率。在實踐中,背景條件C的使用,對類的區(qū)別有助于提前過濾不相關(guān)的基因。 所以,用符號P(U)表示基因在上述一定的背景條件下的上調(diào)控事件概率,利用平均信息產(chǎn)生背景條件C,基因表達調(diào)控事件概率由統(tǒng)計知識分別給出算法。 上調(diào)控事件概率P(U): (5) 下調(diào)控事件概率P(D): (6) 其中,S為總樣本數(shù),pdgi為在以{Y=1}類為參考組時,基因g在{Y=-1}類中樣例i的下調(diào)控概率;pugi為在以{Y=-1}類為參考組時,基因g在{Y=1}類中樣例i的上調(diào)控概率。 一般來說,微陣列數(shù)據(jù)往往具有高冗雜性,因此,實驗中會有大量多余的不相關(guān)基因的存在,這將增加癌癥關(guān)鍵基因辨認的復(fù)雜程度,不僅使分類算法的精度降低,還加大了計算量[9]。因此,在運行算法之前,有必要對基因表達譜數(shù)據(jù)進行預(yù)過濾處理。 本算法使用平均值產(chǎn)生背景條件C過濾掉兩樣本類中表達水平差異比較小的基因。之后,剩余基因被收集作為初步基因集,關(guān)鍵基因?qū)⑹褂没虮磉_調(diào)控信息來選擇。 背景條件C可以表示為C:|u1-u2|≥θ,u1、u2分別是兩樣本類的基因表達水平的平均值。θ稱為類間表達差異截止閾值,取決于基因在兩樣本類中表達水平的平均差異的最值,即范圍:θmin<θ<θmax 在同一時刻,基因的上、下調(diào)控事件互斥。當(dāng)上調(diào)控事件發(fā)生時,則P(U)將很大,即P(D)就會很小。此時,若取兩個調(diào)控概率的絕對差PD,即: PD=∣P(U)-P(D)∣ (7) 理想情況下該值等于1。但由于微陣列數(shù)據(jù)的高變異性和高噪聲屬性,該值將應(yīng)該接近,但不完全確定地等于1。同理,在兩個事件都不發(fā)生時,兩個調(diào)控概率P(U)和P(D)都應(yīng)該接近于0.5,而此時他們的絕對差值應(yīng)該近似為零。綜上所述,基因在不同的實驗條件下所表現(xiàn)出的調(diào)控性質(zhì),可以用調(diào)控概率差的絕對值PD體現(xiàn)。因此,可以用基因表達調(diào)控概率的絕對差值來識別和篩選癌癥基因。 最后,本算法可以概括如下: 步驟一:初始化閾值因子φ。 步驟二:使用背景條件C,對基因進行預(yù)過濾。 步驟三:計算出基因調(diào)控概率矩陣。 步驟四:根據(jù)步驟三所得矩陣,使用公式(5)和公式(6)計算兩種調(diào)控事件概率P(U)和P(D)。 步驟五:計算基因表達調(diào)控事件概率差的絕對值,并以此作為篩選腫瘤特征基因的依據(jù)。 采用廣泛使用的肺癌數(shù)據(jù)集Selmat數(shù)據(jù)[10]驗證算法。Selmat數(shù)據(jù)集由116個樣本構(gòu)成,包含58個正常樣本和58個肺癌樣本。每個樣本含25 441個基因表達數(shù)據(jù)。 應(yīng)用本算法,對肺癌數(shù)據(jù)進行如下符號設(shè)定:將未患肺癌子群看作Y=1 類;將肺癌子群看作Y=-1類。這樣,由數(shù)據(jù)集的大小可得出下列變量:m=58,n= 58。然后,根據(jù)基因在兩子類間表達水平差異的最值初始化閾值因子φ。本實驗中,φ值被設(shè)置為兩子類基因表達水平的平均差異絕對值的最大值的1/20,即:φ=0.239 543 5。最后,依據(jù)上述參數(shù)設(shè)置運行本算法。求出所有滿足背景條件C的基因的上調(diào)控事件概率P(U)和下調(diào)控事件概率P(D),然后以基因表達調(diào)控事件概率差異的絕對值大小為標(biāo)準(zhǔn)篩選基因。結(jié)果如下: 圖1 基因表達調(diào)控概率的統(tǒng)計分布圖 圖1分別顯示了上調(diào)控和下調(diào)控概率的統(tǒng)計分布直方圖??芍?,無論是P(U)還是P(D)的分布統(tǒng)計圖,極少數(shù)基因表達調(diào)控概率值接近于1,而絕大多數(shù)基因的調(diào)控概率值趨近于零點。該分布圖也從側(cè)面印證,在Selmat數(shù)據(jù)所含基因中,只有少量基因與兩Selmat子類的差別有關(guān)聯(lián),絕大部分是無關(guān)基因,而其在兩個Selmat子類之間的調(diào)控概率較高。圖2顯示了在Selmat數(shù)據(jù)上兩類基因表達調(diào)控事件概率的絕對差值PD的概率分布直方圖,從圖中可以看出,絕大部分的基因的PD接近于零,只有極少數(shù)的基因與癌癥有關(guān),這也驗證了圖1的結(jié)論。表1給出了本算法依據(jù)PD大小篩選出的前20個基因。 圖2 兩調(diào)控事件的差的絕對值(PD)的分布圖 PDGenegSYMBOLsgIDs1.00000"DEPDC7""91614"1.00000"CNGB1""1258"1.00000"C9""735"1.00000"C20orf86""140731"1.00000"BRD2""6046"1.00000"ACACB""32"1.00000"ACACA""31"0.982759"ATP6V0A2""23545"0.965517"GGCX""2677"0.965517"FADD""8772"0.965517"ERG""2078"0.965517"ARL1""400"0.956897"FGF10""2255"0.956897"C18orf58""284222"0.956897"C14orf129""51527"0.948276"GALNT12""79695"0.948276"C1orf186""440712"0.939655"FLJ20054""54530"0.939655"DKFZp686E2433""345462"0.939655"CHCHD6""84303" PD:基因上、下調(diào)控事件概率差的絕對值; gSYMBOLs:基因名字; gIDs:基因編號。 為了檢測結(jié)果的準(zhǔn)確性,在同一個Selmat數(shù)據(jù)集上,運用相關(guān)的微陣列數(shù)據(jù)分析方法[11]計算,然后將兩種算法所篩選基因的對比結(jié)果統(tǒng)計列入表2。從表2 可知,兩種算法所選取的前15個關(guān)鍵基因完全相同,前20 個基因也達到了82%的準(zhǔn)確度,表明通過調(diào)控概率絕對差值選取的關(guān)鍵基因具有較高的準(zhǔn)確率。此外,為了更好地評價本算法,將算法的分類結(jié)果與基于貝葉斯變量選擇的分類方法和部分最小二乘模型方法的分類結(jié)果相比較,得出的結(jié)果如表3所示。從表3可知,本文所選取的基因選擇方法分類正確率為100%,分類結(jié)果較為準(zhǔn)確,同時所使用的基因數(shù)目為22,表明本算法具有較好的分類性能。 統(tǒng)計本算法與文獻[11]算法所選不同數(shù)目基因的準(zhǔn)確度,見表2。 表2 兩種算法選擇基因的準(zhǔn)確度 GN:兩種算法選取的基因數(shù)目; 交集數(shù):相同基因數(shù)目; 并集數(shù):基因種類數(shù)目。 表3 基于基因表達調(diào)控概率的基因選擇方法分類結(jié)果與其他文獻報道結(jié)果的比較 DNA微陣列技術(shù)的發(fā)展及應(yīng)用使腫瘤疾病的預(yù)測及治療成為可能[12]。但是,基因微陣列數(shù)據(jù)具有高冗余和高噪聲等特性,為有效解決傳統(tǒng)選擇方法在分析微陣列數(shù)據(jù)時產(chǎn)生的過擬合或維數(shù)災(zāi)難的問題,本文基于基因在不同組織樣本中的差異表達調(diào)控信息,提出了基于基因表達調(diào)控概率的基因選擇算法[13]。在公開的Selmat數(shù)據(jù)上的實驗表明,本算法所選取的癌癥關(guān)鍵基因的正確率達到了90%以上。此外,在同一數(shù)據(jù)集上運用其他文獻的方法來檢驗本算法的結(jié)果,也顯示本算法篩選關(guān)鍵基因的準(zhǔn)確性更高。 綜上所述,采用本文提出的基于基因表達調(diào)控概率的基因選擇算法可以提取關(guān)鍵基因,而且避免了調(diào)控狀態(tài)系數(shù)選取對基因篩選的影響。本文尚未研究基因序列的改變對篩算結(jié)果產(chǎn)生的影響,因此,可以嘗試改變基因序列來進一步研究關(guān)鍵基因的提取結(jié)果。3 基于基因表達調(diào)控概率的基因選擇
4 在肺癌數(shù)據(jù)集(Selmat2012)上的應(yīng)用
5 總結(jié)與展望