伍亞舟 綜述,易 東 審校
(第三軍醫(yī)大學(xué)衛(wèi)生統(tǒng)計(jì)學(xué)教研室,重慶 400038)
基因芯片能為基因組學(xué)研究提供海量的基因表達(dá)譜數(shù)據(jù),這些數(shù)據(jù)反映了基因在不同組織細(xì)胞的不同生長(zhǎng)發(fā)育階段或不同生理狀態(tài)下表達(dá)水平的變化[1-2]。但是,由于基因表達(dá)譜的海量性、復(fù)雜性、噪聲性和高維性特點(diǎn),特別是缺失數(shù)據(jù)值的大量存在[3-5],給后續(xù)的數(shù)據(jù)分析帶來(lái)了較大困難,也產(chǎn)生了一些問(wèn)題:觀察到的數(shù)據(jù)與缺失數(shù)據(jù)間的差異所產(chǎn)生的偏倚,嚴(yán)重影響后續(xù)分析結(jié)果的客觀性和正確性,從而導(dǎo)致后續(xù)分析質(zhì)量的可靠性和穩(wěn)健性降低,使得整個(gè)分析效率降低;另外,由于缺失數(shù)據(jù)的存在,經(jīng)常得出難以解釋的結(jié)果。因此,如何根據(jù)基因表達(dá)譜數(shù)據(jù)信息的特性進(jìn)行有效的缺失值估計(jì)與填補(bǔ)是生物數(shù)據(jù)分析中重難點(diǎn),并對(duì)后續(xù)基因表達(dá)譜的不同分析目的(如差異表達(dá)基因篩選、基因功能聚類、腫瘤組織分類)將產(chǎn)生重要的生物學(xué)影響[6-9]。本文針對(duì)基因表達(dá)譜缺失數(shù)據(jù)的特性,就當(dāng)前國(guó)內(nèi)外基因表達(dá)譜缺失數(shù)據(jù)的處理方法進(jìn)行簡(jiǎn)要概述,在分析其各自優(yōu)缺點(diǎn)基礎(chǔ)上,提出并探討一種新的填補(bǔ)估計(jì)方法。
微陣列數(shù)據(jù)通常以大規(guī)模矩陣的形式存在,該矩陣表示某個(gè)基因在不同試驗(yàn)條件(列)下的基因表達(dá)水平(行),但在實(shí)際情況中,實(shí)驗(yàn)獲得的數(shù)據(jù)陣列通常是不完整的,即含有缺失值。缺失數(shù)據(jù)產(chǎn)生原因有多種,包括:不充分的實(shí)驗(yàn)方案,圖像損壞,芯片上的灰塵或劃痕等;另外,用來(lái)制造芯片的機(jī)械也可能系統(tǒng)地產(chǎn)生缺失數(shù)據(jù)。
事實(shí)上,基因表達(dá)譜缺失數(shù)據(jù)的缺失產(chǎn)生機(jī)制(完全隨機(jī)缺失、隨機(jī)缺失和非隨機(jī)缺失)、缺失模式(單調(diào)缺失和任意缺失)、數(shù)據(jù)集序列類型(時(shí)間序列型、非時(shí)間序列型和混合序列型)、缺失率大小等特性,以及后續(xù)不同分析目的及其填補(bǔ)分析方法的要求,都會(huì)對(duì)缺失值填補(bǔ)與估計(jì)的準(zhǔn)度產(chǎn)生較大影響。
缺失數(shù)據(jù)的估計(jì)與填補(bǔ)是在不增加實(shí)驗(yàn)次數(shù)情況下降低缺失數(shù)據(jù)對(duì)后續(xù)分析影響的有效方法。近年國(guó)內(nèi)外學(xué)者在缺失數(shù)據(jù)的估計(jì)方面進(jìn)行了有益的探索:(1)將存在缺失數(shù)據(jù)的行(基因)或?qū)嶒?yàn)條件(列)簡(jiǎn)單地從矩陣中剔除,以得到一個(gè)完備的數(shù)據(jù)集,稱之為列表式刪除;(2)直接在缺失數(shù)據(jù)集上進(jìn)行數(shù)據(jù)挖掘,或利用一個(gè)特定的缺省值來(lái)填補(bǔ);(3)利用統(tǒng)計(jì)學(xué)方法進(jìn)行填補(bǔ)估計(jì)[3-5,9-16]:行均值,K近鄰法(KNN),奇異值分解(SVD),貝葉斯PCA(BPCA),高斯混合聚類(GMC),最小二乘(LLS),支持向量回歸,加權(quán)回歸估計(jì),極大似然估計(jì)(MLE),多重填補(bǔ)(MI)等。
2.1 常用填補(bǔ)估計(jì)方法
2.1.1 行均值法 實(shí)驗(yàn)表明,具有相似功能的基因在相同的微陣列雜交實(shí)驗(yàn)中會(huì)產(chǎn)生相似的表達(dá)模式。因此,依實(shí)驗(yàn)序列,同類中的基因表達(dá)模式極為相似,某個(gè)基因在某些條件下的缺失值,用缺失數(shù)據(jù)所在行的其他條件下的數(shù)據(jù)的平均值進(jìn)行填補(bǔ)估計(jì),即為行均值法。該方法簡(jiǎn)單易行,但并沒(méi)有考慮數(shù)據(jù)間的關(guān)聯(lián)性,其估計(jì)的準(zhǔn)確度大大受影響。
2.1.2 K鄰近法 K近鄰法基本思路:首先計(jì)算每一個(gè)含有缺失值的基因和所有其他基因的歐式距離;在計(jì)算過(guò)程中,如果在同一個(gè)實(shí)驗(yàn)條件下兩個(gè)基因有一個(gè)具有缺失值,則這個(gè)實(shí)驗(yàn)條件就不參與歐式距離的計(jì)算;再根據(jù)所計(jì)算得到的具有缺失值的基因和其他基因的歐式距離,選取和它最近的K個(gè)基因,Brettingham-Moore等[1]分析發(fā)現(xiàn) K選取10~20比較合理。通過(guò)如下公式計(jì)算得到待補(bǔ)的缺失值:

Di表示基因G與第i個(gè)近鄰基因的歐式距離,Wi表示為第i個(gè)近鄰基因的權(quán)重,Gi表示第i個(gè)近鄰基因的表達(dá)值。G通過(guò)KNN法計(jì)算得到的填補(bǔ)的缺失數(shù)據(jù)值。
2.1.3 馬氏距離法 馬氏距離方法是在KNN法基礎(chǔ)上,通過(guò)基因之間的馬氏距離來(lái)選擇最近鄰居基因,并將已得到的估計(jì)值應(yīng)用到后續(xù)的估計(jì)過(guò)程中,然后采用信息論中熵值的概念計(jì)算最近鄰居的加權(quán)系數(shù),其相應(yīng)位置的加權(quán)平均值即為缺失數(shù)據(jù)的估計(jì)值。該方法不僅考慮了觀測(cè)變量之間的相關(guān)性,而且也考慮到了各個(gè)觀測(cè)指標(biāo)取值的差異程度,能更好地描述基因之間的相似程度。
2.1.4 隨機(jī)回歸填補(bǔ)法 隨機(jī)回歸填補(bǔ)是由單元的缺失項(xiàng)對(duì)觀測(cè)項(xiàng)的回歸,用預(yù)測(cè)值代替缺失值。通常由觀測(cè)變量及缺失變量都有觀測(cè)的單元進(jìn)行回歸計(jì)算。填補(bǔ)中還可以給填補(bǔ)值增加一個(gè)隨機(jī)成分。它是用回歸填補(bǔ)值加上一個(gè)隨機(jī)項(xiàng),預(yù)測(cè)出一個(gè)缺失值的替代值,該隨機(jī)項(xiàng)反映所預(yù)測(cè)的值的不確定性影響。該方法能夠較好的利用數(shù)據(jù)提供的信息,解決因預(yù)測(cè)變量高度相關(guān)引起的共線性問(wèn)題。
2.1.5 極大似然估計(jì)法 極大似然估計(jì)法是在總體分布類型已知情況下的一種參數(shù)估計(jì)方法。在模型假定正確的情況下,若缺失機(jī)制為隨機(jī)缺失,通過(guò)已觀測(cè)數(shù)據(jù)的邊際分布可以對(duì)未知參數(shù)進(jìn)行極大似然估計(jì),得到未知參數(shù)的準(zhǔn)確估計(jì)值。該方法需要有足夠大的樣本保證得到似然估計(jì)值是無(wú)偏的;另外,似然函數(shù)是基于完整數(shù)據(jù)某個(gè)假定的參數(shù)模型。實(shí)際應(yīng)用中,如果模型假定錯(cuò)誤,基于似然法的估計(jì)可能穩(wěn)定也可能不穩(wěn)定。
2.1.6 多重填補(bǔ)法 多重填補(bǔ)法由Stekhoven等[17]首先提出,該方法已被越來(lái)越多地應(yīng)用于生物醫(yī)學(xué)、統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)等領(lǐng)域[18-20]。與單一填補(bǔ)(SI)的不同之處在于,MI方法對(duì)每一個(gè)缺失值用某一可能值的集合進(jìn)行填補(bǔ),重復(fù)p次,故叫多重填補(bǔ),從而產(chǎn)生若干個(gè)完整數(shù)據(jù)集;然后,用針對(duì)完整數(shù)據(jù)集的統(tǒng)計(jì)方法對(duì)每一個(gè)填補(bǔ)數(shù)據(jù)集分別進(jìn)行統(tǒng)計(jì)分析,把得到的結(jié)果進(jìn)行綜合,進(jìn)而產(chǎn)生最終的統(tǒng)計(jì)推斷。
MI方法的推斷原理及主要步驟:首先,采用適當(dāng)?shù)奶钛a(bǔ)方法模型,為每個(gè)缺失數(shù)據(jù)值產(chǎn)生一套可能的填補(bǔ)估計(jì)值,這些值反映了缺失值的不確性;每一個(gè)值都被用來(lái)填補(bǔ)數(shù)據(jù)集中的缺失值,產(chǎn)生若干個(gè)完整數(shù)據(jù)集(p次);其次,用針對(duì)完整數(shù)據(jù)集的統(tǒng)計(jì)方法對(duì)每一個(gè)填補(bǔ)數(shù)據(jù)集進(jìn)行統(tǒng)計(jì)分析,得到每個(gè)缺失數(shù)據(jù)的均值和方差;最后,對(duì)來(lái)自于各個(gè)填補(bǔ)數(shù)據(jù)集的結(jié)果(缺失數(shù)據(jù)的均值和方差)以某種方法進(jìn)行綜合,從而產(chǎn)生最終的統(tǒng)計(jì)推斷結(jié)果。
在MI出現(xiàn)以前,列表式刪除和SI法是處理缺失值的主要方法,但是它們沒(méi)有考慮到缺失數(shù)據(jù)的不確定性以及缺失數(shù)據(jù)與觀察到的數(shù)據(jù)間可能存在的系統(tǒng)性差異,所以難以提供關(guān)于總體參數(shù)的準(zhǔn)確估計(jì)。MI彌補(bǔ)了單一填補(bǔ)和列表式刪除等方法的缺陷,該方法能夠反映出由于數(shù)據(jù)缺失造成的統(tǒng)計(jì)推斷結(jié)果的不確定性,優(yōu)化了多重填補(bǔ)方法的置信區(qū)間和相對(duì)效率。
2.2 常用填補(bǔ)估計(jì)方法的不足 基因表達(dá)譜缺失數(shù)據(jù)估計(jì)方法進(jìn)展較快,但還存在許多難點(diǎn)和問(wèn)題:(1)目前,很多估計(jì)方法多是SI,即用一個(gè)可行的估計(jì)值對(duì)缺失數(shù)據(jù)進(jìn)行一次填補(bǔ),其優(yōu)點(diǎn)是簡(jiǎn)單、速度快,適合于缺失率較低的表達(dá)譜數(shù)據(jù),缺點(diǎn)是導(dǎo)致標(biāo)準(zhǔn)誤降低和P值減小,使得犯Ⅰ類錯(cuò)誤的概率升高,容易引起系統(tǒng)偏倚,且不能反映缺失數(shù)據(jù)值的不確定性,因此,用SI法計(jì)算出的治療效應(yīng)置信區(qū)間會(huì)失去它本來(lái)的真實(shí)性;(2)一些填補(bǔ)方法的應(yīng)用條件相對(duì)較苛刻(如KNN法受變量類型限制,通常只適用于連續(xù)型變量)[2];(3)零或行均值法等沒(méi)有考慮到數(shù)據(jù)本身的屬性和數(shù)據(jù)間的相互聯(lián)系;(4)直接刪除會(huì)消除大量有效基因信息或使某個(gè)類消失,嚴(yán)重影響到后續(xù)分析結(jié)果的客觀性和正確性。
MI方法雖然有無(wú)法替代的優(yōu)點(diǎn),但也有其缺陷。一方面,MI在應(yīng)用時(shí),假設(shè)缺失機(jī)制是隨機(jī)缺失,這種假設(shè)可以很方便地避開(kāi)一些復(fù)雜的概率模型;另一方面,目前的具體多重填補(bǔ)模型參數(shù)方法都是要求數(shù)據(jù)集的分布已知,且對(duì)數(shù)據(jù)集的要求更為嚴(yán)格,如完整性、正態(tài)性和方差齊性等,實(shí)際上,由于在真實(shí)基因表達(dá)譜數(shù)據(jù)集中往往具有復(fù)雜數(shù)據(jù)結(jié)構(gòu),很難也幾乎不可能精確地預(yù)測(cè)出缺失數(shù)據(jù)和可觀測(cè)數(shù)據(jù)的關(guān)系,而且對(duì)將要處理的數(shù)據(jù)集沒(méi)有任何先驗(yàn)知識(shí)。參數(shù)填補(bǔ)模型方法對(duì)此就束手無(wú)策或效果并不理想,而非參數(shù)模型方法在對(duì)數(shù)據(jù)分布未知的情況下卻能取得很好的效果,比如基于核函數(shù)選擇的支持向量機(jī)方法并結(jié)合回歸分析的技術(shù)。因此,作者提出一種基于核函數(shù)的支持向量回歸的非參多重填補(bǔ)(SVR-NPMI)的新融合方法,對(duì)基因表達(dá)譜缺失數(shù)據(jù)進(jìn)行填補(bǔ)。
SVR-NPMI方法將支持向量機(jī)和回歸分析融合于多重填補(bǔ)的過(guò)程中,對(duì)缺失數(shù)據(jù)集進(jìn)行多次填補(bǔ)(p次),最后利用參數(shù)和非參數(shù)統(tǒng)計(jì)方法進(jìn)行綜合估計(jì),以達(dá)到填補(bǔ)缺失數(shù)據(jù)的目的。該方法中有兩個(gè)問(wèn)題需要注意:(1)填補(bǔ)次數(shù)p的確定要根據(jù)γ(γ為對(duì)總體參數(shù)缺失的部分信息的估計(jì))來(lái)確定;(2)具體多重填補(bǔ)模型方法的確定,對(duì)于單調(diào)缺失模式,如針對(duì)連續(xù)型變量的預(yù)測(cè)均數(shù)匹配法和趨勢(shì)得分法,針對(duì)離散型變量的判別分析和Logistic回歸;對(duì)于復(fù)雜的缺失模式,可以采用馬爾科夫鏈蒙特卡羅方法方法。
簡(jiǎn)要介紹基于SVR的非參多重填補(bǔ)融合方法的基本原理:
設(shè)某個(gè)非線性可分的基因表達(dá)譜數(shù)據(jù)集:

這里xi(i=1,2,…,m,m為基因個(gè)數(shù))為第i個(gè)基因的表達(dá)輸入值,zi為第i個(gè)基因的對(duì)應(yīng)的目標(biāo)輸出值。
引入核函數(shù)K,

常用的核函數(shù)有線性核、多項(xiàng)式核、高斯核、徑向基核和sigmoid核等,核函數(shù)可以根據(jù)數(shù)據(jù)集的分布進(jìn)行選擇,從而達(dá)到最佳的效果。
于是ε-支持向量回歸可以表示為如下最優(yōu)化問(wèn)題:

其中C表示正則化參數(shù),用來(lái)對(duì)模型復(fù)雜度和訓(xùn)練誤差進(jìn)行折中。引入拉格朗日乘子α和α*,將支持向量回歸的原始問(wèn)題轉(zhuǎn)化為它的對(duì)偶形式:

在上述每個(gè)原始數(shù)據(jù)集G中,在不包含缺失數(shù)據(jù)的基因中,以隨機(jī)化原則抽取不同的基因數(shù)k(k≤m)構(gòu)建訓(xùn)練數(shù)據(jù)集Gtrain(p個(gè))進(jìn)行訓(xùn)練,從而對(duì)包含缺失數(shù)據(jù)的基因構(gòu)成的測(cè)試數(shù)據(jù)集Gtest進(jìn)行測(cè)試,得到最后的填補(bǔ)數(shù)據(jù)的估計(jì)值f(x),從而實(shí)現(xiàn)了缺失數(shù)據(jù)的預(yù)測(cè)。
本文針對(duì)基因表達(dá)譜缺失數(shù)據(jù)的特性,就當(dāng)前國(guó)內(nèi)外基因表達(dá)譜缺失數(shù)據(jù)的處理方法進(jìn)行簡(jiǎn)要綜述,在分析其各自優(yōu)缺點(diǎn)基礎(chǔ)上,提出并探討一種新的填補(bǔ)估計(jì)方法——SVRNPMI。該方法將多重填補(bǔ)、基于核函數(shù)選擇的SVM和回歸分析有機(jī)地融合在一起,具有明顯優(yōu)點(diǎn):(1)彌補(bǔ)了SI的缺陷,該法能夠反映出由于數(shù)據(jù)缺失造成的統(tǒng)計(jì)推斷結(jié)果的不確定性,優(yōu)化了MI的置信區(qū)間和相對(duì)效率;(2)將SI與MI綜合運(yùn)用、參數(shù)與非參數(shù)統(tǒng)計(jì)方法相結(jié)合,使得新的融合方法受到數(shù)據(jù)分布的限制性更小、應(yīng)用性更為廣泛,可以解決表達(dá)譜數(shù)據(jù)本身的缺陷等問(wèn)題;(3)該方法以與目標(biāo)基因具有較高相似性的完全基因子集為訓(xùn)練集使用SVR算法(該算法具有非線性和魯棒性,適于求解這種非線性的估計(jì)值問(wèn)題)建立回歸模型對(duì)缺失值進(jìn)行估計(jì),提高估計(jì)的準(zhǔn)確性和穩(wěn)定性,為基因表達(dá)譜缺失數(shù)據(jù)值的有效填補(bǔ)提供一種全新的思路方法。
在后續(xù)研究中,將利用基因表達(dá)譜公共數(shù)據(jù)集和自實(shí)驗(yàn)室數(shù)據(jù)集,證實(shí)基于SVR-NPM法對(duì)基因表達(dá)譜缺失數(shù)據(jù)進(jìn)行估計(jì)的可靠性和有效性,建立一種基于不同序列數(shù)據(jù)集、不同分析目的、不同缺失率等情況下的缺失填補(bǔ)策略,并進(jìn)一步闡明缺失填補(bǔ)方法對(duì)基因表達(dá)譜后續(xù)不同分析目的的生物學(xué)影響。
[1]Brettingham-Moore KH,Duong CP,Heriot AG,et al.U-sing gene expression profiling to predict response and prognosis in gastrointestinal cancers-the promise and the perils[J].Ann Surg Oncol,2011,18(5):1484-1491.
[2]Lee WP,Tzou WS.Computational methods for discovering gene networks from expression data[J].Brief Bioinform,2009,10(4):408-423.
[3]Troyanskaya O,Cantor M,Sherlock G,et al.Missing value estimation methods for DNA microarrays[J].Bioinformatics,2001,17(6):520-525.
[4]Dorri F,Azmi P,Dorri F.Missing value imputation in DNA microarrays based on conjugate gradient method[J].Comput Biol Med,2012,42(2):222-227.
[5]Little R,Rubin D.Statistical analysis with missing data[M].New York:John Wiley and Sons Inc,1987.
[6]Oh S,Kang DD,Brock GN,et al.Biological impact of missing-value imputation on downstream analyses of gene expression profiles[J].Bioinformatics,2011,27(1):78-86.
[7]Celton M,Malpertuy A,Lelandais G,et al.Comparative analysis of missing value imputation methods to improve clustering and interpretation of microarray experiments[J].BMC Genomics,2010,11(1):15-30.
[8]Sun Y,Braga-Neto U,Dougherty ER.Impact of missing value imputation on classification for DNA microarray gene expression data--a model-based study[J].EURASIP J Bioinform Syst Biol,2009,2009:504069.
[9]Oba S,Sato MA,Takemasa I,et al.A bayesian missing value estimation method for gene expression profile data[J].Bioinformatics,2003,19(16):2088-2096.
[10]Ouyang M,Welsh WJ,Georgopoulos P.Gaussian mixture clustering and imputation of microarray data[J].Bioinformatics,2004,20(6):917-923.
[11]Kim H,Golub GH,Park H.Missing value estimation for DNA microarray gene expression data:local least squares imputation[J].Bioinformatics,2005,21(2):187-198.
[12]Wang X,Li A,Jiang Z,et al.Missing value estimation for DNA microarray gene expression data by Support Vector Regression imputation and orthogonal coding scheme[J].BMC Bioinformatics,2006,7(1):32-35.
[13]Berthoumieux S,Brilli M,de Jong H,et al.Identification of metabolic network models from incomplete highthroughput datasets[J].Bioinformatics,2011,27(13):i186-i195.
[14]Tuikkala J,Elo L,Nevalainen OS,et al.Improving missing value estimation in microarray data with gene ontology[J].Bioinformatics,2006,22(5):566-572.
[15]邱浪波,王廣云,王正志.基因表達(dá)缺失值的加權(quán)回歸估計(jì)算法[J].國(guó)防科技大學(xué)學(xué)報(bào),2007,29(1):111-115,125.
[16]楊濤,駱嘉偉,王艷,等.基于馬氏距離的缺失值填充算法[J].計(jì)算機(jī)應(yīng)用,2005,25(12):2868-2871.
[17]Stekhoven DJ,Bühlmann P.MissForest--non-parametric missing value imputation for mixed-type data[J].Bioinformatics,2012,28(1):112-118.
[18]Ryan R,Vernon S,Lawrence G,et al.Use of Name recognition software,census data and multiple imputation to predict missing data on ethnicity:application to Cancer registry records[J].BMC Med Inform Decis Mak,2012,12(1):1-8.
[19]Habbous S,Chu KP,Qiu X,et al.The changing incidence of human papillomavirus-associated oropharyngeal Cancer using multiple imputation from 2000to 2010at a Comprehensive Cancer Centre[J].Cancer Epidemiol,2013,37(6):820-829.
[20]Fong DY,Rai SN,Lam KS.Estimating the effect of multiple imputation on incomplete longitudinal data with application to a randomized clinical study[J].J Biopharm Stat,2013,23(5):1004-1022.