王麗華
(中國石油大學(xué)(華東)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 青島 266580)
隨著高通量技術(shù)的發(fā)展和各基因組學(xué)和表觀遺傳學(xué)數(shù)據(jù)的出現(xiàn),為研究腫瘤致病模式及解釋腫瘤發(fā)病機(jī)制提供了可能。腫瘤研究中一個(gè)重要問題是臨床獲得的腫瘤樣本總是混有正常細(xì)胞[1],我們稱為“腫瘤純度”,即腫瘤樣本中腫瘤細(xì)胞所占比例。準(zhǔn)確評估腫瘤純度有利于腫瘤樣本的準(zhǔn)確鑒別分析,降低腫瘤基因分型、復(fù)發(fā)風(fēng)險(xiǎn)及療效預(yù)測的分析偏差[2~4]。傳統(tǒng)的腫瘤純度估算方法基本上是由病理研究者通過圖像分析獲得,以及后來出現(xiàn)基于細(xì)胞分類的技術(shù),這些方法耗人力且成本高,不適合用來大規(guī)模推廣。巧合的是,腫瘤細(xì)胞和正常細(xì)胞之間存在著顯著的遺傳和表觀遺傳差異,因此利用現(xiàn)有的高通量數(shù)據(jù)來估計(jì)腫瘤純度是可行的。
目前,已有很多方法利用基因表達(dá)、拷貝數(shù)變異和單核苷酸多態(tài)性作為預(yù)測因子來估計(jì)腫瘤純度[5~12],但很少是基于DNA甲基化。異常的DNA甲基化模式和腫瘤的發(fā)生密切相關(guān),幾乎在所有的癌癥中都存在,并且發(fā)生在癌癥的早期,有望成為癌癥早期診斷的理想標(biāo)志物。ABSOLUTE[5]利用拷貝數(shù)變異數(shù)據(jù)結(jié)合最大似然估計(jì)方法直接計(jì)算腫瘤樣本的純度;ESTIMATE[13]利用基質(zhì)、免疫細(xì)胞的基因表達(dá)譜結(jié)合經(jīng)驗(yàn)累計(jì)分布函數(shù)來估計(jì)腫瘤純度;MethylPurify[6]利用DNA甲基化測序數(shù)據(jù)識別差異位點(diǎn)結(jié)合EM算法來評估腫瘤純度;Infinium?Purify[8,12]利用秩和檢驗(yàn)識別DNA甲基化差異位點(diǎn)并結(jié)合高斯核密度函數(shù)計(jì)算腫瘤純度。不難發(fā)現(xiàn),目前利用甲基化數(shù)據(jù)評估腫瘤純度的方法多是基于信息位點(diǎn)的選擇。選擇信息位點(diǎn)是指在腫瘤樣本和正常樣本中甲基化程度出現(xiàn)差異的CpG位點(diǎn),差異越顯著越有可能被識別為信息位點(diǎn)。盡管目前根據(jù)腫瘤和正常組織甲基化水平差異確定差異甲基化位點(diǎn)的方法已經(jīng)得到了很好的研究,但不同的信息位點(diǎn)選擇方法對腫瘤純度的估計(jì)結(jié)果不盡相同,選擇與腫瘤相關(guān)的差異甲基化位點(diǎn)作為信息位點(diǎn)顯得尤為重要。與此同時(shí),DNA甲基化數(shù)據(jù)相對于測序數(shù)據(jù)[14~15]來說是穩(wěn)定且容易獲得的,測序數(shù)據(jù)昂貴且應(yīng)用范圍有限,而突變數(shù)據(jù)則有樣本不穩(wěn)定的風(fēng)險(xiǎn)。近年來,利用DNA甲基化數(shù)據(jù)估計(jì)腫瘤純度的方法開始出現(xiàn),但仍然很少。
腫瘤純度估算方法側(cè)重于腫瘤間異質(zhì)性[16],同一種腫瘤類型的樣本識別一組差異基因或CpG位點(diǎn),忽視了腫瘤生長空間的異質(zhì)性,即樣本特異性。本文基于DNA甲基化數(shù)據(jù),利用樣本位點(diǎn)的“信息熵”識別具有樣本特異性的差異甲基化位點(diǎn),并進(jìn)行樣本的腫瘤純度評估工作。
本文使用了來自UCSC數(shù)據(jù)庫[17~18]的肝癌LI?HC(Liver Hepatocellular Carcinoma)的DNA甲基化樣本數(shù)據(jù)進(jìn)行實(shí)驗(yàn)。
為了提高分類預(yù)測的準(zhǔn)確性、有效性和可伸縮性,需要對下載到的數(shù)據(jù)進(jìn)行預(yù)處理:數(shù)據(jù)清理和數(shù)據(jù)過濾。選擇DNA甲基化數(shù)據(jù)中的具有癌旁樣本的腫瘤樣本數(shù)據(jù);為了消除和減小數(shù)據(jù)噪聲,我們對其中的缺失值進(jìn)行了刪除或填補(bǔ)處理。去除質(zhì)量較差的CpG位點(diǎn),過濾掉X、Y染色體上、SNP相關(guān)的CpG位點(diǎn)。
為了確定甲基化位點(diǎn)的顯著差異,基于位點(diǎn)的“信息熵”來識別腫瘤樣本的特異性信息位點(diǎn)。對于CpG位點(diǎn)i來說,其正常樣本信息熵INi定義如下:
“超甲基化”定義如下:
式中,βji表示正常樣本j的CpG位點(diǎn)i的β-νalue,ki為用戶定義的閾值。同理,“低甲基化”定義為
本文基于信息熵識別腫瘤樣本的信息位點(diǎn),IEi越小,說明對于CpG位點(diǎn)i在正常樣本中信息熵越小,甲基化程度表現(xiàn)越穩(wěn)定。對于CpG位點(diǎn)i,其腫瘤信息熵ITi定義如下:
加入腫瘤樣本后帶來的信息量可以表示為
選擇信息量增幅大的前s個(gè)CpG位點(diǎn)作為信息位點(diǎn)。為了評估選出的信息位點(diǎn)的顯著差異性,即識別出的信息位點(diǎn)是個(gè)小概率事件。換句話說,信息位點(diǎn)的差異性不是隨機(jī)的。當(dāng)然,每個(gè)信息位點(diǎn)的p值可以根據(jù)公式進(jìn)行計(jì)算,以保證信息位點(diǎn)選擇的概率極小。根據(jù)王等[19]在全局零假設(shè)的前提下,信息位點(diǎn)的具體p值計(jì)算公式可以表示為
式中,D f為每次選擇的信息位點(diǎn)的數(shù)量,m為置換檢驗(yàn)重復(fù)的次數(shù),Di為信息位點(diǎn)i的原始排名,~Di為信息位點(diǎn)i在置換檢驗(yàn)中的排名,函數(shù)rank是用來計(jì)算信息位點(diǎn)的原始排名比置換檢驗(yàn)中排名靠前的次數(shù)。當(dāng)信息位點(diǎn)的pi 根據(jù)信息位點(diǎn)的β值估計(jì)腫瘤純度,測定方法源于鄭等人[12]。首先,確定腫瘤樣本信息位點(diǎn)的甲基化程度,判定依據(jù)是正常樣本每個(gè)CpG位點(diǎn)的平均β值。如果腫瘤樣本中信息CpG位點(diǎn)的β值高于正常樣本中相應(yīng)的β值,則該CpG位點(diǎn)為高甲基化;如果β值低于正常樣本,則該CpG位點(diǎn)為低甲基化。其次,轉(zhuǎn)換腫瘤樣本信息位點(diǎn)的β值。轉(zhuǎn)換的規(guī)則是,如果CpG位點(diǎn)是超甲基化,則β值保持不變;如果該CpG位點(diǎn)是低甲基化,則β值轉(zhuǎn)換為1-β。最后,利用高斯核密度估計(jì)方法對轉(zhuǎn)換后的信息位點(diǎn)的β值進(jìn)行估計(jì)。 本文采用皮爾森相關(guān)系數(shù)R(Pearson correla?tion coefficient)來度量不同數(shù)量信息差異甲基化位點(diǎn)的選擇對腫瘤純度的估算結(jié)果的影響。同時(shí)為了研究信息位點(diǎn)的顯著差異性,將腫瘤純度結(jié)果與數(shù)據(jù)集中隨機(jī)選擇的多組“信息位點(diǎn)”估算的結(jié)果進(jìn)行比較。 圖1表示的是選擇不同數(shù)量的信息位點(diǎn)和隨機(jī)位點(diǎn)的情況下,純度估計(jì)值的相關(guān)系數(shù)R,這里計(jì)算的相關(guān)系數(shù)是與InfiniumPurify方法相比的。圖1的橫坐標(biāo)表示選擇不同數(shù)量的CpG位點(diǎn),縱坐標(biāo)表示本文方法估算出的結(jié)果與InfiniumPurify的相關(guān)性。圖1中虛線表示的是利用本文方法選出的信息位點(diǎn)進(jìn)行估計(jì)的,實(shí)線表示利用隨機(jī)選擇位點(diǎn)進(jìn)行估計(jì)的相關(guān)性。從圖1中可以看出,利用本文方法選出的信息位點(diǎn)估算出的腫瘤純度結(jié)果與InfiniumPurify方法的相關(guān)性更高,這也表明本文方法選出的信息位點(diǎn)更具有顯著差異性。同時(shí),利用信息位點(diǎn)估算腫瘤純度的曲線趨勢,在信息位點(diǎn)數(shù)目未達(dá)到1000之前,相關(guān)性不斷增加,選擇的信息位點(diǎn)數(shù)目達(dá)到1000后相關(guān)性基本不再增加,后續(xù)基本保持穩(wěn)定,因此我們后續(xù)實(shí)驗(yàn)過程中,信息位點(diǎn)的數(shù)目選擇為1000。與此同時(shí),利用隨機(jī)位點(diǎn)估算腫瘤純度的相關(guān)性隨著位點(diǎn)選擇數(shù)目的增加呈現(xiàn)出增長的趨勢,但仍舊低于利用信息位點(diǎn)估計(jì)的相關(guān)性。我們后續(xù)隨機(jī)選擇20000個(gè)CpG位點(diǎn),相關(guān)性會呈現(xiàn)出略微下降的趨勢,這是由于選擇的位點(diǎn)數(shù)目越多,冗余信息也越多。 圖1 選擇不同數(shù)量CpG位點(diǎn)的相關(guān)性 本文得到的腫瘤純度估算結(jié)果與InfiniumPuri?fy、ESTIMATE、CPE方法比較的散點(diǎn)圖分別如圖2(a)、(b)、(c)所示。圖中的橫坐標(biāo)表示的都為本文方法估算出的腫瘤純度值,縱坐標(biāo)分別表示Infini?umPurify、ESTIMATE、CPE方法估計(jì)出的腫瘤純度值。圖中的斜線表示相關(guān)性近似程度的趨勢線。圖中的R標(biāo)識兩種方法皮爾森相關(guān)系數(shù),p是指p值,表示的是顯著性水平。 圖2 與InfiniumPurify、ESTIMATE、CPE方法腫瘤純度比較散點(diǎn)圖 通過圖2可以看出,本文方法估算出的腫瘤純度值與現(xiàn)有的其他方法具有較高的一致性。圖2(a)中與InfiniumPurify方法相關(guān)性最高,為0.81,最低為與CPE方法的相關(guān)性,為0.54。圖2(c)中的CPE方法的結(jié)果是取ABSOLUTE、ESTIMATE、HE染色和LUMP方法腫瘤純度結(jié)果的中值獲得的,而ABSOLUTE方法沒有對應(yīng)的腫瘤樣本純度值。與CPE方法的相關(guān)性略低一些,這不排除是因?yàn)槲覀儗?shí)驗(yàn)所用的樣本數(shù)略少的原因,腫瘤純度的差異容易影響相關(guān)性的高低。將方法應(yīng)用于更多的腫瘤樣本,這也是后續(xù)要繼續(xù)研究的方面。 本文使用UCSC數(shù)據(jù)庫中肝癌的DNA甲基化數(shù)據(jù),篩選出其中的疾病樣本及其配對的正常樣本數(shù)據(jù),基于CpG位點(diǎn)的“信息熵”識別出腫瘤樣本的特異性信息位點(diǎn),根據(jù)高斯核密度估計(jì)方法,利用甲基化信息位點(diǎn)的顯著差異性估算腫瘤樣本的純度。實(shí)驗(yàn)結(jié)果表明本文能夠準(zhǔn)確地估算出腫瘤純度,與現(xiàn)有的其他方法具有高度一致性,且估算出的腫瘤純度結(jié)果考慮了樣本特異性,更具生物學(xué)意義,且DNA甲基化數(shù)據(jù)相較于突變數(shù)據(jù)、拷貝數(shù)變異數(shù)據(jù)更具有穩(wěn)定性,為研究腫瘤樣本提供了不同方面的解釋。4 最佳信息位點(diǎn)數(shù)目選取
5 實(shí)驗(yàn)結(jié)果及分析
6 結(jié)語