馬磊磊
摘要:染色體是由核苷酸序列排列而成,并通過折疊盤旋形成一定的空間結(jié)構(gòu)。染色體在折疊盤旋時(shí)相互接觸形成調(diào)控因子,調(diào)控生物體的各項(xiàng)生命活動(dòng)?,F(xiàn)階段染色體空間結(jié)構(gòu)的表示方法是將三維的空間結(jié)構(gòu)表示成二維的接觸矩陣,接觸矩陣中的值使用Hi-C等高通量測序技術(shù)得到,這個(gè)值表示兩個(gè)染色體片段的接觸次數(shù)。而生物方法存在實(shí)驗(yàn)周期長、代價(jià)高等問題,本文針對(duì)生物實(shí)驗(yàn)中存在的問題,提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)的染色體交互預(yù)測算法,并取得了較好的預(yù)測效果。
關(guān)鍵詞:染色體;空間結(jié)構(gòu);Hi-C;卷積神經(jīng)網(wǎng)絡(luò);染色體交互預(yù)測
中圖分類號(hào):TP3-05 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2020)03-0198-02
1 研究背景與現(xiàn)狀
高通量測序技術(shù)引導(dǎo)的生命科學(xué)大數(shù)據(jù)時(shí)代的來臨,生物信息學(xué)相關(guān)數(shù)據(jù)出現(xiàn)爆炸式增長,每天產(chǎn)生TB級(jí)別甚至更多的序列數(shù)據(jù),對(duì)于這些數(shù)據(jù)的挖掘和分析已經(jīng)發(fā)展成為熱點(diǎn)的研究問題。
Hi-C技術(shù)[1]是一種以細(xì)胞核為研究對(duì)象,利用高通量測序,結(jié)合生物信息[2]分析方法,研究全基因組范圍內(nèi)整個(gè)染色質(zhì)DNA在空間位置上的關(guān)系,并獲得高分辨率的染色體調(diào)控元件相互作用圖譜的技術(shù)。Hi-C技術(shù)為研究染色體空間結(jié)構(gòu)提供了重要的數(shù)據(jù)基礎(chǔ)。
Hi-C技術(shù)本質(zhì)上是一種高通量測序的生物實(shí)驗(yàn)方法[3],這種方法獲取染色體交互數(shù)據(jù)時(shí),存在實(shí)驗(yàn)周期長、代價(jià)高、誤差大等問題。所以使用基于計(jì)算的方法挖掘和分析相關(guān)數(shù)據(jù),進(jìn)而得到染色體交互數(shù)據(jù)具有實(shí)際意義。
現(xiàn)階段基于計(jì)算的染色體交互數(shù)據(jù)獲取方法主要分為兩大類:第一類基于生物實(shí)驗(yàn)的Hi-C數(shù)據(jù)去偏差方法[4]。其主要通過統(tǒng)計(jì)計(jì)算的方法去除生物實(shí)驗(yàn)中存在的偏差,得到較為精確的染色體交互數(shù)據(jù)。但是這類方法存在和生物實(shí)驗(yàn)同樣的問題。第二類使用表觀修飾數(shù)據(jù)預(yù)測特定區(qū)域染色體交互[5]。其主要通過編碼表觀修飾數(shù)據(jù),使用機(jī)器學(xué)習(xí)或者深度學(xué)習(xí)方法提取數(shù)據(jù)特征,預(yù)測特定區(qū)域染色體交互。這類方法可以較快地獲取特定區(qū)域的染色體交互,但是數(shù)據(jù)處理流程復(fù)雜、預(yù)測準(zhǔn)確率較低,同時(shí)不能獲得所有片段的染色體交互數(shù)據(jù)。
本文針對(duì)使用表觀修飾數(shù)據(jù)預(yù)測特定區(qū)域染色體交互的方法存在的預(yù)測準(zhǔn)確率低、預(yù)測區(qū)域具有限制性、數(shù)據(jù)處理流程復(fù)雜等問題,提出了一種以染色體親水性數(shù)據(jù)和DNA序列數(shù)據(jù)作為輸入數(shù)據(jù),使用卷積神經(jīng)網(wǎng)絡(luò)[6]預(yù)測全基因組染色體交互的方法。
2 實(shí)驗(yàn)分析
本文以染色體親水性數(shù)據(jù),DNA序列數(shù)據(jù)為原始的輸人數(shù)據(jù),同時(shí)使用Hi-C實(shí)驗(yàn)數(shù)據(jù)作為模型的監(jiān)督數(shù)據(jù)[7]。經(jīng)過數(shù)據(jù)預(yù)處理,數(shù)據(jù)編碼,特征提取等過程,進(jìn)而預(yù)測全基因組染色體交互的可能性。
2.1 算法流程
本文提出的基于卷積神經(jīng)網(wǎng)絡(luò)的染色體交互預(yù)測模型,主要使用卷積提取編碼數(shù)據(jù)的特征并用于結(jié)果預(yù)測?;诰矸e神經(jīng)網(wǎng)絡(luò)預(yù)測染色體交互方法的流程主要包括:數(shù)據(jù)預(yù)處理,數(shù)據(jù)編碼,模型設(shè)計(jì),實(shí)驗(yàn)分析四個(gè)關(guān)鍵環(huán)節(jié)。
數(shù)據(jù)預(yù)處理過程主要收集和劃分了染色體親水性數(shù)據(jù),DNA序列數(shù)據(jù),同時(shí)對(duì)Hi-C數(shù)據(jù)進(jìn)行了數(shù)據(jù)轉(zhuǎn)化,其目的是為了生成模型預(yù)測的標(biāo)簽數(shù)據(jù)。最后使用降采樣技術(shù),對(duì)Hi-C數(shù)據(jù)生成的標(biāo)簽進(jìn)行了正負(fù)樣本平衡處理。
在數(shù)據(jù)編碼階段,對(duì)按照lkb長度劃分的染色體親水性數(shù)據(jù)和DNA序列數(shù)據(jù)進(jìn)行了one-hot編碼。由于染色體親水性數(shù)據(jù)經(jīng)過預(yù)處理轉(zhuǎn)換成8個(gè)類別,分別是0-7,所以對(duì)其進(jìn)行one-hot編碼后的結(jié)果為8*1000矩陣;DNA序列數(shù)據(jù)只包含A、G、C、T四個(gè)類別,所以對(duì)其編碼后的結(jié)果為4*1000的矩陣。
模型設(shè)計(jì)階段主要完成了基于卷積神經(jīng)網(wǎng)絡(luò)預(yù)測染色體交互的模型設(shè)計(jì)工作。模型分別使用兩個(gè)卷積網(wǎng)絡(luò)獨(dú)立的提取編碼后的染色體親水性數(shù)據(jù)和DNA序列數(shù)據(jù)的數(shù)據(jù)特征,對(duì)于提取的特征進(jìn)行合并,同時(shí)再使用卷積神經(jīng)網(wǎng)絡(luò)提取更高維度的特征,最后使用全連接層加Softmax函數(shù)進(jìn)行染色體交互可能性預(yù)測。
實(shí)驗(yàn)分析階段主要完成了模型訓(xùn)練和預(yù)測工作,同時(shí)對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行了簡單的分析。
2.2 模型設(shè)計(jì)
卷積神經(jīng)網(wǎng)絡(luò)具有學(xué)具表征,特征提取的能力,同時(shí)具有尺度不變性?;诰矸e神經(jīng)網(wǎng)絡(luò)預(yù)測染色體交互算法,其模型主要功能模塊包括:卷積層,最大池化層,合并層,全連接層及二分類預(yù)測層。模型的結(jié)構(gòu)圖如圖1所示。
2.3 模型訓(xùn)練
基于上述的染色體交互預(yù)測模型,我們使用GM12878細(xì)胞系數(shù)據(jù)作為實(shí)驗(yàn)的數(shù)據(jù)集,通過降采樣方法,采樣了100W對(duì)有染色體交互的樣本記為正樣本,IOOW對(duì)沒有染色體交互的樣本作為負(fù)樣本。將采樣得到的200W對(duì)數(shù)據(jù),按照9:1的比例劃分為訓(xùn)練集和測試集,訓(xùn)練集180W對(duì),測試集20W對(duì)。
由于模型是一個(gè)二分類模型,模型的正樣本標(biāo)簽為l,負(fù)樣本標(biāo)簽為0。在模型訓(xùn)練過程中,文中選取了交叉熵?fù)p失函數(shù)[8],使用梯度下降技術(shù)進(jìn)行訓(xùn)練,同時(shí)使用Adam算子進(jìn)行優(yōu)化。模型的損失函數(shù)如下所示:
2.4 模型預(yù)測及結(jié)果分析
基于上述的訓(xùn)練模型,我們使用20W對(duì)測試集對(duì)模型訓(xùn)練效果進(jìn)行了測試和評(píng)價(jià)??紤]到模型是一個(gè)二分類模型,文中使用了AUROC和AUPR作為模型的評(píng)價(jià)指標(biāo)。AUROC指ROC曲線下的面積,其意義表示隨機(jī)獲取一個(gè)正樣本和一個(gè)負(fù)樣本,模型預(yù)測為正的結(jié)果把正樣本排在負(fù)樣本之前的概率,可以有效地衡量一個(gè)二分類模型的效果。AUPR指Recall值和preclsion值形成的曲線下面積。我們使用CM12878細(xì)胞系測試數(shù)據(jù)集的測試結(jié)果如圖2。
觀察模型的預(yù)測結(jié)果,我們發(fā)現(xiàn),本文提出的基于卷積神經(jīng)網(wǎng)絡(luò)的染色體交互預(yù)測模型在進(jìn)行染色體交互可能性預(yù)測時(shí)AUC值可以達(dá)到0.685,同時(shí)預(yù)測結(jié)果的PR曲線下面積也可以達(dá)到0.187。
3 結(jié)論
本文分析了染色體交互可能的形成機(jī)制[9],以染色體親水性數(shù)據(jù),DNA序列數(shù)據(jù)作為模型的基礎(chǔ)輸入數(shù)據(jù),使用基于卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)模型預(yù)測了染色體交互的可能性。實(shí)驗(yàn)結(jié)果表明,基于卷積神經(jīng)網(wǎng)絡(luò)的染色體交互預(yù)測模型可以有效地預(yù)測全基因組范圍內(nèi)lkb長度的染色體交互,同時(shí)可以得到較高的AUC值,本模型對(duì)于使用深度網(wǎng)絡(luò)模型預(yù)測染色體交互具有很好的實(shí)用價(jià)值和參考意義。
參考文獻(xiàn):
[1] JinF, Li Y.Dixon J R.et al.A high-resolution map of thethree-dimensional chromatin interactome in human cells[J].Nature, 2009,503(7475):290-294.
[2]董建成霍奇曼,林安華,生物信息學(xué)[M].北京:科學(xué)出版社,2010.
[3]呂紅強(qiáng),郝樂樂,劉源,等.基于生物信息學(xué)的Hi-C研究現(xiàn)狀與發(fā)展趨勢(三維基因組專刊稿件)[J].遺傳,2019: 0-0.
[4] Lettice L A.Disruption of a long-range cis-acting regulatorfor Shh causes preaxial polydactyly[J]. Proc. Natl Acad. Sci.USA 99, 2002: 7548-7553.
[5] Wenran L,Hung W W, Rui J.DeepTACT: predicting 3D chro-matin contacts via bootstrapping deep learning[J]. Nucleic Ac-ids Research. 2018 (10):10.
[6] S.Chopra, R.Hadsell, and Y.LeCun. Leaming a similarity met-ric discriminatively, with application to face verification, inProc[J]. IEEE Comput. Soc. Conf. CVPR, 2002:539-546.
[7] Rao,S.S.et al.A 3D map of the human genome at kilobaseresolution reveals principles of chromatin looping[J]. Cell. 2014 (159):1665-1680.
[8]閻平凡,張長水.人工神經(jīng)網(wǎng)絡(luò)與模擬進(jìn)化計(jì)算[M].北京:清華大學(xué)出版社,1900.
[9]吳燕如,珠杰,管美靜,基于神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測技術(shù)研究綜述及應(yīng)用[J].電腦知識(shí)與技術(shù),2019,15(33):181-184.