• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于組蛋白修飾數(shù)據(jù)預(yù)測基因差異性表達的深度融合模型

      2022-11-30 08:39:30李昕賈韜
      計算機應(yīng)用 2022年11期
      關(guān)鍵詞:特異性建模預(yù)測

      李昕,賈韜

      基于組蛋白修飾數(shù)據(jù)預(yù)測基因差異性表達的深度融合模型

      李昕,賈韜*

      (西南大學(xué) 計算機與信息科學(xué)學(xué)院,重慶 400715)(?通信作者電子郵箱tjia@swu.edu.cn)

      針對使用大規(guī)模組蛋白修飾(HM)數(shù)據(jù)預(yù)測基因差異性表達(DGE)時未合理利用細胞型特異性(CS)和細胞型間異同兩類信息,且輸入規(guī)模大、計算量高等問題,提出一種深度學(xué)習(xí)方法dcsDiff。首先,使用多個自編碼器(AE)和雙向長短時記憶(Bi?LSTM)網(wǎng)絡(luò)降維,并建模HM信號得到嵌入表示;然后,利用多個卷積神經(jīng)網(wǎng)絡(luò)(CNN)分別挖掘每類CS的HM組合效應(yīng)以及兩細胞型間每種HM的異同信息和所有HM的聯(lián)合影響;最后,融合兩類信息預(yù)測兩細胞型間的 DGE。在對REMC數(shù)據(jù)庫中10對細胞型的實驗中,與DeepDiff相比,dcsDiff的預(yù)測DGE的皮爾遜相關(guān)系數(shù)(PCC)最高提升了7.2%、平均提升了3.9%,準(zhǔn)確檢測出差異表達基因的數(shù)量最多增加了36、平均增加了17.6,運行時間節(jié)省了78.7%;進一步的成分分析實驗證明了合理整合上述兩類信息的有效性;并通過實驗確定了算法的參數(shù)。實驗結(jié)果表明dcsDiff能有效提高DGE預(yù)測的效率。

      組蛋白修飾;基因差異性表達;細胞型特異性;自編碼器;雙向長短時記憶網(wǎng)絡(luò);信息融合;表觀遺傳學(xué)

      0 引言

      組蛋白修飾(Histone Modification, HM)是最重要的表觀遺傳分子機制之一,指組蛋白在相關(guān)酶作用下的修飾過程,如甲基化、乙?;?、磷酸化、腺苷化、泛素化等[1]。這些修飾涉及不同的脫氧核糖核酸(DeoxyriboNucleic Acid, DNA)區(qū)域(例如啟動子區(qū)域和增強子區(qū)域)[2-3],通過改變或限制DNA相關(guān)區(qū)域的可接近性,HM可以激活或抑制特定功能基因的表達,從而影響生命過程[4]。HM譜的變化可能導(dǎo)致基因的差異性表達(Differential Gene Expression, DGE)現(xiàn)象[5-6],即特異性基因在不同細胞或同一細胞的不同發(fā)育階段出現(xiàn)了表達差異,從而產(chǎn)生特異性蛋白,導(dǎo)致細胞形態(tài)、結(jié)構(gòu)和功能的差異[7-9]。DGE與各種生物表型和許多疾病的遺傳過程密切相關(guān)。通過分析不同細胞型間的HM模式,探索HM模式對基因表達(Gene Expression, GE)的影響,預(yù)測DGE并檢測差異表達的基因,可以為復(fù)雜疾病的研究和表觀遺傳藥物的開發(fā)提供新的見解。

      人們在GE領(lǐng)域做出了許多努力以理解其分子機制[10-20]。為預(yù)測GE,研究人員嘗試使用各種類型的生物學(xué)數(shù)據(jù),包括轉(zhuǎn)錄因子結(jié)合位點(Transcription Factor Binding Site, TFBS)數(shù)據(jù)[21]、DNA甲基化數(shù)據(jù)[22]、DNA可及性數(shù)據(jù)[23]、組蛋白修飾數(shù)據(jù)[24],還有一些融合多個數(shù)據(jù)源[25-30]。然而,文獻[26]中證明了轉(zhuǎn)錄因子結(jié)合位點數(shù)據(jù)和HM數(shù)據(jù)在預(yù)測GE方面具有嚴(yán)格的統(tǒng)計學(xué)意義上的冗余性。再者,HM可以調(diào)節(jié)染色質(zhì)的開放程度來影響DNA的可及性。當(dāng)DNA可及性較高時,后續(xù)的轉(zhuǎn)錄因子可與DNA結(jié)合,從而影響GE。因此,僅利用多種多樣的HM數(shù)據(jù)就能準(zhǔn)確預(yù)測GE。鑒于此,目前已有多種計算方法通過挖掘大規(guī)模HM信號[31-33]來預(yù)測GE,可以降低分析大規(guī)模HM信號的傳統(tǒng)實驗的高昂成本。

      最早的方法是將整個選定的基因區(qū)域內(nèi)HM信號的平均值作為線性回歸和規(guī)則學(xué)習(xí)的輸入特征[24-34]。然而,不同基因各自的HM信號在DNA上具有不同的分布模式,這種方法默認所有基因的所有HM都是相同的分布模式,無法捕捉到分布差異信息,影響了對目標(biāo)GE的預(yù)測精度。接著binning策略應(yīng)運而生,即把每個基因以轉(zhuǎn)錄起始位點(Transcription Start Site, TSS)為中心的DNA區(qū)域劃分成更小的箱子(記作bin),然后提取每個bin的HM信號作為機器學(xué)習(xí)模型(如支持向量機、支持向量回歸(Support Vector Regression, SVR)、隨機森林)的輸入特征,以預(yù)測GE[26,35-36]。早期基于binning策略的方法可以進一步分為兩種類型:特異性bin和最佳bin方法。特異性bin方法通常分開為每個bin建模,而最佳bin方法僅選擇與GE相關(guān)性最大的一個bin作為輸入。這些早期的binning方法可以識別不同HM信號分布對GE的差異影響,但忽略了輸入bin之間的連接關(guān)系,導(dǎo)致重要的表觀遺傳信息丟失?;谏疃葘W(xué)習(xí)的方法可以克服早期binning方法的不足。深度學(xué)習(xí)方法可以對輸入HM信號進行非線性編碼,捕獲輸入樣本的局部和全局特征,并能自動挖掘輸入bin之間的連接性與HM間的組合效應(yīng)[37-39]。盡管深度學(xué)習(xí)方法改進了利用HM信號進行GE預(yù)測的方法,但它們?nèi)匀淮嬖谝恍﹩栴}。首先,它們或沒有考慮HM的模塊化特性(即每種HM可以被視為一個小的遺傳模塊),沒有分別為每類HM建模,而是直接簡單將一個基因所有類型的HM原始信息一并融合處理;或在綜合捕獲各HM組合效應(yīng)時的粒度不夠精細,只是在宏觀上考量各HM組合起來的影響,沒有在DNA區(qū)域每一個局部位置考察該處各HM的局部組合效應(yīng);再者,不同組織類型或不同細胞發(fā)育階段的GE是不同的。當(dāng)需要分析基因在兩種細胞型之間發(fā)生差異性表達的原因時,細胞型特異性(Cell type?Specificity, CS)基因表達預(yù)測方法只能分別預(yù)測各單一細胞型下的GE值,然后基于GE值計算不同細胞型之間的DGE值,這種預(yù)測DGE的方法是不連貫且孤立的,更不能捕獲每個基因在不同細胞型中HM的差異信息。采用一致性方法直接預(yù)測兩種細胞型間的DGE值比細胞型特異性基因表達(CS GE)預(yù)測更準(zhǔn)確可靠,但大多數(shù)方法仍側(cè)重于單一細胞型的CS GE預(yù)測,DGE預(yù)測方法仍比較缺乏。

      考慮到這些問題,本文提出了dcsDiff算法,基于深度學(xué)習(xí)分別對不同細胞型間HM的異同信息和單一細胞型下的HM特異性信息進行針對性建模,并將其融合以預(yù)測兩種細胞型間的DGE值。dcsDiff首先利用多個自編碼器(AutoEncoder, AE)和雙向長短時記憶(Bi?directional Long Short?Term Memory, Bi?LSTM)網(wǎng)絡(luò)[40]減小輸入規(guī)模,對bin連接信息和HM模塊化特性進行建模,得到各細胞條件下各HM的嵌入表示。這些嵌入表示分別輸入到多個卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)[41]中。其中:s?CNNs分別挖掘每一類細胞型特異的HM組合效應(yīng);d?CNN用于挖掘兩類細胞型間每種HM的共性和差異性以及所有類型HM的聯(lián)合影響。最后,dcsDiff融合細胞型特異性信息和細胞型間異同信息來預(yù)測兩種細胞型下的DGE值。通過利用s?CNNs和d?CNN分別對單一細胞型特異性HM信息和兩細胞型間HM異同信息有針對性地建模,dcsDiff可以更全面地獲取HM信號的豐富信息。利用AE降低維數(shù),dcsDiff可以進一步降低運行時間。此外,dcsDiff還利用單一細胞型的CS GE預(yù)測反向傳播以繼續(xù)優(yōu)化該細胞型的特異性HM組合信息表示,進一步提高DGE的預(yù)測精度。基于這些優(yōu)點,dcsDiff在REMC(Roadmap Epigenomics Mapping Consortium)數(shù)據(jù)庫[42]的10種不同生物細胞型對上的預(yù)測精度均優(yōu)于SVR[26]、DeepChrome[37]、AttentiveChrome[38]和DeepDiff[39]等代表性相關(guān)方法,且運行速度也比大多數(shù)方法高得多。進一步的實驗也證實了dcsDiff可以準(zhǔn)確檢測出差異表達的基因。

      1 相關(guān)工作

      根據(jù)預(yù)測是否在單一細胞型條件下進行,GE預(yù)測方法可分為細胞型特異性基因表達(CS GE)預(yù)測和差異性基因表達(DGE)預(yù)測兩大類。

      CS GE預(yù)測的目的是推斷單一細胞型條件下的GE。文獻[34]中利用線性回歸來量化來自人類T細胞數(shù)據(jù)集[35]的HM和GE的關(guān)系。文獻[35]中首先把每個轉(zhuǎn)錄本的轉(zhuǎn)錄起始位點(TSS)和轉(zhuǎn)錄終止位點(Transcription Termination Site, TTS)兩側(cè)的DNA區(qū)域切割成大小為100個堿基對(base pair, bp)的小bin(即把DNA切割成小箱),計算每個bin在對應(yīng)HM的平均HM信號值,得到每個bin的輸入矩陣。然后,使用多個bin特異的支持向量機(Support Vector Machines, SVM)對每個bin建模,以預(yù)測蠕蟲數(shù)據(jù)集[43]上轉(zhuǎn)錄本的表達。文獻[36]中采用特征選擇,選擇與GE相關(guān)性最大的最佳bin作為輸入,然后在人類數(shù)據(jù)集[44]上對HM信號利用隨機森林分類器進行GE的高低分類,從而評價HM對GE的影響。文獻[37]中使用CNN自動學(xué)習(xí)HM之間的組合效應(yīng)來對GE進行高低分類,并使用基于類優(yōu)化的技術(shù)來可視化學(xué)習(xí)模型。文獻[38]中利用多個基于注意力的Bi?LSTM模塊對輸入的HM信號進行編碼,并對HM組合交互作用進行建模,將GE進行高低分類,以理解HM模式對GE的影響。然而,當(dāng)需要一致性地分析不同細胞型中基因差異性表達時,CS GE預(yù)測方法不能捕獲每個基因在不同細胞型中HM的差異模式,直接進行DGE預(yù)測是更優(yōu)的選擇。

      DGE預(yù)測的目的是直接預(yù)測兩種不同細胞型條件下的基因差異表達值。文獻[26]中引入了雙層SVR框架,將轉(zhuǎn)錄因子結(jié)合位點數(shù)據(jù)和HM數(shù)據(jù)分別在小鼠胚胎干細胞和神經(jīng)前體細胞條件下的差異作為輸入,預(yù)測DGE值。文獻[27]中考慮了癌癥基因組圖譜(The Cancer Genome Atlas, TCGA)[45]中配對肺癌、相鄰正常組織的CpG甲基化陣列數(shù)據(jù),以及DNA元素百科全書(ENCyclopedia Of DNA Elements, ENCODE)[46]項目中組蛋白標(biāo)記的染色質(zhì)免疫共沉淀技術(shù)(CHromatin ImmunoPrecipitation, CHIP?seq)數(shù)據(jù),使用文獻[47]中提出的ReliefF算法進行特征選擇,然后使用隨機森林分類來預(yù)測TCGA肺癌與正常組織的DGE值。文獻[39]中基于多個Bi?LSTM,利用細胞型特定的GE預(yù)測輔助任務(wù)來鼓勵DGE預(yù)測任務(wù)進行更豐富的HM特征嵌入。這些DGE預(yù)測方法有的直接利用兩種細胞型間HM信號的差異值作為輸入,沒有考慮到細胞型特異性HM信息[26];有的將細胞型特定的HM信號值和不同細胞型間HM信號的差異值簡單拼接起來,同時探索細胞型特異性HM信息和細胞型間HM差異信息,忽略了細胞型間HM差異模式與單一細胞型CS HM模式[39]的不同。為了充分利用細胞型特異性HM信息和兩種不同細胞型間的HM差異信息,有必要根據(jù)這兩種信息的特點,構(gòu)建更有效的模型,以不同的方式描述這兩種信息。此外,早期的GE預(yù)測方法往往忽略了HM信號內(nèi)各個bin之間的連接關(guān)系[26,35-36]以及HM信號的模塊化特性[37],可能會導(dǎo)致重要表觀遺傳信息的丟失,而基于深度學(xué)習(xí)的方法往往缺乏對HM信號信息的精細建模[38-39]。再者,前面提到的方法大多具有維度高、計算量大的缺點[26,35,38-39]。

      2 問題定義

      2)在細胞型和間的DGE值定義為基因在中表達值與在中表達值的對數(shù)倍變化。

      3 dcsDiff方法

      dcsDiff旨在通過挖掘不同細胞型的HM信號模式,預(yù)測基因的差異表達值,尋找差異表達的基因。dcsDiff中有三個核心部分:AE?LSTMs、s?CNNs和d?CNN,如圖1所示。AE?LSTMs由多個AE和Bi?LSTM組成,它們分別對每個細胞型的每種模塊化的HM信號數(shù)據(jù)進行建模得到嵌入表示,之后這些嵌入表示分別輸入到d?CNN和s?CNNs。d?CNN首先提取兩細胞型之間每種HM的共性和細微差異,然后綜合捕獲所有HM的聯(lián)合效應(yīng)信息,獲得兩種細胞型對應(yīng)的所有HM信號的異同信息表示。s?CNNs挖掘每種細胞型中特異的HM組合效果,以分別獲得每一細胞型的特異性表示。通過細胞型特異性的GE預(yù)測和反向傳播以繼續(xù)優(yōu)化相應(yīng)細胞型的特異性信息表示。最后,多層感知機(Multi?Layer Perceptron, MLP)將融合前面s?CNNs和d?CNN挖掘出的重要的細胞型特異性信息、兩細胞型間異同信息,最終預(yù)測兩種細胞型間DGE值。

      圖1 dcsDiff的框架

      3.1 數(shù)據(jù)預(yù)處理

      首先用binning策略對HM信號數(shù)據(jù)進行處理,得到每個基因的輸入矩陣,如圖2所示,數(shù)據(jù)詳情見4.1.1節(jié)。

      圖2 每個基因在每兩種細胞型下的數(shù)據(jù)處理策略

      3.2 AE?LSTMs獲取HM嵌入表示

      3.3 d?CNN捕獲細胞型間HM異同信息

      在不同的生物組織類型或細胞發(fā)育階段,基因的表達可能因HM譜的變化而存在差異。為了探索兩種細胞型之間可能導(dǎo)致不同程度DGE的HM異同信息,引入了基于CNN的d?CNN。它首先對兩種細胞型之間的每類HM提取異同特征,然后捕獲所有HM的異同聯(lián)合效應(yīng),最后得到細胞型和的HM異同表示,具體如下。

      其中是激活函數(shù)整流線性單元(Rectified Linear Unit, ReLU)[48]。接下來是最大池化層,池化大小為(1,1),用于降維:

      2存儲了所有HM的異同組合效應(yīng)。接下來是一個最大池化層,池化大小為(1,2),得到壓縮的特征矩陣2:

      3.4 s?CNNs捕獲各細胞型特異性HM信息

      每種細胞型的GE水平受該細胞型下HM的組合模式所影響。引入每個細胞型的CS HM信息可以提高DGE預(yù)測精度,然而單一細胞型的CS HM模式不同于兩個細胞型間HM異同模式。因此,引入s?CNNs對CS HM信號數(shù)據(jù)進行有針對性地建模,以充分利用每個特定細胞型的CS HM信息。s?CNNs分別對每種細胞型的HM信號數(shù)據(jù)進行建模,利用CNN來挖掘每個特定細胞型條件下的HM組合效應(yīng),分別為細胞型和獲得CS HM表示。

      3.5 單一細胞型的CS GE預(yù)測

      由于每個細胞型的特異性HM信息的引入可以提高DGE預(yù)測精度,已于3.4節(jié)獲取了每個細胞型的CS HM表示。為了更準(zhǔn)確地描述CS HM表示,本文算法還采用了基于反向傳播優(yōu)化的CS GE預(yù)測方法。

      為了獲得CS HM表示的更準(zhǔn)確描述以用于后續(xù)DGE預(yù)測,將輸入MLP進行CS GE預(yù)測:

      3.6 細胞型間DGE預(yù)測

      4 實驗與結(jié)果分析

      4.1 實驗設(shè)置

      4.1.1數(shù)據(jù)集

      表1 組蛋白修飾及相關(guān)基因組區(qū)域

      表2 REMC數(shù)據(jù)庫中選擇的9種細胞型和ID

      表3 選擇的實驗細胞型對

      4.1.2對比方法

      將本文方法與以下幾種具有代表性的相關(guān)方法進行對比:SVR[26]、DeepChrome[37]、AttentiveChrome[38]和DeepDiff[39]。因為很少有在HM層面預(yù)測DGE的方法,DeepChrome和AttentiveChrome作為先進的CS GE預(yù)測方法,也被選做對比方法,它們也可以間接用于DGE預(yù)測。SVR和DeepDiff都是DGE預(yù)測方法。

      對于CS GE分類方法DeepChrome和AttentiveChrome,分別在9種細胞型中訓(xùn)練它們?yōu)镃S GE回歸任務(wù),以預(yù)測單一細胞型下的GE值,然后計算選定的10種細胞型對之間的DGE值。所有這些對比方法都遵循作者的實驗設(shè)置建議實施。用scikit?learn[50]包重新實現(xiàn)SVR,用Pytorch重新實現(xiàn)DeepChrome和AttentivChrome,并直接采用DeepDiff的共享源代碼。

      4.1.3參數(shù)設(shè)置

      4.1.4評價指標(biāo)

      選擇的評價指標(biāo)是皮爾遜相關(guān)系數(shù)(Pearson Correlation Coefficient, PCC),它通常用于DGE預(yù)測。PCC是兩個變量之間協(xié)方差和標(biāo)準(zhǔn)差的商,定義如下:

      4.2 基因的差異性表達預(yù)測結(jié)果

      dcsDiff和對比方法在10種細胞型對上的DGE預(yù)測結(jié)果如圖3所示。在大多數(shù)細胞型對中,SVR在所有比較方法中表現(xiàn)最差,因為它單獨建模每個bin,忽略了每個HM內(nèi)部各bin的連接關(guān)系;作為一個深度學(xué)習(xí)框架,DeepChrome自動整合bin信息的局部和全局特征,在大多數(shù)細胞型對中比SVR的性能更好;AttentiveChrome分別建模每個HM以考慮它們的模塊化信息,但DeepChrome直接集成所有HM導(dǎo)致丟失了這種信息,因此AttentiveChrome比DeepChrome表現(xiàn)更好;DeepDiff利用與AttentiveChrome相似的基于Bi?LSTM的框架,將CS HM信號數(shù)據(jù)和HM信號差值數(shù)據(jù)簡單拼接作為DGE預(yù)測的輸入,它比AttentiveChrome的結(jié)果更好說明了DGE預(yù)測的必要性。

      在細胞對E003?E004和E037?E038中,兩種細胞型對之間的HM模式可能存在較大差異。DeepChrome和AttentiveChrome分別預(yù)測兩種細胞型的CS GE,然后再計算DGE;而SVR和DeepDiff則分別將兩種細胞型的差值矩陣作為輸入來預(yù)測DGE。后者更偏好兩種細胞型間HM差異較大的輸入,因此SVR在E003?E004和E037?E038中的性能甚至比DeepChrome更好,且DeepDiff和AttentiveChrome在E003?E004和E037?E038中的性能差距比其他細胞型對中更大。在所有細胞型對中,dcsDiff優(yōu)于其他所有的對比方法。dcsDiff結(jié)合CNN和Bi?LSTM對bin的連接關(guān)系和模塊化特性進行建模,避免了重要表觀遺傳信息丟失,從而優(yōu)于SVR等傳統(tǒng)機器學(xué)習(xí)方法。dcsDiff引入d?CNN和s?CNNs分別提取兩種細胞型間HM異同信息和每類細胞型的特異性HM信息,從而實現(xiàn)了對HM模式的精確建模,比現(xiàn)有的深度學(xué)習(xí)方法性能更好。此外,采用自編碼器降低輸入數(shù)據(jù)維數(shù),dcsDiff比大多數(shù)對比方法花費更少的運行時間(詳情見第4.6節(jié))。

      圖3 各細胞型對中dcsDiff和對比方法的PCC

      4.3 差異表達基因檢測結(jié)果

      4.4 dcsDiff成分分析

      為了進一步分析dcsDiff中各成分的重要性,構(gòu)建變種實驗來研究它們在DGE預(yù)測中的有效性。其中:dcsDiff?l只利用AE?LSTMs建模bin連接信息和HM模塊化特性;dcsDiff?d包含AE?LSTMs和d?CNN,探索細胞型間的HM異同信息;dcsDiff?s包含AE?LSTMs和s?CNNs,捕獲兩種細胞型各自的CS HM信息;dcsDiff結(jié)合了AE?LSTMs、d?CNN和s?CNNs來整合這些信息進行DGE預(yù)測。結(jié)果如圖4所示:dcsDiff?l在所有變種中表現(xiàn)最差,說明僅利用每種細胞型下每種HM的bin連接信息和HM模塊化特性來預(yù)測DGE是不夠的。dcsDiff?s的效果比dcsDiff?d的效果好,表明在大部分情況下細胞型特異性HM信息比兩細胞型間HM異同信息更重要。如前所述,在細胞型對E003?E004和E037?E038中可能存在較大的HM差異,dcsDiff?d比dcsDiff?s更偏好差異較大的輸入,在這兩個細胞型對下dcsDiff?d和dcsDiff?s的性能相當(dāng)也證實了這一點。dcsDiff將兩種細胞型間的HM異同信息和每種細胞型的特異性HM信息進行集成,總能獲得最佳的性能,說明合理整合這兩種信息對DGE預(yù)測是有效和必要的。

      表4 每個細胞型對的DE基因以及被dcsDiff和 DeepDiff正確檢測到的DE基因的統(tǒng)計

      圖4 10個細胞型對中不同dcsDiff變種的PCC

      4.5 bin對dcsDiff的影響分析

      4.6 運行時間分析

      本文算法在一個中等大小的服務(wù)器(Ubuntu 16.04、Intel Xeon Platinum 8163 CPU @ 2.50GHz、NVIDIA TITAN V GPU、1TB RAM)上進行實驗,以研究dcsDiff與其他對比方法的運行時間。所有的對比方法都用Python 3.6實現(xiàn)。為了公平起見,采用相同的批大小訓(xùn)練了所有的深度學(xué)習(xí)方法(DeepChrome、AttentiveChrome、DeepDiff和dcsDiff)。由于scikit?learn不支持GPU,因此并行運行SVR模型中所有的bin特異性SVR。實驗結(jié)果見表6。

      圖5 不同輸入大小下dcsDiff的PCC

      表5 bin大小及相應(yīng)的bin數(shù)目

      表6 運行時間統(tǒng)計 單位: min

      由表6可知,即使是在并行計算的情況下,SVR仍然比dcsDiff有更長的運行時間,因為它利用bin特異的SVR來建模每個bin,因此在每個訓(xùn)練過程中需要訓(xùn)練太多的模型。DeepDiff和AttentiveChrome都是基于Bi?LSTM的方法,它們利用多個Bi?LSTM來建模輸入的HM,也需要很長的運行時間,因為Bi?LSTM需要建模長依賴特性。DeepChrome只使用一個CNN來建模所有HM信息,所以它需要最少的運行時間。盡管dcsDiff需要對兩種細胞型間異同信息和細胞型特異性信息進行建模,而DeepChrome只建模一種細胞型的細胞型特異性信息,dcsDiff通過在Bi?LSTM之前使用自編碼器對輸入規(guī)模進行壓縮以減少運行時間,通常在30個epoch內(nèi)收斂,而DeepChrome需要迭代100個epoch。綜上所述,dcsDiff方法不僅比其他方法具有更高的DGE預(yù)測精度,而且運行速度也比大多數(shù)方法快得多。

      5 結(jié)語

      HM在GE調(diào)控中起著重要作用,它們可以協(xié)同引起DGE現(xiàn)象。通過大規(guī)模的HM數(shù)據(jù)預(yù)測DGE,檢測不同細胞型之間的差異表達基因,可以幫助研究人員更好地理解表觀遺傳機制。然而,目前的解決方案往往面臨各種信息利用不足、建模不精確、輸入規(guī)模大、耗時長等問題。本文提出了基于Bi?LSTM和CNN等深度學(xué)習(xí)框架的方法dcsDiff,分別對細胞型間HM異同信息和細胞型特異性HM信息進行精確建模,并最終融合這些信息來預(yù)測兩種細胞型之間的差異基因表達。dcsDiff不僅優(yōu)于現(xiàn)有的對比方法,而且運行速度也比大多數(shù)對比方法快。本文研究表明,在信息融合前對不同信息分別進行更精確的建??梢蕴岣卟町惐磉_基因檢測的準(zhǔn)確性。基于其較高的準(zhǔn)確性和效率,dcsDiff可作為預(yù)測差異基因表達的新框架。未來的工作將探索更多與差異基因表達相關(guān)的表觀遺傳修飾。

      [1] BANNISTER A J, KOUZARIDES T. Regulation of chromatin by histone modifications[J]. Cell Research, 2011, 21(3): 381-395.

      [2] HEINTZMAN N D, STUART R K, HON G, et al. Distinct and predictive chromatin signatures of transcriptional promoters and enhancers in the human genome[J]. Nature Genetics, 2007, 39(3): 311-318.

      [3] BONASIO R, TU S J, REINBERG D. Molecular signals of epigenetic states[J]. Science, 2010, 330(6004): 612-616.

      [4] LI B, CAREY M, WORKMAN J L. The role of chromatin during transcription[J]. Cell, 2007, 128(4): 707-719.

      [5] LIM P S, HARDY K, BUNTING K L, et al. Defining the chromatin signature of inducible genes in T cells[J]. Genome Biology, 2009, 10(10): No.R107.

      [6] CAIN C E, BLEKHMAN R, MARIONI J C, et al. Gene expression differences among primates are associated with changes in a histone epigenetic modification[J]. Genetics, 2011, 187(4): 1225-1234.

      [7] GJONESKA E, PFENNING A R, MATHYS H, et al. Conserved epigenomic signals in mice and humans reveal immune basis of Alzheimer’s disease[J]. Nature, 2015, 518(7539): 365-369.

      [8] WENG N P, ARAKI Y, SUBEDI K. The molecular basis of the memory T cell response: differential gene expression and its epigenetic regulation[J]. Nature Reviews Immunology, 2012, 12(4): 306-315.

      [9] RINTISCH C, HEINIG M, BAUERFEIND A, et al. Natural variation of histone modification and its impact on gene expression in the rat genome[J]. Genome Research, 2014, 24(6): 942-953.

      [10] 劉建敏,曹蜀煒,張萌,等. RNF2基因在喉癌組織及細胞中的表達情況研究[J]. 醫(yī)學(xué)綜述, 2018, 24(14): 2886-2889, 2895.(LIU J M, CAO S W, ZHANG M, et al. Study of RNF2 expression in larynocarcinoma tissue and cells[J]. Medical Recapitulate, 2018, 24(14): 2886-2889, 2895.)

      [11] 岳峰,孫亮,王寬全,等. 基因表達數(shù)據(jù)的聚類分析研究進展[J]. 自動化學(xué)報, 2008, 34(2):113-120.(YUE F, SUN L, WANG K Q, et al. State?of?the?art of cluster analysis of gene expression data[J]. Acta Automatica Sinica, 2008, 34(2):113-120.)

      [12] 閆麒,藺亞妮,黃先琪,等. 急性髓系白血病融合基因表達特點分析[J]. 中華血液學(xué)雜志, 2021, 42(6):480-486.(YAN Q, LIN Y N, HUANG X Q, et al. Analysis of fusion gene expression in acute myeloid leukemia[J]. Chinese Journal of Hematology, 2021, 42(6):480-486.)

      [13] 雷越,萬婕,文韜宇,等. siRNA沉默F(xiàn)OXM1基因表達對人鼻咽癌細胞增殖、凋亡及化療敏感性的影響[J]. 腫瘤, 2018, 38(1):25-34.(LEI Y, WAN J, WEN T Y, et al. Effects of siRNA silencing the expression of FOXM1 gene on proliferation, apoptosis and chemosensitivity of human nasopharyngeal carcinoma cells[J]. Tumor, 2018, 38(1): 25-34.)

      [14] 袁佳儀,何恒晶,畢婭瓊,等. TOP2A基因表達對膀胱癌的預(yù)后價值分析[J]. 國際腫瘤學(xué)雜志, 2018, 45(1):22-26.(YUAN J Y, HE H J, BI Y Q, et al. Prognostic value analysis of TOP2A gene expression for bladder cancer[J]. Journal of International Oncology, 2018, 45(1): 22-26.)

      [15] 劉瀟,李文桂. 銅綠假單胞菌重組Bb?OprI疫苗誘導(dǎo)小鼠保護力和脾細胞因子基因表達變化的研究[J]. 中國病原生物學(xué)雜志, 2018, 13(3):226-229.(LIU X, LI W G. Study on protection by and changes in expression of cytokine genes in splenocytes from mice inoculated with a recombinant Bb?Oprl vaccine against Pseudomonas aeruginosa[J]. Journal of Pathogen Biology, 2018, 13(3):226-229.)

      [16] JIA T, KULKARNI R V. Intrinsic noise in stochastic models of gene expression with molecular memory and bursting[J]. Physical Review Letters, 2011, 106(5): No.058102.

      [17] QIU S G, JIA T. Quantifying the noise in bursty gene expression under regulation by small RNAs[J]. International Journal of Modern Physics C, 2019, 30(7): No.1940002.

      [18] ZHANG J J, ZHOU T S. Markovian approaches to modeling intracellular reaction processes with molecular memory[J]. Proceedings of the National Academy of Sciences of the United States of America, 2019, 116(47): 23542-23550.

      [19] ZHANG Z Q, DENG Q Q, WANG Z H, et al. Exact results for queuing models of stochastic transcription with memory and crosstalk[J]. Physical Review E, 2021, 103(6): No.062414.

      [20] KUMAR N, JIA T, ZARRINGHALAM K, et al. Frequency modulation of stochastic gene expression bursts by strongly interacting small RNAs[J]. Physical Review E, 2016, 94(4): No.042419.

      [21] OUYANG Z Q, ZHOU Q, WONG W H. ChIP?Seq of transcription factors predicts absolute and differential gene expression in embryonic stem cells[J]. Proceedings of the National Academy of Sciences of the United States of America, 2009, 106(51): 21521-21526.

      [22] XU J F, SHI J J, CUI X D, et al. Cellular Heterogeneity?Adjusted cLonal Methylation (CHALM) improves prediction of gene expression[J]. Nature Communications, 2021, 12: No.400.

      [23] NATARAJAN A, YARDIMCI G G, SHEFFIELD N C, et al. Predicting cell?type?specific gene expression from regions of open chromatin[J]. Genome Research, 2012, 22(9): 1711-1722.

      [24] KARLI? R, CHUNG H R, LASSERRE J, et al. Histone modification levels are predictive for gene expression[J]. Proceedings of the National Academy of Sciences of the United States of America, 2010, 107(7): 2926-2931.

      [25] HO B H, HASSEN R M K, LE N T. Combinatorial roles of DNA methylation and histone modifications on gene expression[C]// Proceedings of the 2014 National Foundation for Science and Technology Development (NAFOSTED) Conference on Information and Computer Science, AISC 341. Cham: Springer, 2015: 123-135.

      [26] CHENG C, GERSTEIN M. Modeling the relative relationship of transcription factor binding and histone modifications to gene expression levels in mouse embryonic stem cells[J]. Nucleic Acids Research, 2012, 40(2): 553-568.

      [27] LI Z C, GAO N, MARTINI J W R, et al. Integrating gene expression data into genomic prediction[J]. Frontiers in Genetics, 2019, 10: No.126.

      [28] SCHMIDT F, KERN F, SCHULZ M H. Integrative prediction of gene expression with chromatin accessibility and conformation data[J]. Epigenetics and Chromatin, 2020, 13: No.4.

      [29] AVSEC ?, AGARWAL V, VISENTIN D, et al. Effective gene expression prediction from sequence by integrating long?range interactions[J]. Nature Methods, 2021, 18(10):1196-1203.

      [30] LI J, CHING T, HUANG S J, et al. Using epigenomics data to predict gene expression in lung cancer[J]. BMC Bioinformatics, 2015, 16(S5): No.S10.

      [31] FRASCA M, PAVESI G. A neural network based algorithm for gene expression prediction from chromatin structure[C]// Proceedings of the 2013 International Joint Conference on Neural Networks. Piscataway: IEEE, 2013: 1-8.

      [32] KUMAR V, MURATANI M, RAYAN N A, et al. Uniform, optimal signal processing of mapped deep sequencing data[J]. Nature Biotechnology, 2013, 31(7): 615-622.

      [33] ERNST J, KELLIS M. Large?scale imputation of epigenomic datasets for systematic annotation of diverse human tissues[J]. Nature Biotechnology, 2015, 33(4): 364-367.

      [34] COSTA I G, ROIDER H G, DO REGO T G, et al. Predicting gene expression in t cell differentiation from histone modifications and transcription factor binding affinities by linear mixture models[J]. BMC Bioinformatics, 2011, 12(S1): No.S29.

      [35] CHENG C, YAN K K, YIP K Y, et al. A statistical framework for modeling gene expression using chromatin features and application to modENCODE datasets[J]. Genome Biology, 2011, 12(2): No.R15.

      [36] DONG X J, GREVEN M C, KUNDAJE A, et al. Modeling gene expression using chromatin features in various cellular contexts[J]. Genome Biology, 2012, 13(9): No.R53.

      [37] SINGH R, LANCHANTIN J, ROBINS G, et al. DeepChrome: deep?learning for predicting gene expression from histone modifications[J]. Bioinformatics, 2016, 32(17): i639-i648.

      [38] SINGH R, LANCHANTIN J, SEKHON A, et al. Attend and predict: understanding gene regulation by selective attention on chromatin[J]. Advances in Neural Information Processing Systems, 2017, 30: 6785-6795.

      [39] SEKHON A, SINGH R, QI Y J. DeepDiff: DEEP?learning for predicting DIFFerential gene expression from histone modifications[J]. Bioinformatics, 2018, 34(17): i891-i900.

      [40] HOCHREITER S, SCHMIDHUBER J. Long short?term memory[J]. Neural Computation, 1997, 9(8): 1735-1780.

      [41] LeCUN Y, BOTTOU L, BENGIO Y, et al. Gradient?based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324.

      [42] Roadmap Epigenomics Consortium, KUNDAJE A, MEULEMAN W, et al. Integrative analysis of 111 reference human epigenomes[J]. Nature, 2015, 518(7539): 317-330.

      [43] CELNIKER S E, DILLON L A L, GERSTEIN M B, et al. Unlocking the secrets of the genome[J]. Nature, 2009, 459(7249): 927-930.

      [44] The ENCODE Project Consortium. An integrated encyclopedia of DNA elements in the human genome[J]. Nature, 2012, 489(7414): 57-74.

      [45] TOMCZAK K, CZERWI?SKA P, WIZNEROWICZ M. The Cancer Genome Atlas (TCGA): an immeasurable source of knowledge[J]. Contemporary Oncology/Wspó?czesna Onkologia, 2015, 19(1A): A68-A77.

      [46] On behalf of The ENCODE Project Consortium. The ENCODE (ENCyclopedia of DNA elements) project[J]. Science, 2004, 306(5696): 636-640

      [47] KONONENKO I, ?IMEC E, ROBNIK??IKONJA M. Overcoming the myopia of inductive learning algorithms with RELIEFF[J]. Applied Intelligence, 1997, 7(1): 39-55.

      [48] NAIR V, HINTON G E. Rectified linear units improve restricted Boltzmann machines[C]// Proceedings of the 27th International Conference on Machine Learning. Madison, WI: Omnipress, 2010: 807-814.

      [49] KINGMA D P, BA J L. Adam: a method for stochastic optimization[EB/OL]. (2017-01-30)[2021-06-30].https://arxiv.org/pdf/1412.6980.pdf.

      [50] PEDREGOSA F, VAROQUAUX G, GRAMFORT A, et al. Scikit?learn: machine learning in Python[J]. Journal of Machine Learning Research, 2011, 12: 2825-2830.

      Deep fusion model for predicting differential gene expression by histone modification data

      LI Xin, JIA Tao*

      (,,400715,)

      Concering the problem that the Cell type?Specificity (CS) and similarity and difference information between different cell types are not properly used when predicting Differential Gene Expression (DGE) with large?scale Histone Modification (HM) data, as well as large volume of input and high computational cost, a deep learning?based method named dcsDiff was proposed. Firstly, multiple AutoEncoders (AEs) and Bi?directional Long Short?Term Memory (Bi?LSTM) networks were introduced to reduce the dimensionality of HM signals and model them to obtain the embedded representation. Then, multiple Convolutional Neural Networks (CNNs) were used to mine the HM combined effects in each single cell type, and the similarity and difference information of each HM and joint effects of all HMs between two cell types. Finally, the two kinds of information were fused to predict DGE between two cell types. In the comparison experiments with DeepDiff on 10 pairs of cell types in the REMC (Roadmap Epigenomics Mapping Consortium) database, the Pearson Correlation Coefficient (PCC) of dcsDiff in DGE prediction was increased by 7.2% at the highest and 3.9% on average, the number of differentially expressed genes accurately detected by dcsDiff was increased by 36 at most and 17.6 on average, and the running time of dcsDiff was saved by 78.7%. The validity of reasonable integration of the above two kinds of information was proved in the component analysis experiment. The parameters of dcsDiff were also determined by experiments. Experimental results show that the proposed dcsDiff can effectively improve the efficiency of DGE prediction.

      Histone Modification (HM); Differential Gene Expression (DGE); Cell type?Specificity (CS); AutoEncoder (AE); Bi?directional Long Short?Term Memory (Bi?LSTM) network; information fusion; epigenetics

      This work is partially supported by Industry?University?Research Innovation Fund for Universities of China, Ministry of Education (2021ALA03016).

      LI Xin, born in 1997, M. S. candidate. Her research interests include data mining, bioinformatics, machine learning.

      JIA Tao, born in 1982, Ph. D., professor. His research interests include data science, complex network.

      1001-9081(2022)11-3404-09

      10.11772/j.issn.1001-9081.2021111956

      2021?11?17;

      2021?11?23;

      2021?12?06。

      教育部中國高校產(chǎn)學(xué)研創(chuàng)新基金資助項目(2021ALA03016)。

      TP301.6

      A

      李昕(1997—),女,四川綿陽人,碩士研究生,CCF會員,主要研究方向:數(shù)據(jù)挖掘、生物信息學(xué)、機器學(xué)習(xí);賈韜(1982—),男,重慶人,教授,博士,CCF會員,主要研究方向:數(shù)據(jù)科學(xué)、復(fù)雜網(wǎng)絡(luò)。

      猜你喜歡
      特異性建模預(yù)測
      無可預(yù)測
      黃河之聲(2022年10期)2022-09-27 13:59:46
      選修2-2期中考試預(yù)測卷(A卷)
      選修2-2期中考試預(yù)測卷(B卷)
      聯(lián)想等效,拓展建?!浴皫щ娦∏蛟诘刃鲋凶鰣A周運動”為例
      基于PSS/E的風(fēng)電場建模與動態(tài)分析
      電子制作(2018年17期)2018-09-28 01:56:44
      不對稱半橋變換器的建模與仿真
      精確制導(dǎo) 特異性溶栓
      不必預(yù)測未來,只需把握現(xiàn)在
      BOPIM-dma作為BSA Site Ⅰ特異性探針的研究及其應(yīng)用
      重復(fù)周圍磁刺激治療慢性非特異性下腰痛的臨床效果
      澎湖县| 新余市| 万荣县| 拉孜县| 锦屏县| 新竹县| 渭南市| 军事| 芜湖县| 石渠县| 阿勒泰市| 乌兰察布市| 灵山县| 陆良县| 玉树县| 伊吾县| 环江| 彭阳县| 简阳市| 黔江区| 鄂托克前旗| 南开区| 苗栗县| 驻马店市| 佛山市| 革吉县| 武冈市| 西华县| 临清市| 巢湖市| 阳高县| 福泉市| 仙游县| 车致| 冷水江市| 昔阳县| 雅安市| 遵化市| 永顺县| 大渡口区| 共和县|