劉志豪, 王會(huì)青, 李浩琳, 韓家樂
(太原理工大學(xué)信息與計(jì)算機(jī)學(xué)院, 太原 030600)
增強(qiáng)子-啟動(dòng)子相互作用(EPⅠs)是指啟動(dòng)子與增強(qiáng)子跨越基因組發(fā)生協(xié)同作用,控制組織特異性基因表達(dá)的過程[1]。EPⅠs 失效將造成基因表達(dá)的破壞,甚至誘發(fā)嚴(yán)重疾病[2]。阿爾茨海默病(AD)的疾病變異風(fēng)險(xiǎn)與富集在小膠質(zhì)細(xì)胞(大腦的主要免疫細(xì)胞)中的EPⅠs 變異率高度相關(guān)[3]。此外,通過對(duì)造血干細(xì)胞中的增強(qiáng)子或啟動(dòng)子位點(diǎn)進(jìn)行基因編輯[4],增強(qiáng)EPⅠs 的表達(dá)水平,能夠使紅細(xì)胞中血紅蛋白的表達(dá)持續(xù)增加,實(shí)現(xiàn)β地中海貧血疾病[5]的終生治療。準(zhǔn)確識(shí)別EPⅠs 對(duì)疾病來源追蹤和發(fā)展基因療法有重要意義。
近年來,深度學(xué)習(xí)方法通過增強(qiáng)子、啟動(dòng)子序列信息實(shí)現(xiàn)EPⅠs 的二分類預(yù)測(cè),區(qū)分不同細(xì)胞系下的增強(qiáng)子-啟動(dòng)子相互作用。增強(qiáng)子、啟動(dòng)子序列不僅包含堿基級(jí)特征信息,還包含轉(zhuǎn)錄因子(TF)、共調(diào)節(jié)因子、染色質(zhì)結(jié)構(gòu)蛋白、調(diào)控元件[6]等元件級(jí)別的特征信息,從序列中提取這些不同層級(jí)的生物特征信息能有效預(yù)測(cè)EPⅠs。Jing 等[7]使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)提取多個(gè)細(xì)胞系的堿基特征,并設(shè)計(jì)遷移學(xué)習(xí)的梯度反轉(zhuǎn)層以減少細(xì)胞系特異性特征,用于跨細(xì)胞系的EPⅠs 預(yù)測(cè)。Min 等[8]提出的匹配啟發(fā)式機(jī)制能夠?qū)μ崛〉膲A基特征和部分短基序特征進(jìn)行特征強(qiáng)化,有效預(yù)測(cè)EPⅠs。Mao 等[9]對(duì)增強(qiáng)子、啟動(dòng)子序列進(jìn)行注意力判別,識(shí)別過度表達(dá)的TF 結(jié)合位點(diǎn)、TF 對(duì)相互作用(TFs-pair Ⅰnteractions)等元件級(jí)特征,用于預(yù)測(cè)EPⅠs。以上研究通過增強(qiáng)模型對(duì)堿基層級(jí)特征或元件層級(jí)特征的提取能力,提升EPⅠs 預(yù)測(cè)效果,但未考慮堿基層級(jí)特征和元件層級(jí)特征對(duì)EPⅠs 預(yù)測(cè)的互補(bǔ)效果,缺乏對(duì)兩種級(jí)別生物特征的聯(lián)合分析。將原始序列粒化為細(xì)粒度和粗糙粒度,有助于提取堿基層級(jí)特征和元件層級(jí)特征,從不同層級(jí)表示、分析原始序列。因此,本文引入增強(qiáng)子、啟動(dòng)子序列的細(xì)粒度和粗糙粒度分別提取堿基層級(jí)、元件層級(jí)特征,通過融合不同層級(jí)間特征提升模型學(xué)習(xí)能力。
通過粒度選擇,確定合適的粒度大小,有助于減少不同粒度間的冗余信息,提升模型的學(xué)習(xí)質(zhì)量和學(xué)習(xí)效率[10]。Dong 等[11]為處理冗余特征和無關(guān)特征,提出基于粒度信息的特征選擇算法模型,并根據(jù)分類精度的反饋?zhàn)赃m應(yīng)地找到最優(yōu)粒度參數(shù),獲得更高的分類精度。Lin 等[12]通過鄰域粗糙集獲得包括不同粒度的所有特征排名,根據(jù)交叉熵算法的反饋選擇最優(yōu)特征子集。上述方法通過模型反饋,在候選粒度集中選擇最優(yōu)粒度或最優(yōu)特征子集,避免學(xué)習(xí)過多冗余特征,有效提高任務(wù)的決策能力。為避免后續(xù)聯(lián)合分析中學(xué)習(xí)過多冗余信息,本文需要選擇合適的粗糙粒度。然而,由于增強(qiáng)子、啟動(dòng)子具有細(xì)胞特異性[13],不同細(xì)胞系的生物表現(xiàn)不同,序列組成也存在一定差異[14],在不同細(xì)胞系下選取相同的粗糙粒度,不利于學(xué)習(xí)不同細(xì)胞系的細(xì)胞特異性特征。因此,本文通過分類精度反饋從粗糙粒度候選集選取最優(yōu)粗糙粒度,避免后續(xù)聯(lián)合分析中提取過多冗余特征。此外,考慮到EPⅠs 的細(xì)胞特異性,對(duì)6 個(gè)細(xì)胞系分別進(jìn)行粒度選擇,選定不同細(xì)胞系的最優(yōu)粗糙粒度,便于提取細(xì)胞特異性特征。
EPⅠs 的驅(qū)動(dòng)過程涉及增強(qiáng)子的內(nèi)部關(guān)聯(lián)信息、啟動(dòng)子的內(nèi)部關(guān)聯(lián)信息、增強(qiáng)子-啟動(dòng)子間的互關(guān)聯(lián)信息。通過提取序列的全局特征,捕獲這3 種關(guān)聯(lián)信息,能有效輔助EPⅠs 預(yù)測(cè)。Singh 等[15]提出SPEⅠD模型,使用CNN 和長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)的混合結(jié)構(gòu)提取全局特征,預(yù)測(cè)EPⅠs。Zhuang 等[16]提出的EPⅠsCNN,僅使用與SPEⅠD 相同的 CNN 結(jié)構(gòu),就得到與SPEⅠD 相似的性能,表明SPEⅠD 的預(yù)測(cè)能力主要源于對(duì)局部特征的提取,直接提取原始序列的全局特征的效果不理想。Zeng 等[17]提出EP2vec,將原始長(zhǎng)序列拆分為固定短序列,結(jié)合梯度提升決策樹預(yù)測(cè)EPⅠs,能更好地捕獲全局信息,但對(duì)序列的拆分、填充造成部分特征丟失。此外,為提取局部特征,以上研究使用兩個(gè)分支結(jié)構(gòu)分別處理增強(qiáng)子、啟動(dòng)子序列,難以提取增強(qiáng)子-啟動(dòng)子間的關(guān)聯(lián)信息。針對(duì)不同的特征提取任務(wù),分別設(shè)計(jì)特定的子網(wǎng)絡(luò),能夠避免不同信息流的學(xué)習(xí)干擾。因此,本文采用CNN 子網(wǎng)絡(luò)和雙層雙向門循環(huán)單元(BiGRU)注意子網(wǎng)絡(luò),分別提取局部特征、全局特征,避免特征干擾。在雙層BiGRU 注意子網(wǎng)絡(luò),使用掩源元件子序列和元件-全局遞進(jìn)策略,同時(shí)提取增強(qiáng)子內(nèi)部關(guān)聯(lián)、啟動(dòng)子內(nèi)部關(guān)聯(lián)和增強(qiáng)子-啟動(dòng)子間互關(guān)聯(lián)等多種關(guān)聯(lián)信息,獲取更全面的全局特征。
綜上,本文提出EPⅠs 預(yù)測(cè)模型EPⅠ-PBGA,在6 個(gè)細(xì)胞系分別進(jìn)行粒度選擇,確定最優(yōu)粗糙粒度,并使用雙層BiGRU 注意子網(wǎng)絡(luò)和CNN 子網(wǎng)絡(luò)分別提取序列的不同粒度特征。CNN 子網(wǎng)絡(luò)使用雙分支結(jié)構(gòu)分別提取增強(qiáng)子、啟動(dòng)子原始序列的細(xì)粒度特征。雙層BiGRU 注意子網(wǎng)絡(luò)引入元件-全局遞進(jìn)策略處理掩源元件子序列,捕獲多種元件特征關(guān)聯(lián)作為粗糙粒度的全局關(guān)聯(lián)特征。實(shí)驗(yàn)結(jié)果表明:同一細(xì)胞系下,選擇不同粗糙粒度的模型表現(xiàn)出明顯性能差異,提升了模型識(shí)別不同細(xì)胞系的細(xì)胞特異性特征的能力;EPⅠ-PBGA 在6 個(gè)不同細(xì)胞系數(shù)據(jù)集表現(xiàn)出較好性能,能夠有效預(yù)測(cè)EPⅠs。
捕獲不同粒度序列信息的EPⅠs 預(yù)測(cè)模型EPⅠ-PBGA 如圖1 所示,使用雙層BiGRU 注意子網(wǎng)絡(luò)、CNN 子網(wǎng)絡(luò)兩個(gè)子網(wǎng)絡(luò)。CNN子網(wǎng)絡(luò)使用雙分支結(jié)構(gòu)提取細(xì)粒度特征信息。雙層BiGRU 注意子網(wǎng)絡(luò)處理元件子序列,提取粗糙粒度特征,并融合多種元件級(jí)特征關(guān)聯(lián)信息來獲取全局特征。
圖1 EPⅠ-PBGA 模型架構(gòu)Fig.1 Model framework of EPⅠ-PBGA
掩源元件子序列劃分策略可尋找不同細(xì)胞系下粗糙粒度的最優(yōu)選。原始序列經(jīng)分割處理形成的多個(gè)子序列被稱為元件子序列,模型接收不同尺度的元件子序列,根據(jù)分類精度確定最終的最優(yōu)粗糙粒度。本文對(duì)元件子序列進(jìn)行掩源處理,由增強(qiáng)子、啟動(dòng)子原始序列分別均勻劃分得到的多個(gè)元件子序列,并不區(qū)分為啟動(dòng)子子序列或增強(qiáng)子子序列,而是掩蓋來源進(jìn)行混合處理,視作一個(gè)統(tǒng)一的元件子序列集SIn。掩源處理使雙層BiGRU 子網(wǎng)絡(luò)有能力同時(shí)學(xué)習(xí)增強(qiáng)子-增強(qiáng)子元件關(guān)聯(lián)、啟動(dòng)子-啟動(dòng)子元件關(guān)聯(lián)、增強(qiáng)子-啟動(dòng)子元件關(guān)聯(lián)等3 種關(guān)聯(lián)特征。由于本文將局部特征的提取交由CNN 子網(wǎng)絡(luò),雙層BiGRU 子網(wǎng)絡(luò)僅關(guān)注全局特征的獲取,因此不必?fù)?dān)心切分序列帶來的特征丟失問題。
已知增強(qiáng)子、啟動(dòng)子的核心元件以及涉及的基因表達(dá)位點(diǎn)多處于幾十bp 到幾百bp 之間[6]。因此,將元件子序列的長(zhǎng)度區(qū)間設(shè)定為50~500。通過多次不同設(shè)置的元件子序列切分操作,尋找在雙層BiGRU 注意子網(wǎng)絡(luò)中表現(xiàn)最好的元件子序列,視作該細(xì)胞系下的最優(yōu)元件子序列。SIn由原始長(zhǎng)序列劃分得到,如式(1)所示,每個(gè)EPⅠs 序列劃分為i個(gè)元件子序列,每個(gè)元件子序列將包含LSi個(gè)堿基。其中,元件子序列的個(gè)數(shù)i由增強(qiáng)子、啟動(dòng)子合并序列的總長(zhǎng)度(L=5 000)和元件子序列長(zhǎng)度LSi共同決定。通過實(shí)驗(yàn),從特定集合中選取表現(xiàn)最優(yōu)的LSi,作為該細(xì)胞系下的最優(yōu)元件子序列長(zhǎng)度,具體元件子序列長(zhǎng)度集如式(2)所示。此外,受EPⅠs 的細(xì)胞特異性影響,不同細(xì)胞系下的最優(yōu)元件子序列長(zhǎng)度也可能不相同,需要分別在不同細(xì)胞系下確定最優(yōu)元件子序列。
啟動(dòng)子、增強(qiáng)子序列是由4 個(gè)堿基組成的基因組序列:'A'(腺嘌呤)、'G'(鳥嘌呤)、'C'(胞嘧啶)和'T'(胸腺嘧啶)。由于每個(gè)向量之間的信息相互獨(dú)立,將過長(zhǎng)序列編碼直接為獨(dú)熱向量(one-hot)使模型無法捕獲序列中隱藏的關(guān)聯(lián)信息。因此,本文使用模塊dna2vec[18]處理切分后的元件子序列,dan2vec 在word2vec 詞嵌入模型的基礎(chǔ)上改進(jìn)。相較于word2vec,dna2vec 使用人類基因組序列作為語(yǔ)料學(xué)習(xí)庫(kù),專用于DNA 序列編碼。使用dna2vec 可以將 k-mers[19]處理后的DNA 序列嵌入到 100 維的連續(xù)向量空間,獲得低維和高質(zhì)量的向量。最終,每個(gè)元件子序列Si被編碼為L(zhǎng)Si*100 維的矩陣向量。
預(yù)處理得到的元件子序列集SIn被輸入雙層BiGRU 注意子網(wǎng)絡(luò),并通過元件特征提取層提取元件級(jí)特征,然后捕獲多個(gè)元件級(jí)特征的潛在關(guān)聯(lián),獲取基于粗糙粒度視角的全局關(guān)聯(lián)特征。
首先,多個(gè)元件子序列被輸入雙層BiGRU 注意子網(wǎng)絡(luò)的第一層作為元件特征提取層,通過獨(dú)立的BiGRU 注意子模塊分別處理不同的元件子序列,以提取元件子序列的堿基級(jí)特征。BiGRU 是一種雙向循環(huán)神經(jīng)網(wǎng)絡(luò),通過使用前向和后向兩個(gè)方向的隱藏態(tài),更好地理解序列上下文信息。增強(qiáng)子、啟動(dòng)子存在的雙向轉(zhuǎn)錄[20]現(xiàn)象,因此必須從正向和反向兩個(gè)角度看待元件子序列。BiGRU 的更新過程如式(3)~(7),由當(dāng)前時(shí)刻輸入和之前時(shí)刻輸入ht?1共同決定ht。zt表示更新門向量,決定信息保留程度,rt表示重置門向量。其中,U是保留前一個(gè)隱藏狀態(tài)向量ht?1的權(quán)重矩陣,ht?1是t時(shí)間的輸入,· 是逐元素乘法,下標(biāo)h、z、r分別表示為當(dāng)前時(shí)刻、更新門和重置門。BiGRU 從正向和反向方向分別接受處理后的元件子序列,從而捕獲雙向特征的長(zhǎng)期依賴關(guān)系,通過處理雙向序列得到前向元件特征向量{h1,h2,···,ht,···,hL}和后向元件特征向量 {} ,合并為最終輸出ht,如公式(7)所示,其中W和U均為權(quán)重向量;b為偏置向量;xt、ht分別為t時(shí)刻的輸入向量和隱藏層狀態(tài);zt為更新門,rt為重置門。
為每個(gè)元件子序列分別賦予一個(gè)BiGRU 注意力模塊,使模型對(duì)不同元件子序列獨(dú)立處理,獲取元件子序列的內(nèi)部權(quán)重分?jǐn)?shù)。本文獲取的子序列特征向量與注意力分?jǐn)?shù)加權(quán),在首層得到最終的元件級(jí)特征向量Im,具體如公式(8)~(10)所示。其中,經(jīng)BiGRU 處理生成輸出hft,uft是hft經(jīng)過單層MLP 得到的潛在表示。然后判斷uft與上下文向量uω的相似度。并通過softmax 函數(shù)得到一個(gè)歸一化的的重要性權(quán)重 αft。最終,計(jì)算 αft和hft的加權(quán)和得到最終的元件向量It,其中t∈(1,M) 。
因此,元件子序列集SIn經(jīng)過元件特征提取層提取內(nèi)部關(guān)聯(lián)信息,被編碼為元件特征向量集(I1,I2,···,It,···,Im)。
為捕獲元件特征向量之間的潛在關(guān)聯(lián)信息,在雙層BiGRU 注意子網(wǎng)絡(luò)的尾層,即元件-全局關(guān)聯(lián)層接收元件特征向量集 (I1,I2,···,It,···,IM) 。模型將全部元件特征向量集 (I1,I2,···,It,···,IM) 交由一個(gè)共用的BiGRU 注意模塊處理,將來自增強(qiáng)子和啟動(dòng)子的子序列打亂順序后,均視作元件子序列集,使模型能夠捕獲增強(qiáng)子-增強(qiáng)子、啟動(dòng)子-啟動(dòng)子關(guān)聯(lián)信息外,還有能力提取增強(qiáng)子-啟動(dòng)子間的關(guān)聯(lián)信息增強(qiáng)模型提取全局關(guān)聯(lián)信息的能力。
在全局關(guān)聯(lián)層使用與元件特征提取層大體相同的BiGRU 注意模塊,僅進(jìn)行參數(shù)上的調(diào)整。通過注意力機(jī)制獲取多個(gè)元件級(jí)特征向量間的注意力權(quán)值,區(qū)分元件特征向量對(duì)全局特征的重要程度,將特征差異較小的元件特征向量邊緣化。具體如公式(11)~(12)所示,多個(gè)元件子序列向量集(I1,I2,···,It,···,IM)作為輸入,交由全局關(guān)聯(lián)層的BiGRU 注意模塊處理,扁平向量V1是全局關(guān)聯(lián)層的輸出,同樣也是雙層BiGRU 注意子網(wǎng)絡(luò)的最終輸出,集成了粗糙粒度捕獲的增強(qiáng)子、啟動(dòng)子元件間的多種潛在關(guān)聯(lián)特征。
其中Ipt為注意力機(jī)制。
在細(xì)粒度視角,主要關(guān)注增強(qiáng)子、啟動(dòng)子序列的局部特征,如堿基、部分特定的子序列及用于結(jié)合蛋白質(zhì)的TFs 等基序[21],這些基序能夠促進(jìn)EPⅠs。CNN 網(wǎng)絡(luò)接收原始的增強(qiáng)子、啟動(dòng)子長(zhǎng)序列,增強(qiáng)子和啟動(dòng)子原始序列分別被dna2vec 被編碼為3 000×100 維、2 000×100 維的二維矩陣,作為網(wǎng)絡(luò)輸入,使用CNN 模塊和BiGRU 注意模塊的混合結(jié)構(gòu)[22],提取細(xì)粒度層次下的高維特征信息。
由于在細(xì)粒度視角無需關(guān)注增強(qiáng)子-啟動(dòng)子間的關(guān)聯(lián)關(guān)系,為了更好提取細(xì)粒度特征,CNN 子網(wǎng)絡(luò)分離增強(qiáng)子、啟動(dòng)子學(xué)習(xí)通道。其中,CNN 模塊包含一個(gè)卷積層和一個(gè)最大池化層,用于提取序列的局部特征。為保留主要特征,減少參數(shù)和計(jì)算量,本文使用一個(gè)最大池化層進(jìn)行下采樣,降低特征的輸入維度。BiGRU 注意模塊用來捕獲處理經(jīng)過CNN 模塊提取的局部特征向量存在的上下文依賴關(guān)系,注意力機(jī)制用來識(shí)別細(xì)粒度層級(jí)的重要特征。
在CNN 子網(wǎng)絡(luò)的末端,分別代表增強(qiáng)子和啟動(dòng)子的特征向量Ve和Vp合并為扁平V2,代表從增強(qiáng)子和啟動(dòng)子序列包含提取的細(xì)粒度特征信息。V2與雙層BiGRU 注意子網(wǎng)絡(luò)得到的向量V1合并輸入全連接層,通過函數(shù)sigmoid 進(jìn)行最終的EPⅠs 預(yù)測(cè)。
本文使用來自 EPⅠANN[9]的基準(zhǔn)數(shù)據(jù)集,如表1所示。該數(shù)據(jù)集包含6 種不同的細(xì)胞系,即GM12878(淋巴母細(xì)胞)、HeLa-S3(宮頸癌患者的外胚層細(xì)胞)、ⅠMR90(胎兒肺成纖維細(xì)胞)、K562(白血病患者的中胚層系細(xì)胞)、HUVEC(臍靜脈內(nèi)皮細(xì)胞)和 NHEK(表皮角質(zhì)形成細(xì)胞)。6 個(gè)細(xì)胞系的正樣本(真正的 EPⅠ)和負(fù)樣本(非EPⅠ)比例約為1∶20,在EPⅠANN 的基準(zhǔn)數(shù)據(jù)集中,增強(qiáng)子和啟動(dòng)子經(jīng)過基因組擴(kuò)選預(yù)處理,均分別擴(kuò)展為2 000、3 000的定長(zhǎng)序列并進(jìn)行數(shù)據(jù)平衡處理[8]。對(duì)于同一細(xì)胞系的數(shù)據(jù)集,本文將陽(yáng)性樣本和陰性樣本分別按9∶1 的比例分為初始訓(xùn)練集和測(cè)試集,并將初始訓(xùn)練集中的10%樣本數(shù)據(jù)作為驗(yàn)證集,剩下的作為訓(xùn)練集,用于模型的調(diào)整和評(píng)估。
表1 6 個(gè)細(xì)胞系的EPⅠs 數(shù)據(jù)集Table 1 EPⅠs dataset in six cell lines
由于本文使用的增強(qiáng)子、啟動(dòng)子序列過長(zhǎng),對(duì)多個(gè)數(shù)據(jù)集進(jìn)行學(xué)習(xí)與評(píng)估需要較長(zhǎng)的實(shí)驗(yàn)周期,本文綜合實(shí)驗(yàn)評(píng)估標(biāo)準(zhǔn)和模型學(xué)習(xí)效率,對(duì)超參數(shù)進(jìn)行調(diào)整,以減少參數(shù)量,提升學(xué)習(xí)效率。其中,在雙層BiGRU 注意子網(wǎng)絡(luò)的元件特征提取層,BiGRU 維度設(shè)置為50;在元件-全局關(guān)聯(lián)層,BiGRU 維度設(shè)置為100。在CNN 子網(wǎng)絡(luò)中,啟動(dòng)子和增強(qiáng)子的CNN卷積核設(shè)置均為40,濾波器為16;在最大池化層,將增強(qiáng)子、啟動(dòng)子池化步長(zhǎng)分別確定為15、10;BiGRU維度設(shè)置為 50。訓(xùn)練批次epoch 設(shè)置為60,batchsize 設(shè)置為32,初始學(xué)習(xí)率設(shè)置為 5e?6,損失函數(shù)為交叉熵?fù)p失函數(shù)(binary_crossentropy),并使用0.5 的dropout 和批歸一化,提高訓(xùn)練的穩(wěn)定性。
為驗(yàn)證粗糙粒度選擇對(duì)粗糙粒度編碼模塊提取特征信息的影響。通過選取不同的Length,改變粗糙粒度尺度并進(jìn)行對(duì)比實(shí)驗(yàn)。在粒度選擇分析中,EPⅠ-PBGA 的其他模塊保持不變,根據(jù)性能表現(xiàn)確定最優(yōu)粗糙粒度,結(jié)果如表2 所示,加粗部分為選取的最優(yōu)粗糙粒度。
表2 不同細(xì)胞系下的粒度選擇Table 2 Particle size selection under different cell lines
由表2 可知,不同的Length 對(duì)模型的性能表現(xiàn)有明顯影響。在GM12878、ⅠMR90、HeLa-S3、 HUVEC數(shù)據(jù)集中,表現(xiàn)最好的Length 為100,且相較于50、200、500 等長(zhǎng)度,其受試者工作特征曲線下面積(AUROC)、精準(zhǔn)率-召回率曲線下面積(AUPR)、精準(zhǔn)率和召回率的調(diào)和平均數(shù)(F1)分?jǐn)?shù)均有明顯提升,這說明粗糙粒度選擇策略有效增強(qiáng)EPⅠ-PBGA 對(duì)粗糙粒度特征的學(xué)習(xí)能力。在K562 數(shù)據(jù)集中,當(dāng)Length 為200 時(shí)EPⅠ-PBGA 有最佳的性能表現(xiàn)。這是由于不同細(xì)胞系下的增強(qiáng)子、啟動(dòng)子有較明顯的EPⅠs 的細(xì)胞特異性,生物特征存在一定差異[14],導(dǎo)致特定細(xì)胞系下適合模型的Length 不同。此外,在NHEK 細(xì)胞系中選擇不同的Length 時(shí)EPⅠ-PBGA 并沒有表現(xiàn)出明顯的性能差異,這說明NHEK 細(xì)胞系中,粗糙粒度選擇并沒有提升EPⅠ-PBGA 對(duì)粗糙粒度特征的學(xué)習(xí)能力。綜上可知,對(duì)于大多數(shù)數(shù)據(jù)集,經(jīng)過最優(yōu)粗糙粒度選擇的模型在性能表現(xiàn)上有所提升,提升了EPⅠ-PBGA 對(duì)粗糙粒度特征的學(xué)習(xí)能力,驗(yàn)證了粗糙粒度選擇的必要性。
為驗(yàn)證使用不同粒度的編碼模塊對(duì)模型的影響,選取HUVEC、ⅠMR90、NHEK 數(shù)據(jù)集對(duì)Fine(僅使用CNN 子網(wǎng)絡(luò))、Coarse(僅使用雙層BiGRU 注意子網(wǎng)絡(luò))、Fine+Coarse(本文模型)進(jìn)行消融實(shí)驗(yàn),其中Fine+Coarse 和Coarse 均使用最優(yōu)粗糙粒度。
本文以AUROC 作為模塊貢獻(xiàn)度的主要評(píng)價(jià)標(biāo)準(zhǔn),由表3、表4 的性能表現(xiàn)來看,在HUVEC 細(xì)胞系中,Coarse 表現(xiàn)出更高的貢獻(xiàn)度;在ⅠMR90 細(xì)胞系中,F(xiàn)ine 表現(xiàn)出更高的貢獻(xiàn)度。在HUVEC、ⅠMR90數(shù)據(jù)集中,融合兩種粒度信息的Fine+Coarse 性能比僅使用Fine 或Coarse 要好,驗(yàn)證了在HUVEC、ⅠMR90細(xì)胞系中Fine+Coarse 能有效融合不同粒度特征。此外,F(xiàn)ine+Coarse 并不適用于全部細(xì)胞系,通過比較AUROC 可知,在表5 的NHEK 細(xì)胞系中,選擇最優(yōu)粗糙粒度的Fine+Coarse的EPⅠ-PBGA 僅與Fine 持平,這表明在NHEK 細(xì)胞系僅在細(xì)粒度就存在豐富的特征信息,融合兩種粒度特征并沒有使EPⅠ-PBGA 學(xué)習(xí)到更豐富的特征信息。盡管在不同細(xì)胞系下細(xì)粒度和粗糙粒度對(duì)模型的貢獻(xiàn)度有一定差異,但在絕大多數(shù)細(xì)胞系,使用Fine+Coarse 的模型相較于僅使用Fine 或Coarse 的模型表現(xiàn)出一定性能優(yōu)勢(shì),提升了模型對(duì)增強(qiáng)子、啟動(dòng)子序列的學(xué)習(xí)能力。
表3 HUVEC 細(xì)胞系下的消融實(shí)驗(yàn)Table 3 Ablation experiment in HUVEC cell line
表4 ⅠMR90 細(xì)胞系下的消融實(shí)驗(yàn)Table 4 Ablation experiment in ⅠMR90 cell line
表5 NHEK 細(xì)胞系下的消融實(shí)驗(yàn)Table 5 Ablation experiment in NHEK cell line
在粗糙粒度編碼模塊中,本文通過元件子序列掩源處理的策略,捕獲增強(qiáng)子和啟動(dòng)子之間的關(guān)聯(lián)信息。為驗(yàn)證其有效性,在Fine+Coarse(separate)去除掩源元件子序列的處理,并在粗糙粒度分離增強(qiáng)子、啟動(dòng)子的學(xué)習(xí)過程。通過表3、表4、表5 可知,對(duì)比于Fine+Coarse(separate),F(xiàn)ine+Coarse 在HUVEC和ⅠMR90 細(xì)胞系的性能表現(xiàn)均有所提升;在NHEK細(xì)胞系中Fine+Coarse(separate)與Fine+Coarse的性能表現(xiàn)相近,這是由于NHEK 細(xì)胞系對(duì)粒度融合策略并不敏感。在HUVEC 和ⅠMR90 細(xì)胞系的性能表現(xiàn)驗(yàn)證了在大多數(shù)數(shù)據(jù)集中,元件子序列掩源處理的有效性。
為了評(píng)估EPⅠ-PBGA 的有效性,使用采用了最優(yōu)粗糙粒度的EPⅠ-PBGA 與SPEⅠD[15]、EPⅠsCNN[16]、EPⅠANN[17]、EPⅠDLMH[8]等EPⅠs 預(yù)測(cè)模型進(jìn)行比較。結(jié)果如表6、表7 和表8 所示。EPⅠ-PBGA 在大部分細(xì)胞系中的性能表現(xiàn)總體優(yōu)于對(duì)比方法。
表6 不同方法在6 個(gè)細(xì)胞系數(shù)據(jù)集下的AUROCTable 6 Performance of different methods in terms of AUROC on six cell lines
表7 不同方法在6 個(gè)細(xì)胞系數(shù)據(jù)集下的AUPRTable 7 Performance of different methods in terms of AUPR on six cell lines
表8 不同方法在六個(gè)細(xì)胞系數(shù)據(jù)集下的F1 分?jǐn)?shù)Table 8 Performance of different methods in terms of F1-score on six cell lines
在以上對(duì)比方法中,SPEⅠD、EPⅠsCNN 均使用大量卷積,用于強(qiáng)化堿基、短基序等堿基級(jí)特征的提取能力;EPⅠDLMH 在SPEⅠD、EPⅠsCNN 等研究的基礎(chǔ)上,在模型尾部通過啟發(fā)式匹配機(jī)增強(qiáng)提取的高維特征,使EPⅠDLMH 在絕大部分?jǐn)?shù)據(jù)集均優(yōu)于SPEⅠD和EPⅠsCNN。而EPⅠANN 則通過建立增強(qiáng)子和啟動(dòng)子中的配對(duì)短區(qū)域,識(shí)別出更多的TFs 結(jié)合位點(diǎn)和TFs 相互作用等元件層級(jí)特征,用于預(yù)測(cè)EPⅠs。本文模型在大多數(shù)據(jù)集的性能表現(xiàn)優(yōu)于亞軍模型EPⅠDLMH,這是由于本文通過粒度選擇提升模型對(duì)粗糙粒度特征的提取能力。由表2 可知,選擇不同Length 的模型性能表現(xiàn)存在差異。相較于不同對(duì)比模型來說,在HUVEC 細(xì)胞系選擇Length 為100 的本文模型的性能表現(xiàn)優(yōu)于亞軍模型EPⅠDLMH,選擇Length 為50、200 的本文模型,其性能表現(xiàn)與EPⅠDLMH的性能表現(xiàn)相近;對(duì)比表2 和表6、表7、表8,例如在K562細(xì)胞系選擇Length 為200 的本文模型的性能表現(xiàn)優(yōu)于亞軍模型EPⅠDLMH,當(dāng)Length 為50、100、500 時(shí)本文模型的性能表現(xiàn)則低于EPⅠDLMH等方法。這說明選擇合適的粗糙粒度能夠有效提升模型學(xué)習(xí)質(zhì)量,不合適的粗糙粒度反而影響模型學(xué)習(xí)。同時(shí)通過細(xì)粒度和粗糙粒度編碼模塊,有效融合不同層級(jí)特征,提升模型對(duì)序列的不同層級(jí)特征的學(xué)習(xí)能力。
本文提出雙層BiGRU 注意網(wǎng)絡(luò)EPⅠ-PBGA,在細(xì)粒度和粗糙粒度捕獲多層次特征信息。通過使用掩源子序列劃分策略,根據(jù)分類精度進(jìn)行粒度選擇,獲取不同細(xì)胞系下的最優(yōu)粗糙粒度。在粗糙粒度,雙層BiGRU 注意子網(wǎng)絡(luò)通過元件-全局策略處理掩源元件子序列,同時(shí)學(xué)習(xí)啟動(dòng)子-啟動(dòng)子、增強(qiáng)子-增強(qiáng)子、增強(qiáng)子-啟動(dòng)子元件間關(guān)聯(lián),而增強(qiáng)子-啟動(dòng)子元件間關(guān)聯(lián)在過往研究中往往被忽略。此外,不同于SPEⅠD 和EPⅠsCNN 等方法使用大量卷積操作(1 024 個(gè)濾波器)提升了模型學(xué)習(xí)成本,本文通過兩個(gè)子網(wǎng)絡(luò)學(xué)習(xí)互補(bǔ)特征,使模型在保證學(xué)習(xí)能力的基礎(chǔ)上,減少參數(shù)量和學(xué)習(xí)周期。但是,該模型存在一定的局限性,粒度選擇依賴于參數(shù)的調(diào)整與實(shí)驗(yàn)設(shè)計(jì),設(shè)計(jì)簡(jiǎn)單高效的粒度選擇算法將是今后的研究方向。