李政偉,李佳樹,尤著宏,聶 茹,趙 歡,鐘堂波
(1. 中國礦業(yè)大學(xué)礦山數(shù)字化教育部工程研究中心,江蘇徐州 221116;2. 中國礦業(yè)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇徐州221116;3. 西北工業(yè)大學(xué)計(jì)算機(jī)學(xué)院,陜西西安 710129)
MicroRNA(縮寫為miRNA)是一類小的、內(nèi)源性、非編碼單鏈RNA 分子,其長度大約為22 個(gè)核苷酸,在人類蛋白質(zhì)編碼基因的調(diào)控中起到關(guān)鍵作用[1]. 諸多研究分析顯示miRNA 在眾多生物進(jìn)程中,例如細(xì)胞增殖、分化、凋亡、病毒感染等[2],起著至關(guān)重要的作用.同時(shí),miRNA 的突變或者異常表達(dá)往往會(huì)誘導(dǎo)多種人類復(fù)雜疾病的產(chǎn)生和演化[3]. 例如,通過單變量Cox 回歸分析發(fā)現(xiàn),miR-155 和miR-150 的表達(dá)水平對(duì)淋巴瘤病人的無進(jìn)展生存期(Progression-Free-Survival,PFS)有著重要影響[4]. 因此,識(shí)別miRNA 與疾病間的潛在關(guān)聯(lián)有助于醫(yī)療人員從分子角度理解疾病的病理機(jī)理,從而促進(jìn)臨床診斷、治療和預(yù)后.
傳統(tǒng)的識(shí)別miRNA 與疾病間潛在關(guān)聯(lián)的生物學(xué)濕實(shí)驗(yàn)方法主要有Northern 雜交[5]、逆轉(zhuǎn)錄聚合酶鏈反應(yīng)[6]、微陣列分析[7]等. 但是這些方法往往會(huì)受到環(huán)境影響,且需要大量的資金和時(shí)間投入,效率低下. 隨著計(jì)算機(jī)的存儲(chǔ)和運(yùn)算能力的飛速發(fā)展,以及大量收集相關(guān)miRNA 和疾病信息的生物數(shù)據(jù)庫的建立,設(shè)計(jì)更加高效的計(jì)算方法,實(shí)現(xiàn)大規(guī)模、高置信度地預(yù)測miRNA 與疾病間的潛在關(guān)聯(lián),逐漸受到科研人員的廣泛關(guān)注[8,9].
啟發(fā)于深度學(xué)習(xí)理論在生物信息學(xué)領(lǐng)域的成功應(yīng)用[10,11],本文提出一種基于異質(zhì)圖注意力網(wǎng)絡(luò)的端到端模型即HGATMDA(Heterogeneous Graph Attention Network for MiRNA-Disease Associations Prediction)來預(yù)測miRNA 與疾病間的潛在關(guān)聯(lián). 具體而言,首先將集成的miRNA 相似性信息、集成的疾病相似性信息以及經(jīng)實(shí)驗(yàn)驗(yàn)證的miRNA-疾病關(guān)聯(lián)整合進(jìn)miRNA-疾病異質(zhì)圖中,并設(shè)計(jì)了頂點(diǎn)類型轉(zhuǎn)換矩陣將異質(zhì)的頂點(diǎn)特征投影至同一向量空間中;其次,采用多頭注意力機(jī)制聚合異質(zhì)鄰居頂點(diǎn)特征,并將聚合后的特征與中心頂點(diǎn)的屬性特征相融合,得到更具有表達(dá)能力的miRNA和疾病頂點(diǎn)的特征表示;之后,將miRNA-疾病對(duì)特征輸入至全連接層(Fully Connected Layer,F(xiàn)CL)中得出預(yù)測的概率;最后,根據(jù)預(yù)測的概率與標(biāo)簽間的損失對(duì)整個(gè)模型進(jìn)行端到端的訓(xùn)練. HGATMDA 模型的流程圖如圖1所示.
圖1 基于異質(zhì)圖注意力網(wǎng)絡(luò)的miRNA-疾病關(guān)聯(lián)預(yù)測模型流程圖
本實(shí)驗(yàn)從“https://www.cuilab.cn/hmdd”下載了HMDD v2.0 和HMDD v3.0 數(shù)據(jù)集來對(duì)模型的預(yù)測效果進(jìn)行驗(yàn)證[12]. 如表1 所示,經(jīng)過數(shù)據(jù)預(yù)處理,HMDD v2.0 數(shù)據(jù)集中包含383 種疾病與495 種miRNA 間5 430條經(jīng)實(shí)驗(yàn)證實(shí)的miRNA-疾病關(guān)聯(lián),HMDD v3.0 數(shù)據(jù)集中包含850 種疾病與1 057 種miRNA 間32 226 條經(jīng)實(shí)驗(yàn)證實(shí)的miRNA-疾病關(guān)聯(lián). 為了便于存儲(chǔ),本實(shí)驗(yàn)采用二值矩陣A(nd×nm)來表示miRNA與疾病間的關(guān)聯(lián),其中nd 表示疾病數(shù)目,nm 表示miRNA 數(shù)目. 若疾病d(i)與miRNAm(j)有關(guān)聯(lián),則二值矩陣A對(duì)應(yīng)位置的元素A(d(i),m(j))被賦值為1,否則為0.
表1 本文所用miRNA-疾病關(guān)聯(lián)信息
基于表型相似的疾病可能與功能相似的miRNA發(fā)生關(guān)聯(lián)這一基本生物學(xué)假設(shè),Wang 等人提出一種計(jì)算miRNA 功能相似性的模型[13]. 本實(shí)驗(yàn)從“https://www. cuilab.cn/files/images/cuilab/misim.zip”下載了miRNA 功能相似性數(shù)據(jù),并構(gòu)建出長度為nm的方陣FSM來存儲(chǔ)miRNA的功能相似性.
本實(shí)驗(yàn)基于美國國家醫(yī)學(xué)圖書館的MeSH(Medi?cal Subject Headings)數(shù)據(jù)庫計(jì)算疾病的語義相似性[14]. 疾病間抽象出的數(shù)據(jù)結(jié)構(gòu)可以用有向無環(huán)圖(Directed Acyclic Graph,DAG)進(jìn)行表示. 具體而言,采用DAG(d(i)) =(d(i),T(d(i)),E(d(i)))來描述疾病d(i),其中,T(d(i))表示包含頂點(diǎn)d(i)自身及其祖先頂點(diǎn)的集合,E(d(i))表示包含從d(i)的祖先頂點(diǎn)到頂點(diǎn)d(i)的路徑上所有直連的邊的集合. 因此,疾病d(k)對(duì)d(i)的語義貢獻(xiàn)值計(jì)算如下:
式(1)中,Δ表示語義貢獻(xiàn)衰減因子,設(shè)置為0.5;C{d(k)}表示疾病d(k)的孩子頂點(diǎn)集合. 于是,疾病d(i)的語義值定義為
基于不同疾病間共享的DAG 部分越多,就具有更高的語義相似性這一假設(shè)(其中共享的DAG 部分指不同疾病頂點(diǎn)的祖先頂點(diǎn)的交集),疾病語義相似性矩陣DSSM1計(jì)算如下:
由于不同疾病在DAG 中出現(xiàn)的次數(shù)不盡相同,同一層DAG 中的疾病往往也會(huì)有不同的疾病語義貢獻(xiàn)值,因此,根據(jù)疾病在DAG 中出現(xiàn)的次數(shù)計(jì)算另一種疾病d(k)對(duì)d(i)的語義貢獻(xiàn)值的計(jì)算如下:
相應(yīng)地,第二種疾病d(i)的語義值以及疾病的語義相似性矩陣DSSM2計(jì)算如下:
整合上述兩種疾病語義相似性矩陣,計(jì)算最終的疾病語義相似性矩陣DSSM如下:
鑒于上述方法得出的miRNA 功能相似性矩陣以及疾病語義相似性矩陣具有稀疏性,本實(shí)驗(yàn)引入高斯相互作用譜核相似性[15]來進(jìn)一步完善miRNA 和疾病的相似性信息. 根據(jù)miRNAm(i)是否與每一種疾病發(fā)生關(guān)聯(lián),構(gòu)建二值向量IP(m(i))表示miRNA 的相互作用譜.miRNA的高斯相互作用譜核相似性矩陣MGSM為
式(8)中,rm用以調(diào)控函數(shù)的帶寬,可通過規(guī)范化參數(shù)計(jì)算而得:
式(9)中,r'm設(shè)置為1. 同樣地,疾病的高斯相互作用譜核相似性矩陣DGSM可由下式計(jì)算:
其中,二值向量IP(d(i))表示疾病d(i)是否與每一種miRNA存在關(guān)聯(lián),r'd設(shè)置為1.
本文將miRNA 與疾病的高斯相互作用譜核相似性矩陣整合進(jìn)miRNA 的功能相似性矩陣和疾病的語義相似性矩陣中,從而得到集成的miRNA相似性矩陣IM與集成的疾病相似性矩陣ID.
本文構(gòu)建了miRNA-疾病異質(zhì)圖,共包含兩類頂點(diǎn)(分別為miRNA 頂點(diǎn)與疾病頂點(diǎn)),以及一類邊(表示miRNA 與疾病間的關(guān)聯(lián)). 其中,miRNA 頂點(diǎn)數(shù)目為nm,疾病頂點(diǎn)數(shù)目為nd,miRNA 與疾病間的關(guān)聯(lián)數(shù)目為2S. 由于HMDD 數(shù)據(jù)集中經(jīng)實(shí)驗(yàn)證實(shí)的miRNA-疾病關(guān)聯(lián)數(shù)目遠(yuǎn)小于miRNA 與疾病間的未知關(guān)聯(lián)數(shù)目,因此,從所有的未知關(guān)聯(lián)中隨機(jī)選取S條miRNA-疾病關(guān)聯(lián)作為負(fù)樣本. 在miRNA 和疾病頂點(diǎn)間相應(yīng)地添加S條正邊與S條負(fù)邊,并將miRNA 的集成相似性信息賦給miRNAm(i)頂點(diǎn),作為其屬性特征Fm(i),即
由于miRNA-疾病異質(zhì)圖中的miRNA 頂點(diǎn)和疾病頂點(diǎn)分別處于不同的特征空間中,對(duì)于每一種類型的頂點(diǎn)(例如類型為Φi的頂點(diǎn)),本實(shí)驗(yàn)設(shè)計(jì)了頂點(diǎn)類型轉(zhuǎn)換矩陣WΦi將miRNA 頂點(diǎn)和疾病頂點(diǎn)投影到同一向量空間中進(jìn)行計(jì)算,即
式(6)中,F(xiàn)i和Hi分別表示頂點(diǎn)i的初始屬性特征和投影后的屬性特征;WΦi表示針對(duì)類型為Φi的頂點(diǎn)的投影矩陣,該矩陣可將不同向量空間的頂點(diǎn)投影至D維的向量空間中. 因此,miRNA頂點(diǎn)和疾病頂點(diǎn)可處在同一個(gè)向量空間中進(jìn)行后續(xù)計(jì)算. 由于異質(zhì)鄰居頂點(diǎn)對(duì)中心頂點(diǎn)存在不同程度的影響,本實(shí)驗(yàn)采用多頭注意力機(jī)制[16,17]聚合異質(zhì)頂點(diǎn)的鄰域信息,并將其與中心頂點(diǎn)的屬性信息進(jìn)行融合,從而得到包含異質(zhì)圖結(jié)構(gòu)與頂點(diǎn)屬性信息的miRNA 和疾病的有效特征嵌入. 首先計(jì)算中心頂點(diǎn)i與其鄰居頂點(diǎn)j之間的注意力分?jǐn)?shù)eij:
式(17)中,LeakyReLU 為非線性激活函數(shù)(負(fù)輸入斜率為0.2). 僅計(jì)算頂點(diǎn)j?Ni的注意力分?jǐn)?shù)eij,其中,Ni表示頂點(diǎn)i的一階異質(zhì)鄰居頂點(diǎn)集合. 采用softmax 函數(shù)規(guī)范化注意力分?jǐn)?shù)eij,并計(jì)算出注意力權(quán)重系數(shù)αij,即
再根據(jù)頂點(diǎn)i的投影特征和注意力權(quán)重系數(shù)計(jì)算出頂點(diǎn)i的異質(zhì)鄰居聚合特征H'i,即
式(19)中,σ(?)表示ELU 激活函數(shù). 為了使模型學(xué)習(xí)到的特征嵌入更加穩(wěn)定,按照上述公式獨(dú)立計(jì)算K次,并將每次計(jì)算的結(jié)果拼接起來作為頂點(diǎn)i最終的異質(zhì)鄰居聚合特征H'i,即
上述過程僅聚合了異質(zhì)鄰居特征,卻忽略了中心頂點(diǎn)特征,因此將異質(zhì)鄰居聚合特征H'i與中心頂點(diǎn)特征Fi拼接,并通過全連接層進(jìn)行特征融合,表示為
式(21)中,g(?)表示輸出維度為64的全連接層,⊕表示特征拼接操作. 最終分別獲得64維度的miRNA 嵌入特征Zm和64維度的疾病嵌入特征Zd.
為了獲得miRNAm(i)與疾病d(j)間關(guān)聯(lián)的預(yù)測概率,將上述得到的miRNA 和疾病嵌入特征拼接,并通過全連接層生成預(yù)測概率,即
式(22)中,f(?)表示輸入維度為128,輸出維度為1 的全連接層;sigmoid(?)表示非線性激活函數(shù).
本文采用交叉熵?fù)p失計(jì)算模型的預(yù)測值與標(biāo)簽間的損失,表示為
式(23)中,yij表示miRNAm(i)與疾病d(j)間的關(guān)聯(lián)標(biāo)簽;Y和Y-分別表示正樣本和負(fù)樣本對(duì)應(yīng)的頂點(diǎn)集. 最后,采用反向傳播算法對(duì)整個(gè)模型進(jìn)行端到端的訓(xùn)練.
本實(shí)驗(yàn)基于深度圖庫(Deep Graph Library,DGL)[18]實(shí)現(xiàn),后端采用PyTorch 框架,并采用Adam 作為模型的優(yōu)化器. 經(jīng)過網(wǎng)格搜索,設(shè)置學(xué)習(xí)率(Learning Rate)為0.0001,權(quán)重衰減(Weight Decay)為5×10-3. 為了防止過擬合,設(shè)置丟棄率(Dropout)為0.6. 為了保持較高的計(jì)算效率,設(shè)置多頭注意力頭數(shù)K為8,投影向量維度D為64. 為了充分訓(xùn)練模型的參數(shù),訓(xùn)練批次(Epochs)設(shè)置為1 000.
本文采用準(zhǔn)確率(Accuracy)、精確率(Precision)、召回率(Recall)以及F1 值(F1-score)作為模型的評(píng)價(jià)指標(biāo),具體計(jì)算公式如下:
式(24)~(27)中,TP,TN,F(xiàn)P,F(xiàn)N 分別表示真正例數(shù)、真負(fù)例數(shù)、假正例數(shù)和假負(fù)例數(shù). 此外,本文還繪制了受試者工作特征(Receiver Operating Characteristic,ROC)曲線以及精確率-召回率(Precision-Recall,P-R)曲線來直觀地顯示模型的預(yù)測能力,并分別計(jì)算了ROC 曲線下面積(Area Under the Curve,AUC)以及P-R 曲線下面積(Average Precision,AP)來綜合評(píng)估模型的預(yù)測能力.
本實(shí)驗(yàn)采用5 折交叉驗(yàn)證法(5-fold crossvalidation)對(duì)模型的預(yù)測能力進(jìn)行評(píng)估. 本文所提模型在HMDD v2.0數(shù)據(jù)集上的預(yù)測結(jié)果如表2所示,取得了86.14%的準(zhǔn)確率、86.10%的精確率、86.25%的召回率以及86.15%的F1 值. 所提模型在HMDD v3.0 數(shù)據(jù)集上的預(yù)測結(jié)果如表3 所示,取得了87.85%的準(zhǔn)確率、88.02%的精確率、87.64%的召回率以及87.83%的F1值. 所提模型的5 折交叉驗(yàn)證ROC 曲線和P-R 曲線如圖2 所示,該模型在HMDD v2.0 數(shù)據(jù)集上取得了93.52%的AUC 值和93.15%的AP 值,在HMDD v3.0 數(shù)據(jù)集上取得了94.82%的AUC 值和94.66%的AP 值. 由于HMDD v3.0 數(shù)據(jù)集中包含了更多的樣本數(shù)量,且深度學(xué)習(xí)模型在更大的數(shù)據(jù)集上一般體現(xiàn)出更優(yōu)的擬合效果,相較于HMDD v2.0 數(shù)據(jù)集,所提模型在HMDD v3.0數(shù)據(jù)集上關(guān)于6項(xiàng)評(píng)價(jià)指標(biāo)均表現(xiàn)出更高的值. 為方便后續(xù)對(duì)比實(shí)驗(yàn)的展開,接下來的實(shí)驗(yàn)均采用HMDD v2.0數(shù)據(jù)集為基準(zhǔn)數(shù)據(jù)集.
圖2 所提模型基于5折交叉驗(yàn)證的實(shí)驗(yàn)結(jié)果圖
表2 所提模型基于5折交叉驗(yàn)證在HMDD v2.0數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果
表3 所提模型基于5折交叉驗(yàn)證在HMDD v3.0數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果
本實(shí)驗(yàn)將中心頂點(diǎn)特征與其鄰居聚合特征相融合作為最終的miRNA 和疾病的特征. 為了對(duì)比這種融合方式對(duì)模型預(yù)測能力的影響,本實(shí)驗(yàn)分別設(shè)計(jì)了只采用中心頂點(diǎn)特征的模型和只采用異質(zhì)鄰居聚合特征的模型,最終的對(duì)比結(jié)果如表4 所示. 從表中可以看出,本文所提模型在這三個(gè)模型中取得了最高的準(zhǔn)確率、精確率、F1值、AUC 值以及AP值;盡管只采用鄰居聚合特征的模型取得了最高的召回率,但其在其他5項(xiàng)指標(biāo)上均遠(yuǎn)低于本文所提模型. 本文所提模型以多頭注意力機(jī)制形式從多個(gè)角度探索miRNA-疾病異質(zhì)圖中異質(zhì)頂點(diǎn)間復(fù)雜的交互信息,生成涵蓋異質(zhì)圖結(jié)構(gòu)及頂點(diǎn)屬性信息的嵌入特征,進(jìn)一步加強(qiáng)miRNA 和疾病特征的表達(dá)能力,提高模型的預(yù)測能力.
表4 所提模型與未進(jìn)行特征融合的模型的對(duì)比實(shí)驗(yàn)結(jié)果
為了進(jìn)一步驗(yàn)證本文所提模型的有效性,將其與WBSMDA[19],BNPMDA[20],KBMFMDA[21],WBNPMD[22],M2GMDA[23],KNMBP[24],MCLPMDA[25]等7個(gè)模型基于5折交叉驗(yàn)證的平均AUC 值進(jìn)行比較,此外,還對(duì)比了不同注意力頭數(shù)K對(duì)所提模型AUC值的影響,詳細(xì)的對(duì)比結(jié)果如表5 所示. 從表中可以看出,適當(dāng)增加注意力的頭數(shù)可以提高模型的預(yù)測能力,但過多的注意力頭數(shù)反而會(huì)對(duì)模型預(yù)測能力起反作用. 最終,本文選擇的注意力頭數(shù)K=8,其對(duì)應(yīng)的AUC值為93.52%,在所有8個(gè)模型中最高.
表5 所提模型與其他方法的AUC值的對(duì)比結(jié)果
為了進(jìn)一步評(píng)估本文所提模型在預(yù)測特定疾病潛在的相關(guān)miRNA 方面的性能,本文針對(duì)食管腫瘤疾病開展了病例研究. 首先采用HMDD v2.0 數(shù)據(jù)集對(duì)模型進(jìn)行訓(xùn)練,然后預(yù)測與食管腫瘤有潛在相關(guān)的前50 種miRNA,最后通過dbDEMC[26]和miR2Disease[27]數(shù)據(jù)庫進(jìn)行驗(yàn)證.
食管腫瘤是一種發(fā)生在食管組織中的惡性腫瘤,全球范圍內(nèi)每年大約會(huì)有30 萬人死于食管腫瘤. 本文選擇食管腫瘤作為病例研究對(duì)象. 實(shí)驗(yàn)驗(yàn)證結(jié)果如表6所示,通過在dbDEMC 和miR2Disease 兩個(gè)數(shù)據(jù)庫中進(jìn)行核實(shí),模型預(yù)測的前25 個(gè)miRNA 中有24 個(gè)被證實(shí),前50 個(gè)miRNA 中有48 個(gè)被證實(shí). 因此,本文所提出的模型能有效預(yù)測出潛在的疾病相關(guān)miRNA,可作為一種便捷的工具指引研究人員開展相關(guān)具體的生物實(shí)驗(yàn)研究.
表6 所提模型預(yù)測出的前50個(gè)與食管腫瘤有關(guān)聯(lián)的miRNA
本文提出了一種基于異質(zhì)圖注意力網(wǎng)絡(luò)的端到端計(jì)算模型(HGATMDA)預(yù)測潛在的miRNA 與疾病間的關(guān)聯(lián). 該模型首先將miRNA 和疾病間的多重相似性信息建模為異質(zhì)圖,并設(shè)計(jì)了頂點(diǎn)類型的轉(zhuǎn)換矩陣將異質(zhì)的頂點(diǎn)特征投影至同一向量空間中;然后采用多頭注意力機(jī)制聚合中心頂點(diǎn)的異質(zhì)鄰居特征,并將其與中心頂點(diǎn)的特征進(jìn)行有效融合,得到更具有表達(dá)能力的miRNA 和疾病特征嵌入;最后,將得到的miRNA 和疾病特征嵌入輸入至全連接層中對(duì)潛在的miRNA 與疾病間關(guān)聯(lián)進(jìn)行預(yù)測.5 折交叉驗(yàn)證的結(jié)果表明,本文所提模型在多項(xiàng)評(píng)價(jià)指標(biāo)上均取得了較為滿意的結(jié)果.與未進(jìn)行特征融合的模型的對(duì)比發(fā)現(xiàn),本文所提模型的特征融合策略能夠有效提升模型的預(yù)測性能. 此外,對(duì)食管腫瘤的病例研究結(jié)果也顯示出所提模型具有良好的預(yù)測能力. 上述實(shí)驗(yàn)結(jié)果均表明,本文提出的計(jì)算模型可作為預(yù)測miRNA 與疾病間潛在關(guān)聯(lián)的可靠工具. 在接下來的研究中,將嘗試在模型中嵌入更多的多源信息,如miRNA 序列信息、靶基因信息等,以期進(jìn)一步提升模型的預(yù)測性能.