梁 瀟,吳 昊,劉全中*
(1.西北農(nóng)林科技大學(xué) 信息工程學(xué)院,陜西 楊凌 712100;2.陜西省農(nóng)業(yè)信息感知與智能服務(wù)重點實驗室,陜西 楊凌 712100)
生物體內(nèi)廣泛分布著上萬種多肽,近年來,隨著科學(xué)研究的發(fā)展和對生命活動規(guī)律的深入探索,越來越多的功能性多肽分子被不斷發(fā)現(xiàn),部分多肽具有抗癌、抗菌、抗炎、抗病毒、穿透細(xì)胞等特性,這些特性為疾病治療提供了重要依據(jù)[1]。
抗癌肽(anticancer peptides,ACPs)能破壞腫瘤細(xì)胞膜結(jié)構(gòu),對癌細(xì)胞增殖和遷移具有抑制作用,而對正常的體細(xì)胞基本無損傷,因此抗癌肽檢測有助于抗腫瘤藥物的研究[1];抗菌肽(anti-bacterial peptides,ABPs)對部分細(xì)菌、真菌、病毒有殺傷作用,其潛在的價值也受到醫(yī)學(xué)界的廣泛關(guān)注[2];細(xì)胞穿透肽(cell penetrating peptides,CPPs)被廣泛用作藥物進(jìn)入細(xì)胞的運(yùn)輸載體[3];結(jié)合肽(surface-binding peptides,SBPs)有助于在噬菌體展示實驗中建立高效的ELISA(enzyme linked immunosrbent assay)系統(tǒng)[4]。
具有治療特性的多肽目前已經(jīng)越來越廣泛地應(yīng)用于臨床診斷和治療中,因此識別這些多肽對于發(fā)現(xiàn)新的、高效的疾病治療方法具有重要的現(xiàn)實意義[2]。傳統(tǒng)的生物實驗方法識別多肽耗時、耗力且成本高,隨著高通量測序技術(shù)的發(fā)展和測序成本的持續(xù)降低,研究界和醫(yī)學(xué)界不斷產(chǎn)生海量的測序序列,然而傳統(tǒng)方法從高通量序列中識別多肽效率低下。為了提高多肽的識別效率,基于機(jī)器學(xué)習(xí)的多肽識別方法越來越受到研究界的青睞[5]。近年來,研究界已提出了許多基于機(jī)器學(xué)習(xí)的治療肽的預(yù)測模型,根據(jù)其使用算法進(jìn)行分類,分為基于傳統(tǒng)的機(jī)器學(xué)習(xí)肽預(yù)測模型與基于深度學(xué)習(xí)的肽預(yù)測模型。
基于傳統(tǒng)的機(jī)器學(xué)習(xí)肽預(yù)測模型主要使用不同的序列特征把肽序列表示為特征向量,構(gòu)造二分類樣本集,使用不同的分類模型進(jìn)行訓(xùn)練,然后預(yù)測新的肽序列。主要工作如下:2007年7月,Lata等人利用抗菌肽中N端和C端殘基的特異性分別建立了基于神經(jīng)網(wǎng)絡(luò)、QM(quantitative matrices)和支持向量機(jī)的ABP預(yù)測模型[5];2017年5月,Wei等人整合了基于序列的特征描述符PC-PseAAC(parallel correlation pseudo-amino-acid composition)、SC-PseAAC(series correlation pseudo-amino-acid composition)、ASDC(adaptive skip dipeptide composition)、PPs(physicochemical properties),構(gòu)建了基于隨機(jī)森林算法的兩層CPP預(yù)測框架CPPred-RF[6];2017年7月,Li等人使用OAAC(optimized amino acid composition)和ODPC(optimized dipeptide composition)兩種特征開發(fā)了基于支持向量機(jī)的SBP預(yù)測器PSBinder,它可以快速有效地排除假陽性肽,更準(zhǔn)確地獲得SBP[7];2018年6月,Wei等人提出了一個基于支持向量機(jī)的ACP預(yù)測器ACPred-FL[8],使用了BPF(binary profile features)、GDC(G-gap dipeptide composition)、OPF(overlapping property features)、CTD(composition-transition-distribution)4種序列特征表示樣本,通過最大相關(guān)-最小冗余和順序前向搜索特征選擇方法剔除冗余特征,提高了預(yù)測器的預(yù)測性能。以上預(yù)測方法都是針對識別特定的肽而構(gòu)造的模型,2019年4月,Wei等人提出了基于隨機(jī)森林的多肽預(yù)測模型PEPred-Suit,該模型引入了一種自適應(yīng)特征表示策略,可以學(xué)習(xí)不同肽類型的最具代表性的特征,能有效識別多種不同類型肽[9]。
深度學(xué)習(xí)主要使用卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)自動抽取出抽象特征,其中循環(huán)神經(jīng)網(wǎng)絡(luò)主要用于處理文本和序列數(shù)據(jù)。肽是一種序列數(shù)據(jù),因此循環(huán)神經(jīng)網(wǎng)絡(luò)更適合肽的預(yù)測研究。針對基于深度學(xué)習(xí)的肽預(yù)測模型,2019年9月,Yi等人使用兩種序列特征K-mer稀疏矩陣和BPF(binary profile features),構(gòu)建了基于長期短期記憶LSTM(long short-term memory)循環(huán)神經(jīng)網(wǎng)絡(luò)的ACP預(yù)測模型ACP-DL,實現(xiàn)了一個DeepLSTM模型來自動學(xué)習(xí)如何識別抗癌肽和非抗癌肽。在基準(zhǔn)數(shù)據(jù)集五折交叉驗證實驗結(jié)果表明,ACP-DL具有較高的識別性能[10]。
已有的基于機(jī)器學(xué)習(xí)肽預(yù)測方法促進(jìn)了肽的研究,但分類器的識別性能仍有待提高,而且除了PEPred-Suit模型外,其他模型都只能識別某一種特定肽。針對以上問題,該文提出了一種通用的基于GRU循環(huán)神經(jīng)網(wǎng)絡(luò)的多肽預(yù)測模型DeepPEPred,能有效識別多種類型的肽。DeepPEPred用如下四種特征作為輸入序列的編碼:氨基酸組成(amino acid composition,AAC)、K-spaced氨基酸對的組成(composition of k-spaced amino acid pairs,CKSAAP)、構(gòu)成/變遷/分布(composition/transition/distribution,CTD)、偽氨基酸組成(pseudo-amino acid composition,PAAC)能夠有效預(yù)測不同的肽段,其中AAC在ACPred-FL模型被使用預(yù)測抗癌肽,CTD在PEPred-Suit模型被使用預(yù)測各種類型的肽。通過初步的實驗驗證:這四種特征使得DeepPEPred模型能夠獲得較好的總體性能。為了驗證DeepPEPred的性能,該研究在抗癌肽、抗菌肽、細(xì)胞穿透肽和結(jié)合肽四種不同肽數(shù)據(jù)集上進(jìn)行實驗。經(jīng)過十折交叉驗證和獨(dú)立測試結(jié)果表明,與現(xiàn)有的肽預(yù)測模型相比,DeepPEPred模型具有更強(qiáng)的識別性能。
該文旨在構(gòu)建一個通用的深度學(xué)習(xí)模型預(yù)測具有不同治療特性的肽,使用ACP、ABP、CPP和SBP四種肽數(shù)據(jù)集評估提出的模型,每種肽數(shù)據(jù)集包括一個訓(xùn)練集和一個獨(dú)立測試集,訓(xùn)練集和獨(dú)立測試集都由正例樣本和負(fù)例樣本組成,正例樣本是經(jīng)過實驗驗證的治療性多肽(如抗癌活性),負(fù)例樣本通常是沒有相關(guān)特性(如非抗癌活性)或隨機(jī)序列的多肽[9]。
該研究使用的ACP數(shù)據(jù)包括文獻(xiàn)[9-13]提供的數(shù)據(jù)集和數(shù)據(jù)庫CancerPPD[14]中最新的ACP數(shù)據(jù),為了避免整合后序列中含有重復(fù)序列,該研究使用CD-HIT軟件[15]去除同源性超過90%的序列。最后得到的ACP訓(xùn)練集中包括422個經(jīng)實驗驗證的ACP序列以及1 688個非ACP序列;ACP獨(dú)立測試集中包括97個經(jīng)實驗驗證的ACP序列以及97個非ACP序列。該文使用了Lata等人[5]提供的ABP數(shù)據(jù)集、Wei等人[6]提供的CPP數(shù)據(jù)集以及Li等人[7]提供的SBP數(shù)據(jù)集。四種肽數(shù)據(jù)集的詳細(xì)信息如表1所示。
表1 四種肽數(shù)據(jù)集
該研究通過iLearn[16]選取了四種特征表示肽序列,分別是:氨基酸組成(AAC)、K-spaced氨基酸對的組成(CKSAAP)、構(gòu)成/變遷/分布(CTD)、偽氨基酸組成(PAAC)。
氨基酸組成(AAC)[17]是計算肽序列中每種氨基酸的出現(xiàn)頻率,AAC特征編碼的維度為20,序列中每種氨基酸出現(xiàn)的頻率可由公式(1)計算:
(1)
其中,R(i)是肽序列中名稱為i的氨基酸出現(xiàn)的次數(shù),L是肽序列的長度。最終可以得到20種氨基酸在肽序列中的出現(xiàn)頻率。
這個蜘蛛精……是人?青辰一邊聽著天葬師的話,一邊仔細(xì)打量。那唐飛霄矮小瘦弱,整個身子都裹在硬甲中,只有一顆碩大的光頭露在外面,看起來怪誕而不合比例。自己先入為主,竟將其當(dāng)做了蜘蛛精,著實鬧了個笑話。
CTD使用組成(C)、過渡(T)和分布(D)三個描述符描述蛋白質(zhì)序列中[18]的每個基團(tuán)中各性質(zhì)的氨基酸分布,CTD采用七種物理化學(xué)性質(zhì)表示蛋白質(zhì)或肽序列,它們包括疏水性、標(biāo)準(zhǔn)化范德華體積、極性、極化度、電荷、二級結(jié)構(gòu)和溶劑可及性,ilearn包[16]中將疏水性又分為七個不同性質(zhì),加上其他六種性質(zhì),共有13種性質(zhì)?;谥饕陌被嶂笖?shù),針對每一種性質(zhì),將20種氨基酸分為三類。本研究只使用描述符D來編碼肽序列,D統(tǒng)計三類氨基酸中每類氨基酸含量為0%,25%,50%,75%,100%時相對于整條肽序列的分布情況,即每類有五個描述符值,因此每種性質(zhì)使用3×5=15個描述符表示。因此,CTD將一個肽序列編碼成一個由13×15=195個描述符值組成的向量。
傳統(tǒng)的氨基酸組成只考慮蛋白質(zhì)序列中20個氨基酸出現(xiàn)的頻率,這會丟失蛋白質(zhì)鏈的序列信息。PAAC將20個氨基酸的序列順序信息和頻率整合在一起進(jìn)行編碼[19]。一個蛋白質(zhì)序列編碼成一個20+A維向量,向量的前20個分量表示20個氨基酸的出現(xiàn)頻率,最后的A個分量表示序列順序信息。PAAC被證明是一種有效的特征編碼方案,并被廣泛應(yīng)用于蛋白質(zhì)序列或者肽序列相關(guān)領(lǐng)域的研究[20]。輸入肽序列的PAAC計算由ilearn包提供。經(jīng)實驗驗證,當(dāng)A=4時,模型預(yù)測性能最優(yōu),因此PAAC將一個肽序列編碼成一個24維特征向量。
不同特征向量往往具有不同的量度,這將影響到模型預(yù)測性能,因此需要對原始特征組合進(jìn)行標(biāo)準(zhǔn)化使得每個特征處于同一數(shù)量級,有利于預(yù)測模型的建立[21]。
該研究使用的Z-score方法是基于原始特征的均值(mean)和標(biāo)準(zhǔn)差(standard deviation)進(jìn)行數(shù)據(jù)的標(biāo)準(zhǔn)化,該方法適用于數(shù)據(jù)屬性值的最大值和最小值未知的情況,或有超出取值范圍的離群數(shù)據(jù)的情況[21]。Z-score標(biāo)準(zhǔn)化可由公式(2)計算:
(2)
其中,Z為標(biāo)準(zhǔn)化后的變量值,X為實際變量值,μ為各變量(特征)的算術(shù)平均值(數(shù)學(xué)期望),σ為標(biāo)準(zhǔn)差。
深度學(xué)習(xí)(deep learning,DL)作為機(jī)器學(xué)習(xí)的新興技術(shù)[22],近年來已被廣泛應(yīng)用于生物信息學(xué)中[23]。深度學(xué)習(xí)模型包括卷積神經(jīng)網(wǎng)絡(luò)模型、堆棧自編碼網(wǎng)絡(luò)模型、長短期記憶網(wǎng)絡(luò)模型(long short-term memory,LSTM)[24-25]等。
提出的基于深度學(xué)習(xí)的多肽識框架如圖1所示,主要包含以下幾個步驟。
圖1 DeepPEPred預(yù)測方法流程
步驟一:肽序列數(shù)據(jù)集構(gòu)造。該研究收集了ACP、ABP、CPP和SBP四種肽數(shù)據(jù)集,四種數(shù)據(jù)集分別包含一個訓(xùn)練集和一個獨(dú)立測試集,每種數(shù)據(jù)的訓(xùn)練集和獨(dú)立測試集見表1。
步驟二:肽序列樣本集表示。該研究通過對多種肽序列特征進(jìn)行性能評估,篩選出四種對于ACP、ABP、CPP、SBP序列有較強(qiáng)識別能力的特征,四種特征分別是AAC、CKSAAP、CTDD、PAAC,它們編碼維數(shù)分別是20、2 000、195、24,每一個肽序列樣本被編碼的維度為2 239,得到四種肽序列的二分類樣本集。
步驟三:深度學(xué)習(xí)模型構(gòu)建。輸入層特征維度為2 239個,將輸入層神經(jīng)元輸入隱藏層,隱藏層的第一層為GRU層,輸出維度為59,GRU層后面增加一個Dropout層,設(shè)置為0.465,防止模型過擬合;輸出層空間維度為1,使用sigmoid激活函數(shù)。在模型訓(xùn)練過程中,使用early-stop早停機(jī)制,防止模型過擬合;損失函數(shù)使用交叉熵?fù)p失函數(shù),優(yōu)化器使用Adam,迭代次數(shù)(epoch)為100次。
步驟四:模型訓(xùn)練。該研究先使用ACP數(shù)據(jù)集訓(xùn)練一個初步的預(yù)測模型,由于ACP數(shù)據(jù)集中負(fù)例樣本數(shù)是正例樣本數(shù)的四倍,樣本集嚴(yán)重不平衡,將影響模型的性能。該研究借鑒BootStrapping[28]方法來解決數(shù)據(jù)集中正負(fù)例樣本不平衡問題,BootStrapping方法是指對數(shù)據(jù)集進(jìn)行有放回的抽樣,將每次抽取的數(shù)據(jù)作為一個新樣本,重復(fù)多次,形成多個新樣本。該研究對負(fù)例樣本集采取不放回抽樣方法,該策略的示意圖如圖2所示。假設(shè)P和N分別表示正例樣本集(ACP序列)和負(fù)例樣本集(非ACP序列),TP和TN表示正例樣本和負(fù)例樣本的數(shù)量,以大小為TP的窗口循環(huán)遍歷負(fù)例樣本集,循環(huán)n=TN/TP次,每次循環(huán)抽取的TP個負(fù)例樣本作為一個負(fù)子集,與正例樣本集結(jié)合生成一個正負(fù)例數(shù)目相同訓(xùn)練集,并用這個訓(xùn)練集進(jìn)行模型訓(xùn)練,保留每次循環(huán)訓(xùn)練的模型,最終預(yù)測結(jié)果取n次模型預(yù)測結(jié)果的均值。
圖2 ACP數(shù)據(jù)集劃分圖
步驟五:模型優(yōu)化。首先在ACP數(shù)據(jù)集上經(jīng)過貝葉斯參數(shù)調(diào)優(yōu)[29]進(jìn)行參數(shù)尋優(yōu),得到一個最優(yōu)參數(shù)的框架,然后用最優(yōu)參數(shù)框架訓(xùn)練ABP、CPP、SBP數(shù)據(jù)集。貝葉斯優(yōu)化方法首先采用高斯過程不斷地更新目標(biāo)函數(shù)的后驗分布,然后在預(yù)先設(shè)置的參數(shù)范圍內(nèi)自動搜索最好的參數(shù)。在參數(shù)優(yōu)化時,設(shè)置GRU層輸出維度的初始范圍為[8,128],優(yōu)化后的最優(yōu)值為59;設(shè)置Dropout的初始范圍為[0.1,0.6],優(yōu)化后的最優(yōu)值為0.465。經(jīng)過上述操作確定了最優(yōu)參數(shù),并構(gòu)建了一個適用于四種治療肽的最優(yōu)模型。
步驟六:模型評估。該研究使用十折交叉驗證和獨(dú)立測試方法對模型進(jìn)行評估,并與現(xiàn)有模型進(jìn)行預(yù)測性能比較。
為了評估DeepPEPred模型的預(yù)測性能,該研究使用了五種常用指標(biāo)來評價模型的性能,包括AUC(area under the ROC curve)值、準(zhǔn)確度(accuracy,Acc)、特異性(specificity,Sp)、敏感性(sensitivity,Sn) 和馬修斯相關(guān)系數(shù)(Matthews correlation coefficient,MCC)。其中AUC表示ROC(receiver operating characteristic)曲線下的面積,ROC曲線是指按順序逐個對樣本進(jìn)行預(yù)測,每次計算出真陽性率(TPR)與假陽性率(FPR)分別以它們作為縱、橫坐標(biāo)進(jìn)行繪制而生成的曲線。較大的AUC值表示該模型實現(xiàn)了更好和更強(qiáng)大的預(yù)測性能。這五種評價指標(biāo)的定義如下:
(3)
(4)
(5)
MCC=
(6)
其中,TP、TN、FP和FN分別表示真陽性、真陰性、假陽性和假陰性的樣本數(shù)量。
該研究對比的ACP識別方法在同樣的數(shù)據(jù)集上采用獨(dú)立測試,其他三種肽的識別方法在相同的數(shù)據(jù)集上采用十折交叉驗證方法,為了公平比較,該研究分別采用同樣的策略。
圖3表示DeepPEPred與現(xiàn)有模型在ABP、CPP、SBP三種肽數(shù)據(jù)集上十折交叉驗證結(jié)果的比較。由于現(xiàn)有的模型僅僅通過AUC值進(jìn)行評價,為了公平對比,該研究也僅僅提供了每種數(shù)據(jù)集的AUC值。
圖3 DeepPEPred和現(xiàn)有預(yù)測器在ABP、CPP和
從圖3的結(jié)果可知:在相同數(shù)據(jù)集上DeepPEPred預(yù)測模型在AUC方面取得了比其他預(yù)測方法更好的性能。在三個數(shù)據(jù)集(ABP、CPP和SBP)上比目前最新模型PEPred-Suite的AUC值分別高0.8%、0.3%和1.2%,比其他預(yù)測同類型肽模型(AntiBP、CPPred-RF和PSBinder)的AUC值分別高出2.7%、1.3%和5.9%。
在表2分別給出了DeepPEPred和PEPred-Suite在三個數(shù)據(jù)集上十折交叉驗證的其余指標(biāo)(Acc、Sn、Sp、MCC)的值,在ABP數(shù)據(jù)集上實驗結(jié)果表明:DeepPEPred比PEPred-Suite的MCC和Acc分別高出2.3%和1.2%;在CPP數(shù)據(jù)集上實驗結(jié)果表明:DeepPEPred比PEPred-Suite模型的MCC和Acc分別高出2.5%和1.2%;在SBP數(shù)據(jù)集上實驗結(jié)果表明:DeepPEPred比PEPred-Suite模型的MCC和Acc分別高出2.4%和1.2%。
表2 ABP、CPP、SBP數(shù)據(jù)集上十折交叉驗證結(jié)果
為了驗證DeepPEPred的泛化能力,該研究在ABP、CPP和SBP數(shù)據(jù)集上進(jìn)行了獨(dú)立測試,并與現(xiàn)有方法進(jìn)行了性能比較,結(jié)果如圖4所示。從圖4中結(jié)果可知:在三個數(shù)據(jù)集上與PEPred-Suite預(yù)測模型相比,AUC值分別提升了0.7%、1.5%和1.0%。在ABP數(shù)據(jù)集上,DeepPEPred與同類型肽預(yù)測模型AntiBP相比AUC值分別提升了0.7%;在CPP數(shù)據(jù)集上,DeepPEPred與在同類型肽預(yù)測模型CPPred-RF相比AUC值提升了2.6%;在SBP數(shù)據(jù)集上,DeepPEPred與PSBinder的AUC值相等。
圖4 DeepPEPred和現(xiàn)有預(yù)測器獨(dú)立測試的性能對比
DeepPEPred模型在ABP、CPP和SBP數(shù)據(jù)集上獨(dú)立測試的MCC、Acc、Sn、Sp評價結(jié)果如表3所示。即使DeepPEPred是基于ACP數(shù)據(jù)集構(gòu)建及調(diào)優(yōu)的,從圖4和表3結(jié)果可知,DeepPEPred對于ABP、CPP和SBP三種肽預(yù)測也是有效的,說明DeepPEPred具有較強(qiáng)的遷移能力。
表3 ABP、CPP、SBP獨(dú)立測試詳細(xì)結(jié)果
由于ACP數(shù)據(jù)集正負(fù)例樣本不平衡,該研究首先將負(fù)例樣本分成四份,每份與正例樣本相結(jié)合生成四個正負(fù)均衡的訓(xùn)練集;然后對模型進(jìn)行四次訓(xùn)練,每次訓(xùn)練得到的模型進(jìn)行獨(dú)立測試,測試結(jié)果如表4所示,最終結(jié)果為四次結(jié)果的均值,其AUC、MCC和Acc最終值分別為0.875、0.631和0.811。
表4 ACP數(shù)據(jù)集獨(dú)立測試結(jié)果
為了進(jìn)一步驗證DeepPEPred模型預(yù)測ACP的性能,該研究比較了DeepPEPred與PEPred-Suite、ACPred[30]兩個ACP預(yù)測模型,獨(dú)立測試結(jié)果如表5所示。需要強(qiáng)調(diào)的是,PEPred-Suite和ACPred獨(dú)立測試結(jié)果是使用對應(yīng)文獻(xiàn)中提供的在線預(yù)測平臺測試獲得的。從表5的結(jié)果可知:DeepPEPred相對于PEPred-Suite和ACPred,在Acc、MCC、Sp值方面都有較為顯著的提升,其中Acc值分別提升了29.6%和4.3%,MCC值分別提升了59.7%和9.4%,Sp分別提升了17.5%和10.3%,Sn相比PEPred-Suite提升了41.5%。這說明了該研究提出的模型對于ACP預(yù)測是有效的。
表5 不同模型預(yù)測ACP的性能對比
提出了一種基于深度學(xué)習(xí)的多肽預(yù)測方法DeepPEPred。該方法利用四種特征對輸入序列進(jìn)行編碼,將標(biāo)準(zhǔn)化的編碼作為模型輸入,經(jīng)過貝葉斯參數(shù)調(diào)優(yōu),構(gòu)建出一個最優(yōu)的多種肽預(yù)測模型。
該方法的主要貢獻(xiàn)是構(gòu)造一個通用的模型,能有效預(yù)測多種肽。DeepPEPred模型對不同的多肽表現(xiàn)出一致的魯棒性,說明它具有很強(qiáng)的泛化能力。在四種肽數(shù)據(jù)集上與現(xiàn)有的方法進(jìn)行了對比,實驗結(jié)果表明:DeepPEPred模型在AUC、Acc和MCC三個綜合性評價指標(biāo)上比現(xiàn)有的預(yù)測方法更好。