蔡 標(biāo),葛 成,徐 晴,陸 翼,孔 韌,常 珊
(江蘇理工學(xué)院生物信息與醫(yī)藥工程研究所,常州 213001)
每年有數(shù)百萬(wàn)人死于癌癥[1-2]。傳統(tǒng)的物理和化學(xué)方法,包括靶向治療、化療和放射治療,仍然是治療癌癥的主要方法,這些方法側(cè)重于殺死癌細(xì)胞,但正常細(xì)胞也會(huì)受到不利影響,導(dǎo)致嚴(yán)重的副作用。更重要的是,這些治療方法昂貴且低效。抗癌肽(ACPs)是一系列由10~60個(gè)氨基酸組成的短肽,其具有較強(qiáng)的陽(yáng)離子特性,是一種新的癌癥治療方法[3]??拱╇木哂卸喾N優(yōu)勢(shì),包括高特異性、易于合成和修改、生產(chǎn)成本低等[4-6]??拱╇闹荒芘c癌細(xì)胞的陰離子細(xì)胞膜成分相互作用,因此,它們可以選擇性地殺死癌細(xì)胞[7],而對(duì)正常細(xì)胞幾乎沒(méi)有傷害。近年來(lái),抗癌肽治療方法成為研究熱點(diǎn),用于治療不同臨床階段中的不同類型的腫瘤[8-10]。然而,只有很少一部分的抗癌肽能夠最終被用于臨床治療。此外,通過(guò)實(shí)驗(yàn)方法識(shí)別潛在的新抗癌肽的過(guò)程耗時(shí)、昂貴,并且實(shí)驗(yàn)室資源有限。因此,迫切需要開發(fā)高效的抗癌肽預(yù)測(cè)技術(shù)。
目前,已有一些關(guān)于抗癌肽預(yù)測(cè)的研究。Tyagi等[11]開發(fā)了一個(gè)支持向量機(jī)(SVM)模型,并以氨基酸組成和二肽組成作為特征信息輸入到SVM模型進(jìn)行抗癌肽預(yù)測(cè)。Hajisharifi等[12]開發(fā)了兩種預(yù)測(cè)抗癌肽的機(jī)器學(xué)習(xí)方法,使用Chou[13]提出的偽氨基酸組成模型(pseudo amino acid composition,PseAAC)和本地對(duì)齊核(local alignment kernel)方法得到特征信息,結(jié)合SVM模型進(jìn)行預(yù)測(cè)。Vijayakumar等[14]提出了一種使用支持向量機(jī)和蛋白質(zhì)相關(guān)度測(cè)量特征向量的計(jì)算方法預(yù)測(cè)蛋白質(zhì)中的抗癌肽。Chen等[15]提出將二肽組成和偽氨基酸組分信息作為特征,結(jié)合支持向量機(jī)構(gòu)建了抗癌肽的預(yù)測(cè)算法,是當(dāng)時(shí)最優(yōu)的抗癌肽預(yù)測(cè)模型。LeYi等[16]采用了氨基酸組成、二肽組成、氨基酸理化性質(zhì)以及每種氨基酸在序列中的出現(xiàn)頻率等信息,結(jié)合支持向量機(jī)構(gòu)建了40個(gè)子模型,再以40個(gè)子模型的輸出作為輸入來(lái)搭建模型進(jìn)行抗癌肽的預(yù)測(cè)。近幾年來(lái),深度學(xué)習(xí)技術(shù)發(fā)展迅速,基于深度學(xué)習(xí)的抗癌肽預(yù)測(cè)方法成為了研究熱點(diǎn)。Yi等[17]將抗癌肽序列使用獨(dú)熱編碼和K-mer稀疏矩陣進(jìn)行特征表示,再結(jié)合長(zhǎng)短期記憶[18](long short-term memory,LSTM)神經(jīng)網(wǎng)絡(luò)模型進(jìn)行抗癌肽預(yù)測(cè)。
雖然這些方法取得了很好結(jié)果,但是它們都需要提前將肽序列通過(guò)復(fù)雜的特征提取算法映射為特征向量,再輸入到機(jī)器學(xué)習(xí)模型或深度學(xué)習(xí)模型中進(jìn)行抗癌肽預(yù)測(cè),整個(gè)過(guò)程十分繁瑣,并且其性能在很大程度上依賴于特征提取算法的設(shè)計(jì)。因此,迫切需要一種更加簡(jiǎn)單、高效的抗癌肽預(yù)測(cè)方法。值得注意的是,方春等[19]提出了一種僅使用LSTM神經(jīng)網(wǎng)絡(luò)進(jìn)行抗癌肽預(yù)測(cè)的方法,該方法不需要額外的特征提取算法,僅將肽序列作為輸入,采用文本處理中的字符嵌入方法,自動(dòng)將序列映射到特征向量表示,模型自行抽取特征進(jìn)行訓(xùn)練和預(yù)測(cè)。但是該方法最終的結(jié)果較基于特征提取算法結(jié)合機(jī)器學(xué)習(xí)的方法相比,并沒(méi)有提升。Ahmed等[20]使用二進(jìn)制輪廓信息(BRF)、基于物理化學(xué)的信息(AAIs)表示和基于進(jìn)化信息(BLO62)的表示三種氨基酸序列特征,利用多頭神經(jīng)網(wǎng)絡(luò)解決抗癌肽分類問(wèn)題。
本文提出了一種使用深度學(xué)習(xí)Transformer網(wǎng)絡(luò)模型來(lái)預(yù)測(cè)抗癌肽的方法。該方法僅需要將肽序列作為輸入,模型自動(dòng)將序列信息通過(guò)字符嵌入的方法映射為特征向量,無(wú)需使用復(fù)雜的特征表示方法,實(shí)現(xiàn)了使用Transformer網(wǎng)絡(luò)模型來(lái)自動(dòng)識(shí)別抗癌肽和非抗癌肽,并在兩個(gè)數(shù)據(jù)集上對(duì)模型進(jìn)行了評(píng)估實(shí)驗(yàn)。此外,本文還將模型與現(xiàn)有的機(jī)器學(xué)習(xí)模型,如SVM、隨機(jī)森林(RF)、樸素貝葉斯(NB)和深度學(xué)習(xí)模型ACP-DL進(jìn)行了比較,五倍交叉驗(yàn)證實(shí)驗(yàn)結(jié)果表明,本文方法能夠有效地預(yù)測(cè)抗癌肽,明顯優(yōu)于現(xiàn)有方法。模型的工作流程如圖1所示。
為了將本文方法與ACP-DL方法進(jìn)行比較,使用了Yi等[17]公布的兩組抗癌肽數(shù)據(jù)集,數(shù)據(jù)集的詳細(xì)信息如表1所示,每個(gè)數(shù)據(jù)集都包括相同數(shù)量的正樣本和負(fù)樣本,其中正樣本表示該樣本是抗癌肽,負(fù)樣本表示該樣本非抗癌肽。
表1 數(shù)據(jù)集的統(tǒng)計(jì)
兩組抗癌肽數(shù)據(jù)集肽序列的長(zhǎng)度分布統(tǒng)計(jì)如圖2所示。ACP240數(shù)據(jù)集中肽序列長(zhǎng)度分布在10~209個(gè)殘基之間,樣本的平均長(zhǎng)度為30.5個(gè)殘基;ACP740數(shù)據(jù)集中肽序列長(zhǎng)度分布在10~97個(gè)殘基之間,樣本的平均長(zhǎng)度為26.4個(gè)殘基。因此,在接下來(lái)對(duì)序列進(jìn)行字符嵌入時(shí),每個(gè)序列被填充或者截?cái)酁榻咏骄L(zhǎng)度的固定值30。
本研究使用的方法不需要額外設(shè)計(jì)復(fù)雜的算法來(lái)提取特征,如氨基酸理化性質(zhì),氨基酸組成特征等,只需將肽序列作為輸入,具體的序列表征流程如圖3所示。創(chuàng)建了一個(gè)氨基酸與其對(duì)應(yīng)編號(hào)的字典,每個(gè)氨基酸都有一個(gè)整數(shù)可與之對(duì)應(yīng),因此輸入的肽序列首先會(huì)被整數(shù)編碼;之后將序列固定統(tǒng)一長(zhǎng)度,不夠固定長(zhǎng)度的序列需要在末尾位置補(bǔ)0,超過(guò)固定長(zhǎng)度的序列將會(huì)被截?cái)啵釛壋龅牟糠?;然后通過(guò)Transformer進(jìn)行詞嵌入訓(xùn)練,使20種氨基酸中每個(gè)氨基酸都能由一組向量表示。如圖3所示,假設(shè)輸入的肽序列為“FALAKA-LKKAL”,首先需要將序列用整數(shù)進(jìn)行編碼,此時(shí)的序列長(zhǎng)度為11,如果設(shè)置固定長(zhǎng)度為12,那么序列的末尾位置將會(huì)自動(dòng)補(bǔ)0至固定長(zhǎng)度。通過(guò)神經(jīng)網(wǎng)絡(luò)的不斷訓(xùn)練,每個(gè)氨基酸都會(huì)由一組向量唯一表示。最終,每條肽序列可被編碼為M×N矩陣,M為設(shè)置的固定長(zhǎng)度,N為設(shè)置的特征向量維度。
Transformer最早用于自然語(yǔ)言處理方面的研究,如今被大范圍地應(yīng)用與拓展[21-22]。在這之前,自然語(yǔ)言處理的相關(guān)研究主要采用循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),LSTM和GRU等模型。Transformer與LSTM等模型的最大區(qū)別在于LSTM等模型的訓(xùn)練過(guò)程是迭代的、串行的,需要逐一處理輸入字符。而Transformer的訓(xùn)練是并行的,即所有字符是同時(shí)訓(xùn)練的,這樣就大大提高了計(jì)算效率。由于Transformer模型沒(méi)有LSTM的迭代操作,所以需要將每個(gè)字符的位置信息傳給Transformer,從而識(shí)別出序列中的順序關(guān)系,即需要對(duì)序列進(jìn)行位置編碼,以獲取順序信息。完整的Transformer包括編碼和解碼兩部分,主要用來(lái)進(jìn)行自然語(yǔ)言處理方面的工作,如機(jī)器翻譯,語(yǔ)言建模等。本文研究屬于文本分類的范疇,所以只需要用到Transformer的編碼部分。完整的編碼部分主要包括字符嵌入、位置編碼、自注意力機(jī)制、殘差連接和全連接層。
本文提出的算法流程如圖4所示。首先,將肽序列進(jìn)行字符嵌入得到序列的嵌入矩陣,并將其與位置編碼后的矩陣進(jìn)行疊加,得到特征矩陣。接著,特征矩陣經(jīng)過(guò)N次重復(fù)的多頭注意力機(jī)制與殘差連接,以及線性映射與殘差連接模塊。最后,通過(guò)全連接層和Sigmoid激活函數(shù)層得到一個(gè)概率值,設(shè)定一個(gè)閾值,當(dāng)概率值大于該閾值時(shí),輸出為1;反之,輸出為0,其中1表示該肽序列為抗癌肽,0表示該肽序列為非抗癌肽。
本研究采用五倍交叉驗(yàn)證來(lái)評(píng)估Transformer模型的性能。在每次驗(yàn)證中,數(shù)據(jù)集被隨機(jī)分成5等份:4等份數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),其余1等份數(shù)據(jù)作為測(cè)試數(shù)據(jù)。確保訓(xùn)練數(shù)據(jù)與測(cè)試數(shù)據(jù)之間沒(méi)有重疊。最終驗(yàn)證結(jié)果取五倍交叉驗(yàn)證結(jié)果的平均值。為了便于比較,采用與ACP_DL相同的評(píng)價(jià)指標(biāo),包括準(zhǔn)確性(accuracy,Acc)、敏感性(sensitive,Sens)、特異性(specificity,Spec)、精確率(precision,Prec)和馬修斯相關(guān)系數(shù)(Matthews correlation coefficient,MCC),定義如下:
其中,TN表示真反例,TP表示真正例,F(xiàn)N表示假反例,F(xiàn)P表示假正例。同時(shí),也采用了ROC曲線和AUC來(lái)評(píng)估性能。
本文采用Keras深度學(xué)習(xí)框架,在一臺(tái)Tesla K80機(jī)器上進(jìn)行訓(xùn)練,其顯存為11 G。抗癌肽的預(yù)測(cè)實(shí)質(zhì)是二分類問(wèn)題,因此,本文選擇模型的損失函數(shù)為binary_crossentropy,優(yōu)化函數(shù)選擇adam,激活函數(shù)為sigmoid,批大小設(shè)置為2。通過(guò)多次參數(shù)調(diào)優(yōu),在ACP240上的訓(xùn)練輪數(shù)設(shè)置為200,在ACP740上的訓(xùn)練輪數(shù)設(shè)置為100。
為了將本文模型與ACP-DL模型以及其他機(jī)器學(xué)習(xí)模型進(jìn)行比較,在相同的數(shù)據(jù)集上執(zhí)行了本文模型,如表2所示。
表2 實(shí)驗(yàn)設(shè)置
模型都采取五倍交叉驗(yàn)證,并取五次的平均值進(jìn)行比較。需要注意的是,三個(gè)機(jī)器學(xué)習(xí)模型與ACP-DL模型的五倍交叉驗(yàn)證結(jié)果在Yi[31]的論文中已經(jīng)給出,這里不再進(jìn)行重復(fù)實(shí)驗(yàn)。
本文模型在ACP740和ACP240數(shù)據(jù)集上的五倍交叉驗(yàn)證結(jié)果如表3所示。從表3可以看到,在ACP740數(shù)據(jù)集上,模型的平均準(zhǔn)確率(Acc)為83.75%,標(biāo)準(zhǔn)差為5.97%;平均敏感性(Sens)為84.89%,標(biāo)準(zhǔn)差為7.64%;平均特異性(Spec)為85.26%,標(biāo)準(zhǔn)差為3.27%;平均精確率(Prec)為82.06%,標(biāo)準(zhǔn)差為9.37%;平均馬修斯相關(guān)系數(shù)(MCC)為67.39%,標(biāo)準(zhǔn)差為12.13%。其ROC曲線下面積(AUC)為0.898,如圖5所示。在ACP240數(shù)據(jù)集上,模型的平均準(zhǔn)確率為87.92%,標(biāo)準(zhǔn)差為2.72%;平均敏感性為85.93%,標(biāo)準(zhǔn)差為4.87%;平均特異性為93.05%,標(biāo)準(zhǔn)差為1.65%;平均精確率為82.06%,標(biāo)準(zhǔn)差為6.82%;平均馬修斯相關(guān)系數(shù)為76.04%,標(biāo)準(zhǔn)差為5.08%。其ROC曲線下面積為0.910,如圖6所示。模型在ACP740上的訓(xùn)練損失函數(shù)和訓(xùn)練正確率如圖7所示,在ACP240上的訓(xùn)練損失函數(shù)和訓(xùn)練正確率如圖8所示,可以看出模型的訓(xùn)練損失整體呈下降趨勢(shì)。
表3 模型在兩個(gè)數(shù)據(jù)集上的五倍交叉驗(yàn)證結(jié)果
模型在ACP240數(shù)據(jù)集上的訓(xùn)練損失出現(xiàn)多個(gè)短暫峰值,這是由于該數(shù)據(jù)集的樣本數(shù)量相對(duì)較少,導(dǎo)致訓(xùn)練波動(dòng)。表4展示了不同方法在同一數(shù)據(jù)集下的性能比較。從表4可以看出,與其它四種模型相比,本文模型提升顯著。這表明該模型能夠很好地完成抗癌肽預(yù)測(cè)任務(wù),并且不需要額外設(shè)計(jì)復(fù)雜的特征提取算法,較其他模型相比更加簡(jiǎn)單、高效、高準(zhǔn)確率。
表4 不同方法在同一數(shù)據(jù)集下的性能比較
本文提出了一種基于Transformer模型的抗癌肽預(yù)測(cè)方法。該方法具有如下特點(diǎn):
(1)與現(xiàn)有方法相比,具有較優(yōu)的抗癌肽預(yù)測(cè)性能;
(2)僅需將肽序列作為輸入,模型自動(dòng)將序列信息通過(guò)字符嵌入的方法映射為特征向量,無(wú)需復(fù)雜的特征表示方法,實(shí)現(xiàn)了使用Transformer網(wǎng)絡(luò)模型來(lái)自動(dòng)識(shí)別抗癌肽和非抗癌肽。