羊紅光 成彬
摘 要:為了更快更準(zhǔn)地確定B細(xì)胞線(xiàn)性表位,提出了一種新的預(yù)測(cè)方法——MLEP(Prediction of epitope based on MCFS and LSTM,MLEP)算法。采用5種性質(zhì)氨基酸理化性質(zhì)作為學(xué)習(xí)特征,利用多聚類(lèi)特征選擇算法進(jìn)行特征選擇,用降維后的數(shù)據(jù)作為輸入,用長(zhǎng)短期記憶網(wǎng)絡(luò)進(jìn)行訓(xùn)練,獲得預(yù)測(cè)性能好的模型,對(duì)多聚類(lèi)特征選擇算法及MLEP算法的性能進(jìn)行評(píng)價(jià)。對(duì)非冗余LBtope數(shù)據(jù)集進(jìn)行多組實(shí)驗(yàn),結(jié)果表明,使用多聚類(lèi)特征選擇算法降維到25時(shí)獲取性能最優(yōu)模型,多聚類(lèi)特征選擇算法比主成分分析法獲得的模型準(zhǔn)確率更高,基于MLEP算法獲得的模型準(zhǔn)確率達(dá)到94.81%。因此,MLEP算法能更好地預(yù)測(cè)B細(xì)胞線(xiàn)性表位,對(duì)于表位預(yù)測(cè)研究具有一定的參考價(jià)值。
關(guān)鍵詞:生物信息論與生物控制論;B細(xì)胞;線(xiàn)性表位預(yù)測(cè);長(zhǎng)短期記憶網(wǎng)絡(luò);多群集;特征選擇
中圖分類(lèi)號(hào):R392.9?? 文獻(xiàn)標(biāo)志碼:A
Abstract:In order to determine the linear B-cell epitope faster and more accurately, a new prediction method MLEP algorithm is provided. Firstly, all the prediction calculations are based on the five properties scales of amino acids. Based on these results, a multi-cluster feature selection algorithm is studied for reducing the number of dimensions. Secondly, the networks is trained using long-short term memory network algorithm and with the reduced dimension data. Finally, the performance of the multi-cluster feature selection algorithm and the MLEP algorithm is evaluated. The experimental evaluation of classification is performed using the non-redundant LBtope dataset. The results show that the multi-cluster feature selection algorithm achieves the best performance when the dimension is reduced to 25, and the performance of the multi-cluster feature selection algorithm is significantly better than the methods based on the principal component analysis, and the maximum accuracy of 94.81% can be achieved using the MLEP algorithm. This method can effectively predict the linear epitope of B cells, which provides reference for the study of epitope prediction.
Keywords:bioinformatics and biocybernetic; B-cell; linear epitope prediction; long-short term memory; multi-cluster;feature selection
表位是抗原與抗體產(chǎn)生反應(yīng)的區(qū)域,B細(xì)胞表位的準(zhǔn)確識(shí)別是表位疫苗設(shè)計(jì)、免疫診斷試劑盒開(kāi)發(fā)的關(guān)鍵步驟之一。從結(jié)構(gòu)上看,B細(xì)胞表位分為線(xiàn)性表位和構(gòu)象性表位,線(xiàn)性表位由蛋白一級(jí)序列中連續(xù)的氨基酸序列片段構(gòu)成,構(gòu)象性表位由空間結(jié)構(gòu)相鄰而在蛋白一級(jí)序列中離散分布的氨基酸序列片段組成[1]。
準(zhǔn)確識(shí)別B細(xì)胞表位的方法有基于質(zhì)譜的方法、基于結(jié)晶學(xué)的方法等,但這些方法存在實(shí)驗(yàn)復(fù)雜、設(shè)備昂貴、操作技術(shù)要求高等因素,是影響表位疫苗研發(fā)的重要因素。隨著表位數(shù)據(jù)庫(kù)的建立,基于機(jī)器學(xué)習(xí)的B細(xì)胞表位預(yù)測(cè)方法快速發(fā)展,已經(jīng)成為一種速度快、成本低的有效方法[2-4]。
對(duì)B細(xì)胞線(xiàn)性表位預(yù)測(cè)的研究主要包括2個(gè)方面,一方面是多特征參數(shù)的復(fù)合及特征選擇,另一方面是設(shè)計(jì)性能更強(qiáng)的表位預(yù)測(cè)模型[5-9]。表位預(yù)測(cè)的特征參數(shù)除了常用的氨基酸理化性質(zhì)外,還有溶劑可及性、二級(jí)結(jié)構(gòu)、氨基酸對(duì)等結(jié)構(gòu)特點(diǎn)及統(tǒng)計(jì)學(xué)等。利用單一參數(shù)作為傾向標(biāo)度的預(yù)測(cè)方案被證實(shí)性能有限,多種參數(shù)復(fù)合特征開(kāi)展預(yù)測(cè)的方案逐漸顯現(xiàn)出了優(yōu)勢(shì),隨著特征維度的增長(zhǎng)計(jì)算量和計(jì)算復(fù)雜度也大幅的增加。在機(jī)器學(xué)習(xí)中,高維數(shù)的特征往往訓(xùn)練不出更高分類(lèi)性能的模型。因此,如何合理選擇特征是一個(gè)重要的問(wèn)題。弓紅巖[10]在特征集合中選出最優(yōu)子集后獲得性能更好的表位預(yù)測(cè)模型。LIU等[11]通過(guò)主成分分析方法(principal components analysis,PCA)去掉了特征集合中無(wú)用或冗余的特征,獲得具有較好性能的表位預(yù)測(cè)模型。特征選擇的關(guān)鍵是在去掉無(wú)用、冗余特征的同時(shí)保留數(shù)據(jù)集的結(jié)構(gòu),更要保證特征集合具有更好的可區(qū)分性。多聚類(lèi)特征選擇(multi-cluster feature selection,MCFS)用于無(wú)監(jiān)督特征選擇,可以更好地保留數(shù)據(jù)的多集群結(jié)構(gòu),是一種較好的特征選擇方法[12]。
基于機(jī)器學(xué)習(xí)的B細(xì)胞表位模型預(yù)測(cè)功能不斷得到提升。LI等[13]結(jié)合最大相關(guān)最小冗余度方法和增量特征選擇方法,采用物理化學(xué)和生物化學(xué)性質(zhì)、殘基無(wú)序排列、序列保守性、溶劑可及性、二級(jí)結(jié)構(gòu)、氨基酸在蛋白質(zhì)-蛋白質(zhì)界面和蛋白質(zhì)表面保守的傾向、側(cè)鏈碳原子數(shù)的偏差、進(jìn)化過(guò)程中氨基酸的獲得/損失等8種特征被用于編碼肽,使用隨機(jī)森林算法在測(cè)試數(shù)據(jù)集上分別達(dá)到了最高63.53%的準(zhǔn)確率。LIAN等[14]利用多元線(xiàn)性回歸建立了一種新的線(xiàn)性B細(xì)胞表位預(yù)測(cè)模型,在大型非冗余數(shù)據(jù)集上進(jìn)行了10倍交叉驗(yàn)證測(cè)試,取得了64.1%的準(zhǔn)確度。SLLNER等[15]將氨基酸的理化性質(zhì)、鄰域矩陣以及各自的概率和似然值等作為特征,每種肽的特征維數(shù)達(dá)到1 487個(gè)特征表示,通過(guò)結(jié)合特征選擇的最近鄰分類(lèi)器,使用5倍交叉驗(yàn)證測(cè)試獲得了72%的準(zhǔn)確度。WANG等[16]比較和評(píng)價(jià)了6種不同的B細(xì)胞表位預(yù)測(cè)軟件的正確預(yù)測(cè)真表位的能力,發(fā)現(xiàn)Bepipred,AApred,BEST,LBtope這4種預(yù)測(cè)軟件表現(xiàn)優(yōu)于隨機(jī)組,最高的平均預(yù)測(cè)準(zhǔn)確率為79.71%。這些預(yù)測(cè)方案中都是在蛋白質(zhì)一級(jí)序列中進(jìn)行,卻很少考慮序列中元素的相關(guān)性。長(zhǎng)短期記憶網(wǎng)絡(luò)(long-short term memory,LSTM)是一種用于長(zhǎng)序列訓(xùn)練的方法,具有記憶機(jī)制,可將序列間的一些關(guān)聯(lián)信息用于網(wǎng)絡(luò)的學(xué)習(xí)訓(xùn)練中,有助于獲得更高的識(shí)別準(zhǔn)確率[17-18]。
1 方 法
1.1 數(shù)據(jù)獲取
線(xiàn)性B細(xì)胞表位數(shù)據(jù)主要來(lái)自發(fā)表在重要學(xué)術(shù)期刊上、通過(guò)實(shí)驗(yàn)得出的表位數(shù)據(jù),這些數(shù)據(jù)被整理后收錄到IEDB數(shù)據(jù)庫(kù)(http://www.iedb.org)中,該數(shù)據(jù)庫(kù)由美國(guó)過(guò)敏與感染性疾病研究院(national institute of allergy and infectious diseases, NIAID)資助建設(shè)。在表位預(yù)測(cè)研究中,將IEDB數(shù)據(jù)庫(kù)中收錄的、已被標(biāo)記為表位的肽段序列作為表位樣本,再?gòu)陌砦粯颖镜牡鞍踪|(zhì)一級(jí)序列中抽取未經(jīng)標(biāo)記的肽段作為非表位樣本[19]。Uniport數(shù)據(jù)庫(kù)(https://www.uniprot.org/)提供蛋白質(zhì)的一級(jí)序列、二級(jí)結(jié)構(gòu)等很多結(jié)構(gòu)信息。近年來(lái),Abcpred,Bcpred,Chen,LBtope等4個(gè)數(shù)據(jù)集[5]常被用于研究。LBtope數(shù)據(jù)集從IEDB數(shù)據(jù)庫(kù)中整理出10 000多條包含20個(gè)氨基酸的表位序列數(shù)據(jù),通過(guò)去掉冗余之后形成的非冗余LBtope數(shù)據(jù)集有7 824個(gè)表位樣本和7 853個(gè)非表位樣本。本研究在LBtope數(shù)據(jù)集中進(jìn)行訓(xùn)練、測(cè)試。
1.2 特征及選擇方法
本研究以5種氨基酸理化性質(zhì)為特征標(biāo)度進(jìn)行參數(shù)復(fù)合,它們分別是抗原性、親水性、靈活性、疏水性、極性[20-21]。親水性殘基位于蛋白質(zhì)表面,與抗原表位有密切的聯(lián)系。極性氨基酸更容易暴露在蛋白質(zhì)的外表,是判定抗原表位的一種特征依據(jù)??乖詤?shù)是20種氨基酸在抗原蛋白中出現(xiàn)頻率的統(tǒng)計(jì)結(jié)果,是研究表位的一種特征參數(shù)。同樣,疏水性和靈活性與表位形成相關(guān)也常用作特征參數(shù)。每個(gè)表位樣本共包含20個(gè)氨基酸,因此每個(gè)樣本的特征維數(shù)是100。
MCFS特征選擇算法不同于其他特征選擇方法,只針對(duì)每個(gè)特征獨(dú)立計(jì)算的特定分?jǐn)?shù)中選擇排名最高的特征。MCFS特征選擇算法能保留不同特征間可能的相關(guān)性,從而產(chǎn)生最佳特征子集[12]。MCFS算法包括5個(gè)步驟,具體如下。
2 結(jié)果與討論
本研究采用了五重驗(yàn)證機(jī)制,模型的性能指標(biāo)通過(guò)5個(gè)子集的平均值計(jì)算獲得。本研究的每個(gè)樣本都包含20個(gè)氨基酸,采用5種氨基酸理化性質(zhì)作為特征標(biāo)度,每個(gè)特征向量的維數(shù)是100維。在特征集合中使用MCFS算法進(jìn)行特征選擇,可以獲得指定維數(shù)的特征為輸入。為了更好地驗(yàn)證MLEP算法的有效性,引入了支持向量機(jī)學(xué)習(xí)(support vector machine,SVM)算法、PCA方法進(jìn)行實(shí)驗(yàn)對(duì)比,共設(shè)計(jì)了2組實(shí)驗(yàn)。
2.1 MCFS特征選擇的有效性評(píng)價(jià)
為驗(yàn)證MCFS特征選擇的有效性,將參數(shù)d分別設(shè)為15,25,35,45,計(jì)算后獲得的特征子集,這些集合的特征向量的維數(shù)分別是15,25,35,45。將特征子集作為輸入,利用LSTM網(wǎng)絡(luò)算法進(jìn)行訓(xùn)練和測(cè)試,其性能如表1所示。
通過(guò)表1的數(shù)據(jù),分析如下。
1)維數(shù)是25的模型準(zhǔn)確率最高,達(dá)到了9481%,相比其他維數(shù)高出10%左右。維數(shù)是25的模型的敏感性、特異性、陽(yáng)性預(yù)測(cè)值3個(gè)指標(biāo)都在93%以上,數(shù)值相對(duì)較為均衡。這說(shuō)明了MCFS算法能找到各類(lèi)中相關(guān)性大的有用特征,將特征集合中結(jié)構(gòu)較好的保留下來(lái)。
2)維數(shù)是45的模型敏感性值較低,而特異性、陽(yáng)性預(yù)測(cè)值偏高,這說(shuō)明選擇這種情況下的特征對(duì)非表位樣本具有一定的偏好。
3)通過(guò)MCFS算法選出的特征,子集維數(shù)都小于50,訓(xùn)練出的模型性能較好,這與所選特征的數(shù)量小于50時(shí),MCFS算法具有好的性能表現(xiàn)預(yù)期一致。總的來(lái)看,基于LSTM學(xué)習(xí)算法利用MCFS算法進(jìn)行特征選擇后取得的表位預(yù)測(cè)模型有較高的性能。
2.2 MLEP算法的性能評(píng)價(jià)
為了驗(yàn)證MLEP算法的有效性,從2個(gè)方面進(jìn)行實(shí)驗(yàn)比較。1)評(píng)價(jià)MCFS方法是否比其他選擇方法更具優(yōu)勢(shì),選擇了PCA方法與其比較。2)評(píng)價(jià)MLEP算法是否具有更好的性能表現(xiàn),采用PCA+SVM,PCA+LSTM,MCFS+SVM和MLEP(MCFS+LSTM)4種方案進(jìn)行比較。
在實(shí)驗(yàn)中PCA方法降維后的特征向量維數(shù)是30,MCFS方法選擇2.1中性能最好的降維結(jié)果,即特征向量維數(shù)是25。將降維后的特征子集作為輸入,采用上述4種方案分別進(jìn)行訓(xùn)練測(cè)試,實(shí)驗(yàn)都采用5重驗(yàn)證機(jī)制,獲得的平均結(jié)果如表2所示。
通過(guò)表2的數(shù)據(jù),分析如下。
1)MLEP算法獲得的預(yù)測(cè)模型準(zhǔn)確率最高為94.81%,從敏感性、特異性、陽(yáng)性預(yù)測(cè)值等指標(biāo)上看,該模型對(duì)表位、非表位均能很好的識(shí)別。
2)MCFS算法選擇特征后訓(xùn)練出的預(yù)測(cè)模型性能更優(yōu)。使用SVM學(xué)習(xí)算法,PCA方法選擇特征下預(yù)測(cè)模型的準(zhǔn)確率是74.03%,而MCFS算法選擇特征下預(yù)測(cè)模型的準(zhǔn)確率是87.66%,準(zhǔn)確率相差13%,這說(shuō)明基于SVM學(xué)習(xí)算法MCFS選擇特征下獲得的預(yù)測(cè)模型性能更優(yōu)。使用LSTM網(wǎng)絡(luò)學(xué)習(xí)算法,PCA方法選擇特征下預(yù)測(cè)模型的準(zhǔn)確率是86.37%,而MCFS算法選擇特征下預(yù)測(cè)模型的準(zhǔn)確率是94.81%,這說(shuō)明基于LSTM網(wǎng)絡(luò)學(xué)習(xí)算法MCFS選擇特征下獲得的預(yù)測(cè)模型性能更優(yōu)。在兩種算法下,MCFS選擇特征下獲得的預(yù)測(cè)模型性能都是最優(yōu)的。
3)LSTM網(wǎng)絡(luò)學(xué)習(xí)算法訓(xùn)練出的預(yù)測(cè)模型性能更優(yōu)。使用PCA方法選擇特征,LSTM網(wǎng)絡(luò)學(xué)習(xí)算法比SVM學(xué)習(xí)算法的模型準(zhǔn)確率高12%。使用MCFS算法選擇特征,LSTM網(wǎng)絡(luò)學(xué)習(xí)算法比SVM學(xué)習(xí)算法的模型準(zhǔn)確率高7%。這說(shuō)明LSTM網(wǎng)絡(luò)學(xué)習(xí)算法在表位預(yù)測(cè)應(yīng)用中具有一定的優(yōu)勢(shì)。
綜合以上分析,MCFS方法、LSTM網(wǎng)絡(luò)學(xué)習(xí)算法在表位預(yù)測(cè)中均有好的表現(xiàn),也充分說(shuō)明MLEP算法是一個(gè)最佳的方法,
2.3 討論
線(xiàn)性表位預(yù)測(cè)是基于機(jī)器學(xué)習(xí)的一個(gè)分類(lèi)過(guò)程,隨著越來(lái)越多的特征用于學(xué)習(xí),高維度數(shù)據(jù)處理往往需要很長(zhǎng)的計(jì)算時(shí)間和巨大的計(jì)算開(kāi)銷(xiāo),這也使得表位預(yù)測(cè)模型越來(lái)越難。解決這樣問(wèn)題的可靠方案是特征選擇技術(shù),就是在特征集合中找到相關(guān)的特征子集來(lái)降低維數(shù)。表位預(yù)測(cè)的特征提取沒(méi)有固定的方案,實(shí)際研究中存在很多種組合方案,這也為特征選擇帶來(lái)了一定的困難。
在本研究中,嘗試使用MCFS方法進(jìn)行特征選擇,一方面因?yàn)镸CFS方法可以設(shè)定選擇特征數(shù)量,具有很好的靈活性,另一方面MCFS方法在維數(shù)小于50下,能很好的將集合中的相關(guān)特征選出來(lái),從而獲得更好的預(yù)測(cè)性能。
LSTM網(wǎng)絡(luò)在語(yǔ)音識(shí)別方面具有很好表現(xiàn),因?yàn)樗芑谏舷挛闹泄潭ù翱趦?nèi)容對(duì)后續(xù)詞進(jìn)行預(yù)測(cè)。線(xiàn)性表位預(yù)測(cè)是基于蛋白質(zhì)一級(jí)序列的,表位是序列中連續(xù)的子序列,它們之間也必然存在一定的關(guān)聯(lián)關(guān)系。LSTM網(wǎng)絡(luò)學(xué)習(xí)算法在學(xué)習(xí)中加入記憶機(jī)制,可通過(guò)序列間的相關(guān)信息增強(qiáng)了學(xué)習(xí)的效果。本研究期待發(fā)揮LSTM網(wǎng)絡(luò)這一優(yōu)勢(shì),捕捉序列間的上下文關(guān)系實(shí)現(xiàn)更好的分類(lèi)。實(shí)驗(yàn)結(jié)果表明,基于LSTM網(wǎng)絡(luò)學(xué)習(xí)算法獲得使表位預(yù)測(cè)模型具有更高的準(zhǔn)確率,也明顯優(yōu)于其他的方法。特別地,基于MCFS方法和LSTM網(wǎng)絡(luò)的MLEP算法是一個(gè)優(yōu)秀的預(yù)測(cè)方法,這兩者的結(jié)合進(jìn)一步提高了表位的預(yù)測(cè)水平。
3 結(jié) 語(yǔ)
提出了一個(gè)新的、有效的B細(xì)胞線(xiàn)性表位預(yù)測(cè)方法——MLEP算法,首先使用5種氨基酸理化性質(zhì)作為特征標(biāo)度,采用MCFS算法進(jìn)行特征選擇。然后,把降維后的數(shù)據(jù)作為輸入,使用LSTM網(wǎng)絡(luò)進(jìn)行訓(xùn)練,獲得性能優(yōu)異的表位預(yù)測(cè)模型。最后,對(duì)MCFS算法的特征選擇有效性、MLEP算法的性能進(jìn)行評(píng)價(jià)。在非冗余LBtope數(shù)據(jù)集進(jìn)行分類(lèi)實(shí)驗(yàn)結(jié)果說(shuō)明,相比SVM,PCA等方法組成的方案,MLEP算法獲得最優(yōu)預(yù)測(cè)模型,預(yù)測(cè)準(zhǔn)確率達(dá)到94.81%。
表位預(yù)測(cè)不僅需要對(duì)特征進(jìn)行有效的選擇,還需要更合適的學(xué)習(xí)算法訓(xùn)練模型。下一步工作中,將在本文基礎(chǔ)上采用更多的特征標(biāo)度,更多的特征選擇方法和學(xué)習(xí)算法來(lái)評(píng)價(jià)MLEP算法的性能,發(fā)現(xiàn)具有更強(qiáng)性能的預(yù)測(cè)模型。
參考文獻(xiàn)/References:
[1] 程華,成彬,羊紅光.線(xiàn)性B細(xì)胞表位預(yù)測(cè)方法研究進(jìn)展.中國(guó)免疫學(xué)雜志,2017, 33(9):1422-1429.
[2] 盧楊.基于蛋白質(zhì)側(cè)鏈信息的B細(xì)胞表位預(yù)測(cè)的機(jī)器學(xué)習(xí)方法[D].長(zhǎng)春:東北師范大學(xué), 2012.
LU Yang. Machine Learning Method for B-cell Epitope Prediction Based on Protein Side Chain Information[D].Changchun: Northeast Normal University,2012.
[3] ELMANZALAWY Y, ONAVAR V. Recent advances in B-cell epitope prediction methods.Immunome Research, 2010, 6:S2.
[4] AMAD T, EWEIDA A, SEWEITA S. B-cell epitope mapping for the design of vaccines and effective diagnostics.Trials in Vaccinology, 2016, 5: 71-83.
[5] ARINDER S, RAMAN A , RAGAVA G P S. Improved method for linear B-cell epitope prediction using antigen′s primary sequence. PLoS One, 2013, 8(5): e62216.
[6] U Y , LIN S C, LIN Y L, et al. A meta-learning approach for B-cell conformational epitope prediction. BMC Bioinformatics, 2014, 15:378.
[7] REN ing, LIU Qian, ELLIS , et al. Positive-unlabeled learning for the prediction ofconformational B-cell epitopes. BMC Bioinformatics, 2015, 16:S12.
[8] MOGRAM B, NABIL E, BADR A. Ab-initio conformational epitope structure prediction using genetic algorithm and SVM for vaccine design.Computer Methods and Programs in Biomedicine, 2018, 153: 161-170.
[9] ZAO Liang, WONG L, LU Lanyuan, et al. B-cell epitope prediction through a graph model. BMC Bioinformatics, 2012, 13:S20.
[10]弓紅巖. 基于特征選擇的線(xiàn)性B細(xì)胞表位的預(yù)測(cè)[D].大連:大連海事大學(xué), 2018.
GONG ongyan. Prediction of Linear B-cell Epitopes Based on Feature Selection[D]. Dalian: Dalian Maritime University, 2018.
[11]LIU Lingyun, YANG ongguang, CENG Bin. Prediction of linear B-cell Epitopes with PCA Method[C]// Proceedings of 2019 7th International Conference on Bioinformatics and Computational Biology. New York: USA IEEE Press,2019: 39-43.
[12]CAI Deng, ZANG Chiyuan, E Xiaofei. Unsupervised feature selection for multi-cluster data[C]//Proceedings of the 16th ACM SIGKDD Conference on Knowledge Discovery and Data Mining.New York: USA ACMPress, 2010:333-342.
[13]LI Biqing, ZENG Lulu, FENG Kaiyan, et al. Prediction of linear B-cell epitopes with mRMR feature selection and analysis. Current Bioinformatics, 2016, 11(1): 22-31.
[14]LIAN Yao, GE Meng, PAN Xianming. EPMLR: Sequence-based linear B-cell epitope prediction method using multiple linear regression. BMC Bioinformatics, 2014, 15:414.
[15]SLLNER , MAYER B. Machine learning approaches for prediction of linear B-cell epitopes on proteins. ournal of Molecular Recognition, 2006, 19(3):200-208.
[16]WANG Xiangyu, REN Zhonglu, SUN Qi, et al. Evaluation and comparison of newly built linear B-cell epitope prediction software from a users′ perspective. Current Bioinformatics,2018, 13(2): 149-156.
[17]UA Yuxiu,ZAO Zhifeng, LI Rongpeng, et al. Deep learning with long short-term memory for time series prediction. IEEE Communications Magazine, 2019, 57(6): 114-119.
[18]CENG Bin, LIU Lingyun, QI Zhaohui, et al. Prediction of continuous B-cell epitopes using long short term memory networks[C]//Proceedings of 2018 6th International Conference on Bioinformatics and Computational Biology. New York: USA ACMPress,2018: 55-59.
[19]SAA S, RAGAVA G P. Prediction of continuous B-cell epitopes in an antigen using recurrent neural network. Proteins, 2006, 65(1): 40-48.
[20]ABIBI M, BAKSI P K, AGDAM R. LRC: A new algorithm for prediction of conformational B-cell epitopesusing statistical approach and clustering method. ournal of Immunological Methods, 2015,427: 51-57.
[21]DALKAS G, ROOMAN M. SEPIa, a knowledge-driven algorithm forpredicting conformational B-cell epitopesfrom the amino acid sequence.BMC Bioinformatics, 2017, 18:95.