摘 要:線性B細胞表位是由抗原分子表面肽鏈上連續(xù)的氨基酸殘基構成的序列,準確預測不僅有助于揭示抗原-抗體之間的相互作用機制,而且可以極大地降低定位的時間成本和人工成本,提高工作效率。論文簡要綜述了線性B細胞表位的特性,回顧了近幾年來的預測方法和預測服務器確定線性B細胞表位的常用方法和表位分析的研究方法,對于疾病的預防和診治等應用研究也具有極大的推動作用。
關鍵詞:B細胞表位;服務器;研究
中圖分類號:R392
表位是抗原分子中被相應抗體或抗原受體識別的特定部位。B細胞表位[1]是抗原中可被B細胞抗原受體(BCR)或抗體特異性識別并結合的線性片段或空間構象性結構,其刺激機體產(chǎn)生B細胞介導的體液免疫應答,并產(chǎn)生效應分子(抗體)和效應細胞。線性B細胞表位是由抗原分子表面肽鏈上連續(xù)的氨基酸殘基構成的序列。B細胞表位預測研究主要還是以線性B細胞表位預測為主,目前已有較多關于線性B細胞表位的數(shù)據(jù)庫和預測算法、軟件發(fā)布。
1 抗原表位
抗原表位[2],又稱抗原決定簇(antigenic determinant,AD)指抗原分子中決定抗原特異性的特殊化學基團。抗原通過抗原表位與相應的淋巴細胞表面的抗原受體結合,從而激活淋巴細胞,引起免疫應答;抗原也借表位與相應抗體或致敏淋巴細胞發(fā)生特異性結合而發(fā)揮免疫效應??乖砦坏男再|(zhì)、數(shù)目和空間構型決定抗原的特異性??乖砦皇敲庖咴乖缘奈镔|(zhì)基礎,開展對抗原表位的研究將對病原的診斷以及分子疫苗的設計等具有重要的意義。
2 線性B細胞表位篩選方法
B細胞表位[3]是抗原中可被B細胞抗原受體(BCR)或抗體特異性識別并結合的線性片段或空間構象性結構,其刺激機體產(chǎn)生B細胞介導的體液免疫應答,并產(chǎn)生效應分子(抗體)和效應細胞。在免疫學中認為,表位才是抗原刺激機體免疫系統(tǒng)產(chǎn)生特異性免疫應答的真正部位。B細胞表位預測是表位預測的一個重要組成部分,大多數(shù)的研究是針對線性B細胞表位預測,通過組合抗原蛋白物理化學性質(zhì)、結構性質(zhì)、統(tǒng)計顯著性度量等特征屬性進行表位預測,并取得一定的研究成果。
2.1 基于遞歸神經(jīng)網(wǎng)絡的線性B細胞表位預測服務器[4]
在多肽疫苗的開發(fā)中B細胞表位起到了至關重要的作用,在疾病的診斷中,也可用于過敏研究。標準的前饋(FNN)和遞歸神經(jīng)網(wǎng)絡(RNN)有被用在本研究中,用于預測抗原序列中的B細胞表位。網(wǎng)絡已經(jīng)被訓練和測試,在一個完整的數(shù)據(jù)集中,由700個非冗余的B細胞表位來自于Bcipep數(shù)據(jù)庫和同等數(shù)量的非表位來自于SWISS-PROT數(shù)據(jù)庫。該網(wǎng)絡已經(jīng)訓練和測試在不同的輸入窗口長度和隱結點中。最大精度已使用遞歸神經(jīng)網(wǎng)絡具有單隱層的35個隱藏的單位窗口長度為16。當測試在五倍折交叉驗證時,最終的網(wǎng)絡產(chǎn)生準確度為65.93%。相應的敏感性,特異性和陽性預測值為67.14,64.71,和65.61%。在以往的研究中RNN比FNN在B細胞表位的預測中效果更好。該肽的長度也是重要的在預用詞從抗原序列的B細胞表位。
2.2 基于氨基酸對抗原規(guī)模的線性B細胞表位預測[5]
在生物信息學中蛋白抗原位點的鑒定是至關重要的,開發(fā)的合成肽疫苗,免疫診斷測試的距離和抗體的產(chǎn)生。目前,大多數(shù)的預測算法傾向于使用氨基酸滑動窗口方法。這些方法過于簡單,并在實踐中產(chǎn)生不良的預測結果。提出了一種新穎的規(guī)模,稱為氨基酸對抗原(AAP)規(guī)模,基于這一發(fā)現(xiàn),更加有利于B細胞表位預測。它表明,使用SVM(支持向量機)分類,AAP抗原尺度方法具有更好的性能比現(xiàn)有單個氨基酸傾向尺度。AAP抗原規(guī)模可以反映一些特殊的序列在B細胞表位特征中,它的本質(zhì)是為什么新的方法是優(yōu)于現(xiàn)有的??梢灶A料與已知的抗原表位的數(shù)據(jù),氨基酸對抗原規(guī)模的做法將進一步增強。
2.3 基于內(nèi)核字符串線性B細胞表位預測[6]
B細胞表位的鑒定和表征在疫苗設計中扮演重要的角色,免疫診斷測試,并產(chǎn)生抗體。因此,可靠的計算工具預測線性B細胞表位是非??扇〉?。評估的支持向量機(SVM)利用五個不同的內(nèi)核上五倍使用交叉驗證的方法分類培訓同源減少701線性B細胞表位,從Bcipep數(shù)據(jù)庫中提取的數(shù)據(jù),和701非抗原表位,隨機抽取從SwissProt數(shù)據(jù)庫序列。根據(jù)我們的結果計算實驗中,我們提出BCPred,線性B細胞表位預測的新方法使用序列內(nèi)核。我們表明,預測性能BCPred(AUC=0.758)優(yōu)于11基于SVM分類器的開發(fā)和評估,以及在我們的實驗中,我們執(zhí)行的AAP(AUC=0.7),最近提出的一種方法,用于預測線性B細胞使用氨基酸對抗原的表位。此外,我們比較AAP和BCPred,ABCPred 獨特的B細胞表位,使用遞歸神經(jīng)網(wǎng)絡的方法,該方法為使用兩個數(shù)據(jù)集先前已用于評估ABCPred的。使用和分析的數(shù)據(jù)集的結果這個比較表明,不同的B細胞表位的相對性能的結論預測方法的基礎上得出的實驗中使用的數(shù)據(jù)集的獨特的B細胞表位的可能產(chǎn)生的性能評估方法的估計過于樂觀。這認為使用精心同源性減小數(shù)據(jù)集的B細胞表位的預測方法進行比較,以避免有關如何不同的方法的誤導性的結論相互比較。同源精簡數(shù)據(jù)組和BCPred實現(xiàn)以及APP的方法是公開的。
2.4 基于一種新系統(tǒng)的線性B細胞表位預測[7]
在幾十年的研究中盡管具有挑戰(zhàn)性的任務,B細胞抗原表位的準確的預測仍然是在計算免疫學中。只有10%的已知B細胞表位的估計是連續(xù)的,但他們往往卻是目標預測,因為解決三級結構是必需的,它們是不可或缺的肽疫苗和治療蛋白質(zhì)工程的發(fā)展。在這篇文章中,提出COBEpro,新的兩步預測連續(xù)B細胞系統(tǒng)抗原表位。COBEpro是能夠分配表位pensity分數(shù)兩個獨立的肽片段抗原序列內(nèi)的殘留物。COBEpro首先使用支持向量機進行預測在查詢抗原序列和肽片段,然后計算表位的傾向得分為每個基于片段的預測的殘余物。次要結構和溶劑輔助功能信息(無論是預測或準確)可以被納入到提高性能。COBEpro實現(xiàn)了交叉驗證受試者工作特征曲線(AUC)下teristic高達0.829片段上抗原決定基的傾向得分任務的AUC為0.628殘余物外延主題傾向得分任務。
3 用于線性B細胞表位預測工具建立與評價的數(shù)據(jù)庫
免疫信息學[8]數(shù)據(jù)庫是隨著生物信息學和免疫基因組學的不斷進步而逐漸發(fā)展起來的,是專門收錄免疫學相關分子信息,實現(xiàn)數(shù)據(jù)存儲、查詢、分析,計算等功能的數(shù)據(jù)庫。最初,與免疫相關的多肽序列、抗原分子等信息與其他生物數(shù)據(jù)一起,被收錄在各類生物信息學數(shù)據(jù)庫中,隨著免疫學研究的發(fā)展,人們對免疫學相關分子信息的需求越來越迫切,需要單獨對這些數(shù)據(jù)進行計算、分析和預測,一些研究機構開始嘗試從生物信息學基礎數(shù)據(jù)庫中提取免疫相關的生物數(shù)據(jù),開發(fā)集存儲、查詢、計算、預測以及繪圖分析功能為一體的免疫學數(shù)據(jù)庫。目前,網(wǎng)絡上的免疫信息學數(shù)據(jù)庫已達數(shù)十個,它們的規(guī)模大小不一,內(nèi)容與側(cè)重點也不盡相同,其中的大部分數(shù)據(jù)來源于GenBank、EBI、EMBL,供研究人員免費使用。
3.1 Bcipep:B細胞表位數(shù)據(jù)庫
Bcipep[9]是各種免疫原性B細胞表位數(shù)據(jù)庫,目前Bcipep數(shù)據(jù)庫包含3031個條目,其中包括763免疫顯性,1797免疫原性和471空的免疫原性的抗原表位,每條記錄包含多肽序列、源蛋白、病原體、免疫原性、中和性、模式生物、實驗方法、參考文獻、抗原結構等信息,它涵蓋范圍廣泛,如病毒、細菌、原生動物、真菌。該數(shù)據(jù)庫提供了一組工具,用于分析和提取的數(shù)據(jù),其中包括關鍵字搜索,肽譜分析和BLAST搜索。Bcipep稱為一個完整B細胞表位數(shù)據(jù)庫,已經(jīng)開發(fā)了一個覆蓋廣泛的病原體的抗原決定簇的信息。該數(shù)據(jù)庫有助于B細胞表位預測方法的研究、合成肽疫苗的設計和疾病的診斷。
4 結束語
顯而易見,線性B細胞表位預測現(xiàn)狀與人們理想預期還存在很大的差距,利用軟件預測線性B細胞表位并不完全準確,還需要實驗的進一步驗證。為了研發(fā)更準確的預測工具,需要建立高質(zhì)量的訓練數(shù)據(jù)集和檢驗數(shù)據(jù)集,數(shù)據(jù)集的質(zhì)量高低與預測工具的預測能力密切聯(lián)系;另外,統(tǒng)一評價體系也是目前急待解決的問題。評價體系的標準化,既有助于軟件開發(fā)者采用最有效的算法創(chuàng)建更準確的工具,又方便了使用者對工具的篩選和評價。統(tǒng)一評價體系首先要面臨的問題是所有數(shù)據(jù)格式的統(tǒng)一,有了一致的數(shù)據(jù)格式,才能進行比較。在表位預測領域尚缺乏高質(zhì)量的標準數(shù)據(jù)集,針對標準的數(shù)據(jù)集開發(fā)自動評價工具將是未來的發(fā)展方向。相信隨著生物信息學的快速發(fā)展,線性B細胞表位計算機預測技術將會越來越成熟。
參考文獻:
[1]Peters B,Sidney J, Bourne P, et al.The design and implementation of the immune epitope database and analysis resource[J].Immunogenetics,2005,57(5):326-336.
[2]吳敏毓,劉恭植.醫(yī)學免疫學:第四版[M].北京:中國科學技術大學出版社,2002:1-2.
[3]呂鳳林,朱錫華.人C5aR(CD88)序列結構分析及其B細胞表位預測[J].免疫學雜志,1998,14(3):153-156.
[4]Saha S,Raghava GP (2006) Prediction of continuous B-cell epitopes in an antigen using recurrent neural network. Proteins.65:40-48.
[5] Chen J,Liu H,Yang J,Chou KC (2007) Prediction of linear B-cell epitopes using amino acid pair antigenicity scale.Amino Acids 33:423-428.
[6]El-Manzalawy Y,Dobbs D, Honavar V (2008) Predicting linear B-cell epitopesusing string kernels.J Mol Recognit 21:243-255.
[7]Sweredoski MJ,Baldi P (2009) COBEpro: a novel system for predictingcontinuous B-cell epitopes.Protein Eng Des Sel 22:113-120.
[8]Walsh R, Locarnini S. Hepatitis B precore protein: pathogenic potential and therapeutic promise[J].Yonsei Med J,2012,53(5):875-85.
[9]Saha S, Bhasin M, Raghava GP (2005) Bcipep:a database of B-cell epitopes.BMC Genomics 6:79.
[10]Roseman AM, Berriman JA., Wynne SA., et al. A structural model for maturation of the hepatitis B virus core[J]. Proc Natl Acad Sci USA, 2005,102(44):15821-6.
[11]Yasser EL-Manzalawy, Vasant Honavar. Recent advances in B-cell epitope prediction methods[J]. Immunome Res,2010,6(Suppl 2):S2.
[12]Roggen EL. B-cell epitope engineering: A matter of recognizing protein features and motives[J].DDT:Technol,2008,5(2-3):e49-55.
[13]馮新港.免疫信息學原理及其應用[M].上海:上海科學技術出版社,2009,6:1-5.
[14]Alix,A. (1999) Vaccine,18,311-314 (314).
作者簡介:董嬌嬌(1987.10-),女,吉林汪清人,碩士研究生,研究方向:生物信息學。
作者單位:東北師范大學計算機科學與信息技術學院,長春 130117