摘要:蛋白質(zhì)的三級(jí)結(jié)構(gòu)預(yù)測(cè)可通過(guò)同源模建、折疊識(shí)別、從頭預(yù)測(cè)等方法進(jìn)行,但同源模建應(yīng)用最廣泛,且最成熟。文章詳述了同源模建的原理、方法步驟、常用工具,并對(duì)其應(yīng)用前景進(jìn)行了分析和討論。
關(guān)鍵詞:蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè);同源模建;分析工具
Abstract:Tertiary structure of proteins can be predicted by comparative modeling, fold recognition, de novo prediction methods, but comparative modeling is the most widely used and most matured methods. This paper describes the principles, process steps and common tools of comparative modeling, also its prospects are analyzed and discussed.
Key words:Protein structure prediction;Comparative modeling;Analysis tools
隨著“人類基因組計(jì)劃”的順利完成,多種模式動(dòng)植物基因序列的測(cè)定以及蛋白質(zhì)工程技術(shù)的不斷發(fā)展帶來(lái)了大量的蛋白質(zhì)一級(jí)結(jié)構(gòu)的數(shù)據(jù)。而傳統(tǒng)的蛋白質(zhì)結(jié)構(gòu)研究的手段主要是X射線晶體衍射、核磁共振等,使用這些技術(shù)進(jìn)行蛋白質(zhì)三級(jí)結(jié)構(gòu)的測(cè)定不僅成本較高,效率還相當(dāng)?shù)拖?,而且由于技術(shù)發(fā)展的局限,實(shí)驗(yàn)中還有許多問(wèn)題沒(méi)有解決。截至2014年10月,TrEMBL中收錄的蛋白質(zhì)序列達(dá)到83955074條,SwissProt中經(jīng)過(guò)手工修正的序列達(dá)546439條(http://www.uniprot.org/)[1]。相比而言,PDB蛋白結(jié)構(gòu)數(shù)據(jù)庫(kù) (http://www.rcsb.org/pdb/home/home.do)[2]的結(jié)構(gòu)數(shù)據(jù)只有103921個(gè),相差巨大。為了充分地理解蛋白是如何執(zhí)行功能以及根據(jù)蛋白結(jié)構(gòu)設(shè)計(jì)出更合理的藥物,能否獲得蛋白的結(jié)構(gòu)甚至預(yù)測(cè)其結(jié)構(gòu)就顯得尤為重要,這些都使從理論上對(duì)一個(gè)已知序列的蛋白質(zhì)的空間結(jié)構(gòu)進(jìn)行預(yù)測(cè)的問(wèn)題變得日益緊迫和重要。
目前,常用的蛋白結(jié)構(gòu)預(yù)測(cè)方法分為三類:①針對(duì)高相似序列的同源模建(homology modeling,也稱比較建模);②針對(duì)較低序列相似性的折疊識(shí)別(fold recognition,也稱穿線法);③不依賴于模板而利用物理學(xué)原理直接進(jìn)行從頭計(jì)算(ab initio)。其中第一種方法完全依賴模板,第二類方法適合于無(wú)法準(zhǔn)確找到模板,但存在相同折疊的情況?,F(xiàn)今,第一種和第二種方法的分類逐漸模糊。第三類方法則完全依賴分子動(dòng)力學(xué)計(jì)算來(lái)預(yù)測(cè),不需要模板。如今,同源模建已完全成熟到自動(dòng)化,可以為科研工作者提供可靠的模型。
2同源模建
同源模建通過(guò)挑選與目標(biāo)序列具有同源性的且結(jié)構(gòu)已知的蛋白質(zhì)作為模板來(lái)建立其三維結(jié)構(gòu)。同源是指一些蛋白質(zhì)從相同的祖先進(jìn)化而來(lái),而并不是指序列相似或者結(jié)構(gòu)相似,雖然同源蛋白質(zhì)在某種程度上具有相似的序列和結(jié)構(gòu)。同源模建主要有4個(gè)步驟:模板搜尋、序列比對(duì)、目標(biāo)模型的創(chuàng)建和結(jié)構(gòu)優(yōu)化。盡管每一步都可能造成錯(cuò)誤而影響結(jié)果的準(zhǔn)確性,但是模板搜尋和序列比對(duì)是影響模型最終質(zhì)量的最顯著決定因素。通常,在同源模建的過(guò)程中,模板搜尋也提供了序列-結(jié)構(gòu)比對(duì)。在下面的討論中,我們將模板搜索和序列-結(jié)構(gòu)比對(duì)放在一起。同源模建的局限性在于蛋白序列和已解析的蛋白的序列一致性(identify)大于30%時(shí),所得的結(jié)果才會(huì)比較可靠。最近的方法將模板搜尋和序列比對(duì)進(jìn)行了優(yōu)化,同時(shí)提高了搜索的靈敏度和比對(duì)的準(zhǔn)確性,正在逐漸克服這些局限。
2.1 模板搜尋和序列比對(duì) 同源模建的第一步就是確定一個(gè)或者多個(gè)模板結(jié)構(gòu)。通過(guò)將目標(biāo)序列作為查詢序列,掃描結(jié)構(gòu)數(shù)據(jù)庫(kù)(如PDB、SCOP、DALI和CATH等),搜索與目標(biāo)蛋白具有相似性的模板。檢測(cè)到的相似性通常用序列一致性或其他的統(tǒng)計(jì)方法計(jì)算,如E值或Z值。
序列-結(jié)構(gòu)的關(guān)系被劃分為3種不同的層次:①序列一致性>30%,易檢測(cè)到同源性;②序列一致性在10%~30%之間;③統(tǒng)計(jì)學(xué)上無(wú)顯著的序列相似性。
當(dāng)序列一致性大于30%~40%時(shí),用各種方法所產(chǎn)生的比對(duì)基本上都是正確的。在這種情況下,最快的選擇合適模板的方法是簡(jiǎn)單的雙序列比對(duì)法(sequence–sequence法),例如SSEARCH、BLAST和FASTA。Brenner[3]等人發(fā)現(xiàn),當(dāng)序列一致性在30%~40%時(shí),此方法可以檢測(cè)到90%的同源對(duì)。
當(dāng)?shù)鞍踪|(zhì)的一致性在10%~30%之間時(shí),蛋白質(zhì)搜索的敏感性和比對(duì)的準(zhǔn)確性會(huì)降低很多,Gribskov[4]等人報(bào)道的sequence-profile法在這個(gè)方面有了顯著提高。目標(biāo)序列的序列譜(profile)來(lái)自于多序列比對(duì),接著多序列比對(duì)被處理成位置特異性得分矩陣(position-specific scoring matrix,PSSM)或者隱馬爾可夫模型(hidden Markov model,HMM)。為了進(jìn)一步尋找合適的模板進(jìn)行同源模建,將目標(biāo)序列的序列譜(profile)搜索模板序列數(shù)據(jù)庫(kù)。在序列一致性在10~30%時(shí), sequence-profile法比雙序列比對(duì)更為敏感。在序列一致性小于40%時(shí),他檢測(cè)到了大約兩倍數(shù)目的同源蛋白,由此生成的sequence-profile比對(duì)正確的對(duì)齊了大約43%~48%的殘基,這個(gè)數(shù)目也幾乎是用雙序列比對(duì)時(shí)的兩倍。常用的sequence-profile比對(duì)程序有PSI-BLAST、SAM、HMMER、HHsearch、HHBlits和BUILD_PROFILE。
profile-profile方法是profile-sequence比對(duì)方法的自然延伸,用靶序列的序列譜搜尋模板結(jié)構(gòu)的序列譜,這個(gè)方法已經(jīng)證明包含了至今最敏感和準(zhǔn)確的模板搜尋和序列比對(duì)。profile-profile方法比 profile-sequences多搜索出大約28%的蛋白,并且比對(duì)準(zhǔn)確度提高了15%~20%。有很多profile-profile法的變體出現(xiàn),主要區(qū)別在于打分函數(shù)的不同。一些分析表明,這些方法的總體性能是相當(dāng)?shù)摹3S玫某绦蛴蠪FAS、SP3、SALIGN、 HHBlits、HHsearch和PPSCAN。
2.2目標(biāo)模型的創(chuàng)建 目標(biāo)模型的創(chuàng)建包括模建結(jié)構(gòu)保守區(qū)、預(yù)測(cè)及模建結(jié)構(gòu)可變區(qū)(包括N末端、C末端氨基酸的插入、缺失等)、模建側(cè)鏈等。
主鏈結(jié)構(gòu)的建模,主要有以下幾種方法:一種是剛體裝配法,即在同源蛋白質(zhì)保守區(qū)的相應(yīng)各片段中,選取與目標(biāo)蛋白質(zhì)保守區(qū)序列相似度最高的片段作為目標(biāo)結(jié)構(gòu)進(jìn)行模建;用此種方法進(jìn)行模建的程序有COMPOSER、3D-JIGSAW、RosettaCM和SWISS-MODEL。另一種是片段匹配法,依賴于保守原子的片段匹配,從模板計(jì)算其他原子的坐標(biāo),常用這種方法建模的程序有SegMod。第三種方法是空間限制法,是用幾何或者優(yōu)化技術(shù),通過(guò)滿足空間約束建模,MODELLER即這種方法。
接著進(jìn)行結(jié)構(gòu)變異區(qū)的主鏈建模,結(jié)構(gòu)變異區(qū)即非保守區(qū)。非保守區(qū)主鏈結(jié)構(gòu)較難預(yù)測(cè),目前主要采用的有數(shù)據(jù)庫(kù)查詢和構(gòu)象搜索。數(shù)據(jù)庫(kù)查詢方法搜索所有已知的蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫(kù),找到合適的模板,此法快速方便,但不能保證數(shù)據(jù)庫(kù)中有合適的片段可供選擇;系統(tǒng)搜索方法不依賴數(shù)據(jù)庫(kù),但隨著序列數(shù)目增加,構(gòu)象數(shù)目急劇增加,計(jì)算比較費(fèi)時(shí)。一般來(lái)說(shuō),當(dāng)變異區(qū)的序列長(zhǎng)度長(zhǎng)于10~12個(gè)殘基時(shí),非保守區(qū)建模仍然是一個(gè)挑戰(zhàn)。
有兩個(gè)簡(jiǎn)化原則在側(cè)鏈建模中經(jīng)常使用:①氨基酸殘基替代時(shí),蛋白質(zhì)的骨架基本不變,因此在尋找側(cè)鏈構(gòu)象時(shí),可以先固定蛋白質(zhì)骨架;②大多數(shù)高分辨率的側(cè)鏈晶體符合立體和能量約束。因此側(cè)鏈的建模通常采用經(jīng)驗(yàn)數(shù)據(jù), 先用目標(biāo)序列的片段搜索旋轉(zhuǎn)異構(gòu)體數(shù)據(jù)庫(kù)得到相似的片段, 再?gòu)臄?shù)據(jù)庫(kù)中提取側(cè)鏈的空間取向, 構(gòu)建片段的側(cè)鏈結(jié)構(gòu)。最后利用立體和能量約束進(jìn)行優(yōu)化, 使目標(biāo)蛋白質(zhì)的側(cè)鏈基團(tuán)處于能量最小的位置, 即具有穩(wěn)定的構(gòu)象。
2.3結(jié)構(gòu)優(yōu)化 同源建模得到的目標(biāo)模型結(jié)構(gòu)只是最初的蛋白質(zhì)結(jié)構(gòu)模型,一般情況下存在很多預(yù)測(cè)錯(cuò)誤,例如氨基酸的組成原子之間的位置沖突,相鄰氨基酸之間所構(gòu)成的二面角、化學(xué)鍵的長(zhǎng)度和角度等不合理。在該步驟中需要用分子力學(xué)、分子動(dòng)力學(xué)和模擬退火等對(duì)蛋白質(zhì)結(jié)構(gòu)模型進(jìn)行優(yōu)化。
3同源模建的工具
經(jīng)過(guò)20年的發(fā)展,同源建模技術(shù)已經(jīng)完全成熟到自動(dòng)化,有很多軟件和在線工具可供使用,可以給科研工作者提供可靠的模型。圖1搜集了同源模建的預(yù)測(cè)工具,下文將簡(jiǎn)要介紹幾個(gè)常用的模建工具。
圖1 同源模建常用的工具
3.1 Swiss-Model在線服務(wù)器 Swiss-Model是第一個(gè)完全自動(dòng)化的蛋白質(zhì)結(jié)構(gòu)同源模建在線服務(wù)器,此服務(wù)器的目的是向全世界的生物化學(xué)和分子生物學(xué)學(xué)者提供蛋白質(zhì)三維建模服務(wù)。它開創(chuàng)了自動(dòng)建模的先河,由于其自動(dòng)化的操作、用戶友好的界面且不需要復(fù)雜的軟件包和下載大型數(shù)據(jù)庫(kù)等優(yōu)點(diǎn),成為迄今為止應(yīng)用最廣泛的免費(fèi)服務(wù)器之一。同時(shí),Swiss-Model也在不斷的更新。
Swiss-Model的工作模式分為三種:①自動(dòng)模式:用戶可直接通過(guò)web界面提交氨基酸序列或者Swiss-Prot/TrEMBL的編目號(hào),服務(wù)器會(huì)全自動(dòng)地為目標(biāo)序列建立模型。這種模式只能進(jìn)行大于30個(gè)殘基的單鏈蛋白質(zhì)三維結(jié)構(gòu)預(yù)測(cè);②比對(duì)模式:用戶可以通過(guò)Swiss-Model比對(duì)界面上傳以FASTA、CLUSTALW、PFAM、MSF和SELEX格式的多重序列比對(duì)結(jié)果。當(dāng)然,此序列中必須至少包含一條目標(biāo)序列和一條來(lái)自于Expasy Protein Database(ExPdb)的模板序列;③DeepView項(xiàng)目模式:用戶可將經(jīng)過(guò)手工優(yōu)化的請(qǐng)求提交給服務(wù)器。
3.2 MODELLER MODELLER軟件是近年來(lái)由Andrej Sali等人發(fā)展的蛋白質(zhì)比較建模方法[12],是基于python語(yǔ)言開發(fā)應(yīng)用的計(jì)算機(jī)軟件,并不斷推出新的版本。MODELLER基于一個(gè)已知模板結(jié)構(gòu),采用適當(dāng)?shù)募s束條件來(lái)創(chuàng)建目標(biāo)蛋白的理論結(jié)構(gòu)模型。首先,從模板結(jié)構(gòu)中提取原子-原子間距離和二面角形式的空間約束并將其運(yùn)用到目標(biāo)蛋白結(jié)構(gòu)中。將這些與蛋白結(jié)構(gòu)的一般性規(guī)律(如鍵長(zhǎng)、鍵角取值規(guī)律)綜合起來(lái)使用。序列比對(duì)用來(lái)確定目標(biāo)蛋白與模板之間等同的殘基。最后,不斷優(yōu)化目標(biāo)蛋白模型直到獲得一個(gè)最符合約束條件的模型。一般來(lái)說(shuō),MODELLER輸出的是一個(gè)盡可能多地滿足一系列約束條件的蛋白質(zhì)三級(jí)結(jié)構(gòu)。
該軟件有兩個(gè)主要的優(yōu)點(diǎn):①對(duì)于缺口區(qū)的片段結(jié)構(gòu), 可以根據(jù)一個(gè)條件概率密度函數(shù)從蛋白質(zhì)片段庫(kù)中選擇模板, 并且可以通過(guò)空間約束條件以及charmm能量項(xiàng)來(lái)確保模型的立體化學(xué)構(gòu)象的合理性;②模型優(yōu)化采用的是共扼梯度能量最小化以及模擬退火法相結(jié)合,可以使模型得到最大限度的優(yōu)化[13]。
3.3 Model Archive模型存檔器 自2006年以來(lái),只有通過(guò)理論產(chǎn)生的模型不能存入PDB數(shù)據(jù)庫(kù),因此許多模擬出的理論模型并不能被應(yīng)用,這使得讀者無(wú)法驗(yàn)證結(jié)果是否可以被實(shí)驗(yàn)驗(yàn)證。為了緩解這一狀況,一個(gè)公共的大分子結(jié)構(gòu)存檔Model Archive(http://modelarchive.org)已經(jīng)被建立,成為Protein Model Portal的一部分。該模型存檔器對(duì)于每一個(gè)蛋白給予一個(gè)獨(dú)特的代碼,可以直接引用。除了實(shí)際的模型坐標(biāo),模型存檔還包含充足的詳細(xì)信息,包括模擬中的參數(shù)和限制信息。用戶可以下載和存儲(chǔ)蛋白模型,進(jìn)行進(jìn)一步的研究,用于增加更多的實(shí)驗(yàn)條件或應(yīng)用當(dāng)時(shí)還不存在的先進(jìn)模擬方法。截止至2014年10月,已經(jīng)有1380個(gè)模型存儲(chǔ)在modelarchive.org上。
4同源模建的應(yīng)用和展望
藥物的合理開發(fā)日益依賴于基于結(jié)構(gòu)的方法,用以識(shí)別和選擇低分子量的化合物。同源模建在基于結(jié)構(gòu)的虛擬篩選中的有效性,已在不同種類的蛋白中證明有效[14,15]。同時(shí)G蛋白偶聯(lián)受體也引起了科學(xué)家的關(guān)注,實(shí)驗(yàn)結(jié)構(gòu)的新進(jìn)展使得受體的同源模建成為可能[16,17]。除了蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)外,評(píng)估模型的準(zhǔn)確性對(duì)于蛋白質(zhì)-配體的相互作用的可靠性也至關(guān)重要[18]。同源模建不僅可以支持新藥的發(fā)展,還可以預(yù)測(cè)結(jié)合位點(diǎn)附近的氨基酸序列的變異,例如突變可以改變結(jié)合位點(diǎn)導(dǎo)致耐藥性,因此可預(yù)測(cè)性的計(jì)算技術(shù)有望成為藥物開發(fā)和治療的有用工具。
參考文獻(xiàn):
[1]UniProt Consortium. Update on activities at the Universal Protein Resource (UniProt) in 2013[J]. Nucleic acids research, 2013, 41(D1): D43-D47.
[2]Berman H M, Westbrook J, Feng Z, et al. The protein data bank[J]. Nucleic acids research, 2000, 28(1): 235-242.
[3] Brenner S E, Chothia C, Hubbard T J P. Assessing sequence comparison methods with reliable structurally identified distant evolutionary relationships[J]. Proceedings of the National Academy of Sciences, 1998, 95(11): 6073-6078.
[4] Altschul S F, Madden T L, Sch?ffer A A, et al. Gapped BLAST and PSI-BLAST: a new generation of protein database search programs[J]. Nucleic acids research, 1997, 25(17): 3389-3402.
[5] Arnold K, Kiefer F, Kopp J, et al. The protein model portal[J]. Journal of structural and functional genomics, 2009, 10(1): 1-8.
[6] Hildebrand A, Remmert M, Biegert A, et al. Fast and accurate automatic structure prediction with HHpred[J]. Proteins: Structure, Function, and Bioinformatics, 2009, 77(S9): 128-132.
[7] Russel D, Lasker K, Webb B, et al. Putting the pieces together: integrative modeling platform software for structure determination of macromolecular assemblies[J]. PLoS biology, 2012, 10(1): e1001244.
[8]Zhang Y. Interplay of I-TASSER and QUARK for template-based and ab initio protein structure prediction in CASP10[J]. Proteins: Structure, Function, and Bioinformatics, 2014, 82(S2): 175-187.
[9] Pieper U, Eswar N, Davis F P, et al. MODBASE: a database of annotated comparative protein structure models and associated resources[J]. Nucleic acids research, 2006, 34(suppl 1): D291-D295.
[10] Biasini M, Bienert S, Waterhouse A, et al. SWISS-MODEL: modelling protein tertiary and quaternary structure using evolutionary information[J]. Nucleic acids research, 2014: 340.
[11]Kelley L A, Sternberg M J E. Protein structure prediction on the Web: a case study using the Phyre server[J]. Nature protocols, 2009, 4(3): 363-371.
[12] Webb B, Sali A. Comparative protein structure modeling using Modeller[J]. Current protocols in bioinformatics, 2014: 561-563.
[13] 齊崴, 何志敏. 牛血清白蛋白的同源模建與結(jié)構(gòu)解析[J]. 計(jì)算機(jī)與應(yīng)用化學(xué), 2006, 23(9): 821-824.
[14]Costanzi S. Modeling G protein-coupled receptors and their interactions with ligands[J]. Current opinion in structural biology, 2013, 23(2): 185-190.
[15]Skolnick J, Zhou H, Gao M. Are predicted protein structures of any value for binding site prediction and virtual ligand screening?[J]. Current opinion in structural biology, 2013, 23(2): 191-197.
[16]Carlsson J, Coleman R G, Setola V, et al. Ligand discovery from a dopamine D3 receptor homology model and crystal structure[J]. Nature chemical biology, 2011, 7(11): 769-778.
[17]Kobilka B, Schertler G F X. New G-protein-coupled receptor crystal structures: insights and limitations[J]. Trends in pharmacological sciences, 2008, 29(2): 79-83.
[18] Damm-Ganamet K L, Smith R D, Dunbar Jr J B, et al. CSAR benchmark exercise 2011–2012: evaluation of results from docking and relative ranking of blinded congeneric series[J]. Journal of chemical information and modeling, 2013, 53(8): 1853-1870.
編輯/馮焱