沈佳 李娟 方慧生
摘要:基于空間約束的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)方法是一種以已知結(jié)構(gòu)為模板預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)的方法。其中,它提取了模板結(jié)構(gòu)中的同源約束,結(jié)合力場(chǎng)中的立體化學(xué)約束,作為優(yōu)化初始結(jié)構(gòu)的條件,從而對(duì)初始結(jié)構(gòu)進(jìn)行調(diào)整,最終得到模型。本文主要綜述了基于空間約束的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)方法的原理,所涉及的空間約束,以及應(yīng)用與軟件。
關(guān)鍵詞:蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè);空間約束;同源模建
Abstract:Comparative modeling based on spare restraints is one of protein structure prediction methods which predict the three-dimensional structure of a given protein sequence based primarily on its alignment to one or more protein of known structure. This method uses homology-derived restraints from template protein and stereochemical restraints from force field as constraints to optimize initial structure, and finally constructs the model. This article reviews the theory of comparative modeling based on spare restraints, the spare restraints and relevant applications and softwares.
Key words:Protein structure prediction; Spare restraints; Comparative modeling
近些年來(lái),基因組計(jì)劃為我們提供了大量的蛋白質(zhì)序列。我們只有理解了新蛋白質(zhì)的功能,基因組計(jì)劃才能真正實(shí)現(xiàn)它的意義。為了描述,理解和操控蛋白質(zhì)的功能,就必須首先確定蛋白質(zhì)的結(jié)構(gòu)。然而,實(shí)驗(yàn)方法測(cè)定蛋白質(zhì)結(jié)構(gòu)代價(jià)很高且費(fèi)時(shí)費(fèi)力。由于實(shí)驗(yàn)方法確定蛋白質(zhì)結(jié)構(gòu)存在缺陷和不足,蛋白質(zhì)結(jié)構(gòu)確定的速度跟不上序列測(cè)定的速度,且差距在不斷擴(kuò)大。因此,完全依靠實(shí)驗(yàn)方法確定蛋白質(zhì)結(jié)構(gòu)已經(jīng)不能滿足現(xiàn)實(shí)的需求[1]。上世紀(jì)70年代,人們發(fā)現(xiàn)蛋白質(zhì)三級(jí)結(jié)構(gòu)是由其一級(jí)序列決定的,這也就意味著可以從蛋白質(zhì)序列中獲取蛋白質(zhì)三級(jí)結(jié)構(gòu)的信息。這一發(fā)現(xiàn)為計(jì)算機(jī)預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)提供了理論依據(jù)。經(jīng)過(guò)了40余年的發(fā)展,計(jì)算機(jī)預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)的技術(shù)日趨成熟。其中,同源模建方法是一種以已知結(jié)構(gòu)的蛋白質(zhì)為模板預(yù)測(cè)目標(biāo)蛋白質(zhì)結(jié)構(gòu)的方法。因?yàn)橐患?jí)序列的相似性越高,兩個(gè)蛋白質(zhì)的三級(jí)結(jié)構(gòu)的相似性也越高。
同源模建方法是從模板序列和目標(biāo)序列的比對(duì)開(kāi)始的。合適的模板是同源模建得到好模型的基礎(chǔ)。同源模建方法一般分為四個(gè)步驟:序列比對(duì),模建結(jié)構(gòu),結(jié)構(gòu)優(yōu)化和結(jié)構(gòu)評(píng)估[2]。
不同的同源模建方法的區(qū)別主要體現(xiàn)在第二步模建目標(biāo)模型上。最傳統(tǒng)的也是使用最廣泛的模建方法是剛體裝配法。此方法使用從已知結(jié)構(gòu)中獲得的剛體結(jié)構(gòu)信息組裝模型。基于這類同源模建方法的程序有COMPOSER。另一類方法就是片段匹配法。片段匹配法,又稱坐標(biāo)重建法,是基于發(fā)現(xiàn)大部分的蛋白質(zhì)結(jié)構(gòu)片段都是聚類到大約100個(gè)結(jié)構(gòu)分組中。搜索并確定其余原子坐標(biāo)的方法一般是搜索所有已知結(jié)構(gòu)或者是基于能量函數(shù)的構(gòu)象搜索。第三類同源模建方法是基于空間約束的同源模建方法。由于這種基于約束的模建方法可以使用關(guān)于目標(biāo)序列的各種不同的信息,所以它是所有同源模建方法中最有前途的[3]。
1 基于空間約束的同源模建方法
基于空間約束的同源模建方法通過(guò)目標(biāo)序列與模板序列的比對(duì)結(jié)果,得到目標(biāo)序列結(jié)構(gòu)上的許多約束或者限制。這些約束通常是通過(guò)假設(shè)目標(biāo)序列和模板序列上的相對(duì)應(yīng)的距離和角度是相似的得到的??臻g約束除了這些同源約束還包括:立體化學(xué)約束。然后使用空間約束來(lái)優(yōu)化模型的初始結(jié)構(gòu),使模型結(jié)構(gòu)對(duì)這些空間約束的違背最小,從而得到最終的模型結(jié)構(gòu)。模型的初始結(jié)構(gòu)可以通過(guò)距離幾何法或真實(shí)空間優(yōu)化法來(lái)實(shí)現(xiàn)。然后空間約束和力場(chǎng)數(shù)據(jù)項(xiàng)都被整合到一個(gè)客觀函數(shù)中去。最后,在笛卡爾坐標(biāo)系中當(dāng)客觀函數(shù)的函數(shù)值最小時(shí),得到模型的最終結(jié)構(gòu)?;诳臻g約束的同源模建方法的優(yōu)勢(shì)之一是不同來(lái)源的約束和限制都很容易被添加到同源約束中去。同樣,基于空間約束的同源模建方法的進(jìn)一步的發(fā)展也是因?yàn)楦鞣N約束的加入,使得這種方法更加完善。當(dāng)然,好的優(yōu)化算法的選擇也是改善這種方法的途徑[4]。
1.1距離約束和距離幾何法 最早的基于約束的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)方法使用的約束一般都是距離約束,這些距離約束數(shù)據(jù)都是來(lái)自實(shí)驗(yàn)檢測(cè)結(jié)果。PerJ Kraulis等人[5]提出了一種使用核磁共振數(shù)據(jù)確定蛋白質(zhì)結(jié)構(gòu)的方法,其中使用了蛋白質(zhì)原子間的距離數(shù)據(jù)。Hiroshi Wako等人[6]應(yīng)用距離約束法預(yù)測(cè)了牛胰蛋白酶抑制劑的三級(jí)結(jié)構(gòu)。其中,他們考慮了氨基酸殘基的親疏水性,并且設(shè)定了螺旋與延伸結(jié)構(gòu)和片層結(jié)構(gòu)中的平均距離,合并了特定的半胱氨酸殘基之間的二硫鍵的位置信息和五個(gè)特殊的殘基對(duì)之間的確切距離信息。他們定義了一個(gè)客觀函數(shù),通過(guò)使用這一系列的距離約束數(shù)據(jù),使客觀函數(shù)最小化,從而確定目標(biāo)蛋白質(zhì)的最終結(jié)構(gòu)。其中使用的距離約束數(shù)據(jù)都是通過(guò)對(duì)14個(gè)已知結(jié)構(gòu)的蛋白質(zhì)的距離數(shù)據(jù)的統(tǒng)計(jì)分析總結(jié)得到的。
距離約束數(shù)據(jù)方便使用分子內(nèi)部坐標(biāo)表示,分子內(nèi)部坐標(biāo)僅僅體現(xiàn)保守結(jié)構(gòu)特征的相對(duì)位置,而忽略分子的位置和方向。其他模建研究表明使用距離坐標(biāo)系統(tǒng)處理分子內(nèi)部結(jié)構(gòu)約束問(wèn)題非常有用。因?yàn)闅W幾里得變換群中的每一個(gè)幾何特征不變量都可以用距離來(lái)表示,所以距離坐標(biāo)系統(tǒng)可以替代笛卡爾坐標(biāo)。笛卡爾坐標(biāo)可以通過(guò)程序重新恢復(fù)。Havel TF等人[7]結(jié)合使用核磁共振數(shù)據(jù)和距離幾何法確定了胰蛋白酶抑制劑的結(jié)構(gòu),并證明了使用該方法計(jì)算蛋白質(zhì)的完整結(jié)構(gòu)是可行的。使用距離幾何法解決同源模建問(wèn)題,就是一個(gè)確定具有同源性的蛋白質(zhì)中結(jié)構(gòu)相似的原子的分子內(nèi)距離的過(guò)程。Andras Aszodi等人[8]設(shè)計(jì)了一種基于距離幾何法的同源模建方法,這種方法能在相對(duì)較短的時(shí)間內(nèi)得到大量的低分辨率的片段,它是通過(guò)一系列的嵌入折疊整個(gè)簡(jiǎn)化的模型,也就是把結(jié)構(gòu)投射到逐漸減小的維度的歐幾里德空間中去。
1.2空間約束和真實(shí)空間優(yōu)化法 基于空間約束的同源模建方法逐漸被人們認(rèn)可,越來(lái)越多的其他類型的約束信息被添加到方法中來(lái)。這也使得這種方法越來(lái)越完善。Andrej Sali等人[9]開(kāi)發(fā)了一種整合了多種空間約束的同源模建方法,其中包含的空間約束有Cα原子之間的距離約束,NO原子之間的距離約束,立體化學(xué)約束,主鏈二面角約束以及側(cè)鏈二面角約束。這種方法的基本步驟是,首先,根據(jù)模板序列與目標(biāo)序列的比對(duì)結(jié)果,從模板結(jié)構(gòu)中提取相對(duì)應(yīng)的同源約束,這些約束的展現(xiàn)形式都是概率密度函數(shù),也就是每一個(gè)同源約束就產(chǎn)生一個(gè)概率密度函數(shù);然后通過(guò)多目標(biāo)函數(shù)法和共軛梯度算法來(lái)對(duì)得到的概率密度函數(shù)進(jìn)行優(yōu)化,得到最優(yōu)解,即模型結(jié)構(gòu)信息。
Cα原子之間的距離約束,也就是約束目標(biāo)蛋白質(zhì)中兩個(gè)不同氨基酸殘基的Cα原子之間的距離的概率密度函數(shù)。這個(gè)概率密度函數(shù)也就是一個(gè)高斯分布,其中高斯分布的平均值是模板結(jié)構(gòu)中對(duì)應(yīng)殘基的Cα原子之間的距離,標(biāo)準(zhǔn)差是通過(guò)已知結(jié)構(gòu)中Cα原子之間的距離;兩個(gè)比對(duì)序列的部分同源性;已知結(jié)構(gòu)中這段距離兩端的殘基的部分溶劑親和性;距離兩端的殘基離空位的平均距離四個(gè)參數(shù)根據(jù)相應(yīng)的計(jì)算公式得到的。立體化學(xué)約束是根據(jù)標(biāo)準(zhǔn)力場(chǎng)數(shù)據(jù)對(duì)目標(biāo)蛋白質(zhì)中的原子位置的約束。其中涉及了原子距離,角度,二面角,所以立體化學(xué)約束函數(shù)也有很多種,比如高斯函數(shù),余弦函數(shù)等等。構(gòu)建這些約束函數(shù)所需要的參數(shù)也是來(lái)源于力場(chǎng)數(shù)據(jù)。蛋白質(zhì)中主鏈骨架原子之間的鍵形成的二面角稱為主鏈二面角。根據(jù)組成二面角的原子類別的不同,可以將主鏈二面角分為三類。其中,由于二面角位置的特殊性,第三類主鏈二面角的變化比較單一。正是這樣,前兩類二面角的變化就成了討論主鏈二面角的關(guān)鍵。根據(jù)前兩類主鏈二面角的變化,主鏈構(gòu)象分為A,B,P,G,L和E六個(gè)類別。并且,每個(gè)主鏈二面角構(gòu)象類別中的二面角分布都是一個(gè)高斯分布,這樣每一個(gè)分布都可以用一個(gè)概率密度函數(shù)表示出來(lái)。在考慮目標(biāo)序列中固定部位的主鏈構(gòu)象的約束時(shí),就使用六個(gè)類別的概率密度函數(shù)的一個(gè)加權(quán)和來(lái)表示。其中,每一個(gè)類別高斯函數(shù)的平均值,標(biāo)準(zhǔn)差和權(quán)重都是通過(guò)統(tǒng)計(jì)分析得到的。Andrej Sali等人[10]使用了一個(gè)含有1000個(gè)蛋白質(zhì)的數(shù)據(jù)集,統(tǒng)計(jì)分析了不同殘基類型情況下的主鏈二面角的類別分布,得到了每一個(gè)主鏈構(gòu)象類別的高斯函數(shù)的平均值,標(biāo)準(zhǔn)差和權(quán)重三個(gè)參數(shù)的數(shù)據(jù)。
1.3其他約束 同源模建方法得到的模型的可靠性很大程度上依賴于目標(biāo)序列與模板序列的序列一致性。蛋白質(zhì)超家族成員之間存在的結(jié)構(gòu)差異不僅體現(xiàn)在空位區(qū)域上而且還體現(xiàn)在二級(jí)結(jié)構(gòu)位置的移位。這就造成了同源模建方法的一個(gè)內(nèi)在局限性。Saikat Chakrabarti等人[11]添加遠(yuǎn)距離模板中的保守片段作為額外的空間約束,在一定程度上改善了基于空間約束的同源模建方法的這一問(wèn)題。他們使用主流的結(jié)構(gòu)化片段的數(shù)據(jù)庫(kù)SMoS,這個(gè)數(shù)據(jù)庫(kù)整個(gè)了許多高保守結(jié)構(gòu)的殘基片段。他們利用了數(shù)據(jù)庫(kù)中的殘基片段的結(jié)構(gòu)信息,將這些結(jié)構(gòu)信息作為額外約束信息添加到同源模建方法中去。BooJALA V B Reddy等人[12]將二級(jí)結(jié)構(gòu)信息和氨基酸長(zhǎng)距離接觸圖添加到基于空間約束的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的方法中,改善了含有高比例螺旋或折疊結(jié)構(gòu)的蛋白質(zhì)的預(yù)測(cè)精度。
2 軟件與應(yīng)用
MODELLER是一款同源模建軟件[13]。其中,使用的原理就是基于空間約束的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)。簡(jiǎn)而言之,軟件的輸入項(xiàng)是模板序列與目標(biāo)序列的比對(duì)結(jié)果,模板序列的結(jié)構(gòu)文件和腳本文件。然后,MODELLER就能自動(dòng)計(jì)算出目標(biāo)序列中所有非氫原子的坐標(biāo)。MODELLER軟件中涉及到的空間約束包括:同源約束,立體化學(xué)約束,統(tǒng)計(jì)約束和其他額外添加的約束。軟件沒(méi)有界面交互系統(tǒng),只能通過(guò)腳本進(jìn)行使用。
MODWEB是一種自動(dòng)同源模建的網(wǎng)上服務(wù)器[14]。它接收一條以上的FASTA序列,然后在PDB數(shù)據(jù)庫(kù)中搜索最可行的模板,并計(jì)算出提交的目標(biāo)序列的模型。MODWEB使用的原理與MODELLER類似,只是在兩個(gè)步驟進(jìn)行了改進(jìn)。它使用的模板搜索方法是序列結(jié)構(gòu)比對(duì),搜索使用的模板也不止一個(gè)。對(duì)于單個(gè)提交序列,MODWEB是通過(guò)郵件的形式返回結(jié)果。如果提交的序列不止一條或者包含結(jié)構(gòu)時(shí),返回的結(jié)果將被作為一個(gè)單獨(dú)的數(shù)據(jù)集添加到蛋白質(zhì)模型的相關(guān)數(shù)據(jù)集中。
3 展望
隨著越來(lái)越多的蛋白質(zhì)序列的三級(jí)結(jié)構(gòu)被測(cè)定,同源模建的使用范圍也不斷擴(kuò)大。其中,基于空間約束的同源模建方法是在所有同源模建方法中表現(xiàn)最好的方法。目前,對(duì)基于空間約束的同源模建方法的研究也越來(lái)越深入。許多額外的實(shí)驗(yàn)數(shù)據(jù)約束被添加到方法中來(lái),比如,核磁共振數(shù)據(jù),交聯(lián)試驗(yàn)數(shù)據(jù),熒光光譜實(shí)驗(yàn)數(shù)據(jù),微電子圖像重建實(shí)驗(yàn)數(shù)據(jù)和定點(diǎn)突變實(shí)驗(yàn)數(shù)據(jù)。實(shí)驗(yàn)數(shù)據(jù)約束的添加使基于空間約束的同源模建方法的預(yù)測(cè)結(jié)果更加的合理。
總之,基于空間約束的同源模建方法具有能添加多種來(lái)源的數(shù)據(jù)約束的特點(diǎn),是同源模建方法中與實(shí)驗(yàn)數(shù)據(jù)聯(lián)系最深的方法,也意味著是最有潛力的方法。
參考文獻(xiàn):
[1] Yang Z, Jeffrey S. The protein structure prediction problem could be solved using the current PDB library[J].Proceedings of the National Academy of Sciences of the United States of America, 2005, 102(4):1029-1034.
[2] Bino, John, Andrej, Sali. Comparative protein structure modeling by iterative alignment, model building and model assessment[J].Nucleic Acids Research, 2003, 31(14):3982-3992.
[3] Martí-Renom M A, Stuart A C, Fiser A, et al. Comparative protein structure modeling of genes and genomes[J].Annual Review of Biophysics & Biomolecular Structure, 2000, 29(29):27-30.
[4] Sánchez R, 07ali A. Comparative protein structure modeling as an optimization problem[J]. Journal of Molecular Structure Theochem, 1997:489-496.
[5] Krauli P J, Jones T A. Determination of three-dimensional protein structures from nuclear magnetic resonance data using fragments of known structures[J]. Proteins Structure Function & Bioinformatics, 1987, 2(3):188-201.
[6] Wako H, Scheraga H A. Distance-constraint approach to protein folding. I. Statistical analysis of protein conformations in terms of distances between residues[J]. Journal of Protein Chemistry, 1982, 1(1):5-45.
[7] Havel T F, Wüthrich K. An evaluation of the combined use of nuclear magnetic resonance and distance geometry for the determination of protein conformations in solution[J]. Journal of Molecular Biology, 1985, 182(2):281-294.
[8] András Aszódi, Robin EJ Munro, William R Taylor. Distance geometry based comparative modelling[J]. Fold Des, 1997, 2(3):S3-S6.
[9] Andrej Sali, Blundell T L. Comparative protein modelling by satisfaction of spatial restraints[J]. Journal of Molecular Biology, 1993, 234(3):779-815.
[10] ?Ali, Andrej, Overington J P. Derivation of rules for comparative protein modeling from a database of protein structure alignments[J]. Protein Science A Publication of the Protein Society, 1994, 3(9):1582-1596.
[11] Chakrabarti S, John J, Sowdhamini R. Improvement of comparative modeling by the application of conserved motifs amongst distantly related proteins as additional restraints[J]. Journal of Molecular Modeling, 2004, 10(1):69-75.
[12] Reddy B V B, Kaznessis Y N. Use of secondary structural information and C α -C α distance restraints to model protein structures with MODELLER[J]. Journal of Biosciences, 2007, 32(1 Supplement):929-936.
[13] Eswar N, Eramian D, Webb B, et al. Protein Structure Modeling with MODELLER[M].Structural ProteomicsHumana Press, 2008:145-159.
[14] Eswar N. Tools for comparative protein structure modeling and analysis[J]. Nucleic Acids Research, 2003, 31(13):3375-3380.
編輯/倪冰冰