摘要:采用大分子對接程序DOT對20個具有代表性的蛋白質(zhì)-DNA體系進行對接,對對接結(jié)果就各打分項與體系中的帶電性問題和構(gòu)象變化問題之間的具體關(guān)系進行分析。結(jié)果表明,采用DOT對大部分蛋白質(zhì)-DNA體系都找到了精確度較高的對接結(jié)果;范德華能和靜電能對DOT組合能的貢獻反映了蛋白質(zhì)-DNA體系的天然特性;對接面上允許的碰撞原子個數(shù)(NB參數(shù))與蛋白質(zhì)和DNA結(jié)合前后溶劑可達表面變化面積(ASA)呈正比關(guān)系。
關(guān)鍵詞:蛋白質(zhì)-DNA對接;DOT;構(gòu)象變化
中圖分類號:Q615 文獻標識碼:A 文章編號:0439-8114(2013)23-5889-05
蛋白質(zhì)和DNA是構(gòu)成生命體最為重要的兩類生物大分子,在基因表達調(diào)控、蛋白質(zhì)翻譯和細胞分裂等過程中發(fā)揮著極其重要的作用[1]。通過研究蛋白質(zhì)-DNA復(fù)合物的相互作用可以了解核酸在生物學(xué)過程中所發(fā)揮的基礎(chǔ)作用,還可以為設(shè)計針對核酸的藥物提供參考[2]。但是,通過試驗方法直接測定蛋白質(zhì)-DNA復(fù)合物結(jié)構(gòu)仍相當困難[3],截至2012年10月28日,蛋白質(zhì)數(shù)據(jù)庫(Protein data bank,PDB)中數(shù)據(jù)總數(shù)已超過80 000個,而其中蛋白質(zhì)-DNA復(fù)合物結(jié)構(gòu)卻不足2 500個,如果考慮結(jié)構(gòu)之間的同源性,則保留下來的結(jié)構(gòu)就更少了。因此分子對接作為重要的復(fù)合物結(jié)構(gòu)預(yù)測模擬方法之一,可為復(fù)合物結(jié)構(gòu)預(yù)測提供有益的參考依據(jù)[4,5]。
目前,關(guān)于蛋白質(zhì)-蛋白質(zhì)對接,蛋白質(zhì)-DNA對接的研究進展緩慢。主要困難在于:第一,缺乏蛋白質(zhì)的氨基酸和DNA的堿基對之間有關(guān)識別模式的信息[6];第二,DNA的帶電性更加復(fù)雜,尤其是核糖磷酸鹽骨架的帶電性問題大大增加了評估系統(tǒng)靜電能量穩(wěn)定性的難度;第三,核酸在結(jié)合過程中發(fā)生的構(gòu)象變化比較大。在蛋白質(zhì)跟核酸的結(jié)合過程中,除了蛋白質(zhì)的邊鏈會發(fā)生構(gòu)象變化外,DNA的螺旋結(jié)構(gòu)也有可能發(fā)生全局的構(gòu)象變化,例如彎曲和解螺旋[7]。
本研究把大分子對接程度DOT應(yīng)用在蛋白質(zhì)-DNA的對接中,并對對接結(jié)果進行分析,目的在于找出具有普遍意義的蛋白質(zhì)-DNA對接方法中各打分項與體系中的帶電性問題和構(gòu)象變化問題之間的具體關(guān)系,以期有助于今后研究具有更高精確度的蛋白質(zhì)-DNA對接方法。
1 材料與方法
1.1 DOT程序介紹
DOT是由Mandell等[8]開發(fā)的適用于大分子快遞對接的程序。它的打分項只包含范德華能和靜電能2項,通過運用卷積定理分別把靜電能函數(shù)和范德華能函數(shù)改寫成相關(guān)函數(shù)形式,再引入傅里葉變換把計算復(fù)雜度從N2降至NlogN,由此得到的高效DOT特別適合應(yīng)用于研究蛋白質(zhì)-DNA此類比較大的復(fù)合物體系上。此外,由于蛋白質(zhì)-DNA體系中DNA的強帶電性以及在結(jié)合過程中發(fā)生的構(gòu)象變化[9]會分別反映在靜電能和范德華能2個打分項上,因此選用DOT對蛋白質(zhì)-DNA體系進行對接,對后續(xù)的結(jié)果分析更有針對性。
1.2 試驗數(shù)據(jù)來源及預(yù)處理
本研究從Van Dijk等[10]的蛋白質(zhì)-DNA數(shù)據(jù)集中選取了具有代表性的20個體系進行分析。根據(jù)蛋白質(zhì)和DNA對接時發(fā)生構(gòu)象變化的程度,這些體系被劃分為低、中、高3個不同級別的難度。這個數(shù)據(jù)集包含了蛋白質(zhì)和DNA的結(jié)合態(tài)與非結(jié)合態(tài)結(jié)構(gòu),有利于研究蛋白質(zhì)-DNA對接過程中發(fā)生的柔性變化。其中,對于非結(jié)合態(tài)和結(jié)構(gòu)不完整的結(jié)合態(tài)DNA,用3DNA程序[11]按照B型雙螺旋結(jié)構(gòu)對DNA進行修補,由于這些缺失的堿基一般出現(xiàn)在DNA雙鏈的兩端,因此不會對后續(xù)的對接產(chǎn)生影響。為了模擬化合物中氫鍵所產(chǎn)生的作用,用REDUCE程序[12]為受體和配體加上極性氫原子。為了檢驗不同體系在結(jié)合過程中受靜電能和范德華能影響的差異,選取在規(guī)模方面具有代表性的體系進行試驗,具體表現(xiàn)為帶電性和溶劑可達表面積(ASA)這兩個體系參數(shù)的差異度上,具體見表1。從表1中可以看到,1bdt、1f4k、1tro等體系都具有比較強的帶電性,而ASA值則相對較?。幌喾?,1rva、2fl3、2oaa等體系中復(fù)合物的ASA值比較大,而體系的帶電性則相對較小。
1.3 試驗方法
本試驗對選取的20個蛋白質(zhì)-DNA體系中蛋白質(zhì)和DNA的結(jié)合態(tài)以及非結(jié)合態(tài)結(jié)構(gòu)進行了不同的組合,分別是蛋白質(zhì)和DNA的結(jié)合態(tài)-結(jié)合態(tài)(B/B)、結(jié)合態(tài)-非結(jié)合態(tài)(B/U)、非結(jié)合態(tài)-結(jié)合態(tài)(U/B)以及非結(jié)合態(tài)-非結(jié)合態(tài)(U/U)。另外,對每個體系的所有組合在對接面上允許的碰撞原子個數(shù)參數(shù)進行調(diào)整,以觀察蛋白質(zhì)-DNA體系在對接過程中所發(fā)生的構(gòu)象變化程度。所有體系都以蛋白質(zhì)為受體,DNA為配體,在剛性對接階段配體圍繞受體每次旋轉(zhuǎn)6 °進行采樣,最后得到54 000個構(gòu)象結(jié)果,并以DOT復(fù)合打分函數(shù)對這些構(gòu)象進行打分并排序。
2 結(jié)果與分析
2.1 對接結(jié)果
DOT對20個體系的蛋白質(zhì)結(jié)合態(tài)-DNA結(jié)合態(tài)組合進行對接的結(jié)果見表2。取能量最優(yōu)的前30 000個結(jié)果,以復(fù)合物天然構(gòu)象中的DNA和對接結(jié)果中的DNA重原子之間的RMSD值作為評判標準,從表2可以看出,除了1b3t和1tro以外其他體系都找到了RMSD值小于3 ?魡的結(jié)果。對每個體系取適當?shù)腞MSD閥值,考察DOT組合能、靜電能和范德華能在閥值以內(nèi)找到的位于前100名最優(yōu)能量的結(jié)果數(shù)量,以及排名最高的結(jié)果和其對應(yīng)的RMSD值。除了1bdt和1diz以外的大部分體系,DOT都可以在前100位的結(jié)果中找到閥值以內(nèi)的較優(yōu)構(gòu)象。對于體系1emh、1rva、1tro、1vas、7mht,即使在單獨用靜電能或者范德華能作為打分函數(shù)時找不到較優(yōu)結(jié)果的情況下,在DOT組合能中也可以找到較優(yōu)的結(jié)果。從整體上來說,DOT組合能找到最優(yōu)結(jié)果數(shù)量的能力也要強于靜電能和范德華能。
2.2 范德華能和靜電能對對接結(jié)果的影響
如圖1所示,通過分析體系中蛋白質(zhì)和DNA的帶電性以及溶劑可達表面積的變化,考查靜電能和范德華能對DOT組合能的影響程度。發(fā)現(xiàn)有以下3種情況:①圖1A為1zme體系中B/B組合前200位對接結(jié)果各能量之間的關(guān)系圖,可以看出靜電能在DOT組合能中占有主導(dǎo)地位,這跟1zme體系的強帶電性是相匹配的;②圖1B為2oaa體系中B/B組合前200位對接結(jié)果各能量之間的關(guān)系圖,從圖中可以看到范德華能在DOT組合能中占有主導(dǎo)地位,這與2oaa體系中蛋白質(zhì)和DNA溶劑可達表面積的明顯變化是相匹配的;③圖1C是1hjc體系中B/B組合前200位對接結(jié)果各能量之間的關(guān)系圖,可以看到范德華能和靜電能對DOT組合能的貢獻都相對平均,這與1hjc體系帶電性不強,蛋白質(zhì)和DNA溶劑可達表面積變化不大是匹配的。
2.3 構(gòu)象變化分析
圖2為體系1azp、2irf、1by4、1k79、1b3t、2fl3的對接結(jié)構(gòu)圖。第1組體系1azp、2irf的ASA值較小,在1 000 ?魡2以下;第2組體系1by4、1k79的ASA值適中,約為1 500 ?魡2;第3組體系1b3t、2fl3的ASA值最大,在2 000 ?魡2以上。從圖2中可以看到,3組體系B/B組合的對接結(jié)果都幾乎與天然結(jié)構(gòu)重合,而B/U組合的對接結(jié)果則隨著ASA值的增大而變差。這是由于ASA值度量的是蛋白質(zhì)和DNA在結(jié)合前后于接觸面上發(fā)生的溶劑可達表面積變化的程度,它與復(fù)合物對接后的構(gòu)象變化有著直接關(guān)系。對于構(gòu)象變化越大的體系,使用非結(jié)合態(tài)DNA結(jié)構(gòu)作為配體進行對接的難度就越大。
本研究通過調(diào)整DOT程序的NB(number of bumps)參數(shù)以研究不同體系的構(gòu)象變化情況。NB參數(shù)表征了蛋白質(zhì)和DNA在結(jié)合過程中接觸面上允許發(fā)生碰撞的原子個數(shù)。在實際情況中,DNA在與蛋白質(zhì)的結(jié)合過程中是不可能侵入到蛋白質(zhì)內(nèi)部的,也就是其原子不可能發(fā)生碰撞,但適當放松允許發(fā)生碰撞的原子個數(shù),可以模擬結(jié)合過程中在接觸面上發(fā)生的構(gòu)象變化。由于在蛋白質(zhì)和DNA的對接中,DNA的雙螺旋結(jié)構(gòu)往往會發(fā)生一定程度的構(gòu)象變化,因此NB參數(shù)的取值對結(jié)果的影響非常大。體系A(chǔ)SA值的大小某個程度上表征了構(gòu)象變化的程度,因此考察NB參數(shù)和ASA值之間的關(guān)系,實際上反映了NB參數(shù)和體系構(gòu)象變化程度之間的關(guān)系。
從圖3可以看出,對于不同體系的包含非結(jié)合態(tài)結(jié)構(gòu)的組合中,當體系的ASA值較小時,對接結(jié)果的RMSD值隨著NB參數(shù)的增大而增大;當體系的ASA值適中時,對接結(jié)果的RMSD值在NB參數(shù)為中間范圍值時最?。划旙w系的ASA值較大時,對接結(jié)果的RMSD值隨著NB參數(shù)的增大而減小。圖3A中的曲線總體呈上升趨勢,說明對接的最優(yōu)解都出現(xiàn)在NB參數(shù)取值較小處,配體DNA基本不需要通過模擬的碰撞來調(diào)整結(jié)構(gòu)就可以跟受體蛋白質(zhì)進行精確的對接,這與體系的ASA值較小,在對接前后基本沒有發(fā)生構(gòu)象變化相匹配。圖3B中的曲線最低點基本出現(xiàn)在中部,說明對接的最優(yōu)解在NB參數(shù)取靠近中間值,通過允許配體DNA的原子與蛋白質(zhì)原子發(fā)生輕微碰撞以適應(yīng)對接過程中發(fā)生的構(gòu)象變化,這與體系的ASA值都在1 500 ?魡2左右的中間位置,并且在對接前后發(fā)生的輕微構(gòu)象變化相匹配。圖3C中的曲線總體上呈下降趨勢,說明對接的最優(yōu)解在NB參數(shù)取值較大處,通過加大配體DNA原子與蛋白質(zhì)原子在接觸面上的碰撞個數(shù)以模擬大范圍的構(gòu)象變化來提高對接精度,這與體系的ASA值都在2 000 ?魡2以上,在對接前后發(fā)生的明顯構(gòu)象變化相匹配。
3 小結(jié)與討論
本研究使用大分子對接程序DOT對蛋白質(zhì)-DNA的對接方法進行了研究,結(jié)果如下。
1)DOT對不同體系的蛋白質(zhì)-DNA對接具有普遍適用性,在相對短的時間里能夠找出接近天然結(jié)構(gòu)的構(gòu)象。
2)對于帶電性比較強的體系,靜電能在蛋白質(zhì)和DNA的結(jié)合過程中占主導(dǎo)地位;對于在結(jié)合過程中發(fā)生的柔性變化比較大的體系,范德華能在蛋白質(zhì)和DNA的結(jié)合過程中占主導(dǎo)地位。在此結(jié)論的基礎(chǔ)上,為了提高對接方法的精確度,對于已知帶電性較強的蛋白質(zhì)-DNA體系,可在打分函數(shù)中適當加大靜電能的權(quán)重;而對于已知帶有柔性特征結(jié)構(gòu)的體系,例如彎曲和解螺旋,可在打分函數(shù)中適當加大范德華能的權(quán)重。
3)在DOT對接程序中,根據(jù)體系A(chǔ)SA值的不同情況,可通過調(diào)整NB參數(shù)使對接結(jié)果的RMSD值盡量優(yōu)化。這表明對于已知在結(jié)合位點上帶有易于發(fā)生構(gòu)象變化結(jié)構(gòu)的體系,可根據(jù)特定結(jié)構(gòu)發(fā)生構(gòu)象變化程度的經(jīng)驗數(shù)據(jù)來調(diào)整NB參數(shù),從而提高對接的成功率。
在本研究中,雖然DOT對大部分蛋白質(zhì)-DNA體系都可以找到精確度較高的結(jié)果,但是這些結(jié)果的排名并不好,因此通過改進DOT打分函數(shù)對結(jié)果進行二次排序,以提升高精度結(jié)果的排名將成為今后的研究重點。
參考文獻:
[1] YANG W, VAN DUYNE G D. Protein-nucleic acid interactions: From A(rgonaute) to X(PF)[J]. Current Opinion in Structural Biology,2006,16(1):1-4.
[2] GAN J H, JIA S, ZHEN H. Chemical and structural biology of nucleic acids and protein-nucleic acid complexes for novel drug discovery[J]. Science China Chemistry,2011,54(1):3-23.
[3] VELANKAR S, BEST C, BEUTH B, et al. PDBe: Protein data bank in Europe[J]. Nucleic Acids Research,2010,38(1):308-317.
[4] RITCHIE D W. Recent progress and future directions in protein-protein docking[J]. Current Protein and Peptide Science,2008,9(1):1-15.
[5] VADJDA S, KOZAKOV D. Convergence and combination of methods in protein-protein docking[J]. Current Opinion in Structural Biology,2009,19(2):164-170.
[6] GAO M, SKOLINICK J. From nonspecific DNA-protein encounter complexes to the prediction of DNA-protein interactions[J]. PLoS Computational Biology,2009,5(3):1-12.
[7] VAN DIJK M, VAN DIJK A D J, HSU V, et al. Information-driven protein-DNA docking using HADDOCK: It is a matter of flexibility[J]. Nucleic Acids Research,2006,34(11):3317-3325.
[8] MANDELL J G, ROBERTS V A, PIQUE M E, et al. Protein docking using continuum electrostatics and geometric fit[J]. Protein Engineering Design Selection,2001,14(2):105-113.
[9] 劉董敏,常 珊,胡建平,等.蛋白質(zhì)-核酸對接方法研究進展[J]. 現(xiàn)代生物醫(yī)學(xué)進展,2012,12(5):979-983.
[10] VAN DIJK M, BONVIN A M J J. A protein-DNA docking benchmark[J]. Nucleic Acids Research,2008,36(14):88.
[11] LU X J, OLSON W K. 3DNA: a versatile, integrated software system for the analysis, rebuilding and visualization of three-dimensional nucleic-acid structures[J]. Nature Protocols,2008,3(7):1213-1227.
[12] WORD J M, LOVELL S C, RICHARDSON J S, et al. Asparagine and glutamine: using hydrogen atom contacts in the choice of side-chain amide orientation[J]. Journal of Molecular Biology,1999,285(4):1735-1747.