王 希 誠(chéng), 趙 曉 宇, 康 玲, 李 洪 林
(1.大連理工大學(xué)工業(yè)裝備結(jié)構(gòu)分析國(guó)家重點(diǎn)實(shí)驗(yàn)室,遼寧大連 116024;2.大連理工大學(xué)工程力學(xué)系,遼寧大連 116024;3.大連理工大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,遼寧 大連 116024;4.中國(guó)科學(xué)院上海藥物研究所,上海 201203)
隨著計(jì)算機(jī)技術(shù)的高速發(fā)展及其在各個(gè)領(lǐng)域的廣泛應(yīng)用,計(jì)算機(jī)輔助藥物設(shè)計(jì)已經(jīng)成為創(chuàng)新藥物研究的一種新方法和技術(shù).分子對(duì)接作為基于受體藥物設(shè)計(jì)的重要方法之一,已經(jīng)成為可靠、相對(duì)廉價(jià)的用于先導(dǎo)化合物發(fā)現(xiàn)的一種重要手段.分子對(duì)接包括3個(gè)相互關(guān)聯(lián)的部分:結(jié)合位點(diǎn)的識(shí)別、有效的構(gòu)象優(yōu)化方法及打分函數(shù).20世紀(jì)80年代,Kuntz等[1]發(fā)展了模擬小分子與生物大分子結(jié)合三維結(jié)構(gòu)及其強(qiáng)度的計(jì)算方法——分子對(duì)接(molecular docking)方法,并開(kāi)發(fā)了第一個(gè)分子對(duì)接程序DOCK.此后,為得到精確的結(jié)合構(gòu)象和正確地預(yù)測(cè)活性,各種構(gòu)象優(yōu)化方法及打分函數(shù)應(yīng)運(yùn)而生.
本文通過(guò)Boltzmann規(guī)則將原子間距離的概率分布轉(zhuǎn)化為與距離有關(guān)的蛋白質(zhì)-配體原子對(duì)間作用能的知識(shí)打分函數(shù),將其與基于信息熵的多種群自適應(yīng)遺傳算法相結(jié)合,形成有效的分子對(duì)接程序,用于計(jì)算配體與蛋白質(zhì)的結(jié)合能;并與DOCK6.1對(duì)接結(jié)果相比較,以證明其有效性.
目前,可以用于分子對(duì)接及虛擬篩選的結(jié)合自由能評(píng)價(jià)方法,大致上可以分為基于力場(chǎng)、基于經(jīng)驗(yàn)及基于知識(shí)的3類(lèi)打分函數(shù).基于力場(chǎng)的打分函數(shù)多采用AMBER和CHARMM力場(chǎng)的非鍵相互作用部分,將蛋白質(zhì)受體-配體的結(jié)合自由能近似為范德華力與靜電力相互作用的加和,DOCK4[2](最新版本為 DOCK6.1)、GAsDock[3]等對(duì)接程序均采用力場(chǎng)打分函數(shù)作為分子對(duì)接的評(píng)價(jià)標(biāo)準(zhǔn).經(jīng)驗(yàn)打分函數(shù)認(rèn)為結(jié)合自由能可以通過(guò)多項(xiàng)不同作用的加和來(lái)解釋,權(quán)系數(shù)可以通過(guò)已知結(jié)合能的蛋白質(zhì)-配體的訓(xùn)練集獲得.知識(shí)打分函數(shù)通過(guò)已知的受體-配體結(jié)構(gòu),利用Boltzmann規(guī)則[4]將原子間距離的概率分布轉(zhuǎn)化為與距離有關(guān)的受體-配體原子對(duì)間的作用能,并將結(jié)合過(guò)程中具有復(fù)雜相關(guān)性而又很難明確建模的結(jié)合效應(yīng)隱含進(jìn)去.本文采用類(lèi)似經(jīng)典打分PMF[5](potentials of mean force)的構(gòu)造方法,從包含2422個(gè)復(fù)合物的訓(xùn)練集中確定了17種蛋白質(zhì)受體原子類(lèi)型(詳見(jiàn)表 1)及 25種配體原子類(lèi)型(詳見(jiàn)表 2),通過(guò)Boltzmann規(guī)則得到了不同類(lèi)型原子對(duì)在各個(gè)距離上的作用能,并且通過(guò)體積修正項(xiàng)將結(jié)合過(guò)程中的疏水作用及熵變隱含進(jìn)去,其表達(dá)式如下:
表1 蛋白質(zhì)原子類(lèi)型Tab.1 Protein atom type
表2 配體原子類(lèi)型Tab.2 Ligand atom type
式中:Aij(r)為i類(lèi)型受體原子與j類(lèi)型配體原子在距離r上的能量值;kl為復(fù)合物訓(xùn)練集中所有距離r 本文采用只考慮小分子柔性的半柔性對(duì)接優(yōu)化模型,包括小分子平動(dòng)、轉(zhuǎn)動(dòng)及旋轉(zhuǎn)鍵在內(nèi)的一系列變化.優(yōu)化對(duì)接模型為 式中:x=(TxTyTzRxRyRzTb1Tb2… Tbn)T,其中 Tx、Ty、Tz、Rx、Ry 、Rz 是配體分子的幾何中心及旋轉(zhuǎn)度,對(duì)應(yīng)于配體分子的取向,Tb1,Tb2,…,Tbn是配體分子的可旋轉(zhuǎn)鍵,描述配體分子的構(gòu)象信息,n為可旋轉(zhuǎn)鍵數(shù)目.目標(biāo)函數(shù) f(x)選取上述知識(shí)型打分函數(shù). 本文在采用帶有空間收縮的多種群遺傳算法[6]的基礎(chǔ)上同時(shí)加入了自適應(yīng)策略,將其與知識(shí)打分函數(shù)結(jié)合用于尋找分子對(duì)接過(guò)程中的低能構(gòu)象,用信息熵控制最優(yōu)解搜索空間的收縮,并用空間收縮的尺度作為算法停止的判據(jù),進(jìn)化過(guò)程中添加了最優(yōu)保留策略,從而確保了算法的全局收斂性. 對(duì)于多約束優(yōu)化問(wèn)題(5),可利用評(píng)價(jià)約束函數(shù)PEC及精準(zhǔn)懲罰函數(shù)法將其轉(zhuǎn)化為序列無(wú)約束優(yōu)化問(wèn)題: 式中:α為懲罰因子,α只要大于一個(gè)閾值就可以使問(wèn)題的解位于可行域內(nèi);ψ的取值一般為[103,105],這種方法針對(duì)所有約束按“松”與“緊”自動(dòng)調(diào)整懲罰力度,能夠有效地處理約束,計(jì)算效率較高.對(duì)于遺傳算法,需要將上式轉(zhuǎn)化為無(wú)約束最大化問(wèn)題: 式中:C是一個(gè)大的正數(shù)以確保F(x)在計(jì)算過(guò)程中為正值,式(7)就是本文采用的演化設(shè)計(jì)模型,F(x)為適應(yīng)值函數(shù). 將通訊論中的信息熵理論引入優(yōu)化方法中,構(gòu)造基于信息熵控制的遺傳演化模型如下: 式中:M為種群個(gè)數(shù),通過(guò)定義最優(yōu)解落在第m個(gè)種群的概率pm(m=1,2,…,M),從而引入信息熵H以衡量最優(yōu)解落于某一種群的不確定性.初始時(shí),pm=1/M,m=1,2,…,M,H取最大值;隨著優(yōu)化的進(jìn)行,遺傳迭代解將逐步逼近最優(yōu)解,pm及H都將隨之變化,當(dāng)在某一種群取到最優(yōu)解時(shí),不確定性為零,熵 H取極小值,從而得到原問(wèn)題(7)的最優(yōu)解.信息熵的介入有助于加快進(jìn)化過(guò)程. 在本文算法中,還將遺傳算法中的交叉概率及變異概率作為設(shè)計(jì)變量參與優(yōu)化,這種自適應(yīng)策略,可以有效防止過(guò)早收斂問(wèn)題的發(fā)生,同時(shí)提高了算法的搜索速度,保持了種群的多樣性,從而大大降低了人為因素對(duì)優(yōu)化算法的影響. 這種基于信息熵的多種群自適應(yīng)遺傳算法,引入了種群競(jìng)爭(zhēng)機(jī)制及交叉、變異概率的自適應(yīng)策略,并用信息熵控制空間收縮,提高了遺傳迭代的效率,算法穩(wěn)定可靠,具有較強(qiáng)的全局尋優(yōu)能力,收斂速度也有較大的提高. 本文將知識(shí)打分函數(shù)與優(yōu)化算法相結(jié)合,開(kāi)發(fā)了新的分子對(duì)接程序.為測(cè)試程序的有效性,選取乙酰膽堿酯酶抑制劑(AChE)、凝血酶抑制劑(thrombin-MQPA)及HIV蛋白酶抑制劑3種晶體復(fù)合物,進(jìn)行晶體結(jié)構(gòu)復(fù)原,并與廣泛應(yīng)用的分子對(duì)接程序DOCK(Kuntz研究組推出的最新版本DOCK6.1)在能量得分、均方根偏差和對(duì)接所消耗的計(jì)算機(jī)時(shí)間方面進(jìn)行了比較,得到了較為滿(mǎn)意的結(jié)果. 凝血酶是與血液凝固有關(guān)的重要蛋白酶之一,它能水解L-精氨酸的肽、酰胺和酯類(lèi).臨床表明,凝血酶抑制劑對(duì)血液栓塞、外傷出血等與血液凝固相關(guān)的疾病具有較好的療效.本文選取凝血酶(PDB:1ETR)復(fù)合物中配體MQI與其受體進(jìn)行分子對(duì)接,其對(duì)接結(jié)果如表3及圖1所示,表中energy為能量得分,單位kJ/mol;RMSD為晶體結(jié)構(gòu)的均方根偏差,單位nm;time為對(duì)接時(shí)間,單位s. 表3 1ETR:對(duì)接結(jié)果與DOCK 6.1的比較Tab.3 1ET R:Comparisons of the docking results with DOCK 6.1 老年癡呆癥 (alzheimer′s disease,AD)是一種多因異質(zhì)性疾病,伴有認(rèn)知及行為障礙,多發(fā)生在65歲以上的老年人群.由于AD的病因病機(jī)尚未明確,目前對(duì)該病尚無(wú)特效藥物.目前從血液和腦脊液中發(fā)現(xiàn)一些具有診斷和鑒別診斷意義的生化指標(biāo),有望成為AD早期診斷極有價(jià)值的指標(biāo),乙酰膽堿酯酶就是其中之一. 圖1 1ET R:對(duì)接結(jié)果與晶體結(jié)構(gòu)的比較Fig.1 1ETR:Comparisons of the docking results with crystal structure 本文運(yùn)用改進(jìn)的方法,對(duì)乙酰膽堿酯酶(PDB:1EVE)抑制劑晶體復(fù)合物中配體E20與其受體作對(duì)接,與DOCK6.1的對(duì)接結(jié)果相比較,結(jié)果如表4及圖2所示. 表 4 1EVE:對(duì)接結(jié)果與 DOCK 6.1的比較Tab.4 1EVE:Comparison of the docking results with DOCK 6.1 人類(lèi)免疫缺陷病毒(HIV)是艾滋病的主要致病因,針對(duì)艾滋病的化學(xué)藥物治療中HIV蛋白酶抑制劑發(fā)揮了重要作用.它通過(guò)抑制HIV在復(fù)制后期的構(gòu)造蛋白、調(diào)節(jié)蛋白的功能,使其成為無(wú)外膜蛋白構(gòu)造且不具感染力的病毒,從而達(dá)到治療作用.本文選取 HIV蛋白酶中的一種(PDB:1QBS),將其與配體DMP進(jìn)行對(duì)接,其晶體結(jié)構(gòu)與對(duì)接結(jié)果如表5及圖3所示. 圖2 1EVE:對(duì)接的最優(yōu)構(gòu)象與晶體結(jié)構(gòu)的比較Fig.2 1EVE:Comparisons of the optimal docking conformations with crystal structure 表5 1QBS:對(duì)接結(jié)果與DOCK6.1的比較Tab.5 1QBS:Comparison of docking results with DOCK6.1 圖3 1QBS:對(duì)接的最優(yōu)構(gòu)象與晶體結(jié)構(gòu)的比較Fig.3 1QBS:Comparisons of the optimal docking conformations with crystal structure 由上述3個(gè)實(shí)例可以看出,對(duì)于活性位點(diǎn)形成氫鍵或結(jié)合位點(diǎn)存在疏水性口袋的復(fù)合物(如1ETR、1QBS),本文的方法精度遠(yuǎn)好于DOCK6.1.這是由于本文采取的打分函數(shù)并不單純以力場(chǎng)作為衡量能量的標(biāo)準(zhǔn),而是通過(guò)將原子對(duì)間的距離分布轉(zhuǎn)化為受體與配體分子間的結(jié)合能,從而將難以用公式顯性表達(dá)的氫鍵、疏水等結(jié)合過(guò)程中的力隱含在概率分布中,因而得到了更好的結(jié)果.同時(shí),3個(gè)實(shí)例均表明,本文的方法在保證精度的前提下,效率優(yōu)于DOCK6.1的結(jié)果. 打分函數(shù)的選取與搜索算法的改進(jìn)是分子對(duì)接過(guò)程中較為重要的兩個(gè)部分.本文在傳統(tǒng)對(duì)接程序DOCK的基礎(chǔ)上,采用基于原子間概率分布的知識(shí)打分函數(shù)替代了基于力場(chǎng)的打分函數(shù);同時(shí)采用基于信息熵的多種群自適應(yīng)遺傳算法,發(fā)展出一種新型對(duì)接程序KGAsDock,通過(guò)算例證明該方法在保證效率的前提下,提高了計(jì)算的精度,得到了較為滿(mǎn)意的結(jié)果. [1]KUNTZ I D,BLANEY J M,OA TLEY S J,et al.A geometric approach to macromolecule-ligand interactions[J].Journal of Molecular Biology,1982,161(12):269-288 [2]EWING T J,M AKINO S,SKILLMAN A G,et al.DOCK4.0:Search strategies for automated molecular docking of flexible molecule databases[J].Journal of Computer-aidedMolecularDesign,2001,15(5):411-428 [3]LI Hong-lin,LI Chun-lian,GUI Chun-shan,et al.GAsDock:a new approach for rapid flexible docking based on an improved multi-population genetic algorithm[J].Bioorganic&Medicinal Chemistry Letters,2004,14(18):4671-4676 [4]SIPPL M J.Boltzmann′s principle,knowledge-based meanfields and protein folding.An approach to the computational determination ofprotein structures[J].Journal of Computer-aided Molecular Design,1993,7(4):473-501 [5]M UEGGE I.PMF scoring revisited[J].Journal of Medicinal Chemistry,2006,49(20):5895-5902 [6]李純蓮,王希誠(chéng),趙金城,等.一種基于信息熵的多種群遺傳算法[J].大連理工大學(xué)學(xué)報(bào),2004,44(4):589-593(LI Chun-lian,WANG Xi-cheng,ZHAO Jin-cheng,et al.An information entropy-based multi-population genetic algorithm[J].Journal of Dalian University of Technology,2004,44(4):589-593)2 分子半柔性對(duì)接優(yōu)化模型
3 基于信息熵的多種群自適應(yīng)遺傳算法
4 結(jié)果與討論
4.1 凝血酶抑制劑晶體結(jié)構(gòu)復(fù)原
4.2 乙酰膽堿酯酶抑制劑(AChE)晶體結(jié)構(gòu)復(fù)原
4.3 HIV蛋白酶抑制劑晶體結(jié)構(gòu)復(fù)原
5 結(jié) 語(yǔ)