曹雨康 江 健,2* 劉 杰,2
1(武漢紡織大學數(shù)學與計算機學院 湖北 武漢 430200)2(武漢紡織大學數(shù)學與計算機學院非線性科學研究中心 湖北 武漢 430200)
蛋白質(zhì)與配體的相互作用存在于生物體每個細胞的生命活動過程中,是細胞中一系列重要生理活動的基礎。許多生物過程中,如遺傳物質(zhì)復制、基因表達調(diào)控、信號轉導和免疫應答等都涉及蛋白質(zhì)與配體的結合。研究蛋白質(zhì)與配體相互作用的方式和程度,將有助于蛋白質(zhì)功能的分析、疾病致病機理的闡明和新型藥物的開發(fā)等眾多難題的解決。因此,研究蛋白質(zhì)-配體相互作用已成為生物化學、生物物理學和分子生物學研究中的核心問題之一。
為了評估蛋白質(zhì)與配體的結合,人們開發(fā)了各種評分函數(shù)。自20世紀90年代初以來,研究和開發(fā)評分函數(shù)成為了一個非?;钴S的領域。據(jù)不完全統(tǒng)計,文獻中公開報道的評分函數(shù)已有上百種之多,雖然發(fā)展迅猛,但是卻沒有形成一個合適的分類方案和命名約定。為了促進評分函數(shù)在評估蛋白質(zhì)與配體這一領域的良好發(fā)展以及方便初學者對該領域的學習認識,Liu等[1]根據(jù)不同評分函數(shù)使用的方法和不同的推導方式,將這一領域目前存在的評分函數(shù)劃分為四大類:基于物理的評分函數(shù)、實證評分函數(shù)、統(tǒng)計勢評分函數(shù)、基于描述符的評分函數(shù)。其中:基于物理的評分函數(shù)通過計算蛋白質(zhì)與配體結合時的相互作用力來進行評估;實證評分函數(shù)使用多元線性回歸來擬合現(xiàn)有數(shù)據(jù)[2-4];統(tǒng)計勢評分函數(shù)可直接使用蛋白質(zhì)-配體復合物的數(shù)據(jù)集,無須進一步地訓練[5-7];最后,基于描述符的評分函數(shù)是由數(shù)據(jù)驅(qū)動的,除了描述符和機器學習算法之外,其性能很大程度上取決于訓練集的好壞,可以處理大量多樣化的數(shù)據(jù)[8-11]。同時文獻[12-13]提出了一套評價藥物-靶標親合性評分函數(shù)性能的方法體系——CASF(Comparative Assessment of Scoring Functions),用來幫助用戶對評分函數(shù)進行合理的選擇,也為發(fā)展評分函數(shù)的理論研究提供依據(jù)。本文根據(jù)這些分類方法和評價體系對目前主流的一些評分函數(shù)進行了綜述性的介紹,并對評分函數(shù)當前存在的一些問題進行了總結,對未來的發(fā)展趨勢進行了展望。
一開始并沒有專門為評估蛋白質(zhì)與配體相互作用而開發(fā)的評分函數(shù),然而由于19世紀70年代Martin和他同事開創(chuàng)性的工作,力場才被逐漸應用到模擬生物大分子中來[14-15]。研究人員因此可以利用力場來計算蛋白質(zhì)與配體之間的相互作用,評分函數(shù)的概念也由此而生。由于蛋白質(zhì)與配體相互作用的性質(zhì),研究者們通常利用的是力場中的非共價相互作用,包括范德華力、靜電相互作用和氫鍵。例如DOCK評分函數(shù)[16-17]和AutoDock評分函數(shù)[18]的早期版本都使用了AMBER力場[19-21]作為評分引擎,隨后這些評分函數(shù)考慮了溶劑效應對蛋白質(zhì)與配體結合的影響從而得到了進一步的發(fā)展[22-23],而且鑒于當今計算機的強大性能,量子力學可能會取代力場在評估蛋白質(zhì)與配體結合中的作用,雖然這種方法還存在很多技術難題,但在很多研究中都有了突破和進展。后來Liu等[1]將這些利用現(xiàn)代力場、量子力學方法和溶劑效應的評分函數(shù)統(tǒng)一命名為基于物理的評分函數(shù),這類評分函數(shù)大多滿足如下形式:
ΔGbinding=ΔEvdw+ΔEelectrostatic+[ΔEH-bond]+ΔGdesolvation
(1)
式中:ΔGbinding表示蛋白質(zhì)與配體形成復合物的過程中結合自由能[24]的變化;ΔEvdw表示范德華力;ΔEelectrostatic為靜電相互作用;[ΔEH-bond]表示氫鍵;ΔGdesolvation則表示去溶劑化能,綜合起來衡量蛋白質(zhì)與配體的相互作用情況。
前面提到的DOCK評分函數(shù)由Elaine等在1991年提出,他們通過計算蛋白質(zhì)三維結構上各點勢函數(shù)中的受體依賴項來達到評估的目的,力場在其中發(fā)揮了重要的作用。AutoDock是一套分子對接軟件,用于預測柔性配體與已知結構大分子的結合,同樣使用力場作為評分引擎,是計算機輔助藥物設計的典型例子。Wang等[25]在AutoDock的基礎上,引入量子化學計算得出的部分電荷數(shù)值,使新的模型與AutoDock中的評分函數(shù)相比,在對接能力以及評分能力均有提高。Yin等[26]曾提出過一種評分函數(shù)——MedusaScore,這個函數(shù)基于一個包括范德華力、溶劑效應和氫鍵在內(nèi)的物理相互作用模型。為了保證函數(shù)的可遷移性,他們沒有使用蛋白質(zhì)-配體實驗數(shù)據(jù)進行參數(shù)訓練,而是在誘餌識別和結合親和力[27]預測方面對函數(shù)進行了測試,同時他們發(fā)現(xiàn)函數(shù)產(chǎn)生誤差的原因可能是沒有考慮結合時的熵損失,這也為改進函數(shù)提供了思路。文獻[28-29]更加關注的是如何計算蛋白質(zhì)與配體相互作用時的結合親和力,他們基于半經(jīng)驗量子力學方法(Semiempirical Quantum Mechanics)設計了一個評分函數(shù),該函數(shù)可以計算蛋白質(zhì)與配體結合過程中的靜電相互作用和溶劑化自由能。這個基于物理的評分函數(shù)能夠計算出多種蛋白質(zhì)與配體復合物結合親和力的變化趨勢,除此之外還能區(qū)分出天然復合物與誘餌蛋白。Jones等[30]針對小分子與已知三維結構的大分子結合模式的預測,設計了一個自動化的配體對接程序——GOLD(Genetic Optimisation for Ligand Docking),利用遺傳算法(Genetic Algorithm)進行蛋白質(zhì)與配體的結合運算,結合時的蛋白質(zhì)為部分柔性而配體為完全柔性。因其準確性和可靠性在分子圈內(nèi)評價很高,國內(nèi)許多科研單位都已引進該軟件。Madhavilatha等[31]則采用了一種將多個評分函數(shù)進行組合的技術,并將其應用到藥物設計中,并且在命中率、假陽性率和豐富度上均有明顯提高,與單個評分函數(shù)相比,這種組合技術能提供更準確的結果。與此類似的是Perez-Castillo等[32]提出的將單個評分函數(shù)整合到一起用于虛擬篩選的方法,他們使用遺傳算法來尋找組合評分函數(shù)。
Bohm[33]發(fā)表的評分函數(shù)是公認的第一個實證評分函數(shù),如今在Discovery Studio這個軟件中仍然可以用到這個評分函數(shù)。實證評分函數(shù)的特點在于它通過匯總許多單獨的指標來評估蛋白質(zhì)與配體的結合情況,每個指標都是結合過程中的一個重要因素。例如實證評分函數(shù)ChemScore[34]便滿足如下公式:
ChemScore=SH-bond+Smetal+Slipophilic+Protor+Pstrain+
Pclash+[Pcovalent+Pconstraint]
(2)
式(2)分為S和P兩部分,S為獎勵分數(shù),P為懲罰分數(shù)。式中:SH-bond為氫鍵獎勵分數(shù);Smetal為與金屬離子的配位鍵獎勵分數(shù);Slipophilic為親脂性獎勵分數(shù);Protor為凍結的旋轉鍵懲罰分數(shù);Pstrain為配體的內(nèi)部應變能懲罰分數(shù);Pclash為蛋白質(zhì)與配體之間的空間碰撞懲罰分數(shù);Pcovalent和Pconstraint分別為可能存在的共價對接和約束懲罰分數(shù)。函數(shù)由這些不同的分數(shù)組合在一起得出最終的評分結果,實證評分函數(shù)通常采用多元線性回歸或最小二乘法來計算每個影響因素的權重。
Bohm[33]研究的評分函數(shù)LudiScore作為實證評分函數(shù)的開創(chuàng)性研究,只采用了34種蛋白質(zhì)-配體復合物作為訓練集,在如今看來可能覺得訓練集較小,但是在20世紀90年代末發(fā)表的實證評分函數(shù)使用的訓練集復合物數(shù)量普遍小于100,在這種有限的數(shù)據(jù)集上很難獲得魯棒的評估模型。后來Wang等[35]在LudiScore、ChemScore和SCORE[36-37]的基礎上提出了一個新的實證評分函數(shù)——X-Score,它的復雜度與LudiScore大致相同,區(qū)別在于它使用的訓練集復合物數(shù)量達到了200,而且比LudiScore擁有更多的參數(shù)以供調(diào)節(jié),因此得到了收斂的回歸模型,在蛋白質(zhì)與配體結合親和力的預測上表現(xiàn)更好。評分函數(shù)經(jīng)過多年的發(fā)展積累了很多蛋白質(zhì)-配體復合物的結合數(shù)據(jù),如PDBbind-CN數(shù)據(jù)庫[38]。該數(shù)據(jù)庫系統(tǒng)地收集了蛋白質(zhì)數(shù)據(jù)庫中各類蛋白-配體復合物的三維結構以及親合性實驗數(shù)據(jù),致力于提供結構信息和物理化學性質(zhì)之間的聯(lián)系,可以為各類分子識別的理論研究提供知識基礎,在許多大學、研究所和醫(yī)藥公司的努力下,PDBbind-CN數(shù)據(jù)庫一直在更新與發(fā)展。
在實證評分函數(shù)近幾年的研究中,Syrlybaeva等[39]提出了一種新的CBSF(Contacts-Based Scoring Function)實證評分函數(shù),用于預估蛋白質(zhì)與小分子之間的結合自由能。函數(shù)的權重系數(shù)從一個預先訓練好的神經(jīng)網(wǎng)絡中推導得出,有較高的精確度。ADMET(藥物的吸收、分配、代謝、排泄和毒性)藥物動力學方法是當代藥物設計和藥物篩選中十分重要的方法,然而用這么多ADMET性質(zhì)來評估化合物的藥物相似性并不容易。Guan等[40]提出了一個名為ADMET-score的評分函數(shù)來評估化合物的藥物相似性,并使用一些退出市場的藥物對其進行了測試。文獻[41-44]研究的GlideScore可能是目前最成熟的實證評分函數(shù)之一,其特點在于它將氫鍵分為中性-中性、中性-帶電和帶電-帶電三種類型,這使獎勵分數(shù)與懲罰分數(shù)處理地更加細化。與傳統(tǒng)評分函數(shù)不同,它沒有直接將配體對接至已知三維結構的蛋白質(zhì)上,而是近似地預測對接對象的構象、方向和空間位置,這種方法的準確度幾乎是上一部分提到的自動化的配體對接程序GOLD的兩倍。后來王瑋[45]在一次研究中發(fā)現(xiàn),GlideScore在成功識別蛋白質(zhì)-配體復合物的晶體結合構象的前提下,對這些復合物的反向?qū)舆^程的識別率只有57%,其原因可能是GlideScore存在不同蛋白之間的噪聲,在后續(xù)的研究中,他們發(fā)現(xiàn)引入一個以“Balance”為核心的修正項,可將預測準確率提高到72%,并將改進后的評分函數(shù)命名為BCGlideScore。
在1996年DeWitte等發(fā)布的設計項目SMoG(Small Molecule Growth)中,統(tǒng)計勢評分函數(shù)首次被提出,并在接下來的十年左右的時間里迅速普及[46-47]。這是根據(jù)蛋白質(zhì)與配體的結合親和力對已知三維結構的蛋白質(zhì)-配體復合物進行排序的一種方法。這一類型的評分函數(shù)在技術層面可能有所不同,但它們遵循著相同的原則:求出蛋白質(zhì)與配體之間的統(tǒng)計成對勢[48]:
式中:lig為配體的原子數(shù);prot為蛋白質(zhì)的原子數(shù)。從而達到排序的目的。ωij(r)是原子對i-j之間的距離相關勢,可以根據(jù)玻爾茲曼方程分析導出:
統(tǒng)計勢評分函數(shù)首次在SMoG項目中被提出后,這一類型的評分函數(shù)的研究引起了人們的廣泛關注。Muegge[49-50]開發(fā)了評分函數(shù)PMF(Potential of Mean Force),其使用蛋白質(zhì)-配體復合物的結構信息來推導原子對相互作用勢能。用計算出的PMF得分來衡量不同蛋白質(zhì)-配體復合物的結合親合力。文獻[6,51]提出了DrugScore,他們在文章中介紹了這個評分函數(shù)的開發(fā)和驗證過程,它可以很好地區(qū)分已成功對接的蛋白質(zhì)配體結構和一些由計算機程序生成的偏差量較大的結構。后來在DrugScore2018[52]版本中,他們對訓練集進行了升級,并在CASF-2013中對其進行了測試,在評分、排序和對接能力上均表現(xiàn)良好。Huang等[53]使用一種新的迭代方法開發(fā)出一個統(tǒng)計勢評分函數(shù)ITScore,ITScore中蛋白質(zhì)與配體的成對統(tǒng)計電勢來自由蛋白質(zhì)數(shù)據(jù)庫中的786個蛋白質(zhì)-配體復合物組成的訓練集,他們采用的迭代方法的基本思想是通過迭代提高成對統(tǒng)計電勢,直到函數(shù)能正確地將訓練集中的復合物結構與誘餌結構區(qū)分開。與此類似的是Yan等[54]開發(fā)了一種基于統(tǒng)計勢的雙迭代評分函數(shù)DIScore/RR,用于評估RNA與RNA的相互作用。這個雙迭代函數(shù)通過迭代更新勢函數(shù)解決了參考狀態(tài)的問題,并通過迭代解決了常規(guī)方法中依賴誘餌的問題,有助于RNA結構和RNA復合物的預測和設計。Xu等[55]提出了一種基于碳原子的評分函數(shù)OPUS-CSF,用于蛋白質(zhì)模型結構的排序。Zheng等[56]提出的統(tǒng)計勢評分函數(shù)KECSA重新定義了參考狀態(tài),從而使他們能夠?qū)⒊蓪y(tǒng)計電勢與LJ勢(Lennard-Jones)聯(lián)系起來(LJ勢由蛋白質(zhì)數(shù)據(jù)庫中蛋白質(zhì)-配體復合物的結構數(shù)據(jù)生成),通過這一方法他們推導出了49種原子對的相互作用。
在此之后,Liu等[57]基于兩個蛋白質(zhì)-配體復合物訓練集,采用迭代法開發(fā)了一種基于統(tǒng)計勢的鹵鍵評分函數(shù),稱為XBPMF,用來預測蛋白質(zhì)與配體的相互作用。他們將蛋白質(zhì)-配體復合物的結構信息轉換為與原子對距離相關的成對電勢,在對接、評分和排序能力上表現(xiàn)中等。對非共價相互作用鹵鍵[58-60]有較好的預測效果。Huang等[61]研究的一種平均力勢能評分函數(shù),也屬于統(tǒng)計勢評分函數(shù),同樣用來評估蛋白質(zhì)與配體的結合。他們介紹了平均力勢能評分函數(shù)的背景和最新進展,并討論了可能遇到的挑戰(zhàn)與未來進展的方向。王希誠等[62]研究的一種通過計算原子對間距離來評價結合自由能的統(tǒng)計勢評分函數(shù),其構造方法與前面提到的平均力勢能函數(shù)相似,同時采用基于信息熵的多種群自適應遺傳算法,在降低了計算效率的同時,預測精度得到了提高。汪心亭[63]提出的一個復合的統(tǒng)計勢評分函數(shù)ITCPS(Iterative Composite Scoring function)綜合考慮了成鍵與非成鍵勢能,以及依賴方位取向的相互作用和疏水相互作用,在測試中有較高的成功率。
基于描述符的評分函數(shù)的研究開始于2004年左右[64-65],這種方法由于研究中包含大量描述符而得名。其特點是將定量結構-活性關系(Quantitative Structure-Activity Relationship,QSAR)研究方法[66]引入到了蛋白質(zhì)與配體相互作用的評估中。自計算機輔助藥物設計實現(xiàn)以來,QSAR研究方法便廣泛應用于預測化合物的理化性質(zhì)和生物活性中。這類評分函數(shù)通常使用如隨機森林、貝葉斯分類器、神經(jīng)網(wǎng)絡和支持向量機在內(nèi)的機器學習算法來進行變量的選擇,近年來得到了蓬勃的發(fā)展[67],與實證評分函數(shù)類似,它也需要一些已知結構和結合數(shù)據(jù)的蛋白質(zhì)-配體復合物的訓練集來推導函數(shù)模型。但與前面三種評分函數(shù)通常為線性函數(shù)不同的是,基于描述符的評分函數(shù)由于采用了機器學習算法通常為非線性函數(shù)[68]。
Durrant等[69-70]提出的一種基于神經(jīng)網(wǎng)絡的評分函數(shù)(NNScore)便屬于基于描述符的評分函數(shù),他們建立的這個模型能夠模擬大腦的微觀組織,可以快速準確地預測候選配體的對接姿勢,此外他們還提出了NNScore 2.0版本,NNScore 2.0在預測結合親和力時考慮的結合因素更全面,網(wǎng)絡輸出方式也不同于1.0版本。NNScore除了單獨使用,還能與其他評分函數(shù)配合使用,在藥物設計與發(fā)現(xiàn)方面發(fā)揮著不小的作用。Ballester等[8]將隨機森林算法應用到了預測蛋白質(zhì)與配體結合中,采用蛋白質(zhì)數(shù)據(jù)庫(v2007)為訓練集,以蛋白質(zhì)-配體原子作用對為描述符,提出的RF-Score評分函數(shù)通過非參數(shù)機器學習算法進行建模,訓練集越大,函數(shù)預測的準確性越高。與此類似的是Zilian等[71]在實證評分函數(shù)SFCscore的基礎上,對一個含有1 005個蛋白質(zhì)配體復合物的訓練集用隨機森林算法進行回歸,提出了改進的SFCscoreRF,改進后的版本在面對大型數(shù)據(jù)集時預測準確性更高。Li等[72]根據(jù)氫鍵相互作用、靜電相互作用、范德華相互作用等九種描述符開發(fā)了一個基于多種分子描述符的評分函數(shù)——ID-Score,他們使用支持向量回歸的方法挑選出關鍵的分子描述符從而構建評分函數(shù)模型,用來擬合蛋白質(zhì)與配體的結合親和力,在基于結構的藥物設計中被廣泛應用。Neudert等[51]使用劍橋晶體結構數(shù)據(jù)庫CSD(Cambridge Structural Database)中的信息為基礎,提出了基于描述符的評分函數(shù)DXS,測試后他們認為DXS在對接、評分及排序上表現(xiàn)良好。Nguyen等[73]對頻譜與幾何關系問題提出了新的研究思路。他們提出了一種新的代數(shù)圖學習函數(shù)AGL-Score(Algebraic Graph Learning Score),從而將高維物理和生物學信息編碼為低維的表示形式,他們通過多個基準數(shù)據(jù)集,對提出的AGL-Score模型的評分能力、排名能力、對接能力和篩選能力進行了驗證。結果表明AGL-Score模型在蛋白質(zhì)配體結合評分、排序、對接和篩選等方面優(yōu)于其他最新的評分函數(shù)。他們的這項研究表明機器學習方法是用于分子對接和虛擬篩選的強大工具,同時也表明譜幾何或譜圖具有推斷幾何性質(zhì)的能力。馮永娥[74]基于位置權重矩陣開發(fā)的評分函數(shù)主要應用于預測蛋白質(zhì)的二級結構,他們在CB513數(shù)據(jù)庫中分別截取2種不同的殘基片段,統(tǒng)計20種氨基酸在蛋白質(zhì)的三種二級結構(alpha螺旋、beta折疊和無規(guī)則卷曲)序列中各個位點的位置權重矩陣,然后利用基于位置權重矩陣的評分函數(shù)來預測蛋白質(zhì)的二級結構,取得了較好的結果。與此類似的是王世緣等[75]研究的位置評分函數(shù),用于預測轉錄因子的結合位點,他們下載了ABS數(shù)據(jù)庫[76]和TRANSFAC數(shù)據(jù)庫[77]中所共有的位置權重矩陣,并計算出位置權重矩陣的估計概率和矩陣中不同列上結合位點序列的保守性,從而構建出位置評分函數(shù),該函數(shù)由于考慮了多個同源物種的相關啟動子序列信息和進化保守性信息從而預測結果更為準確。蘇敏儀等[78]研究了預測藥物分子解離速率常數(shù)(koff)[79-80]的通用型定量結構-動力學關系(QSKR)模型,他們收集了406個配體分子的解離速率常數(shù)實驗值,采用分子模擬方法構建了所有配體與靶蛋白復合物的三維結構模型,然后基于蛋白質(zhì)-配體原子對描述符,采用隨機森林算法來構建QSKR模型。
王帥等[81]將深度學習算法引入到了預測RNA二級結構的評分函數(shù)中,提出了一種基于雙向LSTM(Long Short Term Memory)神經(jīng)網(wǎng)絡的RNA二級結構評分函數(shù)。與傳統(tǒng)的機器學習方法不同,他們的深度序列模型允許對整個RNA序列進行建模,避免了傳統(tǒng)機器學習會丟失全局信息這一問題,同時他們對已有短序列的RNA二級結構評分函數(shù)在算法上進行了改進,改進后的評分函數(shù)可以預測變長序列的RNA二級結構。李春華等[82]則對蛋白質(zhì)-RNA對接中評分函數(shù)設計的進展進行了總結,在此基礎上他們將自己發(fā)展的60×8氨基酸-核苷酸成對偏好勢與基于物理的能量項(靜電能和范德華能)進行組合,提出了一個加權組合評分函數(shù)RpveScore,對蛋白質(zhì)-RNA的對接預測成功率較高。同時他們也研究了蛋白質(zhì)-蛋白質(zhì)分子對接中評分函數(shù)的應用[83],對這其中存在的問題進行了總結,并提出了對該領域未來工作的展望。Karasikov等[84]提出了一種用于單模型蛋白質(zhì)質(zhì)量評估的方法SBROD(Smooth Backbone-Reliant Orientation-Dependent),首先提取特征,然后訓練預測模型來構建評分函數(shù),SBROD只從蛋白質(zhì)主鏈構象提取幾何結構特征,因此在對蛋白質(zhì)結構進行排序時,不用考慮蛋白質(zhì)的側鏈構象。劉飛等[85]基于部分互信息(Mutual Information,MI)和貝葉斯評分函數(shù),提出了一種新的基因調(diào)控網(wǎng)絡構建算法,可以有效挖掘基因間調(diào)控關系,快速構建基因調(diào)控網(wǎng)絡。Lu等[86]提高了基于機器學習評分函數(shù)的魯棒性和適用性,他們提出的ΔvinaXGB(extreme gradient boosting)與同類型評分函數(shù)相比性能更強,而且對不同類型結構的模擬對接也有較高的預測精度。Karlov等[87]提出的MPNN(Message Passing Neural Network)評分函數(shù)采用圖卷積神經(jīng)網(wǎng)絡來預測蛋白質(zhì)與配體的結合,他們在不同的數(shù)據(jù)集上對MPNN進行了測試,并與其他評分函數(shù)進行了比較。Shen等[88]則對近年來發(fā)展的基于機器學習評分函數(shù)的研究進展進行了總結,并對近年來發(fā)展的基于深度學習的評分函數(shù)進行了探討與展望,他們認為前者的不斷發(fā)展必將促進藥物設計的前期研究,加快新藥物的研發(fā)速度。Levin等[89]開發(fā)了一個機器學習模型用于預測CDK(細胞周期蛋白依賴性酶)的結合親和力,并將該模型與傳統(tǒng)的評分函數(shù)進行比較。
關于評分函數(shù)在蛋白質(zhì)-配體結合方面的應用匯總如表1所示。
表1 評分函數(shù)在蛋白質(zhì)-配體結合方面的應用
評分函數(shù)在基于結構的藥物設計和虛擬篩選中發(fā)揮著重要的作用,近年來呈現(xiàn)蓬勃發(fā)展的勢頭,廣泛應用于配體對接姿勢預測、復合物排序、蛋白質(zhì)與配體結合親和力預測等方面,本文根據(jù)評分函數(shù)的分類對一些具有代表性的評分函數(shù)進行了梳理與介紹,可以看到在國內(nèi)外學者的努力下,越來越多評分函數(shù)被開發(fā)出來,它們都有各自的優(yōu)勢和缺點:
(1) 基于物理的評分函數(shù)有一個明顯的優(yōu)勢在于它可以利用現(xiàn)代力場、量子力學和溶劑化模型等方法,而且近二十年來計算化學領域取得了長足的進步,當?shù)鞍踪|(zhì)與配體的結合自由能能夠被準確地計算出來時,基于物理的評分函數(shù)應該會成為主流。這類評分函數(shù)無論是基于力場還是其他模型,在實驗中測得的結合自由能變化很小,而且函數(shù)中每個單獨的能量項都存在固有誤差,因此目前基于物理的評分函數(shù)通常需要縮放參數(shù)來達到更佳的實驗效果。
(2) 實證評分函數(shù)通過蛋白質(zhì)與配體復合物的數(shù)據(jù)集來計算權重,而早些年由于缺少較好的數(shù)據(jù)集,實證評分函數(shù)沒有得到良好的發(fā)展,隨著大量蛋白質(zhì)配體復合物的結構信息和結合數(shù)據(jù)被采集,數(shù)據(jù)集的質(zhì)量越來越高,因此實證評分函數(shù)的優(yōu)勢近些年得以展現(xiàn),但是它仍然存在著一個問題:從各種文獻中收集到的實驗數(shù)據(jù)可能不是在同一條件下得到的,這會使預測結果產(chǎn)生誤差。為了避免這個問題,應盡量使用同一來源的數(shù)據(jù)。
(3) 統(tǒng)計勢評分函數(shù)主要優(yōu)點在于其概念和計算簡單,與基于物理的評分函數(shù)相比,它對原子進行成對處理因此效率更高;與實證評分函數(shù)相比,它可以捕捉到蛋白質(zhì)-配體相互作用中所隱藏的能量因子從而使函數(shù)形式更優(yōu)。同時統(tǒng)計勢評分函數(shù)在如下方面還需要改善:考慮熵效應對復合物能量的影響從而提高函數(shù)的準確性;對原子類型進行適當?shù)姆诸?做好原子對出現(xiàn)次數(shù)和原子類型數(shù)目之間的平衡;目前的成對電勢太過簡化,由于引入了更多待定參數(shù),如何整合多個對象的相互作用以及這樣做是否可以提高評分函數(shù)性能仍然未知;在參考狀態(tài)不明確時,對綁定模式的預測和虛擬篩選(virtual screening)仍存在問題,解決這個問題的方法之一是采用ITScore中的迭代方法,該方法考慮了復合物的結構和誘餌結構。這些方面逐漸完善后,平均勢能評分函數(shù)將成為基于結構的藥物設計中寶貴的工具。
(4) 基于描述符的評分函數(shù)優(yōu)勢在于它可以利用機器學習算法對難以建模的情況進行計算,并且對評分函數(shù)的形式?jīng)]有限制,可以直接從實驗數(shù)據(jù)直接推斷出可能的結合方式。很多報告認為基于描述符的評分函數(shù)比其他類型的評分函數(shù)預測效果更好,許多學者對此存在爭議,因此有必要在評分能力、排序能力、對接能力和篩選能力等方面對它們進行比較。
總體而言,對評分函數(shù)在評估蛋白質(zhì)與配體的研究中,我們正面臨著許多挑戰(zhàn)性課題:目前的評分函數(shù)在評分和排名這些方面表現(xiàn)較差;在虛擬篩選時對較低結合親和力和無親和力區(qū)分效果不好;種類眾多,但哪一種代表著評分函數(shù)的發(fā)展趨勢并沒有形成共識。經(jīng)過近三十年的發(fā)展,評分函數(shù)已經(jīng)形成了堅實的理論基礎,在實際應用方面也取得了許多成效,除此之外,合適的分類方案和命名約定的提出也使評分函數(shù)的發(fā)展更為健康高效。將來隨著更多高質(zhì)量多樣性的蛋白質(zhì)配體復合物訓練集應用到評分函數(shù)中,已有的評分函數(shù)可以得到進一步的完善,更多新的評分函數(shù)會逐漸被開發(fā)出來,評分函數(shù)在藥物設計以及其他領域也會得到更廣泛的應用。