姚建華 李佳 徐雯麗 蔣舒仰 胡靜 李靖靖 王宇飛
1中國科學院能量調控材料重點實驗室,中國科學院上海有機化學研究所(上海 200032)
2鄭州工程技術學院 (河南鄭州 450044)
眾所周知,一個化合物的性質與其化學結構式關系密切。通常做的分子設計或化合物設計,本質上是要設計一個具有某種特定功能/性能的化合物。人們關注的目標是化合物的功能/性能,而非化合物的幾何結構。
國際純粹與應用化學聯(lián)合會(International Union of Pure and Applied Chemistry,(IUPAC) 是世界化學命名、術語(包括周期表中新元素的命名)、標準化測量方法、原子量和許多其他重要評估數(shù)據(jù)的權威機構,并為全球化學界提出開發(fā)和維護創(chuàng)造共同語言的建議。在IUPAC出版的化學術語概略(Compendium of Chemical Terminology)[1]書中,分子設計的定義如下所述:所謂分子設計,即采用各種技術去發(fā)現(xiàn)具有潛在應用所需的特定性質的新化學實體。計算機輔助分子設計的定義為:所謂計算機輔助分子設計,即采用各種計算機輔助技術,開展發(fā)現(xiàn)、設計和優(yōu)化具有特定結構和性質的化合物的工作。
本文將介紹用于分子設計的計算機輔助方法。
經驗型分子設計是以設計者的經驗及相關理論為依據(jù),設計具有特定功能/性能的化合物,其工作流程如圖1所示。
圖1所示的經驗型分子設計工作流程表明,工作人員根據(jù)靈感和經驗,以及已有的研究報道,提出一個可能具有某種功能/特性,且未見報道的化合物結構。采用合成方法獲得該化合物后,用對應的實驗方法,測試該化合物的相關功能/特性。如果實驗測試結果符合設計要求,那么該化合物的分子設計工作即完成。如果實驗測試結果不符合設計要求,設計者則根據(jù)經驗和靈感,修改化合物的化學結構,然后進行合成、實驗測試。如果實驗測試結果仍不符合設計要求,則重復前一過程,直到獲得符合設計要求的化合物。
圖1 經驗型分子設計工作流程示意圖
IUPAC關于計算機輔助分子設計的內容包含三部分:化合物發(fā)現(xiàn)、設計和化合物結構優(yōu)化??梢哉J為,所謂化合物發(fā)現(xiàn)是利用計算機輔助技術在自然界的動物、植物和礦物中發(fā)現(xiàn)具有特定功能/性能的化合物;所謂化合物設計是利用計算機輔助技術設計具有特定功能/性能的化合物;所謂化合物結構優(yōu)化,即利用計算機輔助技術對那些具有特定功能/性能的化合物結構的取代基團及其位置作適當調整,以起到提高化合物性能的作用。
計算機輔助分子設計的方法主要有三種:基于數(shù)據(jù)(D)、基于邏輯(L)和基于原理(P)(如圖 2所示)?;跀?shù)據(jù)即是利用數(shù)據(jù)庫系統(tǒng),獲得相應的化合物功能、性質和化學結構等數(shù)據(jù);基于邏輯即是利用功能/性質與結構之間的關系及規(guī)則,根據(jù)化合物的化學結構預測它的可能功能/性質;基于原理即是利用量化計算方法,根據(jù)化合物的化學結構,計算化學結構對應的相關物化參數(shù),并根據(jù)參數(shù),推測可能的功能。一般而言,人們關注的化合物功能/性質取決于化合物的應用領域,它們的預測策略和方法因應用領域不同而不同。如,醫(yī)藥或農藥領域,化合物的生物活性預測,需要同時關注化合物的化學結構以及作用靶標信息;材料領域,材料的性能不僅與單種成分化合物的性質相關,還與配方中所有化合物的性質及它們之間的相互作用相關。
圖2 三種計算機輔助分子設計方法
圖2 所示的In house數(shù)據(jù)庫系統(tǒng),一般為自建的數(shù)據(jù)庫系統(tǒng)。通常,In house數(shù)據(jù)庫系統(tǒng)由兩部分組成:數(shù)據(jù)庫管理系統(tǒng)和數(shù)據(jù)庫。數(shù)據(jù)庫管理系統(tǒng)是用于管理和查詢數(shù)據(jù)庫中的數(shù)據(jù);數(shù)據(jù)庫中包含的結構化的數(shù)據(jù),可以是本單位自用的專用實驗與計算研究數(shù)據(jù),也可以是專門從文獻中采集的化合物及其特定性質數(shù)據(jù)。
圖2所示的基于邏輯的性質預測系統(tǒng),具有根據(jù)化合物的化學結構預測其相關性質的功能。而基于原理的方法,通常是利用程序計算一些參數(shù),根據(jù)這些參數(shù)預測相關的性質。
計算機輔助的分子設計的流程如圖3所示。
圖3 計算機輔助分子設計的流程
圖3 顯示的流程表明,計算機輔助分子設計過程中,先利用數(shù)據(jù)庫系統(tǒng)查詢憑經驗和靈感設計出的化合物是否已存在(即基于數(shù)據(jù)的方法)。如果數(shù)據(jù)庫中已收錄了對應的化合物,則需要根據(jù)預測模型、經驗和靈感修改化合物結構;如果該化合物尚未被收錄到數(shù)據(jù)庫中,則需要利用結構與性質之間的關系及規(guī)則,預測該化合物的性質;如果預測結果符合設計要求,則進入合成階段;如果不符合要求,設計者則需要根據(jù)預測模型、經驗和靈感優(yōu)化化合物結構,利用基于數(shù)據(jù)的方法,判斷該化合物是否被數(shù)據(jù)庫收錄;利用基于邏輯或原理的方法預測該化合物性質,并判斷是否符合設計要求;重復這個過程,直到獲得預測結果符合設計要求,然后進入合成階段。之后的工作流程與經驗型的基本相同。
自1946年計算機問世,化學數(shù)據(jù)管理系統(tǒng)就是化學家們期盼的文獻和數(shù)據(jù)查詢工具。早在20世紀50年代,美國國家標準化辦公室數(shù)據(jù)處理部門的工作人員,在《科學(Science)》雜志發(fā)表了題為“用數(shù)字化計算機查找化學記錄”的文章[2]。在這篇文章中,作者介紹了化學數(shù)據(jù)、化合物結構計算機處理的一些方法和策略,以及當時已建立的SEAC[NBS(National Bureau of Standards)Electronic Automatic Computer]系統(tǒng)。
由于計算機系統(tǒng)的不斷更新,對應的化學數(shù)據(jù)管理系統(tǒng)一級數(shù)據(jù)庫結構也隨之不斷更新升級。從單機版的化學數(shù)據(jù)庫系統(tǒng),逐步轉化為“Client/Server”,現(xiàn)在已更新為“基于網絡”的系統(tǒng)?!盎诰W絡”系統(tǒng)的優(yōu)點是:數(shù)據(jù)及其管理系統(tǒng)的維護及時且方便。目前,在化學及相關領域常用的商業(yè)化合物數(shù)據(jù)庫系統(tǒng)有:美國化學文摘社的SciFinder[3],BIOVIA公司的化合物毒性數(shù)據(jù)庫系統(tǒng)、化合物代謝數(shù)據(jù)庫系統(tǒng)、可用化學品目錄數(shù)據(jù)庫系統(tǒng)[4],愛斯唯爾的Reaxys化學數(shù)據(jù)庫系統(tǒng)等等[5]。In house或非商業(yè)化學數(shù)據(jù)庫系統(tǒng)一般不公開,這里只介紹一下中國科學院上海有機化學研究所姚建華團隊建立的一些非商業(yè)專用的化學數(shù)據(jù)庫系統(tǒng),如化合物疏水常數(shù)數(shù)據(jù)庫系統(tǒng)、農用化學品數(shù)據(jù)庫、食品添加劑信息管理系統(tǒng)和危險化學品信息查詢系統(tǒng)等等[6]。
關于化合物性質預測的工作,在20世紀40年代就有人提出化合物生物活性與它的化學結構相關的概念[7]。目前,化合物性質預測的方法主要有以下三大類:(1)以分子描述符[8]為自變量,性質為因變量的方程式作為預測依據(jù);(2)以實驗得到的規(guī)律作為預測依據(jù)的專家型推理;(3)以分子結構信息與性質的對應關系為預測依據(jù)。
第一類預測方法大多通過已有的軟件計算多種的分子描述符,分析這些描述符與性質的相關性,建立對應的方程式,并用于預測化合物性質。這種方法的優(yōu)點:軟件開發(fā)的工作量不大;不足之處:必須依靠計算分子描述符的軟件。
第二類預測方法通過收集已報道的實驗總結得出的結構與性質關系,比較被預測化合物結構與規(guī)則相符度,預測化合物的性質。這種方法的優(yōu)點:有效地利用了實驗結果;不足之處:實驗規(guī)則數(shù)量的有限性。
第三類預測方法通過收集已報道的實驗結果,分析化學結構與性質之間的關系,建立化學結構與性質的關系模型,并用于預測化合物性質。這種方法的優(yōu)點:有效地利用了實驗結果及其結果中隱含的規(guī)則;不足之處:軟件開發(fā)工作量極大。
分子描述符主要包含以下10大類:拓撲類(topological)、 幾 何 類 (geometrical)、 電 子 類(electronic)、物化類 (physicochemical)、指紋類(fingerprints)、官能團類(functional groups)、特性類(properties)、電荷類(charge-related)、半經驗類(semi-empirical)和熱力學類(thermodynamical)。描述符計算軟件各自定義描述符類型及其計算方法。
目前,現(xiàn)有的分子描述符的計算軟件主要包括幾類[9]:ADAPT,ADMET Predictor,ADRIANA.Code,CODESSA,DRAGON,GRID,ISIDA,MARVIN Beans,MOE,MOLCONN-Z,MOLGEN-QSPR,PowerMV,HyperChem[10]和Gaussian[11]等等。其中部分軟件還具有描述符與性質的關系數(shù)據(jù)分析功能,如CODESSA和DRAGON等。
第二類預測方法的軟件有DEREK(Deductive Estimation of Risk from Existing Knowledge)[12],該軟件可用于預測化合物的毒性。
第三類預測方法的軟件有PASS[13]、CISOCPSMT、CISOC-PSAT 和 CISOC-pKa 等[14]。
在計算機輔助分子設計工作中,常用的預測軟件有:PASS,Sybyl(原 Tripos公司的產品),CoMFA(Comparative Molecular Field Analysis)[15],CoMSIA(Molecular Similarity Indices in a Comparative Analysis)[16],DEREK,MultiCASE[17],CISOC-PSCT,CISOC-PSMT,CISOC-PSAT,CISOC-logP,CISOC-pKa,CISOC-logS[14],TOPKAT,Discovery Studio 和Material Studio[18]等等。其中,PASS,Sybyl 和Discovery Studio適用于藥物或農藥研發(fā)中化合物生物活性的預測;Material Studio適用于材料研發(fā)中化合物物化參數(shù)和材料性能的預測;DEREK,MultiCASE,CISOC-PSCT,CISOC-PSMT,CISOCPSAT和TOPKAT可用于預測化合物的毒性;CISOC-logP,CISOC-pKa和CISOC-logS分別預測化合物的疏水常數(shù)、酸堿解離常數(shù)和水溶解度。
與經驗型的分子設計相比,計算機輔助分子設計有效提高了分子設計的效率和精準性,降低了實驗的盲目性和化合物設計過程中產生的不符合設計要求的化合物數(shù)量,降低了實驗廢棄物處理工作量。