姚建華 李 佳 徐雯麗 蔣舒仰 胡 靜 李玉玲李靖靖 王宇飛
1中國科學(xué)院能量調(diào)控材料重點(diǎn)實(shí)驗(yàn)室,中國科學(xué)院上海有機(jī)化學(xué)研究所(上海 200032)2鄭州工程技術(shù)學(xué)院(河南鄭州 450044)
合成化學(xué)是研究物質(zhì)創(chuàng)造與轉(zhuǎn)化的科學(xué)??v觀人類發(fā)展的歷史,我們可以發(fā)現(xiàn),合成化學(xué)實(shí)際上一直伴隨著人類社會的發(fā)展,并在其中發(fā)揮著重要作用。自20世紀(jì)40年代第一臺計算機(jī)出現(xiàn)以來,計算機(jī)技術(shù)在各個領(lǐng)域逐步得到應(yīng)用,并體現(xiàn)出它的積極作用。在合成化學(xué)領(lǐng)域,化學(xué)家一直期望利用計算機(jī)輔助技術(shù)來輔助開展合成設(shè)計工作。20世紀(jì)60年代后期,CoreyEJ和WipkeWT博士合作發(fā)表了題為“計算機(jī)輔助復(fù)雜有機(jī)合成設(shè)計(Computer-assisteddesignofcomplexorganicsyntheses)” 的文章。在這篇文章中,他們提出了“反合成分析”概念,并利用計算機(jī)輔助技術(shù)完成某些類型的反合成分析工作,最終獲得目標(biāo)化合物的一組可能的合成路線[1]。這種方法在很大程度上可以幫助化學(xué)家解決某些類型的合成問題。
所謂“反合成分析”即根據(jù)目標(biāo)化合物的化學(xué)結(jié)構(gòu),判斷合成該化合物的反應(yīng)物;再將反應(yīng)物作為目標(biāo)產(chǎn)物,判斷合成它的反應(yīng)物;循環(huán)這樣的過程,直到得到的反應(yīng)物是已經(jīng)存在的化合物,最后可以得到一顆反向樹。具體過程如圖1所示。
圖1 反合成分析過程示意圖
本文將介紹用于合成設(shè)計的計算機(jī)輔助方法。
經(jīng)驗(yàn)型合成設(shè)計是以設(shè)計者的經(jīng)驗(yàn)、已有的合成條件、反應(yīng)物及相關(guān)理論為依據(jù),設(shè)計特定的化合物的合成路線,其工作流程如圖2所示。
圖2 經(jīng)驗(yàn)型合成設(shè)計工作流程示意圖
圖2所示的經(jīng)驗(yàn)型合成設(shè)計工作流程表明,工作人員根據(jù)產(chǎn)物的化學(xué)結(jié)構(gòu),從文獻(xiàn)中查找相關(guān)的合成方法報道。如果有相關(guān)的文獻(xiàn)報道,且符合研究人員具備的合成條件,對應(yīng)的合成路線將用于合成特定的化合物;如果沒有相關(guān)的報道,那么研究人員將根據(jù)已有的經(jīng)驗(yàn),開展反合成分析,并根據(jù)經(jīng)驗(yàn)和已具備的合成條件,選擇對應(yīng)的合成路線以合成特定的化合物。
計算機(jī)輔助合成設(shè)計方法主要包括三大類:基于數(shù)據(jù)(D)、基于邏輯(L)和基于原理(P)(如圖 3 所示)?;跀?shù)據(jù)即利用數(shù)據(jù)庫系統(tǒng),獲得特定化合物的合成路線;基于邏輯即利用化合物的反應(yīng)規(guī)則,推測產(chǎn)物可能的前體;基于原理即利用量化計算方法,判斷選擇合成路線的合理性和研究反應(yīng)機(jī)理。
圖3 三種計算機(jī)輔助合成設(shè)計方法
圖4 計算機(jī)輔助合成設(shè)計的流程
圖3所示的In house數(shù)據(jù)庫系統(tǒng),一般為自建的數(shù)據(jù)庫系統(tǒng)。通常,In house數(shù)據(jù)庫系統(tǒng)由兩部分組成:數(shù)據(jù)庫管理系統(tǒng)和數(shù)據(jù)庫。數(shù)據(jù)庫管理系統(tǒng)用于管理和查詢數(shù)據(jù)庫中的數(shù)據(jù);數(shù)據(jù)庫中包含的結(jié)構(gòu)化數(shù)據(jù),可以是本單位自用的專用實(shí)驗(yàn)與計算研究數(shù)據(jù),也可以是專門從文獻(xiàn)中采集的化合物及其特定性質(zhì)數(shù)據(jù)。
圖3所示的基于邏輯的合成路線設(shè)計系統(tǒng),具有根據(jù)產(chǎn)物的化學(xué)結(jié)構(gòu),推測其前體的化學(xué)結(jié)構(gòu)的功能。而基于原理的方法,即利用相關(guān)軟件計算合成路線中某一步反應(yīng)的相關(guān)特性參數(shù),以判斷該步反應(yīng)的難易度、合理性,研究反應(yīng)機(jī)理。
計算機(jī)輔助的合成設(shè)計的流程如圖4所示。
圖4顯示的流程表明,計算機(jī)輔助合成設(shè)計過程中,先利用文獻(xiàn)/數(shù)據(jù)庫系統(tǒng)查詢作為產(chǎn)物的化合物是否已有相關(guān)的合成路線報道 (即基于數(shù)據(jù)的方法)。如果數(shù)據(jù)庫中已收錄了對應(yīng)的合成方法和路線,并且具備相同的實(shí)驗(yàn)條件,那么從數(shù)據(jù)庫系統(tǒng)中獲得的合成方法和路線即可用于合成該產(chǎn)物 (受專利保護(hù)的除外)。如果該產(chǎn)物的合成方法和路線沒被數(shù)據(jù)庫系統(tǒng)收錄,那么研究人員可根據(jù)經(jīng)驗(yàn),并利用相關(guān)的軟件,開展反合成分析,即推測產(chǎn)物的前體化合物(如圖1所示)(即基于邏輯的方法),重復(fù)這個過程,直到產(chǎn)物的前體化合物已存在。根據(jù)反合成分析結(jié)果,獲得多條候選合成路線。根據(jù)經(jīng)驗(yàn),并采用相關(guān)軟件(基于原理的方法)計算相關(guān)參數(shù),對候選合成路線作合理性評估。最后,研究人員根據(jù)具有的實(shí)驗(yàn)條件,合理性評估結(jié)果,選擇合成方法和路線。
目前,在化學(xué)及相關(guān)領(lǐng)域常用的商業(yè)合成/化學(xué)反應(yīng)數(shù)據(jù)庫系統(tǒng)有兩個,分別為美國化學(xué)文摘社的SciFinder[2]和愛思唯爾的Reaxys化學(xué)數(shù)據(jù)庫系統(tǒng)[3]。In house或非商業(yè)化學(xué)數(shù)據(jù)庫系統(tǒng)一般不公開。
已 有 的 研 究 報 道 顯 示 ,LHASA,WODCA,CISOC-Retrosyn和ChemicalAI等反合成分析系統(tǒng)已在合成設(shè)計中得到實(shí)際應(yīng)用。
Corey E J博士團(tuán)隊在20世紀(jì)70年代完成LHAS(Logic and Heuristics Applied to Synthetic Analysis)A系統(tǒng)的開發(fā)工作[4],該系統(tǒng)中的相關(guān)分析規(guī)則,主要基于經(jīng)驗(yàn)來定義。
20世紀(jì)90年代,德國愛爾蘭根大學(xué)的Gasteiger J教授研究團(tuán)隊,用了9年的時間,開發(fā)了交互式合成方案設(shè)計系統(tǒng)WODCA(Workbench for the Organization of Data for Chemical Applications)[5],該系統(tǒng)的反合成分析規(guī)則來自于經(jīng)驗(yàn)和物化參數(shù),該系統(tǒng)的使用界面如圖5~6所示。
圖5 WODCA系統(tǒng)使用界面
圖6 WODCA系統(tǒng)反應(yīng)鍵識別界面
自1997年至2004年,中國科學(xué)院上海有機(jī)化學(xué)研究所計算機(jī)化學(xué)研究團(tuán)隊 (鄭崇直研究員和袁身剛博士研究團(tuán)隊),歷經(jīng)8年時間研究和開發(fā),完成了反合成分析系統(tǒng)CISOC-RetroSyn的系統(tǒng)研發(fā)工作,并獲得了中國軟件著作權(quán)[6],其核心方法獲得中國專利[7],系統(tǒng)所用規(guī)則源于經(jīng)驗(yàn)、一百萬條反應(yīng)數(shù)據(jù)的特征信息。該系統(tǒng)啟動界面如圖7所示,合成過程中的一步反應(yīng)信息如圖8所示,合成過程中的一組合成路線如圖9所示。該系統(tǒng)輸出的合成方案主要包含以下信息:合成路線、每一步反應(yīng)的反應(yīng)條件、反應(yīng)物的商業(yè)信息。
圖7 CISOC-RetroSyn軟件啟動界面
圖8 CISOC-RetroSyn合成過程中的一步反應(yīng)信息
圖9 CISOC-RetroSyn合成過程中的一組合成路線
盡管 LHAS,WODCA,CISOC-Retrosyn 三款軟件都是采用人機(jī)交互模式進(jìn)行反合成分析,即根據(jù)目標(biāo)化合物,推導(dǎo)出它的反應(yīng)物,并根據(jù)推導(dǎo)出的結(jié)果,輸出一組合成路線,但每個系統(tǒng)的推導(dǎo)方法和識別規(guī)則不同。其中,LHASA在系統(tǒng)中設(shè)定的反應(yīng)鍵識別規(guī)則來自于化學(xué)家的經(jīng)驗(yàn);WODCA系統(tǒng)中設(shè)定的反應(yīng)鍵識別規(guī)則來自于化學(xué)家的經(jīng)驗(yàn)和物化參數(shù);而CISOC-Retrosyn系統(tǒng)中的反應(yīng)鍵識別規(guī)則包含了100多萬條反應(yīng)數(shù)據(jù)的特征分析結(jié)果和化學(xué)家的經(jīng)驗(yàn)。
2018年 3月,Marwin H.S.Segler,Mike Preuss和Mark P.Waller合作在《自然》雜志上發(fā)表了題為“Planning chemical syntheses with deep neural networks and symbolic AI”的文章[8],介紹了他們用神經(jīng)網(wǎng)絡(luò)算法和符號AI發(fā)現(xiàn)目標(biāo)化合物的反合成路線的工作。不過,目前的研究成果只是階段性的,還未達(dá)到阿爾法圍棋(AlphaGo)下圍棋的性能。這可能與以下因素有關(guān):(1)合成方案涉及的因素和復(fù)雜度遠(yuǎn)遠(yuǎn)高于下圍棋;(2)很多成熟的算法還不能直接用于化學(xué)反應(yīng)數(shù)據(jù)分析,但可以用于圍棋的棋譜信息分析。
盡管目前的計算機(jī)輔助合成設(shè)計系統(tǒng)還存在一定的不足,但與經(jīng)驗(yàn)型的合成設(shè)計相比,計算機(jī)輔助合成設(shè)計已顯示出它特有的作用:有效提高了設(shè)計的效率和精準(zhǔn)性,降低了實(shí)驗(yàn)的盲目性和危險度。