常月月,伍娟妮,王 童,吳海龍,俞汝勤
(湖南大學 化學生物傳感與計量學國家重點實驗室,湖南 長沙 410082)
Thomas S.Kuhn提出的科學研究“范式”(Paradigm)這一概念指的是常規(guī)科學研究所賴以運作的理論基礎和實踐規(guī)范[1]。圖靈獎得主Jim Gray拓展了Kuhn科學研究“范式”概念并提出科學研究的四種范式,分別是基于實驗歸納的實驗科學(Experimental science),基于數(shù)學理論模型推演的理論科學(Theoretical science),基于計算機仿真模擬的計算科學(Computational science)和以大數(shù)據(jù)知識發(fā)現(xiàn)為特征的數(shù)據(jù)密集型科學(Data-intensive science)[2],其演進歷程如圖1所示。
圖1 科學研究范式的演進歷程Fig.1 The evolution of scientific research paradigms
化學計量學和化學信息學的興起與上世紀中葉計算機開始普及時出現(xiàn)的“計算機化學”熱有關?;瘜W計量學興起于分析化學家關注多變量數(shù)據(jù)的計算和分析問題,而化學信息學則開始于為了應對分子模擬、系統(tǒng)合成規(guī)劃與化合物庫的設計和管理問題。故分析化學界較多學者接受“化學計量學”名稱,從事藥物設計等方面研究的學者則一直沿用“化學信息學”名稱。2004年舉行的第224屆美國化學會(ACS)全國會議上召開了題為“Chemometrics and Chemoinformatics”的研討會。美國有關大學(如Indiana University of Pennsylvania)的課程表中采用Chemometrics&Chemoinformatics這種混合名稱。中國化學會從第26屆(2008年)學術年會開始也將兩者同時并列使用。國家自然科學基金委化學部也曾在西安專門召開以兩者同時并列為主題的學科建設及研究隊伍發(fā)展的專題研討會。本文擬討論化學計量學與化學信息學在助推化學與分析測試科學研究范式轉(zhuǎn)換方面的作用,同時對第四范式的未來研究動向(主要以分子設計為例)進行概述和展望。
人類最早的科學研究主要以記錄和描述自然現(xiàn)象為特征,是基于經(jīng)驗和實驗的科學,稱為“實驗科學”(第一范式)。后來以伽利略為代表的文藝復興時期開啟了現(xiàn)代科學之門,是基于數(shù)學模型或歸納法的科學,稱為“理論科學”(第二范式)。第一范式向第二范式的過渡標志著現(xiàn)代科學的形成。實驗和數(shù)學化是現(xiàn)代科學形成的兩個最重要的條件??档略谧匀豢茖W形而上學序論中提出,只有能用數(shù)學表述的領域,才是真正的科學[3]??档略诖藭刑岬?,化學(指他所知的化學)還無法實現(xiàn)數(shù)學化,不是“真正科學”,他將其歸為系統(tǒng)技藝或經(jīng)驗的、應用的領域,而非數(shù)學化的邏輯科學。長久以來,康德關于化學的評價對化學的學科地位有深遠影響,直到化學家用量子力學從頭計算的方法研究分子的結(jié)構與性質(zhì),這種影響才逐漸消除。Dirac在1929年寫道:“對大部分物理和整個化學的數(shù)學理論所需的相關規(guī)律今天都已建立,困難是這些理論解決實際問題得出的公式太復雜難以求解”。而能協(xié)助求解的工具便是計算機,正是基于計算機仿真模擬的計算科學即第三范式的發(fā)展,才協(xié)助化學和物理學一樣取得了現(xiàn)代科學的地位。但這只是化學中的少數(shù)分支的事情,多數(shù)分支如分析化學的數(shù)學化程度仍然不高。約一個世紀前,諾貝爾獎得主Ostwald指出,如果分析化學家將分析化學教學與實踐純粹當作要求技巧與經(jīng)驗技藝,而不運用物理化學的實驗與理論,分析化學將注定只能占據(jù)一種從屬的學科地位[4]。在2015 Euroanalysis XVIII上,Valcarcel作《分析化學往何處去?》的大會報告時問道:“分析化學是不是一個次等學科?”答案是否定的。但實際上,分析化學的學科地位不高。從科學編史學的視角來考察,分析化學遇到的問題與化學學科整體在歷史上遇到康德的批評是同一個問題。Ostwald的論述促進了分析化學家以四大平衡等為基石構建以化學分析法為主體的經(jīng)典分析化學基本理論框架,這是一個以數(shù)學語言表述的基本理論。在20世紀,分析化學逐步實現(xiàn)從經(jīng)典分析化學向儀器化與信息化的現(xiàn)代分析化學過渡,此進程中經(jīng)典分析化學的基本理論框架經(jīng)歷重大調(diào)整。這又引發(fā)對分析化學有無系統(tǒng)嚴謹?shù)幕A理論的質(zhì)疑,有人進而質(zhì)疑分析化學是否應認作一門獨立的化學二級學科。正是因痛感分析化學地位不高,高鴻先生急切期待分析化學與統(tǒng)計學、數(shù)學結(jié)合的年代早日到來?;瘜W計量學的興起在這方面起了一定的積極作用。隨著化學和分析化學向著計算和基于數(shù)據(jù)的方向即第三/第四范式發(fā)展,最大的技術挑戰(zhàn)是如何更快速地捕獲、分析、建模及可視化信息,幫助化學工作者獲取有效信息并將信息轉(zhuǎn)化為知識。應運而生的化學計量學和化學信息學大大推動了化學/分析化學的數(shù)學化及研究范式轉(zhuǎn)換。上世紀90年代,國家教委曾委托湖南大學舉辦化學計量學青年教師講習班,還應新加坡國立大學及新加坡政府機構的邀請舉辦類似化學計量學講習班,化學計量學在進入分析化學教學方面取得了一定成效。在相關香山會議上,我們闡述了有關分析化學基礎理論的界定。在第12屆全國分析化學年會(2015,武漢)上,我們論述了現(xiàn)代分析化學基礎理論問題,包括三個層次的基礎理論,分析化學作為化學表征與量測的科學,化學計量學作為化學量測的基礎理論與方法學,包含分析信息理論、采樣理論、多元與高階校正理論、過程及在線監(jiān)測理論、分辨與識別理論、分析實驗設計與優(yōu)化等理論框架[5-6]。
運用第一范式和第二范式去驗證理論的難度和成本越來越高,有些復雜現(xiàn)象甚至無法驗證,科學研究開始顯得力不從心。隨著計算機廣泛用于各學科,推動科學研究進入第三范式(即計算科學階段),人們可以通過模擬仿真,推演出越來越多復雜的現(xiàn)象。模擬仿真和實驗獲得的數(shù)據(jù)都在增加,如何從中提取最有效的信息是亟需解決的難題。在此信息時代的背景下,化學計量學/化學信息學借助計算機不斷推進化學和分析化學完善數(shù)學化,較好解決以上難題,也促進化學和分析測試科學由第一范式向第二范式與第三范式同步轉(zhuǎn)換。數(shù)學化的另一個重要收獲是實現(xiàn)真正較徹底的綠色化目標。在可持續(xù)發(fā)展大趨勢下,化學面臨嚴峻的綠色化挑戰(zhàn)。分析化學借助第三范式有條件實現(xiàn)真正較徹底的綠色化目標?;瘜W計量學、自動化與微型化被列為分析化學綠色化的三大策略與手段[7]?;瘜W計量學家和化學信息學家廣泛研究的內(nèi)容都是讓機器進行數(shù)字計算操作,信息化的關鍵手段是機器即計算機,是強有力的綠色化途徑?;瘜W計量學在中國的發(fā)展與不同化學領域的研究工作密切相關,早期的學者包括張懋森教授(分析化學領域)、許志宏教授(化學工程領域)和陳念貽教授(物理化學領域)等都做了有關化學計量學研究[8-10]。2018年,Journal of Chemometrics雜志曾出版《Chemometrics in China》特刊,從某種意義來說,這是對化學計量學在中國發(fā)展的肯定。該專刊邀請了許青松教授(數(shù)學和統(tǒng)計學領域)、方開泰教授(數(shù)學領域,均勻設計表開創(chuàng)者)、陸文聰教授(材料科學領域)、許祿教授、邵學廣教授、李華教授和陳增萍教授(分析化學領域)等學者從不同的角度論述了有關化學計量學研究內(nèi)容及其發(fā)展[11-16]?;瘜W領域涉及的模式識別、化學成像分析技術、傳感器陣列分析、數(shù)學分離、張量分析和定量構效關系等均借助計算機實現(xiàn)[17-18],國內(nèi)外的相關書籍及綜述證明了以上內(nèi)容仍是第三范式的研究熱點[18-24]?,F(xiàn)以我們在以上領域所做的部分工作為例進行簡要的討論。
主成分分析(PCA)是一種降維方法,使少數(shù)幾個新變量盡可能多的表達原變量的數(shù)據(jù)特征而不丟失信息。偏最小二乘法(PLS)主要通過投影將預測變量和觀測變量投影到一個新的空間,尋找線性回歸模型。PCA和PLS具有很大優(yōu)勢,但不能很好地處理非線性等問題。本課題組針對以上算法進行研究并提出了神經(jīng)網(wǎng)絡學習的非線性主成分分析[25]、移動窗口偏最小二乘分析等改進算法[26-30]。
多維校正理論在分析測試科學中發(fā)揮重要作用,也是目前化學計量學和化學信息學的研究熱點[17],其處理實驗獲得的小樣本數(shù)據(jù)很有優(yōu)勢。針對經(jīng)典雙線性分解旋轉(zhuǎn)不確定性和存在未知干擾的復雜體系難以直接定量的問題,只能借助高階算法才能獲得有化學意義的正確解。本小組用三線性分解代替雙線性分解,可直接在未知干擾共存的情況下提供具有化學意義的唯一解,稱為“二階優(yōu)勢”[31]。目前存在的二階校正算法可歸納為迭代類算法、非迭代類算法以及基于殘差雙線性求解算法三大類別。非迭代類算法和基于殘差的多線性算法的理論及優(yōu)缺點可參看本小組已發(fā)表的綜述[32-38]。迭代類算法是基于最小二乘(模)原理對模型解析,可得到具有清晰物理或化學意義的相對唯一解,代表性算法有平行因子分析(PARAFAC)等,但PARAFAC存在收斂速度慢,對化學秩敏感,二因子退化等問題。為解決以上問題,本小組分別提出交替三線性分解算法(ATLD)[39]、交替同時對角化算法(ASD)[40]、偽交替最小二乘算法(PALS)[41]。Malinowski教授曾在專著“Factor Analysis in Chemistry”中對這三種算法給予了高度評價[42]。針對數(shù)據(jù)類型及解析中遇到的問題,又提出了一系列二階校正算法集[43-58]。隨著分析儀器的多樣化及體系的復雜化,我們向更高維探索,并提出相應的更高階校正算法[57,59-67]。二階及更高階校正算法列于表1。這些算法各有優(yōu)缺點,應用時需根據(jù)實際情況選擇合適的算法。我們曾從微分特性的角度對某些三線性分解算法深入分析,找到算法所具特點的數(shù)學依據(jù),為選擇和設計算法提供理論支持[68]。另外,我們也從實際應用及數(shù)值模擬的角度對部分算法進行比較[69-71]。理論上維數(shù)越高,所含潛在信息越豐富,預測結(jié)果更加準確。相關文獻也證明了使用三階及更高階校正算法分析時,除具有“二階優(yōu)勢”外,還有一些額外的優(yōu)勢,如更優(yōu)異的分析品質(zhì)因子參數(shù)、更準確的定性定量結(jié)果和更強的抗共線性能力等[32,72-73]。
表1 本課題組多維校正理論研究的代表性算法Table 1 Representative algorithms for multi-way calibration theory research in our research group
支持向量機(SVM)主要思想是基于結(jié)構風險最小化原理構建最優(yōu)分割超平面將兩類模式盡可能分開。非線性和高維數(shù)據(jù)分析在小樣本方面具有優(yōu)勢,但對大樣本和多分類問題存在困難,因此我們提出了概率密度函數(shù)結(jié)合局部核變換支持向量機[74]、分割區(qū)間純度的分塊核變換支持向量機等[75-79]解決上述問題。人工神經(jīng)網(wǎng)絡是將構成大腦的神經(jīng)元及其集合抽象為數(shù)學模型形成網(wǎng)絡,具有自適應和自學習等能力。但存在過擬合、局部最優(yōu)和收斂慢等問題,從而影響其泛化能力。本小組通過引入混沌概念,利用Logistic映射的特性使遺傳算法在訓練人工神經(jīng)網(wǎng)絡的進程中盡可能保持搜索空間的群體多樣性,避免過擬合等問題出現(xiàn)[80-82],此研究使我們深切體會開創(chuàng)第四范式的由傳統(tǒng)人工神經(jīng)網(wǎng)絡演進為深度學習(見下節(jié))來之何等不易。緊接著,我們又提出基于支持向量機學習的多層前向網(wǎng)絡等改進算法[83-86]。另外,我們還對樹搜索、集成算法進行研究,分別提出單核變換分割區(qū)間純度分類回歸樹[87-89]等算法。智能優(yōu)化算法包括受物理學啟發(fā)的算法如模擬退火算法,也包括受生物學啟發(fā)的方法,如遺傳算法、進化策略及粒子群優(yōu)化算法等。我們將上述優(yōu)化算法用于多元回歸和偏最小二乘等算法中作為變量選擇或前處理手段,分別提出了模擬退火結(jié)合K-means聚類[90]、改進的整數(shù)遺傳算法[76,85,88,91-99]等。
多維校正方面的基礎研究已在前面論述,在實際應用層面,本小組曾與創(chuàng)建均勻設計的課題組開展合作研究[100]。在數(shù)據(jù)預處理、非線性因素消除方面,針對不同的數(shù)據(jù),我們提出了雙向切除PARAFAC扣除散射干擾[101],正交光譜信號投影消除背景漂移[102],抽象子空間差異度策略進行時間漂移校正[103]等策略。對三線性成分模型的研究發(fā)現(xiàn)其存在內(nèi)在循環(huán)對稱性,這是多線性算法向更高維算法擴展的重要基石[72]。本小組還分別從兩個角度進行化學秩估計的研究[38]。高階分析儀器結(jié)合多維校正方法以“數(shù)學分離”代替“物理/化學”分離,具有省時、通用性強的優(yōu)勢,越來越受到人們的青睞。此方法已在食品、環(huán)境、醫(yī)藥、化妝品、生物和農(nóng)藥等領域獲得大量應用,具體可見已發(fā)表的綜述[32-38]。
模式識別是化學計量學和化學信息學一個非常重要的研究領域[17],根據(jù)樣本有無先驗知識(類別標簽),其主要分為監(jiān)督學習和無監(jiān)督學習。我們對其進行了較深入的理論和應用研究,所提部分算法列于表2,應用涵蓋了中藥材產(chǎn)地溯源和質(zhì)量判別、食品、煙草和生物化學等領域[25-28,74-76,87,90-91,104-108],具有一定的實用價值。以所提算法用于高維微陣列數(shù)據(jù)集為例作簡要敘述。基因表達譜對從基因角度分析微陣列數(shù)據(jù)至關重要。分類決策樹(CART)對微陣列基因表達數(shù)據(jù)(通常維數(shù)高、樣本少)建模時易陷入過擬合。簡單的解決辦法是識別重要基因,剔除無關的基因。針對現(xiàn)有方法難以識別組內(nèi)樣本中多模態(tài)表達的顯著基因系統(tǒng)性差異的問題,我們通過基于分割區(qū)間純度的變量選擇方法識別出不同表達模式的顯著基因,然后進行單峰變換,通過特征提取增強組內(nèi)同質(zhì)性和組間異質(zhì)性,為CART建模提供單峰特征變量。這種策略可提高CART對抗過擬合或欠擬合的性能。使用兩個高維微陣列數(shù)據(jù)集(癌癥數(shù)據(jù))檢驗所提算法的性能。結(jié)果表明,所提算法有更好的性能,該策略在微陣列數(shù)據(jù)分析中具有廣闊的前景。
表2 本課題組模式識別研究的代表性算法及應用Table 2 Representative algorithms and applications of pattern recognition research in our research group
近年來,化學成像(CI)在分析化學領域獲得了越來越多的關注。光譜成像技術與化學計量學結(jié)合可提高數(shù)據(jù)分析的結(jié)果,實現(xiàn)圖像數(shù)據(jù)化[109]?;贑I的優(yōu)勢,早期我們構建了空間導向凝聚法解析棕櫚氯霉素I、II晶型混合物的拉曼成像數(shù)據(jù)[110]。并運用此方法研究了不同組成比例的可互容和不可互容共混聚合物的拉曼成像數(shù)據(jù),分析了兩組分空間非均相分布[111]。
化學傳感器可利用識別元件和傳感器檢測和量化分子。為了克服單一傳感器選擇性不足的缺點并提高傳感器的測量精度,化學傳感器陣列被提出?;瘜W計量學/化學信息學方法被用于解析傳感器陣列產(chǎn)生的數(shù)據(jù)并對氣體進行分類,獲取定性定量信息。本課題組構建了壓電晶體傳感器陣列結(jié)合化學計量學算法(如主成分分析、混沌遺傳神經(jīng)網(wǎng)絡等)分別對有機物官能團、小分子脂肪醇同系物及其同分異構體等進行識別,該策略被應用于酒類、軟飲料類、香水類和香煙類等樣品的分類識別[112-113]。此方法還可對乙醇蒸氣進行定性定量分析[112]。
定量構效關系(QSAR/QSPR)是化學計量學/化學信息學涉及化學的一個基礎性問題,主要是運用數(shù)理統(tǒng)計方法探究化合物的性質(zhì)與結(jié)構之間的關系且選擇合適的數(shù)學模型概括這種關系,最終預測感興趣未知物的活性及指導某種新化合物的合成[17,97]。在QSAR研究中,模型的構建是研究的關鍵,我們所發(fā)展的一系列算法列于表3。其中,混沌優(yōu)化訓練神經(jīng)網(wǎng)絡方法被用于預測四面體及八面體鹵化物的振動頻率,還用于預測氫氯氟碳和氫氟碳化合物的大氣壽命,均獲得了預期結(jié)果[80-82]。QSAR應用涵蓋了環(huán)境化學、生物化學、藥物化學等領域。以核酸適配體篩選研究為例,常用指數(shù)富集的配基系統(tǒng)進化(SELEX)篩選核酸適配體,但存在篩選周期長、費用高,適配體與靶分子結(jié)合的分子基礎未被認識,分子識別規(guī)律未被掌握等問題,制約了核酸適配體在臨床診治的應用。針對以上問題,本小組利用Cell-SELEX技術篩選出以人肝癌細胞株為靶細胞株的候選核酸適配體序列,采用分子力場方法優(yōu)化分子結(jié)構,計算分子結(jié)構參數(shù),二元Logical回歸分析結(jié)合主成分降維得到參數(shù)集,然后用粒子群優(yōu)化算法搜尋最佳SVM參數(shù)值(C,γ),最后進行模型檢驗及親和性檢測。結(jié)果表明,新設計的8條“獲勝”序列與靶細胞親和性能優(yōu)異,解離常數(shù)值均在納摩級,說明所設計的篩選模型是成功的[114]。我們還用上述類似步驟建立人-反應蛋白(CPR)結(jié)合的候選適配體富集水平和分類的模式識別方法,不同的是該工作利用改進氧化石墨烯輔助免固定靶標的SELEX技術得到CPR的候選適配體序列,使用SVM對其富集水平進行預測,并采用系統(tǒng)聚類分析方法進行分類,最后成功篩選出10條富集水平高且親和力強的序列[115]。
表3 本課題組定量構效關系研究的代表性算法及應用Table 3 Representative algorithms and applications of QSAR research in our research group
隨著數(shù)據(jù)的爆炸性增長,計算機不僅能做模擬仿真,更能分析數(shù)據(jù),學習潛在知識,得出理論。數(shù)據(jù)密集范式成為一個獨特的科學研究范式,被稱為第四范式。與假設驅(qū)動的范式相比,其根本區(qū)別表現(xiàn)為:傳統(tǒng)的科學研究先提出可能的理論,再搜集數(shù)據(jù),然后通過模型計算驗證假設。而數(shù)據(jù)密集型范式,則是先有大量的已知數(shù)據(jù),再通過計算得出之前未知的理論。數(shù)據(jù)是這個范式的核心,它與實驗、理論、模擬共同成為現(xiàn)代科學方法的統(tǒng)一體。
人工智能(Artificial intelligence,AI)、機器學習(Machine learning,ML)和深度學習(Deep learning,DL)是這個范式的三個重點關鍵詞,深度學習是關鍵核心。AI最開始的動機是讓機器獲得像人類一樣具有思考和推理機制的智能技術,本文則泛指可以讓計算機通過圖靈測試的機器智能。機器學習作為AI的核心工具從數(shù)據(jù)中學習一般性的規(guī)律,并利用這些規(guī)律對未知數(shù)據(jù)進行預測,其對AI最重要的貢獻是把研究重心從人工賦予機器智能轉(zhuǎn)移到機器自行習得智能。AI從一開始就已作為化學計量學大綱中的組成部分,前文討論的第三范式中的諸多方法也都是機器學習算法。深度學習則是具有多個(通常大于2)隱藏層的神經(jīng)網(wǎng)絡。根據(jù)疊加層的不同有多層感知機(MLP)、卷積神經(jīng)網(wǎng)絡(CNN)、循環(huán)神經(jīng)網(wǎng)絡(RNN)、圖神經(jīng)網(wǎng)絡(GNN)、Transformer等[116]。當然,任何強有力的AI工具均是源于人的創(chuàng)造。人的視覺系統(tǒng)每秒可接收108比特信息,遠超過大腦將其完整處理所需算力。所幸我們的祖先在進化過程中習得了將注意力集中于少部分急需處理的相關信息上的能力。上述Transformer正是以這種“注意力機制”為基礎構建的深度學習工具。
前文所述監(jiān)督學習與無監(jiān)督學習在實際應用中曾取得了巨大成功,二者與強化學習(Reinforcement learning,RL)[117]并稱為機器學習的關鍵子集。由于監(jiān)督學習對手動標簽的依賴和易受攻擊的缺點,自監(jiān)督學習(Self-supervised learning,SSL)應運而生,根據(jù)LeCun的定義,自監(jiān)督學習是在獲取一個輸入后,隱藏該輸入的一部分作為標簽,以此訓練機器從可見部分預測被隱藏部分的算法[118]。
在眾多機器學習模型中,深度生成模型(Deep generative model,DGM)[119]學習數(shù)據(jù)的概率分布,提取特征后產(chǎn)生低維連續(xù)表示,并從學習的數(shù)據(jù)分布中采樣生成新數(shù)據(jù)。生成模型在圖像、文本、語音的生成中均表現(xiàn)出非凡效果,也為解決分子設計難題帶來了新思路,被認為是最有前途的藥物設計方法之一。
使用深度學習算法解決分子計算及其相關領域的設計是一個積極發(fā)展的領域。我們預期以深度學習算法為代表的第四范式有可能給化學與分析測試學科的研究面貌帶來較大的變化。下面我們以逆向分子設計為例概要討論深度學習技術在三個主題中的應用:數(shù)據(jù)驅(qū)動的分子表示、基于深度學習的QSAR和基于深度生成模型的分子逆設計。按傳統(tǒng)觀念可能認為這些問題似乎超出了分析測試的范疇。我們在本文采用化學計量學與化學信息學統(tǒng)一的模式。分析化學家重視的數(shù)據(jù)分析與合成化學家重視的化合物結(jié)構-性能建模其實對分析測試同等重要。例如,研究探尋用作新的分析試劑、新的傳感材料、新的熒光及發(fā)光材料的化合物的設計與合成,當屬分析測試領域具有較高原創(chuàng)性的研究工作。
深度學習是第四范式的核心技術,希望更深入了解的讀者可參考Murphy[120]或Ian[121]等著作。
分子建模首先面對的就是如何有效表示分子的問題。通常,可以把分子表示為:指紋、一維線性描述符、二維矩陣、三維圖形和點云等[122]。在生成與合成模型中,分子常被表示為以原子為節(jié)點,鍵為邊的無向圖。對分子圖進行深度優(yōu)先遍歷(Depth-first search,DFS),即可得到另一個最流行的分子線性描述符—簡化的分子線性輸入系統(tǒng)(SMILES)。
SMILES類似于人類的自然語言,隨著深度學習在自然語言處理(NLP)領域的突破性發(fā)展,類比到分子領域,基于SMILES的生成與合成模型均取得了令人印象深刻的成功。特別是,同一個分子的SMILES,根據(jù)遍歷起點原子的不同而具有不同的序列,這種編碼的非唯一性使得基于SMILES的模型在需要數(shù)據(jù)增強時變得非常容易。另外,SMILES因簡潔、易讀、存儲量少而著名。但是,基于SMILES的生成與合成規(guī)劃模型,普遍存在自然語法有效,但不符合化學語法的錯誤字符串。同時,人們對SMILES模型在多大程度上能夠?qū)W習到有效的化學結(jié)構仍在持續(xù)研究。
圖作為分子更自然的表述,大量的研究如GNN、GCN、GAT等方法探索了圖在分子學習任務中的杰出性能。特別是圖神經(jīng)網(wǎng)絡在生成分子時,可以明確的附加價鍵關系約束和其它化學規(guī)則,從而避免無效分子的問題??墒?,目前比較常用的圖神經(jīng)網(wǎng)絡存在過度平滑、各向同性的消息傳遞以及數(shù)據(jù)同質(zhì)性假設等問題,在環(huán)結(jié)構占很大比重的分子圖中,有時不能得到令人滿意的結(jié)果[123]。
經(jīng)典的分子描述符和分子指紋大多來源于人類專家,而自動特征提取是一個無需領域知識的過程,也是深度學習最顯著的優(yōu)勢之一。采用自監(jiān)督學習的方式自動學習特征,直接從觀察到的數(shù)據(jù)中提取緊湊且富有表現(xiàn)力的分子表示方法,是開展此方面探索的重要路徑。
前文討論了第三范式下的構效關系研究。隨著深度學習特別是圖神經(jīng)網(wǎng)絡的快速進展,構效關系研究受到了新的關注,一方面可以解決經(jīng)典的QSAR問題,另一方面,也可以為目標導向的分子生成模型提供可靠的反饋。
基于深度學習的QSAR模型的目的是自動識別輸入和輸出之間的復雜關系,使其比傳統(tǒng)機器學習算法更高效。例如,基于圖神經(jīng)網(wǎng)絡的監(jiān)督學習框架MPNN[124],有可能實現(xiàn)直接從分子圖中學習分子特征,代替昂貴的DFT計算來預測分子的量子特性的目的。原子結(jié)構的計算預測是物理學、化學、材料和生物學中長期存在的問題,力場或從頭算方法通過能量最小化確定結(jié)構,這要么是近似的,要么是計算要求高的。相比于基于規(guī)則和手工設計的啟發(fā)式方法,機器學習模型Graph-To-Structure(G2S)從預測的原子間距離重建3D原子坐標,從而繞過傳統(tǒng)的能量優(yōu)化方法,獲得了與傳統(tǒng)的結(jié)構生成器性能相當或更好的結(jié)果[125]。另有大量將不同深度學習技術應用于經(jīng)典QSAR問題的模型出現(xiàn),如晶體結(jié)構、分子動力學、ADMET,以及分子相互作用等的量子性質(zhì)、物化性質(zhì)、生物性質(zhì)的預測任務。
深度學習的發(fā)展給結(jié)構性質(zhì)預測這個經(jīng)典問題帶來了新的研究方向,但是目前仍處于探索階段。最近,大規(guī)模量子化學計算、分子動力學模擬以及高通量實驗以前所未有的速度生成數(shù)據(jù)。相信有朝一日,足夠成功的模型可幫助解決自動化藥物發(fā)現(xiàn)或材料科學中具有挑戰(zhàn)性的化學搜索問題。
生成分子最簡單的方法是枚舉圖形、原子、鍵或片段的所有可能組合,然后根據(jù)QSAR模型進行篩選,得到給定應用條件的分子。與這種傳統(tǒng)的分子設計方法不同,常見的基于深度生成模型的分子設計一般從分子庫出發(fā)構建深度神經(jīng)網(wǎng)絡,以自監(jiān)督學習的模式得到預訓練模型,再以遷移學習或強化學習的形式逼近目標屬性。在預訓練模型+強化學習的框架中,根據(jù)分子預測屬性給出反饋則是重要的一步,決定了模型最終是否能夠趨向目標屬性。
另一種比較常用的架構則是條件生成模型,其核心思想是給預訓練模型添加約束條件。常見的條件模型有條件自動編碼器(CVAE)[126]和條件生成對抗網(wǎng)絡(CGAN)[127]。CVAE在編碼器得到的潛變量送入解碼器之前,添加約束條件,形成新的潛變量,送入解碼器。當生成分子時,則先從正態(tài)分布采樣得到初值,然后添加約束條件,形成新向量進入解碼器,則可得到受目標條件約束的分子。CGAN的模型稍顯復雜,但添加約束條件的思想基本相同,不再贅述。
2016年出現(xiàn)了首個使用變分自動編碼器(VAE)生成化學結(jié)構的模型[128],之后又有眾多的基于VAE的生成模型被陸續(xù)提出,該類模型可從連續(xù)的中間潛向量生成新分子,非常容易地擴大了模型的探索空間。隨著GAN在圖像生成領域的成功,最近,GAN與強化學習相結(jié)合,生成具有特定期望性質(zhì)新分子的方案獲得了更多關注。如ORGAN[129]在GAN框架下增加了強化學習的獎勵機制,可以有效地調(diào)整生成分子的質(zhì)量和屬性。自編碼器和生成對抗網(wǎng)絡相結(jié)合的LatentGAN[130],生成器和判別器使用來自編碼器中間層的連續(xù)潛向量,有效避免了SMILES的離散問題。圖卷積策略網(wǎng)絡(GCPN)可生成100%有效的分子[131]。
基于SMILES的字符級循環(huán)神經(jīng)網(wǎng)絡CharRNN[132],僅用每層只有768個神經(jīng)元的3層LSTM,在150萬個分子的Zinc數(shù)據(jù)集上訓練之后,在生成未包含在訓練集中的新的有效字符串方面取得了出乎意料的領先優(yōu)勢?;趫D神經(jīng)網(wǎng)絡的MolecularRNN[133]可以產(chǎn)生100%結(jié)構有效的分子。當Transformer模型在自然語言處理和圖像識別領域取得驚人成績之后,已被應用于分子生成模型中,是AI對化學建模產(chǎn)生較大影響的例證之一。由于Transformer的注意力機制,使得該類模型具有一定的可解釋性。
一些深度生成模型設計的分子也經(jīng)過了實驗驗證,最有名的當屬Insilicon公司開發(fā)的分子生成模型GENTRL[134],僅用46 d即成功發(fā)現(xiàn)了高活性、高選擇性DDR1抑制劑。
深度生成模型毫無疑問會在今后目標導向的分子設計中扮演越來越重要的角色,起到縮短周期降低成本的效果。與此同時,智能優(yōu)化算法如遺傳算法等依然活躍在分子生成領域,如模型Graph GA[135]和SMILES GA[136]仍能取得較好的成績。雖然最近在科研和企業(yè)界掀起了一股深度學習分子設計的熱潮,但是仍有許多懸而未決的問題有待于進一步深入研究。
科學總是被數(shù)據(jù)和理論的相互作用所驅(qū)動,機器學習從20世紀80年代中期開始引領人工智能的發(fā)展,在某些特定領域取得了令人矚目的成果,但深度學習依然有其前提約束條件。化學與自然科學的確定性曾經(jīng)在以符號、邏輯和規(guī)則為基礎的傳統(tǒng)人工智能時代推動了科學的發(fā)展,在深度學習年代,對技術能力的期望值和技術有限性之間的矛盾以及有關確定性與不確定性之間的矛盾將持續(xù)存在。今天人工智能系統(tǒng)的成功可以歸結(jié)為:大數(shù)據(jù)+大算力+強算法,其中數(shù)據(jù)本身可以提供對潛藏信息和知識的洞察力,但是并沒有完全掩蓋傳統(tǒng)人工智能的光芒:樹搜索、邏輯推理等仍具有非凡的效率。目前的化學計量學和化學信息學主要由第三范式主導,但人工智能方法近年來取得了重大進展,第四范式正在發(fā)揮越來越大的作用??偟膩碚f,四種范式并非孤立存在,也不是對前一范式的取代,而是相輔而行,彼此存在密切的聯(lián)系。隨著科研模式的發(fā)展,化學計量學/化學信息學也在不斷向前推進。