王雨晴,胡孔法,胡晨駿
(1.南京中醫(yī)藥大學(xué)人工智能與信息技術(shù)學(xué)院,江蘇 南京 210023;2.中國科學(xué)院上海藥物研究所,上海 201210;3.江蘇省中醫(yī)藥防治腫瘤協(xié)同創(chuàng)新中心,江蘇 南京 210023)
計算機(jī)輔助藥物設(shè)計(computer aided drug design,CADD)的理論誕生于20世紀(jì)80年代,Richards[1]首先提出計算機(jī)輔助分子設(shè)計的想法,隨后Hopfinger[2]提出計算機(jī)輔助藥物設(shè)計的概念。90年代,Suna等[3]將CADD定義為一種基于結(jié)構(gòu)替代傳統(tǒng)藥物開發(fā)模式的新藥物開發(fā)方法。21世紀(jì)后,Song等[4]對CADD的定義范圍進(jìn)行了補(bǔ)充,即CADD是一種基于化合物的存儲、管理、分析和建模的計算工具和資源[5]。
CADD通過計算機(jī)模擬設(shè)計并分析化合物,在降低藥物開發(fā)成本的同時,提高了藥物的研發(fā)效率,對藥物設(shè)計全階段都有卓越的貢獻(xiàn)[6]。在使用CADD進(jìn)行全新的藥物設(shè)計時,首先需要對化合物的合成路線進(jìn)行整合,形成一個合成數(shù)據(jù)庫,然后通過分子對接、虛擬篩選等方法找出可能有效的化合物,并對化合物進(jìn)行藥理活性預(yù)測和藥效基團(tuán)研究,篩選出其中可能有活性的化合物,進(jìn)而完成整個全新藥物設(shè)計流程[7]。然而,由于CADD理論誕生的時間相對較短,涉及學(xué)科方法眾多,還存在計算方法迭代速度快等實際問題,在使用過程中給相關(guān)研究人員帶來了一定的困擾[8]。因此,充分了解近年來CADD領(lǐng)域的研究熱點,研判其未來的發(fā)展方向,對藥物發(fā)現(xiàn)工具的持續(xù)改進(jìn)具有十分重要的意義[9]。本文利用CiteSpace軟件,對2010至2022年這一時間段內(nèi)國內(nèi)外核心期刊中CADD領(lǐng)域的相關(guān)論文進(jìn)行整理和分析,以期為CADD的理論研究和實踐操作提供基于論文數(shù)據(jù)的支撐,同時,預(yù)測該領(lǐng)域未來的研究趨勢和發(fā)展方向。
1.1 研究方法CiteSpace是一個基于知識圖譜對文獻(xiàn)進(jìn)行可視化計量分析的建模軟件,由陳超美教授開發(fā),旨在一個知識域或?qū)W科在一定時期的研究趨勢與發(fā)展動向,形成若干研究前沿領(lǐng)域的演進(jìn)歷程[10-11]。本文使用CiteSpace繪制了包括關(guān)鍵詞網(wǎng)絡(luò)、分布時序圖、突現(xiàn)圖和聚類圖在內(nèi)的圖譜,以分析CADD領(lǐng)域的相關(guān)文獻(xiàn)。
1.2 數(shù)據(jù)來源本文分別研究了國內(nèi)和國外在CADD領(lǐng)域的相關(guān)文獻(xiàn),其中國內(nèi)文獻(xiàn)來源為中國知網(wǎng)(CNKI)數(shù)據(jù)庫,國外文獻(xiàn)來源為Web of Science(WOS)核心合集數(shù)據(jù)庫,語言選擇為英文。盡管1995年CADD的概念就已經(jīng)被引入國內(nèi),但是在之后的15年間,由于理論和科研條件的限制,僅有極少的論文被發(fā)表,且發(fā)表時間具有隨機(jī)性,不具有統(tǒng)計學(xué)意義。在這個背景下,本文將文獻(xiàn)的檢索時間范圍設(shè)定為2010.1.1—2022.12.31。根據(jù)表1的數(shù)據(jù)篩選方式對本文需要的數(shù)據(jù)進(jìn)行初步篩選,關(guān)聯(lián)詞篩選全部使用模糊檢索。同時,為了確保用于分析的文獻(xiàn)質(zhì)量,在篩選WOS數(shù)據(jù)庫時舍去了所有Open Access文獻(xiàn),會議、書籍、報刊、已撤回等意義不大的文獻(xiàn)。篩選之后,共計得到CNKI數(shù)據(jù)庫文獻(xiàn)1 096篇,WOS數(shù)據(jù)庫文獻(xiàn)2 859篇。最后,以人工的方式篩除所有相關(guān)性低的論文,并且導(dǎo)入CiteSpace進(jìn)行去重,最終得到的可分析文獻(xiàn)數(shù)量為CNKI數(shù)據(jù)庫文獻(xiàn)474篇,WOS數(shù)據(jù)庫文獻(xiàn)802篇。
表1 數(shù)據(jù)來源
根據(jù)上述數(shù)據(jù)可以發(fā)現(xiàn),在CADD領(lǐng)域文獻(xiàn)數(shù)量上,國內(nèi)相較于國外有明顯差距,僅有約60%的數(shù)量,說明國內(nèi)在CADD領(lǐng)域相較于國外起步晚、研究少。參考國外已有的CADD方向的研究成果和進(jìn)展,可以發(fā)現(xiàn)國內(nèi)CADD領(lǐng)域仍有相當(dāng)大的發(fā)展前景。因此,無論是借鑒國外已經(jīng)研究的方向繼續(xù)展開深入研究還是根據(jù)最新的方法提出全新的研究方向,都能夠充分發(fā)揮后發(fā)優(yōu)勢,實現(xiàn)在CADD領(lǐng)域?qū)獾内s超。
各研究領(lǐng)域的內(nèi)容可以由文獻(xiàn)中的關(guān)鍵詞體現(xiàn),關(guān)鍵詞能夠高度概括文獻(xiàn)的主題和研究方法,而高頻率的關(guān)鍵詞往往被認(rèn)為是該領(lǐng)域的研究熱點[12]。CiteSpace提供針對“Keywords”的研究方法,將關(guān)鍵詞作為節(jié)點,而節(jié)點大小則反應(yīng)關(guān)鍵詞的出現(xiàn)頻率,連線代表共現(xiàn)關(guān)系,連線的粗細(xì)代表關(guān)系的強(qiáng)弱[13]。本文對國內(nèi)外CADD領(lǐng)域相關(guān)文獻(xiàn)分別進(jìn)行關(guān)鍵詞分析,繪制關(guān)鍵詞網(wǎng)絡(luò),對比分析結(jié)果。
2.1 CADD領(lǐng)域的研究熱點分析
2.1.1 國內(nèi)研究熱點圖1所示的為國內(nèi)CADD領(lǐng)域的關(guān)鍵詞網(wǎng)絡(luò),圖中共包括327個節(jié)點,521條連線。按照關(guān)鍵詞出現(xiàn)的頻率,對國內(nèi)CADD領(lǐng)域的關(guān)鍵詞進(jìn)行排序,如表2所示。表2中同時包含了關(guān)鍵詞出現(xiàn)頻率和中心度,中心度量化了周圍節(jié)點和中心節(jié)點之間的相關(guān)程度,反應(yīng)節(jié)點在圖中的重要程度。
圖1 中文文獻(xiàn)中CADD領(lǐng)域研究熱點
表2 中文文獻(xiàn)中CADD領(lǐng)域研究熱點(前10)
根據(jù)表2可以發(fā)現(xiàn),出現(xiàn)頻率最高的5個關(guān)鍵詞涉及的學(xué)科方法相似度較高,存在很強(qiáng)的關(guān)聯(lián)性,如機(jī)器學(xué)習(xí)和深度學(xué)習(xí)都是計算機(jī)自主解決問題的方法,且都是人工智能下的重要分支[14],深度學(xué)習(xí)可以通過構(gòu)建和訓(xùn)練多層神經(jīng)網(wǎng)絡(luò)來實現(xiàn)對數(shù)據(jù)的建模和學(xué)習(xí),在分析大型數(shù)據(jù)集和識別變量之間的復(fù)雜關(guān)系和中發(fā)揮著重要作用。在分析大型數(shù)據(jù)集方面,深度學(xué)習(xí)的一個主要優(yōu)勢是可以自動從數(shù)據(jù)中學(xué)習(xí)特征表示[15]。與傳統(tǒng)特征工程方法相比,深度學(xué)習(xí)能夠從原始數(shù)據(jù)中學(xué)習(xí)到更高層次的抽象特征,而無需依賴領(lǐng)域?qū)<业南闰炛R。這使得深度學(xué)習(xí)在處理復(fù)雜數(shù)據(jù)集時具有更好的靈活性和表達(dá)能力,能夠發(fā)現(xiàn)數(shù)據(jù)中隱藏的模式和關(guān)聯(lián)性。在識別變量之間的復(fù)雜關(guān)系方面,深度學(xué)習(xí)的多層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)使其能夠捕捉到非線性的關(guān)系。相比于傳統(tǒng)的線性模型,深度學(xué)習(xí)可以通過多層非線性變換來建模輸入變量與輸出變量之間的復(fù)雜映射關(guān)系。這使得深度學(xué)習(xí)在處理包含大量變量和復(fù)雜交互關(guān)系的問題時更為強(qiáng)大,可以應(yīng)用于藥物再利用,即發(fā)現(xiàn)已有的藥物在其他疾病治療中的潛在用途[16]。從表2中還可以看出,從第6個關(guān)鍵詞開始,關(guān)鍵詞的出現(xiàn)頻率開始明顯降低,由此說明國內(nèi)CADD目前應(yīng)用的領(lǐng)域尚未得到充分開發(fā),現(xiàn)有的研究仍然只是集中在有限的幾個領(lǐng)域,尚有許多潛力等待挖掘。
分析圖1和表2可以發(fā)現(xiàn)CADD在國內(nèi)的研究熱點主要包括以下方面:
①“深度學(xué)習(xí)”和“人工智能”這兩個關(guān)鍵詞較高的出現(xiàn)頻率表明其已經(jīng)在藥物設(shè)計中被廣泛使用[16]。然而,其中心度還相對較低,說明它們目前仍不是目前CADD研究的必要方法。通過文獻(xiàn)分析已經(jīng)證明這兩種方法的使用可以彌補(bǔ)已有方法的短板,因此提高其在CADD中的使用率,擴(kuò)大其適用范圍,將是未來藥物設(shè)計的重要發(fā)展方向。
②關(guān)鍵詞“機(jī)器學(xué)習(xí)”的出現(xiàn)頻次排在第1位,中心度排在第2位,說明機(jī)器學(xué)習(xí)是目前CADD領(lǐng)域中使用最多,應(yīng)用范圍最廣的方法。盡管“分子對接”的出現(xiàn)頻次低于“機(jī)器學(xué)習(xí)”,但是中心度更高[17]。這是因為在基于結(jié)構(gòu)設(shè)計藥物的各類方法中,分子對接毋庸置疑是最重要的一種,也是目前業(yè)內(nèi)使用最多,普及最廣泛的一種方法,因為在使用其他設(shè)計方法時,同樣需要利用分子對接來進(jìn)行分子結(jié)構(gòu)設(shè)計[18]。
2.1.2 國外研究熱點圖2為國外CADD領(lǐng)域的關(guān)鍵詞網(wǎng)絡(luò),圖中共包括455個節(jié)點,2 911條連線。按照關(guān)鍵詞出現(xiàn)的頻率,對國外CADD領(lǐng)域的關(guān)鍵詞進(jìn)行排序,如表3所示。
圖2 英文文獻(xiàn)中CADD領(lǐng)域研究熱點
表3 英文文獻(xiàn)中CADD領(lǐng)域研究熱點(前10)
分析發(fā)現(xiàn),現(xiàn)頻率最高的5個關(guān)鍵詞分別是“Machine learning”“Drug discovery”“Design”“Prediction”以及“Drug design”。其中“Drug discovery”“Design”和“Drug design”3個詞雖然出現(xiàn)頻次都很高,但是本質(zhì)上都可視為藥物設(shè)計這一關(guān)鍵詞的不同表述。這一現(xiàn)象說明藥物設(shè)計依舊是CADD的核心,而計算機(jī)只是藥物設(shè)計的輔助工具。和國內(nèi)的熱點相同,“Machine learning”也是國外熱點中出現(xiàn)頻次最高的關(guān)鍵詞,說明在CADD現(xiàn)有的方法中,機(jī)器學(xué)習(xí)是使用次數(shù)最多,使用范圍最廣,深受學(xué)者歡迎的一種方法[19]。相較國內(nèi),國外CADD領(lǐng)域每個關(guān)鍵詞的頻率都很高,而中心度數(shù)值不高且相對平均,由此說明,在國外CADD領(lǐng)域是一個研究熱門,研究人員眾多,熱點百花齊放,整個領(lǐng)域呈現(xiàn)出一片欣欣向榮。
分析圖2和表3的可以發(fā)現(xiàn)CADD在國外的研究熱點主要包括以下方面:
①藥物設(shè)計的概念。在藥物設(shè)計的過程中,面對海量的化合物,合成并驗證其有效性需要花費大量的成本。國外的研究發(fā)現(xiàn)使用計算機(jī)輔助可以最大限度地減少生物測定中需要篩選的配體數(shù)量,從而降低開發(fā)新藥的研發(fā)成本[20]。
②CADD的方法。國外CADD所使用的方法是包括機(jī)器學(xué)習(xí)、深度學(xué)習(xí)在內(nèi)的人工智能方法。在上述的方法中,遺傳算法中心度最高,使用頻率僅次于機(jī)器學(xué)習(xí),這意味著專家學(xué)者和從業(yè)人員在使用人工智能方法進(jìn)行藥物設(shè)計,大都會使用到遺傳算法[21]。遺傳算法是一種啟發(fā)式搜索方法,應(yīng)用進(jìn)化論原理模擬遺傳中發(fā)生的復(fù)制、交叉和變異現(xiàn)象,通過隨機(jī)選擇、交叉和變異操作對給定的搜索問題提出近似最優(yōu)解[22]。同時,遺傳算法具有很好的收斂性,計算時間少,算法魯棒性高,適用于處理各種問題,其理論依據(jù)與CADD的理論不謀而合[23]。
③CADD解決問題的方式。國外的研究發(fā)現(xiàn),CADD能夠?qū)衔锖桶悬c進(jìn)行識別,根據(jù)它們的相互作用關(guān)系,預(yù)測先導(dǎo)化合物,根據(jù)預(yù)測出的化合物進(jìn)行分子對接,然后篩選出能合成且活性高的部分進(jìn)行試驗,達(dá)到設(shè)計藥物的最終目的。
2.2 關(guān)鍵詞聚類分析在關(guān)鍵詞網(wǎng)絡(luò)的基礎(chǔ)上,根據(jù)K-means算法,繪制關(guān)鍵詞聚類圖用以了解近10年來的CADD的主要研究方向。聚類算法將相似度大的節(jié)點放在同一聚類中,盡可能保證不同聚類的差異性達(dá)到最大[24]。聚類編號越小,聚類的規(guī)模越大,聚類包含的數(shù)量也就越多。本文選擇前7個較大的聚類進(jìn)行分析。
2.2.1 國內(nèi)關(guān)鍵詞聚類分析圖3所示的為國內(nèi)CADD領(lǐng)域的聚類圖。
圖3 中文文獻(xiàn)中CADD領(lǐng)域聚類圖
表4所示的聚類結(jié)果反映了國內(nèi)CADD的工作路線,該工作路線也是目前國內(nèi)CADD主要的研究方向?!皺C(jī)器學(xué)習(xí)”“深度學(xué)習(xí)”和“人工智能”是CADD領(lǐng)域中所使用的方法。根據(jù)圖3可以發(fā)現(xiàn)目前計算機(jī)對藥物設(shè)計的影響主要體現(xiàn)在人工智能的算法領(lǐng)域,即使用合適的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)算法對藥物進(jìn)行分析和設(shè)計。“分子對接”“虛擬篩選”和“合成”是計算機(jī)參與設(shè)計藥物的具體手段,虛擬篩選中包括研究藥物的藥效基團(tuán),發(fā)現(xiàn)藥物分子的關(guān)鍵藥效特征,預(yù)測藥物的藥理活性篩除沒有活性的化合物等具體方法,通過計算機(jī)合成分子式,對分子的作用靶點進(jìn)行預(yù)測和篩選。設(shè)計者通過計算機(jī)合成分子式,對分子的作用靶點進(jìn)行預(yù)測和篩選?!八幬锆煼ā笔荂ADD的目標(biāo),即利用計算機(jī)參與藥物設(shè)計,從而進(jìn)行新藥開發(fā)的相關(guān)工作。
表4 中文文獻(xiàn)中CADD領(lǐng)域聚類分析(前7)
2.2.2 國外關(guān)鍵詞聚類分析圖4所示的為國外CADD領(lǐng)域的聚類圖,表5列出了英文文獻(xiàn)中排在前7的聚類詞。
圖4 英文文獻(xiàn)中CADD領(lǐng)域聚類圖
表5 英文文獻(xiàn)中CADD領(lǐng)域聚類分析(前7)
根據(jù)圖4和表5顯示,國外聚類規(guī)模最大是“scoring function”,而這個方向在國內(nèi)聚類中沒有體現(xiàn)。評分函數(shù)主要被用來對化合物進(jìn)行評估,確定化合物的結(jié)構(gòu)和結(jié)合靶點的能力。該函數(shù)的應(yīng)用在實際進(jìn)行藥物設(shè)計時是絕對不可或缺的一步,尤其是在商用情況下。國外的CADD領(lǐng)域發(fā)展較早,已經(jīng)完成從實驗室到生產(chǎn)線的轉(zhuǎn)化,而國內(nèi)CADD由于發(fā)展較晚,目前和商業(yè)結(jié)合度較低,大多在高?;蜓芯吭褐惺褂?。聚類詞“feature extraction”在國外的CADD中被廣泛使用,包括定量構(gòu)效關(guān)系、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)算法。而國內(nèi),由于CADD起步較晚,發(fā)展較慢,目前理論分析仍大于實際應(yīng)用,且更多是在中藥靶點分析設(shè)計使用中,數(shù)據(jù)量相對較小,因此在特征提取方面沒有得到深入研究[25]。聚類詞“tool”則解釋了CADD的屬性,是一種用于藥物設(shè)計的工具。而聚類詞“machine learning”和“virtual screening”則與國內(nèi)聚類結(jié)果相同,再一次證明了這兩個方法對于CADD領(lǐng)域的重要性。聚類詞“design”說明了國外的CADD的路線同樣是利用相關(guān)算法進(jìn)行包括分子對接在內(nèi)的相關(guān)工作,最終實現(xiàn)目標(biāo)藥物的設(shè)計,這一點與國內(nèi)是一致的。由此說明,國內(nèi)CADD的相關(guān)工作大多仍是基于對國外的學(xué)習(xí)。
在進(jìn)行可視化分析時,演進(jìn)趨勢能夠清晰地表示目標(biāo)領(lǐng)域的發(fā)展方向,本文利用CiteSpace提供的“Timezone”方式,根據(jù)關(guān)鍵詞出現(xiàn)的時間節(jié)點和出現(xiàn)頻率繪制了分布時序圖。其中,關(guān)鍵詞為節(jié)點,關(guān)鍵詞之間的關(guān)系為連線,節(jié)點所在位置為該關(guān)鍵詞在數(shù)據(jù)集中首次出現(xiàn)的年份,節(jié)點大小和顏色的深淺度反映了關(guān)鍵詞出現(xiàn)的頻率。通過對分布時序圖的分析,能夠清楚的了解CADD的演進(jìn)趨勢。
3.1 國內(nèi)CADD領(lǐng)域的演進(jìn)趨勢分析圖5為國內(nèi)CADD的分布時序圖,時間范圍為2010—2022年。
圖5 中文文獻(xiàn)中CADD領(lǐng)域分布時序圖
在20世紀(jì)80年代,雖然國外CADD理論的誕生和傳播對國內(nèi)的藥物設(shè)計產(chǎn)生了影響,但直到21世紀(jì)該理論才逐漸被國內(nèi)的學(xué)者應(yīng)用在實踐中[26]。從圖5中可以發(fā)現(xiàn)在人工智能算法被引入CADD之前,國內(nèi)就已經(jīng)使用虛擬篩選和分子對接方法進(jìn)行藥物設(shè)計[27-28]。隨著個人電腦的普及和國產(chǎn)超級計算機(jī)的出現(xiàn),利用計算機(jī)進(jìn)行藥物設(shè)計逐漸走進(jìn)研究人員的視野。盡管機(jī)器學(xué)習(xí)很早就以數(shù)據(jù)挖掘的方式被應(yīng)用于碩博畢業(yè)論文中,但真正用于藥物設(shè)計并被期刊發(fā)表則起始于2008年,且每年只有零星的相關(guān)論文發(fā)表[29]。直到2015年,機(jī)器學(xué)習(xí)在中文期刊中的數(shù)量才逐漸增多,但是數(shù)量依舊有限。同樣的情況也體現(xiàn)在深度學(xué)習(xí)上,第一篇藥物設(shè)計與深度學(xué)習(xí)相關(guān)的文獻(xiàn)發(fā)表于2015年[30]。圖5中大部分關(guān)鍵詞都非常寬泛,這是由于雖然近5年國內(nèi)相關(guān)文獻(xiàn)的數(shù)量逐漸增多,但是對CADD的研究更多還是集中在理論研究上,主要包括對CADD的原理和適用范圍等內(nèi)容的研究[31]。同時,國內(nèi)原本就有限的文章還大多為綜述類文章,研究性文章數(shù)量很少,因此國內(nèi)的CADD領(lǐng)域在具體實驗方面還有很大的發(fā)展空間。
3.2 國外CADD領(lǐng)域的演進(jìn)趨勢分析圖6為國外CADD的分布時序圖,時間范圍為2010—2022年。
圖6 英文文獻(xiàn)中CADD領(lǐng)域分布時序圖
1985年,隨著第一篇CADD文章在國外發(fā)表,標(biāo)志著計算機(jī)正式被引入藥物設(shè)計領(lǐng)域[32]。國外關(guān)于分子對接和虛擬篩選在藥物設(shè)計的應(yīng)用分別起始于1992年[33]和1995年[34],明顯領(lǐng)先國內(nèi),但是近10年來,與二者相關(guān)的文章比例相對較小。造成這一現(xiàn)象的原因是,國外分子對接和虛擬篩選的方法在CADD中提出早,實現(xiàn)早,應(yīng)用早,目前已經(jīng)應(yīng)用于商業(yè)藥物研發(fā),對它們的研究已經(jīng)非常充分,在實驗中很難有進(jìn)一步的提升空間[35]。相較于國內(nèi),國外機(jī)器學(xué)習(xí)算法的應(yīng)用甚至早于分子對接,1991年就提出用機(jī)器學(xué)習(xí)的方法來進(jìn)行預(yù)測分子[36]。從21世紀(jì)開始,國外相關(guān)文獻(xiàn)的數(shù)量穩(wěn)步增加,每年發(fā)表的文獻(xiàn)數(shù)量超過國內(nèi)發(fā)表文獻(xiàn)數(shù)量的10倍。根據(jù)圖6可以發(fā)現(xiàn),機(jī)器學(xué)習(xí)中的一系列算法逐步被應(yīng)用在藥物設(shè)計中,以解決遇到的實際問題。由機(jī)器學(xué)習(xí)延伸的深度學(xué)習(xí)算法盡管被使用的時間不長,但使用的頻率卻很高,尤其是復(fù)雜神經(jīng)網(wǎng)絡(luò)和深度神經(jīng)網(wǎng)絡(luò)等內(nèi)容更是熱門。去除代表藥物發(fā)現(xiàn)、設(shè)計等缺乏具體意義的節(jié)點,遺傳算法在該領(lǐng)域分布時序圖中具有十分重要的地位,其可以被認(rèn)為是人工智能算法中使用頻率最高的算法之一[37]。目前,國外的研究人員還在不斷地根據(jù)生物學(xué)的需要對算法進(jìn)行優(yōu)化改進(jìn),以期望達(dá)到更好的預(yù)測效果。
突變詞是指關(guān)鍵詞在某一年出現(xiàn)并隨后出現(xiàn)爆發(fā)式增長,其可以利用CiteSpace中提供的“Burstness”方法找到。突變詞可以用于了解一個領(lǐng)域在這個時間段內(nèi)的研究熱點并預(yù)測該領(lǐng)域未來的發(fā)展趨勢。本文選擇前十位關(guān)鍵詞繪制CADD領(lǐng)域的突變詞圖譜,“Strength”代表突變強(qiáng)度,“Begin”代表突現(xiàn)開始時間,“End”表示突現(xiàn)結(jié)束時間,紅色代表突現(xiàn)持續(xù)時間。
4.1 國內(nèi)CADD領(lǐng)域的未來趨勢分析圖7為國內(nèi)CADD的突變詞圖譜,時間范圍為2010—2022年。
圖7 中文文獻(xiàn)中CADD領(lǐng)域突變詞圖譜
如圖7所示,國內(nèi)近幾年CADD領(lǐng)域的研究熱點在深度學(xué)習(xí)和機(jī)器學(xué)習(xí),通過這兩個方法進(jìn)行藥物研發(fā)。同時,深度學(xué)習(xí)的突現(xiàn)強(qiáng)度非常高,可預(yù)見國內(nèi)CADD未來的研究方向?qū)⒂腥缦伦兓?
①傳統(tǒng)CADD中使用的分子對接和虛擬篩選方法經(jīng)過一段時間大量使用后,技術(shù)層面已經(jīng)發(fā)展非常成熟,因此使用頻率已經(jīng)趨于穩(wěn)定。目前分子對接和虛擬篩選更多被應(yīng)用于實踐中,在未來也將更多作為成熟的藥物發(fā)現(xiàn)手段,應(yīng)用在藥物合成實驗之前,而不再是作為一個創(chuàng)新方法。同源建模是一種根據(jù)已知結(jié)構(gòu)的蛋白和同源蛋白之間的結(jié)構(gòu)差異來預(yù)測蛋白質(zhì)功能和特異性變化的方法。該方法曾經(jīng)風(fēng)靡一時,但在實際使用過程中仍有較多問題難以解決,主要包括對較長的結(jié)構(gòu)發(fā)散區(qū)域進(jìn)行建模。因此,該方法目前實際上已經(jīng)陷入瓶頸,不再成為未來研究的主要方向[38]。
②自人工智能方法被引入藥物設(shè)計中后,很快在藥物設(shè)計領(lǐng)域異軍突起,直到當(dāng)下仍然是研究重點。深度學(xué)習(xí)作為人工智能方法的一種,突現(xiàn)強(qiáng)度非常高,說明其受到了研究人員的廣泛關(guān)注。在藥物發(fā)現(xiàn)階段,深度學(xué)習(xí)可以對大量化合物的結(jié)構(gòu)和活性數(shù)據(jù)進(jìn)行訓(xùn)練,從而預(yù)測新的化合物的活性和潛在藥效[39]。通過對已有藥物的藥理數(shù)據(jù)和疾病信息進(jìn)行學(xué)習(xí),深度學(xué)習(xí)可以幫助識別出已有藥物與其他疾病之間的關(guān)聯(lián)性,從而推斷其在新的治療領(lǐng)域的潛在應(yīng)用。此外,深度學(xué)習(xí)還可以用于預(yù)測藥物代謝、藥物相互作用和藥物副作用等方面。通過對大量藥物相關(guān)數(shù)據(jù)的學(xué)習(xí),深度學(xué)習(xí)可以輔助預(yù)測藥物的代謝途徑、相互作用和潛在副作用,從而幫助藥物研發(fā)人員在早期階段對候選化合物進(jìn)行篩選和評估[40]。隨著研究的不斷深入,深度學(xué)習(xí)會更加貼合藥物設(shè)計的需求,其未來必將成為CADD領(lǐng)域研究的重要方法。
4.2 國外CADD領(lǐng)域的未來趨勢分析圖8為國外CADD的突變詞圖譜,時間范圍為2010—2022年。
圖8 英文文獻(xiàn)中CADD領(lǐng)域突變詞圖譜
如圖8所示,前十的關(guān)鍵詞在2020年以前都已經(jīng)結(jié)束突現(xiàn),其中“genetic algorithm”的突現(xiàn)強(qiáng)度非常高。因此,可預(yù)見國外CADD未來的研究方向?qū)⒂腥缦伦兓?
①前十的關(guān)鍵詞的突變都出現(xiàn)在2020年以前,且突變強(qiáng)度都非常高。其中g(shù)enetic algorithm的突變強(qiáng)度高達(dá)19.37,一度被認(rèn)為是當(dāng)時CADD領(lǐng)域研究的最前沿。但隨著時間的推移,遺傳算法逐漸成熟,已經(jīng)成為CADD領(lǐng)域中常用的方法,雖然具有很強(qiáng)的實用價值,但是在研究領(lǐng)域很難有進(jìn)一步的提升空間,無法代表國外CADD領(lǐng)域未來的研究方向。
②雖然關(guān)鍵詞數(shù)量很多,且方向各不相同,在研究方向上呈現(xiàn)百花齊放的態(tài)勢。但是,近兩年有突現(xiàn)表現(xiàn)的關(guān)鍵詞的突現(xiàn)強(qiáng)度都不高,說明國外CADD領(lǐng)域近兩年沒有普適性強(qiáng)的新方法提出,大多研究是在已經(jīng)提出的大方向上進(jìn)行細(xì)化,或者根據(jù)具體需要實現(xiàn)的目的進(jìn)行分類研究。
使用CiteSpace作為研究工具,對從CNKI數(shù)據(jù)庫和WOS數(shù)據(jù)庫中2010—2022年的國內(nèi)外CADD領(lǐng)域相關(guān)文獻(xiàn)進(jìn)行基于知識圖譜的可視化分析,獲得其在研究熱點、演進(jìn)趨勢、未來發(fā)展方向的研究結(jié)論如下:
①從研究熱點來看,國內(nèi)CADD領(lǐng)域的研究更多在已經(jīng)成熟的方法,包括虛擬篩選和分子對接,新方法仍然更多停留在理論階段,且具體應(yīng)用較少。國外CADD領(lǐng)域的研究更多偏向新方法的實際應(yīng)用,目前已經(jīng)做到將成熟的工具應(yīng)用在工業(yè)生產(chǎn)中的同時,基于不同的需求開發(fā)針對性的算法。國內(nèi)在新方法、新工具的使用上不能拘泥于已經(jīng)證明有用的方法,應(yīng)當(dāng)積極嘗試一些尚未應(yīng)用于藥物設(shè)計領(lǐng)域的新方法,提出具有自主知識產(chǎn)權(quán)的新方法,打破國外的知識壁壘,為未來行業(yè)發(fā)展夯實基礎(chǔ)。
②從演進(jìn)趨勢來看,國內(nèi)CADD領(lǐng)域的研究相較于國外具有起步晚、增長慢、應(yīng)用少的不足,大多方法都是由國外研究人員首先提出后國內(nèi)才開始使用。國外CADD領(lǐng)域隨著計算機(jī)迭代更新不斷發(fā)展,一直走在領(lǐng)域最前沿。相較于國外,國內(nèi)在CADD領(lǐng)域一定程度上擁有后發(fā)優(yōu)勢,如何充分利用后發(fā)優(yōu)勢值得我們深思。充分汲取國外的成功經(jīng)驗,在研究中少走彎路,同時思維不受已有成果的影響,用自己的方法開創(chuàng)出真正適合國內(nèi)CADD的研究成果是當(dāng)下國內(nèi)學(xué)者的共同目標(biāo)。
③從未來發(fā)展來看,對于CADD本身而言,其最新發(fā)展是使用深度學(xué)習(xí)算法來預(yù)測潛在候選藥物的特性,能夠輔助CADD分析大型數(shù)據(jù)集和識別變量之間的復(fù)雜關(guān)系并最終幫助藥物設(shè)計。國內(nèi)CADD領(lǐng)域的研究需要提高實驗比例,同時針對算法進(jìn)行更加深度的研究,將算法真正用到藥物設(shè)計的實際應(yīng)用中。而國外CADD領(lǐng)域則將繼續(xù)根據(jù)實際需求對算法做進(jìn)一步細(xì)化修改,使其盡可能貼合藥物設(shè)計的需求,從而提高設(shè)計任務(wù)完成的精確度。理論研究是實踐的基礎(chǔ),但是空談理論不加以應(yīng)用,理論就失去了存在價值。只有將現(xiàn)階段國內(nèi)CADD領(lǐng)域的理論知識盡快應(yīng)用于實踐,才能進(jìn)一步促進(jìn)理論知識的更新和發(fā)展,跟上國外CADD研究的前沿方向。
結(jié)合上述結(jié)論和目前國內(nèi)CADD領(lǐng)域的研究現(xiàn)狀和,本文提出如下建議:①積極將理論應(yīng)用于為實踐,根據(jù)成功的實踐推動理論的持續(xù)發(fā)展,實現(xiàn)CADD領(lǐng)域的良性循環(huán);②加強(qiáng)CADD,特別是關(guān)于人工智能算法方向的實際應(yīng)用,積極學(xué)習(xí)國外在應(yīng)用方面的經(jīng)驗,打破國外在CADD領(lǐng)域的知識壁壘,提出具有自主知識產(chǎn)權(quán)的CADD設(shè)計方法;③密切關(guān)注計算機(jī)算法研究的最新動向,取其精華來補(bǔ)充CADD存在的不足,以期在推動國內(nèi)CADD研究向前發(fā)展的同時,豐富CADD領(lǐng)域應(yīng)用的新方向,使得國內(nèi)的研究能夠始終走在技術(shù)革新的最前沿,最終讓國內(nèi)在CADD領(lǐng)域真正獲得全面發(fā)展,在未來實現(xiàn)對國外研究的超越。