王夢源 常珊珊 解云英
(中國醫(yī)學科學院 北京協(xié)和醫(yī)學院 醫(yī)藥生物技術研究所 藥物合成生物學重點實驗室,北京 100050)
微生物天然產物一直是藥物,尤其是抗感染藥物開發(fā)的重要來源[1]。但隨著微生物天然產物絕對數量的增多,重復發(fā)現越來越嚴重,如何去除重復、更高效地發(fā)現新結構天然產物成為微生物天然產物研究的一個關鍵問題。
通過基因組測序發(fā)現微生物還蘊藏著大量“隱形”生物合成基因簇[2],這表明其仍是新結構天然產物的重要來源。得益于測序成本的快速下降、各類分析儀器的普及以及人工智能的應用,天然產物研究領域進入了一個全新的模式?;谏镄畔W[3]和化學信息學[4]而建立起的基因組挖掘技術正在成為微生物研究的主要方法[5-6]。過去10年間,天然產物相關信息學研究一直處于加速發(fā)展階段,每年都會發(fā)布大量數據庫、算法及工具[7-9],及時了解并使用這些數據庫和工具對于微生物天然產物研究來說至關重要,鑒于此,本文對近兩年來天然產物研究領域,新開發(fā)或更新的各種生物信息學及化學信息學工具進行了綜述,以便研究者能夠及時了解并選擇性應用這些工具,以提高新化合物的發(fā)現效率。
自從天藍色鏈霉菌中發(fā)現編碼天然產物合成酶的基因成簇排列以來[10],生物信息學對于微生物天然產物研究就變得越來越重要,早期的天然產物生物信息學主要側重于生物合成基因簇的識別,隨著基因組數據指數級的增長,逐漸轉向多個基因簇的比較分析。同時,各種類型的生物合成基因簇數據庫建立,進一步提高了比較分析的效率。
從基因組中識別次級代謝產物生物合成基因簇是天然產物基因組挖掘的基礎。AntiSMASH是目前微生物天然產物研究領域使用率最高的次級代謝產物生物合成基因簇(BGCs)分析工具,它是一種基于分布型隱馬爾可夫模型(pHMM)數據庫的BCGs識別算法。自2011年發(fā)布以來,antiSMASH不斷進行更新[11-16],目前已經更新到6.1版本,能夠預測細菌、真菌和植物基因組中50余類別的生物合成基因簇,并可在基因簇水平上,通過內置的ClusterBlast算法與“生物合成基因簇最小信息”(MiBIG) 數據庫[17]及AntiSMASH-DB[18]數據庫中的基因簇進行比較,分析基因簇的功能及新穎性。
PRISM4[19]是另一個基因簇識別和產物結構預測工具,它在產物結構預測方面要強于antiSMASH,而且還具有活性預測功能,但其只能分析細菌基因簇。以上2種工具都是基于蛋白相似性來識別生物合成基因簇,因此它們都不能預測pHMM數據庫中不存在的、非經典的生物合成基因簇。為了彌補這一不足,近來還開發(fā)了基于進化的BGCs識別算法,如針對古菌和細菌的EvoMining算法[20],針對真菌的CO-OCCUR算法[21],基于機器學習和模式識別預測核糖體肽(RiPP)BGCs的RRE-finder[22]和DecRippter[23]算法。除此之外,基于耐藥基因的活性靶向基因簇分析工具抗生素耐藥靶標搜尋器(ARTS)近來也進行了更新[24],將分析范圍從原來的放線菌門擴展到整個細菌界以及宏基因組數據。
隨著基因組測序成本的大幅下降,人們可以輕易獲得大量基因組數據,為了能夠比較成千上百個生物合成基因簇的異同,科研人員開發(fā)了生物合成基因簇分析比較工具。BiSCAPE/COROSON是第一個可以對非公開的、內部基因組數據進行生物合成基因簇相似性分析的工具[25],它以antiSMASH的分析結果為輸入文件,根據基因簇的相似性將基因簇聚合為不同的家族(GCFs),進一步通過與MiBIG數據庫比較分析基因簇或基因簇家族的新穎性,并通過內置的COROSON算法進行家族內基因簇多樣性分析。2021年BiSCAPE/COROSON開發(fā)團隊又發(fā)布了一個適合百萬級別BGCs相似性分析的算法BiGSLICE[26],并在此基礎上建立生物合成基因簇家族數據庫BiG-FAM[27],該數據庫目前包括120余萬個BGCs同源比較結果,而且BiG-FAM數據庫提供了在線瀏覽和搜索功能,不但可以瀏覽特定類型的BGC在不同微生物中的分布,還可以快速地將用戶提供的BGCs在數據庫中進行定位,以分析其新穎性或與其他生物合成基因簇的關系。
“生物合成基因簇最小信息”數據庫(MiBIG)是目前微生物天然產物研究中應用最廣泛的數據庫之一,它主要收錄經實驗驗證的生物合成基因簇數據,目前已更新到第二版,包括2050個生物合成基因簇及其相關信息[17]。MiBIG數據不但可以提供在線檢索功能,而且還提供了多種格式的下載版本,可以方便地將其整合入其他微生物天然產物分析流程中,目前MiBIG已整合入antiSMASH、BiG-SCAPE等多種天然產物分析工具中。AntiSMASH-DB是antiSMASH團隊發(fā)布的一個高質量預測合成基因簇數據庫,最新發(fā)布的3.0版本包括來源于388個古菌、25236個細菌以及177個真菌基因組的147517個BGCs[18]。綜合生物合成基因簇合集(IMG-ABC)是聯(lián)合基因組研究所基于其微生物基因組平臺而建立的綜合生物合成基因簇數據庫,近來發(fā)布了5.0版本,不但包括基于antiSMASH V5預測的30余萬個BGCs,而且還加入了1285個實驗驗證的BGCs[28]。Prospect是2021年新發(fā)布的一個專門針對真菌生物合成基因簇的數據庫,包含來自1037株真菌基因組的3萬余個BGCs,為真菌來源天然產物的基因組挖掘提供了便利[29]。
從復雜代謝產物中快速鑒定目標分子結構一直是天然產物發(fā)現過程中極具挑戰(zhàn)性的工作,近年來隨著各類分析儀器的普及以及與之相應的數據分析處理工具和各類數據庫的不斷開發(fā)和建立,天然產物的鑒定效率得到了極大的提高。
質譜因其高靈敏度及較高的普及率已成為研究復雜代謝產物的主要方法,近來質譜數據的處理和分析方法發(fā)展非常迅速。首先是質譜數據處理軟件MZmine進行了升級,發(fā)布了3.0版[30],與2.0版相比在批處理能力上有了很大提升,而且針對不同類型質譜儀采集的數據提供了相應的默認參數,使數據處理過程更加友好。其次是目前天然產物研究領域最流行的質譜分析平臺—全球天然產物社交分子網絡(GNPS)[31]平臺更新和整合了多個質譜排重和注釋工具。GNPS主要功能是分子網絡分析,原理是結構相似的化合物可以產生相似的質譜碎片離子,分子網絡分析算法可以將其聚集成簇,同時,因整合了實驗及理論質譜數據庫,在分析的同時可以部分實現化合物的排重及分類。除經典分子網絡之外,GNPS平臺近來還發(fā)布了:①特征分子網絡(FBMN)分析流程,不但可以進行定量分析,而且可以區(qū)分經典分子網絡無法分辨的同分異構體[32];②Moldiscovery分析流程,通過理論質譜庫搜索可以對2000 Da以下的各類結構分子進行排重和注釋[33],Moldiscovery算法可以看做是之前Dereplicator+算法的升級;③CycloNovo分析流程,CycloNovo是一種基于德布萊英圖(de Bruijn graphs)的環(huán)肽從頭解析算法[34],可以從復雜質譜數據中特異識別環(huán)肽類化合物的質譜,并進一步利用分子網絡進行相似性分析,或利用Dereplicator/VarQuest進行排重分析;④SIRIUS分析流程,SIRIUS是一個致力于質譜從頭解析的軟件[35],通過高分辨質譜同位素分布以及“碎片樹”預測分子結構,不但可以進行理論質譜庫搜索,而且還可以預測數據庫中不存在的新分子結構[36]或結構類別[37]。目前SIRIUS分析流程已整合入GNPS平臺,可以基于GNPS平臺進行分析,也可以獨立使用。除此之外,非核糖體肽分析平臺(NORINE)近來發(fā)布了一個專門針對肽類化合物的在線排重工具NRPro[38],經實測,它是目前準確度最高的理論質譜搜索工具,但只能接受單個化合物的MS/MS數據,為了便于從LC-MS/MS數據中提取單個化合物的數據,本實驗室開發(fā)了一個在線工具MS/MS Extraction(http://www.npba-xielab.com:8501/),可以批量提取單個目標化合物的MS/MS數據。
NMR分析一直是新結構天然產物確證的金標準,最近在NMR圖譜自動分析和數據庫建設方面也有了一些突破性進展。SMART 2.1是一個基于卷積神經網絡訓練的NMR注釋算法,可以由1H-13C HSQC圖譜自動生成可能的化學結構[39]。DP4-AI可以自動處理和注釋13C 和1H NMR原始數據[40]。天然產物核磁共振數據庫(NP-MRD)[41]是NIH資助建立的一個開源天然產物數據,自2020年建立來,快速成為世界最大的天然產物核磁數據庫,目前已有超過4萬個天然產物的NMR數據,超過817000個核磁共振譜(包括實驗、模擬及預測數據),支持瀏覽、檢索、下載和上傳。
天然產物數據庫對天然產物發(fā)現和排重至關重要。因此,天然產物數據庫的建設一直伴隨著天然產物的整個研究過程。據統(tǒng)計,自2000年以來共建立了120余個各種類型的天然產物數據庫[42]。其中,含有微生物天然產物數據的有11個[7],近來新建立或更新的有4個,即NP Atlas[43]、Streptome-DB[44]、NORINE[45]和COCONUT[46]。NP Atlas全稱the Natural Product Atlas,是2019年新建立的專門針對微生物天然產物的數據庫,并于2021年發(fā)布了2.0版,包括3萬余個化合物,更新后的數據庫添加了產生菌完整的分類單元描述,可以非常方便地檢索和瀏覽不同分類地位微生物的天然產物產生情況;Streptome-DB是一個專門收集鏈霉菌來源天然產物的數據庫,目前發(fā)布了3.0版本,包括約2500個化合物;NORINE數據庫是一個專門的非核糖體肽類化合物數據庫,更新后的數據庫包括1739個化合物[45];COCONUT全稱the COlleCtion of Open Natural ProdUcTs[46],是匯總目前所有開源、可用的天然產物數據庫而建立的一個非冗余、可檢索的在線數據庫,它也是使用MongoDB作為存儲管理系統(tǒng)的第一個大型化學數據庫,目前包括動植物、真菌、細菌等來源的40余萬個天然產物化學結構。以上所綜述的近兩年發(fā)布或更新的微生物天然產物生物和化學信息學工具匯總于表1中。
表1 近兩年發(fā)布或更新的微生物天然產物生物、化學信息學開源工具和數據庫Tab.1 Open microbial natural product related bioinformatics and cheminformatics tools and databases released or updated in recent two years
基因組學和代謝組學技術的不斷進步,使得微生物天然產物研究方法發(fā)展了革命性的變革,研究者越來越依賴基因組、代謝組等大數據及與之相應的生物信息學、化學信息學分析方法來提高新化合物的發(fā)現效率。天然產物相關信息學研究正處于快速發(fā)展階段,以分析基因組數據為主的生物信息學和以分析代謝組數據為主的化學信息學各自都有了很大的進展,大大提高了科研工作者的工作效率。在此基礎上,如果能綜合利用基因組和代謝組數據,新型天然產物的發(fā)現效率會得到進一步的提高,雖然目前還沒有開發(fā)出特別有效的多組學分析工具或平臺,但信息學家已經向這方面努力,開始建立多組學數據平臺,如2021年建立的配對組學數據平臺(PoDP)將同一來源的基因組數據和代謝組學數據連接起來[47];微生物天然產物數據庫NP Atlas與生物合成基因簇數據庫MiBIG及質譜數據庫GNPS進行了關聯(lián)[43,48];生物合成基因簇預測平臺antiSMASH與肽類化合物數據庫NORINE進行了關聯(lián)[11]。多組學數據必將進一步促進多組學算法的開發(fā),提高信息學對微生物天然產物發(fā)現的指導作用。天然產物化學家一生致力于化合物的分離與鑒定的日子已經不復存在[49],新的發(fā)展趨勢下,要求化學工作者不僅要擅長分離和結構鑒定,而且還要能夠熟練應用各種信息學工具,甚至進一步開發(fā)新方法,以實現天然產物的理性、高效發(fā)現。