人、動(dòng)物和植物的共生微生物組中存在的編碼多肽和小蛋白,被認(rèn)為是微生物中數(shù)量巨大的一類“暗物質(zhì)”,其蘊(yùn)含的功能多樣性有著非常大的想象空間。
例如抗菌肽就是這樣一種“暗物質(zhì)”。先前的研究得出,抗菌肽可以作為非常有潛力的治療耐藥菌的藥物或者前體分子,并且不容易產(chǎn)生極強(qiáng)的耐藥性,有助于應(yīng)對(duì)當(dāng)下愈演愈烈的耐藥菌感染問(wèn)題。
因此,挖掘和研究共生微生物組中海量的多肽具有十分重要的意義。
近日,來(lái)自中國(guó)科學(xué)院微生物研究所的團(tuán)隊(duì)結(jié)合LSTM、Attention和BERT等多種自然語(yǔ)言處理神經(jīng)網(wǎng)絡(luò)模型,建立了一個(gè)用于從人類腸道微生物組數(shù)據(jù)中識(shí)別候選腺苷一磷酸的統(tǒng)一管道。在被確定為候選腺苷一磷酸的2349個(gè)多肽序列中,有216個(gè)是化學(xué)合成的,其中顯示出抗菌活性的有181個(gè);并且,在這些多肽中,大多數(shù)與訓(xùn)練集中腺苷一磷酸的序列同源性低于40%。
相關(guān)論文以《利用深度學(xué)習(xí)法從人體腸道微生物群中鑒定抗菌肽》為題發(fā)表在《自然生物技術(shù)》上,中國(guó)科學(xué)院微生物研究所研究員、博士生導(dǎo)師王軍擔(dān)任最后通訊作者。
審稿人評(píng)價(jià)該研究道,“從計(jì)算預(yù)測(cè)到結(jié)果非常好的動(dòng)物模型,這項(xiàng)研究總結(jié)了一系列令人印象深刻的工作,包括一些用于進(jìn)一步研究的候選肽。使用機(jī)器學(xué)習(xí)發(fā)現(xiàn)新的腺苷-磷酸后,再對(duì)其功效進(jìn)行詳細(xì)的微生物學(xué)驗(yàn)證,非常有趣,這也許會(huì)對(duì)該領(lǐng)域產(chǎn)生積極影響。”
在微生物以及其他生物體內(nèi)發(fā)揮功能的分子,不僅包括各種代謝途徑和通路所產(chǎn)生的小分子,還有一系列的生物大分子。這些大分子有的是生化反應(yīng)的產(chǎn)物,如細(xì)菌細(xì)胞壁的肽聚糖和表面的脂多糖等;有的則是直接編碼在基因組中的,包括多肽和小RNA等。
還是以抗菌肽為例,現(xiàn)在天然界已知的抗菌肽約有幾千條,來(lái)源非常廣泛,從最原始的細(xì)菌到高等生物中都有。這些肽在人類和兩棲類動(dòng)物中是天然免疫的組成成分,可用于在細(xì)菌中相互競(jìng)爭(zhēng)和維持群落結(jié)構(gòu),且具有抗癌、調(diào)節(jié)免疫和改善代謝等功能。
然而,針對(duì)這些多種多樣、序列相似性低、功能類型復(fù)雜的生物大分子,目前還未有能夠?qū)⑵湫蛄泻凸δ苤苯勇?lián)系到一起的方法。
由于大分子序列相對(duì)來(lái)講比較短,整體上相似性非常低,傳統(tǒng)方法基于序列相似性進(jìn)行挖掘存在較大的困難。
王軍表示,“針對(duì)這些特別短、相似性又不高的多肽序列,進(jìn)行更加準(zhǔn)確高效地判別是我們此次研究的核心出發(fā)點(diǎn)。”
該團(tuán)隊(duì)研究工作流程的示意圖
據(jù)了解,王軍團(tuán)隊(duì)?wèi)?yīng)用了人工智能領(lǐng)域中自然語(yǔ)言分析的最新方法,來(lái)對(duì)基因組序列進(jìn)行研究,尤其是其中編碼的小蛋白的功能預(yù)判。在現(xiàn)有的幾千個(gè)已知抗菌肽的基礎(chǔ)上,構(gòu)建了多個(gè)神經(jīng)網(wǎng)絡(luò)模型整合的分析流程,并實(shí)現(xiàn)90%以上的判定準(zhǔn)確率。
接下來(lái),他們運(yùn)用了現(xiàn)在已積累的大量健康人體微生物組數(shù)據(jù),其巨大的編碼潛力意味著存在多種類型的抗菌肽和其他肽類,并且這些肽可能在相互競(jìng)爭(zhēng)以及與宿主的互作中起著非常重要的作用。
該團(tuán)隊(duì)認(rèn)為,在腸道中表達(dá)的多肽應(yīng)該具有比較好的真核細(xì)胞的安全性。為此,他們?cè)?萬(wàn)多個(gè)微生物組中進(jìn)行層層數(shù)據(jù)篩選,逐步降低其假陽(yáng)性,最終得出,在合成的200多條多肽中,有180多條肽具有非常明確的抗菌能力,從而驗(yàn)證了其方法的可靠性。
此外,該研究還顯示,在大規(guī)模的基因組和宏基因組數(shù)據(jù)中,借助人工智能可以進(jìn)行特定類群功能分子的直接挖掘和判定,利用高通量篩選驗(yàn)證后,可再進(jìn)行后續(xù)的機(jī)理和有效性以及體內(nèi)研究。
這種研究方法被王軍稱為“從硬盤到藥物”,該方法可以極大提高有治療前景藥物的研究速度和產(chǎn)出率。
王軍表示,該研究最初的想法來(lái)自與臨床的合作。通過(guò)之前的多個(gè)臨床合作,王軍團(tuán)隊(duì)逐漸意識(shí)到,在腸道菌群中與疾病和健康相關(guān)的分子不局限于經(jīng)常研究的小分子,有一系列的蛋白類物質(zhì)也能夠與宿主互作并起到調(diào)節(jié)免疫、代謝等作用。
從宏基因組數(shù)據(jù)中挖掘候選腺苷一磷酸
例如細(xì)菌的多肽,其能夠模擬人自身蛋白的序列,從而形成一個(gè)“模擬表位”抗原,能夠誘導(dǎo)顯著的炎癥反應(yīng)并與自身免疫抗體結(jié)合。也就是說(shuō),微生物基因組直接編碼的多肽等大分子,也可以作為功能分子發(fā)揮致病或者治病的作用。
該團(tuán)隊(duì)認(rèn)為,雖然現(xiàn)階段還無(wú)法從大量宏基因組數(shù)據(jù)中有效推斷出哪些是代謝所產(chǎn)生的小分子,但其實(shí)很多可讀框所編碼的特定功能蛋白是可以直接挖掘的。問(wèn)題在于,用什么樣的方法能夠完成這種短序列的挖掘。
王軍
對(duì)此,他們利用對(duì)計(jì)算機(jī)領(lǐng)域的深入理解和掌握,建立了以人工智能為基礎(chǔ)的預(yù)測(cè)模型,并將自然語(yǔ)言分析的很多方法轉(zhuǎn)化應(yīng)用到基因組的挖掘中來(lái)。
在一段時(shí)間的訓(xùn)練以后,模型的準(zhǔn)確度已經(jīng)達(dá)到了一個(gè)比較可信的數(shù)值,然后該團(tuán)隊(duì)用真核數(shù)據(jù)中的預(yù)測(cè)對(duì)抗菌肽的十個(gè)短肽進(jìn)行了驗(yàn)證,結(jié)果發(fā)現(xiàn)其中有8個(gè)具有活性。
接著,他們開(kāi)始利用現(xiàn)已公開(kāi)的大量宏基因組數(shù)據(jù),進(jìn)行多肽的挖掘及邏輯推導(dǎo),并將更多信息整合在一起,以達(dá)到更加有效的挖掘。
最后,該團(tuán)隊(duì)開(kāi)始研究合成多肽的機(jī)理、安全性與動(dòng)物實(shí)驗(yàn)等,并得出,對(duì)真核細(xì)胞沒(méi)有明顯毒性的肽能夠在動(dòng)物體內(nèi)降低感染菌的載量,并有效治療肺炎克雷伯菌所導(dǎo)致的感染。
王軍表示,此次研究還要感謝中國(guó)科學(xué)院微生物研究所陳義華研究組的大力支持。據(jù)了解,兩個(gè)研究組一起合作解析了多個(gè)有潛力的多肽結(jié)構(gòu)及其作用機(jī)制,并證實(shí)這些肽在結(jié)構(gòu)和機(jī)理上均具有較高的多樣性。
該研究表明,他們的方法不僅能夠發(fā)現(xiàn)比較新的肽,而且在機(jī)理和結(jié)構(gòu)上沒(méi)有特定偏好或局限。
值得一提的是,該研究的應(yīng)用前景極為廣泛。一方面,其擴(kuò)大了微生物組及其他基因組數(shù)據(jù)的轉(zhuǎn)化出口,將其中編碼的很多大分子直接呈現(xiàn)在研究人員眼前,有利于進(jìn)行多肽類和RNA類藥物的挖掘;另一方面,伴隨測(cè)序方法的革新和快速增長(zhǎng)的數(shù)據(jù),或?qū)⒊霈F(xiàn)更多能治療自身免疫病、代謝類疾病及腫瘤等的多肽。
此外,在現(xiàn)有多肽的基礎(chǔ)上,研究人員可以對(duì)其進(jìn)行化學(xué)改性,有助于后續(xù)穩(wěn)定性、延長(zhǎng)半衰期及安全性的提高,這也是進(jìn)入臨床前不可或缺的一步。
王軍稱,“我們發(fā)現(xiàn)的多肽有望快速進(jìn)入臨床使用,以協(xié)助解決現(xiàn)在所面臨的耐藥菌感染問(wèn)題和更多重大非傳染性慢病等。”
目前,王軍主要進(jìn)行生物數(shù)據(jù)的深度挖掘和分析工作。他利用統(tǒng)計(jì)學(xué)和生物信息學(xué)結(jié)合的方法,來(lái)分析腸道菌群對(duì)于人和動(dòng)物中的基因組及疾病所起的作用。
截至現(xiàn)在,他已發(fā)表了6 0余篇SCI論文,并承擔(dān)了5項(xiàng)重大基金項(xiàng)目,申請(qǐng)專利5項(xiàng)。
對(duì)于該研究,王軍稱,后續(xù)他們將持續(xù)擴(kuò)大所挖掘大分子的應(yīng)用范疇,將微生物功能大分子從抗感染逐漸拓展到代謝類疾病、免疫性疾病等治療中。
他表示,“我們還計(jì)劃對(duì)現(xiàn)在的多肽進(jìn)行臨床前的優(yōu)化,逐步提高成藥性和抗菌的范疇,將其進(jìn)一步優(yōu)化到革蘭氏陽(yáng)性菌和真菌等的治療上?!?/p>
此外,借助人工智能的進(jìn)步和以往知識(shí)的積累,該團(tuán)隊(duì)或能實(shí)現(xiàn)從頭設(shè)計(jì)出一系列現(xiàn)在天然界中不存在的大分子。(綜合整理報(bào)道)(編輯/諾伊克)
海外星云 2022年8期