許多奇異的病毒生活在鹽湖、水熱通道和其他極端環(huán)境中。
研究人員利用人工智能(AI)發(fā)現(xiàn)了70 500種科學界此前未知的病毒,其中許多奇異的病毒與已知物種完全不同??茖W家使用宏基因組學方法鑒定出了這些RNA病毒,通過這種方法,他們可以采集環(huán)境中所有的基因組樣本,而不需要培養(yǎng)單個病毒。該方法展示了AI在探索RNA病毒“暗物質”方面的潛力。
病毒是一種能夠感染動物、植物甚至細菌的微生物,它無處不在,但科學家已經鑒定并描述過的病毒只占一小部分。加拿大多倫多大學的計算病毒學家阿提姆 · 巴巴揚(Artem Babaian)說:“實際上,還有無盡的病毒等待被發(fā)現(xiàn)?!彼赋?,其中一些病毒會讓人生病,因此了解它們有利于破解某些神秘的疾病。
過去一些研究利用機器學習在測序數(shù)據(jù)中發(fā)現(xiàn)了新病毒。最新發(fā)表在《細胞》(Cell)雜志上的研究則邁出了新的一步,將其應用于預測蛋白質的結構。該AI模型集成了一種名為ESMFold的蛋白質結構預測工具,它由元公司(Meta公司,前身為總部位于美國加利福尼亞門洛帕克的Facebook)的研究人員開發(fā)。類似的AI系統(tǒng)還有谷歌DeepMind(位于倫敦)的研究人員開發(fā)的AlphaFold,它令其開發(fā)者榮獲了2024年的諾貝爾化學獎。
被遺漏的病毒
2022年,巴巴揚和其同事對公開可獲取數(shù)據(jù)庫中的570萬個基因組樣本展開研究,鑒定出將近132 000種全新的RNA病毒。其他研究團隊也開展了類似的工作。
但RNA病毒進化迅速,因此用現(xiàn)有方法在基因組序列數(shù)據(jù)中識別RNA病毒時可能會有許多遺漏。一種常用的方法是尋找編碼RNA復制時使用的關鍵蛋白的基因組序列,這種關鍵蛋白被稱作依賴于RNA的RNA聚合酶(RdRp)。但如果病毒中編碼這種蛋白的序列與已知序列差別很大,研究人員就無法識別它。
中山大學深圳校區(qū)的進化生物學家施莽是上述《細胞》雜志相關研究的合著者,他和同事嘗試在公開可獲取的基因組樣本中尋找未被識別的病毒。
他們用支撐ChatGPT的“trans-former”架構開發(fā)了名為LucaProt的模型,并為該模型提供了測序數(shù)據(jù)和ESMFold預測的蛋白質結構數(shù)據(jù)。然后他們訓練模型識別病毒的RdRps,并利用它在大量的基因組數(shù)據(jù)中尋找編碼這些酶的序列,而這些序列是病毒存在的證據(jù)。他們利用這種方法鑒定出約16萬種RNA病毒,包括一些在溫泉、鹽湖和空氣等極端環(huán)境中發(fā)現(xiàn)的。其中還有近一半的病毒以前未被描述過。巴巴揚說:“他們發(fā)現(xiàn)了RNA病毒生物多樣性的微小區(qū)域,這些區(qū)域處在進化空間的邊緣地帶?!卑拇罄麃喖膊》婪吨行牡倪M化病毒學家杰基 · 馬哈爾(Jackie Mahar)則表示,“這是拓展病毒圈相當有前景的方法”,鑒定病毒能夠幫助研究人員理解這些微生物的起源以及它們在不同宿主中的進化方式。
“拓展已知病毒庫有利于尋找更多相似的病毒,”巴巴揚說,“你會突然發(fā)現(xiàn)過去看不見的東西?!?/p>
馬哈爾表示,該團隊還沒能確定他們所鑒定的病毒的宿主,這一點應進一步研究。另外,研究人員特別感興趣的是,是否會有任何新病毒感染古細菌,這是生命之樹上一個完整的分支,至今沒有證據(jù)明確表明RNA病毒會感染它們。
施莽如今在開發(fā)一個模型,用以預測這些新鑒定出的RNA病毒的宿主。他希望這能幫助研究人員理解病毒在其環(huán)境生態(tài)位中的作用。
資料來源 Nature