苦山
規(guī)律間隔成簇短回文重復序列(CRISPR)技術面臨一個問題:資源多得讓人為難。
自從這種基因編輯系統(tǒng)聲名鵲起以來,科學家一直在尋找具有更高精度和準確性的變體。
一種搜索方法是在細菌和其他生物的DNA中篩選與CRISPR-Cas9相關的基因。另一種方法則是在實驗室中人工改進CRISPR組件,使其具有更好的治療功能——比如讓它們在人體內(nèi)擁有更高的穩(wěn)定性、安全性和效率。
這些數(shù)據(jù)存儲在包含數(shù)十億基因序列的多個數(shù)據(jù)庫中。盡管這些數(shù)據(jù)庫里可能隱藏著奇特的CRISPR系統(tǒng),但要搜索的條目實在太多了。
由麻省理工學院和哈佛大學合作成立并由CRISPR先驅(qū)張鋒博士領導的團隊從現(xiàn)有的大數(shù)據(jù)方法中獲得靈感,利用人工智能對海量的基因序列進行篩選,將范圍縮小到了與已知CRISPR系統(tǒng)相似的僅僅數(shù)種序列。
該人工智能工具搜索了開源數(shù)據(jù)庫中的基因組,這些基因組源自多種罕見細菌——包括那些從啤酒廠、煤礦、寒冷的南極海岸以及狗唾液中發(fā)現(xiàn)的細菌。
在短短幾周內(nèi),該算法就鎖定了數(shù)千個潛在的新“生物學部件”,它們可以組成188種基于CRISPR的新系統(tǒng),其中包括一些極其罕見的系統(tǒng)。
其中有幾個新候選者格外引人注目。例如,有些變體可以更精確地鎖定目標基因進行編輯,且副作用更少。另外幾個變體雖然不能直接使用,但可以幫助我們了解某些現(xiàn)有CRISPR系統(tǒng)的運作方式——比如,那些針對RNA的系統(tǒng)。RNA是一種“信使”分子,指導細胞從DNA中構(gòu)建蛋白質(zhì)。
“生物多樣性真是一座無盡的寶庫?!睆埐┦空f:“進行此類分析是一舉兩得的事:既能研究生物學理論,也有可能發(fā)現(xiàn)實用的東西?!?/p>
大肆搜尋
盡管CRISPR因其在人類基因編輯方面的威力而聞名,但科學家最初是在細菌中發(fā)現(xiàn)了這個系統(tǒng),它在細菌中被用于抵抗病毒感染。
長期以來,科學家一直在世界的各個角落收集細菌樣本。得益于越來越便宜和高效的DNA測序技術,這些樣本中(有些樣本來自諸如池塘淤泥等意想不到的地方)有許多已完成了基因藍圖繪制,并被存入了數(shù)據(jù)庫。
張博士對于搜尋新的CRISPR系統(tǒng)并不陌生。2023年早些時候,他在接受《麻省理工學院新聞》采訪時說:“幾年前,我們開始發(fā)問,除了CRISPR之外還有什么?自然界是否存在其他可通過RNA編程的系統(tǒng)?”
CRISPR由兩個結(jié)構(gòu)組成。一個是“搜尋犬”向?qū)NA序列,通常約有20個堿基長,針對特定的基因。另一個是類似剪刀的Cas蛋白。一旦進入細胞,搜尋犬找到目標,剪刀則剪掉基因。至于該系統(tǒng)更近期的版本,如堿基編輯技術或先導編輯技術,則使用不同類型的Cas蛋白來執(zhí)行單字母DNA交換,乃至編輯RNA目標。
早在2021年,張鋒的實驗室追溯了CRISPR家族樹的起源,確定了一支全新的家系。這類被稱為OMEGA的系統(tǒng)使用外源向?qū)NA和蛋白質(zhì)剪刀,但仍然可以輕松地剪切培養(yǎng)皿中培育出的人類細胞里的DNA。
最近,該團隊將他們的搜索擴展到了生命形式的新分支:真核生物。這個家族成員(包括植物、動物和人類)的DNA被緊密包裹在堅果狀的結(jié)構(gòu)內(nèi)。與之形成對照的是,細菌沒有這些結(jié)構(gòu)。通過篩選真菌、藻類和蛤蜊(是的,生物多樣性又古怪又神奇),該團隊發(fā)現(xiàn)了他們稱之為“Fanzor”的蛋白質(zhì),這些蛋白質(zhì)可以被重新編程,以用來編輯人類DNA,這是第一份證明真核生物中也存在類CRISPR機制的證據(jù)。
但是,我們的目標并不僅僅是搜尋新的、酷炫的基因編輯器。應該說,我們的目的是利用大自然的基因編輯能力來構(gòu)建一系列各具特長的基因編輯器,它們可以治療遺傳疾病,并幫助我們了解人體的內(nèi)在運作原理。
總而言之,科學家已經(jīng)發(fā)現(xiàn)了六種主要的CRISPR系統(tǒng),其中有些與不同的Cas酶合作,另一些則專門針對DNA或RNA。
張博士說:“大自然太神奇了。它有著如此的多樣性,可能還有更多可通過RNA編程的系統(tǒng)存在,我們正在繼續(xù)探索,希望能發(fā)現(xiàn)更多?!?/p>
生物工程拼字游戲
這就是張鋒團隊構(gòu)建新人工智能算法“FLSHclust”的目的。他們將分析龐大數(shù)據(jù)集的技術(如軟件突出顯示大量文檔、音頻或圖像文件中的相似部分)改造為一種搜尋CRISPR相關基因的工具。
一等到該算法設計完成,它就分析了來自細菌的基因序列,并將它們分組——有點像是將不同顏色排成彩虹,也就是把相似的顏色組到一起,這樣就更容易找到你想要的色調(diào)。從這里開始,團隊便專注于尋找與CRISPR相關的基因。
該算法檢索了包括數(shù)以十萬計來自細菌和古菌的基因組以及數(shù)百萬個未知DNA序列在內(nèi)的多個開源數(shù)據(jù)庫??偟膩碚f,它掃描了數(shù)十億個蛋白質(zhì)編碼基因,并將它們分組成大約5億個聚類簇。在這些聚類簇中,團隊確定了188個尚未有人將之與CRISPR建立關聯(lián)的基因,這些基因可以構(gòu)成數(shù)千個新的CRISPR系統(tǒng)。
其中有兩種系統(tǒng)分別源自動物腸道和黑海中的微生物,使用了32個堿基長的向?qū)NA,而不是CRISPR-Cas9中通常使用的20個堿基長的向?qū)NA。它就像搜索查詢詞一樣,長度越長,搜索結(jié)果就越精確。這些更長的向?qū)NA“查詢”表明,這些系統(tǒng)可能具有更少的副作用。另一種系統(tǒng)則類似此前的某個基于CRISPR的診斷系統(tǒng)“夏洛克”(SHERLOCK),它能快速感知來自感染性入侵者的單個DNA或RNA分子。
在培育的人類細胞中進行測試時,這兩種系統(tǒng)都能夠剪切目標基因的單鏈,并以大約13%的效率插入小的基因序列。這聽起來也許不算多,但它是一個可以被改進的基準數(shù)據(jù)。
該團隊還發(fā)現(xiàn)了一種新的CRISPR系統(tǒng)的基因,它針對的是科學界此前未曾發(fā)現(xiàn)過的某種RNA。仔細觀察后,研究人員發(fā)現(xiàn),這一版本以及任何尚未發(fā)現(xiàn)的版本似乎都難以通過在世界各地采樣細菌來捕獲,因此在自然界中極為罕見。
研究作者蘇米婭 · 卡南(Soumya Kannan)博士表示:“這些微生物系統(tǒng)中有一部分只存在于煤礦的水中。如果不是有人對此產(chǎn)生興趣,我們可能永遠也無法看到這些系統(tǒng)。”
眼下,要確定這些系統(tǒng)是否可以用于人類基因編輯還為時過早。例如,那些隨機切割DNA的系統(tǒng)對于治療而言并無用處。然而,人工智能可以挖掘龐大的基因數(shù)據(jù)來尋找潛在的“獨角獸”基因序列,該人工智能如今已向其他科學家開放,供進一步探索。