EvolutionaryScale(一家AI新銳公司)的蛋白質(zhì)語言模型ESM3是生物學(xué)領(lǐng)域最大的AI模型之一,已創(chuàng)造出新型熒光蛋白。這一進展贏得了市場積極的關(guān)注。
科學(xué)家已經(jīng)使用一個“能講蛋白質(zhì)語言”的人工智能(AI)模型——它是迄今為止生物學(xué)領(lǐng)域開發(fā)的最大模型之一——生成新式熒光分子。
2024年7月,位于紐約市的EvolutionaryScale宣布了這個原理驗證示范成果,同時宣布新籌得1.42億美元的資金,未來將把該模型應(yīng)用于藥物開發(fā)、可持續(xù)發(fā)展和其他科研方向。這家公司由之前在科技巨擘Meta公司工作過的幾位科學(xué)家創(chuàng)立,是日益擁擠的研究領(lǐng)域的最新成員。該領(lǐng)域正在將針對語言和圖像進行訓(xùn)練的前沿機器學(xué)習(xí)模型應(yīng)用于生物數(shù)據(jù)。
“我們想要構(gòu)造能讓生物學(xué)編程成為可能的工具。” EvolutionaryScale的首席科學(xué)家亞歷克斯 · 里夫斯(Alex Rives)說道。他參與了Meta公司將AI應(yīng)用于生物數(shù)據(jù)的科研工作。
EvolutionaryScale的AI工具名叫ESM3,是一種被稱為蛋白質(zhì)語言模型的東西??茖W(xué)家利用超過27億個蛋白質(zhì)序列和結(jié)構(gòu)以及這些蛋白質(zhì)功能有關(guān)的信息來訓(xùn)練這個模型。它可以按照用戶提供的規(guī)格生成蛋白質(zhì),類似于ChatGPT之類的聊天機器人生成文本。
“它將會成為人人關(guān)注的生物學(xué)AI模型之一?!蓖箍敌谴髮W(xué)麥迪遜分校的計算生物學(xué)家安東尼 · 吉特(Anthony Gitter)說道。
煥發(fā)光彩
里夫斯和他的同事在Meta公司時研究了ESM模型更早期的迭代,但在Meta公司終止這個領(lǐng)域的研究工作之后,他們決定單干。他們此前曾使用ESM-2模型創(chuàng)建了一個包含6億個預(yù)測蛋白質(zhì)結(jié)構(gòu)的免費數(shù)據(jù)庫。自那時起,其他團隊已經(jīng)使用ESM-1的不同版本來設(shè)計對抗包括SARS-CoV-2在內(nèi)的病原體時具有更好活性的抗體,并通過基因工程技術(shù)重新設(shè)計出“抗CRISPR”蛋白質(zhì),從而提高基因編輯工具的效率。
2024年,另一家生物學(xué)AI公司——位于加州伯克利的Profluent公司——使用自身的蛋白質(zhì)語言模型創(chuàng)造出全新的、由CRISPR激發(fā)的基因編輯蛋白質(zhì),并使其中一個蛋白質(zhì)可以免費獲取使用。
為了展示最新模型,里夫斯的團隊著手徹底革新生物科技中廣泛使用的另一個工具:綠色熒光蛋白(GFP)。
GFP能夠吸收藍光,發(fā)出綠光。研究者在20世紀60年代從水晶水母(Aequorea victoria)中分離出GFP。后來的研究工作——隨著這一發(fā)現(xiàn)獲得諾貝爾獎——揭示了GFP如何在顯微鏡下標記其他蛋白質(zhì),解釋了其發(fā)出熒光的分子基礎(chǔ),還開發(fā)出了發(fā)光更亮、顏色不同的GFP合成版本。
自那時起,研究者已經(jīng)確定其他有著類似形狀的熒光蛋白質(zhì),這些蛋白質(zhì)都有一個能吸收光線、發(fā)出光線的“發(fā)色團”核心,核心外面包圍著一層桶形支架。里夫斯的團隊要求ESM3生成類似GFP、含有一組在GFP的發(fā)色團中找到的關(guān)鍵氨基酸的蛋白質(zhì)實例。
研究者人工合成出其中88個最具希望的設(shè)計對象,測量它們發(fā)出熒光的能力。大多數(shù)設(shè)計都失敗了,但其中一個設(shè)計對象與已知的熒光蛋白質(zhì)不太相似,能發(fā)出淡淡的熒光——大約只有天然形態(tài)的GFP的熒光亮度的1/50。研究者使用這個分子的序列作為起點,再給ESM3派下改進工作的命令。等到研究者在得到的設(shè)計對象中選出大約100個合成為蛋白質(zhì)后,發(fā)現(xiàn)其中有好幾個蛋白質(zhì)的亮度可媲美天然的GFP,但這仍舊比實驗室用基因工程修改得到的變體晦暗了許多。
ESM3設(shè)計出的最亮的蛋白質(zhì)之一,被命名為esmGFP,被預(yù)測擁有一種類似天然熒光蛋白質(zhì)的結(jié)構(gòu)。然而,它的氨基酸序列極為不同,與訓(xùn)練數(shù)據(jù)集中最為相近的熒光蛋白質(zhì)的氨基酸序列匹配度不到60%。在bioRxiv服務(wù)器上張貼的一篇預(yù)印本論文中,里夫斯和同事們說,根據(jù)自然突變速率,這種程度的序列差異需要“超過5億年的進化”才能實現(xiàn)。
但是,吉特擔心這種比較是一種毫無意義而且有可能誤導(dǎo)他人的方式,不該這樣來描述前沿AI模型產(chǎn)品。他說:“當你把AI和加速進化放在一起考慮,這聽上去就很恐怖。我感覺,夸張地宣傳一個模型做了些什么,可能會傷害該研究領(lǐng)域,對于公眾也可能是危險的?!?/p>
ESM3通過迭代各種不同序列而生成新的蛋白質(zhì),在里夫斯眼中,這個過程與進化類似。“大自然會需要什么來生成類似這樣的物質(zhì)?我們認為,從這個角度來做思考挺有意思的?!彼a充道。
風險閾值
2023年的一項美國總統(tǒng)行政命令要求,AI模型在訓(xùn)練時使用的算力達到一定閾值,開發(fā)方就要通知美國政府,并報告風險緩解措施,而ESM3是第一批被要求這么做的生物學(xué)AI模型之一。EvolutionaryScale表示,公司已經(jīng)聯(lián)系了美國科學(xué)與技術(shù)政策辦公室。
該版本的ESM3超過了這一閾值,包含將近1000億個參數(shù)(即模型用來代表序列之間關(guān)系的變量),是無法公開獲取的。對于較小規(guī)模的開源版本,某些序列(譬如來自病毒的序列,以及來自一份美國政府列出的、令人憂慮的病原體和毒素清單的序列)被排除在訓(xùn)練數(shù)據(jù)之外。對外發(fā)布的ESM3-open是無論哪兒的科學(xué)家都能下載和獨立運行的,但無法對其進行升級并讓它生成那些危險的蛋白質(zhì)。
馬丁 · 帕斯薩(Martin Pacesa)是瑞士洛桑聯(lián)邦理工學(xué)院的一位結(jié)構(gòu)生物學(xué)家,他對于開始用ESM3來做研究感到興奮。他指出,ESM3是第一批允許研究者使用自然語言描述蛋白質(zhì)的性質(zhì)與功能、進行個性化設(shè)計的生物學(xué)模型之一。他也迫不及待地想看到這些特色功能在實驗中表現(xiàn)如何。
EvolutionaryScale發(fā)布了一個ESM3的開源版本,還清晰地描述最大型版本的ESM3是如何訓(xùn)練的,這些給帕斯薩留下深刻印象。但是,獨立開發(fā)最大型AI模型需要龐大的計算資源。他說:“沒有一家大學(xué)實驗室具有復(fù)制它的能力?!?/p>
里夫斯渴望將ESM3應(yīng)用于其他設(shè)計。帕斯薩參與的一支研究團隊使用另一種蛋白質(zhì)語言模型制造出新的CRISPR蛋白質(zhì),他說在ESM3上做同樣的事會很有趣。里夫斯希望能把ESM3應(yīng)用于可持續(xù)性發(fā)展(公司網(wǎng)站上的一個視頻顯示了能蠶食塑料的酶的設(shè)計方案)、抗體和其他基于蛋白質(zhì)的藥物研發(fā)方面。他說:“它確實是一個前沿模型?!?/p>
資料來源 Nature