2020年12月,由于疫情令面對(duì)面會(huì)議難以舉辦,數(shù)百位計(jì)算科學(xué)家在電子屏幕前線上集會(huì),并見證了科學(xué)新時(shí)代的到來。
他們參加的會(huì)議是一場(chǎng)友好競(jìng)賽,正式名稱為“結(jié)構(gòu)預(yù)測(cè)關(guān)鍵評(píng)估”(CASP),一般被叫作“國(guó)際蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)競(jìng)賽”,每?jī)赡昱e辦一次。有的學(xué)者已經(jīng)參加了近三十年。參會(huì)同行們都癡迷于同一個(gè)問題,那就是蛋白質(zhì)折疊問題。他們較量的方式很簡(jiǎn)明:能否根據(jù)最簡(jiǎn)單的蛋白質(zhì)一級(jí)結(jié)構(gòu)信息,即多肽鏈中氨基酸殘基的排列順序,準(zhǔn)確預(yù)測(cè)蛋白質(zhì)分子的三維形狀?蛋白質(zhì)形狀決定其行為,因此準(zhǔn)確預(yù)測(cè)形狀將為我們理解疾病、生產(chǎn)新藥和洞見生命運(yùn)作方式帶來深遠(yuǎn)影響。
科學(xué)家總要在競(jìng)賽中測(cè)試自己最新的蛋白質(zhì)折疊工具,但一直難以企及理想的預(yù)測(cè)結(jié)果?;仡櫄v史,CASP呈現(xiàn)的進(jìn)展總是小幅度的,因此對(duì)于2020年底的第十四屆CASP(CASP14),同行們并不認(rèn)為會(huì)有驚喜。
直到他們親眼見證劃時(shí)代的AlphaFold2。
在CASP14上,蛋白質(zhì)科學(xué)界新人約翰 · 江珀(John Jumper)介紹了一款來自谷歌DeepMind的人工智能新工具AlphaFold2。他展示的數(shù)據(jù)表明,AlphaFold2的3D蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)模型擁有超過90%的準(zhǔn)確率——是最接近它的競(jìng)爭(zhēng)對(duì)手的5倍。蛋白質(zhì)折疊問題一下子從觸不可及落入尋常任務(wù)。
在CASP14的總結(jié)發(fā)言中,會(huì)議組織者約翰 · 莫爾特(John Moult)確信:AlphaFold2“很大程度上解決了”蛋白質(zhì)折疊問題,并永遠(yuǎn)改變了蛋白質(zhì)科學(xué)?!斑@不是結(jié)束,而是開始?!彼恼Z(yǔ)氣激動(dòng)又伴有些不安。
當(dāng)谷歌的公關(guān)將此消息大力推廣至全球,各路媒體紛紛宣稱AlphaFold2 “會(huì)改變一切”。很多一輩子研究單一蛋白質(zhì)結(jié)構(gòu)的生物學(xué)家開始擔(dān)心失業(yè)問題。當(dāng)然也有人認(rèn)為上述成果不會(huì)帶來什么改變,所謂變革只是炒作。
距離AlphaFold2問世已過去三年半?,F(xiàn)在我們對(duì)于蛋白質(zhì)三維結(jié)構(gòu)的AI預(yù)測(cè)有了比較全面深入的認(rèn)識(shí)。
AlphaFold2無疑改變了生物學(xué)家研究蛋白質(zhì)的方式。它能非常巧妙地解決蛋白質(zhì)折疊問題的一部分,解決方式不同于科學(xué)家,但這個(gè)強(qiáng)大預(yù)測(cè)工具并非無所不知,也無法取代生物實(shí)驗(yàn),反倒凸顯了生物實(shí)驗(yàn)的必要性。
AlphaFold2最大的影響或許是讓生物學(xué)家意識(shí)到人工智能的力量。它啟發(fā)了新算法,包括用于設(shè)計(jì)本不存在于自然界的新蛋白質(zhì)的算法,也催生了新的生物技術(shù)企業(yè)和科學(xué)實(shí)踐方式。它的進(jìn)階版AlphaFold3于2024年5月發(fā)布,能結(jié)合DNA或RNA等分子的結(jié)構(gòu)信息對(duì)蛋白質(zhì)建模,這推動(dòng)生物預(yù)測(cè)更上一層樓。
然而,人工智能目前還無法模擬蛋白質(zhì)隨時(shí)間的變化情況,也難以對(duì)細(xì)胞內(nèi)環(huán)境物質(zhì)中的蛋白質(zhì)進(jìn)行建模。
=============第1部分=============
提出問題
一張紙可以折成輕盈滑翔的紙飛機(jī),可以承載祝愿的千紙鶴抑或其他復(fù)雜精妙的折紙藝術(shù)品。紙的折疊形態(tài)決定其功用。同樣地,一長(zhǎng)串氨基酸分子只有折疊成特定形狀(生物學(xué)家稱之為結(jié)構(gòu))時(shí)才具備功能。蛋白質(zhì)的結(jié)構(gòu)決定它如何與其他分子結(jié)合或相互作用,而這決定了它在細(xì)胞內(nèi)的作用。
地球上已知的蛋白質(zhì)有幾億種,未知的更多。它們可謂無所不能:血紅蛋白和肌紅蛋白幫助機(jī)體運(yùn)輸、儲(chǔ)存氧氣;角蛋白構(gòu)成頭發(fā)、指甲和皮膚的結(jié)構(gòu);胰島素使葡萄糖進(jìn)入細(xì)胞并轉(zhuǎn)化為能量。蛋白質(zhì)可以呈現(xiàn)無數(shù)種形狀(結(jié)構(gòu)),對(duì)應(yīng)它們?yōu)樯龅臒o數(shù)種工作。
哥倫比亞大學(xué)系統(tǒng)生物學(xué)系專家穆罕默德 · 艾爾庫(kù)萊希(Mohammed AlQuraishi)說道:“從原子到生態(tài)系統(tǒng),蛋白質(zhì)結(jié)構(gòu)就像一種通用語(yǔ)言。一切都發(fā)生于蛋白質(zhì)?!?/p>
細(xì)胞將氨基酸分子連接成多肽鏈,再令肽鏈盤曲折疊形成空間結(jié)構(gòu),從而制得蛋白質(zhì)。它選擇的氨基酸類型取決于DNA提供的一組基本指令。多肽鏈會(huì)在形成后瞬間就精確地彎曲折疊,成為三維形狀的蛋白質(zhì)。一旦結(jié)束“組裝”,蛋白質(zhì)便匆忙開展工作。
若蛋白質(zhì)不能很好完成折疊過程,機(jī)體就會(huì)遭遇一系列災(zāi)難。許多疾病和病癥,如鐮狀細(xì)胞性貧血病,都由蛋白質(zhì)錯(cuò)誤折疊引起。錯(cuò)誤折疊的蛋白質(zhì)會(huì)聚集成團(tuán)塊——這是阿爾茨海默病和帕金森綜合征等神經(jīng)退行性疾病的標(biāo)志。
然而,一直沒人真正知曉蛋白質(zhì)折疊的具體過程。由氨基酸分子連接而成的肽鏈的序列信息,怎樣編碼出了蛋白質(zhì)的復(fù)雜形狀?約翰霍普金斯大學(xué)生物物理學(xué)名譽(yù)教授喬治 · 羅斯(George Rose)表示,這是“我們可以提出的最深刻的問題”。
早在1930年代,學(xué)界就開始探究上述問題。不過真正意義上的探索始于1950年代中期。當(dāng)時(shí)生物化學(xué)家克里斯蒂安 · 安芬森(Christian Anfinsen)將蛋白質(zhì)添加到特定化學(xué)溶液里,以破壞蛋白質(zhì)的化學(xué)鍵使其不再折疊或錯(cuò)誤折疊,然后觀察下一步反應(yīng)。安芬森發(fā)現(xiàn),不折疊或錯(cuò)誤折疊的蛋白質(zhì)能自發(fā)地重新折疊成正確結(jié)構(gòu)。這一后來為他贏得諾貝爾獎(jiǎng)的發(fā)現(xiàn)證明了蛋白質(zhì)的三維形狀是由內(nèi)部編碼(氨基酸序列串)指導(dǎo)形成的。
因此,安芬森假設(shè),應(yīng)當(dāng)有一種方法可以根據(jù)蛋白質(zhì)的氨基酸序列預(yù)測(cè)其形狀。從此便有了所謂蛋白質(zhì)折疊問題。
多肽鏈只要組裝完成,就可于千分之一秒內(nèi)完成折疊,變作真正的蛋白質(zhì)。這個(gè)時(shí)間尺度讓分子生物學(xué)家賽勒斯 · 列文塔爾(Cyrus Levinthal)感到困惑。他在1969年論文《如何雅致地折疊》(How to Fold Graciously)中指出:如果蛋白質(zhì)嘗試所有可能的折疊方式,它將需要非常長(zhǎng)的時(shí)間才能組裝完成。他認(rèn)為,一定有某種東西讓蛋白質(zhì)更直接地沿正確路徑折疊。
隨著時(shí)間推移,蛋白質(zhì)折疊問題分化出一些新問題。當(dāng)時(shí)主要有三大問題:能否根據(jù)蛋白質(zhì)的氨基酸序列預(yù)測(cè)其結(jié)構(gòu)?指導(dǎo)折疊的編碼是什么?折疊機(jī)制是什么?
這些問題早在1960年代初就開始縈繞科學(xué)家腦海。彼時(shí)第一批通過實(shí)驗(yàn)確定的蛋白質(zhì)結(jié)構(gòu)問世。劍橋大學(xué)的兩位生物學(xué)家馬克斯 · 佩魯茨(Max Perutz)和約翰 · 肯德魯(John Kendrew)將蛋白質(zhì)培養(yǎng)成晶體,用X射線轟擊它們,并測(cè)量射線的彎曲程度——此項(xiàng)技術(shù)被稱為X射線晶體學(xué)。通過這種方式以及二十多年的努力,他們確定了血紅蛋白和肌紅蛋白的三維結(jié)構(gòu),后來因此共享諾貝爾獎(jiǎng)。
自那以后,大量研究人員不光分析各種蛋白質(zhì)的結(jié)構(gòu)形態(tài),還努力了解它們?cè)鯓诱郫B出這些結(jié)構(gòu)。
格拉斯哥大學(xué)結(jié)構(gòu)生物學(xué)家海倫 · 沃爾登(Helen Walden)表示:“想看清事物外觀是人類的本能,因?yàn)橹挥羞@樣你才能了解它們的功能?!庇行┤搜芯炕瘜W(xué)性質(zhì),另一些人研究物理學(xué)。實(shí)驗(yàn)人員通過艱苦、繁重的實(shí)驗(yàn)室工作重建蛋白質(zhì)形狀。計(jì)算生物學(xué)家借助模型尋找線索,使用不同的算法規(guī)則組合對(duì)其進(jìn)行編程和重新編程。
隨著越來越多蛋白質(zhì)結(jié)構(gòu)的出現(xiàn),蛋白質(zhì)科學(xué)界需要一種能組織和共享這些結(jié)構(gòu)的方法。1971年,學(xué)界建立起蛋白質(zhì)數(shù)據(jù)庫(kù)。它作為一個(gè)蛋白質(zhì)結(jié)構(gòu)的檔案庫(kù),免費(fèi)對(duì)外開放,成為任何需要了解蛋白質(zhì)結(jié)構(gòu)以探究生物學(xué)問題的人的可靠工具。
蛋白質(zhì)數(shù)據(jù)庫(kù)剛開放時(shí),存有7種蛋白質(zhì)的結(jié)構(gòu)。近50年過后,谷歌DeepMind用它來訓(xùn)練AlphaFold2時(shí),面對(duì)的是超過14萬種蛋白質(zhì)結(jié)構(gòu)的儲(chǔ)備,而且每種結(jié)構(gòu)都是被結(jié)構(gòu)生物學(xué)家費(fèi)力解碼過的。
實(shí)驗(yàn)者的痛苦
從1970年代中期開始,結(jié)構(gòu)生物信息學(xué)家珍妮特 · 桑頓(Janet Thornton)每隔幾個(gè)月就會(huì)收到一份包裹。包裹內(nèi)是一盤約30厘米長(zhǎng)的磁帶,存儲(chǔ)著蛋白質(zhì)數(shù)據(jù)庫(kù)中新的蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)。桑頓會(huì)急切地拆開包裹并分析新結(jié)構(gòu)。她收到的第一盤磁帶上只有20個(gè)結(jié)構(gòu)。
每一個(gè)蛋白質(zhì)結(jié)構(gòu)背后都是研究人員多年的科研努力。博士生通常會(huì)花費(fèi)四年甚至更長(zhǎng)時(shí)間來結(jié)晶單個(gè)蛋白質(zhì),從中收集數(shù)據(jù)或解釋數(shù)據(jù)以找出折疊結(jié)構(gòu)。
那時(shí)桑頓所在的牛津大學(xué)生物物理系是全球X射線晶體學(xué)的中心之一。1965年,蛋白質(zhì)晶體學(xué)先驅(qū)之一戴維 · 菲利普斯(David Phillips)首次確定了溶菌酶的蛋白質(zhì)結(jié)構(gòu)(免疫系統(tǒng)依靠此酶攻擊細(xì)菌)。牛津大學(xué)的生物物理學(xué)家利用X射線晶體學(xué)繪制了蛋白質(zhì)電子密度圖。桑頓表示,她和同事將這些電子密度圖打印到塑料片上,并將它們一張疊一張地堆起來,從而繪制出蛋白質(zhì)形貌的“等高線圖”。
之后,他們將蛋白質(zhì)的“地形圖”轉(zhuǎn)換成物理模型。生物物理學(xué)家弗雷德里克 · 理查茲(Frederic Richards)于1968年發(fā)明了理查茲盒(以他的名字命名)。這是一種大型光學(xué)比較儀,能幫助晶體學(xué)家通過半鍍銀鏡觀察堆疊的電子密度片,以構(gòu)建蛋白質(zhì)結(jié)構(gòu)的物理模型。桑頓將由塑料片承載的地圖放入理查茲盒,盒內(nèi)一面傾斜的鏡子把地圖反射到工作區(qū),讓觀察者準(zhǔn)確看清每個(gè)原子相對(duì)其他原子的位置。然后,他們用球和棍構(gòu)建物理模型。
這種方法既煩瑣又受限制。1971年,后來成為著名晶體學(xué)家的路易斯 · 約翰遜(Louise Johnson)正努力給磷酸化酶建模。磷酸化酶含842個(gè)氨基酸,是當(dāng)時(shí)研究過的最大蛋白質(zhì)。為了建模,約翰遜必須爬上梯子,進(jìn)入一個(gè)兩層樓的理查茲箱。
模型完成后,科學(xué)家用尺子測(cè)量原子之間的距離,得出蛋白質(zhì)結(jié)構(gòu)的坐標(biāo)。然后他們將坐標(biāo)輸入計(jì)算機(jī)。桑頓表示,計(jì)算機(jī)版本看起來像一片茂密的森林,原子雜亂地聚集在一起。只有通過3D眼鏡觀察結(jié)構(gòu)時(shí),她才能看到蛋白質(zhì)的拓?fù)浣Y(jié)構(gòu)。
桑頓說道:“這是個(gè)非常痛苦的過程,但最后還是完成了,真是太神奇了。”
經(jīng)過年復(fù)一年的艱苦努力,他們終于達(dá)成了研究目標(biāo)。只要是自己有信心的蛋白質(zhì)結(jié)構(gòu),科學(xué)家就將其提交至蛋白質(zhì)數(shù)據(jù)庫(kù)。到1984年,庫(kù)內(nèi)已存152種蛋白質(zhì);到1992年,存儲(chǔ)量更是高達(dá)747種。
當(dāng)實(shí)驗(yàn)人員努力構(gòu)建物理模型時(shí),計(jì)算科學(xué)家嘗試另一條路徑來解決問題。安芬森相信蛋白質(zhì)結(jié)構(gòu)可以通過氨基酸序列預(yù)測(cè)得到,計(jì)算派當(dāng)然也認(rèn)同此觀點(diǎn),但他們對(duì)預(yù)測(cè)結(jié)構(gòu)一事過于樂觀了。
制定自己的規(guī)則
1960年代初,約翰 · 莫爾特還是個(gè)想做物理學(xué)家的本科生。后來他了解到蛋白質(zhì)折疊問題?!坝腥藖碜鲋v座,說生物學(xué)太重要了,不能把它留給生物學(xué)家。我不知深淺地當(dāng)真了?!蹦獱柼乇簧钌钗?,然后改變了生涯規(guī)劃。
畢業(yè)后,莫爾特開始研究蛋白質(zhì)晶體學(xué)。他破譯了幾種蛋白質(zhì)的結(jié)構(gòu),包括β-內(nèi)酰胺酶(一種能破壞青霉素的細(xì)菌酶),并于1970年獲得牛津大學(xué)分子生物物理學(xué)博士學(xué)位。但當(dāng)他開始博士后研究時(shí),實(shí)驗(yàn)派方法令其厭倦,他選擇轉(zhuǎn)向日益發(fā)展的蛋白質(zhì)計(jì)算領(lǐng)域。不同于實(shí)驗(yàn)派,計(jì)算生物學(xué)家嘗試編寫算法來證明安芬森的理論正確:只要給程序輸入一串氨基酸,就可生成正確的蛋白質(zhì)結(jié)構(gòu)。
從生物實(shí)驗(yàn)到計(jì)算機(jī)的轉(zhuǎn)變并不容易。莫爾特解決單個(gè)蛋白質(zhì)結(jié)構(gòu)問題時(shí)習(xí)慣慢工出細(xì)活。在新領(lǐng)域,計(jì)算派的論文常常聲稱已經(jīng)解決了蛋白質(zhì)折疊問題以及相關(guān)子問題。莫爾特對(duì)此表示懷疑。
在虛擬世界里,若自然世界的法則行不通,計(jì)算派學(xué)者會(huì)編寫自己的規(guī)則。他們?cè)O(shè)計(jì)算法,使原子以某種方式粘在一起,或控制蛋白質(zhì)總是折疊向右或向左。日積月累,模型離現(xiàn)實(shí)越來越遠(yuǎn)。
盡管如此,莫爾特還是看到了兩派各自的價(jià)值。實(shí)驗(yàn)派的工作精確但緩慢;計(jì)算派的工作快速卻與真實(shí)的生物物理相差很大,因此常有謬誤。
他相信,一定有某種方法可以結(jié)合實(shí)驗(yàn)與計(jì)算的優(yōu)點(diǎn)。
“跺木地板”
1990年代初,莫爾特與同事克日什托夫 · 菲德利斯(Krzysztof Fidelis)發(fā)起一項(xiàng)社區(qū)科學(xué)實(shí)驗(yàn),即前文提到的CASP。
作為CASP的組織者,莫爾特和菲德利斯會(huì)發(fā)布一份蛋白質(zhì)氨基酸序列的列表。這些蛋白質(zhì)的結(jié)構(gòu)都是不久前被實(shí)驗(yàn)人員破譯并提供給他們的,但破譯結(jié)果尚未公布。來自全球各地的計(jì)算團(tuán)隊(duì)會(huì)盡最大努力,利用能用的任何方法來預(yù)測(cè)結(jié)構(gòu)。針對(duì)參與者建立的模型,會(huì)有一個(gè)獨(dú)立的科學(xué)家小組通過比較計(jì)算結(jié)果與實(shí)驗(yàn)證實(shí)的結(jié)構(gòu)來做評(píng)估。
CASP很快成為蛋白質(zhì)折疊問題的計(jì)算模型試驗(yàn)場(chǎng)。當(dāng)時(shí)AI尚未誕生,計(jì)算方法涉及分子物理學(xué)的模擬。CASP是科學(xué)家進(jìn)行公開試驗(yàn)以檢驗(yàn)自己想法的平臺(tái)。桑頓說道:“這本不是比賽,卻變成了比賽?!?/p>
CASP每?jī)赡昱e辦一次,參會(huì)的科學(xué)家相聚加州蒙特雷的阿西洛馬會(huì)議中心。除了聽到比賽結(jié)果,計(jì)算派學(xué)者們還會(huì)談?wù)撟约旱姆椒?。莫爾特鼓?lì)參會(huì)者在聽到不喜歡的內(nèi)容時(shí),跺木地板。
曾師從桑頓的倫敦大學(xué)學(xué)院生物信息學(xué)教授戴維 · 瓊斯(David Jones)回憶道:如果討論陷入細(xì)節(jié),生物學(xué)家就會(huì)跺腳;如果某個(gè)主張被夸大了,他們也跺腳;如果發(fā)言者說話重復(fù)啰嗦,也免不了跺腳伺候……不過瓊斯指出,那是友好的跺腳,“并不令人討厭”。瓊斯表示,有一年,他與同事提出一種叫作“線程”(threading)的計(jì)算方法:氨基酸按已知的蛋白質(zhì)結(jié)構(gòu)被編織成特定序列,以尋找相互匹配的序列和結(jié)構(gòu)。 “這個(gè)方法令我們非常高興,可后來就不靈了……”瓊斯笑著回憶道。
當(dāng)被問及彼時(shí)CASP的成果如何時(shí),莫爾特選擇用好壞不一來形容。有些方法表現(xiàn)超出預(yù)期,比如“同源建?!保赐ㄟ^比較已知蛋白質(zhì)的結(jié)構(gòu)來推斷未知蛋白質(zhì)的結(jié)構(gòu);另一些方法則一無所獲。莫爾特說,大多數(shù)結(jié)構(gòu)預(yù)測(cè)都是“看上去很痛苦的物體”。
荷蘭癌癥研究所和烏得勒支大學(xué)的結(jié)構(gòu)生物學(xué)家阿納斯塔西斯 · 佩拉基斯(Anastassis Perrakis)開玩笑道:“我很高興看到他們失敗,我們喜歡在科學(xué)上互相取笑?!迸謇关?fù)責(zé)將實(shí)驗(yàn)確定的結(jié)構(gòu)提供給CASP組織者用于比賽。
在競(jìng)逐與取笑的過程中,有人開始引領(lǐng)前沿。
1996年,第二屆CASP結(jié)束后,一位名叫大衛(wèi) · 貝克(David Baker)的年輕人邀請(qǐng)瓊斯一起打的去機(jī)場(chǎng)。貝克聽過瓊斯的演說。當(dāng)時(shí)正研究自己的計(jì)算模型的他其實(shí)沒有為CASP2準(zhǔn)備好模型,但他想聊聊。瓊斯在車?yán)锫犃怂南敕?,從沒想過會(huì)再次見到他。
在1998年舉辦的CASP3上,貝克憑借其Rosetta算法一鳴驚人。瓊斯認(rèn)為他成了“最強(qiáng)選手”。Rosetta等算法模擬氨基酸分子的原子之間的相互作用,從而預(yù)測(cè)它們的折疊方式。不過貝克表示,算法“還不夠好,也不夠準(zhǔn)確,還難以發(fā)揮作用”。
2008年,人類智能仍碾壓計(jì)算機(jī)的時(shí)候,已在華盛頓大學(xué)管理自己實(shí)驗(yàn)室的貝克開發(fā)出一款名為Foldit的免費(fèi)網(wǎng)游——游戲玩家需將氨基酸序列折疊成蛋白質(zhì)結(jié)構(gòu)。貝克團(tuán)隊(duì)于《自然》(Nature)雜志發(fā)表論文稱,F(xiàn)oldit的人類玩家在蛋白質(zhì)建模方面的表現(xiàn)優(yōu)于Rosetta。
不過人類的領(lǐng)先優(yōu)勢(shì)并未持續(xù)多久。2010年代初,共同進(jìn)化這一概念的重大突破推動(dòng)了領(lǐng)域發(fā)展,后來又被證明對(duì)人工智能至關(guān)重要。已存在幾十年的共同進(jìn)化概念其實(shí)很簡(jiǎn)單:通過仔細(xì)比較千百種蛋白質(zhì)中相關(guān)的氨基酸序列,科學(xué)家可以識(shí)別出發(fā)生突變的氨基酸,關(guān)鍵在于,能確定它們是否與其他氨基酸同步突變。如果兩種氨基酸一起變化,它們很可能以某種方式相關(guān)聯(lián)。
但在2010年代初以前,這種預(yù)測(cè)工作的準(zhǔn)確度始終欠佳,徘徊于20%~24%的水平。后來計(jì)算派注意到自己統(tǒng)計(jì)方法有錯(cuò):將一些本無聯(lián)系的氨基酸認(rèn)定為相關(guān)。
完善了統(tǒng)計(jì)工具后,2016年,預(yù)測(cè)準(zhǔn)確率升至47%。又過兩年,這一數(shù)字變作70%。貝克的算法建立于這一成功的預(yù)測(cè)基礎(chǔ):2014年,Rosetta生成了兩種蛋白質(zhì)結(jié)構(gòu),其準(zhǔn)確率之高令CASP評(píng)判員認(rèn)為貝克可能已經(jīng)解決了蛋白質(zhì)折疊問題。
勞倫斯伯克利國(guó)家實(shí)驗(yàn)室的結(jié)構(gòu)生物學(xué)家保羅 · 亞當(dāng)斯(Paul Adams)表示,共同進(jìn)化的見解“太棒了”。在未使用機(jī)器學(xué)習(xí)的情況下,共同進(jìn)化是“真正推動(dòng)該領(lǐng)域向前發(fā)展的重大事件之一”。
然而,該研究領(lǐng)域目前的發(fā)展還很有限。共同進(jìn)化需要大量相似的蛋白質(zhì)用于比較,而實(shí)驗(yàn)人員解決蛋白質(zhì)結(jié)構(gòu)的速度不夠快,無法滿足計(jì)算人員的需求。
=============第2部分=============
走出深淵
2016年,戴維 · 瓊斯于《自然》雜志撰文勾勒未來。谷歌DeepMind團(tuán)隊(duì)的研究人員詳細(xì)介紹他們的算法如何利用所謂“深度學(xué)習(xí)”在圍棋博弈中擊敗人類頂尖棋手。
深度學(xué)習(xí)是一種人工智能,其靈感源于人類大腦。大腦中的分子信息通過一個(gè)相互連接的腦細(xì)胞(稱為神經(jīng)元)網(wǎng)絡(luò)發(fā)送。神經(jīng)元的樹突就像手臂,抓住相鄰神經(jīng)元發(fā)送的分子,而這些分子會(huì)告訴接收它們的神經(jīng)元是否放電并傳播信號(hào)。
布朗大學(xué)計(jì)算機(jī)科學(xué)教授邁克爾 · 利特曼(Michael Littman)指出:“如果某個(gè)神經(jīng)元的活動(dòng)足夠多,它就會(huì)放電。”
1950年代,計(jì)算機(jī)科學(xué)家意識(shí)到他們可以將電子比特連接在一起以創(chuàng)建“神經(jīng)網(wǎng)絡(luò)”。神經(jīng)網(wǎng)絡(luò)的每個(gè)單元都是一個(gè)節(jié)點(diǎn),相當(dāng)于大腦的一個(gè)神經(jīng)元:神經(jīng)元A1從其他神經(jīng)元,比如A0處接收信息,然后計(jì)算是否向下一個(gè)神經(jīng)元,比如A2處發(fā)射信號(hào)。在神經(jīng)網(wǎng)絡(luò)中,信息在多層神經(jīng)元之間傳播以產(chǎn)生特定結(jié)果,例如從某圖像中識(shí)別出狗。
利特曼表示,神經(jīng)元層數(shù)越多,可執(zhí)行的計(jì)算就越復(fù)雜。但早期神經(jīng)網(wǎng)絡(luò)僅兩層。1990年代,層數(shù)增加至三層,并于此后20年間一直保持該水平?!拔覀儫o法確定如何可靠地創(chuàng)建比這更深層的網(wǎng)絡(luò)?!?/p>
自1990年代以來,包括瓊斯和莫爾特在內(nèi)的結(jié)構(gòu)生物學(xué)家就一直嘗試在蛋白質(zhì)科學(xué)中應(yīng)用神經(jīng)網(wǎng)絡(luò),但淺層網(wǎng)絡(luò)和稀疏數(shù)據(jù)的局限阻礙了發(fā)展。到2010年代初期,計(jì)算科學(xué)家學(xué)會(huì)了如何更好地構(gòu)建神經(jīng)網(wǎng)絡(luò),從而更高水平地訓(xùn)練更多層。網(wǎng)絡(luò)深度增加到20、50、100甚至數(shù)千層。利特曼說道:“為將其與90年代的方法區(qū)分開,人們開始稱之為深度學(xué)習(xí)?!?/p>
深度學(xué)習(xí)改變了人工智能,產(chǎn)出了擅長(zhǎng)識(shí)別照片或聲音特征的算法。而且事實(shí)證明,它能在智力對(duì)決中擊敗人類。
2016年3月,DeepMind聯(lián)合創(chuàng)始人德米斯 · 哈薩比斯(Demis Hassabis)在首爾見證了他的AI系統(tǒng)AlphaGo擊敗圍棋世界冠軍李世石。那時(shí)他也回想起自己大學(xué)期間玩Foldit的情景:如果DeepMind的研究人員可以編寫一種算法來模仿圍棋大師的直覺,是不是也能寫出模仿Foldit游戲玩家直覺的算法——雖對(duì)生物學(xué)一無所知,卻善于折疊蛋白質(zhì)?
芝加哥豐田技術(shù)學(xué)院的許錦波教授也預(yù)見到通過深度學(xué)習(xí)解決蛋白質(zhì)折疊問題的前景。這些網(wǎng)絡(luò)在圖像識(shí)別領(lǐng)域的應(yīng)用啟發(fā)了他。當(dāng)時(shí),計(jì)算科學(xué)家已經(jīng)在卷積網(wǎng)絡(luò)方面取得了巨大成功(卷積網(wǎng)絡(luò)可編寫深度學(xué)習(xí)算法,從而將圖像分解成碎片,并識(shí)別它們之間的模式)。許錦波將該技術(shù)應(yīng)用于蛋白質(zhì)折疊。他使用矩陣來表示哪些氨基酸在空間上靠得很近,然后將數(shù)據(jù)作為圖像輸入卷積網(wǎng)絡(luò)。算法從圖像中尋找模式,以預(yù)測(cè)組成蛋白質(zhì)的原子的三維坐標(biāo)。
2016年,許教授于arxiv.org發(fā)布了上述研究的預(yù)印本文章,并正式發(fā)表在《PlOS計(jì)算生物學(xué)》(PLOS Computational Biology)雜志上。莫爾特表示,此項(xiàng)工作對(duì)該領(lǐng)域“影響頗大”,向人們展示了“深度學(xué)習(xí)能做到什么”。
不久后,蛋白質(zhì)結(jié)構(gòu)研究小組開始涉足深度學(xué)習(xí)。艾爾庫(kù)萊希及其團(tuán)隊(duì)率先開發(fā)出一種能直接使用神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)的方法,即所謂的“端到端”方法,但效果并不好。
瓊斯說道:“我并不確切知道自己想用深度學(xué)習(xí)做什么,但我明白自己需要搞深度學(xué)習(xí)。”
在收到谷歌DeepMind詢問CASP競(jìng)賽情況的郵件前,瓊斯已經(jīng)開始撰寫資助申請(qǐng),希望加入前者團(tuán)隊(duì)。“他當(dāng)然也回復(fù)表示愿意提供幫助,我當(dāng)時(shí)以為他們只想秀一秀強(qiáng)大的計(jì)算機(jī)實(shí)力。但會(huì)面后,我發(fā)現(xiàn)谷歌的野心非常大。”
新玩家
2016年,當(dāng)瓊斯開始擔(dān)任DeepMind的顧問,負(fù)責(zé)后來被稱為AlphaFold的項(xiàng)目時(shí),約翰 · 江珀正于芝加哥大學(xué)攻讀理論化學(xué)博士學(xué)位。
十幾歲時(shí),江珀自學(xué)了計(jì)算機(jī)編程。他還擅長(zhǎng)物理。因此上大學(xué)后,他決定專攻數(shù)學(xué)和物理。他的工程師父母都曾擔(dān)心他以后找不到工作。
在范德堡大學(xué)讀本科時(shí),江珀與費(fèi)米國(guó)家加速器實(shí)驗(yàn)室的研究人員合作,研究亞原子粒子夸克的奇異性質(zhì)。一天,與同事坐一塊兒吃午餐時(shí),他受到了刺激。江珀問同事:“我們正在搞的這個(gè)實(shí)驗(yàn),什么時(shí)候能搞出點(diǎn)名堂來?”其中一位教授表示可能要等到自己退休以后了,另一位年紀(jì)更大些的教授則說自己可能活不到那天了。
江珀說道:“我想在更短的時(shí)間內(nèi)完成科學(xué)研究?!北究飘厴I(yè)后的他開始攻讀凝聚態(tài)物理學(xué)博士學(xué)位,但很快就退學(xué)了,之后得到紐約一家生物化學(xué)研究公司——蕭爾研究有限公司(D. E. Shaw Research)的工作。該公司當(dāng)時(shí)正創(chuàng)建蛋白質(zhì)的基本模擬,希望通過了解蛋白質(zhì)如何移動(dòng)和變化,更深刻揭示肺癌等各種疾病的機(jī)制。
這是江珀第一次意識(shí)到自己工作的潛在意義。在接下來的三年里,江珀在公司的超級(jí)計(jì)算機(jī)上模擬蛋白質(zhì)運(yùn)動(dòng),這些計(jì)算機(jī)專為更快速模擬分子而打造?!拔以谀硞€(gè)工作日的模擬量比我讀博期間所做的全加一塊兒都要多。”
2011年,他再次嘗試讀研,進(jìn)入芝加哥大學(xué)學(xué)習(xí)理論化學(xué)。他仍對(duì)蛋白質(zhì)結(jié)構(gòu)和運(yùn)動(dòng)感興趣,同時(shí)也為學(xué)術(shù)界緩慢的進(jìn)展而沮喪。他想知道能否借助人工智能——“當(dāng)時(shí)我們稱之為統(tǒng)計(jì)物理學(xué)”——達(dá)到快速模擬的程度。他開始涉足機(jī)器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)。
在此期間,他思索著蛋白質(zhì)折疊問題并猜測(cè),來自蛋白質(zhì)數(shù)據(jù)庫(kù)的訓(xùn)練數(shù)據(jù)可用于解決這個(gè)問題。至2012年,該數(shù)據(jù)庫(kù)已包含超過76 000種蛋白質(zhì)結(jié)構(gòu)。“我相信數(shù)據(jù)足夠了,但想法不夠?!?/p>
2017年,江珀聽聞DeepMind將進(jìn)軍蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)領(lǐng)域。當(dāng)時(shí)他剛剛完成博士學(xué)位——正利用機(jī)器學(xué)習(xí)模擬蛋白質(zhì)折疊和動(dòng)力學(xué)。他申請(qǐng)了研究科學(xué)家的職位。當(dāng)時(shí)“該項(xiàng)目仍處于保密狀態(tài)”。
2017年10月,他來到DeepMind位于倫敦的辦公室。在顧問瓊斯幫助下,團(tuán)隊(duì)深入開發(fā)AlphaFold。瓊斯回憶道:“那是段非常有趣的時(shí)光。我們把能想到的各種想法都擺出來討論。最終,一個(gè)很棒的核心思路出現(xiàn)了,接下來就是付諸實(shí)踐。”
為訓(xùn)練算法,DeepMind團(tuán)隊(duì)使用了來自蛋白質(zhì)數(shù)據(jù)庫(kù)的14多萬個(gè)結(jié)構(gòu)。他們將這些信息輸入卷積網(wǎng)絡(luò),但未對(duì)AI架構(gòu)本身做太多改變。江珀表示這是“標(biāo)準(zhǔn)的機(jī)器學(xué)習(xí)”。
到2018年春天,AlphaFold已為參加CASP做好準(zhǔn)備,欲與真正的蛋白質(zhì)科學(xué)家較量。不過DeepMind團(tuán)隊(duì)曾爭(zhēng)論是否匿名參賽,因?yàn)樗麄兣聛G面子。
團(tuán)隊(duì)后來決定以谷歌 DeepMind之名提交成果。在12月會(huì)議召開的幾個(gè)月前,瓊斯收到CASP組織者的來信。后者建議DeepMind團(tuán)隊(duì)參加會(huì)議,因?yàn)锳lphaFold確實(shí)表現(xiàn)優(yōu)異。
最終,AlphaFold以2.5倍于第二名團(tuán)隊(duì)的成績(jī)斬獲佳績(jī)。這次華麗登場(chǎng)給眾人留下了深刻印象。
重啟算法
但DeepMind團(tuán)隊(duì)很清楚,他們離解決蛋白質(zhì)折疊問題還差很遠(yuǎn)。哈薩比斯幾個(gè)月前就召集了他們,并向各位發(fā)問:“我們到底要不要解決這個(gè)問題?”江珀回憶他當(dāng)時(shí)說的話:如果不行,那就讓我們找到可以產(chǎn)生真正巨大影響的問題吧。
憑借在物理、化學(xué)、生物和計(jì)算方面的多學(xué)科背景,江珀為頭腦風(fēng)暴會(huì)議帶來獨(dú)到見解。很快,他就領(lǐng)導(dǎo)了團(tuán)隊(duì)。
后來創(chuàng)立AI驅(qū)動(dòng)生物技術(shù)公司Atomic AI的拉斐爾 · 湯森(Raphael Townshend)曾于2019年在DeepMind實(shí)習(xí)。學(xué)術(shù)界的專家們往往缺少合作交流,自顧自開展科研項(xiàng)目。而在DeepMind,統(tǒng)計(jì)學(xué)、結(jié)構(gòu)生物學(xué)、計(jì)算化學(xué)、軟件工程等領(lǐng)域的專家共同研究蛋白質(zhì)折疊問題,他們背后還有谷歌龐大的財(cái)務(wù)和計(jì)算資源。湯森還表示,倫敦的DeepMind辦公室充滿活力,而大部分活力都來自江珀。計(jì)算科學(xué)家艾倫 · 鐘(Ellen Zhong)2021年時(shí)在DeepMind實(shí)習(xí),現(xiàn)為普林斯頓大學(xué)的助理教授。她也認(rèn)為:“江珀是個(gè)真正的天才,也是一個(gè)很謙虛的人。他深受團(tuán)隊(duì)愛戴?!?/p>
在江珀的領(lǐng)導(dǎo)下,AlphaFold得以重建。湯森表示,DeepMind設(shè)計(jì)了一種新型的轉(zhuǎn)換器架構(gòu)——這種深度學(xué)習(xí)“為過去五年間發(fā)生的每一項(xiàng)機(jī)器學(xué)習(xí)突破提供了動(dòng)力”。該神經(jīng)網(wǎng)絡(luò)調(diào)整了連接強(qiáng)度,以創(chuàng)建更準(zhǔn)確的數(shù)據(jù)(關(guān)于蛋白質(zhì)進(jìn)化和結(jié)構(gòu)的數(shù)據(jù))。它通過另一個(gè)轉(zhuǎn)換器運(yùn)行該數(shù)據(jù),從而預(yù)測(cè)蛋白質(zhì)三維結(jié)構(gòu)。然后,算法通過將其與一些修訂后的數(shù)據(jù)一起通過轉(zhuǎn)換器運(yùn)行多次,進(jìn)一步完善結(jié)構(gòu)。
當(dāng)江珀團(tuán)隊(duì)剛開始研究AlphaFold2時(shí),他們的算法“很糟糕”,但通過進(jìn)一步完善,算法預(yù)測(cè)的效率和準(zhǔn)確性有了飛躍。
團(tuán)隊(duì)決定進(jìn)行內(nèi)部實(shí)驗(yàn),看看他們打造的系統(tǒng)是否有助于生物學(xué)家。實(shí)驗(yàn)結(jié)果轉(zhuǎn)化為大約50篇刊載于《科學(xué)》《自然》和《細(xì)胞》等頂尖刊物的論文——不僅描述了新的蛋白質(zhì)結(jié)構(gòu),還從結(jié)構(gòu)中獲得了有關(guān)蛋白質(zhì)功能的見解。江珀等人想確定,AlphaFold2是否真能經(jīng)得起實(shí)驗(yàn)派工作的檢驗(yàn)。
他們向系統(tǒng)輸入氨基酸序列,AlphaFold2運(yùn)行其預(yù)測(cè)引擎。對(duì)于每個(gè)序列,它都能給出接近論文提出的實(shí)驗(yàn)結(jié)構(gòu)的預(yù)測(cè)。但團(tuán)隊(duì)認(rèn)為它還不夠準(zhǔn)確,這些結(jié)構(gòu)缺少實(shí)驗(yàn)人員了解的有關(guān)蛋白質(zhì)的關(guān)鍵細(xì)節(jié)。
在接下來6個(gè)月里,團(tuán)隊(duì)小步快跑地不斷優(yōu)化系統(tǒng)。到2020年CASP競(jìng)賽的蛋白質(zhì)候選物發(fā)布的幾周前,他們進(jìn)行了另一次實(shí)用性測(cè)試。江珀對(duì)結(jié)果很滿意。DeepMind于2020年春季向CASP提交了預(yù)測(cè)結(jié)果,然后等待回復(fù)。
行業(yè)巨震
初夏時(shí)節(jié),莫爾特收到了一封CASP評(píng)估員發(fā)來的郵件。郵件附有DeepMind解析的蛋白質(zhì)結(jié)構(gòu),并指出:“看看這個(gè),太厲害了?!蹦獱柼匾操潎@不已,但他認(rèn)為自己眼前的只是個(gè)例。
后來他又收到第二封郵件,以及第三封、第四封……一大堆近乎完美的蛋白質(zhì)預(yù)測(cè)全部來自DeepMind。到了夏末,“我們很快意識(shí)到……行業(yè)正經(jīng)歷大變革?!?/p>
CASP評(píng)估員將預(yù)測(cè)的蛋白質(zhì)結(jié)構(gòu)與已證實(shí)的實(shí)驗(yàn)結(jié)構(gòu)進(jìn)行比較,從而對(duì)參賽者提交每份的論文做出評(píng)分。滿分為100分,代表模型與現(xiàn)實(shí)是逐個(gè)原子相匹配的。莫爾特一直認(rèn)為,任何超過90分的評(píng)估結(jié)果都表明算法已有效解決蛋白質(zhì)結(jié)構(gòu)問題。AlphaFold的大多數(shù)結(jié)構(gòu)都達(dá)到或超過了90分。
從某種意義上說,DeepMind確實(shí)解決了蛋白質(zhì)折疊問題的預(yù)測(cè)部分。AlphaFold2能根據(jù)蛋白質(zhì)的氨基酸序列準(zhǔn)確給出蛋白質(zhì)結(jié)構(gòu)。瓊斯感慨道:“我最喜歡的項(xiàng)目死了,DeepMind終結(jié)了它。”
多年來,佩拉基斯一直向CASP競(jìng)賽貢獻(xiàn)未發(fā)表的實(shí)驗(yàn)結(jié)果。當(dāng)他看到自己團(tuán)隊(duì)辛苦實(shí)驗(yàn)得來的結(jié)構(gòu)被AlphaFold2完美預(yù)測(cè)時(shí),他屬實(shí)有點(diǎn)心情復(fù)雜。
=============第 3 部分=============
震撼與敬畏
結(jié)構(gòu)生物學(xué)領(lǐng)域的結(jié)構(gòu)突然凌亂了。
帕多瓦大學(xué)生物信息學(xué)教授西爾維奧 · 托薩托(Silvio Tosatto)自CASP成立之初就一直參賽。用托薩托的話說,面對(duì)顛覆行業(yè)的AlphaFold2,“我們進(jìn)行了大量自我反省”,一些結(jié)構(gòu)生物學(xué)家擔(dān)心自己的工作會(huì)被淘汰,另一些人則聲稱AlphaFold2并不準(zhǔn)確。
計(jì)算生物學(xué)家一直在努力解決蛋白質(zhì)折疊問題,有些人甚至已為此奮斗幾十年。AlphaFold2的登場(chǎng)讓他們心中五味雜陳。CASP大賽結(jié)束后,艾爾庫(kù)萊希發(fā)表感慨:“就像在面對(duì)自己孩子第一次離家?!?/p>
許多科學(xué)家因AlphaFold2欣喜若狂。那些不做結(jié)構(gòu)研究的學(xué)者過去必須與結(jié)構(gòu)生物學(xué)家合作才能確定蛋白質(zhì)結(jié)構(gòu)?,F(xiàn)在,只需動(dòng)動(dòng)手指按按鍵,理想結(jié)構(gòu)就擺在眼前。
媒體報(bào)道中的AlphaFold2是無與倫比的AI新突破,不過科學(xué)家倒是花費(fèi)數(shù)月甚至數(shù)年時(shí)間才弄清楚AlphaFold2究竟能做什么,不能做什么。佩拉基斯回憶道:“AlphaFold2發(fā)布后的第二天,我們就試圖安裝使用它。”生物學(xué)家開始行動(dòng)。
很多情況下,結(jié)構(gòu)生物學(xué)家以發(fā)現(xiàn)蛋白質(zhì)的功能為目標(biāo)。借助 AlphaFold2,他們能于幾分鐘內(nèi)提出假設(shè),而不必等待數(shù)月甚至數(shù)年直至實(shí)驗(yàn)確定結(jié)構(gòu)。然而,AlphaFold2并未如某些人預(yù)期那樣立即產(chǎn)出各種新藥——研究人員很快發(fā)現(xiàn)其局限性。AlphaFold2的預(yù)測(cè)并不完美,結(jié)果仍然需要實(shí)驗(yàn)驗(yàn)證,但可以幫助研究人員更快地轉(zhuǎn)向?qū)嶋H的結(jié)構(gòu)研究。
這種轉(zhuǎn)變已經(jīng)開始。2022年6月,《科學(xué)》雜志的一期特刊揭示了人類核孔復(fù)合體的近原子結(jié)構(gòu)。過去幾十年間,這種由30種不同蛋白質(zhì)構(gòu)成、巨大而復(fù)雜的結(jié)構(gòu)一直是生物學(xué)難題??茖W(xué)家利用AlphaFold2預(yù)測(cè)填補(bǔ)了冷凍電鏡難以解構(gòu)蛋白質(zhì)結(jié)構(gòu)的缺口。
江珀表示,看到那篇關(guān)于AlphaFold2助力其他學(xué)者取得生物學(xué)突破的論文后,“我意識(shí)到AlphaFold真的非常重要”。
一些生物學(xué)家已經(jīng)開始研究 AlphaFold2 的用途,而不僅僅是辨別已知蛋白質(zhì)的結(jié)構(gòu)和功能,甚至設(shè)計(jì)自然界中不存在的蛋白質(zhì)——這是幫助設(shè)計(jì)新型藥物的關(guān)鍵技術(shù)。
下一個(gè)前沿
在2020年CASP大賽上看過江珀演講后,貝克幾乎立刻重啟他的Rosetta算法研究。當(dāng)時(shí)谷歌尚未分享AlphaFold2的底層源代碼。盡管如此,“我們還是開始嘗試他們提出的一些想法”。谷歌DeepMind于《自然》雜志發(fā)表AlphaFold2的同一天,貝克團(tuán)隊(duì)也宣布RoseTTAFold的到來。
作為同樣高度精準(zhǔn)的AlphaFold挑戰(zhàn)者,RoseTTAFold也使用深度學(xué)習(xí)預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu),但其底層架構(gòu)與AlphaFold2 截然不同。
托薩托指出:“某個(gè)科學(xué)理念被提出后,人們可能對(duì)其做逆向工程并嘗試以它為基礎(chǔ)進(jìn)行構(gòu)建?!?/p>
RoseTTAFold并非孤軍奮戰(zhàn)。其他AlphaFold的競(jìng)爭(zhēng)對(duì)手,包括Meta,都設(shè)計(jì)了自己的算法以求解決蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)及相關(guān)問題。包括湯森的Atomic AI在內(nèi)的一些公司已將研究范圍擴(kuò)展到蛋白質(zhì)之外,利用深度學(xué)習(xí)理解RNA結(jié)構(gòu)。
不過在單一結(jié)構(gòu)預(yù)測(cè)領(lǐng)域,用桑頓的話說,“迄今仍無人能與AlphaFold比肩準(zhǔn)確性”。
貝克和江珀延續(xù)了CASP建立的富有科學(xué)生產(chǎn)力的競(jìng)爭(zhēng)傳統(tǒng)。貝克表示:“他們可能覺得我在與他們競(jìng)爭(zhēng),但我覺得他們激勵(lì)了我們前行?!苯暌矚g迎這樣的競(jìng)爭(zhēng)。
繼續(xù)前進(jìn)的貝克現(xiàn)在重點(diǎn)關(guān)注蛋白質(zhì)科學(xué)的一個(gè)新領(lǐng)域:蛋白質(zhì)設(shè)計(jì)。根據(jù)他的設(shè)想,生物學(xué)家不應(yīng)受限于大自然已經(jīng)發(fā)明的蛋白質(zhì)列表,人類要自己設(shè)計(jì)新型蛋白質(zhì)——能分解塑料的,能利用陽(yáng)光的,能作為藥物或疫苗基礎(chǔ)的……
擔(dān)任華盛頓大學(xué)蛋白質(zhì)設(shè)計(jì)研究所主任的貝克表示,蛋白質(zhì)設(shè)計(jì)本質(zhì)上是“逆蛋白質(zhì)折疊問題”。蛋白質(zhì)設(shè)計(jì)師不再將氨基酸序列輸入深度學(xué)習(xí)算法,等待其輸出蛋白質(zhì)結(jié)構(gòu),而是反向操作:向系統(tǒng)輸入結(jié)構(gòu),要求它輸出序列。反向操作完成后,設(shè)計(jì)師使用該氨基酸序列在實(shí)驗(yàn)室里構(gòu)建蛋白質(zhì)。
貝克還更新了前文介紹蛋白質(zhì)折疊游戲Foldit,將他的癡迷融入其中:玩家不再構(gòu)建蛋白質(zhì)結(jié)構(gòu),而是設(shè)計(jì)蛋白質(zhì)。改版帶來驚喜,貝克的實(shí)驗(yàn)室已圍繞幾種出自玩家手筆的蛋白質(zhì)撰寫論文。全球頂尖的Foldit玩家之一現(xiàn)已是研究生,與貝克的一位同事在華盛頓大學(xué)共事。
信任練習(xí)
AlphaFold2的成功無疑改變了生物學(xué)家對(duì)人工智能的態(tài)度。推動(dòng)卷積網(wǎng)絡(luò)發(fā)展的計(jì)算生物學(xué)家許錦波說道:“生物學(xué)家現(xiàn)在相信我們的東西了,以前他們總懷疑預(yù)測(cè)結(jié)果的可靠性。”
AlphaFold2平臺(tái)的一個(gè)功能就是發(fā)揮這種信任的作用:不僅生成蛋白質(zhì)3D模型,還可根據(jù)從0到100的置信度來給結(jié)構(gòu)的不同部分評(píng)分,完成對(duì)預(yù)測(cè)準(zhǔn)確性的自我評(píng)估。
2022 年7月,DeepMind發(fā)布2.18億種蛋白質(zhì)的結(jié)構(gòu)預(yù)測(cè)(幾乎涵蓋了世界上所有已知蛋白質(zhì))后,保羅 · 亞當(dāng)斯決定分析AlphaFold2的自我報(bào)告。他將這些預(yù)測(cè)與已有結(jié)構(gòu)進(jìn)行比較,并獨(dú)立評(píng)估其準(zhǔn)確性。
亞當(dāng)斯表示:“好消息是,當(dāng)AlphaFold認(rèn)為它正確時(shí),它通常就相當(dāng)正確;機(jī)器不信任時(shí),結(jié)果往往就錯(cuò)?!碑?dāng)然,當(dāng)AlphaFold2對(duì)預(yù)測(cè)“非常有信心”時(shí)(置信度量表上的得分至少達(dá)到90分),仍存在約10%的意外情況,即預(yù)測(cè)與實(shí)驗(yàn)結(jié)果不符。
大多數(shù)生物學(xué)家認(rèn)為AlphaFold2只是預(yù)測(cè)工具,但有些人把這工具用過頭了——這可能導(dǎo)致人們過度依賴其結(jié)論。一部分曾與結(jié)構(gòu)生物學(xué)家合作的細(xì)胞生物學(xué)家和生物化學(xué)家選擇用AlphaFold2取代老同事,并將機(jī)器預(yù)測(cè)視作真理。佩拉基斯指出,一些論文介紹的新蛋白質(zhì)結(jié)構(gòu)在任何結(jié)構(gòu)生物學(xué)家看來都錯(cuò)得明顯。但作者會(huì)說:“好吧,這就是AlphaFold提供的結(jié)構(gòu)?!泵绹?guó)國(guó)立衛(wèi)生研究院研究員勞倫 · 波特(Lauren Porter)表示:“有些人過于相信(甚至可謂迷信)這類深度學(xué)習(xí)模型的能力了。我們應(yīng)盡可能多地使用深度學(xué)習(xí)模型,但也要謹(jǐn)慎地對(duì)待它們?!?/p>
瓊斯聽說:“現(xiàn)在大家普遍的看法是,DeepMind都大功告成了,你們?yōu)槭裁催€搞蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)?”但他認(rèn)為這方面工作仍是必要的,因?yàn)锳lphaFold2會(huì)出錯(cuò)。
非常擅長(zhǎng)預(yù)測(cè)小型、簡(jiǎn)單的蛋白質(zhì)結(jié)構(gòu),但在預(yù)測(cè)包含多個(gè)部分的蛋白質(zhì)結(jié)構(gòu)時(shí)不夠準(zhǔn)確,也無法解釋蛋白質(zhì)的環(huán)境或與其他分子的結(jié)合情況,這些因素會(huì)改變蛋白質(zhì)在自然狀態(tài)下的形狀。有時(shí)蛋白質(zhì)需要被某些離子、鹽或金屬包圍才能正確折疊。
海倫 · 沃爾登指出:“目前AlphaFold距離確定蛋白質(zhì)所處環(huán)境還有一段路要走?!蔽譅柕菆F(tuán)隊(duì)通過實(shí)驗(yàn)確定了AlphaFold2無法預(yù)測(cè)的幾種結(jié)構(gòu)。
此外,AlphaFold2對(duì)幾種動(dòng)態(tài)蛋白質(zhì)的預(yù)測(cè)并不理想,而它們的功能也很重要。變形蛋白,又稱折疊轉(zhuǎn)換蛋白,并不是靜態(tài)的,其形狀會(huì)隨著與其他分子的相互作用而改變。有的蛋白質(zhì)可能具備相同氨基酸序列,卻折疊成截然不同的形狀。波特表示,折疊轉(zhuǎn)換蛋白“挑戰(zhàn)了一種氨基酸序列只編碼一種蛋白質(zhì)結(jié)構(gòu)的范式”。
還有一些蛋白質(zhì)愛“蹦跶”。內(nèi)在無序的蛋白質(zhì)(或蛋白質(zhì)的部分區(qū)域)缺乏穩(wěn)定結(jié)構(gòu),不斷地?cái)[動(dòng)和重塑。哥本哈根大學(xué)計(jì)算蛋白質(zhì)生物物理學(xué)教授克雷斯滕 · 林多夫-拉森(Kresten Lindorff-Larsen)說道:“這些蛋白質(zhì)的很多方面都被忽視了,因?yàn)樗鼈冇悬c(diǎn)煩人?!贝蠹s44%的人類蛋白質(zhì)都有一個(gè)由至少30個(gè)氨基酸組成的無序區(qū)域。AlphaFold2可以預(yù)測(cè)某個(gè)區(qū)域何時(shí)可能出現(xiàn)內(nèi)在無序,但無法告訴你這種無序是怎樣的。
對(duì)江珀而言,他最大的挫敗感在于AlphaFold2 識(shí)別不出只存在一處氨基酸不同,即所謂點(diǎn)突變的蛋白質(zhì)。江珀認(rèn)為點(diǎn)突變“可能產(chǎn)生相當(dāng)顯著的影響,有時(shí)影響蛋白質(zhì)結(jié)構(gòu),但通常都會(huì)影響蛋白質(zhì)功能”。
2023年9月,DeepMind發(fā)布AlphaMissense。這是一種能預(yù)測(cè)上述突變影響的深度學(xué)習(xí)算法。它無法顯示結(jié)構(gòu)變化,但會(huì)根據(jù)已知致病蛋白質(zhì)中的類似突變,告知用戶突變會(huì)否令蛋白質(zhì)致病或異常。
然而,即使AlphaFold2完美預(yù)測(cè)所有蛋白質(zhì),也遠(yuǎn)遠(yuǎn)達(dá)不到模擬生物現(xiàn)實(shí)的水平,因?yàn)榧?xì)胞內(nèi)的蛋白質(zhì)不是孤立的存在。
細(xì)胞太復(fù)雜
細(xì)胞內(nèi)部復(fù)雜而混亂。細(xì)胞外膜包裹著一個(gè)生化環(huán)境,其中充滿各種分子成分——蛋白質(zhì)、信號(hào)分子、信使RNA、細(xì)胞器等等。蛋白質(zhì)彼此結(jié)合,也與其他分子結(jié)合,從而改變形態(tài)和功能。AlphaFold2能預(yù)測(cè)單個(gè)蛋白質(zhì)的結(jié)構(gòu),但無法幫助生物學(xué)家真正理解復(fù)雜原生環(huán)境下的蛋白質(zhì)。這一缺口也指引著該領(lǐng)域現(xiàn)階段的發(fā)展方向。
蛋白質(zhì)科學(xué)界當(dāng)前的AI巨人DeepMind以及大衛(wèi) · 貝克領(lǐng)銜的蛋白質(zhì)設(shè)計(jì)研究所正改進(jìn)深度學(xué)習(xí)算法,力求預(yù)測(cè)蛋白質(zhì)在與其他分子相互作用時(shí)呈現(xiàn)的結(jié)構(gòu)。
2024年春季,他們都各自發(fā)表論文,介紹了步調(diào)一致的新進(jìn)展。算法升級(jí)了,名字當(dāng)然也更新了——AlphaFold3和RoseTTAFold All-Atom。它們都能預(yù)測(cè)彼此結(jié)合的蛋白質(zhì)、DNA、RNA以及其他小分子的結(jié)構(gòu)。
生物學(xué)家才剛開始測(cè)試這些新版神器。根據(jù)艾爾庫(kù)萊希說法,目前AlphaFold3比RoseTTAFold All-Atom準(zhǔn)確得多,但它的飛躍并不像AlphaFold2之于一代那么夸張。對(duì)于某些大分子,例如RNA結(jié)構(gòu),AlphaFold3的準(zhǔn)確性仍低于其他基于物理的系統(tǒng)和實(shí)驗(yàn)。
無論如何,新算法朝著正確方向邁出了一大步。蛋白質(zhì)與其他分子間的相互作用是它們?cè)诩?xì)胞內(nèi)的功能的關(guān)鍵。為了開發(fā)能停靠于蛋白質(zhì)上并根據(jù)需要改變自身活性的藥物,研究人員需要了解這些復(fù)合物的造型。當(dāng)然,亞當(dāng)斯指出,上述兩大算法都不太可能在短期內(nèi)用于新藥研發(fā)。
DeepMind的新產(chǎn)品還有另一重大變化。AlphaFold2的底層代碼是開源的,因此其他研究者可將其應(yīng)用于自己的項(xiàng)目。但AlphaFold3的源代碼至今仍是商業(yè)機(jī)密。至少現(xiàn)階段,還沒人能像用AlphaFold2那樣用AlphaFold3。
艾爾庫(kù)萊希期待著,到2040年,深度學(xué)習(xí)將能模擬整個(gè)細(xì)胞及其內(nèi)部所有結(jié)構(gòu)和動(dòng)態(tài)。而要實(shí)現(xiàn)此目標(biāo),實(shí)驗(yàn)和計(jì)算兩方面都需要飛躍式進(jìn)步。
新世界
70年前,人們認(rèn)為蛋白質(zhì)是一種膠狀物質(zhì)?,F(xiàn)在,蛋白質(zhì)世界的新結(jié)構(gòu)一個(gè)接一個(gè)——可以是大自然所造,也可以由人類設(shè)計(jì)。
佩拉基斯表示,蛋白質(zhì)生物學(xué)領(lǐng)域“現(xiàn)在比AlphaFold出現(xiàn)前更令人興奮”,因?yàn)閷W(xué)界看見了再度基于分子結(jié)構(gòu)研發(fā)藥物發(fā)現(xiàn)的希望,更加快節(jié)奏地創(chuàng)建假設(shè)的前景,以及理解細(xì)胞內(nèi)復(fù)雜相互作用的可能。
艾爾庫(kù)萊希表示,“這感覺就像是基因組學(xué)革命”,數(shù)據(jù)太多了,無論是身處實(shí)驗(yàn)室還是坐在電腦前的生物學(xué)家,都才剛開始弄清楚怎樣處理這些數(shù)據(jù)。
但就像其他任何領(lǐng)域的AI突破一樣,蛋白質(zhì)科學(xué)里AI應(yīng)用也有其上限。
AlphaFold2的成功建立在訓(xùn)練數(shù)據(jù)的可用性之上——數(shù)十萬種蛋白質(zhì)結(jié)構(gòu)由耐心的實(shí)驗(yàn)人員精心確定。雖然AlphaFold3和其他相關(guān)算法在確定分子化合物結(jié)構(gòu)方面取得了一些成功,但準(zhǔn)確性落后于專攻蛋白質(zhì)的前輩,部分原因就是可用的訓(xùn)練數(shù)據(jù)少很多。
桑頓表示,蛋白質(zhì)折疊問題“幾乎是AI解決方案的完美范例”,算法對(duì)以統(tǒng)一方式收集的數(shù)十萬種蛋白質(zhì)結(jié)構(gòu)進(jìn)行訓(xùn)練。不過蛋白質(zhì)數(shù)據(jù)庫(kù)可能也是生物學(xué)中組織數(shù)據(jù)共享的一個(gè)特例。如果沒有高質(zhì)量的數(shù)據(jù)來訓(xùn)練算法,它們就無法做出準(zhǔn)確預(yù)測(cè)。
沒人知道深度學(xué)習(xí)在解決蛋白質(zhì)折疊問題上的成功會(huì)否延伸至其他科學(xué)領(lǐng)域。一些人對(duì)此持樂觀態(tài)度。艾爾庫(kù)萊希表示:“蛋白質(zhì)折疊實(shí)際上只是冰山一角?;瘜W(xué)家需要執(zhí)行工作量很大的計(jì)算。借助深度學(xué)習(xí),這些計(jì)算的速度比從前快了一百萬倍?!?/p>
人工智能毫無疑問可以推進(jìn)特定類型的科學(xué)問題。但它或許只能推進(jìn)知識(shí)的發(fā)展。從歷史上看,科學(xué)的目的一直是理解自然,理解生命和宇宙的“過程”。如果科學(xué)依靠深度學(xué)習(xí)的工具向前發(fā)展,只提供解決方案,卻不揭示其中過程,那它還是真正的科學(xué)嗎?
另一方面,CASP組織者正努力解決另一個(gè)問題:如何繼續(xù)他們的比賽和會(huì)議。CASP成就了AlphaFold2,AlphaFold2則解決了CASP的主要問題。那么接下來,CASP的主要問題是什么?2022年,CASP會(huì)議在土耳其安塔利亞舉行。谷歌DeepMind沒有參賽,但人們?nèi)愿惺苤拇嬖?。用瓊斯的話說,因?yàn)?“大家或多或少都在使用 AlphaFold”。
資料來源 Quanta Magazine
本文作者亞瑟明·薩普拉克奧盧(Yasemin Saplakoglu)是《量子雜志》的生物學(xué)專欄作家,廣泛報(bào)道神經(jīng)科學(xué)、健康相關(guān)主題,曾為《科學(xué)美國(guó)人》(Scientific American)、《圣荷西水星報(bào)》(San Jose Mercury News)等報(bào)刊撰稿