Sean O’Neill
Senior Technology Writer
2020年11月下旬,谷歌母公司Alphabet旗下子公司DeepMind Technologies(總部位于倫敦,專注于研究人工智能)宣布其AlphaFold系統(tǒng)在僅憑基因序列預(yù)測蛋白質(zhì)的復(fù)雜形狀方面已達到“無與倫比的精準(zhǔn)度”(unparalleled levels of accuracy)[1]。這一壯舉遇到生物學(xué)50年來的一個重大挑戰(zhàn),即預(yù)測蛋白質(zhì)如何折疊。該挑戰(zhàn)的成功破解預(yù)計會對藥物研發(fā)以及蛋白質(zhì)設(shè)計的新興領(lǐng)域產(chǎn)生重大影響,甚至可能有助于我們應(yīng)對新冠病毒肺炎疫情[2],特別是如今迅速出現(xiàn)的多種嚴重急性呼吸綜合征冠狀病毒2(SARS-CoV-2)變異株[3]。
DeepMind創(chuàng)始人兼時任首席執(zhí)行官Demis Hassabis表示:“蛋白質(zhì)折疊是生物學(xué)領(lǐng)域中的一個圣杯問題。我們一直推測人工智能應(yīng)有助于更快實現(xiàn)這些重大科學(xué)突破?!?/p>
蛋白質(zhì)是復(fù)雜的大分子,在生物界的各個方面都起著關(guān)鍵作用。蛋白質(zhì)形狀決定了其功能:血紅蛋白運輸營養(yǎng)物質(zhì),酶催化化學(xué)反應(yīng),膠原蛋白提供結(jié)構(gòu),胰島素調(diào)節(jié)血糖,抗體提供免疫力。這些蛋白質(zhì)以及其他所有蛋白質(zhì)均由標(biāo)準(zhǔn)遺傳密碼中同一組20種氨基酸以長鏈相連的方式組成。
蛋白質(zhì)是由生物體或合成過程所產(chǎn)生的氨基酸構(gòu)成,自然扭曲并折疊在一起,形成復(fù)雜形狀,呈彎曲結(jié)構(gòu)、螺旋結(jié)構(gòu)和折疊結(jié)構(gòu)。例如,抗體蛋白質(zhì)為“Y”形,這使其能夠鎖定且有助于中和引起疾病的細菌或病毒。相反,有害基因突變會導(dǎo)致產(chǎn)生錯誤折疊的非功能性蛋白質(zhì),如囊性纖維化的蛋白質(zhì)。
產(chǎn)生蛋白質(zhì)的密碼包含在脫氧核糖核酸(DNA)內(nèi)。不過,盡管DNA測序揭示了給定蛋白質(zhì)所包含的氨基酸序列,但是并不能說明它們?nèi)绾握郫B成最終形狀。蛋白質(zhì)序列越大,就越難預(yù)測其形狀。理論上,典型蛋白質(zhì)分子鏈可折疊成的構(gòu)象是一個天文數(shù)字,因此使用蠻力去預(yù)測其形狀幾乎是不可能的[4]。
蛋白質(zhì)折疊問題始于1972年,當(dāng)時,獲得諾貝爾化學(xué)獎的美國生物化學(xué)家Christian Anfinsen宣稱蛋白質(zhì)氨基酸序列應(yīng)足以確定其在特定環(huán)境中的折疊形狀[5]。然而,幾十年來,準(zhǔn)確確定靶蛋白形狀的方法只有核磁共振和X射線晶體分析,以及最近的冷凍電子顯微鏡等技術(shù),但是這些方法往往價格高昂且費時。此類實驗工作可能需要數(shù)年時間才能描繪出單個蛋白質(zhì)的形狀,而且無法保證成功。
1994年,為聚集全球科學(xué)家共同解決此問題,美國馬里蘭大學(xué)細胞生物學(xué)與分子遺傳學(xué)教授John Moult及其同事開展了一項大型實驗,旨在評估生成蛋白質(zhì)結(jié)構(gòu)的計算方法[6]。這項工作成為兩年一次的蛋白質(zhì)結(jié)構(gòu)預(yù)測關(guān)鍵評估(Critical Assessment of Structure Prediction, CASP)活動,Hassabis稱之為“蛋白質(zhì)折疊領(lǐng)域的奧林匹克競賽”。
CASP競賽分為三個滾動階段:①收集約100個靶蛋白,近期實驗室工作已揭露其形狀,但至關(guān)重要的是,尚未發(fā)布成果;②向世界各地的研究團隊提供這些靶蛋白的基因序列,然后使用軟件系統(tǒng)開展工作以預(yù)測其形狀;③對提交的預(yù)測形狀進行盲審。CASP主要使用稱為“全局距離測試”(global distance test, GDT)的度量標(biāo)準(zhǔn)(范圍介于0~100)來判斷預(yù)測形狀的精準(zhǔn)度。Moult表示,GDT分數(shù)在90分左右,即可視為與人類通過實驗方法獲取的結(jié)果相當(dāng)。
自1994年以來,研究進展一直穩(wěn)定但緩慢,直到2018年第13屆CASP競賽,DeepMind團隊首次參賽并提出早期版本的AlphaFold系統(tǒng) [7]。該團隊以相當(dāng)大的優(yōu)勢獲勝,在CASP競賽中一鳴驚人,但AlphaFold系統(tǒng)預(yù)測的形狀仍與靶蛋白的實際結(jié)構(gòu)相去甚遠,其GDT中位數(shù)評分為59分(圖1)。
然而,在2020年第14屆CASP競賽中,DeepMind團隊帶來了經(jīng)過全面改進的AlphaFold系統(tǒng),這次結(jié)果驚人。Moult表示:“簡直不可思議。當(dāng)你看到一個令人驚訝的預(yù)測時,你會想,‘這是怎么回事?’。當(dāng)你擁有三個或四個令人難以置信的準(zhǔn)確的結(jié)構(gòu)預(yù)測時,你就會意識到發(fā)生了非常重要的事情?!?/p>
AlphaFold系統(tǒng)在最困難類別中獲得的GDT評分為87分,在所有靶蛋白中的GDT中位數(shù)評分為92.4分(圖2)[8]。該系統(tǒng)的平均誤差約為0.16 nm——大約為一個原子的寬度。為解決這一問題,DeepMind團隊開發(fā)了一種新型的基于注意力的神經(jīng)網(wǎng)絡(luò)系統(tǒng)[9]。在機器學(xué)習(xí)中,注意力系指模仿人類注意力的設(shè)計,即系統(tǒng)識別出數(shù)據(jù)的關(guān)鍵方面并賦予這些方面更多權(quán)重,而對那些它認為不太重要的數(shù)據(jù)很少關(guān)注。有關(guān)該深度學(xué)習(xí)系統(tǒng)的具體技術(shù)細節(jié)尚待分享,但預(yù)計2021年晚些時候會對相關(guān)論文進行同行評議。AlphaFold系統(tǒng)(圖3)[1]已通過使用蛋白質(zhì)數(shù)據(jù)庫(PDB)的公開數(shù)據(jù)進行了訓(xùn)練,該數(shù)據(jù)庫包含大約175 000種蛋白質(zhì)結(jié)構(gòu),此外還有包含未知結(jié)構(gòu)蛋白質(zhì)序列的其他大型數(shù)據(jù)庫。根據(jù)Deep-Mind團隊的說法,訓(xùn)練期需要大約16臺谷歌TPUv3協(xié)處理器(相當(dāng)于100~200個圖形處理器)運行“數(shù)周”,單個蛋白質(zhì)結(jié)構(gòu)預(yù)計“在幾天內(nèi)”即可完成[1]。
圖1. 在兩年一度的CASP競賽中,獲勝團隊在最困難類別(自由建模類別)中使用GDT預(yù)測的中位數(shù)精準(zhǔn)度。DeepMind團隊的Alpha-Fold系統(tǒng)在2018年和2020年競賽中均排名第一。圖片來源:Deep-Mind,經(jīng)許可。
圖2. AlphaFold系統(tǒng)在第14屆CASP競賽中預(yù)測的幾種蛋白質(zhì)結(jié)構(gòu)(藍色)與由實驗確定的結(jié)構(gòu)(綠色)相重疊。兩種預(yù)測結(jié)果高度匹配。RNA:核糖核酸。圖片來源:DeepMind,經(jīng)許可。
圖3. AlphaFold結(jié)構(gòu)概述。DeepMind團隊尚未提供其系統(tǒng)的相關(guān)細節(jié),但描述了“折疊蛋白質(zhì)如何被認為是‘空間圖’的問題,其中氨基酸殘基為節(jié)點,并且邊緣將殘基緊密相連”[1]。MSA:多序列比對;3D:三維。圖片來源:DeepMind,經(jīng)許可。
Moult曾聽說,神經(jīng)網(wǎng)絡(luò)是被美化的模式識別,然而他表示:“AlphaFold系統(tǒng)能夠從其訓(xùn)練中獲得原子級認知的水平是驚人的。其達到的抽象層次意義深遠。仿佛這臺機器已經(jīng)學(xué)會了物理學(xué)。在任何涉及蛋白質(zhì)結(jié)構(gòu)的情況中,其可在原子層面得到正確結(jié)果。然而,僅通過識別訓(xùn)練數(shù)據(jù)中的一組模式無法實現(xiàn)這一點?!?/p>
該項突破為整個生物學(xué)領(lǐng)域帶來了機遇,但其最直接的影響可能是藥物發(fā)現(xiàn)。大多數(shù)藥物通過與體內(nèi)蛋白質(zhì)相結(jié)合而起效,從而觸發(fā)其功能變化。采用諸如AlphaFold這樣的機器學(xué)習(xí)系統(tǒng),能夠迅速算出靶蛋白的形狀,然后設(shè)計藥物(或重新利用現(xiàn)有藥物)以有效結(jié)合這些蛋白質(zhì)。
例如,隨著2020年年初新冠病毒肺炎疫情規(guī)模擴大,以及后來在第14屆CASP競賽中,DeepMind團隊提取了構(gòu)成SARS-CoV-2的幾種蛋白質(zhì)的基因序列,并提供了結(jié)構(gòu)預(yù)測,這些預(yù)測后來基本都通過實驗得到證實10]。此類工作有可能加快可阻遏這種疾病的藥物設(shè)計。實際上,蛋白質(zhì)設(shè)計是形狀預(yù)測的另一方面:一旦機器對支撐蛋白質(zhì)折疊的原子過程具有深刻了解,那么設(shè)計能夠折疊成所需形狀的蛋白質(zhì)就變得更加容易。
美國華盛頓大學(xué)的蛋白質(zhì)設(shè)計研究所所長David Baker表示:“我們一直使用現(xiàn)有蛋白質(zhì)設(shè)計方法來開發(fā)看起來非常具有前景且已進行或即將進行臨床試驗的新冠病毒肺炎治療劑、疫苗和檢測裝置。通過改進的蛋白質(zhì)設(shè)計,我們應(yīng)該能夠做得更好、更快?!盌avid Baker領(lǐng)導(dǎo)的團隊在第14屆CASP競賽上名次僅次于DeepMind團隊[11]。
諸如AlphaFold系統(tǒng)之類的技術(shù)還可用于探索分解工業(yè)廢物或舊塑料的蛋白質(zhì)和酶,如有效吸收大氣中的碳。馬里蘭大學(xué)生物化學(xué)教授及第14屆CASP競賽的蛋白質(zhì)結(jié)構(gòu)貢獻者Osnat Herzberg表示:“對結(jié)構(gòu)生物學(xué)領(lǐng)域的直接影響是巨大的。這些方法會產(chǎn)生重要醫(yī)學(xué)應(yīng)用,并帶來我們目前無法想象的技術(shù)進步?!?/p>
倫敦大學(xué)學(xué)院生物信息學(xué)教授兼生物信息學(xué)團隊負責(zé)人David Jones的看法則更為謹慎。Jones表示:“這樣的結(jié)果使人們意識到,機器學(xué)習(xí)可在機器視覺和自然語言處理的領(lǐng)域之外產(chǎn)生巨大影響。但我并不相信僅僅因為我們現(xiàn)在可以比以往任何時候能更精確地對蛋白質(zhì)結(jié)構(gòu)進行建模,我們就會有新的疾病治療方法。重要的是,在能夠確定其能力或局限性之前,我們需要在許多不同條件下對諸如這樣復(fù)雜的系統(tǒng)進行測試?!?/p>