編譯 苦山
2019年,美國麻省理工學(xué)院的科學(xué)家在現(xiàn)代醫(yī)學(xué)領(lǐng)域做到了一件不同尋常的事——他們發(fā)現(xiàn)了一種新的抗生素,哈爾素(halicin)。今年5月,另一個(gè)團(tuán)隊(duì)發(fā)現(xiàn)了第二種新抗生素,阿鮑素(abaucin)。這兩種化合物引人注目的地方不僅在于它們能夠?qū)箖煞N已知最危險(xiǎn)的抗生素耐藥細(xì)菌,還在于人們找出它們的方式。
在兩個(gè)案例中,研究人員都使用了人工智能模型來篩選數(shù)百萬種候選化合物,以識別哪些化合物最適合對付某種“超級細(xì)菌”。這個(gè)模型的訓(xùn)練數(shù)據(jù)是幾千種已知抗生素的化學(xué)結(jié)構(gòu),以及它們在實(shí)驗(yàn)室里對抗細(xì)菌的效果之優(yōu)劣。在這個(gè)訓(xùn)練過程中,該模型找出了化學(xué)結(jié)構(gòu)和成功破壞細(xì)菌之間的聯(lián)系。一等到人工智能給出候選名單,科學(xué)家就在實(shí)驗(yàn)室里對它們進(jìn)行了測試,并確定了他們要找的抗生素。麻省理工學(xué)院的計(jì)算機(jī)科學(xué)家蕾吉娜 · 巴茲萊(Regina Barzilay)參與了阿鮑素和哈爾素的發(fā)現(xiàn)過程,她表示,如果說發(fā)現(xiàn)新藥就像在干草堆中尋找一根針,那么人工智能就像是金屬探測器。將候選藥物從實(shí)驗(yàn)室投入到臨床需要多年的醫(yī)學(xué)試驗(yàn)。但毫無疑問,人工智能加速了該過程前期的反復(fù)試錯(cuò)部分。巴茲萊博士表示,它提供了全新的可能性?!坝辛巳斯ぶ悄?,我們將要提出的問題類型將與我們今天提出的問題大不相同。”巴茲萊說。
藥物發(fā)現(xiàn)并不是唯一一個(gè)被人工智能的潛力震撼的領(lǐng)域。從預(yù)測天氣,到為電池和太陽能板尋找新材料,再到控制核聚變反應(yīng)——處理著世界上最復(fù)雜和最重要問題的研究人員紛紛轉(zhuǎn)向了人工智能,以增強(qiáng)或加快他們的研究進(jìn)程。
人工智能的潛力是巨大的??偛课挥趥惗氐墓雀鐳 e e p M i n d的聯(lián)合創(chuàng)始人戴米斯 · 哈薩比斯(Demis Hassabis)表示:“人工智能可能會引領(lǐng)科學(xué)發(fā)現(xiàn)的新一輪文藝復(fù)興,成為人類創(chuàng)造力的放大器?!彼讶斯ぶ悄鼙茸魍h(yuǎn)鏡,一種能讓科學(xué)家比裸眼看得更遠(yuǎn)、理解得更深的基本科技。
盡管人工智能自20世紀(jì)60年代以來一直是“科學(xué)工具箱”的一部分,但在多數(shù)時(shí)間里,它的應(yīng)用場合都局限在那些科學(xué)家們已經(jīng)精通計(jì)算機(jī)代碼的學(xué)科領(lǐng)域,例如粒子物理學(xué)或數(shù)學(xué)。然而,根據(jù)澳大利亞科學(xué)機(jī)構(gòu)聯(lián)邦科學(xué)與工業(yè)研究組織的數(shù)據(jù),到了2023年,隨著深度學(xué)習(xí)的興起,超過99%的研究領(lǐng)域都產(chǎn)出了與人工智能相關(guān)的結(jié)果。倫敦艾倫 · 圖靈研究所的首席科學(xué)家馬克 · 吉羅拉米(Mark Girolami)表示:“民主化是導(dǎo)致這種爆炸性增長的重要因素?!边^去需要計(jì)算機(jī)科學(xué)學(xué)位和一系列晦澀難懂的編程語言才能完成的工作,現(xiàn)在可以通過方便用戶使用的人工智能工具來實(shí)現(xiàn),這些工具通常在向OpenAI的聊天機(jī)器人ChatGPT送出查詢指令后即可開始運(yùn)作。因此,科學(xué)家們可以輕松地得到一位堅(jiān)韌、超人般的研究助手,它能夠解出方程,還能不知疲倦地篩選大量數(shù)據(jù),以尋找其中的任何模式或相關(guān)性。
例如,在材料科學(xué)領(lǐng)域,研究者面臨的問題與藥物發(fā)現(xiàn)領(lǐng)域類似——可能存在的化合物數(shù)量多得難以想象。當(dāng)英國利物浦大學(xué)的研究人員在尋找具有制造更好電池所需的特殊性質(zhì)的材料時(shí),他們使用了一種被稱為“自動編碼器”的人工智能模型,在世界上最大的無機(jī)晶體結(jié)構(gòu)數(shù)據(jù)庫中搜索了所有已知的20萬種穩(wěn)定的晶體化合物。此前,該人工智能已經(jīng)學(xué)習(xí)了新電池材料實(shí)現(xiàn)其目標(biāo)所需的最重要的物理和化學(xué)特性,它將這些條件應(yīng)用到了搜索中。它成功地將科學(xué)家需要在實(shí)驗(yàn)室中測試的候選化合物從幾千種減少到了僅僅五種,節(jié)省了時(shí)間和金錢。
最終的候選材料是一種結(jié)合了鋰、錫、硫和氯的材料,這種材料很新穎,不過要判斷它是否能投入商業(yè)應(yīng)用還為時(shí)過早。然而,這種人工智能方法正被研究人員用于發(fā)現(xiàn)其他類型的新材料。
人工智能還可以用于預(yù)測。蛋白質(zhì)在細(xì)胞中形成后折疊成的形狀對于其發(fā)揮功能至關(guān)重要,然而科學(xué)家們尚未了解蛋白質(zhì)是如何折疊的。但在2021年,谷歌深腦開發(fā)了阿爾法折疊模型(AlphaFold),該模型通過自學(xué)學(xué)會了如何僅憑蛋白質(zhì)的氨基酸序列預(yù)測其結(jié)構(gòu)。自發(fā)布以來,阿爾法折疊生成了一個(gè)數(shù)據(jù)庫,內(nèi)含超過2億種預(yù)測出的蛋白質(zhì)結(jié)構(gòu),已有超過120萬名研究人員使用過它。例如,英國牛津大學(xué)的生物化學(xué)家馬修 · 希金斯(Matthew Higgins)利用阿爾法折疊找出了蚊子體內(nèi)一種蛋白質(zhì)的形狀,這種蛋白質(zhì)對蚊子時(shí)常攜帶的瘧原蟲非常重要。隨后,他結(jié)合阿爾法折疊的預(yù)測,計(jì)算出這種蛋白質(zhì)的哪些部分最容易被藥物靶向。另一個(gè)團(tuán)隊(duì)利用阿爾法折疊在短短30天內(nèi)找到了一種蛋白質(zhì)結(jié)構(gòu),該蛋白質(zhì)會影響某類肝癌的增殖,從而為設(shè)計(jì)新的靶向療法開辟了道路。
阿爾法折疊也對生物學(xué)其他方面的理解作出了貢獻(xiàn)。例如,一個(gè)細(xì)胞的細(xì)胞核存在多個(gè)“門”,可以將物質(zhì)帶入細(xì)胞內(nèi)以產(chǎn)生蛋白質(zhì)。數(shù)年前,科學(xué)家知道核“門”的存在,但對它們的結(jié)構(gòu)知之甚少。通過阿爾法折疊,科學(xué)家預(yù)測出了“門”的結(jié)構(gòu),這也有助于理解細(xì)胞的內(nèi)部機(jī)制。阿爾法折疊的發(fā)明者之一、如今擔(dān)任谷歌深智“科學(xué)人工智能”團(tuán)隊(duì)負(fù)責(zé)人的普什米特 · 科利(Pushmeet Kohli)表示:“我們并不真正、完全理解(人工智能)是如何得出這種結(jié)構(gòu)的。但是,一旦它構(gòu)造出了這個(gè)結(jié)構(gòu),實(shí)際上就提供了一種基礎(chǔ),如今,整個(gè)科學(xué)界都可以在此基礎(chǔ)上進(jìn)行建設(shè)?!?/p>
在加速復(fù)雜的計(jì)算機(jī)模擬方面,人工智能也證明了自己可堪大用。例如,天氣模型是基于能夠描述地球大氣在任何給定時(shí)間狀態(tài)的數(shù)學(xué)方程構(gòu)建的。然而,預(yù)報(bào)天氣的超級計(jì)算機(jī)價(jià)格昂貴、耗能大,并且計(jì)算需要花費(fèi)大量時(shí)間。此外,為了跟上來自全球氣象站的不斷涌入的數(shù)據(jù),模型必須一次又一次地運(yùn)行。
因此,氣候科學(xué)家和私營公司開始利用機(jī)器學(xué)習(xí)以加快速度。盤古氣象是由中國企業(yè)華為構(gòu)建的人工智能系統(tǒng),它可以預(yù)測一周內(nèi)的天氣,預(yù)測速度比現(xiàn)行標(biāo)準(zhǔn)快數(shù)千倍,成本也低至原來的數(shù)千分之一,且精確度沒有任何顯著下降。由美國芯片制造商英偉達(dá)構(gòu)建的傅測網(wǎng)絡(luò)模型(FourCastNet)可以在不到兩秒鐘的時(shí)間內(nèi)生成此類預(yù)報(bào),并且是第一個(gè)以高空間分辨率準(zhǔn)確預(yù)測降雨的人工智能模型,這對于預(yù)測山洪暴發(fā)等自然災(zāi)害至關(guān)重要。這兩種人工智能模型都是通過學(xué)習(xí)觀測數(shù)據(jù)或超級計(jì)算機(jī)的模擬輸出數(shù)據(jù)來訓(xùn)練預(yù)測天氣的。而它們僅僅是開始——英偉達(dá)已經(jīng)宣布計(jì)劃建立地球的數(shù)字孿生體,名為“地球二號”(Earth-2),該公司希望這個(gè)計(jì)算機(jī)模型能夠在更區(qū)域性的層面上提前幾十年預(yù)測氣候變化。
與此同時(shí),試圖掌握核聚變能量的物理學(xué)家一直在使用人工智能來控制復(fù)雜的設(shè)備。聚變研究的方法之一是在一種叫托卡馬克的甜甜圈形容器內(nèi)制造氫等離子體(一種過熱的帶電氣體)。當(dāng)溫度足夠高時(shí)(約1億攝氏度左右),等離子體中的粒子開始融合并釋放能量。但如果等離子體接觸到托卡馬克的容器內(nèi)壁,就會冷卻并停止工作,因此物理學(xué)家要將氣體約束在磁籠中。找到正確的磁場配置極其困難,手動控制它則需要設(shè)計(jì)數(shù)學(xué)方程來預(yù)測等離子體的行為,然后每秒鐘對大約10個(gè)不同的磁線圈進(jìn)行數(shù)千次小調(diào)整。相比之下,谷歌深智和瑞士洛桑聯(lián)邦理工學(xué)院的科學(xué)家構(gòu)建的人工智能控制系統(tǒng)允許科學(xué)家們在計(jì)算機(jī)模擬中對不同形狀的等離子體進(jìn)行嘗試,然后人工智能會找到最佳方案。
自動化和加速物理實(shí)驗(yàn)及實(shí)驗(yàn)室工作是另一個(gè)引發(fā)興趣的領(lǐng)域?!白赃\(yùn)行實(shí)驗(yàn)室”可以規(guī)劃實(shí)驗(yàn),使用機(jī)械臂執(zhí)行實(shí)驗(yàn),隨后分析結(jié)果。自動化可以用比過去快最高1 000倍的速度發(fā)現(xiàn)新化合物,或是找到更好的方法去制造現(xiàn)有化合物。
隨著2022年ChatGPT的問世,生成式人工智能迅速成為公眾關(guān)注的焦點(diǎn),但科學(xué)家們對它的研究已經(jīng)持續(xù)了很長一段時(shí)間,它在科學(xué)上有兩種主要的用途。首先,它可以用于生成數(shù)據(jù)?!俺直媛省比斯ぶ悄苣P涂梢詫⒘畠r(jià)、低分辨率的電子顯微鏡圖像增強(qiáng)為原本因過于昂貴而無法記錄的高分辨率圖像。人工智能對材料或生物樣本的同一小塊區(qū)域的高分辨率和低分辨率圖像進(jìn)行比較。該模型學(xué)習(xí)兩種分辨率圖像之間的差異,此后就可以在它們之間進(jìn)行轉(zhuǎn)換。
正如大語言模型(LLM)可以通過預(yù)測序列中的下一個(gè)最佳單詞來生成流暢的句子一樣,生成式分子模型可以一個(gè)原子一個(gè)原子、一個(gè)鍵一個(gè)鍵地構(gòu)建分子。大語言模型結(jié)合自學(xué)的統(tǒng)計(jì)數(shù)據(jù)和從互聯(lián)網(wǎng)上挑選出來的數(shù)萬億字的訓(xùn)練文本,以模仿人類的方式進(jìn)行寫作。“全新分子設(shè)計(jì)”模型通過大量已知藥物及其性質(zhì)的數(shù)據(jù)庫進(jìn)行訓(xùn)練,它可以找出哪些分子結(jié)構(gòu)最有可能做哪些事情,并據(jù)此構(gòu)建??偛课挥诿绹永D醽喼莸奈窒6髦扑幑揪鸵赃@種方式制造出了候選藥物,其中幾種正在動物身上進(jìn)行試驗(yàn),還有一種精準(zhǔn)抗凝劑目前正處于臨床試驗(yàn)的第一階段。與人工智能識別出的新型抗生素和電池材料一樣,由算法設(shè)計(jì)出的化學(xué)品也需要在現(xiàn)實(shí)世界中進(jìn)行常規(guī)試驗(yàn),然后才能評估其有效性。
滑鐵盧大學(xué)的心理學(xué)家伊戈?duì)?· 格羅斯曼(Igor Grossmann)為大語言模型提供了一種更具未來主義色彩的用途。如果在輸入真實(shí)(或虛構(gòu)的)背景故事作為提示指令后,大語言模型能夠準(zhǔn)確地反映人類參與者可能說出的話語,那么它們在理論上就可以取代焦點(diǎn)小組,或者被用作經(jīng)濟(jì)學(xué)研究的決策主體。我們可以用不同的人格形象訓(xùn)練大語言模型,這樣,它們的行為就可以被用來模擬實(shí)驗(yàn),如果得出的結(jié)果有意思的話,之后可以通過人類受試者進(jìn)行確認(rèn)。
遍布宇宙
多種類型的人工智能已經(jīng)在廣泛的科學(xué)學(xué)科中得到了應(yīng)用
計(jì)數(shù)瀕危動物
野生動物保護(hù)
神經(jīng)網(wǎng)絡(luò)能夠識別照片中的有害海星并計(jì)數(shù)無人機(jī)圖片中的瀕危物種。在一項(xiàng)研究中,人工智能對320萬張圖片自動分類,節(jié)省了8.4年的人力。
理解大腦
神經(jīng)科學(xué)
“幾何”式的深度學(xué)習(xí)解碼了神經(jīng)元群體如何協(xié)同工作。從形狀觀察大腦可以幫助科學(xué)家更好地理解大腦的疾病和正常運(yùn)作。
揭示扭結(jié)中的隱藏模
純數(shù)學(xué)
研究者用一種神經(jīng)網(wǎng)絡(luò)找到了扭結(jié)的幾何和代數(shù)表達(dá)之間存在著某種此前未知的聯(lián)系。該人工智能還發(fā)現(xiàn)了它們底層結(jié)構(gòu)的新方面。
從大量的資料中可以看出,冬季凍害和早春霜凍預(yù)防是非常重要的,幾乎所有關(guān)于葡萄的技術(shù)資料中都有很詳細(xì)的介紹,果農(nóng)可以根據(jù)自己的情況選擇應(yīng)用。
檢測異常
基礎(chǔ)物理學(xué)
大型強(qiáng)子對撞機(jī)內(nèi)的粒子碰撞在每小時(shí)內(nèi)產(chǎn)生的數(shù)據(jù)比臉書(Facebook)每年產(chǎn)生的數(shù)據(jù)還多。機(jī)器學(xué)習(xí)幫助科學(xué)家篩選數(shù)據(jù),并在2012年發(fā)現(xiàn)了希格斯玻色子。
解碼鯨的聲音
語言學(xué)
研究人員使用生成對抗網(wǎng)絡(luò)來推斷抹香鯨發(fā)聲中的哪些聲音對該動物來說意義最重大,朝著解碼鯨的交流系統(tǒng)邁出了一步。
量化不確定性
研究方法
人工智能可以全程追蹤一個(gè)復(fù)雜實(shí)驗(yàn)或觀測中的不確定性和錯(cuò)誤。例如,從望遠(yuǎn)鏡的初始測量一直追蹤到計(jì)算機(jī)分析的最后一步。
大語言模型已經(jīng)讓科學(xué)家自身變得更高效了。根據(jù)GitHub的數(shù)據(jù),使用像其“協(xié)力者”(Copilot)這樣的工具可以幫助程序員在編寫軟件時(shí)速度提高55%。對所有科學(xué)家來說,在開始一個(gè)項(xiàng)目之前閱讀該領(lǐng)域的背景研究都可能是一項(xiàng)艱巨的任務(wù)——現(xiàn)代科學(xué)文獻(xiàn)的規(guī)模之龐大對于個(gè)人來說實(shí)在難以掌握。由美國非營利研究實(shí)驗(yàn)室應(yīng)然(Ought)創(chuàng)建的免費(fèi)在線人工智能工具“引導(dǎo)者”(Elicit)可以使用大語言模型幫助人們梳理大量的研究文獻(xiàn)并總結(jié)重要內(nèi)容,其速度要以比任何人類都快得多。不少學(xué)生和年輕科學(xué)家已經(jīng)在使用它了,他們中的許多人發(fā)現(xiàn)它有助于找到可引用的論文,或在面對大量文本時(shí)定義研究方向。大語言模型甚至可以幫助人們從數(shù)百萬份文件中提取結(jié)構(gòu)化信息——例如使用特定藥物進(jìn)行的每一項(xiàng)實(shí)驗(yàn)。
人工智能也可以幫助人們擴(kuò)大對學(xué)科內(nèi)知識的獲取。在日內(nèi)瓦的歐洲核子研究中心,大型強(qiáng)子對撞機(jī)的每個(gè)探測器都需要配備專門的操作員和分析師團(tuán)隊(duì)。如果負(fù)責(zé)各個(gè)探測器的物理學(xué)家不聚在一起分享他們的專業(yè)知識,就不可能整合和比較它們的數(shù)據(jù)。但對于想要快速測試新想法的理論物理學(xué)家來說,這個(gè)方法并不總是可行。因此,加州大學(xué)河濱分校的物理學(xué)家米格爾 · 阿拉蒂亞(Miguel Arratia)提出,利用人工智能將多個(gè)基礎(chǔ)物理實(shí)驗(yàn)(甚至是宇宙觀測)的測量數(shù)據(jù)整合起來,這樣理論物理學(xué)家就可以快速探索、組合和重復(fù)利用這些數(shù)據(jù)來進(jìn)行自己的工作。
人工智能模型已經(jīng)證明了自己可以處理數(shù)據(jù)、自動計(jì)算和部分實(shí)驗(yàn)室工作。但吉羅拉米博士警告說,雖然人工智能可能有助于幫助科學(xué)家填補(bǔ)知識空白,但這些模型仍然難以超越已知知識的邊界。這些系統(tǒng)擅長內(nèi)插(將現(xiàn)有的點(diǎn)連接起來),但在外推方面表現(xiàn)不佳(即想象下一個(gè)點(diǎn)可能落在何處)。
還有一些難題,即使是當(dāng)今最成功的人工智能系統(tǒng)也無法解決。比如,阿爾法折疊并不是每次都能正確預(yù)測出所有的蛋白質(zhì)結(jié)構(gòu)。位于加州拉霍亞的斯克里普斯研究所的結(jié)構(gòu)生物學(xué)家簡 · 戴森(Jane Dyson)說,她的研究重點(diǎn)是“無序”的蛋白質(zhì),對于這類蛋白質(zhì),人工智能的大部分預(yù)測都一塌糊涂。“這不是一場讓我們所有科學(xué)家都失業(yè)的革命。”此外,阿爾法折疊也仍未能解釋為什么蛋白質(zhì)會以這些方式折疊?!安贿^,也許人工智能有一個(gè)我們還不能理解的理論?!笨评┦空f。
盡管存在這些局限性,結(jié)構(gòu)生物學(xué)家仍然認(rèn)為阿爾法折疊使他們的工作變得更高效了。滿是蛋白質(zhì)預(yù)測值的數(shù)據(jù)庫讓科學(xué)家能夠在幾秒鐘內(nèi)推測出某種蛋白質(zhì)可能的結(jié)構(gòu),而不必花費(fèi)數(shù)年時(shí)間和數(shù)萬美元。
而在加速科學(xué)研究和發(fā)現(xiàn)的步伐,盡可能地提高效率方面,人工智能還大有可為。最近,經(jīng)濟(jì)合作組織(OECD)發(fā)表了一份有關(guān)人工智能在科學(xué)領(lǐng)域之應(yīng)用的報(bào)告,報(bào)告表示:“雖然人工智能正在滲透到科學(xué)界的所有領(lǐng)域和階段,但它還遠(yuǎn)未發(fā)揮出全部的潛力?!眻?bào)告總結(jié)道,人工智能可能帶來巨大的收益:“在人工智能的所有用途中,加快研究的生產(chǎn)力可能是最具經(jīng)濟(jì)和社會價(jià)值的。”
如果人工智能工具能夠提高研究的生產(chǎn)率,世界無疑將獲得哈薩比斯博士所預(yù)言的“人類創(chuàng)造力的放大器”。但人工智能的潛力仍不止于此:就像望遠(yuǎn)鏡和顯微鏡讓科學(xué)家看到世界的更多角落一樣,人工智能中使用的概率論的、數(shù)據(jù)驅(qū)動的模型將越來越讓科學(xué)家能夠更好地建模和理解復(fù)雜系統(tǒng)。在氣候科學(xué)和結(jié)構(gòu)生物學(xué)等領(lǐng)域中,科學(xué)家已經(jīng)知曉復(fù)雜的過程正在發(fā)生,但迄今為止,研究人員主要試圖通過自上而下的規(guī)則、方程和模擬來理解這些課題。人工智能可以幫助科學(xué)家自下而上地處理問題——首先測量大量數(shù)據(jù),然后利用算法來提取出規(guī)則、模式、方程和此后的科學(xué)理解。
如果說,過去幾年見證了科學(xué)家們在人工智能的淺水區(qū)中“試水”,那么接下來的十年乃至更長時(shí)間里,他們必須潛入人工智能的深水區(qū),游向彼岸的地平線。
資料來源TheEconomist