張漫子
中國(杭州)數(shù)字. 健康小鎮(zhèn)成果轉(zhuǎn)化區(qū),嘉賓在了解染色體人工智能診斷系統(tǒng)(黃宗治/ 攝)
人類社會智能化革命正以不可阻擋之勢拉開序幕。
在人工智能的催化下,科技轉(zhuǎn)化為生產(chǎn)力的速度越來越快,滲透到生產(chǎn)生活的方方面面。但就目前嵌入人們?nèi)粘5漠a(chǎn)業(yè)落地而言,絕大多數(shù)貢獻(xiàn)還只是“跬步”,遠(yuǎn)談不上“顛覆”。
當(dāng)肩負(fù)原始創(chuàng)新使命的科學(xué)突破成為新的支點,人工智能有了更為宏大的愿景——將科學(xué)發(fā)現(xiàn)推上新臺階。
自文藝復(fù)興以來,科學(xué)發(fā)現(xiàn)大致是沿兩條路徑展開的:一種是基于第一性原理、對物理世界基本理論的探索;另一種則是以數(shù)據(jù)為驅(qū)動、面向應(yīng)用基本規(guī)律的歸納。
第一條路徑早已瀕臨瓶頸——20世紀(jì)初,量子力學(xué)建立。至此,除極端尺度的特殊情形(核物理與高能物理)外,基本原理的空白已被填滿。這意味著大多數(shù)工程與自然科學(xué)問題都能在理論上找到大致的物理模型進(jìn)行求解。
2021 年,在開源AlphaFold2 僅一周,98.5% 的人類蛋白質(zhì)結(jié)構(gòu)即被AlphaFold2 預(yù)測出來,做成數(shù)據(jù)集并全部免費(fèi)開放。這一爆炸新聞引爆了科研圈。此前,全球科學(xué)家耗時數(shù)十年努力,也只給出覆蓋人類蛋白質(zhì)序列中17% 的氨基酸殘基,而且大多是易被破解的結(jié)構(gòu)。
但當(dāng)科學(xué)家想用定理來解決真實場景的實際問題時,卻發(fā)現(xiàn)力不從心。將物理模型置于復(fù)雜場景需要面對太多變量:多一個變量,計算量都會大大增加。
第二條路徑也不是坦途。小規(guī)模數(shù)據(jù)只能進(jìn)行粗粒度的模擬與預(yù)測,但凡有高一點的精度需求,就要依賴更大規(guī)模的數(shù)據(jù)支撐。隨著數(shù)據(jù)量的增加,傳統(tǒng)數(shù)據(jù)處理方式同樣面臨顯著激增的計算代價和有效的數(shù)據(jù)分析方法。更何況,數(shù)據(jù)匱乏是常態(tài)。
因此,不管是模型驅(qū)動,還是數(shù)據(jù)驅(qū)動,這兩種傳統(tǒng)方法都指向一個精度與速度難以兩全的共同困境:維數(shù)災(zāi)難——即當(dāng)空間維度增加時,分析和組織高維空間將因體積指數(shù)增加而遇到各種更加復(fù)雜的問題場景。
“在低維情形下,一般的函數(shù)可以用分片多項式、傅利葉級數(shù)、小波這樣的傳統(tǒng)方式來表達(dá)。但在高維情形下,它們就不再是有效的工具。”中國科學(xué)院院士、北京大學(xué)國際機(jī)器學(xué)習(xí)研究中心主任鄂維南說。
維數(shù)災(zāi)難帶來的一個結(jié)果是計算量的指數(shù)級增加,另一個結(jié)果則是,高維空間的數(shù)據(jù)稀疏,會使算法的偏差顯著擴(kuò)大——這就是為什么當(dāng)人們考慮更高維空間的問題時,即使是科學(xué)家的幾何直覺也會嚴(yán)重失效。
很多年來,維數(shù)災(zāi)難一直是籠罩在各國科學(xué)家頭頂上的“烏云”:可以想象,1928年狄拉克盯著薛定諤方程,試圖建立一個具有兩種可能自旋狀態(tài)的電子模型,他對第一性原理了然于胸卻不得不面對數(shù)學(xué)能力瓶頸的無奈;1957年的貝爾曼寫下控制論方程,為最優(yōu)控制提出基本原理與方法,卻因變量太多不知如何有效求解;1964年,哈特馬尼與斯特恩斯在面對計算機(jī)“原則上可計算、實際上難計算”的一大類問題時,探索“計算復(fù)雜性理論”的緊迫感。
回溯近百年的科學(xué)史,一些聰慧且幸運(yùn)的研究者,他們已經(jīng)找到一把打開科學(xué)大門的鑰匙。然而遺憾的是,鎖舌已開,他們卻沒有“力氣”推開這扇門。
這個“力氣”,就是人類處理多尺度問題(多變量函數(shù))的能力。這一局限,制約了科學(xué)發(fā)現(xiàn)的深度、精度和速度。
鄂維南列舉了科學(xué)家在研究過程中面臨的數(shù)種實際痛點:一是盡洪荒之力研究出來的基本原理,嚴(yán)謹(jǐn)、深刻卻難以致用;二是實驗手段以及收集、處理、分析數(shù)據(jù)的效率太低;三是搞科研還像“小農(nóng)經(jīng)濟(jì)”,從頭到尾都 “一人挑”,科研效率低下且進(jìn)展緩慢;四是面對復(fù)雜的生物制藥、材料研發(fā)等問題,仍然深度依賴經(jīng)驗與繁瑣的試錯。
“隨著研究體系越來越復(fù)雜,研究精度要求越來越高,第一性原理方法在材料發(fā)現(xiàn)和物性研究方面的代價越來越昂貴,無論在空間尺度還是時間尺度,已遇到了難以克服的瓶頸。如何突破這些瓶頸,是目前計算物質(zhì)科學(xué)面臨的最大挑戰(zhàn)?!敝袊茖W(xué)院院士、復(fù)旦大學(xué)物理學(xué)系教授龔新高說。
縱觀世界科學(xué)史,每一次危機(jī)的來臨,都是科學(xué)突破的前夜。
看過伽利略1604年研究自由落體運(yùn)動問題手稿的人們,對此也許感觸更深:計算機(jī)誕生以前,科學(xué)家進(jìn)行科學(xué)探索的工具是大腦、紙和筆:用頭腦來做假設(shè),用紙筆來記錄、做推演。
全世界的科學(xué)家,都迫切需要一個開啟黎明的新工具。
“人工智能就是跨越維數(shù)災(zāi)難、解決高維問題的高手。”鄂維南說。
人工智能誕生以來的半個多世紀(jì),幫助科學(xué)家把復(fù)雜的科學(xué)問題轉(zhuǎn)化為算法問題,進(jìn)行粗粒度建模,并在此基礎(chǔ)上開展了大量的實驗驗證。
這個新工具“高”在哪里?
一方面,它能高效、高精度地求解復(fù)雜物理系統(tǒng),解決大量傳統(tǒng)科學(xué)計算方法無法解決的問題。從圖靈的系統(tǒng)思考開始,伴隨算法、算力、數(shù)據(jù)的融合前進(jìn),人工智能在計算機(jī)視覺、自然語言處理、自動駕駛等飽受維數(shù)困擾的領(lǐng)域大放異彩。隨機(jī)控制問題、求解非線性拋物方程等多變量函數(shù),都是人工智能的用武之地。
另一方面,人工智能還能夠高效地處理海量數(shù)據(jù)。蛋白折疊問題的解決就是例證。
2021年,在開源AlphaFold2僅一周,98.5%的人類蛋白質(zhì)結(jié)構(gòu)即被AlphaFold2預(yù)測出來,做成數(shù)據(jù)集并全部免費(fèi)開放。這一爆炸新聞引爆了科研圈。此前,全球科學(xué)家耗時數(shù)十年努力,也只給出覆蓋人類蛋白質(zhì)序列中17%的氨基酸殘基,而且大多是易被破解的結(jié)構(gòu)。
現(xiàn)在,我們可以重新提問:‘這個問題是否有原理、數(shù)據(jù)?哪怕只有其中一個,我們也有機(jī)會將問題推進(jìn)到前人無法觸及的程度。
此次,除了人類蛋白質(zhì)組,數(shù)據(jù)集還包含了果蠅、小鼠、大腸桿菌等20個科研常用生物的蛋白質(zhì)組數(shù)據(jù),總計超過35萬個蛋白質(zhì)結(jié)構(gòu)。
AlphaFold2的出現(xiàn),徹底改變了蛋白折疊的技術(shù)路線,也使合成生物學(xué)在工程化和標(biāo)準(zhǔn)化等方面得到提高。
“我們需要一套新的思路來理解高維對象:高維的函數(shù)逼近、高維概率分布的處理、高維的動力系統(tǒng)、高維的微分方程等。從科學(xué)應(yīng)用的角度,在化學(xué)、材料、工程等領(lǐng)域,只要涉及理論,或者在實驗中涉及數(shù)據(jù)和模型,就有人工智能一展身手之處?!倍蹙S南說。
面對復(fù)雜的物理系統(tǒng),人工智能也讓科學(xué)家看到曙光。
過去,既精確又高效的分子動力學(xué)方法幾乎不存在。2020年,張林峰、賈偉樂等中國科學(xué)家首次把機(jī)器學(xué)習(xí)、物理建模和高性能計算結(jié)合在一起,通過深度學(xué)習(xí)方法將第一性原理的計算精度帶到更大尺度的分子模擬上來,實現(xiàn)了分子層面大規(guī)模、高效的模擬,從只能做1000個原子提升到了1億個原子,提高了微觀科學(xué)計算的尺度與精度。
“水的相圖是異常復(fù)雜的。過去很難模擬水的相圖,但采用機(jī)器學(xué)習(xí)的方法、用新的分子動力學(xué)的工具DeePMD,得到水的相圖就不再是不可能完成的任務(wù)?!倍蹙S南說,這一思路不僅應(yīng)用于分子動力學(xué),還可應(yīng)用于整個物理模型的生態(tài)鏈:從微觀的薛定諤方程,到介觀的玻爾茲曼方程,再到宏觀的湍流模型……可以說,人工智能新算法將開啟科學(xué)計算的新時代。
從“刀耕火種”到“鐵犁牛耕”,生產(chǎn)工具的革新,帶來的直接改變就是生產(chǎn)力水平的提高。
翻開最新的國際頂刊的目錄,不難發(fā)現(xiàn)這一不可阻擋的趨勢:從人工智能驅(qū)動的蛋白質(zhì)功能機(jī)理探索和理性設(shè)計,到基于人工智能的藥物發(fā)現(xiàn)和藥物優(yōu)化,從酶改造與生物基化學(xué)品的生成,再到科學(xué)育種與氣象預(yù)測——不論是微觀世界的多尺度探索,還是宏觀、微觀尺度科學(xué)成果的應(yīng)用,人工智能求解高維函數(shù)、解決復(fù)雜問題的優(yōu)勢正在持續(xù)釋放。
6月25日,第五屆全球人工智能產(chǎn)品應(yīng)用博覽會在蘇州工業(yè)園區(qū)開幕
天津梅江會展中心,觀眾在“AI+辦公”技術(shù)展臺前觀看演示視頻(李然/ 攝)
2021年,國際頂刊《自然》收錄了DeepMind的一項新成果。研究人員用深度生成模型取代了大氣物理方程,實現(xiàn)了200萬平方公里大氣層的物理仿真。
2022年,DeepMind與瑞士洛桑聯(lián)邦理工學(xué)院等離子體中心的物理學(xué)家共同完成的論文再登《自然》。一直以來,有效控制等離子體是通往核聚變的關(guān)鍵。數(shù)十年來,科學(xué)家不斷研究托卡馬克裝置,約束等離子體,從而達(dá)成可控核聚變的目的。這項研究中,他們對核聚變進(jìn)行物理仿真,用一個大型神經(jīng)網(wǎng)絡(luò)每秒對90種等離子體的形狀和位置完成一萬次訓(xùn)練,不斷對磁場變化如何塑造等離子體進(jìn)行長程預(yù)測。
2023年,就在不久前,《自然》發(fā)表了一篇由我國青年科學(xué)家參與完成的一項重磅成果:創(chuàng)新提出了首個mRNA序列設(shè)計算法“LinearDesign”。這一算法可將mRNA分子穩(wěn)定性(mRNA分子半衰期)提升5倍以上,蛋白質(zhì)表達(dá)水平提升3倍,抗體反應(yīng)提升128倍,不僅有助于生物醫(yī)藥公司快速研發(fā)更有效的mRNA疫苗,降低研發(fā)成本,還可以應(yīng)用于包括單克隆抗體、抗癌藥物在內(nèi)的藥物研發(fā)。
從生命體的基本組成到世界工業(yè)的基本要素,人工智能不僅是解決具體問題的有力工具,更成為重新定義科學(xué)問題的系統(tǒng)性思路。
“以前,定義問題的方式是‘這個問題是否能進(jìn)行觀測并總結(jié)規(guī)律。進(jìn)入計算機(jī)時代,我們定義問題的方式是‘這個問題是否能被多項式有效近似并通過計算機(jī)模擬。而現(xiàn)在,我們可以重新提問:‘這個問題是否有原理、數(shù)據(jù)?哪怕只有其中一個,我們也有機(jī)會將問題推進(jìn)到前人無法觸及的程度?!倍蹙S南說。
當(dāng)科學(xué)家從人工智能的視角,重新審視埋藏在地下的科學(xué)問題,尤其是那些許久以來尚未解決、被稱作“不可能完成的任務(wù)”,新的答案、新的可能將加速涌現(xiàn)。
如果能更廣泛地應(yīng)用這一思路,將科學(xué)這片土壤重新開墾一遍,許多貧瘠多年的領(lǐng)域或許也能繁花似錦。
“毋庸置疑,傳統(tǒng)的科學(xué)領(lǐng)域?qū)⒊蔀槿斯ぶ悄艿囊粋€主戰(zhàn)場。同時,科學(xué)研究的范式也會發(fā)生改變:從‘小農(nóng)作坊模式邁向‘安卓模式。不遠(yuǎn)的將來,我們將看到平臺科研興起?!倍蹙S南說。
(實習(xí)生趙宇彤參與采寫)