汪洪,項曉東,張瀾庭
a Materials Genome Initiative Center & School of Materials Science and Engineering, Shanghai Jiao Tong University, Shanghai 200240, China
b Department of Materials Science and Engineering, Southern University of Science and Technology, Shenzhen 518055, China
近年來,材料基因組已經(jīng)成為材料科學(xué)領(lǐng)域的一個熱門話題?!安牧匣蚪M”(materials genome)一詞的出現(xiàn),很大程度上受到成功的人類基因組計劃的啟發(fā)。傳統(tǒng)上,新材料和新工藝的發(fā)現(xiàn)和開發(fā)依賴于科學(xué)直覺和漫長的試錯過程。多年來,材料科學(xué)家渴望找到某種類似于生物基因的材料基本構(gòu)造單元,其排序及缺陷結(jié)構(gòu)或可決定材料的性質(zhì)或功能。通過了解這些構(gòu)件,他們希望能夠按需設(shè)計材料,從而加速材料的發(fā)現(xiàn)和開發(fā),并降低成本。自2011年美國啟動“材料基因組計劃”[1,2]以來,其他主要經(jīng)濟體如歐盟[3,4]、日本[5]和中國都在國家層面設(shè)立了類似的科學(xué)計劃。然而關(guān)于什么是“材料基因組”,一直眾說紛紜,難下定論。近期取得的共識是其僅作為設(shè)計預(yù)測材料研發(fā)模式的代稱[6]。材料基因工程(materials genome engineering, MGE)意味著通過交叉融合高通量計算、高通量實驗和材料信息學(xué)技術(shù),速度更快、效率更高、成本更少地掌握成分-組織-工藝-性能間的關(guān)聯(lián)關(guān)系——這些恰恰構(gòu)成了材料設(shè)計的基礎(chǔ)。
材料基因工程的工作模式可大致可分為實驗驅(qū)動、計算驅(qū)動和數(shù)據(jù)驅(qū)動[7]三種。實驗驅(qū)動模式基于高通量合成與表征實驗,直接快速優(yōu)化與篩選材料。這種模式的典型代表是高通量組合材料芯片技術(shù)[8]。計算驅(qū)動模式基于計算模擬,預(yù)測有希望的候選材料,再進行實驗驗證[9],大大縮小實驗范圍。數(shù)據(jù)驅(qū)動模式基于大量數(shù)據(jù),借助材料信息學(xué)方法建立模型,即利用人工智能(AI)方法,如機器學(xué)習,解析多參數(shù)間復(fù)雜的關(guān)聯(lián)關(guān)系,預(yù)測出候選材料[10]。從人類認識自然的過程來看,數(shù)千年來,科學(xué)探索跨越了實驗觀測、理論推演、計算仿真幾個階段。今天,利用前所未有的計算能力和大規(guī)模的數(shù)據(jù)收集能力,現(xiàn)代科學(xué)正在進入“第四范式”[11],即密集數(shù)據(jù)+人工智能。材料基因工程的數(shù)據(jù)驅(qū)動模式正是“第四范式”的體現(xiàn)。
應(yīng)該看到,實驗和計算驅(qū)動模式的實質(zhì)是基于事實的判斷或基于物理規(guī)律的推演,并未從根本上改變材料科學(xué)的既有思維模式與工作套路。與之形成對照的是,數(shù)據(jù)驅(qū)動模式使用人工智能來揭示隱藏在海量數(shù)據(jù)背后的關(guān)聯(lián)關(guān)系,為現(xiàn)有的常規(guī)研究增加了新的維度和視角,因此這個“工具箱里的新成員”必將帶來新的能力,它的運用可能產(chǎn)生顛覆性的效果。盡管如此,我們還須指出,數(shù)據(jù)驅(qū)動模式絕不意味著對實驗驅(qū)動和計算驅(qū)動模式的簡單取代。相反,它應(yīng)看作是對傳統(tǒng)認知范式的有力補充和延伸,適時發(fā)揮各自的作用。此外,還應(yīng)將領(lǐng)域知識引入機器學(xué)習機制,為基于人工智能的模型提供指導(dǎo)并提高其有效性。
充足的材料數(shù)據(jù)是全面實施數(shù)據(jù)驅(qū)動模式的基本前提。盡管世界各地的數(shù)據(jù)庫已經(jīng)收集的數(shù)據(jù)數(shù)以億計,但在材料問題的多樣性和復(fù)雜性面前,這不過是滄海一粟。據(jù)簡單估計[7],任取四個元素可組成200萬個四元體系,按數(shù)據(jù)密度為1%成分計算,共應(yīng)有上萬億個多維數(shù)據(jù)點。事實上,材料數(shù)據(jù)的高度匱乏,嚴重限制了數(shù)據(jù)驅(qū)動模式在材料領(lǐng)域全面展開。在數(shù)據(jù)驅(qū)動模式下,快速產(chǎn)生大量材料數(shù)據(jù)的能力變得至關(guān)重要。
在許多方面,現(xiàn)有的材料研究基礎(chǔ)設(shè)施是為滿足當前的需要而設(shè)計和開發(fā)的。作為全新的材料科學(xué)研究套路,材料基因工程需要發(fā)展與之相適應(yīng)的基礎(chǔ)設(shè)施,從而保證新型技術(shù)體系得到有效實施。新型材料創(chuàng)新基礎(chǔ)設(shè)施應(yīng)以數(shù)據(jù)為中心,聚焦于數(shù)據(jù)的產(chǎn)生與利用。數(shù)據(jù)平臺具有數(shù)據(jù)收集、存儲、處理、交換、共享和網(wǎng)絡(luò)協(xié)作的綜合能力[12],包括基于AI方法的建模軟件工具庫與符合材料基因工程理念的數(shù)據(jù)庫;高通量實驗與高通量計算平臺技術(shù)恰好為快速獲取大量數(shù)據(jù)提供了有效途徑,同時也滿足實驗驅(qū)動與計算驅(qū)動模式的技術(shù)需求。這樣,材料基因工程的三個技術(shù)要素實現(xiàn)了內(nèi)在的協(xié)同,形成了缺一不可的深度融合關(guān)系。
材料基因工程數(shù)據(jù)除了體量大外,還應(yīng)保證數(shù)據(jù)具有高度完整性、系統(tǒng)性、一致性和多參量綜合性。在理想條件下,這些數(shù)據(jù)應(yīng)產(chǎn)生于一個集中建立或虛擬鏈接的平臺,或可稱之為“數(shù)據(jù)工廠”(圖1),它們能夠像工業(yè)生產(chǎn)線一樣以標準化的方式批量地生產(chǎn)數(shù)據(jù)。實驗“數(shù)據(jù)工廠”可以是基于大型科學(xué)設(shè)施(如同步加速器光源、中子源等)的大規(guī)模系統(tǒng)性的高通量綜合制備與表征平臺,或集成原位制備和多參數(shù)表征手段為一體的實驗設(shè)施。計算“數(shù)據(jù)工廠”可以是一個擁有各種高通量計算軟件和硬件的平臺,能夠通過批量計算生成大量的綜合材料數(shù)據(jù)?!皵?shù)據(jù)工廠”將給數(shù)據(jù)生成帶來一系列重大變化。第一,為了更廣泛的長遠的目標,全面的材料數(shù)據(jù)將被大規(guī)模地有意識地產(chǎn)生,而不再局限于作為分散的具有特定目的的實驗或計算的副產(chǎn)物;第二,“數(shù)據(jù)工廠”將數(shù)據(jù)的產(chǎn)生由個體活動轉(zhuǎn)變?yōu)橛薪M織的社會活動;第三,這種有組織的努力將把數(shù)據(jù)的社會屬性從私有財產(chǎn)轉(zhuǎn)變?yōu)楣操Y源。因此,數(shù)據(jù)的質(zhì)量、一致性和全面性將得到提高,數(shù)據(jù)共享將變得更加簡單,社會總成本也將降低。這種新型的數(shù)據(jù)產(chǎn)生形式是材料科學(xué)的革命性變化。
目前,國內(nèi)外已開發(fā)了一系列基于高通量計算平臺或計算“數(shù)據(jù)工廠”的數(shù)據(jù)庫,如Materials Project [13]、Automatic Flow for Materials Discovery (AFLOW) [14]、Open Quantum Materials Database (OQMD) [15]、Novel Materials Discovery (NOMAD) [16]和MatCloud [17]。High-Throughput Experimental Materials Database (HTEMDB) [18]是由美國國家可再生能源實驗室(NREL)開發(fā)的利用高通量薄膜技術(shù)合成無機材料的開放實驗數(shù)據(jù)庫。它已初步具有實驗“數(shù)據(jù)工廠”的特征。由中國國家重點研發(fā)計劃支持的計算與實驗“數(shù)據(jù)工廠”目前正在建設(shè)中。
材料基因工程的另一項重要任務(wù)是改革材料界多年來形成的封閉型工作方式,培育開放、協(xié)作的新型“大科學(xué)”研發(fā)模式。為了突破長期以來研究數(shù)據(jù)私有性的局限,讓數(shù)據(jù)為全體研究者共享,Mons與他的合作者[19,20]共同提出了數(shù)據(jù)可發(fā)現(xiàn)、可訪問、可交互、可重復(fù)使用的FAIR(findable, accessible, interoperable,reusable)數(shù)據(jù)原則。建立與之適應(yīng)的數(shù)據(jù)標準是確保數(shù)據(jù)符合FAIR原則的一個重要方面。為此,最近發(fā)布的中國試驗與材料標準(CSTM)《材料基因工程數(shù)據(jù)通則》[21]是對數(shù)據(jù)內(nèi)容進行標準化的首次嘗試(盡管具體數(shù)據(jù)格式標準仍有待建立)。這里,數(shù)據(jù)分為樣品、源數(shù)據(jù)(未經(jīng)處理的數(shù)據(jù))與衍生數(shù)據(jù)(經(jīng)分析處理得到的數(shù)據(jù))三類,以每次操作(樣品制備/表征/計算/數(shù)據(jù)處理)為條目單位,分別賦予獨立資源標識(如DOI或符合GB/T 32843—2016的標識)。樣品可以是實驗產(chǎn)生的實物,也可以是經(jīng)計算產(chǎn)生的虛擬物。同理,源數(shù)據(jù)可以是直接測量的結(jié)果,也可以在給定條件下通過計算/模擬生成。每個數(shù)據(jù)條目都應(yīng)盡可能完整地收集與操作相關(guān)的元數(shù)據(jù)。將樣品單獨列為一類數(shù)據(jù)是之前其他數(shù)據(jù)中都沒有的獨特做法,其最大優(yōu)點是使樣品本身和數(shù)據(jù)一樣成為符合FAIR原則的公共資源,便于被發(fā)現(xiàn)、共享和重復(fù)使用。
圖1. “數(shù)據(jù)工廠”——像一條工業(yè)生產(chǎn)線一樣以標準化方式批量生產(chǎn)數(shù)據(jù)的專用設(shè)施——概念圖示。如圖中右側(cè)所示,實驗數(shù)據(jù)工廠包含系統(tǒng)的、高通量的合成和表征設(shè)置,產(chǎn)生的多參量數(shù)據(jù)集包括機械、電氣、光學(xué)、熱學(xué)、磁學(xué)和聲學(xué)特征及性能等。理想情況下,所有性能測量都是在同一樣品上完成,最好同時進行,甚至是實時原位表征。如圖中左側(cè)所示,計算數(shù)據(jù)工廠可以是一個擁有各種高通量計算軟硬件的計算中心,通過密度泛函理論、分子動力學(xué)、CALPHAD方法、相場模擬、有限元分析等多種方法,批量計算生成從原子尺度到宏觀尺度的大量綜合數(shù)據(jù)。數(shù)據(jù)工廠可以在同一地點集中建立,也可以是一組虛擬鏈接站點組成的平臺。
綜上所述,材料基因工程的數(shù)據(jù)驅(qū)動模式提出了一種新的材料創(chuàng)新范式,它與當前的思維和行為方式有著根本的不同,需要相應(yīng)的全新基礎(chǔ)設(shè)施來支撐。必要的基礎(chǔ)設(shè)施包括一個以數(shù)據(jù)為中心的集成平臺,整合了數(shù)據(jù)設(shè)施、高通量實驗和高通量計算模塊,以全面覆蓋數(shù)據(jù)生產(chǎn)、存儲、分析、共享和協(xié)同能力。這樣的平臺將產(chǎn)生和利用大量符合FAIR原則的數(shù)據(jù),以支撐數(shù)據(jù)驅(qū)動模式的發(fā)展,同時也服務(wù)于實驗驅(qū)動和計算驅(qū)動模式的實踐。
致謝
本文作者感謝國家重點研發(fā)計劃項目(2018YFB0703600)的經(jīng)費支持。