孫志梅 王冠杰 張烜廣 周健
(1. 北京航空航天大學 材料科學與工程學院, 北京 100083;2. 北京航空航天大學 集成電路科學與工程學院, 北京 100083)
先進材料是國家工業(yè)的支柱,在傳統(tǒng)“試錯-糾錯”研發(fā)模式下,材料學家基于自身知識儲備和認知能力,通過反復迭代的試錯-糾錯改進材料性能,實現(xiàn)新材料的設(shè)計與研發(fā)。 隨著新一輪工業(yè)革命和互聯(lián)網(wǎng)時代的到來,新材料的研發(fā)速度嚴重滯后于材料性能需求速度,按需逆向設(shè)計和精準控制性能已成為新材料設(shè)計的必然趨勢。 20世紀末,美國興起組合材料學(combinatorial materials science, CMS)[1],通過并行合成和高通量表征技術(shù),實現(xiàn)了新材料的快速制備和篩選;21 世紀初,美國和歐洲部分國家提出的集成計算材料工程(integrated computational materials engineering, ICME)[2]將不同時間尺度和空間尺度的多種材料模擬方法相結(jié)合,在新材料設(shè)計領(lǐng)域取得了突破。 如今,隨著計算機和人工智能技術(shù)的飛速發(fā)展,材料基因工程(materials genome engineering,MGE)被視為實現(xiàn)材料科學技術(shù)飛躍和新材料高效研發(fā)與設(shè)計的基礎(chǔ),是新材料研發(fā)的加速器。
材料基因工程是受人類基因組計劃(human genome project, HGP)的啟發(fā)而建立的。 在生物學中,基因是一組編碼信息,被視為生物體生長和發(fā)育的藍圖,而在材料領(lǐng)域,基因可被看作決定其宏觀性能的微觀特征單元。 作為基于數(shù)據(jù)驅(qū)動的科學發(fā)展第四范式,材料基因工程將高通量計算和設(shè)計、高通量制備、高通量表征、材料數(shù)據(jù)庫和人工智能相結(jié)合,大大縮短了材料研發(fā)周期、降低了研發(fā)成本,從而快速研發(fā)出滿足日益增長的性能需求的新材料。
2002 年,美國賓夕法尼亞州立大學Liu[3-4]首次提出材料基因的概念,并于2005 年設(shè)立材料基因基金會。 2011 年,美國正式發(fā)布提升美國全球競爭力的材料基因組計劃(materials genome initiative, MGI)[5],確立了面向未來的集成計算、實驗和數(shù)據(jù)庫的材料研發(fā)新模式。 MGI 構(gòu)建了包含上百萬條先進能源材料的計算模擬結(jié)果材料數(shù)據(jù)庫,并提出了計算機輔助材料研發(fā)、模塊化的材料模擬體系、開放式的材料高性能數(shù)據(jù)庫以及多尺度計算融合等研究方向。 歐盟也相繼提出了“新材料發(fā)現(xiàn)NOMAD”計劃、德國推出了工業(yè)4.0戰(zhàn)略、俄羅斯推出“2030 年前材料與技術(shù)發(fā)展戰(zhàn)略”、中國提出了“材料基因工程”等一系列政策將新材料探索和材料創(chuàng)新設(shè)計與研發(fā)作為首要發(fā)展目標。
本文首先介紹了國內(nèi)外材料基因工程領(lǐng)域常用的高通量計算模擬軟件和框架。 其次,從材料數(shù)據(jù)來源、多類型數(shù)據(jù)庫和數(shù)據(jù)標準方面介紹了目前常用的材料數(shù)據(jù)庫。 然后,總結(jié)了機器學習方法在材料學中的熱點應(yīng)用,重點介紹了筆者團隊自主開發(fā)的多尺度集成可視化的高通量自動計算和數(shù)據(jù)管理智能平臺ALKEMIE 研究進展。 最后,總結(jié)提出了材料基因工程未來的重點發(fā)展方向。
科學發(fā)展經(jīng)歷了如圖1 所示的4 個過程:從文藝復興時期實驗主導的經(jīng)驗范式、以經(jīng)典力學和熱力學為主導的理論模型范式、基于分子動力學和密度泛函理論的計算科學范式,到如今的大數(shù)據(jù)驅(qū)動的科學研究范式[6]。 近年來,美國、歐洲、日本和中國等國家科研人員在數(shù)據(jù)驅(qū)動研發(fā)模式的推動下,開發(fā)了一系列用于材料計算基礎(chǔ)設(shè)施的高通量計算框架和“即插即用”功能完善的高通量計算軟件,如表1 所示。 2011 年,在美國國家科學技術(shù)委員會、能源部和教育部支持下,加利福尼亞大學伯克利分校勞倫斯伯克利國家實驗室Jain 等[7]主導開展了材料基因組項目(materials project, MP),該項目開發(fā)了4 款分別用于材料建模、材料計算模擬、自動糾錯和服務(wù)器部署的高通量計算分析軟件。 其中,FireWorks 用于構(gòu)建材料高通量計算模擬框架,解決高通量材料計算過程中多任務(wù)間的依賴關(guān)系和任務(wù)間的參數(shù)及數(shù)據(jù)傳遞;Custodian 用于高通量計算過程中的自動糾錯;Pymatgen 通過抽象的Python 對象解析材料結(jié)構(gòu)對稱性,自動分析不同尺度計算模擬軟件的輸入?yún)?shù)和結(jié)果,工作原理如圖2 所示;Atomate則實現(xiàn)了完整的高通量流程及數(shù)據(jù)存儲和服務(wù)器的配置,如圖3 中能帶計算工作流所示。 該項目以其獨特的命令行操作方式為高通量計算奠定了軟件基礎(chǔ)。
圖2 Pymatgen 高通量軟件工作原理[7]Fig.2 Principle of Pymatgen high-throughput software[7]
圖3 Atomate 中高通量能帶計算流程[7]Fig.3 High-throughput computational workflow of band structure in Atomate[7]
表1 材料高通計算軟件和框架發(fā)展現(xiàn)狀Table 1 Software and frameworks of material high-throughput calculation
圖1 科學發(fā)展的四個范式[6]Fig.1 Four paradigms of science[6]
2012 年,同屬美國材料基因組項目的杜克大學Curtarolo 等[8]基于Python2 開發(fā)了適用于第一性原理計算的高通量計算軟件AFLOW-π。 該軟件針對高通量第一性原理計算,集成了數(shù)據(jù)實時反饋、錯誤控制、數(shù)據(jù)管理和歸檔等功能,可用于實現(xiàn)能帶結(jié)構(gòu)、態(tài)密度、聲子色散、彈性特性、復介電常數(shù)、擴散系數(shù)等高通量計算,并針對性地優(yōu)化了緊束縛的哈密頓量(tight-binding Hamiltonians,TBH)計算和數(shù)據(jù)分析流程。
丹麥科技大學Larsen 團隊[9]開發(fā)了材料批量化計算平臺原子模擬環(huán)境(atom simulation environment, ASE), 該軟件由于缺少工作流程、計算參數(shù)和結(jié)果的自動糾錯功能,并非完整意義上的高通量計算。 而隨著版本的迭代,科研人員為其進一步添加了可視化的用戶界面、多個材料軟件計算器、多種算法的分子動力學計算軟件和多種晶體結(jié)構(gòu)優(yōu)化算法及邊界條件,可以滿足不同用戶不同功能的計算需求。 目前,該平臺包含了ABINIT、CASTEP、CP2K、VASP 和LAMMPS 等常用的材料計算模擬軟件。
2016 年,瑞士洛桑聯(lián)邦理工大學Pizzi 等[10]開發(fā)了高通量計算引擎(automated interactive infrastructure and database for computational science,AiiDA),該軟件系統(tǒng)基于自動化、數(shù)據(jù)庫和開源共享理念,開發(fā)了支持數(shù)萬個材料計算任務(wù)并發(fā)運行的高通量算法。 材料科學家不僅關(guān)注計算模擬的輸入和輸出,更關(guān)注計算模擬過程中的精度及構(gòu)型的變化是否準確,因此,該軟件保存了材料高通量計算中的子任務(wù)依賴關(guān)系,并自動跟蹤記錄所有計算和工作流程的輸入、輸出和中間元數(shù)據(jù),以便在其開放式數(shù)據(jù)庫Materials Cloud 中查詢數(shù)據(jù)。
基于MP 發(fā)展的材料高通量計算基礎(chǔ)框架,比利時天主教魯汶大學Gonze 等[11]開發(fā)了基于多體微擾論的第一性原理高通量計算軟件Abipy;美國佛羅里達大學Mathew 等[12]發(fā)展了針對二維材料表面和異質(zhì)結(jié)的高通量計算流程MPInterfaces(見圖4);英國倫敦國王學院Lambert等[13]發(fā)展了用于原子晶界的高通量計算框架Imeall 等。
圖4 二維材料表面和異質(zhì)結(jié)的高通量計算軟件MPInterfaces 工作流程[12]Fig.4 Workflow for 2D material surfaces and heterojunctions in MPInterfaces software[12]
相比于國外材料基因工程的研究成果,中國高通量計算起步較晚,但在2016 年《中華人民共和國國民經(jīng)濟和社會發(fā)展第十三個五年規(guī)劃綱要》中材料基因國家重點專項支持下,中國也涌現(xiàn)了多個成熟的材料高通量計算框架和軟件。
多尺度集成可視化的高通量自動計算和數(shù)據(jù)管理智能平臺(artificial learning and knowledge enhanced materials informatics engineering, ALKEMIE)是由筆者團隊Wang 等[14-15]基于Python 開源框架自主開發(fā)的中國第一個高通量自動流程可視化計算和數(shù)據(jù)管理智能平臺。 該平臺從設(shè)計出發(fā)吸取國外材料基因相關(guān)軟件的先進理念,克服了計算過程中可能遇到的兼容性差、接口不統(tǒng)一和功能拓展困難等問題,開發(fā)了包含材料高通量自動計算模擬、材料數(shù)據(jù)庫及數(shù)據(jù)管理、基于人工智能和機器學習的材料數(shù)據(jù)挖掘3 個核心理念的智能平臺。 ALKEMIE 平臺適用于數(shù)據(jù)驅(qū)動的材料研發(fā),詳細內(nèi)容見第4 節(jié)。
MIP(materials information platform)是由上海大學Yang 等[16]開發(fā)的適用于熱電材料高通量篩選的高通量計算軟件;MatCloud 是由北京邁高材云科技有限公司Yang 等[17]開發(fā)的第一性原理計算引擎,目前支持VASP 和ABINIT 等第一性原理高通量計算軟件;JAMIP 是由吉林大學Zhao等[18]開發(fā)的開源高通量集成軟件,該軟件利用人工智能算法在高通量計算的海量材料數(shù)據(jù)中智能尋求新材料和新原理。 中國材料基因工程高通量計算平臺(CNMGE)則是由國家超級計算天津中心開發(fā)的網(wǎng)頁版高通量集成計算平臺,該平臺可以集成多種不同的高通量計算軟件,包括ALKEMIE 高通量智算平臺、含能材料分子專用高通量篩選系統(tǒng)EM-Studio 和用于無機骨架材料的晶體結(jié)構(gòu)解析與預測軟件(framework generator, FraGen)。
上述高通量計算軟件和框架,一方面為科研人員提供了快捷方便的自動計算工作流,可以在高性能超算中實現(xiàn)高效并行計算,顯著提升計算效率;另一方面避免了傳統(tǒng)試錯-糾錯法中可能出現(xiàn)的人為誤差,使得研究人員有更多的精力關(guān)注材料科學問題本身,而非高通量所涉及的技術(shù)難題。 近年來,高通量計算模擬已經(jīng)在材料構(gòu)型預測、材料結(jié)構(gòu)穩(wěn)定性和相穩(wěn)定性預測、能源材料能量轉(zhuǎn)化效率、最優(yōu)摻雜元素分級篩選等方面獲得了廣泛應(yīng)用。 舉例來說,Curtarolo 等[19-20]通過高通量方法從435 個含d 電子的二元金屬間化合物中篩選出了283 個能量穩(wěn)定化合物,其中273 個(96.5%)化合物最終獲得了實驗驗證;Hu 等[21]基于第一原理計算的層級篩選,從29 個過渡金屬元素中篩選出可以提高相變材料Sb2Te3性能的最佳摻雜元素Y、Sc 和Hg,除了有毒的Hg 元素,Y 和Sc 均獲得了實驗驗證;Gan 等[22]基于第一原理計算的高通量分級篩選,通過結(jié)構(gòu)能量、聲子譜、力學穩(wěn)定性和轉(zhuǎn)換效率等4 個篩選標準從21 060個候選光電材料中篩選出了78 個穩(wěn)定化合物,且其中22 個化合物的性能優(yōu)于當前太陽能電池材料GaAs。
高通量計算大幅提高了計算模擬的效率,并產(chǎn)生了海量的數(shù)據(jù),這些數(shù)據(jù)中既包含了有用的材料性質(zhì)數(shù)據(jù),又包含了大量重復的無效數(shù)據(jù)。而材料學中由于所研究的材料體系、成分、結(jié)構(gòu)等的不同,材料測試、制備工藝和流程也不盡相同。對于不同用途材料,所關(guān)注的材料性能和關(guān)鍵指標也有差異,因此,在數(shù)據(jù)庫的構(gòu)建過程中面臨數(shù)據(jù)存儲類型、數(shù)據(jù)庫的兼容性和泛化能力等一系列問題。 本文根據(jù)材料數(shù)據(jù)來源,將數(shù)據(jù)大致分為材料計算數(shù)據(jù)、材料測試數(shù)據(jù)和已發(fā)表的文本數(shù)據(jù)三大類。 本節(jié)將介紹目前國內(nèi)外常用的材料數(shù)據(jù)庫和數(shù)據(jù)共享標準。
目前常用的材料數(shù)據(jù)庫如表2 所示。 ICSD是由萊布尼茨信息基礎(chǔ)設(shè)施研究所Belsky 等[23]構(gòu)建的無機材料結(jié)構(gòu)數(shù)據(jù)庫,收錄了自1913 年以來在1 600 個學術(shù)期刊發(fā)表的超過8 萬篇論文中的共計21 萬條晶體結(jié)構(gòu)數(shù)據(jù),覆蓋金屬、有機物、同素異形體等各種形態(tài)的材料體系;COD (crystallography open database) 是由英國劍橋大學Quirós 等[24]開發(fā)的包含超過700 萬個有機、無機、金屬有機化合物和礦物的晶體結(jié)構(gòu)數(shù)據(jù)庫;MP Database 是由美國加利福尼亞大學伯克利分校勞倫斯伯克利國家實驗室Jain 等[7]建立的材料計算模擬專用數(shù)據(jù)平臺(見圖5),不僅收錄了材料結(jié)構(gòu)數(shù)據(jù),也收錄了元素性質(zhì)、電子結(jié)構(gòu)、彈性張量和能源轉(zhuǎn)換電極性能等數(shù)據(jù);AFLOWLIB(automatic flow lib)是由美國杜克大學Curtarolo等[19]基于AFLOW-π 高通量軟件開發(fā)的材料計算數(shù)據(jù)庫,數(shù)據(jù)庫中收錄了6 400 余條熱力學相圖數(shù)據(jù)和超過45 萬個四元混合物的材料性質(zhì)數(shù)據(jù);Materials Cloud 是由瑞士洛桑聯(lián)邦理工大學Pizzi 等[10]開發(fā)的第一性原理計算元數(shù)據(jù)的數(shù)據(jù)庫,包括超過752 萬條第一性原理結(jié)構(gòu)弛豫流程和納米多孔材料吸收和擴散相關(guān)的材料性質(zhì)數(shù)據(jù);OQDM(open quantum database for materials)是由美國西北大學Saal 等[25]開發(fā)的第一性原理計算熱力學數(shù)據(jù)庫,包含了數(shù)萬個二元、三元和四元相圖;NOMAD(novel materials discovery)是由歐洲馬克斯·普朗克學會Draxl 等[26]開發(fā)的歐洲最大的新材料共享數(shù)據(jù)庫,該數(shù)據(jù)庫包含了49 TB的各類材料數(shù)據(jù);MatNavi 是由日本國家材料科學研究所Ogata 等[27]開發(fā)的多種材料數(shù)據(jù)的集合,包含聚合物數(shù)據(jù)庫(化學結(jié)構(gòu)、加工、物理性質(zhì)、NMR 光譜數(shù)據(jù))、無機材料數(shù)據(jù)庫(晶體結(jié)構(gòu)、相圖、物理性質(zhì))、金屬材料數(shù)據(jù)庫(密度、彈性模量、蠕變性質(zhì)、疲勞特性)、電子結(jié)構(gòu)計算數(shù)據(jù)庫等。
圖5 Materials Project Database 數(shù)據(jù)庫概況[7]Fig.5 Snapshot of Materials Project Database[7]
表2 材料多類型數(shù)據(jù)庫的發(fā)展Table 2 Development of multi-type databases of materials
除了上述通用的多類型材料數(shù)據(jù)庫,還有眾多針對材料某個特定領(lǐng)域的特色數(shù)據(jù)庫。 例如,美國佛羅里達大學開發(fā)的材料表面界面數(shù)據(jù)庫Materials Web; 美國國家標準技術(shù)研究所Choudhary 等[28]開發(fā)的贗勢數(shù)據(jù)庫JARVIS-DFT;丹麥科技大學Larsen 等[9]開發(fā)的二維材料、硒化物和硫化物數(shù)據(jù)庫(computational materials repository, CMR);北歐理論物理研究所Borysov 等[29]開發(fā)的三維有機晶體材料電子結(jié)構(gòu)和帶隙數(shù)據(jù)庫(organic materials database,OMDB);美國斯坦福大學Hummelsh?j 等[30]開發(fā)的催化材料活化能數(shù)據(jù)庫CatApp;此外,還有ASM 出版社開發(fā)的熱處理數(shù)據(jù)表及應(yīng)力應(yīng)變和蠕變曲線材料數(shù)據(jù)庫(ASM alloy center database,ASMDB)、礦物材料數(shù)據(jù)庫(American mineralogist crystal structure database,AMSD)和儲氫材料數(shù)據(jù)庫(hydrogen storage materials database,HSMD)等。
中國目前也發(fā)展了多個大型材料數(shù)據(jù)庫共享平臺。 ALKEMIE-DB 是由筆者團隊Wang 等[14-15]基于高通量智能計算平臺ALKEMIE 開發(fā)的多類型材料數(shù)據(jù)庫(見圖6),該數(shù)據(jù)庫分為隱私數(shù)據(jù)庫和共享數(shù)據(jù)庫兩大類,根據(jù)數(shù)據(jù)類型進一步細分為含60 余萬組數(shù)據(jù)的晶體結(jié)構(gòu)數(shù)據(jù)庫、含1 萬余條聲子能帶的聲子譜數(shù)據(jù)庫、含20 余萬組數(shù)據(jù)的深度學習贗勢數(shù)據(jù)庫、高通量計算工作流數(shù)據(jù)庫等。 MSDSN 是由國家統(tǒng)籌建設(shè)、北京科技大學實施完成的材料科學數(shù)據(jù)共享平臺,主要分為包含有色金屬材料和特種合金和微觀組織模擬的實驗數(shù)據(jù)庫、熱力學和動力學相關(guān)的計算模擬數(shù)據(jù)庫等。 Atomly 是由中國科學院物理研究所松山湖材料實驗室和懷柔材料基因平臺共建的材料計算數(shù)據(jù)庫,目前包含20 萬條材料結(jié)構(gòu)數(shù)據(jù)和5 萬條相圖數(shù)據(jù)等。 MCDC(national materials corrosion and protection data center)是由國家科技部門建設(shè)的腐蝕防護數(shù)據(jù)平臺,包含環(huán)境數(shù)據(jù)、腐蝕數(shù)據(jù)、腐蝕檢測和腐蝕預測等。
圖6 ALKEMIE-DB 數(shù)據(jù)庫中高通量能帶和態(tài)密度計算結(jié)果可視化[14]Fig.6 Visualization of high-throughput band structures and density of states calculations in ALKEMIE-DB databases[14]
隨著高通量計算、高通量實驗和超級計算機計算能力的發(fā)展,材料數(shù)據(jù)形成的數(shù)據(jù)海(data ocean)面臨著5 個重要的挑戰(zhàn)(“5V”特性):
1) 速率(velocity)。 新數(shù)據(jù)產(chǎn)生速率和舊數(shù)據(jù)更新速率越來越快,對數(shù)據(jù)的格式化存儲和快速讀寫提出了更高的要求。
2) 數(shù)據(jù)量(volume)。 材料數(shù)據(jù)以TB 量級不斷增加,需要可靠的數(shù)據(jù)存儲、高效的數(shù)據(jù)檢索和開放共享的可重復利用。
3) 多樣性(variety)。 材料數(shù)據(jù)的存儲形式、材料體系、測試和計算方法,以及數(shù)據(jù)蘊含的物理意義更加多樣化。
4) 真實性(veracity)。 數(shù)據(jù)的不確定性和可靠性決定了數(shù)據(jù)是否真實有效,進一步?jīng)Q定了數(shù)據(jù)挖掘和機器學習模型的精度和泛化能力。
5) 低價值密度(value)。 數(shù)據(jù)價值密度高低與數(shù)據(jù)總量大小成反比,數(shù)據(jù)量越大,數(shù)據(jù)價值密度越低。
如何在海量數(shù)據(jù)中分析預測數(shù)據(jù)隱藏的真實意義和價值是材料基因工程方法努力探索的主要方向。
為了解決上述問題,歐洲馬克斯·普朗克學會Draxl 等[26]提出了材料數(shù)據(jù)庫建設(shè)的FAIR Data 準則,即可發(fā)現(xiàn)(findable)、可獲取(accessible)、可互操作(interoperable)和可再利用(reusable),來提升材料數(shù)據(jù)的開源共享性。 歐洲用于材料設(shè)計的開放式數(shù)據(jù)庫集成團隊Andersen 等[31]提出了材料數(shù)據(jù)共享標準OPTIMADE(見圖7),該標準通過JSON 格式定義了材料數(shù)據(jù)共享的統(tǒng)一標準,目前大多數(shù)材料數(shù)據(jù)庫MP Database、AFLOWLIB、NOMAD、Materials Cloud 和ALKEMIEDB 等均提供了OPTIMADE 通用接口支持。
圖7 材料數(shù)據(jù)共享標準OPTIMADE 概況[31]Fig.7 Overview of materials data sharing standard of OPTIMADE[31]
中國中關(guān)村材料試驗技術(shù)聯(lián)盟于2019 年也提出了材料基因工程數(shù)據(jù)通則,將材料科學數(shù)據(jù)分為樣品信息、源數(shù)據(jù)(未經(jīng)處理的數(shù)據(jù))與衍生數(shù)據(jù)(經(jīng)分析處理得到的數(shù)據(jù))三大類,并從宏觀上定義了材料數(shù)據(jù)的通用性與專用性;北京科技大學材料基因工程北京市重點實驗室在2020 年MSDSN 數(shù)據(jù)庫中定義了材料科研數(shù)據(jù)DOI 編碼規(guī)則:“10. 11961/classification. project. date. sequence”,編碼中包含了材料數(shù)據(jù)分類號、項目支撐信息、注冊日期和流水號;北京航空航天大學ALKEMIE-DB 數(shù)據(jù)庫也發(fā)展了用于材料數(shù)據(jù)共享的唯一標識符:“alkemie. date. classification/user_defined_label. number.”,其中alkemie 為數(shù)據(jù)庫社區(qū)唯一標識,date 代表數(shù)據(jù)創(chuàng)建日期(精確到μs),classification 表示數(shù)據(jù)類別,user_defined_label 為用戶自定義字段,number 為數(shù)據(jù)唯一索引序號。
機器學習傳統(tǒng)上分為監(jiān)督學習和非監(jiān)督學習兩大類。 監(jiān)督學習是指給算法一個數(shù)據(jù)集,對于數(shù)據(jù)集中的每一個樣本,都給出對應(yīng)的映射(即標簽),算法的目的是給出更多的映射,得到更多的答案;而非監(jiān)督學習常常被用于在大量無標簽數(shù)據(jù)中探索并發(fā)現(xiàn)規(guī)律。 進一步,監(jiān)督學習分為處理連續(xù)值的回歸問題和處理離散值的分類問題。 目前,常用的機器學習算法已經(jīng)有很多相關(guān)綜述,本文不再贅述。 隨著計算機科學和人工智能的發(fā)展,機器學習在材料結(jié)構(gòu)設(shè)計、材料性能預測和材料分析圖像識別等領(lǐng)域扮演著越來越重要的角色。 本節(jié)主要介紹機器學習在材料性能預測、材料數(shù)據(jù)文本挖掘和機器學習原子間作用勢。
機器學習在材料學中的應(yīng)用主要包含格式化材料數(shù)據(jù)、機器學習模型訓練和高效材料性能預測3 個步驟,并在二維、光伏、催化、合金和熱電等材料中均獲得了顯著的研究成果。 近年來,瑞士洛桑聯(lián)邦理工大學Lin 等[32]通過高通量篩選和機器學習算法,從ICSD 和COD 數(shù)據(jù)庫的108 423個三維晶體構(gòu)型中,通過對稱性和幾何算法篩選了1 036 個容易合成和789 個具有潛在可能性的層狀二維材料混合物;東南大學Lu 等[33]通過高通量篩選和機器學習描述符,從5 158 個候選材料中篩選了能量轉(zhuǎn)化效率高且?guī)对?.9 ~1.6 eV之間有機無機結(jié)合的鈣鈦礦光伏材料(HOIPS),并構(gòu)建了可以高效預測帶隙值的結(jié)構(gòu)描述符和機器學習模型,進一步將模型拓展到雙層HOIPS 中,成功從11 370 個混合物中預測了204 個無毒且穩(wěn)定的光伏材料[34];北京科技大學Zhang 等[35]在銅合金體系中通過貝葉斯優(yōu)化迭代方法,分別構(gòu)建了誤差小于7%的硬度模型和誤差小于9%的電導率模型,并通過迭代優(yōu)化設(shè)計了兼具優(yōu)異力學和電學性能的Cu-Ni-Co-Si-Mg 合金。
2018 年,瑞士聯(lián)邦理工學院Villars 等[36]通過計算機視覺和自然語言方法從已經(jīng)正式發(fā)表的論文中自動識別有效材料結(jié)構(gòu)和數(shù)據(jù),并通過數(shù)據(jù)挖掘探索數(shù)據(jù)背后隱藏的物理模型和機理,構(gòu)建了MPDS(materials platform for data science),近年來,該團隊首次從35 000 篇論文中解析了15 500個化學成分,并基于其中的2 330 個二元體系構(gòu)建了機器學習分類模型;進一步從超過8 000 篇發(fā)表的論文中構(gòu)建了2 800 個二元混合物的原子配位環(huán)境多面體分析算法(atomic environment types,AETs);隨后,從超過50 000 篇已發(fā)表論文中分析了290 000 個原子配位環(huán)境數(shù)據(jù),將該算法模型拓展到了多元無機混合物中。 2019 年,Tshitoyan 等[37]發(fā)展了Word2vec 非監(jiān)督機器學習模型,成功從330 萬材料文本中篩選了超過7 000 個候選的熱電材料。 除了材料計算模擬數(shù)據(jù),在實驗合成方式上,Kononova 等[38]通過文本挖掘和自然語言處理方式從53 538 篇科學文獻數(shù)據(jù)中篩選了19 488 個無機金屬合成方式,包括材料成分、制備條件、化學平衡方程和反應(yīng)過程,該數(shù)據(jù)庫為實驗中無機材料的制備過程提供了有力的數(shù)據(jù)支持。
材料計算模擬根據(jù)模擬時長和體系大小分為原子尺度、分子尺度、介觀尺度和宏觀尺度模擬,尺度越小模擬精度越高,尺度越大越接近真實體系,但是不同的模擬尺度采用的物理模型和近似原理不同,數(shù)據(jù)耦合非常困難,而數(shù)據(jù)驅(qū)動的機器學習方法被視為材料多尺度模擬的耦合劑。 經(jīng)典大規(guī)模分子動力學常被用來模擬近似真實材料體系的服役性能,但可靠、精確的原子間勢函數(shù)的匱乏限制了其廣泛應(yīng)用。 基于密度泛函原理(DFT)的第一性原理模擬具有精確的贗勢庫,但求解本征值所需的巨大計算量限制了該方法在大的原子尺度和時間尺度上的模擬,常用的VASP 僅限數(shù)百原子的體系。 因此,簡單方便地獲得適用于經(jīng)典分子動力學的可靠勢函數(shù)非常重要。 隨著計算機技術(shù)、計算機視覺和材料基因理念的快速發(fā)展,通過機器學習結(jié)合大數(shù)據(jù)、高通量計算的方法擬合可靠的適用于經(jīng)典分子動力學模擬的勢函數(shù)成為了研究熱點。
機器學習勢函數(shù)的發(fā)展主要經(jīng)歷了原子個數(shù)受限的低維度勢函數(shù)和泛化能力強的高維度神經(jīng)網(wǎng)絡(luò)勢函數(shù)2 個發(fā)展過程。 1995 年, Blank 等[39]開發(fā)了第一個基于統(tǒng)計學的勢函數(shù)模型,用于研究氫原子的分子動力學模擬;2009 年,Malshe等[40]進一步提出了通過神經(jīng)網(wǎng)絡(luò)預測經(jīng)典多體勢方程參數(shù)的模型。 但是,上述模型均不能改變輸入的原子個數(shù),因此限制了機器學習勢函數(shù)的應(yīng)用。
2011 年,Behler[41]提出了原子中心對稱函數(shù),通過數(shù)學方程解析原子局域環(huán)境,構(gòu)建了輸入原子個數(shù)不受限的高維度神經(jīng)網(wǎng)絡(luò)模型。2018 年,Gastegger 等[42]發(fā)展了權(quán)重相關(guān)的對稱函數(shù)(wACSF),通過卷積神經(jīng)網(wǎng)絡(luò)提升了模型的精度和實用性,但是由于局域近似,無法包含超過截斷半徑的原子長程相互作用。 2018 年,Yao等[43]提出了包含長程靜電作用和散射作用的HDNNP 方法,但是該方法并未獲得廣泛應(yīng)用,一方面由于物理學中超過6 ~10 ? 的靜電作用通常對體系的整體影響較小,另一方面添加長程作用會急劇增加模型訓練成本,與其對精度的微小提升相比有待進一步優(yōu)化。 筆者團隊Wang 等[14]開發(fā)了適用于相變材料Sb 單質(zhì)的跨尺度機器學習勢函數(shù)PotentialMind,該勢函數(shù)模型與DFT 比較,對能量預測的精度達到98%,平均到每個原子上的能量誤差值小于0.045 eV/atom,對力的預測精度達到89%,該算法具有很強的擴展性和通用性,易于擴展到多元材料體系中。
機器學習勢函數(shù)方法一方面實現(xiàn)了具有第一原理精度且更大原子數(shù)體系和更長時間尺度的大規(guī)模分子動力學模擬,另一方面通過替代求解復雜多體薛定諤方程本征值,使得模擬速度提升2 ~3個數(shù)量級,目前,該方法已經(jīng)在多個材料體系中獲得了應(yīng)用。 例如,Sosso 等[44]發(fā)展了適用于二元相變存儲材料GeTe 的人工神經(jīng)網(wǎng)絡(luò)勢函數(shù),并實現(xiàn)了具有第一原理精度的4 096 個原子體系的大規(guī)模分子動力學模擬,通過模擬相變材料的多個淬火過程(100 ~300 ps),探究了淬火速度和模擬體系大小對GeTe 非晶結(jié)構(gòu)的影響;Artrith和Urban[45]基于Fortran 語言開發(fā)了適用于鈣鈦礦TiO2的神經(jīng)網(wǎng)絡(luò)勢函數(shù)軟件(atomic energy network, AENET),并面向科研人員開源使用,加速了機器學習勢函數(shù)方法在能源材料中的應(yīng)用;Mocanu 等[46]通過高斯近似方法構(gòu)建了三元相變材料Ge2Sb2Te5的勢函數(shù)模型,實現(xiàn)了含7 200個原子的非晶體系的大規(guī)模分子動力學模擬,揭示了模型大小和原子個數(shù)對非晶局域結(jié)構(gòu)的影響,并闡明了非晶構(gòu)型中化學鍵和晶化過程中的微觀結(jié)構(gòu)演化;Zhang 等[47]開發(fā)了適用于高性能并行計算的深度神經(jīng)網(wǎng)絡(luò)勢函數(shù)方法DeePMD,實現(xiàn)了模擬體系超過1 億原子、模擬時長超過1 ns 的大規(guī)模分子動力學模擬,顯著加速了新材料設(shè)計與研發(fā)。
2016 年,筆者團隊在國家重點研發(fā)計劃材料基因工程專項的支持下,基于Python 開源框架自主開發(fā)了一套多尺度集成可視化的高通量自動計算和數(shù)據(jù)管理智能平臺ALKEMIE,主要包含高通量自動工作流ALKEMIE Matter Studio(MS)、數(shù)據(jù)管理及材料數(shù)據(jù)庫ALKEMIE Database(DB)、基于機器學習的材料數(shù)據(jù)挖掘ALKEMIE Potential Mind(PM)三部分[14-15]。
ALKEMIE 基于AMDIV 設(shè)計理念,解決了材料高通量智能模擬過程中5 個核心問題:自動化計算(automation)、模塊化拓展(modular)、材料數(shù)據(jù)庫(database)、人工智能方法(intelligence)和可視化界面(visualization),可實現(xiàn)從建模、運行到數(shù)據(jù)分析,全程自動無人工干預。
ALKEMIE 中,多尺度集成的高通量自動計算可以通過不同模塊間以搭積木的方式實現(xiàn)自動耦合并完成計算。 不同模塊的連接方式如圖8 所示。 首先,由建模模塊控制輸入,通過多種建模方式將材料構(gòu)型導入高通量預處理器,科學計算模塊控制任務(wù)的計算順序和糾錯(可進行電子尺度、原子尺度、分子尺度和介觀尺度的高通量自動流程)。 然后,服務(wù)器用來協(xié)調(diào)計算資源,配置遠程節(jié)點,實現(xiàn)本地與遠程服務(wù)器通信并提交任務(wù),數(shù)據(jù)存儲系統(tǒng)負責保存整個流程中所有的元數(shù)據(jù),將計算結(jié)果保存在不同類型的數(shù)據(jù)庫中。 最后,通過數(shù)據(jù)分析和人工智能進行數(shù)據(jù)挖掘。
圖8 多尺度集成可視化的高通量自動計算和數(shù)據(jù)管理智能平臺ALKEMIE 計算模塊概況Fig.8 Overview of platform with multi-scale integration of visualized automatic high-throughput calculation and intelligent data management ALKEMIE
目前,該軟件可以實現(xiàn)超過104量級的高通量并發(fā)計算,包含第一性原理計算VASP、QE 和ABINIT,分子動力學模擬LAMMPS 和ASE,熱力學計算軟件Gibbs,動態(tài)蒙特卡羅模擬(KMC),相場相圖模擬OpenPhase 和OpenCalphd 等多尺度模擬軟件,可通過參數(shù)傳遞的方式實現(xiàn)跨尺度計算。 目前,該軟件系統(tǒng)已部署在9 家超算中心,包括4 家國家超算、4 家高校超算和1 家企業(yè)超算。軟件可移植性和可拓展性強,適用于對材料模擬掌握程度從初級到專業(yè)的所有材料研究人員,可提供材料建模、高通量智能計算、數(shù)據(jù)挖掘和人工智能一體化的新材料設(shè)計方案。
ALKEMIE-DB 材料多類型數(shù)據(jù)庫分為五大類:材料結(jié)構(gòu)數(shù)據(jù)庫、工作流源數(shù)據(jù)庫、材料性能數(shù)據(jù)庫、機器學習描述符數(shù)據(jù)庫和論文數(shù)據(jù)庫。目前,收錄了超過64 萬條材料結(jié)構(gòu)數(shù)據(jù)、296 條相圖數(shù)據(jù)、1 萬條聲子能帶數(shù)據(jù)、1 418 條贗勢數(shù)據(jù)和20 余萬條機器學習描述符數(shù)據(jù)。 通過ALKEMIE中JSON 格式的API 和國際通用的OPTIMADE 格式的API 實現(xiàn)數(shù)據(jù)高效查詢檢索,并通過Finder 控件實現(xiàn)結(jié)構(gòu)的數(shù)據(jù)可視化,如圖9 所示[14]。
圖9 ALKEMIE-DB 材料結(jié)構(gòu)數(shù)據(jù)庫[14]Fig.9 Material structure database of ALKEMIE-DB[14]
機器學習在材料學中通常被視為未知的黑盒模型,而材料研究人員相比于機器學習方法更關(guān)注材料性能、成分和工藝問題,因此,如何構(gòu)建簡單通用的可視化機器學習框架至關(guān)重要。 ALKEMIE 通過抽象凝練高級API 及規(guī)范化和格式化機器學習的每個具體步驟開發(fā)了一套通用的可視化機器學習的流程。 Datasets 模塊給定了數(shù)據(jù)集及特征的輸入格式,Model 模塊定義了不同的機器學習算法,Evaluate 模塊給出了機器學習訓練過程的收斂情況及模型在測試集或模型在部署過程中的應(yīng)用情況,Plotter 模塊中多種分析方法提供了將訓練過程及其結(jié)果可視化的功能,如圖10所示。
圖10 ALKEMIE-PM 機器學習框架Fig.10 Framework of ALKEMIE-PM machine learning
目前,筆者團隊基于ALKEMIE 可視化機器學習框架發(fā)展了一系列高效機器學習模型。Chen 等[48]通過團簇展開法和高通量第一性原理計算搜索了二維過渡金屬硫化物的單層和雙層無序摻雜結(jié)構(gòu),得到了穩(wěn)定摻雜結(jié)構(gòu)和能量之間的對應(yīng)關(guān)系,通過機器學習挖掘了影響半導體-金屬轉(zhuǎn)變(SMT)的2 個關(guān)鍵特征,即范德華間隙內(nèi)摻雜氧原子的濃度差和Mo-S/O 鍵角正切的平均值(tanθ);Peng 等[49]通過線性回歸方法構(gòu)建了適用于MXene 材料單原子催化劑結(jié)構(gòu)與氧還原反應(yīng)(ORR)性能構(gòu)效關(guān)系的組分描述符,基于簡單的元素性質(zhì)可以高效快速預測材料的催化活性;Gan 等[50]通過高通量篩選和可視化機器學習框架,開發(fā)了2 個精度分別為90.90%和91.67%的機器學習模型預測層狀I(lǐng)V-V-VI 族半導體不同溫度下的最大熱電優(yōu)值(ZTmax)和實現(xiàn)ZTmax所對應(yīng)的最佳摻雜類型,并成功從840 個候選成分中篩選出數(shù)種具有優(yōu)良潛力的熱電材料。
綜上所述,ALKEMIE 已經(jīng)研發(fā)了集可視化高通量自動計算流程、材料多類型數(shù)據(jù)庫和人工智能方法于一體的新材料設(shè)計研發(fā)智能平臺,但是未來仍有亟須發(fā)展的新方向和新方法。
在高通量計算方面,開發(fā)從原子、分子、介觀到器件的跨尺度模擬方法是目前極具挑戰(zhàn)且具有廣闊應(yīng)用前景的熱點問題。 Martin Karplus、Michael Levitt 和Arieh Warshel 三位科學家在分子領(lǐng)域憑借量子力學和分子動力學跨尺度模擬方法(QM/MM)獲得了2013 年諾貝爾化學獎。 而在周期性材料的研究方面,由于體系周期性邊界條件和原子局域環(huán)境的復雜性,使得跨尺度模擬的精度非常難以控制,發(fā)展高通量跨尺度高并發(fā)、自動糾錯及數(shù)據(jù)耦合方法,通過機器學習數(shù)據(jù)挖掘等算法進一步提升跨尺度模擬精度是未來的研究熱點之一。
材料數(shù)據(jù)庫方面,應(yīng)該保持開源和共享的發(fā)展理念,基于FAIR 原則,構(gòu)建包含材料計算和實驗元數(shù)據(jù)及中間數(shù)據(jù)的高效數(shù)據(jù)庫,發(fā)展數(shù)據(jù)規(guī)模更大、種類更豐富且具有航空特色的共享數(shù)據(jù)平臺,完善更加通用兼容的數(shù)據(jù)標準和共享標識均是未來重要的研究方向。
在機器學習領(lǐng)域,材料學中數(shù)據(jù)集的構(gòu)建非常困難,因此,研發(fā)基于小數(shù)據(jù)集的高效機器學習模型訓練算法至關(guān)重要;由于機器學習模型的黑盒特性,探索可解釋的機器學習模型,闡明模型背后隱藏的物理意義,實現(xiàn)逆向材料成分和結(jié)構(gòu)設(shè)計也是未來的熱門研究領(lǐng)域。
材料基因工程顛覆了傳統(tǒng)的“試錯-糾錯”材料研發(fā)模式,通過數(shù)據(jù)驅(qū)動的高通量方法和人工智能模型加速新材料的研發(fā)與設(shè)計。 本文系統(tǒng)總結(jié)了國內(nèi)外知名的材料高通量計算框架、常用的針對多種材料體系的大型材料數(shù)據(jù)庫和機器學習方法,并概述了多尺度集成可視化的高通量自動計算和數(shù)據(jù)管理智能平臺ALKEMIE 的研究進展,提出了未來發(fā)展的研究方向,為實現(xiàn)按需逆向設(shè)計新材料提供參考。