王 卓,王 礞,雍歧龍,郭艷華,崔予文,4
(1.鋼鐵研究總院,北京 100081)(2.成都材智科技有限公司,四川 成都 610041)(3.南京工業(yè)大學材料科學與工程學院,江蘇 南京 211899)(4. IMDEA Materials Institute, C/Eric Kandel 2, Getafe, Madrid, Spain)
材料信息學及其在材料研究中的應用
王 卓1,2,王 礞2,雍歧龍1,郭艷華3,崔予文3,4
(1.鋼鐵研究總院,北京 100081)(2.成都材智科技有限公司,四川 成都 610041)(3.南京工業(yè)大學材料科學與工程學院,江蘇 南京 211899)(4. IMDEA Materials Institute, C/Eric Kandel 2, Getafe, Madrid, Spain)
崔予文
2011年美國奧巴馬總統(tǒng)提出的材料基因組計劃(MGI),旨在以比原先至少快兩倍的速度開發(fā)和制造先進材料,且成本僅為原先的幾分之一,這促使了材料信息學的快速發(fā)展。材料信息學是信息學技術在材料學中的應用,通過建設材料信息數(shù)據(jù)庫、集成材料研究設計平臺和材料數(shù)據(jù)挖掘方法對材料大數(shù)據(jù)進行分析和預測,快速發(fā)現(xiàn)決定材料性能的“基因”,也就是材料成分-工藝-組織-性能之間的定量關系,可以有效地加快材料研發(fā)設計。介紹了材料信息學的基本概念和主要研究領域,描述了材料信息學中的3個主要組成部分:材料信息數(shù)據(jù)庫、集成材料設計平臺和材料數(shù)據(jù)挖掘技術的主要內(nèi)容和應用實例。材料信息數(shù)據(jù)庫儲存和管理各類材料數(shù)據(jù),包括材料基礎性能、晶體結構數(shù)據(jù)、模擬計算數(shù)據(jù)、試驗與工藝數(shù)據(jù)、專利數(shù)據(jù)和各類出版物等;集成材料設計平臺提供各種模擬計算方法,如第一性原理、分子動力學、CALPHAD方法、相場模擬和有限元分析;數(shù)據(jù)挖掘是統(tǒng)計學、機器學習、信息學、可視化技術等學科的交叉領域,是從大數(shù)據(jù)中發(fā)現(xiàn)知識的實用方法。并介紹了成都材智科技搭建的“材智云”集成材料設計平臺的框架和功能。思考了材料信息學在材料領域中應用時所面臨的難題。
材料信息學;材料數(shù)據(jù)庫;材料集成設計平臺;數(shù)據(jù)挖掘;大數(shù)據(jù)
目前開發(fā)新材料、替換材料和材料制造工藝的研究主要通過實驗和模擬方法進行,工程量巨大并且十分耗時,獲得的材料數(shù)量稀少并且依賴一定的經(jīng)驗和運氣。如何提高材料研發(fā)設計的效率并縮短周期,成為材料科學工作者的首要目標。2011年美國奧巴馬總統(tǒng)提出的材料基因組計劃(The Materials Genome Initiative, MGI),旨在以比原先至少快兩倍的速度開發(fā)和制造先進材料,且成本僅為原先的幾分之一。實現(xiàn)這個雄偉的目標需要以下3個條件[1]:①從理論層面理解物理機制和決定材料性能的結構與性能關系;②多尺度、高通量模擬計算軟件與高效的計算能力;③計算軟件所需的數(shù)據(jù)庫及之后有效的篩選方法。
實現(xiàn)材料基因組計劃的3個條件,離不開信息技術的支撐。信息學的定義是使用計算機軟件對信息進行收集、存儲、管理、分類和檢索,目前已經(jīng)成功應用于生命科學和化學研究等領域。隨著高通量實驗和表征方法在現(xiàn)代材料研發(fā)中的不斷應用,材料數(shù)據(jù)進入了爆發(fā)式增長階段,從大量的數(shù)據(jù)中發(fā)現(xiàn)知識是未來材料研發(fā)的主要方法。因此結合了材料學研究和信息技術的材料信息學近些年來得到了快速的發(fā)展。
Agrawal等[2]將材料研究劃分為4個階段(如圖1所示):在早期很長的一段時間內(nèi)是以經(jīng)驗科學為主;從17世紀開始進入理論模型產(chǎn)生知識的階段,其特征為使用數(shù)學方法得到的熱力學模型;計算機的發(fā)明使材料研究進入計算模擬階段,密度泛函理論、分子動力學等一系列模擬計算方法在這個時期得到快速應用;隨著計算機運算能力的提高,采用高通量計算、組合實驗等方法產(chǎn)生了大量數(shù)據(jù),再結合前3階段的理論知識和實驗數(shù)據(jù),材料研究進入了(大)數(shù)據(jù)推動科學發(fā)現(xiàn)的階段。材料信息學將在這個階段得到快速發(fā)展,并在材料設計領域發(fā)揮極其關鍵的作用。
圖1 材料研究的4個階段:經(jīng)驗、理論、計算模擬和(大)數(shù)據(jù) 推動[2]Fig.1 The four paradigms of material research: Empirical, Theoretical, Computational, (Big) data drive[2]
在1999年美國波士頓舉行的“Materials Informatics-Effective Data Management for New Materials Discovery”大會上,John R Rodgers教授首先提出材料信息學(Materials Informatics)這一概念,認為材料信息學是對材料數(shù)據(jù)的有效管理[3]。Rodgers和Cebon[4]認為材料信息學是采用計算方法對材料科學和工程數(shù)據(jù)進行處理和分析。Rajan[5]教授詳細描述了材料信息學在材料科學與工程中的應用(如圖2):基于數(shù)據(jù)挖掘技術的數(shù)學工具為跨尺度的集成材料科學信息提供計算引擎;信息技術提供了快速數(shù)據(jù)融合的手段,在長度和時間尺度上幫助探尋材料的結構與性能關系;材料信息學工具以聯(lián)系經(jīng)典材料學研究領域的信息技術為基礎,將是材料研究領域內(nèi)的重要工具;具備科學選擇和組織數(shù)據(jù)能力的數(shù)據(jù)倉庫和數(shù)據(jù)管理技術,將組成可靠的數(shù)據(jù)檢索和管理系統(tǒng);數(shù)據(jù)挖據(jù)提供快速多元相關性分析;數(shù)據(jù)的科學可視化分析是評估高維信息研究的關鍵領域;網(wǎng)絡基礎設施可以加速信息共享、數(shù)據(jù)共享以及最重要的知識發(fā)現(xiàn)共享。
圖2 材料信息學在材料科學與工程中的應用[5]Fig.2 The applications of materials informatics in material science and engineering [5]
綜上所述,材料信息學的含義可以歸納為材料科學與工程領域的大數(shù)據(jù)分析,通過計算機技術對海量材料數(shù)據(jù)進行數(shù)據(jù)挖掘和可視化分析,從中提取總結材料的成分-工藝-結構-性能關系,實現(xiàn)知識共享,有力促進新材料新工藝的研發(fā)設計。
材料信息學的研究領域可以劃分為3部分:數(shù)據(jù)產(chǎn)生、數(shù)據(jù)管理和知識發(fā)現(xiàn)?,F(xiàn)今采用組合材料科學、高通量計算等新的研究方法產(chǎn)生了大量結構和性能數(shù)據(jù),需要科學的數(shù)據(jù)分析和數(shù)據(jù)挖掘方法才能揭示數(shù)據(jù)內(nèi)部隱藏的知識和規(guī)律。因此材料信息學的實質(zhì)是材料集成設計和材料數(shù)據(jù)庫平臺的搭建,以及材料領域的大數(shù)據(jù)分析。通過高通量的材料計算,獲得大量的材料理論數(shù)據(jù),結合材料的實驗數(shù)據(jù)和工藝數(shù)據(jù),構成材料的大數(shù)據(jù)集,利用數(shù)據(jù)庫技術進行管理、數(shù)據(jù)挖掘方法進行分析和預測,總結新的知識,探尋決定材料結構-性能關系的“基因”,促進新材料的快速發(fā)展。目前材料信息學的主要研究領域集中在以下4個方面:
數(shù)據(jù)標準
目前存在大量數(shù)據(jù)形式不同的數(shù)據(jù)庫,數(shù)據(jù)庫之間的數(shù)據(jù)傳輸和信息共享十分困難。統(tǒng)一的數(shù)據(jù)標準是數(shù)據(jù)庫之間實現(xiàn)數(shù)據(jù)共享的基礎。因此材料信息學首要的任務是材料信息標準化的制定,以便整合這些數(shù)據(jù)庫為一體。國際標準化組織(ISO)制定了一系列“產(chǎn)品模型數(shù)據(jù)交互規(guī)范”(Standard for the Exchange of Product Model Data, STEP, ISO10303)標準,用以描述整個產(chǎn)品生命周期內(nèi)的產(chǎn)品信息,旨在實現(xiàn)產(chǎn)品數(shù)據(jù)的交換和共享。美國國家標準和技術研究院(National Institute of Standard and Technology, NIST)基于XML開發(fā)的MatML,是專為材料數(shù)據(jù)信息管理和交換的可擴展標識語言。目前已經(jīng)應用于MatWeb在線材料數(shù)據(jù)庫的數(shù)據(jù)導出和下載、Granta Design的材料數(shù)據(jù)管理軟件、通用電氣公司內(nèi)部的數(shù)據(jù)交換等。
材料數(shù)據(jù)庫
為了滿足材料工作人員的不同需求,適應材料生產(chǎn)和研究開發(fā),經(jīng)過良好的組織和管理匯總后的材料數(shù)據(jù)庫是非常必要的。按信息內(nèi)容可以將材料數(shù)據(jù)庫劃分為材料基礎性能數(shù)據(jù)庫和材料信息數(shù)據(jù)庫:材料基礎性能數(shù)據(jù)庫的數(shù)據(jù)主要包括材料的機械性能、晶體結構、熱力學動力學數(shù)據(jù)和物理性能(彈性常數(shù)、熱導率、磁學性能等),為材料設計提供基礎數(shù)據(jù);材料信息數(shù)據(jù)庫則利用先進的信息技術,從文獻、互聯(lián)網(wǎng)等各個渠道中提取和管理材料數(shù)據(jù),包括材料的生產(chǎn)工藝數(shù)據(jù)、性能數(shù)據(jù)和服役性能等。
材料數(shù)據(jù)可視化
可視化是指將數(shù)據(jù)和信息通過一定的方法轉化為大腦易于分析和理解的視覺形式(曲線、圖表、數(shù)據(jù)儀表盤等)?;诓牧蠑?shù)據(jù)的材料結構可視化信息的構建可以助力研究人員從不同視覺維度分析和解釋材料性能和材料結構之間的關系。數(shù)據(jù)一旦可視化后,原先可能在本領域工作多年的專家也很難察覺的內(nèi)部特征和規(guī)律,將變得非常容易預測和識別,這將極大地促進材料知識的發(fā)現(xiàn)和應用。
材料數(shù)據(jù)挖掘
對于工業(yè)不斷提出的大量新材料需求,通過物理模擬的方法分析成分、工藝和最終性能的影響規(guī)律是耗時耗力的。數(shù)據(jù)挖掘方法以數(shù)據(jù)輸入并分析預測產(chǎn)生模型輸出,可以利用其對材料大數(shù)據(jù)分析建模發(fā)現(xiàn)潛在的組織性能影響規(guī)律,其典型流程如圖3所示[6]。
圖3 利用數(shù)據(jù)挖掘方法進行知識發(fā)現(xiàn)的流程[6]Fig.3 The knowledge discovery process by data mining[6]
圖4展示了材料信息學在材料科學研究中的典型應用流程[2]:通過實驗、計算獲得大量原始數(shù)據(jù)以不同的數(shù)據(jù)格式存儲在各類材料數(shù)據(jù)庫中;材料工作人員可以使用數(shù)據(jù)庫里的數(shù)據(jù)進行初步的統(tǒng)計分析;為了建立性能預測模型,需要了解數(shù)據(jù)的格式和意義,并在建模前做必要的數(shù)據(jù)預處理以保證數(shù)據(jù)可靠性,包括刪除或適當處理數(shù)據(jù)噪點、異常點、缺失值、重復數(shù)據(jù)等;完成數(shù)據(jù)預處理后采用監(jiān)督式數(shù)據(jù)挖掘技術進行模型預測:以正交驗證等方法使用訓練數(shù)據(jù)集評估模型的精度,然后利用模型預測未知數(shù)據(jù),發(fā)現(xiàn)知識和規(guī)律。除了模型預測,用戶也可以根據(jù)需要使用聚類和關聯(lián)挖掘。整個流程的應用對象包括實驗學者、計算機和材料信息學相關專業(yè)人員。材料信息學在整個流程中的應用包括材料數(shù)據(jù)庫的建立、集成數(shù)據(jù)庫與模擬計算的材料研發(fā)平臺和材料數(shù)據(jù)的挖掘和分析,接下來的內(nèi)容將分別描述其在材料科學中的具體應用。
圖4 利用材料信息學進行知識發(fā)現(xiàn)的流程示意圖[2]Fig.4 The knowledge discovery workflow by materials informatics [2]
4.1 材料數(shù)據(jù)庫
為了有效地管理和分析由組合實驗產(chǎn)生的大量數(shù)據(jù),建立相應的材料數(shù)據(jù)庫是十分有必要的。在材料基因組計劃中,材料數(shù)據(jù)庫和集成計算材料工程(ICME)以及材料實驗測試是材料研究的3大基本工具,其重要性不言而喻。
4.1.1 材料數(shù)據(jù)庫的建設情況
早期的數(shù)據(jù)庫主要為離線數(shù)值型數(shù)據(jù)庫,如Granta開發(fā)的CMS和ASM開發(fā)的“Mat.DB”。隨著Web技術的發(fā)展,數(shù)據(jù)庫類型逐漸轉變?yōu)樵诰€數(shù)據(jù)庫。目前著名的在線材料數(shù)據(jù)庫為美國的MatWeb和日本的MatNavi。MatWeb目前擁有超過115000種材料的性能數(shù)據(jù),涵蓋金屬、塑料、陶瓷和化合物,數(shù)據(jù)主要源自制造商產(chǎn)品檢驗,其余來源于數(shù)據(jù)手冊或?qū)I(yè)協(xié)會。MatWeb還具備ANSYS、SolidWorks等CAD/CAM軟件的數(shù)據(jù)輸出的功能。MatNavi由日本國立材料科學研究院(NIMS)組建,擁有9個基礎性能數(shù)據(jù)庫(計算相圖、計算電子結構、中子嬗變、擴散數(shù)據(jù)庫等)、5個結構材料數(shù)據(jù)庫(蠕變、疲勞、腐蝕等)、4個工程應用數(shù)據(jù)庫(金屬材料、CCT曲線、材料風險信息平臺)和5個數(shù)據(jù)應用系統(tǒng),目前已經(jīng)有超過149個國家的11萬用戶注冊使用。目前中國較為系統(tǒng)的在線數(shù)據(jù)庫為國家材料科學數(shù)據(jù)共享網(wǎng),該數(shù)據(jù)庫以北京科技大學為中心,匯集了全國30余家科研單位的數(shù)據(jù),整合了超過60萬條各類材料科學數(shù)據(jù)。
在材料研究工作中,晶體結構數(shù)據(jù)庫起到了良好的助力作用。結合數(shù)據(jù)庫的晶體結構數(shù)據(jù),利用Pettifor Maps對實驗數(shù)據(jù)進行分類預測,是預測晶體結構最佳經(jīng)驗方法之一。服務器位于德國的FIZ Karlsruhe的無機晶體結構數(shù)據(jù)庫(Inorganic Crystal Structure Database, ICSD)擁有超過185000條礦物、金屬和其他無機固體化合物的晶體結構數(shù)據(jù)(2032條元素單質(zhì)、34587條二元化合物、68064條三元化合物、66817條四元及多元化合物)。劍橋晶體學數(shù)據(jù)中心創(chuàng)建的劍橋結構數(shù)據(jù)庫(Cambridge Structural Database, CSD),具有超過80000條數(shù)據(jù),主要為小分子有機物和金屬有機化合物晶體;皮爾森晶體結構數(shù)據(jù)庫具有274000條數(shù)據(jù),涵蓋157500種相的原子坐標和占位參數(shù),接近17900幅衍射花樣,約255000幅計算相圖;Pauling File無機材料數(shù)據(jù)庫中收集了從1900年至今超過21000出版物中的數(shù)據(jù),涵蓋了晶體結構、衍射、相圖和物理性能,旨在創(chuàng)建集成數(shù)據(jù)挖掘以及其他軟件的材料設計平臺。
近期出現(xiàn)了很多以ICSD數(shù)據(jù)庫為基礎的計算材料結構和性能數(shù)據(jù)庫:如Materials Project計劃通過超級計算集群計算所有材料的性能;以DFT為基礎的材料計算數(shù)據(jù)庫Automatic Flow(AFLOW)管理了超過80萬中化合物的超過7200萬條性能數(shù)據(jù),其重心為高通量計算;由高通量密度泛函理論(HT DFT)計算所得的材料熱力學和結構數(shù)據(jù)組成的Open Quantum Materials Database(OQMD)數(shù)據(jù)庫,目前已經(jīng)存儲了超過28萬種各類化合物的計算數(shù)據(jù)。這些以密度泛函理論為基礎的計算材料性能數(shù)據(jù)庫的不斷增長,體現(xiàn)了材料科學研究工作者對由數(shù)據(jù)驅(qū)動的材料研發(fā)的興趣和努力。
4.1.2 材料數(shù)據(jù)庫的應用
通過對材料數(shù)據(jù)庫進行數(shù)據(jù)挖掘發(fā)現(xiàn)知識,是現(xiàn)代材料研究的重要手段之一。Spark等[7]采用數(shù)據(jù)挖掘和機器學習算法在熱電數(shù)據(jù)庫中分析了成千上萬的化合物的熱電性能,再結合了DFT計算,預測未知的三元相圖中的低熱導率相。Agrawal等[8]使用日本國立材料科學研究院(NIMS)創(chuàng)建的MatNavi在線材料數(shù)據(jù)庫建立了鋼鐵疲勞強度的預測模型,結果顯示神經(jīng)網(wǎng)絡、決策樹和多元多項式回歸等先進的數(shù)據(jù)分析方法可以顯著地提高預測模型的精度:其R2值≥0.97。Meredig等[9]利用現(xiàn)有的DFT數(shù)據(jù)庫中的計算結果,建立了經(jīng)DFT數(shù)據(jù)(包括結構信息)訓練的正向模型預測材料性能(如形成能)。模型建立后無需輸入晶體結構信息即可預測新材料的形成能,R2值超過0.9。Takahashi等[10]利用密度泛函理論中的GPAW(Grid-Based Projector-Augmented Wave)方法建立材料數(shù)據(jù)庫,預測金屬間化合物的性能數(shù)據(jù),目標材料的數(shù)據(jù)不納入機器學習的訓練數(shù)據(jù)集,預測的點陣常數(shù)和實驗數(shù)據(jù)基本一致(如表1所示),說明采用第一性原理計算結合機器學習預測材料的合成和設計是完全可行的。
隨著信息技術的發(fā)展,新的材料信息數(shù)據(jù)庫將涵蓋材料基礎性能數(shù)據(jù)庫,并整合工藝數(shù)據(jù)、文獻專利、各國標準、專業(yè)圖書和行業(yè)信息統(tǒng)一管理,利用數(shù)據(jù)挖掘技術對材料數(shù)據(jù)庫中的大量數(shù)據(jù)進行分析和預測,快速發(fā)現(xiàn)新的知識和規(guī)律,是未來數(shù)據(jù)驅(qū)動材料研發(fā)的主要研究領域。
表1 利用GPAW計算的數(shù)據(jù)庫和機器學習對其它材料性能的預測(括號內(nèi)為實驗數(shù)據(jù))[10]
4.2 材料集成設計平臺
材料集成設計平臺是以MGI為指導,集成材料數(shù)據(jù)庫、高通量材料計算、材料測試與表征,材料數(shù)據(jù)管理和分析系統(tǒng)為一體的現(xiàn)代材料研發(fā)設計平臺。Liu等[11]提出了材料計算和模擬的集成多尺度方法的框架圖(如圖5),集成了第一性原理、CALPHAD相圖計算、相場模擬和有限元分析4種主要的材料結構和性能的模擬計算方法:通過原子尺度的第一性原理計算預測熱力學性質(zhì)、晶格常數(shù)、以及單元、二元和三元化合物和固溶體的動力學數(shù)據(jù);CALPHAD方法建立熱力學性質(zhì)、晶格常數(shù)、多元體系動力學數(shù)據(jù)模型;利用多元相場方法在二維和三維尺度上預測微觀組織的演變規(guī)律;采用有限元分析方法從模擬組織中計算材料的機械性能。通過進行從量子力學到材料服役的跨尺度高通量的材料計算,獲得大規(guī)模、多源異構的材料數(shù)據(jù),利用信息學方法進行材料大數(shù)據(jù)分析,發(fā)現(xiàn)材料成分-工藝-組織-性能-服役之間的定量關系(決定材料性能的“基因”),將大大加快新材料的研發(fā)進度,摒棄傳統(tǒng)“試錯法”(或炒菜法)的材料設計方法,有效地縮短了材料的設計研發(fā)周期。
圖5 材料計算和模擬的集成多尺度方法[11]Fig.5 An integrated multiscale approach for materials modeling and simulation[11]
目前在建的材料集成設計平臺有美國的Automatic Flow(AFLOW)和中國科學院計算機網(wǎng)絡信息中心組建的Matcloud。AFLOW[12]是美國基于VASP建立的高通量結構能量計算平臺,并集成了超過15萬行C++代碼的一系列軟件工具,其主要特征是完全并行式和多線程。AFLOW實現(xiàn)了以特定數(shù)據(jù)集或大的結構數(shù)據(jù)庫為對象自動計算一系列可觀測量,同時只需很少的人力進行數(shù)據(jù)輸入、計算運行和輸出數(shù)據(jù)整理。對于不需要高通量計算和建立數(shù)據(jù)庫的用戶,AFLOW還提供了結構分析和處理工具。Matcloud[13]是基于材料基因組計劃中的材料集成設計理念開發(fā)的設計平臺,目前支持CASTEP軟件,已經(jīng)初步實現(xiàn)了與中國科學院超級計算環(huán)境的集成、晶體結構計算模型的在線建立、高通量計算作業(yè)的在線提交和監(jiān)控、計算與數(shù)據(jù)自動傳輸?shù)取4送?,源于劍橋大學的Granta Design公司開發(fā)的Granta MI實現(xiàn)了企業(yè)材料數(shù)據(jù)實時并可溯源的存儲、檢索、應用、可視化分析;MI∶Gateway確保了本地數(shù)據(jù)庫和CAD/CAM設計軟件之間的信息高速無誤的傳輸。
中國的材智科技率先開展集成多尺度材料計算和材料信息數(shù)據(jù)庫的材料設計平臺研究與開發(fā)工作。旗下的“材智云”產(chǎn)品作為材料基因組計劃的技術支撐,擬整合材料信息數(shù)據(jù)庫、多尺度材料模擬云計算平臺、材料測試平臺和第三方數(shù)據(jù)交易綜合服務平臺,旨在搭建材料行業(yè)公共知識庫和專業(yè)技術服務平臺(如圖6):其中材料信息數(shù)據(jù)庫整合了材料性能數(shù)據(jù)庫(全球63個標準體系、25萬個金屬牌號、超過1000萬條性能數(shù)據(jù))、材料基礎數(shù)據(jù)庫(30000條晶體結構數(shù)據(jù)、3000幅相圖、5000幅微觀組織)、各國專利(約2000萬項),還有科技報告、行業(yè)資訊等海量數(shù)據(jù);各類模擬計算軟件(第一性原理、分子動力學、CALPHAD方法、相場模擬等)支持用戶輸入數(shù)據(jù)或?qū)氩牧匣A數(shù)據(jù),實現(xiàn)跨尺度材料模擬計算,快速獲得各類計算數(shù)據(jù)?!安闹窃啤睌M為用戶提供快速準確的材料數(shù)據(jù)檢索、模擬計算和材料大數(shù)據(jù)分析等數(shù)據(jù)推動研發(fā)的一站式服務(如圖7),可準確指導用戶選材和產(chǎn)品市場分析,顯著加快用戶材料研發(fā)進程并有效降低成本。
圖6 集成材料設計平臺—材智云Fig.6 Matclouds, the integrated materials design platform
圖7 材智云結構功能示意圖Fig.7 The framework and function of Matclouds
4.3 材料的數(shù)據(jù)挖掘
數(shù)據(jù)挖掘(Knowledge-Discovery in Databases, KDD)是使用特定的算法對大數(shù)據(jù)集進行搜索,提取數(shù)據(jù)庫中的知識的過程。該過程主要包括數(shù)據(jù)輸入、數(shù)據(jù)預處理(數(shù)據(jù)匯合、數(shù)據(jù)清洗、特征選擇等)、數(shù)據(jù)挖掘和后處理(模式過濾、可視化等),最終得到有用的信息(知識)。服務于材料科學研究的數(shù)據(jù)挖掘主要是建立在對材料性能和服役的理解基礎之上的模式識別和模式預測。模式識別是從分散的數(shù)據(jù)中發(fā)現(xiàn)相關性、趨勢、簇類、軌跡和異?,F(xiàn)象的基礎,模式預測的本質(zhì)則是對材料物理與化學的理解。在很多情況下數(shù)據(jù)挖掘和在工程材料研究中的以結構-性能關系為中心類似。
4.3.1 材料研究中的數(shù)據(jù)挖掘技術
傳統(tǒng)的數(shù)據(jù)挖掘技術主要有線性和非線性分析、回歸分析、因素分析和聚類分析,隨著數(shù)據(jù)挖掘技術的飛速發(fā)展,決策樹理論(Decision Trees)、人工神經(jīng)網(wǎng)絡(Artificial Neural Network,ANN)等新的技術不斷應用于材料研究中。決策樹是通過概率論的直觀運用建立的樹形結構,其中每個內(nèi)部節(jié)點代表一個屬性上的測試,每個分支代表一個測試輸出,每個葉節(jié)點代表一種類別。決策樹是分類模型的非參數(shù)方法,不需要昂貴的計算,非常容易理解。常用的決策樹算法有ID3、C4.5、CART等。Georgilakis等[14]利用決策樹方法為能源電力變壓器的纏繞材料選材,準確度達到94%并且十分迅速。
人工神經(jīng)網(wǎng)絡(ANN)是模擬生物神經(jīng)系統(tǒng),由一組相互連接的節(jié)點和有向鏈組成網(wǎng)絡。每個節(jié)點代表一種特定的輸出函數(shù),也就是激勵函數(shù)(Activation Function),每兩個節(jié)點間的連接都代表一個對于通過該連接信號的加權值,稱之為權重。ANN的特點為[15]:可以用來近似任何目標函數(shù),但需要選擇合適的拓撲防止模型的過擬合;可以處理冗余特征,冗余權值非常小;對訓練數(shù)集的噪聲非常敏感;當隱藏節(jié)點數(shù)量巨大時,ANN的訓練相當耗時,但測試分類非常快。Liu等[16,17]通過人工神經(jīng)網(wǎng)絡方法成功預測了熱軋C-Mn鋼的機械性能,以及常規(guī)熱軋和TMCP工藝下C-Mn鋼和HSLA鋼的組織演變。Wu等[18]對C-Mn鋼的工業(yè)生產(chǎn)大數(shù)據(jù)進行數(shù)據(jù)清洗后,采用貝葉斯正則神經(jīng)網(wǎng)絡建立了性能預測模型,屈服強度和抗拉強度的預測準確度分別達到96.64%和99.16%,預測值和測試值的絕對誤差在±30 MPa范圍內(nèi),85.71%的樣本延伸率預測值和測試值之間的絕對誤差不超過±4%。
遺傳算法(Genetic Algorithms)借鑒自然選擇和生物進化規(guī)律,是一種通過模擬“適者生存”和遺傳學生物進化過程以搜索最優(yōu)解的方法。它是計算機科學在人工智能領域中用于尋找最優(yōu)化的一種搜索啟發(fā)式算法,屬于一種進化算法。遺傳算法和傳統(tǒng)搜索算法的不同點在于:①遺傳算法搜尋全局最優(yōu)多峰函數(shù)的群體解,而非單個解;②遺傳算法可以處理無導數(shù)信息的非連續(xù)目標函數(shù);③遺傳算法處理參數(shù)集的編碼而非參數(shù)本身;④遺傳算法使用諸如選擇、交叉和變異概率型算子,而不是那些確定型算子。遺傳算法常用于確定滿足所需性能的化合物和內(nèi)部結構,以及確定化合物結構設計中的堆垛順序[19]。
當系統(tǒng)中存在多種描述符描述的各種變量時,采用統(tǒng)計方法對每一個描述符進行計算是非常昂貴費時且無效率的,可以采用主成分分析法(Principal Component Analysis, PCA)解決這個問題[20]。PCA采用因素分析和主坐標分析等技術,將具有高維屬性的復雜數(shù)據(jù)集投影至易于可視化的低維空間,使數(shù)據(jù)集中的描述符大幅減少,從而使數(shù)據(jù)易于可視化、分類和預測。PCA的運用須建立在相關數(shù)據(jù)庫的基礎上,例如已知化合物的計算能量或理論化合物的晶體結構。在常規(guī)多元法受限的情況,例如觀測值少于預測變量時,可以使用PLS(偏最小二乘法)回歸。PLS回歸可以用于選擇合適的預測變量和在經(jīng)典線性回歸前識別異常點。
4.3.2 數(shù)據(jù)挖掘方法在材料中的應用
數(shù)據(jù)挖掘方法很適合應用于晶體結構研究,因為晶體結構數(shù)據(jù)是離散非連續(xù)的,因此非常適合采用數(shù)據(jù)挖掘方法進行分析和預測。傳統(tǒng)的Pettifor Maps方法廣泛地應用于預測晶體結構,但也存在一定的局限:一次只能應用于一種化合物,對數(shù)據(jù)很少的晶體結構預測十分困難。為了克服傳統(tǒng)方法的不足,研究人員使用數(shù)據(jù)挖掘或機器學習技術分析計算和實驗獲得的數(shù)據(jù)并預測未知的晶體結構。Morgan等[21]提出了一種結合數(shù)據(jù)挖掘的Pettifor Maps方法:采用數(shù)據(jù)算法將晶體學數(shù)據(jù)庫中的數(shù)據(jù)變換為Pettifor Maps,然后使用Pettifor Maps對未知的晶體結構進行預測,通過交叉驗證方法發(fā)現(xiàn),Pettifor Maps預測AB和A3B型化合物時生成的5種備選結構的準確率為86%,無未知結構的情況下準確率達到95%。Ceder[22]的團隊采用數(shù)據(jù)挖掘建立了一個具有114維的結構形成能空間,然后使用PCA方法分析具有不同結構的不同材料的ab型從頭能量之間的關系,設計了一個根據(jù)已有信息預測未知晶體結構的貝葉斯算法。通過以上的方法,他們能夠使用數(shù)據(jù)挖掘技術從第一性原理計算中獲得的大量化合物的可能結果中篩選最可能的晶體結構。
數(shù)據(jù)挖掘技術同樣能夠快速可靠的預測材料的組織、性能和服役行為。Liu等[23]以機器學習方法優(yōu)化Fe-Ga合金的組織、提高其機械性能和磁致伸縮效應為例對這個問題作出了回答。他們開發(fā)了由隨機數(shù)據(jù)生成、特征選擇和分類算法組成的系統(tǒng)的框架,同時滿足線性和非線性屬性約束的5個設計問題的實驗表明,比起傳統(tǒng)優(yōu)化方法,計算框架的平均耗時下降了80%,并且所得結果優(yōu)于其他任何方法。另一方面,ANN分類和回歸樹(CART)在處理分類數(shù)據(jù)和數(shù)據(jù)缺失方面更有優(yōu)勢。Sinha等[24]采用多目標遺傳算法設計Ti-Ni合金的工藝來優(yōu)化機械性能和形狀恢復行為,成功的在形狀回復率和硬度及H/E比率之間建立了均衡關系;設計了以ANN技術為基礎的數(shù)據(jù)模型解釋加工條件和性能之間的經(jīng)驗關系,揭示了可恢復應變最大化情況下的不同工藝參數(shù)的作用。
數(shù)據(jù)挖掘和信息技術方法給材料研究設計帶來了新的機遇,隨著可用的材料數(shù)據(jù)的規(guī)模不斷增加,將會孕育不經(jīng)傳統(tǒng)實驗分析而從數(shù)據(jù)中歸納科學原理和設計規(guī)則的技術。目前阻礙材料信息學進一步應用的因素主要如下。
(1)使用大數(shù)據(jù)資源時的問題的經(jīng)驗積累。正如大量數(shù)據(jù)庫和可用的數(shù)據(jù)不斷產(chǎn)生,但能夠從處理大數(shù)據(jù)資源并提取出有用信息的用戶仍然較少。而且,當無法從某個數(shù)據(jù)庫中獲得所需數(shù)據(jù)時,向其他數(shù)據(jù)庫請求數(shù)據(jù)和從不同數(shù)據(jù)庫中整合信息也很困難。計算數(shù)據(jù)和實驗數(shù)據(jù)吻合性也是個難點,因為實驗進行時所引用的晶體結構數(shù)據(jù)或其他數(shù)據(jù)已經(jīng)無跡可尋。而使用計算數(shù)據(jù)也相當棘手:研究人員必須充分理解分析方法的誤差,在某些情況下誤差可能相當大并且即使相當有經(jīng)驗的專家可能也無法準確估計。
(2)為晶體學等建立材料描述符。在過去幾年這方面取得了一定的成果,但目前仍沒有關于描述晶體的描述符的算法。這類描述符包括材料性質(zhì)、限定條件、量化的結構評價等。目前研究人員通過構圖法向機器學習算法描述晶體結構是非常困難的。
(3)對機器模型適當性和轉移性的評估。這些評估以性能導向為指標,如交叉驗證。但是,產(chǎn)生具有誤導性的性能指標的原因是多方面的。交叉驗證錯誤會受到交叉驗證類型、設計模型的選擇和數(shù)據(jù)如何分解并擬合的影響。掌握機器學習模型的精確度也是非常重要的,因為具有最小交叉驗證誤差的模型同時也最復雜(如神經(jīng)網(wǎng)絡和隨機森林),并且無法做出科學的預測。當與傳統(tǒng)的、可解釋的模型和方法中提取的知識沖突時,材料學家是否應該相信由費解的機器學習模型做出的預測,還需進一步實踐。
材料信息學,其核心內(nèi)容為材料的大數(shù)據(jù)分析,是采用先進的數(shù)據(jù)挖掘方法從各種材料信息數(shù)據(jù)庫中提取知識和預測規(guī)律的研究方法。建立涵蓋材料基礎性能數(shù)據(jù)庫、產(chǎn)品生產(chǎn)工藝數(shù)據(jù)、文獻專利、各國標準、科技報告和行業(yè)信息統(tǒng)一管理的材料信息數(shù)據(jù)庫,以及集成從原子到宏觀的跨尺度高通量材料模擬計算軟件和材料數(shù)據(jù)挖掘工具搭建的集成材料設計平臺,將是未來材料研發(fā)極其重要的工具。采用先進的數(shù)據(jù)挖掘方法對材料信息數(shù)據(jù)庫中的大數(shù)據(jù)進行分析和預測,幫助快速發(fā)現(xiàn)材料成分-工藝-組織-性能-服役之間的定量關系,也就是決定材料性能的“基因”,摒棄傳統(tǒng)的“試錯法”(或炒菜法)的材料設計方法,將極大地加快新材料的研發(fā)進度,達到縮短材料開發(fā)周期、降低材料研發(fā)成本的最終目的。
References
[1] Seshadri R, Sparks T D.AplMaterials[J], 2016, 4(5):25.
[2] Agrawal A, Choudhary A.AplMaterials[J], 2016, 4(5):1-17.
[3] John R Rodgers.MaterialsInformatics-EffectiveDataManagementforNewMaterialsDiscovery[M]. Boston:Knowledge Press,1999.
[4] Rodgers J R, Cebon D.MrsBulletin[J], 2006, 31: 975-980
[5] Rajan K.InformaticsforMaterialsScience&Engineering[J], 2013, 15(4):1-16.
[6] Doreswamy, Hemanth K S.InternationalJournalofDatabaseManagementSystems[J], 2012, 3(1):512-522.
[7] Sparks T D, Gaultois M W, Oliynyk A,etal.ScriptaMaterialia[J], 2016, 111: 10-15.
[8] Agrawal A, Deshpande P D, Cecen A,etal.IntegratingMaterials&ManufacturingInnovation[J], 2014, 3(1):1-19.
[9] Meredig B, Agrawal A, Kirklin S,etal.PhysicalReviewB[J], 2014, 89(9):82-84.
[10]Takahashi K, Tanaka Y.ComputationalMaterialsScience[J], 2016, 112:364-367.
[11]Liu Z K, Chen L Q, Raghavan P,etal.JournalofComputer-AidedMaterialsDesign[J], 2004, 11(2-3):183-199.
[12]Curtarolo S, Setyawan W, Hart G L W,etal.ComputationalMaterialsScience[J], 2013, 58:218-226.
[13]Wang Zhuo(王 卓), Yang Xiaoyu(楊小渝), Zheng Yufei(鄭宇飛),etal.ChineseScienceBulletin(科學通報)[J], 2013(35): 3733-3742.
[14]Georgilakis P S, Gioulekas A T, Souflaris A T.JournalofMaterialsProcessingTechnology[J], 2007, 181(1):281-285.
[15]Tan Pang-Ning.IntroductiontoDataMining(數(shù)據(jù)挖掘?qū)д? 完整版)[M]. Translated by Fan Ming and Fan Hongjian(范 明,范宏建譯). Beijing:People Post Press, 2011:150-156.
[16]Liu Z Y, Wang W D, Gao W.JournalofMaterialsProcessingTechnology[J], 1996, 57(3-4):332-336.
[17]Tan W, Liu Z Y, Di W U,etal.JournalofIron&SteelResearchInternational[J], 2009, 16(2):80-83.
[18]Wu S W, Zhou X G, Cao G M,etal.IronandSteel[J], 2016, 51(5):88-94.
[19]Kulkarni A J, Krishnamurthy K, Deshmukh S P,etal.MaterialsScience&EngineeringA[J], 2004, 372(1-2):213-220.
[20]Krishna Rajan.MaterialsToday[J], 2005, 8(10):38-45.
[21]Morgan D, Rodgers J, Ceder G.JournalofPhysicsCondensedMatter[J], 2003, 15(25):4361-4369.
[22]Fischer C C, Tibbetts K J, Morgan D,etal.NatureMaterials[J], 2006, 5(8):641-6.
[23]Liu R, Kumar A, Chen Z,etal.ScientificReports[J], 2014, 5.
[24]Sinha A, Chattopadhyay P P, Datta S.Materials&Design[J], 2012, 46:227-234.
(本文為本刊約稿,編輯 蓋少飛)
Materials Informatics and Its Application in Materials Research
WANG Zhuo1,2,WANG Meng2, YONG Qilong1, GUO Yanhua3, CUI Yuwen3,4
(1.China Iron & Steel Research Institue Group , Beijing 100081, China)(2.Matclouds CO.,Ltd, Chengdu 610041, China)(3.College of Materials Science and Engineering, Nanjing Tech University, Nanjing 211899, China)(4.IMDEA Materials Institute, C/Eric Kandel 2 Getafe Madrid, Spain)
The Materials Genome Initiative (MGI) project proposed by President Obama in 2011 is aimed at two times faster of developing and manufacturing of advanced materials while at a fraction of cost than before. This project promoted the rapid development of materials informatics that is the application of information technology in materials science. Material information database, integrated materials design platform and data mining methods are used to analyze and predict materials big data, and further reveal the quantitative relationships of the constituents-process-microstructure-properties in materials science, which is the gene to determine the materials properties. The design and development of advanced materials can be effectively speeded up by materials informatics. This article describes the concepts and main research areas of materials informatics. The materials information databases provide the storage and management service of materials data, such as crystal structure data, simulated and predicted data,experimental and processing data, and even patent data and various kinds of publications. Integrated materials design platform provides multiscale simulation techniques of materials research, such as the first-principles calculation, molecular dynamics, CALPHAD method, phase-field simulation and finite element analysis, etc. The calculated data can be added to the materials databases. Data Mining is an interdisciplinary field merging methods from statistics, machine learning, information science, visualization and other disciplines.It is a very useful approach to discover knowledge from materials big data produced by combination of experiments and high throughput calculation. The application of materials databases, integrated materials design platform and data mining in materials research are introduced. Especially, the framework and function of “MATGENE” integrated materials design platform built by Matclouds technology in Chengdu are also described. Finally the challenges of materials informatics in materials research are discussed.
materials informatics; materials databases; integrated materials design platform; data mining; big data
2016-09-08
國家自然科學基金資助項目(51571113);江蘇省前瞻性聯(lián)合研究項目(SBY2016020451)
王 卓,男,1980年生,博士研究生
崔予文,男,1970年生,教授,博士生導師,Email: ycui@njtech.edu.cn
10.7502/j.issn.1674-3962.2017.02.08
TB30
A
1674-3962 (2017)02-0132-09