孫敬淇 吳緒才 闕志雄 張衛(wèi)兵
(長(zhǎng)沙理工大學(xué)物理與電子科學(xué)學(xué)院,柔性電子材料基因工程湖南省重點(diǎn)實(shí)驗(yàn)室,長(zhǎng)沙 410004)
尋找具有高居里溫度的鐵磁材料是凝聚態(tài)物理的熱點(diǎn)問(wèn)題.本文建立了有效的基于材料組分信息的居里溫度機(jī)器學(xué)習(xí)模型,并預(yù)測(cè)了多種高居里溫度鐵磁材料.基于收集到的1568 個(gè)鐵磁材料數(shù)據(jù),并以鐵磁材料的組分信息作為描述符,通過(guò)超參數(shù)優(yōu)化和十折交叉驗(yàn)證,構(gòu)建了支持向量回歸、核嶺回歸、隨機(jī)森林及極端隨機(jī)樹(shù)四種高效的機(jī)器學(xué)習(xí)模型.這其中,極端隨機(jī)樹(shù)模型具有最好的預(yù)測(cè)性能,其交叉驗(yàn)證R2 評(píng)分可達(dá)81.48%.同時(shí),還應(yīng)用極端隨機(jī)樹(shù)模型對(duì)Materials Project 數(shù)據(jù)庫(kù)36949 種鐵磁材料進(jìn)行了預(yù)測(cè),發(fā)現(xiàn)了338 個(gè)居里溫度大于600 K 的鐵磁材料.本文提出的方法可以為獲取具有高居里溫度的鐵磁材料提供有價(jià)值的幫助,加快鐵磁材料設(shè)計(jì)的過(guò)程.
作為一種重要的智能材料,鐵磁材料在現(xiàn)代科學(xué)技術(shù)中得到廣泛的應(yīng)用.居里溫度(Curie Temperature,Tc)高于室溫是鐵磁材料工業(yè)化應(yīng)用的重要前提.遺憾的是,目前Tc高于室溫的候選鐵磁材料不多.為滿足信息技術(shù)發(fā)展需要,近年來(lái)許多研究者通過(guò)不同的方法試圖合成高Tc的鐵磁材料[1-3].另一方面,密度泛函理論已成為模擬鐵磁材料的典型理論方法,它結(jié)合海森伯哈密頓量,求解磁交換相互作用,并通過(guò)蒙特卡羅方法求解Tc.這種方法計(jì)算量大、效率低,不適用于高通量材料計(jì)算和設(shè)計(jì).
在材料基因組計(jì)劃的推動(dòng)下,基于機(jī)器學(xué)習(xí)的材料設(shè)計(jì)[4-14]已成為當(dāng)前材料研究的一個(gè)熱點(diǎn)領(lǐng)域.機(jī)器學(xué)習(xí)方法縮短材料設(shè)計(jì)周期,也被廣泛地應(yīng)用于磁性材料的預(yù)測(cè).Kabiraj 等[6]利用高通量自動(dòng)化代碼和數(shù)據(jù)驅(qū)動(dòng)模型,遍歷了二維(twodimension,2D)材料數(shù)據(jù)庫(kù),并預(yù)測(cè)了大量具有高Tc的二維鐵磁(ferromagnetic materials,FM)材料.盧帥華等[7]通過(guò)將先進(jìn)的機(jī)器學(xué)習(xí)技術(shù)與高通量密度泛函理論計(jì)算相結(jié)合,開(kāi)發(fā)了一個(gè)自適應(yīng)框架,以加速二維內(nèi)秉鐵磁材料的發(fā)現(xiàn).Vishina 等[12]通過(guò)對(duì)ICSD (inorganic crystal structure database)中包含3d 和5d 元素的已知晶體結(jié)構(gòu)進(jìn)行數(shù)據(jù)挖掘,使用特定材料的篩選方法結(jié)合電子結(jié)構(gòu)計(jì)算的高通量方法來(lái)尋找無(wú)稀土永磁體的可能候選材料.磁性是一種典型的量子效應(yīng),與材料組成、結(jié)構(gòu)、化學(xué)鍵、電子結(jié)構(gòu)等密切相關(guān),發(fā)展簡(jiǎn)單高效的磁性如Tc預(yù)測(cè)模型仍存在挑戰(zhàn).
材料的化學(xué)組分是決定材料物性的基礎(chǔ).常用的永磁材料包括鋁鎳鈷系永磁合金、鐵鉻鈷系永磁合金、永磁鐵氧體、稀土永磁材料和復(fù)合永磁材料等.通過(guò)分析現(xiàn)有的永磁材料[15]及鐵磁材料數(shù)據(jù)集[16-19],可以發(fā)現(xiàn)絕大多數(shù)磁性材料含有Fe,Co,Mn,Ni,O 以及稀土等元素.這表明,材料的組分信息如元素和化學(xué)配比,對(duì)材料的磁性如Tc起著至關(guān)重要的作用.
本文力圖基于材料的化學(xué)組成信息,建立鐵磁材料Tc預(yù)測(cè)模型,并發(fā)掘具有高Tc的鐵磁材料.本文構(gòu)建和優(yōu)化了具有較好的回歸和泛化性能的多種機(jī)器學(xué)習(xí)模型.最后,還利用具有最佳性能的極端隨機(jī)樹(shù)模型,預(yù)測(cè)了多種Tc超過(guò)室溫的鐵磁材料.
從參考文獻(xiàn)[16-19]中收集了1568 個(gè)鐵磁材料作為數(shù)據(jù)集,該數(shù)據(jù)集只包含鐵磁材料的化學(xué)成分信息(元素、化學(xué)配比)和相應(yīng)的Tc.圖1 展示了鐵磁材料的Tc分布情況,可以看出數(shù)據(jù)集中鐵磁材料的Tc范圍為0–1400 K,大多數(shù)數(shù)據(jù)樣本分布在600 K 以下,而高于600 K 的數(shù)據(jù)僅占總數(shù)據(jù)的20%左右,這表明高Tc的鐵磁材料在數(shù)據(jù)集中相對(duì)較為稀缺.
圖1 1568 個(gè)鐵磁材料數(shù)據(jù)集Tc 的分布情況Fig.1.Distribution of Tc in 1568 ferromagnetic material data sets.
圖2 顯示了數(shù)據(jù)集中Tc分別大于300 和600 K時(shí)的鐵磁材料元素的分布情況,元素分布主要集中在Fe,Co 和O.通過(guò)分析數(shù)據(jù)集中大于300 K 的數(shù)據(jù),發(fā)現(xiàn)Fe,Co 和O 元素分別占總元素的34.3%,11.6%和16.8%,而在600 K 時(shí),Fe,Co 和O 元素分別占總元素的32.2%,25.8%和15.8%,說(shuō)明Fe,Co和O 是本數(shù)據(jù)集高Tc鐵磁材料的主要元素.Ni,Mn也是常見(jiàn)的磁性元素,在高Tc的數(shù)據(jù)中相對(duì)Fe,Co 元素占比較少,從圖2 可以得知,Ni,Mn 的占比相對(duì)其他元素依舊擁有一定的數(shù)量,對(duì)模型的訓(xùn)練不會(huì)產(chǎn)生太大的影響.
圖2 數(shù)據(jù)集中鐵磁材料的元素分布情況 (a) Tc 大于300 K 時(shí)元素分布;(b) Tc 大于600 K 時(shí)元素分布Fig.2.Element distribution of ferromagnetic materials in data set: (a) Element distribution when Tc is greater than 300 K;(b) element distribution when Tc is greater than 600 K.
本文采用sklearn[20]平臺(tái)上的支持向量機(jī)(support vector regression,SVR)、核嶺回歸(kernel ridge regression,KRR)、隨機(jī)森林(random rorest,RF)以及極端隨機(jī)森(extremely randomized trees,EXT)四個(gè)機(jī)器學(xué)習(xí)模型.針對(duì)SVR 和KRR 算法的超參數(shù)采用了遺傳算法[21]進(jìn)行優(yōu)化.KRR 和SVR選取了高斯核函數(shù)(rbf),對(duì)模型中的alpha 參數(shù)進(jìn)行了優(yōu)化,其值設(shè)置為0.00567165.對(duì)于SVR模型,其模型性能取決于參數(shù)c和gamma.參數(shù)c是一個(gè)常數(shù),它決定了對(duì)估計(jì)誤差的正則化懲罰,其設(shè)置為181.8797945,gamma 是核系數(shù)的系數(shù),其設(shè)置為0.18646131.針對(duì)RF 和EXT 模型,主要由3 個(gè)超參數(shù)決定模型的性能.通過(guò)在一定的超參數(shù)區(qū)間內(nèi),采用均勻網(wǎng)格搜索[22]的方式選取最佳超參數(shù)(圖3 所示),“n_estimators”被設(shè)置為從100 到300,步長(zhǎng)為10;“max_features”以0.02 步,從0.10 到0.60;“min_samples_leaf”默認(rèn)選擇最小的0.001.不同模型的優(yōu)化結(jié)果見(jiàn)表1.
表1 本研究中四種機(jī)器學(xué)習(xí)模型的超參數(shù)Table 1. Hyperparameters of four machine learning models in this study.
圖3 均勻網(wǎng)格搜索 (a) 隨機(jī)森林參數(shù)優(yōu)化圖;(b) 極端隨機(jī)樹(shù)參數(shù)優(yōu)化圖Fig.3.Uniform grid search: (a) Random forest parameter optimization map;(b) extreme random tree parameter optimization map.
特征選擇可以降低過(guò)擬合的風(fēng)險(xiǎn),更好地去除與目標(biāo)值無(wú)關(guān)的特征從而達(dá)到優(yōu)化模型以及縮短訓(xùn)練時(shí)間的目的.本文總共生成了397 個(gè)特征,其中使用matminer 庫(kù)生成了362 個(gè)特征,參考文獻(xiàn)[8,9,18,23]生成了35 個(gè)特征.在這些特征中,根據(jù)化學(xué)配比的關(guān)系,采用了加權(quán)比例的方法來(lái)構(gòu)建特征,如Fe2O3,其原子序數(shù)特征被定義為:8(3/5)+26(2/5)=15.2.針對(duì)397 個(gè)特征,我們發(fā)現(xiàn)前20%的特征幾乎占據(jù)了95%以上對(duì)Tc預(yù)測(cè)模型的貢獻(xiàn)度,因此提取了前20%的80 個(gè)特征作為新一輪的候選特征.之后考慮到特征之間可能存在相似性高的情況,影響模型的預(yù)測(cè)結(jié)果,采用皮爾遜相關(guān)系數(shù)[24],計(jì)算兩個(gè)特征之間的相似性且去除相似度大于90%的特征,最終得到了表2 中21 個(gè)化學(xué)參數(shù)作為鐵磁材料的描述符.
表2 基于特征篩選獲得的化學(xué)參數(shù)描述符Table 2. Chemical parameter descriptors obtained based on feature screening.
本研究采用80%數(shù)據(jù)作為訓(xùn)練集,20%數(shù)據(jù)作為驗(yàn)證集,構(gòu)建并比較了四個(gè)不同的機(jī)器學(xué)習(xí)模型.使用平均絕對(duì)誤差(MAE),均方根誤差(RMSE)和決定系數(shù)(R2)三項(xiàng)指標(biāo)對(duì)四種機(jī)器學(xué)習(xí)模型的結(jié)果進(jìn)行評(píng)估,評(píng)估結(jié)果見(jiàn)表3 (CS MAE,CS RMSE,CSR2分別表示十次交叉驗(yàn)證結(jié)果的平均絕對(duì)誤差、平均均方根誤差、平均決定系數(shù)).其中,KRR 模型的CS MAE,CS RMSE 和CSR2分別為94.41,141.21 和73.70%;SVR 模型的CS MAE,CS RMSE和CSR2分別為88.64,137.62 和74.92%;RF 模型的CS MAE,CS RMSE 和CSR2分別為81.18,124.13和79.45%;EXT 模型的CS MAE,CS RMSE 和CSR2分別為74.04,117.98 和81.48%.
表3 本研究中四種機(jī)器學(xué)習(xí)模型的最終評(píng)估結(jié)果Table 3. Final evaluation results of four machine learning models in this study.
為了更好地展示不同機(jī)器學(xué)習(xí)模型的預(yù)測(cè)性能,圖4 給出了四種機(jī)器學(xué)習(xí)模型在實(shí)驗(yàn)值和預(yù)測(cè)值之間的二維散點(diǎn)圖.經(jīng)過(guò)比較,發(fā)現(xiàn)無(wú)論是模型本身還是交叉驗(yàn)證的結(jié)果,EXT 模型都擁有最低的MAE 和RMSE 以及最高的R2評(píng)分.這表明相對(duì)于其他三種模型而言,EXT 模型具有更加優(yōu)秀的性能,在鐵磁材料Tc的預(yù)測(cè)方面表現(xiàn)出色.
圖4 四種機(jī)器學(xué)習(xí)模型實(shí)驗(yàn)值和預(yù)測(cè)值對(duì)比的二維散點(diǎn)圖 (a) 核嶺回歸;(b) 支持向量機(jī);(c) 隨機(jī)森林;(d) 極端隨機(jī)樹(shù)Fig.4.Two-dimensional scatter plots comparing experimental and predicted values of four machine learning models: (a) Kernel ridge regression;(b) support vector machine;(c) random forests;(d) extremely random tree.
圖5 展示了EXT 模型在訓(xùn)練過(guò)程中,描述符的重要性情況.在所有描述符中,“型在訓(xùn)練過(guò)GSmagmom”(原子的單元素固體磁矩的平均值)是最重要的特征,占特征重要性的21.6%.其次,“Composition of Fe”和“Composition of Co”分別占重要性的11.0%和15.1%.這表明在化合物中,Fe 和Co 元素的含量對(duì)預(yù)測(cè)高Tc鐵磁材料具有很大的影響.
圖5 基于極端隨機(jī)數(shù)模型的特征重要性排序圖Fig.5.Feature importance ranking graph based on extreme random number model.
還將建立的EXT 模型用于預(yù)測(cè)已有數(shù)據(jù)庫(kù)中化合物的Tc.使用了Materials Project 數(shù)據(jù)庫(kù)[25]中所有的鐵磁材料,經(jīng)過(guò)去重復(fù)處理,得到了包含36949 個(gè)數(shù)據(jù)的預(yù)測(cè)數(shù)據(jù)集.如圖6 所示,我們的預(yù)測(cè)模型發(fā)現(xiàn)在2531 個(gè)Tc大于300 K 的材料中,主要元素成分以O(shè),Fe 和Co 為主,分別占據(jù)了28.2%,21.5%和6.9%.在Tc大于600 K 的338 個(gè)材料中,主要元素成分以Fe,O 和Co 為主,分別占據(jù)了36.2%,33.8%和9.6%,相較于Tc大于300 K 的元素分布,Tc大于600 K 的元素分布中Fe,O 和Co在元素中的占比得到了提升,這表明,如果要獲取較高的Tc鐵磁材料,則在這些元素組合的化合物中進(jìn)行尋找相對(duì)更為合理.
圖6 預(yù)測(cè)集中鐵磁材料元素分布情況 (a) 2531 個(gè)Tc大于300 K 數(shù)據(jù)的元素分布圖;(b) 338 個(gè)Tc 大于600 K 數(shù)據(jù)的元素分布圖Fig.6.Element distribution of ferromagnetic materials in prediction set: (a) Element distribution of 2531 data with Tc greater than 300 K;(b) element distribution of 338 data with Tc greater than 600 K.
在不存在于訓(xùn)練集且Tc大于600 K 以上的預(yù)測(cè)數(shù)據(jù)中,找到了6 個(gè)有實(shí)驗(yàn)值的數(shù)據(jù),AlFe3預(yù)測(cè)值為750 K,實(shí)驗(yàn)值為755 K[26];AlFe 預(yù)測(cè)值為756 K,實(shí)驗(yàn)值為640 K[27];FeNi 預(yù)測(cè)值為701 K,相對(duì)實(shí)驗(yàn)值為785 K[28];Fe3Pd 預(yù)測(cè)值為595 K,實(shí)驗(yàn)值為463 K[29];Fe3Sn 預(yù)測(cè)值為704 K,實(shí)驗(yàn)值為743 K[30];Mn4N 預(yù)測(cè)值為758 K,實(shí)驗(yàn)值為710 K[31].數(shù)據(jù)分析可知實(shí)驗(yàn)值和預(yù)測(cè)值的平均相對(duì)誤差為11.7%.由于鐵磁材料的Tc微觀物理機(jī)制復(fù)雜,目前仍缺少精確的預(yù)測(cè)方法.常用的平均場(chǎng)方法預(yù)測(cè)Tc誤差在10%–20%之間,且根據(jù)磁性物質(zhì)的具體特征和實(shí)驗(yàn)條件等因素,實(shí)際的誤差范圍可能會(huì)更大.因此,EXT 模型在預(yù)測(cè)鐵磁材料的Tc方面表現(xiàn)良好.同時(shí),圖7 還給出了預(yù)測(cè)的338 個(gè)數(shù)據(jù)中Tc的分布情況,結(jié)果表示FeCo9,Li3Zn(Fe5O8)4,Fe3B,FeCo2Ge,Li9Fe23O32,Li3Fe7O12等鐵磁材料可能具有較高的Tc,其預(yù)測(cè)值都在800 K 以上.
圖7 預(yù)測(cè)集中338 個(gè)Tc >600 K 的鐵磁材料的Tc 分布情況Fig.7.Curie temperature distribution of 338 ferromagnetic materials with Tc >600 K in prediction set.
本文使用元素基本的物理性質(zhì)等信息構(gòu)建了一系列特征,針對(duì)鐵磁材料的Tc進(jìn)行了訓(xùn)練,使用了四種機(jī)器學(xué)習(xí)方法(SVR,KRR,RF 和EXT).通過(guò)模型優(yōu)化和交叉驗(yàn)證等方法,對(duì)不同機(jī)器學(xué)習(xí)方法得到的相關(guān)評(píng)價(jià)分?jǐn)?shù)進(jìn)行了比較,最終發(fā)現(xiàn)EXT 模型表現(xiàn)最佳,其R2值達(dá)到了81.48%,展現(xiàn)了良好的精度和泛化能力.基于EXT 模型,本文預(yù)測(cè)了Materials Project 數(shù)據(jù)庫(kù)中36949 個(gè)不同組分和配比的數(shù)據(jù),并從中篩選出338 個(gè)Tc很可能大于600 K 的鐵磁材料,這將有助于加速鐵磁材料的設(shè)計(jì).