徐燕胡紅青劉茜張玉鳳丁廣太張惠然
(1.上海電力大學(xué)數(shù)理學(xué)院,上海201306;2.上海大學(xué)計(jì)算機(jī)工程與科學(xué)學(xué)院,上海200444;3.上海大學(xué)材料基因組工程研究院材料信息與數(shù)據(jù)科學(xué)中心,上海200444;4.之江實(shí)驗(yàn)室,浙江杭州311100)
帶隙對(duì)材料的物理化學(xué)性質(zhì)具有重要的影響,是描述鈣鈦礦型復(fù)合氧化物材料十分重要的特征參數(shù)之一.例如,鈣鈦礦太陽(yáng)能電池器件的光電轉(zhuǎn)換效率[1]、鉛鹵化物鈣鈦礦LED器件的發(fā)光效率[2-3]等.因此,制備合適帶隙的鈣鈦礦型復(fù)合氧化物材料是一項(xiàng)重要的研究工作.通常情況下,直接測(cè)量帶隙需要消耗大量的時(shí)間和資源,即使利用高通量計(jì)算也需要較長(zhǎng)的時(shí)間.如果利用鈣鈦礦型復(fù)合氧化物材料的一些特征參數(shù)作為輸入數(shù)據(jù),使用機(jī)器學(xué)習(xí)方法以目標(biāo)帶隙為導(dǎo)向設(shè)計(jì)出符合需求、性能優(yōu)異的材料,將會(huì)大大加快新鈣鈦礦型復(fù)合材料的研發(fā).
一般情況下,多采用單一的算法來(lái)預(yù)測(cè)鈣鈦礦型復(fù)合氧化物材料的帶隙.例如,Lu等[4]采用6種不同的機(jī)器學(xué)習(xí)回歸算法來(lái)預(yù)測(cè)未被發(fā)現(xiàn)的有機(jī)無(wú)機(jī)雜化鈣鈦礦(HOIPs)材料,找出了6種無(wú)鉛且具有穩(wěn)定帶隙的雜化鈣鈦礦復(fù)合材料適合用于制備太陽(yáng)能電池.Gu等[5]采用人工神經(jīng)網(wǎng)絡(luò)(artificial neural network,ANN)和支持向量回歸(support vector regression,SVR)算法預(yù)測(cè)了25種二元化合物和31種三元化合物的帶隙.Jain等[6]用SVR算法來(lái)預(yù)測(cè)454種具有鈣鈦礦結(jié)構(gòu)的無(wú)機(jī)鹵化物的可成形性能.Liu等[7]利用具有高精度的梯度提升決策樹(shù)(gradient boosting decision tree,DBDT)來(lái)篩選穩(wěn)態(tài)和亞穩(wěn)態(tài)鈣鈦礦材料.Pilania等[8]構(gòu)建了一個(gè)使用簡(jiǎn)單的元素描述子集的核嶺回歸(kernel ridge regression,KRR)模型來(lái)預(yù)測(cè)雙鈣鈦礦復(fù)合材料的帶隙.Dey等[9]利用不同的機(jī)器學(xué)習(xí)方法如普通最小二乘法(ordinary least square,OLS)、稀疏偏最小二乘(sparse partial least squares,SPLS)和LASSO(least absolute shrinkage and selection operator)回歸等來(lái)預(yù)測(cè)227種黃銅礦物的帶隙.Lee等[10]也利用OLS、LASSO和SVR等機(jī)器學(xué)習(xí)算法和密度泛函計(jì)算相結(jié)合的方法來(lái)構(gòu)建預(yù)測(cè)270種無(wú)機(jī)化合物G0W0帶隙的模型[10].但是,單一算法的預(yù)測(cè)精度、泛化性能有限,嘗試多種算法以及調(diào)參也很難實(shí)現(xiàn)較高精度和泛化性能[11-12].在材料的研究上,單個(gè)的機(jī)器學(xué)習(xí)算法也并不能夠總是提供解決特定應(yīng)用問(wèn)題所需的準(zhǔn)確性[13].而使用集成學(xué)習(xí)來(lái)對(duì)材料性能進(jìn)行預(yù)測(cè)被認(rèn)為是一種有效的手段[13-15],也能夠解決材料數(shù)據(jù)量不高的問(wèn)題[16-17].
由于材料數(shù)據(jù)的維度較小,為了避免普通集成算法的過(guò)擬合,本工作中構(gòu)建了一個(gè)兩階段異質(zhì)集成學(xué)習(xí)模型來(lái)預(yù)測(cè)鈣鈦礦型復(fù)合氧化物材料的帶隙,利用不同基礎(chǔ)學(xué)習(xí)器來(lái)學(xué)習(xí)輸入數(shù)據(jù)特征中的不同信息,并通過(guò)第二階段的算法將這些學(xué)習(xí)到的不同信息很好地融合在一起,從而實(shí)現(xiàn)模型的較高精度和泛化性能.實(shí)驗(yàn)結(jié)果表明,在所使用的材料數(shù)據(jù)量不大的情況下,本工作所構(gòu)建的集成學(xué)習(xí)模型在預(yù)測(cè)鈣鈦礦型復(fù)合氧化物材料的帶隙方面比單個(gè)機(jī)器學(xué)習(xí)算法有明顯的優(yōu)勢(shì),也比常規(guī)的集成策略精度更高.
本工作使用的數(shù)據(jù)集數(shù)據(jù)來(lái)自Materials Project和上海大學(xué)材料基因?qū)S脭?shù)據(jù)庫(kù),由210種鈣鈦礦型復(fù)合氧化物材料的特征數(shù)據(jù)組成.這些鈣鈦礦氧化物材料的特征數(shù)據(jù)(包括目標(biāo)屬性:帶隙)一般是由第一性原理計(jì)算所得.根據(jù)帶隙可以把這210種復(fù)合材料分為3類(lèi):金屬導(dǎo)體(帶隙為0 eV)、半導(dǎo)體(帶隙為0~4.5 eV)、絕緣體(帶隙大于4.5 eV).
為了解決鈣鈦礦型復(fù)合氧化物材料的分類(lèi)問(wèn)題,最初收集的19個(gè)描述ABX3的特征數(shù)據(jù)既包含了與幾何空間結(jié)構(gòu)相關(guān)的特征數(shù)據(jù),也包含了和電子結(jié)構(gòu)相關(guān)的特征數(shù)據(jù).首先,選取與幾何空間結(jié)構(gòu)相關(guān)的特征數(shù)據(jù)[18]:晶格常數(shù)(lA、lB、lC),位點(diǎn)數(shù)(N),原胞的體積(V),晶系(CS),空間群和濃度(D);然后,選取與電子結(jié)構(gòu)相關(guān)的特征數(shù)據(jù),比如:形成能(EF),定量描述材料熱力學(xué)穩(wěn)定性的物理量(EH),A位和B位元素的電負(fù)性(xA、xB).最后,把A、B、X位的原子半徑數(shù)據(jù)(rA、rB、rC)擴(kuò)展為3組描述子(rA/rC,rB/rC;rA+rC,rB+rC;rA,rB,rC)以期獲得更有效的特征數(shù)據(jù).
因?yàn)闄C(jī)器學(xué)習(xí)是通過(guò)訓(xùn)練數(shù)據(jù)建立模型來(lái)預(yù)測(cè)未知數(shù)據(jù)的,因此輸入數(shù)據(jù)的形式會(huì)影響到模型的準(zhǔn)確性.為避免影響帶隙的特征數(shù)據(jù)被隱藏,在進(jìn)行模型訓(xùn)練之前需要對(duì)所選特征數(shù)據(jù)進(jìn)行預(yù)處理,剔除高度相關(guān)的數(shù)據(jù)來(lái)獲得最佳數(shù)據(jù)子集.使用皮爾遜相關(guān)系數(shù)矩陣對(duì)所選特征數(shù)據(jù)進(jìn)行了相關(guān)性分析,結(jié)果如圖1所示.從圖1(a)中可以看出,幾何空間結(jié)構(gòu)數(shù)據(jù)rA/rC(表示為rA/C)和rB/rC(表示為rB/C)與電子結(jié)構(gòu)相關(guān)的數(shù)據(jù)EH和和xB等特征數(shù)據(jù)之間相關(guān)性較弱.最終,我們從原始的19個(gè)特征數(shù)據(jù)中篩選出lA、N、D、V、CS、rA/rC、rB/rC、EF、EH、xB進(jìn)行下一步的模型訓(xùn)練.
圖1 鈣鈦礦型復(fù)合氧化物材料特征數(shù)據(jù)皮爾遜相關(guān)系數(shù)矩陣熱力圖Fig.1 Comparison of the heat maps of Pearson correlation coefficient matrix among the descriptors for ABX3-type perovskites data
圖2給出了基于機(jī)器學(xué)習(xí)和異質(zhì)集成學(xué)習(xí)的兩階段集成學(xué)習(xí)模型的基本原理圖.第一階段由3步組成:首先,將包含所需材料部分特征值以及擴(kuò)展值的數(shù)據(jù)集進(jìn)行預(yù)處理;然后,將最佳數(shù)據(jù)子集輸入到多個(gè)基礎(chǔ)機(jī)器學(xué)習(xí)算法來(lái)預(yù)測(cè)目標(biāo)值;最后,對(duì)這些基礎(chǔ)機(jī)器學(xué)習(xí)算法的預(yù)測(cè)能力進(jìn)行評(píng)價(jià),同時(shí)每種算法都能得到可以描述材料結(jié)構(gòu)與物性關(guān)聯(lián)的函數(shù).在該階段,由于回歸算法的不同,各基礎(chǔ)機(jī)器學(xué)習(xí)算法探索出的結(jié)構(gòu)-屬性關(guān)聯(lián)函數(shù)也各不相同.這個(gè)函數(shù)表示為
圖2 基于機(jī)器學(xué)習(xí)和異質(zhì)集成學(xué)習(xí)的集成學(xué)習(xí)模型策略圖Fig.2 Overall learning process of ensemble learning model based on machine learning and heterogeneous ensemble learning
式中:xn代表輸入的第n個(gè)基本特征數(shù)據(jù);fi(X)代表在第一階段中由獨(dú)立的基礎(chǔ)機(jī)器學(xué)習(xí)算法所產(chǎn)生的函數(shù)
接下來(lái)在第二階段,所有的基礎(chǔ)機(jī)器學(xué)習(xí)算法所產(chǎn)生的函數(shù)和一些特殊的描述子一起被輸入到一個(gè)元學(xué)習(xí)器進(jìn)而得到一個(gè)集成學(xué)習(xí)模型.第一階段選取的5種常用基礎(chǔ)機(jī)器學(xué)習(xí)算法分別是貝葉斯嶺回歸(Bayesian ridge regression,BRR)、決策樹(shù)回歸(decision treeregression,DTR)、內(nèi)置交叉驗(yàn)證的嶺回歸(ridge cross-validation regression,RCVR)、SVR和彈性網(wǎng)絡(luò)回歸(elastic net regression,ENR).這些獨(dú)立算法產(chǎn)生的函數(shù)fi(X):(f1f5)和一些特殊的描述子Mj:(M1~M4)分別是lA、EH、EF和xB,一起被用作集成學(xué)習(xí)策略g(fi(X),Mj)第二階段的特征數(shù)據(jù)輸入.最終,集成學(xué)習(xí)模型(ensemble learning model,ELM)的輸出定義為
在構(gòu)建集成學(xué)習(xí)模型的過(guò)程中,首先按照7∶3的比例將篩選出的特征數(shù)據(jù)子集劃分為訓(xùn)練集和測(cè)試集,訓(xùn)練集用來(lái)訓(xùn)練機(jī)器學(xué)習(xí)模型,測(cè)試集用來(lái)評(píng)估機(jī)器學(xué)習(xí)模型的泛化能力.接下來(lái),70%的訓(xùn)練集按照7∶3的比例劃分為訓(xùn)練子集和驗(yàn)證子集,分別用來(lái)訓(xùn)練和評(píng)估集成學(xué)習(xí)模型.選擇哪種集成學(xué)習(xí)算法主要取決于第一階段單個(gè)機(jī)器學(xué)習(xí)算法的評(píng)估結(jié)果.在第二階段,利用9維特征數(shù)據(jù)(第一階段5種基礎(chǔ)機(jī)器學(xué)習(xí)算法的預(yù)測(cè)結(jié)果和4個(gè)最有效的特征數(shù)據(jù))作為輸入特征數(shù)據(jù),繼續(xù)對(duì)鈣鈦礦型復(fù)合氧化物材料的帶隙進(jìn)行預(yù)測(cè).最后,經(jīng)過(guò)訓(xùn)練會(huì)得到一個(gè)元學(xué)習(xí)器,建立了一個(gè)完整的集成學(xué)習(xí)模型.
首先,與本工作所構(gòu)建的集成學(xué)習(xí)模型進(jìn)行比較的是5種基礎(chǔ)機(jī)器學(xué)習(xí)算法.因?yàn)檫@5種基礎(chǔ)機(jī)器學(xué)習(xí)算法的不同,它們會(huì)從不同的角度給出材料結(jié)構(gòu)與性能之間的關(guān)聯(lián).而集成學(xué)習(xí)模型則結(jié)合了這些基礎(chǔ)機(jī)器學(xué)習(xí)算法和一些特征數(shù)據(jù),先利用一個(gè)更加綜合的模型來(lái)探索影響材料帶隙的特征數(shù)據(jù),再將其與不同的集成策略相比較,從而更全面地評(píng)價(jià)本工作所構(gòu)建的集成學(xué)習(xí)模型.
本工作在第二階段選擇了DTR來(lái)集成這些基礎(chǔ)的機(jī)器學(xué)習(xí)算法.為了解釋集成策略的合理性,首先比較了5種基礎(chǔ)機(jī)器學(xué)習(xí)算法的預(yù)測(cè)結(jié)果和原始數(shù)據(jù)值,結(jié)果如圖3所示.圖3中黑色點(diǎn)的重疊程度可以很好地代表帶隙的分布.從圖中可以看出,使用BRR、RCVR和ENR預(yù)測(cè)的帶隙值主要分布在0~4 eV,使用SVR預(yù)測(cè)的帶隙值主要分布在-2~4 eV,而使用DTR預(yù)測(cè)的帶隙值分布與原始帶隙值分布最為接近.
圖3 210種鈣鈦礦型復(fù)合氧化物材料的原始帶隙值分布和5種基礎(chǔ)算法預(yù)測(cè)的帶隙值分布Fig.3 Predicted band gap values of the corresponding base learners and the original band gap values of the 210 ABX3-type perovskites
為了更好地評(píng)估5種基礎(chǔ)機(jī)器學(xué)習(xí)算法,表1列出了3種評(píng)估指標(biāo):均方誤差(mean square error,MSE),平均絕對(duì)誤差(mean absolute error,MAE)和決定系數(shù)R2[19].MSE可以評(píng)估預(yù)測(cè)數(shù)據(jù)和原始數(shù)據(jù)對(duì)應(yīng)點(diǎn)的偏差程度;MAE代表預(yù)測(cè)數(shù)據(jù)與真實(shí)數(shù)據(jù)的誤差絕對(duì)值的平均值,可以更好地反應(yīng)預(yù)測(cè)值的真實(shí)誤差.MSE和MAE的數(shù)值越小,則說(shuō)明預(yù)測(cè)模型的準(zhǔn)確性更高.決定系數(shù)R2是表征方程對(duì)觀測(cè)值的擬合程度,它的正常取值范圍為(0,1),數(shù)值越接近1,表明所構(gòu)建模型對(duì)數(shù)據(jù)擬合的越好.通過(guò)表一數(shù)據(jù)的對(duì)比發(fā)現(xiàn),利用DTR模型預(yù)測(cè)的結(jié)果最好,這也與圖1的結(jié)果相互印證.實(shí)際上,這5種機(jī)器學(xué)習(xí)算法都屬于弱學(xué)習(xí)器,它們都沒(méi)能給出較為理想的預(yù)測(cè)結(jié)果.這些預(yù)測(cè)結(jié)果也促使我們?cè)谙乱浑A段嘗試使用DTR(5種算法中效果最好)來(lái)訓(xùn)練元學(xué)習(xí)器.
表1 預(yù)測(cè)帶隙的5種基本學(xué)習(xí)算法的評(píng)估Table 1 Evaluation of five kinds of base learners for band gaps prediction
由于第一階段所用的特征數(shù)據(jù)對(duì)DTR表現(xiàn)出一定的偏好,在構(gòu)建集成學(xué)習(xí)模型的第二階段選擇DTR.在第一階段5種基礎(chǔ)機(jī)器學(xué)習(xí)算法的輸出結(jié)果(f1、f2、f3、f4、f5)和另外4個(gè)特征數(shù)值(lA、EH、EF和xB)就構(gòu)成了第二階段的訓(xùn)練數(shù)據(jù)集.
圖4(a)給出了5種基礎(chǔ)機(jī)器學(xué)習(xí)算法、隨機(jī)森林回歸(random forest regression,RFR)和本模型預(yù)測(cè)的帶隙值和原始帶隙值之間的差異.圖3(a)中,虛線是由預(yù)測(cè)值數(shù)據(jù)點(diǎn)擬合而成,而黑色的實(shí)線代表預(yù)測(cè)帶隙值與原始帶隙值完全一致,預(yù)測(cè)值擬合曲線與黑色實(shí)線偏離越多說(shuō)明預(yù)測(cè)結(jié)果越差.從圖4(a)可以看出,由本工作構(gòu)建的集成學(xué)習(xí)模型預(yù)測(cè)的帶隙值所擬合的粉色虛線與標(biāo)準(zhǔn)的黑色實(shí)線偏離程度最小,表明集成學(xué)習(xí)模型比其他預(yù)測(cè)模型更加精確.
圖4(b)給出了5種基礎(chǔ)機(jī)器學(xué)習(xí)算法、RFR和集成學(xué)習(xí)模型的MSE、MAE和R2值.可以看出,與5種基礎(chǔ)機(jī)器學(xué)習(xí)算法相比較,隨機(jī)森林回歸和集成學(xué)習(xí)模型具有較高的R2值、較低的MSE和MAE值,這也說(shuō)明本工作所采用集成策略的可行性.正如預(yù)期,本工作所構(gòu)建的集成學(xué)習(xí)模型具有最高的R2值(0.882),同時(shí)具有最低的MSE和MAE值.這意味著本工作所構(gòu)建的集成策略較好,在鈣鈦礦型復(fù)合氧化物材料帶隙預(yù)測(cè)上具有更大的優(yōu)勢(shì).
圖4 5種基礎(chǔ)機(jī)器學(xué)習(xí)算法、隨機(jī)森林回歸和集成學(xué)習(xí)模型的比較Fig.4 Comparison of five kinds of learners,RFR and ELM
由于5種基礎(chǔ)機(jī)器學(xué)習(xí)算法各有所長(zhǎng),利用它們探索出的結(jié)構(gòu)物性關(guān)系也是不同的,同時(shí)也可能是片面的.但是,如果把它們結(jié)合在一起則可以在某種程度上彌補(bǔ)各自的不足.因此把5種單獨(dú)的學(xué)習(xí)算法結(jié)合在一起,并加入一些其他較為重要的特征數(shù)據(jù)來(lái)構(gòu)建集成學(xué)習(xí)模型,可以更加有效和精確地預(yù)測(cè)材料的結(jié)構(gòu)物性關(guān)系.
關(guān)于數(shù)值預(yù)測(cè)型回歸問(wèn)題,常用到的組合策略是均值法[20],即利用幾個(gè)基礎(chǔ)機(jī)器學(xué)習(xí)算法的預(yù)測(cè)結(jié)果直接求平均值作為最終的預(yù)測(cè)值.這種方法較為簡(jiǎn)單但是學(xué)習(xí)誤差較大,數(shù)據(jù)也會(huì)有相對(duì)較大的偏差.同時(shí),利用隨機(jī)森林回歸預(yù)測(cè)的數(shù)據(jù)值顯示,有些樣本的預(yù)測(cè)結(jié)果誤差較小而有些則誤差較大,邊界不夠穩(wěn)定.與均值法和隨機(jī)森林回歸模型相比較,集成學(xué)習(xí)模型的預(yù)測(cè)結(jié)果更加穩(wěn)定.本工作通過(guò)增加一層學(xué)習(xí)算法的組合策略而構(gòu)建的兩段式集成學(xué)習(xí)模型,其預(yù)測(cè)數(shù)據(jù)值的誤差要遠(yuǎn)小于利用單獨(dú)機(jī)器學(xué)習(xí)算法預(yù)測(cè)數(shù)據(jù)值的誤差.
為了更充分地說(shuō)明問(wèn)題,本工作還給出了利用均值法、隨機(jī)森林回歸和集成學(xué)習(xí)模型預(yù)測(cè)數(shù)據(jù)值的誤差散點(diǎn)圖(見(jiàn)圖5).圖5中,數(shù)據(jù)點(diǎn)越接近中心的紅點(diǎn)代表預(yù)測(cè)誤差越小,這更加直觀地顯示了本工作所構(gòu)建的集成學(xué)習(xí)模型要優(yōu)于另外兩種組合策略.基礎(chǔ)機(jī)器學(xué)習(xí)算法的多樣性使得整個(gè)集成學(xué)習(xí)模型具有更穩(wěn)定的邊界和較低的過(guò)擬合風(fēng)險(xiǎn),也意味著這種模型具有更強(qiáng)的泛化能力,這將使得這種構(gòu)建集成學(xué)習(xí)模型的組合策略變得更有意義.
圖5 均值法、隨機(jī)森林回歸和集成學(xué)習(xí)模型預(yù)測(cè)值誤差散點(diǎn)圖Fig.5 Prediction error scatter diagram of the three groups
通過(guò)實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),本工作所構(gòu)建的集成學(xué)習(xí)模型比單個(gè)的基礎(chǔ)機(jī)器學(xué)習(xí)算法能做出更加有效的數(shù)值預(yù)測(cè),并具有較好的泛化能力.基于堆疊集成策略的集成學(xué)習(xí)模型在預(yù)測(cè)鈣鈦礦型氧化物復(fù)合材料的帶隙時(shí),其預(yù)測(cè)能力得到提高,同時(shí)也避免了人工選擇算法的繁瑣過(guò)程.
本工作構(gòu)建了基于支持向量回歸、決策樹(shù)、貝葉斯嶺回歸、內(nèi)置交叉驗(yàn)證的嶺回歸和彈性網(wǎng)絡(luò)回歸這5個(gè)基礎(chǔ)學(xué)習(xí)器的集成模型,該模型集合了不同基礎(chǔ)學(xué)習(xí)器的優(yōu)點(diǎn),具有更高的預(yù)測(cè)精度和模型魯棒性.實(shí)驗(yàn)結(jié)果表明,在本工作構(gòu)建的模型中,集成學(xué)習(xí)方法比單個(gè)學(xué)習(xí)器具有更好的預(yù)測(cè)效果和更好的泛化性能.作為一個(gè)應(yīng)用示范,本工作利用這種兩段式集成學(xué)習(xí)模型預(yù)測(cè)了鈣鈦礦型氧化物復(fù)合材料的帶隙.與單獨(dú)的決策樹(shù)回歸模型和隨機(jī)森林回歸模型相比較,兩段式集成學(xué)習(xí)模型的預(yù)測(cè)結(jié)果更加地接近實(shí)驗(yàn)值,并且具有更加穩(wěn)定的邊界.與傳統(tǒng)方法通過(guò)不斷調(diào)試使模型更加適合原始數(shù)據(jù)不同,本工作通過(guò)多種算法的融合來(lái)獲得一個(gè)穩(wěn)固的邊界,從而提高模型的魯棒性和泛化能力.該兩段異質(zhì)集成學(xué)習(xí)模型避免了科研人員反復(fù)挑選合適算法的過(guò)程,將有助于加快利用機(jī)器學(xué)習(xí)方法進(jìn)行材料學(xué)研究.