• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    面向功能材料屬性預(yù)測的機器學(xué)習(xí)方法初探

    2019-05-05 03:31:32師小偉郝禹齊
    長沙大學(xué)學(xué)報 2019年2期
    關(guān)鍵詞:帶隙神經(jīng)網(wǎng)絡(luò)預(yù)測

    馬 薇,師小偉,郝禹齊

    (寧夏大學(xué)光伏材料重點實驗室,寧夏 銀川 750021)

    功能材料的開發(fā)是工業(yè)創(chuàng)新的基石,同時開發(fā)具有靶向性的材料一直是前瞻科學(xué)研究的熱點問題[1-3].其中,基于密度泛函理論(Density-functional theory ,DFT)的高通量計算等技術(shù)的出現(xiàn)在一定程度上加速了材料的搜尋過程.鈣鈦礦是一種用途廣泛的功能材料,其中諸如HOIPs是一種極具前景的光電材料,其最顯著的優(yōu)點包括高功率轉(zhuǎn)換效率(Photo-conversion efficiency ,PCE)、易合成以及可調(diào)的帶隙等.但存在兩個關(guān)鍵的不足限制了HOIPs的商業(yè)應(yīng)用,其中之一便是毒性(這也是一個嚴重的問題),主要是材料中含有鉛(Pb)元素,其次是環(huán)境穩(wěn)定性較差.因此,設(shè)計具有高PCE且在空氣中持續(xù)穩(wěn)定的雜化有機-無機鈣鈦(Hybrid organic-inorganic perovskites, HOIPs)至關(guān)重要.近年來,由于諸如上手功能材料的結(jié)構(gòu)越來越復(fù)雜,傳統(tǒng)手工方法從成千上萬種候選材料中高效篩選出具有價值的體系,這類方法耗時耗力且不能有效應(yīng)用于工業(yè)生產(chǎn).另外,在非晶合金研究領(lǐng)域,如何設(shè)計并開發(fā)出具有良好玻璃形成能力的合金,是一個具有重要產(chǎn)業(yè)價值的科學(xué)問題.過去非晶合金材料新體系的探索主要依據(jù)經(jīng)驗性判據(jù)的指導(dǎo),由于其準確性與通用性的限制,非晶新材料的研發(fā)速度非常緩慢.如何提高材料設(shè)計的效率,尋找具有更優(yōu)性能的材料,是非晶材料領(lǐng)域非常具有挑戰(zhàn)性的問題.

    機器學(xué)習(xí)(Machine Learning, ML)技術(shù)[3-5]通過標注數(shù)據(jù)學(xué)習(xí)一種對未知數(shù)據(jù)進行預(yù)測和泛化.傳統(tǒng)基于機器學(xué)習(xí)的特征工程方法主要分為兩類:基于手工特征提取方法和基于特征學(xué)習(xí)方法.圖像局部不變特征檢測方法一般分為角點檢測子、斑點檢測子、區(qū)域檢測子,近年來也出現(xiàn)了大量相關(guān)方法,代表性的方法有尺度不變特征變換(Scale-invariant feature transform,SIFT)[6],局部二值模式(Local binary pattern ,LBP)[7]和(梯度直方圖Histogram of gradients ,HOG)[8]等.基于特征學(xué)習(xí)諸如深度學(xué)習(xí)DL[9-10]的方法通過對訓(xùn)練集的學(xué)習(xí),總結(jié)數(shù)據(jù)集蘊含的規(guī)律,學(xué)習(xí)視覺特征.基于特征學(xué)習(xí)的方法因其對數(shù)據(jù)集更加適應(yīng),在視覺感知中取得了更為突出的成績[11-18].近年來,深度學(xué)習(xí)(Deep Learning, DL)方法在視覺目標檢測與識別領(lǐng)域取得了極為出色的成果.如2012年的ImageNet物體識別競賽中,基于深度卷積神經(jīng)網(wǎng)絡(luò)的AlexNet就取得了最高的準確率[15]. 此后Simonyan和Zisserman為大規(guī)模物體識別設(shè)計了“非常深”的卷積神經(jīng)網(wǎng)絡(luò)[16],Ioffe和Szegedy提出了批正則化加速卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練[17],He等人設(shè)計了深度殘差網(wǎng)絡(luò)使得網(wǎng)絡(luò)深度可以大幅增加,進一步改進了基于深度學(xué)習(xí)的視覺目標檢測識別方法的性能[18].

    機器學(xué)習(xí)(ML)技術(shù)已經(jīng)在功能材料設(shè)計和性能屬性預(yù)測和分析等方面凸顯其強大的功能,相關(guān)文獻[19-22]指出,其不僅可以快速準確地實現(xiàn)功能材料設(shè)計,也可以從大規(guī)模材料數(shù)據(jù)庫中挖掘出有效的材料構(gòu)效關(guān)系.美國在2011年提出了材料基因組計劃(Materials Genome Initiative),以期加快材料的研發(fā)過程.我國懷柔科學(xué)城的發(fā)展規(guī)劃中,“材料基因組研究平臺”項目已全面開工建設(shè).高通量實驗+高性能計算+深度數(shù)據(jù)分析的研究方式已經(jīng)成為時代發(fā)展的趨勢.最近,中國科學(xué)院物理研究所凝聚態(tài)物理國家實驗室汪衛(wèi)華研究組博士研究生孫奕韜在汪衛(wèi)華研究員、白海洋研究員的指導(dǎo)下,與人民大學(xué)物理系李茂枝教授合作,采用機器學(xué)習(xí)的方法,對影響二元合金玻璃形成能力的諸多因素進行了系統(tǒng)的研究,建立了合金成分與性能之間的關(guān)聯(lián),并對可能的新材料進行了預(yù)測.研究過程中使用到了支持向量機(Support Vector Machine, SVM)這種方法,通過構(gòu)建多維空間,并在這個多維空間內(nèi)對數(shù)據(jù)進行分割,從而建立輸入?yún)⒘颗c輸出參量之間的關(guān)聯(lián)[21-22].雖然ML技術(shù)為設(shè)計無機鈣鈦礦材料提供了思路,但其在有機-無機雜化鈣鈦礦(HOIPs)領(lǐng)域的應(yīng)用目前鮮有報道.

    論文中通過深入結(jié)合傳統(tǒng)ML和DL技術(shù)提出基于目標驅(qū)動的挖掘穩(wěn)定無鉛化HOIP方法和DFT計算方法.所提方法總體流程圖如圖1所示,結(jié)合ML(如GBR統(tǒng)計回歸模型)和DFT的材料設(shè)計框架用于高效搜尋具有適當帶隙的穩(wěn)定無鉛化HOIPs,由已報道過的HOIP數(shù)據(jù)訓(xùn)練ML模型的材料篩選過程,之后,利用DFT進一步計算這些候選材料的電子性質(zhì)并評估其穩(wěn)定性.從212個已報道的HOIPs帶隙值中訓(xùn)練ML模型,然后成功地從5158種未開發(fā)的潛在HOIPs中篩選出六種具有適當太陽能帶隙和室溫?zé)岱€(wěn)定性的正交無鉛HOIPs,其中兩種在可見區(qū)域具有直接帶隙和優(yōu)異的環(huán)境穩(wěn)定性.之后,通過ML數(shù)據(jù)挖掘出了一種HOIPs帶隙的緊密性結(jié)構(gòu)-性質(zhì)關(guān)系,發(fā)現(xiàn)影響理想HOIPs太陽能電池性能的因素包括容忍因子、八面體因子、金屬電負性以及有機分子的極化率.最后,該方法能夠快速實現(xiàn)高精度篩選,可廣泛應(yīng)用于功能材料設(shè)計.

    1 研究方法

    由于傳統(tǒng)手工篩選可能HOIP結(jié)構(gòu)表現(xiàn)耗時耗力,為有效提升功能材料結(jié)構(gòu)的挖掘過程,提出了基于ML和DL技術(shù)的統(tǒng)計模型方法通過優(yōu)化預(yù)測得到一種高精度的HOIP帶隙的緊密性結(jié)構(gòu)-性質(zhì)關(guān)系,進而發(fā)現(xiàn)影響理想HOIPs太陽能電池性能的因素.這一部分將從總體設(shè)計框架、傳統(tǒng)ML模型、DL模型以及模型推斷和驗證介紹.

    1.1 總體設(shè)計框架

    基于傳統(tǒng)ML和DL技術(shù)的方法框架總體流程圖如圖1所示,具體而言,總體設(shè)計包括三部分:輸入HOIPs數(shù)據(jù),ML算法以及DFT計算.正如傳統(tǒng)ML方法,由于所采集的HOIP數(shù)據(jù)特征包含大量冗余的特征,因此在訓(xùn)練和預(yù)測HOIPs時如何提取和描述其特征表示是ML訓(xùn)練和測試中的核心步驟.當特征被準確選擇時,即通過五折交叉驗證從中選出最優(yōu)的超參數(shù)搜索HOIPs.隨后將訓(xùn)練好的ML模型用于數(shù)據(jù)預(yù)測.最終將DFT計算研究和驗證ML模擬的結(jié)果.

    圖1 總體流程圖

    1.2 傳統(tǒng)ML模型

    采用ML常用技術(shù)手段——梯度boosting回歸(Gradient boosting regression, GBR),是一種非參數(shù)化的統(tǒng)計機器學(xué)習(xí)回歸模型,該模型用于預(yù)測未知的HOIP的帶隙參數(shù).該模型核心思想是通過學(xué)習(xí)一組弱回歸器從而單獨使用弱回歸器的預(yù)測性能,該模型在訓(xùn)練過程依次學(xué)習(xí)每個弱回歸器,進而利用求和模型加強模型預(yù)測和建模能,其數(shù)學(xué)表達式如下所示:

    (1)

    其中m表示訓(xùn)練迭代次數(shù),x表示輸入數(shù)據(jù),θm表示模型參數(shù)向量的分布.整個ML模型共訓(xùn)練M次,每次訓(xùn)練產(chǎn)生一個弱回歸函數(shù)T.弱分類器的損失函數(shù)定義如下:

    (2)

    其中Fm-1(xi)代表當前模型,GBR用于通過最小經(jīng)驗損失確定下一個弱分類器的參數(shù).采用的傳統(tǒng)ML方法基于分析小樣本數(shù)據(jù)計算DFT進而驗證ML模型的預(yù)測能力.

    1.3 DL模型

    傳統(tǒng)ML(手工特征+線性回歸器)方法有兩方面不足:1)手工特征性能對于不同域分布的數(shù)據(jù)表現(xiàn)過于敏感,因此特征工程需要大量的先驗知識且耗時耗力;2)傳統(tǒng)線性回歸函數(shù)表達能力有限,故難以直接對原始數(shù)據(jù)和預(yù)測目標屬性準確建模.為解決上述問題,DL被研究者通過采用多層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)有效地對數(shù)據(jù)和目標標簽之間復(fù)雜的非線性關(guān)系建模.除此之外,由于深度神經(jīng)網(wǎng)絡(luò)強大的非線性建模能力,故在大規(guī)模數(shù)據(jù)中基于深度學(xué)習(xí)的分類識別任務(wù)表現(xiàn)尤為突出.綜上所述,DL能夠被應(yīng)用于功能材料性能預(yù)測任務(wù),并且其優(yōu)勢在于特征工程不再依賴于繁瑣的手工設(shè)計過程和大量的功能材料專業(yè)先驗知識.而只是將已有標注數(shù)據(jù)作為神經(jīng)網(wǎng)絡(luò)的輸入,并通過優(yōu)化算法更新網(wǎng)絡(luò)參數(shù)至收斂,最終得到最優(yōu)的參數(shù)解.如圖2 所示,基于2.2節(jié)所述傳統(tǒng)ML框架,式(1)重新定義為

    FK(x)=f1°f2°…°fk(σ(WTx+b))

    (3)

    同時,損失函數(shù)式(2)形式化為

    (4)

    圖2 深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意圖

    其中f表示單層神經(jīng)網(wǎng)絡(luò),K代表網(wǎng)絡(luò)層數(shù).W和b分別代表需要更新學(xué)習(xí)的網(wǎng)絡(luò)參數(shù)權(quán)值和偏置.σ(·)表示非線性的激活函數(shù),這樣使得多層網(wǎng)絡(luò)具有復(fù)雜強大的非線性表示能力.f1°f2表示網(wǎng)絡(luò)嵌套,即將f1的網(wǎng)絡(luò)輸出作為f2的輸入.優(yōu)化式(4)中的網(wǎng)絡(luò)參數(shù),通常采用反向傳播(BP)隨機梯度下降方法[13-14],進而迭代更新參數(shù)W和b,再根據(jù)式(4)給出兩組更新公式如下所示:

    (5)

    其中k對應(yīng)網(wǎng)絡(luò)第k層參數(shù)W和b,ρ為模型優(yōu)化學(xué)習(xí)率,即控制整個網(wǎng)絡(luò)學(xué)習(xí)收斂速率.

    1.4 模型推斷和驗證

    所述ML和DL方法中的關(guān)鍵是選擇合適的ML算法.目前,常用預(yù)測的ML回歸算法包括諸如上述提到的GBR、人工神經(jīng)網(wǎng)絡(luò)(Artificial neural networks,ANN)、基于核的嶺回歸(Kernel ridge regression,KRR).這些回歸方法能夠提供材料屬性預(yù)測的DFT 精度.在本節(jié)給出了GBR和DL(同ANN)兩種基于ML的回歸策略用于材料性能預(yù)測([7]文中給出多種回歸方式:支持向量回歸、高斯過程回歸、決策樹回歸以及多層感知器回歸).具體而言,在所有數(shù)據(jù)里選出一部分子集作為訓(xùn)練集,訓(xùn)練好模型之后將該模型用于預(yù)測剩余數(shù)據(jù)從而選擇有效統(tǒng)計ML/DL模型.為驗證訓(xùn)練模型在測試集上的性能表現(xiàn),文獻[7]同時給出了三種評價預(yù)測誤差準則:1)決定系數(shù);2)Pearson系數(shù);3)均方差.利用上述三項評價指標驗證所采用MLDL統(tǒng)計模型訓(xùn)練收斂性和泛化能力(泛化能力是指統(tǒng)計ML模型在訓(xùn)練集和測試集的性能表現(xiàn),表現(xiàn)一致表明泛化能力).

    2 實驗數(shù)據(jù)集和實驗設(shè)置

    本部分介紹ML模型的數(shù)據(jù)準備和特征選擇的技術(shù)策略細節(jié).

    2.1 實驗數(shù)據(jù)集

    驗證數(shù)據(jù)集包含346種HOIPs,其中所有的HOIP是通過高通量第一性原理計算得到.為保證數(shù)據(jù)一致和ML預(yù)測精度,只選擇通過PBE函數(shù)計算所得帶隙的正交晶結(jié)構(gòu).所以,該算法中選擇212種HOIP復(fù)合物.進而,構(gòu)造一種能夠反應(yīng)出容忍因子和帶隙的HOIP,從中將所有數(shù)據(jù)的80%作為訓(xùn)練集,20%作為測試集,并且整體輸入HOIP數(shù)據(jù)通過選取不同帶隙值進而保持一定程度的數(shù)據(jù)分布平衡.

    2.2 特征選擇

    如第2部分所述,任何ML預(yù)測特定屬性的方法,關(guān)鍵在于選取特征描述.材料科學(xué)不同于模式識別領(lǐng)域,其特征不僅僅只關(guān)系到某一種特定材料,同時還與其目標物理化學(xué)屬性相關(guān).雖然,影響材料目標屬性的因素較多,其特征選擇仍需合理.一種最優(yōu)的特征選擇策略可避免ML維度災(zāi)難,具體而言,控制特征數(shù)目應(yīng)當遠小于數(shù)據(jù)規(guī)模維度.文獻[7]實驗中采用30個初始特征,該特征具體選取離子半徑, 容忍因子和電負性從化學(xué)空間描述HOIP.為進一步表示特征和目標屬性間的關(guān)聯(lián),首先采用GBR驗證初始特征的有效性.緊接著,通過搜索算法去除冗余特征(對于帶隙影響輕微的特征).最終14個關(guān)鍵特征被選做作為最終的特征描述進而表示HOIP.文獻[7]實驗表明通過ML的方法能夠降低不同維度特征間的相關(guān)性進而去除特征冗余信息,最終有效提升ML統(tǒng)計模型的預(yù)測能力.

    3 討論

    為提升HOIP材料結(jié)構(gòu)屬性預(yù)測和篩選策略,通過深入結(jié)合現(xiàn)有ML/DL技術(shù)以及DFT計算,提出一種快速目標驅(qū)動的方法進而挖掘有效的HOIP結(jié)構(gòu)屬性,最終通過測試發(fā)現(xiàn)5158中HIOP結(jié)構(gòu).與此同時,通過ML技術(shù)在收集的大規(guī)模功能材料數(shù)據(jù)中挖掘HOIP結(jié)構(gòu)-屬性映射,并發(fā)現(xiàn)影響理想HOIPs太陽能電池性能的因素包括容忍因子、八面體因子、金屬電負性以及有機分子的極化率.

    由于傳統(tǒng)高通量搜索方法作用于整個化學(xué)空間DFT層級,所用方法利用ML統(tǒng)計模型與DFT結(jié)合的模式,因此整個過程僅限于DFT層級的計算,其搜索空間遠遠小于傳統(tǒng)方法,實現(xiàn)節(jié)約計算資源.同時也介紹基于神經(jīng)網(wǎng)絡(luò)的DL技術(shù).該技術(shù)可直接將功能材料數(shù)據(jù)作為原始輸入,通過標注目標屬性,從而自動挖掘具有判別和表達能力的材料特征,進而提高搜索材料結(jié)構(gòu)的精度和效率.特別指出基于DL方法依賴于大規(guī)模海量功能材料數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),因此為得到更加優(yōu)秀的性能需提供足夠多高質(zhì)量數(shù)據(jù)訓(xùn)練模型.

    4 結(jié)論

    不同于需要在DFT水平上搜尋整個化學(xué)空間的高通量篩選方法,目前的ML/DL和DFT組合方案只需在DFT水平上計算最具前景的HOIPs,這樣可以極大地節(jié)省計算資源.注意,上面提到的篩選非常嚴格,事實上,其篩選條件可以根據(jù)目標進行調(diào)整以找到適合實驗合成的候選材料.本文提出的靶向驅(qū)動法克服了傳統(tǒng)試錯法的主要障礙,同時,由于這種ML技術(shù)采用一種基于GBR算法的“末位淘汰”特征選擇程序,因此其不僅可以瞬間達到DFT精度(甚至快于神經(jīng)網(wǎng)絡(luò)算法),而且適用于小數(shù)據(jù)集.這也就意味著可以使用相對較小的數(shù)據(jù)集來實現(xiàn)準確的預(yù)測.如果計算或?qū)嶒灥牟牧蠑?shù)據(jù)足以訓(xùn)練ML模型,本文方法也適用于其他功能材料的設(shè)計與發(fā)現(xiàn).另外,如何利用基于圖結(jié)構(gòu)的DL技術(shù),通過實現(xiàn)全局優(yōu)化的材料結(jié)構(gòu)屬性預(yù)測任務(wù)以提升將是一個具有挑戰(zhàn)性的開放問題.

    猜你喜歡
    帶隙神經(jīng)網(wǎng)絡(luò)預(yù)測
    無可預(yù)測
    黃河之聲(2022年10期)2022-09-27 13:59:46
    選修2-2期中考試預(yù)測卷(A卷)
    選修2-2期中考試預(yù)測卷(B卷)
    密度泛函理論計算半導(dǎo)體材料的帶隙誤差研究
    神經(jīng)網(wǎng)絡(luò)抑制無線通信干擾探究
    電子制作(2019年19期)2019-11-23 08:42:00
    一種基于BJT工藝的無運放低溫度系數(shù)的帶隙基準源
    間距比對雙振子局域共振軸縱振帶隙的影響
    一款高PSRR低溫度系數(shù)的帶隙基準電壓源的設(shè)計
    電子制作(2018年1期)2018-04-04 01:48:38
    不必預(yù)測未來,只需把握現(xiàn)在
    基于神經(jīng)網(wǎng)絡(luò)的拉矯機控制模型建立
    重型機械(2016年1期)2016-03-01 03:42:04
    越西县| 金坛市| 志丹县| 铅山县| 张北县| 海兴县| 安图县| 阿坝县| 托克托县| 谢通门县| 怀宁县| 镇巴县| 江口县| 南通市| 田阳县| 静海县| 洛宁县| 清丰县| 红安县| 钟山县| 全椒县| 林芝县| 津南区| 桂阳县| 临颍县| 武平县| 易门县| 延安市| 沙雅县| 宁都县| 桂平市| 鄢陵县| 中宁县| 九龙城区| 和顺县| 襄汾县| 高邑县| 宁晋县| 新源县| 嵩明县| 仁化县|