陳少臣, 程 敏, 王詩(shī)慧, 吳金奎, 羅 磊, 薛小雨,吉 旭, 張長(zhǎng)春, 周 利
(1. 四川大學(xué)化學(xué)工程學(xué)院, 成都 610065; 2. 四川銘泰順硬質(zhì)合金有限公司, 遂寧 629201)
當(dāng)今世界面臨嚴(yán)重的能源短缺和環(huán)境污染問(wèn)題, 尋找、 開(kāi)發(fā)可靠的清潔能源是解決這些問(wèn)題的重要手段[1~3]. 甲烷與氫氣燃燒時(shí)不產(chǎn)生有毒有害物質(zhì), 均為清潔能源, 受到廣泛關(guān)注[4~6]. 然而, 甲烷與氫氣目前主要使用制造成本高、 危險(xiǎn)性大的高壓容器進(jìn)行儲(chǔ)存, 限制了它們的大規(guī)模應(yīng)用[7,8]. 于是,研究人員開(kāi)始尋求低壓條件下儲(chǔ)存甲烷與氫氣的方法. 金屬有機(jī)骨架(MOFs)是一種結(jié)構(gòu)高度可調(diào)、具有卓越的主客體相互作用的新型納米多孔材料, 通常以金屬和有機(jī)配體通過(guò)自組裝形成[9]. 相比于沸石和活性炭, MOFs具有更強(qiáng)的氣體吸附能力, 擁有巨大的潛力去實(shí)現(xiàn)甲烷與氫氣的低壓儲(chǔ)存[4]. 此外, MOFs在物質(zhì)分離[10,11]、 傳感器[12]、 催化[13]和光捕捉[14]等領(lǐng)域也有巨大的應(yīng)用前景.
MOFs吸附甲烷和氫氣的研究經(jīng)歷了較長(zhǎng)的發(fā)展歷程. 最初, 當(dāng)MOFs的種類還不多時(shí), 研究人員直接通過(guò)實(shí)驗(yàn)合成來(lái)表征與改善MOFs對(duì)甲烷和氫氣的吸附能力[15,16]. 如, 仲崇立等[17]以MOF材料PCN-14為基礎(chǔ), 采用質(zhì)心分布圖研究甲烷在PCN-14中的吸附機(jī)理, 設(shè)計(jì)出了具有更高甲烷吸附性能的MOF材料PCN-M; Furukawa等[18]設(shè)計(jì)合成了 MOF-180, MOF-200, MOF-205和MOF-210, 它們均具有優(yōu)異的氫氣吸附能力. 然而, Wilmer等[19]在2011年開(kāi)發(fā)出的hMOFs假想結(jié)構(gòu)數(shù)據(jù)庫(kù)讓MOFs的結(jié)構(gòu)數(shù)量急劇增加, 使得實(shí)驗(yàn)法篩選MOFs變得成本高昂且效率低下. 隨后, 基于分子模擬的高通量篩選技術(shù)成為了大規(guī)模篩選高性能MOFs的重要手段[20,21]. 如, Simon等[22]對(duì)hMOF數(shù)據(jù)庫(kù)中的10000個(gè)MOFs進(jìn)行了篩選, 以確定其甲烷儲(chǔ)存性能的極限; Snurr等[23,24]先后在室溫、 低溫的儲(chǔ)氫條件下對(duì)MOFs進(jìn)行高通量篩選, 找到了具有高儲(chǔ)氫性能的MOFs. 隨著時(shí)間的推移, MOFs的數(shù)量在進(jìn)一步擴(kuò)大, 基于分子模擬的高通量篩選也逐漸變得耗時(shí)且昂貴.
得益于人工智能和大數(shù)據(jù)計(jì)算技術(shù)的高速發(fā)展, 研究人員開(kāi)始利用機(jī)器學(xué)習(xí)(Machine learning,ML)技術(shù)建立預(yù)測(cè)模型, 快速評(píng)估MOFs對(duì)甲烷和氫氣的輸送能力, 降低篩選成本. 例如, Fernandez等[25]利用非線性支持向量機(jī)與10000個(gè)MOFs的甲烷吸附數(shù)據(jù)(298 K/100 bar, 1 bar=0.1 MPa)建立了高精確度的預(yù)測(cè)模型, 決定系數(shù)R2可達(dá)到0.93; Fanourgakis等[26]開(kāi)發(fā)了一種原子類型描述符, 使用隨機(jī)森林建立了MOFs在多種壓力下吸附甲烷和二氧化碳的預(yù)測(cè)模型; Anderson等[27]使用18000個(gè)ToBaCCo-MOFs與深度神經(jīng)網(wǎng)絡(luò), 在多種條件下建立了預(yù)測(cè)氫氣吸附能力的模型; Bucior等[28]開(kāi)發(fā)了一種能量描述符, 針對(duì)不同的MOFs數(shù)據(jù)庫(kù), 使用LASSO回歸建立了氫氣儲(chǔ)存性能的預(yù)測(cè)模型. 但是, 受限于時(shí)間與經(jīng)濟(jì)成本, 研究人員往往無(wú)法獲得足量的數(shù)據(jù). 當(dāng)數(shù)據(jù)量不足時(shí), 傳統(tǒng)方法所建立的ML模型的精確度與穩(wěn)定性都會(huì)面臨大幅度降低的風(fēng)險(xiǎn), 使得模型的可信賴程度大打折扣. 嚴(yán)重時(shí), 模型甚至?xí)辉倬哂锌捎眯? 此外, 傳統(tǒng)方法所建立的ML模型也存在著通用性較低的問(wèn)題, 無(wú)法快速適應(yīng)新的預(yù)測(cè)任務(wù). 因此, 利用少量數(shù)據(jù)建立高精確度、 高穩(wěn)定性的預(yù)測(cè)模型成為一個(gè)更高的目標(biāo)[29].
遷移學(xué)習(xí)(Transfer learning, TL)是一種ML技術(shù), 在只有少量新數(shù)據(jù)的情況下, 它可以利用從以往已有的大數(shù)據(jù)集中學(xué)習(xí)到的“知識(shí)”來(lái)幫助模型學(xué)習(xí), 從而使模型在新的任務(wù)上具有良好的預(yù)測(cè)精確度[30,31]. 目前, TL已經(jīng)應(yīng)用于情感分類、 圖像分類及機(jī)器翻譯等領(lǐng)域. 在材料領(lǐng)域, TL建模方法也逐漸受到重視, 如, DeCost等[32]利用TL與深度卷積網(wǎng)絡(luò)來(lái)學(xué)習(xí)微觀結(jié)構(gòu)的表示, 然后使用這些表示來(lái)推斷潛在的退火條件; Wu等[33]利用TL模型預(yù)測(cè)了高分子的熱導(dǎo)率; Yamada等[34]利用TL模型預(yù)測(cè)了聚合物和無(wú)機(jī)材料的多種性質(zhì); Colón等[35]利用TL模型預(yù)測(cè)了MOFs在多種吸附條件下的氫氣吸附能力;Wang等[36]將晶體圖卷積網(wǎng)絡(luò)與TL進(jìn)行結(jié)合, 預(yù)測(cè)了MOFs在低壓條件下的甲烷吸附能力與吸附能量;Zhao等[37]使用TL模型預(yù)測(cè)了三組分超臨界水混合物的擴(kuò)散系數(shù); Lim和Kim[38]使用TL模型預(yù)測(cè)了甲烷在MOFs中的自擴(kuò)散系數(shù).
本文利用少量數(shù)據(jù)與TL建立MOFs的甲烷、 氫氣輸送能力預(yù)測(cè)模型, 以克服當(dāng)下傳統(tǒng)ML模型訓(xùn)練需要大量數(shù)據(jù)的難題. 首先計(jì)算了12020個(gè)真實(shí)實(shí)驗(yàn)合成出的MOFs的6個(gè)幾何描述符與甲烷、 氫氣輸送能力數(shù)據(jù). 輸送能力是一個(gè)評(píng)估MOFs吸附能力的關(guān)鍵指標(biāo), MOFs的氣體輸送能力等于MOFs補(bǔ)充氣體時(shí)的最大吸附量減去MOFs需要補(bǔ)充氣體時(shí)的吸附量. 此后, 利用TL方法建立預(yù)測(cè)模型, 只付出較小的代價(jià), 就能快速、 精確地評(píng)估大量MOFs在不同輸送條件下的甲烷、 氫氣輸送能力, 以應(yīng)對(duì)不一致的、 變動(dòng)的輸送能力標(biāo)準(zhǔn)[39~41]. 進(jìn)一步地, 通過(guò)對(duì)比不同TL模型的描述符重要度分布來(lái)明確“知識(shí)”的共享情況, 提高TL模型的可解釋性. 最后, 展示了重要描述符與輸送能力之間的結(jié)構(gòu)-性能關(guān)系, 明確了重要描述符如何影響MOFs的甲烷、 氫氣輸送能力.
使用Chung等[42]基于真實(shí)實(shí)驗(yàn)構(gòu)建的CoRE-MOF數(shù)據(jù)庫(kù)建立TL模型. 該數(shù)據(jù)集共包含12020個(gè)MOFs, 涉及到50多種金屬簇和65種金屬、 類金屬原子, 其結(jié)構(gòu)種類與化學(xué)性質(zhì)非常多樣.
為了對(duì)MOFs的抽象結(jié)構(gòu)進(jìn)行數(shù)字化, 計(jì)算了MOFs的6個(gè)常用的幾何描述符, 包括最大空腔直徑(Largest cavity diameter, LCD)、 孔隙極限直徑(Pore limiting diameter, PLD)、 密度(Density)、 體積可達(dá)表面積(Accessible volumetric surface area, AVSA)、 質(zhì)量可達(dá)表面積(Accessible mass surface area,AMSA)以及氦孔隙率(Void fractions, VF). 前5個(gè)描述符以分子半徑為1.86 ?(1 ?=0.1 nm)的氮?dú)猓?3]作為探針, 使用Zeo++0.3[43]軟件計(jì)算得到; 而VF則由分子半徑為1.32 ?的氦氣[44]作為探針, 通過(guò)RASPA 2.0[44]工具包計(jì)算得到.
基于RASPA工具包, 采用巨正則蒙特卡洛(Grand canonical Monte Carlo, GCMC)模擬甲烷和氫氣在MOF中的吸附行為. 在所有的GCMC模擬中, MOF被視為剛性結(jié)構(gòu)以縮短模擬時(shí)間, 甲烷、 氫氣分子與MOF骨架之間的非鍵相互作用由Lennard-Jones(LJ)勢(shì)表示, 并在球形距離12.8 ?處被截?cái)? 用于GCMC模擬的單胞沿著三維方向至少擴(kuò)展到25.6 ?, 并對(duì)其施加周期性邊界條件. MOF中的原子和氣體分子的LJ勢(shì)能參數(shù)分別來(lái)自于UFF力場(chǎng)[45]和TraPPE力場(chǎng)[46], 其參數(shù)列于表S1和表S2(見(jiàn)本文支持信息). 每個(gè)MOF的GCMC模擬總共執(zhí)行4000次循環(huán), 前2000次用于系統(tǒng)初始化, 后2000次用于熱力學(xué)性質(zhì)平均. 圖S1~圖S3(見(jiàn)本文支持信息)表明更多的循環(huán)數(shù)幾乎不會(huì)對(duì)模擬結(jié)果產(chǎn)生明顯的影響,只會(huì)消耗更多計(jì)算資源. 每次模擬循環(huán)由n個(gè)Monte Carlo移動(dòng)組成(n為吸附質(zhì)分子的數(shù)量, Monte Carlo移動(dòng)包括平移、 旋轉(zhuǎn)、 再生和交換).
基于吸附數(shù)據(jù), 計(jì)算出MOFs對(duì)甲烷、 氫氣的輸送能力數(shù)據(jù)[47], 計(jì)算公式如下:
式中:Nwc(mol/kg)代表MOFs對(duì)氣體的輸送能力, 下文以GCMC值代指Nwc的計(jì)算數(shù)值;Nads(mol/kg)代表MOFs補(bǔ)充氣體時(shí)的最大吸附量;Ndes(mol/kg)代表MOFs需要補(bǔ)充氣體時(shí)的吸附量. 本工作中計(jì)算的MOFs的甲烷和氫氣輸送能力數(shù)據(jù)集信息見(jiàn)表1, 其數(shù)據(jù)分布見(jiàn)圖S4~圖S6(見(jiàn)本文支持信息). 在源任務(wù)上, MOFs的甲烷輸送能力分布的全部范圍與主要范圍分別為0~65和0~10 mol/kg; 在任務(wù)T1上,MOFs的甲烷輸送能力分布的全部范圍與主要范圍分別為0~120和0~20 mol/kg. 2015年, Fu等[48]對(duì)來(lái)自于hMOF數(shù)據(jù)庫(kù)的hMOF-1162進(jìn)行了GCMC模擬, 發(fā)現(xiàn)hMOF-1162在233 K/75 bar~358 K/5 bar條件下的甲烷輸送能力為31.602 mol/kg, 其輸送能力在數(shù)據(jù)集D1中的排名為前1.4%; 在任務(wù)T2上, MOFs的氫氣輸送能力分布的全部范圍與主要范圍分別為0~110和0~20 mol/kg. 2018年, Kapelewski等[49]合成了MOF-Ni2(m-dobdc), 并發(fā)現(xiàn)其在198 K/100 bar~298 K/5 bar條件下的氫氣輸送能力為6.665 mol/kg, 在數(shù)據(jù)集D2中的排名為前31.5%. 在任務(wù)T1和任務(wù)T2中輸送性能排名前100的MOFs的信息記錄在表S3和S4(見(jiàn)本文支持信息)中.
Table 1 Delivery capacity data sets of MOFs
源任務(wù)(Source task, ST)模型是一個(gè)具有1個(gè)輸入層、 2個(gè)隱層、 1個(gè)輸出層的深度神經(jīng)網(wǎng)絡(luò)(Deep neural network, DNN), 每層的神經(jīng)元的個(gè)數(shù)分別為6, 250, 150和1[圖1(A)]. 將數(shù)據(jù)集D0按照8414∶1202∶2404的比例切分成訓(xùn)練集、 驗(yàn)證集和測(cè)試集, 分別用于訓(xùn)練ST模型、 確定ST模型的超參數(shù)及測(cè)試ST模型的泛化能力. ST模型的訓(xùn)練超參數(shù)如下: 學(xué)習(xí)率設(shè)為0.00001, 以使訓(xùn)練過(guò)程穩(wěn)定; 使用ReLU[50]作為激活函數(shù); 采用Adam[51]優(yōu)化器協(xié)助模型參數(shù)更新; 選用均方誤差損失函數(shù)(Mean square error, MSE)作為損失函數(shù), MSE的計(jì)算公式為
式中:y?i和yi分別代表模型回歸的預(yù)測(cè)值和真實(shí)值;n為數(shù)據(jù)總數(shù)目. 使用早停技術(shù)[52]訓(xùn)練ST模型以避免其產(chǎn)生過(guò)擬合, 即模型在驗(yàn)證集上的損失函數(shù)值連續(xù)10輪不再變化, 就停止模型的訓(xùn)練過(guò)程, ST模型一共訓(xùn)練了10000輪.
Fig.1 Main process of transfer learning modeling
基于ST模型, 分別使用MOFs在233 K/65 bar~358 K/5.8 bar條件下的甲烷輸送量數(shù)據(jù)(數(shù)據(jù)集D1)和MOFs在198 K/100 bar~298 K/5 bar條件下的氫氣輸送量數(shù)據(jù)(數(shù)據(jù)集D2)進(jìn)行TL建模, 這兩個(gè)建模任務(wù)分別稱為任務(wù)T1和任務(wù)T2. 采用基于參數(shù)的TL[30]進(jìn)行建模, 具體方法如下: (1) 數(shù)據(jù)切分: 分別在數(shù)據(jù)集D1和D2中隨機(jī)抽取無(wú)交集的訓(xùn)練集、 驗(yàn)證集、 測(cè)試集, 數(shù)據(jù)量為100∶100∶11820; (2) 參數(shù)凍結(jié): 在微調(diào)ST模型之前, 預(yù)先固定ST模型的輸入層至第二隱層之間的所有參數(shù), 禁止其在微調(diào)ST模型時(shí)更新; (3) 模型微調(diào): 分別使用步驟(1)中的訓(xùn)練集數(shù)據(jù)對(duì)ST模型進(jìn)行訓(xùn)練, 訓(xùn)練過(guò)程即為微調(diào)[圖1(B)]. 模型微調(diào)時(shí)的學(xué)習(xí)率、 激活函數(shù)、 優(yōu)化器、 損失函數(shù)、 停止訓(xùn)練方法與1.2節(jié)保持一致, 兩個(gè)TL模型分別訓(xùn)練了5000輪和4000輪.
采用與1.3節(jié)相同的數(shù)據(jù)集, 在任務(wù)T1和任務(wù)T2上分別訓(xùn)練5個(gè)傳統(tǒng)的ML模型并與TL模型進(jìn)行對(duì)比[圖1(C)], 這5個(gè)對(duì)比模型為: 與ST模型網(wǎng)絡(luò)結(jié)構(gòu)相同的直接學(xué)習(xí)模型(Direct learning, DL)、 隨機(jī)森林(Random forest, RF)[53]、 極端樹(shù)(Extra trees, ExT)[54]、 梯度提升樹(shù)(Gradient boosting decision tree, GB)[55]及支持向量機(jī)(Support vector machine, SVM)[56]. 所有模型完成訓(xùn)練后, 使用相應(yīng)的測(cè)試集對(duì)模型的預(yù)測(cè)精確度進(jìn)行評(píng)價(jià). 選取的評(píng)價(jià)指標(biāo)為決定系數(shù)(R2)與MSE,R2的計(jì)算公式為
式中:y?i為模型的預(yù)測(cè)值;yi為實(shí)際值;yˉ為所有yi的平均值.R2的取值范圍為-∞~1, 越接近1代表模型預(yù)測(cè)精確度越高, 小于0代表模型的預(yù)測(cè)精確度還不如將所有的結(jié)果都猜測(cè)為yi的均值. 根據(jù)式(2)計(jì)算MSE, 其取值范圍為0~+∞, 越接近于0代表模型的預(yù)測(cè)精確度越高. 由于MSE受到數(shù)據(jù)數(shù)值大小的影響, 所以只能在同一任務(wù)中比較模型的預(yù)測(cè)精確度, 不能比較不同任務(wù)中模型的預(yù)測(cè)精確度. 而R2則沒(méi)有這種限制, 故下文主要采用R2來(lái)評(píng)價(jià)模型的預(yù)測(cè)精確度.
為了明確TL模型具有良好預(yù)測(cè)精確度的原因, 基于預(yù)測(cè)模型與排列特征重要度[53], 計(jì)算了源任務(wù)、 任務(wù)T1和任務(wù)T2中所有描述符的重要度, 并對(duì)比了描述符重要度的分布, 以明確TL取得成功的原因. 排列重要度的計(jì)算原理為: 首先, 將測(cè)試集送入模型中進(jìn)行預(yù)測(cè), 得到模型的評(píng)價(jià)指標(biāo)Rmax. 此后, 依次將測(cè)試集中的第i個(gè)(本文中i≤6)描述符數(shù)據(jù)使用隨機(jī)數(shù)替換, 以消除第i個(gè)描述符為模型預(yù)測(cè)所提供的信息, 最終得到6組新的測(cè)試數(shù)據(jù). 將這6組新的數(shù)據(jù)依次送入模型中進(jìn)行預(yù)測(cè), 得到模型預(yù)測(cè)新數(shù)據(jù)集的評(píng)價(jià)指標(biāo)定會(huì)小于Rmax, 于是對(duì)第i個(gè)描述符進(jìn)行重要度的計(jì)算:
式中:Ii為在某個(gè)任務(wù)中, 第i個(gè)描述符的重要度,Ii越大, 意味著該描述符越重要. 在明確了每個(gè)任務(wù)中的重要描述符之后, 對(duì)重要描述符與輸送能力進(jìn)行結(jié)構(gòu)-性能分析, 展示重要描述符變化時(shí)輸送能力的變化趨勢(shì). 最后, 本文中所有程序均使用Python語(yǔ)言編寫完成, ST, TL和DL模型均由開(kāi)源深度學(xué)習(xí)框架Pytorch 1.7.0[57]實(shí)現(xiàn), RF, ExT, GB和SVM均由開(kāi)源機(jī)器學(xué)習(xí)框架Scikit-learn 0.23.2[58]實(shí)現(xiàn).
使用MOFs在298 K/65 bar~298 K/5.8 bar條件下輸送甲烷的數(shù)據(jù)(數(shù)據(jù)集D0)訓(xùn)練ST模型. ST模型在測(cè)試集上的R2和MSE分別為0.973和0.372,具有很高的預(yù)測(cè)精確度. 圖2給出了GCMC值與ST模型預(yù)測(cè)值之間的比較: GCMC值與預(yù)測(cè)值沿對(duì)角線緊密、 對(duì)稱分布, ST模型為后面建立TL模型奠定了良好的基礎(chǔ).
Fig.2 Density scatter plots for the GCMC valuepredicted value of ST model in source task
通過(guò)微調(diào)ST模型, 建立TL模型以適應(yīng)任務(wù)T1和任務(wù)T2. 在進(jìn)行TL建模之前, 先直接將任務(wù)T1和任務(wù)T2中的測(cè)試集送入ST模型中進(jìn)行預(yù)測(cè). 由于ST模型在訓(xùn)練時(shí)只使用了源任務(wù)中特定輸送條件下的數(shù)據(jù)進(jìn)行訓(xùn)練, 并未使用過(guò)新輸送條件下的數(shù)據(jù), 故ST模型在兩個(gè)測(cè)試集上的R2分別僅為0.557和0.357, 無(wú)法適應(yīng)新的預(yù)測(cè)任務(wù). 如圖3(A)和(B)所示, 兩個(gè)任務(wù)中的GCMC值與預(yù)測(cè)值的分布都較大地偏離了對(duì)角線. 雖然ST模型在任務(wù)T1和任務(wù)T2上的預(yù)測(cè)精確度不高, 但是能夠預(yù)測(cè)數(shù)據(jù)的大致趨勢(shì), 存在一定的潛力去建立TL模型.
Fig.3 Density scatter plots of GCMC value-predicted value of ST model in two tasks
此后, 對(duì)任務(wù)T1和任務(wù)T2進(jìn)行TL建模. 在兩個(gè)任務(wù)的測(cè)試集上, TL模型的R2分別為0.968和0.945, GCMC值與TL模型預(yù)測(cè)值都緊密分布在對(duì)角線上[圖4(A)和(B)], 表明TL模型具有精準(zhǔn)的預(yù)測(cè)能力. 在任務(wù)T1和任務(wù)T2上, TL模型的預(yù)測(cè)精確性顯著優(yōu)于ST模型, 原因在于TL模型使用過(guò)新任務(wù)中的數(shù)據(jù), 利用這些數(shù)據(jù)來(lái)調(diào)整模型中的部分參數(shù)以適應(yīng)新的任務(wù), 使TL模型在新任務(wù)上的預(yù)測(cè)精確性好于沒(méi)有進(jìn)行參數(shù)調(diào)整的ST模型. 此外, ST模型由MOFs的甲烷輸送能力數(shù)據(jù)訓(xùn)練而來(lái), 而任務(wù)T1和任務(wù)T2中的數(shù)據(jù)分別是其它輸送條件下的甲烷、 氫氣輸送能力數(shù)據(jù), 使得任務(wù)T1與源任務(wù)之間的相似性多于任務(wù)T2與源任務(wù)之間的相似性. 所以, 在任務(wù)T1上微調(diào)出的TL模型的預(yù)測(cè)精確度要高于在任務(wù)T2上微調(diào)出的TL模型的預(yù)測(cè)精確度.
Fig.4 Density scatter plots of GCMC value-predicted value of TL model in two tasks
之后, 訓(xùn)練DL, RF, ExF, GB和SVM這5種傳統(tǒng)的ML模型來(lái)進(jìn)一步體現(xiàn)TL模型的競(jìng)爭(zhēng)力. 表2中記錄了所有模型在任務(wù)T1和任務(wù)T2上的R2, MSE記錄在表S5(見(jiàn)本文支持信息)中. 在兩個(gè)任務(wù)中, TL模型的R2全部高于5個(gè)ML模型, 擁有最高的預(yù)測(cè)精確度. 此外, DL模型的R2分別為0.926和0.912, 僅次于TL模型, 證明TL和DL模型所基于的DNN模型結(jié)構(gòu)非常強(qiáng)大, 即使是DL模型都有一定的競(jìng)爭(zhēng)力.
最后, 將任務(wù)T1和任務(wù)T2中輸送性能最高的100個(gè)MOFs(TOP-100 MOFs)的數(shù)據(jù)送入各個(gè)模型進(jìn)行預(yù)測(cè), 比較不同模型預(yù)測(cè)TOP-100 MOFs的精確度是否有較大差異. 所有模型的R2和MSE分別記錄在表3和表S6(見(jiàn)本文支持信息)中. 在任務(wù)T1和任務(wù)T2上, TL模型的R2分別為0.984和0.964, 仍然具有最高的預(yù)測(cè)精確度; DL模型的R2分別為0.962和0.914, 仍然僅次于TL模型; 而其它4個(gè)ML模型的R2仍然在0.9以下. 可見(jiàn), TL模型在預(yù)測(cè)高輸送性能MOFs的輸送能力時(shí), 依然能夠保持高的精確度.
Table 2 R2 of different models in two tasks
Table 3 R2 of different models in two tasks with TOP-100 MOFs
由于計(jì)算大量MOFs的描述符也需要花費(fèi)較高的計(jì)算成本, 為了降低計(jì)算成本, 需要只關(guān)注少量或者部分MOFs的甲烷和氫氣輸送能力, 而不是關(guān)注整個(gè)數(shù)據(jù)庫(kù)中的MOFs. 這時(shí), 需要在關(guān)注模型預(yù)測(cè)精確度的基礎(chǔ)上進(jìn)一步關(guān)注模型的穩(wěn)定性, 防止模型產(chǎn)生誤差很大的預(yù)測(cè)結(jié)果.
為了驗(yàn)證模型預(yù)測(cè)少量數(shù)據(jù)時(shí)的穩(wěn)定性, 選取了預(yù)測(cè)大量數(shù)據(jù)時(shí)預(yù)測(cè)精確度排名前二的TL和DL模型進(jìn)行對(duì)比. 此外, 由于在現(xiàn)實(shí)應(yīng)用中無(wú)法提前預(yù)知MOFs的甲烷、 氫氣輸送能力的高低, 所以在兩個(gè)任務(wù)的測(cè)試集上(兩個(gè)測(cè)試集與1.2節(jié)保持一致)隨機(jī)抽取100個(gè)數(shù)據(jù)組成Batch, 送入TL和DL模型中進(jìn)行預(yù)測(cè)以體現(xiàn)隨機(jī)性, 進(jìn)行1000次的隨機(jī)抽取使結(jié)果具有統(tǒng)計(jì)學(xué)意義. 下文中和分別代表TL模型和DL模型在每個(gè)Batch上的預(yù)測(cè)精確度. 如圖5所示, 兩個(gè)任務(wù)中TL模型的的平均值分別為0.964和0.946; DL模型的的平均值分別為0.916和0.913. 在任務(wù)T1上, 有395個(gè)Batch的大于0.05, 有89個(gè)Batch的大于0.1; 在任務(wù)T2上, 有171個(gè)Batch的大于0.05, 有55個(gè)Batch的大于0.1. 這初步說(shuō)明了TL模型預(yù)測(cè)少量數(shù)據(jù)時(shí)具有較高的穩(wěn)定性,可以避免產(chǎn)生不確定的預(yù)測(cè)結(jié)果.
Fig.5 R2 of TL model and DL model in predicting a small amount of data in two tasks
進(jìn)一步觀察了所有Batch的R2分布情況. 在任務(wù)T1上, TL模型和DL模型的R2范圍分別為0.875≤和[圖6(A)和(B)]; 在任務(wù)T2上, TL模型和DL模型的R2范圍分別為和[圖6(C)和(D)]. 在這兩個(gè)任務(wù)中,比分布范圍更窄、 更加集中, 最差的也大于0.85; 而最差的僅大于0.5, 是一個(gè)很不確定的預(yù)測(cè)結(jié)果. 此外, TL模型的MSE的平均值、 最小值及最大值都小于DL模型(表S7, 見(jiàn)本文支持信息). 可見(jiàn), TL模型比DL模型具有更高的穩(wěn)定性, 能夠避免產(chǎn)生不確定的預(yù)測(cè)結(jié)果.
Fig.6 R2 distribution of TL model and DL model on 1000 small data sets in two tasks
Fig.7 Distribution of descriptor importance of three tasks
為了明確TL模型在兩個(gè)任務(wù)上取得良好效果的原因, 計(jì)算了ST模型和兩個(gè)TL模型的描述符重要度, 對(duì)比3個(gè)模型之間的描述符重要度分布情況.
如圖7所示, 對(duì)于ST模型和任務(wù)T1上的TL模型[圖7(A)和(B)], 由于二者都是預(yù)測(cè)甲烷的輸送能力, 所以它們的描述符重要度分布相似度極高; 對(duì)于ST模型和任務(wù)T2上的TL模型[圖7(A)和(C)], 由于該TL模型預(yù)測(cè)的是氫氣的輸送能力, 所以兩個(gè)模型之間的描述符重要度分布具有一定的差距, 但依舊是AMSA和AVSA這兩個(gè)描述符最為重要. 總的來(lái)看, 對(duì)于這3個(gè)模型, 最重要的3個(gè)描述符都是AMSA, AVSA和VF, ST模型與TL模型之間有充分的共享“知識(shí)”, 使TL建模能夠取得成功. 在此之前, Pardakhti等[7]和Wu等[59]分別通過(guò)隨機(jī)森林和梯度提升樹(shù)建立MOFs的甲烷吸附能力預(yù)測(cè)模型, 發(fā)現(xiàn)影響甲烷吸附的重要因素包括AMSA, AVSA和VF; Konstas等[15]和Suh等[16]報(bào)道了在實(shí)驗(yàn)中可以通過(guò)改變MOFs的表面積來(lái)增強(qiáng)其吸附甲烷和氫氣的能力; Anderson等[60]更是證明了DNN可以很好地預(yù)測(cè)MOFs對(duì)小的、 近似球形的、 非極性的單原子或雙原子分子的吸附能力, 這意味著基于DNN實(shí)現(xiàn)的TL模型是可信賴的.
Fig.8 Density scatter plots of important descriptors-delivery capacity in three tasks
在此基礎(chǔ)上, 分析MOFs的結(jié)構(gòu)-性能關(guān)系, 展示重要描述符變化時(shí)輸送能力的變化趨勢(shì). 如圖8(A),( D)和(G)所示, AVSA增大會(huì)對(duì)大部分性能一般的MOFs的甲烷和氫氣輸送能力起到提升作用, 主要呈現(xiàn)正比例關(guān)系. 當(dāng)AVSA從0增大到3000 m2/cm3時(shí), MOFs的甲烷和氫氣輸送能力會(huì)不斷增大. 然而, 對(duì)于輸送能力較高的MOFs, AVSA會(huì)對(duì)MOFs的輸送能力起到抑制作用, 呈現(xiàn)反比例關(guān)系,AVSA從500 m2/cm3增大到2000 m2/cm3, MOFs的甲烷和氫氣輸送能力會(huì)越來(lái)越小, 最終減小為約20 mol/kg. AMSA對(duì)MOFs的甲烷和氫氣輸送能力都起到了提升作用, 大致呈現(xiàn)正比例關(guān)系. 當(dāng)MOFs輸送甲烷時(shí)[圖8(B)和(E)], AMSA從0增大到4000 m2/g時(shí), MOFs的甲烷輸送能力會(huì)較均勻地增大;但是當(dāng)AMSA>4000 m2/g時(shí), MOFs的甲烷輸送能力會(huì)快速增大. 當(dāng)MOFs輸送氫氣時(shí)[圖8(H)], AMSA從0增大到4000 m2/g時(shí), MOFs的氫氣輸送能力的增加速度會(huì)越來(lái)越慢; 但是當(dāng)AMSA>4000 m2/g時(shí),MOFs的氫氣輸送能力又開(kāi)始快速增大. VF同樣對(duì)MOFs的甲烷和氫氣輸送能力起都到了提升作用.當(dāng)MOFs輸送甲烷時(shí)[圖8(C)和(F)], VF從0增大到0.6, MOFs的甲烷輸送能力會(huì)較均勻且緩慢地增大到10 mol/kg左右, 提升效果并不很明顯; 當(dāng)VF>0.6后, MOFs的甲烷輸送能力會(huì)隨著VF的增大而快速增大, 提升效果變化顯著. 當(dāng)MOFs輸送氫氣時(shí)[圖8(I)], VF增大到0.8以后, 輸送效果才快速增大. 最后, 對(duì)于LCD, PLD和Density這3個(gè)重要度較低的描述符, 它們與輸送性能的關(guān)系圖見(jiàn)圖S7(見(jiàn)本文支持信息). 在3個(gè)任務(wù)中, LCD和PLD與輸送性能呈現(xiàn)不太強(qiáng)烈的正比例關(guān)系, 高輸送性能的MOFs有較大的LCD和PLD. 而Density與輸送性能則呈反比例關(guān)系, Density從0增大到1 g/cm3時(shí),MOFs的甲烷和氫氣輸送性能會(huì)急速下降到20 kg/mol以內(nèi), 降低MOFs的Density有利于MOFs的甲烷、氫氣輸送性能的提升.
尋找甲烷和氫氣這兩種危險(xiǎn)的燃料氣體的安全高效輸送方法是推動(dòng)其大規(guī)模應(yīng)用的核心任務(wù)之一. MOFs是一種具有優(yōu)良?xì)怏w吸附能力的新型納米多孔材料, 具有實(shí)現(xiàn)氣體低壓輸送, 進(jìn)而使甲烷和氫氣得到大規(guī)模應(yīng)用的潛力. 本文提出了一種數(shù)據(jù)需求量小的基于DNN的TL建模方法, 通過(guò)凍結(jié)ST模型的部分參數(shù), 使用其它輸送條件下的甲烷、 氫氣輸送數(shù)據(jù), 對(duì)ST模型進(jìn)行微調(diào)以得到TL模型, 使TL模型在新的任務(wù)下具備精確、 穩(wěn)定的預(yù)測(cè)性能. 從而可以快速應(yīng)對(duì)多種不同的甲烷、 氫氣輸送標(biāo)準(zhǔn), 大量節(jié)約模擬計(jì)算成本. 與傳統(tǒng)的ML模型相比, TL模型具有最好的預(yù)測(cè)精確度, 當(dāng)預(yù)測(cè)少量數(shù)據(jù)時(shí), TL模型也能夠保持穩(wěn)定性, 不會(huì)產(chǎn)生壞的預(yù)測(cè)結(jié)果. TL模型在不同預(yù)測(cè)任務(wù)上取得良好預(yù)測(cè)效果的原因是ST模型與TL模型之間存在較多的共享“知識(shí)”, TL模型能夠捕捉到正確、 符合理論實(shí)際的結(jié)構(gòu)-性能關(guān)系. 為了使模型具備更高的通用性, 本文只選用了常見(jiàn)的幾何描述符. 除MOFs外, 如共價(jià)有機(jī)骨架、 多孔聚合物網(wǎng)絡(luò)和沸石咪唑酯骨架等新型納米多孔材料都具有這些幾何描述符. 隨著時(shí)間的推移, 其它新型納米多孔材料的種類也在快速增長(zhǎng). 本文所使用的TL建模方法不僅限于研究實(shí)驗(yàn)合成出的MOFs, 還可以推廣到多種新型納米多孔材料的研究上.
支持信息見(jiàn)http: //www.cjcu.jlu.edu.cn/CN/10.7503/20220459.