崔 晨,何 杉,呂文進(jìn),張霖宙,周 祥
(1.中國(guó)石化石油化工科學(xué)研究院,北京 100083;2.中國(guó)石油大學(xué)(北京)重質(zhì)油國(guó)家重點(diǎn)實(shí)驗(yàn)室)
煉油廠調(diào)合汽油的部分關(guān)鍵性質(zhì),如辛烷值的非線性加和規(guī)律,給汽油調(diào)合過程計(jì)算優(yōu)化造成了極大困難。隨著車用汽油質(zhì)量標(biāo)準(zhǔn)的不斷提高,迫切需要準(zhǔn)確的汽油調(diào)合模型來指導(dǎo)調(diào)合,合理利用高辛烷值組分,實(shí)現(xiàn)利潤(rùn)最大化。
傳統(tǒng)上,汽油調(diào)合模型通常以組分汽油的宏觀性質(zhì)為基礎(chǔ)[1]。隨著分子管理概念的引入,研究者們開始建立分子級(jí)的汽油調(diào)合模型[2]。分子級(jí)的汽油辛烷值調(diào)合模型需要汽油的分子組成和各分子的辛烷值作為支撐。目前,詳細(xì)的汽油單體烴組成可通過氣相色譜法獲取[3-4],缺少檢測(cè)條件時(shí),也可以通過模擬的方式構(gòu)建汽油烴組成[5]。但并非所有分子的辛烷值都能通過試驗(yàn)測(cè)定,目前僅有300余種純化合物的辛烷值能查到試驗(yàn)值[6-8]。因此,研究者們開發(fā)了許多由分子結(jié)構(gòu)預(yù)測(cè)分子性質(zhì)的方法,這些方法被統(tǒng)稱為結(jié)構(gòu)性質(zhì)定量關(guān)聯(lián)(QSPR)模型[9]。其中,基團(tuán)貢獻(xiàn)法是一種常見的QSPR方法。Joback等[10]定義了41個(gè)基團(tuán)來描述分子,并預(yù)測(cè)了單體烴的沸點(diǎn)、凝點(diǎn)、臨界性質(zhì)等11種重要的物理化學(xué)性質(zhì)。Albahri[11]認(rèn)為增加描述分子細(xì)節(jié)結(jié)構(gòu)的基團(tuán),如雙鍵的順反構(gòu)型和表示取代基位置的基團(tuán)等,有利于提高辛烷值預(yù)測(cè)模型的精度,結(jié)果發(fā)現(xiàn)增加基團(tuán)后的模型在預(yù)測(cè)單體烴的研究法辛烷值(RON)時(shí)效果更好,而在預(yù)測(cè)其馬達(dá)法辛烷值(MON)時(shí)則反之;基團(tuán)貢獻(xiàn)法定義并篩選基團(tuán)的過程較繁瑣,依賴于研究者的直覺。因此,Kubic等[12]在訓(xùn)練單體烴辛烷值預(yù)測(cè)模型時(shí)采用了一種啟發(fā)式策略來選擇最終納入模型的基團(tuán)。Gani等[13]將拓?fù)渲笖?shù)[14-16]與基團(tuán)貢獻(xiàn)法結(jié)合,命名為升級(jí)版基團(tuán)貢獻(xiàn)法(Group contribution+);Hukkerikar等[17-18]將Gani團(tuán)隊(duì)開發(fā)的2種基團(tuán)貢獻(xiàn)法進(jìn)行對(duì)比,認(rèn)為升級(jí)版基團(tuán)貢獻(xiàn)法的預(yù)測(cè)效果更好。
隨著計(jì)算機(jī)軟件模擬深度學(xué)習(xí)的發(fā)展,Duvenaud等[19]將分子的二維結(jié)構(gòu)視作無(wú)向圖,用圖卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練分子中的原子特征和鍵特征,即可得到該分子的分子指紋,并利用其預(yù)測(cè)分子性質(zhì),被稱為神經(jīng)指紋(NFP)法。神經(jīng)指紋保留了模型的可解釋性,能夠?qū)W(xué)習(xí)得到的特征結(jié)構(gòu)可視化。Xu等[20]建立了相似的網(wǎng)絡(luò)結(jié)構(gòu),并對(duì)比了圖卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)得到的分子指紋與普通的分子指紋在藥物毒性預(yù)測(cè)上的表現(xiàn),認(rèn)為前者效果更好。
圖卷積神經(jīng)網(wǎng)絡(luò)省略了基團(tuán)貢獻(xiàn)法中定義和篩選基團(tuán)的繁瑣過程,實(shí)現(xiàn)了特征篩選的自動(dòng)化,降低了建立模型的難度?;诖?,本課題在圖卷積神經(jīng)網(wǎng)絡(luò)神經(jīng)指紋法的基礎(chǔ)上引入池化操作,建立改進(jìn)的神經(jīng)指紋(RNFP)方法,用單體烴沸點(diǎn)和臨界溫度2種數(shù)據(jù)集驗(yàn)證RNFP方法的可行性,并基于RNFP方法建立的單體烴辛烷值預(yù)測(cè)模型,考察該模型預(yù)測(cè)汽油單體烴辛烷值的效果。
RNFP結(jié)構(gòu)建立在NFP結(jié)構(gòu)的基礎(chǔ)上,其核心原始輸入包括分子的二維圖結(jié)構(gòu)、分子中各原子和化學(xué)鍵的特征。這些特征均由查詢開源的化學(xué)信息軟件庫(kù)獲得。RNFP中涉及3種核心操作:合并、圖卷積和池化,其中池化操作的引入是RNFP與NFP網(wǎng)絡(luò)結(jié)構(gòu)最大不同。
圖1為RNFP方法中3種操作的示意。需要說明的是:圖中所示的原子特征和化學(xué)鍵特征的維度與實(shí)際維度并不相關(guān),僅起到描述操作的作用;同樣,圖中特征的不同色塊僅起示意作用。其中,圖1(a)為RNFP方法的合并操作示意,在此操作中,不考慮分子圖中原子類型的區(qū)分,計(jì)算時(shí)所有原子被視為同等地位,均用藍(lán)色標(biāo)注。分子圖中各原子的特征先經(jīng)過一個(gè)全連接的神經(jīng)網(wǎng)絡(luò),轉(zhuǎn)化為一個(gè)具有固定維度的向量;各原子經(jīng)過原子特征的轉(zhuǎn)化,以加和的形式合并為一個(gè)向量,即為該分子的圖特征。
圖1(b)為RNFP方法的圖卷積操作,在此操作中原子會(huì)被分為2類:中心原子(紅色)和鄰原子(藍(lán)色)。與合并操作類似,中心原子的原子特征會(huì)經(jīng)由一個(gè)全連接的神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)化為一個(gè)具有固定維度的向量;而鄰原子則要先將其原子特征和其與中心原子連接的化學(xué)鍵特征拼接,再轉(zhuǎn)化成具有固定維度的向量。然后,中心原子和鄰原子轉(zhuǎn)化后的向量同樣以加和的方式合并為一個(gè)新向量,即新原子特征(黃色),用以替換原中心原子的特征。
池化在卷積神經(jīng)網(wǎng)絡(luò)中也是一種常見的操作,其方式包括求和、取平均值、取最大值等。RNFP采用了取最大值的池化操作,如圖1(c)所示。與圖卷積操作類似,池化操作中也要區(qū)分中心原子和鄰原子,但通過取最大值的方式得到新原子特征,并替代原中心原子的特征。圖卷積操作和池化操作都會(huì)遍歷分子中每一個(gè)原子,即每一個(gè)原子都會(huì)成為中心原子,并更新為新原子特征。
圖1 RNFP方法的合并、圖卷積和池化操作示意●—普通原子; ●—中心原子; ●—新原子
圖2為RNFP方法的整體結(jié)構(gòu)示意。由圖2可知:RNFP方法的第一步操作只進(jìn)行了合并操作,計(jì)算時(shí)不會(huì)考慮鄰原子的信息,因此得到的圖特征反映了分子中各原子的信息,即以某原子為中心、半徑為0的結(jié)構(gòu)特征;經(jīng)過一次圖卷積和池化操作后,各原子的新原子特征中已經(jīng)包含了相鄰原子的信息,得到的圖特征反映了以某原子為中心、半徑為1個(gè)原子的次級(jí)結(jié)構(gòu)的圖特征;再進(jìn)行一次圖卷積操作和池化操作,即可得到反映以某原子為中心、半徑為2個(gè)原子的次級(jí)結(jié)構(gòu)的圖特征;以此類推,隨著卷積和池化操作的迭代,圖特征反映結(jié)構(gòu)的半徑逐漸擴(kuò)大,表示的分子結(jié)構(gòu)也逐漸增大;將各部分的圖特征加和,得到的多維向量特征即為該分子的指紋特征。最后,對(duì)該指紋特征進(jìn)行多元線性回歸,即可與目標(biāo)值關(guān)聯(lián),對(duì)模型目標(biāo)的性質(zhì)進(jìn)行預(yù)測(cè)。
圖2 RNFP結(jié)構(gòu)示意●—多元線性回歸自變量
RNFP方法中采用的原子和化學(xué)鍵特征均可基于本研究開發(fā)的程序獲取。其中,原子特征包括原子類型、原子連接數(shù)、隱式化合價(jià)、雜化方式、芳香性、環(huán)大??;化學(xué)鍵特征包括化學(xué)鍵類型、是否共軛、是否在環(huán)中。若選取6類原子特征拼接在一起,可得到一個(gè)維度為70的向量矩陣;若選取3類化學(xué)鍵特征拼接在一起,可得到一個(gè)維度為6的向量矩陣。
沸點(diǎn)和臨界溫度是單體烴性質(zhì)關(guān)聯(lián)模型的重要參數(shù),因而利用對(duì)這2種參數(shù)的預(yù)測(cè)可對(duì)比神經(jīng)指紋法改進(jìn)前后的預(yù)測(cè)效果。其中,沸點(diǎn)的數(shù)據(jù)共426組,臨界溫度的數(shù)據(jù)共420組,均自API Technical Data Book查詢得到。由于數(shù)據(jù)集較小,采用隨機(jī)抽樣的方式分配訓(xùn)練集和測(cè)試集,可能會(huì)導(dǎo)致訓(xùn)練集和測(cè)試集數(shù)據(jù)分布不均,造成較大偏差??紤]到QSPR方法對(duì)結(jié)構(gòu)的敏感性,同一分子結(jié)構(gòu),要盡量保證在測(cè)試集和訓(xùn)練集中同時(shí)出現(xiàn)。因此,先用Butina聚類算法[21]將數(shù)據(jù)集中的單體烴按分子結(jié)構(gòu)分類,然后按結(jié)構(gòu)類別抽取各類分子組成測(cè)試集。最后將384組沸點(diǎn)數(shù)據(jù)集劃分為訓(xùn)練集,42組劃分為測(cè)試集;將380組臨界溫度數(shù)據(jù)集劃分為訓(xùn)練集,40組劃分為測(cè)試集。
圖3 NFP和RNFP方法訓(xùn)練單體烴沸點(diǎn)數(shù)據(jù)集的實(shí)驗(yàn)值和預(yù)測(cè)值●—訓(xùn)練集; ◆—測(cè)試集。圖4、圖5同
圖4 NFP和RNFP方法訓(xùn)練單體烴臨界溫度數(shù)據(jù)集的實(shí)驗(yàn)值和預(yù)測(cè)值
采用改進(jìn)前后神經(jīng)指紋法對(duì)單體烴的沸點(diǎn)和臨界溫度的預(yù)測(cè)效果如圖3和圖4所示,而表1為2種方法預(yù)測(cè)的均方根誤差(RMSE)和決定系數(shù)(R2)。由圖3、圖4和表1可以看出:采用NFP方法對(duì)沸點(diǎn)和臨界溫度數(shù)據(jù)的訓(xùn)練結(jié)果并不理想,誤差較大;而RNFP訓(xùn)練精度有明顯提升,其預(yù)測(cè)值與實(shí)驗(yàn)值的重合度很高,說明池化操作的引入有助于訓(xùn)練預(yù)測(cè)精度的提升。
表1 NFP和RNFP方法訓(xùn)練單體烴沸點(diǎn)和臨界溫度數(shù)據(jù)集的效果
單體烴RON和MON的數(shù)據(jù)集分別包括240和241組數(shù)據(jù)。從數(shù)據(jù)分布上看,單體烴的RON主要集中在80~120;而其MON稍微偏低,為60~100。為了使訓(xùn)練集中的單體烴有代表性,先用Butina聚類算法[21]劃分?jǐn)?shù)據(jù)集。其中:RON訓(xùn)練集包含220組數(shù)據(jù),測(cè)試集包含20組數(shù)據(jù);MON訓(xùn)練集包含220組數(shù)據(jù),測(cè)試集包含21組數(shù)據(jù)。
圖5為基于RNFP模型得到的RON和MON預(yù)測(cè)值與實(shí)驗(yàn)值比較;表2為RNFP模型預(yù)測(cè)結(jié)果的RMSE和R2。由圖5和表2可以看出,RNFP模型對(duì)單體烴RON和MON的預(yù)測(cè)值與實(shí)驗(yàn)值基本相符,測(cè)試集和訓(xùn)練集的RMSE都較小。以往研究表明[11],MON的預(yù)測(cè)效果通常比RON的預(yù)測(cè)效果差。而基于RNFP方法,汽油單體烴RON預(yù)測(cè)模型的訓(xùn)練集和測(cè)試集的R2分別達(dá)到0.995 2和0.959 9;MON預(yù)測(cè)模型訓(xùn)練集和測(cè)試集的R2分別達(dá)到0.996 8和0.969 2。說明RNFP模型對(duì)單體烴MON和RON的預(yù)測(cè)精度達(dá)到了同等水平。
圖5 RNFP模型訓(xùn)練單體烴RON和MON的預(yù)測(cè)值與實(shí)驗(yàn)值比較
表2 RNFP模型預(yù)測(cè)單體烴RON和MON的效果
模型訓(xùn)練完成后,分子中各個(gè)原子最終的原子特征被稱為激活值。通過統(tǒng)計(jì)各原子的激活值,可以反映分子結(jié)構(gòu)對(duì)單體烴性質(zhì)的貢獻(xiàn)度。激活值為正,則對(duì)單體烴性質(zhì)為正貢獻(xiàn);反之,則為負(fù)貢獻(xiàn)。表3和表4分別為RNFP模型對(duì)單體烴RON和MON有較大貢獻(xiàn)結(jié)構(gòu)的預(yù)測(cè)結(jié)果,表中藍(lán)色的分子結(jié)構(gòu)與結(jié)構(gòu)激活值一一對(duì)應(yīng)。
表3 RNFP模型對(duì)單體烴RON貢獻(xiàn)較大結(jié)構(gòu)的預(yù)測(cè)結(jié)果
表4 RNFP模型對(duì)單體烴MON貢獻(xiàn)較大結(jié)構(gòu)的預(yù)測(cè)結(jié)果
由表3可見:對(duì)單體烴RON正貢獻(xiàn)較大的結(jié)構(gòu)有多支鏈的烷烴結(jié)構(gòu)、環(huán)烷烴結(jié)構(gòu)及芳烴結(jié)構(gòu)等,這與異構(gòu)烷烴和芳烴的RON較高的常識(shí)相符;環(huán)烷烴的RON也相對(duì)較高,但會(huì)隨著環(huán)烷烴側(cè)鏈的變長(zhǎng)而迅速下降,因此正貢獻(xiàn)較大環(huán)烷烴特征結(jié)構(gòu)為具有多個(gè)短側(cè)鏈,而不是帶有長(zhǎng)側(cè)鏈;對(duì)RON負(fù)貢獻(xiàn)較大的結(jié)構(gòu)主要為較長(zhǎng)的直鏈烷烴結(jié)構(gòu)和側(cè)鏈較長(zhǎng)的環(huán)烷烴結(jié)構(gòu),證明了長(zhǎng)直鏈烷烴結(jié)構(gòu)對(duì)提高單體烴的RON不利。
由表4可見:與單體烴RON類似,多支鏈的烷烴結(jié)構(gòu)和環(huán)烷烴結(jié)構(gòu)依然對(duì)單體烴MON有利;但不同的是芳烴結(jié)構(gòu)對(duì)單體烴MON的影響較小,而雙鍵結(jié)構(gòu)的影響較大。這與常識(shí)稍有不同,可能也是單體烴MON預(yù)測(cè)模型不易訓(xùn)練的原因之一。對(duì)單體烴MON負(fù)貢獻(xiàn)較大的結(jié)構(gòu)同樣是長(zhǎng)直鏈的烷烴結(jié)構(gòu)。
相比傳統(tǒng)的基團(tuán)貢獻(xiàn)法,RNFP方法不需要人工定義和篩選特征基團(tuán),降低了使用難度。相比NFP方法,RNFP方法引入了池化操作,通過單體烴沸點(diǎn)和臨界溫度數(shù)據(jù)集的驗(yàn)證表明,RNFP的預(yù)測(cè)效果明顯好于NFP,說明池化操作的引入提高了模型的預(yù)測(cè)精度?;赗NFP方法,汽油單體烴RON預(yù)測(cè)模型的訓(xùn)練集和測(cè)試集的R2分別達(dá)到0.995 2和0.959 9;MON預(yù)測(cè)模型訓(xùn)練集和測(cè)試集的R2分別達(dá)到0.996 8和0.969 2,說明模型對(duì)單體烴RON和MON的預(yù)測(cè)精度達(dá)到了同等水平。
通過對(duì)RNFP選取特征結(jié)構(gòu)的可視化,發(fā)現(xiàn)對(duì)單體烴RON正貢獻(xiàn)較大的結(jié)構(gòu)有多支鏈的烷烴結(jié)構(gòu)、環(huán)烷烴結(jié)構(gòu)及芳烴結(jié)構(gòu)等,對(duì)單體烴RON負(fù)貢獻(xiàn)較大的結(jié)構(gòu)主要為較長(zhǎng)的直鏈烷烴結(jié)構(gòu)和側(cè)鏈較長(zhǎng)的環(huán)烷烴結(jié)構(gòu)。對(duì)單體烴的MON,雙鍵結(jié)構(gòu)的影響比芳環(huán)的影響更大。將化學(xué)常識(shí)與模型自動(dòng)篩選的特征對(duì)比,有利于進(jìn)一步研究結(jié)構(gòu)與性質(zhì)的關(guān)系。