劉秋芳,褚小立,陳 瀑,李敬巖
(中國石化石油化工科學(xué)研究院,北京 100083)
煉油過程與原料油的性質(zhì)息息相關(guān),而原料油的性質(zhì)是由其組成分子性質(zhì)決定的,因而從分子水平上認(rèn)識原料油的組成和性質(zhì),深入研究煉油過程的分子化學(xué)反應(yīng),有利于原料油加工路線的優(yōu)化。
石腦油是蒸汽裂解制乙烯裝置[1-3]和催化重整裝置[4-5]的主要原料之一。色譜分析是石腦油分子組成表征最直接、最準(zhǔn)確的方法[6-8],通過色譜分析可以定性、定量地表征出上百個單體烴分子[4-5,9-10];但色譜分析周期較長,且需要專業(yè)人員操作,很難滿足煉油廠優(yōu)化控制效率的需求。而近紅外光譜(NIR)分析方法因具有分析快、成本低、樣品不需前處理、適于在線分析等優(yōu)點(diǎn)而越來越受到重視。
隨著化學(xué)計(jì)量學(xué)的應(yīng)用和計(jì)算機(jī)的快速發(fā)展,NIR與化學(xué)計(jì)量學(xué)相結(jié)合的方法可以很好地測定石腦油的族組成(PINA)[2,4-5,10-14]。Chung等[4]采用偏最小二乘(PLS)方法建立了NIR校準(zhǔn)模型預(yù)測石腦油的詳細(xì)族組成,預(yù)測結(jié)果與氣相色譜法(GC)分析結(jié)果的相關(guān)性較好;而且,其進(jìn)一步探討了特征區(qū)間的選擇對模型準(zhǔn)確性的影響,優(yōu)選的特征區(qū)間分別為1 100~1 650 nm、1 800~2 100 nm及其合并區(qū)間。Lambert等[15]將NIR與多元校正PLS結(jié)合建立了TOPNIR在線分析模型,用以優(yōu)化石腦油蒸汽裂解工藝,發(fā)現(xiàn)其優(yōu)化結(jié)果與GC分析結(jié)果一致,可以應(yīng)用于工廠在線遠(yuǎn)程控制。
針對模型構(gòu)建優(yōu)化過程中數(shù)據(jù)樣本少、分布不均勻、代表性差等小樣本問題,解決的方法主要有機(jī)器學(xué)習(xí)(Machine Learning)、灰色理論(Grey Theory)、特征提取(Feature Extraction)和虛擬樣本生成(VSG)等。其中,VSG方法是在已知樣本的基礎(chǔ)上通過一定轉(zhuǎn)換關(guān)系產(chǎn)生新的虛擬樣本,然后加入到原有樣本中的過程[16-17]。目前,常用的VSG方法有插值法、噪聲注入法、數(shù)據(jù)采樣法、樣本增強(qiáng)(DA)法等,其中DA法是將插值法與噪聲注入法相結(jié)合的方法。采用DA法引入未觀測數(shù)據(jù)或潛在變量,可以構(gòu)建更準(zhǔn)確、適用范圍更廣的模型,有利于提高模型的分類能力和通用性,克服小樣本問題,而且PLS模型的預(yù)測誤差更小[18-21]。
基于上述分析,本研究提出一種基于近紅外光譜快速測定石腦油分子水平組成的方法,以近紅外光譜分析結(jié)果作為輸入項(xiàng),通過構(gòu)建石腦油的單體烴分布比例庫,并采用DA法解決小樣本問題,建立石腦油PINA值和單體烴分布比例預(yù)測模型,對石腦油的單體烴分布進(jìn)行預(yù)測。
直餾石腦油樣本(餾程為15~180 ℃),由中國石化石油化工科學(xué)研究院(簡稱石科院)分析實(shí)驗(yàn)室油品常壓蒸餾裝置收集,共50個。收集周期為6個月,為防止樣本中輕組分揮發(fā),樣本保存在4 ℃的冰箱內(nèi)。樣本的PINA組成(w,%)和單體烴含量(w,%)按照《石腦油單體烴組成測定(毛細(xì)管氣相色譜法)》(SH/T 0714—2002)方法分析獲得。
石腦油樣本的近紅外光譜利用Thermo Fisher Antaris Ⅱ傅里葉變換近紅外分析儀表征,采集波數(shù)為3 500~10 000 cm-1,分辨率為8 cm-1,掃描128次。
針對石腦油的分子水平組成,提出一種預(yù)測方法:①以石腦油PINOA(P,I,N,O,A分別為正構(gòu)烷烴、異構(gòu)烷烴、環(huán)烷烴、烯烴、芳烴)組成和單體烴含量的GC分析結(jié)果為基礎(chǔ),建立石腦油單體烴分布比例庫,包括石腦油NIR和單體烴分布比例;②采用DA法生成大量虛擬樣本,并與實(shí)際樣本混合;③以混合樣本的近紅外導(dǎo)數(shù)光譜在特征區(qū)間內(nèi)的吸光度為輸入變量、以樣本的PINA組成為輸出變量,采用偏最小二乘法(PLS)算法建立PINA組成預(yù)測模型;④以混合樣本NIR的吸光度為輸入變量、以單體烴分布比例為輸出變量,采用K-近鄰回歸法(KNR)建立石腦油單體烴分布比例預(yù)測模型。
在對待測樣本進(jìn)行單體烴分布預(yù)測時,首先測定該樣本的NIR;然后利用上述兩個預(yù)測模型,分別得到待測樣本的PINA組成和單體烴的分布比例;最后將PINA組成與相應(yīng)單體烴分布比例相乘,即得到該樣本的單體烴分布結(jié)果。
1.3.1 虛擬樣本生成
采用Spxy算法將50個實(shí)驗(yàn)室樣本分為校正集和預(yù)測集。校正集樣本用于模型建立,預(yù)測集樣本用于檢驗(yàn)?zāi)P皖A(yù)測的準(zhǔn)確度。對于PINA組成預(yù)測模型,校正集樣本40個、預(yù)測集樣本10個;對于單體烴分布比例模型,校正集樣本44個、預(yù)測集樣本6個。
在實(shí)驗(yàn)室樣本的基礎(chǔ)上,采用樣本增強(qiáng)方法,對實(shí)際樣本信息進(jìn)行一定范圍的擴(kuò)散,生成虛擬樣本。其中,注入的噪聲使用重復(fù)性光譜的差譜;插值法為樣本間隨機(jī)插值并乘以擴(kuò)散系數(shù)方法,擴(kuò)散系數(shù)設(shè)為1.2。
生成虛擬樣本時,先采用樣本增強(qiáng)方法生成虛擬樣本的近紅外光譜,然后通過相同的插值方式生成虛擬樣本的PINA組成和單體烴分布比例。具體生成步驟:在預(yù)測集選取某個樣本作為待測樣本,近紅外光譜范圍內(nèi),根據(jù)待測樣本與校正集中所有樣本之間的歐氏距離尋找5個距離最近的樣本為相似樣本;在5個相似樣本中任意選取2個樣本,進(jìn)行線性組合并乘以一定的擴(kuò)散系數(shù)生成虛擬樣本,共生成虛擬樣本250個;然后在5個相似樣本和其余樣本中各自隨機(jī)選取 1 個樣本,進(jìn)行線性組合并乘以擴(kuò)散系數(shù)生成虛擬樣本,共生成虛擬樣本250個??傆?jì)共生成500個虛擬樣本。
1.3.2 偏最小二乘(PLS)模型的建立
建立模型過程中,首先將采集的校正集樣本與樣本增強(qiáng)生成的虛擬樣本混合,形成混合校正樣本集;同時采用2017版Matlab處理光譜數(shù)據(jù),對混合樣本集的NIR進(jìn)行二階差分求導(dǎo),得到其導(dǎo)數(shù)光譜;然后基于混合樣本的導(dǎo)數(shù)光譜和PINA值,采用PLS算法建立模型;最后采用內(nèi)部留一交叉驗(yàn)證法,得到最小校正標(biāo)準(zhǔn)偏差(RMSECV);并用RMSECV評估模型不同主因子數(shù)(一般為1,2,…,30)的建模效果,確定模型最佳主因子數(shù)。
針對石腦油不同PINA族組成,共構(gòu)建了32個PINA值的預(yù)測模型,分別命名為P3~P12,I4~I(xiàn)12,N5~N12,A6~A11模型,如N6表示碳數(shù)為6的環(huán)烷烴組成模型,A6為碳數(shù)為6的芳烴組成模型。
由于樣本的NIR特征區(qū)間對PLS建模的準(zhǔn)確性至關(guān)重要[4,22],圖1給出了實(shí)際校正集樣本的NIR及其在特征區(qū)間內(nèi)的近紅外導(dǎo)數(shù)光譜。由圖1可知,石腦油單體烴分子中C—H鍵(甲基、亞甲基、芳環(huán))的光譜特征區(qū)間為5 600~6 100 cm-1和4 000~4 800 cm-1。
圖1 樣本的NIR及其在特征區(qū)間內(nèi)的近紅外導(dǎo)數(shù)光譜
1.3.3 單體烴分布比例模型的構(gòu)建
石腦油單體烴分布比例模型包括石腦油的NIR和單體烴分布比例,石腦油中共有234種單體烴分子。將石腦油樣本的NIR按照相同波數(shù)的吸光度和樣本一一對應(yīng)整理成矩陣,矩陣的行表示不同樣本同一波數(shù)的NIR吸光度,矩陣的列表示同一樣本的NIR;將單體烴含量按分子類型和樣本一一對應(yīng)整理成矩陣,矩陣的行表示不同樣本同一分子的分布比例,矩陣的列表示同一樣本的所有單體烴分布比例。因此NIR矩陣的列、單體烴分布比例矩陣的列均與樣本一一對應(yīng)。單體烴分布比例的計(jì)算如式(1)所示。
(1)
式中:zi為石腦油中某單體烴的分布比例;xi為某單體烴的質(zhì)量分?jǐn)?shù);yi為某單體烴對應(yīng)其所屬PINA族的質(zhì)量分?jǐn)?shù)。
對于待測樣本單體烴分布比例的預(yù)測,采用樣本增強(qiáng)方法生成的混合樣本,然后將待測樣本的NIR作為輸入變量,采用K-近鄰回歸法(KNR)建立線性擬合預(yù)測模型。KNR是通過比較待測樣本與所有樣本之間的歐氏距離,選取k個鄰近樣本進(jìn)行回歸判別。
主成分分析是一種統(tǒng)計(jì)學(xué)方法,通過正交變換可將相關(guān)度較高的變量轉(zhuǎn)變?yōu)闊o關(guān)的變量來表示。該方法盡可能保持了原來變量的信息,并對變量進(jìn)行降維,減少了計(jì)算量。本研究中,在預(yù)測集中任選1個樣本作為待測樣本,對待測樣本、實(shí)際校正集樣本和樣本增強(qiáng)后混合校正集樣本的NIR進(jìn)行主成分分析,觀察實(shí)際樣本、虛擬樣本相對于待測樣本的位置關(guān)系,結(jié)果見圖2和圖3。由圖2和圖3可以看出:實(shí)際樣本與待測樣本間的差異性較大,以實(shí)際樣本來預(yù)測待測樣本,準(zhǔn)確性較差;而樣本增強(qiáng)后的虛擬樣本,在一定范圍內(nèi)大幅增加了待測樣本周圍訓(xùn)練樣本的密度,甚至完全覆蓋了待測樣本,二者之間的歐氏距離很小。待測樣本周圍的樣本越多,越易找到相似樣本,預(yù)測的準(zhǔn)確度越高。
圖2 樣本增強(qiáng)前實(shí)際樣本的NIR主成分分析
圖3 樣本增強(qiáng)后混合樣本的NIR主成分分析
基于混合校正樣本集,對采用PLS算法建立的模型進(jìn)行優(yōu)化訓(xùn)練,選取最佳主因子數(shù),并用預(yù)測集樣本對模型預(yù)測效果進(jìn)行檢驗(yàn),計(jì)算模型的預(yù)測標(biāo)準(zhǔn)偏差(RMSEP)和相關(guān)系數(shù)(R)。RMSEP越小、R越接近于1,說明預(yù)測的效果越好。樣本增強(qiáng)前后構(gòu)建的PLS模型的預(yù)測結(jié)果如表1所示。從表1可知:與樣本增強(qiáng)前相比,多數(shù)樣本增強(qiáng)后PLS模型的預(yù)測準(zhǔn)確度提高,RMSEP減小,R均增大,更接近1;但是,對于單體烴P3,P4,P12,I4,I12,A11,其分布PLS預(yù)測模型的校正結(jié)果均不理想。這主要是因?yàn)椋孩偈占氖X油樣本P3的質(zhì)量分?jǐn)?shù)范圍為0~0.12,P12的質(zhì)量分?jǐn)?shù)范圍為0~0.02,I12的質(zhì)量分?jǐn)?shù)范圍為0~0.15,A11的質(zhì)量分?jǐn)?shù)范圍為0~0.014,含量較少且部分樣本檢測到質(zhì)量分?jǐn)?shù)為0,在GC檢測限以下,尤其是P3、P12。②由于P3,P4,I4具有一定的揮發(fā)性,在進(jìn)行樣品收集、近紅外和氣相色譜檢測時揮發(fā)了一部分。綜合來看,樣本增強(qiáng)方法對基于小樣本構(gòu)建的PLS模型的預(yù)測準(zhǔn)確度有一定的提高作用,32個PINA組成預(yù)測模型中,有26個模型的RMSEP減小,R更接近1。
表1 樣本增強(qiáng)前后PLS模型的預(yù)測結(jié)果
因構(gòu)建的PINA組成預(yù)測模型很多(32個),無法一一說明,因而隨機(jī)選擇3個模型說明其預(yù)測結(jié)果。圖4~圖6為樣本增強(qiáng)前后所建立的PLS模型對P5,I8,A8的預(yù)測值與其GC測定值的對比。由圖4~圖6可知,采用PLS算法所建PINA組成模型P5,I8,A8的預(yù)測值與GC測定值基本一致,說明所建PINA組成模型的預(yù)測結(jié)果具有較高的準(zhǔn)確性。
圖4 樣本增強(qiáng)前后石腦油P5組分的GC測定值和模型預(yù)測值
圖5 樣本增強(qiáng)前后石腦油I8組分的GC測定值和模型預(yù)測值
圖6 樣本增強(qiáng)前后石腦油A8組分的GC測定值和模型預(yù)測值
采用KNR線性擬合預(yù)測模型對于待測樣本的單體烴分布比例進(jìn)行預(yù)測,預(yù)測的關(guān)鍵是確定近鄰樣本的數(shù)量(k)。模擬過程中,通過計(jì)算預(yù)測集中6個樣本預(yù)測值與實(shí)際值的RMSEP來確定k。樣本增強(qiáng)后KNR方法中k與RMSEP的關(guān)系見圖7。由圖7可知,當(dāng)k=2時,RMSEP最小,因此k的最佳取值為2。
圖7 樣本增強(qiáng)后KNR模型k與預(yù)測集樣本預(yù)測RMSEP的關(guān)系
6個預(yù)測集樣本單體烴分子比例的KNR預(yù)測結(jié)果見表2。由表2可知,每個樣本單體烴分布比例的預(yù)測值與氣相色譜測定值的R均在0.91以上,接近于1,且其RMSEP均在0.1以下,說明采用KNR模型預(yù)測單體烴樣本分子分布比例的效果很好。
表2 預(yù)測集樣本的模型預(yù)測結(jié)果
圖8~圖13分別為預(yù)測集樣本1~樣本6單體烴分布比例的模型預(yù)測值與氣相色譜測定值的擬合結(jié)果。由圖8~圖13可以觀察到,預(yù)測集樣本的單體烴分布比例的GC測定值和KNR預(yù)測值基本吻合。由表2和圖8~圖13可以看出,在構(gòu)建石腦油單體烴分布比例數(shù)據(jù)庫的基礎(chǔ)上,利用樣本增強(qiáng)方法與K-近鄰回歸法預(yù)測未知石腦油單體烴分布比例,具有較好的準(zhǔn)確性。
圖8 預(yù)測集樣本1單體烴分布比例的預(yù)測值與測定值
圖9 預(yù)測集樣本2單體烴分布比例的預(yù)測值與測定值
圖10 預(yù)測集樣本3單體烴分布比例的預(yù)測值與測定值
圖11 預(yù)測集樣本4單體烴分布比例的預(yù)測值與測定值
圖12 預(yù)測集樣本5單體烴分布比例的預(yù)測值與測定值
圖13 預(yù)測集樣本6單體烴分布比例的預(yù)測值與測定值
提出了一種基于近紅外光譜預(yù)測石腦油分子水平組分的方法。該方法以氣相色譜法測定的石腦油PINA數(shù)據(jù)和單體烴含量為基礎(chǔ),通過構(gòu)建石腦油單體烴分布比例庫、建立石腦油PINA組成預(yù)測模型,石腦油單體烴分布比例預(yù)測模型,成功實(shí)現(xiàn)對未知石腦油樣本進(jìn)行單體烴組成進(jìn)行定性、定量分析。
此外,采用樣本增強(qiáng)方法很好地解決了建模過程的小樣本問題,擴(kuò)充了樣本量。預(yù)測結(jié)果表明:所建的模型的預(yù)測值與GC實(shí)測值吻合度高,預(yù)測準(zhǔn)確性好。