任小甜,褚小立,田松柏,朱新宇
(中國(guó)石化石油化工科學(xué)研究院,北京 100083)
黏度指數(shù)是表征油品黏溫性能的一種重要參數(shù),也是潤(rùn)滑油基礎(chǔ)油生產(chǎn)過(guò)程中重點(diǎn)監(jiān)測(cè)的一項(xiàng)關(guān)鍵指標(biāo),減壓餾分油(VGO)是目前潤(rùn)滑油基礎(chǔ)油生產(chǎn)的最主要原料之一,建立VGO黏度指數(shù)的快速分析方法對(duì)指導(dǎo)潤(rùn)滑油基礎(chǔ)油的原料選擇、生產(chǎn)控制和過(guò)程優(yōu)化具有重要意義。目前黏度指數(shù)是通過(guò)首先測(cè)定油品在40 ℃和100 ℃下的運(yùn)動(dòng)黏度,然后經(jīng)過(guò)計(jì)算得到,但這種方法的實(shí)驗(yàn)步驟繁瑣,操作費(fèi)時(shí)費(fèi)力。近紅外光譜(NIR)是目前石油化工產(chǎn)品在線分析中應(yīng)用最廣泛的一項(xiàng)快速分析方法,NIR主要反映化合物中X—H(X為C,N,O)基團(tuán)合頻和倍頻的振動(dòng),包含豐富的結(jié)構(gòu)和組成信息[1],結(jié)合化學(xué)計(jì)量學(xué)方法,可以用于石油餾分的各項(xiàng)物性參數(shù)和組成信息的快速測(cè)定。油品的黏度指數(shù)與其結(jié)構(gòu)和組成有密切的關(guān)系,所以使用NIR快速測(cè)定VGO的黏度指數(shù)是可行的。目前文獻(xiàn)中報(bào)道的黏度指數(shù)近紅外預(yù)測(cè)模型主要集中在潤(rùn)滑油基礎(chǔ)油和成品潤(rùn)滑油,其定量校正方法為線性的偏最小二乘[2](PLS)以及非線性的自組織神經(jīng)網(wǎng)絡(luò)和反向傳播(BP)神經(jīng)網(wǎng)絡(luò)[3-5]等。這些方法主要采用PLS和主成分分析(PCA)的方法對(duì)光譜變量進(jìn)行降維處理來(lái)提取主因子,然后以主因子得分為輸入特征進(jìn)行線性和非線性的建模。由于VGO的組成比較復(fù)雜,有些與性質(zhì)相關(guān)的結(jié)構(gòu)基團(tuán)在近紅外光譜中沒(méi)有響應(yīng)或響應(yīng)很低,不同基團(tuán)的協(xié)同效應(yīng)使VGO的很多性質(zhì)和近紅外光譜信息呈現(xiàn)非線性的關(guān)系,所以用非線性校正方法建立VGO黏度指數(shù)的預(yù)測(cè)模型可能是更合理的思路。本課題采用隨機(jī)森林(RF)回歸算法構(gòu)建VGO黏度指數(shù)的預(yù)測(cè)模型,這種方法能全面地反映出VGO的黏度指數(shù)和其近紅外光譜信息之間的非線性關(guān)系,準(zhǔn)確度高,不易過(guò)擬合。首先結(jié)合特征重要性度量和遞歸特征消除法進(jìn)行NIR光譜的波長(zhǎng)變量選擇,然后通過(guò)交叉驗(yàn)證法確定模型的超參數(shù)(回歸樹(shù)數(shù)量nt和節(jié)點(diǎn)分裂的特征數(shù)nv),最終建立起完整的預(yù)測(cè)模型。
收集70個(gè)VGO樣品,這些樣品切割自不同產(chǎn)地的原油,其黏度指數(shù)范圍為17~151,平均值為86,樣品覆蓋范圍較寬,具有很強(qiáng)的代表性。
用GB/T 265方法測(cè)定VGO樣品在40 ℃和100 ℃下的運(yùn)動(dòng)黏度,然后按照GB/T 1995 方法計(jì)算相應(yīng)的黏度指數(shù)。
采用Thermo Fisher 公司生產(chǎn)的傅里葉變換近紅外光譜儀(ANTARIS Ⅱ型)進(jìn)行VGO樣品的光譜采集,樣品池為0.5 mm比色皿,采集條件為恒溫65 ℃,分辨率為8 cm-1,累積掃描次數(shù)為128,光譜范圍為3 500~10 000 cm-1。
對(duì)于樣品的NIR光譜,采用S-G二階微分(21點(diǎn))進(jìn)行處理以消除噪聲和樣品色度的影響,選取4 500~9 000 cm-1范圍內(nèi)的波長(zhǎng)點(diǎn)作為模型的輸入變量X,共計(jì)1 168個(gè)波長(zhǎng)點(diǎn);對(duì)于黏度指數(shù)的數(shù)據(jù),由于其分布范圍太寬,不同樣本間的數(shù)值差異較大,將其進(jìn)行對(duì)數(shù)轉(zhuǎn)換作為模型的輸出變量y,由此確定樣品的數(shù)據(jù)集。
利用SPXY方法[6]將數(shù)據(jù)集劃分為63個(gè)訓(xùn)練集和7個(gè)驗(yàn)證集,這種方法根據(jù)樣品之間的歐式距離在特征空間中均勻地選取樣本,計(jì)算距離時(shí)同時(shí)考慮光譜特征和性質(zhì)特征,這樣使樣本劃分得更加均衡,構(gòu)建的預(yù)測(cè)模型更具代表性。
RF回歸算法是一種基于分類和回歸樹(shù)(CART)的集成學(xué)習(xí)算法,其在裝袋(bagging)的思想上進(jìn)行了改進(jìn),主要利用2個(gè)隨機(jī)過(guò)程來(lái)增加模型的泛化性,首先通過(guò)有放回的隨機(jī)抽樣得到不同的樣本子集,分別對(duì)這些樣本子集構(gòu)建不同的回歸樹(shù),在樹(shù)的每個(gè)節(jié)點(diǎn)分裂時(shí),然后每次都隨機(jī)抽取一定數(shù)量的特征進(jìn)行分裂,這2個(gè)隨機(jī)過(guò)程可以有效地降低模型的方差,避免過(guò)擬合,增加模型的泛化性。RF模型中構(gòu)建的弱學(xué)習(xí)器是大量的回歸樹(shù),其算法的基本思想是不斷地將訓(xùn)練集中的樣本進(jìn)行二分類,從根節(jié)點(diǎn)開(kāi)始,以分裂后左右分叉中樣本的平方誤差最小化作為分裂規(guī)則,選擇最優(yōu)的分裂特征及對(duì)應(yīng)的最佳分裂點(diǎn)進(jìn)行分支,依次分裂,最大限度地生長(zhǎng),最后將樣本分配到不同的葉節(jié)點(diǎn)中,每個(gè)葉節(jié)點(diǎn)中包含的所有樣本的平均值為該節(jié)點(diǎn)的計(jì)算值。預(yù)測(cè)時(shí),將待測(cè)樣本依次代入每顆回歸樹(shù)進(jìn)行計(jì)算,利用所有樹(shù)的計(jì)算結(jié)果平均值進(jìn)行預(yù)測(cè)。這種模型訓(xùn)練時(shí)間短,不需要進(jìn)行特征數(shù)據(jù)的預(yù)處理,且模型可以給出每個(gè)特征的重要度用于特征選擇,對(duì)離群的異常樣本不敏感,穩(wěn)健性好,有較強(qiáng)的泛化能力和較高的準(zhǔn)確度。
RF算法采用有放回的自助抽樣來(lái)生成樣本子集,構(gòu)建一顆回歸樹(shù)時(shí),訓(xùn)練集中每個(gè)樣本未被抽中的概率為(1-1/N)N,N為樣本數(shù),當(dāng)N足夠大時(shí),此概率收斂于1/e≈0.368,即每顆回歸樹(shù)中大約有36.8%的樣本參與建模訓(xùn)練,這些樣本被稱為袋外樣本(OOB),其可作為驗(yàn)證集對(duì)RF回歸模型的泛化性能進(jìn)行評(píng)價(jià)。對(duì)于訓(xùn)練集中的每個(gè)樣本,將其作為OOB樣本,利用不包含該樣本的回歸樹(shù)進(jìn)行對(duì)應(yīng)的性質(zhì)預(yù)測(cè)就叫做袋外估計(jì),保證RF中的回歸樹(shù)足夠多,每個(gè)訓(xùn)練樣本都能得到一個(gè)袋外估計(jì)的計(jì)算值,這樣利用袋外估計(jì)就可以起到驗(yàn)證集的作用,屬于無(wú)偏估計(jì)[7]。
近紅外光譜中有上千個(gè)波長(zhǎng)變量,其中包含有不少冗余的信息,比如與待測(cè)性質(zhì)相關(guān)性很小的波長(zhǎng)點(diǎn),在建模之前進(jìn)行波長(zhǎng)選擇可以簡(jiǎn)化模型,同時(shí)針對(duì)待測(cè)性質(zhì)選擇最有效的光譜區(qū)間和波長(zhǎng)點(diǎn)可以使預(yù)測(cè)模型更加準(zhǔn)確,穩(wěn)健性更好[8]。在近紅外預(yù)測(cè)模型中,最常用的是相關(guān)系數(shù)法,即選擇與待測(cè)性質(zhì)相關(guān)系數(shù)較高的波長(zhǎng)區(qū)間進(jìn)行建模,但相關(guān)系數(shù)只能表示變量之間的線性相關(guān)關(guān)系,顯然不適用于預(yù)測(cè)非線性的黏度指數(shù)模型。
根據(jù)RF回歸算法中對(duì)特征重要性的度量,通過(guò)遞歸特征消除法進(jìn)行波長(zhǎng)變量的選擇。RF中,回歸樹(shù)的每個(gè)節(jié)點(diǎn)都表示不同的特征分裂條件,是以分裂后的方差最小化為準(zhǔn)則,目的是為了將訓(xùn)練集的樣本不斷劃分,將性質(zhì)取值接近的樣本分到同一節(jié)點(diǎn)中,總的來(lái)說(shuō)就是通過(guò)劃分降低整個(gè)訓(xùn)練集樣本的方差。所以,計(jì)算出回歸樹(shù)中某個(gè)特征對(duì)于方差的降低量,再對(duì)RF中的所有樹(shù)取平均值,將該特征的平均方差減少量作為其重要度。
本研究使用遞歸特征消除法進(jìn)行近紅外光譜的波長(zhǎng)變量選擇,基本步驟如下:①?gòu)挠?xùn)練集樣本出發(fā),構(gòu)建一個(gè)RF模型(nt=60),計(jì)算出各波長(zhǎng)變量的重要度,并將其按照降序排列,利用袋外估計(jì)的方法計(jì)算訓(xùn)練集樣本的校正標(biāo)準(zhǔn)偏差(RMSEC);②從當(dāng)前波長(zhǎng)點(diǎn)中刪除重要度最小,即排序在最后的2個(gè)點(diǎn),得到一個(gè)新的特征子集;③利用新的特征子集重新構(gòu)建RF模型,計(jì)算其中每個(gè)波長(zhǎng)變量的重要度并排序,利用袋外估計(jì)的方法計(jì)算訓(xùn)練集樣本的RMSEC;④重復(fù)②和③的步驟,直至剩下2個(gè)波長(zhǎng)點(diǎn);⑤記錄上述所有特征子集計(jì)算得到的RMSEC,選擇取值最小的子集作為最后優(yōu)選的波長(zhǎng)變量子集。
不同波長(zhǎng)點(diǎn)數(shù)的變量子集下訓(xùn)練集樣本的RMSEC見(jiàn)圖1。從VGO的近紅外光譜中取10個(gè)特定波長(zhǎng)點(diǎn)(4 900,5 140,5 690,5 760,5 880,6 800,7 460,8 330,8 340,8 590 cm-1)的子集時(shí)就可以得到最小的RMSEC,此時(shí)構(gòu)建的預(yù)測(cè)模型泛化性能最強(qiáng),穩(wěn)健性最好。
圖1 不同波長(zhǎng)點(diǎn)數(shù)的變量子集下訓(xùn)練集樣本的RMSEC
以上述優(yōu)選出的波長(zhǎng)變量作為新的輸入特征,用訓(xùn)練集樣本構(gòu)建RF回歸模型,模型中有2個(gè)重要的超參數(shù),即回歸樹(shù)數(shù)量nt和每個(gè)節(jié)點(diǎn)分裂時(shí)使用的特征數(shù)nv。回歸樹(shù)的數(shù)量越多,模型的方差越小,但會(huì)增加計(jì)算負(fù)擔(dān);減少nv,構(gòu)建的回歸樹(shù)之間的相關(guān)性會(huì)減少,可以增強(qiáng)模型的泛化性,但會(huì)造成預(yù)測(cè)準(zhǔn)確度下降。所以,要對(duì)這2個(gè)超參數(shù)進(jìn)行優(yōu)選,以降低模型的方差,進(jìn)一步增強(qiáng)模型的泛化性能。本研究使用10折交叉驗(yàn)證的方法對(duì)這2個(gè)超參數(shù)依次進(jìn)行尋優(yōu),計(jì)算不同取值超參數(shù)下的交叉驗(yàn)證均方誤差(MSECV),取值最小時(shí)對(duì)應(yīng)的超參數(shù)即為最優(yōu)值?;貧w樹(shù)的數(shù)量與MSECV的關(guān)系見(jiàn)圖2。分裂波長(zhǎng)點(diǎn)數(shù)與MSECV 的關(guān)系見(jiàn)圖3。首先確定nt的最佳值,如圖2所示,當(dāng)nt為150時(shí),MSECV取值達(dá)到最小;固定nt為150,對(duì)分裂時(shí)使用的波長(zhǎng)點(diǎn)數(shù)nv進(jìn)行尋優(yōu),由圖3可知,當(dāng)nv為5時(shí),MSECV達(dá)到最小值。
圖2 回歸樹(shù)數(shù)量與MSECV的關(guān)系
圖3 分裂波長(zhǎng)點(diǎn)數(shù)與MSECV 的關(guān)系
以10個(gè)波長(zhǎng)變量為輸入特征,在63個(gè)訓(xùn)練集樣本上構(gòu)建包含有150顆回歸樹(shù)的RF,其中回歸樹(shù)上的節(jié)點(diǎn)分裂時(shí)隨機(jī)抽取5個(gè)波長(zhǎng)變量進(jìn)行分裂,這樣構(gòu)建起一個(gè)穩(wěn)健預(yù)測(cè)VGO黏度指數(shù)的RF回歸模型。對(duì)于訓(xùn)練集樣本,模型的RMSEC為4.03,決定系數(shù)R2為0.98,黏度指數(shù)的實(shí)驗(yàn)值和預(yù)測(cè)值對(duì)比見(jiàn)圖4。從圖4可以看出,黏度指數(shù)的實(shí)驗(yàn)值和預(yù)測(cè)值的相關(guān)性很好,同時(shí)由袋外估計(jì)方法計(jì)算的R2為0.88,表明模型的泛化能力較好。上述結(jié)果表明,RF回歸模型能較好地?cái)M合所有的訓(xùn)練集樣本,篩選出10個(gè)特征波長(zhǎng)也能代表VGO中與黏度指數(shù)最相關(guān)的結(jié)構(gòu)信息,模型的準(zhǔn)確度高,穩(wěn)健性好。
圖4 訓(xùn)練集樣本的黏度指數(shù)實(shí)測(cè)值和預(yù)測(cè)值對(duì)比
基于上述黏度指數(shù)的RF回歸模型,對(duì)驗(yàn)證集中的7個(gè)VGO樣本進(jìn)行預(yù)測(cè),其預(yù)測(cè)標(biāo)準(zhǔn)偏差RMSEP為2.28,決定系數(shù)R2為0.98,將這7個(gè)樣本黏度指數(shù)的實(shí)測(cè)值和預(yù)測(cè)值進(jìn)行對(duì)比,結(jié)果見(jiàn)表1。從表1可以看出,通過(guò)RF回歸模型預(yù)測(cè)的黏度指數(shù)與實(shí)測(cè)值基本一致,最大偏差為4,說(shuō)明此模型具有很強(qiáng)的泛化能力,不易過(guò)擬合,能較準(zhǔn)確地預(yù)測(cè)訓(xùn)練集以外的樣本??偟膩?lái)說(shuō),RF回歸模型能全面地反映出VGO的近紅外光譜信息和其黏度指數(shù)之間的非線性關(guān)系,模型的準(zhǔn)確度較高,泛化性好,覆蓋范圍廣,具有一定的應(yīng)用價(jià)值。在后續(xù)的模型維護(hù)工作中,需要增加VGO的訓(xùn)練樣本,進(jìn)一步提高模型的準(zhǔn)確度和預(yù)測(cè)范圍。
表1 驗(yàn)證集樣本的黏度指數(shù)實(shí)測(cè)值與預(yù)測(cè)值比較
(1)利用RF回歸算法,建立了VGO黏度指數(shù)的近紅外預(yù)測(cè)模型,包括利用遞歸特征消除法從近紅外光譜中提取10個(gè)特征波長(zhǎng),通過(guò)10折交叉驗(yàn)證法確定模型的兩個(gè)超參數(shù),最終確定了一個(gè)準(zhǔn)確度高、穩(wěn)健性好的非線性預(yù)測(cè)模型。
(2)利用此模型,可以通過(guò)近紅外光譜快速地計(jì)算出VGO的黏度指數(shù),其準(zhǔn)確性與標(biāo)準(zhǔn)方法相當(dāng),泛化性好,能基本滿足生產(chǎn)過(guò)程中快速分析的需求,具有一定的實(shí)用價(jià)值。