蔣 偉,佟國香
(上海理工大學(xué) 光電信息與計算機工程學(xué)院,上海 200000)
研究法辛烷值(RON)是反映汽油燃燒性能的最重要指標。按照車用汽油國家標準,車用汽油RON應(yīng)分別達到89/92/95。中國現(xiàn)有技術(shù)在對催化裂化汽油進行脫硫和降烯烴過程中,普遍降低了汽油辛烷值,每降低一個單位的辛烷值約相當于損失150 CNY/t[1-4]。為了盡可能減少汽油催化裂化過程中辛烷值的損失,需要建立化工過程模型對RON損失進行預(yù)測[5-8]。由于煉油工藝過程的復(fù)雜性以及設(shè)備的多樣性,催化裂化中涉及到的操作變量之間具有高度非線性和相互強偶聯(lián)的關(guān)系;且傳統(tǒng)的數(shù)據(jù)關(guān)聯(lián)模型中變量相對較少、機理建模對原料的分析要求較高,對過程優(yōu)化的響應(yīng)不及時,也很難全面地描述工藝過程,所以建模的效果并不理想[9-15]。孔金生等[16]對催化裂化數(shù)據(jù)進行了預(yù)處理并建立了粗汽油終餾點的神經(jīng)網(wǎng)絡(luò)模型,4.7%的樣本誤差小于±1 ℃、98.3%的樣本誤差小于±2 ℃、樣本均方差為0.7379 ℃、絕對誤差的平均值為0.5779 ℃,結(jié)果證明該模型具有較高的預(yù)測能力。楊帆等[17]基于某石化企業(yè)的LIMS及DCS中的工業(yè)生產(chǎn)數(shù)據(jù),利用GBDT模型預(yù)測汽油收率,模型預(yù)測準確率為98.9%,平均絕對誤差為0.531%。張忠洋等[18]以某煉油廠催化裂化反應(yīng)-再生系統(tǒng)為研究對象,用遺傳算法優(yōu)化了已建立的6-11-1結(jié)構(gòu)的BP神經(jīng)網(wǎng)絡(luò),成功將汽油產(chǎn)率預(yù)測均方誤差從5.16%降低到4.92%。上述研究都是通過神經(jīng)網(wǎng)絡(luò)、遺傳算法等人工智能算法對工業(yè)經(jīng)驗中已知的影響催化裂化產(chǎn)品收率的指標進行分析,并構(gòu)建催化裂化汽油收率預(yù)測模型,實現(xiàn)相應(yīng)的汽油產(chǎn)率預(yù)測。通過建立化工過程模型,基于數(shù)據(jù)挖掘技術(shù),對重要指標的相關(guān)數(shù)據(jù)進行分析,尋找優(yōu)化方案,最終實現(xiàn)催化裂化裝置經(jīng)濟效益的提升。但是基于神經(jīng)網(wǎng)絡(luò)的預(yù)測模型的解釋性較差,基于遺傳算法的預(yù)測模型無法處理大規(guī)模復(fù)雜問題且其自身存在局部最優(yōu)性。因此,筆者將使用主成分分析算法對數(shù)據(jù)進行降維,降低算法的計算開銷,結(jié)合具有較好解釋性的樹類隨機森林模型進行預(yù)測。
為了優(yōu)化汽油精制處理過程,實現(xiàn)最大化經(jīng)濟效益,對裝置運行積累的數(shù)據(jù)進行分析,利用隨機森林回歸模型進行預(yù)測,并在實際生產(chǎn)中指導(dǎo)生產(chǎn),及時優(yōu)化操作變量。筆者以霍尼韋爾(PHD)實時數(shù)據(jù)庫及實驗室信息管理系統(tǒng)(LIMS)數(shù)據(jù)庫的數(shù)據(jù)為基礎(chǔ),基于改進主成分分析的隨機森林回歸PCA-RFR模型,對操作變量進行篩選,構(gòu)建了汽油辛烷值損失預(yù)測模型。
筆者使用的原始數(shù)據(jù)來自于中國石化上海高橋分公司催化裂化汽油精制脫硫裝置的PHD實時數(shù)據(jù)庫及LIMS實驗數(shù)據(jù)庫。通過PHD及LIMS數(shù)據(jù)庫采集到原料、產(chǎn)品和催化劑等相關(guān)數(shù)據(jù),其采集頻率為2次/周。為了采集到足夠多的數(shù)據(jù),并保證實驗的準確性和有效率,LIMS數(shù)據(jù)分別采集了從2017年4月至2019年9月和2019年10月至2020年5月2個時間段,共約3年。通過PHD數(shù)據(jù)庫可采集到操作變量數(shù)據(jù),第一時間段數(shù)據(jù)采集頻次為3 min/次,第二時間段數(shù)據(jù)采集頻次為6 min/次。原始數(shù)據(jù)包括7個原料性質(zhì)、2個待生吸附劑性質(zhì)、2個再生吸附劑性質(zhì)、2個產(chǎn)品性質(zhì)等不可操作變量以及另外354個操作變量(共計367個變量),將所有的數(shù)據(jù)按照時間戳降序排列,以方便系統(tǒng)化的數(shù)據(jù)處理和分析。再對數(shù)據(jù)進行如下處理:
(1)數(shù)據(jù)格式統(tǒng)一。第二個字段為Timestand類型,不符合Float類型,直接將此列刪除。
(2)缺失數(shù)據(jù)填充。刪除缺失率大于20%的數(shù)據(jù)列,對于缺失率小于20%的數(shù)據(jù)列,使用其前后2 h數(shù)據(jù)的平均值進行替代填充。
(3)噪聲處理。根據(jù)工藝要求與操作經(jīng)驗,總結(jié)出原始數(shù)據(jù)變量的操作范圍,刪除不在該范圍的數(shù)據(jù)。
(4)根據(jù)拉依達準則(3σ準則)去除異常值。3σ準則:對被測量變量進行等精度測量,得到x1,x2,……,xn,計算其算術(shù)平均值x及剩余誤差vi=xi-x(i=1,2,…,n),利用按貝塞爾公式計算標準誤差σ,若某個測量值xb的剩余誤差vb(1≤b≤n)滿足|vb|=|xb-x|>3σ,則認為xb是含有粗大誤差值的壞值,應(yīng)予剔除。貝塞爾公式如式(1)所示。
(1)
數(shù)據(jù)中含有354個操作變量,如果將所有操作變量都考慮進去,不但會增加計算的復(fù)雜度,并且由于樣本數(shù)量太少,導(dǎo)致過擬合,從而影響模型準確性。由于煉油工藝過程的操作變量之間具有高度非線性和相互強偶聯(lián)的關(guān)系,考慮采用改進PCA算法對處理后的數(shù)據(jù)進行降維,篩選出相關(guān)性較高的30個操作變量作為預(yù)測模型的輸入,改進PCA算法執(zhí)行過程如下:
(1)對數(shù)變換。傳統(tǒng)的主成分分析是一種線性的降維方法,為了實現(xiàn)對高度非線性數(shù)據(jù)的高效處理,采用對數(shù)變化來改變數(shù)據(jù)的分布使其接近假設(shè)的模型[19]。設(shè)格式統(tǒng)一后的數(shù)據(jù)矩陣如式(2)所示。
X=(xij)n×p
(2)
令yij=lnxij,則對數(shù)變換后矩陣如式(3)所示。
Y=(yij)n×p
(3)
(2)數(shù)據(jù)標準化。為了消除樣本不同屬性具有不同量級的影響,需要對對數(shù)變換后的數(shù)據(jù)進行標準化處理,使結(jié)果值映射到[0~1]之間,轉(zhuǎn)換公式如式(4)所示。
(4)
式中:X*為標準化后的數(shù)據(jù),X為原始數(shù)據(jù),Xmax為樣本數(shù)據(jù)的最大值,Xmin為樣本數(shù)據(jù)的最小值。
(3)協(xié)方差矩陣。協(xié)方差矩陣表示一組隨機變量之間的兩兩相關(guān)性。根據(jù)標準化矩陣,計算其協(xié)方差矩陣。
(4)主成分特征值得分及其對應(yīng)貢獻率。對協(xié)方差矩陣進行奇異值分解求出所有的特征值得分,并從大到小排列。表1為所有特征值中排名前30的得分情況。
表1 排名前30主成分的特征值得分Table 1 The top 30 principal component characteristics
根據(jù)所有的主成分特征值的得分,求出所有主成分的特征值得分占比,以貢獻率(Φ)表示,提取貢獻率前30對應(yīng)的主成分及其貢獻率。前m個主成分的貢獻率(Φ)如式(5)所示。
(5)
式中:λi為第i個主成分特征值的得分情況;m為1~30。
采用改進PCA算法對所有操作變量進行分析和篩選,得出與RON損失相關(guān)性較高的操作變量及其特征值得分和相應(yīng)貢獻率。如圖1所示。
D-109,D-110,D-113,D-114,D-121,D-122,D-123,D-124,D-125,D-201,D-202 are the serial number of feed liquid storage tanks of S Zorb adsorption desulfurization unit.圖1 主要操作變量及其貢獻率和綜合得分Fig.1 Main operating variables and their contribution rate and comprehensive score
筆者采用改進主成分分析-隨機森林回歸算法PCA-RFR建模。改進PCA-RFR模型結(jié)構(gòu)如圖2所示,包含輸入層、隱藏層、輸出層。RFR從輸入數(shù)據(jù)中隨機抽樣,并訓(xùn)練得到若干棵決策樹,再將測試集輸入模型中,由各決策樹預(yù)測值的平均值決定最終的預(yù)測結(jié)果,模型的輸出即為對汽油辛烷值損失的預(yù)測值。
圖2 改進PCA-RFR模型結(jié)構(gòu)示意圖Fig.2 Improved structure diagram of PCA-RFR model
算法的執(zhí)行步驟如下:
輸入:篩選出的主要操作變量的數(shù)據(jù)。
Step 1:初始化RFR隨機森林回歸模型,建立訓(xùn)練集和測試集。
Step 2:從訓(xùn)練樣本集S中每次隨機取出m個樣本點,得到n個子訓(xùn)練集。
Step 3:選擇第j個變量和其取值s,作為切分變量和切分點,將每個子訓(xùn)練集D遞歸地劃分為2個子區(qū)域D1和D2,構(gòu)建二叉決策(回歸)樹。劃分方法如式(6)~式(9)所示。
D1(j,s)=(x,y)∈D|A(x)≤s
(6)
D2(j,s)=(x,y)∈D|A(x)>s
(7)
c1=average(yi|xi∈D1(j,s))
(8)
c2=average(yi|xi∈D2(j,s))
(9)
式(8)~式(9)中:c1為D1的樣本輸出均值;c2為D2的樣本輸出均值。
Step 4:然后尋找最優(yōu)的切分變量以及最優(yōu)的切分點,選擇使式(10)達到最小值的(j,s)。
(10)
Step 5:對2個子區(qū)域重復(fù)1和2步驟,直到滿足停止條件。
Step 6:將輸入空間劃分為M個區(qū)域R1,R2,……,Rm,生成多棵CART回歸樹Tm,組成隨機森林。劃分方法如公式(11)所示。
(11)
Step 7:將測試集樣本輸入隨機森林回歸模型中,隨機森林最終的預(yù)測結(jié)果即為所有CART回歸樹預(yù)測結(jié)果的均值。
筆者所使用的數(shù)據(jù)共有450組,其中,2018年1月1日至2020年5月26日期間的315組數(shù)據(jù)作為訓(xùn)練集,2017年4月17日至12月29日期間的135組數(shù)據(jù)作為驗證集。通過實驗,分別獲得筆者建立模型PCA-RFR與BP神經(jīng)網(wǎng)絡(luò)模型BP-NN和隨機森林模型Random Forest在測試集上的評估標準值,如表2所示。
由表2可以發(fā)現(xiàn),PCA-RFR模型預(yù)測的誤差最小,準確率最高,且R2值接近1,表明該模型非常擬合訓(xùn)練數(shù)據(jù)。
表2 3種模型的實驗結(jié)果對比Table 2 The experimental results of the three models
在相同的測試集上,分別使用3種模型對汽油辛烷值損失進行預(yù)測,并將預(yù)測結(jié)果和實際數(shù)據(jù)進行比較,3種模型的汽油辛烷值損失預(yù)測值和實際值對比,如圖3所示。由圖3可以看出:BP神經(jīng)網(wǎng)絡(luò)模型中的整體預(yù)測值在實際值附近上下波動,對汽油辛烷值損失預(yù)測有一定的偏離,可以大致地擬合出汽油RON損失的變化趨勢。隨機森林模型對汽油RON損失預(yù)測較為平穩(wěn),大部分預(yù)測值與實際值偏差不大,但是模型的預(yù)測值變化幅度較小,無法對汽油RON損失的突然變化進行預(yù)測。改進PCA-RFR模型對汽油RON損失預(yù)測結(jié)果基本與實際值相符,且可以預(yù)測出汽油RON損失曲線的突變。對比3種模型對汽油RON損失的預(yù)測結(jié)果,改進PCA-RFR模型的預(yù)測更加準確。
圖3 3種模型對汽油辛烷值損失預(yù)測值和實際值對比Fig.3 The predicted and actual octane loss values of three models(a)Back propagation-neural network (BP-NN);(b)Random forest;(c)Principal component analysis-random forest model (PCA-RFR)
根據(jù)3種訓(xùn)練模型樣本的實際值和模型的預(yù)測值構(gòu)建散點圖,如圖4所示。由圖4可以看出:BP神經(jīng)網(wǎng)絡(luò)的回歸樣本呈區(qū)域集中,實際值與預(yù)測值差距較大;隨機森林和改進PCA-RFR回歸樣本分布均勻,但后者的預(yù)測值與實際值更為接近。
最后,對訓(xùn)練模型中的450組樣本中硫含量數(shù)據(jù)進行微調(diào):原數(shù)據(jù)加上一個由random函數(shù)隨機生成的0~1之間的數(shù),將調(diào)整后的數(shù)據(jù)放入模型的數(shù)據(jù)庫中,通過已建立的PCA-RFR汽油辛烷值預(yù)測模型訓(xùn)練新的數(shù)據(jù),得出改變硫含量后的汽油RON損失預(yù)測,如圖5所示??梢钥闯觯P者所建立的PCA-RFR預(yù)測模型在對操作變量進行優(yōu)化的過程中,能夠非常直觀地展示汽油RON損失值的變化情況,及時為生產(chǎn)控制提供分析數(shù)據(jù),有效地解決化工過程RON損失預(yù)測建模問題。
圖5 硫含量變化后汽油辛烷值損失預(yù)測圖Fig.5 Prediction chart of the octane loss after sulfur content change
優(yōu)化過程中主要操作變量調(diào)整后,對應(yīng)的汽油辛烷值損失和硫含量的相對值變化軌跡,如圖6所示。圖中,汽油辛烷值損失是由參數(shù)調(diào)整后模型的出的結(jié)果與原數(shù)據(jù)模型得出的結(jié)果做差得到的,硫含量的值也是調(diào)整后硫含量的值與原硫含量的值做差得到的??梢钥闯觯蚝孔兓cRON損失變化呈一定的線性相關(guān)性,部分點數(shù)值變化幅度過大,分析數(shù)據(jù)存在一定的波動,但仍在重復(fù)性標準要求范圍之內(nèi)。
圖6 汽油RON損失值與硫含量變化軌跡圖Fig.6 Track diagram of the gasoline RON loss and sulfur content change
筆者基于PHD實時數(shù)據(jù)庫及LIMS實驗數(shù)據(jù)庫,通過改進PCA算法,分析各操作變量與實際催化裂化汽油精制處理過程中汽油辛烷值損失的相關(guān)性,篩選出了30個潛在影響辛烷值損失的關(guān)鍵操作變量作為預(yù)測模型的輸入,利用RFR模型預(yù)測催化裂化汽油辛烷值的損失,并將模型對汽油辛烷值損失的預(yù)測效果作為基準。結(jié)果表明,由改進PCA-RFR構(gòu)建的汽油辛烷值損失預(yù)測模型預(yù)測結(jié)果的準確率為99.13%,R2為0.983,均方根誤差為3.2169×10-4。模型對真實汽油辛烷值損失的擬合效果非常接近,有助于在實際生產(chǎn)中優(yōu)化操作條件,減少辛烷值的損失,提高生產(chǎn)經(jīng)濟效益。開發(fā)高辛烷值汽油技術(shù)仍然是未來催化裂化發(fā)展的主題,下一步工作考慮采用NSGA-Ⅱ多目標參數(shù)優(yōu)化算法[20],分析各個操作變量的支配強度Pareto等級和擁擠度,最終找到減少汽油辛烷值損失的Pareto最優(yōu)解集。