李東超
摘? 要:汽油精制過程中造成的辛烷值損失會降低汽油的燃燒效率,如何降低汽油精制過程中辛烷值的損失量是目前相關(guān)企業(yè)面臨的一個(gè)重要課題。本文利用我國某石化企業(yè)在催化裂化汽油精制過程中積累的數(shù)據(jù),建立基于神經(jīng)網(wǎng)絡(luò)、測量誤差模型以及DC-SIS數(shù)據(jù)降維方法的兩階段特征篩選模型,選擇出對辛烷值影響比較大的因素。設(shè)計(jì)了一種基于XGBoost和神經(jīng)網(wǎng)絡(luò)的辛烷值預(yù)測模型,可以實(shí)現(xiàn)對不同原材料和不同操作下精制后辛烷值的預(yù)測,經(jīng)驗(yàn)證,模型的均方誤差為0.06876,所設(shè)計(jì)模型在處理辛烷值預(yù)測問題時(shí)可以達(dá)到比較好的預(yù)測效果。
關(guān)鍵詞:辛烷值? 高維降維? 測量誤差模型? 神經(jīng)網(wǎng)絡(luò)? XGBoost
中圖分類號:TP274? ? ? ? ? ? ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識碼:A? ? ? ? ? ? ? ? ? ? 文章編號:1674-098X(2021)02(b)-0092-05
Prediction Model of Octane Number Loss in Gasoline Refining Process Based on Data Mining
LI Dongchao
(School of Mathematics and Statistics, Nanjing University of Information Science & Technology, Nanjing, Jiangsu Province, 210044 China)
Abstract: The loss of octane number in the process of gasoline refining will reduce the combustion efficiency of gasoline. How to reduce the loss of octane number in the process of gasoline refining is an important issue facing related enterprises. This paper uses the data accumulated by a petrochemical enterprise during the refining process of catalytic cracking gasoline to establish a two-stage feature screening model based on neural network, measurement error model and DC-SIS data dimensionality reduction method, and select the one that has a greater impact on the octane number factor. An octane number prediction model based on XGBoost and neural network is designed, which can predict the octane number after refining under different raw materials and different operations. After verification, the mean square error of the model is 0.06876. A better prediction effect can be achieved in the alkane number prediction problem.
Key Words: Octane number; High dimensionality reduction; Neural networks; XGBoost
汽油是小型車輛的主要燃料,汽油燃燒產(chǎn)生的尾氣排放對大氣環(huán)境有重要影響。降低汽油中的硫、烯烴含量,同時(shí)盡量保持其辛烷值是汽油清潔化重點(diǎn)。我國原油對外依存度超過70%,且大部分是中東地區(qū)的含硫和高硫原油。原油中的重油通常占比40%~60%,這部分重油(以硫?yàn)榇淼碾s質(zhì)含量也高)難以直接利用。為了有效利用重油資源,我國大力發(fā)展了以催化裂化為核心的重油輕質(zhì)化工藝技術(shù),將重油轉(zhuǎn)化為汽油、柴油和低碳烯烴,超過70% 的汽油是由催化裂化生產(chǎn)得到,因此成品汽油中95% 以上的硫和烯烴來自催化裂化汽油。故必須對催化裂化汽油進(jìn)行精制處理,以滿足對汽油質(zhì)量要求。辛烷值(以RON 表示)是反映汽油燃燒性能的最重要指標(biāo)。在進(jìn)行精制處理時(shí),應(yīng)該盡可能減小辛烷值的損失,以保證汽油的燃燒性能[1-2]。
本文嘗試從數(shù)據(jù)挖掘的角度出發(fā),基于我國某石化企業(yè)在催化裂化汽油精制過程中積累的數(shù)據(jù),對應(yīng)影響辛烷值的因素進(jìn)行了探索,并利用XGBoost模型建立了辛烷值的預(yù)測模型。
1? 數(shù)據(jù)來源以及數(shù)據(jù)預(yù)處理
本文分析所用的數(shù)據(jù)來自于我國某石化企業(yè)催化裂化汽油精制脫硫裝置在多年運(yùn)行中積累的操作數(shù)據(jù)。獲取的數(shù)據(jù)中包含325個(gè)樣本,每個(gè)樣本包括7個(gè)原料性質(zhì)、2個(gè)待生吸附劑性質(zhì)、2個(gè)再生吸附劑性質(zhì)、2個(gè)產(chǎn)品性質(zhì)等13個(gè)屬性變量以及另外354個(gè)操作變量,共計(jì)367個(gè)變量。而響應(yīng)變量則為精制過程中辛烷值的損失量。
原始數(shù)據(jù)中,大部分變量數(shù)據(jù)正常,但每套裝置的數(shù)據(jù)均有部分變量存在問題:部分變量只含有部分時(shí)間段的數(shù)據(jù),部分變量的數(shù)據(jù)全部為空值或部分?jǐn)?shù)據(jù)為空值。這些數(shù)據(jù)缺失、不合理/異常的情況需要進(jìn)行包括數(shù)據(jù)填補(bǔ)、刪除變量、異常值提出等數(shù)據(jù)預(yù)處理。具體的處理方式如下:
(1)對于只含有部分時(shí)間點(diǎn)的變量,部分缺失,則填補(bǔ)缺失值,如果缺失較多可將此類變量刪除;
(2)對于樣本中數(shù)據(jù)全部為空值的變量,將此類變量刪除;
(3)對于部分?jǐn)?shù)據(jù)為空值的變量,空值處用其前后兩個(gè)小時(shí)數(shù)據(jù)的平均值代替;
(4)對于部分不在范圍內(nèi)的樣本,可根據(jù)操作要求及經(jīng)驗(yàn)總結(jié)出原始數(shù)據(jù)變量的操作范圍,采用最大最小的限幅方法將其剔除;
(5)對于異常值的處理,可根據(jù)拉依達(dá)準(zhǔn)則(3準(zhǔn)則)去除異常值。
2? 變量篩選
由于煉油工藝過程的復(fù)雜性以及設(shè)備的多樣性,需要操作的變量較多且各個(gè)變量之間具有高度非線性和相互強(qiáng)耦聯(lián)的關(guān)系[3]。這就導(dǎo)致這些變量之間是存在冗余信息的,在進(jìn)行預(yù)測時(shí)引入這些存在冗余的變量,不僅會增大訓(xùn)練的成本,也有可能導(dǎo)致模型過擬合,甚至導(dǎo)致一些模型無法正常構(gòu)建(如多重共線性問題)。因此為了減少過擬合、減少特征數(shù)量(降維)、提高模型泛化能力,也為了使模型獲得更好的解釋性,在建模之前需要首先進(jìn)行特征篩選處理。
在進(jìn)行特征篩選時(shí),一個(gè)必須堅(jiān)持的原則就是盡可能充分的挖掘出特征之間的相互關(guān)系,這種相互關(guān)系可能是線性關(guān)系,也可能是非線性的關(guān)系。一般的,線性關(guān)系是比較容易識別出來的,而非線性關(guān)系則相對比較難以識別。因此本文將神經(jīng)網(wǎng)絡(luò)模型和測量誤差模型結(jié)合起來,并采用兩階段處理的思路,創(chuàng)建了一種新的特征篩選的方法。該算法的基本流程如圖1所示。下面對該算法的細(xì)節(jié)進(jìn)行介紹。
一般情況下,在進(jìn)行工業(yè)操作時(shí),比較接近的工業(yè)操作往往是存在一定的非線性和相互強(qiáng)耦聯(lián)的關(guān)系的,因此本文在篩選變量的第一階段先對相鄰變量間的相互關(guān)系進(jìn)行探索。具體地,首先對數(shù)據(jù)中的所有變量按照工業(yè)操作順序進(jìn)行排序處理,得到排序后的變量數(shù)據(jù)集為,其中P為數(shù)據(jù)集中變量的總個(gè)數(shù)。然后,再采用滑動分箱的手段將這P個(gè)變量分為 個(gè)“箱子”?;瑒臃窒涞募?xì)節(jié)為:
對于第i個(gè)變量X1,我們選中其前后各K個(gè)變量作為第i個(gè)箱體bini中的變量。對每個(gè)變量執(zhí)行上面的操作,可以得到分箱后的箱體集合為,其中值得注意的是,對于靠近邊界處的變量,其某一側(cè)變量的個(gè)數(shù)可能不足K個(gè),則按不足 K個(gè)變量選擇。
完成對變量的分箱之后,下面對每個(gè)箱體內(nèi)部變量之間的相關(guān)性進(jìn)行探索??紤]變量之間的關(guān)系可能不是簡單的線性關(guān)系,本文利用神經(jīng)網(wǎng)絡(luò)模型在擬合非線性關(guān)系上的優(yōu)異表現(xiàn),設(shè)計(jì)了一種基于神經(jīng)網(wǎng)絡(luò)的測量誤差變量篩選模型[4-5],模型的基本思路見圖2。
對于第i個(gè)箱體bini,我們選擇變量k作為中心變量,為協(xié)變量,擬合變量與xi之間的神經(jīng)網(wǎng)絡(luò)模型NNi,得到預(yù)測結(jié)果 。
接下來,根據(jù)測量誤差模型的思路,如果協(xié)變量結(jié)合中的變量Xj與Xi之間存在強(qiáng)耦合關(guān)系,那么當(dāng)我們給Xj加上一個(gè)比較小的誤差時(shí),在利用神經(jīng)網(wǎng)絡(luò)模型NMi對預(yù)測時(shí),預(yù)測的結(jié)果應(yīng)該會發(fā)生比較大的變化,相反的,如果兩者的相互關(guān)系比較弱時(shí),那么預(yù)測的結(jié)果應(yīng)該不會發(fā)生比較大的變化。我們分別逐次給協(xié)變量集合中的每個(gè)變量加上一個(gè)比較小的誤差,然后將加上誤差的協(xié)變量集合帶到模型NMi中,得到對Xi結(jié)果預(yù)測結(jié)果。得到預(yù)測結(jié)果后,為了衡量加上誤差后預(yù)測結(jié)果的變動程度,我們設(shè)計(jì)了一個(gè)靈敏度指標(biāo)這個(gè)指標(biāo)的取值越大說明對應(yīng)變量對中心變量 的影響程度越大,即可以認(rèn)為兩個(gè)變量的耦合關(guān)系越強(qiáng)。我們給定閾值Wesholol,選擇靈敏度小于閾值對應(yīng)的變量,便可以對箱體Bini內(nèi)的變量進(jìn)行降維處理。
對每個(gè)箱體進(jìn)行相同的處理,然后將得到的所有變量合并去重組合在一起,便可以完成第一階段的降維處理。
第二階段的特征降維主要是利用DC-SIS算法[6-7]對第一階段的結(jié)果再次進(jìn)行降維處理。DC-SIS即基于距離系數(shù)的特征篩選方法,該方法通過定義特征與響應(yīng)變量之間的距離相關(guān)系數(shù)來衡量變量的重要程度,具體地,對于隨機(jī)變量u和v,他們之間的距離相關(guān)系數(shù)定義為
其中,和表示隨機(jī)變量u和v的特征向量,表示它們的聯(lián)合特征函數(shù),du和dv表示隨機(jī)向量u和v的維數(shù),而,該式中,則表示的歐式范數(shù)。
按照上述方式定義距離相關(guān)系數(shù)的優(yōu)勢在于,兩個(gè)隨機(jī)向量的距離相關(guān)系數(shù)為0當(dāng)且僅當(dāng)它們相互獨(dú)立.此外,兩個(gè)一元正態(tài)隨機(jī)變量的距離相關(guān)系數(shù)則隨著它們之間的皮爾遜相關(guān)系數(shù)的絕對值嚴(yán)格遞增。同時(shí),該特征篩選方法能夠直接用來處理分組變量以及多維因變量的篩選過程,也不需要預(yù)先假定變量與因變量之間的模型框架,所以可以稱得上是完全無模型方法,適合用于處理本問題中非線性特征重要性的分析。
根據(jù)上面的定義,只需要通過對距離相關(guān)系數(shù)進(jìn)行估計(jì)與排序,便可以計(jì)算出各個(gè)變量的重要性了。
對汽油精制過程按照前述三步兩階段的方法進(jìn)行處理,可以得到汽油精制過程中重要的特征有19個(gè),如表1所示。
根據(jù)表1可以發(fā)現(xiàn),對辛烷值損失量影響比較大的特征中除了一些操作變量之外,還有一些原材料屬性變量,如辛烷值、硫含量、飽和烴、烯烴。這與一般的認(rèn)知是相符的,在進(jìn)行精制時(shí),辛烷值的損失量不僅取決于操作技術(shù)的水平,還取決于原材料的原始屬性。
3? 基于XGBoost和神經(jīng)網(wǎng)絡(luò)的辛烷值損失預(yù)測
XGBoost模型是Boosting 算法的一種。該算法思想就是不斷地添加樹,并通過特征分裂來生長一棵樹,每添加一棵樹就是學(xué)習(xí)一個(gè)新函數(shù),去擬合上一步預(yù)測的殘差。通過不斷的迭代學(xué)習(xí),最終實(shí)現(xiàn)對目標(biāo)變量的預(yù)測。
盡管XGBoost模型作為一個(gè)機(jī)器學(xué)習(xí)模型有很好的表現(xiàn),但是考慮到樹模型在處理回歸問題時(shí)仍存在一定的局限性,因此本文將XGBoost模型與神經(jīng)網(wǎng)絡(luò)模型進(jìn)行了融合,首先利用XGBoost模型進(jìn)行訓(xùn)練并計(jì)算殘差,然后再利用神經(jīng)網(wǎng)絡(luò)模型對XGBoost模型的預(yù)測殘差進(jìn)行擬合,以便達(dá)到一個(gè)比較好的預(yù)測效果,即辛烷值損失量的預(yù)測值為,其中表示XGBoost模型的預(yù)測結(jié)果,表示神經(jīng)網(wǎng)絡(luò)對參加的進(jìn)一步擬合結(jié)果。接下來將對具體解決問題的過程進(jìn)行說明。
在本文要解決的問題中,由于煉油工藝過程的復(fù)雜性以及設(shè)備的多樣性,操作變量眾多,且變量間具有高度非線性和相互強(qiáng)耦聯(lián)的關(guān)系,不利于分析并發(fā)現(xiàn)模型的主要變量和因素。這里選擇經(jīng)過數(shù)據(jù)預(yù)處理和建模變量篩選后的19個(gè)具有代表性的主要變量來作為訓(xùn)練辛烷值損失預(yù)測模型的解釋變量,經(jīng)過前面的特征選擇方法,認(rèn)為這19個(gè)變量可以比較充分的反應(yīng)原始變量中的信息。而響應(yīng)變量則為辛烷值的損失量。
在訓(xùn)練模型時(shí),本文首先在原始的325個(gè)樣本中隨機(jī)選擇70%的樣本數(shù)據(jù)作為訓(xùn)練集,用以訓(xùn)練模型,確定XGBoost模型和BP神經(jīng)網(wǎng)絡(luò)模型的參數(shù)。而另外30%的樣本數(shù)據(jù)則作為測試集,用來測試模型的預(yù)測效果如何。
經(jīng)過測試,該模型對汽油精制過程中辛烷值損失量的預(yù)測效果是比較好的,模型的MSE(均方誤差)為0.06876。具體的預(yù)測效果如下圖所示:
由圖3-1可以看出,經(jīng)過精制處理后真實(shí)的辛烷值與預(yù)測的辛烷值是比較吻合的,這證明基于XGBoost和神經(jīng)網(wǎng)絡(luò)的辛烷值損失預(yù)測算法在預(yù)測辛烷值的損失情況時(shí)是有一定的可參考性,我們可以利用該模型來對不同的原材料和處理工藝進(jìn)行分析,以便針對不同質(zhì)量水平的原材料設(shè)計(jì)不同的精制工藝。
4? 總結(jié)
本文為了預(yù)測汽油精制過程的辛烷損失情況,利用我國某石化企業(yè)在催化裂化汽油精制過程中積累的數(shù)據(jù),對精制過程中影響辛烷值損失量的因素進(jìn)行了探索,設(shè)計(jì)了一種基于神經(jīng)網(wǎng)絡(luò)、測量誤差模型以及的DC-SIS數(shù)據(jù)降維方法的兩階段特征篩選模型,可以在較多的操作變量中選擇出對辛烷值影響比較大的因素,進(jìn)一步地,本文設(shè)計(jì)了一種基于XGBoost和神經(jīng)網(wǎng)絡(luò)的辛烷值預(yù)測模型,可以實(shí)現(xiàn)對不同原材料和不同操作下精制后辛烷值的預(yù)測,這有利于相關(guān)工作人員根據(jù)不同的原料選擇不同的操作方法來減少辛烷值的損失量,經(jīng)過驗(yàn)證,模型的均方誤差為0.06876,相對較小,說明該模型是有一定的實(shí)用價(jià)值的。
參考文獻(xiàn)
[1] 鮑樹海.煉油化工企業(yè)催化汽油加氫工藝技術(shù)[J].化學(xué)工程與裝備,2020(10):25-26.
[2] 趙鵬,焦峰,郭良,趙娟.降低催化裂化汽油烯烴含量的操作手段及優(yōu)化方向[J].中外能源,2019,24(07):74-78.
[3] 張大齊.催化裂化汽油中輕汽油脫硫的研究[D].武漢工程大學(xué),2016.
[4] Jae Kwon Kim, Sanggil Kang. Neural Network-Based Coronary Heart Disease Risk Prediction Using Feature Correlation Analysis[J]. Journal of Healthcare Engineering, 2017, Article ID 2780501, 13 pages.
[5] White, K. R., Stefanski, L. A., and Wu, Y. Variable Selection in Kernel Regression Using Measurement Error Selection Likelihoods[J]. Journal of the American Statistical Association, 2017, 112, 1587–1597.
[6] Li, R., Zhong, W. and Zhu, L.Feature Screening via Distance Correlation Learning. Journal of American Statistical Association,2012,107, 1129-1139.
[7] 連亦旻.超高維特征篩選方法SEVIS及其應(yīng)用[D]. 中國科學(xué)技術(shù)大學(xué), 2017.