申平 田德生
[摘 要]針對(duì)精煉汽油辛烷值損失的問(wèn)題,基于灰色關(guān)聯(lián)度分析方法與最大信息系數(shù)方法,給出變量分組降維的特征選擇方法,以有效選擇出具有獨(dú)立性代表的特征;與隨機(jī)森林算法相結(jié)合,提出一種辛烷值損失量預(yù)測(cè)模型。由于操作變量之間具有高度非線性和相互強(qiáng)耦聯(lián)的關(guān)系,采用變量分組降維,即考慮操作變量、性質(zhì)變量與產(chǎn)品硫含量、辛烷值損失的關(guān)系來(lái)篩選特征。利用灰色關(guān)聯(lián)度篩選出對(duì)辛烷值損失和產(chǎn)品硫含量的關(guān)聯(lián)程度較強(qiáng)的特征,排序后由最大信息系數(shù)篩選出28個(gè)獨(dú)立變量。收集研究生數(shù)學(xué)建模競(jìng)賽試題數(shù)據(jù),采用隨機(jī)森林算法進(jìn)行仿真預(yù)測(cè)計(jì)算。計(jì)算結(jié)果表明,基于變量分組的特征選擇和辛烷值損失預(yù)測(cè)模型得到的均方誤差為0.0086,擬合值R2為92.5%。
[關(guān)鍵詞]變量分組; 灰色關(guān)聯(lián)度; 最大信息系數(shù); 隨機(jī)森林; 辛烷值損失預(yù)測(cè)
[中圖分類號(hào)]TE62[文獻(xiàn)標(biāo)識(shí)碼]A
成品汽油是由原油經(jīng)過(guò)一系列的工藝加工而成,其中催化裂化就是將原油中40%~60%重油輕質(zhì)化的一個(gè)重要工序,經(jīng)過(guò)這一工序得到的催化裂化汽油具有高硫、高烯烴的缺點(diǎn),為了達(dá)到可使用的汽油質(zhì)量要求,就必須進(jìn)行脫硫和降烯烴的精制處理。在對(duì)催化裂化汽油進(jìn)行脫硫和降烯烴的精制過(guò)程中,往往會(huì)導(dǎo)致汽油辛烷值下降。
高品質(zhì)的汽油具有較高的辛烷值和低的含硫量。影響辛烷值損失的因素包括原料性質(zhì)、待生吸附劑性質(zhì)、再生吸附劑性質(zhì)和產(chǎn)品性質(zhì)等變量以及300多個(gè)操作變量(控制變量)。辛烷值是反映汽油燃燒性能的重要指標(biāo),人們把它作為汽油的商品牌號(hào)(例如89#、92#、95#),它的高低直接與經(jīng)濟(jì)收益相聯(lián)系。為了經(jīng)濟(jì)效益的最大化,在減少環(huán)境污染(即控制硫含量)的基礎(chǔ)上,進(jìn)行降低辛烷值損失研究就顯得尤為重要,權(quán)衡深度脫硫與辛烷值損失之間的關(guān)系,也成為人們關(guān)注的問(wèn)題。很多學(xué)者在影響汽油辛烷值損失因素、優(yōu)化降低辛烷值損失的操作變量等方面進(jìn)行廣泛研究。高潔等[1]為了降低辛烷值損失,制定了優(yōu)化操作條件的相關(guān)措施;齊萬(wàn)松等[2]采用吸附劑低活性、降低氫油比、提高反應(yīng)溫度等操作條件去降低汽油脫硫的辛烷值損失;黃宏林等[3]在分析裝置辛烷值損失原因后制定了優(yōu)化調(diào)整措施,分階段進(jìn)行優(yōu)化調(diào)整裝置的參數(shù),優(yōu)化調(diào)整后產(chǎn)品辛烷值損失得以降低;張玉瑞等[4]經(jīng)過(guò)調(diào)和實(shí)驗(yàn),建立了非線型回歸模型,調(diào)和辛烷值模型的預(yù)測(cè)模型。
學(xué)者大多側(cè)重于化工過(guò)程的建模研究,即在化工條件下降低辛烷值損失因素的研究。實(shí)際上,由于煉油工藝過(guò)程的復(fù)雜性以及設(shè)備的多樣性,操作變量(控制變量)之間具有高度非線性和相互強(qiáng)耦聯(lián)的關(guān)系,若是采用化工過(guò)程建模研究,僅僅通過(guò)數(shù)據(jù)關(guān)聯(lián)或機(jī)理建模的方法來(lái)實(shí)現(xiàn)優(yōu)化控制,往往達(dá)不到理想的效果。因此,筆者采用不同的方法建立辛烷值損失預(yù)測(cè)模型。這個(gè)問(wèn)題涉及變量數(shù)量眾多,對(duì)于有大量變量的工程技術(shù)應(yīng)用問(wèn)題經(jīng)常采取先降維后建模的方法。由于不同的變量相互耦聯(lián)關(guān)系強(qiáng)度不同,且它們對(duì)辛烷值損失的影響程度不一樣,因此本文在進(jìn)行變量降維之前先對(duì)變量進(jìn)行分組,對(duì)不同的組別分別進(jìn)行降維,確定篩選出主要變量后,再建立辛烷值損失預(yù)測(cè)模型。
本文研究的是精煉汽油生產(chǎn)過(guò)程辛烷值損失量的預(yù)測(cè)問(wèn)題,這也是一個(gè)涉及變量多的非線性問(wèn)題,常用的統(tǒng)計(jì)方法解決這類問(wèn)題都不奏效。為了達(dá)到良好的預(yù)測(cè)效果,采取變量分組降維思路結(jié)合灰色關(guān)聯(lián)度與最大信息系數(shù)方法,處理高維變量降維問(wèn)題。文本數(shù)據(jù)集來(lái)源于2020年“華為杯”第十七屆中國(guó)研究生數(shù)學(xué)建模競(jìng)賽B題。數(shù)據(jù)中有7個(gè)原料性質(zhì)變量、2個(gè)待生吸附劑性質(zhì)變量、2個(gè)再生吸附劑性質(zhì)變量和354個(gè)操作變量。先通過(guò)過(guò)濾型算法方差選擇法去掉方差小的變量;再根據(jù)對(duì)催化裂化汽油精制脫硫裝置的工藝操作特點(diǎn),將變量分為操作變量組和性質(zhì)變量組。對(duì)不同組別分別計(jì)算變量與產(chǎn)品汽油的辛烷值和含硫量的灰色關(guān)聯(lián)度,得到一個(gè)排序(顯示這些變量對(duì)辛烷值損失和產(chǎn)品硫含量的關(guān)聯(lián)性程度);之后運(yùn)用最大信息系數(shù)計(jì)算變量之間的信息系數(shù),確定篩選出具有代表性和獨(dú)立性的變量;最后采用隨機(jī)森林算法進(jìn)行辛烷值損失量的預(yù)測(cè)。
1 主要原理和核心算法
針對(duì)變量數(shù)量多且不同的變量相互耦聯(lián)關(guān)系強(qiáng)度不同的情況,本文采取分組降維,采取的方法是灰色關(guān)聯(lián)度法和最大信息系數(shù)法。灰色關(guān)聯(lián)度法對(duì)于變量間相互耦聯(lián)關(guān)系強(qiáng)度不同的排序問(wèn)題具有優(yōu)勢(shì),最大信息系數(shù)方法更適合篩選出獨(dú)立特征(變量)。最大信息系數(shù)能夠?qū)⒆畲蟮奶卣魅コ?,得到相?duì)獨(dú)立的特征去除相關(guān)性較大的特征,在保證特征關(guān)聯(lián)度的同時(shí)也考慮特征之間的獨(dú)立性,使選擇的特征盡可能具有獨(dú)立性和代表性。
在建立預(yù)測(cè)辛烷值損失模型時(shí),本文選擇隨機(jī)森林預(yù)測(cè)算法。這種算法在很多數(shù)據(jù)集上建立隨機(jī)的樹,樹與樹之間(即特征子集之間)具有相互獨(dú)立的特點(diǎn),因此以部分的特征數(shù)據(jù)進(jìn)行預(yù)測(cè),仍可以維持結(jié)果準(zhǔn)確度。
1.1 灰色關(guān)聯(lián)度分析
灰色關(guān)聯(lián)度(GRA)[5]可以通過(guò)對(duì)比參考數(shù)據(jù)列與比較數(shù)據(jù)列的相似程度去衡量?jī)烧叩年P(guān)系是否具有關(guān)聯(lián)性。關(guān)聯(lián)系數(shù)
其中:Δ0i(k)表示第k點(diǎn)X0與Xi的絕對(duì)差;ρ為分辨系數(shù),其作用是減少因Δmax數(shù)值失真而導(dǎo)致的誤差,ρ一般取0.5。
1.2 最大信息系數(shù)
最大信息系數(shù)(MIC)[7]主要用于衡量?jī)蓚€(gè)變量X和Y之間的線性或非線性耦合關(guān)聯(lián)強(qiáng)度。
設(shè)X,Y是取值于數(shù)據(jù)集D中的兩個(gè)隨機(jī)變量,兩個(gè)隨機(jī)變量(X,Y)聯(lián)合概率密度函數(shù)為p(x,y),邊緣概率密度函數(shù)為p(x)和p(y),定義兩個(gè)隨機(jī)變量取值x和y之間的互信息為
將數(shù)據(jù)集D 中兩個(gè)隨機(jī)變量的不同取值用網(wǎng)格分布的方式劃分,即將隨機(jī)變量X和Y的取值分別劃分為a個(gè)網(wǎng)格和b個(gè)網(wǎng)格,形成a×b個(gè)網(wǎng)格劃分。由于隨機(jī)變量X和Y取值的隨機(jī)性,它們?cè)诓煌木W(wǎng)格劃分方法中的分布也不同,將不同網(wǎng)格劃分方法中的互信息MI(x;y)的最大值作為最大互信息值。經(jīng)過(guò)歸一化處理可得最大信息系數(shù)MIC的表達(dá)式[8]為
其中,B(n)=n0.6。最大信息系數(shù)的取值在[0,1]之間,取值越接近1,代表隨機(jī)變量X、Y之間的依賴關(guān)系越強(qiáng);取值越接近0,代表隨機(jī)變量X、Y之間的依賴關(guān)系越弱。
1.3 隨機(jī)森林預(yù)測(cè)算法
隨機(jī)森林算法(RF)是一種有監(jiān)督學(xué)習(xí)算法,在處理分類和回歸問(wèn)題方面具有優(yōu)越的性能。它通過(guò)構(gòu)建多棵相互獨(dú)立的決策樹組成的森林來(lái)完成決策、分類和回歸的任務(wù)[9]。經(jīng)過(guò)訓(xùn)練后,算法中設(shè)立森林的每一棵決策樹會(huì)分別對(duì)新輸入的樣本進(jìn)行預(yù)測(cè),由多顆樹預(yù)測(cè)值的均值決定最終預(yù)測(cè)結(jié)果。
構(gòu)造隨機(jī)森林算法的步驟為3步[15]:1)確定用于構(gòu)造的樹的個(gè)數(shù);2)對(duì)數(shù)據(jù)進(jìn)行自助采樣;3)基于新數(shù)據(jù)集構(gòu)造決策樹。
2 結(jié)果
2.1 數(shù)據(jù)的收集
本文數(shù)據(jù)集來(lái)源于2020年“華為杯”第十七屆中國(guó)研究生數(shù)學(xué)建模競(jìng)賽B題(https: //cpipc.chinadegrees.cn//cw/4924b7f01749981b29502e9)。該數(shù)據(jù)集是某石化企業(yè)的催化裂化汽油精制脫硫裝置積累的大量歷史數(shù)據(jù),包括從催化裂化汽油精制裝置采集的325個(gè)數(shù)據(jù)樣本,每個(gè)數(shù)據(jù)樣本中有7個(gè)原料性質(zhì)變量、2個(gè)待生吸附劑性質(zhì)變量、2個(gè)再生吸附劑性質(zhì)變量(以上被稱為性質(zhì)變量)和354個(gè)操作變量。這些數(shù)據(jù)采自于中石化高橋石化實(shí)時(shí)數(shù)據(jù)庫(kù)(霍尼韋爾PHD)及LIMS實(shí)驗(yàn)數(shù)據(jù)庫(kù)。其中操作變量數(shù)據(jù)來(lái)自于實(shí)時(shí)數(shù)據(jù)庫(kù)。
2.2 計(jì)算結(jié)果及分析
2.2.1 數(shù)據(jù)預(yù)處理
1)去除異常值 去除異常值的根據(jù)是3σ原則處理,并采用3σ邊緣數(shù)值進(jìn)行替換。對(duì)于超過(guò)操作變量取值范圍的變量,刪除異常比例為較高的操作變量,即刪除7個(gè)變量,它們是S.ZORB.TE_2005.PV,S.ZORB.PT_9403.PV,S.ZORB.LC_1201.PV,S.ZORB.FT_1004.TOTAL,S.ZORB.FT_9101.TOTAL,S.ZORB.TE_5007.DACA,S.ZORB.PT_2106.DACA.PV。處理后的數(shù)據(jù)包含11個(gè)性質(zhì)變量和347個(gè)操作變量。
2)線性過(guò)濾法預(yù)處理 線性過(guò)濾法預(yù)處理就是對(duì)數(shù)據(jù)進(jìn)行相關(guān)性和共線性的度量處理,刪除數(shù)據(jù)中的方差較小變量。這一過(guò)程中,對(duì)于347個(gè)操作變量,去除強(qiáng)共線性>0.9的138個(gè)操作變量,剩下209個(gè)操作變量。10個(gè)性質(zhì)變量保持不變。
2.2.2 特征的選取
1)變量分組降維 考慮到數(shù)據(jù)性質(zhì)變量和操作變量與對(duì)辛烷值損失的不同影響程度,故將變量分為性質(zhì)變量組和操作變量組。通過(guò)Python語(yǔ)言計(jì)算灰色關(guān)聯(lián)度選出變量,將因變量辛烷值損失和產(chǎn)品硫含量分別作為參考序列,分組后的變量作為自變量序列,分開分析篩選變量。將變量進(jìn)行歸一化處理(區(qū)間化),采用式(1)計(jì)算出關(guān)聯(lián)系數(shù),計(jì)算出10個(gè)性質(zhì)變量與209個(gè)操作變量分別對(duì)產(chǎn)品硫含量和辛烷值損失的灰色關(guān)聯(lián)度,計(jì)算結(jié)果如表1和表2。
根據(jù)表1和表2結(jié)果,將得到的灰色關(guān)聯(lián)度進(jìn)行排序。為保證選取的變量在30個(gè)以內(nèi),在選取與產(chǎn)品硫含量較大關(guān)聯(lián)度的變量時(shí),可選取GRA1>0.5644的前6個(gè)性質(zhì)變量、GRA2>0.8244的前20個(gè)操作變量,共26個(gè)變量;在選取與辛烷值損失較大關(guān)聯(lián)度的變量時(shí),可選取GRA2>0.6990的前6個(gè)性質(zhì)變量、GRA4>0.7602的前24個(gè)操作變量。表3和表4分別表示選出的變量對(duì)于產(chǎn)品硫含量和辛烷值損失的灰色關(guān)聯(lián)度排序。
對(duì)表3和表4篩選出的變量進(jìn)行匯總,去掉重復(fù)和關(guān)聯(lián)度相對(duì)較低的變量,最終選出8個(gè)性質(zhì)變量和39個(gè)操作變量,共計(jì)47個(gè)變量(表5)。
2)獨(dú)立性的判別 為了去除表5中具有較為復(fù)雜耦合關(guān)系的變量(獨(dú)立性較差),采用最大信息系數(shù)方法進(jìn)行篩選。運(yùn)用R軟件對(duì)式(2)計(jì)算出的47個(gè)變量之間的互信息進(jìn)行編程,將其代入式(3),得到特征之間的最大信息系數(shù)。最大信息系數(shù)的圖像如圖1a所示。
在圖1中,橫縱坐標(biāo)表示不同的變量,中間的圓形色點(diǎn)色度代表兩個(gè)變量之間最大信息系數(shù)的強(qiáng)弱,偏向紅褐色表明兩個(gè)變量之間的相關(guān)性強(qiáng)度較強(qiáng)。色度變化范圍為0~1,其值越接近1,顏色越接近紅褐色。
為選出獨(dú)立性強(qiáng)的變量,首先剔除最大信息系數(shù)大于0.5的變量。通過(guò)對(duì)辛烷值的模擬計(jì)算和結(jié)果對(duì)比,選取28個(gè)變量,其中性質(zhì)變量6個(gè),操作變量22個(gè)(表6)。
對(duì)選擇出28個(gè)變量(特征),計(jì)算28個(gè)重要特征的最大信息系數(shù),如圖1b所示。圖1b中色點(diǎn)顏色值均在0.5以下,這表明變量之間耦合關(guān)系不強(qiáng),即所選變量具有較好的獨(dú)立性。
2.2.3 辛烷值損失預(yù)測(cè)結(jié)果與分析 對(duì)辛烷值損失預(yù)測(cè)計(jì)算,擬建立隨機(jī)森林算法[10]模型。Scikit-learn工具包是一個(gè)開源的基于Python編程語(yǔ)言的機(jī)器學(xué)習(xí)工具庫(kù)。
1)確定森林中樹的數(shù)目,即決策數(shù)樹數(shù)目[11]。在Scikit-learn工具包中RandomForestRegressor函數(shù),決策數(shù)樹目以參數(shù)n_estimators表示。理論上講n_estimators越大越好,但由于計(jì)算機(jī)資源的占用會(huì)導(dǎo)致訓(xùn)練和預(yù)測(cè)時(shí)間的增加[12]。在Scikit-learn中n_estimators默認(rèn)為10,本文通過(guò)設(shè)定為20,50,80測(cè)試,最終設(shè)定為50。
2)對(duì)數(shù)據(jù)進(jìn)行自助采樣。從樣本集中有放回地重復(fù)隨機(jī)抽取一個(gè)樣本,共抽取n_sample次,組成新的數(shù)據(jù)集。新數(shù)據(jù)集的樣本容量與原數(shù)據(jù)集的相等,本文數(shù)據(jù)集的樣本容量為325。
3)基于新數(shù)據(jù)集來(lái)構(gòu)造決策樹。在每個(gè)結(jié)點(diǎn)處選取特征的一個(gè)子集,選取的特征子集中特征的個(gè)數(shù)通過(guò)max_features參數(shù)來(lái)控制,一般max_features參數(shù)的設(shè)置不宜過(guò)小。在Scikit-learn中,max_features有以下幾種設(shè)置:auto,sqrt,log2,None[12]。這里設(shè)置為None。
在計(jì)算中,產(chǎn)品辛烷值作為被解釋變量,變量數(shù)據(jù)進(jìn)行歸一化處理后,將隨機(jī)選取的228個(gè)樣本數(shù)據(jù)作為訓(xùn)練集數(shù)據(jù),選取97個(gè)樣本數(shù)據(jù)作為測(cè)試集數(shù)據(jù),利用測(cè)試集數(shù)據(jù)對(duì)擬合好的模型進(jìn)行辛烷值損失的預(yù)測(cè)。計(jì)算結(jié)果見圖2。
圖2中:紅色的曲線為真實(shí)值的波動(dòng)情況;綠色為隨機(jī)森林模型[13]預(yù)測(cè)曲線,擬合值R2為92.5%;藍(lán)色的曲線為支持向量機(jī)回歸模型[14]預(yù)測(cè)曲線,擬合值R2為89.1%;淺綠色為決策數(shù)回歸模型[15]預(yù)測(cè)曲線,擬合值R2為86.6%。從圖2可知,基于隨機(jī)森林算法的預(yù)測(cè)值曲線與真實(shí)值曲線的重疊程度最高,說(shuō)明所建立的預(yù)測(cè)模型預(yù)測(cè)效果較好。
比較不同的算法預(yù)測(cè)模型的預(yù)測(cè)性能。表7為預(yù)測(cè)性能評(píng)價(jià)指標(biāo)MSE值、MAE值、R2的值。
從表7結(jié)果可知,本文使用的隨機(jī)森林算法的均方誤差(MSE)為0.0086,平方絕對(duì)誤差(MAE)為0.0653,MSE和MAE值均比支持向量機(jī)回歸和決策樹回歸的小,這進(jìn)一步說(shuō)明隨機(jī)森林算法的預(yù)測(cè)精度優(yōu)于支持向量機(jī)回歸和決策樹回歸,而且基于變量分組降維的隨機(jī)森林算法的可決系數(shù)達(dá)到92%以上。在模型能力的解釋方面,該方法能解釋樣本數(shù)據(jù)中92%以上的信息,體現(xiàn)其具有合理性。
3 結(jié)束語(yǔ)
針對(duì)選取具有獨(dú)立性和代表性的重要特征,以及建立預(yù)測(cè)辛烷值損失預(yù)測(cè)模型的問(wèn)題,提出了基于變量分組的特征選擇和辛烷值損失預(yù)測(cè)模型。通過(guò)變量分組,將性質(zhì)變量和操作變量分別處理,分析其與產(chǎn)品硫含量、辛烷值損失的關(guān)系;通過(guò)灰色關(guān)聯(lián)度方法得到關(guān)聯(lián)度強(qiáng)的特征,排序進(jìn)行篩選;再利用最大信息系數(shù)篩選出獨(dú)立性特征,最終得到28個(gè)特征。在預(yù)測(cè)模型方面,采用隨機(jī)森林構(gòu)建辛烷值損失預(yù)測(cè)模型,與支持向量機(jī)回歸和決策樹回歸算法比較,構(gòu)建的隨機(jī)森林辛烷值損失預(yù)測(cè)模型得到的均方誤差為0.0086,R2為92.5%。通過(guò)將變量分組并采取融合灰色關(guān)聯(lián)度分析方法和最大信息系數(shù)方法,在選擇具有代表性特征的同時(shí),更保證操作變量之間的獨(dú)立性。
[ 參 考 文 獻(xiàn) ]
[1] 高潔,王莉娟,孫麗琳. 優(yōu)化操作條件降低汽油辛烷值損失[J]. 石油化工應(yīng)用,2011, 11(11):97-101.
[2] 齊萬(wàn)松,姬曉軍,侯玉寶,等. SZorb裝置降低汽油辛烷值損失的探索與實(shí)踐[J].煉油技術(shù)與工程, 2014,44(11):5-10.
[3] 黃宏林,李燁,谷曉琳. 優(yōu)化操作條件降低汽油加氫裝置辛烷值損失[J]. 石油化工應(yīng)用, 2015, 34(12): 116-118.
[4] 張玉瑞,陳微微,周曉龍,等. 一種改進(jìn)的調(diào)合辛烷值模型預(yù)測(cè)汽油研究法辛烷值[J]. 石油煉制與化工, 2011,1(03):14-28.
[5] 江世艷,王燕青,徐越峰,等. 基于灰色關(guān)聯(lián)分析的電網(wǎng)安全事故關(guān)鍵致因分析[J].中國(guó)電力,2020(10):56-59.
[6] 張曉娜. 我國(guó)服務(wù)業(yè)與城鎮(zhèn)化的灰色關(guān)聯(lián)度實(shí)證考察[J]. 統(tǒng)計(jì)與決策,2020(09):97-100.
[7] RESHEF D N, RESHEF Y A, FINUCANE H K, et al. Detecting Novel Associations in Large Data Sets[J].Science, 2011,334(6062): 1518-1524.
[8] 張瑩,杜井濤,吳懷崗. 基于最大信息系數(shù)的主成分分析貝葉斯分類算法[J]. 信息與電腦, 2020,32(11),63-66.
[9] TIN K H. The random subspace method for constructing decision forests[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1998, 8(10): 832-844.
[10]YU F B, WEI C H, DENG P. Deep exploration of random forest model boosts the interpretability of machine learning studies of complicated immune responses and lung burden of nanoparticles[J]. Science Advances, 2021, 5(26): 7-22.
[11]盧維學(xué),吳和成,萬(wàn)里洋. 基于融合隨機(jī)森林算法的PLS對(duì)降水量的預(yù)測(cè)[J]. 統(tǒng)計(jì)與決策.2020,8(18):27-31.
[12]暮雪成冰,隨機(jī)森林n_estimators參數(shù)max_features參數(shù)[EB/OL].[2019-06-19]https://blog.csdn.net/u012768474/article/details/92829985.
[13]BREIMAN L. Random forests[J]. Mach Learn,2001, (45): 5-32.
[14]周洲,焦文玲,任樂(lè)梅,田興浩. 蟻群算法分配權(quán)重的燃?xì)馊肇?fù)荷組合預(yù)測(cè)模型[J].哈爾濱工業(yè)大學(xué)學(xué)報(bào),2021(06):177-183.
[15]王馬強(qiáng). 數(shù)據(jù)挖掘方法在信用卡違約預(yù)測(cè)中的應(yīng)用[D]. 武漢:華中師范大學(xué).2020.
Feature Selection and Octane Number Loss Prediction
Model Based on Variable Grouping
SHEN Ping, TIAN Desheng
(School of Science, Hubei Univ. of Tech., Wuhan 430068,China)
Abstract:This paper studies the octane number loss of refined gasoline. In order to effectively select the features with independent representation, based on the grey relational analysis method and the maximum information coefficient method, the feature selection method of variable grouping dimension reduction is given. Combined with stochastic forest algorithm, a prediction model of octane number loss is proposed. In view of the highly nonlinear and strongly coupled relationship among operational variables, variable grouping is adopted to reduce dimension, that is, the relationship between operational variables and property variables and sulfur content and octane number loss of products is considered to screen features. The features with strong correlation between octane number loss and sulfur content of products were screened by grey correlation degree, and 28 independent variables were screened by maximum information coefficient after sorting. The data of postgraduate mathematical modeling contest are collected, and the random forest algorithm is used for simulation and prediction calculation. The calculation results show that the mean square error of feature selection and octane number loss prediction model based on variable grouping is 0.0086, and the fitting value R2is 92.5%.
Keywords:variable grouping; grey correlation degree; maximum information coefficient; random forest; octane number loss predict
[責(zé)任編校:張 眾]