楚慶玲,平振東,于明加,唐 鑫
(長安大學(xué),陜西 西安 710064)
汽油是目前小型汽車使用最多的燃料,汽車尾氣排放對空氣污染尤為嚴(yán)重。我國也高度重視汽車尾氣排放問題[1]。汽油的清潔對于環(huán)境保護(hù)尤為重要。其中,烯烴是汽油中的高辛烷值組分,辛烷值是交通工具所使用的燃料抵抗震爆的指標(biāo)。為解決車用汽油調(diào)和問題,在盡可能保持汽油辛烷值的同時,降低汽油中的硫和烯烴含量,為應(yīng)對國Ⅵ車用汽油標(biāo)準(zhǔn)問題提供一定的指導(dǎo)[2]。
機(jī)器學(xué)習(xí)的迅速發(fā)展為建立學(xué)習(xí)模型提供了許多有效的算法[3-10]。周小偉等人[3]采用多元線性回歸和BP神經(jīng)網(wǎng)絡(luò)建立了復(fù)雜反映辛烷值的預(yù)測模型;經(jīng)測試,BP神經(jīng)網(wǎng)絡(luò)的性能較好。朱曉等人[4]研究了化學(xué)物質(zhì)的結(jié)構(gòu)與性能之間的關(guān)系,利用支持向量機(jī)算法建立了基于分子結(jié)構(gòu)的辛烷值預(yù)測模型;結(jié)果表明,該模型具有較好的預(yù)測能力,為烷烴馬達(dá)法辛烷值的預(yù)測提供了新的思路。孫忠超等人[5]將改進(jìn)的支持向量機(jī)和BP神經(jīng)網(wǎng)絡(luò)模型應(yīng)用于烯烴、烷烴的數(shù)據(jù)預(yù)測,建立了汽油中環(huán)烷烴和芳烴辛烷值預(yù)測的數(shù)學(xué)模型。計(jì)算結(jié)果表明,在樣本較少的情況下,BP神經(jīng)網(wǎng)絡(luò)的預(yù)測性能略優(yōu)于改進(jìn)的支持向量機(jī)算法;當(dāng)樣本數(shù)增加到40個時,兩者的性能有所改善,且沒有顯著差異。
本文采用最大信息系數(shù)篩選特征變量,選取代表性好、獨(dú)立性高的主變量,采用徑向基函數(shù)(RBF)神經(jīng)網(wǎng)絡(luò)預(yù)測辛烷值損失,并通過實(shí)驗(yàn)驗(yàn)證算法的適用性和可行性。
本文采用中石化高橋石化實(shí)時數(shù)據(jù)庫和LIMS實(shí)驗(yàn)數(shù)據(jù)庫中的數(shù)據(jù),收集2017年4月至2020年5月近三年共354個操作位點(diǎn)數(shù)。2017年4月至2019年9月,數(shù)據(jù)采集頻次為3 min/次,后續(xù)時間使用采集頻次為6 min/次。原料、產(chǎn)品和催化劑數(shù)據(jù)來自于LIMS實(shí)驗(yàn)數(shù)據(jù)庫,數(shù)據(jù)時間范圍為2017年4月至2020年5月。其中原料及產(chǎn)品的辛烷值是重要的建模變量,該數(shù)據(jù)采集頻次為每周兩次。
原始數(shù)據(jù)中包含大量的缺省值和異常值。缺省值處理過程中,對于只含有部分時間點(diǎn)的位點(diǎn),如果數(shù)據(jù)中殘缺部分較多,且無法補(bǔ)充,則刪除;若325個樣本中位點(diǎn)數(shù)據(jù)全部為空值,則刪除;對于部分?jǐn)?shù)據(jù)為空值的位點(diǎn),用其前后兩個小時數(shù)據(jù)的平均值代替。異常值處理過程中,根據(jù)拉依達(dá)準(zhǔn)則(3σ準(zhǔn)則)進(jìn)行異常值的處理。首先對被測量變量進(jìn)行等精度測量,得到x1, x2, ..., xn,計(jì)算出被測變量的算數(shù)平均值x:
以及剩余誤差vi:
按照貝塞爾公式算出標(biāo)準(zhǔn)誤差σ:
若某個測量值xb的剩余誤差vb(1≤b≤n)滿足:
最終剔除含有粗大誤差值的異常值xb。
在預(yù)處理的數(shù)據(jù)中,兩小時內(nèi)的平均值與目標(biāo)辛烷值對應(yīng),其中出現(xiàn)大量的次要數(shù)據(jù)與冗余數(shù)據(jù),且各個操作變量之間具有高度非線性和相互強(qiáng)耦聯(lián)的關(guān)系,所以本文選用可以處理非線性數(shù)據(jù)的相關(guān)性分析—最大信息系數(shù)(MIC),衡量兩個變量X和Y之間的關(guān)聯(lián)程度,即線性或非線性的強(qiáng)度,通過相關(guān)性的強(qiáng)弱完成數(shù)據(jù)的降維操作。
圖1 數(shù)據(jù)降維思路結(jié)構(gòu)圖
1.3.1 最大信息系數(shù)(MIC)
最大信息系數(shù)是一種不需要對數(shù)據(jù)分布做任何假設(shè)的評估變量間函數(shù)關(guān)系和統(tǒng)計(jì)變量的相關(guān)性算法[7]。給定有序?qū)?shù)據(jù)集D={(xi, yi), i=1, 2, ..., 3},如果將X軸劃分出x個格子,Y軸劃分為y個格子,得到一個x×y的網(wǎng)格劃分G,將數(shù)據(jù)集D中的點(diǎn)落入到G中格子的比例看作其概率分布D|G[8]。對于一個固定的數(shù)據(jù)集D,不同的網(wǎng)格劃分則得到不同概率分布D|G,給出最大化信息如下:
對式(5)進(jìn)行歸一化處理,以便進(jìn)行不同的維數(shù)之間的比較,固定取值區(qū)間[0,1],則有:
此時,定義數(shù)據(jù)集D中兩個變量x、y的MIC公式如下:
其中B(n)表示需要搜尋的網(wǎng)格數(shù)量,一般設(shè)定B(n)=n0.6。
1.3.2 數(shù)據(jù)耦合性
對數(shù)據(jù)中的354個操作變量分別做MIC分析,得到各個操作變量之間對應(yīng)的相關(guān)性系數(shù)。變量之間的相關(guān)性系數(shù)越大,證明變量之間的相關(guān)性越強(qiáng)。重點(diǎn)研究產(chǎn)品性質(zhì)中硫含量和研究法辛烷值(RON)與其他變量的相關(guān)性系數(shù)大小關(guān)系,將其分別對應(yīng)的變量進(jìn)行相關(guān)性系數(shù)大小的排序,選取相關(guān)性系數(shù)強(qiáng)度在前100的變量,完成數(shù)據(jù)的初次降維。
將一次降維后的變量進(jìn)行重新分析,進(jìn)行二次篩選,如圖2所示。變量二次降維過程重點(diǎn)分析相關(guān)性系數(shù)相近的操作變量之間是否存在高度耦合的情況。通過分析操作變量之間的相關(guān)性系數(shù)大小,確定變量之間的耦合程度。若相關(guān)性系數(shù)較高,則說明數(shù)據(jù)之間存在高度耦合的情況,需要對其進(jìn)行分類、篩選,在同一類型的數(shù)據(jù)中選取具有代表性的操作變量作為主要操作變量。根據(jù)這個原則,對一次篩選的100個變量進(jìn)行相關(guān)性耦合度分析;將相關(guān)性系數(shù)高于0.3作為篩選主要變量的依據(jù),并對數(shù)據(jù)進(jìn)行提取,得到最終的結(jié)果。
圖2 數(shù)據(jù)降維流程
輸入變量具有高度非線性和強(qiáng)耦合性,因此適合建立的是一個非線性數(shù)學(xué)模型;又因?yàn)閷?shí)際數(shù)據(jù)量較大,所以本文選擇徑向基函數(shù)(RBF)神經(jīng)網(wǎng)絡(luò)建立辛烷值損失預(yù)測模型。
1.4.1 徑向基函數(shù)(RBF)神經(jīng)網(wǎng)絡(luò)
RBF神經(jīng)網(wǎng)絡(luò)通常只有三層,包含輸入層、徑向基函數(shù)神經(jīng)元的隱含層和輸出層。圖3所示是一個有多輸入、單輸出的RBF神經(jīng)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)。
圖3 RBF神經(jīng)網(wǎng)絡(luò)拓?fù)鋱D
第一層輸入層:將外部數(shù)據(jù)輸入到神經(jīng)網(wǎng)絡(luò)中,其節(jié)點(diǎn)是由信號源節(jié)點(diǎn)組成。設(shè)X=(x1, x2, ..., xn)∈Rn,為RBF神經(jīng)網(wǎng)絡(luò)的n個輸入樣本值,即數(shù)據(jù)降維后的28個主要操作變量,xn=28為RBF神經(jīng)網(wǎng)絡(luò)的第n個輸入信號矢量。
第二層隱含層:中間層計(jì)算輸入矢量xi與樣本矢量ci的歐式距離,對輸入數(shù)據(jù)做非線性變換。節(jié)點(diǎn)的多少直接影響RBF的泛化能力,多數(shù)量節(jié)點(diǎn)的優(yōu)點(diǎn)是結(jié)果更加準(zhǔn)確,但會降低執(zhí)行效率。令φ(·)為隱含層節(jié)點(diǎn)的激活函數(shù),則有:
其中:||xi-ci||2為歐氏距離;σi為第i個基函數(shù)中心的寬度;ci是第i個節(jié)點(diǎn)的中心值。
第三層輸出層:這是前兩者的線性組合,即從倉儲空間到輸出層空間的變換是線性的,且有:
其中:yi為輸出層第k個節(jié)點(diǎn)的輸出;wi為權(quán)值。
RBF神經(jīng)網(wǎng)絡(luò)辛烷值損失預(yù)測模型具體執(zhí)行步驟如下:
第一步:數(shù)據(jù)的選擇。在上一節(jié)樣本特征數(shù)據(jù)挖掘與提取分析中,有354個操作變量。首先分析變量之間的相關(guān)性,得到28個主要變量,其中包括17個可操作變量和11個不可操作變量;然后將其作為BP神經(jīng)網(wǎng)絡(luò)預(yù)測辛烷值損失的輸入,輸出為產(chǎn)品中的辛烷值。
第二步:數(shù)據(jù)歸一化處理。為提高網(wǎng)絡(luò)訓(xùn)練的精度和速度,樣本輸入進(jìn)模型之前,先根據(jù)離差標(biāo)準(zhǔn)化將輸入和輸出值進(jìn)行歸一化處理,得到最終輸出后將數(shù)據(jù)進(jìn)行反歸一化,便于辛烷值損失的求解。歸一化公式為:
第三步:初始化。確定RBF神經(jīng)網(wǎng)絡(luò)輸入層的各個變量和隱含層節(jié)點(diǎn)數(shù)。
第四步:開始訓(xùn)練。將28個主要操作變量的數(shù)據(jù)輸入到RBF神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,計(jì)算訓(xùn)練出的結(jié)果與實(shí)際辛烷值的誤差,不斷修正,直至達(dá)到設(shè)定誤差范圍結(jié)束。
第五步:測試RBF神經(jīng)網(wǎng)絡(luò)。將25個樣本數(shù)據(jù)輸入到訓(xùn)練好的辛烷值損失預(yù)測模型中,輸出最終結(jié)果,與真實(shí)值進(jìn)行擬合。
第六步:計(jì)算辛烷值損失,通過模型中預(yù)測出的產(chǎn)品辛烷值推導(dǎo)出預(yù)測的辛烷值損失:
其中:RON_loss表示辛烷值損失;I_RON表示原料中辛烷值;P_RON表示產(chǎn)品中的辛烷值。
1.4.2 辛烷值損失預(yù)測模型的評估
為了進(jìn)一步驗(yàn)證模型的準(zhǔn)確性,選取決定系數(shù)R2為評價指標(biāo),對預(yù)測模型進(jìn)行評估。
統(tǒng)計(jì)學(xué)里R2表示決定系數(shù),R2的計(jì)算方法為:
其中:SSR為回歸平方和;SST為總平方和;SSE為殘差平方和。
R2的主要特點(diǎn):(1)決定系數(shù)是非負(fù)的統(tǒng)計(jì)量;(2)取值范圍:0≤R2≤1;(3)R2是隨機(jī)抽樣且變動的隨機(jī)變量,是樣本觀測值的函數(shù)。為此,對可決系數(shù)的統(tǒng)計(jì)可靠性也應(yīng)進(jìn)行檢驗(yàn)。
原始操作變量經(jīng)過一次降維和二次降維的處理后,最終確定所有的非操作變量和17個可操作變量,共計(jì)28個建模主要變量,對這28個變量進(jìn)行相關(guān)性分析。篩選的建模所需主要變量如下:
(1)原料性質(zhì)變量:硫含量、辛烷值、飽和烴體積分?jǐn)?shù)、烯烴體積分?jǐn)?shù)、芳烴體積分?jǐn)?shù)、溴值、密度(20 ℃)。
(2)待吸附劑性質(zhì)變量:待吸附焦炭質(zhì)量分?jǐn)?shù)、待吸附硫質(zhì)量分?jǐn)?shù)。
(3)再吸附劑性質(zhì)變量:再吸附焦炭質(zhì)量分?jǐn)?shù)、再吸附硫質(zhì)量分?jǐn)?shù)。
(4)其他變量:反應(yīng)過濾器壓差、精制汽油出裝置流量、原料進(jìn)裝置流量累計(jì)、-S-ZORB.FT_1204.PV、廢氫排放累計(jì)流量、火炬氣排放累計(jì)流量、原料進(jìn)裝置流量、累計(jì)1、EH101出口、K-101A排氣壓力、K-101A進(jìn)氣壓力、K-101A進(jìn)氣溫度、E203重沸器管程出口凝結(jié)水流量、加氫裂化輕石腦油進(jìn)裝置累積流量、汽油產(chǎn)品去氣分累積流量、8.0MPa氫氣至循環(huán)氫壓縮機(jī)入口、8.0MPa氫氣至反吹氫壓縮機(jī)出口、D101原料緩沖罐壓力。
本文確定模型的輸入為上一步確定的28個主要操作變量,輸出為辛烷值損失。由于主要操作變量影響產(chǎn)品的辛烷值,它們之間具有較強(qiáng)的相關(guān)性,其損失與主要操作變量并無較強(qiáng)的相關(guān)性,所以對模型的輸出加以更改,將產(chǎn)品辛烷值作為輸出變量,再根據(jù)原料中的辛烷值與產(chǎn)品中辛烷值的關(guān)系,求出辛烷值損失。經(jīng)過對模型的不斷改進(jìn),最終得到較為準(zhǔn)確的損失預(yù)測值。
如圖4所示,模型輸出為辛烷值損失,決定系數(shù)R2=0.242 68。改進(jìn)模型輸出,再次進(jìn)行預(yù)測,如圖5所示,將預(yù)測的辛烷值與產(chǎn)品辛烷值進(jìn)行擬合,決定系數(shù)R2=0.964 8,數(shù)據(jù)擬合效果較上一步的模型效果有明顯的提升。根據(jù)式(11)發(fā)現(xiàn),辛烷值損失的預(yù)測效果更加精確。
圖4 RBF神經(jīng)網(wǎng)絡(luò)模型預(yù)測產(chǎn)品辛烷值損失
圖5 RBF神經(jīng)網(wǎng)絡(luò)模型預(yù)測產(chǎn)品辛烷值
本文使用中石化高橋石化實(shí)時數(shù)據(jù)庫及LIMS實(shí)驗(yàn)數(shù)據(jù)庫對辛烷值損失進(jìn)行預(yù)測。首先分析數(shù)據(jù)特性,處理缺省值和異常值;其次對所有變量進(jìn)行MIC分析,對變量進(jìn)行篩選,完成數(shù)據(jù)一次降維,在此基礎(chǔ)上根據(jù)數(shù)據(jù)的強(qiáng)耦合性,對數(shù)據(jù)進(jìn)行二次降維,篩選出主要變量作為預(yù)測模型的輸入;最后,選用RBF神經(jīng)網(wǎng)絡(luò)對辛烷值損失進(jìn)行預(yù)測,評估結(jié)果表明,曲線擬合精度高,預(yù)測結(jié)果良好。
物聯(lián)網(wǎng)技術(shù)2021年11期