袁壯,凌逸群,楊哲,李傳坤
(1中石化安全工程研究院有限公司,化學(xué)品安全控制國家重點實驗室,山東 青島 266071;2中國石油化工集團有限公司,北京 100728)
化工生產(chǎn)中,關(guān)鍵工藝參數(shù)的實時感知與精準(zhǔn)預(yù)測對于監(jiān)控運行狀態(tài)和保障過程安全至關(guān)重要[1-2],亦是實施先進(jìn)控制及在線優(yōu)化的基石[3]。針對反應(yīng)過程的時滯性,預(yù)測模型幫助現(xiàn)場人員提前捕捉參量變化趨勢,開展預(yù)知操作以維持裝置平穩(wěn)[4],避免傳感器故障導(dǎo)致的誤判斷、誤響應(yīng)。
隨著智能儀表、傳感網(wǎng)絡(luò)及分散控制系統(tǒng)(distributed control system,DCS)的普及,化工產(chǎn)業(yè)邁入大數(shù)據(jù)時代[5]。海量數(shù)據(jù)被采集存儲,如何挖掘其隱含價值成為新課題[3,6]。數(shù)據(jù)驅(qū)動從反映真實工況的歷史數(shù)據(jù)入手,運用機器學(xué)習(xí)建立目標(biāo)參數(shù)與關(guān)聯(lián)變量的映射關(guān)系,無須繁復(fù)的理化機理便能實現(xiàn)靈活預(yù)測[7-8]:宋菁華等[9]將神經(jīng)網(wǎng)絡(luò)(neural network,NN)用于鐵水汞含量預(yù)測;劉佳等[10]構(gòu)建支持向量回歸(support vector rregression, SVR)預(yù)測乙烯裂解爐收率;Geng 等[11]基于極限學(xué)習(xí)機(extreme learning machine, ELM)預(yù)測裝置能效。然而,受限于單隱藏層網(wǎng)絡(luò)結(jié)構(gòu),上述淺層算法的特征表達(dá)能力不足,復(fù)雜任務(wù)性能不佳[12-13]。
深度神經(jīng)網(wǎng)絡(luò)(deep neural network, DNN)是人工智能領(lǐng)域的革命性技術(shù)[3],通過級聯(lián)多個非線性處理層,它被賦予無窮的特征挖掘和函數(shù)擬合能力。首先,DNN 能直接處理類型多樣的原始監(jiān)測信號,逐層轉(zhuǎn)換提取本質(zhì)特征,不依賴人工經(jīng)驗[14],在大數(shù)據(jù)時代價值巨大[1];其次,化工過程機理復(fù)雜、模態(tài)多樣,加之設(shè)備故障、原料變化等外部擾動,參數(shù)存在高度的相關(guān)性、耦合性和不確定性[15],DNN強大的非線性映射能力更能表征此種復(fù)雜函數(shù)分布[7];最后,化工生產(chǎn)具有動態(tài)時變性,不同時刻數(shù)據(jù)之間存在潛在關(guān)聯(lián)[1]?,F(xiàn)有方法多為假定樣本相互獨立的靜態(tài)模型,缺少捕捉、解釋和存儲時序特征的能力[16]。DNN 中的長短時記憶網(wǎng)絡(luò)(long short term memory,LSTM)憑借獨有的記憶細(xì)胞和門結(jié)構(gòu)可在學(xué)習(xí)當(dāng)前動態(tài)行為的同時保證歷史信息的持久留存[17],探索間隔較遠(yuǎn)元素間的長期依賴性,避免長時間跨度造成信息丟失。因此,LSTM 廣泛用于工藝參數(shù)和質(zhì)量指標(biāo)預(yù)測[2,4,13-14,16-18],其衍生算法雙向LSTM(bi-directional LSTM, BiLSTM)[12,19-20]更能同時分析數(shù)據(jù)在向前、向后兩個時間方向上的未知關(guān)聯(lián),性能出眾。
然而,BiLSTM 仍有若干不足:一方面,BiLSTM只擅長提取時序特征,對高維輸入變量之間的空間關(guān)聯(lián)欠缺深入考量[6];另一方面,對目標(biāo)變量影響更大的關(guān)鍵特征是沿時間軸非均勻分布的[18],即BiLSTM 學(xué)習(xí)的時序特征對預(yù)測輸出有不同影響。但回歸層卻對各時間步隱藏狀態(tài)平等對待,忽略其重要性差異。輸入序列較長時,容易主次不分導(dǎo)致重要信息被掩蓋[16]。針對上述問題,本文利用DNN擅長組合不同結(jié)構(gòu)以利用其各自優(yōu)勢完成復(fù)雜任務(wù)的特點,將卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks, CNN)[21]、BiLSTM 和時間注意力(temporal attention,TA)機制[22]集成到統(tǒng)一框架內(nèi),提出深度預(yù)測模型TA-ConvBiLSTM。其中,CNN 能平緩數(shù)據(jù)波動,利用多核卷積運算分析高維輸入變量間的空間關(guān)聯(lián);BiLSTM 從正反兩個方向挖掘時序特征,相互約束以形成信息閉環(huán),修正建模誤差;CNN 和BiLSTM 構(gòu)成混合模型,相互彌補以從過程數(shù)據(jù)中提取深度時空特征。進(jìn)一步引入TA,根據(jù)輸入和輸出間的相關(guān)性強弱為時間步分配不同的權(quán)重,提升關(guān)鍵信息對輸出的影響力,降低次要信息對預(yù)測的干擾。最后,實際工業(yè)案例驗證了該方法的有效性和實用性。
參數(shù)預(yù)測的本質(zhì)是時間序列回歸。數(shù)據(jù)集D={(Xi,Yi)},Yi∈Xi,Xi={xi1,xi2,…xid},Yi=yi,i= 1,2,…,n。
Yi為目標(biāo)變量,Xi為關(guān)聯(lián)變量,n、d為數(shù)據(jù)長度和變量維度。時間序列回歸是指從D中學(xué)習(xí)預(yù)測模型f,將當(dāng)前時刻i及b步前的關(guān)聯(lián)變量映射到p時刻后的目標(biāo)空間[23],即:
CNN 的核心是一系列可訓(xùn)練的卷積核,能從自身角度描述輸入數(shù)據(jù)并對特定特征敏感:
CNN通過池化層對卷積特征降維采樣,只保留區(qū)域最大值或均值。但該操作可能中斷序列連續(xù)性[24],丟失時序信息,本文并未采用,后文將深入討論。
LSTM 的核心是記憶細(xì)胞和三種非線性門。LSTM 根據(jù)當(dāng)前輸入xt和上一時刻隱藏狀態(tài)ht-1計算遺忘門ft、記憶門it和輸出門ot,控制細(xì)胞的遺忘、記憶和輸出,從而保留長期依賴性,遺忘次要信息,如圖2所示。
圖1 時滯樣本集構(gòu)造過程(b=3、p=1)Fig.1 The construction procedure of time-lagged samples with b=3 and p=1
圖2 LSTM網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Network structure of LSTM
遺忘門ft、記憶門it、臨時記憶狀態(tài)C?t、記憶狀態(tài)Ct、輸出門ot和當(dāng)前隱藏狀態(tài)ht計算如下:
式中,σ和tanh 為sigmoid 及tanh 激活函數(shù);Wf、Uf、Wi、Ui、Wc、Uc、Wo、Uo為各類門或狀態(tài)的權(quán)值,bf、bi、bc、bo為偏置。
BiLSTM 由兩個結(jié)構(gòu)相同、方向相反的LSTM 組成,記t時刻正向LSTM 的輸出為h→t,反向的為h←t,則BiLSTM的隱藏狀態(tài)h?t為:
式中,⊕為矩陣拼接操作。
TA 可視為全連接神經(jīng)網(wǎng)絡(luò)。如圖3 所示,當(dāng)前時刻j的時滯樣本{X1,X2,…,Xb}j經(jīng)特征提取后,得到長度t的隱層輸出{h1,h2,…,ht}j,輸入TA 計算注意力值ei:
圖3 TA機制結(jié)構(gòu)Fig.3 Structure of the TA mechanism
式中,l=n-b-p+1 為時滯樣本數(shù)量。最后,將cj代入回歸層求解預(yù)測值Yj。
工藝參數(shù)高維冗余,與目標(biāo)變量的相關(guān)性也不盡相同,數(shù)據(jù)豐富但信息匱乏[6]。因此,需要篩選維度適當(dāng)且重要獨立的關(guān)聯(lián)變量[25]。本文基于eXtreme gradient boosting(XGBoost)[26-28]算法選擇關(guān)聯(lián)變量,K次迭代輸出預(yù)測值:
式中,下角標(biāo)L 和R 分別代表左、右子樹,選擇Gain 最大的輸入變量作為本次劃分的節(jié)點。XGBoost 統(tǒng)計所有輸入變量在分割時被選作葉子節(jié)點的次數(shù),次數(shù)越多則該變量對預(yù)測模型的增益越大,重要度越高,可選取排序靠前的若干變量作為關(guān)聯(lián)變量。
XGBoost 選定k維關(guān)聯(lián)變量,繼續(xù)處理獲得Ds={(Xs j,Y s j)},Xs j∈Rb×k,1≤j≤l。將Ds輸入TA-ConvBiLSTM并訓(xùn)練。
圖4 TA-ConvBiLSTM 網(wǎng)絡(luò)結(jié)構(gòu)Fig.4 Network structure of the proposed TA-ConvBiLSTM
上述前向傳播后,以均方誤差(mean square error, MSE)作損失函數(shù),開展反向傳播(backpropagation,BP):
式中,yj為第j個時滯樣本的理想輸出。以最小化MSE為目標(biāo)更新模型,多次迭代完成訓(xùn)練。
基于TA-ConvBiLSTM 的工藝參數(shù)預(yù)測流程如圖5所示。
圖5 基于TA-ConvBiLSTM 的參數(shù)預(yù)測流程Fig.5 Flowchart of parameters prediction based on TA-ConvBiLSTM
離線階段:
(1)讀取歷史數(shù)據(jù)并歸一化;
(2)確定目標(biāo)變量,XGBoost 對所有工藝參數(shù)在預(yù)測中的重要度排序,選取前k組作為關(guān)聯(lián)變量;
(3)確定回溯步長b和預(yù)測步長p,構(gòu)造時滯樣本集,并按比例分割為訓(xùn)練集和測試集;
(4)基于訓(xùn)練集訓(xùn)練TA-ConvBiLSTM,優(yōu)化模型結(jié)構(gòu)和參數(shù);
(5)基于測試集驗證TA-ConvBiLSTM 的預(yù)測精度是否滿足要求。若是,則完成模型訓(xùn)練;若否,則重復(fù)步驟(4)。
在線階段:
(1)讀取k組關(guān)聯(lián)變量的實時數(shù)據(jù)并歸一化;
(2)根據(jù)b和p構(gòu)造時間序列,獲取時滯樣本;
(3)將時滯樣本輸入訓(xùn)練好的TA-ConvBiLSTM中,計算輸出;
(4)反歸一化輸出值,得到目標(biāo)變量的預(yù)測值。
延遲焦化是一種原油二次加工技術(shù),常用于劣質(zhì)重油輕質(zhì)化[29],工藝流程如圖6 所示。原料油經(jīng)加熱爐升溫后通過四通閥進(jìn)入焦炭塔中發(fā)生熱裂化及縮合,產(chǎn)生油氣進(jìn)入分餾塔冷凝輸出。其中,保持加熱爐爐管各位置溫度在適當(dāng)范圍內(nèi)至關(guān)重要[30]:溫度過高,爐管局部超溫,油品在管內(nèi)便裂解縮合導(dǎo)致結(jié)焦,能耗增加,持續(xù)超溫更會損傷管壁,誘發(fā)泄漏著火等惡性事故;反之則爐出口溫度降低,焦炭塔生焦反應(yīng)深度不足,產(chǎn)物收率下降。生產(chǎn)中,若等到溫度超限報警后再采取措施,結(jié)焦損傷已發(fā)生,且持續(xù)時間越長危害越大。因此,預(yù)測爐管溫度并預(yù)知性地調(diào)整注汽量、燃料氣壓等參數(shù),維持其在合理區(qū)間內(nèi)波動,具有促進(jìn)平穩(wěn)運行和提升經(jīng)濟效益的雙重作用。
圖6 延遲焦化工藝流程Fig.6 Flowchart of the delayed coking
3.2.1 數(shù)據(jù)說明 從某延遲焦化DCS中讀取2019年6~8 月的加熱爐生產(chǎn)數(shù)據(jù),選取爐管A 輻射段某溫度測點y2jTI2012A 作目標(biāo)變量,選取74維相關(guān)工藝參數(shù)(包括y2jTI2012A)作候選關(guān)聯(lián)變量,部分變量信息見表1。為提高預(yù)測效率和時長,各參數(shù)每10 min 的測量均值作1 個樣本,得到長度9000 的多維時間序列D∈R9000×74,并處理為時滯樣本。沿時間流向,取前75%的樣本作訓(xùn)練集,剩余作測試集,與隨機劃分相比該方式更符合工程實際。
表1 部分候選關(guān)聯(lián)變量及其特征重要度Table 1 Some candidate correlation variables and their characteristic importance
3.2.2 評價指標(biāo) 選用平均絕對誤差(mean absolute error, MAE)、均方根誤差(root mean squared error,RMSE)和可決系數(shù)(coefficient of determination,R2)衡量預(yù)測性能:
式中,lt為測試集樣本數(shù)量;yˉ為測試集目標(biāo)變量均值。MAE和RMSE反映預(yù)測值與真實值間的誤差,越小越好,R2則反映二者的相似程度,越大越好。
3.3.1 模型結(jié)構(gòu)與參數(shù)設(shè)置 TA-ConvBiLSTM 的預(yù)測性能受網(wǎng)絡(luò)結(jié)構(gòu)、超參數(shù)及樣本維度影響。
為討論CNN 池化層對預(yù)測的影響,在結(jié)構(gòu)5 第3 層后面插入一層池化層。采用最大值(maxpooling)和均值(mean-pooling)兩種池化策略,不同池化尺寸下的預(yù)測精度如表3所示。由表3可知,池化層對預(yù)測有負(fù)面影響,且池化尺寸越大,降采樣過程信息丟失越多,模型性能下降越大,不適用于本案例。
表3 不同池化尺寸下的模型預(yù)測性能Table 3 Model prediction accuracy under different pooling sizes
超參數(shù)方面,模型迭代500 epoch,early stopping patience 為100 epoch,Adam 算法自適應(yīng)調(diào)整學(xué)習(xí)率,batch size根據(jù)表4設(shè)為128。
表4 不同batch size下的模型預(yù)測性能Table 4 Model prediction accuracy under different batch sizes
樣本維度方面,XGBoost 對所有參數(shù)排序后,按照重要度從高到底依次選取前k={74,60,50,40,30,20,10,5}維參數(shù)作關(guān)聯(lián)變量。由圖7(a)可知,TAConvBiLSTM預(yù)測性能先隨k減少而逐漸上升并在k=10時達(dá)到峰值。表明未經(jīng)篩選的關(guān)聯(lián)變量包含大量的冗余乃至無關(guān)信息,簡單堆積只會降低運算效率而非提升預(yù)測效果。然而,k=5 時預(yù)測精度又大幅下降。表明剩余參數(shù)均與目標(biāo)變量高度相關(guān),繼續(xù)縮減會缺失必要信息,難以全面衡量變化趨勢。因此k=10較合適,選定的變量及重要度詳見表1。
圖7(b)分析了回溯步長b對預(yù)測的影響。理論上,序列越長蘊含的過程信息越多。但實際場景中,變量前后的潛在關(guān)聯(lián)在多個時間步后便十分微弱,捕捉困難。而圖7(b)中b=48時效果最佳,表明TA-ConvBiLSTM能有效處理長跨度序列,并保留其長期依賴性。
圖7 輸入維度對預(yù)測性能的影響Fig.7 The influence of input dimension on the prediction performance
表2 不同網(wǎng)絡(luò)結(jié)構(gòu)下的模型預(yù)測性能Table 2 Model prediction accuracy under different network structures
基于上述分析,本案例所采用的模型如表5(a)~(c)所示。
3.3.2 性能對比分析 除TA-ConvBiLSTM 外,還采用其他模型做對比分析:深度學(xué)習(xí)領(lǐng)域內(nèi),選取CNN 和LSTM 做基線模型,展現(xiàn)單一DNN 最大預(yù)測表現(xiàn)力;TA-ConvBiLSTM 框架內(nèi),各模塊被拆解重組,證明其各自功能和集成作用,包括BiLSTM、ConvBiLSTM(CNN 與BiLSTM 級聯(lián))和TA-BiLSTM(BiLSTM 和TA 級聯(lián))。為增強說服力,上述方法也采用表5(a)~(c)的設(shè)置;淺層學(xué)習(xí)領(lǐng)域內(nèi),選取XGBoost、SVR 和BPNN 三種算法,限定b=1,其部分參數(shù)經(jīng)遺傳算法尋優(yōu)后如表5(d)~(f)所示。
表5 網(wǎng)絡(luò)結(jié)構(gòu)與參數(shù)設(shè)置Table 5 Networks structure and parameters setting
直觀比較各模型結(jié)果如圖8所示。對于BPNN、SVR 和XGBoost,預(yù)測線與實測線之間始終存在較大偏差,預(yù)測線很難追蹤實測線的快速波動和細(xì)微變化,表明淺層網(wǎng)絡(luò)對時序數(shù)據(jù)缺乏動態(tài)表征能力。其相對預(yù)測誤差分布在[-0.02,0.02]區(qū)間,且絕大部分位于零刻度線一側(cè),表明預(yù)測結(jié)果出現(xiàn)整體性漂移;CNN、LSTM、BiLSTM 及ConvBiLSTM 等深度模型大幅提升了預(yù)測線與實測線的貼合程度,能大致追蹤真實溫度的變化趨勢。相對誤差主要位于[-0.01,0.01],特別是第100~750 樣本點,因溫度波動劇烈,誤差幅值較大且相對集中;引入TA 后,TABiLSTM 和TA-ConvBiLSTM 的性能進(jìn)一步提升,預(yù)測線和實測線幾乎完全重合為一體,即使在曲線突變區(qū)域也有極高匹配度,相對誤差也繼續(xù)下降到[-0.005,0.005],表明模型已充分掌握爐管溫度的變化規(guī)律。TA-ConvBiLSTM 的誤差控制更勝一籌,它分布在零線附近的誤差“毛刺”更稀疏且幅值更小。
圖8 各模型詳細(xì)預(yù)測結(jié)果及誤差Fig.8 Detailed prediction results and error of various testing models
表6對模型性能進(jìn)行了量化排序。淺層模型性能最差,誤差指標(biāo)MAE、RMSE最高而準(zhǔn)確度指標(biāo)R2最低。因為淺層網(wǎng)絡(luò)屬于靜態(tài)模型范疇,只能分析關(guān)聯(lián)變量當(dāng)前狀態(tài)Xt和目標(biāo)變量下一步狀態(tài)Yt+1之間的關(guān)系(b=1),未考慮數(shù)據(jù)的時間性質(zhì);DNN 憑借強大的非線性擬合能力具有更優(yōu)異表現(xiàn)。其中,盡管CNN 能分析連續(xù)時間序列,但本質(zhì)仍為靜態(tài)模型,擅長挖掘局部信息而非時序關(guān)聯(lián),結(jié)果最不理想。LSTM 則是專為序列處理而設(shè)計的動態(tài)模型,能夠有效捕捉并存儲長期依賴性,R2提升到0.947。BiLSTM 進(jìn)一步從前后兩個時間流向上挖掘引起溫度波動的隱含因素,其優(yōu)秀的動態(tài)建模能力使R2達(dá)到0.963。然而,ConvBiLSTM 的各項指標(biāo)卻弱于BiLSTM 單體模型,因為CNN 在每個時間步上都注入了豐富的細(xì)節(jié)信息,但BiLSTM 缺乏必要的區(qū)分機制,致使重要特征被遺失或掩蓋;與之相比,TABiLSTM 和TA-ConvBiLSTM 則以各時間步的隱藏狀態(tài)作參考,對其分配不同的權(quán)重以突出重要特征,弱化次要信息。兩模型R2在引入TA 后分別提升了0.010 和0.024,證明了TA 的必要性。特別是TAConvBiLSTM,CNN 和TA 結(jié)合成為一種巧妙的時空注意力機制,不僅能在每個時間步上自主辨識與目標(biāo)參數(shù)緊密聯(lián)系的關(guān)聯(lián)變量,還能橫跨所有時間步自適應(yīng)挖掘影響未來趨勢的有用特征。因此,其MAE 和RMSE 分別為0.0151 和0.0216,遠(yuǎn)低于其他模型,R2更達(dá)到了最高的0.980。
表6 各模型預(yù)測性能對比Table 6 Comparison of prediction performance of various models
圖9 以歸一化的預(yù)測值和真實值為橫縱坐標(biāo),繪制測試集的散點分布,并根據(jù)聚集情況討論準(zhǔn)確性。圖中,對角線y=x表示預(yù)測值與真實值完全相同。因此,散點越逼近對角線精準(zhǔn)度越高,異常風(fēng)險越小。顯然,TA-ConvBiLSTM 所屬散點在對角線附近分布最為密集、距離最為接近,體現(xiàn)出預(yù)測模型對真實規(guī)律的高度還原。反觀其他模型則要分散的多,預(yù)測結(jié)果不同程度地偏離了真實情況。
圖9 各模型的預(yù)測散點圖Fig.9 Predicted scatter plots of various models
圖10 通過箱線圖形象展示了各模型絕對誤差的分布情況。箱線圖能反映模型殘差的極值、中值、均值、第25 和75 百分位,并直觀呈現(xiàn)離群異常點。由圖可知,TA-ConvBiLSTM 的誤差中值及均值非常接近零刻度線,具有最高的平均預(yù)測準(zhǔn)確度,其他算法則不同程度地偏離。 此外,TAConvBiLSTM 的箱體寬度也遠(yuǎn)小于各對比算法,展現(xiàn)出更窄的誤差范圍和更佳的預(yù)測穩(wěn)定性。但是,TA-ConvBiLSTM 上下截斷點間的內(nèi)限區(qū)域(1.5IQR)也隨之縮小,造成其異常點較多。
圖10 各模型絕對預(yù)測誤差的箱線圖Fig.10 The box-plot diagram of absolute prediction error of various models
本文提出了TA-ConvBiLSTM 模型,用于表征復(fù)雜化工過程的高維相關(guān)性和動態(tài)時序性,彌補傳統(tǒng)數(shù)據(jù)驅(qū)動方法在特征提取和參數(shù)預(yù)測方面的不足。加熱爐爐管溫度的預(yù)測實驗證明了該方法的有效性和適用性,其R2高達(dá)0.980,MAE 和RMSE 也分別降至0.0151 和0.0216,明顯優(yōu)于其他方法。本文的主要創(chuàng)新點和貢獻(xiàn)總結(jié)如下。
(1)基于DNN 擅長自由組合以解決復(fù)雜任務(wù)的優(yōu)勢,將CNN 和BiLSTM 集成為統(tǒng)一的深度網(wǎng)絡(luò),使之能夠兼顧空間關(guān)聯(lián)提取和時序特征挖掘。
(2)將TA 機制進(jìn)一步融入上述預(yù)測框架,分析深度特征與目標(biāo)輸出間的相關(guān)性并增加關(guān)鍵信息的注意力權(quán)重,避免其因為序列延長而被淹沒,提高建模的準(zhǔn)確性和魯棒性。
后續(xù)研究將對模型性能做進(jìn)一步優(yōu)化,解決現(xiàn)有分析所暴露出的不足。例如,TA-ConvBiLSTM 在箱線圖中雖然具有最高的整體預(yù)測精度,但其異常點數(shù)量也要多于其他算法,仍需持續(xù)改進(jìn)。