孫少聰,徐楊,曹斌
(1.貴州大學(xué) 大數(shù)據(jù)與信息工程學(xué)院,貴州 貴陽(yáng) 550025;2.中鋁智能科技發(fā)展有限公司,浙江 杭州 311100)
在新型工業(yè)化道路戰(zhàn)略的帶動(dòng)下,“堅(jiān)持以信息化帶動(dòng)工業(yè)化,以工業(yè)化促進(jìn)信息化”的指導(dǎo)思想,大型鋁電解廠生產(chǎn)管理由人力、手動(dòng)為主的模式向自動(dòng)化和智能化模式的轉(zhuǎn)變已勢(shì)在必行[1]。鋁電解生產(chǎn)是一個(gè)大延遲、多變量耦合和非線性的過(guò)程[2]。其中關(guān)于電解槽出鋁量預(yù)測(cè)問(wèn)題就受到各種復(fù)雜的因素影響,如設(shè)備環(huán)境,工藝參數(shù),人工經(jīng)驗(yàn)等。因此如何從現(xiàn)有采集的大量數(shù)據(jù)利用機(jī)器學(xué)習(xí)和深度學(xué)習(xí)等技術(shù),建立準(zhǔn)確的預(yù)測(cè)模型提高預(yù)測(cè)的準(zhǔn)確性和科學(xué)性,對(duì)企業(yè)的“降本增效”具有重要意義。
目前已有部分結(jié)合機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的方法對(duì)出鋁量預(yù)測(cè)進(jìn)行研究,減少專家知識(shí)和經(jīng)驗(yàn)對(duì)電解槽出鋁量的影響,其中文獻(xiàn)[3]提出了一種基于電解槽出鋁量預(yù)測(cè)的聚類算法,實(shí)現(xiàn)了電解槽出鋁量的參數(shù)特征提取;文獻(xiàn)[4]將循環(huán)卷積神經(jīng)網(wǎng)絡(luò)LSTM算法,運(yùn)用在電解槽出鋁量預(yù)測(cè)和氟化鋁添加量的預(yù)測(cè)問(wèn)題上,并且開發(fā)了一套鋁電解槽出鋁量預(yù)測(cè)可視化系統(tǒng);文獻(xiàn)[5]設(shè)計(jì)了一種自適應(yīng)果蠅優(yōu)化算法,通過(guò)機(jī)器學(xué)習(xí)支持向量回歸機(jī)對(duì)電解槽出鋁量進(jìn)行預(yù)測(cè);文獻(xiàn)[6]將多層感知機(jī)MLP應(yīng)用在出鋁量的預(yù)測(cè);文獻(xiàn)[7]文中提出一種改進(jìn)的ID3算法,應(yīng)用回歸分析計(jì)算各條件屬性影響出鋁量的權(quán)重,對(duì)鋁電解數(shù)據(jù)庫(kù)中包含的出鋁量專家知識(shí)和經(jīng)驗(yàn)進(jìn)行知識(shí)表示和自動(dòng)推理,輔助工藝管理人員做出科學(xué)判斷,提高生產(chǎn)智能管理水平。上述研究對(duì)電解槽出鋁量預(yù)測(cè)方面都提供了一定的參考價(jià)值,但是目前對(duì)于電解槽出鋁量預(yù)測(cè)問(wèn)題依然很難應(yīng)用于實(shí)際生產(chǎn)。
綜上,本文提出了一種基于隨機(jī)森林特征選擇的雙向長(zhǎng)短期時(shí)間序列網(wǎng)絡(luò)(RF-BiLSTM)進(jìn)行電解槽出鋁量預(yù)測(cè),通過(guò)特征選擇、優(yōu)化模型參數(shù),以及多個(gè)對(duì)比實(shí)驗(yàn)表明RF-BiLSTM在電解槽出鋁量預(yù)測(cè)準(zhǔn)確度方面取得不錯(cuò)的效果,并在實(shí)際的生產(chǎn)數(shù)據(jù)中驗(yàn)證了模型有效性,為鋁電解槽出鋁量預(yù)測(cè)提供一定的參考價(jià)值。
皮爾遜相關(guān)系數(shù)法是一種準(zhǔn)確度量?jī)蓚€(gè)變量之間的關(guān)系密切程度的統(tǒng)計(jì)學(xué)的方法[8]。皮爾遜相關(guān)系數(shù)的變化范圍為-1到1。系數(shù)的值為1或者-1意味著主指標(biāo)和特征值可以很好的由直線方程來(lái)描述,所有的數(shù)據(jù)點(diǎn)都很好的落在一條直線上,1表示特征值隨著主指標(biāo)的增加而增加,-1表示特征值隨著主指標(biāo)的增加而減少。系數(shù)的絕對(duì)值值越接近0意味著二者之間線性關(guān)系越弱,為0則表示二者沒有線性關(guān)系,Pearson計(jì)算原理公式如下:
(1)
式中:r表示相關(guān)系數(shù),X表示主指標(biāo),Y為特征值。
隨機(jī)森林(random forests, RF)是由多棵決策樹集成的有監(jiān)督的學(xué)習(xí)算法,在決策樹的訓(xùn)練過(guò)程中隨機(jī)選擇特征,最終通過(guò)投票來(lái)表決最優(yōu)結(jié)果[9]。隨機(jī)森林算法簡(jiǎn)單,因?yàn)槠浜?jiǎn)單高效的分類性能,在特征選擇問(wèn)題中往往是較好的選擇。隨機(jī)森林利用袋外數(shù)據(jù)(out of bag, OOB)誤差計(jì)算特征變量相對(duì)重要性,對(duì)海量高維數(shù)據(jù)進(jìn)行剔除冗余特征進(jìn)行特征篩選。假設(shè)有bootstrap樣本k=2,3…,K,K表示訓(xùn)練樣本的個(gè)數(shù),每個(gè)樣本有N維特征,特征重要性排序的計(jì)算步驟如下:
1) 初始化k=1,創(chuàng)建決策樹Tk。
4) 對(duì)于k=2,3…,K重復(fù)步驟1~步驟3。
5) 特征Xj的重要性度量Pj通過(guò)公式(2)計(jì)算。
6)對(duì)Pj降序排列,得到特征重要性排序。
(2)
LSTM是一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)模型[10],時(shí)間序列在傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)中無(wú)法被處理,而RNN在長(zhǎng)期的時(shí)間序列任務(wù)上會(huì)出現(xiàn)梯度爆炸和梯度消失的問(wèn)題。LSTM的出現(xiàn)較好的解決了RNN在時(shí)序數(shù)據(jù)長(zhǎng)期依賴性預(yù)測(cè)的問(wèn)題。LSTM相較于RNN在其結(jié)構(gòu)上新增了門限,具體包括遺忘門、輸入門和輸出門,這些門限有選擇的讓信息進(jìn)行記憶和遺忘[11]。LSTM網(wǎng)絡(luò)神經(jīng)元結(jié)構(gòu)如圖1所示。
圖1 LSTM網(wǎng)絡(luò)神元結(jié)構(gòu)
每個(gè)神經(jīng)元具有獨(dú)特的門結(jié)構(gòu)[12]用于維持和控制狀態(tài),同時(shí)接收兩個(gè)輸入,即上一時(shí)刻的輸出值ht-1和本時(shí)刻輸入xt,兩個(gè)參數(shù)首先進(jìn)入遺忘門,得到?jīng)Q定舍棄的信息后再進(jìn)入輸入門,得到重要信息以及當(dāng)前時(shí)刻的神經(jīng)元狀態(tài),最后由遺忘門和輸入門的輸出值進(jìn)行組合,得到分別的長(zhǎng)時(shí)和短時(shí)信息,最后存儲(chǔ)操作即下一個(gè)神經(jīng)元的輸入。遺忘門公式如公式(3)所示:
ft=σ(Wf·[ht-1,xt]+bf)
(3)
輸入門及t時(shí)刻的神經(jīng)元狀態(tài)方程如公式(4)~(6):
it=σ(Wi·[ht-1,xt]+bi)
(4)
(5)
(6)
輸出門公式如公式(7)~(8):
ot=σ(Wo·[ht-1,xt]+bo)
(7)
ht=ot·tanh(ct)
(8)
本文所用的BiLSTM模型是在LSTM基礎(chǔ)上增加了反向LSTM,由前向LSTM和后向LSTM組合而成[13],它可以通過(guò)同時(shí)處理過(guò)去和未來(lái)的信息來(lái)更好地理解序列中的上下文,兩個(gè)單元的輸出將被拼接在一起,形成最終的輸出。因此BiLSTM在時(shí)間序列預(yù)測(cè)任務(wù)中具有更強(qiáng)的建模能力。在模型訓(xùn)練階段,BiLSTM可以利用前向和后向的信息對(duì)的時(shí)間序列進(jìn)行建模,預(yù)測(cè)階段直接輸出前向LSTM的結(jié)果。BiLSTM模型結(jié)構(gòu)圖如圖2所示。
圖2 BiLSTM模型結(jié)構(gòu)圖
BiLSTM每一級(jí)隱藏層狀態(tài)組合過(guò)程如公式(9)所示。
(9)
本文搭建的模型主要分為三個(gè)部分,數(shù)據(jù)特征提取與數(shù)據(jù)劃分、模型隱藏層、預(yù)測(cè)輸出層,模型訓(xùn)練過(guò)程如圖3所示。首先進(jìn)行數(shù)據(jù)分析和清洗刪除缺失過(guò)多的特征列,將原始的數(shù)據(jù)進(jìn)行相關(guān)性析,對(duì)數(shù)據(jù)進(jìn)行MinMaxScaler標(biāo)準(zhǔn)化公式處理,標(biāo)準(zhǔn)化原理如公式(10)所示。
圖3 模型結(jié)構(gòu)圖
(10)
式中:Xmax、Xmin為數(shù)列的最大值和最小值;Xstd為最終的規(guī)范化數(shù)值。本文采用的是歸一化處理。
對(duì)BiLSTM模型的批尺寸、網(wǎng)絡(luò)層數(shù)和學(xué)習(xí)率進(jìn)行調(diào)優(yōu)。尋找較優(yōu)的超參數(shù)組合,進(jìn)行模型的訓(xùn)練,Adam優(yōu)化器進(jìn)行權(quán)值更新,ReLu激活函數(shù)提高函數(shù)計(jì)算能力,DropOut防止過(guò)擬合,訓(xùn)練Loss為平均相對(duì)誤差(MSE),以獲取最小Loss值為目標(biāo)對(duì)模型進(jìn)行訓(xùn)練和優(yōu)化。
訓(xùn)練好的模型對(duì)劃分的測(cè)試集數(shù)據(jù)進(jìn)行預(yù)測(cè),并對(duì)數(shù)據(jù)進(jìn)行逆變化操作,輸出預(yù)測(cè)值。
數(shù)據(jù)采集自貴州某鋁廠34臺(tái)電解槽共120天的槽控機(jī)監(jiān)控?cái)?shù)據(jù)和人工采集的每日真實(shí)鋁電解槽生產(chǎn)的日?qǐng)?bào)表數(shù)據(jù),共3 814條數(shù)據(jù),部分嚴(yán)重缺失數(shù)據(jù)直接作了刪除處理。
搜集到的相關(guān)日?qǐng)?bào)和運(yùn)行參數(shù)包括日期、槽號(hào)、鋁水平、氧化鋁濃度、電解質(zhì)水平、電解溫度、分子比、電解溫度、氟化鋁下料量、平均電壓、設(shè)定電壓、工作電壓、下料間隔(設(shè)定NB)以及出鋁指示量等23項(xiàng)重要信息。通過(guò)分析和觀察分子比,陰極壓降和氧化鋁濃度數(shù)據(jù)缺失過(guò)多,因此后續(xù)模型建模和訓(xùn)練不再考慮這三個(gè)參數(shù)。
表1列出搜集到的部分?jǐn)?shù)據(jù)。
表1 廠區(qū)內(nèi)某電解槽連續(xù)5天收集的日?qǐng)?bào)表數(shù)據(jù)
為了體現(xiàn)基于RF的特征選擇在電解槽出鋁量預(yù)測(cè)問(wèn)題上的優(yōu)越性,本文將Pearson相關(guān)性分析法作為對(duì)比。此次相關(guān)性分析將電解槽出鋁量作為被解釋變量,其他特征作為解釋變量。
3.2.1 Pearson相關(guān)性分析
首先利用Pearson系數(shù)對(duì)所有變量進(jìn)行劃分得出解釋變量對(duì)于被解釋變量的影響系數(shù)的排序結(jié)果,選取影響系數(shù)較高的前六位解釋變量。Pearson相關(guān)性分析結(jié)果如圖4所示。
圖4 Pearson相關(guān)性分析結(jié)果
由于Pearson相關(guān)性分析只能通過(guò)分析出鋁量和某個(gè)特征(兩者)之間的線性關(guān)系,也無(wú)法確定更高維度特征的因果關(guān)系,出鋁量的影響分析涉及復(fù)雜的非線性因果關(guān)系,為了增加特征選擇的可對(duì)比性,本文采用Pearson特征選擇的結(jié)果影響系數(shù)較高的前六位解釋變量:鋁水平、多點(diǎn)鋁水平、氟化鋁下料量、設(shè)定NB、工作電壓以及硅作為后續(xù)模型的輸入特征。
3.2.2 隨機(jī)森林相關(guān)性分析
森林進(jìn)行特征重要性分析出相關(guān)系數(shù)得分熱圖,結(jié)果如圖5所示。
圖5 隨機(jī)森林相關(guān)性分析結(jié)果
相對(duì)于Pearson特征選擇,隨機(jī)森林特征選擇可以更好的捕捉出鋁量與其他特征之間的非線性關(guān)系,也可以同時(shí)考慮高維特征數(shù)據(jù)數(shù)據(jù)之間的因果性。根據(jù)隨機(jī)森林的分析結(jié)果,選取影響系數(shù)較高的前六位解釋變量:氟化鋁下料量、鋁水平、溫度、設(shè)定電壓、工作電壓以及電解質(zhì)水平作為后續(xù)模型的輸入特征。
考慮到模型的超參數(shù)會(huì)對(duì)模型訓(xùn)練效果和速度產(chǎn)生影響。本文對(duì)針對(duì)模型的批尺寸,網(wǎng)絡(luò)層數(shù)采用了網(wǎng)格化搜索的方式進(jìn)行優(yōu)化。訓(xùn)練設(shè)置為200輪,神經(jīng)元個(gè)數(shù)為128,為了簡(jiǎn)化訓(xùn)練避免模型損失過(guò)早收斂,設(shè)置了早停機(jī)制(模型訓(xùn)練10輪后評(píng)價(jià)指標(biāo)沒有優(yōu)化就停止訓(xùn)練),通過(guò)實(shí)驗(yàn)結(jié)果選擇較優(yōu)的超參數(shù)組合。
3.3.1 批尺寸調(diào)優(yōu)
批尺寸(batchSize)是每次輸入進(jìn)模型的時(shí)間序列長(zhǎng)度,是模型每次運(yùn)算的數(shù)據(jù)大小以及數(shù)據(jù)之間關(guān)聯(lián)的程度反應(yīng)。batchSize決定了梯度下降的方向,過(guò)大容易導(dǎo)致梯度局部最優(yōu)解,過(guò)小導(dǎo)致模型收斂時(shí)間漫長(zhǎng),影響模型的訓(xùn)練精確性。合適的batchSize可以為模型帶來(lái)有效的提升。因此為研究不同batchSize對(duì)模型的影響,本文采取三種不同的取值方式,分別對(duì)比了24、48和64的效果。實(shí)驗(yàn)結(jié)果如表2所示。
表2 不同批尺寸訓(xùn)練結(jié)果
三種batchSize在訓(xùn)練結(jié)果上相差無(wú)幾,但是當(dāng)batchSize為64時(shí),在時(shí)間上和效果上略優(yōu)于24和48,因此本實(shí)驗(yàn)?zāi)P偷腷atchSize選擇為64。
3.3.2 網(wǎng)絡(luò)層數(shù)調(diào)優(yōu)
網(wǎng)絡(luò)層數(shù)(numLayers)越大代表模型的層數(shù)越多,模型的擬合能力越強(qiáng),但是往往越多的層數(shù)會(huì)帶來(lái)更復(fù)雜的運(yùn)算,更長(zhǎng)的訓(xùn)練時(shí)間,同時(shí)可能會(huì)出現(xiàn)過(guò)擬合的現(xiàn)象。因此為研究不同numLayers對(duì)模型的影響,本文比較了2、3和4層的效果。實(shí)驗(yàn)結(jié)果如表3所示。
表3 不同網(wǎng)絡(luò)層數(shù)訓(xùn)練結(jié)果
根據(jù)試驗(yàn)結(jié)果表明三種numLayers在訓(xùn)練結(jié)果上,當(dāng)numLayers為2層時(shí)模型在訓(xùn)練效果和懸鏈速度上均是最優(yōu),因此本實(shí)驗(yàn)?zāi)P偷膎umLayers選擇為2層。
為了更好的說(shuō)明RF-BiLSTM在電解槽出鋁量預(yù)測(cè)問(wèn)題上的優(yōu)越性。本文將不同的特征選擇(ALL,Pearson)和不同的模型隱藏層結(jié)構(gòu)(RNN,單向LSTM,GRU),來(lái)進(jìn)行對(duì)比驗(yàn)證。將數(shù)據(jù)集按照 6∶2∶2的比例劃分為訓(xùn)練集、驗(yàn)證集、測(cè)試集。并使用相同的超參數(shù)進(jìn)行了實(shí)驗(yàn)。同時(shí)為了對(duì)比文獻(xiàn)[4]以及文獻(xiàn)[6]中做的工作,在評(píng)價(jià)指標(biāo)中引入了平均絕對(duì)誤差(MAE),模型訓(xùn)練結(jié)果如表4所示。
表4 不同模型和特征模型訓(xùn)練結(jié)果
根據(jù)訓(xùn)練的模型對(duì)劃分的測(cè)試集進(jìn)行測(cè)試,選取了測(cè)試集最后50條數(shù)據(jù)進(jìn)行繪制預(yù)測(cè)效果圖。各個(gè)模型在不同的特征選擇下擬合的結(jié)果如圖6~圖8所示,圖9展示了BiLSTM模型在不同特征選擇下的對(duì)比。
圖6 全部特征不同模型的預(yù)測(cè)結(jié)果
圖7 Pearson特征選擇不同模型預(yù)測(cè)結(jié)果
圖8 RF特征選擇不同模型預(yù)測(cè)結(jié)果
表4展示了不同模型以及不同特征選擇之間的誤差對(duì)比,BiLSTM預(yù)測(cè)效果要明顯優(yōu)于其他三種結(jié)構(gòu)的模型。其中Pearson特征選擇的實(shí)驗(yàn)結(jié)果在LSTM、GRU和BiLSTM模型上表現(xiàn)不如不做特征選擇,RF特征選擇在降低了模型特征維度的情況下仍然對(duì)模型的訓(xùn)練效果有不同程度的提升。
模型預(yù)測(cè)結(jié)果根據(jù)圖6~圖8顯示,RNN、LSTM、GRU和BiLSTM模型都可以在整體趨勢(shì)上反映出出鋁量的變化,而BiLSTM在預(yù)測(cè)效果上明顯優(yōu)于其他模型。根據(jù)圖9所示,對(duì)比不同的特征選擇上的預(yù)測(cè)效果,基于RF特征選擇的BiLSTM在降低特征維度的情況下仍取得了略優(yōu)于其他兩種特征選擇 的結(jié)果,驗(yàn)證了RF特征選擇的有效性。
為了驗(yàn)證本文提出的電解槽出鋁量預(yù)測(cè)模型可靠性和適用性,本文選擇了Pytorch學(xué)習(xí)框架作為學(xué)習(xí)模型后端,搭建了在線訓(xùn)練平臺(tái),對(duì)RF-BiLSTM模型實(shí)行了增量化訓(xùn)練,不斷根據(jù)新的數(shù)據(jù)進(jìn)行模型的權(quán)值更新,給出一天后的預(yù)測(cè)結(jié)果,給鋁廠工作人員提供參考。如圖10所示,模型在2726號(hào)槽上50條數(shù)據(jù)進(jìn)行提前一天的預(yù)測(cè)結(jié)果。
圖10 2726號(hào)電解槽預(yù)測(cè)結(jié)果
將訓(xùn)練好的模型用于2726號(hào)電解槽出鋁量預(yù)測(cè),輸入數(shù)據(jù)后模型自動(dòng)計(jì)算誤差,誤差統(tǒng)計(jì)后平均絕對(duì)誤差為4.2,在2726號(hào)電解槽上驗(yàn)證了模型的有效性。
1)訓(xùn)練過(guò)程中,模型訓(xùn)練的效果受到模型的批尺寸、網(wǎng)絡(luò)層數(shù)的選擇所影響,合適的超參數(shù)為提高模型的訓(xùn)練效果。本實(shí)驗(yàn)提出的RF-BiLSTM以批尺寸為64,網(wǎng)絡(luò)層數(shù)為2層為較優(yōu)選擇。
2)以貴州某鋁廠34臺(tái)電解槽共120天3 814條數(shù)據(jù)為模型初始訓(xùn)練、驗(yàn)證和測(cè)試。對(duì)比不同模型的預(yù)測(cè)效果,RF-BiLSTM平均誤差為0.017,平均絕對(duì)誤差為2.373,優(yōu)于文獻(xiàn)[4]的25.21和文獻(xiàn)[6]的35.8。
3)使用RF-BiLSTM電解槽出鋁量預(yù)測(cè)模型在貴州某鋁廠的2726號(hào)電解槽進(jìn)行可靠性檢驗(yàn),完成超前一天出鋁量預(yù)測(cè),預(yù)測(cè)結(jié)果絕對(duì)誤差在4.2,驗(yàn)證了模型的有效性,實(shí)驗(yàn)結(jié)果表明RF-BiLSTM在為鋁電解槽出鋁量預(yù)測(cè)問(wèn)題提供了一定的參考價(jià)值。