孫 浩, 葉國良, 翟博豪, 呼子宇, 趙志偉
(1. 燕山大學(xué) 智能控制系統(tǒng)與智能裝備教育部工程研究中心, 河北 秦皇島 066004;2. 燕山大學(xué) 電氣工程學(xué)院, 河北 秦皇島 066004; 3. 唐山學(xué)院 計(jì)算機(jī)科學(xué)與技術(shù)系, 河北 唐山 063000)
在鋼鐵冷連軋生產(chǎn)過程中,軋制力預(yù)設(shè)值直接影響軋制規(guī)程的制定,還影響著產(chǎn)品的厚度和平整度[1,2]。軋制力模型主要包括機(jī)理模型和數(shù)據(jù)驅(qū)動(dòng)模型[3]?;跀?shù)學(xué)推導(dǎo)的機(jī)理模型[4],由于存在很多不確定因素而引入了許多假設(shè),導(dǎo)致預(yù)測的軋制力產(chǎn)生很大誤差[5]。因此,出現(xiàn)了很多數(shù)據(jù)驅(qū)動(dòng)技術(shù)來建立軋制力模型,以期提高預(yù)測精度[6]。
數(shù)據(jù)驅(qū)動(dòng)是一種新興的技術(shù),特別是對(duì)于有大量數(shù)據(jù)的工業(yè)過程,利用一些易測變量建立回歸模型,來預(yù)測未知變量[7]?,F(xiàn)有文獻(xiàn)中大量的研究結(jié)果表明,在數(shù)據(jù)驅(qū)動(dòng)模型中,基于機(jī)器學(xué)習(xí)的方法得到了廣泛應(yīng)用[8],預(yù)測精度也得到了很大提升。文獻(xiàn)[9]使用主成分分析法對(duì)大量輸入數(shù)據(jù)進(jìn)行特征提取,再使用貝葉斯正則化法對(duì)BP神經(jīng)網(wǎng)絡(luò)進(jìn)行改進(jìn),簡化了網(wǎng)絡(luò)結(jié)構(gòu),提高了預(yù)測精度。文獻(xiàn)[10]將相關(guān)性分析與極限學(xué)習(xí)機(jī)結(jié)合,先使用灰色關(guān)聯(lián)分析對(duì)輸入變量進(jìn)行相關(guān)性分析,確定隱含層節(jié)點(diǎn)數(shù),再使用極限學(xué)習(xí)機(jī)進(jìn)行軋制力預(yù)報(bào),該模型提高了軋制力的預(yù)測精度。文獻(xiàn)[11]使用改進(jìn)果蠅算法與最小二乘支持向量機(jī)相結(jié)合進(jìn)行軋制力預(yù)測,將果蠅算法的味道濃度判定函數(shù)和步長設(shè)定方法進(jìn)行改進(jìn),采用分組并行搜索策略,再使用支持向量機(jī)進(jìn)行軋制力預(yù)測,提高了預(yù)測的精度。文獻(xiàn)[12]使用有限元法和神經(jīng)網(wǎng)絡(luò)相結(jié)合建立預(yù)測模型,將摩擦系數(shù)作為網(wǎng)絡(luò)輸入?yún)?shù),利用其與軋制力之間的關(guān)系式,采用迭代法對(duì)其進(jìn)行優(yōu)化,最終將軋制力預(yù)測誤差控制在10%以內(nèi)。文獻(xiàn)[13]使用互信息篩選出輔助變量作為LSSVM模型的輸入?yún)?shù),使用粒子群優(yōu)化算法確定LSSVM模型的參數(shù),并將該模型應(yīng)用到現(xiàn)場中,結(jié)果表明有較高的預(yù)測精度。這些模型都是淺層且離線的模型,不能進(jìn)行深層次的特征提取而導(dǎo)致部分有用信息丟失,同時(shí)模型還面臨著長時(shí)間不更新而導(dǎo)致的漂移問題。為同時(shí)解決上述2個(gè)問題,提出多層循環(huán)自編碼網(wǎng)絡(luò),一方面利用多層網(wǎng)絡(luò)提取樣本的深層次隱藏信息;另一方面利用循環(huán)網(wǎng)絡(luò)能夠?qū)ψ钚聵颖具M(jìn)行增量學(xué)習(xí)的特點(diǎn),實(shí)現(xiàn)模型的在線更新,從而避免模型漂移問題。在循環(huán)自編碼網(wǎng)絡(luò)的訓(xùn)練過程中,使用小批量(mini-batch)梯度下降算法加快網(wǎng)絡(luò)訓(xùn)練速度,提升網(wǎng)絡(luò)性能。
本文研究的軋制力模型由特征提取和回歸擬合2部分組成。其中循環(huán)自編碼網(wǎng)絡(luò)進(jìn)行特征提取,來獲取樣本的深層次特征;高斯過程回歸模型進(jìn)行回歸擬合,利用提取到的深層次特征進(jìn)行軋制力預(yù)測。
循環(huán)自編碼網(wǎng)絡(luò)(AEGRU)是以自編碼器(autotncoder,AE)為基礎(chǔ),結(jié)合門控循環(huán)單元(gate recurrent unit, GRU)網(wǎng)絡(luò)在序列遞歸、記憶性、參數(shù)共享等方面的優(yōu)勢(shì),進(jìn)行數(shù)據(jù)特征提取。
GRU是循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network, RNN)的一種,能夠解決RNN只可保存短期記憶和其反向傳播過程中梯度消失等問題[14]。GRU由更新門和復(fù)位門組成,這2個(gè)門可以控制隱藏狀態(tài)下新舊信息的比重[15]。復(fù)位門決定了如何將新的輸入信息與前面的記憶相結(jié)合,更新門定義了前一時(shí)刻信息被帶入到當(dāng)前狀態(tài)中的程度。如果把復(fù)位門設(shè)置為 1,更新門設(shè)置為 0,將再次獲得標(biāo)準(zhǔn) RNN 模型。GRU的內(nèi)部結(jié)構(gòu)如圖1所示。
圖1 GRU網(wǎng)絡(luò)內(nèi)部結(jié)構(gòu)圖Fig.1 GRU network internal structure diagram
更新門zt可以用公式表示為:
zt=σ(W(z)xt+U(z)ht-1)
(1)
式中:xt為當(dāng)前時(shí)間步的輸入向量;W(z)為輸入向量的權(quán)重;ht-1為上一時(shí)間步的隱藏輸出;U(z)為隱藏輸出的權(quán)重;σ為Sigmoid 激活函數(shù)。
重置門rt與更新門zt類似,可以表示為:
rt=σ(W(r)xt+U(r)ht-1)
(2)
(3)
當(dāng)前時(shí)間步的隱藏狀態(tài)輸出ht可以表示為:
(4)
AEGRU網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。AEGRU網(wǎng)絡(luò)通過重構(gòu)輸入來提取中間特征,輸入數(shù)據(jù)X首先經(jīng)過2個(gè)GRU Layer編碼得到隱層數(shù)據(jù)即新特征Z,再經(jīng)過2個(gè)GRU Layer解碼來重構(gòu)輸入,特征提取的編碼過程是在特征之間進(jìn)行交叉和非線性映射,用來描述序列之間復(fù)雜的關(guān)系。特征提取的解碼過程是利用提取到的新特征Z盡可能的重構(gòu)輸入得到重構(gòu)數(shù)據(jù)X′,來保證交叉和非線性映射的合理性。
圖2 AEGRU網(wǎng)絡(luò)結(jié)構(gòu)圖Fig2. AEGRU network structure diagram
為了模型能更好的重構(gòu)輸入,使用均方誤差Ems作為網(wǎng)絡(luò)損失函數(shù),可以表示為:
(5)
式中:X為輸入樣本;X′為重構(gòu)樣本;M為輸入的樣本個(gè)數(shù)。
AEGRU網(wǎng)絡(luò)時(shí)序圖如圖3所示,當(dāng)前時(shí)刻提取到的特征不僅和當(dāng)前時(shí)刻的輸入有關(guān),還和網(wǎng)絡(luò)中保存的歷史樣本特征有關(guān)。t時(shí)刻提取的特征Zt由t時(shí)刻的輸入Xt和t-1時(shí)刻網(wǎng)絡(luò)中保存的特征共同決定。當(dāng)前時(shí)刻的特征提取完成后,網(wǎng)絡(luò)會(huì)更新保存的歷史樣本特征,用于下一時(shí)刻對(duì)模型進(jìn)行及時(shí)的在線校正,防止模型漂移問題的發(fā)生。
圖3 AEGRU網(wǎng)絡(luò)時(shí)序圖Fig.3 AEGRU network timing diagram
在機(jī)器學(xué)習(xí)中,高斯過程是在高斯隨機(jī)過程與貝葉斯學(xué)習(xí)理論的基礎(chǔ)上發(fā)展起來的方法[16]。高斯過程回歸(Gaussian process regression, GPR)是一種基于高斯過程機(jī)器學(xué)習(xí)原理的回歸方法,通過貝葉斯推理對(duì)輸入數(shù)據(jù)的輸出變量進(jìn)行預(yù)測[17]。
GPR是基于訓(xùn)練集中大量的自變量Z和因變量Y來訓(xùn)練模型,然后對(duì)新的自變量z來預(yù)測相應(yīng)的因變量y。假設(shè)數(shù)據(jù)集是(Z,Y),其中Z∈RN×D,Y∈RN×1,這個(gè)數(shù)據(jù)集總共有N條數(shù)據(jù),每條數(shù)據(jù)有D維輸入特征和一維輸出。
在GPR問題中,由于因變量通常是帶噪聲的,所以將y建模為一個(gè)隱函數(shù)f(z) 加上1個(gè)高斯噪聲ε,ε也服從正態(tài)分布,即:
(6)
對(duì)于數(shù)據(jù)集中的Z,對(duì)Y建模,假設(shè)Y服從聯(lián)合正態(tài)分布,即:
Y~N(0,K)
(7)
式中K是關(guān)于自變量的N×N型協(xié)方差矩陣。
當(dāng)有1個(gè)新的測試輸入z,給定其先驗(yàn)分布為y~N(0,K(z*,z*)),根據(jù)訓(xùn)練集和測試集數(shù)據(jù)來自同一分布,可以得到聯(lián)合分布為:
(8)
式中k*=[k(z*,z1),k(z*,z2),…,k(z*,zN)];k**=k(z*,z*);z1,z2為訓(xùn)練集中的第1,2個(gè)樣本;z*為新的測試輸入。
基于p(Y)的先驗(yàn)分布及聯(lián)合分布p(Y,y),根據(jù)貝葉斯公式可以計(jì)算p(y|Y)的后驗(yàn)概率:
(9)
可以得出對(duì)y的估計(jì):
(10)
(11)
(12)
AEGRU-GPR模型結(jié)構(gòu)圖如圖4所示。對(duì)于數(shù)據(jù)集(X,Y),首先將自變量X分成X1和X2兩部分,其中自變量X1進(jìn)行AEGRU網(wǎng)絡(luò)訓(xùn)練;然后將自變量X2輸入訓(xùn)練好的AEGRU網(wǎng)絡(luò)進(jìn)行特征提取得到新特征Z。將新特征Z與自變量X2對(duì)應(yīng)的因變量Y組合成新的數(shù)據(jù)集(Z,Y),并用該數(shù)據(jù)集訓(xùn)練GPR模型。對(duì)于測試數(shù)據(jù)x首先進(jìn)入AEGRU網(wǎng)絡(luò)進(jìn)行特征提取得到新特征z,然后輸入GPR模型得到軋制力的預(yù)測值y。
圖4 AEGRU-GPR模型結(jié)構(gòu)圖Fig.4 Structure drawing of AEGRU-GPR model
根據(jù)機(jī)理模型和實(shí)際生產(chǎn)情況確定軋制力模型的輸入?yún)?shù)。選取原料寬度B、原料厚度H、軋輥入口處厚度H0、軋輥出口處厚度H1、軋輥的前張力τf、軋輥的后張力τb、軋輥半徑R′和出料帶線速度V作為模型的輸入?yún)?shù)。
本模型選用的是河南某廠1 200 mm四輥五機(jī)架的冷連軋生產(chǎn)線的數(shù)據(jù),預(yù)測模型的輸入變量為{B,H,H0,H1,τf,τb,R′,V},輸出變量為模型預(yù)測的軋制力{F},各參數(shù)的工作范圍如表1所示。選取第3機(jī)架中1 000條連續(xù)的數(shù)據(jù)作為數(shù)據(jù)集。
表1 第3機(jī)架軋制過程變量工作范圍Tab.1 The third frame rolling process variable working rang
在得到數(shù)據(jù)集之后,首先要對(duì)其進(jìn)行歸一化處理,因?yàn)槊總€(gè)變量有著不同的量綱,不同的變量之間相差很多倍,直接使用原始數(shù)據(jù)有可能導(dǎo)致某些變量被忽視,故要進(jìn)行歸一化處理。該模型選用線性歸一化的方法,就是將每個(gè)數(shù)據(jù)都轉(zhuǎn)換成[0,1]的范圍內(nèi),進(jìn)行歸一化不但可以提高模型的收斂速度,而且可以提高模型的精度。
模型由特征提取和回歸擬合2部分組成,使用AEGRU網(wǎng)絡(luò)進(jìn)行特征提取,使用GPR模型進(jìn)行回歸擬合??偣彩褂? 000條數(shù)據(jù),其中前750條數(shù)據(jù)作為訓(xùn)練集,后250條數(shù)據(jù)作為測試集。訓(xùn)練集中的前250條數(shù)據(jù)用作AEGRU網(wǎng)絡(luò)的初始化;后500條數(shù)據(jù)先進(jìn)行特征提取,再進(jìn)行GPR回歸算法的訓(xùn)練。最后的250條數(shù)據(jù)作為測試集,檢驗(yàn)?zāi)P偷念A(yù)測能力。
在AEGRU網(wǎng)絡(luò)進(jìn)行特征提取的過程中,為了提升模型的訓(xùn)練速度,引入了mini-batch梯度下降法。對(duì)于傳統(tǒng)梯度下降法每次迭代都需要在整個(gè)樣本集上進(jìn)行計(jì)算,當(dāng)訓(xùn)練集中的數(shù)據(jù)量很大時(shí),收斂速度會(huì)很慢[18]。而隨機(jī)梯度下降法是每個(gè)樣本訓(xùn)練時(shí)都對(duì)模型參數(shù)進(jìn)行一次更新,雖然大大加快了訓(xùn)練速度,但是會(huì)造成過擬合,使模型缺少整體性而不能收斂。mini-batch梯度下降方法就是對(duì)上述2個(gè)方法的中和,既保證了訓(xùn)練的速度,又使得模型具有整體性,能夠收斂。該方法是將每個(gè)小批次訓(xùn)練100代,訓(xùn)練完所有小批次再重新對(duì)所有小批次進(jìn)行訓(xùn)練。訓(xùn)練的方式如圖5所示。
圖5 AEGRU網(wǎng)絡(luò)訓(xùn)練方式Fig.5 AEGRU network training mode
在特征提取過程中,通過試驗(yàn)法選定AEGRU網(wǎng)絡(luò)中隱藏層神經(jīng)元數(shù)量為10(即AEGRU網(wǎng)絡(luò)中提取的新特征Z的個(gè)數(shù)),GPR模型中添加的高斯噪聲為0.001。AEGRU-GPR模型的預(yù)測結(jié)果如圖6所示,可以看出,預(yù)測值與真實(shí)值的散點(diǎn)圖基本位于±3%誤差帶以內(nèi),說明該模型擁有較高的預(yù)測精度,可以滿足實(shí)際生產(chǎn)的要求。
圖6 模型預(yù)測值與真實(shí)值對(duì)比圖Fig.6 Comparison of the predicted value and the real value of the model
為了驗(yàn)證本文模型的有效性,將其與其他的軋制力模型進(jìn)行比較。這幾種模型的預(yù)測絕對(duì)誤差箱線圖如圖7所示。其中AE模型采用和AEGRU模型相同的層數(shù),相同的神經(jīng)元數(shù)量。支持向量機(jī)(SVM)模型中的epsilon取0.001,懲罰系數(shù)C取5。在箱線圖中,箱子中的線代表了數(shù)據(jù)的平均水平。箱子的寬度在一定程度上反映了數(shù)據(jù)的波動(dòng)程度。箱子上部的圓點(diǎn)代表異常值。對(duì)比這幾種模型,AEGRU-GPR模型的箱子中線最接近于0,箱子寬度更窄,離群值的離散度比其他模型低得多,這表明該模型不僅有良好的預(yù)測性能,而且更加穩(wěn)定。
圖7 不同模型的預(yù)測絕對(duì)誤差對(duì)比圖Fig.7 Comparison graph of absolute error of different models
為了定量說明這4種模型的預(yù)測性能,給出模型預(yù)測的均方根誤差(RMSE)、平均相對(duì)百分誤差(MAPE)、決定系數(shù)r2,如表2所示。
由表2可以直接看出,AEGRU-GPR模型的RMSE、MAPE均最小,r2最大,說明該模型具有很高的預(yù)報(bào)精度。對(duì)比AEGRU-GPR和AE-GPR模型,可以看出在相同的條件下加入GRU網(wǎng)絡(luò)后,模型預(yù)測誤差減小很多,模型的性能有了很大提升。對(duì)比AEGRU-SVM和AE-SVM模型,也可以得出加入GRU網(wǎng)絡(luò)后,模型性能更好。分別對(duì)比表2中的前2種模型和后2種模型,可以得出在相同的特征提取條件下,GPR模型比SVM模型預(yù)測性能更好。
表2 模型的預(yù)測結(jié)果對(duì)比Tab.2 Comparison of prediction results of the model
為了驗(yàn)證AEGRU特征提取模型的有效性,將AEGRU-GPR與AEGRU-SVM、AE-GPR和AE-SVM模型預(yù)測的相對(duì)誤差進(jìn)行比較,選取其中100個(gè)連續(xù)的測試樣本,其相對(duì)誤差曲線如圖8所示。從圖中可以看出,加入循環(huán)神經(jīng)網(wǎng)絡(luò)的AEGRU-GPR模型的預(yù)測誤差曲線波動(dòng)較小,且保持在±0.03以內(nèi),明顯優(yōu)于其他兩種沒有加循環(huán)神經(jīng)網(wǎng)絡(luò)的模型。對(duì)于AE-GPR和AE-SVM模型,當(dāng)前預(yù)測的軋制力只和當(dāng)前監(jiān)測到的數(shù)據(jù)有關(guān);而加入循環(huán)神經(jīng)網(wǎng)絡(luò)的AEGRU-GPR模型,能夠保留歷史樣本的特征,對(duì)新產(chǎn)生的數(shù)據(jù)進(jìn)行立即的在線學(xué)習(xí),對(duì)模型進(jìn)行及時(shí)的在線校正,能有效防止模型漂移問題,顯著提高軋制力的預(yù)測精度。
圖8 不同模型的預(yù)測相對(duì)誤差對(duì)比圖Fig.8 Comparison graph of relative error of different models
1) 使用AEGRU-GPR建立軋制力模型。針對(duì)傳統(tǒng)特征提取方法不能提取樣本的深層次特征和模型長時(shí)間不更新而導(dǎo)致的漂移問題,提出了一種基于循環(huán)自編碼網(wǎng)絡(luò)的特征提取方法。多層的網(wǎng)絡(luò)能夠提取樣本的深層次特征,增強(qiáng)數(shù)據(jù)的表達(dá)能力。循環(huán)網(wǎng)絡(luò)能夠記憶歷史樣本的特征,對(duì)模型進(jìn)行及時(shí)的在線校正,防止模型漂移問題的發(fā)生,進(jìn)一步提高模型預(yù)測精度。但該模型只是在特征提取部分加入了短期自學(xué)習(xí)能力,以后也可以在回歸擬合部分加入短期自學(xué)習(xí)能力,進(jìn)一步提高軋制力預(yù)測精度。
2) 仿真實(shí)驗(yàn)表明,該方法實(shí)現(xiàn)了軋制力的高精度預(yù)測。相比于沒有添加循環(huán)神經(jīng)網(wǎng)絡(luò)的模型,其預(yù)測誤差均有一定程度降低,性能有了很大提升;且該模型結(jié)構(gòu)簡單,能進(jìn)行在線更新,有自適應(yīng)能力,能降低生產(chǎn)環(huán)境、狀態(tài)等外部因素對(duì)模型的影響。綜上所述,AEGRU-GPR模型在實(shí)踐中有很大的應(yīng)用前景。