程澤凱, 閆小利**, 程旺生, 袁志祥,3
(1.安徽工業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院, 安徽 馬鞍山 243002; 2.馬鞍山鋼鐵股份有限公司 制造部, 安徽 馬鞍山 243000; 3.工業(yè)互聯(lián)網(wǎng)智能應(yīng)用與安全安徽省工程實(shí)驗(yàn)室, 安徽 馬鞍山 243002)
焦炭由配合煤在約1 000 ℃的高溫條件下經(jīng)干餾而獲得,在高爐煉鐵中起著燃料、還原劑、增碳劑及骨架的作用[1],其質(zhì)量的好壞直接影響高爐運(yùn)行狀態(tài)和焦化廠的經(jīng)濟(jì)效益。隨著一系列的環(huán)保政策法規(guī)逐漸完善出臺(tái),高爐朝著現(xiàn)代化、大型化建設(shè),對(duì)焦炭生產(chǎn)的環(huán)保標(biāo)準(zhǔn)和質(zhì)量要求日益提高,同時(shí)國(guó)內(nèi)優(yōu)質(zhì)煉焦煤較少、價(jià)格昂貴且地區(qū)分布不均勻[2]。如何提高焦炭質(zhì)量和產(chǎn)量,降低煉焦成本成了煉焦行業(yè)目前急需解決的問(wèn)題之一。同時(shí)焦炭質(zhì)量檢測(cè)難,存在很大的滯后性,焦?fàn)t煉焦具有非線性、時(shí)變緩慢、高延遲、工況復(fù)雜的特點(diǎn)[3],建立焦炭質(zhì)量預(yù)測(cè)模型具有重大意義。
目前,學(xué)者基本采用加權(quán)平均、專家經(jīng)驗(yàn)、線性回歸和神經(jīng)網(wǎng)絡(luò)等方法對(duì)焦炭質(zhì)量進(jìn)行預(yù)測(cè)。曾令鵬等[4]利用韶鋼2016年的焦炭質(zhì)量數(shù)據(jù)建立了線性回歸焦炭質(zhì)量預(yù)測(cè)模型,對(duì)焦炭灰分、硫分、耐磨強(qiáng)度、抗碎強(qiáng)度進(jìn)行預(yù)測(cè),預(yù)測(cè)模型已應(yīng)用于韶鋼實(shí)際生產(chǎn), 實(shí)現(xiàn)了焦炭質(zhì)量預(yù)測(cè)自動(dòng)化;劉春梅[5]利用BP神經(jīng)網(wǎng)絡(luò),通過(guò)煉焦煤質(zhì)量數(shù)據(jù)對(duì)焦炭質(zhì)量預(yù)測(cè),平均準(zhǔn)確率達(dá)到了95%;陶文華等[6]利用主元分析法確定焦炭質(zhì)量預(yù)測(cè)模型輸入變量,利用差分算法對(duì)神經(jīng)網(wǎng)絡(luò)初始權(quán)值和閾值優(yōu)化,建立了基于DE-BP優(yōu)化的焦炭質(zhì)量預(yù)測(cè)模型,該模型收斂精度快,預(yù)測(cè)精度高,可以為焦炭生產(chǎn)提供參考價(jià)值;袁正波等[7]利用遺傳算法對(duì)支持向量機(jī)進(jìn)行參數(shù)尋優(yōu),建立了基于GA-SVM的焦炭質(zhì)量預(yù)測(cè)模型,與BP神經(jīng)網(wǎng)絡(luò)相比,其誤差更小、模型的泛化能力更好。由于加權(quán)平均法誤差較大,專家經(jīng)驗(yàn)預(yù)測(cè)的準(zhǔn)確性主要取決于專家的生產(chǎn)實(shí)踐經(jīng)驗(yàn)和豐富的專業(yè)知識(shí),但主觀性太強(qiáng)、普適性差、不能進(jìn)行定量分析,有時(shí)難以保證預(yù)測(cè)的準(zhǔn)確性[8]。線性回歸方法簡(jiǎn)單且容易實(shí)現(xiàn),但對(duì)于復(fù)雜的非線性數(shù)據(jù)處理能力差,因此預(yù)測(cè)誤差較大。傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)訓(xùn)練速度慢,容易陷入局部極小點(diǎn)而無(wú)法達(dá)到全局最優(yōu)解,預(yù)測(cè)精度低[9]。支持向量機(jī)由Vapnik[10]等在20世紀(jì)70年代提出,具有良好的學(xué)習(xí)能力、泛化能力,可以解決高維問(wèn)題,在小樣本情況下預(yù)測(cè)誤差較小、準(zhǔn)確率高,可以避免選擇神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和易陷入局部極小點(diǎn)等問(wèn)題[11],但SVM對(duì)參數(shù)調(diào)節(jié)和函數(shù)選擇敏感。
梯度提升決策樹屬于機(jī)器學(xué)習(xí)算法,最早由Firedman教授[12]提出,是Boosting算法的一種,它將多個(gè)性能較差的弱學(xué)習(xí)器通過(guò)某種方式集成起來(lái)得到一個(gè)強(qiáng)學(xué)習(xí)器模型,由分類回歸樹(CART)、梯度提升(Gradiant Boosting) 、縮減(Shrinkage)組成。梯度提升決策樹算法可以靈活處理各種類型的數(shù)據(jù),在相對(duì)少的調(diào)參時(shí)間情況下,預(yù)測(cè)的準(zhǔn)確率也比較高,算法使用一些健壯的損失函數(shù),對(duì)異常值的魯棒性非常強(qiáng),因此,近年來(lái)梯度提升決策樹廣泛應(yīng)用于預(yù)測(cè)研究領(lǐng)域。路志英等[13]利用Focal Loss改進(jìn)梯度提升決策樹算法,并對(duì)天津強(qiáng)對(duì)流災(zāi)害進(jìn)行預(yù)測(cè),實(shí)驗(yàn)結(jié)果表明:基于Focal Loss改進(jìn)的梯度提升決策樹模型效果優(yōu)于邏輯回歸、梯度提升決策樹、隨機(jī)森林與多層感知機(jī)模型;徐永瑞等[14]利用梯度提升決策樹對(duì)電力系統(tǒng)負(fù)荷進(jìn)行預(yù)測(cè),實(shí)驗(yàn)結(jié)果表明該模型的精度、泛化能力以及運(yùn)算速度均優(yōu)于LSTM。
綜上所述,本文提出了基于梯度提升決策樹的焦炭質(zhì)量預(yù)測(cè)模型,并對(duì)某焦化廠歷史生產(chǎn)數(shù)據(jù)進(jìn)行訓(xùn)練。實(shí)驗(yàn)結(jié)果表明:該模型相比于線性回歸、隨機(jī)森林、決策樹模型預(yù)測(cè)精度高、誤差小,對(duì)焦化廠生產(chǎn)具有一定的指導(dǎo)意義。
假設(shè)梯度提升決策樹的訓(xùn)練集為T={(x1,y1),(x2,y2),…,(xN,yN)},xi∈X?Rn,yi∈Y?Rn,梯度提升決策樹采用迭代的思想,每輪迭代產(chǎn)生一個(gè)CART回歸樹T(x,Θm),Θ表示第m棵CART回歸樹參數(shù),m=1,2,…,M,每棵CART回歸樹在上一個(gè)CART回歸樹的殘差基礎(chǔ)上往殘差gm,i減小的方向梯度迭代,更新CART回歸樹fm(x),使損失函數(shù)L(Y,f(x))最小,預(yù)測(cè)的結(jié)果fM(x)為初始值加上各CART回歸樹的殘差。具體計(jì)算如式(1)(2)(3) 所示:
(1)
fm(x)=fm-1(x)+T(x,Θm)
(2)
(3)
本文所有數(shù)據(jù)來(lái)自某焦化廠歷史生產(chǎn)數(shù)據(jù),由于采集的數(shù)據(jù)規(guī)模大,量綱不同(如焦炭質(zhì)量硫分為0.7%,耐磨強(qiáng)度為5.5%,抗碎強(qiáng)度為89.4%),存在缺失值和異常值等情況,所以需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理操作,這樣建立的模型才能準(zhǔn)確、真實(shí)地反應(yīng)生產(chǎn)情況。
整個(gè)數(shù)據(jù)預(yù)處理流程:刪除缺失數(shù)據(jù),如果一組測(cè)量數(shù)據(jù)中某個(gè)測(cè)量值殘余誤差的絕對(duì)值xi>3σ,則該測(cè)量值為異常值,應(yīng)剔除,其中σ代表標(biāo)準(zhǔn)差。利用式(4)對(duì)輸入變量、輸出變量歸一化。式(4)如下所示:
(4)
(5)
焦炭影響高爐運(yùn)行狀態(tài)的主要質(zhì)量指標(biāo)[15]有焦炭灰分、焦炭硫分、焦炭強(qiáng)度等。焦炭的灰分含量增高會(huì)使高爐冶煉中的爐渣量增高,導(dǎo)致料柱透氣性和透液性變差,焦比增高;含硫量高的焦炭使高爐利用率和鋼鐵質(zhì)量下降;焦炭的冷態(tài)強(qiáng)度要求高且均勻穩(wěn)定,則高爐冶煉強(qiáng)度、焦炭負(fù)荷、噴煤比得到提高,降低了生鐵成本。因此選取焦炭灰分、硫分、耐磨強(qiáng)度、抗碎強(qiáng)度作為模型的輸出。
影響焦炭質(zhì)量的主要因素[16]有單種煤性質(zhì)(水分、硫分、黏結(jié)指數(shù)、膠質(zhì)層最大厚度等)、煤場(chǎng)管理、配煤工藝(煤預(yù)處理工藝、裝爐煤的配合與粉碎工藝等)、煉焦工藝(焦?fàn)t的加熱控制、焦?fàn)t壓力制度)等。配煤煉焦包括一系列復(fù)雜的化學(xué)、物理反應(yīng),但最主要的影響因素是配合煤的質(zhì)量。配合煤質(zhì)量指標(biāo)眾多且復(fù)雜,根據(jù)理論,將所有可以影響焦炭質(zhì)量的指標(biāo)都作為模型輸入,可能會(huì)得到準(zhǔn)確率較高的預(yù)測(cè)模型,但會(huì)增加模型的復(fù)雜度和訓(xùn)練時(shí)間。本文依據(jù)專家經(jīng)驗(yàn)及變量皮爾遜相關(guān)性分析結(jié)果選取模型輸入變量,降低了模型輸入維度,提高了模型的收斂速度。皮爾遜相關(guān)系數(shù)廣泛用于衡量?jī)蓚€(gè)連續(xù)變量之間的相關(guān)程度,式(6)中,i=1,2,…,N,E(X),E(Y)分別代表X與Y的均值,X={x1,x2,…,xN},Y={y1,y2,…,yN},有
(6)
分析結(jié)果如表1所示。
表1 焦炭質(zhì)量數(shù)據(jù)相關(guān)性分析結(jié)果
其中,皮爾遜相關(guān)系數(shù)的取值范圍為(-1,1),r>1表示正相關(guān),r<0表示負(fù)相關(guān),r=0表示零相關(guān),r的絕對(duì)值越大表示相關(guān)程度越高。因此選擇配合煤水分、灰分、硫分、揮發(fā)分、黏結(jié)指數(shù)、膠質(zhì)層最大厚度、煤的最終收縮度作為模型的輸入。
本文利用Python 3的Pandas數(shù)據(jù)處理包和Scikit-learn機(jī)器學(xué)習(xí)包進(jìn)行數(shù)據(jù)分析建模。
網(wǎng)格搜索法是一種窮舉搜索方法,通過(guò)循環(huán)遍歷,在候選參數(shù)集中選取不同的參數(shù)進(jìn)行訓(xùn)練,選取誤差最小的參數(shù)作為模型的最終參數(shù)。本文利用網(wǎng)格搜索法來(lái)確定模型相關(guān)參數(shù),當(dāng)梯度提升決策樹的學(xué)習(xí)率為0.01,損失函數(shù)為平方損失函數(shù),弱學(xué)習(xí)器的數(shù)目為100, CART最大深度為5時(shí),誤差最小。
將數(shù)據(jù)集中前530組數(shù)據(jù)劃分為訓(xùn)練集,剩下的50組為測(cè)試集,對(duì)線性回歸、決策樹、隨機(jī)森林、梯度提升決策樹這4個(gè)模型進(jìn)行訓(xùn)練,為了比較各種模型的性能優(yōu)劣,采用平均絕對(duì)誤差MAE、其值均方根誤差RMSE衡量模型的預(yù)測(cè)精度和泛化能力,如式(7)、(8)所示:
(7)
(8)
其中,y代表樣本觀測(cè)值,f代表預(yù)測(cè)值。實(shí)驗(yàn)結(jié)果如表2和圖1—圖4所示。
表2 模型性能比較結(jié)果
圖1 灰分預(yù)測(cè)絕對(duì)誤差對(duì)比
圖2 硫分預(yù)測(cè)絕對(duì)誤差對(duì)比
圖3 耐磨強(qiáng)度預(yù)測(cè)絕對(duì)誤差對(duì)比
圖4 抗碎強(qiáng)度預(yù)測(cè)絕對(duì)誤差對(duì)比
由表2和圖1—圖4可知:梯度提升決策樹模型預(yù)測(cè)焦炭各質(zhì)量指標(biāo)的RMAE、RRMSE均為最小,相比于其他3種模型更適合焦炭質(zhì)量預(yù)測(cè);線性回歸模型對(duì)焦炭質(zhì)量指標(biāo)灰分、硫分、耐磨強(qiáng)度擬合較好,抗碎強(qiáng)度預(yù)測(cè)誤差較大,但梯度提升決策樹的預(yù)測(cè)精度更高;非線性3種算法擬合誤差由小到大順序?yàn)樘荻忍嵘龥Q策樹、隨機(jī)森林、決策樹,其中梯度提升決策樹、隨機(jī)森林都屬于集成學(xué)習(xí)算法,相比于單一決策樹預(yù)測(cè)精度高、誤差小且不容易過(guò)擬合;由于存在焦?fàn)t爐況波動(dòng),數(shù)據(jù)波動(dòng)較大,隨機(jī)森林對(duì)波動(dòng)值不怎么敏感,所以預(yù)測(cè)誤差比梯度提升決策樹模型大。
梯度提升決策樹、線性回歸、隨機(jī)森林、決策樹均屬于機(jī)器學(xué)習(xí)算法,在訓(xùn)練樣本數(shù)量有限的情況下,基于梯度提升決策樹的焦炭質(zhì)量預(yù)測(cè)模型相比于線性回歸模型、隨機(jī)森林模型、決策樹模型誤差更小,準(zhǔn)確率更高。梯度提升決策樹建立的焦炭質(zhì)量預(yù)測(cè)模型擁有較好的泛化能力和魯棒性,能夠較為準(zhǔn)確地預(yù)測(cè)焦炭質(zhì)量,可以為配煤煉焦提供一定的理論依據(jù)。目前,只考慮了配煤工藝對(duì)焦炭質(zhì)量的影響,后續(xù)工作將研究配煤工藝與煉焦工藝對(duì)焦炭質(zhì)量的影響,以提高預(yù)測(cè)精度與準(zhǔn)確率。