趙志挺
(沈陽化工大學機械與動力工程學院,沈陽 110142)
板形是指板帶材的外貌形狀,包含帶鋼截面幾何形狀和自然狀態(tài)下板帶材平直度兩方面,因此要定量描述板形就涉及到凸度、平直度、楔形、邊部減薄和局部高點等多項指標[1]。在熱連軋生產(chǎn)中,板凸度是評價帶鋼質(zhì)量的重要指標之一,板凸度的好壞直接決定帶鋼的質(zhì)量[2]。在生產(chǎn)過程中,板凸度偏差過大會導致生產(chǎn)工藝停止、帶鋼缺陷和斷裂等問題,造成財產(chǎn)和生命安全風險[3]。在實際的生產(chǎn)中,帶鋼的板凸度缺陷問題一直很嚴重,帶鋼板凸度的控制一直是一項艱巨的任務(wù)[4]。改進和增強帶鋼板凸度的控制和預測精度已成為當前軋制領(lǐng)域研究的重點。
學者們開始基于軋制機理建立數(shù)學模型,但基于傳統(tǒng)數(shù)學的熱連軋帶鋼凸度預測模型不能解決參數(shù)間的強耦合和非線性等問題,阻礙了帶鋼凸度控制精度的進一步提高[5]。隨著新的軋機和有限元分析的出現(xiàn),解決了一部分問題,但高昂的經(jīng)濟成本和時間成本使得學者們開始考慮新的更高效的控制方法。隨著人工智能和工業(yè)大數(shù)據(jù)的興起,學者們開始將人工智能方法引入熱軋帶鋼板凸度控制技術(shù)。曹建國[6]提出了基于數(shù)據(jù)挖掘的調(diào)整策略,可以有效改善板凸度控制情況,可為寬厚板板形質(zhì)量控制研究提供參考。孫杰[7]建立了基于隨機森林的熱軋帶鋼板凸度模型,能夠穩(wěn)定和精確地預測帶鋼板凸度。Wang等[8]將思維進化算法和人工神經(jīng)網(wǎng)絡(luò)用于預測熱軋工藝的型材和平整度,該模型能代替?zhèn)鹘y(tǒng)的基于數(shù)學公式分析的機理模型來研究熱軋過程中復雜、非線性的板形控制。Wu等[9]改進局部異常因子的熱軋帶鋼凸度的高斯過程回歸預測模型,與傳統(tǒng)的高斯過程回歸、人工神經(jīng)網(wǎng)絡(luò)和SVR比較,具有更好的預測精度和穩(wěn)定性。以上方法對板凸度控制研究起著重要的作用,但在實際應(yīng)用過程中,由于軋制工藝參數(shù)太多,需要對影響板凸度的關(guān)鍵參數(shù)進行挑選,而挑選過程復雜且費時,為了節(jié)省時間和降低建模的復雜度,建立高精度、高效率、簡單、易實現(xiàn)的板凸度預測模型十分重要。
數(shù)據(jù)維度過高,會造成數(shù)據(jù)冗余,建模精度失準,以及建模和調(diào)參耗費大量時間,所以對高維數(shù)據(jù)進行降維處理再建模已成為一種較為成熟的方法。而主成分分析是一種成熟的數(shù)據(jù)降維方法[10],在各個領(lǐng)域都有較好的應(yīng)用。在軋鋼領(lǐng)域,將主成分分析(PCA)應(yīng)用于高爐排水[11]、帶鋼寬度[6]等方面,對于高維數(shù)據(jù)的降維處理有很好的效果。而隨機森林算法是由Breiman[12]在2001年提出的一種高度靈活的機器學習算法,也是一種重要的基于Bagging的集成算法,它在結(jié)合許多決策樹的基礎(chǔ)上進行優(yōu)化,并進行所需類別(分類)或平均預測的輸出(回歸)[13]。由于其實現(xiàn)簡單、精度高、抗過擬合能力強,開始被應(yīng)用于化學[14]、交通[15]、鋼鐵[16]、環(huán)境[17-18]等領(lǐng)域。
隨機森林通過有放回抽樣和隨機選擇特征生成大量獨立的決策樹,并將基于這些決策樹預測的平均值作為預測最終的結(jié)果。RF算法流程圖如圖1 所示。
圖1 隨機森林算法流程圖
主成分分析法[19]是最常用的數(shù)據(jù)降維方法,它是一種無監(jiān)督學習算法,能夠?qū)⒏呔S數(shù)據(jù)通過線性投影轉(zhuǎn)化為低維數(shù)據(jù),并保證數(shù)據(jù)所含的信息較為完整。主成分分析的步驟如下。
1)數(shù)據(jù)標準化:
式中:x為樣本;μ為均值;σ為標準差。
2)計算協(xié)方差矩陣XTX的特征值λ和對應(yīng)的特征向量ε:
3)對特征向量進行單位化:
4)計算各主成分貢獻率和累計貢獻率:
式中:bj為第j個主成分貢獻率;αp為前p個主成分的累計貢獻率。
5)對λ按照從大到小排序,按照特征值大于1,累計貢獻率達到85%以上的原則,選出前k個特征,以及對應(yīng)的k個特征向量為列向量,組成特征向量矩陣P,也為載荷矩陣。
6)計算降維后的數(shù)據(jù)為X*=XP。
熱軋生產(chǎn)流程如圖2所示,板坯在精軋機的工作輥、中間輥與帶鋼的相互作用下,從而使帶鋼達到理想的板凸度。從國內(nèi)某熱軋生產(chǎn)線獲取軋制數(shù)據(jù),由于軋鋼種類多樣,為了確保預測的準確性,篩選多鋼種軋制數(shù)據(jù)3萬多條,每個樣本點包含93個參數(shù)(如表1),預測目標為F6精軋機出口的帶鋼凸度。
圖2 熱軋生產(chǎn)流程圖
由于原始數(shù)據(jù)中包含空值、異常值和噪聲數(shù)據(jù),會導致建模誤差偏大,所以首先對數(shù)據(jù)進行預處理。
采用Pauta準則(如式(6)~式(8))去除異常值[20],其中滿足式(6)的值為異常值,應(yīng)當去除。板凸度分布圖如圖3所示,在兩條虛線之間的數(shù)據(jù)為正常數(shù)據(jù),除此之外為異常數(shù)據(jù),需要刪除,預處理后的樣本維度如表2所示。
表2 數(shù)據(jù)維度
圖3 板凸度分布
式中:Sy為樣本標準差;yˉ為樣本平均值;yi為第i個樣本;L為樣本的數(shù)量。
同時利用五點三次平滑方法[21](式(9))對數(shù)據(jù)進行降噪數(shù)理。如圖4所示為一部分數(shù)據(jù)五點三次平滑降噪的結(jié)果,相比原數(shù)據(jù),降噪后的數(shù)據(jù)曲線更加光滑。
圖4 五點三次平滑法
式中,Yi為 降噪后的yi。為消除量綱,對30 101個樣本、93個特征組成的樣本矩陣x進行標準化處理。對于樣本矩陣x:
式中:p=1,2,…,93;n=1,2,…,30101。
對式(10)進行標準化處理后矩陣為
式中:p=1,2,…,93;n=1,2,…,30101;μ為每個變量的平均值;δ為每個變量的標準差。
影響板凸度的變量有93個,全部輸入就可能會造成維度災(zāi)難,導致建模復雜、建模時間長和預測結(jié)果失準的問題。因此,本文采用主成分分析法對數(shù)據(jù)進行降維,并通過計算載荷矩陣來篩選關(guān)鍵控制變量。
由于熱連軋過程中帶鋼凸度主要由F6 精軋機控制,且受溫度影響較大,故將F6軋制力、F6彎輥力、F6 竄 輥量、F6后凸度和終軋溫度這5個變量直接作為模型的輸入項,不再基于PCA進行特征選擇。
進行主成分分析前對數(shù)據(jù)進行相關(guān)性驗證。如表3所示,由KMO統(tǒng)計量和Bartlett球形度檢驗值可以得出各個變量存在一定的相關(guān)關(guān)系,因此,可以采用PCA法進行數(shù)據(jù)降維及特征選擇。
表3 KMO和Bartlett檢驗
對樣本數(shù)據(jù)進行主成分分析。按照式(2)和式(3)計算矩陣x*的協(xié)方差矩陣,再根據(jù)協(xié)方差矩陣計算出特征值和特征向量,并依次計算出主成分貢獻率和累積貢獻率,如表4所示。
表4 主成分特征值和方差貢獻率
如表4所示,當主成分為8時,特征值為1.440(≥1),累計方差貢獻率為85.343%(≥85%),故選取前8個主成分所包含的信息來代替所有信息。
由于主成分是對信息的投影所致,無確切的實際含義,故選擇對主成分影響最明顯的關(guān)鍵變量來代替主要信息。主成分載荷矩陣反映主成分與原始變量間的相互關(guān)聯(lián)程度,原始變量xj在第p個主成分zi上的載荷lij表達式為
式中:i=1,2···,8;j=1,2,···,88;λi為第i個特征值;ωij為特征向量ωi的第j個分量。
根據(jù)載荷值來選擇關(guān)鍵變量,由于第一主成分包含信息最多,因此第一主成分中選擇3個變量,其他主成分中每個只選擇1個變量,共計選擇10個關(guān)鍵控制變量。
根據(jù)選取的關(guān)鍵控制變量和板凸度值建立隨機森林模型。由于隨機森林的性能主要與決策樹的個數(shù)n_estimators和選擇的特征數(shù)max_features相關(guān),采用網(wǎng)格搜索來進行參數(shù)調(diào)整和選擇,如圖5所示,當n_estimators=100,max_features=8,模型具有最小的RMSE為2.260 3 μm。
圖5 基 于RF 的n_estimators 和max_features參數(shù)調(diào)優(yōu)結(jié)果
用相同的數(shù)據(jù)集建立KNN、SVR、GBDT、XGBoost、LightGBM五種主流回歸模型,并調(diào)參到最優(yōu)。
采用R2、MAE、RMSE來評估模型,公式如下:
式中:n為樣本數(shù)量,yi和分別為第i個樣本的真實值和預測值。
圖6 和 圖7 所 示 為KNN、SVR、RF、GBDT、XGBoost、LightGBM模型主成分分析前后的帶鋼出口凸度預測精度圖。由圖可知,各模型在5次交叉驗證中,經(jīng)過主成分分析后的各模型精度均有所提升,且RF、GBDT、XGBoost、LightGBM的預測精度均高于KNN和SVR模型,并且在降維后PCA-RF 具有最高的預測精度,其次是PCALightGBM、PCA-XGBoost,最后是PCA-GBDT。這是因為這4種模型均為基于決策樹的集成模型,比單個機器學習模型(KNN,SVR)的性能都要好,且RF模型旨在降低方差,擁有比LightGBM、XGBoost、GBDT更好的性能。
圖6 PCA降維前各模型板凸度預測精度
圖7 PCA降維后各模型板凸度預測精度
為進一步證實PCA-RF模型的可行性,用MAE和RMSE函數(shù)來評估模型。圖8所示為PCA降維后各模型帶鋼凸度預測性能對比,其中PCA-RF的MAE為1.485 2 μm,RMSE為2.260 3 μm,均低于其它模型的MAE值和RMSE值,進一步說明了PCA-RF預測精度高,預測偏差小,能有效地對帶鋼出口凸度進行預測。同時,將該模型的預測時間進行統(tǒng)計,其運算時間均小于500 ms,因此,PCA-RF模型可實現(xiàn)帶鋼出口凸度的高精度和高實時性預測。
圖8 模型預測性能對比
針對熱軋帶鋼板凸度預測精度不足和參數(shù)維度過大導致建模時間長的問題,提出了一種主成分分析結(jié)合隨機森林的板凸度預測方法,能夠?qū)崿F(xiàn)板凸度快速建模和精確預測,得出如下結(jié)論:1)對于工廠采集的原始數(shù)據(jù),進行Pauta準則去除異常值、五點三次平滑公式降噪和標準化處理,為后續(xù)建立高精度的模型提供了條件。2)通過對高維數(shù)據(jù)進行降維,并篩選出關(guān)鍵變量,將數(shù)據(jù)集由93維降至15維,剔除了一些對板凸度影響不大的變量,極大地降低了建模的時間。3)將PCA-RF方法應(yīng)用于板凸度預測,通過網(wǎng)格搜索和交叉驗證優(yōu)化模型,并 與PCA -KNN、PCA -SVR、PCA -GBDT、PCA -XGBoost、PCA-LightGBM模型進行比較,結(jié)果顯示PCARF具有最高的R2為0.982 0,最低的MAE和RMSE分別為1.485 2 μm和2.260 3 μm,且PCA-RF的預測誤差集中分布在-3~3 μm,預測誤差均小于其他模型,PCA-RF有令人滿意的性能。