俞鴻毅,王 勁,王學(xué)敏
(寶山鋼鐵股份有限公司 1.冷軋廠,上海 201900; 2.中央研究院,上海 201999)
智能制造在當(dāng)代工業(yè)中的作用愈來愈重要。“十四五”規(guī)劃綱要指出要堅(jiān)持把發(fā)展經(jīng)濟(jì)的著力點(diǎn)放在實(shí)體經(jīng)濟(jì)上,堅(jiān)定不移建設(shè)制造強(qiáng)國、質(zhì)量強(qiáng)國、網(wǎng)絡(luò)強(qiáng)國、數(shù)字中國。鋼鐵冶金行業(yè)的智能制造是實(shí)現(xiàn)我國工業(yè)及制造業(yè)升級的基礎(chǔ)和重點(diǎn)之一[1-2]。熱鍍鋅鋼卷薄板在汽車、建筑和交通等領(lǐng)域具有廣泛應(yīng)用,是寶鋼的重要產(chǎn)品[2]。寶鋼某機(jī)組以“數(shù)字鋼卷”的形式在冷軋產(chǎn)品的數(shù)字化方面進(jìn)行了探索。本文介紹基于“數(shù)字鋼卷”開發(fā)的熱鍍鋅帶鋼機(jī)械性能統(tǒng)計(jì)模型與預(yù)測系統(tǒng),該研究利用統(tǒng)計(jì)方法和機(jī)器學(xué)習(xí)技術(shù),為數(shù)字鋼卷提供了一個實(shí)用的智能化應(yīng)用案例。
寶鋼某機(jī)組主要加工熱鍍鋅鋼卷薄板(帶鋼)產(chǎn)品。鋼板主要質(zhì)量指標(biāo)中的屈服強(qiáng)度(Yield Strength,以下簡稱YS)、抗拉強(qiáng)度(Tension Strength,以下簡稱TS)、延伸率(Elongation,以下簡稱El)受到原料品質(zhì)和煉鋼、熱軋、冷軋、退火、平整、拉矯等一系列流程工藝因素的影響,其中冷軋機(jī)組包含退火爐、平整機(jī)、拉矯機(jī)等相關(guān)的工藝段是帶鋼產(chǎn)品最后成形的關(guān)鍵[3]。機(jī)組出口剪切帶鋼的試樣,送到離線實(shí)驗(yàn)室進(jìn)行拉伸測試以評估鋼卷性能。因此,離線測試具有延時性,在此之前對機(jī)械性能進(jìn)行實(shí)時預(yù)報,對質(zhì)量控制、工藝優(yōu)化和節(jié)約成本具有重要意義[4-5]。
利用化學(xué)成分和熱軋、冷軋等工藝數(shù)據(jù)對鋼板產(chǎn)品機(jī)械性能進(jìn)行建模預(yù)測已有一些很好的工作。李維剛等[4]和王蕾等[5]根據(jù)冶金機(jī)理建立了組織模型用于鋼板力學(xué)性能預(yù)報,林傳華等[6]應(yīng)用BP神經(jīng)網(wǎng)絡(luò)算法建立了熱鍍鋅過渡卷力學(xué)性能預(yù)報模型,王偉等[7]應(yīng)用梯度提升樹模型對熱鍍鋅鋼板力學(xué)性能進(jìn)行了預(yù)報。現(xiàn)有模型的變量來源比較多,包括煉鋼、熱軋、冷軋等不同工藝線上的數(shù)據(jù)。本研究為了適應(yīng)并充分利用冷軋某機(jī)組“數(shù)字鋼卷”系統(tǒng),采用機(jī)組工藝數(shù)據(jù)、速度和來料數(shù)據(jù)為主要變量建立統(tǒng)計(jì)模型。另外,已有工作多采用神經(jīng)網(wǎng)絡(luò)、決策樹和基于神經(jīng)網(wǎng)絡(luò)或決策樹的集成學(xué)習(xí)模型等[6-7]。這些機(jī)器學(xué)習(xí)模型擬合效果比較好,注重預(yù)測精度[8],但是它們的統(tǒng)計(jì)解釋能力和相應(yīng)的估計(jì)、假設(shè)檢驗(yàn)等統(tǒng)計(jì)推斷分析方法不如廣義線性模型理論成熟[8-9]。本文為了利用模型進(jìn)行變量分析和其他后續(xù)研究中的統(tǒng)計(jì)檢驗(yàn)等目的,針對不同出鋼記號,在廣義線性模型框架下進(jìn)行統(tǒng)計(jì)建模。
針對寶鋼某冷軋機(jī)組2017和2018年歷史數(shù)據(jù),經(jīng)過數(shù)據(jù)整理、清洗、融合匹配,得到了配對數(shù)據(jù)29 955條。在廣義線性模型框架下,經(jīng)過數(shù)據(jù)變換、變量篩選和正則項(xiàng)約束等處理,構(gòu)建了不同出鋼記號下冷軋帶鋼的屈服強(qiáng)度、抗拉強(qiáng)度、延伸率3個主要力學(xué)機(jī)械性能的統(tǒng)計(jì)模型,并針對數(shù)字鋼卷系統(tǒng)設(shè)計(jì)了在線匹配算法,將統(tǒng)計(jì)模型應(yīng)用于鋼卷機(jī)械性能的實(shí)時在線預(yù)測。檢測案例展示了模型的離線和在線預(yù)測在相對誤差標(biāo)注下都達(dá)到了不錯的精度。
獲取的2017和2018年的原始數(shù)據(jù)來源于生產(chǎn)線的不同數(shù)據(jù)庫,主要分為工藝參數(shù)與機(jī)械性能兩類數(shù)據(jù),涉及多張表格以及大量字段名,也存在許多刪失數(shù)據(jù),需要進(jìn)行數(shù)據(jù)清洗。為此,對大量缺失的數(shù)據(jù)進(jìn)行刪除,對于每卷鋼卷的大量數(shù)據(jù)進(jìn)行平均化等處理。對最重要的目標(biāo)變量——機(jī)械性能表格中的鋼卷離線試驗(yàn)結(jié)果中大量重復(fù)數(shù)值,按照“軋硬卷”號進(jìn)行去重以及首尾平均的計(jì)算,保證樣本處于基本可用的范圍內(nèi)。
清洗數(shù)據(jù)后,針對不同數(shù)據(jù)庫、數(shù)據(jù)子表中的結(jié)構(gòu)化數(shù)據(jù)進(jìn)行數(shù)據(jù)融合匹配。由于不同數(shù)據(jù)源字段不統(tǒng)一,需要尋找各工藝數(shù)據(jù)表與機(jī)械性能數(shù)據(jù)表中重合程度最高的字段進(jìn)行匹配。通過遍歷各字段,計(jì)算其在工藝數(shù)據(jù)表與機(jī)械性能數(shù)據(jù)表中的重合程度,并結(jié)合工藝經(jīng)驗(yàn),確定選取“軋硬卷”字段以及“入口卷號”作為異源數(shù)據(jù)的匹配ID進(jìn)行表格的勾連和統(tǒng)一,以構(gòu)造出新的融合數(shù)據(jù)表。對融合匹配后的數(shù)據(jù)再做異常數(shù)據(jù)識別、缺失數(shù)據(jù)填充、數(shù)據(jù)格式同一、數(shù)據(jù)歸一化等處理,最終得到包括不同帶鋼的型號、機(jī)組工藝變量、速度和包括屈服強(qiáng)度、抗拉強(qiáng)度、延伸率等帶鋼機(jī)械性能變量的配對數(shù)據(jù)29 955條。
2.2.1 數(shù)據(jù)特征與建模思路
實(shí)現(xiàn)異源數(shù)據(jù)融合匹配后,進(jìn)行機(jī)械性能統(tǒng)計(jì)建模。針對研究問題,不同鋼種帶鋼沿傳送方向分別經(jīng)過退火爐、平整機(jī)、拉矯機(jī)等生產(chǎn)工藝段。每隔一定時間對待研究工藝數(shù)據(jù)進(jìn)行采集,并由出口段在線性能檢測儀得到多位置點(diǎn)的性能數(shù)據(jù)。將每卷帶鋼看作一獨(dú)立樣本,樣本集為i=1,……,n。對于每一個待研究的工藝數(shù)據(jù)xk,在每卷帶鋼上都可以采集到一個序列數(shù)據(jù)。加上帶鋼出鋼記號、厚度等來料數(shù)據(jù),帶鋼經(jīng)過每一個傳感器采樣時間和采集到的帶鋼運(yùn)行速度等其他數(shù)據(jù),組成建模所用到的控制變量。機(jī)械性能指標(biāo)屈服強(qiáng)度、抗拉強(qiáng)度、延伸率即為響應(yīng)變量y。
由上述分析,可把目標(biāo)抽象成通過多個待研究工藝數(shù)據(jù)變量、帶鋼運(yùn)行速度、鋼卷特性數(shù)據(jù)等信息預(yù)測機(jī)械性能指標(biāo)取值的相關(guān)性統(tǒng)計(jì)模型,如式(1)所示,其中θ是模型參數(shù)向量。
yi~f(θ,xi1,xi2,……,xim)
(1)
建模過程框架如圖1所示。
圖1 建模過程框架Fig.1 Modelingprocess framework
2.2.2 變量確定
進(jìn)入模型的變量選擇對模型質(zhì)量至關(guān)重要。綜合考慮工藝專家的專業(yè)建議、變量與機(jī)械性能的相關(guān)系數(shù)、初步線性回歸的p值等因素,進(jìn)行了變量篩選和確定,最終選取出鋼記號、鋼卷厚度、諸化學(xué)元素,退火爐加熱段、均熱段、緩冷段、快冷段、均衡段的爐溫和帶溫,露點(diǎn)值、平整機(jī)的軋制力、平整延伸率、平整入口張力值、平整出口張力值及拉矯機(jī)延伸率等58個變量進(jìn)入模型。
2.2.3 建模過程與模型展示
將歷史數(shù)據(jù)的70%隨機(jī)抽樣提取為訓(xùn)練集進(jìn)行統(tǒng)計(jì)建模,剩余30%作為測試集進(jìn)行離線測試。對機(jī)組的每種出鋼記號都分別進(jìn)行建模擬合,模型擬合的基本思想為式(2)的極小化模型函數(shù):
(2)
使用牛頓迭代算法求解式(1)的系數(shù)。在上述總模型框架下,依據(jù)不同變量的具體數(shù)據(jù)特征,針對性地進(jìn)行了調(diào)整,比如對于一些變量,進(jìn)行了式(3)的Box-Cox變換[8],使得其滿足正態(tài)性的假設(shè)。
(3)
對于一些初步擬合中p值較大的變量,根據(jù)生產(chǎn)經(jīng)驗(yàn)對其進(jìn)行篩選,通過標(biāo)準(zhǔn)化、平方、對數(shù)等手段進(jìn)行數(shù)據(jù)的變換加入模型統(tǒng)籌。
最終機(jī)械性能預(yù)測模型表達(dá)式見式(4):
y=μSteelGrade+β1·EntryThick+β2·
SpmRollForce+β3·SpmElongation+
β4·SpmPreTen+β5·SpmPostTen+
w·g(x1,……,xm)
(4)
式中:y為SteelGrade、EntryThick等6個主要變量(變量含義見表1)和其余52個變量(x1,……,xm)的廣義線性回歸;μSteelGrade為訓(xùn)練集中該鋼種對應(yīng)機(jī)械性能的平均值;β1~β5是回歸系數(shù);g(x1,……,xm)為其余變量經(jīng)過變換后的一個截?cái)嗑€性函數(shù);w是權(quán)重系數(shù)。
表1 主要變量含義Table 1 Key variable meaning
模型(4)本質(zhì)上是一個廣義線性函數(shù),其中待估參數(shù)有μSteelGrade,β1~β5,w和g(x1,……,xm)中的變量系數(shù)及其截?cái)嘀?需要對不同出鋼記號進(jìn)行擬合。其中,g(x1,……,xm)公式如式(5)所示:
(5)
根據(jù)歷史訓(xùn)練集數(shù)據(jù)交叉驗(yàn)證結(jié)果,參數(shù)w的經(jīng)驗(yàn)取值區(qū)間為[0.05,0.1],機(jī)械性能YS、TS和El的截?cái)嗌?、下闕界分別為[140,700]、[200,1000]和[15,80]。表2和表3列出了兩個鋼種的部分模型參數(shù)。經(jīng)檢驗(yàn)這些參數(shù)在0.05水平下都顯著。
表2 鋼種1模型部分參數(shù)估計(jì)值Table 2 Selected estimates of model parameters for SteelGrade1
表3 鋼種2模型部分參數(shù)估計(jì)值Table 3 Selected estimates of model parameters for SteelGrade2
模型以json格式,從機(jī)組的數(shù)字鋼卷系統(tǒng)獲得輸入變量的實(shí)際值。由于這些實(shí)際值的測量設(shè)備分布在機(jī)組不同的物理位置,同一帶鋼運(yùn)行方向位置經(jīng)過這些測量設(shè)備的時刻不同,所以本文設(shè)計(jì)了在線匹配系統(tǒng)和在線預(yù)測系統(tǒng)。其中,在線匹配系統(tǒng)主要功能是完成各個輸入變量在同一帶鋼運(yùn)行方向位置上的數(shù)據(jù)對齊。
通過在線匹配系統(tǒng)實(shí)時匹配出的樣本數(shù)據(jù)會經(jīng)過篩選、輸入模型和結(jié)果返回3個步驟。其中,篩選是為了檢驗(yàn)數(shù)字鋼卷系統(tǒng)采集的數(shù)據(jù)是否出現(xiàn)異常值,如關(guān)鍵變量出現(xiàn)0、空值或者明顯異于數(shù)據(jù)所應(yīng)處于的范圍時,程序?qū)⒉粫{(diào)用模型,而會返回?cái)?shù)據(jù)錯誤提示。
若數(shù)據(jù)通過篩選則作為變量輸入模型中,計(jì)算出相應(yīng)的機(jī)械性能預(yù)測值后,將以json格式返回給數(shù)字鋼卷系統(tǒng)。
為了檢驗(yàn)所構(gòu)建的統(tǒng)計(jì)模型預(yù)測效果,采用機(jī)械性能預(yù)測結(jié)果和寶鋼現(xiàn)場實(shí)際檢測儀檢驗(yàn)結(jié)果的預(yù)測誤差為衡量指標(biāo),計(jì)算公式見式(6):
(6)
下面以兩個鋼種作為案例,分別從歷史離線數(shù)據(jù)測試集和在線預(yù)測結(jié)果兩方面展示預(yù)測準(zhǔn)確率,與其他鋼種的預(yù)測誤差結(jié)果類似。
測試集中鋼種1和鋼種2的鋼卷分別為33卷和35卷,機(jī)械性能預(yù)測準(zhǔn)確率箱型圖如圖2所示,其中預(yù)測誤差在10%內(nèi)的占比如表4所示。從圖2和表4可知,統(tǒng)計(jì)模型對兩種鋼的YS和TS預(yù)測誤差小于10%的案例占比都超過90%,對El預(yù)測誤差小于10%的案例占比超過80%,其中對TS預(yù)測效果最好。
圖2 歷史測試集數(shù)據(jù)預(yù)測誤差箱型圖Fig.2 Box plot of percent prediction error for historical test data
表4 歷史測試集數(shù)據(jù)預(yù)測誤差在10%內(nèi)占比Table 4 Percentage of prediction error within 10% historical test data %
統(tǒng)計(jì)模型在線預(yù)測系統(tǒng)穩(wěn)定上線一段時間后,2020年10月對上述兩個鋼種進(jìn)行了實(shí)際性能檢驗(yàn)數(shù)據(jù)的評估。兩個鋼種分別生產(chǎn)了62卷和56卷,圖3為機(jī)械性能預(yù)測準(zhǔn)確率箱型圖,表5計(jì)算了預(yù)測誤差在10%內(nèi)的比例是85%~100%。從圖3和表5可見,這兩個鋼種的模型在線預(yù)測精度優(yōu)于離線的。
表5 2020年10月在線數(shù)據(jù)預(yù)測誤差在10%內(nèi)占比Table 5 Percentage of prediction error within 10% for online data of October,2020
圖3 2020年10月在線數(shù)據(jù)預(yù)測誤差箱型圖 Fig.3 Box plot of percent prediction error for online data of October,2020
(1) 鋼種1,YS和TS預(yù)測誤差小于10%的案例占比都超過90%,El預(yù)測誤差小于10%的案例占比超過80%。
(2) 鋼種2,3個機(jī)械性能指標(biāo)的預(yù)測誤差小于10%的占比都超過了90%。
綜合上述結(jié)果和其他鋼種數(shù)據(jù)結(jié)果,機(jī)械性能統(tǒng)計(jì)模型總體對TS預(yù)測最好,對YS預(yù)測次之,對El預(yù)測稍差,但都能大于80%。
整合、清洗了寶鋼冷軋某條機(jī)組歷史數(shù)據(jù),針對不同規(guī)格帶鋼的屈服強(qiáng)度、抗拉強(qiáng)度和延伸率3個力學(xué)機(jī)械性能建立了廣義線性統(tǒng)計(jì)模型,具有良好統(tǒng)計(jì)解釋性。模型預(yù)測精度在歷史測試集數(shù)據(jù)和在線數(shù)據(jù)都表現(xiàn)良好。由此驗(yàn)證了基于數(shù)據(jù)的統(tǒng)計(jì)模型用于機(jī)械性能預(yù)測的可行性。接下來,將進(jìn)一步利用統(tǒng)計(jì)推斷方法探究機(jī)組差異性分析和退火曲線等工藝的改進(jìn)。