王復(fù)越 ,任毅 ,趙坦 ,崔福祥
(1.海洋裝備用金屬材料及其應(yīng)用國家重點實驗室,遼寧 鞍山 114009;2.鞍鋼集團鋼鐵研究院,遼寧 鞍山 114009;3.鞍鋼股份有限公司鲅魚圈鋼鐵分公司,遼寧 營口 115007)
數(shù)字化研發(fā)手段賦能傳統(tǒng)工業(yè)領(lǐng)域可實現(xiàn)傳統(tǒng)產(chǎn)業(yè)轉(zhuǎn)型升級、提質(zhì)增效以及先進產(chǎn)品研發(fā)創(chuàng)新能力的提升[1]。傳統(tǒng)鋼鐵制造行業(yè)各生產(chǎn)環(huán)節(jié)自動化程度高、數(shù)據(jù)量大、檢測數(shù)據(jù)完整性好,應(yīng)用大數(shù)據(jù)技術(shù)可提升決策力、洞察力以及流程優(yōu)化能力。鋼鐵行業(yè)在大數(shù)據(jù)技術(shù)方面的戰(zhàn)略意義在于對有價值信息數(shù)據(jù)進行專業(yè)化處理,也就是數(shù)據(jù)挖掘[2]。人工智能是進行大數(shù)據(jù)分析及數(shù)據(jù)挖掘工作的必然選擇,機器學(xué)習(xí)是實現(xiàn)人工智能的一種重要方式。目前機器學(xué)習(xí)領(lǐng)域已經(jīng)發(fā)展出諸多適用于不同場景的機器學(xué)習(xí)算法,如決策樹、支持向量機、隨機森林、人工神經(jīng)網(wǎng)絡(luò)以及最近發(fā)展迅速的深度學(xué)習(xí)等[3-5]。其中,決策樹算法因可進行可視化分析,生產(chǎn)規(guī)則易于理解和解釋[6],在解決復(fù)雜、非線性、多變量、強耦合的工程問題上有明顯優(yōu)勢,需要注意的是決策樹模型容易出現(xiàn)過擬合的問題[7]。經(jīng)過這些年的發(fā)展,各類機器學(xué)習(xí)算法建模已與鋼鐵行業(yè)各環(huán)節(jié)的實際生產(chǎn)有著廣泛的結(jié)合,可應(yīng)用于各類產(chǎn)品性能預(yù)測、失效預(yù)警與故障診斷當(dāng)中[8-9]。
以管線鋼為例,其服役場景往往是復(fù)雜地形和惡劣環(huán)境,管線鋼鋼板在滿足各種服役力學(xué)性能的同時需兼顧良好的焊接性能、耐腐蝕性能。這對管線鋼鑄坯在高純凈度冶金與組織精細(xì)化控制方面提出了更高的要求[10]。然而在鑄坯的生產(chǎn)及軋制環(huán)節(jié)中物理與化學(xué)過程復(fù)雜,工況變化頻繁,生產(chǎn)過程中不可避免地引入非金屬夾雜物以及形成組織缺陷。鋼廠在后續(xù)的鋼板自動探傷檢測工序可將一部分存在問題的鋼板篩選出來,但由于鋼廠與制管企業(yè)以及管道安裝施工方在探傷設(shè)備與檢測方式等方面存在差異,時常出現(xiàn)鋼廠未檢出問題鋼板,但后續(xù)工序檢出的情況。此問題造成大批量鋼板退貨,給企業(yè)帶來大量經(jīng)濟損失。
本研究基于上述問題與需求,采用CART決策樹算法建立預(yù)測模型,充分挖掘利用管線鋼鑄坯生產(chǎn)關(guān)鍵環(huán)節(jié)數(shù)據(jù),通過模型結(jié)構(gòu)調(diào)整與參數(shù)優(yōu)化,達到模型預(yù)測水平的提升與泛化能力增強的目的。最終實現(xiàn)對管線鋼鑄坯的質(zhì)量預(yù)判,降低問題管線鋼鋼板探傷檢測漏檢率。此外,本研究對于提升設(shè)備運行水平、提高產(chǎn)品質(zhì)量以及降低不合格品退換貨帶來的經(jīng)濟損失等方面都具有重要意義。
本研究所涉及的決策樹模型是使用Python編程語言在Pycharm集成開發(fā)環(huán)境下建立并運行的,通過開源機器學(xué)習(xí)工具包Sklearn中的NumPy、Pandas等數(shù)值計算的庫來實現(xiàn)機器學(xué)習(xí)的算法應(yīng)用。決策樹模型搭建步驟與流程見圖1。
圖1 決策樹模型搭建步驟與流程Fig.1 Building Steps and Flow Process for Decision Tree Model
結(jié)合冶金學(xué)原理,分析、篩選眾多生產(chǎn)工藝特征選項,將預(yù)測建模中的特征選項(features)設(shè)定為:RH處理周期、鋼中總鋁含量、RH凈循環(huán)時間、鋼液澆鑄過熱度、拉速、輥縫合格率。預(yù)測結(jié)果即標(biāo)簽(Label)為鋼板探傷是否合格,合格為0,不合格為1。將生產(chǎn)數(shù)據(jù)中由于數(shù)據(jù)漏采集、傳輸設(shè)備信號故障、中斷等原因造成的數(shù)據(jù)缺失、亂碼等數(shù)據(jù)進行剔除處理,并以8∶2的比例將數(shù)據(jù)集隨機劃分為互斥的訓(xùn)練集和測試集。特征數(shù)據(jù)集如表1所示。
表1 特征數(shù)據(jù)集Table 1 Data Set of Features
決策樹構(gòu)建是通過選用不同的樣本純度度量指標(biāo)(信息增益、增益率、基尼指數(shù)),找到包含關(guān)于目標(biāo)特征的最大信息量(純度)的描述性特征,并沿著這些特征的值分割數(shù)據(jù)集,使得生成的子數(shù)據(jù)集中的目標(biāo)特征值純度盡可能高,最終產(chǎn)生一個泛化能力強的判定流程模型[11]。為達到此目的,需要選定合適的樣本純度度量指標(biāo),設(shè)定決策樹深度(層數(shù))以及葉子節(jié)點最小樣本數(shù)點。
本研究選擇基尼系數(shù)作為數(shù)據(jù)樣本的度量指標(biāo),在Sklearn機器學(xué)習(xí)工具包中Decision Tree Classifier模塊的Criterion設(shè)定中選定gini。為優(yōu)化決策樹結(jié)構(gòu),分別設(shè)定決策樹最大深度為三層與四層,考察葉子最小樣本數(shù)從10到220條件下模型評估水平。隨后,對預(yù)測水平與泛化能力最佳的模型調(diào)整預(yù)測判定閾值,使模型對于探傷不合格鋼板的召回率達到70%以上的水平,且整體預(yù)測精準(zhǔn)率不低于70%。此外,為平衡數(shù)據(jù)集中類別的失衡問題,根據(jù)數(shù)據(jù)集中探傷不合格鋼板比例設(shè)定樣本合格與不合格鋼板權(quán)重為1:19。
對于所涉及的探傷結(jié)果二分類問題,可將數(shù)據(jù)中探傷結(jié)果樣例類別與分類器預(yù)測結(jié)果類別的組合劃分為真正例 (實際探傷不合格且預(yù)測正確)、假正例(實際探傷合格但預(yù)測錯誤)、真反例(實際探傷合格且預(yù)測正確)、假反例(實際探傷不合格但預(yù)測錯誤)四種情況,令 TP、FP、TN、FN分別表示其對應(yīng)數(shù)量。使用ROC(Receiver Operating Characteristic)曲線描述分類器的預(yù)測能力及泛化性能的優(yōu)劣,ROC曲線的縱軸是 “真正例率”(TPR),橫軸是“假正例率”(FPR),兩者定義為:
通過積分計算ROC曲線下面積(AUC)來,比對AUC數(shù)值大小實現(xiàn)對模型預(yù)測效果的評價,AUC值來表現(xiàn)其預(yù)測能力,訓(xùn)練集與測試集AUC差值表現(xiàn)其泛化能力。AUC值越大,模型的預(yù)測能力越強,訓(xùn)練集與測試集AUC差值越小,模型的泛化能力越好。
此外,以實際探傷不合格鋼板的召回率(Recall)為第一考察指標(biāo),并結(jié)合考察精準(zhǔn)率(Accuracy)的方式對模型的實際預(yù)測水平進行評價。召回率與精準(zhǔn)率的定義為:
召回率可反映模型對于正例的預(yù)測水平,即對實際探傷不合格做出正確的判定,精準(zhǔn)率則可以反映模型對正、反例的綜合預(yù)測水平。
本研究使用數(shù)據(jù)樣本中同一訓(xùn)練集訓(xùn)練決策樹分類器模型,分別設(shè)定決策樹模型最大深度為三層與四層,考察葉子最小樣本數(shù)從10到220條件下模型評估水平,葉子最小樣本數(shù)對預(yù)測模型AUC值的影響如圖2所示。
圖2 葉子最小樣本數(shù)對預(yù)測模型AUC值的影響Fig.2 Effect of Minimum Number of Samples of Tree Leaves on AUC Value of Prediction Model
從圖2(a)可以看出整體上訓(xùn)練集AUC值高于測試集,訓(xùn)練集AUC隨葉子最小樣本數(shù)變化的增大而小幅降低,而測試集AUC則在葉子最小樣本數(shù)為40時階躍上升,而后AUC一直保持較高的水平。直到葉子最小樣本數(shù)為超過140,測試集AUC下降明顯。當(dāng)葉子最小樣本數(shù)為90時,測試集AUC值最大為0.833 9。在葉子最小樣本數(shù)相對較小時,經(jīng)訓(xùn)練集訓(xùn)練的模型出現(xiàn)過擬合的情況,測試集AUC值較低,模型預(yù)測水平較低;在葉子最小樣本數(shù)設(shè)定相對較大時,所設(shè)定的模型結(jié)構(gòu)規(guī)則無法很大的描述與反映數(shù)據(jù)特征,訓(xùn)練集與測試集AUC值都在較低的水平,這說明模型出現(xiàn)了欠擬合的情況。同樣的,決策樹模型最大深度設(shè)定為四層時,訓(xùn)練集與測試集AUC值隨葉子最小樣本數(shù)變化趨勢基本一致。訓(xùn)練集AUC值在葉子最小樣本數(shù)為90時達到最高,為0.848 4。而后隨葉子最小樣本數(shù)的增大訓(xùn)練集與測試集AUC值緩慢降低,如圖2(b)所示。從上述測試集AUC最大值以及隨葉子最小樣本數(shù)變化的情況看,該決策樹模型在最大深度為四層,葉子最小樣本數(shù)為90時,模型預(yù)測水平達到最佳。
決策樹模型訓(xùn)練集與測試集ROC曲線如圖3所示。 從圖3(a)與圖 3(b)中可以看出,不同最大層數(shù)下代表訓(xùn)練集與測試集的曲線都基本重合,最大深度為三層、四層時訓(xùn)練集與測試集的AUC值差值分別為0.031 7、0.034 0。AUC差值都較小,這說明模型的泛化能力較好。
圖3 決策樹模型訓(xùn)練集與測試集ROC曲線Fig.3 ROC Curves of Training Sets and Test Sets for Decision Tree Model
根據(jù)上文評估結(jié)果可知,經(jīng)過結(jié)構(gòu)優(yōu)化后的決策樹模型具有較高的水平且模型泛化能力較強。然而在模型進行預(yù)測時需要設(shè)定一個預(yù)測判定閾值,模型生成預(yù)測分析值與其對比后才能進行合格與不合格的判定。通常判定閾值設(shè)定值較高時(接近1時),召回率較高,而精準(zhǔn)率低;閾值設(shè)定值較低時(接近0時),召回率較低,而精準(zhǔn)率較高。結(jié)合生產(chǎn)、檢測與供貨的諸多實際情況,建立“首先保證召回率”的模型判定的思想,同時兼顧考慮送檢鋼板數(shù)量與檢測能力的矛盾關(guān)系,對預(yù)測判定進行比對與調(diào)優(yōu)。圖4為模型判定閾值對召回率及精準(zhǔn)率的影響關(guān)系圖。
圖4 模型判定閾值對召回率及精準(zhǔn)率的影響Fig.4 Effect of Decided Threshold Values for Model on Recall Rate and Accuracy Rate
從圖中可以看出,召回率隨判定閾值的增大而降低,精準(zhǔn)率隨判定閾值的增大而提高,兩者呈相反的變化趨勢。當(dāng)判定閾值小于0.4時,召回率約為80%,說明對大部分存在潛在問題的鋼板可完成召回。
結(jié)合模型在召回率與精準(zhǔn)率的表現(xiàn),設(shè)定判定閾值為0.4。為了更直觀的展示模型對訓(xùn)練集與測試集的預(yù)測表現(xiàn),將其對應(yīng)混淆矩陣列出,如圖5所示。圖5(a)為以訓(xùn)練集的混淆矩陣,召回率為85.3%,精準(zhǔn)率為75.4%;圖5(b)為以測試集的混淆矩陣,召回率為74.0%,精準(zhǔn)率為73.5%。此設(shè)定下模型在相對較小的檢測樣本中最大限度的完成不合格鋼板的預(yù)測與召回,同時模型對正、反例的預(yù) 測精準(zhǔn)率均在70%以上,有效的利用了檢測資源。
圖5 訓(xùn)練集與測試集混淆矩陣Fig.5 Confusion Matrix of Training Sets and Test Sets
決策樹模型包括鋼中總鋁含量、RH凈循環(huán)時間、鋼液澆鑄過熱度、拉速、輥縫合格率的五點關(guān)鍵性生產(chǎn)指標(biāo),經(jīng)過結(jié)構(gòu)優(yōu)化后的模型通過Graphviz.Source模塊實現(xiàn)對決策樹模型的可視化,圖6為管線鋼連鑄板坯探傷預(yù)測影響因素的決策樹模型。從圖6中可以看出,該決策樹模型共四層,共有9個節(jié)點,終端11個葉子節(jié)點。拉速是影響管線鋼連鑄板坯探傷結(jié)果最重要的影響因素,出現(xiàn)在決策樹的各層中。在實際生產(chǎn)中,通過調(diào)整連鑄拉速的方式來實現(xiàn)對生產(chǎn)節(jié)奏變化以及中間包溫度的配合與調(diào)節(jié),其調(diào)節(jié)效果明顯,這也使得連鑄拉速波動較大。與此同時,連鑄拉速的波動對于鑄坯冶金質(zhì)量的影響也是顯著的,拉速的變化關(guān)乎鋼液的動量傳遞、熱量傳遞與質(zhì)量傳遞,影響熔體流動、液穴形態(tài)、凝固相變、結(jié)晶器壁面冷卻強度、“浮游晶”沉降、氣體與夾雜物上浮以及對耐火材料的溶蝕等多重方面[12]。因此,應(yīng)嚴(yán)格控制連鑄拉速工藝波動,并設(shè)定連鑄拉速波動上限值,通過此方式可有效提高鑄坯與鋼板的冶金質(zhì)量。
圖6 連鑄板坯探傷預(yù)測影響因素的決策樹模型Fig.6 Decision Tree Model for Influencing Factors of Flaw Detection Prediction of Continuous Casting Slabs
基于工業(yè)生產(chǎn)數(shù)據(jù),以煉鋼與連鑄環(huán)節(jié)多項關(guān)鍵工藝點為特征屬性,采用CART分類決策樹算法建立了中厚板連鑄板坯探傷預(yù)測模型。通過調(diào)整決策樹最大深度、葉子最小樣本數(shù)以及判定閾值,對決策樹結(jié)構(gòu)與判定策略進行優(yōu)化調(diào)整,經(jīng)測試集驗證:優(yōu)化后的決策樹模型對連鑄板坯對應(yīng)軋后鋼板探傷結(jié)果預(yù)測具有較好的預(yù)測效果,AUC值為0.848,且模型泛化能力較強,訓(xùn)練集與測試集AUC差值低于0.04。當(dāng)判定閾值為0.4時,模型對測試集數(shù)據(jù)預(yù)測的召回率與精準(zhǔn)率都高于70%,可實現(xiàn)對連鑄板坯探傷結(jié)果的高精度預(yù)測。此外,通過決策樹可視化分析可為工藝參數(shù)的調(diào)整與控制提供可靠依據(jù)。此項工作的開展有效提升鑄坯質(zhì)量判定能力、大幅降低漏檢率,減低企業(yè)由于鋼板探傷不合退換貨帶來的經(jīng)濟損失。為企業(yè)工藝智能化調(diào)節(jié)以及產(chǎn)品質(zhì)量智能化管理提供幫助,對提高產(chǎn)品質(zhì)量穩(wěn)定性與工藝控制水平起到積極作用。