鐘武昌, 戰(zhàn)洪飛*,, 林穎俊, 余軍合, 王 瑞
(1.寧波大學 機械工程與力學學院,浙江 寧波 315211, E-mail: zwc112633@126.com 2.中銀(寧波)電池有限公司,浙江 寧波 315040)
傳統(tǒng)的工業(yè)產(chǎn)品質(zhì)量檢測往往是事后抽檢,遇到質(zhì)量問題之后再去調(diào)整生產(chǎn)工藝和優(yōu)化加工方案,這無疑增加了企業(yè)制造加工成本。隨著“工業(yè)4.0”與“中國制造2025”等概念提出[1],制造型企業(yè)正不斷向數(shù)字化轉(zhuǎn)型,數(shù)字化工廠給產(chǎn)品質(zhì)量預測提供了大量數(shù)據(jù)支持[2-3],如何利用產(chǎn)品加工過程的制造大數(shù)據(jù)預測產(chǎn)品質(zhì)量是智慧工廠構(gòu)建的基礎,也是急需處理的難題之一。
人工智能、機器學習的不斷發(fā)展為這難題帶來了新的機遇,為了使機器學習模型能在制造行業(yè)相關場景落地,相關學者以數(shù)據(jù)驅(qū)動的形式為預測模型提供落地支持。Peres等[4]提出了一種基于深度學習的方法用于結(jié)構(gòu)粘合劑的質(zhì)量預測,并在汽車零件的生產(chǎn)制造中得到驗證,有效降低了企業(yè)生產(chǎn)成本。董海等[5]針對傳統(tǒng)機器學習方法處理制造大數(shù)據(jù)精度低、效率較差等問題,構(gòu)建了一種基于eXtreme Gradient Boosting(XGBoost)算法的質(zhì)量預測方法,用于處理汽車車身裝配尺寸的精度控制問題。Duan等[6]提出了一種基于制造過程數(shù)據(jù)的實時質(zhì)量預測系統(tǒng),通過分析產(chǎn)品制造資源與質(zhì)量狀態(tài)之間的關系,建立了產(chǎn)品實時質(zhì)量狀態(tài)與加工任務過程之間的關系,從而實現(xiàn)實時質(zhì)量預測控制。張振剛等[7]基于離散式制造數(shù)據(jù),利用隨機森林算法進行質(zhì)量符合率預測,并與Bagging模型進行性能對比,表明隨機森林模型對質(zhì)量符合率的預測更加有效。Suthep Butdee[8]提出了一種基于神經(jīng)模糊的方法來預測不確定環(huán)境下壓縮機橡膠硫化過程的質(zhì)量,在模糊推理系統(tǒng)中輸入了四個影響因素,經(jīng)過模糊化處理后,對成品質(zhì)量進行預測,以此提高壓縮機橡膠硫化過程的質(zhì)量。楊劍鋒等[9]針對多批量小品種產(chǎn)量小但質(zhì)量影響因素眾多的情況下,利用卡爾曼濾波進行產(chǎn)品質(zhì)量預測,并采用分塊線性回歸挖掘出隱含的規(guī)則或模式。Yu[10]提出了一種基于知識的深層信任網(wǎng)絡(KBDBN),來預測工件表面粗糙度的質(zhì)量,而且比典型的機器學習模型(如支持向量機、鄰近算法等)具有更好的預測效果。Sebastian Schorr[11]通過數(shù)控機床獲得的扭矩測量值結(jié)合隨機森林的機器學習方法來預測閥門的同心度以及鉆孔和鉸孔的直徑,以此提高產(chǎn)品良率,減少不良品的發(fā)生。雖然人工智能及機器學習的預測效果較好,但仍存在單一預測模型學習能力受隨機性限制,導致泛化能力不佳的問題。
基于此,在多算法集成預測方向中,周末等[12]基于多算法的有效集成用于短期電力負荷的預測,吳曉陽等[13]基于多算法融合預測模型對高爐煤氣流進行預測,取得了較好的預測效果。因而本項目針對產(chǎn)品質(zhì)量預測的應用場場景,經(jīng)過反復測試,擬基于Stacking框架,將三種機器學習算法集成應用,用以產(chǎn)品質(zhì)量問題的預測。采用XGBoost融合SHapley Additive exPlanation(SHAP)模型進行特征選擇,提高數(shù)據(jù)質(zhì)量,同時降低冗余特征,隨后綜合采用輕量級梯度提升模型(Light Gradient Boosting Machine,LightGBM)、梯度提升決策樹模型(Gradient Boosting Decision Tree,GBDT)和套索模型(Least absolute shrinkage and selection operator,Lasso)三種算法進行Stacking框架的集成,構(gòu)建產(chǎn)品質(zhì)量預測模型。
由于制造過程數(shù)據(jù)不僅具有多維度、復雜性高等特性,還具有隱含的規(guī)律以及知識,單一模型的質(zhì)量預測方法難以有效學習到所有的信息和規(guī)則,并且大部分的機器學習方法具有黑箱操作,使得預測模型難以落地到實際制造中。基于此,本文構(gòu)建了XGBoost融合SHAP特征選擇和Stacking集成的產(chǎn)品預測模型,整體流程如圖1所示。
圖1 產(chǎn)品質(zhì)量預測模型總體框架
首先通過傳感器、RFID等設備采集制造過程數(shù)據(jù),如工藝數(shù)據(jù)、設備數(shù)據(jù)等,隨后為保證數(shù)據(jù)質(zhì)量,對數(shù)據(jù)進行預處理,如數(shù)據(jù)清洗、異常值處理、缺失值處理等,緊接著為了減少特征冗余,縮短模型訓練時長,XGboost結(jié)合SHAP模型進行制造過程數(shù)據(jù)的特征選擇,并挖掘出與產(chǎn)品質(zhì)量相關性高的影響因素,形成高質(zhì)量的符合模型訓練的數(shù)據(jù)集,隨后將處理后的數(shù)據(jù)導入產(chǎn)品質(zhì)量預測模型,該模型采用Lasso、GBDT以及LightGBM三種算法進行Stacking集成,基學習器預測模型選擇Lasso、GBDT、LightGBM三種算法,元學習器預測模型選擇LightGBM算法,進而搭建基于Stacking集成的產(chǎn)品質(zhì)量預測模型,該模型能為改善產(chǎn)品質(zhì)量提供數(shù)據(jù)依據(jù),從而進一步降低企業(yè)生產(chǎn)制造成本。通過以上流程形成制造數(shù)據(jù)的知識發(fā)現(xiàn)體系,并將發(fā)現(xiàn)的知識或規(guī)則存入知識庫中,企業(yè)工程師根據(jù)知識庫的指導,結(jié)合制造現(xiàn)場實際情況快速指導產(chǎn)品生產(chǎn)狀態(tài)調(diào)整,降低產(chǎn)品不合格品,提高產(chǎn)品良率。
為了提高算法模型在產(chǎn)品質(zhì)量預測方面的精確度與泛化能力,首先對制造過程數(shù)據(jù)進行結(jié)構(gòu)化處理,并通過數(shù)據(jù)預處理增加數(shù)據(jù)質(zhì)量,隨后XGBoost結(jié)合SHAP模型進行制造數(shù)據(jù)特征選擇,隨后將處理好的的制造過程數(shù)據(jù)導入基于Stacking集LGL(Lasso-GBoost-LightGBM)產(chǎn)品質(zhì)量預測模型中進行模型訓練,以此得到產(chǎn)品質(zhì)量預測結(jié)果。
根據(jù)質(zhì)量管理相關理論研究,影響工業(yè)產(chǎn)品質(zhì)量因素主要是人員、設備、材料、環(huán)境、工藝、測試六個方面,本文的研究在人員、材料、測試都確定的情況下,從工藝、設備、環(huán)境采集的制造過程數(shù)據(jù)入手,使用機器學習算法構(gòu)建產(chǎn)品質(zhì)量預測模型,即通過產(chǎn)品制造過程中的工藝參數(shù)、設備運行狀態(tài)、采集的環(huán)境數(shù)據(jù)導入進訓練好的算法模型對產(chǎn)品質(zhì)量進行預測,以提前預防不合格的產(chǎn)生,提升產(chǎn)品良率。
由于各類工藝數(shù)據(jù)、設備數(shù)據(jù)、環(huán)境數(shù)據(jù)在不同業(yè)務部門,數(shù)據(jù)分散,需要通過ERP、PDM等系統(tǒng)進行統(tǒng)一數(shù)據(jù)集成,并形成如表1所示的用于工業(yè)產(chǎn)品質(zhì)量預測的結(jié)構(gòu)化數(shù)據(jù)格式,表中表示同一產(chǎn)品加工過程中不同的工藝參數(shù),上標表示產(chǎn)品批次ID,下標表示工藝參數(shù)編號,環(huán)境因素、設備狀態(tài)數(shù)據(jù)與此同理,而是如產(chǎn)品尺寸、粗糙度等具有產(chǎn)品質(zhì)量特性的標簽值,并且是數(shù)值型數(shù)據(jù)。
表1 產(chǎn)品質(zhì)量預測的結(jié)構(gòu)化制造數(shù)據(jù)
由于在實際工業(yè)場景中,工藝參數(shù)、設備加工狀態(tài)等取值對工業(yè)產(chǎn)品質(zhì)量的影響存在各種不確定性和隨機性,因此,本文通過數(shù)據(jù)清洗、異常值處理、缺失值處理等操作確保數(shù)據(jù)質(zhì)量。例如生產(chǎn)設備故障,存在部分工藝參數(shù)值缺損,為了確保產(chǎn)品質(zhì)量預測值的精準性,需要對缺失值部分進行剔除。又比如在實際生產(chǎn)過程中[14-15],存在部分數(shù)據(jù)之間單位差異很大,則要對數(shù)據(jù)進行歸一化處理:
(1)
其中:x′、xa為歸一化前的制造過程數(shù)據(jù),xmax、xmin為歸一化前制造過程數(shù)據(jù)中的最大值與最小值。
工業(yè)產(chǎn)品的質(zhì)量特性受到多種因素影響,如果把所有因素影響導入進預測模型中,則會使得預測模型的結(jié)構(gòu)網(wǎng)絡復雜化、計算性能時間增長。為降低預測模型復雜度,減少冗余特征對預測模型的影響,且避免維度災難,需要對制造過程數(shù)據(jù)集進行特征選擇,選取合適且相關性高的特征進行訓練,一般的特征選擇方法有方差法、相關系數(shù)方法等。特征選擇的方法主要觀測特征與目標的相關性是否大于0,如果等于0則表示無相關性,若為負數(shù),則是負相關性。比如方差法計算各個制造過程數(shù)據(jù)特征的獨立方差,利用方差大于0的特征構(gòu)成新的制造過程特征集合,相關系數(shù)法則用皮爾森相關系數(shù)進行特征選擇,按照系數(shù)大小判斷兩個變量之間強弱關系。本文的特征選擇采用XGBoost算法引入SHAP模型的方法,不僅能衡量特征重要度,還能以可視化的方法更加直觀理解關鍵特征對產(chǎn)品質(zhì)量的影響結(jié)果。XGBoost[16]是GBDT算法的改進,為了降低過擬合性以及增加收斂性,引入了正則項,并改善了損失函數(shù),以保證模型的精準度。
(2)
(3)
式中:γ表式樹分割的難度系數(shù),用于控制樹的生成,T表示葉子節(jié)點的個數(shù),λ表示L2正則系數(shù),目標函數(shù)經(jīng)過泰勒公式展開成如(2)所示式:
(4)
式中:Gi為損失函數(shù)的二階導數(shù),Hi為損失函數(shù)的一階導數(shù)。
Lee和Lundberg提出了基于SHAP模型[17]對特征進行可視化分析的方法,SHAP模型不僅能展示制造過程數(shù)據(jù)特征的重要性排序,還能觀測到單一特征對目標變量的影響程度和正負作用,這無疑增加了特征如何影響模型預測結(jié)果的可信度,同時也能從制造數(shù)據(jù)特征中挖掘出一定的規(guī)則或規(guī)律,給實際加工業(yè)務提供一定的參考價值。該方法起源于合作博弈論,即利用一個加性模型去擬合訓練出良好的學習器,如式(5)所示:
yi=y0+f(xi,1)+…+f(xi+c)
(5)
其中:y0代表產(chǎn)品質(zhì)量的預測基準值,即所有產(chǎn)品質(zhì)量目標量y的均值,yi代表第i個產(chǎn)品質(zhì)量的預測值,xi代表第i個產(chǎn)品,c代表第i個產(chǎn)品中的第c個制造過程數(shù)據(jù)特征,f(xi,1)代表xi產(chǎn)品的SHAP值,即第i個產(chǎn)品中第一個制造過程數(shù)據(jù)特征對產(chǎn)品質(zhì)量預測值的貢獻度,如果該貢獻度值大于0,則說明這一制造過程數(shù)據(jù)特征對產(chǎn)品質(zhì)量預測值有正向作用,如果該貢獻度值小于0,則說明這一制造過程數(shù)據(jù)特征對產(chǎn)品質(zhì)量預測值有負向作用。
另外,SHAP值應用與產(chǎn)品質(zhì)量預測中最為突出的一點在于通過量化影響產(chǎn)品質(zhì)量因素的正負值映射出制造過程數(shù)據(jù)特征對每個產(chǎn)品的影響程度,具體計算方式為:
(6)
其中:φ代表當前第個特征的SHAP值,N代表所有制造數(shù)據(jù)特征的集合,S代表N所去除第i個制造數(shù)據(jù)特征之后的子集,|S|!代表S制造過程數(shù)據(jù)特征數(shù)量的階乘,fx(S∪{xi})代表采用特征xi和制造數(shù)據(jù)特征集合S時預測模型對產(chǎn)品x處于加工狀態(tài)的質(zhì)量預測結(jié)果,fx(S)表示采用制造數(shù)據(jù)特征集合S時模型對產(chǎn)品x加工狀態(tài)的質(zhì)量預測結(jié)果,故兩者之差反映制造數(shù)據(jù)特征對模型輸出質(zhì)量預測結(jié)果的貢獻。
同時,該計算公式可以計算出每一個制造數(shù)據(jù)特征xi在不同特征子集S的貢獻度均值,說明SHAP模型可以從全局與個體兩個角度可視化產(chǎn)品質(zhì)量預測結(jié)果。
綜上所述,XGBosst-SHAP模型在選擇特征篩選方面不僅能從影響預測結(jié)果的正負兩方面考慮從而選擇更契合預測模型的特征,還能通過圖表可視化的形式發(fā)現(xiàn)數(shù)據(jù)特征與產(chǎn)品質(zhì)量預測結(jié)果的關聯(lián)性,進而總結(jié)歸納出某些規(guī)律或規(guī)則,給實際加工制造業(yè)務提供一定的參考價值。
考慮到工業(yè)產(chǎn)品生產(chǎn)過程和相關制造過程數(shù)據(jù)集的復雜性,單一分類算法難以適應于所有的制造場景,為了提高預測模型精確度以及適應復雜多變的工業(yè)生產(chǎn)環(huán)境,提出了將LightGBM、GBDT、Lasso進行Stacking集成,以此構(gòu)建一個更加穩(wěn)定且精度更高的LCL(Lasso-GBoost-LightGBM)預測模型。該模型通過數(shù)據(jù)預處理、特征選擇、模型訓練、性能分析等一系列步驟,既保證數(shù)據(jù)質(zhì)量,也確保模型的預測精度達到實際制造業(yè)務要求。
2.3.1 質(zhì)量預測模型學習器的選擇
目前機器學習領域有多種回歸預測學習器應用在質(zhì)量預測中,例如Lasso回歸算法,該算法通過自身構(gòu)建一個懲罰函數(shù),將變量的系數(shù)進行壓縮并使某些回歸系數(shù)變?yōu)?,進而達到變量選擇的目的,優(yōu)點是可以獲得一個變量比較少的預測模型,但是也容易導入一些冗余的無關變量或者遺漏某些對預測模型影響較大的變量,這是該算法有待改進的地方。GBDT算法具有預測精度高、處理非線性數(shù)據(jù)效率高、對異常值的魯棒性強、可以靈活處理各種類型的數(shù)據(jù)(包括連續(xù)值和離散值)等優(yōu)點,但由于弱學習器之間存在依賴關系,難以并行訓練數(shù)據(jù),且遇到數(shù)據(jù)維度較高時會加大算法的計算難度。LightGBM算法具有計算準確率高、運行速度快、支持并行處理、占用內(nèi)存少和適用于大規(guī)模數(shù)據(jù)處理等優(yōu)點,但LightGBM可能會長出比較深的決策樹,從而更容易發(fā)生過擬合。每種算法都有一定的優(yōu)點和缺點,為了保證預測模型的預測速度、預測的精確度以及適應復雜多變的加工制造場景,因此本文選擇Lasso、GBDT、LightGBM這三種學習器,將這三種學習器進行Stacking集成,通過多模型融合實現(xiàn)揚長弊短,從而合理利用各學習器的回歸預測優(yōu)勢。
其中使用Lasso回歸算法構(gòu)建的產(chǎn)品質(zhì)量預測模型的輸入為各種設備或系統(tǒng)收集到的制造數(shù)據(jù),輸出為產(chǎn)品質(zhì)量特性標簽值,比如產(chǎn)品尺寸、粗糙度等具有產(chǎn)品質(zhì)量特性的標簽值。Lasso回歸是在損失函數(shù)后,加入L1正則化,在質(zhì)量預測中,Lasso回歸算法的正則化系數(shù)通過設定合適的候選集利用K折交叉驗證的方法從中找到最佳的正則化系數(shù),而隨機樹種子(random_state)通常設定為1,其他參數(shù)設定為默認值。因此,Lasso回歸算法[18]用于工業(yè)產(chǎn)品質(zhì)量預測的學習器為:
(7)
GBDT算法[19]是一種迭代的決策樹算法,由多棵決策樹組成,所有樹的結(jié)論累加起來作為最終答案。假設某產(chǎn)品樣本I,將N維制造數(shù)據(jù)特征設為Xi={x1,x2,…,xn},xi∈χ?Rn,Rn為輸入空間,Y為輸出空間,yi∈Y?R,Qi={y1,y2,…,yn},為質(zhì)量特性標簽,將梯度提升決策樹(GBDT)應用于產(chǎn)品質(zhì)量預測中,假設T(Xi;θm)表示為決策樹,θm表示為決策樹參數(shù),M為樹的個數(shù),利用特征得到棵樹的總和:
(8)
初始化第一個GBDT質(zhì)量預測模型的弱學習器F0(x):
(9)
建立m棵回歸樹,則計算第棵回歸樹對應的響應值為:
(10)
利用CART回歸樹擬合數(shù)據(jù)(xi,rm,i),得到m棵回歸樹,其對應的葉子節(jié)點區(qū)域為Rm,j,其中j=1,2,…,Jm,Jm為第m棵回歸樹葉子節(jié)點的個數(shù),并計算出Jm最佳擬合值:
(11)
通過多次迭代,更新回歸樹可以得到最終預測模型,因此,GBDT用于工業(yè)產(chǎn)品質(zhì)量預測的學習器為:
(12)
LightGBM算法[20]是一個梯度Boosting框架,采用基于決策樹的算法,原理上和GBDT類似,都是采用損失函數(shù)的負梯度作為當前決策樹的殘差近似值,去擬合新的決策樹,但LigthGBM算法的優(yōu)勢有以下幾點:使用基于直方圖的決策樹算法,采用一種帶深度限制的 Leafwise的葉子生長策略,使得LightGBM算法的處理速度更快,效率更高。
(1) LightGBM算法優(yōu)勢是直方圖優(yōu)化,如圖2所示,利用特征工程中輸出的制造數(shù)據(jù)特征值轉(zhuǎn)換為離散值實行裝箱處理,即變?yōu)閎ins,之后將制造數(shù)據(jù)特征值為浮點型數(shù)據(jù)的特征進行離散化,即變?yōu)閎in data。
圖2 直方圖的構(gòu)建
(2) LighGBM算法利用一種帶深度限制的Leaf-wise的葉子生長策略,用以在確保高效率運行計算的過程同時能防止過擬合現(xiàn)象的產(chǎn)生,如圖3所示,可以觀察到在相同的分裂次數(shù)下,該方法的誤差更低、計算效率更高。
圖3 Leaf-wise生長策略
LightGBM 算法使用直方圖方法、帶深度限制的按葉生長策略等改進方法,模型訓練速度相對于GBDT模型顯著提高,在工業(yè)大數(shù)據(jù)應用場景中,面對大樣本高維度的工業(yè)數(shù)據(jù)集時具備較快的訓練速度,有利于隨生產(chǎn)過程進行迭代升級。
2.3.2 Stacking集成的LCL質(zhì)量預測算法
已有研究表明[21],單一模型的預測結(jié)果精確度有限,為了提高預測模型的泛化能力同時降低機器學習模型的偏差及方差,提出基于Stacking集成的LGL(Lasso-GBoost-LightGBM)產(chǎn)品質(zhì)量預測方法。該方法依據(jù)Stacking集成原理,選取不同種類的學習器作為基預測模型和元預測模型;結(jié)合工廠加工過程產(chǎn)生的大量制造過程數(shù)據(jù),制定并提取制造過程數(shù)據(jù)特征指標作為第一階段基預測模型的數(shù)據(jù)集進行Stacking轉(zhuǎn)換;通過第二階段元預測模型對轉(zhuǎn)換后數(shù)據(jù)集的學習訓練,有助于預測不合格的產(chǎn)生,提高產(chǎn)品良率?;赟tacking集成的LGL產(chǎn)品質(zhì)量預測方法如圖4所示,主要步驟如下:
圖4 基于Stacking集成的LGL質(zhì)量預測流程
Step 1:將經(jīng)過數(shù)據(jù)預處理、特征選擇(篩選出關鍵質(zhì)量影響因素特征)等處理好的制造過程數(shù)據(jù)集劃分為訓練集Xtrain={(Xn,Yn),n=1,2,…,N}和測試集Xtest={(Xm),m=1,2,…,M},其中Xn為制造過程數(shù)據(jù)的訓練集特征向量,Yn為訓練集質(zhì)量特性標簽值,則輸出的預測結(jié)果為。
Step 2:為了保證訓練集的多樣性,將訓練集Xtrain={(Xn,Yn),n=1,2,…,N}劃分為不交叉的5份訓練子集{W1,W2,…,W5}。
Step 3:將LightGBM、GBDT、Lasso基學習器模型每個都選擇{W1,W2,…,W5}其中一份為測試集,其余4份為訓練集進行學習,直到5個訓練子集循環(huán)完畢,得到一個基學習模型對訓練集的Stacking轉(zhuǎn)換:Pz={Pz1,Pz2,…,Pz5},z=1,2,3,則訓練集Xtrain={(Xn,Yn),n=1,2,…,N}經(jīng)過Stacking第一階段轉(zhuǎn)換為元訓練集Xmeta。
Step 4:在每個基預測模型5輪訓練的同時,測試集Xtest={(Xm),m=1,2,…,M}在其模型中生成5列預測結(jié)果,取其平均得Qz={Qz1,Qz2,…,Qz5},綜合3個基預測模型得出經(jīng)Stacking轉(zhuǎn)換后的元測試集Ymeta。
Step 5:將經(jīng)過Stacking第一階段轉(zhuǎn)換后的元訓練集Xmeta以及相對應特征標簽輸入進元學習器模型LightGBM中訓練,輸入元測試集Ymeta進行預測,輸出最終的質(zhì)量預測結(jié)果。
Step 6:模型性能分析采用均方誤差(MSE)、均方根誤差(RMSE)、平均絕對誤差(MAE)三個指標,當模型達到指標驗收要求時,保存模型,并將其應用到實際生產(chǎn)業(yè)務中。
采用注塑成型制造過程積累的加工數(shù)據(jù)對本文所提方法進行應用,并將預測結(jié)果與Lasso、GBDT、LightGBM三種算法進行對比,驗證本文預測模型與方法的準確性。
本文采用了工業(yè)大數(shù)據(jù)競賽注塑成型的數(shù)據(jù)集,數(shù)據(jù)集包含模內(nèi)溫度、模內(nèi)壓力、鎖模壓力、炮筒溫度、開模速度等傳感器、記錄表、ERP系統(tǒng)收集的制造過程數(shù)據(jù)。首先是在注塑加工過程不同地方放置24個傳感器,該數(shù)據(jù)采集頻率跟隨不同階段設定有20 Hz和50 Hz兩種,主要采集溫度、壓力、速度等數(shù)據(jù)。其次是成型機狀態(tài)數(shù)據(jù),數(shù)據(jù)維度共計86維,主要為成型機在加工過程中的各項運行數(shù)據(jù)如開模時間、切換位置等。然后是注塑成型加工過程設定的工藝參數(shù),含有注塑成型的81種工藝設定參數(shù),主要是根據(jù)工程師設定的注射模式、保壓切換時間等。最后是注塑成型后的產(chǎn)品測量尺寸。
考慮到多數(shù)注塑成型過程數(shù)據(jù)對模型訓練效果產(chǎn)生的影響微乎其微,為了避免計算資源的浪費,將重要的高頻特征計算出平均值、最大值、最小值等,并與其他數(shù)據(jù)構(gòu)建出一個嶄新的數(shù)據(jù)集,表2為數(shù)據(jù)部分展示,表3為注塑成型制造數(shù)據(jù)的部分特征名稱、含義及其特征排序。
表2 注塑加工過程數(shù)據(jù)展示(部分)
表3 注塑加工過程特征變量展示(部分)
緊接著,考慮到傳感器采集的數(shù)據(jù)存在異常值或者缺失值,需要對數(shù)據(jù)進行預處理保證數(shù)據(jù)完整性,以此提升計算效率。又由于注塑成型特征復雜,為了提高預測模型精度,并降低模型訓練時長,采用XGBoost-SHAP模型方法對數(shù)據(jù)集進行特征選擇,從而減少模型復雜度和冗余特征。最后對數(shù)據(jù)集按照合適的比例劃分訓練集、測試集,將其導入Stacking預測模型。
基于XGBoost-SHAP的注塑加工特征選擇方法通過python的第三方包xgboost、shap實現(xiàn),本文將相關系數(shù)、全量特征、方差法、XGBoost特征選擇與XGBoost-SHAP模型特征選擇方法用擬合度值進行對比,如圖5所示,觀測到基于SHAP模型的特征選擇方法的擬合度達到0.958,明顯優(yōu)于方差法、相關系數(shù)法等特征選擇方法,并且SHAP模型還能提供圖表可視化分析,能更為直觀地看到關鍵特征是怎樣影響注塑產(chǎn)品尺寸預測結(jié)果。
圖5 特征選擇方法擬合度對比
如圖6所示,根據(jù)各個特征SHAP的值的平均絕對值進行排序,本文選出重要的十五個特征。
圖6 SHAP值特征分析
每一個點代表一個樣本的一個特征,縱坐標為特征編號,從上往下重要度依次降低,橫坐標為特征的SHAP值,樣本各特征值的大小用不同深淺表示,顏色越深則表示該特征值越大,越淺則表示特征值越小。其中,模內(nèi)溫度均值(Sensor5_mean)、模內(nèi)壓力均值(Sensor1_mean)、座進終止壓力(EL_CF_END_PRESS)、模具恒溫溫度均值(MouldTemp1_mean)對注塑產(chǎn)品的尺寸影響較為顯著,故本文可以通過該圖著重關注特征重要性排序高的關鍵影響因素,如果遇到注塑產(chǎn)品尺寸超差的問題,首先查看關鍵影響因素的數(shù)值范圍是否在正常范圍內(nèi),從高到底逐步排除關鍵影響因素,從而獲取異常的影響因素因子,為進一步處理注塑產(chǎn)品尺寸超差問題提供數(shù)據(jù)和技術支持。
在SHAP值特征分析圖中,只能看到特征重要性排序以及對預測結(jié)果影響,而SHAP依賴圖則能深入挖掘某一具體特征是如何影響預測結(jié)果的。圖7中的橫坐標軸上是特征值大小,縱坐標軸上是相應特征的SHAP值。
圖7 SHAP分析依賴圖(部分)
由于該數(shù)據(jù)集經(jīng)過加密處理,特征值大小不是實際制造數(shù)據(jù)數(shù)值。例如模內(nèi)溫度均值(Sensor5_mean)[40 000,450 000]和[72 000,76 000]區(qū)間范圍內(nèi)SHAP值小于0,說明在該范圍內(nèi)的模內(nèi)溫度均值對注塑產(chǎn)品尺寸的作用是負向的,而在[76 000,88 000]區(qū)間范圍內(nèi)SHAP值大于0,說明模內(nèi)溫度均值在該范圍左右對注塑產(chǎn)品尺寸的作用是正向的,當尺寸超差則第一時間查看模內(nèi)溫度均值是否在合理范圍內(nèi)。從圖7中看模具恒溫溫度均值(MouldTemp1_mean)的SHAP分析依賴圖,則能得出在[160 000,165 000]區(qū)間范圍內(nèi)SHAP值大于0,說明模具恒溫溫度均值在該范圍左右對注塑產(chǎn)品尺寸的作用是正向的,在[200 000,220 000]區(qū)間范圍內(nèi)SHAP值小于0,說明模具恒溫溫度均值在該范圍左右對注塑產(chǎn)品尺寸的作用是負向的。故本文可以把這些得出的規(guī)則或規(guī)律存儲到知識庫中,為處理注塑產(chǎn)品尺寸不合格問題提供一定的參考價值和指導意義。
本文實驗環(huán)境為:操作系統(tǒng)為Windows10、python3.7、LightGBM算法、GBDT算法、Lasso算法、Stacking集成算法等。其中LightGBM算法設置regression為目標函數(shù)(objective),提升類型(boosting_type)設置為gbdt,葉子節(jié)點數(shù)(num_leaves)、學習速率(learning_rate)等參數(shù)利用網(wǎng)格搜索選擇最佳值。GBDT算法n_estimators(樹的數(shù)量)設定為300,learning_rate(學習率)為0.05,max_depth(樹的最大深度)為4,min_samples_leaf(樹的最大深度)為15,loss(損失函數(shù))設定為huber。Lasso算法通過LassoCV選取最優(yōu)的alpha(正則項系數(shù)),random_state(隨機數(shù)種子)為1,其他參數(shù)選擇默認值。通過以上參數(shù)的設定,選取數(shù)據(jù)集中Size1尺寸作為對比尺寸數(shù)據(jù),得到表4不同模型的性能對比情況。
表4 算法性能對比
從表4的實驗結(jié)果可以看出,Lasso算法的各項性能指標表現(xiàn)最差,相比單一算法中表現(xiàn)較好的LightGBM算法,Stacking集成算法在MSE的性能上提升23.43%,RMSE提升12.63%,MAE性能提升13.50%。再從圖8看真實值與預測值對比圖,仍可以看出Stacking集成算法的預測模型對于尺寸預測值趨勢捕捉更準確,波動更小。而Size1的合格范圍上限UL(Upper Limit)為300.15 mm,合格范圍下限LL(Lower Limit)為299.85 mm,說明基于Stacking集成算法的預測精度能達到注塑產(chǎn)品尺寸預測的標準,并值得在實際產(chǎn)品質(zhì)量預測中得到應用。
圖8 注塑尺寸的真實值與預測值對比
圖9 改善后振動測試位移圖
本文提出了XGBoost結(jié)合SHAP模型進行特征選擇的方法,該方法能通過可視化圖表的形式更加直觀發(fā)現(xiàn)制造過程特征是如何影響質(zhì)量預測結(jié)果,從而發(fā)現(xiàn)規(guī)律或規(guī)則。同時提出基于LightGBM、GBDT、Lasso三種算法構(gòu)建Stacking集成的產(chǎn)品質(zhì)量預測模型,及時預防不合格產(chǎn)品的產(chǎn)生,并用注塑成型案例驗證了本文提出模型與方法的可行性,給企業(yè)產(chǎn)品質(zhì)量管理智能化提供了一定的參考價值。但由于產(chǎn)品加工時環(huán)境復雜性、設備差異性等問題,質(zhì)量預測的實時性和反饋效率可能略有不足。后續(xù)工作中將數(shù)字孿生技術應用于產(chǎn)品質(zhì)量預測控制,如何利用孿生數(shù)據(jù)提高產(chǎn)品質(zhì)量和輔助生產(chǎn)決策是未來值得研究的方向。