陳浩威, 戰(zhàn)洪飛*,, 林穎俊, 余軍合, 王 瑞
(1.寧波大學(xué) 機(jī)械工程與力學(xué)學(xué)院, 浙江 寧波 315211, E-mail:15757173087@163.com;2.中銀(寧波)電池有限公司, 浙江 寧波 315040)
對(duì)于制造企業(yè)來(lái)說(shuō),提高產(chǎn)品的質(zhì)量、降低次品率是企業(yè)的基本目標(biāo)之一。隨著產(chǎn)品功能的日益增加、產(chǎn)品精細(xì)化程度不斷加深及客戶(hù)的要求不斷提高,在制造過(guò)程中對(duì)產(chǎn)品的質(zhì)量進(jìn)行控制變的越來(lái)越困難。智能制造技術(shù)的飛速發(fā)展,引領(lǐng)全球制造業(yè)的進(jìn)一步變革[1],很多企業(yè)投入了巨額的資金對(duì)工廠(chǎng)進(jìn)行智能化改造,他們將大量的傳感器引入到生產(chǎn)中,通過(guò)傳感器對(duì)制造過(guò)程中的信息進(jìn)行記錄,通過(guò)對(duì)大量的工業(yè)數(shù)據(jù)進(jìn)行分析從而獲取知識(shí),對(duì)質(zhì)量進(jìn)行控制,提高生產(chǎn)線(xiàn)的水平[2]。但是由于工業(yè)大數(shù)據(jù)普遍存在的多源、復(fù)雜、冗余及不平衡等問(wèn)題,給制造企業(yè)數(shù)據(jù)分析帶來(lái)了巨大的挑戰(zhàn)。
隨著機(jī)器學(xué)習(xí)等數(shù)據(jù)處理分析技術(shù)的進(jìn)步,應(yīng)用大數(shù)據(jù)分析方法來(lái)對(duì)生產(chǎn)情況進(jìn)行預(yù)測(cè),進(jìn)而降低次品率且提高生產(chǎn)線(xiàn)效率已成為可能。李孟虔等[3]提出一種基于模糊神經(jīng)網(wǎng)絡(luò)的深孔加工刀具磨損率預(yù)測(cè)方法,以預(yù)測(cè)刀具磨損情況進(jìn)而保證產(chǎn)品的質(zhì)量。裘鎵榮等[4]利用PSO粒子群算法優(yōu)化LSSVM最小二乘支持向量機(jī)參數(shù),建立基于PSO-LSSVM彈藥裝配質(zhì)量預(yù)測(cè)模型,實(shí)現(xiàn)彈藥裝配質(zhì)量的預(yù)測(cè)。于勇等[5]利用多種機(jī)器學(xué)習(xí)分類(lèi)器構(gòu)建基于工藝參數(shù)與質(zhì)量分類(lèi)標(biāo)簽的質(zhì)量預(yù)測(cè)模型,實(shí)現(xiàn)機(jī)加零件的質(zhì)量預(yù)測(cè)和工藝參數(shù)優(yōu)化。Moschos等[6]將新的測(cè)量數(shù)據(jù)或信息與基于機(jī)器學(xué)習(xí)的預(yù)測(cè)信息相結(jié)合的過(guò)程,采用貝葉斯方法獲得最終產(chǎn)品質(zhì)量的最新后驗(yàn)分布,在制造中實(shí)現(xiàn)更有效的產(chǎn)品狀態(tài)監(jiān)測(cè)。Wahb等[7]重點(diǎn)量化了SVM中每個(gè)參數(shù)對(duì)質(zhì)量預(yù)測(cè)模型性能的影響,從而使SVM模型更好的應(yīng)用于質(zhì)量預(yù)測(cè)中。Sepideh等[8]通過(guò)將ANN和PSO多功能優(yōu)化技術(shù)相結(jié)合開(kāi)發(fā)了一種車(chē)削制造表面粗糙度預(yù)測(cè)模型模型,且預(yù)測(cè)值與實(shí)驗(yàn)值吻合良好,證明所提模型可以準(zhǔn)確的預(yù)測(cè)表面粗糙度。Fan等[9]結(jié)合XGBoost算法,通過(guò)卡方檢驗(yàn)和Pearson相關(guān)系數(shù)篩選相關(guān)性較高的特征,降低質(zhì)量一致性預(yù)測(cè)模型的過(guò)擬合程度,提高預(yù)測(cè)精度。Sun等[10]提出了一種疊加多路隨機(jī)森林算法,建立了相位相關(guān)臨界變量與多個(gè)質(zhì)量指標(biāo)之間的預(yù)測(cè)關(guān)系。Hu等[11]提出了一種基于特征選擇的改進(jìn)支持向量機(jī)模型,其改進(jìn)了支持向量機(jī)中的徑向基函數(shù),結(jié)合決斗算法和可變鄰域搜索算法進(jìn)行特征選擇和參數(shù)優(yōu)化從而預(yù)測(cè)產(chǎn)品質(zhì)量。Gellrich等深度將遷移學(xué)習(xí)應(yīng)用到鋁重力壓鑄的質(zhì)量預(yù)測(cè)中,克服了數(shù)據(jù)的稀疏和不平衡等問(wèn)題[12]。在制品質(zhì)量預(yù)測(cè)方面,Wang等[13]提出了一種生成神經(jīng)網(wǎng)絡(luò)模型,將無(wú)監(jiān)督特征提取步驟與監(jiān)督學(xué)習(xí)方法相結(jié)合,用于自動(dòng)預(yù)測(cè)在制品的質(zhì)量。Mattila等[14]提出了一種基于梯度提升樹(shù)的鋼鐵質(zhì)量預(yù)測(cè)系統(tǒng),能夠在制造過(guò)程的早期階段檢測(cè)到可能的表面缺陷,從而減少處理缺陷產(chǎn)品的成本。Bak等[15]將淺神經(jīng)網(wǎng)絡(luò)作為回歸分類(lèi)器引擎,用于預(yù)測(cè)制造過(guò)程中的產(chǎn)品質(zhì)量,以鋁壓鑄過(guò)程數(shù)據(jù)集為例進(jìn)行了驗(yàn)證。
從國(guó)內(nèi)外文獻(xiàn)資料分析發(fā)現(xiàn),現(xiàn)有的質(zhì)量預(yù)測(cè)模型對(duì)生產(chǎn)過(guò)程中的在制品質(zhì)量問(wèn)題預(yù)測(cè)研究不夠深入,主要集中在產(chǎn)品表面缺陷研究方面,對(duì)生產(chǎn)線(xiàn)上流轉(zhuǎn)中的在制品研究較少,且質(zhì)量預(yù)測(cè)效果有待進(jìn)一步提升。實(shí)現(xiàn)在制品的質(zhì)量問(wèn)題預(yù)測(cè)對(duì)智能工廠(chǎng)的建設(shè)有重要的現(xiàn)實(shí)意義,工廠(chǎng)生產(chǎn)產(chǎn)品過(guò)程往往由多工位多工藝組成,對(duì)在制品進(jìn)行質(zhì)量預(yù)測(cè)可以在生產(chǎn)制造過(guò)程中根據(jù)不完整的工藝參數(shù)對(duì)產(chǎn)品的最終質(zhì)量進(jìn)行預(yù)測(cè),以提前發(fā)現(xiàn)可能存在質(zhì)量問(wèn)題的產(chǎn)品,采取相應(yīng)的措施,從而減少不良品率,降低工廠(chǎng)生產(chǎn)成本,提高生產(chǎn)線(xiàn)效率。
針對(duì)以上問(wèn)題,本文提出了一種基于RFECV- LightGBM-TPE聯(lián)合模型的在制品質(zhì)量問(wèn)題預(yù)測(cè)方法。該方法通過(guò)RFE(recursive feature elimination)遞歸特征消除和CV(cross validation)交叉驗(yàn)證結(jié)合并以RF(random forest)作為基模型,自動(dòng)完成特征篩選,解決特征篩選維度難以確定的問(wèn)題。針對(duì)在制品采集的工藝參數(shù)不充分的情況,通過(guò)結(jié)合特征重要性的方法改進(jìn)KNN(k-nearest neighbor)模型以填補(bǔ)其尚未采集的工藝參數(shù),解決了生產(chǎn)過(guò)程中的產(chǎn)品難以進(jìn)行質(zhì)量預(yù)測(cè)的問(wèn)題。然后利用TPE(tree-structured parzen estimator)超參數(shù)尋優(yōu)算法優(yōu)化LightGBM中的超參數(shù)以構(gòu)建產(chǎn)品質(zhì)量預(yù)測(cè)模型,并對(duì)訓(xùn)練樣本進(jìn)行SMOTE過(guò)采樣以使數(shù)據(jù)達(dá)到平衡,進(jìn)而提高預(yù)測(cè)效果。將填補(bǔ)完全的工藝參數(shù)輸入上述LightGBM-TPE質(zhì)量預(yù)測(cè)模型,實(shí)現(xiàn)在制品的質(zhì)量問(wèn)題預(yù)測(cè)。
針對(duì)現(xiàn)有質(zhì)量預(yù)測(cè)模型對(duì)在制品進(jìn)行質(zhì)量問(wèn)題預(yù)測(cè)研究不夠深入的情況,本文提出了一種基于RFECV-LightGBM-TPE聯(lián)合模型的在制品質(zhì)量問(wèn)題預(yù)測(cè)方法,即將生產(chǎn)現(xiàn)場(chǎng)實(shí)時(shí)采集的生產(chǎn)數(shù)據(jù)輸入訓(xùn)練好的模型中獲得質(zhì)量預(yù)測(cè)結(jié)果的過(guò)程。本文的在制品質(zhì)量問(wèn)題預(yù)測(cè)總體方案將由數(shù)據(jù)預(yù)處理和RFECV特征篩選、改進(jìn)KNN的在制品剩余工藝參數(shù)補(bǔ)全、基于TPE優(yōu)化的LightGBM質(zhì)量預(yù)測(cè)模型、對(duì)在制品進(jìn)行質(zhì)量問(wèn)題預(yù)測(cè)等部分組成,整體方案設(shè)計(jì)如圖1所示。
圖1 在制品質(zhì)量問(wèn)題預(yù)測(cè)總體方案
首先使用傳感器、RFID等設(shè)備對(duì)產(chǎn)品的工藝數(shù)據(jù)進(jìn)行采集記錄,并將其存儲(chǔ)在MES、PDM等生產(chǎn)管理系統(tǒng)中。為保證數(shù)據(jù)質(zhì)量,對(duì)工藝數(shù)據(jù)進(jìn)行預(yù)處理操作,如數(shù)據(jù)清洗、異常值處理、缺失值處理等。針對(duì)生產(chǎn)數(shù)據(jù)中易出現(xiàn)的高復(fù)雜度高冗余性問(wèn)題,通過(guò)RFE遞歸特征消除和CV交叉驗(yàn)證結(jié)合,以RF作為基模型自動(dòng)完成特征篩選,避免了人工干預(yù)的情況。該方法利用RF算法和CV交叉驗(yàn)證獲得當(dāng)前數(shù)據(jù)集的訓(xùn)練得分并計(jì)算各個(gè)特征的重要性,剔除重要性最低的特征后重復(fù)上述訓(xùn)練和剔除重要性最低特征的步驟直至數(shù)據(jù)集為空,取訓(xùn)練得分最高的數(shù)據(jù)集為特征篩選后的特征子集。該特征篩選方法在剔除冗余特征、縮短模型訓(xùn)練時(shí)長(zhǎng)的同時(shí)保證了數(shù)據(jù)的質(zhì)量。
由于在制品未完成所有工位的生產(chǎn)工作,尚未采集完整的工藝參數(shù),因此不能直接將實(shí)時(shí)工藝參數(shù)輸入質(zhì)量預(yù)測(cè)模型中進(jìn)行質(zhì)量預(yù)測(cè)。本文結(jié)合上述特征篩選過(guò)程中計(jì)算得到的特征重要性改進(jìn)KNN缺失值填補(bǔ)算法,通過(guò)特征重要性對(duì)KNN中的歐氏距離進(jìn)行加權(quán)計(jì)算。然后利用改進(jìn)的KNN算法尋找歷史數(shù)據(jù)庫(kù)中最相似的k個(gè)案例,對(duì)這些案例的工藝參數(shù)分別求均值作為當(dāng)前在制品的未測(cè)得工藝參數(shù)以對(duì)其缺失工藝參數(shù)進(jìn)行補(bǔ)全。
將歷史工藝數(shù)據(jù)劃分為訓(xùn)練集和驗(yàn)證集并利用LightGBM分類(lèi)算法進(jìn)行訓(xùn)練,將質(zhì)量預(yù)測(cè)問(wèn)題轉(zhuǎn)化為數(shù)據(jù)分類(lèi)問(wèn)題,為了解決LightGBM超參數(shù)難以設(shè)置的問(wèn)題,引入TPE超參數(shù)尋優(yōu)算法對(duì)LightGBM中的超參數(shù)進(jìn)行尋優(yōu),同時(shí)對(duì)訓(xùn)練集數(shù)據(jù)進(jìn)行SMOTE過(guò)采樣以解決因數(shù)據(jù)不平衡而導(dǎo)致的過(guò)擬合問(wèn)題。通過(guò)這些方法訓(xùn)練獲得質(zhì)量預(yù)測(cè)模型,相較于其他常見(jiàn)模型可以更高好的對(duì)質(zhì)量進(jìn)行預(yù)測(cè)。將填補(bǔ)完成的在制品工藝參數(shù)輸入LightGBM-TPE質(zhì)量預(yù)測(cè)中實(shí)現(xiàn)對(duì)在制品的質(zhì)量預(yù)測(cè),并將預(yù)測(cè)結(jié)果以可視化的形式呈現(xiàn)給質(zhì)量管理人員。
以上過(guò)程即在制品質(zhì)量問(wèn)題預(yù)測(cè)總體方案,也是產(chǎn)品制造生產(chǎn)過(guò)程的知識(shí)發(fā)現(xiàn)體系,將產(chǎn)生的重要工藝、重要工位等知識(shí)和規(guī)則存入質(zhì)量知識(shí)庫(kù)當(dāng)中,企業(yè)質(zhì)量工程師結(jié)合質(zhì)量知識(shí)庫(kù)中的知識(shí)對(duì)生產(chǎn)過(guò)程進(jìn)行指導(dǎo)和改進(jìn),以提高生產(chǎn)線(xiàn)水平。
本文從生產(chǎn)制造現(xiàn)場(chǎng)工位采集的工藝數(shù)據(jù)入手,然后通過(guò)機(jī)器學(xué)習(xí)算法實(shí)現(xiàn)對(duì)在制品的質(zhì)量預(yù)測(cè),即將實(shí)時(shí)采集的在制品的工藝參數(shù)輸入已經(jīng)訓(xùn)練好的質(zhì)量預(yù)測(cè)模型中實(shí)現(xiàn)對(duì)在制品質(zhì)量問(wèn)題的預(yù)測(cè),提前預(yù)測(cè)生產(chǎn)線(xiàn)中的不合格品,提高生產(chǎn)線(xiàn)性能。因此首先要對(duì)采集的工藝數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗、異常值處理、缺失值處理等操作確保數(shù)據(jù)質(zhì)量。
由于產(chǎn)品生產(chǎn)制造過(guò)程中工藝數(shù)據(jù)的度量單位多、差異大,會(huì)導(dǎo)致模型精度降低并且使收斂速度變慢[16],因此需要針對(duì)量綱對(duì)模型的影響對(duì)數(shù)據(jù)進(jìn)行處理。常見(jiàn)的方法有最大最小值歸一化方法和將利用均值和方差對(duì)數(shù)值進(jìn)行縮放的標(biāo)準(zhǔn)化方法[17],由于標(biāo)準(zhǔn)化方法可以更好的保持樣本間距,減少噪音的影響。因此本文選用標(biāo)準(zhǔn)化方法消除量綱對(duì)模型的影響,為接下來(lái)的特征工程做鋪墊。標(biāo)準(zhǔn)化的公式為:
x′=(x-μ)/σ
其中:x′為標(biāo)準(zhǔn)化后的數(shù)據(jù),x為原始數(shù)據(jù),μ為均值,σ為標(biāo)準(zhǔn)差。
工業(yè)數(shù)據(jù)的高復(fù)雜性和高冗余性導(dǎo)致會(huì)有很多與目標(biāo)不相關(guān)或者關(guān)系較小的特征,這些特征可能會(huì)引入不必要的特征,對(duì)模型性能產(chǎn)生負(fù)面影響[18]。為了降低模型復(fù)雜度,減少冗余特征對(duì)質(zhì)量預(yù)測(cè)模型的影響,縮短訓(xùn)練時(shí)間,避免維度災(zāi)難,需要對(duì)產(chǎn)品生產(chǎn)過(guò)程采集的歷史工藝數(shù)據(jù)集進(jìn)行特征篩選,從而選擇合適的相關(guān)度高的特征進(jìn)行訓(xùn)練和預(yù)測(cè)。常見(jiàn)的特征選擇方法有方差選擇法、相關(guān)系數(shù)法等,這些方法可以有效的進(jìn)行特征篩選,但是需要人工確定保留特征的數(shù)量,無(wú)法確定保留多少特征是最合適的。生產(chǎn)中的工藝數(shù)據(jù)特征維度較大,如果特征保留太多會(huì)造成生產(chǎn)數(shù)據(jù)的冗余,特征保留太少會(huì)丟失重要生產(chǎn)數(shù)據(jù),造成質(zhì)量預(yù)測(cè)模型性能下降??紤]到以上情況,本文選擇結(jié)合RFE遞歸式特征消除和CV交叉驗(yàn)證的RFECV自動(dòng)進(jìn)行工藝數(shù)據(jù)的特征篩選,相比于其他方法可以解決質(zhì)量預(yù)測(cè)模型中特征維度難以確定的問(wèn)題。
(1)
為了解決工藝參數(shù)維度較大,冗余特征較多,難以人工確定篩選后特征維度的問(wèn)題,RFECV在利用RF基模型對(duì)數(shù)據(jù)集完成訓(xùn)練后,除了獲取不同工藝參數(shù)的特征重要性,還利用CV交叉驗(yàn)證獲得當(dāng)前模型的性能得分,然后剔除特征重要性較低的工藝參數(shù)形成新的特征子集,重新進(jìn)行訓(xùn)練并獲取當(dāng)前模型的性能得分,不斷的重復(fù)上述的剔除和訓(xùn)練步驟,直至數(shù)據(jù)集為空。然后比較不同特征子集的得分,將得分最高的特征子集作為篩選后的特征子集,整體流程如圖2所示。
圖2 基于RFECV的工藝參數(shù)特征篩選流程
對(duì)于已經(jīng)完成全部工位生產(chǎn)的產(chǎn)品,可以直接對(duì)其進(jìn)行質(zhì)量預(yù)測(cè),判斷其是否為不合格品。但由于在制品只采集了部分工位上的工藝參數(shù),不能直接輸入質(zhì)量預(yù)測(cè)模型中進(jìn)行預(yù)測(cè),需要對(duì)其尚未采集的剩余特征參數(shù)進(jìn)行補(bǔ)全。本文結(jié)合上文獲得的產(chǎn)品特征重要性值對(duì)KNN缺失值補(bǔ)全算法進(jìn)行改進(jìn),從而完成剩余工藝參數(shù)的補(bǔ)全,流程如圖3所示。
圖3 基于改進(jìn)KNN模型的在制品剩余工藝參數(shù)補(bǔ)全
(2)
(3)
通過(guò)上式獲得產(chǎn)品剩余的工藝參數(shù)后,與已測(cè)得的工藝參數(shù)合并,即形成當(dāng)前在制品完整的工藝參數(shù)。
若要實(shí)現(xiàn)對(duì)在制品進(jìn)行質(zhì)量預(yù)測(cè),即需要將上文中補(bǔ)全的在制品工藝參數(shù)輸入到構(gòu)建好的質(zhì)量預(yù)測(cè)模型中得到相應(yīng)的預(yù)測(cè)結(jié)果,因此需要利用歷史數(shù)據(jù)訓(xùn)練出合格的質(zhì)量數(shù)據(jù)分類(lèi)算法,將質(zhì)量預(yù)測(cè)問(wèn)題轉(zhuǎn)化為數(shù)據(jù)分類(lèi)問(wèn)題。將特征篩選后的工藝數(shù)據(jù)集按比例劃分為訓(xùn)練集和驗(yàn)證集,并對(duì)訓(xùn)練集數(shù)據(jù)進(jìn)行過(guò)采樣以避免因質(zhì)量數(shù)據(jù)不平衡而導(dǎo)致的過(guò)擬合問(wèn)題,然后利用LightGBM[21]構(gòu)建質(zhì)量預(yù)測(cè)模型,并引入TPE[22]超參數(shù)尋優(yōu)方法對(duì)LightGBM的超參數(shù)進(jìn)行尋優(yōu)解決其超參數(shù)尋優(yōu)難的問(wèn)題,提高質(zhì)量預(yù)測(cè)的效果,整體流程如圖4所示。
圖4 基于TPE優(yōu)化的LightGBM質(zhì)量預(yù)測(cè)模型流程
2.4.1 不平衡質(zhì)量數(shù)據(jù)處理
由于產(chǎn)品的生產(chǎn)過(guò)程中不合格品往往只占較少的部分,因此質(zhì)量數(shù)據(jù)會(huì)具有高度的不平衡性,從而導(dǎo)致質(zhì)量預(yù)測(cè)模型出現(xiàn)過(guò)擬合現(xiàn)象,影響模型的訓(xùn)練。因此采用SMOTE[23]算法對(duì)不合格樣本的數(shù)據(jù)進(jìn)行過(guò)采樣,即利用質(zhì)量不合格的樣本數(shù)據(jù)生成新的數(shù)據(jù)緩解數(shù)據(jù)不平衡度。新數(shù)據(jù)的構(gòu)造方式為:
xnew=xi+rand(0,1)*(xj-xi)
(4)
式中:xnew為新生成的數(shù)據(jù),xi為隨機(jī)選取的質(zhì)量不合格樣本中的一個(gè)數(shù)據(jù),xj為xi附近隨機(jī)挑選的一個(gè)數(shù)據(jù),rand(0,1) 表示0到1之間的隨機(jī)數(shù)。
2.4.2 LightGBM質(zhì)量預(yù)測(cè)模型
考慮到產(chǎn)品生產(chǎn)過(guò)程中采集的工藝數(shù)據(jù)的高復(fù)雜性和高數(shù)據(jù)量等特點(diǎn),并且在實(shí)際質(zhì)量預(yù)測(cè)過(guò)程中,對(duì)質(zhì)量預(yù)測(cè)模型的精確度和運(yùn)行速度都有很高的要求,因此需要找到合適的分類(lèi)算法對(duì)產(chǎn)品生產(chǎn)過(guò)程進(jìn)行質(zhì)量預(yù)測(cè)。
LightGBM是一種以梯度提升決策樹(shù)為基礎(chǔ)的集成學(xué)習(xí)算法,相比于其他梯度提升決策樹(shù)算法,LightGBM模型使用了如直方圖算法和Leaf-wise決策樹(shù)生長(zhǎng)策略等優(yōu)化方法使其更適合處理工業(yè)大數(shù)據(jù)。這些優(yōu)化方法可以讓LightGBM在不影響精度的前提下加速梯度提升模型的訓(xùn)練,使其具有更快的訓(xùn)練速度和更少的內(nèi)存消耗。在處理工業(yè)大數(shù)據(jù)等大規(guī)模數(shù)據(jù)集時(shí)高效迅速的同時(shí)保證高準(zhǔn)確度,對(duì)硬件資源要求不高,并且有較強(qiáng)的魯棒性,因此本文選用LightGBM算法適合構(gòu)件質(zhì)量預(yù)測(cè)模型。
(5)
設(shè)為h(x)弱學(xué)習(xí)器,使用h(x)來(lái)擬合損失函數(shù)的負(fù)梯度,以找到如下的最佳擬合值:
ht(x)=argminL[yi,fj-1(xi)+ghj(xi)]
(6)
算法的更新公式可以被定義為:
fj(x)=fj-1(x)+gjhj(x)
(7)
(8)
如果采用人工的方式來(lái)調(diào)整質(zhì)量預(yù)測(cè)模型的超參數(shù),會(huì)導(dǎo)致很難找到最優(yōu)的超參數(shù)組合,并且會(huì)浪費(fèi)大量的時(shí)間。因此需要找到合適的超參數(shù)尋優(yōu)算法自動(dòng)對(duì)LightGBM進(jìn)行超參數(shù)優(yōu)化。
2.4.3 利用TPE進(jìn)行LightGBM質(zhì)量預(yù)測(cè)模型超參數(shù)尋優(yōu)
為了使質(zhì)量預(yù)測(cè)模型在對(duì)產(chǎn)品進(jìn)行質(zhì)量預(yù)測(cè)的時(shí)候達(dá)到更好的效果,需要找到合適的機(jī)器學(xué)習(xí)超參數(shù)尋優(yōu)算法對(duì)LightGBM的learning_rate等超參數(shù)進(jìn)行自動(dòng)尋優(yōu)。貝葉斯優(yōu)化是一種高效的超參數(shù)尋優(yōu)方法,其通過(guò)基于目標(biāo)函數(shù)的過(guò)去評(píng)估結(jié)果建立概率模型,來(lái)找到最小化目標(biāo)函數(shù)的值,相比于常見(jiàn)的Grid Search、Random Search[24]等超參數(shù)尋優(yōu)算法,在嘗試下一組超參數(shù)時(shí),會(huì)參考之前的評(píng)估結(jié)果,因此可以省去很多無(wú)用功,提升超參數(shù)尋優(yōu)效率。因此本文選用基于樹(shù)狀結(jié)構(gòu) Parzen 密度估計(jì)的非標(biāo)準(zhǔn)貝葉斯優(yōu)化算法TPE對(duì)質(zhì)量預(yù)測(cè)模型中的學(xué)習(xí)率、lambda等超參數(shù)進(jìn)行尋優(yōu),這種算法比其他變種貝葉斯優(yōu)化算法的尋優(yōu)效果更好效率更高。
本文質(zhì)量預(yù)測(cè)模型中TPE尋優(yōu)算法定義p(x|y)的兩種表達(dá)形式:
(9)
式中:y*表示觀測(cè)閾上的最優(yōu)值,l(x)和g(x)分別表示觀測(cè)值x的損失函數(shù)小于或大于等于y*的密度估計(jì)。采用預(yù)期改進(jìn)EI作為采樣函數(shù),選擇對(duì)目標(biāo)函數(shù)值有優(yōu)化作用的下一個(gè)評(píng)估點(diǎn)。
(10)
(11)
當(dāng)超參數(shù)x使l(x)最大,g(x)最小時(shí),EI取得最大值。通過(guò)l(x)和g(x)構(gòu)造樣本超參數(shù)合集,以l(x)/g(x)的形式對(duì)x進(jìn)行評(píng)估,每次迭代都會(huì)返回一個(gè)使最大EI的x*,經(jīng)過(guò)多次迭代,選擇其中性能最優(yōu)的超參數(shù)組合作為最終質(zhì)量預(yù)測(cè)模型的超參數(shù)組合。然后將驗(yàn)證集數(shù)據(jù)輸入構(gòu)建完成的LightGBM-TPE質(zhì)量預(yù)測(cè)模型驗(yàn)證模型預(yù)測(cè)效果。
2.4.4 在制品質(zhì)量問(wèn)題預(yù)測(cè)流程
圖5 在制品質(zhì)量問(wèn)題預(yù)測(cè)流程
質(zhì)量預(yù)測(cè)結(jié)果以?xún)煞N顏色的質(zhì)量標(biāo)簽的形式呈現(xiàn)。當(dāng)預(yù)測(cè)結(jié)果為合格品時(shí),輸出綠色的合格標(biāo)簽,表示當(dāng)前產(chǎn)品質(zhì)量良好;當(dāng)預(yù)測(cè)結(jié)果為不合格品時(shí),輸出紅色的不合格標(biāo)簽,表示當(dāng)前產(chǎn)品可能存在質(zhì)量問(wèn)題,應(yīng)對(duì)其采取相應(yīng)措施,如返工或舍棄等。具體如表1所示。
表1 質(zhì)量預(yù)測(cè)標(biāo)簽
為了驗(yàn)證本文提出的在制品質(zhì)量問(wèn)題預(yù)測(cè)方法的有效性,以對(duì)博世生產(chǎn)線(xiàn)上的在制品質(zhì)量問(wèn)題預(yù)測(cè)為例進(jìn)行實(shí)例驗(yàn)證。利用RFECV完成工藝數(shù)據(jù)的特征篩選,結(jié)合特征重要性改進(jìn)KNN完成在制品的剩余工藝參數(shù)補(bǔ)全,利用LightGBM-TPE模型進(jìn)行質(zhì)量預(yù)測(cè)并與傳統(tǒng)模型進(jìn)行對(duì)比,驗(yàn)證本文提出的在制品質(zhì)量問(wèn)題預(yù)測(cè)方法的有效性和可行性。實(shí)驗(yàn)在Windows10系統(tǒng)上進(jìn)行,電腦CPU型號(hào)為Intel(R) Core(TM) i5-10300H 2.50 GHz,顯卡型號(hào)為:GeForce GTX 1650,內(nèi)存為16.0GB,運(yùn)行環(huán)境為tensorflow2.0。
本次實(shí)例驗(yàn)證使用數(shù)據(jù)為Kaggle中博世提供的大型公開(kāi)生產(chǎn)線(xiàn)數(shù)據(jù)集,目標(biāo)是對(duì)產(chǎn)品質(zhì)量進(jìn)行預(yù)測(cè),提高生產(chǎn)線(xiàn)性能。該數(shù)據(jù)集包含超過(guò)100萬(wàn)個(gè)觀測(cè)數(shù)據(jù)和超過(guò)4 000個(gè)特征。其中數(shù)值特征的命名由生產(chǎn)線(xiàn)編號(hào)、工位編號(hào)及測(cè)量編號(hào)組合而成,例如一個(gè)名為L(zhǎng)3_S50_F4243的特征表示該產(chǎn)品在3號(hào)生產(chǎn)線(xiàn)50號(hào)工位測(cè)量的特征,并且特征編號(hào)為4243。部分?jǐn)?shù)據(jù)如表2所示。圖6以其中4個(gè)特征為例展示了同一特征下特征參數(shù)的分布。
表2 部分產(chǎn)品生產(chǎn)過(guò)程采集特征參數(shù)
圖6 部分特征參數(shù)數(shù)據(jù)分布
由于該數(shù)據(jù)集過(guò)于巨大,對(duì)產(chǎn)品的不合格率進(jìn)行分析,發(fā)現(xiàn)該產(chǎn)品不合格率為0.58%,數(shù)據(jù)分布極為不平衡,負(fù)樣本占比較小,本文隨機(jī)選取其中一個(gè)子集,緩解不平衡度,并對(duì)數(shù)據(jù)的缺失值和異常值進(jìn)行處理。
對(duì)數(shù)據(jù)處理完成后,利用RFECV算法篩選出224個(gè)特征構(gòu)建特征篩選后的特征子集,并計(jì)算了各個(gè)特征的重要性,由大到小進(jìn)行排序,如圖7所示。
圖7 特征參數(shù)重要性排序
由圖7可以對(duì)產(chǎn)品質(zhì)量影響最大的10個(gè)參數(shù)特征如表3所示。
表3 部分特征重要性排序表
使用SMOTE算法對(duì)數(shù)據(jù)進(jìn)行過(guò)采樣,緩解數(shù)據(jù)不平衡度。對(duì)處理好的數(shù)據(jù)集按照5∶1的比例為訓(xùn)練集和驗(yàn)證集,訓(xùn)練本文提出的LightGBM-TPE質(zhì)量預(yù)測(cè)模型。采用精確率Pre、召回率Recall及F1值對(duì)模型有效性進(jìn)行驗(yàn)證,并與SVM、LR等常見(jiàn)的算法進(jìn)行對(duì)比,如表4所示。
表4 模型性能對(duì)比/%
通過(guò)上述實(shí)驗(yàn)可以發(fā)現(xiàn)本文所提出的質(zhì)量預(yù)測(cè)模型對(duì)產(chǎn)品質(zhì)量預(yù)測(cè)的效果優(yōu)于其他常見(jiàn)模型,因此可以得出本文所提出的LightGBM-TPE質(zhì)量預(yù)測(cè)模型可以較為準(zhǔn)確的利用產(chǎn)品生產(chǎn)的特征參數(shù)對(duì)最終質(zhì)量進(jìn)行預(yù)測(cè)。
為了驗(yàn)證本文所提在制品質(zhì)量問(wèn)題預(yù)測(cè)方法的有效性,本文選用較為重要的S24和S33作為質(zhì)量預(yù)測(cè)點(diǎn)。對(duì)產(chǎn)品完成這兩個(gè)工位生產(chǎn)的在制品進(jìn)行特征加權(quán)改進(jìn)KNN的工藝參數(shù)補(bǔ)全并輸入LightGBM-TPE質(zhì)量預(yù)測(cè)模型進(jìn)行質(zhì)量預(yù)測(cè)。預(yù)測(cè)效果如表5所示。從實(shí)驗(yàn)結(jié)果可得本文所提的在制品質(zhì)量問(wèn)題預(yù)測(cè)方法可以較為準(zhǔn)確的對(duì)在制品進(jìn)行質(zhì)量預(yù)測(cè)。
表5 在制品質(zhì)量問(wèn)題預(yù)測(cè)效果驗(yàn)證
隨著產(chǎn)品功能的日益增加、產(chǎn)品精細(xì)化程度不斷加深及客戶(hù)的要求不斷提高,在制造生產(chǎn)過(guò)程中對(duì)產(chǎn)品的質(zhì)量進(jìn)行控制變的越來(lái)越困難。為了利用產(chǎn)品制造過(guò)程中采集的數(shù)據(jù)對(duì)在制品進(jìn)行質(zhì)量問(wèn)題預(yù)測(cè),本文提出了一種基于RFECV-LightGBM-TPE聯(lián)合模型的在制品質(zhì)量問(wèn)題預(yù)測(cè)方法。該方法通過(guò)RFECV自動(dòng)完成特征篩選,針對(duì)在制品采集數(shù)據(jù)不充分的問(wèn)題,通過(guò)結(jié)合特征重要性的方法改進(jìn)KNN模型補(bǔ)全未采集的剩余工藝參數(shù),然后利用TPE優(yōu)化LightGBM構(gòu)建了質(zhì)量預(yù)測(cè)模型,并對(duì)訓(xùn)練樣本進(jìn)行過(guò)采樣解決了數(shù)據(jù)不平衡問(wèn)題,提高預(yù)測(cè)效果。最后以博世生產(chǎn)線(xiàn)采集的工藝參數(shù)為例將本文所提模型與常見(jiàn)模型進(jìn)行對(duì)比,結(jié)果表明本文所提模型可以更好的對(duì)質(zhì)量進(jìn)行預(yù)測(cè)。本文給智能工廠(chǎng)的建設(shè)提供了一點(diǎn)參考價(jià)值。