蔣晉文+劉偉光
摘要: 關(guān)鍵詞: 中圖分類號(hào): 文獻(xiàn)標(biāo)志碼: A文章編號(hào): 2095-2163(2017)06-0058-03
Abstract: Manufacturing industry is a highly integrated information and industrialization industry. Every link of the manufacturing process accumulates a lot of data. In the process of detecting the products quality, when finding poor quality products, it is usually late to fix. Realizing data mining for production information, predicting product quality by machine production parameters could master the results of the production in a timely and comprehensive way, therefore make corresponding decisions based on preknow results to effectively improve product quality. XGBoost algorithm is an efficient and accurate regression algorithm. In this paper, XGBoost algorithm is applied to the manufacturing quality prediction, so as to achieve the purpose of accurately predicting the product quality and provide an effective method for manufacturing product quality prediction.
0引言
制造業(yè)產(chǎn)業(yè)是一個(gè)信息化和工業(yè)化高度融合的產(chǎn)業(yè)?!吨袊圃?025》提出了用信息化和工業(yè)化兩化深度融合來引領(lǐng)和帶動(dòng)整個(gè)制造業(yè)的發(fā)展,讓制造業(yè)向工業(yè)4.0轉(zhuǎn)變[1]。制造業(yè)的生產(chǎn)過程一般包含選材、加工、產(chǎn)品質(zhì)量檢測等多個(gè)環(huán)節(jié),在生產(chǎn)過程的每一個(gè)環(huán)節(jié)都會(huì)累積大量的數(shù)據(jù)。這些數(shù)據(jù)通常反映了制造業(yè)的生產(chǎn)過程。通過數(shù)據(jù)挖掘方法來分析生產(chǎn)過程的數(shù)據(jù),有利于更好地發(fā)現(xiàn)生產(chǎn)過程的異常,增強(qiáng)產(chǎn)品的質(zhì)量控制,對(duì)于優(yōu)化生產(chǎn),提高產(chǎn)能有著至關(guān)重要的研發(fā)意義。通過準(zhǔn)確預(yù)測產(chǎn)品的質(zhì)量可以達(dá)到生產(chǎn)結(jié)果即時(shí)性以及全面性。并且基于預(yù)先知道的結(jié)果做出應(yīng)對(duì)決策可以有效提高產(chǎn)品的質(zhì)量。因此,國內(nèi)外學(xué)者將統(tǒng)計(jì)和機(jī)器學(xué)習(xí)方法用于制造業(yè)質(zhì)量預(yù)測的研究中,以期提高產(chǎn)品的良品率。
趙旭等[2]提出了一種多變量統(tǒng)計(jì)質(zhì)量控制方法來減小由于過程擾動(dòng)引起的產(chǎn)品質(zhì)量變化。與傳統(tǒng)的PID質(zhì)量控制方法相比,所提出的方法能減小由過程擾動(dòng)引起的質(zhì)量變化。胡勝[3]等提出了基于遺傳算法和支持向量機(jī)的多元質(zhì)量過程均值異常診斷方法,實(shí)現(xiàn)了多元制造過程異常變量的定位和分離,彌補(bǔ)了傳統(tǒng)的多元過程技術(shù)只能診斷過程的整體狀態(tài),不能對(duì)異常變量進(jìn)行分離和定位的缺陷。Zheng[4]分別采用貝葉斯網(wǎng)絡(luò)算法和MapReduce框架,以船體分段制造為研究對(duì)象,精準(zhǔn)預(yù)測了船體分段的精度。朱慧明[5]提出了貝葉斯質(zhì)量控制方法,應(yīng)用基于Gibbs抽樣的馬爾可夫鏈蒙特卡羅方法模擬模型參數(shù)的后驗(yàn)分布,構(gòu)建了自相關(guān)過程的貝葉斯統(tǒng)計(jì)質(zhì)量控制模型,使得擬合后的殘差序列具有相互獨(dú)立性質(zhì),解決了工序質(zhì)量控制中自相關(guān)過程的觀測值并不滿足控制變量獨(dú)立性的基本假設(shè)問題。
XGBoost[5] 的全稱是eXtreme Gradient Boosting,是一種基于梯度Boosting的集成學(xué)習(xí)算法,XGBoost算法是梯度提升機(jī)器算法(Gradient Boosting Machine)的實(shí)現(xiàn),采用CPU多線程進(jìn)行并行計(jì)算,具有高準(zhǔn)確度和可擴(kuò)展性的特點(diǎn),被廣泛用于商業(yè)銷售預(yù)測[6]、網(wǎng)絡(luò)輿情預(yù)測[7]、電子商務(wù)商品推薦[8]等方面。本文將XGBoost算法應(yīng)用到制造業(yè)質(zhì)量預(yù)測中,挖掘生產(chǎn)過程中產(chǎn)生的數(shù)據(jù)信息,建立回歸預(yù)測模型,從而精確地根據(jù)機(jī)器生產(chǎn)參數(shù)預(yù)測出產(chǎn)品的質(zhì)量。結(jié)果表明,XGBoost與傳統(tǒng)的數(shù)據(jù)挖掘算法相比,具有準(zhǔn)確度高,可擴(kuò)展的優(yōu)勢(shì)。
1數(shù)據(jù)描述
本文所使用的數(shù)據(jù)來自阿里巴巴眾智任務(wù)大數(shù)據(jù)競賽公開數(shù)據(jù)集。制造業(yè)的生產(chǎn)過程中積累了大量的數(shù)據(jù),在選材環(huán)節(jié)記錄中包括每個(gè)批次原材料供應(yīng)商、等級(jí)等屬性信息作為輸入數(shù)據(jù);加工環(huán)節(jié)記錄中包括產(chǎn)品批次核心指標(biāo)(如溫度、濕度)隨著時(shí)間變化的值;產(chǎn)品質(zhì)量檢測環(huán)節(jié)記錄中包括每個(gè)產(chǎn)品批次的關(guān)鍵質(zhì)量指標(biāo)值。
1.1特征選擇
輸入數(shù)據(jù)分為工藝上可調(diào)整的參數(shù)列表(draft_data)、工藝上不可調(diào)整的參數(shù)列表(param_data)和時(shí)序狀態(tài)監(jiān)控指標(biāo)表(param_data_timevarying)。其中,product_no為產(chǎn)品批次的編號(hào),key_index為相應(yīng)產(chǎn)品批次的質(zhì)量指標(biāo)值,取值范圍為[0,1]。由于原始數(shù)據(jù)無法直接建模,需要對(duì)數(shù)據(jù)表開展性征工程設(shè)計(jì)。針對(duì)數(shù)值型和類別型數(shù)據(jù),采用ont-hot encode編碼;對(duì)于缺失值,采用均值進(jìn)行填充。時(shí)序型數(shù)據(jù)根據(jù)時(shí)間將加工進(jìn)度劃分成5個(gè)階段,提取加工進(jìn)度每個(gè)階段對(duì)應(yīng)的溫度、線速度等的最大值、最小值、平均數(shù)、眾數(shù)、方差的統(tǒng)計(jì)量。另外,也要提取加工進(jìn)度50%時(shí)的參數(shù)統(tǒng)計(jì)量。
研究中,針對(duì)特定產(chǎn)品批次下,產(chǎn)品加工到100%的過程中,溫度、轉(zhuǎn)速、流量等參數(shù)在加工的階段中值的變化情況,可得效果繪制呈現(xiàn)如圖1所示。參數(shù)值的變化直接影響產(chǎn)品批次的質(zhì)量。endprint
1.2異常值處理
異常值通常會(huì)影響建模和預(yù)測的結(jié)果[9]。需要對(duì)數(shù)據(jù)中存在的異常值進(jìn)行處理。在時(shí)序狀態(tài)監(jiān)控表中,加工環(huán)節(jié)中張力指標(biāo)隨著時(shí)間變化產(chǎn)生了小部分的數(shù)據(jù),并且這些數(shù)據(jù)都是間斷產(chǎn)生的,可能對(duì)產(chǎn)品的質(zhì)量造成一定的影響,此類參數(shù)對(duì)建模并無明確參考價(jià)值,因此剔除張力指標(biāo)值。
2回歸建模
2.1XGBoost算法
Boosting算法是數(shù)據(jù)挖掘領(lǐng)域比較流行有效的集成學(xué)習(xí)算法,通過將各個(gè)弱分類器加權(quán)疊加形成強(qiáng)分類器,從而有效降低誤差,達(dá)到準(zhǔn)確的分類效果。Gradient Boosting[10]是在Boosting[11]基礎(chǔ)上的成果改進(jìn),算法思想是不斷地降低殘差,使先前的模型的殘差在梯度方向上進(jìn)一步降低,從而得到新的模型。XGboost[12]是Gradient Boosting算法的改進(jìn)版本,XGBoost對(duì)損失函數(shù)生成二階泰勒展開,并在損失函數(shù)之外對(duì)正則項(xiàng)求得最優(yōu)解,充分利用多核CPU的并行計(jì)算優(yōu)勢(shì),提高了精度和速度。算法步驟可表述如下:
參考文獻(xiàn):
[1]李涵. 論德國工業(yè)4.0對(duì)中國制造2025標(biāo)準(zhǔn)化工作的啟發(fā)[C]//第十四屆中國標(biāo)準(zhǔn)化論壇論文集. 北京:中國標(biāo)準(zhǔn)化協(xié)會(huì),2017:8.
[2] 趙旭,閻威武,邵惠鶴. 基于多變量統(tǒng)計(jì)方法的產(chǎn)品質(zhì)量控制[J]. 上海交通大學(xué)學(xué)報(bào),2007(1):126-130.
[3] ZHENG Maokuan, MING Xinguo, ZHANG Xianyu, et al. Map Reduce based parallel bayesian network for manufacturing quality control[J]. Chinese Journal of Mechanical Engineering, 2017, 30(5):1216-1226.
[4] 朱慧明,趙銳. 基于自相關(guān)過程的貝葉斯質(zhì)量控制模型研究[J]. 計(jì)算機(jī)集成制造系統(tǒng),2008,14(3):615-618,624.
[5] FRIEDMAN J H. Greedy function approximation: A gradient boosting machine[J]. Annals of statistics, 2001, 29(5): 1189-1232.
[6] 葉倩怡,饒泓,姬名書. 基于Xgboost的商業(yè)銷售預(yù)測[J]. 南昌大學(xué)學(xué)報(bào)(理科版),2017,41(3):275-281.
[7] 黃艷瑩. 基于EMD-XGBoost-AR模型的網(wǎng)絡(luò)輿情預(yù)測研究[D]. 廣州:廣東工業(yè)大學(xué),2017.
[8] 張昊,紀(jì)宏超,張紅宇. XGBoost算法在電子商務(wù)商品推薦中的應(yīng)用[J]. 物聯(lián)網(wǎng)技術(shù),2017,7(2):102-104.
[9] 張德然. 統(tǒng)計(jì)數(shù)據(jù)中異常值的檢驗(yàn)方法[J]. 統(tǒng)計(jì)研究,2003(5):53-55.
[10]王兵. AdaBoost 分類算法的數(shù)學(xué)分析[J]. 軟件,2014,35(3):96-97,100.
[11]CHEN Tianqi, HE Tong, BENESTY M, et al. xgboost: Extreme gradient Bosting[EB/OL]. [2017-01-05]. http: //github.com/dmlc/xgboost.
[12]LIAW A, WIENER M. Classification and regression by randomForest[J]. R news, 2002, 2(3): 18-22.
[13]BONNER M O, PIGNATO P A, JAHNS S E, et al. Methods and apparatus for accessing and stabilizing an area of the heart: U.S., 6837848[P]. 2005-01-04.endprint