郭佳晟,劉以建
(上海海事大學(xué)物流工程學(xué)院,上海 201306)
統(tǒng)計(jì)過程控制(Statistical Process Control, SPC)是經(jīng)典質(zhì)量控制方法,其對于單一變量的監(jiān)控可以有效的提高生產(chǎn)質(zhì)量。但在現(xiàn)代復(fù)雜工藝的生產(chǎn)過程的生產(chǎn)過程中,常常存在多個具有相關(guān)關(guān)系的質(zhì)量特性和過程參數(shù),例如零件加工的長度和直徑、化工過程的溫度、壓力等。Hotelling H在1947年首先提出了基于T2統(tǒng)計(jì)量的多元控制圖,用于對包含多個質(zhì)量特性的生產(chǎn)過程實(shí)施統(tǒng)計(jì)監(jiān)控,由此有了多變量統(tǒng)計(jì)控制過程(Multivariate Statistical Process Control, MSPC)的研究[1]。相繼有了多元累積和(Multivariate Cumulative Sum, MCUSUM)控制圖[2]以及多元指數(shù)加權(quán)移動平均(Multivariate Exponentially Weighted Moving Average, MEWMA)控制圖[3]等。
普通多元控制圖都是基于多元正態(tài)的假設(shè)上構(gòu)建的。然而實(shí)際生產(chǎn)過程中,樣本數(shù)據(jù)存在非正態(tài)現(xiàn)象[4]。當(dāng)過程變量較多時,過程數(shù)據(jù)也很難滿足多元正態(tài)假設(shè),多元控制圖的效果會大大下降,導(dǎo)致誤報(bào)和漏報(bào)。因此針對非參數(shù)控制圖的研究是必要的,即不依賴總體分布,依舊能對生產(chǎn)過程達(dá)到監(jiān)控效果的控制圖。
在過去幾年里,非參數(shù)控制圖已經(jīng)引起了很多關(guān)注,有了許多關(guān)于非正態(tài)數(shù)據(jù)的質(zhì)量控制和MSPC的研究,如喬新穎[5]提出基于偏度校正的非正態(tài)過程質(zhì)量控制圖和基于比例加權(quán)方差方法的非正態(tài)過程質(zhì)量控制圖;魏明月[6]提出對Box-Cox數(shù)據(jù)轉(zhuǎn)換函數(shù)的改進(jìn)方法;姜興宇等[7]應(yīng)用秩統(tǒng)計(jì)量分割數(shù)據(jù)與其分布的關(guān)系,結(jié)合滑動窗口實(shí)現(xiàn)了動態(tài)再制造過程質(zhì)量的自適應(yīng)監(jiān)控;石文華等[8]考慮到軸承徑向間隙參數(shù)可能存在的非正態(tài)情況,用Johnson轉(zhuǎn)換的方法進(jìn)行非正態(tài)過程能力分析;劉瀏等[9]使用基于次序秩的非參數(shù)控制圖,引入馬爾可夫均值估計(jì)量預(yù)測未知的漂移大??;裴德昭等[10]提出了基于游程檢驗(yàn)的多元非參數(shù)控制圖。
本文提出了一種基于改進(jìn)高斯混合模型的T2控制圖,使用高斯混合模型對樣本數(shù)據(jù)擬合,用多個服從正態(tài)的數(shù)據(jù)簇進(jìn)行T2值計(jì)算,實(shí)現(xiàn)統(tǒng)計(jì)量與數(shù)據(jù)分布之間關(guān)系的解耦。針對高斯混合模型的初始化方法,提出數(shù)據(jù)密度的初始化方法。為了方便,將本文構(gòu)建的控制圖記為G-T2控制圖。
HotellingT2控制圖是基于T2統(tǒng)計(jì)量的多元控制圖。T2控制圖的構(gòu)建過程如下:假設(shè)有n組樣本的樣本數(shù)據(jù)集X:
(1)
X服從p元正態(tài)分布Np(μ,Σ),其中,μ為均值向量,Σ為協(xié)方差矩陣。T2統(tǒng)計(jì)量的定義為:
(2)
(3)
(4)
T2控制圖的上、下控制限(UCL、LCL)的計(jì)算公式為:
(5)
其中,F(xiàn)α(p,n-p)是自由度為p和n-p的F分布在α分位點(diǎn)的值。當(dāng)T2>UCL時,表明生產(chǎn)過程失控,控制圖發(fā)出警報(bào)。
聚類算法是數(shù)據(jù)挖掘時常用的處理手段,是非監(jiān)督學(xué)習(xí)的一種經(jīng)典算法[12]。常見的聚類算法有K-Means,DBSCAN,GMM等。
高斯混合模型(Gaussian Mixture Model, GMM)是一種常見的聚類算法,通過最大期望算法(Expectation-Maximization Algorithm, EM算法)將已知數(shù)據(jù)分解為多個高斯分布的疊加,對原始數(shù)據(jù)完成分類的操作。理論上,如果某個高斯混合模型包含的高斯模型個數(shù)足夠多,它們之間的權(quán)重設(shè)定得足夠合理,這個混合模型可以擬合任意分布的樣本。
高斯分布(單高斯模型)是最常見的分布,其概率密度函數(shù)為:
(6)
其中,X=(x1,x2,…,xn)是n維向量,Σ是X的協(xié)方差矩陣。
高斯混合模型是單高斯模型的拓展,假設(shè)有k個高斯模型,則混合高斯模型的概率密度函數(shù)為:
(7)
2.2.1 似然函數(shù)
設(shè)有樣本集Y=y1,y2,…,yn,樣本y服從高斯分布。p(yn|μ,Σ)是表示變量Y=yn的概率。假設(shè)樣本之間符合獨(dú)立同分布(IID),則樣本集Y的似然函數(shù):
(8)
抽取任意樣本y的概率為:
(9)
在等式(8)中將權(quán)重ξi作為條件,得到更新后的似然函數(shù)[13-14]:
(10)
2.2.2 E-Step
對樣本集Y=y1,y2,…,yn引入隱變量γ,將非完全數(shù)據(jù)集Y轉(zhuǎn)變?yōu)橥耆珨?shù)據(jù)集:
Z=(Y,γ)=(yi|γ1,γ2,…,γk)
(11)
當(dāng)yi由第k個高斯模型采樣得來時,γ1=0,γ2=0,…,γk-1=0,γk=1。此時完全數(shù)據(jù)集的似然函數(shù)為:
(12)
其中,θ表示高斯分布的參數(shù)。
定義對數(shù)似然函數(shù)的期望為:
Q(θ,θm)=E[lnL(θ)|Y,θm]
(13)
其中,θ表示參數(shù),θm表示已知參數(shù)估計(jì)值。
2.2.3 M-Step
最大化期望值Q(θ,θm),即找到θmax,滿足:
θmax=argmax[Q(θ,θm)]
(14)
GMM的初始化值會影響算法的效果。不良的初始化值可能使算法陷入局部最優(yōu),且增加計(jì)算時間。若初始化值在真實(shí)聚類中心附近,則能大大地降低計(jì)算速度,且避免算法得出局部最優(yōu)解。除了隨即初始化,最常見的初始化方法為K-Means初始化。
K-Means方法是一種帶參數(shù)的算法,需要預(yù)先確定K的值,即確定分成幾類。算法的流程圖如圖1所示。
圖1 K-Means算法流程
G-T2控制圖的監(jiān)控流程圖如圖2所示。監(jiān)控過程分為離線學(xué)習(xí)模型和在線監(jiān)控兩部分。
(15)
計(jì)算Ni內(nèi)數(shù)據(jù)點(diǎn)的T2值,根據(jù)每個樣本數(shù)據(jù)計(jì)算得出的T2值繪制T2控制圖,根據(jù)受控?cái)?shù)據(jù)得出的T2值設(shè)定控制限的值。
圖2 非參數(shù)控制圖監(jiān)控流程圖
在線監(jiān)控過程中,對于新的樣本數(shù)據(jù)Xn+1,使用GMM模型預(yù)測其對應(yīng)的子類Nk,使用μk和σk計(jì)算Xn+1的T2值,并判斷是否受控。
采用K-Means初始化的GMM算法需要根據(jù)指定類別個數(shù),沒有良好的先驗(yàn)知識可能導(dǎo)致效果很差。有學(xué)者提出了基于密度的聚類算法[15-16],根據(jù)概率和人們的直觀感受,聚類中心應(yīng)該有更多的數(shù)據(jù)點(diǎn)。在此基礎(chǔ)上,本文提出一種基于密度的非參數(shù)GMM初始化方法。
計(jì)算初始聚類中心采用廣度優(yōu)先的搜索,即選取某一個數(shù)據(jù)點(diǎn)Xi=[x1x2…xp]為圓心,ε為半徑得到一個超球體Ci,Ci內(nèi)包裹有其他數(shù)據(jù)點(diǎn)Xj為Ci所捕獲的點(diǎn)。每次對Ci內(nèi)所有點(diǎn)判斷完畢后,再依次向外擴(kuò)張獲取Cj,直至超球體不再包裹其他數(shù)據(jù)點(diǎn)。此時所選擇的所有點(diǎn)若大于設(shè)定的最小樣本數(shù)m,則判斷為一個類,該類中最密集的區(qū)域,即被包裹最多次的點(diǎn)為估計(jì)聚類中心。計(jì)算過程中判斷不成類的點(diǎn)則為離散點(diǎn)。
通常ε和m是根據(jù)經(jīng)驗(yàn)設(shè)定,本文使用統(tǒng)計(jì)特征中的十分位數(shù),確定ε和m的值。避免先驗(yàn)知識確定參數(shù),實(shí)現(xiàn)非參數(shù)的目的。
當(dāng)p=2時,基于密度的初始化方法的聚類中心選擇結(jié)果示意圖如圖3所示。初始化方法流程圖如圖4所示。
圖3 聚類中心選擇結(jié)果示意圖
圖4 基于密度的初始化方法流程圖
本文選用蒙特卡羅方法(Monte Carlo method)驗(yàn)證G-T2控制圖的可行性。采用Weibull分布產(chǎn)生非正態(tài)數(shù)據(jù)。Weibull的概率密度函數(shù)為:
其中,λ>0是比例參數(shù),k>0是形狀參數(shù)。
生成200組樣本測試數(shù)據(jù),每組樣本包含兩個特征參數(shù),即樣本集為:
其中,x·1服從正態(tài)分布,x·2服從Weibull分布,數(shù)據(jù)整體不服從二元正態(tài)分布。
先使用不加入擾動的數(shù)據(jù),即受控?cái)?shù)據(jù)進(jìn)行測試。由于隨機(jī)生成的測試數(shù)據(jù)服從一定的分布,所以只存在隨機(jī)因素對數(shù)據(jù)產(chǎn)生影響,即由這組數(shù)據(jù)所模擬的生產(chǎn)過程是處于統(tǒng)計(jì)受控狀態(tài)[3]。
樣本數(shù)據(jù)的直方圖如圖5所示,從圖中可以看到,x·1服從正態(tài)分布,x·2不服從正態(tài)分布。
圖5 數(shù)據(jù)直方圖
通過多次測試,發(fā)現(xiàn)混合權(quán)重系數(shù)α=0.8時為最佳。使用G-T2值繪制的控制圖與T2值繪制的控制圖進(jìn)行比對,如圖6所示,可以發(fā)現(xiàn)改進(jìn)后的T2值曲線更平滑,離散程度也更低。T2值與G-T2值的分布情況如表1所示。
圖6 T2控制圖與G-T2控制圖的比較
表1 統(tǒng)計(jì)量值分布情況
對樣本數(shù)據(jù)加入擾動,測試控制圖的靈敏性。在Xi,i>100處開始加入擾動δ,δ~N(0,1)。數(shù)據(jù)直方圖如圖7所示,控制圖如圖8所示。
圖7 數(shù)據(jù)直方圖
圖8 T2控制圖與G-T2控制圖的比較
在圖8中可以看到,相比于T2控制圖,G-T2控制圖異常值更加明顯,大約在第100個樣本處出現(xiàn)了異常值。T2控制圖整體受控值和異常值區(qū)別不大,容易造成對生產(chǎn)過程的誤判。
評價(jià)控制圖的性能常用的指標(biāo)是平均運(yùn)行鏈長(ARL),其分為受控平均鏈長ARL(0)和失控平均鏈長ARL(1)。此處使用ARL(1)對控制圖的進(jìn)行測試。
同4.2節(jié),對樣本數(shù)據(jù)加入擾動,對擾動發(fā)現(xiàn)的越早即表示控制圖的性能越好??刂葡薜闹涤墒芸貭顟B(tài)下的統(tǒng)計(jì)量最大值決定。
本節(jié)對文中所提方法進(jìn)行了1000次重復(fù)隨機(jī)試驗(yàn),計(jì)算平均值以獲取穩(wěn)定的結(jié)果。結(jié)果如表2所示。
表2 重復(fù)試驗(yàn)結(jié)果
可以從表中看到,G-T2控制圖的UCL比T2控制圖低,這表明了在受控狀態(tài)下G-T2控制圖中統(tǒng)計(jì)量值的離散程度更低,曲線更加平滑;G-T2控制圖的ARL(1)比T2控制圖低,這表明了當(dāng)出現(xiàn)失控情況時,G-T2控制圖能更快地在發(fā)現(xiàn)過程失控。
當(dāng)樣本數(shù)據(jù)不服從多元正態(tài)分布時,傳統(tǒng)基于多元正態(tài)分布的控制圖實(shí)用性不佳,針對這一缺陷,本文提出了G-T2控制圖。使用GMM方法對樣本數(shù)據(jù)進(jìn)行擬合,采取數(shù)據(jù)變換的思路,將非正態(tài)轉(zhuǎn)化為多元正態(tài)分布,并對GMM算法進(jìn)行了優(yōu)化。通過蒙特卡羅方法進(jìn)行數(shù)據(jù)仿真實(shí)驗(yàn),分別對T2控制圖和G-T2控制圖進(jìn)行性能評估。結(jié)果表明:當(dāng)過程受控時,G-T2控制圖能明顯減少由于非正態(tài)特性所導(dǎo)致的誤報(bào)現(xiàn)象,較T2控制圖有更高的監(jiān)控準(zhǔn)確率;當(dāng)過程出現(xiàn)失控時,G-T2控制圖能及時發(fā)現(xiàn)失控現(xiàn)象,較T2控制圖有更小的失控鏈長。因此,本文提出的G-T2控制圖可以在過程分布未知時,對生產(chǎn)過程依然保持良好的監(jiān)控效果。