賈蓓蓓
(燕山大學(xué) 理學(xué)院,河北 秦皇島 066004)
隨著科學(xué)技術(shù)的進(jìn)步,勞動(dòng)生產(chǎn)力日益提升,商品市場(chǎng)處于供求平衡或是需求較小的市場(chǎng)飽和狀態(tài),質(zhì)量成為贏得市場(chǎng)的關(guān)鍵因素。質(zhì)量管理貫穿產(chǎn)品生產(chǎn)的整個(gè)環(huán)節(jié),從設(shè)計(jì)、生產(chǎn)到銷售,每一個(gè)環(huán)節(jié)的產(chǎn)品質(zhì)量管理都不可或缺,對(duì)產(chǎn)品生產(chǎn)的全過程進(jìn)行監(jiān)控管理就顯得尤為重要[1]。統(tǒng)計(jì)過程控制(Statistical Process Control,SPC)便是用來監(jiān)控這些波動(dòng),保證波動(dòng)處于穩(wěn)定狀態(tài)或是在可以控制的范圍內(nèi)的一種方法[2]。
控制圖是SPC技術(shù)進(jìn)行產(chǎn)品質(zhì)量監(jiān)控的主要工具。20世紀(jì)40年代,Hotelling提出了控制圖,用于解決多元統(tǒng)計(jì)過程問題。該控制圖通過當(dāng)前觀測(cè)點(diǎn),對(duì)多變量進(jìn)行監(jiān)控,由于僅利用了當(dāng)前信息,歷史數(shù)據(jù)價(jià)值損失巨大,對(duì)波動(dòng)較小的過程監(jiān)控極為困難。針對(duì)此缺陷,多元累積和控制圖(MCUSUM)與多元指數(shù)加權(quán)移動(dòng)平均控制圖(MEWMA)應(yīng)運(yùn)而生[3]。這些控制圖以監(jiān)控?cái)?shù)據(jù)服從多元獨(dú)立正態(tài)分布為基本假設(shè),但是在生產(chǎn)過程實(shí)際應(yīng)用中,通常無法判定數(shù)據(jù)所服從的分布類型,并且很難做到變量間相互獨(dú)立,使得控制圖監(jiān)控不準(zhǔn)確,造成一定的局限性。
隨著大數(shù)據(jù)時(shí)代的到來,數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)技術(shù)飛速發(fā)展,機(jī)器學(xué)習(xí)算法被更多人接受并應(yīng)用于各大領(lǐng)域[4]。因此,開始將機(jī)器學(xué)習(xí)的方法與控制圖理論相結(jié)合,用來解決控制圖由于統(tǒng)計(jì)原理不完善、數(shù)據(jù)分布不確定、參數(shù)多元帶來的限制問題[5]。支持向量數(shù)據(jù)描述(SVDD)是基于統(tǒng)計(jì)學(xué)理論的新興機(jī)器學(xué)習(xí)方法,適用于高維度、小樣本、對(duì)樣本分布要求不高的數(shù)據(jù),剛好彌補(bǔ)了控制圖缺陷,應(yīng)用價(jià)值極高。因此,將SVDD模型引進(jìn)MEWMA控制圖,具有極高的研究價(jià)值。
MEWMA控制圖不僅利用了當(dāng)前信息與歷史信息,而且將時(shí)間序列應(yīng)用于控制圖模型中,對(duì)統(tǒng)計(jì)過程中的小偏移波動(dòng)反應(yīng)敏感,具有良好的監(jiān)控性能。
假設(shè)觀測(cè)值 X=[x1,x2,x3,…,xp]′服從均值向量為u0,協(xié)方差矩陣為∑的p元正態(tài)分布N(u0,∑)。定義一個(gè)統(tǒng)計(jì)量:
其中,Zi為第i個(gè)樣本觀測(cè)值與之前i-1個(gè)樣本觀測(cè)值的加權(quán)值,Zi的初始值為Z0。R代表各質(zhì)量特征值的權(quán)重,R=diag(r1,r2,…,rp),0≤rj≤1,j=1,2,…,p。I為p階單位矩陣。根據(jù)統(tǒng)計(jì)量Zi,MEWMA控制圖的統(tǒng)計(jì)量為:
其中,∑Zi是統(tǒng)計(jì)量Zi的協(xié)方差矩陣,如果權(quán)重相同,協(xié)方差矩陣可簡化為:
對(duì)于MEWMA控制圖的控制限,通常通過平均運(yùn)行鏈長(ARL)計(jì)算獲得,當(dāng)權(quán)重系數(shù)取不同的值,控制限的取值也不同。當(dāng)控制圖統(tǒng)計(jì)量超過控制限范圍,控制圖報(bào)警。
支持向量數(shù)據(jù)描述(SVDD)理論是通過將特定的訓(xùn)練集映射到高維空間獲得超球體,并使超球體盡可能多的將同類數(shù)據(jù)包含其中,將不同類數(shù)據(jù)排除在外的分類方法[6]。因此,該方法也避免了無法獲取異常樣本的問題,減少了過擬合。
比如,有N個(gè)訓(xùn)練集,給定訓(xùn)練集T={xi∈Rd,i=1,…,N},其中xi是一個(gè)d維向量。支持向量數(shù)據(jù)描述的目的就是企圖用一個(gè)球心為α,半徑為R,R>0的超球體盡可能多地將目標(biāo)數(shù)據(jù)集包含其中。若要滿足球體最小,可以通過最小化獲得最優(yōu)解,公式表示為:
其中,ξi代表松弛變量,C為懲罰因子。
在最小化問題中,所有的目標(biāo)數(shù)據(jù)需要包含在超球體中,即每個(gè)目標(biāo)數(shù)據(jù)到超球體球心的距離小于超球體半徑,條件公式表示為:
對(duì)于以上求解最優(yōu)化,一般引進(jìn)拉格朗日乘子進(jìn)行計(jì)算,有公式:
αi,γi≥0為拉格朗日因子。拉格朗日函數(shù)對(duì)各參數(shù)求導(dǎo),使求導(dǎo)結(jié)果為0。
圖1 支持向量數(shù)據(jù)描述的數(shù)據(jù)描述過程
將以上求解結(jié)果帶入拉格朗日方程并轉(zhuǎn)化為對(duì)偶問題,有:
針對(duì)以上對(duì)偶問題進(jìn)行求解,假設(shè)α*為最優(yōu)解集,α*不為0時(shí)對(duì)應(yīng)點(diǎn)Xi的就為分類器邊界的支持向量。設(shè)R2為超球體半徑,定義為支持向量到球心的距離,公式為:
當(dāng)存在一個(gè)點(diǎn)c,判斷c點(diǎn)是否數(shù)據(jù)目標(biāo)集,就看c點(diǎn)到超球體球心的距離是否在半徑內(nèi),如果在就屬于目標(biāo)集,不在便可歸類于異常數(shù)據(jù)。點(diǎn)c到球心的距離表示為:
當(dāng)數(shù)據(jù)點(diǎn)到球心的距離小于等于半徑時(shí),認(rèn)為該數(shù)據(jù)點(diǎn)屬于目標(biāo)集,否則認(rèn)為是異常點(diǎn)。
實(shí)際操作中,數(shù)據(jù)并非如此理想化,有些數(shù)據(jù)并不是線性可分的,為了提高支持向量數(shù)據(jù)描述的泛化能力,提高靈活性,引入核函數(shù)這一概念。當(dāng)原始數(shù)據(jù)集不線性可分時(shí),那么通過核函數(shù)將線性不可分的數(shù)據(jù)集映射到高維空間,轉(zhuǎn)化為高維空間線性可分的問題。研究證明,函數(shù)只要滿足Mercer定理,該函數(shù)便可作為核函數(shù)。用核函數(shù)代替內(nèi)積,問題轉(zhuǎn)變?yōu)椋?/p>
相應(yīng)的,超球體半徑和數(shù)據(jù)c到球心的距離分別轉(zhuǎn)變?yōu)椋?/p>
產(chǎn)品生產(chǎn)過程受控狀態(tài)下,有一組觀測(cè)值為Y(y1,y2,…,ym),作為訓(xùn)練數(shù)據(jù),用支持向量數(shù)據(jù)描述算法對(duì)訓(xùn)練樣本進(jìn)行學(xué)習(xí),得到一個(gè)球心為a,半徑為R2的超球體。一組新的觀察值 X(x1,x2,…,xn),數(shù)據(jù)到超球體球心距離為,基于支持向量數(shù)據(jù)描述的MEWMA控制圖設(shè)計(jì)如下:
其中,Xk為第k個(gè)觀測(cè)值,初始值為Z0,權(quán)重為λ,0≤λ≤1。控制限為h,當(dāng)產(chǎn)品生產(chǎn)過程受控時(shí),平均運(yùn)行鏈長(ARL)決定了控制限h的值。當(dāng)基于支持向量數(shù)據(jù)描述的MEWMA控制圖統(tǒng)計(jì)量Zk>h時(shí),控制圖報(bào)警。
本文將通過仿真實(shí)驗(yàn),將S-MEWMA控制圖MEWMA控制圖進(jìn)行對(duì)比,驗(yàn)證S-MEWMA控制圖在多元非獨(dú)立情況下的性能。利用平均運(yùn)行鏈長作為控制圖的評(píng)價(jià)標(biāo)準(zhǔn),當(dāng)控制圖在控平均運(yùn)行鏈長ARL0一定時(shí),監(jiān)控過程發(fā)生不同程度的偏移,對(duì)比失控平均運(yùn)行鏈長ARL1,具有較小ARL1的控制圖性能較好。
表1 S-MEWMA控制圖與MEWMA控制圖控制限h
S-MEWMA控制圖與MEWMA控制圖在不同偏移量下的ARL1結(jié)果見表2:
表2 S-MEWMA控制圖與MEWMA控制圖ARL1
通過萬次仿真實(shí)驗(yàn)得出的實(shí)驗(yàn)結(jié)果可知,當(dāng)φ<2時(shí),S-MEWMA控制圖三維正態(tài)分布下的ARL1要低于二維正態(tài)分布的ARL1;當(dāng)φ>2.5時(shí),三維S-MEWMA控制圖與二維S-MEWMA性能基本相同。說明發(fā)生偏移越小時(shí),支持向量數(shù)據(jù)描述對(duì)更高維控制圖的作用越明顯,優(yōu)越性越顯著;當(dāng)偏移程度增大時(shí),支持向量數(shù)據(jù)描述對(duì)更高維控制圖優(yōu)勢(shì)減弱。但是對(duì)于MEWMA控制圖,二維控制圖ARL1稍微低于三維控制圖ARL1,性能相差不大。無論是二維或是三維,相同維度下,S-MEWMA控制圖ARL1明顯低于MEWMA控制圖ARL1,S-MEWMA控制圖性能優(yōu)于MEWMA控制圖,也驗(yàn)證了支持向量數(shù)據(jù)描述算法比控制圖的優(yōu)勢(shì)大。
基于二維正態(tài)分布,通過構(gòu)造不同的相關(guān)系數(shù),驗(yàn)證基于支持向量數(shù)據(jù)描述算法的MEWMA控制圖的性能。二維正態(tài)分布中,S-MEWMA控制圖與MEWMA控制圖的ARL0仍然設(shè)為200,參數(shù)f、s值仍然為0.025、1.5,控制圖控制限h,失控狀態(tài)下平均運(yùn)行鏈長ARL1同上節(jié)。
表3 S-MEWMA與MEWMA控制圖的控制限
S-MEWMA控制圖與MEWMA控制圖在不同偏移量、不同、不同的結(jié)果見表4:
表4 二維正態(tài)分布下不同相關(guān)系數(shù)ARL1值
實(shí)驗(yàn)結(jié)果表明,對(duì)于S-MEWMA控制圖,變量間相關(guān)系數(shù)的變化并不會(huì)對(duì)ARL1產(chǎn)生較大的影響,但是對(duì)MEWMA控制圖來講,當(dāng)變量間相關(guān)系數(shù)逐漸增大時(shí),控制圖性能不穩(wěn)定性增加,因此,當(dāng)數(shù)據(jù)變量間非獨(dú)立時(shí),S-MEWMA控制圖表現(xiàn)出了更好的性能。
本文通過仿真模擬方法,將S-MEWMA控制圖和MEWMA控制圖進(jìn)行對(duì)比,探究S-MEWMA控制圖在服從非獨(dú)立二維正態(tài)分布及三維正態(tài)分布的情況下的性能。利用平均運(yùn)行鏈長作為控制圖的評(píng)價(jià)標(biāo)準(zhǔn),當(dāng)控制圖在控平均運(yùn)行鏈長一定時(shí),監(jiān)控過程發(fā)生不同程度的偏移,對(duì)比失控平均運(yùn)行鏈長,具有較小鏈長的控制圖性能較好。實(shí)驗(yàn)結(jié)果表明,S-MEWMA控制圖在數(shù)據(jù)服從非獨(dú)立二維正態(tài)分布及三維正態(tài)分布的情況下,相較MEWMA控制圖具有更好的性能。