曾 靜 李 磊 李 元
(沈陽(yáng)化工大學(xué)信息工程學(xué)院 遼寧 沈陽(yáng) 110142)
隨著現(xiàn)代工業(yè)的發(fā)展,大多工業(yè)產(chǎn)品的生產(chǎn)要經(jīng)過(guò)多道工序才能完成,因此針對(duì)多階段生產(chǎn)過(guò)程中的異常檢測(cè)也成為了研究的熱點(diǎn)。為了充分利用工業(yè)生產(chǎn)中收集的海量數(shù)據(jù),基于數(shù)據(jù)驅(qū)動(dòng)的多元統(tǒng)計(jì)監(jiān)控(Multivariate Statistical Process Monitoring,MSPM)技術(shù)已在工業(yè)過(guò)程中得到廣泛應(yīng)用[1]。
在過(guò)程故障檢測(cè)中主成分分析(PCA)、偏最小二乘(Partial Least Square, PLS)的應(yīng)用最為廣泛,但是這兩種方法中的監(jiān)控指標(biāo)T2和SPE都是在過(guò)程數(shù)據(jù)滿(mǎn)足多元高斯分布的前提下提出的,這使得PCA和PLS在對(duì)多模態(tài)故障數(shù)據(jù)進(jìn)行檢測(cè)時(shí)會(huì)出現(xiàn)很高的漏報(bào)率。另外,PCA是一種線(xiàn)性降維方法,因此其忽略了數(shù)據(jù)本身包含的非線(xiàn)性特征。針對(duì)非線(xiàn)性問(wèn)題,核主成分分析(KPCA)方法被引入到過(guò)程監(jiān)控中[2]。KPCA使用一個(gè)未知的非線(xiàn)性映射φ(·)將低維空間數(shù)據(jù)變換到高維度空間中,再進(jìn)行主成分分析[3]。與傳統(tǒng)的PCA相比,KPCA具有主成分特征明顯、貢獻(xiàn)率集中等優(yōu)點(diǎn),其性能優(yōu)于PCA[4]。由于KPCA同樣采用T2和SPE作為監(jiān)控指標(biāo),因此在處理多模態(tài)數(shù)據(jù)時(shí)依然存在不足。
對(duì)于多模態(tài)數(shù)據(jù)Ma等[5-6]提出了局部鄰域標(biāo)準(zhǔn)化(LNS)策略故障檢測(cè)方法,在使用數(shù)據(jù)進(jìn)行建模之前需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理。數(shù)據(jù)預(yù)處理方式大多使用Z-score方法,該方法將不同量綱下的數(shù)據(jù)歸一化成均值為0方差為1的數(shù)據(jù),從而避免了數(shù)據(jù)量綱的差異給故障檢測(cè)帶來(lái)影響。但是Z-score方法并沒(méi)有改變數(shù)據(jù)原來(lái)的分布特征,例如預(yù)處理之前的數(shù)據(jù)是多模態(tài)的數(shù)據(jù),那么經(jīng)過(guò)Z-score方法處理后的數(shù)據(jù)還是多模態(tài)數(shù)據(jù),而LNS方法使用樣本的局部鄰域集合的均值和標(biāo)準(zhǔn)差對(duì)樣本進(jìn)行標(biāo)準(zhǔn)化處理[7],不僅能將各個(gè)模態(tài)的數(shù)據(jù)中心平移到原點(diǎn),還能調(diào)整各階段的離散程度使之近似相同,提高了方差不同的多階段過(guò)程故障檢測(cè)能力。經(jīng)過(guò)LNS方法處理后的多模態(tài)數(shù)據(jù)變成近似服從單一的多元高斯分布的單模態(tài)數(shù)據(jù)。
針對(duì)過(guò)程監(jiān)控中數(shù)據(jù)的多模態(tài)和非線(xiàn)性問(wèn)題,本文提出一種使用局部鄰域標(biāo)準(zhǔn)化和KPCA相結(jié)合的故障檢測(cè)(LNS-KPCA)方法。首先使用樣本局部鄰域集合的均值和標(biāo)準(zhǔn)差對(duì)樣本進(jìn)行標(biāo)準(zhǔn)化,使各個(gè)模態(tài)的數(shù)據(jù)中心平移到原點(diǎn),從而消除數(shù)據(jù)的多模態(tài)特征,利用KPCA對(duì)標(biāo)準(zhǔn)化后的數(shù)據(jù)進(jìn)行建模和故障檢測(cè)。LNS-KPCA可以將多模態(tài)數(shù)據(jù)融合為單模態(tài)數(shù)據(jù),還繼承了KPCA處理非線(xiàn)性數(shù)據(jù)的能力,可以有效地對(duì)多模態(tài)和非線(xiàn)性過(guò)程進(jìn)行監(jiān)控。
設(shè)采集到l個(gè)樣本每個(gè)樣本有N個(gè)觀測(cè)變量,則得到的數(shù)據(jù)集可表示為X={x1,x2,…,xl},xk∈RN,通過(guò)非線(xiàn)性映射函數(shù)φ(·)將原始數(shù)據(jù)集X映射到高維特征空間G中,則G中的樣本可記為φ(xk),φ(xk)的協(xié)方差矩陣C為:
(1)
C的特征值λ和特征向量V表示為:
λV=CV
(2)
對(duì)應(yīng)的特征向量V可由G空間中的樣本映射形成:
(3)
式中:φ(X)=[φ(x1)φ(x2) …φ(xl);];α=[α1α2…αl]T。
此處引入核函數(shù):
Kij=K(xi,xj)=〈φ(xi),φ(xj)〉i,j=1,2,…,l
(4)
問(wèn)題從求取高維空間中協(xié)方差矩陣的特征值和特征向量轉(zhuǎn)變成了求核矩陣的特征值和特征向量,即:
lλKα=KKα?lλα=Kα
(5)
歸一化特征向量V,則樣本φ(xk)在V上的映射為:
(6)
(7)
E越大則前m個(gè)較大的特征值對(duì)應(yīng)的特征向量組成的矩陣就越能擬合原始空間數(shù)據(jù)。
(8)
T2統(tǒng)計(jì)量為主元得分,表示為:
T2=[p1,p2,…,pm]Λ-1[p1,p2,…,pm]T
(9)
式中:Λ-1是對(duì)應(yīng)特征值λk的倒數(shù)。T2的控制限為:
(10)
Q統(tǒng)計(jì)量定義為:
(11)
控制限可由式(12)求得:
(12)
式中:g和h是訓(xùn)練樣本的SPE指標(biāo)的均值和方差;α為置信度。
KPCA相對(duì)于PCA在發(fā)掘數(shù)據(jù)的非線(xiàn)性特征方面有其獨(dú)到的優(yōu)勢(shì),但是KPCA使用的故障檢測(cè)指標(biāo)T2和SPE都是在數(shù)據(jù)滿(mǎn)足單一高斯分布的前提下提出的,而實(shí)際的工業(yè)過(guò)程生產(chǎn)大多是多工況、多階段的生產(chǎn)方式,因此數(shù)據(jù)大多是多模態(tài)分布的,并不滿(mǎn)足單一高斯分布假設(shè)。針對(duì)KPCA在處理多模態(tài)數(shù)據(jù)上的短板,本文利用了LNS方法來(lái)融合多模態(tài)數(shù)據(jù),使其近似服從多元高斯分布。
在使用數(shù)據(jù)進(jìn)行建模前都要進(jìn)行數(shù)據(jù)的預(yù)處理,目的是消除不同測(cè)量變量之間量綱的差異給后續(xù)的故障診斷帶來(lái)干擾。LNS方法首先在原始數(shù)據(jù)集X中尋找每個(gè)樣本Xi的前K個(gè)鄰域集合n(Xi),然后計(jì)算該鄰域集合的均值mean(n(Xi))和標(biāo)準(zhǔn)差std(n(Xi)),最后利用式(13)對(duì)Xi進(jìn)行規(guī)范化處理。
(13)
經(jīng)過(guò)上述步驟的數(shù)據(jù)預(yù)處理后,使得不同模態(tài)數(shù)據(jù)的中心被平移到原點(diǎn),消除了數(shù)據(jù)的多模態(tài)特征,彌補(bǔ)了KPCA在處理多模態(tài)數(shù)據(jù)方面的不足,為后續(xù)的研究奠定了良好的基礎(chǔ)。
(1) 采集正常工況數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)集X。
(2) 在訓(xùn)練集X中尋找每個(gè)樣本的前K個(gè)鄰域集合n(Xi),利用式(13)對(duì)該樣本進(jìn)行標(biāo)準(zhǔn)化處理。
(3) 利用式(3)-式(6)求出原始數(shù)據(jù)在高維特征空間中特征值特征向量,應(yīng)用式(7)確定主元個(gè)數(shù)。
(4) 利用式(9)和式(11)計(jì)算T2和SPE統(tǒng)計(jì)量。
(1) 將生產(chǎn)過(guò)程中測(cè)得的數(shù)據(jù)作為待檢測(cè)樣本,在訓(xùn)練集X中尋找該樣本的前K個(gè)鄰域集合n(Xi)。
(2) 利用式(13)對(duì)該樣本進(jìn)行標(biāo)準(zhǔn)化處理。
(3) 根據(jù)式(9)和式(11)計(jì)算T2和SPE統(tǒng)計(jì)量。
該非線(xiàn)性數(shù)值例子是由s1和s2構(gòu)成的七變量數(shù)據(jù)組成[10],表示為:
(14)
式中:e1-e7為服從N(0,0.01)的噪聲;s1是-10到-7之間的隨機(jī)數(shù),本例中s2取兩種正態(tài)分布的數(shù)值,以產(chǎn)生兩種模態(tài)數(shù)據(jù)。
Modal1s2:N(-15,2)
Modal2s2:N(5,0.5)
針對(duì)上述兩種模態(tài),分別生成500個(gè)樣本,共計(jì)1 000個(gè)樣本組成訓(xùn)練數(shù)據(jù)集。測(cè)試數(shù)據(jù)集共包括500個(gè)樣本,設(shè)計(jì)故障情況如下:故障1按照模態(tài)1來(lái)運(yùn)行,從第251個(gè)樣本開(kāi)始在變量x1上引入幅值為0.6的階躍故障。故障2按照模態(tài)2來(lái)運(yùn)行,從第251個(gè)樣本開(kāi)始在變量x7上引入幅值為0.04(k-250)的斜坡故障,其中k為采樣時(shí)刻數(shù)。
針對(duì)上述故障分別使用KNN、PCA、KPCA和LNS-KPCA對(duì)其進(jìn)行故障檢測(cè)。通過(guò)尋優(yōu)測(cè)試確定KNN方法中K取30,根據(jù)累計(jì)貢獻(xiàn)率法,PCA、KPCA方法中主元個(gè)數(shù)取2,LNS-KPCA方法中K取30,主元個(gè)數(shù)取3,其中KPCA和LNS-KPCA均采用高斯徑向核函數(shù),核參數(shù)均為700,均采用95%的控制限對(duì)故障進(jìn)行監(jiān)控。
四種方法的檢測(cè)結(jié)果如圖1-圖4所示。從圖1的D2統(tǒng)計(jì)量可以明顯看出數(shù)據(jù)分為兩個(gè)模態(tài),且前一個(gè)模態(tài)在計(jì)算統(tǒng)計(jì)控制限時(shí)占主導(dǎo)作用,對(duì)故障的檢測(cè)效果很不理想。由于PCA、KPCA均采用T2和SPE作為監(jiān)控指標(biāo),對(duì)于本例中的多模態(tài)數(shù)據(jù),并不滿(mǎn)足數(shù)據(jù)單一分布的假設(shè),從圖2和圖3中可以看出兩種方法的檢測(cè)效果也并不理想。為了彌補(bǔ)KPCA在這一方面的不足,本文利用LNS能夠消除數(shù)據(jù)的多模態(tài)特征這一優(yōu)點(diǎn)。從圖4可以看出將其與KPCA相結(jié)合后檢測(cè)效果得到了大幅度提高,為了使數(shù)據(jù)可視化取訓(xùn)練數(shù)據(jù)和故障數(shù)據(jù)的前三個(gè)變量進(jìn)行作圖。從圖5可以看出,針對(duì)本例中的多模態(tài)數(shù)據(jù),經(jīng)過(guò)LNS處理后數(shù)據(jù)從多模態(tài)數(shù)據(jù)變成了單模態(tài)的數(shù)據(jù),為KPCA處理多模態(tài)、非線(xiàn)性數(shù)據(jù)奠定了良好的基礎(chǔ)。
青霉素發(fā)酵過(guò)程是一個(gè)典型的非線(xiàn)性過(guò)程。青霉菌可分為兩個(gè)階段:(1) 青霉菌適應(yīng)生長(zhǎng)繁殖階段,經(jīng)過(guò)短時(shí)間的適應(yīng)后開(kāi)始迅速生長(zhǎng)繁殖,并快速消耗葡萄糖引物;(2) 青霉菌合成青霉素階段[11-12]。因此青霉素發(fā)酵過(guò)程數(shù)據(jù)也是呈現(xiàn)多模態(tài)的特征。本文使用PenSim2.0仿真生成青霉素發(fā)酵過(guò)程數(shù)據(jù),可在攪拌功率、通風(fēng)率和底物流加速率上人為引入階躍和斜坡兩種故障,并且可以進(jìn)一步設(shè)置引入故障的幅值和起止時(shí)間[13]。PenSim2.0平臺(tái)產(chǎn)生的數(shù)據(jù)共有17個(gè)監(jiān)控變量,詳情見(jiàn)表1。
表1 青霉素發(fā)酵過(guò)程變量名稱(chēng)
與數(shù)值仿真相同,同樣采用KNN、PCA、KPCA和LNS-KPCA四種方法對(duì)故障進(jìn)行檢測(cè),并進(jìn)行對(duì)比分析。通過(guò)尋優(yōu)測(cè)試確定KNN中K取3,由累計(jì)貢獻(xiàn)率法確定PCA中主元個(gè)數(shù)取4,KPCA中主元個(gè)數(shù)取11,核參數(shù)取700,LNS-KPCA中K取6,主元個(gè)數(shù)12,核參數(shù)同樣取700。以上實(shí)驗(yàn)統(tǒng)一采用95%控制限。
對(duì)于工業(yè)過(guò)程數(shù)據(jù)的多模態(tài)和非線(xiàn)性,本文將局部鄰域標(biāo)準(zhǔn)化與KPCA相結(jié)合。傳統(tǒng)的Z-score方法在處理多模態(tài)數(shù)據(jù)時(shí)由于使用的全局均值和標(biāo)準(zhǔn)差,忽略了數(shù)據(jù)的多模態(tài)特性。而LNS方法利用樣本點(diǎn)的局部鄰域集合的均值和標(biāo)準(zhǔn)差對(duì)樣本進(jìn)行標(biāo)準(zhǔn)化,能使各個(gè)模態(tài)的中心點(diǎn)向原點(diǎn)靠攏,從而消除數(shù)據(jù)的多模態(tài)特征。與KPCA相結(jié)合可以發(fā)掘出隱藏的非線(xiàn)性信息,將之應(yīng)用于青霉素的發(fā)酵過(guò)程,結(jié)果驗(yàn)證了該方法的有效性。