李 元 張軼男
(沈陽化工大學信息工程學院 遼寧 沈陽 110142)
生產(chǎn)過程的實時監(jiān)控是提高工業(yè)設備生產(chǎn)效率、確保工業(yè)過程長期穩(wěn)定運行的必要解決方案[1]。目前基于模型、專家系統(tǒng)和數(shù)據(jù)驅動的方法是學術界常用的幾種過程監(jiān)控方法[2]。其中:基于模型的方法需要獲得精確的系統(tǒng)模型;基于專家系統(tǒng)的方法需要利用豐富的經(jīng)驗知識;基于數(shù)據(jù)驅動的方法僅需要獲得由歷史數(shù)據(jù)構建的模型即可進行故障檢測。因此基于數(shù)據(jù)驅動的多模態(tài)監(jiān)控技術已在工業(yè)領域引起了研究人員的廣泛關注[3-4]。
主元分析法為應用廣泛的故障檢測方法之一,主要通過將原始數(shù)據(jù)投影到正交子空間中實現(xiàn)降維,以達到對高維特征數(shù)據(jù)預處理的目的。而變量間的相關關系可以解釋為特征空間中信息的重疊,PCA通過減少主成分數(shù)量降低變量間的相關程度,從而盡可能多地保留原始變量的主要信息[5-6]。由于PCA通常用于處理單模態(tài)的過程數(shù)據(jù),但是在多模態(tài)的工業(yè)過程中,PCA對數(shù)據(jù)的全局建模處理會導致過程數(shù)據(jù)中的重要信息丟失。因此在多模態(tài)的過程中,PCA不能表現(xiàn)其特有優(yōu)勢[7]。此外,PCA處理過程數(shù)據(jù)時需要數(shù)據(jù)滿足線性假設,因此PCA在非線性工業(yè)過程中的應用同樣有所受限[8]。針對非線性問題,核主元分析方法(Kernel Principal Component Analysis,KPCA)被引入到過程故障檢測中,KPCA通過引入核函數(shù),將非線性低維數(shù)據(jù)映射到高維空間中,使高維空間數(shù)據(jù)存在線性關系,然后再使用PCA在特征空間中進行監(jiān)控。當樣本容量過大時,核映射使KPCA的計算量增加且核函數(shù)的參數(shù)不易選取[9-12]。除此之外,Zhang等[13]提出了基于主多項式分析(Principal Polynomial Analysis,PPA)的故障檢測方法。PPA是PCA的一種非線性擴展,通過構造一組靈活的主多項式分量來描述過程數(shù)據(jù)的非線性結構,從而達到消除非線性特征的目的[14-15]。由于PPA與KPCA仍然使用T2和SPE為統(tǒng)計量進行過程故障檢測,因此對于多模態(tài)過程的故障檢測PPA與KPCA的檢測效果仍然具有局限性。
針對多模態(tài)問題,He等[16]提出了基于K近鄰的故障檢測(Fault Detection based on K Nearest Neighbors,F(xiàn)D-KNN)方法。FD-KNN方法主要通過檢索計算每個樣本與其K最近鄰之間的距離分布狀況,來判斷樣本數(shù)據(jù)是否為故障樣本,從而降低數(shù)據(jù)非線性與多模態(tài)特征對故障檢測的影響。該方法對于大尺度故障具有良好的檢測能力,但FD-KNN存在計算量大的缺陷[17-18]。Ma等[19]提出了一種局部近鄰標準化(Local Neighborhood Standardization,LNS)方法。通過搜索每個樣本間的K最近鄰集,使樣本在經(jīng)過近鄰集的標準化處理后消除了數(shù)據(jù)中的多模態(tài)結構,但當故障來自多個模態(tài)之間時,故障樣本的近鄰集會出現(xiàn)跨越多個模態(tài)的情況,難以實現(xiàn)故障樣本與正常樣本的分離與檢測[20-21]。針對上述LNS的問題,馮立偉等[22]提出雙局部近鄰標準化(Double Local Neighborhood Standardization,DLNS)方法。該方法在每個樣本近鄰集的基礎上再次構建其近鄰,使樣本在經(jīng)過近鄰集的標準化處理后達到消除樣本數(shù)據(jù)的多模態(tài)特征的目的。當故障樣本位于多個模態(tài)之間時,對數(shù)據(jù)尋找雙層局部近鄰集且經(jīng)過標準化處理后,故障樣本能有效地偏離正常樣本的范圍,避免了近鄰集同時存在于多個模態(tài)的缺點。
復雜的實際工業(yè)過程中往往同時具有非線性與多模態(tài)特征,因此針對包含非線性與多模態(tài)特征的工業(yè)過程故障檢測問題,本文提出一種將雙局部近鄰標準化與主多項式分析相結合的DLNS-PPA故障檢測方法。首先搜索多模態(tài)數(shù)據(jù)的雙層局部近鄰集,然后利用近鄰集信息對樣本進行標準化處理,最后通過PPA進行故障檢測。DLNS-PPA方法不僅具有DLNS處理多模態(tài)數(shù)據(jù)的能力,而且還能通過PPA有效消除非線性結構,從而可以有效地提升多模態(tài)工業(yè)過程的故障檢測率。
主多項式分析(PPA)是PCA的一種非線性擴展,通過使用多項式函數(shù)擬合數(shù)據(jù)各維度間的非線性特征,使用曲線分量對過程數(shù)據(jù)的最大方差方向進行建模。在PPA離線建模階段,假設訓練樣本X∈Rd×N為d個測量變量和N個訓練樣本,PPA對原始數(shù)據(jù)X的分解如下:
(1)
(2)
主多項式參數(shù)如下:
(3)
Vp=[vp,1,vp,2,…,vp,N]
(4)
(5)
式中:?表示偽逆操作。
在線故障檢測階段中,PPA使用統(tǒng)計量T2和SPE監(jiān)測主多項式子空間(Principal Polynomial Components,PPCs)和殘差子空間的對應變化。獲得觀測數(shù)據(jù)xnew∈Rd時,利用訓練集樣本可將其投影到相應的PPC成分子空間和殘差空間上。根據(jù)式(1)和式(2),可以得到第p步的主多項式得分anew為:
(6)
(7)
(8)
式中:ΛPPA∈Rρ×ρ為對稱矩陣其對角元素為主多項式成分的方差。PPA的SPE統(tǒng)計量如下:
(9)
(10)
(11)
(12)
式中:T2和SPE分別服從F分布和χ2分布,F(xiàn)分布的自由度為r和N-r,χ2分布的自由度為h;將訓練數(shù)據(jù)SPE統(tǒng)計量的均值和方差記為a和b;α為置信水平[13]。
由于復雜的工業(yè)過程數(shù)據(jù)具有多模態(tài)特征,同時傳統(tǒng)的T2和SPE統(tǒng)計量要求過程數(shù)據(jù)服從單一模態(tài)高斯分布,因此在多模態(tài)工業(yè)過程中PPA的檢測性能有所降低。
傳統(tǒng)的LNS雖然能降低多模態(tài)數(shù)據(jù)中心漂移對后續(xù)故障檢測帶來的影響,但當近鄰集中數(shù)據(jù)同時位于多個模態(tài)之間時,其近鄰集方差變化顯著,同時導致經(jīng)過LNS處理后故障樣本會混入正常樣本集中,無法有效將故障樣本與正常樣本分離出來。所以對樣本進行標準化時,為了避免其近鄰集的樣本來自不同模態(tài),基于雙局部近鄰標準化的方法被提出。
假設原始數(shù)據(jù)為X,DLNS首先對每個樣本xi構建前k近鄰集N(xi):
(13)
(14)
利用式(15)對樣本進行標準化處理:
(15)
DLNS-PPA方法的具體計算過程如下。
離線建模:
(1) 獲得正常的訓練樣本集X。
(4) 對獲得的新訓練集數(shù)據(jù)進行構造PPA模型,得到主多項式分量和殘差分量。
(5) 計算主多項式分量和殘差分量的統(tǒng)計量T2和SPE。
(6) 根據(jù)統(tǒng)計量T2和SPE的分布式確定控制限CLT2和CLSPE。
在線檢測:
(1) 獲取測試樣本集Xnew。
(4) 將T2和SPE分別與各自的控制限CLT2和CLSPE比較,若有任一個統(tǒng)計量超過對應控制限,則可以將樣本x判斷為故障樣本,反之則為正常樣本。
DLNS-PPA故障檢測步驟如圖1所示。
圖1 DLNS-PPA故障檢測步驟
本文使用了文獻[23]中提出的數(shù)值仿真過程,用以說明該方法在多模態(tài)與非線性過程中特征提取與故障檢測方面的有效性,該非線性過程如下:
(16)
(17)
(18)
式中:e1-e5為服從[0,0.01]正態(tài)分布的高斯噪聲;s1、s2為系統(tǒng)的主要控制變量,通過改變s1和s2對系統(tǒng)的調節(jié)方式,產(chǎn)生多模態(tài)數(shù)值例子。利用上述模型在每個模態(tài)中生成200個正常數(shù)據(jù)用來構建訓練樣本,并在不同模態(tài)下分別引入不同的故障樣本。在模態(tài)1中,變量x2從樣本101到樣本200之間添加0.2(i-100)的斜坡故障。在模態(tài)2中,變量x5從樣本101到樣本200之間添加一個振幅為25%的階躍故障。
首先,應用傳統(tǒng)的PCA在數(shù)值過程中進行故障檢測,根據(jù)85%的累計貢獻率來確定PCA的主元個數(shù)為2。然后采用99%的控制限對檢測過程進行監(jiān)控,檢測結果如圖2(a)所示。圖3所示為PCA方法中前兩個模態(tài)的主元散點分布圖,可以明顯看出多模態(tài)特征包含在PCA的主元空間中,具有多模態(tài)特征的過程數(shù)據(jù)存在方差和均值差異較大的缺陷,因此PCA方法的檢測率較低。
(a) PCA
(b) PPA
(c) DLNS-PPA圖2 三種方法對數(shù)值例子的檢測結果
圖3 多模態(tài)散點圖
接下來使用PPA方法在本數(shù)值過程中進行故障檢測,由交叉驗證獲得主多項式個數(shù)為2,采用99%的控制限對檢測過程進行監(jiān)控,檢測結果如圖2(b)所示。雖然PPA方法是一種能有效解決非線性問題的方法,但PPA的T2與SPE統(tǒng)計量的檢測方式與PCA類似,所以受多模態(tài)數(shù)據(jù)特征的影響,PPA方法的檢測率也相對較低。
最后用本文方法在本數(shù)值過程中進行故障檢測,同樣通過交叉驗證獲得主多項式個數(shù)為2,首先使用DLNS方法處理本數(shù)值例子中的數(shù)據(jù),其中:k選為10;K選為9。然后采用99%的控制限對檢測過程進行監(jiān)控,檢測結果如圖2(c)所示。DLNS-PPA方法的檢測率明顯高于其他的對比方法,由圖4可知,經(jīng)過DLNS-PPA方法處理后,兩個模態(tài)的數(shù)據(jù)融合為單一模態(tài)的數(shù)據(jù),由于DLNS方法可以消除數(shù)據(jù)的多中心結構和方差差異較大的影響,能有效避免近鄰集中的樣本所屬模態(tài)不同的問題,因此DLNS-PPA方法具有較高的故障檢測率。三種方法的檢測結果如表1所示,可以看出,DLNS-PPA方法T2與SPE的檢測率明顯提高。
圖4 樣本散點圖
表1 數(shù)值例子檢測率(%)
本文所應用的TE數(shù)據(jù)來源于依斯曼化學品公司創(chuàng)建的田納西-伊斯曼生產(chǎn)過程。TE數(shù)據(jù)基于實際工業(yè)過程,因此被廣泛應用于傳統(tǒng)數(shù)據(jù)驅動的建模及過程監(jiān)控等研究中。TE過程主要包括反應器、冷凝器、汽液分離器、循環(huán)壓縮機和產(chǎn)品汽提器這5個主要的操作單元。TE過程中總共有12個操作變量與41個監(jiān)測變量。為了模擬正常的過程變化,在仿真過程中引入了21種故障[24]。
下面使用本文所提出的DLNS-PPA方法對TE過程中的21個故障進行檢測研究。其中PCA的主元個數(shù)由85%的累計貢獻率獲得,據(jù)此所求得的PCA主元個數(shù)為28;通過交叉驗證確定PPA的主多項式空間設為2,冪值設為2;DLNS-PPA方法的主多項式空間和主多項式參數(shù)與PPA方法的參數(shù)相同,所規(guī)定的近鄰集k個數(shù)為150,第二層近鄰集個數(shù)K為100。監(jiān)測統(tǒng)計量的控制限設置為99%,表2中包含了基于PCA、PPA和DLNS-PPA方法對TE過程中的21種故障的檢測結果,最高的故障檢測率用粗體顯示。由于基于DLNS-PPA的統(tǒng)計量變化要比基于PCA和基于PPA的統(tǒng)計量變化更加顯著,因此基于DLNS-PPA的檢測方法對故障更加敏感。從表2中可以明顯得知,與其他監(jiān)控統(tǒng)計數(shù)據(jù)相比,本文所提出的DLNS-PPA方法提供了多模態(tài)TE過程中大部分故障的最佳監(jiān)控效果。
表2 三種方法的檢測率匯總表
續(xù)表2
可以看出,PCA和PPA對故障10和故障19均具有較低的檢測率,本節(jié)將DLNS-PPA對故障10與故障19進行檢測,并與PCA及PPA方法進行對比,可以發(fā)現(xiàn)本文方法對故障10及故障19有良好的檢測性。對于故障10而言,基于PCA和PPA不同故障檢測方法的檢測率低于50%,而本文方法的檢測率可達90%。在1 922個樣本中,采樣數(shù)從0到961和從962到1 922分別為兩個模態(tài)的采樣數(shù)據(jù),由于PCA和PPA方法更適合用于描述單模態(tài)的工業(yè)數(shù)據(jù),因此對于多模態(tài)工業(yè)數(shù)據(jù)不能具有良好的檢測性能,由圖5(a)和圖5(b)可以看出,PCA方法及PPA方法的統(tǒng)計量大多數(shù)在其控制限之下,其檢測性較差。
(a) PCA
(b) PPA
(c) DLNS-PPA圖5 三種方法的故障10檢測圖
同理,對于故障19而言,基于PCA和PPA的不同故障檢測策略的檢測率低于60%,而本文方法的故障檢測率可達100%。由圖6(a)和圖6(b)可以明顯看出,使用PCA和PPA的檢測方法,故障樣本未能有效地被檢測出。這是由于多模態(tài)的數(shù)據(jù)方差差異明顯導致,因此對這兩種方法的故障樣本檢測造成較大的影響。
(a) PCA
(c) DLNS-PPA圖6 三種方法的故障19檢測圖
而本文方法中,數(shù)據(jù)經(jīng)過DLNS的處理后,能夠使數(shù)據(jù)更好地服從多元高斯分布,消除了多模態(tài)特征帶來的影響,所以再進行PPA檢測會使故障樣本的檢測率顯著提高。將DLNS-PPA方法的統(tǒng)計量檢測圖分別與PCA、PPA方法的檢測圖進行對比,通過圖5(c)與圖6(c)可以明顯看出本文方法的檢測優(yōu)勢。
本文提出雙局部近鄰標準化與主多項式分析(DLNS-PPA)的故障檢測方法。首先通過DLNS方法解決具有多模態(tài)特征的數(shù)據(jù)近鄰集中樣本所屬模態(tài)不同的問題,可以使樣本數(shù)據(jù)成功融合為單個模態(tài)且服從多元高斯分布。然后使用PPA方法消除了過程數(shù)據(jù)的非線性結構,從而克服了PPA在多模態(tài)結構中的局限性。本文通過非線性數(shù)值例子和田納西-伊斯曼多模態(tài)過程證明了基于DLNS-PPA方法在故障檢測中的有效性。
由于本文中的雙局部近鄰集的構建需要事先調節(jié)近鄰的參數(shù),因此如何在無先驗知識的過程中如何設置合適的參數(shù)為下一步的研究目標。