解亞萍,趙鵬,黨偉明
(內(nèi)蒙古工業(yè)大學(xué) 電力學(xué)院,呼和浩特 010051)
Φeca=PUkΦ=
基于KMC-KECA的間歇發(fā)酵過(guò)程的故障診斷
解亞萍,趙鵬,黨偉明
(內(nèi)蒙古工業(yè)大學(xué) 電力學(xué)院,呼和浩特 010051)
針對(duì)間歇發(fā)酵過(guò)程的不穩(wěn)定性、強(qiáng)非線(xiàn)性、批次不等長(zhǎng)等特點(diǎn)以及傳統(tǒng)貢獻(xiàn)圖難以找到由特征空間到原始空間的逆映射函數(shù)的問(wèn)題,提出了一種基于K均值聚類(lèi)貢獻(xiàn)圖的核熵成分分析的間歇發(fā)酵過(guò)程故障診斷方法。首先,KECA算法按照Renyi熵值的大小選取特征值及特征向量,然后用K均值聚類(lèi)中心作為當(dāng)前時(shí)刻的標(biāo)準(zhǔn)樣本,拿故障樣本的每個(gè)變量依次去替換標(biāo)準(zhǔn)樣本的對(duì)應(yīng)變量,通過(guò)計(jì)算其統(tǒng)計(jì)量,找出故障源,從而進(jìn)行故障診斷。最后將該方法用到青霉素發(fā)酵過(guò)程驗(yàn)證所提出方法的有效性。
核熵成分分析K均值聚類(lèi)貢獻(xiàn)圖 故障診斷 間歇過(guò)程
由于間歇發(fā)酵過(guò)程數(shù)據(jù)存在高度非線(xiàn)性、耦合、數(shù)據(jù)缺損等問(wèn)題,以主成分分析PCA(principal component analysis)和偏最小二乘PLS(partial least square)等為核心技術(shù)的多元統(tǒng)計(jì)過(guò)程監(jiān)控方法(MSPM)可以從含有噪聲的高維數(shù)據(jù)中提取出反映過(guò)程特征的低維變量。因此,MSPM方法近年來(lái)得到了長(zhǎng)足的發(fā)展。MSPM的核心思想是通過(guò)數(shù)據(jù)投影將輸入空間劃分為特征子空間和殘差子空間從而達(dá)到降低數(shù)據(jù)維數(shù)的目的[1]。其中,PCA算法的應(yīng)用最為普遍,它可以有效將含噪聲且相關(guān)的高維數(shù)據(jù)以保留原始數(shù)據(jù)的最大方差的原則投影到低維空間。但是,PCA算法只能處理線(xiàn)性數(shù)據(jù)[2-3],它對(duì)于非線(xiàn)性過(guò)程的監(jiān)控效果并不理想。Scholkopf等[4]提出了核主元分析(KPCA)算法,KPCA算法是通過(guò)非線(xiàn)性映射將低維輸入空間映射到高維特征空間,在特征空間中進(jìn)行PCA分析,從而把輸入空間的非線(xiàn)性問(wèn)題轉(zhuǎn)化為特征空間中的線(xiàn)性問(wèn)題[5-6]。Jenssen[7]在KPCA算法的基礎(chǔ)上提出了核熵成分分析KECA(Kernel Entropy Component Analysis)算法,它是在KPCA算法的基礎(chǔ)上引入熵的概念,在特征空間按照Renyi熵值的大小選取特征值和特征向量以實(shí)現(xiàn)數(shù)據(jù)轉(zhuǎn)換,體現(xiàn)出了良好的非線(xiàn)性處理能力,在特征提取方面表現(xiàn)出了其獨(dú)特的優(yōu)越性。KECA 算法通過(guò)將輸入空間投影到KPCA 主軸上實(shí)現(xiàn)數(shù)據(jù)的轉(zhuǎn)換和降維[8]。
通常基于PCA的故障診斷方法有貢獻(xiàn)圖方法和故障重構(gòu)方法。由于核函數(shù)方法無(wú)法提供測(cè)量變量到監(jiān)控統(tǒng)計(jì)量之間的對(duì)應(yīng)關(guān)系,因而在KECA算法中貢獻(xiàn)圖方法的應(yīng)用就受到了限制。而故障重構(gòu)的診斷方法,需要大量的歷史故障數(shù)據(jù),難以應(yīng)用到無(wú)法獲得大量故障數(shù)據(jù)的過(guò)程[9]。
針對(duì)故障重構(gòu)和貢獻(xiàn)圖方法應(yīng)用在KECA算法中的局限性,通過(guò)直接對(duì)故障時(shí)刻的監(jiān)測(cè)樣本進(jìn)行重新構(gòu)造,提出了一種新的故障診斷策略,即基于KMC-KECA的故障診斷方法。當(dāng)某一時(shí)刻監(jiān)測(cè)到當(dāng)前樣本發(fā)生了故障,找到當(dāng)前時(shí)刻的標(biāo)準(zhǔn)樣本,本文用K均值聚類(lèi)中心,然后用故障樣本的每個(gè)變量依次對(duì)應(yīng)去替換標(biāo)準(zhǔn)樣本,替換后重新做過(guò)程監(jiān)測(cè),計(jì)算統(tǒng)計(jì)量,判斷其是否依然報(bào)警,如果報(bào)警,說(shuō)明此時(shí)替換的那個(gè)變量就是故障變量,這樣就可以找到故障源。
1.1 對(duì)間歇發(fā)酵過(guò)程三維數(shù)據(jù)沿AT方法展開(kāi)
三維數(shù)據(jù)矩陣X(I×J×K)代表間歇過(guò)程數(shù)據(jù)集合,其中:I代表批量數(shù),J代表變量數(shù),K代表采樣點(diǎn)數(shù)。傳統(tǒng)MKPLS預(yù)處理方法有沿批次方向展開(kāi)和沿變量方向展開(kāi)2種,根據(jù)MKPLS得出的參數(shù)建立監(jiān)控模型。但是傳統(tǒng)的方法存在批次不等長(zhǎng)、數(shù)據(jù)填充等問(wèn)題,筆者將建模的三維歷史數(shù)據(jù)先沿批次方向展開(kāi),按列進(jìn)行標(biāo)準(zhǔn)化處理,之后再沿變量方向展開(kāi),建立統(tǒng)計(jì)模型[10],如圖1所示。
圖1 三維數(shù)據(jù)展開(kāi)方法
1.2 KECA算法原理
KECA算法通過(guò)核映射首先將數(shù)據(jù)從低維輸入空間投影到高維的特征空間,然后在特征空間內(nèi)依據(jù)Renyi熵值的大小選取特征實(shí)現(xiàn)數(shù)據(jù)降維,降維后的數(shù)據(jù)分布表現(xiàn)出一定的角度結(jié)構(gòu),即不同特征信息之間呈現(xiàn)出顯著的角度差異。KECA算法簡(jiǎn)要描述如下:
給定N維樣本x,p(x)是概率密度函數(shù),則其Renyi熵計(jì)算公式為[11]H(p)=-log∫p2(x)dx;由于對(duì)數(shù)函數(shù)為單調(diào)函數(shù),可以令V(p)=∫p2(x)dx,采用Parzen窗通過(guò)樣本均值對(duì)其進(jìn)行估計(jì)得到:
(1)
式中:K——N×N的核矩陣,I——元素均為1的N×1的向量。
Renyi熵估計(jì)可由核矩陣的特征值和特征向量來(lái)表示,將核矩陣進(jìn)行特征分解K=ΦTΦ=EDET,D為特征值矩陣,D=diag(λ1, …,λN),E為特征向量矩陣,E=(e1, …, eN),計(jì)算得到:
(2)
將N維數(shù)據(jù)通過(guò)Ф映射到由k個(gè)KPCA主軸張成的子空間Uk上,選取對(duì)Renyi熵貢獻(xiàn)較大的前k個(gè)特征值和特征向量,可以得到轉(zhuǎn)換后的數(shù)據(jù):
Φeca=PUkΦ=
(3)
樣本外數(shù)據(jù)投影到Uk上的計(jì)算公式[12-13]:
(4)
KECA算法可以表述為使核空間數(shù)據(jù)均值向量的平方歐氏距離與轉(zhuǎn)換后數(shù)據(jù)均值向量的平方歐氏距離之差盡可能小。為了能夠更多地保留原始數(shù)據(jù)的信息,在數(shù)據(jù)降維時(shí)采用熵值貢獻(xiàn)率來(lái)確定選取主元的個(gè)數(shù)。
(5)
(6)
(7)
KECA算法實(shí)質(zhì)是一種數(shù)據(jù)轉(zhuǎn)換方法,它可以最大限度地保留核空間數(shù)據(jù)均值向量的歐氏距離。
從理論上來(lái)說(shuō),KECA算法可以獲得優(yōu)于KPCA算法的降維效果。這是由于KECA算法中
的特征向量能保證信息熵的減少最小,根據(jù)熵值最大程度地判斷并保留主要特征信息,從而更好地保留了輸入高維數(shù)據(jù)的原始特征,在較低維數(shù)時(shí)即能呈現(xiàn)較好的降維結(jié)果,具有更強(qiáng)的非線(xiàn)性處理能力。
KECA算法和KPCA算法對(duì)TE過(guò)程的故障1以及故障10的檢測(cè)結(jié)果[13-14]如圖2,圖3所示,TE過(guò)程2種故障的檢測(cè)延遲、故障檢出率和誤報(bào)警率見(jiàn)表1所列。
圖2 對(duì)TE過(guò)程故障1的監(jiān)測(cè)結(jié)果
圖3 對(duì)TE過(guò)程故障10的監(jiān)測(cè)結(jié)果
故 障檢測(cè)延遲/min故障檢出率,%故障報(bào)警率,%KPCA-SPEKECA-SPEKPCA-SPEKECA-SPEKPCA-SPEKECA-SPE故障18699.5099.4036.900.63故障1080734.6061.5026.301.25
從圖2,圖3以及表1可以看出KECA在故障檢測(cè)延遲、檢出率、報(bào)警率方面相比于KPCA都有很大的優(yōu)勢(shì)。此外,在實(shí)際問(wèn)題中,經(jīng)常會(huì)出現(xiàn)小樣本問(wèn)題。研究表明,當(dāng)高斯核函數(shù)的寬度參數(shù)σ過(guò)小時(shí),KPCA降維能力受小樣本問(wèn)題影響較大,但KECA卻能體現(xiàn)出解決此類(lèi)問(wèn)題的優(yōu)越性,可以顯著提高分類(lèi)精度。
1.3 一種新的故障診斷方法
用基于KMC方法對(duì)間歇發(fā)酵過(guò)程故障進(jìn)行識(shí)別。該方法是將沿批次展開(kāi)的正常建模數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理以后,對(duì)每個(gè)時(shí)刻的每個(gè)變量分別求其在所有批次方向上的K均值聚類(lèi)中心,然后再沿邊量進(jìn)行展開(kāi)。質(zhì)心向量的選取具體過(guò)程如圖4所示。
圖4 質(zhì)心向量的選取過(guò)程示意
該方法具體實(shí)現(xiàn)步驟如下:
1) 原始數(shù)據(jù)沿批次展開(kāi)、標(biāo)準(zhǔn)化,求每列K均值聚類(lèi)中心,得到K(1×KJ)然后再沿變量方向進(jìn)行展開(kāi)。
2) 在線(xiàn)監(jiān)測(cè)中一旦檢測(cè)到故障發(fā)生,將K(1×KJ)中對(duì)應(yīng)的第k時(shí)刻的J個(gè)值取出來(lái),記為向量nor(1×J),并令j=1。
3) 用test(1×J)中的第J個(gè)變量的值順次替換nor(1×J)中第J個(gè)變量的值,替換后記作newtest(1×J)。
4) 再次計(jì)算newtest(1×J)的統(tǒng)計(jì)量值,并與當(dāng)前第k時(shí)刻的控制限值相減,記錄計(jì)算結(jié)果,如果j 5) 對(duì)步驟4)中的結(jié)果繪制直方圖,相應(yīng)直方圖在正的方向的變量即為當(dāng)前第k時(shí)刻的故障變量。 青霉素發(fā)酵過(guò)程是補(bǔ)料分批發(fā)酵過(guò)程,具有動(dòng)態(tài)非線(xiàn)性和多階段的特點(diǎn)。本文采用的 Pensim 仿真平臺(tái)是由伊利諾科技學(xué)院IIT(illinois institute of technology)以Cinar教授為學(xué)科帶頭人的過(guò)程建模、監(jiān)測(cè)及控制研究小組于1998—2002年研究開(kāi)發(fā)的[14]。該仿真平臺(tái)是專(zhuān)門(mén)為青霉素發(fā)酵過(guò)程而設(shè)計(jì)的,它為發(fā)酵生產(chǎn)的監(jiān)視、故障診斷以及質(zhì)量預(yù)測(cè)提供了一個(gè)標(biāo)準(zhǔn)平臺(tái)。青霉素發(fā)酵過(guò)程每個(gè)批次的反應(yīng)時(shí)間為400h,采樣間隔是1h。Pensim仿真平臺(tái)產(chǎn)生18個(gè)過(guò)程變量,筆者選擇通風(fēng)速率、攪拌速率、補(bǔ)料溫度、溶解氧濃度、反應(yīng)器體積、排出二氧化碳濃度、pH值、溫度、產(chǎn)生熱、冷水流加速度10個(gè)過(guò)程變量來(lái)構(gòu)建統(tǒng)計(jì)模型,實(shí)現(xiàn)對(duì)產(chǎn)物濃度和菌體濃度的在線(xiàn)預(yù)測(cè),并監(jiān)控過(guò)程的運(yùn)行。為了使訓(xùn)練樣本數(shù)據(jù)可靠,同時(shí)令訓(xùn)練樣本數(shù)足夠多,筆者選擇45個(gè)正常批次的數(shù)據(jù)作為模型參考數(shù)據(jù)庫(kù)。 為驗(yàn)證提出算法的有效性,進(jìn)行了3組實(shí)驗(yàn),引入3種故障分別用T2和SPE兩種統(tǒng)計(jì)量進(jìn)行監(jiān)控,并用KMC的故障診斷方法分別畫(huà)出其貢獻(xiàn)圖。通過(guò)累計(jì)貢獻(xiàn)率方法確定選取9個(gè)主元。 1) 實(shí)驗(yàn)1。在200~300h時(shí),變量通風(fēng)速率x1引入2%的斜坡故障,其監(jiān)控結(jié)果與診斷結(jié)果如圖5所示。 圖5 故障1的診斷結(jié)果 從圖5a)中看出在240h時(shí)刻監(jiān)測(cè)到故障發(fā)生,圖5b)中,變量1、變量8都大于0。但是變量1的作用更明顯,有可能是2個(gè)變量有耦合性,從圖5c)看出SPE在210h時(shí)刻發(fā)現(xiàn)故障,圖5d)則明顯看出變量1引起故障。 2) 實(shí)驗(yàn)2。在200~400h時(shí),變量通風(fēng)速率x1引入10%的階躍故障,其監(jiān)控結(jié)果與診斷結(jié)果如圖6所示。 圖6 故障2的診斷結(jié)果 從圖6可以看出T2和SPE監(jiān)控都在200h時(shí)刻超出控制限,兩種統(tǒng)計(jì)量的貢獻(xiàn)圖均可以明顯地判斷引起故障原因。 3) 實(shí)驗(yàn)3。在50~200h時(shí),變量攪拌速率x2引入10%的階躍故障,其監(jiān)控結(jié)果與診斷結(jié)果如圖7所示。 從圖7中看出在50h時(shí)刻T2和SPE監(jiān)控都能及時(shí)監(jiān)測(cè)到故障的發(fā)生,可以直觀(guān)地找出引起故障發(fā)生的變量。 從上述3組實(shí)驗(yàn)可以看出KECA可以有效地對(duì)間歇發(fā)酵過(guò)程進(jìn)行監(jiān)測(cè),而KMC貢獻(xiàn)圖方法也可以直觀(guān)明確的對(duì)故障進(jìn)行辨識(shí),該實(shí)驗(yàn)證明KMC可以成功用于核空間的故障診斷中。 圖7 故障3的診斷結(jié)果 本文針對(duì)間歇過(guò)程的強(qiáng)非線(xiàn)性以及傳統(tǒng)貢獻(xiàn)圖方法應(yīng)用在核空間中的局限性,提出基于KMC-KECA的間歇發(fā)酵過(guò)程的故障診斷方法,并對(duì)該方法進(jìn)行理論分析,最后進(jìn)行實(shí)驗(yàn)證,結(jié)果表明該算法可以有效地對(duì)間歇發(fā)酵過(guò)程進(jìn)行診斷。 [1] XIONG L, LIANG J, QIAN J X. Multivariate Statistical Process Monitoring of an Industrial Polypropylene Catalyzer Reactor with Component Analysis and Kernel Density Estimation[J]. Chinese Journal of Chemical Engineering, 2007, 15(04): 524-532. [2] NOMIKOS P, MACGREGOR J F. Multivariate SPC Charts for Monitoring Batch Processes[J]. Technometrics, 1995(37): 41-59. [3] DONG D, MCAVOY T J. Nonlinear Principal Component Analysis-based on Principal Curves and Neural Networks[J]. Computer & Chemical Engineering, 1996, 20(01): 65-78. [4] SCHOLKOPF B, SMOLA A, MULLER K. Nonlinear Component Analysis as a Kernel Eigenvalue Problem[J]. Neural Computation,1998(10): 1299-1319. [5] LEE J M, YOO C K, CHOI S W, et al. Nonlinear Process Monitoring Using Kernel Principal Component Analysis[J]. Chemical Engineering Science, 2004(59): 223-234. [6] CHO J H, LEE J M, CHOI S W, et al. Fault Identification for Process Monitoring Using Kernel Principal Component Analysis[J]. Chemical Engineering Science, 2005(06): 279-288. [7] JENSSEN R. Kernel Entropy Component Analysis[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2010,32(05): 847-860. [8] JIANG Q C, YAN X F, Lü Z M, et al. Fault Detection in Nonlinear Chemical Processes Based on Kernel Entropy Component Analysis and Angular Structure[J]. Korean Journal of Chemical Engineering, 2013,30(06): 1181-1186. [9] 李洪強(qiáng).基于核偏最小二乘的故障診斷方法研究[M]. 沈陽(yáng): 東北大學(xué),2009. [10] WESTERHUIS J A, KOURTI T, MACGREGOR J F. Comparing Alternative Approaches for Multivariate Statistical Analysis of Batch Process Data[J]. Journal of Chemometrics, 1999,(13): 397-413. [11] RENYI A. On Mearsures of Entropy and Information [C]. Selected papers of Alfred Renyi. 1976 (02): 565-580. [12] BIROL G, UNDEY C, CINAR A. A Modular Simulation Package Forfed-batch Fermentation: Penicillin Production[J]. Computers and Chemical Engineering (S0098-1354), 2002,26(11): 1553-1565. [13] MAHADEVAN S, SHAH A L. Fault Detection and Diagnosis in Process Data Using One-class Support Vector Machines[J]. Journal of Process Control, 2009(19): 1627-1639. [14] LAU C K, GHOSH K, HUSSAIN M A, et al. Fault Diagnosis of Tennessee Eastman Process with Multi-scale PCA and ANFIS[J]. Chemometrics and Intelligent Laboratory Systems, 2013(120): 1-14. Fault Diagnosis for Batch Fermentation Process Based on KMC-KECA Xie Yapin,Zhao Peng,Dang Weiming (Institute of Electric Power, Inner Mongolia University of Technology, Hohhot, 010051, China) Aiming at characteristics of instability, strong nonlinearity, non-even batch time and problem of difficulty to find inverse mapping function from feature space to original space from conventional contribution plot, a K-mean clustering-kernel entropy component analysis (KMC-KECA) fault diagnosis method is proposed. First mapped data from low dimensional input space into a high dimensional feature space to achieve nonlinear relationship between variable linear transformation. The data dimensionality reduction was conducted according to kernel entropy eigenvalues and eigenvectors. Then a KMC kernel space contribution plot of fault diagnosis method was proposed, fault diagnosis is achieved according reconfiguring monitoring sample of fault times by this method. At last, it was applied in fermentation process of penicillin fermentation. The results show better fault diagnosis performance is obtained with proposed method. KECA; K-mean clustering-Kernel contribution plot; fault diagnosis;batch process 國(guó)家自然科學(xué)基金項(xiàng)目(61364009,21466026);內(nèi)蒙古自然科學(xué)基金項(xiàng)目(2015MS0615);校級(jí)重點(diǎn)項(xiàng)目(X201237)。 解亞萍(1991—),女,就讀于內(nèi)蒙古工業(yè)大學(xué)電力學(xué)院,研究方向?yàn)楣I(yè)過(guò)程的故障診斷,碩士研究生。 TP277 B 1007-7324(2016)06-0021-06 稿件收到日期: 2016-09-16。2 算法仿真驗(yàn)證
3 結(jié)束語(yǔ)