李 元 李 榕
(沈陽化工大學信息工程學院)
在大數(shù)據(jù)與人工智能時代背景下,工業(yè)自動化得到迅速發(fā)展, 工業(yè)生產(chǎn)過程也越來越復雜。化工生產(chǎn)過程中,任何一個微小故障都可能引起產(chǎn)品質(zhì)量變化,造成經(jīng)濟損失,同時也關(guān)乎工廠操作人員的生命安全和企業(yè)財產(chǎn)安全, 因此,對復雜工業(yè)背景下的故障診斷提出了更高的要求。
為了提高控制系統(tǒng)故障檢測的性能,基于數(shù)據(jù)驅(qū)動的故障診斷方法得到快速發(fā)展,并應用于各 種 工 業(yè) 過 程[1~3]。 主 元 分 析(Principal Component Analysis,PCA) 作為工業(yè)過程故障診斷領(lǐng)域最經(jīng)典的方法,被廣泛應用于各種工業(yè)過程監(jiān)測中,PCA主要適用于處理相關(guān)變量引起的線性問題,并且要求過程數(shù)據(jù)服從單模態(tài)高斯分布的假設,因此在非線性多模態(tài)工業(yè)過程中無法得到滿意的檢測效果。 核主元分析 (Kernel Principal Component Analysis,KPCA)[4]的提出在一定程度上擴展了PCA的適用范圍, 通過引入核函數(shù)將數(shù)據(jù)映射至高維使其線性可分,然后在高維空間使用主元分析方法,但KPCA仍然存在一系列問題,如算法魯棒性較差、泛化能力不強等,在解決多模態(tài)問題方面仍然存在局限性。Zhang X M和Li Y提出基于主多項式分析 (Principal Polynomial Analysis,PPA)的故障檢測方法[5],利用主多項式分量來描述數(shù)據(jù)的非線性特征, 但由于使用T2和SPE統(tǒng)計量,在解決多模態(tài)過程中檢測受到限制。He Q P 和Wang J 提 出 基 于K 最 近 鄰 算 法(KNearest Neighbor,KNN)的故障檢測方法,然而當處理具有較大方差多模態(tài)樣本時,檢測效果并不理想[6]。
Vapnik V N 提出了支持向量機(Support Vector Machines,SVM)[7],由于SVM在解決工業(yè)生產(chǎn)過程中的高維數(shù)、非線性等特征上具有顯著優(yōu)勢,并 且 在 圖 像 識 別[8]、文 本 分 類[9]及 故 障 診斷[10]等眾多領(lǐng)域被廣泛應用,SVM逐漸成為學術(shù)界關(guān)注的熱點以及機器學習研究的熱門話題。 但是,SVM的性能在很大程度上依賴于所選擇的核函數(shù),而在具體情況下如何選擇最佳的核函數(shù)尚無完備的理論依據(jù),如果使用一個不恰當?shù)暮撕瘮?shù),就可能產(chǎn)生比在原始空間更差的結(jié)果[11]。 針對上述問題,出現(xiàn)了大量有關(guān)組合核的研究[12~14],即多核學習方法[15],其中常見組合多核方式有直接求和核、 加權(quán)求和核及加權(quán)多項式擴展核等。文獻[16]采用線性加權(quán)求和核作為SVM的核函數(shù), 并將其應用于高光譜影像分類中, 與單核SVM分類器對比發(fā)現(xiàn),多核SVM取得了較高的分類正確率。 文獻[17]將傳統(tǒng)核模糊聚類算法中的單一高斯核函數(shù)替換為多個高斯核函數(shù)混合,并結(jié)合馬爾科夫隨機場的先驗概率,結(jié)果表明分割精度明顯優(yōu)于傳統(tǒng)核模糊聚類算法。
多核SVM相比于單核SVM以其更優(yōu)的性能在眾多領(lǐng)域受到國內(nèi)外學者的廣泛關(guān)注。 經(jīng)過多核函數(shù)映射后形成的新空間是由多個子空間組合而成的, 新空間能夠組合各子空間的映射能力,從而更好地適應復雜數(shù)據(jù)。 因此,筆者提出一種基于局部相對概率密度(Local Relative Probability Density,LRPD)的多核支持向量機(Multi-Kernel Support Vector Machine,MKSVM)的故障檢測方法LRPD-MKSVM。將LRPD-MKSVM方法應用于田納西-伊斯曼(Tennessee Eastman,TE)多模態(tài)數(shù)據(jù)集中進行故障檢測。 由于多模態(tài)數(shù)據(jù)具有多中心、變量非高斯性等特點,為了減少數(shù)據(jù)分布特性對檢測性能的影響, 先用LRPD對多模態(tài)數(shù)據(jù)進行預處理,在此基礎(chǔ)上使用MKSVM分類器對多模態(tài)過程進行監(jiān)測, 并通過TE過程的仿真,驗證LRPD-MKSVM對具有多模態(tài)和非線性特征的工業(yè)過程進行有效的故障檢測。
針對兩分類樣本近似線性分類問題,假設給定樣本訓練集D={(x1,y1),(x2,y2),…,(xn,yn)},樣本類別yi∈{-1,1},i=1,2,…,n。 SVM分類器思想旨在樣本集空間中找到一個最大分離超平面,將樣本劃分到不同類別,即:
其中,權(quán)重向量w=(w1,w2,…,wd),b為位移項。
在分類過程中允許某些點分類錯誤,提高了SVM的容錯率,SVM引入松弛變量ζi和懲罰參數(shù)C,建立目標函數(shù):
為了求解式(2),利用拉格朗日對偶性將原始問題轉(zhuǎn)換為對偶問題:
其中,ai為拉格朗日乘子。
當數(shù)據(jù)集線性不可分時,首先通過非線性映射φ:Rn→H將數(shù)據(jù)樣本映射至高維空間, 使數(shù)據(jù)能夠線性劃分,然后再使用線性分類SVM學習方法訓練分類模型。 但往往直接定義映射函數(shù)較為困難,而且在計算映射之后的內(nèi)積運算就更加復雜。 因此,定義核函數(shù)K(xi,xj)=φ(xi)·φ(xj),避免了顯式地定義映射函數(shù)和在高維特征空間的內(nèi)積運算,在低維空間進行計算而實際效果表現(xiàn)在高維特征空間,簡化了運算。 將式(4)中的xi·xj內(nèi)積用核函數(shù)代替,則得到核化SVM目標函數(shù):
相應的決策函數(shù)可以寫為:
當涉及到非線性數(shù)據(jù)分類問題時,巧妙地利用線性分類學習方法與核函數(shù)能夠?qū)Ψ蔷€性問題進行有效處理。 通過結(jié)合核函數(shù)與線性SVM學習機,能夠?qū)Ψ蔷€性數(shù)據(jù)進行有效分類。 然而在SVM的應用中,當樣本數(shù)據(jù)量較大、高維特征空間分布不平坦且存在異構(gòu)信息時,單一選擇局部核函數(shù)或全局核函數(shù),并不能滿足數(shù)據(jù)分類問題的需要。 因此,筆者使用線性加權(quán)方式構(gòu)建多核函數(shù),通過不同核函數(shù)的映射,使得數(shù)據(jù)在新空間得到更好的表達,進而提高分類精度。
設有M個核函數(shù),包含局部和全局核函數(shù),核函數(shù)表達式如下:
多核SVM求解目標為:
其中,dm為核權(quán)重系數(shù),Km為基本核函數(shù),wm為第m個核函數(shù)所對應的權(quán)重向量。
按照原始SVM問題求解方式,則可轉(zhuǎn)換為:
進一步求解最終的決策函數(shù):
文獻[18~20]表明,局部核函數(shù)和全局核函數(shù)無法同時兼具學習能力和推廣能力,因此為了充分結(jié)合兩者的優(yōu)點,筆者構(gòu)造滿足Mercer定理[21]的多核函數(shù),訓練性能更佳的多核SVM分類器,以提高分類精度。
圖1 高斯核函數(shù)曲線
多項式核函數(shù)K(z,z1)=(z·z1+c)d,取c=1。 令多項式核次數(shù)d為1、2、3、4,計算不同次數(shù)的多項式對應的核函數(shù)在測試點在z1=0.2的核函數(shù)值并繪制圖像(圖2)。 由圖2可知,多項式核函數(shù)允許距離測試點較遠的數(shù)據(jù)點對核函數(shù)值產(chǎn)生一定影響,適合處理具有全局特征的數(shù)據(jù)集,即具有較強的推廣能力。
圖2 多項式核函數(shù)曲線
圖3 多核函數(shù)曲線
如果直接將多核SVM算法應用于多模態(tài)過程,其檢測性能并不突出。 為了提高算法對多模態(tài)過程的檢測率, 先利用局部概率密度方法[22,23]將多模態(tài)數(shù)據(jù)轉(zhuǎn)換為單模態(tài)數(shù)據(jù),然后用MKSVM進行故障檢測?;贚RPD-MKSVM的故障檢測方法分為離線建模和在線檢測兩個步驟,檢測流程如圖4所示。
圖4 LRPD-MKSVM方法故障檢測流程
離線建模的操作步驟如下:
a. 獲取正常和故障操作條件下的歷史數(shù)據(jù)集,記為Xtrain=[x1,x2,…,xm]T∈Rm×n;
b. 用式(15)計算Xtrain的局部概率密度矩陣并進行標準化處理,得到矩陣ain;
其中,步驟b的計算式為:
在線檢測的操作步驟如下:
a. 用式(16)計算測試數(shù)據(jù)Xtest的局部概率密度矩陣;
b. 運用建模數(shù)據(jù)的均值和方差對測試數(shù)據(jù)的局部概率密度矩陣進行標準化,得到數(shù)據(jù)集;
本研究的仿真實例數(shù)據(jù)選用TE數(shù)據(jù)集[24~27]。TE過程模擬21種預編程故障,多種故障類型能夠清晰真實地反映實際工業(yè)過程中存在的問題,詳見表1。
表1 TE過程的21種故障
改變過程中產(chǎn)物G和H的比例, 可以得到TE過程中6種不同的工作模態(tài),詳見表2。
表2 TE過程的工作模態(tài)
本次仿真在TE過程的模態(tài)1和模態(tài)3進行。本例中, 從模態(tài)1和模態(tài)3分別選取160個正常數(shù)據(jù)和200個故障數(shù)據(jù)作為SVM的訓練數(shù)據(jù)集, 選取模態(tài)1和模態(tài)3中的故障1、5、7~9、11~13、18和19作為測試故障類型。 測試數(shù)據(jù)集從模態(tài)1和模態(tài)3每個故障類型下選取160個正常數(shù)據(jù)和200個故障數(shù)據(jù)組成。 將正常樣本數(shù)據(jù)標簽定義為0,故障樣本數(shù)據(jù)標簽定義為1。在TE多模態(tài)仿真過程中,對TE多模態(tài)過程的10個故障運用局部相對概率密度進行預處理, 然后使用RBFSVM、POLYSVM和MKSVM方法分別對測試數(shù)據(jù)進行分類。
分別采用RBFSVM、POLYSVM和筆者提出的MKSVM方法對TE過程的10種故障進行分類對比。 RBFSVM核函數(shù)的最優(yōu)δ值在[0.01,0.1,1]。POLYSVM核函數(shù)的偏移量c和多項式核次數(shù)d均在[1,2,3]。 對于MKSVM核函數(shù)中的參數(shù)構(gòu)建四維網(wǎng)格搜索尋參, 確定權(quán)重系數(shù)r設置為0.5,RBFSVM中參數(shù)δ設置為0.1,POLYSVM中偏移量c設置為1,多項式核次數(shù)d設置為1。 另外,懲罰參數(shù)C均設置為1。
表3 匯 總 了 基 于RBFSVM、POLYSVM 和MKSVM對TE過程10種故障的檢測結(jié)果,可見,加權(quán)組合的多核SVM相比單核SVM, 平均分類正確率有很大程度的提高,對比RBFSVM和POLYSVM分別提高了15.0%和8.9%。
表3 基于3種核函數(shù)SVM對TE過程10個故障的分類正確率 %
為了說明基于MKSVM檢測方法的有效性,分別比較了基于RBFSVM、POLYSVM和MKSVM方法對故障1和故障13的檢測結(jié)果,結(jié)果如圖5、6所示。
圖6 3種核函數(shù)對故障13的檢測結(jié)果
在故障1中,物料B含量不變,物料U、C進料比改變,產(chǎn)生了一個階躍性改變故障,擾亂了系統(tǒng)的正常運行。 在此故障中,MKSVM分類的正確率高于RBFSVM和POLYSVM兩種檢測方法,分別提高 了22.0%和20.0%,MKSVM 相 比RBFSVM 和POLYSVM,對于數(shù)據(jù)分布學習更加高效,提取信息更加全面,所以相比其他兩種檢測方法分類正確率就會更高。 盡管RBFSVM具有較高的故障檢測率, 但對于正常數(shù)據(jù)并不敏感, 誤報率很高;POLYSVM雖然誤報率為0, 但是對于故障數(shù)據(jù)不能有效學習, 故障檢測率低于MKSVM方法。 而MKSVM檢測方法在誤報率為0的情況下, 相比其他兩種核函數(shù),分類正確率最高,具有更好的檢測性能。
故障13是由反應動力學參數(shù)改變而引起的慢偏移故障,RBFSVM和POLYSVM對于故障數(shù)據(jù)都能有效識別,具有非常好的檢測效果,但對于正常數(shù)據(jù)不能有效檢測。 而在MKSVM多核函數(shù)映射的背景下,由子空間構(gòu)成的組合空間可以發(fā)揮各個基本核的不同特征映射能力,對于異構(gòu)數(shù)據(jù)的不同特征分量分別使用相應的核函數(shù)進行處理, 使得數(shù)據(jù)能夠在高維空間得到更為精確、合理的表達, 提高樣本的分類正確率, 因此MKSVM相比RBFSVM和MKSVM, 分類正確率能夠達到89.0%,取得更為滿意的檢測結(jié)果。
針對工業(yè)過程中數(shù)據(jù)具有的多模態(tài)、非線性特征,提出基于局部相對概率密度的多核支持向量機工業(yè)過程故障檢測方法,引入局部概率函數(shù)將多模態(tài)數(shù)據(jù)轉(zhuǎn)換為單模態(tài)數(shù)據(jù),消除多模態(tài)數(shù)據(jù)分布特性對故障檢測性能的影響,在此基礎(chǔ)上使用不同核函數(shù)SVM進行故障檢測。 將所提出的方法應用于TE多模態(tài)工業(yè)過程中, 應用結(jié)果表明, 筆者提出的MKSVM方法的分類正確率優(yōu)于RBFSVM與POLYSVM方法的,能大幅提高故障檢測的準確性,在實際生產(chǎn)中有重要的指導意義。