于春梅,程詠梅,潘 泉
(1. 西南科技大學信息工程學院,中國 綿陽 621010;2. 西北工業(yè)大學自動化學院,中國 西安 710072)
模式穩(wěn)定性用來描述算法識別的模式是數(shù)據(jù)源的真實模式還是有限訓練集內的偶然關系.穩(wěn)定的模式分析算法可以從具體的訓練樣本中學習數(shù)據(jù)源的一般性質.算法的模式穩(wěn)定性和算法的泛化能力之間有很多相似性.
函數(shù)類擬合不同數(shù)據(jù)的能力稱為容量.顯然,類的容量越大,過度擬合訓練數(shù)據(jù)或者說識別出偽模式的風險越高.衡量函數(shù)類的容量就可以間接衡量模式的穩(wěn)定性.學習理論也已經(jīng)出現(xiàn)了不少衡量類容量的尺度,其中,最著名的當屬Vapnik-Chervonenkis維數(shù),簡稱VC維.然而當考慮無窮維的特征空間時,VC維也通常為無窮大,這個界沒有意義[1].對于由不同核導出的特征空間,如何計算和估計它的VC維,目前也沒有特別有效的方法.此外VC維是不依賴于分布和樣本的,因此這個界往往比較松.基于這些原因,許多學者提出了一些其他的復雜性度量,例如Vv維、Pv維等[2-3].Bartlett等人將Rademacher過程中的Rademacher隨機變量引入到復雜性的度量中,提出了Rademacher復雜性的概念[4],并將其作為所選學習模型復雜性的度量,得到了一些學習問題的風險的界.本文將基于Rademacher復雜度理論來研究算法穩(wěn)定性問題.
主元分析法(PCA)通過將多變量高維數(shù)據(jù)空間投影到相對獨立的低維空間,得到最大化數(shù)據(jù)方差的正交投影軸.Fisher判據(jù)分析法(FDA)尋找從原始n維空間到新空間的線性變換,使得類間離散度矩陣盡量大,同時類內離散度矩陣盡可能小.PCA能提供不相關特征,對數(shù)據(jù)壓縮問題是最優(yōu)的,但對分類或判別問題不是最優(yōu);而FDA則是一種適合于分類的方法.雖然PCA和FDA具有概念簡單、易于實現(xiàn)的優(yōu)點,但實踐表明在處理非線性問題時很難達到滿意的效果.核FDA(KFDA)和核PCA(KPCA)分別為對FDA和PCA的非線性擴展,他們通過一個非線性映射將原始輸入空間變換到一個高維特征空間以解決非線性問題.
傳統(tǒng)的PCA和FDA通過構造統(tǒng)計量來檢測數(shù)據(jù)異常,一般采用Bayes分類函數(shù)使它們可用于分類.為了適應核方法的分類決策,Yu等推導了核Bayes決策函數(shù)[4].針對KFDA會產生類內離散度矩陣奇異的問題,該研究小組實現(xiàn)了正則化Fisher算法的非線性核形式,并比較KFDA與支持向量機的關系[5];該小組還得到了不同正則參數(shù)對診斷結果的影響[6].但以上文獻均沒有對算法的穩(wěn)定性進行理論分析.本文作者側重于對采用核Bayes分類函數(shù)的KFDA和KPCA算法進行穩(wěn)定性分析.
定義1[7]由集合X上的分布D生成的樣本S={x1,x2,…,xl}和域為X的實值函數(shù)類F,F(xiàn)的經(jīng)驗Rademacher復雜度為
(1)
F的Rademacher復雜度為
(2)
(3)
(4)
定理1說明,模式函數(shù)的經(jīng)驗值和真實值之間的差的界由該函數(shù)類的Rademacher復雜度決定,或者,也可以直接用給定訓練集上的經(jīng)驗Rademacher復雜度.這樣,可以只計算待分析函數(shù)類的Rademacher復雜度來進行算法的穩(wěn)定性分析.為了便于理解,這里給出Rademacher復雜度的性質[8].
設F為向量空間的一個子集,用conv(F)表示由F的凸結構構成的集合.令F,F1,…,Fn和G是實函數(shù)類.那么
核多元統(tǒng)計方法的分類函數(shù)相應地采用基于核的Bayes分類函數(shù).對于這種非線性形式的分類函數(shù),除了計算上較之線性分類函數(shù)復雜之外,其模式的穩(wěn)定性是需要認真考慮的問題,下面推導基于核的Bayes函數(shù)類的Rademacher復雜度的界.
給定訓練集S,考慮函數(shù)類
(5)
這里,Sj是第j類的方差矩陣.
定理2如果κ:X×X→R是一個核,且S={x1,x2,…,xl}是一個來自X的樣本,那么FkB的經(jīng)驗Rademacher復雜度
(6)
其中,Λ為Sj矩陣的特征值組成的對角陣.
(7)
(8)
根據(jù)Rademacher復雜度的定義
(9)
應用(7)和(8)
(10)
(11)
這里,H(·)為Heaviside函數(shù),當自變量大于0時返回1,否則返回0.
證為了確定分類函數(shù)h(x) 所屬函數(shù)類的復雜度的界,引入滿足Lipschitz條件的輔助損失函數(shù)A,使其滿足H(f(x,y))≤A(f(x,y)),這里,取輔助函數(shù)為A(f(x,y))=(1+f(x,y))+,其中,符號(·)+表示函數(shù)
容易看出,輔助函數(shù)的Lipschitz常數(shù)為1,函數(shù)A-1支配H-1.由定理1可得
ΕD[H(f(x,y))-1]≤ΕD[A(f(x,y))-1]≤
(12)
由Rademacher復雜度的性質(3)和定理2可知,分類函數(shù)h(x) 所屬函數(shù)類的經(jīng)驗Rademacher復雜度
(13)
而
(14)
將式(13)、(14)代入式(12),得
定理3得證.
在式(11)不等式的右側,起決定作用的是第3項.定理3說明采用核Bayes函數(shù)作為分類器的算法模式穩(wěn)定性與樣本長度、核矩陣的跡、投影向量范數(shù)的界以及類方差矩陣逆的范數(shù)等均有關系,下面將分析算法中的各種參數(shù)對算法模式穩(wěn)定性的影響.
(1)與降維矩陣維數(shù)a的關系.由于在計算核Bayes函數(shù)時,第j類的方差矩陣需同時用降維矩陣降維,因而當降維矩陣維數(shù)a增大時,方差矩陣Sj的維數(shù)相應增大.隨著其維數(shù)增大,矩陣Sj將會接近奇異,即含有接近0的特征值,導致其逆的范數(shù)劇烈增大,根據(jù)定理3,這將使算法發(fā)生錯誤分類的概率的界增大,算法穩(wěn)定性降低.
(2)與樣本數(shù)的關系.樣本數(shù)的增大會增大該類的方差,其逆的范數(shù)相應減小;對于KFDA,樣本數(shù)的增大一般會使投影向量w的范數(shù)的界B增大,但增大的速度遠低于類方差矩陣逆的范數(shù)的減?。灰蚨?,樣本數(shù)增大,算法的穩(wěn)定性增強.
(3)與所選特征數(shù)量的關系.當特征數(shù)量減小時,第j類的方差矩陣逆的范數(shù)相應減小,但是B也同時增大了.注意到B增大的速度遠小于方差矩陣逆的范數(shù)減小的速度,因而特征數(shù)量少對穩(wěn)定性有利.
(4)KPCA與KFDA用核Bayes作為分類器時模式穩(wěn)定性的比較.在樣本數(shù)相同時,l和tr(K)相同.由于KPCA在求取降維矩陣時經(jīng)過了歸一化處理,因而α′Kα始終為1,即KPCA的B始終為1;且KPCA從原理上說是最大化方差,因而其方差矩陣逆的范數(shù)較KFDA?。蚨谄渌麠l件相同的情形下,KPCA的模式穩(wěn)定性較高.
為了直觀比較各種算法的模式穩(wěn)定性,本節(jié)定義兩個衡量算法穩(wěn)定性的指標:誤分差和百分比,誤分均值偏離度.誤分差和百分比比較來自同一訓練集的不同樣本對故障診斷結果的差異;誤分均值偏離度則比較同一樣本下核參數(shù)的變化對故障診斷結果的差異.
定義誤分和為誤報(沒有故障誤報為有故障)、漏報(有故障未能報出)和錯報(錯報為其他故障)數(shù)之和.總誤分和定義為核參數(shù)c從50到2 000(間隔50)變化時的每個誤分和的總和.誤分差和百分比定義為
其中,n1,n2分別代表兩個不同樣本起始時核參數(shù)c從50到2 000(間隔50)變化時的誤分和;n代表兩個不同樣本起始時核參數(shù)c從50到2 000(間隔50)變化誤分和之差的絕對值總和,即
以上定義的誤分和與總誤分和體現(xiàn)了算法故障診斷的能力,誤分和越小,算法的故障診斷能力越強;誤分差和百分比體現(xiàn)了隨樣本的變化算法穩(wěn)定程度,誤分差和百分比越小,算法的穩(wěn)定性越好.
這里,n為所選10個點的誤分和,i為所取的10個點.
誤分均值偏離度反映了隨核參數(shù)的變化算法故障診斷能力的變化,體現(xiàn)了算法對參數(shù)的依賴程度.誤分均值偏離度越小,算法對核參數(shù)的依賴性越小,算法的穩(wěn)定性越好.
從定理5可知,核算法的穩(wěn)定性與核矩陣的跡、樣本長度及投影向量的范數(shù)的界有關.為了比較KPCA與KFDA算法的穩(wěn)定性,設樣本長度從20到200不等間隔變化,降維矩陣的維數(shù)a按間隔3變化;分別記錄核參數(shù)c從50到2 000(間隔50)變化、不同樣本長度、不同主元數(shù)量在特征提取前后的誤分和及誤分差和百分比.采用田納西一伊斯曼(TE)過程數(shù)據(jù)[6]為仿真數(shù)據(jù)源,以故障0、1、2的訓練數(shù)據(jù)和測試數(shù)據(jù)來進行仿真實驗,以核Bayes函數(shù)作為分類函數(shù)直接進行3類故障的診斷[4],特征選擇過程另文描述,結果為KPCA選擇變量序號44,20和47,KFDA選擇變量序號44,47和1.表1至表4為兩種算法在不同樣本數(shù)和不同主元數(shù)量下特征提取前后的誤分差和百分比及誤分均值偏離度.表中nr1和nr2分別代表故障1和故障2的誤分差和百分比,np1和np2分別代表故障1和故障2的誤分均值偏離度,ss表示樣本數(shù).
表1 KFDA在特征提取前后的誤分差和百分比比較 %
表2 KPCA在特征提取前后的誤分差和百分比比較 %
表3 KFDA在特征提取前后的誤分均值偏離度比較 %
表4 KPCA在特征提取前后的誤分均值偏離度比較 %
表中結果表明,無論是否提取特征,KPCA的故障診斷穩(wěn)定性均強于KFDA;在特征提取后,KFDA的診斷穩(wěn)定性較不提取特征明顯變好,但KPCA的穩(wěn)定性沒有明顯改觀;這些與理論分析的結果一致.結果還顯示雖然在一般情況下,隨著樣本長度的增大,穩(wěn)定性呈增強趨勢;但在某些時候,仿真結果的穩(wěn)定性反而隨樣本數(shù)增大而減小(尤其在樣本數(shù)小于40時);在特征提取后,穩(wěn)定性隨著a的減小呈上升再下降的趨勢;這些與理論分析的結果并不一致.經(jīng)研究發(fā)現(xiàn),隨著樣本數(shù)減小和a的增大,類方差矩陣逆的范數(shù)都大大增加,但我們在計算時,為避免矩陣病態(tài)問題導致的后果,采用了去除接近0的特征值的處理方法,這導致了直觀指標與理論分析的不一致.該結果同時也說明,可以通過改進數(shù)值計算方法達到改善算法穩(wěn)定性的目的.
本文著重分析和比較算法的模式穩(wěn)定性.首先引入Rademacher復雜度的定義,Rademacher復雜度根據(jù)一個類擬合隨機數(shù)據(jù)的能力來衡量類的容量,隨后介紹的定理表明可以只計算待分析函數(shù)類的Rademacher復雜度來進行算法的穩(wěn)定性分析.以此為基礎,函數(shù)類的穩(wěn)定性分析可通過其Rademacher復雜度來分析.接下來的幾個定理分別證明了以核Bayes函數(shù)作為分類器的算法發(fā)生錯誤分類的概率的上界.這些提供了衡量算法模式穩(wěn)定性的理論上的估算方法.最后,提出了兩種衡量模式穩(wěn)定性的直觀指標,誤分差和百分比和誤分均值偏離度.前者衡量算法對來自同一分布的不同訓練樣本的敏感程度,后者衡量算法對核參數(shù)變化的敏感程度.對特征提取前后KPCA、KFDA的仿真結果表明,同等條件下KPCA的算法穩(wěn)定性強于KFDA;算法在特征提取后的穩(wěn)定性普遍強于不提取特征的情況;隨著樣本數(shù)的增大,穩(wěn)定性呈增強趨勢;隨降維矩陣維數(shù)增大穩(wěn)定性降低.這些結論不僅驗證了幾個定理,也表明我們提出的衡量指標是有效的、可行的.
參考文獻:
[1] 陳將宏. Rademacher復雜性與支持向量機學習風險[J]. 湖北大學學報:自然科學版, 2005,27(2):126-129.
[2] MENDELSON S. A few notes on statistical learning theory[M]. New York: Lecture Notes in Computer Science ,Springer, 2003.
[3] MENDELSON S, SMOLA A J. Advanced lectures in machine learning, volume 2 600 of lecture notes in computer science[M]. NewYork:Springer, 2003:1-40.
[4] YU C M, PAN Q, CHENG Y M,etal.A Kernel-Based bayesian classifier for fault detection and classification[C]// Proceedings of the World Congress on Intelligent Control and Automation (WCICA),Chongqing, 2008,124-128.
[5] 于春梅,潘 泉,程詠梅,等.正則化FDA的核化及與SVM的比較研究[J]. 計算機應用研究,2010,27(3):897-898.
[6] YU C M, PAN Q, CHENG Y M,etal.Small sample size problem of fault diagnosis for process industry:IEEE ICCA10 Xiamen, China, June 9-11,2010[C].Xiamen: Xiamen University Press, 2010.
[7] PETER L, BARTLETT, MENDELSON S. Rademacher and gaussian complexities:risk bounds and structural results[J]. Journal of Machine Learning Research, 2002,(3):463-482.
[8] JOHN SHAWE-TAYLOR, NELLO CRISTIANINI. Kernel methods for pattern analysis(影印版)[M]. 北京: 機械工業(yè)出版社, 2005.