張培林,吳定海,王懷光,王正軍,王國德
(軍械工程學院,石家莊 050003)
一種具有雙控制比例因子的最優(yōu)間隔超球分類器
張培林,吳定海,王懷光,王正軍,王國德
(軍械工程學院,石家莊 050003)
針對支持向量描述只考慮目標類訓練樣本,結合支持向量機最優(yōu)分類超平面和支持向量描述的思想,引入了異常樣本信息的監(jiān)督機制,建立了最優(yōu)間隔超球分類器模型,以一個最小的超球包含目標類訓練樣本和一個盡可能大的超球體將非目標樣本隔離在超球體外,使決策超球面與該兩個超球面以最大間隔分離,保證了描述精度和泛化性能,同時,為更好地排除對兩類樣本數據分布中野點的干擾,提出了一種雙控制比例因子的控制方法,更加靈活地實現軟間隔分類,仿真實例驗證了該分類器具有比SVDD更好的分類性能。
模式識別;統(tǒng)計學習;最優(yōu)分類超球面;控制比例因子
Vapnik[1]提出了的支持向量機,是建立在統(tǒng)計學習理論的基礎上,通過引入了核函數映射、松弛變量、凸二次優(yōu)化等[2]技術,使得支持向量機在遵循結構風險最小化的原則下獲得了最好的泛化性能,被廣泛應用于數據處理、模式識別等領域[3-4]。
關于樣本數據分布不平衡的機器學習問題,Tax[5]等在支持向量機的基礎上提出了支持向量描述(Support Vector Data Description,SVDD),只需要目標類數據訓練樣本,在高維核映射空間建立一個最小的超球將目標數據包括在球內,而非目標數據盡量排除在球外,從而實現正確的分類。但是,這是一種無監(jiān)督的學習方法,沒有利用異常數據樣本的分布信息,模型參數一般難以確定,在注重模型的描述精度的同時卻喪失了泛化性能。
針對以上問題,本文結合了支持向量機最優(yōu)分類超平面和支持向量描述的超球體數據描述的思想,提出了一種具有雙控制比例因子的最優(yōu)間隔超球體分類器,在映射的高維特征空間中尋求一個決策超球體將兩類數據樣本以最大間隔分離,同時,雙控制比例因子可以實現更靈活的兩類樣本分類邊界的控制,排除野點的干擾,仿真實例驗證了本文模型相對于SVDD的優(yōu)越性。
支持向量機通過核函數將輸入空間映射到一個高維的特征空間,然后在特征空間中通過最大化分類間隔來構造最優(yōu)分類超平面。
構建的最優(yōu)分類超平面如圖1所示,H為分類超平面,H1、H2分別為通過各類樣本中離超平面最近點且平行于分類超平面的超平面,H1,H2之間的距離為兩類樣本的最大分類間隔,即為所謂的最優(yōu)分類超平面就是要求分類超平面不但能夠將兩類無錯誤分開,而且要使其分類間隔最大,即保證了經驗風險最小,而且使得支持向量機在遵循結構風險最小化的原則下獲得了最好的泛化性能。
圖1 最優(yōu)分類超平面示意圖Fig.1 Optimal separation hyper-plane
如圖2所示,設yi∈{-1,1}為相應的類標,借鑒以上支持向量分類超平面的思想,將數據樣本映射到高維核特征空間,尋求這樣一個同心超球體,其中H(a,R)為決策超球面,H+(a,R+)和 H-(a,R-)為與決策超球面同球心的超球面,同時,最小化H+(a,R+)將目標類數據樣本包含在其中,最大化H-(a,R-)將非目標數據樣本排除在超球體外,在實現正確的分類的同時使該兩分界面能夠將兩類樣本以最大間隔分離,從而確定與該兩個分類面具有最優(yōu)間隔的決策面H(a,R),使該超球分類器模型能夠同時兼顧了描述精度和泛化性能。
圖2 最優(yōu)分類超球面Fig.2 Hypey-sphere classification with max separation
引入距離變量d,在核空間中尋求一個超球S(a,R),對于兩類訓練樣本有如下約束:
控制比例因子v用于實現軟間隔分類,其意義在于:對于檢測的數據樣本在空間的分布往往存在野點,超球分類器數據描述為了將所有樣本包含在超球體內,必然要增大超球半徑,導致描述精度的下降。引入控制錯分的比例參數使得超球分界面能夠提供一種具有彈性的軟間隔,將偏離某一類別的奇異點排除在超球外,作為支持向量進行描述,從而縮小超球體積,提高描述的精度??刂票壤蜃觱代替了傳統(tǒng)的懲罰參數,具有具體的物理含義,即為邊界支持向量比例的上界和支持向量比例的下界,更有利于參數的取值。
對超球支持向量描述模型引入雙控制比例因子v1、v2,使v1用于控制目標類樣本的邊界支持向量,調節(jié)軟間隔分界面 H+(a,R+),v2用于控制非目標類樣本的邊界支持向量,調節(jié)軟間隔分界面 H-(a,R-),實現更加靈活的分類面控制,采用雙-v控制技術則可以更靈活地控制兩類分類錯誤,可以有效降低漏檢率和虛警概率。
假設有訓練樣本個數n,其中目標類訓練樣本的個數為m1,非目標類訓練樣本個數為m2,所求決策超球體半徑為R,模型可描述為:
對該模型的解釋:第一項是在權衡目標數據類樣本和非目標數據類樣本分布后,求取最為緊湊的決策超球面;第二項解釋為最大化兩類數據的分類間隔(如圖2所示,以2d的間隔分離);第三項引入目標類松弛變量因子ξi和控制比例因子v1,以軟間隔來描述正域邊界H+(a,R+),第四項為引入非目標類松弛變量因子 ξj和控制比例因子 v2控制的負域軟間隔邊界 H-(a,R-)。
為求解上述最優(yōu)化問題,構造Lagrange函數
對以上的 Lagrange 函數,分別對變量 R,d,a,ξi,ξj求偏導求極值
通過解最優(yōu)化問題,可知超球的球心為:
該模型的正域決策超球面H+(a,R+):
負域的決策超球面H-(a,R-):
求解完成后,模型的判別函數為:
支持向量的確定至關重要,在該模型中,由拉格朗
類似SVM,最優(yōu)分類決策超球面:日乘子αi可知隸屬于正域H+(a,R+)和負域 H-(a,R-)支持向量的集合為:
經過超球支持向量訓練后,各數據樣本點及支持向量應分布如下:
為分析模型控制比例因子對超球分類面的影響,以prtool[6]工具箱產生的Banana數據集作為測試數據集,兩類樣本間具有較好的可分性,產生測試樣本200個,其中含目標類數據樣本160個,非目標類測試樣本40個,設置模型的核參數σ=5,不同的控制比例因子下分類面如圖3所示。
圖3 不同控制比例因子下的超球分界面Fig.3 Hyper-sphere of different proportion control parameters
該仿真實例主要用于考查控制比例因子對于消除野點干擾的作用,如圖3(a)中所示,當控制比例因子均取0時,由于其中一目標類樣本點偏離較遠,在這里將其視為野點,三個分界面幾乎重疊在一起,體現不出兩類樣本間的可分性,圖3(b)中,設置目標類控制比例因子為0.01,則將該野點排除在正域分界面之外,以支持向量來描述,圖3(c)中設置非目標類控制比例因子為0.05,將偏離非目標類樣本較遠的野點排除在負域之外,以支持向量來描述。
不同控制比例因子下,超球體分界面半徑的變化如表1所示,由表中也可以看出,通過控制比例因子的調整排除野點干擾后,超球半徑發(fā)生了較為明顯的變化,同時正負域之間的可分性更加明顯,描述精度提高,泛化性能增強。
表1 不同控制比例因子下各超球分界面半徑Tab.1 Hyper-sphere radius of different control parameters
對于解決不平衡數據分類問題來說,使用準確率作為分類器性能的評價標準是不合適的。評價此類模型性能的好壞最為有效的是ROC(Receiver operating characteristics,ROC)[6]曲線。ROC 曲線從以下兩個方面來全面刻畫分類器的性能,橫坐標為對正常樣本正確判別率,縱坐標為異常樣本被識別為正常的概率,并采用ROC曲線下面積(Area Under Curve,AUC)代替ROC曲線對分類器的性能進行定量評價,顯然AUC∈[0,1],且AUC越大,分類精度越高,整體的泛化性能越好。
下面就以UCI標準的測試數據集[7]對該分類器進行測試,對標準數據集的設置如表2所示,取部分的數據進行訓練,其余部分進行測試,對于多類的數據集,只取其中某一類作為目標數據。從訓練樣本可以看出,訓練時,目標數據與非目標數據明顯差異較大,體現了數據樣本分布不平衡。
表2 UCI標準測試數據集Tab.2 UCI standard test data sets
利用粒子群優(yōu)化算法分別對模型參數進行優(yōu)化,優(yōu)化后的模型參數及測試結果的對比分析如表3所示,可以看出,在相同的訓練、測試條件和最優(yōu)參數下,本文提出的分類器對任意一個測試數據集的分類性能明顯要優(yōu)于SVDD,在針對數據樣本分布不平衡問題時,本文提出的引入異常類樣本信息的監(jiān)督作用和雙控制比例因子對于提高超球分類器性能具有重要影響,能夠有效提高分類器的泛化性能。
表3 測試結果對比分析Tab.3 Contrastive analysis of test results
對于解決模式識別中數據樣本分布不平衡問題,本文在深入分析支持向量描述模型的基礎上,借鑒支持向量機最優(yōu)分類超平面的思想,建立了最優(yōu)間隔超球分類器模型,分析了該模型的支持向量分布,并通過仿真實例來驗證該模型的分類性能,得出以下結論:
(1)該模型通過引入了異常樣本信息的監(jiān)督機制,在核特征空間中將兩類樣本以最大間隔分離,在提高分類器描述精度的同時增強了泛化性能;
(2)引入的雙控制比例因子使得該模型可以更加靈活地控制兩類分界面的軟間隔邊界,更好地排除野點的干擾,進一步提高分類器性能。
[1] Vapnik V.The nature of statistical learning theory[M].New York:Springer- Verlag,1995.
[2]Vladimir N V.Statistical learning theory[M].許建華,張學工,譯.1版.北京:電子工業(yè)出版社,2004:324-360.
[3]張 曦,閻威武,劉振亞,等.基于核主元分析和鄰近支持向量機的汽輪機凝汽器過程監(jiān)控和故障診斷[J].中國電機工程學報,2007,27(14):56-60.
[4]皋 軍,王士同.基于矩陣模式的最小類內散度支持向量機[J].電子學報,2009,37(5):1051-1057.
[5] Tax D,Duin R.Support vector domain description[J].Pattern Recognition Letters,1999,20:1191 -1199.
[6] Tax D M J,Duin R P W.Support vector data description[J].Machine Learning Research,2004,(54):45 -66.
[7] Blake C L,Merz C J.UCI repository of machine learning database[EB/OL].http://www.ics.uci.edu/~ mlearn/MLrepository.html.
An optimal separation hyper-sphere classification model with double proportion control parameters
ZHANG Pei-lin,WU Ding-hai,WANG Huai-guang,WANG Zheng-jun,WANG Guo-de
(Ordnance Engineering College,Shijiazhuang 050003,China)
After analyzing the disadvantage of unsupervised training of support vector data description(SVDD),combining the advantage of optimal separation hyper-plane and SVDD,and inducing the supervision of information of negative class,a hyper-sphere classification model with optimal separation was proposed.With one minimum hyper-sphere containing positive class and one hyper-sphere as big as possible excluding negative class,the decision hyper-sphere was made to separate itself and the two hyper-spheres with the max distance to improve the model's description accuracy and generalization performance.To remove the interference of bad points,a method with double proportion control parameter was proposed,it could realize soft separation.Simulation results of Banana and UCI data sets showed that the proposed model has better classification performance than SVDD.
pattern recognition;statistical learning;optimal separation hyper sphere;proportion control parameter
TH17;TP391.4
A
2010-08-16 修改稿收到日期:2010-11-25
張培林 男,教授,博士生導師,1955年生