姜鵬飛
(山東科技大學 山東 青島 266590)
兩種減少噪聲對雙支持向量機影響的方法
姜鵬飛
(山東科技大學 山東 青島 266590)
雙支持向量機是Jayadeva等人在2007年提出的一種新的支持向量機。在處理模式分類問題時,雙支持向量機的訓練速度遠遠超過傳統(tǒng)的支持向量機,計算效率大約是傳統(tǒng)支持向量機的四倍。但雙支持向量機沒有考慮到不同樣本點對最優(yōu)超平面所產(chǎn)生的影響,而是同等對待所有的訓練數(shù)據(jù)樣本來構(gòu)造最優(yōu)超平面,從而無法降低噪聲對分類面的影響。為了克服這個缺點,總結(jié)提出了兩種方法,一是將模糊技術(shù)應(yīng)用于雙支持向量機中,對不同的樣本采用不同的懲罰權(quán)系數(shù),找到適合的隸屬度函數(shù)來提高雙支持向量機的分類準確率;二是將超球體技術(shù)與雙支持向量機相結(jié)合,清除數(shù)據(jù)樣本中的噪聲,減小系統(tǒng)結(jié)構(gòu)誤差。實驗證明這兩種方法能有效的減少噪聲的影響。
雙支持向量機;模糊隸屬度;超球體
支持向量機(SVM)是在統(tǒng)計學習理論的基礎(chǔ)上發(fā)展起來的學習算法,是Vapnik等人提出的一種針對分類和回歸問題的機器學習技術(shù)。作為一種新的數(shù)據(jù)挖掘技術(shù),由于其基于結(jié)構(gòu)風險最小化原則,能有效地解決過學習問題,具有良好的推廣性能。這些優(yōu)良特性使支持向量機成為了繼人工神經(jīng)網(wǎng)絡(luò)(ANN)、模式識別之后的又一研究熱點。但SVM的訓練時間非常高,探尋關(guān)于SVM優(yōu)化問題合理且高效的算法已成為SVM研究領(lǐng)域的一個重要研究課題。雙支持向量機(TWSVM)把SVM中的一個二次規(guī)劃問題轉(zhuǎn)化為兩個規(guī)模較小的二次規(guī)劃問題,使得訓練時間大大減少,計算效率大約是SVM的四倍。鑒于其優(yōu)秀的學習性能,目前,TWSVM已成為機器學習和數(shù)據(jù)挖掘領(lǐng)域的研究熱點。但它沒有考慮到不同樣本點對最優(yōu)超平面所產(chǎn)生的影響,所以其應(yīng)用存在一定的局限性。
為解決上述問題,本文總結(jié)提出兩種方法,一是對每個樣本都賦予一個模糊隸屬度值,使不同的樣本對判別函數(shù)的學習有不同的貢獻。二是選擇適當?shù)某蝮w以盡可能小的半徑包含盡可能多的樣本,計算出包含樣本的最小超球體的球心和半徑,權(quán)衡超球體半徑和他所覆蓋的樣本數(shù),達到清除噪聲的目的。實驗證明,改進的TWSVM分類性能明顯優(yōu)于TWSVM。
2007年Jayadeva等人在二分類問題中提出雙支持向量機(Twin Support Vector Machincs簡稱TWSVM)方法。它的基本思想是對兩類訓練點中的每一類訓練樣本點分別構(gòu)造一個超平面,使得每一超平面與其中一類訓練點盡可能近,而遠離另一類訓練點。新來的訓練點離哪個超平面的距離近,就被歸為哪一類。假設(shè)屬于1類和-1類的樣本點分別由矩陣A和矩陣B來表示,那么TWSVM分類器可由以下的二次規(guī)劃問題得到:
TWSVM1
s.t.-(Bω1+e2b1)T+ξ≥e2ξ≥0
TWSVM2
s.t.-(Bω2+e1b2)T+ξ≥e1ξ≥0
其中c1和c2是懲罰參數(shù);e1和e2是全為1組成的列向量,ξ是松弛因子。目標函數(shù)用平方距離來度量本類樣本到本類超平面的距離,因此最小化可以保證本類樣本離本類超平面可能的近。不等式約束可以理解為它類樣本離超平面至少為1.
TWSVM1
s.t.-(Bω1+e2b1)T+ξ≥e2ξ≥0
TWSVM2
s.t.-(Bω2+e1b2)T+ξ≥e1ξ≥0
其中qA和qB是樣本集A和B中每個樣本的模糊隸屬度,qi越小,相應(yīng)的輸入樣本xi在雙支持向量機中的作用就越低,這樣就減少了噪聲的影響。
引入核函數(shù),此方法同樣適用于非線性可分的雙支持向量機。構(gòu)造隸屬度函數(shù)的方法有很多,可根據(jù)具體的問題采取適當?shù)碾`屬度函數(shù)。
本文首先引入超球體支持向量機,它的思想是尋找一個超球體,使其在高維空間中以盡可能小的半徑包含盡可能多的樣本,其目標函數(shù)為:
s.t.Φ(xi)-a2≤R2+ξiξi≥0
其中R為球體半徑,a為球心,ξ為松弛變量,l為訓練樣本個數(shù),C為正則化參數(shù),控制錯分樣本懲罰程度。計算出包含樣本的最小超球體的球心和半徑,權(quán)衡超球體半徑和他所覆蓋的樣本數(shù),去除超球體以外的數(shù)據(jù)樣本,形成新的數(shù)據(jù)樣本集,達到去除噪聲的目的。
通過計算機的仿真實驗,本文總結(jié)的這兩種方法在精度上都高于普通的雙支持向量機。但這兩種方法也都存在小的缺點,第一種方法,隸屬度函數(shù)的運用增加了訓練時間,相比于普通的雙支持向量機訓練時間會有所延長,但還是遠遠少于傳統(tǒng)支持向量機的。第二種方法,超球體的應(yīng)用在去除噪聲的同時也可能去除了一些有價值的訓練點,會對最優(yōu)超平面產(chǎn)生不良的影響。所以需根據(jù)訓練樣本的特點來選擇合適的方法,這樣超平面才可能達到最優(yōu)。
[1]C.Cortes,V.Vapnik.Support一vector networks.Machine Learning,1995,20(3):273-297.
[2]R.K.Jayadeva,R.Khemchandani and S.Chandra.Twin support vector machine for pattern classification.IEEE Transactions on Pattern Analysis and Machine Intelligence,2007,29:905-910.
[3]鄧乃揚,田英杰.支持向量機一理論、算法與拓展[M].北京:科學出版社.2009
[4]丁勝峰.一種改進的雙支持向量機[J].遼寧石油化工大學學報.2012
[5]李秋林.孿生二叉樹支持向量機分類機[J].2013.
姜鵬飛,男,漢族,山東濰坊,碩士研究生,山東科技大學,計算理論與數(shù)據(jù)處理。