韓虎,黨建武
蘭州交通大學(xué)電子與信息工程學(xué)院,蘭州730070
雙隸屬度模糊粗糙支持向量機(jī)
韓虎,黨建武
蘭州交通大學(xué)電子與信息工程學(xué)院,蘭州730070
針對支持向量機(jī)方法處理不確定信息系統(tǒng)時(shí)存在的兩個(gè)問題:一方面支持向量機(jī)訓(xùn)練對噪聲樣本敏感,另一方面支持向量機(jī)訓(xùn)練未考慮信息系統(tǒng)的不一致,利用模糊理論與粗糙集方法分別計(jì)算得到兩種隸屬度:模糊隸屬度與粗糙隸屬度,并將兩種隸屬度引入到標(biāo)準(zhǔn)支持向量機(jī)中得到一個(gè)新的支持向量機(jī)模型——雙隸屬度模糊粗糙支持向量機(jī)(DM-FRSVM)。分析該模型對于不確定問題的解決思路并進(jìn)行對比研究,實(shí)驗(yàn)結(jié)果表明,在對于含有不確定信息的樣本集進(jìn)行分類時(shí),DM-FRSVM表現(xiàn)出更好的推廣性能。
支持向量機(jī);不確定問題;模糊理論;粗糙集
支持向量機(jī)方法在很多應(yīng)用中取得了很好的推廣性能,但是對于不確定信息的處理,標(biāo)準(zhǔn)支持向量機(jī)方法還存在著許多困難。然而在實(shí)際應(yīng)用系統(tǒng)中,信息的不完全、不精確或模糊性又時(shí)常發(fā)生,因此對于不確定條件下的支持向量機(jī)研究就顯得尤為重要[1-3]。
知識獲取的不確定性主要來源于兩個(gè)方面:一是數(shù)據(jù)本身的不確定性,二是信息系統(tǒng)中知識有限的分辨能力引起的不確定性[4-5]。對于數(shù)據(jù)本身的不確定性(主要包括噪聲或孤立野值點(diǎn))往往通過模糊技術(shù)予以解決,由知識有限的分辨能力引起的不確定性問題,粗糙集提供了豐富的理論與方法[6-7]。
針對以上兩種不確定性問題,有學(xué)者通過引入模糊理論與粗糙集方法,分別得到兩種不確定支持向量機(jī)模型:模糊支持向量機(jī)(FSVM)與粗糙支持向量機(jī)(FRSVM)[8-9]。模糊支持向量機(jī)是根據(jù)不同輸入樣本對分類的貢獻(xiàn)不同賦以不同的隸屬度,從而消弱噪聲或野點(diǎn)對分類的影響。粗糙支持向量機(jī)利用模糊粗糙集中的下近似算子為每個(gè)訓(xùn)練樣本分配隸屬度,解決了條件屬性與決策類標(biāo)之間的不一致性問題,通過放松約束條件,使求出的最優(yōu)超平面間隔變大,從而提高支持向量機(jī)的泛化能力。模糊支持向量機(jī)與模糊粗糙支持向量機(jī)都是針對不確定問題提出的兩種求解模型,它們的不同點(diǎn)主要體現(xiàn)在下面三個(gè)方面:
(1)FSVM使用每個(gè)訓(xùn)練樣例隸屬于該樣例的類標(biāo)所在集合的隸屬度對C-SVM原始問題目標(biāo)函數(shù)中該樣例的錯(cuò)分程度進(jìn)行懲罰,重新規(guī)劃了軟間隔支持向量機(jī)。FRSVM利用模糊粗糙集中的下近似算子為每個(gè)訓(xùn)練樣例分配一個(gè)隸屬度,在硬間隔SVM的約束條件中通過每個(gè)樣例的隸屬度適當(dāng)?shù)胤潘杉s束條件,重新規(guī)劃了硬間隔支持向量機(jī)。
(2)FSVM中隸屬度的計(jì)算考慮的總是樣本與樣本所在類之間的關(guān)系,距離類中心越近,則樣本獲得的隸屬度值也就越大。但是FRSVM中隸屬度的計(jì)算考慮的卻是與其最近的異類樣本之間的關(guān)系,距離最近的異類樣本越遠(yuǎn),則隸屬于下近似的程度越大,即隸屬度值越大。
(3)FSVM的主要目的是消弱噪聲或野點(diǎn)對分類的影響,而FRSVM的目的是解決條件屬性與決策類標(biāo)之間的不一致性問題,兩種不確定方法的側(cè)重點(diǎn)不同。
然而在一個(gè)實(shí)際的信息系統(tǒng)中,往往同時(shí)包含了上述兩種不確定信息,本文提出一種新的雙隸屬度模糊粗糙支持向量機(jī)模型(DM-FRSVM),該模型同時(shí)利用模糊理論與粗糙集方法,分別為每個(gè)訓(xùn)練樣本計(jì)算得到兩種不同性質(zhì)的隸屬度,將得到的兩種隸屬度融入到標(biāo)準(zhǔn)支持向量機(jī)模型中,得到一個(gè)新的優(yōu)化問題。
對于給定的一組樣本集{xi,yi},i=1,2,…,l,這里yi=1或-1,SVM依據(jù)結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則,將其學(xué)習(xí)過程轉(zhuǎn)化為如下所示的優(yōu)化問題;
其中訓(xùn)練樣本xi被函數(shù)zi=φ(xi)映射到高維特征空間,w∈RN是超平面的系數(shù)向量,b∈R為閾值,ξi為松弛變量,C≥0是一個(gè)常數(shù),控制對錯(cuò)分樣本懲罰的程度。
采用拉格朗日乘子法把上述優(yōu)化問題轉(zhuǎn)換為其對偶問題:
于是相應(yīng)的分類決策函數(shù)為:
表1 常用核函數(shù)
模糊支持向量機(jī)通過對噪聲或異常樣本指定較小的隸屬度,從而抑制噪聲對分類器的影響;模糊粗糙支持向量機(jī)利用模糊粗糙集中的下近似算子為每個(gè)訓(xùn)練樣例分配一個(gè)隸屬度,用于解決條件屬性與決策屬性之間的不一致性問題。然而在一個(gè)實(shí)際的信息系統(tǒng)中,往往同時(shí)包含了上述兩種不確定信息,本文同時(shí)利用模糊理論與粗糙集方法,分別為每個(gè)訓(xùn)練樣本計(jì)算得到兩種不同性質(zhì)的隸屬度,將得到的兩種隸屬度融入到標(biāo)準(zhǔn)支持向量機(jī)模型中,構(gòu)造了一種新的雙隸屬模糊粗糙支持向量機(jī)模型。
3.1兩種隸屬度計(jì)算方法
為了方便描述,給兩種隸屬度分別命名為粗糙隸屬度和模糊隸屬度。
(1)粗糙隸屬度
定義1給定非空有限論域U,R是U上的二元模糊關(guān)系。如果對于任意?x,y,z∈U,R滿足以下性質(zhì)
①自反性:R(x,x)=1;
②對稱性;R(x,y)=R(y,x);
③傳遞性:min(R(x,y),R(y,z))≤R(x,z),稱R是一個(gè)模糊等價(jià)關(guān)系。
更一般的,如果對?x,y,z∈U,R滿足自反性和對稱性,同時(shí)滿足T-傳遞性;T(R(x,y),R(y,z))≤R(x,z),則稱R是模糊T-等價(jià)關(guān)系。
定義2給定非空有限論域U,如果實(shí)值函數(shù)k:U×U→R滿足半正定性和對稱性,那么該函數(shù)被稱為核函數(shù)。例如高斯函數(shù):
定理1[11-12]任意值域在單元區(qū)間的核函數(shù)k:U×U→[0,1],且滿足k(x,x)=1,那么k至少是Tcos(a,b)傳遞的,其中
根據(jù)以上內(nèi)容可知,部分核函數(shù)滿足自反性、對稱性和Tcos-傳遞性,那么由此類核函數(shù)計(jì)算的樣本之間的關(guān)系是一個(gè)模糊Tcos-等價(jià)關(guān)系,核函數(shù)可用于模糊粗糙計(jì)算中的關(guān)系提取。因此將模糊粗糙集中的模糊關(guān)系用核函數(shù)代替,就得到了核模糊粗糙集模型,具體定義如下:
定義3[13]給定非空有限論域U和U上滿足自反、對稱和Tcos-傳遞的核函數(shù)k,對任意U上的模糊子集X∈F(U)的模糊下近似和上近似定義為:
以高斯核函數(shù)構(gòu)造的模糊等價(jià)關(guān)系為基礎(chǔ),利用高斯核模糊粗糙集中的下近似算子為每個(gè)訓(xùn)練樣本分配隸屬度。對于如果x∈di,在計(jì)算時(shí),需要搜索di以外的距離x最近的樣本y,然后計(jì)算為x隸屬于di類的模糊下近似的隸屬度。換句話說,樣本x隸屬于其自身類別的下近似程度取決于其最近的異類樣本,距離越大,則隸屬于下近似的程度越大,當(dāng)樣本x?di時(shí),由于在di以外距離x最近的樣本是其自身,因此。
(2)模糊隸屬度
自2002年Lin提出模糊支持向量機(jī)以來,模糊支持向量機(jī)的研究主要集中在隸屬度函數(shù)的設(shè)計(jì)方面。然而到目前為止,隸屬度函數(shù)的設(shè)計(jì)還沒有一個(gè)可遵循的一般性準(zhǔn)則[14-15]。本文采用基于距離的模糊隸屬度計(jì)算方法來確定模糊隸屬度值。首先定義兩類樣本的中心,分別記為x+和x_,同時(shí)定義兩類樣本的半徑:
其中,‖‖·表示兩點(diǎn)之間的歐氏距離,根據(jù)上面的定義構(gòu)造隸屬度函數(shù)如下:
3.2DM-FRSVM
給定一組訓(xùn)練樣本集(x1,y1),(x2,y2),…,(xl,yl)∈RN×Y,Y={-1,1},對于不確定問題,根據(jù)上面內(nèi)容可以為每個(gè)樣本分別計(jì)算得到模糊隸屬度ui和粗糙隸屬度si,將ui和si作為權(quán)重重新構(gòu)造一組訓(xùn)練樣本集(x1,u1,y1s1),(x1,u2,y2s2),…,(xl,ul,ylsl),其中yi代表樣本所屬的類別信息,即yi=1或yi=-1。為了描述簡單,將上面加權(quán)訓(xùn)練樣本集重新表示為:(x1,u1,y1),(x2,u2,y2),…,(xl,ul.yl)∈RN×Y,Y=[-1,1],對于上述不確定問題的分類,構(gòu)造雙隸屬度模糊粗糙支持向量機(jī)模型如下所示:
式(4)中約束項(xiàng)由模糊支持向量機(jī)中1-ξi變成了,因?yàn)樵诓淮_定分類問題中,樣本已經(jīng)由確切的屬于某一類變成了以一定概率或一定隸屬度屬于某一類。采用拉格朗日乘子法求解優(yōu)化問題(4),則得到式(5)的對偶優(yōu)化問題:
如果訓(xùn)練樣本xi確切地屬于某一類,即yi∈{1,-1},那么上面所討論的優(yōu)化問題都與模糊支持向量機(jī)一致,再進(jìn)一步,如果訓(xùn)練樣本xi的模糊隸屬度都為1,則上面所討論的優(yōu)化問題變成了標(biāo)準(zhǔn)支持向量機(jī)的形式。因此DM-FRSVM可以看做是對標(biāo)準(zhǔn)支持向量機(jī)和模糊支持向量機(jī)的進(jìn)一步擴(kuò)展。
本部分對UCI機(jī)器學(xué)習(xí)數(shù)據(jù)庫中的5個(gè)基準(zhǔn)數(shù)據(jù)集進(jìn)行對比試驗(yàn),它們的有關(guān)信息如表2所示。對于Iris數(shù)據(jù)集,將第1類與第3類合并為新的一類,第2類保持不變,對于Thyroid和Wine兩個(gè)數(shù)據(jù)集,將第2類與第3類合并為新的一類,第1類保持不變,這樣就將一個(gè)多類問題轉(zhuǎn)化成了一個(gè)2分類問題。
表2 數(shù)據(jù)集信息
實(shí)驗(yàn)中對每個(gè)分類問題將數(shù)據(jù)標(biāo)度到區(qū)間[0,1],所有實(shí)驗(yàn)均采用RBF核函數(shù),并給定其參數(shù)σ=1,同時(shí)給定拉格朗日乘子的上界C=100。實(shí)驗(yàn)分別采用標(biāo)準(zhǔn)支持向量機(jī)(SVM)、模糊支持向量機(jī)(FSVM)、模糊粗糙支持向量機(jī)(FRSVM)和雙隸屬度模糊粗糙支持向量機(jī)(DM-FRSVM)進(jìn)行分類對比,表中測試誤差都是在10重交叉驗(yàn)證基礎(chǔ)上取平均值,具體內(nèi)容見表3。
表3 對比實(shí)驗(yàn)結(jié)果
通過表3的實(shí)驗(yàn)數(shù)據(jù)可以看出,在上述5個(gè)基準(zhǔn)數(shù)據(jù)庫上,雙隸屬度模糊粗糙支持向量機(jī)的測試誤差要低于其他三種支持向量機(jī),分類性能明顯要好于標(biāo)準(zhǔn)支持向量機(jī)。而模糊支持向量機(jī)與模糊粗糙支持向量機(jī)的結(jié)果并不一致,相比于標(biāo)準(zhǔn)支持向量機(jī),在Iris數(shù)據(jù)集上模糊粗糙支持向量機(jī)的測試誤差降低了2.96%,模糊支持向量機(jī)的測試誤差提高了1.9%,在Wine數(shù)據(jù)集上,情況正好相反,模糊支持向量機(jī)的測試誤差降低了0.29%,模糊粗糙支持向量機(jī)的測試誤差提高了0.59%。
為進(jìn)一步證實(shí)上面得出的兩點(diǎn)結(jié)論,在上述5個(gè)數(shù)據(jù)集上選取10%靠近最優(yōu)分類面的樣本改變其類別屬性。使用上面四種支持向量機(jī)進(jìn)行對比研究,表中測試誤差都是在10重交叉驗(yàn)證基礎(chǔ)上取平均值,具體內(nèi)容見表4。
表4 對比實(shí)驗(yàn)結(jié)果
本文針對支持向量機(jī)方法處理不確定信息系統(tǒng)時(shí)存在的兩個(gè)問題:一方面支持向量機(jī)訓(xùn)練對噪聲樣本敏感,另一方面支持向量機(jī)訓(xùn)練未考慮信息系統(tǒng)的不一致性,利用模糊理論與粗糙集方法計(jì)算得到兩種隸屬度:模糊隸屬度與粗糙隸屬度,并引入到標(biāo)準(zhǔn)支持向量機(jī)中得到一個(gè)新的雙隸屬度模糊粗糙支持向量機(jī)模型(DM-FRSVM)。實(shí)驗(yàn)結(jié)果表明,在對于含有不確定信息的樣本集進(jìn)行分類時(shí),DM-FRSVM表現(xiàn)出更好的推廣性能。最終實(shí)驗(yàn)結(jié)果證實(shí)該方法在提高支持向量機(jī)效率,改善支持向量機(jī)結(jié)構(gòu)方面是可行的。由于在該方法中涉及了多個(gè)參數(shù)的選取,因此進(jìn)一步研究各參數(shù)地選取和分析它們之間的關(guān)系是需要進(jìn)一步研究的問題。
[1]鄧乃楊,田英杰.數(shù)據(jù)挖掘中的新方法—支持向量機(jī)[M].北京:科學(xué)出版社,2005.
[2]Burgers C.A tutorial on support vector machines for patter recognition[J].Data Mining and Knowledge Discovery,1998,2(2):121-167.
[3]Sanchez V D.Advanced support vector machines and kernel methods[J].Neuro Computing,2003:5-20.
[4]王國胤.Rough集理論在不完備信息系統(tǒng)中的擴(kuò)充[J].計(jì)算機(jī)研究與發(fā)展,2002,39(10):1238-1243.
[5]Lin T Y.Granular computing-structures,representations,and applications[J].Lecture Notes in Computer Science,2003,2639:16-24.
[6]Qian Y H,Liang J Y,Dang C.Consistency measure,inclusion degree and fuzzy measure in decision tables[J].Fuzzy Sets and Systems,2008,159(18):2353-2377.
[7]Lin C F,Wang S D.Training algorithms for fuzzy support vector machines with noisy data[J].Pattern Recognition Letters,2004,25(14):1647-1656.
[8]Chen Degang,He Qiang,Wang Xizhao.FRSVMs:Fuzzy rough set based support vector machine[J].Fuzzy Sets and Systems,2010,161(4):596-607.
[9]Lin C F,Wang S D.Fuzzy Support Vector Machines[J]. IEEE Trans on Neural Networks,2002,13(2):464-471.
[10]劉華富.支持向量機(jī)Mercer核的若干性質(zhì)[J].北京聯(lián)合大學(xué)學(xué)報(bào),2005,19(1):40-42.
[11]Yeung D S,Chen D G,Tsang E C C,et al.On the generalization of fuzzy rough sets[J].IEEE Transactions on Fuzzy Systems,2005,13(3):343-361.
[12]Moser B.On representing and generating kernels by fuzzy equivalencerelations[J].JournalofMachineLearning Research,2006,7(12):2603-2620.
[13]Moser B.On T-transitivity of kernels[J].Fuzzy Sets and Systems,2006,157(13):1787-1796.
[14]張翔,肖小玲,徐光祐.基于樣本之間緊密度的模糊支持向量機(jī)方法[J].軟件學(xué)報(bào),2006,17(5):951-958.
[15]張秋雨,竭洋,李凱.模糊支持向量機(jī)中隸屬度確定的新方法[J].蘭州理工大學(xué)學(xué)報(bào),2009,35(4):89-93.
Fuzzy rough support vector machine with dual membership.
HAN Hu,DANG Jianwu
School of Electronic and Information Engineering,Lanzhou Jiaotong University,Lanzhou 730070,China
It is difficult for support vector machine to deal with uncertain information because SVM is not only sensitive to noises and outliers but also the inconsistence between conditional features and decision labels is not taken into account. In order to overcome the problem,two types of membership are introduced into standard support vector machine,one type of membership is computed by the distance between the training samples and their center as fuzzy membership,the other type of membership is computed by the distance between the training samples and the nearest training sample with different class label as rough membership.At last several comparative experiments are made to show the performance and the validity of the proposed approach.
support vector machine;uncertain problem;fuzzy theory;rough set
A
TP18
10.3778/j.issn.1002-8331.1311-0260
甘肅省自然基金(No.1308RJZA224);蘭州交通大學(xué)青年基金資助項(xiàng)目(No.2011024)。
韓虎(1977—),男,博士,副教授,主要研究方向:機(jī)器學(xué)習(xí),數(shù)據(jù)挖掘;黨建武,男,教授,博導(dǎo),主要研究方向:神經(jīng)網(wǎng)絡(luò),智能計(jì)算。E-mail:hanhu-lzjtu@163.com
2013-11-18
2014-02-28
1002-8331(2015)22-0150-04
CNKI網(wǎng)絡(luò)優(yōu)先出版:2014-04-01,http://www.cnki.net/kcms/doi/10.3778/j.issn.1002-8331.1311-0260.html