• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      一種改進(jìn)的魯棒模糊孿生支持向量機(jī)算法

      2023-01-13 11:57:48周裕群張德生
      關(guān)鍵詞:超平面線性損失

      周裕群,張德生,張 曉

      西安理工大學(xué) 理學(xué)院,西安 710054

      支持向量機(jī)(support vector machine,SVM)是由Cortes等人[1]提出的一種有效的機(jī)器學(xué)習(xí)算法,該算法被廣泛應(yīng)用于模式識(shí)別和數(shù)據(jù)分割等領(lǐng)域。SVM算法通過引入核函數(shù),將非線性分類問題轉(zhuǎn)化為某個(gè)高維特征空間中的線性分類問題,進(jìn)而解決了小樣本、非線性和維數(shù)災(zāi)難等問題。但是,SVM算法也存在以下幾點(diǎn)不足:SVM算法在構(gòu)建模型時(shí),采用的是鉸鏈損失函數(shù),導(dǎo)致SVM算法對(duì)訓(xùn)練集中的噪聲比較敏感;SVM算法在求解對(duì)偶問題時(shí),計(jì)算成本較高;SVM算法使用平行平面來區(qū)分兩類樣本,而平行平面不一定符合數(shù)據(jù)的分布趨勢(shì)。

      針對(duì)SVM算法存在的不足,學(xué)者們提出了以下改進(jìn)方法:文獻(xiàn)[2]提出了廣義特征值近端支持向量機(jī)算法(generalized eigenvalue proximal support vector machine,GEPSVM),該算法通過求解兩個(gè)廣義特征值問題來構(gòu)建兩個(gè)非平行超平面?;贕EPSVM算法的思想,文獻(xiàn)[3]提出了孿生支持向量機(jī)算法(TWSVM),在運(yùn)行速度上,TWSVM算法比SVM算法大約快4倍。但是,GEPSVM算法和TWSVM算法都沒有考慮不同輸入樣本點(diǎn)對(duì)最優(yōu)超平面的影響,為此,文獻(xiàn)[4]提出了模糊支持向量機(jī)算法(fuzzy support vector machine,F(xiàn)SVM),文獻(xiàn)[5]將TWSVM算法和FSVM算法結(jié)合,提出了模糊孿生支持向量機(jī)算法(fuzzy twin support vector machine,F(xiàn)TSVM),F(xiàn)TSVM算法在一定程度上降低了異常值對(duì)分類性能的影響。為了實(shí)現(xiàn)結(jié)構(gòu)風(fēng)險(xiǎn)最小化,文獻(xiàn)[6]在TWSVM算法中引入正則化項(xiàng),進(jìn)而提出了孿生有界支持向量機(jī)算法(twin bounded support vector machine,TBSVM)。文獻(xiàn)[7-8]提出了基于pinball損失的支持向量機(jī)算法和孿生支持向量機(jī)算法,這兩種算法在一定程度上降低了噪聲對(duì)分類性能的影響。文獻(xiàn)[9]提出了大規(guī)模最小二乘孿生支持向量機(jī)算法(large-scale least squares twin SVM,LS-LSTSVM),實(shí)驗(yàn)結(jié)果表明,該方法能夠有效處理大規(guī)模數(shù)據(jù)集。文獻(xiàn)[10]提出了一種密度加權(quán)的模糊孿生支持向量機(jī)算法,從而減小了不平衡數(shù)據(jù)的影響。文獻(xiàn)[11]提出了一種新的模糊孿生支持向量機(jī)算法(NFTSVM),NFTSVM算法在一定程度上提高了算法的分類性能,然而,此方法需要計(jì)算復(fù)雜的逆矩陣,使其在一些應(yīng)用上存在一定的局限性。文獻(xiàn)[12]通過對(duì)TWSVM算法進(jìn)行改進(jìn),提出了模糊簡(jiǎn)約孿生支持向量機(jī)算法,從而避免了逆矩陣運(yùn)算。為了降低模型對(duì)樣本集幾何形狀的依賴,文獻(xiàn)[13]提出了基于類內(nèi)超平面的模糊支持向量機(jī)算法。文獻(xiàn)[14]將文獻(xiàn)[13]應(yīng)用到語音情感識(shí)別問題,提出了基于類內(nèi)超平面距離度量模糊支持向量機(jī)的語音情感識(shí)別。

      通過對(duì)FTSVM算法的改進(jìn),F(xiàn)TSVM算法已經(jīng)成為了一種較為常用的分類算法,然而,F(xiàn)TSVM算法仍存在以下不足:(1)在FTSVM算法中,單純基于樣本點(diǎn)到類中心的距離確定的模糊隸屬度函數(shù)不能有效區(qū)分異常值和有效樣本點(diǎn);(2)FTSVM算法只考慮了經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化,容易過擬合;(3)基于鉸鏈損失的FTSVM算法考慮的是類間的最短距離,使得算法對(duì)噪聲仍然敏感。

      為了進(jìn)一步提高FTSVM算法的分類性能,本文提出了一種改進(jìn)的魯棒模糊孿生支持向量機(jī)算法(IRFTSVM)。首先,確定了一種新的混合隸屬度函數(shù),降低了噪聲或異常值對(duì)最優(yōu)超平面的影響;其次,對(duì)FTSVM算法的目標(biāo)函數(shù)做了一些改進(jìn),并通過構(gòu)造新的拉格朗日函數(shù)的方式來避免逆矩陣運(yùn)算;最后,用pinball損失函數(shù)代替鉸鏈損失函數(shù),在一定程度上達(dá)到了抗噪的效果。

      1 預(yù)備知識(shí)

      1.1 FTSVM算法

      FTSVM算法[5]的兩個(gè)非平行超平面分別為wT

      1 x+b1=0和wT2x+b2=0,其中w1,w2,b1,b2∈Rn。在非線性情況下,引入核矩陣K(xT,CT)=φ(xT)·φ(CT),其中CT=[A·B]T,K(x,y)為任意的核函數(shù)。同時(shí),在取線性核函數(shù)時(shí),令w1=CTu1,w2=CTu2,則FTSVM算法的優(yōu)化問題為:

      式(1)和式(2)的對(duì)偶問題分別如下:

      其中H=[K(A,CT)e1],G=[K(B,CT)e2],α和β是由拉格朗日乘子所構(gòu)成的列向量,m1和m2分別表示正類樣本數(shù)和負(fù)類樣本數(shù)。通過求解對(duì)偶問題(3)和(4),從而確定非平行超平面。

      1.2 損失函數(shù)

      FTSVM算法主要通過使用鉸鏈損失函數(shù)來構(gòu)建模型,其中鉸鏈損失函數(shù)的定義[15]為:

      其中y為理想值,f(x)為預(yù)測(cè)值。

      鉸鏈損失函數(shù)考慮的是類間的最短距離,導(dǎo)致模型中存在噪聲敏感性以及數(shù)據(jù)重采樣不穩(wěn)定性等缺點(diǎn)。因此,學(xué)者們對(duì)不同的損失函數(shù)進(jìn)行了深入研究,其中研究較為廣泛的是pinball損失函數(shù),pinball損失函數(shù)考慮的是分位數(shù)距離,在一定程度上降低了噪聲敏感性。pinball損失函數(shù)的定義如下:

      其中參數(shù)τ∈[0,1]。

      2 IRFTSVM算法

      2.1 隸屬度函數(shù)的設(shè)計(jì)

      經(jīng)典的FTSVM算法[5]的隸屬度函數(shù)的表達(dá)式如下:

      其中di+和di-分別表示正類樣本點(diǎn)和負(fù)類樣本點(diǎn)到類中心的距離,ω表示一個(gè)很小的正數(shù),r+=max{di+},r-=max{di-}。

      FTSVM算法在構(gòu)造隸屬度函數(shù)時(shí),是通過式(7)來確定的,而該方法降低了接近超平面而遠(yuǎn)離類中心的樣本點(diǎn)的影響。如圖1給出了樣本點(diǎn)的分類情況。

      圖1 樣本點(diǎn)的分類情況Fig.1 Classification of sample points

      在圖1中,用黑色線表示樣本點(diǎn)的分類面,圖1(a)中的樣本點(diǎn)A,B,C,D在分類面附近,而樣本點(diǎn)C和樣本點(diǎn)D距離類中心較遠(yuǎn),若依據(jù)式(7)來確定隸屬度,則會(huì)降低樣本點(diǎn)C和樣本點(diǎn)D的隸屬度。圖1(b)中的樣本點(diǎn)A,B,C,D,E對(duì)于分類面的作用幾乎相同,而到類中心的距離不同,從而被賦予了不同的隸屬度值,其中E點(diǎn)更有可能被誤判為異常值,若對(duì)于非球形分布的樣本數(shù)據(jù),誤判率會(huì)更高?;诖?,文獻(xiàn)[13]提出了一種基于類內(nèi)超平面的隸屬度函數(shù),即將樣本點(diǎn)到類中心的距離替換為樣本點(diǎn)到類內(nèi)超平面的距離。具體表達(dá)式如下:

      其中δ是一個(gè)足夠小的正數(shù),使得qi滿足qi∈(0,1],di+和di-分別表示正類樣本點(diǎn)和負(fù)類樣本點(diǎn)到類內(nèi)超平面的距離,

      雖然基于類內(nèi)超平面的FTSVM算法減少了模型對(duì)樣本集幾何形狀的依賴。但不足的是,基于樣本點(diǎn)到類內(nèi)超平面的距離來確定隸屬度函數(shù)忽略了樣本的緊密程度,從而影響了分類性能。為了更加直觀地體現(xiàn)這一問題,圖2給出了兩個(gè)不同類別樣本點(diǎn)間的緊密度差別,并對(duì)其進(jìn)行了解釋。

      圖2 樣本間緊密度的差別Fig.2 Difference of sample affinity

      在圖2(a)和圖2(b)中,假設(shè)H1和H2分別表示圖2(a)和圖2(b)中的超平面。從圖2可以發(fā)現(xiàn):樣本點(diǎn)x到超平面H1的距離大于樣本點(diǎn)x到超平面H2的距離,若單純地通過式(8)來確定隸屬度,則圖2(a)中的樣本點(diǎn)x的隸屬度比圖2(b)中的樣本點(diǎn)x的隸屬度小。但是,圖2(a)中的樣本點(diǎn)x到其他樣本點(diǎn)的距離比圖2(b)中的樣本點(diǎn)x到其他樣本點(diǎn)的距離近,即圖2(a)中的樣本點(diǎn)x與其附近樣本點(diǎn)的緊密度比圖2(b)中的樣本點(diǎn)x與其附近樣本點(diǎn)的緊密度高,圖2(a)中的樣本點(diǎn)x比圖2(b)中的樣本點(diǎn)x更有可能成為有效樣本點(diǎn),則圖2(a)中的樣本點(diǎn)x應(yīng)被賦予更大的隸屬度才更加合理。

      因此,為了能夠更好地反映樣本點(diǎn)的不確定性,本文在基于類內(nèi)超平面的隸屬度函數(shù)的基礎(chǔ)上進(jìn)一步引入了k近鄰隸屬度函數(shù),并對(duì)k近鄰隸屬度函數(shù)做了改進(jìn),從而構(gòu)造了一種新的混合隸屬度函數(shù)。下面對(duì)改進(jìn)的k近鄰隸屬度函數(shù)和混合隸屬度函數(shù)的定義進(jìn)行描述,具體如下:

      取樣本點(diǎn)xi以及與它距離最近的k個(gè)樣本,并將這k個(gè)樣本記為xj(j=1,2,…,k),xi與這k個(gè)樣本點(diǎn)的距離分別為di1,di2,…,dik。若用1/(dij+ε)表示第j個(gè)近鄰對(duì)該樣本點(diǎn)所產(chǎn)生的類別影響因子,則樣本緊密度ti的表達(dá)式[16]為:

      其中ε是一個(gè)足夠小的正數(shù),在線性情形下dij=‖xi-xj‖,在非線性情形下

      標(biāo)準(zhǔn)化后的ti為=ti Ti,其中Ti=max{t1,t2,…,tm},m表示總樣本數(shù),從式(9)可以看出:k近鄰只體現(xiàn)了樣本間的距離關(guān)系,并未考慮樣本點(diǎn)和其k個(gè)近鄰所屬類別的不同。因此,本文對(duì)k近鄰隸屬度函數(shù)進(jìn)行了適當(dāng)調(diào)整,具體分為以下三種情況:(1)如果樣本點(diǎn)與其k個(gè)近鄰樣本在同一類別,沒有混淆時(shí),則-ti保持不變;(2)如果樣本點(diǎn)與其k個(gè)近鄰樣本均在不同類別時(shí),則認(rèn)為該樣本點(diǎn)是噪聲,將樣本點(diǎn)的隸屬度賦值為0;(3)如果樣本點(diǎn)與其k個(gè)近鄰樣本有一部分在同一類別,而其余部分存在混淆時(shí),則應(yīng)該適當(dāng)減少-ti的值。綜上,改進(jìn)后的k近鄰隸屬度函數(shù)為:

      其中l(wèi)表示樣本點(diǎn)xi的k個(gè)近鄰中與xi不同類別的標(biāo)簽個(gè)數(shù),且有0≤l≤k。

      結(jié)合式(8)和式(10),確定了一種新的混合隸屬度函數(shù),該函數(shù)的表達(dá)式為:

      新隸屬度函數(shù)不僅考慮了樣本集的幾何形狀,還分析了k個(gè)近鄰樣本點(diǎn)的所屬類別。由混合隸屬度函數(shù)可知:當(dāng)k近鄰確定的樣本緊密度一定時(shí),則基于類內(nèi)超平面隸屬度函數(shù)qi與隸屬度si的值成反比;當(dāng)qi一定時(shí),如果樣本緊密度越高以及混淆程度越低時(shí),則隸屬度si的值越大。

      2.2 改進(jìn)的線性IRFTSVM算法

      集合T={(xi,yi,si),i=1,2,…,m1,m1+1,m1+2,…,m1+m2},其中xi∈Rn表示輸入的特征向量,yi∈表示相應(yīng)的類標(biāo)簽,隸屬度si∈[0,1]。在n維數(shù)據(jù)集中,將正類樣本用矩陣Am1×n=(x1,x2,…,xm1)T以及負(fù)類樣本用矩陣Bm2×n=(xm1+1,xm1+2,…,xm1+m2)T表示,則IRFTSVM算法的優(yōu)化問題為:

      其中ci(i=1,2,3,4)為懲罰參數(shù),ξ1和ξ2為松弛變量,e1和e2表示全為1的列向量,η1和η2為合適維度的向量,sA和sB表示正類樣本和負(fù)類樣本權(quán)重值所組成的向量。約束條件使用了pinball損失函數(shù),且參數(shù)τ∈[0,1]。

      通過拉格朗日乘子法對(duì)問題(12)和(13)求解,式(12)的拉格朗日函數(shù)如下:

      其 中α=(α1,α2,…,αm2)T, α≥0, β=(β1,β2,…,βm1)T,β≥0以及γ=(γ1,γ2,…,γm2)T, γ≥0。根據(jù)KKT條件,對(duì)式(14)中的w1,b1,η1和ξ2求偏導(dǎo)數(shù),并令其為零,得到以下等式:

      由式(15)和(16)化簡(jiǎn)可得:

      令α-γ=μ,且γ≥0,因此,式(18)被重新寫為μ+γ(1+1 τ)=c1sAe2,將式(22)和(23)代入拉格朗日函數(shù)(14),并根據(jù)以上等式,求得式(12)的對(duì)偶問題:

      其中I表示m1階的單位矩陣,矩陣E表示所有元素全為1的m1+m2階方陣。

      通過對(duì)偶問題(24)和(25)求得拉格朗日乘子向量α、β和γ的最優(yōu)解,將其代入式(22)和(23),進(jìn)一步求得w1和b1的值,即可確定非平行超平面wT1x+b1=0。按照同樣的方法,求解優(yōu)化問題(13)中的w2和b2以及對(duì)偶問題,具體表達(dá)式如下:

      其中λ-ρ=ψ,ρ≥0,其中I表示m2階的單位矩陣,矩陣E是所有元素全為1的m1+m2階方陣。

      在線性情況下,IRFTSVM算法的具體步驟如算法1所示:

      算法1線性IRFTSVM算法

      輸入:訓(xùn)練樣本集T,隸屬度函數(shù)中的參數(shù)ε,δ和k以及預(yù)測(cè)樣本點(diǎn)x。

      輸出:測(cè)試樣本y的類別。

      1.利用網(wǎng)格搜索法,選取懲罰參數(shù)ci(i=1,2,3,4),pinball損失參數(shù)τ;

      2.根據(jù)公式(11)計(jì)算隸屬度;

      3.根據(jù)式(24),(25),(28)和(29)求得向量(α,γ,β)和(θ,λ,ρ)的最優(yōu)解;

      4.根據(jù)式(22),(23),(26)和(27)求得原始問題w1, b1和w2, b2的解,確定非平行超平面wT1x+b1=0和wT2x+b2=0;

      5.計(jì)算新樣本點(diǎn)x到超平面wT1x+b1和wT2 x+b2的垂直距離,分別記為dist+1和dist-1;

      6.若dist+1>dist-1,則認(rèn)為樣本點(diǎn)x為-1類,否則x為+1類。

      2.3 改進(jìn)的非線性IRFTSVM算法

      與經(jīng)典的FTSVM算法不同的是:IRFTSVM算法不用考慮核生成的曲面,而是引入核函數(shù)K(xi,xj)=(φ(xi) · φ(xj)),直接將其運(yùn)用到式(24)、(25)、(28)以及(29)中。

      對(duì)x進(jìn)行相應(yīng)的變換,即X=φ(x) ,其中X∈H,H為希爾伯特空間,則訓(xùn)練樣本集T~={(Xi,yi,si) , i=1,2,…,m1,m1+1,m1+2,…,m1+m2},因此,分類超平面的優(yōu)化問題為:

      在非線性情況下,IRFTSVM算法與SVM算法的形式類似,通過使用核技巧,式(29)和(30)的對(duì)偶問題可以直接從線性情形演變而來,使得模型變得簡(jiǎn)單易行。具體表達(dá)式為:

      每個(gè)類對(duì)應(yīng)的非平行超平面為:

      若求得拉格朗日乘子向量(α,γ,β)和(θ,λ,ρ),非平行超平面(36)和(37)即可被確定。

      在非線性情況下,IRFTSVM算法的具體步驟如算法2所示:

      算法2非線性IRFTSVM算法

      輸入:訓(xùn)練樣本集T,隸屬度函數(shù)中的參數(shù)ε,δ和k以及預(yù)測(cè)樣本點(diǎn)x。

      輸出:測(cè)試樣本y的類別。

      1.選擇核函數(shù)K,利用網(wǎng)格搜索法,選取懲罰參數(shù)ci(i=1,2,3,4),pinball損失參數(shù)τ以及高斯核參數(shù)σ;

      2.根據(jù)公式(11)計(jì)算隸屬度;

      3.根據(jù)式(32),(33),(34)和(35)求解(α,γ,β)和(θ,λ,ρ)的最優(yōu)解;

      4.根據(jù)式(36)和(37)構(gòu)造非平行超平面;

      5.計(jì)算新樣本點(diǎn)x到超平面(36)和(37)的垂直距離,分別記為dist+1和dist-1;

      6.若dist+1>dist-1,則認(rèn)為樣本點(diǎn)x為-1類,否則x為+1類。

      2.4 IRFTSVM時(shí)間復(fù)雜度分析和算法描述

      在本節(jié)中,對(duì)FTSVM算法和IRFTSVM算法的時(shí)間復(fù)雜度進(jìn)行了分析與比較。

      假設(shè)訓(xùn)練樣本的總數(shù)為m,且正類樣本數(shù)和負(fù)類樣本數(shù)相等,即約為m/2。在FTSVM算法中,F(xiàn)TSVM算法的時(shí)間復(fù)雜度[5]約為O(2×(m/2)2),即O(m3)/4;在IRFTSVM算法中,求解隸屬度所花費(fèi)的時(shí)間復(fù)雜度約為O(m),IRFTSVM算法在求解對(duì)偶問題時(shí),由于矩陣規(guī)模較大,使得時(shí)間復(fù)雜度較高,即求解兩個(gè)二次規(guī)劃問題所需要花費(fèi)的時(shí)間復(fù)雜度約為O(m3)。則IRFTSVM算法的總時(shí)間復(fù)雜度約為O(m+m3),即約為O(m3),IRFTSVM算法的時(shí)間復(fù)雜度比FTSVM算法高了4倍左右。

      盡管IRFTSVM算法的時(shí)間復(fù)雜度高于FTSVM算法,但是IRFTSVM算法不需要像FTSVM算法一樣計(jì)算復(fù)雜的逆矩陣,且模擬實(shí)驗(yàn)結(jié)果表明,本文算法的平均準(zhǔn)確率均高于FTSVM算法。

      為了能夠更加直觀體現(xiàn)本文算法的思想,如圖3給出了IRKFTSVM算法的流程圖。

      圖3 IRFTSVM算法流程圖Fig.3 Flow chart of IRFTSVM algorithm

      3 仿真實(shí)驗(yàn)與分析

      3.1 數(shù)據(jù)集

      選用人工數(shù)據(jù)集Ripley[17]和UCI中的12個(gè)常用數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。Ripley數(shù)據(jù)集包含250個(gè)訓(xùn)練樣本點(diǎn),1 000個(gè)測(cè)試樣本點(diǎn),特征維數(shù)為2。表1和表2列出了UCI數(shù)據(jù)集的相關(guān)信息。

      表1 UCI數(shù)據(jù)集Table 1 UCI datasets

      表2 含有不同噪聲比例的數(shù)據(jù)集Table 2 Datasets with different noise ratios

      3.2 實(shí)驗(yàn)設(shè)計(jì)和參數(shù)設(shè)置

      所有實(shí)驗(yàn)均在Matlab 2016a中完成,用十折交叉驗(yàn)證法評(píng)估本文算法與SVM、TWSVM、FTSVM、TBSVM以及PTSVM算法的平均準(zhǔn)確率,實(shí)驗(yàn)中采用的核函數(shù)為線性核函數(shù)K(x,xi)=x·xi和高斯核函數(shù)K(x,xi)=exp(-‖x-xi‖22σ2)。

      令模糊隸屬度函數(shù)中的參數(shù)k=10,δ和ε均取值為0.05。為了簡(jiǎn)化參數(shù)調(diào)節(jié),令c1=c2,c3=c4。采用網(wǎng)格搜索法[18]對(duì)高斯核參數(shù)σ、懲罰參數(shù)ci(i=1,2,3,4)和pinball損失函數(shù)中參數(shù)τ進(jìn)行篩選,其中參數(shù)σ和ci(i=1,2,3,4)均在{2i|i=-8,-7,…,8}范圍內(nèi)確定,參數(shù)τ在{ }0.01,0.2,0.5,1.0范圍內(nèi)搜索。

      3.3 實(shí)驗(yàn)結(jié)果與分析

      下面通過4個(gè)實(shí)驗(yàn)來驗(yàn)證IRFTSVM算法的有效性。用準(zhǔn)確率(ACC)作為分類性能的評(píng)價(jià)標(biāo)準(zhǔn),準(zhǔn)確率的計(jì)算公式如下:

      其中TP、FP、TN、FN分別表示正確分類的正類樣本數(shù)、錯(cuò)誤分類的正類樣本數(shù)、正確分類的負(fù)類樣本數(shù)以及錯(cuò)誤分類的負(fù)類樣本數(shù)。

      3.3.1 人工數(shù)據(jù)集實(shí)驗(yàn)結(jié)果及分析

      實(shí)驗(yàn)1為了驗(yàn)證本文算法的分類性能,在人工數(shù)據(jù)集Ripley上進(jìn)行實(shí)驗(yàn)。在等效條件下,如圖4和圖5展示了這6種算法在線性情形下和非線性情形下Ripley數(shù)據(jù)集上的最優(yōu)超平面。表3給出了本文算法與SVM、TWSVM、FTSVM、TBSVM以及PTSVM算法在線性核和高斯核下的平均準(zhǔn)確率。

      表3 IRFTSVM算法與其他5種算法的平均準(zhǔn)確率Table 3 Average accuracy of IRFTSVM and other five algorithms 單位:%

      在圖4和圖5中,SVM算法中的黑色曲線為最佳決策超平面,藍(lán)色曲線和紅色曲線分別表示正類樣本點(diǎn)和負(fù)類樣本點(diǎn)的決策邊界,而其余5種分類算法中的黑色曲線為分類線,紅色曲線和藍(lán)色曲線表示相應(yīng)算法的最佳決策超平面。則可以得出:SVM算法只有一個(gè)決策超平面,其余5種算法有兩個(gè)決策超平面,進(jìn)而通過樣本點(diǎn)到這兩個(gè)超平面的距離來確定該樣本的類別。

      圖5 在非線性情況下6種算法的模擬結(jié)果Fig.5 Simulation results of six algorithms in nonlinear case

      從表3的結(jié)果可以看出:在線性情況下,IRFTSVM算法相對(duì)于TWSVM、TBSVM、FTSVM和PTSVM算法,它的平均準(zhǔn)確率分別提高了0.27、0.18、0.26和0.32個(gè)百分點(diǎn),而僅對(duì)于SVM算法,IRFTSVM算法的平均準(zhǔn)確率降低了0.21個(gè)百分點(diǎn);在非線性情況下,本文算法的分類性能均高于其他5種對(duì)比算法,其中相對(duì)于TWSVM算法,IRFTSVM算法的平均準(zhǔn)確率提高了3.02個(gè)百分點(diǎn),說明了本文算法在一定程度上提高了模型的泛化能力。

      3.3.2 UCI數(shù)據(jù)集實(shí)驗(yàn)結(jié)果及分析

      實(shí)驗(yàn)2為了驗(yàn)證本文所構(gòu)造的混合隸屬度函數(shù)的有效性,將本文算法與基于樣本點(diǎn)到類內(nèi)超平面計(jì)算隸屬度的IRFTSVM算法(命名為IRFTSVM_H)以及式(10)計(jì)算隸屬度的IRFTSVM算法(命名為IRFTSVM_K)進(jìn)行比較,運(yùn)用表2中的Vote、Breast和Splice這3個(gè)數(shù)據(jù)集。圖6和圖7分別是這3種算法在線性核和高斯核下的平均準(zhǔn)確率。

      圖6和圖7的結(jié)果表明:在線性核下,對(duì)于數(shù)據(jù)集Vote和Splice,本文提出的IRFTSVM算法的平均準(zhǔn)確率是最高的,僅在數(shù)據(jù)集Breast不含噪聲的情況下,本文算法的平均準(zhǔn)確率相對(duì)于IRFTSVM_H算法略有下降;在高斯核下,在Vote、Breast和Splice這3個(gè)數(shù)據(jù)集中,本文算法的平均準(zhǔn)度率均高于其他兩種對(duì)比算法,當(dāng)含噪量為10%時(shí),表現(xiàn)結(jié)果較為明顯。說明了將基于樣本點(diǎn)到類內(nèi)超平面的隸屬度函數(shù)和改進(jìn)的k近鄰隸屬度結(jié)合是有效的。

      圖6 3種算法在線性核下不同噪聲比例的模擬結(jié)果Fig.6 Simulation results of three algorithms with different noise ratios using linear kernel

      圖7 3種算法在高斯核下不同噪聲比例的模擬結(jié)果Fig.7 Simulation results of three algorithms with different noise ratios using Gaussian kernel

      實(shí)驗(yàn)3為了驗(yàn)證本文所引入的pinball損失函數(shù)在噪聲影響下的有效性,將基于鉸鏈損失函數(shù)的IRFTSVM算法(命名為Hinge-IRFTSVM)和基于pinball損失函數(shù)的IRFTSVM算法(命名為Pin-IRFTSVM)分別在不含噪聲、含5%的噪聲以及含10%的噪聲的數(shù)據(jù)集中進(jìn)行測(cè)試,選取表2中的Diabetes、Liverdisorder、Haberman和Blood這4個(gè)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。圖8和圖9分別是這兩種算法在線性核和高斯核下的平均準(zhǔn)確率,其中橫坐標(biāo)表示數(shù)據(jù)集,縱坐標(biāo)表示在不同數(shù)據(jù)集上對(duì)應(yīng)的平均準(zhǔn)確率。

      實(shí)驗(yàn)4為了進(jìn)一步驗(yàn)證IRFTSVM算法的有效性,將IRFTSVM算法與SVM、TWSVM、FTSVM、TBSVM以及PTSVM算法進(jìn)行對(duì)比。運(yùn)用表1中的UCI數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),表4和表5給出了本文算法與其他5種對(duì)比算法分別在線性核和高斯核下的平均準(zhǔn)確率。

      表4 在線性核下IRFTSVM與對(duì)比算法的平均準(zhǔn)確率Table 4 Average accuracy of IRFTSVM and comparison algorithms with linear kernel 單位:%

      表5 在高斯核下IRFTSVM與對(duì)比算法的平均準(zhǔn)確率Table 5 Average accuracy of IRFTSVM and comparison algorithms with Gaussian kernel 單位:%

      從圖8和圖9的結(jié)果可以看出:在線性核函數(shù)下,當(dāng)含噪量為5%和10%時(shí),基于pinball損失的IRFTSVM算法在所有數(shù)據(jù)集中的平均準(zhǔn)確率均高于基于鉸鏈損失的IRFTSVM算法,然而,僅在不含噪聲時(shí),pinball損失的IRFTSVM算法在數(shù)據(jù)集Diabetes中的準(zhǔn)確率略低于基于鉸鏈損失的IRFTSVM算法;在非線性核函數(shù)下,當(dāng)含噪量為5%和10%時(shí),基于pinball損失的IRFTSVM算法在所有數(shù)據(jù)集中的平均準(zhǔn)確率均高于基于鉸鏈損失的IRFTSVM算法,而當(dāng)不含噪聲時(shí),pinball損失的IRFTSVM算法在Diabetes和Liverdisorder兩個(gè)數(shù)據(jù)集中的準(zhǔn)確率低于基于鉸鏈損失的IRFTSVM算法,體現(xiàn)了將鉸鏈損失函數(shù)替換為pinball損失函數(shù),可以降低算法對(duì)噪聲的敏感性。

      圖8 兩種算法在線性核下不同噪聲比例的模擬結(jié)果Fig.8 Simulation results of two algorithms with different noise ratios using linear kernel

      圖9 兩種算法在高斯核下不同噪聲比例的模擬結(jié)果Fig.9 Simulation results of two algorithms with different noise ratios using Gaussian kernel

      從表4和表5的結(jié)果可以看出:在線性核下,IRFTSVM算法在Pima、Heart、Hepatitis、Australian、German、WDBC和WPBC數(shù)據(jù)集中的分類性能最佳,而在Ionosphere數(shù)據(jù)集中,IRFTSVM算法的平均準(zhǔn)確率相對(duì)TBSVM算法僅降低了0.06個(gè)百分點(diǎn),在Sonar數(shù)據(jù)集中,IRFTSVM算法的平均準(zhǔn)確率比SVM算法降低了0.50個(gè)百分點(diǎn);在高斯核下,相對(duì)于其他5種對(duì)比算法,IRFTSVM算法在9個(gè)數(shù)據(jù)集上的平均準(zhǔn)確率均有所提高,說明了本文所改進(jìn)的算法是有效的。

      4 結(jié)束語

      針對(duì)FTSVM算法存在的一些問題,本文對(duì)其進(jìn)行了改進(jìn),提出了一種改進(jìn)的魯棒模糊孿生支持向量機(jī)算法(IRFTSVM)。IRFTSVM算法通過引入新的混合隸屬度函數(shù),提高了算法的分類性能,此外,構(gòu)造了與以往不同的拉格朗日函數(shù),從而避免了逆矩陣運(yùn)算,而且可以直接使用核技巧將線性問題擴(kuò)展到非線性問題,不需要像FTSVM算法一樣重新構(gòu)造非線性問題。實(shí)驗(yàn)結(jié)果表明,IRFTSVM算法能夠較好地解決分類問題,并且在分類性能上取得了令人滿意的結(jié)果。由于IRFTSVM算法存在計(jì)算時(shí)間復(fù)雜度高以及只涉及到二分類等問題,因此,降低時(shí)間復(fù)雜度和將二分類問題擴(kuò)展到多分類問題將是下一步的主要研究方向。

      猜你喜歡
      超平面線性損失
      漸近線性Klein-Gordon-Maxwell系統(tǒng)正解的存在性
      少問一句,損失千金
      全純曲線的例外超平面
      涉及分擔(dān)超平面的正規(guī)定則
      胖胖損失了多少元
      線性回歸方程的求解與應(yīng)用
      以較低截?cái)嘀財(cái)?shù)分擔(dān)超平面的亞純映射的唯一性問題
      玉米抽穗前倒伏怎么辦?怎么減少損失?
      二階線性微分方程的解法
      一般自由碰撞的最大動(dòng)能損失
      霍林郭勒市| 于田县| 鞍山市| 旬邑县| 剑川县| 边坝县| 前郭尔| 汉中市| 海兴县| 尉犁县| 彰化市| 拜泉县| 龙门县| 蚌埠市| 肥城市| 苍溪县| 石首市| 崇文区| 漳浦县| 皋兰县| 历史| 开化县| 错那县| 九龙县| 尉犁县| 乐陵市| 沙坪坝区| 隆昌县| 东方市| 河东区| 文登市| 合阳县| 崇礼县| 体育| 上栗县| 阜城县| 金溪县| 宜春市| 诏安县| 洛隆县| 宁河县|