阮 麗, 黃成泉, 朱文文
(1 貴州民族大學(xué) 數(shù)據(jù)科學(xué)與信息工程學(xué)院, 貴陽 550025; 2 貴州民族大學(xué) 工程技術(shù)人才實(shí)踐訓(xùn)練中心,貴陽 550025)
機(jī)器學(xué)習(xí)中,統(tǒng)計(jì)學(xué)習(xí)理論在解決小樣本和非線性的問題上有著出色表現(xiàn),其中作為典型代表的支持向量機(jī)(Support Vector Machine, SVM)[1-2]則因?yàn)樗邆涞膬?yōu)秀的性能,現(xiàn)已廣泛地應(yīng)用在各個(gè)領(lǐng)域中。但是,單任務(wù)支持向量機(jī)在訓(xùn)練樣本小、信息量不足和多個(gè)數(shù)據(jù)差異的情況下的性能表現(xiàn)上卻仍有一定欠缺。為此,在多任務(wù)學(xué)習(xí)(Mutli-task Learning)[3]的啟發(fā)下,支持向量機(jī)則被成功應(yīng)用到多任務(wù)學(xué)習(xí)上。研究可知,多任務(wù)支持向量機(jī)(Mutli-task Support Vector Mahicne, MTLSVM)通過共享數(shù)據(jù)之間信息來提高分類效果,解決了如上所述單任務(wù)向量機(jī)存在的問題。如今,MTLSVM已經(jīng)得到了學(xué)界的普遍關(guān)注和重視。早期的MTLSVM是研究單類分類的。Yang等人[4]在2010年提出了多任務(wù)學(xué)習(xí)一類分類,為MTLSVM的研究提供了參考。He等人[5]在多任務(wù)學(xué)習(xí)一類分類的基礎(chǔ)上提出了多任務(wù)-類支持向量機(jī)(Multi-task one-class support vector machines, MTOC-SVM),Xue等人[6]在MTOC-SVM的基礎(chǔ)上增加新特征,提出了支持向量機(jī)的多任務(wù)學(xué)習(xí)新特征。由于求解二次規(guī)劃問題計(jì)算復(fù)雜度高,時(shí)間成本大,為此Xu等人[7]提出了多任務(wù)最小二乘支持向量機(jī)(Multi-task least squares support vector machine, MTLSSVM),Li等人[8]根據(jù)近端支持向量機(jī)[9](Proximal support vector machine, PSVM)提出了多任務(wù)近端支持向量機(jī)(Multi-task proximal support vector machine, MTPSVM)。這2個(gè)模型都降低了計(jì)算成本。同樣地,由于多任務(wù)雙支持向量機(jī)[10](Multi-task twin support vector machine , DMTSVM)也是一個(gè)求解二次規(guī)劃的問題,其復(fù)雜性和計(jì)算量都較為可觀。因此,Mei等人[11]提出了多任務(wù)最小二乘雙支持向量機(jī)(Multi-task least squares twin support vector machine, MTLSTSVM),能有效提高計(jì)算速度。綜上研究后發(fā)現(xiàn),在這些算法中,松弛約束項(xiàng)有較大的局限性,為此,本文在傳統(tǒng)的MTLSVM的約束上增加一個(gè)權(quán)重約束,提出加權(quán)多任務(wù)最小二乘雙支持向量機(jī)(Weight multi-task least squares twin support vector machine, WMTLSTSVM)。實(shí)驗(yàn)結(jié)果表明,本文算法在分類上具有良好性能。
多任務(wù)最小二乘雙支持向量機(jī)(MTLSTSVM)是求解一對(duì)線性方程組問題的算法,這里,給出MTLSTSVM的基本理論,MTLSTSVM為本文的算法提供了理論依據(jù)。
假設(shè)一個(gè)二分類任務(wù),X1?RN1×d,X2?RN2×d代表類1和類-1。其中,X1,X2的每一行對(duì)應(yīng)一個(gè)數(shù)據(jù)樣本。X1t表示第t個(gè)任務(wù)的正類樣本,X2t表示第t個(gè)任務(wù)的負(fù)類樣本。正負(fù)超平面分別是:u=[W1,b1]T、v=[W2,b2]T,第t個(gè)任務(wù)的正負(fù)超平面是:[W1t,b1t]T=(u+ut)、[W2t,b2t]T=(v+vt)。ut和vt為u和v與第t個(gè)任務(wù)的偏差。MTLSTSVM的目標(biāo)函數(shù)如式(1)、(2)所示:
s.t.-[[X2t,e2t](u+ut)]+ξt=e2t,ξt≥0,
(1)
s.t.[[X1t,e1t](v+vt)]+ηt=e1t,ηt≥0.
(2)
其中,e1,e2,e1t,e2t表示適當(dāng)維數(shù)的列向量;ξt和ηt表示松弛向量;c1,c2,ρ,λ表示非負(fù)交換參數(shù)。
考慮到MTLSTSVM的松弛約束項(xiàng)有較大的局限性,所以,本文在MTLSTSVM的約束上增加一個(gè)權(quán)重約束,提出了加權(quán)多任務(wù)最小二乘雙支持向量機(jī)。現(xiàn)給出加權(quán)多任務(wù)最小二乘雙支持向量機(jī)算法的優(yōu)化函數(shù)如式(3)、(4)所示:
s.t.-[[X2t,e2t](u+ut)]+ξt=e2t,ξt≥0,
(3)
s.t.[[X1t,e1t](v+vt)]+ηt=e1t,ηt≥0.
(4)
其中,e1,e2,e1t,e2t表示適當(dāng)維數(shù)的列向量;ξt和ηt表示松弛向量;W表示權(quán)重參數(shù);c1,c2,ρ,λ表示非負(fù)交換參數(shù)。
先給出算法求解過程,首先引入拉格朗日乘子,將約束條件代入算法。則可以得到式(3)的拉格朗日函數(shù)如式(5)所示:
(5)
計(jì)算式(5)的KKT條件:
(6)
解式(6)可得:
[X1,e1]T[X1,e1][w1,b1]T+[X2,e2]Tα=0,
(7)
令E=[X1,e1],F(xiàn)=[X2,e2],則有:
ETE[w1,b1]T+FTα=0,
(8)
可得:
[w1,b1]T=-(ETE)-1FTα,
(9)
同理可得:
(10)
代回式(3)的約束項(xiàng)可得:
(11)
令A(yù)=F(ETE)-1FT,Bt=Ft(EtTEt)-1,B=blkdiag(B1,B2,…,Bt),代回式(11), 求解式(11)中的α可以得到正超平面如式(12)所示:
(12)
根據(jù)L1的方法,可解β,算法(5)的拉格朗日函數(shù)式如(13)所示:
(13)
求解L2可以得到β,即:
(14)
這里,第t個(gè)任務(wù)的決策函數(shù)可根據(jù)式(15)得到:
(15)
對(duì)于加權(quán)多任務(wù)最小二乘雙支持向量機(jī)非線性的情況,可通過內(nèi)核函數(shù)來解決。核函數(shù)定義為:
M=(K(E,ZT)e),Mt=(K(Et,ZT)et),
N=(K(F,ZT)e),Nt=(K(Ft,ZT)et),
這里,K(.)為特定的一個(gè)核函數(shù),ZT=(ET1,…,ETt,FT1,…,F(xiàn)Tt)為全部任務(wù)的訓(xùn)練樣本。非線性的優(yōu)化函數(shù)如式(16)、(17)所示:
s.t.-[[K(Ft,ZT),e2t](u+ut)]+ξt=e2t,ξt≥0,
(16)
s.t.[[K(Et,ZT),e1t](v+vt)]+ηt=e1t,ηt≥0,
(17)
其中,ξt、ηt是松弛變量,c1、c2是非負(fù)交換參數(shù)。第t個(gè)任務(wù)的決策函數(shù)可根據(jù)式(18)得到:
(18)
實(shí)驗(yàn)選取UCI數(shù)據(jù)庫(kù)的3個(gè)數(shù)據(jù)集(http://www.ics.uci.edu):Monk, Autistic Spectrum Disorder Screening Data for Adult(ASD), Dermatology。最優(yōu)參數(shù)來自網(wǎng)格搜索法的結(jié)果,實(shí)驗(yàn)的平均分類準(zhǔn)確率結(jié)果是通過3次交叉驗(yàn)證來獲取。參數(shù)c,ξ,ρ的范圍為{2i|i=-3,-2,-1,…,8},權(quán)重參數(shù)范圍是[0,1],這里,2個(gè)算法模型的參數(shù)視為相等的。核函數(shù)為徑向基函數(shù)(RBF)。實(shí)驗(yàn)中數(shù)據(jù)的基本信息見表1。
表1 數(shù)據(jù)集信息
3個(gè)數(shù)據(jù)集在3個(gè)模型上的平均分類準(zhǔn)確率見表2。通過分析發(fā)現(xiàn),本文算法WMTLSTSVM與MTLSTSVM和LSTSVM相比有更好的分類性能,這充分說明了,給松弛項(xiàng)增加一個(gè)權(quán)重約束,通過實(shí)驗(yàn)把原松弛變量約束項(xiàng)中的1轉(zhuǎn)變?yōu)榉秶鶾0,1]中的一個(gè)常數(shù),能有效地提高分類精度、降低訓(xùn)練時(shí)間,從而得到一個(gè)更好的結(jié)果。
表2 3個(gè)數(shù)據(jù)集上的平均分類準(zhǔn)確率結(jié)果
本文提出的加權(quán)多任務(wù)最小二乘雙支持向量機(jī),解決了傳統(tǒng)多任務(wù)支持向量機(jī)松弛約束項(xiàng)局限大的問題,引入權(quán)重參數(shù)來約束松弛變量,得到了一個(gè)更好的分類效果,通過實(shí)驗(yàn)分析發(fā)現(xiàn),本文的算法能有效地提高分類效果,減少了訓(xùn)練時(shí)間,這也證明了本文算法的有效性。