劉云瑞,周水生
(西安電子科技大學(xué) 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,陜西 西安 710126)
近年來,人們收集和存儲數(shù)據(jù)的能力得到了極大的提高。在科學(xué)研究和社會生活的各個領(lǐng)域,海量表現(xiàn)形式復(fù)雜的數(shù)據(jù)涌現(xiàn)。針對同一對象從不同途徑或不同層面獲得的特征數(shù)據(jù)被稱為多視角數(shù)據(jù),其呈現(xiàn)出多態(tài)性、多源性、多描述性和高維異構(gòu)性等特點(diǎn)。多視角數(shù)據(jù)廣泛存在于生物醫(yī)學(xué)研究[1-2]、工業(yè)生產(chǎn)實(shí)踐[3-4]和無監(jiān)督學(xué)習(xí)等領(lǐng)域[5-6]。
多視角數(shù)據(jù)不僅可以從不同領(lǐng)域、不同特征提取獲得,而且也可以通過隨機(jī)劃分、主成分分析、降維等方法人工生成[7-8]。不同視角間既具有內(nèi)在聯(lián)系,又存在差異,因此需要一種新的學(xué)習(xí)方法對這些數(shù)據(jù)和特征進(jìn)行加工處理,從而充分合理地利用多視角數(shù)據(jù)中的信息。這就誕生了一個新的領(lǐng)域——多視角學(xué)習(xí)(Multi-View Learning,MVL)。經(jīng)典的支持向量機(jī)(Support Vector Machines,SVM)屬于單視角學(xué)習(xí)范疇,可以很好地解決小樣本分類、回歸等學(xué)習(xí)問題,是一種基于結(jié)構(gòu)風(fēng)險最小化原則和最大間隔原理的機(jī)器學(xué)習(xí)方法。但是,支持向量機(jī)所用到的數(shù)據(jù)往往是單個視角的數(shù)據(jù),并不能很好地發(fā)掘多視角數(shù)據(jù)之間的結(jié)構(gòu)特性。目前圍繞支持向量機(jī)衍生出來的多視角學(xué)習(xí)算法越來越多,較為流行的有以下幾種算法:基于學(xué)習(xí)使用特權(quán)信息框架(Learning Using Privileged Information,LUPI),是通過將特權(quán)信息確定的非負(fù)校正函數(shù)替換標(biāo)準(zhǔn)支持向量機(jī)中的松弛變量得到的SVM+模型[9-12];將多視角學(xué)習(xí)理論應(yīng)用于最大熵判別算法(Maximum Entropy Discrimination,MED),得到多視角最大交叉熵模型(Multi-View Maximum Entropy Discrimination,MVMED)[13-14];將正則化最小二乘孿生支持向量機(jī)(Regularized Least Squares Twin SVM,RLSTSVM)與多視角學(xué)習(xí)理論結(jié)合,可以得到正則化多視角最小二乘孿生支持向量機(jī)(Regularized Multi-view Least Squares Twin SVM,RMvLSTSVM)[15]。典型相關(guān)性分析(Canonical Correlation Analysis,CCA)和核典型相關(guān)性分析(Kernel Canonical Correlation Analysis,KCCA)[16-17]是兩種常用的子空間學(xué)習(xí)算法,利用映射后的基向量之間的相關(guān)關(guān)系來反映原始變量之間的相關(guān)性,得到多視角數(shù)據(jù)的共享子空間。FARQUHAR等[18]利用樣本的多個特征集和標(biāo)簽信息,提出將KCCA和SVM相結(jié)合的SVM-2K多視角學(xué)習(xí)模型,由此也產(chǎn)生了許多新型的多視角子空間學(xué)習(xí)算法[19-20]。
在機(jī)器學(xué)習(xí)研究中,許多學(xué)者基于不同的損失函數(shù)提出了不同的支持向量機(jī)模型。最經(jīng)典的就是基于合頁(hinge)損失函數(shù)提出的支持向量機(jī)模型,往往通過MATLAB求解二次規(guī)劃問題,算法復(fù)雜度較高。基于最小二乘損失,文獻(xiàn)[21-22]提出的最小二乘支持向量機(jī)(Least Squares SVM,LSSVM)模型,只需要求解線性方程組即可解決問題,降低了模型的計(jì)算復(fù)雜度,取得了廣泛的應(yīng)用。多視角學(xué)習(xí)模型SVM-2K若通過對偶問題的二次規(guī)劃形式求得最優(yōu)解,則不僅效率低下,而且精度較低。受傳統(tǒng)最小二乘支持向量機(jī)模型改進(jìn)思路的啟發(fā),筆者首先提出了對SVM-2K模型改進(jìn)的LSSVM-2K模型,只需要求解一個線性方程組即可快速獲得良好的分類結(jié)果。同時,針對SVM-2K模型中不同的損失函數(shù),可以構(gòu)建另外兩種部分應(yīng)用最小二乘思想的LSSVM-2KI和LSSVM-2KII學(xué)習(xí)算法,并輔助驗(yàn)證LSSVM-2K模型的優(yōu)劣性。實(shí)驗(yàn)結(jié)果表明,LSSVM-2K模型在處理多視角數(shù)據(jù)分類問題上具有良好的分類性能,尤其是大大縮減了訓(xùn)練時間,在較大規(guī)模的數(shù)據(jù)集上相比于SVM-2K模型訓(xùn)練時間縮減了約90%。LSSVM-2KI具有比LSSVM-2K模型更好的分類效果,訓(xùn)練時間比SVM-2K模型的短,但比LSSVM-2K模型的長一些。LSSVM-2KII在分類精度和訓(xùn)練時間上均介于兩種模型之間。
先簡述LSSVM和SVM-2K模型及算法,并在下一節(jié)提出引用了最小二乘思想的LSSVM-2K、LSSVM-2KI和LSSVM-2KII模型。
由于引入了hinge損失,使得支持向量機(jī)成為一個非光滑的凸優(yōu)化問題,往往要通過求解帶約束的對偶問題得到其最優(yōu)解。顯然,對于非光滑的凸優(yōu)化問題的求解比較復(fù)雜。在支持向量機(jī)中引入光滑的最小二乘損失,可以構(gòu)造如下所示光滑的凸優(yōu)化問題:
(1)
其中,lleastsquares(w,b)=(1-yi(wTφ(xi)+b))2,是最小二乘損失;φ是將樣本數(shù)據(jù)xi從低維映射到高維空間的特征映射;xi和yi分別是經(jīng)典單視角學(xué)習(xí)模型的訓(xùn)練樣本和標(biāo)簽,i=1,2,…,l。
通過求解優(yōu)化問題的KKT條件,可以立即寫出下式來求解問題:
(2)
多視角數(shù)據(jù)的涌現(xiàn)使得多視角學(xué)習(xí)逐漸成為熱門話題,許多學(xué)者致力于多視角學(xué)習(xí)領(lǐng)域的研究。典型相關(guān)性分析和核典型相關(guān)性分析利用映射后的基向量之間的相關(guān)關(guān)系來反映原始變量之間的相關(guān)性,從而得到多視角數(shù)據(jù)的共享子空間,它們是兩種常用的子空間學(xué)習(xí)方法。FARQUHAR等[18]提出了將子空間學(xué)習(xí)方法和支持向量機(jī)相結(jié)合,進(jìn)而構(gòu)造出了SVM-2K模型。
(3)
通過拉格朗日函數(shù),得到原問題(3)的沃爾夫?qū)ε紴?/p>
(4)
(5)
上述有約束的SVM-2K算法可以改寫為如下所示的無約束優(yōu)化問題:
(6)
A、B兩個視角松弛變量對應(yīng)的hinge損失函數(shù)為
(7)
A、B兩個視角間一致性約束的松弛變量對應(yīng)的ε不敏感損失函數(shù)為
(8)
SVM-2K模型雖然可以有效地利用多視角數(shù)據(jù)間的結(jié)構(gòu)特性提高分類性能,但由于凸優(yōu)化問題是非光滑的,這將花費(fèi)更長的訓(xùn)練時間和更大的內(nèi)存空間來滿足計(jì)算需要,增大了問題的求解難度。最小二乘損失是一個光滑的凸函數(shù),在計(jì)算上要比非光滑的凸hinge損失函數(shù)更容易求得最優(yōu)解,可以大大地降低計(jì)算復(fù)雜度。SVM-2K模型中的ε是一個容許樣本違反約束的不敏感松弛變量,一般取較小值。此外,筆者研究的是具有核函數(shù)的非線性問題,為簡單起見,只考慮沒有偏置b的多視角學(xué)習(xí)器[23]。實(shí)際上,偏置b可以視為添加進(jìn)每一個樣本中額外的值為1的屬性。借鑒最小二乘思想,一致性不等式約束可以改為等式約束,故可得到如下修正的一致性等式約束條件[24]:
(9)
將構(gòu)造如下所示的最小二乘損失函數(shù)對SVM-2K模型進(jìn)行改進(jìn),并在下文對如何有效利用最小損失函數(shù)展開討論。
A、B兩個視角各自的松弛變量對應(yīng)的最小二乘損失函數(shù)為
(10)
衡量A、B兩個視角一致性約束的松弛變量對應(yīng)的最小二乘損失函數(shù)為
(11)
這里的模型假設(shè)和符號意義均和SVM-2K模型相同,不再重述。用最小二乘損失完全替換LSSVM模型中的兩個hinge損失和一個ε不敏感損失,最終得到LSSVM-2K模型:
(12)
(13)
對偶問題可以化簡為如下所示的簡潔形式:
(14)
(15)
(16)
(17)
在單視角學(xué)習(xí)任務(wù)中,LSSVM模型相比于支持向量機(jī)最突出的優(yōu)點(diǎn)便是大大縮短了訓(xùn)練時間。那么,如何對擁有3個松弛變量的SVM-2K模型應(yīng)用最小二乘思想,是筆者也要考慮的問題。在此通過對SVM-2K模型應(yīng)用最小二乘損失,不同程度地替換原模型中的hinge損失。筆者分別構(gòu)建了LSSVM-2KI和LSSVM-2KII模型,以便更好地研究最小二乘損失對SVM-2K模型的影響。這里的模型假設(shè)和符號意義均和SVM-2K模型的相同,不再贅述。
2.2.1 LSSVM-2KI模型
SVM-2K模型中的ξA,ξB表示A、B兩個視角分離超平面各自對應(yīng)的松弛變量。SVM-2K模型中的松弛變量ξA,ξB與一致性約束的松弛變量ξ意義相近。因此,首先通過對SVM-2K模型中ξA,ξB應(yīng)用最小二乘思想,同時保持原模型中一致性約束為不等式約束,構(gòu)建了LSSVM-2KI模型:
(18)
通過拉格朗日函數(shù)得到原問題式(18)的沃爾夫?qū)ε紴?/p>
修復(fù)重復(fù)三元組不一致性,用R代表(s,p,o)[start,end])是一條時態(tài)RDF數(shù)據(jù)記錄,Ri表示第i條記錄,Ri+1就是下一條記錄。首先在時態(tài)RDF數(shù)據(jù)庫中的記錄中匹配(s,p,o)三元組,找到三元組完全一樣的時態(tài)RDF數(shù)據(jù)記錄,通過比較兩個時間區(qū)間的起始時間點(diǎn)和結(jié)束時間點(diǎn),計(jì)算出修改時間區(qū)間,對一條記錄的兩個時間點(diǎn)進(jìn)行修改,再刪除另外一條記錄。
(19)
這里同樣可以將對偶問題轉(zhuǎn)化為一個簡單的有約束的二次規(guī)劃形式,證明方法與LSSVM-2K模型類似。然后,通過求解二次規(guī)劃問題即可求得最優(yōu)解。
2.2.2 LSSVM-2KII模型
再通過對SVM-2K模型中一致性松弛變量ξ應(yīng)用最小二乘思想,同時保持A,B兩個視角各自的松弛變量ξA,ξB不變,構(gòu)建了LSSVM-2KⅡ模型和拉格朗日函數(shù):
(20)
通過拉格朗日函數(shù)得到原問題式(20)的沃爾夫?qū)ε紴?/p>
(21)
這里同樣可以將對偶問題轉(zhuǎn)化為一個簡單的有約束的二次規(guī)劃形式,證明方法也與LSSVM-2K模型類似。然后,通過求解二次規(guī)劃問題即可求得最優(yōu)解。
LSSVM-2K模型通過求解一個簡單線性方程組得到問題的最優(yōu)解。對于LSSVM-2KI、LSSVM-2KII,通過二次規(guī)劃求解器解決問題。通過上述分析,設(shè)計(jì)了LSSVM-2K、LSSVM-2KI和LSSVM-2KII算法的步驟,3個模型的算法的不同之處將在括號中注明。
輸出:αA,αB,α(LSSVM-2KI模型輸出αA,αB,α+,α-),決策函數(shù)如式(15)~(17)所示。
步驟2 通過交叉驗(yàn)證選擇最優(yōu)參數(shù),構(gòu)建并且求解線性方程組(LSSVM-2KI和LSSVM-2KII構(gòu)建并且求解二次規(guī)劃問題,通過交叉驗(yàn)證選擇最優(yōu)參數(shù));
步驟4 通過決策函數(shù)式(15)~(16)分別預(yù)測單個視角A的測試樣本xA和單個視角B的測試樣本xB的標(biāo)簽,最后通過決策函數(shù)式(17)共同預(yù)測兩個視角樣本(xA,xB)的標(biāo)簽。
本節(jié)將展示LSSVM-2K模型和另外兩個模型LSSVM-2KI、LSSVM-2KII的實(shí)驗(yàn)結(jié)果,并與其他多視角分類方法進(jìn)行比較。為了驗(yàn)證筆者提出算法的普適性和有效性,將在動物特征數(shù)據(jù)集(Animals With Attributes,AWA)、UCI手寫數(shù)字集(UCI Digits Dataset)和森林覆蓋類型數(shù)據(jù)集(Forest CoverType Data)上進(jìn)行實(shí)驗(yàn)。這3組數(shù)據(jù)集在多視角學(xué)習(xí)領(lǐng)域應(yīng)用較為廣泛。AWA數(shù)據(jù)集探究模型在固定視角下不同分類對象的分類精度和訓(xùn)練時間,Digits數(shù)據(jù)集探究模型在固定分類對象下不同視角的分類精度和訓(xùn)練時間,F(xiàn)orest CoverType Data數(shù)據(jù)集探究模型在不同數(shù)據(jù)規(guī)模情況下各個模型的分類精度和訓(xùn)練時間。通過在這些不同的數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),可以多視角、多維度地驗(yàn)證模型的優(yōu)劣性,同時也說明了多視角學(xué)習(xí)算法具有較強(qiáng)的普適性。實(shí)驗(yàn)環(huán)境如下:Windows 7系統(tǒng),8 GB內(nèi)存,Intel(R)Core(TM)i7-4790 CPU的電腦,編程環(huán)境為Matlab R2017b。
當(dāng)前,多視角學(xué)習(xí)理論在各個領(lǐng)域都有廣泛的應(yīng)用。在支持向量機(jī)領(lǐng)域中具代表性的有SVM+、MVMED、RMvLSTSVM和SVM-2K。將筆者構(gòu)建的LSSVM-2K,LSSVM-2KI和LSSVM-2KII模型與上述模型進(jìn)行比較,以驗(yàn)證新模型的優(yōu)越性。
(1)SVM+:由特權(quán)信息確定的非負(fù)校正函數(shù)替換標(biāo)準(zhǔn)支持向量機(jī)中的松弛變量,就可得到SVM+模型。選擇其中一個視角作為訓(xùn)練的標(biāo)準(zhǔn)信息,另一個視角作為特權(quán)信息,分別記為SVM+A(視角B為特權(quán)信息)和SVM+B(視角A為特權(quán)信息),將這兩種情況均作為比較模型。
(2)MVMED:MVMED是在結(jié)合了最大熵和最大間隔原理的最大熵判別算法(MED)的基礎(chǔ)上應(yīng)用了多視角學(xué)習(xí)理論的模型。
(3)RMvLSTSVM:正則化最小二乘孿生支持向量機(jī)(RLSTSVM)是一種新的不平行超平面分類器,它與多視角學(xué)習(xí)理論結(jié)合產(chǎn)生了RMvLSTSVM模型。
(4)SVM-2K:SVM-2K模型是一種結(jié)合了KCCA和SVM的經(jīng)典多視角學(xué)習(xí)模型。
參數(shù)選取:模型中的參數(shù)均采用網(wǎng)格搜索法進(jìn)行參數(shù)尋優(yōu)。SVM+模型和MVMED模型中網(wǎng)格尋優(yōu)參數(shù)范圍取C={10-3,10-2,…,100,…,102,103}。對于RMvLSTSVM模型,不失一般性,為了加快模型的求解,假設(shè)正類和負(fù)類中松弛變量的參數(shù)均相等,取c1=c2=c3=c4={10-3,10-2,…,100,…,102,103},D=H={10-3,10-2,…,100,…,102,103}。在SVM-2K,LSSVM-2K,LSSVM-2KI和LSSVM-2KII模型中,網(wǎng)格尋優(yōu)參數(shù)范圍取CA=CB={10-3,10-2,…,100,…,102,103},D={10-3,10-2,…,100,…,102,103},這里均采用高斯核函數(shù)κ(xi,xj)=exp(-‖xi-xj‖2/2σ2),其中σ是核函數(shù)參數(shù),取值范圍是σ={2-6,2-5,…,2-1,20,21,…,26}。為公平起見,以上所有模型的學(xué)習(xí)率γ取1,所有實(shí)驗(yàn)數(shù)據(jù)均進(jìn)行歸一化處理,并在同一條件下運(yùn)行10次,取平均值來統(tǒng)計(jì)結(jié)果。
通過將構(gòu)建的模型應(yīng)用在動物特征數(shù)據(jù)集上,探究在固定兩個視角下不同分類對象的模型分類情況。AWA由50個動物類別的30 475幅圖像組成,每幅圖像有6個預(yù)先提取的特征表示。這里選取顏色直方圖特征(Color Histogram Features)和加速穩(wěn)健特征(SURF Features)兩種不同的特征提取方案,分別作為視角A和視角B。在A、B兩個視角中各自選取了4個測試類,即黑猩猩(chimpanzee)、美洲豹(leopard)、浣熊(raccoon)和斑馬(zebra),共計(jì)2 712張照片的數(shù)據(jù)特征。通過一對一策略,為每個類共組合訓(xùn)練了6組二分類器,如表1所示。在每種動物類中隨機(jī)選取100個樣本作為訓(xùn)練集,其余的作為測試集。實(shí)驗(yàn)結(jié)果如表1所示。
根據(jù)表1可知,對于固定兩個視角下不同分類對象的情況,LSSVM-2K、LSSVM-2KI和LSSVM-2KII模型的分類情況要明顯優(yōu)于同類其他多視角模型。對這3種模型進(jìn)一步進(jìn)行比較,可以發(fā)現(xiàn)LSSVM-2K分類情況良好且所需要的平均訓(xùn)練時間是同類中最少的,但它比LSSVM-2KI模型的分類效果在整體上略差一些。事實(shí)上,LSSVM-2KI是這3種模型中分類效果最好的,但訓(xùn)練耗時較長。LSSVM-2KII的分類情況在整體上表現(xiàn)則較為一般。
表1 AWA數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果對比
通過將構(gòu)建的模型應(yīng)用在UCI手寫數(shù)字集上,探究新模型在固定兩個分類對象下不同視角的分類情況。Digits數(shù)據(jù)集取自UCI數(shù)據(jù)庫,由從荷蘭公用事業(yè)地圖集合中提取的共2 000個手寫數(shù)字(0~9)構(gòu)成。這些數(shù)字?jǐn)?shù)據(jù)集由mfeat-fou、mfeat-fac、mfeat-kar、mfeat-pix、mfeat-zer和mfeat-mor提取方案的視角特征來表示,每個數(shù)字由200個被數(shù)字化成二進(jìn)制圖像的樣本組成。取“0~4”之間的數(shù)字為“+1”類,“5~9”之間的數(shù)字為“-1”類。為了減少計(jì)算量,從每個類(正類或負(fù)類)隨機(jī)抽取100個樣本,每組實(shí)驗(yàn)總共200個樣本作為訓(xùn)練集,其余的作為測試集。在選取的200個樣本的基礎(chǔ)上,通過一對一的策略,每次選擇兩個視角組成實(shí)驗(yàn)數(shù)據(jù)集,共訓(xùn)練了15組二進(jìn)制分類器,實(shí)驗(yàn)結(jié)果如表2所示。
表2 Digits數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果對比
根據(jù)表2可知,對于固定分類對象下不同視角的情況,LSSVM-2K、LSSVM-2KI和LSSVM-2KII模型的分類效果同樣要優(yōu)于同類其他多視角學(xué)習(xí)模型。對這3種模型之間進(jìn)一步進(jìn)行比較,可以發(fā)現(xiàn)LSSVM-2K模型在此數(shù)據(jù)集上不僅分類效果在整體上表現(xiàn)更為良好一些,而且運(yùn)算速度更快。LSSVM-2KI的分類效果在這3種模型中分類精度表現(xiàn)相對更穩(wěn)定一些,但是平均訓(xùn)練耗時最長。而LSSVM-2KII在數(shù)據(jù)集Digits的分類效果介于兩者之間,分類效果較為一般。
通過將構(gòu)建的模型在森林覆蓋類型數(shù)據(jù)集上應(yīng)用,探究各個模型隨著訓(xùn)練集規(guī)模逐漸增大的情況下,訓(xùn)練時間的變化情況。實(shí)驗(yàn)中采用的數(shù)據(jù)集來自UCI Forest Cover Type(Frank & Asuncion,2010)數(shù)據(jù)集。UCI森林覆蓋類型數(shù)據(jù)集包含581 012個實(shí)例,12個指標(biāo)和54列數(shù)據(jù)(10個定量變量,4個荒野地區(qū)的二進(jìn)制變量和40個土壤類型的二進(jìn)制變量)以及7個目標(biāo)類,代表從US Forest獲得的30 m×30 m cells的森林覆蓋類型。在UCI森林覆蓋類型數(shù)據(jù)集中,40個屬性為代表土壤類型的二進(jìn)制列,4個屬性為代表荒野區(qū)域的二進(jìn)制列,其余10個為連續(xù)地形屬性。在實(shí)驗(yàn)中,根據(jù)一對一的策略,從原來的7種分類問題中的Aspen(9 493組數(shù)據(jù))和Douglas-fir(17 367組數(shù)據(jù))兩類數(shù)據(jù)集中隨機(jī)抽取每類8 000個數(shù)據(jù)作為二分類對象,取前者為“+1”類,后者為“-1”類。這里將10個連續(xù)屬性中的前5個屬性和4個荒野區(qū)域的二進(jìn)制列結(jié)合構(gòu)成一個9維的數(shù)據(jù)集作為視角A,將10個連續(xù)屬性中剩余的5個屬性和40個土壤類型二進(jìn)制列結(jié)合構(gòu)成另外一個45維的數(shù)據(jù)集作為視角B。通過此數(shù)據(jù)集探究隨著數(shù)據(jù)規(guī)模的逐漸增大,訓(xùn)練時間的變化情況。
圖1說明了LSSVM-2K和LSSVM-2KI模型在Forest Covertype Data數(shù)據(jù)集上相比其他模型具有更好的分類性能,且模型隨著訓(xùn)練集規(guī)模的增大,分類的精度也在逐漸提高。而且,LSSVM-2KI的分類效果相比LSSVM-2K模型要略勝一籌。
圖1 Forest Covertype Data的精度折線圖
為了更清晰地觀察到訓(xùn)練時間的變化情況,對訓(xùn)練時間取以10為底的對數(shù)做出如圖2所示的訓(xùn)練時間折線圖。由于MVMED算法所需的訓(xùn)練時間過長,暫不予以考慮,僅對SVM+,SVM-2K、LSSVM-2K、LSSVM-2KI和LSSVM-2KII模型進(jìn)行比較。
圖2 Forest Covertype Data的訓(xùn)練時間折線圖
圖2表明了隨著數(shù)據(jù)規(guī)模的增加,同類型的算法訓(xùn)練時間增加較為明顯,而且SVM-2K模型的訓(xùn)練時間的增加尤其突出。LSSVM-2KI模型相比其他同類模型可以得到更高的分類精度,但所消耗的訓(xùn)練時間比LSSVM-2K和LSSVM-2KII更長。LSSVM-2KII模型是對SVM-2K模型的一致性約束的松弛變量添加了最小二乘思想,雖然分類效果上比SVM-2K模型略差一些,但是大大縮短了模型的訓(xùn)練時間。LSSVM-2K模型相比其他同類模型既可以得到相對較好的分類精度,而且又比同樣應(yīng)用了最小二乘思想的RMvLSTSVM耗時更少,所需的訓(xùn)練時間是最短的。實(shí)際上,與SVM-2K模型相比,LSSVM-2K在訓(xùn)練集規(guī)模達(dá)到2 000時,訓(xùn)練時間縮短了約90%,證明了LSSVM-2K模型具有計(jì)算方便、速度快、精度高的優(yōu)點(diǎn)。
通過對SVM-2K模型不同程度地應(yīng)用最小二乘思想,筆者分別構(gòu)建了LSSVM-2K、LSSVM-2KI和LSSVM-2KII 3種模型。在固定視角下不同分類對象和在固定分類對象下不同分類視角的情況,探究了3種模型的分類情況。同時,探究了3種模型在不同規(guī)模的數(shù)據(jù)集下模型訓(xùn)練的耗時情況。實(shí)驗(yàn)表明,筆者提出的LSSVM-2KI算法可以有效地提高數(shù)據(jù)的分類精度,但耗時相對較長;LSSVM-2KII模型在分類精度和訓(xùn)練時間上整體表現(xiàn)較為一般;LSSVM-2K算法的分類效果雖然比LSSVM-2KI略差,但是與其他同類型的多視角分類模型相比要好,而且大大地縮短了模型的訓(xùn)練時間,研究思想具有一定的推廣價值。