周國(guó)華,宋 潔,殷新春
(1. 常州輕工職業(yè)技術(shù)學(xué)院 信息工程系,江蘇 常州 213164;2. 揚(yáng)州大學(xué) 信息工程學(xué)院,江蘇 揚(yáng)州 225127)
在現(xiàn)實(shí)世界中,人們采集的真實(shí)數(shù)據(jù)往往是不平衡的,比如癌癥疾病診斷實(shí)例中,健康人的樣本數(shù)目往往要遠(yuǎn)多于患病者的樣本數(shù)目;詐騙短信分類中,正常短信的數(shù)目也遠(yuǎn)多于詐騙短信的數(shù)目。解決此類問(wèn)題一般主要有三種方法: 一種方法是重采樣來(lái)調(diào)整不同類別樣本的比例,如在支持向量機(jī)技術(shù)中常用的過(guò)采樣(over-sampling)和欠采樣(under-sampling)方法[1-3],但是這類方法的缺點(diǎn)是會(huì)改變樣本的原始分布結(jié)構(gòu), 采取精確復(fù)制少數(shù)類樣本的策略容易造成分類器的過(guò)擬合,而采取抽樣多類樣本的策略容易丟失部分樣本信息。第二種方法是調(diào)整分類面的偏移[4],讓分類面盡可能地遠(yuǎn)離少數(shù)類,但是這種方法也易產(chǎn)生過(guò)擬合的問(wèn)題。第三種方法是針對(duì)數(shù)據(jù)的不平衡性選取不同的代價(jià)參數(shù)[5]。這是因?yàn)闃颖镜牟黄胶夥诸悊?wèn)題一般常涉及到代價(jià)敏感學(xué)習(xí)問(wèn)題[6-8],即錯(cuò)分代價(jià)。錯(cuò)分代價(jià)包括類依賴的代價(jià)和樣本依賴的代價(jià),其中類代價(jià)可以表示為錯(cuò)誤分類兩類樣本的代價(jià)不同,樣本的不平衡分類??杀硎緸轭悇e的代價(jià)敏感問(wèn)題。如Lo等[9]在2011年通過(guò)考慮噪聲標(biāo)注問(wèn)題提出了用于自動(dòng)音樂(lè)標(biāo)注的代價(jià)敏感分類算法;萬(wàn)建武等[10]將錯(cuò)分代價(jià)融入局部保持降維的目標(biāo)函數(shù)中, 提出了一種錯(cuò)分代價(jià)最小化的局部保持降維方法,并采用了加權(quán)策略, 將算法應(yīng)用到不平衡人臉數(shù)據(jù)集上;Liu等[11]基于滿足基本運(yùn)算的不變性和各行間元素的大小差異性,并借鑒領(lǐng)域?qū)<业南闰?yàn)知識(shí),提出了容易定義成對(duì)代價(jià)的概念,運(yùn)用于不平衡數(shù)據(jù)的分類。
但是代價(jià)敏感學(xué)習(xí)方法通常為有監(jiān)督學(xué)習(xí)方法,其必須獲取足夠的訓(xùn)練數(shù)據(jù)。在實(shí)際應(yīng)用中,由于標(biāo)記樣本的標(biāo)簽這一工作費(fèi)時(shí)費(fèi)力,人們更容易得到大量的無(wú)標(biāo)記數(shù)據(jù)。因此在面對(duì)大量未知標(biāo)簽信息的不平衡數(shù)據(jù)分類問(wèn)題中,文獻(xiàn)[12]在代價(jià)敏感學(xué)習(xí)框架的基礎(chǔ)上使用半監(jiān)督學(xué)習(xí)來(lái)處理不平衡數(shù)據(jù)分類問(wèn)題,將未標(biāo)記樣本納入到分類器的求解過(guò)程中。文獻(xiàn)[13]將半監(jiān)督學(xué)習(xí)和代價(jià)敏感結(jié)合應(yīng)用在microRNA的分類問(wèn)題中。但是這兩種方法均沒(méi)有考慮數(shù)據(jù)的局部幾何分布信息對(duì)分類性能的影響,其分類精度還有待提高。
鑒于上述分析,本文提出了一種新的局部幾何保持的Laplacian代價(jià)敏感支持向量機(jī)(locality preserving cost sensitive laplacian support vector machine, LPCS-LapSVM)。該分類器為一種半監(jiān)督分類方法,將針對(duì)不平衡數(shù)據(jù)的不同代價(jià)和樣本的局部幾何流形信息同時(shí)融入Laplacian支持向量機(jī)的架構(gòu)中,從而更大程度地提高半監(jiān)督學(xué)習(xí)中不平衡問(wèn)題下分類器的分類精度。
(1)
其中ci為第i個(gè)樣本的誤分代價(jià)參數(shù),其值可按照上段的描述設(shè)置。ciεi為第i個(gè)樣本錯(cuò)分造成的損失,參數(shù)C則用于控制損失與模型復(fù)雜度的關(guān)系。CS-SVM是一種有監(jiān)督學(xué)習(xí)模型,由于可以對(duì)不同類別的樣本設(shè)置不同的代價(jià)參數(shù),對(duì)比傳統(tǒng)的支持向量機(jī)(support vector machine, SVM),更能獲得盡可能小的總體代價(jià),從而可以在不平衡的數(shù)據(jù)分類問(wèn)題中得到更加精確的分類效果。但CS-SVM的不足是無(wú)法利用無(wú)標(biāo)記信息來(lái)訓(xùn)練模型,無(wú)法應(yīng)用到半監(jiān)督學(xué)習(xí)中。
(2)
(3)
(4)
ξi>0,i=1,2,…,l
LapSVM的解的形式為式(5)。
f(x)=∑l+ui=1αiK(x,xi)
(5)
LapSVM作為一種成功的半監(jiān)督學(xué)習(xí)方法,依然存在不足之處,其主要表現(xiàn)在: ①LapSVM認(rèn)為如果兩個(gè)數(shù)據(jù)的內(nèi)在幾何空間距離較近,則判定它們屬于同一類,但在兩類樣本的邊緣地帶這種假設(shè)往往并不成立; ②LapSVM利用了數(shù)據(jù)的整體流形信息而忽略了已知樣本的類別標(biāo)簽信息,其結(jié)果導(dǎo)致忽略了不同類別內(nèi)部樣本的局部分布信息。
為了能更精確地處理半監(jiān)督場(chǎng)景下不平衡數(shù)據(jù)的分類問(wèn)題,本文在LapSVM模型的基礎(chǔ)上提出了一種新的局部幾何保持的Laplacian代價(jià)敏感支持向量機(jī)LPCS-LapSVM。LPCS-LapSVM首先使用測(cè)地線距離構(gòu)造一個(gè)新的局部幾何保持連接圖,提出類內(nèi)局部保持散度矩陣,然后將基類內(nèi)局部保持散度信息融入基于LapSVM的代價(jià)敏感學(xué)習(xí)框架中,得到一種新的Laplacian代價(jià)敏感支持向量機(jī)。因?yàn)長(zhǎng)PCS-LapSVM中融入了類內(nèi)局部保持散度信息,在解決半監(jiān)督場(chǎng)景下不平衡分類問(wèn)題時(shí),能挖掘樣本的局部幾何結(jié)構(gòu)特征和整體流形信息,從而提高半監(jiān)督分類器的分類性能。LPCS-LapSVM算法構(gòu)造原理如圖1所示。
圖1 局部幾何保持的Laplacian代價(jià) 敏感支持向量機(jī)構(gòu)造原理
現(xiàn)有算法在構(gòu)造連接圖時(shí),多采用歐氏距離,而本文方法為了利用數(shù)據(jù)在高維核空間下的局部?jī)?nèi)在幾何信息,使用測(cè)地線距離[17]構(gòu)造局部幾何保持連接圖Gw。這是因?yàn)楦呔S數(shù)據(jù)在核空間往往呈現(xiàn)折疊、螺旋或曲面等分布,導(dǎo)致歐氏距離無(wú)法正確計(jì)算樣本間的距離度量,而測(cè)地線距離能更好地根據(jù)樣本的幾何分布反映高維數(shù)據(jù)的流形信息。
定義1(局部幾何保持連接圖Gw):Gw=(V,E),其中結(jié)點(diǎn)集V={x1,…,xl,xl+1,…,xl+u},邊集E可表示為一個(gè)鄰接矩陣,基于高斯函數(shù)定義該鄰接矩陣的元素如式(6)所示。
(6)
其中exp(-d2(xi,xj)/t)為熱核函數(shù),t為一個(gè)常數(shù),KNN()表示K近鄰函數(shù)。距離度量函數(shù)d(xi,xj)的值由式(7)、式(8)計(jì)算得到:
值得注意的是,與常規(guī)LapSVM中使用的鄰接矩陣不同,dx(xi,xj)為圖Gw中邊長(zhǎng),dg(xi,xj)為同類別內(nèi)結(jié)點(diǎn)xi和xj之間的測(cè)地線距離。初始化Gw時(shí),如果xi和xj類別標(biāo)簽相同且相鄰,則d(xi,xj)=dx(xi,xj),否則d(xi,xj)設(shè)置為無(wú)窮大。
(9)
其中Dw為對(duì)角陣,Dw表示為Dw=∑l+uj=1Ww,ij,Lw=Dw-Ww為Gw的類內(nèi)拉普拉斯矩陣。
(10)
(11)
根據(jù)KKT條件,可得式(11)的對(duì)偶式為式(12)。
(12)
其中α是拉格朗日系數(shù)向量,Q=YJK(I+γILK+γGLwK)-1JTY,Y=diag(y1,y2,…,yl),J=[I,0]l×(l+u),I是l×l的單位陣。本文采用二次規(guī)劃問(wèn)題求解方法可得式(12)的最優(yōu)解α*,如式(13)、式(14)所示。
由此可得非線性LPCS-LapSVM的目標(biāo)決策函數(shù)如式(15)所示。
(15)
通過(guò)上面的分析,得到LPCS-LapSVM算法的執(zhí)行步驟,如算法1所示。
算法1:LPCS-LapSVM算法
輸入: l個(gè)已標(biāo)記樣本{(xi,yi)}li=1,u個(gè)未標(biāo)記樣本{(xj)}l+uj=l+1;輸出: 目標(biāo)決策函數(shù)f*(x). //構(gòu)建未標(biāo)記數(shù)據(jù)的類內(nèi)局部保持散度矩陣步驟1: 根據(jù)文獻(xiàn)[17]計(jì)算同類別內(nèi)結(jié)點(diǎn)xi和xj之間的測(cè)地線距離dg(xi,xj);步驟2: 根據(jù)式(7)和式(8)計(jì)算xi和xj之間距離度量函數(shù)d(xi,xj);步驟3: 根據(jù)式(6)計(jì)算基于測(cè)地線距離的局部幾何保持連接圖矩陣Ww,ij;步驟4: 根據(jù)式(9)計(jì)算類內(nèi)局部保持散度矩陣S^w;//使用全部訓(xùn)練數(shù)據(jù)完成分類器的訓(xùn)練步驟5: 對(duì)式(12)求解拉格朗日系數(shù)α*;
續(xù)表
LPCS-LapSVM算法在半監(jiān)督學(xué)習(xí)框架的基礎(chǔ)上,繼承了半監(jiān)督學(xué)習(xí)流形學(xué)習(xí)的特點(diǎn),同時(shí)從考慮內(nèi)在可分辨信息和樣本的局部幾何分布兩方面來(lái)提高代價(jià)敏感支持向量機(jī)在標(biāo)記信息有限的場(chǎng)景中的分類性能。LPCS-LapSVM算法的時(shí)間復(fù)雜度采用了LapSVM框架,而LapSVM的時(shí)空復(fù)雜度與傳統(tǒng)的SVM相似,所以LPCS-LapSVM時(shí)間復(fù)雜度和空間復(fù)雜度分別是最差情況下為O((l+u)3)和O((l+u)2),為了在一定程度上提高本文方法的執(zhí)行效率, 可以采用SMO(sequential minimal optimization)等快速二次規(guī)劃優(yōu)化算法求解。
為了評(píng)價(jià)本文所提LPCS-LapSVM算法的有效性,本文選取了代價(jià)敏感支持向量機(jī)(CS-SVM)[14]、Laplacian支持向量機(jī)(LapSVM)[15]、代價(jià)敏感Laplacian支持向量機(jī)(CS-LapSVM)[13]、代價(jià)敏感半監(jiān)督支持向量機(jī)(CS4VM)[18]半監(jiān)督和加權(quán)支持向量機(jī)(SSWSVM)[21]共5種對(duì)比算法進(jìn)行比較實(shí)驗(yàn)。實(shí)驗(yàn)選擇12個(gè)UCI數(shù)據(jù)集[19]進(jìn)行對(duì)比實(shí)驗(yàn),詳細(xì)的數(shù)據(jù)集描述見(jiàn)表1。所有樣本的特征值都被規(guī)范化到[0,1]區(qū)間上。按照通用不平衡數(shù)據(jù)的實(shí)驗(yàn)設(shè)置,少數(shù)類樣本設(shè)置為正類,多數(shù)類樣本設(shè)置為負(fù)類,同時(shí)參照文獻(xiàn)[18]的設(shè)置,負(fù)類樣本的誤分類代價(jià)為1,正類樣本的誤分類代價(jià)為{2, 5,10}。各SVM算法的正則化參數(shù)C取值為{10-3,10-2,…,103},LPCS-LapSVM的正類樣本的正則化參數(shù)是負(fù)類樣本的10倍。核函數(shù)均采用高斯核, 核參數(shù)σ取值為{10-3,10-2,…,103}。LPCS-LapSVM中的k-近鄰參數(shù)k取值范圍為{1,3,5,7,9},參數(shù)γI和γG的取值范圍為{10-3,10-2,…,103}。對(duì)比算法的其他參數(shù)設(shè)置采取文獻(xiàn)的默認(rèn)設(shè)置。本文采用測(cè)試集上的整體錯(cuò)分損失[20]來(lái)評(píng)價(jià)算法的分類性能。本文實(shí)驗(yàn)依照表1中正負(fù)類標(biāo)記樣本的數(shù)目隨機(jī)選取相應(yīng)的樣本,執(zhí)行10次并記錄了運(yùn)行10次的整體錯(cuò)分損失的平均值和標(biāo)準(zhǔn)差。本文的實(shí)驗(yàn)在2.53GHz quad-core CPU, 8GB RAM, Windows 7 系統(tǒng)下執(zhí)行, 所有算法均在 Matlab 2016b環(huán)境下實(shí)現(xiàn)。
表1 UCI數(shù)據(jù)集描述
本文所提LPCS-LapSVM算法與5種對(duì)比算法的整體錯(cuò)分損失進(jìn)行了比較,實(shí)驗(yàn)結(jié)果如表2~4所示,表2~4分別選取正類樣本的誤分類代價(jià)為2、5和10。本節(jié)中我們使用T檢驗(yàn)[22]來(lái)判斷所提算法與5種對(duì)比算法之間是否統(tǒng)計(jì)學(xué)顯著性差異,并設(shè)置顯著性水平α=0.05,受篇幅的限制,在檢測(cè)的操作中,我們使用表中加注(*)的方式表示算法間存在顯著性差異,即若LPCS-LapSVM取得的整體錯(cuò)分損失較小,且與對(duì)比算法的顯著性水平<0.05,則在對(duì)比算法的性能旁加標(biāo)注(*);若LPCS-LapSVM取得的整體錯(cuò)分損失較大,或整體錯(cuò)分損失較小但與對(duì)比算法的顯著性水平>0.05,則在對(duì)比算法的性能旁不加標(biāo)注。另外,實(shí)驗(yàn)還對(duì)正類樣本的誤分類代價(jià)為5時(shí)LPCS-LapSVM算法與5種對(duì)比算法的訓(xùn)練時(shí)間進(jìn)行了比較。根據(jù)表2~5的實(shí)驗(yàn)結(jié)果可以得到以下結(jié)論。
(1) 4種半監(jiān)督代價(jià)敏感支持向量機(jī)(CS-LapSVM、CS4VM、LPCS-LapSVM和SSWSVM)在訓(xùn)練集標(biāo)記信息不足的場(chǎng)景下處理不平衡數(shù)據(jù)的分類問(wèn)題都有較好的學(xué)習(xí)能力。在正類樣本的誤分類代價(jià)為2、5和10時(shí)取得的實(shí)驗(yàn)結(jié)果在整體錯(cuò)分損失這一指標(biāo)上具有相似性。但是本文所提的LPCS-LapSVM在整體錯(cuò)分損失上具有相當(dāng)?shù)膬?yōu)勢(shì),除了在兩個(gè)數(shù)據(jù)集上分別略遜于CS4VM和CS-LapSVM算法,兩個(gè)數(shù)據(jù)集上略遜于SSWSVM。這是因?yàn)椋?第一,LPCS-LapSVM在LapSVM模型的框架基礎(chǔ)上,考慮了不同類別數(shù)據(jù)的錯(cuò)分代價(jià),能提高不平衡數(shù)據(jù)的分類精度,同時(shí)還融入了類內(nèi)局部保持散度矩陣,保持同類別樣本的鑒別信息,還可以體現(xiàn)不同樣本之間的差異信息,即全局考慮了樣本的內(nèi)在結(jié)構(gòu)信息,這充分說(shuō)明了類內(nèi)局部保持散度矩陣有助于提高分類器的性能。第二,在計(jì)算類內(nèi)局部保持散度矩陣時(shí),使用測(cè)地線距離代替歐氏距離來(lái)計(jì)算兩個(gè)樣本點(diǎn)之間距離的方法是合適的。LPCS-LapSVM是基于SVM框架的,SVM在處理線性不可分的數(shù)據(jù)分類問(wèn)題上,通常使用核技術(shù)將原始樣本通過(guò)各類核函數(shù)投影在核空間,在這種情況下,使用測(cè)地線距離更能表達(dá)樣本間的距離關(guān)系。
(2) CS-SVM和LapSVM算法的整體錯(cuò)分損失明顯高于另外3種對(duì)比算法和LPCS-LapSVM算法。這是因?yàn)镃S-SVM基于標(biāo)記樣本充足的場(chǎng)景考慮不同類別數(shù)據(jù)的錯(cuò)分代價(jià),在標(biāo)記數(shù)據(jù)不足的場(chǎng)景下其整體錯(cuò)分損失上升迅速。LapSVM算法是一種優(yōu)秀的半監(jiān)督分類算法,但不適應(yīng)于不平衡數(shù)據(jù)的分類問(wèn)題,特別是兩類樣本不平衡比例較大時(shí),LapSVM算法在正類上的分類精度較低,因而得到的整體錯(cuò)分損失在所有算法中是較低的。
(3) 表2~表4中參照顯著性檢驗(yàn)T檢驗(yàn)的結(jié)果可知,所提LPCS-LapSVM在12個(gè)UCI數(shù)據(jù)集的大部分?jǐn)?shù)據(jù)集上,與5種對(duì)比算法相比,均具有顯著性差異。說(shuō)明LPCS-LapSVM在代價(jià)敏感的不平衡分類問(wèn)題上具有顯著優(yōu)勢(shì),與5種對(duì)比算法相比是具有競(jìng)爭(zhēng)力的。進(jìn)一步說(shuō)明,LPCS-LapSVM非常適用于代價(jià)敏感不平衡分類場(chǎng)景的應(yīng)用。
(4) 表5顯示了LPCS-LapSVM算法與5種對(duì)比算法的訓(xùn)練時(shí)間,實(shí)驗(yàn)中比較的6種算法都是基于SVM的分類算法,訓(xùn)練問(wèn)題都可以轉(zhuǎn)換成QP(qualification programme)問(wèn)題,時(shí)間復(fù)雜度為訓(xùn)練樣本的3次方。CS-SVM的訓(xùn)練時(shí)間最短,LPCS-LapSVM與另4種半監(jiān)督SVM算法的訓(xùn)練時(shí)間相當(dāng)。其原因在于CS-SVM不是半監(jiān)督SVM分類算法,而半監(jiān)督SVM在訓(xùn)練過(guò)程中需構(gòu)建保持?jǐn)?shù)據(jù)分布的幾何鄰接圖,因此CS-SVM相對(duì)時(shí)間復(fù)雜度較低,訓(xùn)練時(shí)間較短。如何提高所提LPCS-LapSVM的計(jì)算效率是下階段的工作之一。
表2 各算法的整體錯(cuò)分損失比較(正類樣本的誤分類代價(jià)為2)
表3 各算法的整體錯(cuò)分損失比較(正類樣本的誤分類代價(jià)為5)
續(xù)表
表4 各算法的整體錯(cuò)分損失比較(正類樣本的誤分類代價(jià)為10)
表5 各算法的訓(xùn)練時(shí)間比較(正類樣本的誤分類代價(jià)為5,單位為s)
LPCS-LapSVM中需要設(shè)定的參數(shù)有6個(gè): 正類樣本的誤分類代價(jià)參數(shù)c,k-近鄰參數(shù),正則化參數(shù)C,高斯核核參σ,參數(shù)γI和γG。其中正則化參數(shù)C和高斯核核參σ是SVM模型中皆有的兩個(gè)參數(shù),其最優(yōu)值通常情況下都在給定的范圍內(nèi)尋優(yōu)獲得,由于篇幅的限制,本節(jié)沒(méi)有給出這兩個(gè)參數(shù)的敏感性分析結(jié)果。誤分類代價(jià)參數(shù)c對(duì)本文方法LPCS-LapSVM算法性能的影響如表2~4所示。表6顯示了k-近鄰參數(shù)k對(duì)本文方法LPCS-LapSVM在12個(gè)UCI數(shù)據(jù)集上的整體錯(cuò)分損失的影響,實(shí)驗(yàn)中固定誤分類代價(jià)參數(shù)c=5,正則化參數(shù)C和高斯核核參σ分別是1和0.1,參數(shù)γI和γG均為1。另外,圖2顯示了參數(shù)γI在4個(gè)UCI數(shù)據(jù)集上的敏感性實(shí)驗(yàn)結(jié)果,實(shí)驗(yàn)中固定誤分類代價(jià)參數(shù)c=5,正則化參數(shù)C和高斯核核參σ分別是1和0.1,k-近鄰參數(shù)k=5,參數(shù)γG為1。圖3顯示γG在4個(gè)UCI數(shù)據(jù)集上的敏感性實(shí)驗(yàn)結(jié)果,實(shí)驗(yàn)中固定誤分類代價(jià)參數(shù)c=5,正則化參數(shù)C和高斯核核參σ分別是1和0.1,k-近鄰參數(shù)k=5,參數(shù)γI為1。分析表6和圖2、圖3可得到以下的結(jié)論。
表6 LPCS-LapSVM在k-近鄰參數(shù)不同k值時(shí)的整體錯(cuò)分損失
圖2 LPCS-LapSVM在不同參數(shù)γI下的G-mean值
圖3 LPCS-LapSVM在不同參數(shù)γG下的G-mean值
(1) 從表6結(jié)果可知,LPCS-LapSVM的分類性能受k取值的變化很大,但是我們也注意到,LPCS-LapSVM在12個(gè)UCI數(shù)據(jù)集上的整體錯(cuò)分損失的最小值一般在k<7時(shí)獲得,當(dāng)k值大于7時(shí),整體錯(cuò)分損失有所上升。因?yàn)樵谟?jì)算類內(nèi)局部保持散度矩陣時(shí)使用的測(cè)地線距離是計(jì)算核空間中近鄰點(diǎn)最短距離的累加,當(dāng)k取大值時(shí),無(wú)法準(zhǔn)確地表達(dá)這一空間距離信息。
(2) 參數(shù)γI的作用是調(diào)節(jié)流形正則項(xiàng),通過(guò)在范圍{10-3,10-2,…,103}內(nèi)尋優(yōu)獲得最佳值。從圖2可知,各數(shù)據(jù)集上的整體錯(cuò)分損失對(duì)γI值很敏感,且不同數(shù)據(jù)集獲得最佳分類效果時(shí)取得的γI值差異很大,因此參數(shù)γI適合在給定的數(shù)值范圍內(nèi)尋優(yōu)得到。
(3) 參數(shù)γG的作用是調(diào)節(jié)類內(nèi)局部保持散度項(xiàng),類內(nèi)局部保持散度矩陣的計(jì)算結(jié)果與數(shù)據(jù)集在核空間分布有直接關(guān)系。從圖3結(jié)果可知,4個(gè)UCI數(shù)據(jù)集上的整體錯(cuò)分損失也對(duì)參數(shù)γG敏感,因此參數(shù)γG也適合在給定的數(shù)值范圍內(nèi)尋優(yōu)得到。
本文提出了局部幾何保持的Laplacian代價(jià)敏感支持向量機(jī)LPCS-LapSVM,該算法在LapSVM框架的基礎(chǔ)上融入了代價(jià)敏感學(xué)習(xí)的思想,還構(gòu)造了一種新的類內(nèi)局部保持散度矩陣,其使用測(cè)地線距離來(lái)計(jì)算核空間下結(jié)點(diǎn)間的距離,類內(nèi)局部保持散度矩陣不僅能夠表示樣本的類別分布信息,還可以表示樣本的局部幾何結(jié)構(gòu)特征,特別是保證兩類樣本的邊緣地帶的幾何特征。通過(guò)12個(gè)UCI數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn),驗(yàn)證了LPCS-LapSVM算法的有效性。