江兵兵,何文達(dá),吳興宇,項俊浩,洪立斌,盛偉國
(1.杭州師范大學(xué)信息科學(xué)與技術(shù)學(xué)院,浙江杭州 311121;2.中國科學(xué)技術(shù)大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院,安徽合肥 230027)
隨著信息技術(shù)的發(fā)展,實際應(yīng)用中產(chǎn)生的數(shù)據(jù)具有很高的特征維數(shù).這些高維數(shù)據(jù)中包含大量冗余和噪聲特征,直接使用這些高維數(shù)據(jù)不僅需要消耗大量的計算資源和存儲空間,還可能導(dǎo)致算法性能的下降.通過特征抽取或特征選擇技術(shù),可以實現(xiàn)高維數(shù)據(jù)的降維.其中特征抽取[1]是把數(shù)據(jù)從原始特征空間映射到一個低維特征空間;而特征選擇[2]能夠根據(jù)特定的規(guī)則從原始特征中挑選出少量的相關(guān)特征.由于沒有改變數(shù)據(jù)的原始特征空間,特征選擇對高維數(shù)據(jù)具有更好的可解釋性,已廣泛應(yīng)用于圖像分類[3]、人臉識別[4]等機(jī)器學(xué)習(xí)應(yīng)用中.
根據(jù)訓(xùn)練樣本中是否包含標(biāo)簽信息,可將現(xiàn)有特征選擇算法分成3 類:監(jiān)督特征選擇、半監(jiān)督特征選擇和無監(jiān)督特征選擇.監(jiān)督特征選擇算法利用特征與標(biāo)簽之間的聯(lián)系來評估特征的重要性.無監(jiān)督特征選擇算法通過數(shù)據(jù)中蘊(yùn)含的特定信息(如數(shù)據(jù)的方差、分布結(jié)構(gòu)等)來評估特征的相關(guān)性.監(jiān)督特征選擇的性能主要依賴充足的有標(biāo)簽訓(xùn)練樣本[5];而無監(jiān)督特征選擇由于缺少標(biāo)簽信息的指導(dǎo),其性能通常不理想[6].值得注意的是,實際應(yīng)用中產(chǎn)生的數(shù)據(jù)往往包含大量的無標(biāo)簽樣本和少量的有標(biāo)簽樣本.因此,研究能夠同時利用有標(biāo)簽樣本和無標(biāo)簽樣本的半監(jiān)督特征選擇算法具有重要的意義.半監(jiān)督特征選擇的主要思想是:充分利用訓(xùn)練樣本的標(biāo)簽信息和分布結(jié)構(gòu)去評估特征的相關(guān)性,進(jìn)而選出具有判別性的特征.
基于半監(jiān)督學(xué)習(xí)框架[7],研究者們相繼提出了許多半監(jiān)督特征選擇算法.這些研究中,早期的方法主要以基于圖的過濾式算法為主,此類算法基于特征保持?jǐn)?shù)據(jù)分布結(jié)構(gòu)的能力或特定信息準(zhǔn)則來選擇相關(guān)特征.例如,文獻(xiàn)[8]提出了局部敏感的半監(jiān)督特征選擇(Locality Sensitive Discriminant Feature,LSDF)算法,其利用標(biāo)簽信息最大化有標(biāo)簽樣本間的類間距,并基于訓(xùn)練樣本的局部結(jié)構(gòu)進(jìn)行特征選擇.文獻(xiàn)[9]提出了基于跡比準(zhǔn)則的半監(jiān)督特征選擇(Trace Ratio Criterion for Feature Selection,TRCFS)算法.TRCFS 首先通過標(biāo)簽傳播計算出無標(biāo)簽樣本的臨時標(biāo)簽,然后根據(jù)這些臨時標(biāo)簽在訓(xùn)練樣本上構(gòu)建類內(nèi)矩陣和類間矩陣,最后基于跡比準(zhǔn)則選擇相關(guān)特征子集.然而,上述過濾式算法沒有充分考慮特征間的相關(guān)性,同時也忽略了選擇特征和訓(xùn)練分類器之間的相互作用[5].最近,研究者們將特征選擇作為訓(xùn)練分類器的一部分,提出了能夠在訓(xùn)練過程中自動進(jìn)行特征選擇的嵌入式半監(jiān)督特征選擇算法.例如,Chang 等人提出的半監(jiān)督特征選擇(Convex Semi-supervised Feature Selection,CSFS)算法通過最小化預(yù)測標(biāo)簽與樣本投影的損失來訓(xùn)練特征投影矩陣,并利用特征投影矩陣上的稀疏約束實現(xiàn)特征選擇[10].Chen等人提出了重新調(diào)節(jié)線性回歸半監(jiān)督特征選擇算法,其利用標(biāo)度因子調(diào)節(jié)回歸系數(shù),最后選擇相應(yīng)特征子集[11].
值得注意的是,上述嵌入式半監(jiān)督特征選擇算法直接利用訓(xùn)練樣本的預(yù)測標(biāo)簽去訓(xùn)練特征選擇模型,同時忽略了樣本的局部結(jié)構(gòu)信息[4].然而,半監(jiān)督場景下預(yù)測標(biāo)簽中包含的真實標(biāo)簽信息非常有限,直接基于預(yù)測標(biāo)簽訓(xùn)練得到的特征選擇模型很難選出完全有效的特征子集.為了充分利用樣本中蘊(yùn)含的局部結(jié)構(gòu)信息,Ma 等人將流形正則化[12]和L2,1稀疏約束結(jié)合起來,提出了一種基于圖嵌入的半監(jiān)督結(jié)構(gòu)化稀疏特征選擇(Structural Feature Selection with Sparsity,SFSS)算法[13].Luo 等人使用代替L2,1約束,提出基于稀疏回歸的半監(jiān)督特征選擇算法[14].此外,在SFSS算法的基礎(chǔ)上,文獻(xiàn)[15]將約束同時應(yīng)用到投影損失函數(shù)和特征投影矩陣上.上述基于圖嵌入的半監(jiān)督特征選擇算法在一些實際應(yīng)用中取得了較好的性能,但是它們忽略了特征選擇與局部結(jié)構(gòu)學(xué)習(xí)之間的相互作用,難以有效地利用數(shù)據(jù)的局部結(jié)構(gòu)信息,進(jìn)而影響所選特征子集的有效性[16].具體來說,這些算法直接基于原始特征空間中數(shù)據(jù)間的歐式距離去構(gòu)建用于刻畫數(shù)據(jù)局部分布結(jié)構(gòu)的近鄰圖,并在特征選擇的過程中使用固定不變的近鄰圖.然而,原始特征空間中通常包含大量的噪聲和冗余特征,這會使構(gòu)建的近鄰圖陷入局部最優(yōu).因此,學(xué)習(xí)高質(zhì)量的近鄰圖對獲取數(shù)據(jù)的局部結(jié)構(gòu)及提升所選特征子集的有效性具有重要作用.
為解決上述問題,本文提出了一種基于自適應(yīng)圖學(xué)習(xí)的半監(jiān)督特征選擇(Semi-supervised Feature Selection with Adaptive Graph learning,SFSAG)算法.SFSAG首先通過學(xué)習(xí)樣本間的近鄰結(jié)構(gòu),有效利用訓(xùn)練樣本中蘊(yùn)含的局部分布信息;其次,充分利用樣本在投影特征空間中的近鄰關(guān)系;最后,通過稀疏投影學(xué)習(xí)和標(biāo)簽傳播[17]有效地預(yù)測無標(biāo)簽樣本的標(biāo)簽,并將學(xué)習(xí)到的特征投影矩陣用于選擇判別性強(qiáng)的特征.本文的主要貢獻(xiàn)總結(jié)如下:
(1)所提算法能夠充分利用樣本在投影特征空間中的近鄰信息,從而有效地學(xué)習(xí)樣本的局部分布結(jié)構(gòu),并提高所選特征的有效性和算法的性能;
(2)所提算法在選擇相關(guān)特征的同時還能自適應(yīng)地學(xué)習(xí)樣本的局部近鄰結(jié)構(gòu),并通過兩者間的信息交互來降低噪聲特征對算法的不利影響;
(3)提出了一種有效的優(yōu)化方法來求解目標(biāo)函數(shù),并通過合成數(shù)據(jù)集和高維數(shù)據(jù)集上的實驗驗證了所提算法的有效性及其相對其他算法的優(yōu)越性.
本文所提基于自適應(yīng)圖學(xué)習(xí)的半監(jiān)督特征選擇(SFSAG)算法包含稀疏特征投影學(xué)習(xí)、自適應(yīng)圖學(xué)習(xí)和標(biāo)簽傳播.在描述算法模型之前,首先給出算法中的符號說明.令X=表示訓(xùn)練樣本,其中,xi∈Rd表示第i個樣本,n為訓(xùn)練樣本數(shù),d為特征數(shù).Y=[YlYu]Τ∈Rn×c為標(biāo)簽矩陣,c表示樣本的類別標(biāo)簽數(shù),Yl表示有標(biāo)簽樣本的標(biāo)簽,如果樣本xi屬于第j類,那么對應(yīng)類標(biāo)簽Yij=1,否則Yij=0;Yu表示無標(biāo)簽樣本的真實標(biāo)簽.由于在訓(xùn)練過程中無標(biāo)簽樣本的真實標(biāo)簽Yu是未知的,所以在訓(xùn)練時將其設(shè)置為0矩陣[14].
SFSAG 算法首先在半監(jiān)督框架下進(jìn)行稀疏特征投影學(xué)習(xí),其公式定義如下
其中,W∈Rd×c表示特征投影矩陣,b∈Rc為偏置向量,F(xiàn)=[Fl Fu]Τ∈Rn×c表示訓(xùn)練樣本的預(yù)測標(biāo)簽矩陣,γ是正則化參數(shù).式(1)將L2,1稀疏約束施加在線性投影損失和投影矩陣W上,不僅可以使模型更加魯棒,還能夠使學(xué)習(xí)到的W具有行稀疏的特點(diǎn).將有標(biāo)簽和無標(biāo)簽樣本輸入到線性回歸模型中,然后通過最小化特征投影子空間與預(yù)測標(biāo)簽F之間的損失簡化特征空間,從而實現(xiàn)特征選擇.基于式(1),研究者們相繼提出了一些嵌入式半監(jiān)督特征選擇算法,如文獻(xiàn)[10,11].然而預(yù)測標(biāo)簽F中包含的真實標(biāo)簽信息相對有限,完全基于F訓(xùn)練的特征選擇模型很難選出判別性強(qiáng)的特征子集.研究表明,在樣本標(biāo)簽信息較少時,訓(xùn)練樣本(主要是無標(biāo)簽樣本)中蘊(yùn)含的局部分布信息對提升特征選擇效力非常重要[18].
為了充分利用無標(biāo)簽樣本,研究者們通過構(gòu)建樣本間的近鄰圖來獲取樣本的分布信息(主要是局部結(jié)構(gòu)信息).傳統(tǒng)的方法[19]使用高斯核函數(shù)去構(gòu)造樣本間的近鄰圖S,這種方式主要存在兩個問題:首先,直接通過高斯核構(gòu)建的近鄰圖沒有考慮原始特征空間中存在冗余和噪聲特征,容易產(chǎn)生不可靠的近鄰圖,進(jìn)而影響所選特征保持?jǐn)?shù)據(jù)分布結(jié)構(gòu)的能力及特征選擇性能.其次,需要提前設(shè)定高斯核寬度參數(shù),影響算法的實用性和通用性.最近,Nie 等人提出了一種自適應(yīng)近鄰圖構(gòu)造方法[20]:
其中,Aij度量了第i個樣本xi和第j個樣本xj在原始特征空間中的相似性,正則化參數(shù)α能夠避免學(xué)習(xí)到的相似性矩陣A出現(xiàn)平凡解和均勻分布.具體來說,如果α→0,樣本將選擇最近鄰的樣本作為其鄰居;如果α→+∞,任意樣本間的相似性由于A中的每一行Ai(i=1,···,n)相互獨(dú)立,可單獨(dú)求解行向量Ai.因此式(2)簡化為
相比于傳統(tǒng)的構(gòu)圖方法(如高斯核方法),上述構(gòu)圖方法可以為每個樣本選擇k個近鄰樣本,并自適應(yīng)地確定樣本與近鄰樣本之間的相似性,且不需要使用額外的參數(shù).雖然上述構(gòu)圖方法能夠根據(jù)原始特征空間中樣本間的近鄰信息自適應(yīng)地構(gòu)建近鄰圖,但是在原始特征空間中樣本間的近鄰信息容易被冗余和噪聲特征干擾.由于特征投影能夠有效減輕冗余和噪聲特征的不利影響[16],因此樣本在投影特征空間中的近鄰關(guān)系能夠更加準(zhǔn)確地描述樣本的局部分布結(jié)構(gòu).因此,本文提出的自適應(yīng)圖學(xué)習(xí)模型將特征投影W直接引入式(2)中:
其中,第一項度量了樣本在投影特征空間中的近鄰結(jié)構(gòu).具體來說,假如xi和xj在投影特征空間中較接近,即較小,那么此時xi和xj的相似性Sij應(yīng)該較大.
在算法優(yōu)化的初始階段,可令S等于A,這樣可以使所提構(gòu)圖模型能夠在原始特征空間中樣本間近鄰信息的輔助下,通過學(xué)習(xí)投影特征空間中的樣本近鄰關(guān)系,更加有效地獲取數(shù)據(jù)的真實局部結(jié)構(gòu).正則化項能夠避免S出現(xiàn)平凡解,其中參數(shù)θ和α類似,可根據(jù)鄰居樣本數(shù)k自動確定:
為了有效地結(jié)合所提自適應(yīng)圖學(xué)習(xí)模型和稀疏投影學(xué)習(xí),實現(xiàn)在選擇相關(guān)特征子集的同時還能自適應(yīng)地學(xué)習(xí)樣本在投影特征空間中的局部結(jié)構(gòu),SFSAG 算法通過標(biāo)簽傳播對預(yù)測標(biāo)簽F進(jìn)行平滑約束,其目標(biāo)函數(shù)為
其中,第一項表示投影特征空間中的樣本近鄰結(jié)構(gòu)對圖的約束;第二項能夠避免S出現(xiàn)平凡解,θ是正則化參數(shù);第三項為定義在預(yù)測標(biāo)簽F上的平滑約束,使近鄰樣本具有相似的預(yù)測標(biāo)簽,LS表示定義在S上的拉普拉斯矩陣,λ是正則化參數(shù);第四項能夠使有標(biāo)簽樣本的預(yù)測標(biāo)簽Fl與其真實標(biāo)簽Yl盡量保持一致,B為對角矩陣,通過將其前l(fā)個對角元素設(shè)置為一個較大的常數(shù),充分發(fā)揮有標(biāo)簽樣本對算法的引導(dǎo)作用.
SFSAG 算法的目標(biāo)函數(shù)中包含目標(biāo)近鄰圖S、預(yù)測標(biāo)簽F、投影矩陣W和偏差向量b,以及投影矩陣W的L2,1范數(shù)約束,這導(dǎo)致無法直接優(yōu)化目標(biāo)函數(shù)及求解參數(shù).因此,使用交替迭代優(yōu)化方法來求解目標(biāo)函數(shù).
首先,固定F和W,目標(biāo)函數(shù)可簡化為
計算式(8)關(guān)于b的導(dǎo)數(shù),并令導(dǎo)數(shù)等于0,可直接得到b的最優(yōu)解
然后,固定S和W,并將式(9)中的b代入到目標(biāo)函數(shù)中,可得
將Q=BY+2βZXΤW代入到式(14)中,并計算式(14)關(guān)于W的導(dǎo)數(shù),可得W的最優(yōu)解:
其中,矩陣S的每一行都是相互獨(dú)立的,因此,可以單獨(dú)求解S中的行向量S:
式(18)可利用文獻(xiàn)[22]中提到的方法直接求解.假設(shè)每個樣本有k個近鄰樣本,那么參數(shù)θ的值可以通過式(6)自動確定.
綜上所述,SFSAG 目標(biāo)函數(shù)的迭代求解過程如下:首先,初始化S=A和F=Y;其次,利用式(9)和式(12)分別計算b和F;然后利用初始化的對角矩陣K和式(15)更新特征投影矩陣W,并基于當(dāng)前的W更新K,通過式(18)自適應(yīng)地更新近鄰圖S,重復(fù)上述優(yōu)化過程,直到目標(biāo)函數(shù)滿足收斂條件.所提算法通過稀疏投影學(xué)習(xí)可以將特征投影矩陣W的行向量wi(i=1,···,d)與訓(xùn)練樣本X的對應(yīng)特征關(guān)聯(lián)起來.因此,W的第i個行向量直接度量了樣本X中第i個特征的重要程度[12]越大表明對應(yīng)特征越重要).通過計算特征投影W的行向量模長,并將其從大到小排序,最終選擇對應(yīng)前r個特征作為特征選擇的輸出.
本節(jié)將在合成數(shù)據(jù)集和高維實際數(shù)據(jù)集上測試SFSAG 算法,并將其與一些先進(jìn)的半監(jiān)督特征選擇算法進(jìn)行對比,以驗證SFSAG的有效性.
本實驗參照文獻(xiàn)[4]生成Two-Moon 數(shù)據(jù)集來驗證SFSAG 算法獲取樣本局部結(jié)構(gòu)的能力及其對噪聲特征的魯棒性.Two-Moon 數(shù)據(jù)集的原始數(shù)據(jù)分布如圖1(a)所示:數(shù)據(jù)包含2 個類簇,每個類簇約有100 個樣本點(diǎn),分別是圖中的紅色和黑色樣本點(diǎn),其中藍(lán)色圓圈表示有標(biāo)簽樣本.使用式(2)構(gòu)造的初始化近鄰圖A如圖1(b).從中可以看出,雖然初始化圖A能大致刻畫數(shù)據(jù)的分布結(jié)構(gòu),但是2 類簇間仍存在一些相互連接的邊,使類簇?zé)o法完全分離,這表明基于原始特征空間的樣本間距離信息構(gòu)建的近鄰圖A并不完全可靠.同時,當(dāng)在Two-Moon 的特征空間中增加8 個隨機(jī)噪聲特征(范圍在-0.3~0.3)時,此時構(gòu)造的近鄰圖如圖1(c)所示,可以看出,增加的噪聲特征使不同類簇間連接邊數(shù)增多,不僅降低了近鄰圖可靠性,還增加了分離不同類簇的難度.圖1(d)展示了SFSAG 基于初始化圖A和數(shù)據(jù)在投影特征空間中的近鄰結(jié)構(gòu)學(xué)習(xí)到的近鄰圖S,可以看出,在S中,兩類簇間不存在相互連接的邊,說明S不僅準(zhǔn)確獲取數(shù)據(jù)的分布結(jié)構(gòu),還能有效分離不同的類簇.實驗結(jié)果表明:SFSAG 在進(jìn)行特征選擇的同時還能自適應(yīng)地利用數(shù)據(jù)在投影特征空間中的近鄰信息,進(jìn)而降低噪聲對數(shù)據(jù)局部分布結(jié)構(gòu)的干擾,提高算法的性能.
圖1 公式(2)和所提算法在Two-Moon數(shù)據(jù)集上構(gòu)建的近鄰圖
為了進(jìn)一步驗證SFSAG 算法在高維數(shù)據(jù)集上的性能,本節(jié)實驗使用了8 個常用的高維實際數(shù)據(jù)集,其詳細(xì)信息如表1所示.
表1 實驗數(shù)據(jù)集描述
本實驗在每個數(shù)據(jù)集中隨機(jī)選擇70%的樣本作為訓(xùn)練集,剩余樣本為測試集.實驗首先利用特征選擇算法在訓(xùn)練集上選出相關(guān)的特征子集,然后在所選特征子集表示的有標(biāo)簽樣本上訓(xùn)練線性SVM 分類器(正則化參數(shù)固定為0.1),最后通過計算分類器在由所選特征表示的測試樣本上的分類準(zhǔn)確率來驗證特征選擇算法的有效性.實驗選擇4 種半監(jiān)督特征選擇算法與SFSAG 算法進(jìn)行對 比,分別是CSFS,LSDF,SFSS 和TRCFS.為了降低實驗結(jié)果的統(tǒng)計誤差,每組實驗都會在不同的訓(xùn)練集和測試集分組上獨(dú)立運(yùn)行20 次,使用平均分類準(zhǔn)確率作為實驗結(jié)果.所有實驗算法的正則化參數(shù)或平衡參數(shù)使用網(wǎng)格搜索法在{10-3,···,103}的范圍內(nèi)調(diào)整.所提算法希望有標(biāo)簽樣本上的預(yù)測標(biāo)簽Fl能夠充分接近它們的真實標(biāo)簽Yl,由于無標(biāo)簽樣本的真實標(biāo)簽Yu未知,所以在算法訓(xùn)練過程中將其設(shè)置為0 矩陣,因此SFSAG 算法只考慮有標(biāo)簽樣本的真實標(biāo)簽Yl和預(yù)測標(biāo)簽Fl的關(guān)系.于是將對角矩陣B的前l(fā)個對角元素設(shè)置成較大的常數(shù)(104);將B的后u個對角元素設(shè)置成較小的常數(shù)(10-4).實驗從訓(xùn)練集中隨機(jī)選擇不同比率的有標(biāo)簽樣本,并通過改變所選特征數(shù)量來分析特征選擇算法的性能.圖2、圖3 分別展示了使用10%和30%有標(biāo)樣本時算法分類準(zhǔn)確率與所選特征數(shù)量的變化曲線.
從圖2、圖3可以看出:(1)在實驗數(shù)據(jù)集上,特征選擇算法的分類性能隨著選擇特征數(shù)量的增加而提高,而且SFSAG 算法幾乎在所有數(shù)據(jù)集上的分類準(zhǔn)確率均高于對比算法,驗證了所提算法在高維數(shù)據(jù)集上的有效性;(2)在大多數(shù)數(shù)據(jù)集上,基于圖的過濾式算法(LSDF 和TRCFS)的性能表現(xiàn)均不及基于圖嵌入式的SFSS 算法,且SFSS 算法的性能不如SFSAG 算法,這表明特征空間的稀疏投影學(xué)習(xí)和自適應(yīng)的局部結(jié)構(gòu)學(xué)習(xí)是影響特征選擇的重要因素;(3)當(dāng)標(biāo)簽樣本的比率為10%時,CSFS 在所有實驗數(shù)據(jù)集上的性能均不如基于圖嵌入的算法,甚至在多個數(shù)據(jù)集(如Binalpha、Coil20和JAFFE)上的性能不如基于圖的過濾式算法,這表明在有標(biāo)簽樣本較少時,利用樣本的局部結(jié)構(gòu)信息對提升特征選擇的性能具有重要的意義.
圖2 使用10%的有標(biāo)簽樣本,SFSAG和對比算法在實驗數(shù)據(jù)集上的分類準(zhǔn)確率與所選特征數(shù)量的變化曲線
圖3 使用30%的有標(biāo)簽樣本,SFSAG和對比算法在實驗數(shù)據(jù)集上的分類準(zhǔn)確率與所選特征數(shù)量的變化曲線
為了進(jìn)一步分析SFSAG 與現(xiàn)有半監(jiān)督特征選擇算法在不同有標(biāo)簽樣本比率下的分類性能,下面實驗將訓(xùn)練樣本中有標(biāo)簽樣本的比率設(shè)定在{10%,20%,30%,40%,50%}范圍內(nèi),并將所選特征數(shù)量分別固定為{80,200,200,80,200,80,80,80}.實驗結(jié)果如表2 所示,其中加粗項為相同標(biāo)簽比率下算法在對應(yīng)數(shù)據(jù)集上的最優(yōu)結(jié)果.從表2 中可以看出,特征選擇算法的分類準(zhǔn)確率隨著樣本標(biāo)簽比率的增加不斷增長,這表明在有標(biāo)簽樣本充足時,特征選擇算法能夠選擇出判別性更強(qiáng)的特征子集.在不同的標(biāo)簽比率下,SFSAG 算法在實驗數(shù)據(jù)集上都能夠取得較好甚至最好的分類準(zhǔn)確率.此外,在MSRC 數(shù)據(jù)集上,當(dāng)有標(biāo)簽樣本比率為10%和20%時,基于預(yù)測標(biāo)簽的CSFS 算法的性能明顯低于LSDF、TRCFS 和SFSS 算法.當(dāng)標(biāo)簽比率達(dá)到30%甚至更高時,CSFS 算法的性能僅僅低于SFSAG 算法,這表明在樣本的標(biāo)簽比率較低時,SFSAG 算法能夠更充分地利用樣本的局部結(jié)構(gòu)信息,在性能上較其他算法更具優(yōu)勢.值得注意的是,SFSAG算法在實驗數(shù)據(jù)集上的分類準(zhǔn)確率均高于SFSS 算法,進(jìn)一步驗證了SFSAG算法的有效性.
表2 使用不同比率的有標(biāo)簽樣本,SFSAG以及其他半監(jiān)督特征選擇算法在測試集上的平均分類準(zhǔn)確率(均值±標(biāo)準(zhǔn)差%)
SFSAG 算法包含3 個正則化參數(shù)λ、β和γ.本實驗分析參數(shù)在{10-3,···,103}范圍內(nèi)變化對SFSAG 性能的影響.圖4 給出了β、γ和λ在Isolet 和Coil20 上 對SFSAG 性能的影響.實驗結(jié)果表明:SFSAG 算法對較寬取值范圍內(nèi)的參數(shù)β、γ和λ的敏感程度不同.從圖4可以看出,在給定所選特征數(shù)量時,參數(shù)β、γ和λ的變化對算法性能的影響較大.具體來說,在所選特征數(shù)量不變時,算法性能會隨著β、γ和λ取值的變化而明顯變化,表明SFSAG 算法性能對特征空間中的稀疏投影學(xué)習(xí)和預(yù)測標(biāo)簽上的平滑約束更敏感;同時當(dāng)所選特征數(shù)量較少時,SFSAG 算法的性能對參數(shù)β、γ的變化更敏感.
圖4 在Isolet和Coil20數(shù)據(jù)集上,參數(shù)β,γ和λ對算法性能的影響
本文使用交替迭代優(yōu)化方法求解SFSAG 算法的目標(biāo)函數(shù).為了驗證SFSAG 算法的收斂性,圖5 展示了SFSAG 算法的目標(biāo)函數(shù)與迭代次數(shù)的變化曲線,從圖中可以看出:在實驗數(shù)據(jù)集上,SFSAG 算法的目標(biāo)函數(shù)只需迭代5次就能達(dá)到收斂狀態(tài),驗證了交替迭代優(yōu)化求解方法的快速性和有效性.
圖5 在實驗數(shù)據(jù)集上SFSAG算法的目標(biāo)函數(shù)與迭代次數(shù)的變化曲線
本文提出了一種基于自適應(yīng)圖學(xué)習(xí)的半監(jiān)督特征選擇(SFSAG)算法.首先,SFSAG 算法充分考慮了樣本在投影特征空間中的近鄰結(jié)構(gòu),能夠自適應(yīng)學(xué)習(xí)樣本間的最優(yōu)近鄰圖,從而充分利用樣本中蘊(yùn)含的數(shù)據(jù)分布信息.其次,SFSAG算法能夠同時進(jìn)行特征選擇和樣本的局部結(jié)構(gòu)學(xué)習(xí),并通過兩者間的交互來提升模型對噪聲特征的魯棒性,從而有利于選擇判別性更強(qiáng)的特征子集.然后,使用交替優(yōu)化方法來求解參數(shù)的最優(yōu)解,并通過實驗驗證了SFSAG 算法的收斂性.最后,合成數(shù)據(jù)集和高維實際數(shù)據(jù)集上的大量實驗充分驗證了所提構(gòu)圖方法的有效性以及SFSAG算法的優(yōu)越性.