劉欣宇,韓曉紅,宋 可
(太原理工大學(xué) 大數(shù)據(jù)學(xué)院,山西 晉中 030600)
降維[1]常用的方法是特征選擇,根據(jù)所使用數(shù)據(jù)集的不同來源,特征選擇可分為單視圖特征選擇方法與多視圖特征選擇方法。較早的特征選擇方法大多使用單視圖特征,但目前單視圖特征已經(jīng)滿足不了日常生活的需要,所以高維度的多視圖特征被廣泛用于各種研究領(lǐng)域中,例如多媒體計算、機器學(xué)習(xí)和數(shù)據(jù)挖掘[2]。多視圖特征可以從不同角度更精確、更全面地表征數(shù)據(jù),其主要問題在于怎樣有效地將多視圖特征的多樣性和一致性結(jié)合起來識別特征,以此來保留原始特征的一些關(guān)鍵特征。但是高維多視圖特征將不可避免地產(chǎn)生昂貴的計算成本及大量的存儲成本。這個問題的解決方法在于將多視圖特征整合,并將多視圖特征看成單視圖特征進行特征選擇。代表性的方法包括拉普拉斯分?jǐn)?shù)(LapScor)[3]、光譜特征選擇(SPEC)[4]、最小冗余譜特征選擇算法(MRSF)[5]等。盡管這些方法取得了一定的成功,但這類方法忽略了視圖內(nèi)部間的特征相關(guān)性和不同視圖特征間的關(guān)聯(lián)性,使特征選擇的性能受到了影響。為了解決以上的問題,本文將自適應(yīng)相似性應(yīng)用到無監(jiān)督多視圖特征選擇中,并考慮視圖內(nèi)部特征的相關(guān)性及不同視圖之間的特征關(guān)聯(lián)性,同時,通過引入圖正則化以利用數(shù)據(jù)的局部幾何特性,使得同類別特征之間的聯(lián)系更加密切,從而增加算法的魯棒性。為了降低特定視圖相似結(jié)構(gòu)中潛在的數(shù)據(jù)噪聲對特征選擇的影響,本文引入L1/2稀疏范數(shù)在降低噪聲的同時提高分類模型的準(zhǔn)確率。
給定訓(xùn)練集X=[X1,X2,…,XV]∈RN×d, 其表示第V個視圖的全部特征數(shù)據(jù)集,XV∈RN×dV代表第V個視圖的樣本,dV表示第V個視圖的特征維數(shù),xi表示矩陣X的第i行,xj表示矩陣X的第j列,為了選擇最具有代表性的特征,本文首先要利用最小損失函數(shù)來使特征間的差距最小化
(1)
(2)
(3)
本文方法具有兩個優(yōu)勢:①由于本文模型的每個變量都存在約束條件,所以可以采用固定某一變量,求其它變量的迭代優(yōu)化算法;②我們并不是直接的對X進行聚類,而是將X投影到對應(yīng)的聚類中心F附近,這樣能夠選擇更具有分辨性的特征。
更新Q:固定F,S和W,使Q最小化,Q的優(yōu)化可以推導(dǎo)為
(4)
對于L1/2稀疏約束項,我們參照已有的添加稀疏約束的方法[7]
(5)
更新F:固定其它變量,F(xiàn)的優(yōu)化可以推導(dǎo)為
(6)
由文獻[8]可知,圖正則化理論中引入以下公式
(7)
對R進行變換,可得
(8)
我們對F進行更新時,需要考慮Tr(FLFT), 我們根據(jù)文獻[9]中的方法,最終可得公式
(9)
其中,δij是步長參數(shù)。
令δij=-fij/(XTXF+FDT)i,j可得
(10)
最終可得到更新規(guī)則如下
(11)
更新S:固定其它變量,S的優(yōu)化能夠?qū)懗扇缦滦问?/p>
(12)
式(12)能夠被寫成
(13)
Si,j表示S矩陣第i行、第j列的元素,S矩陣的優(yōu)化過程是獨立的,因此,S又能夠被寫成
(14)
(15)
式(15)可由文獻[10]所求得。
更新W:與更新S類似,W也是獨立于其它變量,因此,W矩陣的第j列能夠被表示成
(16)
(17)
利用拉格朗日函數(shù)可得
(18)
ψ是拉格朗日乘數(shù),通過對上式Wj求導(dǎo),并令其為0,最終獲得
(19)
算法1給出了求解(3)的迭代過程。
算法1:QFSW的更新與多視圖特征選擇
輸出:協(xié)作相似結(jié)構(gòu)S, 投影矩陣Q, 識別到的特征l。
(2)更新
(3)利用等式(5)來更新Q
(4)利用等式(11)來更新F
(5)利用等式(15)來更新S
(6) 利用等式(19)來更新W
(7) 直到收斂特征選擇
(8)找出Qi,i=1,2,…,d并對其排序,最終將具有最高排名的一個特征確定為要選擇的特征。
本實驗采用4個數(shù)據(jù)集。包括MSRC-v1、Outdoor Scene、Handwritten Numeral、YouTube這4個數(shù)據(jù)集。詳細的描述見表1。對于每個數(shù)據(jù)集,我們將數(shù)據(jù)集分類,然后再從每張圖片中提取5類視覺特征,其中包括顏色矩特征、GIST特征、SIFT特征、CENTRIST特征和LBP特征。然后將提取出的特征改為.mat形式的文件加以應(yīng)用。
表1 實驗數(shù)據(jù)集相關(guān)描述
對每個數(shù)據(jù)集,本文將提出的方法與其它無監(jiān)督多視圖特征選擇方法進行比較,其中進行比較的方法包括:LapScor[3]、SPEC[4]、MRSF[5]、AMFS[11]、MVFS[12]和AUMFS[13]。每次利用K-means聚類將實驗重復(fù)50次,并取其平均值。
參數(shù)設(shè)置:在執(zhí)行上述方法時,α,β,γ的取值范圍為10-4到104。圖1為MSRC-v1數(shù)據(jù)集的不同參數(shù)選擇情況。
我們采用兩個經(jīng)典的評價指標(biāo):標(biāo)準(zhǔn)化互信息NMI和聚類準(zhǔn)確率ACC。ACC和NMI的值越大,代表特征選擇的效果越好,根據(jù)文獻[14],ACC與NMI的定義如下:
ACC
(20)
其中,N為數(shù)據(jù)集的個數(shù),yi是真實類別標(biāo)簽,ci預(yù)測類別標(biāo)簽。 δ(yi,c) 為函數(shù),當(dāng)y=c時,該函數(shù)值為1,否則為0。map(·)為最優(yōu)映射函數(shù)。
NMI
(21)
其中,P表示K-means聚類結(jié)果,Q表示真實標(biāo)簽值,H(*) 表示熵,I(P,Q) 表示P、Q的互信息。
實驗結(jié)果見表2、表3和圖2、圖3所示。表2、表3展示了在不同特征維度情況下的不同特征選擇方法的ACC與NMI結(jié)果。圖2、圖3不同特征維度情況下的不同特征選擇方法的ACC與NMI折線圖。將本文提出的方法與LapScor、SPEC、MRSF、MVFS、AUMFS、AMFS進行比較,采用ACC評價指標(biāo),在數(shù)據(jù)集MSRC-v1、Outdoor Scene、Handwritten Numeral中,與最優(yōu)方法SPEC、LapScor、LapScor相比分別提升了2%、10%、2%。采用NMI評價指標(biāo),在數(shù)據(jù)集MSRC-v1、Outdoor Scene、Handwritten Numeral中,與最優(yōu)方法SPEC、LapScor、LapScor相比分別提升了10%、5%、1%。對比本文的方法與其它方法,ACC和NMI在各個數(shù)據(jù)集上均大于后者,驗證了本文方法確實能夠提高聚類學(xué)習(xí)的性能。
表2 聚類準(zhǔn)確率
表3 標(biāo)準(zhǔn)化互信息
圖2 不同算法的ACC對比
圖3 不同算法的NMI對比
本文提出了一種基于自適應(yīng)相似性的特征選擇學(xué)習(xí)方法,該方法考慮了視圖內(nèi)部與視圖間的相關(guān)性,同時將圖正則化,L1/2正則化同時結(jié)合在目標(biāo)函數(shù)中,在算法中,圖正則化能夠表現(xiàn)出較高的識別率、較好的魯棒性和可解釋性,從而更準(zhǔn)確選擇具有判別性的特征。L1/2正則化能夠產(chǎn)生更加稀疏的解,降低噪聲。結(jié)合這兩種算法,本文提出的方法不但可以有效降低數(shù)據(jù)集的維度,也能提高數(shù)據(jù)分類的準(zhǔn)確度。同時對數(shù)據(jù)的類別標(biāo)簽進行稀疏性約束將有助于提高分類的準(zhǔn)確度。在很大程度上能夠提高算法性能,通過在真實數(shù)據(jù)集上的實驗?zāi)軌蝌炞C所提算法的優(yōu)越性。