王麗娟,邢津萍,尹明,郝志峰,蔡瑞初,溫雯
(1.廣東工業(yè)大學(xué)計算機(jī)學(xué)院,廣東 廣州 510006;2.廣東工業(yè)大學(xué)自動化學(xué)院,廣東 廣州 510006;3.汕頭大學(xué),廣東 汕頭 515063)
多視角數(shù)據(jù)描述了同一事物在不同視角下的多種數(shù)據(jù)信息。比如:一個新聞往往以文字、視頻、圖片等不同的形式出現(xiàn),一張照片中的景色往往以不同的角度進(jìn)行拍攝。這些視角的形式、內(nèi)容通常不同。因此,探索同一對象在每個視角內(nèi)部隱含的一致性信息是一個極具挑戰(zhàn)的問題。多視角聚類是一個有效的數(shù)據(jù)挖掘算法。其聚類性能依賴于多視角數(shù)據(jù)一致性信息的發(fā)現(xiàn)程度。傳統(tǒng)的單視角聚類算法,如文獻(xiàn)[1-3]只能依次處理每一個視角,這樣做可能會割裂數(shù)據(jù)內(nèi)部一致性,無法有效提取多視角內(nèi)部信息。目前,多視角聚類方法大致可分為基于子空間[4-6]、基于非負(fù)矩陣分解[7-8]、基于圖[9-10]3 種聚類方法?;谧涌臻g的多視角聚類方法從多個子空間或者潛在空間中學(xué)習(xí)所有視角數(shù)據(jù)新的統(tǒng)一表示,以便在構(gòu)建聚類模型時更容易處理高維多視角數(shù)據(jù)。文獻(xiàn)[11]提出一個協(xié)同訓(xùn)練框架下的多視角子空間聚類,利用在一個視角下自動學(xué)習(xí)的標(biāo)簽來輔助另一個視角下判別性子空間的生成?;诜秦?fù)矩陣分解的多視角聚類算法利用非負(fù)矩陣分解對原始數(shù)據(jù)進(jìn)行降維處理,獲得的低維數(shù)據(jù)特征有利于學(xué)習(xí)數(shù)據(jù)的潛在特征。文獻(xiàn)[12]提出一個將非負(fù)特征分解用于數(shù)據(jù)并將數(shù)據(jù)進(jìn)行融合,制定了一個帶有歸一化策略的聯(lián)合矩陣分解。基于圖的多視角聚類方法利用樣本之間的加權(quán)無向圖來表示樣本之間的關(guān)系。這一類方法通常假設(shè)每個單獨的視角都可以捕獲數(shù)據(jù)的部分信息,同時所有的樣本關(guān)系圖都具有相同的潛在一致性數(shù)據(jù)信息。文獻(xiàn)[13]提出一個共同正則化多視角譜聚類方法,在學(xué)習(xí)共享特征向量的同時減小多個視角之間的差異,保持多個視角之間具有一致性。文獻(xiàn)[14]提出學(xué)習(xí)多個視角間的相似度矩陣,學(xué)習(xí)得到一個一致性的聯(lián)通分量的方法。但是,以上這些方法在獲取視角間一致性信息時忽略了視角的多樣性和重要性排序,平等對待每個視角會受到冗余視角的干擾,無法提取多視角數(shù)據(jù)內(nèi)隱含的一致性信息,降低了聚類性能。
本文提出一個基于一致性圖的權(quán)重自適應(yīng)多視角譜聚類算法(WGSC)。首先引入自適應(yīng)的視角權(quán)重,使得不同視角發(fā)揮不同作用,自適應(yīng)調(diào)節(jié)加權(quán)視角權(quán)重,學(xué)習(xí)真實的一致性共享相似度矩陣。其次學(xué)習(xí)具有多樣性的特征嵌入,建立特征嵌入與樣本嵌入的二部圖,實現(xiàn)特征嵌入和樣本嵌入之間的特征遷移,最大化兩者間的一致性。最后分別將共享相似度矩陣、特征嵌入同樣本嵌入聯(lián)合優(yōu)化,以此提高樣本嵌入的一致性。
傳統(tǒng)的機(jī)器學(xué)習(xí)通常需要使用同分布假設(shè)的標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練,然而在實際過程中不同數(shù)據(jù)集可能存在一些問題,比如數(shù)據(jù)分布差異、標(biāo)注數(shù)據(jù)過期和訓(xùn)練數(shù)據(jù)過期等問題。為了充分利用標(biāo)簽數(shù)據(jù),保證新任務(wù)上的模型精度,遷移學(xué)習(xí)應(yīng)運而生。遷移學(xué)習(xí)利用輔助數(shù)據(jù)集來提高目標(biāo)數(shù)據(jù)集的學(xué)習(xí)性能,其目的是獲取源域和學(xué)習(xí)任務(wù)中的知識,以幫助提升目標(biāo)域中的預(yù)測函數(shù)的學(xué)習(xí)。
對于該思想在聚類問題中的應(yīng)用,文獻(xiàn)[15]提出自我學(xué)習(xí)聚類(STC),在大量無標(biāo)簽輔助數(shù)據(jù)的幫助下對目標(biāo)數(shù)據(jù)進(jìn)行聚類。STC 擴(kuò)展了基于信息理論的協(xié)同聚類算法[16],假設(shè)目標(biāo)數(shù)據(jù)集和輔助數(shù)據(jù)集共享相同的特征聚類。遷移譜聚類(TSC)[17]在此基礎(chǔ)之上提出了一種基于類似假設(shè)的方法。與基于信息理論的STC 不同,TSC 在建立圖的基礎(chǔ)上對任務(wù)進(jìn)行聚類。在TSC 的基礎(chǔ)上,本文將兩個視角延伸到多個視角并改善了只能建立相同特征數(shù)視角的二部圖約束,即便特征數(shù)不同的視角也能建立二部圖,實現(xiàn)多視角數(shù)據(jù)中樣本嵌入和特征嵌入之間的遷移學(xué)習(xí)。
在文獻(xiàn)[13]提出的協(xié)同訓(xùn)練和協(xié)同聚類基礎(chǔ)上,文獻(xiàn)[18-19]提出了多種不同的多視角聚類算法。但是這些算法都忽略了不同視角之間的權(quán)重和樣本關(guān)系學(xué)習(xí)的問題。文獻(xiàn)[14]提出了基于圖學(xué)習(xí)的多視角聚類算法,該算法給出了權(quán)重參數(shù),使得不同視角信息具備不同重要性。但是這種算法忽略了權(quán)重因子非負(fù)的問題,因為一個非負(fù)的歸一化權(quán)重能夠減少某一個視角完全決定整個算法的情況,使得視角參數(shù)更加可靠。因此,文獻(xiàn)[20]提出一種可擴(kuò)展的多視角聚類方法,該方法給每個視角分配非負(fù)的權(quán)重,從而避免了因某一視角權(quán)重過大而決定整體結(jié)果。受到該方法的啟發(fā),本文提出視角權(quán)重向量,視角權(quán)重由相似度矩陣和共享相似度矩陣之間的差異自適應(yīng)調(diào)節(jié),無須再手動調(diào)節(jié)視角權(quán)重參數(shù)。通過最小化兩者之間的差異,促使共享相似度矩陣最大化學(xué)習(xí)視角間的一致性信息。但是,多視角數(shù)據(jù)樣本的信息尚未得到充分利用,為此本文充分學(xué)習(xí)樣本的特征,建立特征嵌入與樣本嵌入的聯(lián)系,將特征嵌入的多樣性特征轉(zhuǎn)化為有利于樣本嵌入的一致性表達(dá),實現(xiàn)信息的遷移。
對于具有nv個視角的多視角數(shù)據(jù)樣本X={X1,X2,…,Xnv},其中,Xv∈Rd×n表示第v個視角下的樣本數(shù)據(jù),d表示的是對應(yīng)視角下的特征維度,n是樣本點的個數(shù)。特征嵌入F∈Rn×c,c表示聚類的個數(shù)?!琗‖2,1表示2,1 范數(shù),表示2 范數(shù)的平方,表示Frobenis 范數(shù)的平方。
相似度矩陣的初始化通常采用高斯核全連接的方式構(gòu)造相似度矩陣,本文采用式(1)分別初始化每個視角v的相似度矩陣Sv。該式利用樣本點之間的距離計算兩者之間的相似度sij,并對相似度矩陣施加范數(shù)約束,避免某一個樣本點對應(yīng)的相似度向量si中存在只有一個非零值的情況。
其中:εs是調(diào)節(jié)相似度矩陣的正則化參數(shù)。
WGSC 算法整體流程如圖1 所示,首先構(gòu)建每個視角的相似度矩陣并初始化其對應(yīng)的視角權(quán)重,對兩者進(jìn)行加權(quán)求和,最小化共享的相似度矩陣G和多個視角相似度矩陣Sv之間的差異,以此獲得所有視角的一致性表達(dá)。其次學(xué)習(xí)每個視角特征嵌入Av并建立與共享樣本嵌入F的二部圖,遷移多樣性數(shù)據(jù)于樣本嵌入和特征嵌入之間,同時最大化特征嵌入與樣本嵌入間的一致性約束,實現(xiàn)多個視角間的多樣性信息轉(zhuǎn)化為一致性信息。最終以樣本嵌入為中間樞紐站,整合共享相似度矩陣、樣本嵌入和特征嵌入的統(tǒng)一學(xué)習(xí)框架。該框架可分為兩個部分:一是本文方法的核心,樣本嵌入F的學(xué)習(xí)是從特征嵌入Av和共享相似度矩陣G中學(xué)習(xí)一致性和多樣性信息,提高樣本嵌入的一致性;二是為了充分利用原始數(shù)據(jù)信息,學(xué)習(xí)共享相似度矩陣G得到一致性樣本關(guān)系和遷移特征嵌入的多樣性信息。通過相似度矩陣Sv和視角權(quán)重αv的結(jié)合學(xué)習(xí),篩選更優(yōu)的視角,減少不重要信息的干擾,得到一致性相似度矩陣G。從特征嵌入的多樣性信息中學(xué)習(xí)能夠補(bǔ)充單一地學(xué)習(xí)樣本關(guān)系的不足,學(xué)習(xí)到的多樣性特征信息能夠提供更多多視角間的一致性信息,兩者相輔相成最終獲得更好的多視角聚類結(jié)果。
圖1 WGSC 算法流程Fig.1 Procedure of WGSC algorithm
傳統(tǒng)的譜聚類通常預(yù)先計算樣本點之間的距離得到相似度矩陣。但是,在多視角聚類中,直接對每個視角的相似度矩陣做聚類難以保證多個視角之間的一致性。為了解決這個問題,提出學(xué)習(xí)視角間共享的相似度矩陣。本文方法賦值相似度矩陣對應(yīng)的視角權(quán)重并對其加權(quán)求和,通過Frobenis 范數(shù)約束減少加權(quán)后的相似度矩陣與共享相似度矩陣的差值,得到具有多個視角間一致性樣本關(guān)系的共享相似度矩陣。視角權(quán)重的自適應(yīng)調(diào)節(jié)數(shù)值由相似度矩陣與共享相似度矩陣之間的差異決定,如果差異過大會減少視角權(quán)重的值,從而提高更優(yōu)視角的權(quán)重。參數(shù)權(quán)重的引入打破了每個視角之間的平等性,對所含信息重要性差異化的多個視角進(jìn)行排序,降低了次優(yōu)視角的權(quán)重,最小化了每個視角相似度矩陣與共享相似度矩陣的差異,優(yōu)化了共享相似度矩陣的一致性學(xué)習(xí)。最后得到共享的相似度矩陣G:
其中:αv為視角權(quán)重;Sv為相似度矩陣;G為共享相似度矩陣。
在聚類中,同一類中的樣本往往有相似的特征分布,并且特征的相似度越高,屬于同一類的概率也越大[21]。本文方法利用遷移學(xué)習(xí)思想,知識從源域遷移映射到目標(biāo)域,表現(xiàn)為將特征信息遷移到樣本信息,學(xué)習(xí)每個視角的特征嵌入并將相似的信息傳遞給樣本嵌入。在方法實現(xiàn)上,采用二部圖來表示樣本和特征之間的關(guān)系,尋找樣本和特征之間的最小切割,最大化兩者之間的相同點。其中,2,1 范數(shù)[22]能夠有效降低樣本中的噪聲對特征選擇的影響。其函數(shù)表達(dá)式如式(3)所示:
本文方法以樣本嵌入F為中心,以共享相似度圖G和特征嵌入Av為出發(fā)點,在譜聚類中實現(xiàn)對樣本嵌入的優(yōu)化,得到最終的目標(biāo)函數(shù)。首先,學(xué)習(xí)每個視角所對應(yīng)的相似度矩陣,并對權(quán)重αv平均初始化。其次,在Frobenis 范數(shù)的約束下最小化相似度矩陣和共享相似度矩陣的差異,得到最優(yōu)的共享相似度矩陣。與此同時,建立樣本嵌入F與特征嵌入Av之間的二部圖,最大化兩者的共同性,以此加強(qiáng)樣本嵌入的一致性學(xué)習(xí),同時通過2,1 范數(shù)降低特征嵌入學(xué)習(xí)過程中噪聲對特征選擇的影響。在迭代更新中,共享相似度矩陣學(xué)習(xí)了所有視角的相似度矩陣,視角權(quán)重的更新由相似度矩陣和共享相似度矩陣的差異決定,如果單個視角的相似度矩陣與共享相似度矩陣差異很大,意味著該視角的相似度矩陣存在很多與其他視角不一樣的數(shù)據(jù)點,視角權(quán)重將自適應(yīng)降低權(quán)重參數(shù)的值,同時更重要的視角權(quán)值會增加。通過這種方式,最終的共享相似度矩陣學(xué)習(xí)了所有視角的一致性信息。共享相似度矩陣由每個視角的相似度矩陣、視角參數(shù)共同決定,這為譜聚類的學(xué)習(xí)提供了一個可靠的相似度矩陣。譜聚類不僅需要考慮樣本相似度矩陣,還需要考慮特征嵌入學(xué)習(xí)。為了進(jìn)一步優(yōu)化樣本嵌入,將多個視角中的多樣性特征遷移至樣本嵌入中,通過最大化特征嵌入與樣本嵌入之間的一致性,補(bǔ)充了樣本嵌入中的多樣性信息,提升了樣本嵌入的準(zhǔn)確性和一致性。具體來講,樣本嵌入將具有一致性的樣本關(guān)系作用于特征嵌入,特征嵌入將優(yōu)化后的多樣性特征反饋給樣本嵌入,樣本嵌入學(xué)習(xí)視角間多樣性特征信息,以此最大化視角間的一致性信息。最終圖學(xué)習(xí)、譜聚類以及參數(shù)更新在統(tǒng)一的框架中聯(lián)合優(yōu)化,在譜聚類作用下得到一個具有一致性和準(zhǔn)確性的樣本嵌入,提高了最終的聚類性能。本文方法的目標(biāo)損失函數(shù)如式(4)所示:
其中:αv為視角權(quán)重;Sv為相似度矩陣;G為共享相似度矩陣;Av為特征嵌入;F為樣本嵌入;為歸一化后的樣本數(shù)據(jù);λ為樣本學(xué)習(xí)調(diào)節(jié)參數(shù);μ、β為特征樣本參數(shù)。
該節(jié)對提出的算法進(jìn)行詳細(xì)的求解。由于該算法所含變量非凸,本文采用最優(yōu)交替乘子法(ADMM)[23]對該目標(biāo)公式進(jìn)行求解,取得G、F、A的最優(yōu)解。首先引入輔助變量Q、β,并得到該算法的拉格朗日函數(shù)如下:
其中:Yv是拉格朗日乘子;γ是懲罰參數(shù)。
更新G,固定其余變量,保留只含有G的項,最終可以得到式(6):
式(11)為非凸函數(shù),采用最優(yōu)交替乘子法取得最優(yōu)解。
更新F,固定其余變量:
定 理1對于秩 為p的矩陣Z∈Rn×p,Z在Stiefel Manifold[24]上的投影定義為:
N是半正定矩陣,式(24)是一個二次凸優(yōu)化問題。本文實驗通過經(jīng)典拉格朗日乘數(shù)的方法來有效解決該問題。因此,式(24)優(yōu)化等價于式(25)優(yōu)化:
式(29)的優(yōu)化參考了文獻(xiàn)[25]算法優(yōu)化。
在WGSC 算法中,假設(shè)總迭代次數(shù)為m,視角權(quán)重更新中的迭代次數(shù)為t。WGSC 由3 個子問題組成:更新共享相似度矩陣,迭代優(yōu)化共享相似度矩陣G,復(fù)雜度為O(n2cm+nm2t+m3t);更新樣本嵌入F,需要計算其本身和投影,時間復(fù)雜度為O(n2c);更新特征嵌入Av,計算的復(fù)雜度為O(n2c)。因此,WGSC的復(fù)雜度為O(n2cm+nm2t+m3t)。
本節(jié)將驗證上述方法的性能,本文實驗將在5 個真實的數(shù)據(jù)集上運行。
3-Sources 數(shù)據(jù)集來自3 個著名的在線新聞資源:BBC,Reuters,Guardian。該數(shù)據(jù)集在3 個來源中共報道169 篇,分為6 個主題標(biāo)簽,每篇新聞都有一個主題標(biāo)簽。Yale 數(shù)據(jù)集包含了15 個人的165 張GIF 格式的灰度圖像,每個對象在不同心情、不同條件下提供11 張照片。MSRCV1 數(shù)據(jù)集包含240 張圖像和8 個對象類別,選擇7 種類別的數(shù)據(jù),每種類型有6 種提取方式,即CENT、CMT、GIST、HOG、LBP、SIFT。ORL 數(shù)據(jù)集包含40 個不同主題的400 張圖像,所有圖像均在暗光均勻的光線下拍攝,且在不同的時間、不同的光照、不同的面部表情和不同細(xì)節(jié)下拍攝。COIL20 數(shù)據(jù)集包含20 個物體的圖像,每個物體有72 張不同角度的彩色圖像,共1 440 張。本文實驗運行于Apple M1 芯片,內(nèi)存8 GB,MATLAB R2020a 軟件。
首先對實驗數(shù)據(jù)進(jìn)行歸一化處理,使得所有的樣本數(shù)據(jù)值在[-1,1]之間。對歸一化后的樣本數(shù)據(jù)輸入到WGSC 算法中得到樣本嵌入,并對樣本嵌入做K-means 聚類得到最終的實驗結(jié)果。其中將所有對比算法中近鄰參數(shù)設(shè)置為類的個數(shù),本文實驗也設(shè)置為類的個數(shù)。本文實驗將多視角的數(shù)據(jù)分別依次傳輸?shù)絾我暯撬惴ㄖ羞M(jìn)行運行,并選取實驗結(jié)果最好的視角作為最終的實驗結(jié)果,其余算法均一次性運行所有視角的數(shù)據(jù)并得到最終的實驗結(jié)果。所有實驗結(jié)果均由上述實驗方式得到,并在同一數(shù)據(jù)集下運行30 次得到相應(yīng)實驗結(jié)果,計算各評估指標(biāo)的平均值和標(biāo)準(zhǔn)差。
多視角聚類對比算法如下:
1)譜聚類[26]構(gòu)建樣本的相似度矩陣,距離與邊權(quán)值成反比。通過對所有數(shù)據(jù)點組成的圖進(jìn)行切圖,讓切圖后不同的子圖間邊權(quán)重和盡可能得低,而子圖內(nèi)的邊權(quán)重和盡可能得高,從而達(dá)到聚類的目的。優(yōu)點在于具有能在任意形狀的樣本空間上聚類且收斂于全局最優(yōu)解,但是對相似度圖的改變和聚類參數(shù)的選擇非常敏感。
2)可擴(kuò)展多視角聚類(SFMC)算法[20]。SFMC是一個用于多視角聚類的可擴(kuò)展和無參數(shù)的圖形融合框架,以自我監(jiān)督加權(quán)方式尋求跨多個視圖兼容的聯(lián)合圖。學(xué)習(xí)的一致性圖和視角參數(shù)的自適應(yīng)相互學(xué)習(xí)解決了超參數(shù)的問題。
3)加權(quán)多視圖譜聚類(WMSC)算法[27]。根據(jù)特征向量對聚類結(jié)果的影響,引出尋找一個一致的拉普拉斯矩陣,以及對相似的視圖賦予相似的權(quán)重來差異化最終的聚類,運用最大典型角的方法來衡量聚類結(jié)果的差異。
4)聚合相似度矩陣的譜聚類(AASC)算法[28]。對不同視角的相似度矩陣的學(xué)習(xí)減少不重要特征對聚類的影響,并在此基礎(chǔ)之上引入權(quán)重向量,優(yōu)化每個視角的相似度學(xué)習(xí)。
5)共同正則化譜聚類(Co-Reg)算法[29]。建立一個共同正則化譜聚類框架,并在此基礎(chǔ)之上提出兩種正則化方案來實現(xiàn)這個目標(biāo)。兩種方案的區(qū)別在于K-means 所作用的特征向量的不同,第1 個方案是K-means 作用于所有視圖中的其中一個特征向量,第2 個方案是K-means 作用于代表所有視角潛在的具有一致性的特征向量。
6)多視角一致性聚類(MCGC)算法[30]。學(xué)習(xí)一個最小化所有視角差異的一致性圖,并用拉普拉斯矩陣的秩加以約束,最終通過學(xué)習(xí)到的一致性圖直接獲得樣本的標(biāo)簽。
3.3.1 算法性能對比
本文采用6 個聚類評估標(biāo)準(zhǔn)來評估聚類性能,分別是聚類精確度(Accuracy)、標(biāo)準(zhǔn)化互信息(NMI)[31]、純度(Purity)、精確率(Precision)、召回率(Recall)和F1 值。這6 個評估標(biāo)準(zhǔn)下的實驗結(jié)果值越大,表明效果越好。表1~表5 分別展示了本文算法與多個對比算法在3-Sources、MRSCV1、Yale、ORL、COIL20 數(shù)據(jù)集下的實驗結(jié)果,其中,實驗結(jié)果均以平均值(標(biāo)準(zhǔn)差)的形式展示,加粗?jǐn)?shù)字為最優(yōu)值。
表1 不同算法在3-Sources 數(shù)據(jù)集上的比較Table 1 Comparison of different algorithms on 3-Sources dataset >%
表2 不同算法在MRSCV1 數(shù)據(jù)集上的比較Table 2 Comparison of different algorithms on MRSCV1 dataset %
表3 不同算法在Yale 數(shù)據(jù)集上的比較Table 3 Comparison of different algorithms on Yale dataset %
表4 不同算法在ORL 數(shù)據(jù)集上的比較Table 4 Comparison of different algorithms on ORL dataset %
表5 不同算法在COIL20 數(shù)據(jù)集上的比較Table 5 Comparison of different algorithms on COIL20 dataset %
1)WGSC 與SFMC 相比,SFMC 更適用于數(shù)據(jù)規(guī)模更大的數(shù)據(jù)集,其學(xué)習(xí)每個視角對應(yīng)的錨點,壓縮了數(shù)據(jù)的規(guī)模,學(xué)習(xí)視角間的一致性圖。但是,在錨點降維過程中損失了很多特征,因此本文利用二部圖的方式學(xué)習(xí)樣本特征并進(jìn)行遷移學(xué)習(xí)至樣本嵌入補(bǔ)充多樣性。從表1 實驗結(jié)果可以看出,WGSC優(yōu)于SFMC,這表明對于數(shù)據(jù)相似度矩陣在樣本特征損失較大的情況下,學(xué)習(xí)樣本特征能提升聚類性能。
2)WMSC 和WGSC 都是聚焦于得到視角間一致的聚類結(jié)果。WGSC 采用的是學(xué)習(xí)一致性相似度矩陣的方法。為了尋找視角間潛在的一致性樣本關(guān)系,賦予相似度矩陣對應(yīng)視角權(quán)重,融合相似度矩陣得到具有一致性的共享相似度矩陣。兩者不同之處在于:WMSC 學(xué)習(xí)具有一致性的拉普拉斯矩陣,它運用最大典型角的方法來減少不同視角之間的差異。實驗結(jié)果表明,WGSC 優(yōu)于WMSC,因為相比于拉普拉斯矩陣的學(xué)習(xí),相似度矩陣學(xué)習(xí)過程中的數(shù)據(jù)損失更少,聚類性能更佳。
3)WGSC 在所有數(shù)據(jù)集的聚類結(jié)果正確率比AASC 高出了5%以上,這表明WGSC 有良好的聚類性能。AASC 引入了權(quán)重向量并由特征值決定權(quán)重的大小。不同于AASC,WGSC 用相似度矩陣決定最終權(quán)重的大小,并在每輪中迭代更新。WGSC 對權(quán)重的評估具有更加豐富的信息,對于數(shù)據(jù)關(guān)系不清晰和雜亂的視角,賦予更低的權(quán)重能夠降低包含較多噪聲的視角對聚類性能的影響。
4)與WGSC 相比,Co-Reg 學(xué)習(xí)了具有一致性的特征向量,并最小化不同視圖間的特征向量之間的差異來達(dá)成一致性。不同于Co-Reg,WGSC 直接學(xué)習(xí)一致性相似度矩陣避免了原始數(shù)據(jù)中不可靠特征和不重要特征對特征向量的影響。
5)在這5 個數(shù)據(jù)集中,3-Sources 數(shù)據(jù)集特征數(shù)量遠(yuǎn)多于樣本點個數(shù)。因此,特征較多的數(shù)據(jù)集在WGSC 算法上的表現(xiàn)相比于其他算法表現(xiàn)更佳。這是因為WGSC 將視角間的特征信息遷移到了樣本嵌入中,且這些視角的多樣性特征能夠補(bǔ)充樣本關(guān)系中存在的不足。此外,3-Sources 數(shù)據(jù)集的樣本點個數(shù)較少,對模型的遷移特征部分中二部圖的計算更有利,與其他算法相比更具優(yōu)勢,不僅學(xué)習(xí)了構(gòu)建的相似度矩陣中的樣本關(guān)系,還學(xué)習(xí)了大量的特征信息。
綜上,該實驗驗證了自適應(yīng)學(xué)習(xí)視角權(quán)重能提高共享相似度矩陣學(xué)習(xí)的準(zhǔn)確率,在保證不同視角之間的一致性以外,學(xué)習(xí)了原始數(shù)據(jù)的潛在一致性特征,并通過二部圖遷移了不同視角間的多樣性信息,確保了聚類的準(zhǔn)確率。
3.3.2 共享相似度矩陣的一致性驗證
在圖2 中,圖2(a)~圖2(c)分別對應(yīng)MRSCV1 在3 個視角下的相似度矩陣圖,圖2(d)表示在迭代優(yōu)化后得到的共享相似度矩陣。可以看出,最終的共享相似度矩陣整合了視角間的一致性樣本關(guān)系,學(xué)習(xí)了樣本之間潛在的一致性。因此,WGSC 具備學(xué)習(xí)一致性共享相似度矩陣的能力。
3.3.3 算法收斂性分析
圖3 所示為WGSC 在以上5 個數(shù)據(jù)集中的收斂情況。從圖3 可以看出,WGSC 在每個數(shù)據(jù)集上都表現(xiàn)出穩(wěn)定的收斂性,且每次迭代都確保了目標(biāo)函數(shù)值的減少。目標(biāo)函數(shù)收斂到正數(shù)或負(fù)數(shù),其中負(fù)數(shù)函數(shù)值是因為特征嵌入學(xué)習(xí)中存在負(fù)數(shù)項,尤其是原始樣本數(shù)據(jù)相比于其他的項的值更大,所以目標(biāo)函數(shù)值為負(fù)數(shù)是正常的。一般在30 次之后達(dá)到收斂效果,獲得了該算法的局部最優(yōu)值,從而驗證了該算法具有良好的收斂性。
圖3 WGSC 在3-Sources、MRSCV1、Yale、ORL 和COIL20 數(shù)據(jù)集上的收斂圖Fig.3 The converge drawing of WGSC on 3-Sources,MRSCV1,Yale,ORL and COIL20 datasets
3.3.4 參數(shù)分析
本文算法中需要調(diào)試的參數(shù)有μ、λ、β3 個。首先3 個參數(shù)的取值范圍均設(shè)置為{10-4,10-3,10-2,10-1,100,101,102,103},然后對其中2 個取上述范圍,另一個設(shè)為0.1,最終得到在3-Sources 數(shù)據(jù)集的正確率[見 圖4(a)~圖4(c)]、NMI[見 圖4(e)~圖4(f)]和Purity[見圖4(g)~圖4(i)]評估指標(biāo)的實驗結(jié)果。從圖4 可以看出,β在{10-2,10-1,100}下有較為穩(wěn)定的性能,λ在{10-3,10-2,10-1,100}下表現(xiàn)出可靠的性能。相對于上述2個參數(shù),μ在該算法中的表現(xiàn)相對敏感。
圖4 β、μ、λ 在3-Sources 數(shù)據(jù)集下的參數(shù)分析Fig.4 Parameter analysis of β,μ,λ in 3-Sources dataset
本文對譜聚類的相似度矩陣和樣本嵌入重點優(yōu)化,提出一個基于一致性圖的權(quán)重自適應(yīng)多視角譜聚類(WGSC)算法。WGSC 基于自適應(yīng)的視角權(quán)重,學(xué)習(xí)一個一致的共享相似度矩陣,自適應(yīng)改變每個視角的相似度矩陣對應(yīng)權(quán)重,提高共享相似度矩陣的一致性。通過構(gòu)建樣本點和樣本特征二部圖,學(xué)習(xí)每個視角中的特征信息,獲得不同視角的多樣性信息,以此提高樣本嵌入一致性。本文算法建立樣本嵌入、共享相似度矩陣與特征嵌入的關(guān)系,實現(xiàn)三者間的信息轉(zhuǎn)化,獲得最優(yōu)的樣本嵌入。實驗結(jié)果表明,本文算法能自適應(yīng)學(xué)習(xí)權(quán)重參數(shù)及最優(yōu)的相似矩陣,遷移特征嵌入中的信息至樣本嵌入,有效提升樣本嵌入的一致性和多樣性,進(jìn)而提高聚類結(jié)果的準(zhǔn)確率。本文算法在大規(guī)模樣本數(shù)據(jù)下的性能有較大提升空間,對部分參數(shù)較為敏感,下一步將挖掘參數(shù)與樣本之間的關(guān)聯(lián),構(gòu)建無參數(shù)聚類模型并優(yōu)化相似度矩陣學(xué)習(xí),將模型運用于大規(guī)模數(shù)據(jù),避免參數(shù)對準(zhǔn)確率的影響。