郭 圣,仲兆滿,李存華
1.中國礦業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 徐州 221000
2.江蘇海洋大學(xué) 計(jì)算機(jī)工程學(xué)院,江蘇 連云港 222005
子空間聚類是機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺和模式識(shí)別的基礎(chǔ)課題之一,例如圖像表示、人臉聚類和運(yùn)動(dòng)分割[1-2]。子空間聚類的重要性在大量文獻(xiàn)中得以體現(xiàn),因?yàn)樗峭ㄟ^數(shù)據(jù)分析從子空間推斷數(shù)據(jù)結(jié)構(gòu)信息的關(guān)鍵步驟[3]。子空間聚類的目的是將從多個(gè)低維子空間中提取的數(shù)據(jù)點(diǎn)分割成不同的聚類。
在現(xiàn)實(shí)的應(yīng)用中,樣本中的數(shù)據(jù)通常都是高維的[4],因此許多聚類技術(shù)也面臨維度災(zāi)難的挑戰(zhàn),為了充分處理這些高維的樣本數(shù)據(jù),一個(gè)合理的方法是檢測并使用這些樣本的底層子空間結(jié)構(gòu)。大量研究表明,這些高維數(shù)據(jù)的內(nèi)在維度通常遠(yuǎn)小于實(shí)際維度[5]。因此,子空間聚類技術(shù)近年來受到了廣泛的關(guān)注。近年來提出了許多子空間聚類方法,例如稀疏子空間聚類(SSC)[2]、低秩表示(LRR)[1]。為了提高原始SSC 或基于LRR 的方法的魯棒性和表示能力,研究者們還提出許多改進(jìn)方法,例如結(jié)構(gòu)化稀疏子空間聚類(S3C)[6]、圖正則化低秩表示(LRRGR)[7]和潛在低秩表示(LLRR)[8]等子空間聚類方法。S3C 將每個(gè)數(shù)據(jù)點(diǎn)表達(dá)為所有其他數(shù)據(jù)點(diǎn)的結(jié)構(gòu)化稀疏線性組合,并同時(shí)學(xué)習(xí)相似性和分割性。LRRGR和LLRR利用流行正則化項(xiàng)來保留數(shù)據(jù)的局部幾何結(jié)構(gòu),提高原始模型的表示能力和子空間分割精度。雖然在單視圖數(shù)據(jù)(由一個(gè)視圖組成的數(shù)據(jù))上這些子空間聚類方法取得了較好的性能,但這些方法具有以下限制。首先一個(gè)挑戰(zhàn)性的問題是這些方法采用線性假設(shè),基于這種情況利用凸方法可以很好地解決子空間聚類問題,但是在現(xiàn)實(shí)中,數(shù)據(jù)之間的關(guān)系通常是高度非線性的,上述方法可能會(huì)降低聚類性能。其次隨著如今對(duì)數(shù)據(jù)信息化的要求越來越高,特定信息和通用信息在數(shù)據(jù)中共存,僅從單一視圖描述數(shù)據(jù)已無法得到預(yù)期效果。
在當(dāng)今數(shù)據(jù)爆炸時(shí)代,通常獲得的數(shù)據(jù)具有多個(gè)視角(對(duì)事物不同的特征描述),即多視圖數(shù)據(jù)。相比單視圖數(shù)據(jù),從多視圖數(shù)據(jù)中可獲得豐富的信息。因此多視圖數(shù)據(jù)的子空間聚類問題成為學(xué)者們的研究重點(diǎn)。對(duì)于多視圖數(shù)據(jù)子空間聚類來說需要利用來自多個(gè)不同數(shù)據(jù)特征中所挖掘的綜合信息,即互補(bǔ)性和一致性,如圖1 所示。最近,Cao 等人提出多樣性誘導(dǎo)的多視圖子空間聚類(DIMSC)[9]。此方法從不同的角度探索不同視圖的互補(bǔ)信息,利用希爾伯特-施密特獨(dú)立準(zhǔn)則(HSIC)從不同的角度學(xué)習(xí)不同的子空間,可以解決數(shù)據(jù)相對(duì)復(fù)雜的依賴性。然而使用HSIC 的缺點(diǎn)是HSIC是一個(gè)值感知標(biāo)準(zhǔn),由于規(guī)模問題值感知正則化可能會(huì)降低了其性能,而且DIMSC 在兩個(gè)分離的階段中執(zhí)行子空間學(xué)習(xí)和譜聚類,不能充分地保留公共聚類結(jié)構(gòu)。Wang 等人為了克服上述缺點(diǎn)提出了排他性-一致性正則化多視圖子空間聚類(ECMSC)[10],在此方法中使用位置感知準(zhǔn)則處理元素值大小,并將兩個(gè)分離的步驟(即子空間學(xué)習(xí)和譜聚類)合并到一個(gè)優(yōu)化框架中,利用補(bǔ)充信息的排他性和一個(gè)指示器的一致性來統(tǒng)一處理子空間聚類,但是此方法構(gòu)建的相似性信息量較少而且也缺乏利用不同視圖之間的多樣性,無法揭示不同視圖的子空間結(jié)構(gòu)。Gao 等人為了確保不同視圖之間的一致性提出了多視圖子空間聚類(MVSC)[11],這種方法對(duì)每個(gè)視圖執(zhí)行子空間聚類,采用了一個(gè)共同的指標(biāo)來保證共同的集群結(jié)構(gòu),強(qiáng)制使不同視圖中的點(diǎn)被分類到同一集群中。但是這個(gè)算法忽略了每個(gè)視圖的局部結(jié)構(gòu),僅僅拼接多視圖數(shù)據(jù)中的特征并執(zhí)行子空間聚類,無法利用數(shù)據(jù)的內(nèi)在特征。樸素多視圖子空間聚類(NaMSC)方法首先使用Hu等人提出的平滑表示聚類(SMR)[12]從每個(gè)視圖中學(xué)習(xí)子空間表示,然后將譜聚類應(yīng)用到學(xué)習(xí)表示的框架中,NaMSC 僅直接組合多視圖表示并獨(dú)立地學(xué)習(xí)每個(gè)子空間表示,因此無法保證不同視圖的互補(bǔ)性。這些方法雖然取得了不錯(cuò)的聚類結(jié)果,但還是存在上述問題。目前多視圖聚類方法大部分基于淺層聚類模型,因此對(duì)于復(fù)雜數(shù)據(jù)結(jié)構(gòu)很難學(xué)習(xí)魯棒表示。
圖1 多視圖學(xué)習(xí)示意圖
在深度學(xué)習(xí)領(lǐng)域中,自編碼器作為另一種流行的復(fù)雜數(shù)據(jù)表示方法,引起了研究者們的關(guān)注。Hinton等將自編碼器作為一種降維方法使用在深度定向網(wǎng)絡(luò)中,改善了數(shù)據(jù)局部極小的問題[13]。Vincent P 等將自編碼器應(yīng)用于圖像的降噪[14],能夠強(qiáng)迫網(wǎng)絡(luò)學(xué)習(xí)到更加魯棒的不變性特征,并獲得較好的結(jié)果。Krizhevsky用自編碼器編碼圖像,在目標(biāo)分類問題上取得了巨大的成功[15]。自編碼器在其優(yōu)化發(fā)展過程中,被廣泛應(yīng)用到模式識(shí)別、自然語言處理、圖像分類和聚類以及其他領(lǐng)域[16]。為了提高多視圖復(fù)雜數(shù)據(jù)子空間聚類算法的學(xué)習(xí)效率,本文將子空間學(xué)習(xí)引入到深度自編碼模型中,提出一種基于深度自編碼的多視圖子空間聚類網(wǎng)絡(luò)(DMSCN),該網(wǎng)絡(luò)能夠表示多視圖數(shù)據(jù)中非線性結(jié)構(gòu),且有效地從多視圖中提取多層子空間。在模型中利用加權(quán)稀疏表示,并保證數(shù)據(jù)的局部性,進(jìn)而提高了學(xué)習(xí)效率。最后實(shí)驗(yàn)表明,在常用的多視圖數(shù)據(jù)集上,提出的模型優(yōu)于其他先進(jìn)的多視圖子空間聚類模型。
自編碼器是一種無監(jiān)督的數(shù)據(jù)維度壓縮和數(shù)據(jù)特征表達(dá)方法[16]。在自編碼器中,通過不斷訓(xùn)練網(wǎng)絡(luò)中的參數(shù),就可以將網(wǎng)絡(luò)中的權(quán)重初始化到一個(gè)比較好的位置,經(jīng)過這樣的多重訓(xùn)練可以得到信息的多重表示方式。一般自編碼器的結(jié)構(gòu)如圖2所示,自編碼器的目標(biāo)函數(shù)(1)如下所示:
自編碼器分為淺層自編碼器和深層自編碼器,淺層自編碼器分別有一層編碼器和解碼器,深層自編碼器則有多層編碼器和解碼器。以淺層自編碼器為例:
(1)編碼器部分,其實(shí)現(xiàn)了數(shù)據(jù)的壓縮,對(duì)于輸入X:
圖2 淺自編碼器網(wǎng)絡(luò)結(jié)構(gòu)
其中,W1是連接輸入層到中間隱層的權(quán)重矩陣,p1是編碼器的偏置向量。sJ(?)為輸入層和中間隱層之間的激活函數(shù),一般選取為sigmoid函數(shù),即。
(2)通過解碼器部分將編碼h映射到原始數(shù)據(jù)維度上,即對(duì)數(shù)據(jù)的復(fù)現(xiàn):
其中,W2是中間隱層到輸出層的權(quán)重矩陣,p2是解碼器的偏置向量,g(?)為解碼器激活函數(shù)。通常選取為sigmoid函數(shù)或恒等函數(shù),恒等函數(shù)即g(x)=x。
從式(2)和式(3)可以看出,自編碼器每一層的訓(xùn)練都是獨(dú)立的,通過嘗試重建前一層中的表示來捕獲更抽象的特征。在訓(xùn)練過程中尋找參數(shù)集,重構(gòu)輸入數(shù)據(jù),使得輸出層輸出的數(shù)據(jù)與輸入層輸入的數(shù)據(jù)盡可能接近,即輸出數(shù)據(jù)與輸入數(shù)據(jù)的誤差盡可能小。這里損失函數(shù)可以有兩種形式,(1)平方誤差損失函數(shù),即式(4)。(2)交叉熵(cross-entropy)損失函數(shù),即式(5)。
在訓(xùn)練中,通過優(yōu)化平滑函數(shù)(通常是歐幾里德范數(shù))來學(xué)習(xí)編碼器和解碼器,結(jié)合式(2)到式(5)可得目標(biāo)損失函數(shù)為:
其中,LS項(xiàng)中Lζ表示交叉熵?fù)p失函數(shù)LCE或是平方誤差損失函數(shù)LMSE。另外ng表示神經(jīng)網(wǎng)絡(luò)的層數(shù),sg和sg+1分別表示第g層和第g+1 層的元素?cái)?shù)目,λ為權(quán)衡參數(shù)。
前面著重介紹了淺層自編碼器模型,在本節(jié)中將進(jìn)一步介紹加入重建關(guān)系的自編碼器——深度自編碼器網(wǎng)絡(luò)模型。在流形學(xué)習(xí)中,假設(shè)某些屬性對(duì)不同的投影空間是不變的,因此可以通過將輸入空間中的特定屬性保留到另一個(gè)空間來學(xué)習(xí)表示。這種表示是尋求不變性,在文獻(xiàn)[17-18]中已表明其有效性:假設(shè)數(shù)據(jù)由N個(gè)實(shí)值向量Si組成,每一個(gè)維度都是從某些潛在的流形中采樣。若有足夠的數(shù)據(jù),則期望每個(gè)數(shù)據(jù)點(diǎn)及其鄰近點(diǎn)位于或接近流形的局部線性塊上,可以用線性系數(shù)從相鄰的數(shù)據(jù)點(diǎn)重建每個(gè)數(shù)據(jù)點(diǎn),進(jìn)行描述這些塊的局部幾何特征。這里重建誤差用損失函數(shù)(7)來衡量:
其中,權(quán)重Wij表示第j個(gè)數(shù)據(jù)點(diǎn)對(duì)第i個(gè)數(shù)據(jù)點(diǎn)重建的貢獻(xiàn)。使重建誤差最小化的約束權(quán)重遵循一個(gè)重要的對(duì)稱性:對(duì)于任何特定的數(shù)據(jù)點(diǎn),它們對(duì)該數(shù)據(jù)點(diǎn)及其相鄰點(diǎn)的旋轉(zhuǎn)、重定線和轉(zhuǎn)換都是不變的。在本文中重建關(guān)系可以認(rèn)為是不變性的類型。這種關(guān)系可以保證數(shù)據(jù)的全局結(jié)構(gòu),此網(wǎng)絡(luò)中引入一種已證明在傳統(tǒng)子空間聚類中有效的自我表示特性。通過這種方式可以學(xué)習(xí)所有數(shù)據(jù)點(diǎn)之間的成對(duì)相似性,并產(chǎn)生樣本親和度矩陣和子空間聚類結(jié)果。
其中,||·||F表示Frobenius范數(shù),λ為權(quán)衡參數(shù)。因此可以利用C來構(gòu)建用于譜聚類的親和度矩陣。
在大多數(shù)現(xiàn)有的子空間聚類方法中,每個(gè)樣本都被編碼為整個(gè)數(shù)據(jù)集的線性組合。與線性子空間聚類模型不同,深度子空間聚類網(wǎng)絡(luò)可以學(xué)習(xí)多個(gè)非線性變換將樣本輸入映射到另一個(gè)子空間中,從而可以將獲得的低維表示與非線性表示相結(jié)合,同時(shí)適應(yīng)局部和全局子空間結(jié)構(gòu)。特別是該網(wǎng)絡(luò)以最小的重建誤差來學(xué)習(xí)輸入數(shù)據(jù)的表示,確保數(shù)據(jù)的固有局部性結(jié)構(gòu)。深度子空間聚類網(wǎng)絡(luò)模型構(gòu)建如下[19]:
其中,R(S)表示編碼器的輸出,||R(S)-R(S)C||表示自我表示項(xiàng),?表示由自編碼器輸出的數(shù)據(jù)。在此網(wǎng)絡(luò)中將每個(gè)數(shù)據(jù)點(diǎn)作為網(wǎng)絡(luò)中的一個(gè)節(jié)點(diǎn),并將每一個(gè)數(shù)據(jù)點(diǎn)通過權(quán)重與其他點(diǎn)的加權(quán)線性組合來近似計(jì)算,可以通過一個(gè)線性全連接層來表示自我表示項(xiàng)。相比于傳統(tǒng)的自編碼器,深度子空間聚類網(wǎng)絡(luò)模型不僅適用于無監(jiān)督子空間聚類,可將輸入的數(shù)據(jù)非線性映射到潛在空間,在模型中引入傳統(tǒng)子空間聚類中自我表示特性,表明其關(guān)系對(duì)于不同的特征空間是不變的,進(jìn)一步揭示數(shù)據(jù)的相關(guān)性;而且該網(wǎng)絡(luò)從深度學(xué)習(xí)模型的不同層收集視圖的補(bǔ)充信息,使得它能恢復(fù)更準(zhǔn)確和穩(wěn)定的聚類結(jié)構(gòu),以獲得更好的聚類結(jié)果。
該網(wǎng)絡(luò)算法主要描述為如下過程:
(1)如式(2),X作為輸入數(shù)據(jù)進(jìn)行前向反饋運(yùn)算,根據(jù)式(3)得到輸出Y。
(2)根據(jù)式(9)得到函數(shù)損失值。
(3)進(jìn)行后向反饋運(yùn)算,利用隨機(jī)子梯度下降法算法優(yōu)化損失函數(shù)。
(4)重復(fù)步驟(1)到(4),直至損失函數(shù)收斂。通過上述算法步驟可以得出自表示系數(shù)矩陣。
首先,解釋以下一些符號(hào)表達(dá)。B表示矩陣,b表示向量,tr(B)表示矩陣B的跡,BT表示矩陣B的轉(zhuǎn)置矩陣,(B)ij表示矩陣B中第i行j列的元素,bj表示矩陣的第j列向量。
現(xiàn)實(shí)中的數(shù)據(jù)通常為多視圖非線性數(shù)據(jù)。若采用傳統(tǒng)線性聚類方法針對(duì)這類數(shù)據(jù)進(jìn)行聚類,既不能有效表示數(shù)據(jù)非線性結(jié)構(gòu)又不能充分利用多個(gè)視圖信息,從而導(dǎo)致聚類效果往往不夠理想。雖然深度子空間聚類網(wǎng)絡(luò)能夠表示數(shù)據(jù)中非線性結(jié)構(gòu),但是該網(wǎng)絡(luò)不能保證所學(xué)習(xí)的矩陣具有一致性和原始數(shù)據(jù)的相似性信息,導(dǎo)致性能不佳。為了解決上述問題,本文提出一種基于深度自編碼的多視圖子空間聚類網(wǎng)絡(luò)(DMSCN)。
在本節(jié)中將詳細(xì)介紹基于深度自編碼的多視圖子空間聚類網(wǎng)絡(luò)(DMSCN)。圖3 說明了DMSCN 的基本思想,具體說明為:(1)DMSCN是一種多層非線性網(wǎng)絡(luò)模型,具有捕獲數(shù)據(jù)非線性的能力。(2)DMSCN通過自表達(dá)層H(N2)提取數(shù)據(jù)中的特性進(jìn)行編碼,保證了數(shù)據(jù)的全局性。(3)在DMSCN中利用加權(quán)稀疏表示,保證數(shù)據(jù)的局部性,從而實(shí)現(xiàn)更高效和準(zhǔn)確的數(shù)據(jù)表示。(4)模型中低維共識(shí)子空間能聚合來自所有子空間的聚類信息。圖3 中We,Wd分別表示編碼層和解碼層的權(quán)重矩陣。
在DMSCN 中為了執(zhí)行每一個(gè)視圖的N個(gè)非線性變換,對(duì)每一個(gè)視圖采用N+1 層的神經(jīng)網(wǎng)絡(luò),其中每個(gè)第一層表示數(shù)據(jù)的輸入。第一個(gè)N2 隱藏層作為編碼器的輸出用于學(xué)習(xí)緊湊表示,最后一個(gè)N2 層作為編碼器的輸入保證數(shù)據(jù)的全局性。此外說明一下符號(hào)表示,如表示數(shù)據(jù)集中第v個(gè)視圖中輸入的一個(gè)數(shù)據(jù)點(diǎn),以及式(10)中表示第v個(gè)視圖的第n層的輸出。
圖3 DMSCN結(jié)構(gòu)體系
其中,索引層數(shù)表示為n=1,2,…,N。dnv表示第v個(gè)視圖相應(yīng)層的神經(jīng)元數(shù),σ(· )表示使用的激活函數(shù)。
為了保證數(shù)據(jù)全局結(jié)構(gòu),如2.2 節(jié)所述在網(wǎng)絡(luò)的編碼層和解碼層之間引入自表示層,通過學(xué)習(xí)低秩子空間表示來進(jìn)一步增強(qiáng)聚類結(jié)構(gòu):
J1中Cv和分別表示第v個(gè)視圖的子空間表示和自表示層,N一般為偶數(shù)。非負(fù)約束Cv≥0 是為了約束其解。通過自表示學(xué)習(xí),Cv中的每個(gè)元素都反映兩個(gè)樣本之間的相似性。為了確保Cv的塊對(duì)角線屬性,采用核范數(shù)進(jìn)行約束,這樣可以有效地增強(qiáng)數(shù)據(jù)相關(guān)性并揭示不同視圖中固有的低秩聚類結(jié)構(gòu)。
在大多數(shù)子空間聚類中,數(shù)據(jù)的局部結(jié)構(gòu)很容易被忽略。近年來許多研究[20-21]表明數(shù)據(jù)局部結(jié)構(gòu)的重要性,雖然一部分方法使用L1 范數(shù)的稀疏約束自適應(yīng)地選取少量樣本進(jìn)行數(shù)據(jù)表示,但由于稀疏性并不一定保證了局部性,也不能捕捉到數(shù)據(jù)固有的局部性結(jié)構(gòu)。為了保證數(shù)據(jù)局部性,在模型中引入一個(gè)距離約束。另外考慮到視圖之間互補(bǔ)性和多樣性,建議學(xué)習(xí)低維共識(shí)子空間F∈?n×s,它可以在不同視圖中交替學(xué)習(xí)視圖的特征:J2中[χ1,χ2,…,χn]∈ ?m×n表示每個(gè)視圖中包含n個(gè)樣本的數(shù)據(jù)矩陣,其中每個(gè)樣本表示為一個(gè)列向量。正交約束FTF=I避免平凡解,tr(· )表示矩陣的跡操作。
通過組合上述問題形成整體目標(biāo)函數(shù)。對(duì)于多視圖子空間聚類建議最小化以下目標(biāo)函數(shù):
其中,參數(shù)λ1,λ2為權(quán)衡參數(shù)。求解式(14)可以通過不同視圖的低秩子空間來學(xué)習(xí)共識(shí)子空間F,然后將共識(shí)子空間作為新的數(shù)據(jù)表示,然后對(duì)其進(jìn)行聚類分析,得到多視圖子空間聚類結(jié)果。
在本章中,使用隨機(jī)子梯度下降法算法來優(yōu)化深度自編碼的多視圖子空間聚類網(wǎng)絡(luò)。在每次迭代中,固定其他變量只更新一個(gè)變量。重寫式(14)為下面形式:
首先根據(jù)式(10)中對(duì)的定義,使用反向傳播算法更新W(n)和b(n)。
(1)更新Wn和bn
其中,⊙ 叫作 Hadamard 積,σ′(· )表示σ(· )的導(dǎo)數(shù),使用隨機(jī)子梯度下降法算法,Wn和bn更新(其中學(xué)習(xí)率ε=10-3)如下:
然后從式(15)保留其余變量,以及為了使其可分離進(jìn)行優(yōu)化引入輔助變量P,得到以下問題:
(2)更新civ
式(21)的增廣拉格朗日函數(shù)是:
式(22)采用交替最小化方法解決所有變量,設(shè)置偏導(dǎo)數(shù)?L(civ,Y1,Y2)?(civ)=0 解決civ并獲得:
其中,G=Y1+D1,U=Y2+D2以及I是單位矩陣。為了解決Y1,設(shè) ?L(civ,Y1,Y2)?(Y1)=0 并獲得:
使用Θτ(X)=UΔτVT,即奇異值閾值算子解決式(25),更新Y2:
(3)更新P
(4)更新F
其中,(LC)v是C第v個(gè)視圖的拉普拉斯矩陣。式(30)可以通過特征值分解進(jìn)行求解,其解是LC的最小s個(gè)特征值對(duì)應(yīng)的特征向量集。
算法1深度多視圖子空間聚類網(wǎng)絡(luò)
算法1總結(jié)了模型的優(yōu)化過程。在本文的實(shí)現(xiàn)中,使用σ(·)=tanh(· )作為激活函數(shù)并采用預(yù)訓(xùn)練的方式進(jìn)行算法優(yōu)化。先通過預(yù)訓(xùn)練較淺的自編碼器網(wǎng)絡(luò),然后使用預(yù)訓(xùn)練的權(quán)重來初始化更深的網(wǎng)絡(luò)。必須要指出的是,本文工作側(cè)重于子空間聚類。
算法2更新輔助變量和拉格朗日乘子
首先,描述了實(shí)驗(yàn)設(shè)置,包括評(píng)估指標(biāo)和比較方法。第二,實(shí)驗(yàn)分析,包括數(shù)據(jù)集介紹,以及參數(shù)設(shè)置和網(wǎng)絡(luò)層結(jié)構(gòu)對(duì)深度自編碼多視圖子空間聚類網(wǎng)絡(luò)(DMSCN)的影響。
在實(shí)驗(yàn)中為了公平,所有方法的參數(shù)都選取能使聚類結(jié)果達(dá)到最好的值,并且對(duì)每個(gè)數(shù)據(jù)集都進(jìn)行10 次實(shí)驗(yàn),結(jié)果取其平均值。使用兩個(gè)指標(biāo)來衡量聚類效果,一種為準(zhǔn)確率(ACC)來評(píng)判所有方法的聚類性能,正確率:ACC=Naccuracy/Ntotal。其中Naccuracy表示正確樣本數(shù)量,Ntotal表示樣本總數(shù)。另一種為標(biāo)準(zhǔn)化互信息(NMI),其定義如下:
其中,表示樣本中的第l類。np表示集群Cp的樣本數(shù)目,np,l表示第l類和集群Cp交集的樣本數(shù)目??梢钥闯鯪MI 的取值范圍是從0 到1,NMI 數(shù)值越大表示兩個(gè)集群的相似度越大。將本文方法與五種先進(jìn)的多視圖聚類方法進(jìn)行比較,如 DiMSC[9]、ECMSC[10]、MVSC[11]、NaMSC、SWMC[22]。
5.2.1 數(shù)據(jù)集
對(duì)三個(gè)廣泛使用的數(shù)據(jù)集如3-Sources 數(shù)據(jù)、Cornell 數(shù)據(jù)集、Numerals 數(shù)據(jù)集,進(jìn)行深度自編碼的多視圖子空間聚類網(wǎng)絡(luò)的實(shí)驗(yàn)評(píng)估。本文的所有實(shí)驗(yàn)均在Matlab R2014a 編寫運(yùn)行,運(yùn)行計(jì)算機(jī)處理器是1.80 GHz Intel CoreTMi5-3337U,內(nèi)存為8 GB。
(1)3-Sources數(shù)據(jù)集(http://mlg.ucd.ie/datasets/3sources.html)。Sources中收集三個(gè)著名的在線新聞源,如BBC(英國廣播公司)、Reuters(路透社)、The Guardian(衛(wèi)報(bào))。這個(gè)數(shù)據(jù)集總共收集了948篇新聞文章。
(2)Cornell 數(shù)據(jù)集(http://www.cs.cmu.edu/afs/cs/project/theo-20/www/data/)。Cornell是網(wǎng)頁數(shù)據(jù)集WebKB的其中一個(gè)子集。其中的每個(gè)數(shù)據(jù)點(diǎn)都由2個(gè)視圖:內(nèi)容和引用來描述。
(3)Numerals 數(shù)據(jù)集(http://archive.ics.uci.edu/ml/datasets/Multiple+Features)。 Handwritten Numerals 是來自伊利諾斯大學(xué)的手寫數(shù)字?jǐn)?shù)據(jù)集,這個(gè)數(shù)據(jù)集包含2 000 個(gè)對(duì)應(yīng)于數(shù)字?jǐn)?shù)據(jù)點(diǎn),這些數(shù)字由0 到9 組成,共10類。這三個(gè)數(shù)據(jù)集的基本數(shù)據(jù)特征總結(jié)在表1中。
表1 多視圖數(shù)據(jù)集的基本數(shù)據(jù)特征
5.2.2 參數(shù)設(shè)置
在DMSCN 中有控制參數(shù)λ1、λ2以及懲罰參數(shù)μ,為了驗(yàn)證參數(shù)對(duì)目標(biāo)函數(shù)值準(zhǔn)確性的影響,使用準(zhǔn)確率作為度量,根據(jù)不同的數(shù)據(jù)集對(duì)參數(shù)λ1、λ2和μ進(jìn)行調(diào)整,以觀察參數(shù)值對(duì)準(zhǔn)確率的影響。在實(shí)驗(yàn)中,使λ1取值圍為{0.01,0.1,1,10,100} ,對(duì)于λ2不同數(shù)據(jù)集取值不同,以及其中懲罰參數(shù)μ=λ2λ1。對(duì)于不同的參數(shù),各數(shù)據(jù)集算法準(zhǔn)確率如圖4所示。
從圖4 中可以看到,算法在參數(shù)λ1、λ2、μ取不同值得到不同的聚類準(zhǔn)確率。因此調(diào)整參數(shù)λ1、λ2、μ,能得到更好的選擇結(jié)果。可見在3-Sources 數(shù)據(jù)集中λ1=1.0,λ2=10.0,μ=10.0。DMSCN的聚類誤差相對(duì)較小。對(duì)于 Cornell 數(shù)據(jù)集λ1=0.1 ,λ2=0.2 ,μ=2.0 ,DMSCN 的聚類精度最高。在Numerals 數(shù)據(jù)集中λ1=0.1,λ2=30,μ=300,DMSCN的聚類效果最好。
5.2.3 層結(jié)構(gòu)
為聚類網(wǎng)絡(luò)嘗試了不同的體系結(jié)構(gòu),例如,不同的網(wǎng)絡(luò)層數(shù)和神經(jīng)元數(shù)量,但當(dāng)增加這些值時(shí),雖然增加了網(wǎng)絡(luò)的表示能力,但是它也增加了網(wǎng)絡(luò)參數(shù)的數(shù)量。
為了研究深度自編碼的多視圖子空間聚類網(wǎng)絡(luò)(DMSCN)聚類性能是如何隨著層的大小和神經(jīng)元的數(shù)量而變化,構(gòu)建了一層到四層模型,其中一層模型即包含一層編碼器和一層解碼器,二層模型即包含二層編碼器和二層解碼器,以此類推。每個(gè)模型中又含有一個(gè)自表達(dá)層。神經(jīng)元的數(shù)量在每一個(gè)模型中每層步長分別增加20,50,100,150。
不同層結(jié)構(gòu)對(duì)于模型的聚類結(jié)果影響如圖5所示,從圖5 中可以看出,在3-Sources 數(shù)據(jù)集和Cornell 數(shù)據(jù)集中三層模型以及其神經(jīng)元數(shù)量步長為100 時(shí)的NMI值最高。在一層和二層模型中,因?yàn)閷訑?shù)或神經(jīng)元數(shù)量較少以至于無法捕捉信息的多視點(diǎn)數(shù)據(jù)。而在四層模型中由于包含很多的參數(shù),導(dǎo)致過多的冗余信息不利于聚類。在Numerals 數(shù)據(jù)集中二層模型及神經(jīng)元數(shù)量步長為50時(shí)NMI值高于其他。Numerals數(shù)據(jù)集中數(shù)據(jù)量較多,當(dāng)增加模型層數(shù)和神經(jīng)元數(shù)量時(shí)將會(huì)導(dǎo)致更多的參數(shù),降低了聚類性能。
綜上所述,在實(shí)驗(yàn)中對(duì)于3-Sources數(shù)據(jù)集和Cornell數(shù)據(jù)集采用三層模型以及神經(jīng)元步長為100,即300-200-100-100-200-300。對(duì)于Numerals 數(shù)據(jù)集則采用二層模型及其神經(jīng)元步長為50,即100-50-50-100。
本文算法與相比較的算法均在同一實(shí)驗(yàn)環(huán)境下進(jìn)行,最后提取10 次運(yùn)行實(shí)驗(yàn)結(jié)果的均值評(píng)估各算法的性能,各算法在數(shù)據(jù)集上得出的實(shí)驗(yàn)結(jié)果如圖6 所示,三個(gè)數(shù)據(jù)集在DMSCN 中的最終可視化結(jié)果如圖7所示。
圖4 不同參數(shù)下準(zhǔn)確率的直方圖
圖5 不同層結(jié)構(gòu)對(duì)聚類性能的影響
圖6 各算法在不同數(shù)據(jù)集上的結(jié)果
圖7 結(jié)果可視化
通過圖6可以看出隨著實(shí)驗(yàn)次數(shù)的增加,本文算法在數(shù)據(jù)集上的聚類準(zhǔn)確率有些波動(dòng),但經(jīng)過十次實(shí)驗(yàn)得到的平均準(zhǔn)確率要比其他多視圖子空間聚類算法高。為了更直觀對(duì)比各個(gè)算法的準(zhǔn)確率和互信息,將各算法的準(zhǔn)確率(均值±標(biāo)準(zhǔn)偏差)以及互信息(均值±標(biāo)準(zhǔn)偏差)的統(tǒng)計(jì)結(jié)果列表。如表2 所示,本文算法在各個(gè)數(shù)據(jù)集上的準(zhǔn)確率均為最高,其中比算法DiMSC 的準(zhǔn)確率高出7.057 個(gè)百分點(diǎn),比算法ECMS 的準(zhǔn)確率高出3.048個(gè)百分點(diǎn),比算法NaMSC的準(zhǔn)確率高出12.736個(gè)百分點(diǎn),比算法MVSC的準(zhǔn)確率高出9.897個(gè)百分點(diǎn),比算法SWMC的準(zhǔn)確率高出8.938個(gè)百分點(diǎn)。
表2 準(zhǔn)確率統(tǒng)計(jì)結(jié)果 %
從表3中可以看出,本文算法在各個(gè)數(shù)據(jù)集上互信息平均值最高,其中比算法DiMSC的互信息平均值高出1.889 個(gè)百分點(diǎn),比算法ECMS 的互信息平均值高出0.826 個(gè)百分點(diǎn),比算法NaMSC 的互信息平均值高出4.528 個(gè)百分點(diǎn),比算法MVSC 的互信息平均值高出3.187 個(gè)百分點(diǎn),比算法SWMC 的互信息平均值高出0.832個(gè)百分點(diǎn)。
表3 互信息統(tǒng)計(jì)結(jié)果%
在本文中,基于深度自編碼的多視圖子空間聚類網(wǎng)絡(luò)(DMSCN)模型主要用于多視圖子空間聚類,與現(xiàn)有主要依賴深度學(xué)習(xí)模型的淺層多視圖學(xué)習(xí)不同,DMSCN 通過利用多個(gè)層中所包含的聚類信息進(jìn)一步提高了聚類性能,并利用多視圖數(shù)據(jù)之間的差異性和互補(bǔ)性,在不同視圖中交替學(xué)習(xí)聚類指示矩陣F,捕獲數(shù)據(jù)的內(nèi)在聚類結(jié)構(gòu),以及利用加權(quán)稀疏表示來增強(qiáng)子空間聚類,進(jìn)而可以獲得更全面和多樣化的聚類信息。對(duì)幾個(gè)數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn),證明該模型的有效性。在未來的工作中將繼續(xù)探索、擴(kuò)展本文的深度模型和優(yōu)化策略。