王春杰 何進(jìn)榮 王文發(fā)
(延安大學(xué)數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院 延安 716000)
目前,多視角數(shù)據(jù)在很多領(lǐng)域得到了廣泛的應(yīng)用。例如,一個網(wǎng)頁可以表示在給定頁面上出現(xiàn)的單詞和鏈接到該頁面的超鏈接中出現(xiàn)的單詞。對象可以通過各種成像模式可視化。不同的視角通常提供互補(bǔ)信息,因此從單個視角獲取的信息并不能完全描述所有相關(guān)對象。來自不同領(lǐng)域[1~3]的各種集合通常表現(xiàn)出大量的異構(gòu)屬性。通過統(tǒng)一不同視角的共性和互補(bǔ)性,準(zhǔn)確地聚類多視角對象仍然是一個挑戰(zhàn)[4]。多視角聚類通過假設(shè)所有視角共享相同的集群結(jié)構(gòu),尋求多個表示的數(shù)據(jù)點(diǎn)劃分。MvC算法通過結(jié)合不同視角的信息,試圖獲得比簡單地將不同視角的特征連接在一起所得到的更精確的聚類。近年來,多視角聚類作為一種利用同一對象的冗余視角來提高聚類精度的新范式,由于能夠有效地捕獲隱藏在數(shù)據(jù)中的復(fù)雜結(jié)構(gòu),已經(jīng)得到了廣泛的研究[5~6]。傳統(tǒng)的聚類方法是先構(gòu)造一個加權(quán)無向圖來度量數(shù)據(jù)樣本的成對相似性,然后完成基于譜圖分析的聚類。提高圖聚類性能的關(guān)鍵在于構(gòu)造一個高質(zhì)量的相似度圖,使其能夠更準(zhǔn)確地捕獲樣本之間的內(nèi)在關(guān)系。
近年來,人們提出了各種基于圖的聚類算法。這類方法試圖在所有視角之間找到一個融合圖或網(wǎng)絡(luò),然后在融合圖上使用圖形切割算法或者其他技術(shù)來生成聚類結(jié)果。融合圖(或網(wǎng)絡(luò))被廣泛用于表示對象之間的關(guān)系,其中每個節(jié)點(diǎn)對應(yīng)一個數(shù)據(jù)對象,每個邊描述一對對象之間的關(guān)系。在實(shí)際應(yīng)用中,這種關(guān)系通常用相似性或親和關(guān)系來表示,即由數(shù)據(jù)相似性矩陣生成輸入圖矩陣。在多視角數(shù)據(jù)中,數(shù)據(jù)對象由多個圖形捕獲。由于每個單獨(dú)的圖形都可以捕獲數(shù)據(jù)的部分信息,而所有圖形具有相同的數(shù)據(jù)底層聚類結(jié)構(gòu)。因此,這些圖可以通過學(xué)習(xí)數(shù)據(jù)對象之間的整體相關(guān)性而相互加強(qiáng)。在這一類中,文獻(xiàn)綜述分為三部分即基于圖的MvC、基于網(wǎng)絡(luò)的MvC和基于譜的MvC。
一般來說,多視角圖聚類數(shù)據(jù)融合過程(如圖1 所示)。多視角聚類的目的是找到一個跨視角的融合圖,然后使用圖割算法或其他技術(shù)生成最終的聚類結(jié)果
圖1 基于圖的聚類的一般過程
基于多重相似圖的MvC,文獻(xiàn)[7]討論了一般的聚類問題。提出的鏈接矩陣分解方法從多個圖中提取共性因子,形成了多種基于圖的聚類方法,可以自然地應(yīng)用于多視角數(shù)據(jù)。文獻(xiàn)[8]提出了一種多視角文檔聚類算法,該算法首先將單視角聚類算法應(yīng)用于每個視角的數(shù)據(jù)矩陣,以生成多個分塊。最后,形成統(tǒng)一的相似矩陣進(jìn)行聚類。文獻(xiàn)[9]針對大多數(shù)方法都沒有充分考慮不同視角的權(quán)重,需要額外的聚類步驟來生成最終的聚類。他們提出了一種通用的基于圖的多視角聚類來解決這些問題。該模型將所有視角的數(shù)據(jù)圖矩陣進(jìn)行融合,生成一個統(tǒng)一的圖矩陣。文獻(xiàn)[10]為每個視角添加了一個自適應(yīng)權(quán)重去避免異常視圖,他們采用不同的權(quán)重來表示不同簇之間的相似性,雖然該方法學(xué)習(xí)了每個圖的權(quán)重,但還有其他的參數(shù)。類似的文獻(xiàn)[11]提出的基于位置加權(quán)的文本聚類模型。文獻(xiàn)[12]則提出了一種不需要調(diào)整參數(shù)的聚類算法,基于結(jié)構(gòu)相似性和頂點(diǎn)與其鄰域之間的結(jié)構(gòu)依賴關(guān)系對頂點(diǎn)進(jìn)行聚類。文獻(xiàn)[13]開發(fā)了一個無參數(shù)的多圖框架來自動學(xué)習(xí)所有圖的權(quán)重。同時(shí),還研究了多視角數(shù)據(jù)的非監(jiān)督特征選擇問題。隨后文獻(xiàn)[14]提出了兩種無參數(shù)加權(quán)投影聚類方法,它們同時(shí)采用兩種無參數(shù)策略自動學(xué)習(xí)每個視角的最優(yōu)權(quán)重。文獻(xiàn)[15]也提出了一種適用于多視角聚類的可擴(kuò)展、無參數(shù)的圖融合框架,以自監(jiān)督加權(quán)的方式尋找多視角間的可兼容的聯(lián)合圖。同時(shí),利用連通性約束對聯(lián)合圖進(jìn)行操作,使連通分量直接表示聚類使算法具有較好的穩(wěn)定性和可擴(kuò)展性。隨即文獻(xiàn)[16]提出了基于錨點(diǎn)和二分圖的思想的一個可擴(kuò)展的圖形學(xué)習(xí)框架,它構(gòu)造一個描述樣本與錨點(diǎn)之間關(guān)系的二分圖。同時(shí),也是采用連通性約束來保證連通分量直接表示簇。文獻(xiàn)[17]提出采用圖形嵌入來保留原始的數(shù)據(jù)結(jié)構(gòu),他們致力于將多個視角的信息編碼成一個緊湊的二進(jìn)制代碼,學(xué)習(xí)了來自多個視角的互補(bǔ)信息。考慮到不同視角對最終聚類結(jié)果的貢獻(xiàn)不同,同時(shí)為每個視角自動分配權(quán)重的策略,以更好地指導(dǎo)聚類。文獻(xiàn)[18]提出了一種在基系統(tǒng)框架下工作的多視角聚類方法,它能夠有效地構(gòu)造數(shù)據(jù)圖矩陣,自動加權(quán)每個圖矩陣,直接生成聚類結(jié)果。文獻(xiàn)[19]同時(shí)進(jìn)行魯棒表示學(xué)習(xí)和最優(yōu)圖學(xué)習(xí),不僅能有效地減少噪聲的影響,還保持了數(shù)據(jù)的局部結(jié)構(gòu)。在相似矩陣的Laplacian 矩陣上施加合理的秩約束,使學(xué)習(xí)得到的圖具有理想的結(jié)構(gòu),可直接用于聚類。文獻(xiàn)[20]在Laplacian 矩陣上加入秩約束,通過全局圖直接得到聚類指標(biāo),而不執(zhí)行任何圖割技術(shù)。
此外,現(xiàn)有的聚類算法大多側(cè)重于在全局上優(yōu)化特定的質(zhì)量度量,而沒有仔細(xì)考慮局部結(jié)構(gòu)的問題,這些局部結(jié)構(gòu)的問題在際應(yīng)用中可能具有重要意義。文獻(xiàn)[21]提出了一種群體感知的多視角融合方法,用于圖像聚類。該方法能夠以更緊湊的視覺效果將圖像分割成不同的組,并為組內(nèi)和組間的圖像賦予不同的融合權(quán)重。與全局融合方法相比,這種群感知融合模型提供了更靈活的融合策略和更有效的圖像間相似性度量。文獻(xiàn)[22]提出了一種基于遞歸計(jì)算的結(jié)構(gòu)相似度測度的無向圖聚類算法。該方法在保持原圖局部結(jié)構(gòu)信息的同時(shí),增強(qiáng)了魯棒性好、提高了的聚類結(jié)果。最近,文獻(xiàn)[23]提出了一個公共子空間集成模型。該模型通過聯(lián)合保留每個視角的局部幾何來主動學(xué)習(xí)公共子空間,同時(shí)合并全局分區(qū)信息以增強(qiáng)學(xué)習(xí)過程中的可分性。
另一方面,本文還分析了最近鄰技術(shù)和稀疏方法相結(jié)合的算法。例如,文獻(xiàn)[24]提出了自適應(yīng)鄰居聚類,通過自適應(yīng)局部結(jié)構(gòu)學(xué)習(xí)相似度矩陣,在數(shù)據(jù)相似度矩陣的Laplacian 矩陣上施加秩約束,得到理想的聚類結(jié)構(gòu)。文獻(xiàn)[25]還對具有自適應(yīng)鄰域的多視角聚類和半監(jiān)督分類同時(shí)進(jìn)行聚類、半監(jiān)督分類和局部流行學(xué)習(xí),從原始多視角特征中獲得的圖形可以劃分為特定的聚類。文獻(xiàn)[26]提出了利用自適應(yīng)鄰域?qū)W習(xí)圖像聚類(Learning with Adaptive Neighbors,LAN)來學(xué)習(xí)基于給定數(shù)據(jù)圖的圖,該方法在提高構(gòu)造相似圖的質(zhì)量方面都取得了重要進(jìn)展。LAN 嘗試學(xué)習(xí)基于給定數(shù)據(jù)圖的塊對角數(shù)據(jù)相似度矩陣,從而使新圖更適合于最終的聚類任務(wù)。與上述方法不同,文獻(xiàn)[27]為了保持?jǐn)?shù)據(jù)間的相似性,用一個修正的K-最近鄰圖對數(shù)據(jù)生成過程進(jìn)行了正則化。此外文獻(xiàn)[28]提出了通過學(xué)習(xí)魯棒的結(jié)構(gòu)化相似圖并進(jìn)行聚類。特別地,具有適當(dāng)概率鄰域分配的結(jié)構(gòu)圖是在抗噪聲和異常值的魯棒潛在表示上自適應(yīng)學(xué)習(xí)的。且該模型不依賴標(biāo)簽離散化策略,通過對學(xué)習(xí)的相似圖進(jìn)行分割,可以直接得到離散的聚類標(biāo)簽。文獻(xiàn)[29]也提出了一種魯棒秩約束稀疏學(xué)習(xí)方法,引入稀疏表示的L2,1范數(shù)目標(biāo)函數(shù)來學(xué)習(xí)具有魯棒性的最優(yōu)圖。在初始圖的鄰域內(nèi)搜索圖保持?jǐn)?shù)據(jù),通過引入秩約束,可以直接將學(xué)習(xí)得到的圖作為聚類指標(biāo),在不需要額外處理的情況下得到最終的結(jié)果。文獻(xiàn)[24]在L2,1范數(shù)基礎(chǔ)上,提出了拉普拉斯秩約束(Constrained Laplacian Rank,LRC)算法,LRC 學(xué)習(xí)了一個新的塊對角數(shù)據(jù)相似度矩陣,可以直接將學(xué)習(xí)得到的圖作為聚類指標(biāo),也不需要額外處理的情況下得到最終的結(jié)果。
最近,文獻(xiàn)[30]設(shè)計(jì)了一種基于圖的多視角聚類算法,稱為拉普拉斯秩約束多視角聚類(Laplacian Rank Constrained Multiview Clustering,LRCMC)。首先,利用文獻(xiàn)[24]的LRC算法在每個視角中同時(shí)找到親和圖和嵌入矩陣,以確保圖的結(jié)構(gòu)在相同的連通分量上。然后,基于文獻(xiàn)[25]的方法,使用LRC方法獲得一致圖,其連接分量與每個視角的親和圖相同,最后得到了聚類結(jié)構(gòu)。在圖融合過程中,采用反距離加權(quán)方案為每個視角的關(guān)聯(lián)圖[25]設(shè)計(jì)不同的權(quán)重,更加有效地調(diào)整了一致圖的結(jié)構(gòu)。此外,將圖學(xué)習(xí)、圖融合和聚類的過程耦合成一個優(yōu)化問題,以更新更準(zhǔn)確的一致圖,并改進(jìn)聚類的結(jié)果。文獻(xiàn)[30]提出的LRCMC算法的目標(biāo)函數(shù)表為
圖2 拉普拉斯秩約束多視角聚類的流程圖
由于大多數(shù)基于圖的MvC 方法通常假定對于不同的視角有相同的數(shù)據(jù)對象集,因此,不同視角中的數(shù)據(jù)對象之間的關(guān)系是一對一的。然而,在許多現(xiàn)實(shí)生活中的應(yīng)用,如社會網(wǎng)絡(luò)、文學(xué)復(fù)習(xí)網(wǎng)絡(luò)和生物互動網(wǎng)絡(luò)中,數(shù)據(jù)是從不同的領(lǐng)域收集的,一個領(lǐng)域中的一個對象可能對應(yīng)于另一個領(lǐng)域中的多個對象,從而導(dǎo)致許多對應(yīng)關(guān)系。用網(wǎng)絡(luò)而不是圖表來表示這種關(guān)系可能更合適,這是區(qū)分基于網(wǎng)絡(luò)的MvC 和基于圖的MvC 的主要原因。圖形在現(xiàn)實(shí)生活中無處不在。生成了大量的圖形數(shù)據(jù),例如社會網(wǎng)絡(luò)[31]、生物互動網(wǎng)絡(luò)[32]和文獻(xiàn)引用網(wǎng)絡(luò)[33]?;诰W(wǎng)絡(luò)的MvC 的相關(guān)工作從[34]開始提出的基于網(wǎng)絡(luò)的多視角圖形聚類框架,該框架描述了幾個關(guān)鍵特性,多對多映射關(guān)系、權(quán)值映射以及不同網(wǎng)絡(luò)之間的部分映射。然而,不同的網(wǎng)絡(luò)可能有不同的數(shù)據(jù)分布,所以文獻(xiàn)[34]中的假設(shè)所有的網(wǎng)絡(luò)都承認(rèn)一個共同的集群結(jié)構(gòu)不再適用。因此文獻(xiàn)[35]提出了一個靈活的框架,允許跨不同網(wǎng)絡(luò)的多個底層聚類結(jié)構(gòu),將領(lǐng)域相似性建模為一個主網(wǎng)絡(luò),可用于對不同網(wǎng)絡(luò)中的聚類結(jié)構(gòu)進(jìn)行正則化。隨后文獻(xiàn)[36]又提出了一種新的方法ComClus 同時(shí)對多個網(wǎng)絡(luò)進(jìn)行分組和聚類,ComClus 在將節(jié)點(diǎn)聚類看作網(wǎng)絡(luò)特征和學(xué)習(xí)適當(dāng)?shù)淖涌臻g以區(qū)分網(wǎng)絡(luò)組等方面是一種新穎的方法。在學(xué)習(xí)過程中,網(wǎng)絡(luò)分組和網(wǎng)絡(luò)聚類相互耦合、相互增強(qiáng)。此外,ComClus 還可以利用網(wǎng)絡(luò)組的先驗(yàn)知識,以半監(jiān)督的方式進(jìn)行網(wǎng)絡(luò)分組,從而進(jìn)一步提高聚類的準(zhǔn)確性。還有許多其他方法不使用概率建模,例如文獻(xiàn)[37]提出的相似網(wǎng)絡(luò)融合(SNF)使用不同類型的基因組特征構(gòu)建病人相似網(wǎng)絡(luò),并融合多個患者相似網(wǎng)絡(luò)以實(shí)現(xiàn)一致性網(wǎng)絡(luò),開發(fā)了一個更簡單、更通用的框架相似性網(wǎng)絡(luò)融合,將多個網(wǎng)絡(luò)組合成一個融合的協(xié)商一致網(wǎng)絡(luò)。融合后的網(wǎng)絡(luò)從多個視角中獲取互補(bǔ)信息,并且比從每個視角中學(xué)習(xí)到的單個網(wǎng)絡(luò)對噪聲的魯棒性更強(qiáng)?;谖墨I(xiàn)[37]的主要思想文獻(xiàn)[38]提出了一種魯棒相似網(wǎng)絡(luò)融合(RSNF)方法,實(shí)驗(yàn)結(jié)果表明了該策略的有效性。在SNF的基礎(chǔ)上,文獻(xiàn)[39]開發(fā)了具有多種優(yōu)點(diǎn)的親和網(wǎng)絡(luò)融合(ANF)。與SNF[37]相比,ANF 為具有多視角數(shù)據(jù)的復(fù)雜對象聚類提供了一個更為通用的框架,并能結(jié)合視角權(quán)重。ANF所需的計(jì)算量要少得多,文獻(xiàn)[43]很好地說明了ANF 實(shí)際上只需要一次迭代就可以獲得與SNF 一樣好甚至更好的結(jié)果。
最近,文獻(xiàn)[40]引入了直接連通點(diǎn)的概念來發(fā)現(xiàn)直接連通點(diǎn)的相似點(diǎn),并引入了間接連通點(diǎn)的最短路徑策略,提出了一種新的計(jì)算頂點(diǎn)相似性的協(xié)同相似度方法用于復(fù)雜網(wǎng)絡(luò)中的社區(qū)檢測。該算法借助于K-Medoid 框架,基于計(jì)算相似度的距離度量,構(gòu)造了一組頂點(diǎn)。類似的有文獻(xiàn)[41]提出了一種基于K-medoid 框架的新的聚類算法,該算法采用了一種考慮屬性重要性的協(xié)同相似性測度來檢測社區(qū),針對間接連通節(jié)點(diǎn)以及均衡屬性相似度和距離函數(shù),提出了一種新的路徑策略。與上述框架不同,文獻(xiàn)[42]利用節(jié)點(diǎn)的屬性以及拓?fù)湫畔⒔Y(jié)合的方式提出了腦網(wǎng)絡(luò)聚類模型。文獻(xiàn)[43]也做了一種新嘗試將大腦網(wǎng)絡(luò)作為一個完整的圖形實(shí)例嵌入,將多個圖疊加成多個部分對稱張量,并利用張量技術(shù)同時(shí)利用多視角和多圖腦網(wǎng)絡(luò)之間的依賴和相關(guān)性。通過利用多視角、多圖的交互作用,在聚類腦網(wǎng)絡(luò)上具有優(yōu)越的性能。
示例2:文獻(xiàn)[44]也提出了一種基于聚類的多視角網(wǎng)絡(luò)融合框架,用于估計(jì)多視角腦網(wǎng)絡(luò)的腦網(wǎng)絡(luò)圖譜,其中每個視角都捕捉大腦結(jié)構(gòu)的一個特定方面,首先將多視角網(wǎng)絡(luò)非線性地融合成一個單一的融合網(wǎng)絡(luò),然后對融合網(wǎng)絡(luò)進(jìn)行聚類。同時(shí)以無監(jiān)督的方式識別具有相似連接特性的個體,然后在每個聚類內(nèi)進(jìn)行平均,生成具有代表性的網(wǎng)絡(luò)圖譜,通過對所有簇的平均表示,構(gòu)造了最終的多視角網(wǎng)絡(luò)圖集。這是前所未有用于估計(jì)健康人群和無序人群的多視角腦網(wǎng)絡(luò)圖譜。構(gòu)建多視圖腦網(wǎng)絡(luò)圖譜可以作為比較研究規(guī)范個體腦網(wǎng)絡(luò)的參考,通過探索多個不同的學(xué)習(xí)方法來嵌入大腦視圖,這將使原始和映射空間中的離群點(diǎn)最終產(chǎn)生更健壯的聚類結(jié)果。
圖3 基于群體的多視角網(wǎng)絡(luò)融合框架的圖示。給定N個受試者的群體,每個人都有多個大腦連接視角。首先通過原始空間中的圖擴(kuò)散,對每個主題的多視角腦網(wǎng)絡(luò)視角進(jìn)行非線性融合。其次,將映射空間中的融合視角聚類為Nc簇,并通過線性融合生成一個特定簇的網(wǎng)絡(luò)地圖集。最后通過對特定于Nc聚類的模板進(jìn)行平均,來估計(jì)最終的大腦網(wǎng)絡(luò)圖譜。
圖3 基于群體的多視角網(wǎng)絡(luò)融合框架
對于現(xiàn)有的多視角譜聚類方法,采用一致的相似矩陣進(jìn)行聚類,對不同視角的信息進(jìn)行集成。MvC譜聚類是一種典型的數(shù)據(jù)聚類方法,其基本思想是在任意一對對象之間建立一個成對的親和矩陣,將親和矩陣歸一化,并計(jì)算出圖拉普拉斯矩陣的特征向量。多視角譜聚類使圖的歸一化割最小化,即譜與圖的關(guān)系。文獻(xiàn)[45]在兩個獨(dú)立視角上開發(fā)了一種譜聚類算法,每個聚類算法都可以被輸入到一個聚類模型中。這種基于譜的MvC 算法創(chuàng)建了一個具有最小不一致準(zhǔn)則[46]的二分圖以連接兩個視角的特征,然后在這個二分圖上采用適當(dāng)?shù)淖V聚類算法。文獻(xiàn)[47]研究了多視角譜聚類,將一個標(biāo)準(zhǔn)化的切割從單視角推廣到多視角,考慮了如何學(xué)習(xí)一個接近于所有圖的最優(yōu)解的聚類,并進(jìn)一步開發(fā)了一個基于多視角的譜聚類算法。文獻(xiàn)[48]也試圖找到一個平衡切口,能更好地區(qū)分所有相似的圖形。此外,文獻(xiàn)[49]提出了一種可以提供多個無冗余聚類解的方法學(xué)習(xí)多視角的非冗余子空間,并為每個視角同時(shí)生成聚類解決方案。為了解決數(shù)據(jù)的分類問題,文獻(xiàn)[50]研究了馬爾可夫鏈建立具有低階稀疏分解的特點(diǎn)多視角譜聚類模型,它首先從每一個視角中繪制一個過渡概率矩陣,然后使用這些矩陣來形成一個共享的秩過渡轉(zhuǎn)移矩陣。最后,將這個共享矩陣輸入到標(biāo)準(zhǔn)的馬爾可夫鏈模型中進(jìn)行聚類,處理了大規(guī)模的數(shù)據(jù)并提高計(jì)算效率。Y.Q.Li 等[51]利用局部流形融合融合異構(gòu)特征和二部圖,從而逼近相似圖。最近,文獻(xiàn)[52]在二部圖譜聚類中使用錨點(diǎn)的啟發(fā)下,也提出了一種基于學(xué)習(xí)二分圖的融合多視角聚類方法。該模型在迭代過程中不僅更新具有代表性的點(diǎn),還能擴(kuò)展到大規(guī)模數(shù)據(jù)集。此外文獻(xiàn)[53]還提出了一種基于譜分割和局部細(xì)化的多視角歸一化切割算法,這是一種無參數(shù)的多視角譜聚類算法。蔡宏民等[54]則考慮到各個視角數(shù)據(jù)的局部特征,對公共子空間的秩進(jìn)行了約束,得到確切數(shù)量的聚類簇,提高聚類的準(zhǔn)確性。文獻(xiàn)[55]研究了凸稀疏譜聚類對單視角數(shù)據(jù)的稀疏化。然而,隨著視角的增加,很難避免視角之間的依賴關(guān)系,而這些依賴關(guān)系往往誤導(dǎo)預(yù)測。為了解決這些問題,文獻(xiàn)[56]擴(kuò)展了傳統(tǒng)譜聚類處理視角之間的依賴關(guān)系,以迫使每個視角的信息在它們之間共享。文獻(xiàn)[57]對于視角不平衡提出了一種基于成對約束的多特征融合AP聚類算法??朔爽F(xiàn)有特征融合方法中效果差距很大的特征平起平坐的缺點(diǎn)。
一些MvC 方法也被結(jié)合譜聚類和其他技術(shù)進(jìn)行了研究。例如文獻(xiàn)[58]同時(shí)考慮數(shù)據(jù)空間和標(biāo)簽空間中的多樣性和一致性,為了學(xué)習(xí)一個更優(yōu)的聚類標(biāo)簽,使用低維譜嵌入代替原始數(shù)據(jù)。由于譜嵌入方法采用了多樣性和一致性學(xué)習(xí)策略,能夠挖掘多視角下的互補(bǔ)信息。文獻(xiàn)[59]將譜嵌入過程和相似度矩陣過程聯(lián)系起來,根據(jù)公共表示矩陣和相應(yīng)的視角特定表示矩陣的乘積恢復(fù)每個相似矩陣的缺失項(xiàng),然后根據(jù)完全相似矩陣學(xué)習(xí)這些表示矩陣。該算法對通用表示矩陣、視角特定表示矩陣、相似矩陣和視角權(quán)重進(jìn)行交替更新。類似的文獻(xiàn)[60]提出了基于有效凸層聚類的綜合譜聚類方法,提供了多視角到融合特征向量的映射,并通過訓(xùn)練過程中的反饋,在一定程度上糾正了單視角中的誤導(dǎo)性信息,從而獲得了更精確的數(shù)據(jù)結(jié)構(gòu)。同時(shí)該模型還可以對大型多視角數(shù)據(jù)集進(jìn)行聚類。
此外,文獻(xiàn)[61]依據(jù)譜聚類原理,在聚類任務(wù)中不僅實(shí)現(xiàn)圖的嵌入保留了原始數(shù)據(jù)的流行結(jié)構(gòu),同時(shí)還解決了樣本外數(shù)據(jù)的聚類問題且自動地為每個視角特征分配合適的權(quán)重。文獻(xiàn)[62]通過對潛在的低維數(shù)據(jù)聚類表示進(jìn)行分解,提出了結(jié)構(gòu)化的低秩表示,一種迭代的多視角協(xié)議策略,在優(yōu)化的每一次迭代過程中,將所有分解的潛在數(shù)據(jù)聚類表示的目標(biāo)最小化,同時(shí)為了能夠保持每個視角的靈活的局部流形結(jié)構(gòu),并對每個視角的數(shù)據(jù)聚類結(jié)構(gòu)進(jìn)行了描述。文獻(xiàn)[63]利用圖學(xué)習(xí)和譜聚類技術(shù)來學(xué)習(xí)不完全多視角聚類的通用表示,采用低秩表示自適應(yīng)地構(gòu)造每個視角的圖,利用譜約束實(shí)現(xiàn)了基于光譜聚類的每個視角的低維表示。同時(shí)引入了一個共同正則化項(xiàng)來學(xué)習(xí)所有視角的共同表示。此外,文獻(xiàn)[64]引入了一個低秩張量約束來探索多視角的互補(bǔ)信息,該方法以不同視角的子空間表示矩陣為張量,巧妙地捕捉多視角數(shù)據(jù)的高階關(guān)聯(lián)。在此基礎(chǔ)上,引入了一個低秩約束,對不同視角間的交叉信息進(jìn)行了精確的建模,有效地降低了學(xué)習(xí)子空間表示的冗余性,提高了聚類的準(zhǔn)確性。文獻(xiàn)[65]引入了一種基于魯棒局部子空間學(xué)習(xí)的多視角譜聚類方法,該方法考慮到所有視角都是噪聲的,并且是從一個魯棒的統(tǒng)一子空間和噪聲中得到的。文獻(xiàn)[66]生成一個由所有視角共享的歸一化圖Laplacian,該圖通過奇異值的部分和極小化實(shí)現(xiàn)低秩約束,提出了一種魯棒的多視角譜聚類方法。首先計(jì)算每個視角的歸一化圖Laplacian,然后利用它們通過低秩稀疏矩陣分解恢復(fù)共享的低秩拉普拉斯圖。文獻(xiàn)[67]研究了基于張量低階建模的多視角譜聚類(MvSC)問題,不像現(xiàn)有的方法都采用現(xiàn)成的張量低階范數(shù)而不考慮MvSC中張量的特殊特性,他們設(shè)計(jì)了一種適合MvSC 的結(jié)構(gòu)張量低階范數(shù),在張量的正面和水平切片上顯式地施加了一個對稱的低秩約束和一個結(jié)構(gòu)稀疏的低秩約束,以分別描述視角內(nèi)和視角間的關(guān)系。同時(shí)聯(lián)合優(yōu)化這兩個約束,以實(shí)現(xiàn)相互細(xì)化。此外,該方法的參數(shù)可以很容易地調(diào)優(yōu),并且該模型對不同的數(shù)據(jù)集具有較強(qiáng)的魯棒性,在實(shí)際應(yīng)用中顯示出其優(yōu)勢和潛力。
此外,基于譜的MvC 方法在信號檢測[70]、數(shù)據(jù)安全[71]、故障診斷[72]等方面也有應(yīng)用。
示例3:對于多視角譜聚類,現(xiàn)有的大多數(shù)聚類方法(文獻(xiàn)[50]、文獻(xiàn)[66])假設(shè)多視角相似性矩陣之間存在一致的相似矩陣,表示所有視角的一致聚類信息,并對其進(jìn)行單視角譜聚類,得到最終的聚類結(jié)果。然而,這種假設(shè)是不恰當(dāng)?shù)?,因?yàn)閿?shù)據(jù)在不同的視角中可能有很大的差異,使得同一對數(shù)據(jù)點(diǎn)在不同視角中的相似性在數(shù)值上并不一致,持續(xù)地追求一個恒定的相似矩陣可能會導(dǎo)致多視角數(shù)據(jù)中互補(bǔ)聚類信息的丟失。為了克服上述挑戰(zhàn),在文獻(xiàn)[68]的基礎(chǔ)上文獻(xiàn)[69]又提出了一種新的多視角譜聚類方法本質(zhì)多視角圖聚類學(xué)習(xí)(Essential Multi-view Graph Learning,EMGL),它同時(shí)考慮了來自不同數(shù)據(jù)視角的一致性和互補(bǔ)性聚類信息。EMGL 的整體框架(如圖4 所示)。EMGL 首先在構(gòu)造的個體視角相似性矩陣的基礎(chǔ)上,分別從每個相似矩陣中恢復(fù)一系列的低秩表示,通過引入正交矩陣因式分解,將低秩表示重構(gòu)為共享矩陣和一系列視角特定矩陣的乘法。在正交約束作用下,共享矩陣包含一致聚類信息,而互補(bǔ)聚類信息在視角特定矩陣中保持良好。優(yōu)化后EMGL 通過共享矩陣和視角矩陣形成一個新的相似性矩陣,然后將標(biāo)準(zhǔn)譜聚類方法強(qiáng)加于相應(yīng)的相似性圖上,得到最終的聚類。EMGL目標(biāo)函數(shù)為式(5):
圖4 EMGL的框架
雖然MvC 是在2003 年左右提出的,但是沒有標(biāo)準(zhǔn)來決定哪個MvC算法是最好的,因?yàn)椴煌姆椒ㄓ兴鼈冏约旱膬?yōu)缺點(diǎn)。
1)基于圖的不需要指定聚類數(shù)量參數(shù)與其他描述聚類個數(shù)的參數(shù),這使得先驗(yàn)經(jīng)驗(yàn)成為應(yīng)用的非必需條件,適用范圍增加,且具有明確的聚類中心點(diǎn),允許數(shù)據(jù)呈非對稱,數(shù)據(jù)適用范圍非常大,但是對初始值不敏感,多次執(zhí)行聚類算法,得到的結(jié)果是完全一樣的,算法復(fù)雜度較高,聚類算法往往需要算很久,這會使得尤其在海量數(shù)據(jù)下運(yùn)行時(shí)耗費(fèi)的時(shí)間很多。
2)基于網(wǎng)絡(luò)的運(yùn)行速度很快,其運(yùn)行速度與數(shù)據(jù)對象的個數(shù)無關(guān),只依賴于數(shù)據(jù)空間中每個維上單元的個數(shù),但是對參數(shù)敏感、無法處理不規(guī)則分布的數(shù)據(jù)、容易造成維數(shù)災(zāi)難。
3)基于譜的易于理解和實(shí)現(xiàn)對于大型數(shù)據(jù)集也是簡單高效、時(shí)間復(fù)雜度、空間復(fù)雜度低,具有能在任意形狀的樣本空間上聚類且收斂于全局最優(yōu)解,但是當(dāng)數(shù)據(jù)集大時(shí)結(jié)果容易局部最優(yōu),對噪聲和離群值非常敏感且譜聚類對相似度圖的改變和聚類參數(shù)的選擇非常的敏感。
本文主要從多視角數(shù)據(jù)的對應(yīng)關(guān)系對其進(jìn)行了分類,無論是基于圖的,基于網(wǎng)絡(luò)的,還是基于譜的方法,與現(xiàn)有的聚類方法相比,基于圖的多視角聚類在眾多算法中具有明顯優(yōu)勢且在聚類性能上也具有明顯的優(yōu)勢,同時(shí)大大減少了計(jì)算量。類似于大多數(shù)多視點(diǎn)聚類方法,我們發(fā)現(xiàn)基于圖的多視角聚類算法的主要局限性可能是敏感的一些參數(shù)初始化,這是MvC 研究的一個新趨勢和機(jī)遇,有待于我們今后的研究。