摘 要:多視圖聚類旨在從多個角度挖掘?qū)ο蟮奶卣餍畔?,以獲得精準的聚類結果。然而,現(xiàn)有研究往往無法妥善處理視圖融合時產(chǎn)生的信息沖突,并且對多視圖之間的互補信息利用不夠充分。為解決這些問題,提出了一種由多角度語義標簽引導的自監(jiān)督多視圖聚類模型。該模型首先將各視圖的潛在表示映射到獨立的低維特征空間,在一個空間中專注于優(yōu)化視圖間的一致性,以維護特征空間的局部結構和樣本間的相對關系;同時,在另一空間中直接從視圖層面提取聚類信息,以捕獲更豐富多樣的語義特征;最后,利用多個角度語義特征生成的偽標簽,引導對象層面的聚類分配,實現(xiàn)兩種表示的協(xié)同優(yōu)化。大量實驗結果表明,該方法能夠全面挖掘多視圖數(shù)據(jù)中的公共信息與互補信息,并展現(xiàn)出良好的聚類性能。此外,相較于其他方法,該方法在視圖數(shù)量較多的場景更具優(yōu)勢。
關鍵詞:多視圖聚類;無監(jiān)督學習;對比學習;深度聚類
中圖分類號:TP391 文獻標志碼:A 文章編號:1001-3695(2024)11-022-3357-07
doi:10.19734/j.issn.1001-3695.2024.04.0082
Multi-view clustering with self-supervised learning guided by multi-angle semantic labels
Liu Yuan1,2, An Junxiu1,2?, Yang Linwang1,2
(1.School of Software Engineering, Chengdu University of Information Technology, Chengdu 610000, China; 2.Key Laboratory of Manufactu-ring Industry Chain Collaboration amp; Information Technology Support, Sichuan Province, Chengdu 610000, China)
Abstract:Multi-view clustering aims to explore the feature information of objects from multiple perspectives to obtain accurate clustering results. However, existing research often fails to handle the information conflicts that arise during view fusion and does not fully utilize the complementary information between multiple views. To address these issues, this paper proposed a self-supervised multi-view clustering model guided by multi-angle semantic labels. The model first mapped the latent representations of each view to independent low-dimensional feature spaces, focusing on optimizing the consistency between views in one space to maintain the local structure of the feature space and the relative relationships between samples. At the same time, in another space, clustering information was directly extracted from the view level to capture richer and more diverse semantic features. Finally, pseudo-labels generated from multi-angle semantic features guided the clustering assignment at the object level, achieving collaborative optimization of the two representations. Extensive experimental results demonstrate that this approach can comprehensively explore both common and complementary information in multi-view data and exhibit good clustering performance. Moreover, compared to other methods, this approach has advantages in scenarios with a larger number of views.
Key words:multi-view clustering; unsupervised learning; contrastive learning; deep clustering
0 引言
隨著數(shù)據(jù)采集技術的多樣化,描述某一對象的數(shù)據(jù)往往源自不同的數(shù)據(jù)源、領域或視角,從而形成了多視圖數(shù)據(jù)。多視圖數(shù)據(jù)中,每個視圖都為數(shù)據(jù)對象提供了一個獨特的觀察視角,并可能包含不同的特征類型。多視圖聚類一直都是研究的熱點,近些年提出了很多基于經(jīng)典機器學習的多視圖聚類算法[1~3],但這些算法往往只聚焦于數(shù)據(jù)的局部信息,這在很大程度上制約了聚類的效果?;谏疃葘W習的多視圖聚類算法[4~8]通過深度神經(jīng)網(wǎng)絡將原始數(shù)據(jù)映射到潛在空間,以得到多視圖數(shù)據(jù)的嵌入表示,從而有效地克服了這一問題。
現(xiàn)有的深度多視圖聚類算法主要劃分為對象層聚類方法和視圖層聚類方法兩大類。
a)對象層聚類方法。如圖1(a)所示,這類方法的關鍵在于融合同一對象的多個視圖特征,從而構建出對象層面的綜合特征,并在此基礎上進行聚類操作[9]。不過,由于不同視圖的數(shù)據(jù)間存在顯著差異,若直接進行融合,可能會引發(fā)視圖間私有信息的沖突,同時帶入更多的噪聲信息。這些沖突信息和噪聲在深度神經(jīng)網(wǎng)絡的傳遞中可能會被逐步放大,對聚類算法的性能造成不利影響。另外,該方法在對象層面進行聚類,這在一定程度上犧牲了各視圖的獨立性,進而可能導致視圖間的互補信息流失,無法充分發(fā)掘多視圖數(shù)據(jù)的深層價值。b)視圖層聚類方法。如圖1(b)所示,這類方法直接在各個視圖層面對特征進行聚類,然后通過投票或其他確定機制來判斷對象的類別。雖然這樣做可以保持各視圖特征的獨立性,并避免融合時可能產(chǎn)生的噪聲,但忽略了多視圖之間的一致性信息。所得到的聚類通常只能反映部分視圖的聚類情況,難以完整地揭示對象的整體特征。正因如此,近年來這類方法在研究中的應用逐漸減少。
此外,本文還觀察到,隨著視圖數(shù)量的不斷增加,許多現(xiàn)有模型的性能并未得到預期的提升,反而呈現(xiàn)出性能下滑的趨勢。這是因為視圖數(shù)量的增多雖然提供了更豐富的信息,但同時也伴隨著噪聲的積累和信息沖突的加劇。這些負面因素相互交織,共同對模型的聚類效果產(chǎn)生了不利影響。這種現(xiàn)象的根本原因與上文中的討論是一致的,為了更深入地剖析這一現(xiàn)象,本文將在后續(xù)的實驗章節(jié)中進行詳盡的分析和探討。
綜上所述,當前存在以下亟待解決的問題:a)優(yōu)化視圖融合策略:如何設計一種高效的視圖融合方法,以在整合異構視圖信息的同時,避免視圖間私有信息的沖突和噪聲的引入;b)平衡視圖一致性與互補性:在維護對象層面視圖一致性的基礎上,如何有效利用視圖層面的多視圖互補信息,充分發(fā)揮多視圖數(shù)據(jù)集的優(yōu)勢,實現(xiàn)更優(yōu)質(zhì)的聚類效果。
針對上述問題,本文提出了一種由多角度語義信息引導的自監(jiān)督多視圖聚類模型(self-supervised multi-view clustering guided by multi-angle semantic labels,MASL-MVC)。具體來說,針對第一個問題,MASL-MVC采用多視圖一致性學習策略,通過優(yōu)化視圖一致性對比學習目標,使模型學習到同一對象不同視圖間的一致性信息,以緩解視圖之間的結構差異,從而避免了直接進行視圖融合所引入的信息沖突和噪聲問題。同時,該方法還確保了不同視圖的數(shù)據(jù)在統(tǒng)一分布空間中具有相似的分布特征,以保持特征空間的局部結構,同時維護樣本間的相對距離和相似性關系。對于第二個問題,MASL-MVC在獲取聚類信息時,并不依賴于對象層的融合視圖,而是直接在視圖層的特征上優(yōu)化聚類目標,從而得到更加細化的聚類結構。隨后,將聚類標簽信息(即視圖的語義特征)從不同角度的視圖層特征轉(zhuǎn)移到對象層的特征上,使其具備表達聚類分配的能力。這一過程中,對象層特征在視圖層語義標簽的引導下獲得了表達聚類分配的能力,同時視圖層不同角度的語義特征也逐漸趨于一致,從而實現(xiàn)了視圖一致性與互補性的有效平衡。
值得注意的是,MASL-MVC不同于以往的對象層聚類方法和視圖層聚類方法,該方法同時考慮了視圖層面的聚類目標優(yōu)化與對象層面的多視圖一致性目標優(yōu)化。為了確保兩者的相對獨立性,MASL-MVC將這兩個過程分配到不同的特征空間中進行處理。圖1(c)用一個簡單的例子說明MASL-MVC的特點。此外MASL-MVC突破了傳統(tǒng)多視圖深度聚類的兩階段工作模式——即先通過自監(jiān)督學習獲取特征表示,再應用傳統(tǒng)聚類方法進行簇分配。MASL-MVC采用端到端的優(yōu)化模式,不同模塊在優(yōu)化過程中相互協(xié)調(diào)、共同演進。
1 相關工作
多視圖聚類通過利用多個視角或多個特征集合的數(shù)據(jù)來提高聚類的準確性和穩(wěn)定性。傳統(tǒng)的多視圖聚類方法大致可以分為基于非負矩陣分解的方法[1]、基于譜聚類的方法[2]和基于子空間聚類的方法[3]三類。近些年來,深度學習在多視圖聚類中得到廣泛的應用[10~13],深度神經(jīng)網(wǎng)絡利用通過多個非線性變換的網(wǎng)絡層來學習和提取數(shù)據(jù)的特征表示,性能很大程度上優(yōu)于傳統(tǒng)多視圖聚類方法?;谏疃缺硎緦W習的方法是當前的主流:文獻[14]提出的SplitAE,利用視圖將輸入數(shù)據(jù)分成多個子集,并為每個子集訓練一個獨立的自動編碼器,以實現(xiàn)特征分離和表示學習;文獻[15]提出了DCCA,通過在神經(jīng)網(wǎng)絡的中間層引入一個正交約束來促進相關性的學習,目前許多深度聚類方法[16,17]都采用了類似的思想。
對比學習是一種無監(jiān)督學習方法,旨在通過學習數(shù)據(jù)中的相似性和差異性來提取有用的特征表示,學習到更具判別性的特征表示。對比學習成為近期無監(jiān)督學習研究的熱點,在不同任務中取得了優(yōu)異的表現(xiàn)[18]。對比學習最直接的策略是通過數(shù)據(jù)增強來構建樣本[19]。具體來說,正樣本對由同一對象的兩個增廣視圖構成,其余則構成負樣本對。其中較為經(jīng)典的方法有SimCLR[20]和MoCo[21]等。
近些年來,對比學習在多視圖學習領域得到了很多應用。一般情況下,對比學習通常用來對異構視圖進行對齊,以得到更好的融合表示[22]。文獻[5]較早地將對比學習模塊運用于多視圖對比對齊,提出CoMVC。后來又將用于特定視圖的自編碼器引入模型,提出了AECoDDC[8]。文獻[23]提出Emo-CLIM通過學習圖像和音樂音頻之間情感對齊,來解決從圖像和音樂之間跨模態(tài)檢索任務。文獻[24]提出了一種基于多視角的時序多模態(tài)情感分類模型,用于提取特定時間段,多視角下的關鍵情感信息。
本文模型采用的多視圖對比學習方法和現(xiàn)有方法存在很大的不同?,F(xiàn)有方法更多將對比學習方法用于視圖對齊,而本文方法在學習多視圖一致性的同時還將對比學習用于多視圖聚類,以達到更好的聚類效果,這種方法已經(jīng)在單視圖深度聚類任務中已經(jīng)被證明是有效的[25,26]。
2 方法
現(xiàn)有一個包含N個數(shù)據(jù)對象,V個視圖的多視圖批次數(shù)據(jù)集{xv}Vv=1,其中對于每一個視圖xv={xv1,xv2,…,xvn}。這里的xvi表示從視圖v觀察到的樣本對象xi。最終目標是將所有樣本對象分配到K個簇中。MASL-MVC模型的整體框架如圖2所示,主要由多視圖一致性對比學習模塊、多視圖對比聚類模塊,以及視圖融合與語義遷移模塊三大部分組成。模型首先通過編碼器將每個xvi轉(zhuǎn)換為潛在表示zvi=fvE(xvi),其中fvE表示第v個視圖的編碼器網(wǎng)絡。每個潛在特征zvi經(jīng)過不同的全連接網(wǎng)絡映射到低維空間和語義空間,分別得到特征tvi和svi。在相應的特征空間中,本文分別優(yōu)化對象級別的多視圖一致性目標和視圖級別的聚類目標。最后,通過融合低維空間特征tvi得到對象層的融合特征ui,并從多個視角的語義特征svi中提取聚類信息,從而得出最終的聚類分配。
2.1 多視圖一致性對比損失
本文方法引入多視圖一致性對比損失的動機有兩點:a)為了學習對象跨多個視圖的共性;b)為了對齊多視圖特征表示,以減少不同視圖之間存在的結構差異,有利于后續(xù)的特征融合。
對比學習的目標是最大化正例間的相似程度,同時最小化負例間的相似程度。在多視圖學習中,每個對象的不同視圖可以認為是對該對象從不同角度進行的描述,因此本方法將同一對象的不同視圖設置為正對,將所有不同對象的視圖設置為負對。其目的是在低維空間中拉近同一對象的不同視圖,以得到一致的對象特征表述。在這里使用較為簡單的余弦相似度來度量空間中任意兩個特征a與b之間的相似程度:
sim(a,b)=aTb‖a‖‖b‖(1)
為了學習特征的緊湊表示并提取具有區(qū)分性的特征,這里使用一個全連接投影網(wǎng)絡gT將視圖潛在特征投射到一個更低維度的特征空間中,得到低維特征tvi=gT(zvi)。在文獻[20]的基礎上,將NT-Xent損失擴展到多視圖。因此,低維的特征空間中任意兩視圖tu和tv的對比損失定義為
其中:τ1為溫度超參數(shù)。對于所有視圖,累積的多視圖一致性損失表示為
其中:k(u≠v)是判別函數(shù),當u≠v成立時其值為1,否則為0。
2.2 多視圖對比聚類損失
多視圖對比聚類損失用于獲得樣本的聚類分配,使同一類中的數(shù)據(jù)點彼此靠近,而不同類中的數(shù)據(jù)點彼此遠離。值得注意的是,這個過程不是在對象層面上進行的,而是在視圖層面上進行的,其目標是形成簇分配,以最大程度地利用視圖的互補信息進行聚類。這里使用一個全連接網(wǎng)絡gS和softmax函數(shù)將潛在變量zvi投影到K維的語義特征空間中,得到視圖的語義特征svi=softmax (gS(zvi))。在語義特征空間中,將某個對象的語義特征svi作為該對象特定視圖的聚類分配。
多視圖一致性目標對應于批次樣本視圖矩陣的行,而多視圖聚類目標則對應于批次樣本視圖矩陣的列。形式上,設sv∈?N×K是任意視圖一個小批次數(shù)據(jù)經(jīng)過gS和softmax變換后的輸出矩陣,那么矩陣元素svi,k就可以表示在第v個視圖中,第i個樣本被分配給第k個簇的概率。為了方便表示多視圖對比聚類損失將vi記作sv的列向量。
使用式(2)計算vi與uj之間的余弦相似度,將語義空間中任意兩視圖之間的多視圖對比聚類損失定義為
其中:τ2為溫度超參數(shù)。多視圖對比聚類損失表示為
其中:pvk=1N∑Ni=1Svi,k,而k(u≠v)是判別函數(shù),當u≠v成立時其值為1,否則為0。式(5)中,第一項表示多視圖聚類,第二項為聚類分配的熵,考慮了每個實例被分配到不同聚類的概率分布,使算法傾向于生成更具多樣性和區(qū)分度的聚類結果。
2.3 多角度語義標簽信息轉(zhuǎn)移
為了得到多視圖共同表示,還需要第i個對象的不同視圖的低維特征tvi進行融合,以得到該樣本對象在低維特征空間中不同視圖的融合特征ui=1V∑Vv=1tvi,隨后將融合特征通過一個全連接網(wǎng)絡gC和一個softmax激活函數(shù),得到融合特征的聚類分配ci=softmax(gC(ui))。
模型學習到的聚類信息目前只存在于語義特征svi中,而ci尚不具備表達聚類分配的能力。這里將語義特征svi看做包含高可信度語義信息的偽標簽,接下來將不同視圖偽標簽上的語義信息轉(zhuǎn)移到融合特征上,使模型學習到表達多視圖聚類信息的能力。這里通過最小化多個角度語義特征svi和與融合視圖特征ci之間的交叉熵損失的累計值來實現(xiàn)此目標:
其中:svi表示不同視圖的語義特征,而ci表示融合視圖的聚類分配。優(yōu)化目標損失?tra的過程可以認為是以ci作為偽標簽,svi作為目標的弱監(jiān)督學習。但值得注意的是,這個過程是雙向進行的,在語義信息從語義特征轉(zhuǎn)移到融合視圖上時,多個視圖的語義特征在這個過程中也逐漸趨向于多視圖的共同表示。從本質(zhì)上講,損失?tra促使了不同特征空間中的信息交互。
2.4 優(yōu)化
總目標損失函數(shù)由多視圖一致性損失、多視圖對比聚類損失、語義信息轉(zhuǎn)移損失三部分構成。
訓練之前,首先使用自編碼器[27]進行預訓練,獲得編碼器的初始權重,隨后將解碼器部分丟棄,進行正式訓練。使用常用的反向傳播算法對模型進行優(yōu)化,算法1給出了完整的優(yōu)化過程。
3 實驗設置
3.1 數(shù)據(jù)集
本文選擇五個多視圖數(shù)據(jù)集對模型進行評估,表1對這些數(shù)據(jù)集進行了簡要描述。MNIST [28]是一個大型手寫數(shù)字數(shù)據(jù),廣泛用于訓練各種圖像處理系統(tǒng),根據(jù)文獻[9],本文構建具有2個視圖的MNIST-2V,每個對象的不同視圖代表不同人的書寫風格。BDGP[29]是一個包含2 500份屬于5個不同發(fā)育階段的果蠅胚胎圖像和相關解剖注釋文本的數(shù)據(jù)集。CCV[30]包含6 773個互聯(lián)網(wǎng)視頻數(shù)據(jù)樣本,這些視頻被標記為20個不同類型,從三種不同的角度來構建三視圖數(shù)據(jù)集。Caltech[31]是一個RGB圖像數(shù)據(jù)集,為了進一步驗證本文模型性能隨視圖數(shù)量變化的特點,在實驗中以Caltech為基礎構造四個子數(shù)據(jù)集,它們分別是Caltech-2、Caltech-3、Caltech-4和Caltech-5,每個版本都在前一個基礎上添加了一種新的視圖。MSRC[32]是一個圖像數(shù)據(jù)集,由屬于七個類的210個對象組成。同樣的,在實驗中以MSRC為基礎構造了MSRC-2V、MSRC-3V、MSRC-4V和MSRC-5V,每個版本都在前一個基礎上添加了一種新的視圖。
3.2 對比方法與評價指標
將本文模型與經(jīng)典方法以及近些年提出的一些先進的聚類方法進行比較,其中包括K-means、EAMC[4]、SiMVC[5]、Co-MVC[5]、Multi-VAE[9]、IMVC-CBG[6]、WM-NMF[7]、AECoDDC[8]。在使用K-means算法時,直接對多視圖數(shù)據(jù)進行拼接,然后進行聚類。
為了評估本文模型的性能,選擇聚類準確度(ACC)和歸一化互信息(NMI)兩種常見的聚類算法評估指標來評估這些算法的性能,它們的值越高代表聚類結果越好。
3.3 實現(xiàn)細節(jié)
本文模型使用PyTorch平臺實現(xiàn),使用Adam算法對模型進行優(yōu)化。所有的實驗均在一臺配有Intel Core i7-8700 3.20 GHz CPU、GeForce RTX 3060 GPU 和32 GB RAM 的計算機上進行。學習率設置為0.000 1,超參數(shù)τ1和τ2分別設置為0.5和1.0。在本文模型中使用卷積神經(jīng)網(wǎng)絡提取圖像特征,使用全連接網(wǎng)絡提取其他類型數(shù)據(jù)特征。
4 結果與分析
4.1 對比實驗
對本文模型與其他最新的多視圖聚類模型進行對比,實驗結果記錄在表2中。其中加粗表示最好的結果。可以看出,本文模型幾乎在所有數(shù)據(jù)集中都達到了最好的效果。
在MNIST-2V數(shù)據(jù)集中,本文模型在ACC指標上取得最優(yōu)結果,在NMI指標上取得次優(yōu)結果。與傳統(tǒng)聚類方法相比,幾乎所有的深度聚類算法都取得了更好的結果。這主要歸因于深度學習模型具有強大的特征提取能力。在具有挑戰(zhàn)性的CCV數(shù)據(jù)集中,本文模型在ACC和NMI指標上分別比次優(yōu)值高出10.87%和11.36%。這主要歸因于本文模型使用的對比學習方法能夠更好地學習到跨視圖特征,并充分利用多視圖一致性信息。同時,在BDGP數(shù)據(jù)集中,本文模型的ACC和NMI指標比同樣使用對比學習方法的AECoDDC分別高出19.63%和25.56%。這是由于AECoDDC僅僅從視圖對齊的角度進行對比學習,而本文模型將對比學習的方法用于多視圖一致性和多視圖聚類學習中,從而能夠獲得更好的聚類效果。以上這些結論在其他數(shù)據(jù)集中都有所體現(xiàn)。
更值得注意的是,在具有較多視圖數(shù)量的Caltec-5V數(shù)據(jù)集中,本文模型的ACC和NMI指標分別比次優(yōu)值高出19.89%和11.35%。這充分表明相對于其他模型,本文模型能夠更好地從多個數(shù)據(jù)集中挖掘有價值的信息。
為了進一步驗證本文模型性能隨視圖數(shù)量變化的特點,在Caltech和MSRC數(shù)據(jù)集的基礎上構建了多個具有不同視圖數(shù)量的子數(shù)據(jù)集,并與其他四種具有代表性的模型進行對比,結果如圖3所示。本文模型聚類性能隨著視圖數(shù)量的增加而上升,在Caltech-5V上的ACC指標相比于在Caltech-2V上的ACC指標提升了39.71%,在MSRC-5V上的ACC指標相比于在MSRC-2V上的ACC指標提升了31.07%。足以證明,本文模型能夠更好地利用多個視圖的一致信息和各互補信息,充分發(fā)揮多視圖學習的優(yōu)勢。同時,本文模型避免僅將融合視圖的聚類目標作為最終聚類目標,從而降低了隨著視圖數(shù)量增多私有噪聲信息對視圖融合所帶來的不利影響。相比之下,EMAC的聚類性能會隨著視圖數(shù)量的增長而下降,WM-NMF和AECoDDC對于視圖數(shù)量的變化并不穩(wěn)定,而Multi-VAE利用解糾纏表示學習[9]雖然在一定程度上避免了多視圖糾纏所造成的干擾,但沒有充分利用視圖互補信息提升聚類性能。
4.2 聚類過程分析
在MNIST-2V數(shù)據(jù)集上的實驗展示MASI-MVC的特征學習與特征轉(zhuǎn)移過程,如圖4所示。初始階段,視圖語義特征僅能表示較差的私有視圖的語義信息,并且低維特征空間中的融合特征也無法表達聚類分配。隨著訓練的進行,語義特征學習到更多聚類信息,融合特征也學習到更多視圖一致性表示。通過將語義特征作為融合視圖的優(yōu)化目標,將語義特征中包含的聚類信息轉(zhuǎn)移到融合特征上,提高了融合特征的聚類性能。需要注意的是,在這個過程中語義特征也逐漸趨向于多視圖共同表示,兩者通過不斷的交互達到最終的平衡狀態(tài)。
使用t-SNE [33]技術對上面的過程進行可視化分析,結果如圖5所示。從訓練過程來看(圖5中每行從左到右),初始分配是混亂的。但隨著訓練的進行,同類型對象逐漸聚集,不同對象逐漸分離,這與多視圖對比聚類損失的目的是一致的。從不同層次特征的角度來看。視圖語義特征(圖5前兩行)更傾向于表達聚類的簇結構,而低維特征空間中的融合特征(圖5第三行)擁有更好的跨視圖的樣本一致表示。
4.3 消融研究
4.3.1 損失項的作用
在損失項消融實驗中設計了四種損失項組合,以驗證式(7)中各損失項的有效性,表3給出了這四種組合分別在MNIST-2V和MSRC-5V數(shù)據(jù)集上的實驗結果。其中組合3中的損失項使模型具備了最基本的聚類能力,組合4構成MASI-MVC完整的損失函數(shù)。
損失項clu的目的在于獲得視圖級別的聚類分配結果,這是多視圖聚類的基本目標。將clu從組合4中刪除,得到組合1。通過對比組合1和5的實驗結果,可見組合1基本不具備聚類能力,這證明了多視圖對比聚類損失的有效性。損失項tra的目標在于將多個視圖的語義信息轉(zhuǎn)移到中間特征的共同表示中,如果沒有tra將無法獲得最終共同表示的聚類分配。組合2僅包括clu,而組合3除了clu之外還包括tra。從實驗結果來看,組合3的性能優(yōu)于組合2,這證明了tra的有效性。在組合3的基礎上,添加損失項vie得到組合4。從實驗結果來看,組合4的聚類性能優(yōu)于組合3,證明了對象級一致性目標的積極作用。
4.3.2 方案的有效性
為了證明現(xiàn)有方案所存在的問題,以及本文模型在多視圖聚類問題中的有效性,本部分實驗在原方案的基礎上設計了MASL-MVC-α、MASL-MVC-β和MASL-MVC-γ三種變體與MASL-MVC進行對比。其中MASL-MVC-α不加入兩個對比損失,在多視圖融合特征上直接采用唯一的聚類目標,這也是多視圖聚類中最常用的方案。具體的做法是將tra損失和gS網(wǎng)絡替換為深度散度損失(DDC)[34]與其推薦的網(wǎng)絡結構在共同表示上進行聚類。其目的在于驗證直接進行特征融合并在融合特征上優(yōu)化單一的聚類目標所存在的問題。與之相反,MASL-MVC-β和使用無融合的方案,其不再對低維特征tvi行融合,而是直接對多視圖的語義特征svi行求和,以獲得最終聚類分配。其主要目的是為了驗證良好的視圖特征融合對于多視圖聚類的必要性。此外,為驗證映射網(wǎng)絡gT積極作用,設計了MASL-MVC-γ。該方案不使用映射網(wǎng)絡去除gT,并直接在潛在空間中學習多視圖一致性。
對比結果如表4所示,原方案的各項聚類結果τ1均優(yōu)于其他變體形式。對于MASL-MVC-α來說,視圖融合將私有視圖的噪聲引入共同視圖,會使噪聲所帶來的負面影響在網(wǎng)絡中被逐步放大。對于MASL-MVC-β來說,由于不對特征進行融合,雖然在一定程度上避免了私有視圖的噪聲問題,但是缺少多視圖的共同特征所帶來的更全面、穩(wěn)定和一致的表示,因此其聚類效果相對于原方案較差。MASL-MVC-γ則證明了映射網(wǎng)絡的重要性,這與其他研究一致[28,35]。
4.3.3 批次大小的影響
一般認為,在對比學習中,更大的批次提供更多的負例,以促進模型的收斂,從而獲得更好的特征表示[20]。然而這個結論并不完全適用于基于對比學習的多視圖深度聚類任務。表5反映了通過在不同數(shù)據(jù)集上的實驗得到聚類性能與批次大小的關系,聚類性能并不隨著批次大小的增加而增加,甚至出現(xiàn)了小幅度的下降。可能有以下兩方面原因:a)用于評價對比學習的數(shù)據(jù)集包含大量分類,需要批次數(shù)據(jù)中盡可能覆蓋所有類別的樣本,以達到廣泛對比的目的。但是與之不同,無論在現(xiàn)實世界還是在現(xiàn)有研究中,多視圖聚類任務所涉及到的數(shù)據(jù)集中類的數(shù)量通常較少。因此在批次數(shù)量遠大于類別數(shù)量的情況下,聚類性能對于批次數(shù)量變化并不是很敏感。b)本文模型除了基于對比學習損失之外,也包括其他模塊。對于其他模塊而言,簡單地提升批次大小未必能夠帶來更好的效果。
4.4 參數(shù)敏感性分析和收斂分析
式(2)(4)中的τ2是對比學習中涉及到的溫度超參數(shù),采用網(wǎng)格搜索策略來測試這兩個超參數(shù)的對模型產(chǎn)生的影響。圖6展示了MNIST-2V數(shù)據(jù)集上τ1與τ2不同的組合對模型性能的影響情況??梢钥闯?,本文模型受τ1與τ2的影響很小,τ1取值在0.4~0.6,τ2取值接近1時模型聚類效果達到最佳。在MNIST-2V上進行的收斂分析實驗結果如圖7所示。損失值在訓練初期快速下降,隨后趨于穩(wěn)定,同時聚類效果能夠在訓練初期快速達到最優(yōu)水平。這說明本文模型具有很好的收斂性。
4.5 模型應用研究
本節(jié)實驗旨在驗證MASL-MVC在處理實際聚類問題中的可用性。實驗以新聞主題聚類為例,使用了1 100條新聞數(shù)據(jù),數(shù)據(jù)來源于互聯(lián)網(wǎng)2024年4月1日到2024年5月5日的8個主題的熱點新聞,如表6所示。每條新聞都有一個主題標簽作為真實類別,用于實驗結果評估。在進行聚類之前,對新聞標題和正文進行了預處理和特征提取。預處理包括關鍵詞的提取和去除停用詞,并使用TF-IDF進行向量化得到特征作為模型輸入。
聚類分析結果如表7所示。每個簇表示一個聚類,其中包括主題、簇內(nèi)樣本數(shù)和正確樣本數(shù)。對于每個簇,通過找到其中占主導地位的真實類別作為該簇的主題。在1 100個樣本中,其中762個樣本被正確聚類,聚類準確度達到0.69。這表明該模型在處理實際問題的過程中具有一定的可用性,并能夠從數(shù)據(jù)中發(fā)現(xiàn)潛在的模式和相似性。然而,對于一些簇(如簇序號7和8),正確樣本數(shù)較低,可能需要進一步針對實際問題進行優(yōu)化,以提高聚類準確性。
5 結束語
本文提出了由多角度語義信息引導的自監(jiān)督多視圖聚類。大量實驗表明,本文模型在多視圖聚類性能方面達到了最先進的水平。相比于其他模型, 本文模型有效避免視圖融合過程中噪聲的影響,同時也充分地利用多視圖數(shù)據(jù)集的信息,特別適合用于具有較多視圖的聚類任務。該模型作為一種多視圖特征學習模型能夠適用于各種下游任務,在多視角醫(yī)學影像識別、多模態(tài)社交網(wǎng)絡分析、生物信息學等領域存在很大的潛力。然而,本文模型目前不具備對視圖重要性進行排序的能力。下一步將嘗試在模型中引入自動權重模塊,以學習到不同視圖的重要性。此外,模型對于不完整多視圖的學習能力也值得進一步研究。
參考文獻:
[1]Zhao Handong, Ding Zhengming, Fu Yun. Multi-view clustering via deep matrix factorization [C]// Proc of AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2017: 2921-2927.
[2]Kumar A, Rai P, Daume H. Co-regularized multi-view spectral clustering [C]// Proc of the 24th International Conference on Neural Information Processing Systems. Red Hook: Curran Associates Inc.,2011: 1413-1421.
[3]Li Ruihuang, Zhang Changqing, Fu Huazhu, et al. Reciprocal multi-layer subspace learning for multi-view clustering [C]// Proc of IEEE/CVF International Conference on Computer Vision. Pisca-taway, NJ: IEEE Press, 2019: 8172-8180.
[4]Zhou Runwu, Shen Yidong. End-to-end adversarial-attention network for multi-modal clustering [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2020: 14619-14628.
[5]Trosten D J, Lokse S, Jenssen R, et al. Reconsidering representation alignment for multi-view clustering [C]// Proc of IEEE/CVF Confe-rence on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2021: 1255-1265.
[6]Wang Siwei, Liu Xinwang, Liu Li, et al. Highly-efficient incomplete large-scale multi-view clustering with consensus bipartite graph [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2022: 9776-9785.
[7]Liu Shuoshuo, Lin Lin. Adaptive weighted multi-view clustering [C]// Proc of Conference on Health, Inference, and Learning. 2023: 19-36.
[8]Trosten D J, L?kse S, Jenssen R, et al. On the effects of self-supervision and contrastive alignment in deep multi-view clustering [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2023: 23976-23985.
[9]Xu Jie, Ren Yazhou, Tang Huayi, et al. Multi-VAE: learning disentangled view-common and view-peculiar visual representations for multi-view clustering [C]// Proc of IEEE/CVF International Confe-rence on Computer Vision. Piscataway, NJ: IEEE Press, 2021: 9234-9243.
[10]趙偉豪, 林浩申, 曹傳杰, 等. 基于相似圖投影學習的多視圖聚類 [J]. 計算機應用研究, 2024, 41(1): 102-107, 115. (Zhao Weihao, Lin Haoshen, Cao Chuanjie, et al. Multi-view clustering based on similarity graph projection learning [J]. Application Research of Computers, 2024, 41(1): 102-107, 115.)
[11]趙振廷, 趙旭俊. 多樣性約束和高階信息挖掘的多視圖聚類 [J]. 計算機應用研究, 2024, 41(8):2309-2314. (Zhao Zhen-ting, Zhao Xujun. Multi-view clustering with diversity constraints and high-order information mining [J]. Application Research of Computers, 2024, 41(8):2309-2314.)
[12]朱玄燁, 孔兵, 陳紅梅, 等. 困難樣本采樣聯(lián)合對比增強的深度圖聚類 [J]. 計算機應用研究, 2024, 41(6):1769-1777. (Zhu Xuanye, Kong Bing, Chen Hongmei, et al. Deep graph clustering with hard sample sampling joint contrastive augmentation [J]. Application Research of Computers, 2024, 41(6):1769-1777.)
[13]宋菲. 基于聚類結構和局部相似性的多視圖隱空間聚類 [J]. 計算機應用研究, 2023,40(9):2650-2656. (Song Fei. Multi-view latent subspace clustering with cluster structure and local similarity [J]. Application Research of Computers, 2023, 40(9): 2650-2656.)
[14]Wang Weiran, Arora R, Livescu K, et al. On deep multi-view representation learning [C]//Proc of the 32nd International Conference on Machine Learning. 2015: 1083-1092.
[15]Andrew G, Arora R, Bilmes J, et al. Deep canonical correlation analysis [C]//Proc of the 30th International Conference on Machine Learning. 2013: 1247-1255.
[16]Cai Xiaosha, Huang Dong, Zhang Guangyu, et al. Seeking commonness and inconsistencies: a jointly smoothed approach to multi-view subspace clustering [J]. Information Fusion, 2023, 91: 364-375.
[17]Wang Qianqian, Tao Zhiqiang, Gao Quanxue, et al. Multi-view subspace clustering via structured multi-pathway network [J]. IEEE Trans on Neural Networks and Learning Systems, 2024, 35 (5): 7244-7250.
[18]Moummad I, Serizel R, Farrugia N. Pretraining representations for bioacoustic few-shot detection using supervised contrastive learning [C]//Proc of Conference on Detection and Classification of Acoustic Scenes and Events. 2023: hal-04383609.
[19]Dosovitskiy A, Fischer P, Springenberg J T, et al. Discriminative unsupervised feature learning with exemplar convolutional neural networks [J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2016, 38(9): 1734-1747.
[20]Chen Ting, Kornblith S, Norouzi M et al. A simple framework for contrastive learning of visual representations [C]//Proc of International Conference on Machine Learning. 2020: 1597-1607.
[21]He Kaiming, Fan Haoqi, Wu Yuxin, et al. Momentum contrast for unsupervised visual representation learning [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2020: 9729-9738.
[22]Guo Xifeng, Gao Long, Liu Xinwang, et al. Improved deep embedded clustering with local structure preservation [C]// Proc of the 26th International Joint Conference on Artificial Intelligence. 2017: 1753-1759.
[23]Stewart S, Avramidis K, Feng Tiantian, et al. Emotion-aligned con-trastive learning between images and music [C]// Proc of Internatio-nal Conference on Acoustics, Speech and Signal Processing. Pisca-taway, NJ: IEEE Press, 2024: 8135-8139.
[24]陶全檜, 安俊秀, 戴宇睿, 等. 基于多視角學習的時序多模態(tài)情感分類研究 [J]. 計算機應用研究, 2023, 40(1): 102-106. (Tao Quanhui, An Junxiu, Dai Yurui, et al. Temporal multimodal sentiment classification based on multi-view learning [J]. Application Research of Computers, 2023, 40(1): 102-106.)
[25]Li Yunfan, Hu Peng, Liu Zitao, et al. Contrastive clustering [C]// Proc of AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2021: 8547-8555.
[26]Deng Xiaozhi, Huang Dong, Chen Dinghua, et al. Strongly augmented contrastive clustering [J]. Pattern Recognition, 2023, 139: 109470.
[27]Hinton G E, Salakhutdinov R R. Reducing the dimensionality of data with neural networks [J]. Science, 2006, 313(5786): 504-507.
[28]LeCun Y, Bottou L, Bengio Y, et al. Gradient-based learning applied to document recognition [J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324.
[29]Cai Xiao, Wang Hua, Huang Heng, et al. Joint stage recognition and anatomical annotation of drosophila gene expression patterns [J]. Bioinformatics, 2012, 28(12): i16-i24.
[30]Jiang Yugang, Ye Guangnan, Chang S F, et al. Consumer video understanding: a benchmark database and an evaluation of human and machine performance [C]// Proc of the 1st ACM International Conference on Multimedia Retrieval. New York: ACM Press, 2011: 1-8.
[31]Li Feifei, Fergus R, Perona P. Learning generative visual models from few training examples: an incremental Bayesian approach tested on 101 object categories [C]//Proc of Conference on Computer Vision and Pattern Recognition Workshop. Piscataway, NJ: IEEE Press, 2004: 178-178.
[32]Winn J, Jojic N. Locus: learning object classes with unsupervised segmentation [C]// Proc of the 10th IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2005: 756-763.
[33]Van Der Maaten L, Hinton G. Visualizing data using t-SNE [J]. Journal of Machine Learning Research, 2008, 9(11): 2579-2605.
[34]Kampffmeyer M, L?kse S, Bianchi F M, et al. Deep divergence-based approach to clustering [J]. Neural Networks, 2019, 113: 91-101.
[35]Wu Zhirong, Xiong Yuanjun, Yu S X, et al. Unsupervised feature learning via non-parametric instance discrimination [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2018: 3733-3742.