倪團(tuán)雄,洪智勇,余文華,張 昕
(1.五邑大學(xué) 智能制造學(xué)部,廣東 江門 529020;2.粵港澳工業(yè)大數(shù)據(jù)協(xié)同創(chuàng)新中心,廣東 江門 529020)
隨著信息社會(huì)的發(fā)展,數(shù)據(jù)的表示形式更加豐富,單一數(shù)據(jù)形式往往難以充分表達(dá)數(shù)據(jù)的完整信息,而多視圖數(shù)據(jù)可以彌補(bǔ)樣本特征單一的缺點(diǎn),更加全面地表征數(shù)據(jù)。多視圖數(shù)據(jù)是指從同一數(shù)據(jù)源提取的不同特征集或者多個(gè)來(lái)源的數(shù)據(jù)[1]。例如,傳感器信號(hào)的時(shí)域和頻域特征、圖像的顏色和紋理等特征、三維物體不同角度的成像特征等等。然而,實(shí)際應(yīng)用中很難獲取經(jīng)過(guò)有效標(biāo)注的數(shù)據(jù)樣本,而無(wú)監(jiān)督學(xué)習(xí)只需要關(guān)注數(shù)據(jù)本身,數(shù)據(jù)之間的映射關(guān)系存在很大的研究空間。聚類作為無(wú)監(jiān)督學(xué)習(xí)重要的算法之一,可解釋較強(qiáng),學(xué)習(xí)參數(shù)少,因此無(wú)監(jiān)督的多視圖聚類學(xué)習(xí)吸引了學(xué)者們的廣泛關(guān)注。多視圖聚類根據(jù)數(shù)據(jù)本身的特征,綜合不同視圖的互補(bǔ)信息,通過(guò)學(xué)習(xí)共識(shí)函數(shù),將具有相似結(jié)構(gòu)的數(shù)據(jù)劃分到不同的類簇中,已經(jīng)在數(shù)據(jù)分析[2]、生物信息[3]、自然語(yǔ)言處理[4]、社交網(wǎng)絡(luò)[5]等領(lǐng)域得到關(guān)注和應(yīng)用。因此,多視圖聚類學(xué)習(xí)具有重要的研究意義和應(yīng)用場(chǎng)景。
現(xiàn)有的多視圖聚類方法主要分為兩類:傳統(tǒng)機(jī)器學(xué)習(xí)方法和深度學(xué)習(xí)方法。在傳統(tǒng)算法中,一些機(jī)器學(xué)習(xí)方法[6-7]將特征表示和聚類過(guò)程互相分離,這種方式不利于后續(xù)的聚類優(yōu)化。為了改進(jìn)這種缺陷,基于子空間學(xué)習(xí)的方法[8-14]假設(shè)所有的視圖數(shù)據(jù)共享一個(gè)潛在的公共子空間,通過(guò)探索多視圖的互補(bǔ)信息將多視圖數(shù)據(jù)投影得到共同的低維映射。如Zhang等[12]直接通過(guò)多視圖學(xué)習(xí)子空間表示,分別沿著交替方向最小化和廣義拉格朗日乘子優(yōu)化模型,使得每個(gè)視圖的信息更加互補(bǔ)?;趨f(xié)同訓(xùn)練的聚類算法[15-16]則根據(jù)先驗(yàn)知識(shí)充分地學(xué)習(xí)促進(jìn)不同視圖的信息,達(dá)到最大限度的共識(shí)聚類。如Kumar等[5]較先提出具有協(xié)同訓(xùn)練思維的多視圖譜聚類,比如成對(duì)共正則譜聚類。算法假設(shè)一對(duì)數(shù)據(jù)點(diǎn)之間的關(guān)系在所有視圖中保持一致的類簇,使得兩個(gè)點(diǎn)在所有視圖內(nèi)要么都出現(xiàn)在同一簇中,要么都屬于不同的簇。受到相同啟發(fā),Zhao等人[16]基于協(xié)同訓(xùn)練框架,提出了聯(lián)合K-均值聚類和線性判別分析[17]的多視圖聚類算法,利用在一個(gè)視圖學(xué)習(xí)的標(biāo)簽引導(dǎo)其他視圖的判別子空間。其他主流算法如基于圖[18-22]和多核學(xué)習(xí)方法[23-27],它們都假設(shè)多視圖數(shù)據(jù)可以用一個(gè)或多個(gè)核矩陣構(gòu)成特征空間。以上這些傳統(tǒng)方法雖然解釋性較強(qiáng),但受限于淺層和線性的學(xué)習(xí)函數(shù),難以表達(dá)數(shù)據(jù)特征的深層信息,從而影響聚類效果?;谏疃葘W(xué)習(xí)方法的聚類工作原理與上述方法類似,只是表征學(xué)習(xí)采用深度神經(jīng)網(wǎng)絡(luò)。例如,基于深度圖學(xué)習(xí)的方法[28-31]使用圖神經(jīng)網(wǎng)絡(luò)結(jié)合親和度矩陣對(duì)多視圖數(shù)據(jù)進(jìn)行聚類。類似地,深度子空間方法[32-33]與上述都有相同的子空間假設(shè),但需要計(jì)算深度神經(jīng)網(wǎng)絡(luò)中間表示的自表示矩陣。另外,對(duì)抗性方法[34-35]通過(guò)生成器和判別器對(duì)齊不同視圖中隱藏特征表示的分布。如Li等[34]通過(guò)深度自動(dòng)編碼器學(xué)習(xí)各個(gè)視圖共享的潛在表示,同時(shí)利用對(duì)抗訓(xùn)練來(lái)進(jìn)一步捕獲數(shù)據(jù)分布和分解潛在的空間。這些深度模型雖然能學(xué)習(xí)到視圖的深層信息,但卷積運(yùn)算主要作用在圖像的局部近鄰上,往往會(huì)丟失全局的關(guān)鍵信息,難以合理分配特定視圖的權(quán)重。
針對(duì)這些問(wèn)題,筆者認(rèn)為,基于深度學(xué)習(xí)的多視圖聚類方法關(guān)鍵在于如何提取關(guān)鍵的視圖信息及如何融合不同視圖特征從而引導(dǎo)聚類過(guò)程。受卷積注意力算法[36]的啟發(fā),該文提出一種基于卷積注意力和對(duì)比學(xué)習(xí)的深度多視圖聚類網(wǎng)絡(luò)(AEMC)。主要貢獻(xiàn)在于:首先,該模型結(jié)合卷積層和卷積注意力模塊,構(gòu)造編碼器網(wǎng)絡(luò),通過(guò)兩個(gè)維度的注意力模塊,提取每個(gè)視圖的高層次細(xì)節(jié)特征,其次,為了引導(dǎo)聚類的優(yōu)化方向,使用對(duì)比學(xué)習(xí)策略,通過(guò)構(gòu)造正負(fù)樣本間接引導(dǎo)模型的聚類效果。
卷積注意力模塊(CBAM)[36]是一種沿著兩個(gè)維度(通道和空間)計(jì)算注意力圖的深度網(wǎng)絡(luò)模塊。假設(shè)給定一個(gè)特征圖F,CBAM模塊將依次通過(guò)通道和空間注意模塊,分別在兩個(gè)維度上學(xué)習(xí)關(guān)鍵信息和位置,然后將注意力權(quán)重和特征圖相乘,輸出特征圖的維度保持不變。卷積注意力模塊的具體結(jié)構(gòu)如圖1,具體實(shí)現(xiàn)步驟如下:
圖1 卷積注意力模塊
Mc(F)=σ(MLP(AvgPool(F))+
MLP(MaxPool(F)))=
(1)
其中,σ、φ0、φ1分別是激活函數(shù)和多層感知器的參數(shù)。
Ms(F)=σ(f(7×7)([AvgPool(F');
MaxPool(F')]))=
(2)
將該模塊融入設(shè)計(jì)的深度多視圖聚類模型中,通過(guò)提取通道和空間多維度的特征信息,平衡全局和局部注意力特征,從而影響后續(xù)的多視圖聚類效果。
假設(shè)給定樣本總數(shù)為n的多視圖數(shù)據(jù)集
圖2 聚類模型(主要由編碼器模塊和聚類模塊組成:編碼器用于提取視圖的關(guān)鍵信息,聚類模塊通過(guò)對(duì)比方法和深度發(fā)散聚類引導(dǎo)聚類過(guò)程)
(1)編碼器網(wǎng)絡(luò)e(i)。在編碼器模型結(jié)構(gòu)中,將卷積注意力模塊分別嵌入3層卷積神經(jīng)網(wǎng)絡(luò)中,構(gòu)成編碼器網(wǎng)絡(luò),每一層的結(jié)構(gòu)如圖3,其中卷積層采用3×3的卷積核,激活函數(shù)使用Relu ,池化層選擇窗口為2×2,步長(zhǎng)為2的最大池化。
圖3 編碼器結(jié)構(gòu)
(3)
接著,將不同視圖的特征進(jìn)行融合,得到公共表示zi:
(4)
其中,wi是初始化視圖的權(quán)重。
最后,將公共表示zi通過(guò)帶softmax激活函數(shù)的全連接層進(jìn)行降維,從而得到k維的輸出向量ai。
損失函數(shù)用于衡量模型的預(yù)測(cè)值和真實(shí)值的差異程度。該文選擇基于深度發(fā)散的聚類(DDC)[37]損失作為基準(zhǔn)聚類損失,該聚類損失由三部分組成:多密度泛化的柯西—施瓦茨發(fā)散項(xiàng),其公式為:
(5)
其中,k表示聚類簇的數(shù)量,kab為高斯核函數(shù),表示為:
(6)
其中,θ是超參數(shù)。
第二項(xiàng)為不同數(shù)據(jù)樣本之間的正交聚類分配:
(7)
最后一項(xiàng)則將聚類分配向量逼近標(biāo)準(zhǔn)單純形:
(8)
其中,mbj=exp(-‖ab-ej‖2),總的聚類損失Lc由式(5)(7)(8)組成,即 :
Lc=L1+L2+L3
(9)
然而聚類過(guò)程還缺乏一定的引導(dǎo)方向,同時(shí)為避免模型過(guò)擬合以及優(yōu)化模型,該文在聚類損失中融入對(duì)比損失函數(shù),共同優(yōu)化總的損失函數(shù)。受對(duì)比學(xué)習(xí)方法SimClr[38]的啟發(fā),將其重構(gòu)并融入模型的聚類模塊中。文中模型將SimClr的損失函數(shù)重構(gòu)表示如下:
(10)
其中,exp()函數(shù)表示以自然數(shù)e為底的指數(shù)函數(shù),p()采用1層隱藏層的多層感知器,將其映射到對(duì)比空間,sim()表示余弦相似度,τ為溫度超參數(shù)。在該模型中,選擇經(jīng)過(guò)dropout[39]數(shù)據(jù)增強(qiáng)后的視圖樣本和融合后的樣本作為正樣本,其他的樣本作為負(fù)樣本,對(duì)比損失目標(biāo)在于增加正樣本間的相似度,減少和負(fù)樣本的相似度。因此,最后模型總的優(yōu)化損失函數(shù)L表示為:
L=Lc+ρLs
(11)
其中,ρ為對(duì)比損失參數(shù)。
在四組公共多視圖數(shù)據(jù)集上評(píng)估所提出的模型(AEMC),并將其與其他主流模型進(jìn)行比較。四個(gè)數(shù)據(jù)集分別是:
(1)E-MNIST:E-MNIST是一組公共基準(zhǔn)數(shù)據(jù)集,由28×28像素的60 000個(gè)手寫數(shù)字圖像(10個(gè)類別)組成。在實(shí)驗(yàn)中使用由文獻(xiàn)[26]提供的版本(包含60 000個(gè)樣本),包含原始的灰色圖像視圖和數(shù)字邊緣視圖。
(2)E-FMNIST:這是手寫數(shù)據(jù)集MNIST的另一個(gè)版本,數(shù)據(jù)視圖同樣包括原始數(shù)字和邊緣檢測(cè)雙視圖。
(3)PASCAL VOC2007(VOC):采用由文獻(xiàn)[40]提供的數(shù)據(jù)集,總共20種類別,數(shù)據(jù)集包含人工標(biāo)注的自然圖像GIST特征和詞頻計(jì)數(shù)特征。
(4)SentencesNYU v2(RGB-D),由1 449張經(jīng)過(guò)標(biāo)注的室內(nèi)場(chǎng)景的圖像以及它們的相關(guān)描述信息組成。具體如表1所示。
表1 數(shù)據(jù)集概述
實(shí)驗(yàn)系統(tǒng)環(huán)境為Red Hat 4.8.5,硬件環(huán)境:GPU為16 GB顯存的NVIDIA Quadro P500,CPU為Intel Xeon的GOLD 5118處理器,軟件環(huán)境:cuda10.02和python3.7,采用Pytorch深度學(xué)習(xí)框架搭建模型。
在公開的基準(zhǔn)數(shù)據(jù)集上驗(yàn)證模型的效果,主要的超參數(shù)設(shè)置如下:實(shí)驗(yàn)的訓(xùn)練批次epoch設(shè)置為100,使用默認(rèn)參數(shù)的ADAM優(yōu)化器優(yōu)化模型,CBAM模塊使用文獻(xiàn)[31]中的默認(rèn)參數(shù),超參數(shù)θ設(shè)置為0.2,多視圖權(quán)重wi初始化為均值0.5,溫度超參數(shù)τ采用文獻(xiàn)[33]推薦的τ=0.1,學(xué)習(xí)率lr設(shè)置為0.01,對(duì)比損失參數(shù)ρ設(shè)置為0.05。為了降低實(shí)驗(yàn)結(jié)果的隨機(jī)性干擾,在每組數(shù)據(jù)集重復(fù)訓(xùn)練5次并取其平均值作為實(shí)驗(yàn)評(píng)估結(jié)果。并和當(dāng)前幾種經(jīng)典深度模型進(jìn)行對(duì)比,同時(shí),將深度發(fā)散聚類模型(DDC)作為獨(dú)立參考模型,并通過(guò)消融實(shí)驗(yàn)對(duì)模型的組成部分進(jìn)行分析對(duì)比。
評(píng)估指標(biāo):
為更精準(zhǔn)地評(píng)價(jià)聚類算法,采用聚類準(zhǔn)確率(ACC)和標(biāo)準(zhǔn)互信息(NMI)來(lái)評(píng)價(jià)深度聚類算法的性能。其中ACC表示正確聚類的樣本占總樣本的比例,NMI則是基于信息論思想,用于度量?jī)山M樣本之間的相似度,兩組評(píng)價(jià)指標(biāo)的值越大代表聚類效果越好。假設(shè)y和y'分別表示模型的聚類標(biāo)簽和數(shù)據(jù)集的真實(shí)標(biāo)簽,ACC計(jì)算公式如下:
(12)
假設(shè)n個(gè)數(shù)據(jù)樣本聚類得到的類別C=c1,c2,…,ck,真實(shí)聚類為L(zhǎng)=l1,l2,…,lj,NMI表達(dá)式為:
(13)
其中,I(l,c)=H(l)-H(l|c)表示互信息,H(X)為信息熵。
為了評(píng)估模型的性能,將提出的基于卷積注意力編碼器的多視圖聚類模型(AEMC)同當(dāng)前主流的多視圖聚類模型進(jìn)行對(duì)比,對(duì)比模型包括:
(1)深度多模態(tài)子空間聚類(DMSC)[32];
(2)基于端到端對(duì)抗性注意力網(wǎng)絡(luò)的多模態(tài)聚類(EAMC)[35];
(3)深度典型相關(guān)性分析(DCCA)[41];
(4)深度對(duì)抗多視圖聚類(DAMC)[34];
(5)對(duì)比多視圖聚類(CoMVC)[42]。
另外,為了檢驗(yàn)改進(jìn)后的模型整體結(jié)構(gòu)相對(duì)基準(zhǔn)聚類是否提高聚類效果,從而證明模型的卷積注意力編碼器模型和對(duì)比學(xué)習(xí)策略的優(yōu)勢(shì),將基準(zhǔn)深度發(fā)散聚類模型(DDC)作為獨(dú)立對(duì)比組。
2.4.1 模型對(duì)比結(jié)果分析
定量研究了E-MNIST、E-FMNIST、VOC、RGB-D四組數(shù)據(jù)集在卷積注意力編碼器模型上的表現(xiàn),結(jié)果見表2。從表中對(duì)比結(jié)果可知,文中模型在手寫數(shù)據(jù)集E-MNIST和E-FMNIST上的聚類準(zhǔn)確率,標(biāo)準(zhǔn)互信息優(yōu)于大多數(shù)模型,聚類準(zhǔn)確率分別領(lǐng)先文獻(xiàn)[42]中的對(duì)比聚類方法(CoMVC)0.7百分點(diǎn)和1.3百分點(diǎn),在E-MNIST上的標(biāo)準(zhǔn)互信息高于對(duì)比聚類方法(CoMVC)1.2百分點(diǎn);在VOC和RGB-D數(shù)據(jù)集上則優(yōu)于大多數(shù)主流模型,但略低于對(duì)比聚類方法。
表2 不同數(shù)據(jù)集上不同模型的對(duì)比結(jié)果 %
另外,在獨(dú)立對(duì)比實(shí)驗(yàn)中,進(jìn)一步探索了模型(AEMC)和深度發(fā)散聚類基準(zhǔn)模型(DDC)在4組數(shù)據(jù)集上的聚類效果,具體見表3。從表中數(shù)據(jù)可知,該模型在4組數(shù)據(jù)集上較深度發(fā)散基準(zhǔn)模型都有明顯的改善,特別是在E-MNIST公共數(shù)據(jù)集上,聚類準(zhǔn)確率和標(biāo)準(zhǔn)互信息分別提高了10.2百分點(diǎn)和8.1百分點(diǎn)。
表3 不同數(shù)據(jù)集上AEMC和DDC模型的對(duì)比結(jié)果 %
綜合以上分析,將卷積注意力模塊嵌入編碼器網(wǎng)絡(luò)中以及聚類優(yōu)化中使用對(duì)比學(xué)習(xí)策略,能夠提取視圖的更多關(guān)鍵特征,引導(dǎo)模型的聚類方向,從而提高聚類效果。聚類結(jié)果表明,多視圖融合表征的質(zhì)量有助于對(duì)比學(xué)習(xí)策略的使用,兩者又相互促進(jìn)聚類的效果。因此說(shuō)明該模型具備一定的有效性和魯棒性。
2.4.2 損失函數(shù)研究
為更直觀地觀察基準(zhǔn)損失和模型損失函數(shù)的變化,以數(shù)據(jù)集VOC為例,將數(shù)據(jù)集的基準(zhǔn)聚類損失和總的損失函數(shù)進(jìn)行可視化。模型在訓(xùn)練過(guò)程中Loss曲線隨迭代批次epoch的變化如圖4所示,其中,依次選擇每10次迭代的Loss值構(gòu)成散點(diǎn)。從圖中曲線變化得知,模型經(jīng)100次訓(xùn)練后逐漸收斂,基準(zhǔn)模型和文中模型在訓(xùn)練100批次后損失函數(shù)也趨于穩(wěn)定,因此epoch的設(shè)置合理,模型訓(xùn)練足夠充分。
圖4 模型Loss變化曲線
2.4.3 消融實(shí)驗(yàn)
前面的實(shí)驗(yàn)初步證明模型具有一定的效果,然而模型的具體結(jié)構(gòu)對(duì)聚類結(jié)果的影響程度還不清楚。因此,為了進(jìn)一步探索模型具體結(jié)構(gòu)的實(shí)際聚類效果,對(duì)模型不同結(jié)構(gòu)組合的聚類結(jié)果進(jìn)行消融對(duì)比實(shí)驗(yàn)。如表4,實(shí)驗(yàn)分別設(shè)置無(wú)CBAM和正負(fù)對(duì)比樣本,有CBAM模塊但無(wú)正負(fù)對(duì)比樣本,無(wú)CBAM模塊但有正負(fù)對(duì)比樣本三組對(duì)比參照組。
表4 在E-MNIST,VOC數(shù)據(jù)集上的消融結(jié)果 %
從表中結(jié)果可以發(fā)現(xiàn),當(dāng)模型缺少卷積注意力模塊(CBAM)和對(duì)比損失優(yōu)化函數(shù)Ls后,該模型在E-MNIST,VOC數(shù)據(jù)集上的聚類精度分別下降了6.5百分點(diǎn)、7百分點(diǎn),同理,無(wú)卷積注意力模塊(CBAM)和對(duì)比損失優(yōu)化函數(shù)Ls,標(biāo)準(zhǔn)互信息值分別下降了1.7百分點(diǎn)和12.6百分點(diǎn),由此可知卷積注意力模塊和對(duì)比策略相對(duì)模型有所改進(jìn)。
此外,以E-MNIST數(shù)據(jù)集為例,分別可視化其在訓(xùn)練過(guò)程中文中模型和深度發(fā)散基準(zhǔn)模型的曲線變化結(jié)果,如圖5所示。其中圖5(a)是E-MNIST數(shù)據(jù)集訓(xùn)練聚類精度隨訓(xùn)練迭代次數(shù)的變化曲線,模型的精度隨著訓(xùn)練次數(shù)增加逐漸收斂,并在95%附近趨于穩(wěn)定,且精度高于基準(zhǔn)聚類模型。同理,圖5(b)為E-MNIST數(shù)據(jù)集標(biāo)準(zhǔn)互信息隨訓(xùn)練批次的變化曲線,在92%附近逐漸平緩,同樣高于基準(zhǔn)聚類模型。因此,消融實(shí)驗(yàn)表明模型的卷積模塊和對(duì)比學(xué)習(xí)模塊促進(jìn)聚類的效率,提高了聚類的準(zhǔn)確率和標(biāo)準(zhǔn)互信息值。
(a)聚類精度
針對(duì)傳統(tǒng)多視圖聚類算法淺層學(xué)習(xí)的限制和深度學(xué)習(xí)方法多維度特征學(xué)習(xí)的局限問(wèn)題,提出一種基于卷積注意力機(jī)制的深度多視圖聚類網(wǎng)絡(luò),將卷積注意力模塊結(jié)合卷積模塊構(gòu)成編碼器網(wǎng)絡(luò),提取每個(gè)視圖的通道和空間關(guān)鍵特征,提高多維度特征的關(guān)注度。此外,在優(yōu)化聚類模型時(shí)使用對(duì)比學(xué)習(xí)策略,防止過(guò)擬合及引導(dǎo)模型的聚類方向。實(shí)驗(yàn)結(jié)果表明,模型的聚類準(zhǔn)確率較高,聚類效果明顯。
然而,該研究也存在諸多不足,比如數(shù)據(jù)集形式單一、模型訓(xùn)練參數(shù)較多、訓(xùn)練內(nèi)存和時(shí)間消耗大等等。未來(lái)的研究將會(huì)關(guān)注復(fù)雜的多視圖數(shù)據(jù)及網(wǎng)絡(luò)改進(jìn),如圖像和文本數(shù)據(jù)的結(jié)合,數(shù)據(jù)缺失的多視圖數(shù)據(jù)的處理,以及預(yù)訓(xùn)練網(wǎng)絡(luò),探索更多類型的數(shù)據(jù)集是否有利于注意力參數(shù)的優(yōu)化和網(wǎng)絡(luò)的兼容性。