鄭婷一,吳嘉琪,張彬彬,王 莉
(1.太原理工大學(xué) a.信息與計(jì)算機(jī)學(xué)院,b.大數(shù)據(jù)學(xué)院,太原 030024;2.山西能源學(xué)院 電氣與控制工程系,山西 晉中 030600;3.新南威爾士大學(xué),澳大利亞 悉尼 1466)
各行各業(yè)每天都在產(chǎn)生海量數(shù)據(jù),從不同來(lái)源、結(jié)構(gòu)或角度描述同一對(duì)象的數(shù)據(jù)稱為多視圖數(shù)據(jù)。以社交網(wǎng)絡(luò)數(shù)據(jù)為例,某用戶在不同網(wǎng)絡(luò)平臺(tái)上有推文、關(guān)注者、粉絲、評(píng)論等多視圖數(shù)據(jù),若對(duì)該用戶的興趣進(jìn)行建模,需挖掘數(shù)據(jù)中隱含的豐富信息,學(xué)習(xí)用戶多視圖數(shù)據(jù)特征的統(tǒng)一表示,基于此再進(jìn)行后續(xù)預(yù)測(cè)任務(wù)。多視圖數(shù)據(jù)真正的價(jià)值不僅在于單視圖具有獨(dú)特性,而且視圖間存在相關(guān)性、一致性和互補(bǔ)性[1]。
面對(duì)行業(yè)多視圖數(shù)據(jù)的爆炸式增長(zhǎng),多視圖學(xué)習(xí)變成一個(gè)非常必要且具有挑戰(zhàn)的研究課題,該研究不僅在醫(yī)療診斷、多媒體計(jì)算、多傳感器數(shù)據(jù)融合和人機(jī)交互等領(lǐng)域具有廣泛應(yīng)用價(jià)值,而且是當(dāng)前機(jī)器學(xué)習(xí)的熱點(diǎn)問題之一。一些傳統(tǒng)的多視圖學(xué)習(xí)方法為以學(xué)習(xí)視圖間最大相關(guān)性為目標(biāo)尋找潛在公共子空間,如:基于典型相關(guān)性分析(canonical correlation analysis,CCA)[2]的系列方法(多通道CCA[3]、聚積CCA[4]、標(biāo)記多重CCA[5]等)。為提升數(shù)據(jù)融合性能,深度學(xué)習(xí)也加入到多視圖相關(guān)性學(xué)習(xí)模型中,如:深度CCA(deep canonical correlation analysis,DCCA)[6]和深度廣義CCA(deep generalized canonical correlation analysis,DGCCA)[7].這樣做的優(yōu)點(diǎn)是保留高維數(shù)據(jù)包含豐富信息,通過對(duì)原始數(shù)據(jù)投影變換,在盡可能多地保留原始數(shù)據(jù)結(jié)構(gòu)和重要特征的前提下,學(xué)習(xí)原始數(shù)據(jù)的低維空間表示,解決數(shù)據(jù)維度災(zāi)難問題。為了進(jìn)一步挖掘視圖間一致性,一系列方法相繼提出,如:Tri-training算法[8]、Co-forest算法[9]、Co-EM算法[10]、Co-regularization算法[11]和低秩稀疏分解方法[12]等。此外,SINDHWANI et al[13]使用再生核希爾伯特空間(RKHS)理論約束不同視圖間一致性等。另一些方法通過挖掘視圖間互補(bǔ)性信息來(lái)提升學(xué)習(xí)效果,如:MKMED模型[14]、魯棒的多視圖半監(jiān)督學(xué)習(xí)方法(RMSL)[15]、多樣化約束實(shí)現(xiàn)多視圖的互補(bǔ)學(xué)習(xí)[16]等。2021年,新提出的CCA-based模型基于雙反饋機(jī)制的多視圖子空間學(xué)習(xí)模型(Multi-view subspace learning with dynamic double feedback mechanism,MSL-DDF)[17]是單視圖增強(qiáng)表征和視圖關(guān)系融合學(xué)習(xí)的新的多視圖學(xué)習(xí)模式,模型在DGCCA模型基礎(chǔ)上采用了動(dòng)態(tài)路由機(jī)制學(xué)習(xí)單視圖高階特征,在分類和聚類任務(wù)的學(xué)習(xí)性能中均表現(xiàn)優(yōu)越。
隨著多視圖數(shù)據(jù)結(jié)構(gòu)、關(guān)系越來(lái)越復(fù)雜,特征越來(lái)越豐富,多視圖學(xué)習(xí)的最終目標(biāo)是要實(shí)現(xiàn)信息間相互補(bǔ)充[18-19],在該過程中,不同視圖蘊(yùn)含獨(dú)特信息的表征程度和互補(bǔ)融合方式?jīng)Q定了最終表征效果的質(zhì)量[20]?;谠搯栴},為最大程度地利用多視圖數(shù)據(jù)的有效信息,同時(shí)學(xué)習(xí)單視圖獨(dú)特特征和多視圖互補(bǔ)性特征,本文提出一種基于深層特征增強(qiáng)的多視圖隱空間融合表征方法(enhancing feature deep learning to improve multi-view latent space fusion representation,簡(jiǎn)寫為MLSFR),MLSFR由單視圖增強(qiáng)學(xué)習(xí)、多視圖互補(bǔ)融合、基于聚類任務(wù)導(dǎo)向的自表達(dá)學(xué)習(xí)三個(gè)子模塊組成。在MLSFR模型中,多視圖數(shù)據(jù)的計(jì)算主要有四個(gè)階段:1) 挖掘單視圖獨(dú)特性特征,增強(qiáng)單視圖的表達(dá)能力;2) 實(shí)現(xiàn)多視圖的互補(bǔ)融合,學(xué)習(xí)多視圖特征的共享隱表示矩陣,滿足分類任務(wù)需求;3) 以聚類任務(wù)為導(dǎo)向,進(jìn)一步學(xué)習(xí)融合表征的自表達(dá)矩陣。本文主要貢獻(xiàn)為:1) 提出了一種同時(shí)探索單視圖獨(dú)特特征和多視圖互補(bǔ)性特征的學(xué)習(xí)模型;2) 通過多目標(biāo)設(shè)計(jì),學(xué)習(xí)到滿足于分類任務(wù)的隱空間表征和滿足于聚類任務(wù)的自表達(dá)矩陣。
本文MLSFR模型如圖1所示,主要過程為:第一步,單視圖增強(qiáng)學(xué)習(xí),包括:基于卷積操作提取視圖的基礎(chǔ)特征、利用多組卷積核構(gòu)造特征圖來(lái)豐富特征、特征向量化表示及動(dòng)態(tài)路由學(xué)習(xí);第二步,在單視圖豐富表征后,進(jìn)而進(jìn)行多視圖間的自監(jiān)督表達(dá),實(shí)現(xiàn)互補(bǔ)融合學(xué)習(xí),得到視圖的共享隱空間,并利用該隱空間進(jìn)行分類任務(wù);第三步,為使融合表征適用于聚類任務(wù),在模型的末端加入以聚類任務(wù)為導(dǎo)向的自表達(dá)學(xué)習(xí)過程,利用包含單視圖獨(dú)特性和視圖間互補(bǔ)性的隱空間作為該子模塊的輸入,基于自表達(dá)的子空間聚類算法,將隱空間H作為字典進(jìn)行再學(xué)習(xí),得到自表達(dá)矩陣Z,最后計(jì)算相似度矩陣S,進(jìn)行聚類。
圖1 MLSFR模型Fig.1 MLSFR Model
ZHANG et al[21]提出了一種多視圖隱空間聚類學(xué)習(xí)模型(latent multi-view subspace clustering,LMSC),該模型先學(xué)習(xí)多視圖隱空間,再利用傳統(tǒng)子空間聚類方法學(xué)習(xí)隱空間的自表達(dá)矩陣。受該模型啟發(fā),為提升LMSC中隱空間表示的分類預(yù)測(cè)性能和LMSC子空間聚類中自表達(dá)矩陣的聚類學(xué)習(xí)性能,本文加入了單視圖特征增強(qiáng)學(xué)習(xí)。
圖2 單視圖基礎(chǔ)特征學(xué)習(xí)Fig.2 Basic representation learning of single view
本文算法包含三步。
1.1.1單視圖特征增強(qiáng)學(xué)習(xí)
與深度網(wǎng)絡(luò)不同,膠囊網(wǎng)絡(luò)引入了“膠囊”概念,膠囊是由一組神經(jīng)元組成的向量[22],該向量模長(zhǎng)表示實(shí)體對(duì)象中某部分特征存在概率,向量方向表示實(shí)體對(duì)象的各類屬性,如:角度、位置、大小、顏色等。簡(jiǎn)言之,深度網(wǎng)絡(luò)用標(biāo)量形式的神經(jīng)元只能表示實(shí)體存在的概率,膠囊網(wǎng)絡(luò)采用向量形式的基本單元,不僅能表示實(shí)體存在的概率,還能表示該實(shí)體不同特征的相關(guān)屬性。另外卷積神經(jīng)網(wǎng)絡(luò)采用最大池化操作提取高級(jí)別特征會(huì)丟失部分位置信息,膠囊網(wǎng)絡(luò)采用動(dòng)態(tài)路由算法,并使用轉(zhuǎn)換矩陣實(shí)現(xiàn)部分和整體之間的內(nèi)在空間關(guān)系的編碼,更好地保留了實(shí)體與實(shí)體的空間位置信息。由于膠囊網(wǎng)絡(luò)具有更強(qiáng)的表征學(xué)習(xí)能力,更符合人類神經(jīng)系統(tǒng)的認(rèn)知過程,更具解釋性,成為了研究熱點(diǎn)并應(yīng)用廣泛。因此,本文采用膠囊網(wǎng)絡(luò)學(xué)習(xí)視圖的深層特征并增強(qiáng)單視圖特征的表達(dá)能力。
膠囊網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。圖中Step1與傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)的卷積運(yùn)算一樣,通過256個(gè)9×9的卷積核,得到20×20×256的特征矩陣。Step2和Step3為主膠囊層運(yùn)算過程,該步驟操作與CNN有明顯區(qū)別,采用8組卷積核生成8組特征圖,豐富了特征,并將8組特征圖展開成一維向量表示,得到1 152個(gè)膠囊向量,其作為動(dòng)態(tài)路由算法的輸入,實(shí)現(xiàn)了標(biāo)量到向量的轉(zhuǎn)化,而CNN在整個(gè)運(yùn)算過程中一直是標(biāo)量。Step4和Step 5為動(dòng)態(tài)路由算法過程,圖中激活向量的模長(zhǎng)大小表示預(yù)測(cè)結(jié)果。
圖3 膠囊網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Structure of capsule network
以第一個(gè)視圖為例,假定視圖特征O1按照上述操作分解成若干個(gè)膠囊,表示為:u1,…,uk1.動(dòng)態(tài)路由算法過程描述如下:
(1)
(2)
式中:ck1k2是耦合系數(shù),在動(dòng)態(tài)路由算法過程,該系數(shù)通過softmax函數(shù)進(jìn)行更新,表示上一層膠囊對(duì)于生成下一層各膠囊的貢獻(xiàn)度。
上式中,耦合系數(shù)ck1k2的計(jì)算表達(dá)式為:
(3)
激活函數(shù)采用如下非線性函數(shù):
(4)
(5)
1.1.2多視圖互補(bǔ)融合
minP,HLh(X*,PH) .
(6)
其中,Lh(·,·)為損失函數(shù)。
隱空間學(xué)習(xí)過程如圖4所示。該過程得到的隱空間H為多視圖的融合表示,可直接用于完成分類任務(wù)。
圖4 隱空間學(xué)習(xí)Fig.4 Latent space learning
1.1.3基于聚類導(dǎo)向的自表達(dá)學(xué)習(xí)
上一步得到的融合表征H未基于聚類任務(wù)進(jìn)行訓(xùn)練,因此,本文引入多視圖子空間聚類模型,學(xué)習(xí)得到適用于聚類任務(wù)的融合表征矩陣。為清楚介紹該子模塊,先簡(jiǎn)要介紹一下單視圖子空間聚類方法:
假設(shè)樣本數(shù)據(jù)集X=[x1,x2,…,xn]∈Rd×n包含n個(gè)樣本向量,共j視圖,xn的維度為d,單視圖子空間聚類是將樣本向量xa用該子空間中的其他樣本向量線性組合表示為:
xa=xbZab.
(7)
當(dāng)xa與xb不屬于一類,即不在同一子空間,則特征向量xa的自表達(dá)矩陣Zab=0.若該樣本有j類,則有j個(gè)自表達(dá)矩陣。自表達(dá)矩陣學(xué)習(xí)目標(biāo)函數(shù)為:
(8)
其中,E為異常噪聲數(shù)據(jù),Z∈Rn×n,L(·,·)為損失函數(shù),Ω(·)為正則化項(xiàng),α>0為均衡因子,λ為權(quán)衡參數(shù)。最后,基于自表達(dá)矩陣構(gòu)造相似度矩陣S進(jìn)行聚類。
基于單視圖子空間聚類算法,本文利用隱空間H學(xué)習(xí)適用于聚類任務(wù)的多視圖自表達(dá)子空間,目標(biāo)函數(shù)設(shè)計(jì)為:
(9)
其中,Z(j)為第j個(gè)視圖的重構(gòu)系數(shù)矩陣,L(·,·)為損失函數(shù),Ω(·)為正則化項(xiàng),其可以挖掘不同視圖子空間的關(guān)系,λ>0為均衡因子。
構(gòu)建模型總目標(biāo)函數(shù):
(10)
考慮到模型的魯棒性,采用低秩表示的子空間學(xué)習(xí)方法,目標(biāo)函數(shù)表示為:
(11)
式中:Eh為隱空間重構(gòu)誤差矩陣,Er為隱空間H中的噪聲數(shù)據(jù)矩陣,λ1、λ2為權(quán)衡參數(shù),‖·‖2,1為矩陣的l2,1范數(shù),滿足矩陣的自反性非負(fù)性、對(duì)稱性和三角不等式關(guān)系。
考慮目標(biāo)函數(shù)并非全部變量的凸函數(shù),采用基于交替方向最小化的增廣拉格朗日乘子法(augmented lagrange multiplier,ALM)求解矩陣秩最小化問題。首先,構(gòu)造目標(biāo)函數(shù)對(duì)應(yīng)的增廣拉格朗日函數(shù):
L(P,H,Z,Eh,Er,M)=‖Eh‖2,1+λ1‖Er‖2,1+
λ2‖Z‖*+Φ(Q1,X-PH-Eh)+Φ(Q2,H-
HZ-Er)+Φ(Q3,M-Z)=‖E‖2,1+λ‖M‖*+
Φ(Q1,X-PH-Eh)+Φ(Q2,H-HZ-Er)+
Φ(Q2,M-Z) s.t.PPT=I,M=Z.
(12)
然后使用拉格朗日乘子法交替迭代矩P,H,Z,E,M,直到滿足終止條件為止。將目標(biāo)函數(shù)分解成單變量更新的子問題進(jìn)行優(yōu)化,分別更新P,H,Z,E,M及Q1,Q2,Q3的幾個(gè)子目標(biāo),直到收斂。分別如下:
1) 更新投影矩陣P.固定除變量P以外的其他變量,得到關(guān)于變量P的優(yōu)化函數(shù)為:
(13)
(14)
2) 更新隱空間矩陣H.固定除變量H以外的其他變量,得到關(guān)于變量H的優(yōu)化函數(shù)為:
(15)
對(duì)H求導(dǎo)并使其0,求得:
A=μPTP.
(16)
B=μ(ZTZ-Z-ZT+I) .
(17)
(18)
由此得到Sylvester方程求H的唯一解,其中,A為正定矩陣,B為半正定矩陣,且A和B間不存在共同的特征值。
3) 更新自表達(dá)矩陣Z.固定除變量Z以外的其他變量,優(yōu)化函數(shù)表示為:
(19)
對(duì)變量Z求導(dǎo)令其為0,求得解為:
Z*=(HTH+I)-1[(M+HTH-HTEr)+
(Q3+HTQ2)/μ] .
(20)
4) 更新誤差矩陣E.固定除變量E以外的其他變量,優(yōu)化函數(shù)如下:
(21)
通過相關(guān)文獻(xiàn)中的定理,變量Er和Eh的解分別為:
(22)
(23)
將A和B共同構(gòu)成矩陣G,優(yōu)化函數(shù)簡(jiǎn)化為:
(24)
5) 更新M.優(yōu)化函數(shù)如下:
(25)
這里采用奇異值閾值方法求解M,對(duì)矩陣Z-Q3/μ進(jìn)行奇異值分解,得到變量M解:
(26)
6) 更新拉格朗日乘子Q1,Q2,Q3.根據(jù)ALM算法,拉格朗日乘子的更新函數(shù)如下:
(27)
(28)
(29)
令其為0,求得解為:
Q1=Q1+μ(X-PH-Eh) .
(30)
Q2=Q2+μ(X-PH-Er) .
(31)
Q3=Q3+μ(M-Z) .
(32)
通過交替迭代上述每個(gè)變量,直到收斂。最后將包含視圖差異性特征和一致性特征的隱空間矩陣H作為分類的輸入,利用Z構(gòu)建的相似矩陣P作為聚類的輸入。
在以下多視圖數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。1) ORL.40個(gè)不同人的圖像,包括三個(gè)特征:intensity,LBP,Gabor,三個(gè)特征看作3個(gè)視圖。2) Football.為Twitter上20個(gè)俱樂部248名英超足球運(yùn)動(dòng)員信息,共9視圖:followed by、follows、list-merged 500、lists500、mentioned by、mentions、re-tweeted by、re-tweets、and tweets500.其中,第1、2、5、6-8視圖為關(guān)系網(wǎng)絡(luò),第9視圖為文本,第3和4視圖為IDs.3) Handwritten.為0-9數(shù)字的2 000張圖片樣本,共6視圖,共包括6個(gè)特征,作為6個(gè)視圖,分別為:Fourier coefficients of the character shapes,profile correlations,Karhunen-love coefficients,pixel averages in 2×3 window,Zernike moment,morphological.4) Wikipedia.維基百科文章,由2 866個(gè)圖像/文本對(duì)組成,2 866個(gè)圖像/文本對(duì)組成,每篇文章共圖像、文本兩個(gè)視圖。
在分類任務(wù)中,采用精度(precision)、召回率(recall)、F1值和準(zhǔn)確率(accuracy),在聚類任務(wù)中,采用精度(precision)、召回率(recall)、F1值和準(zhǔn)確率(accuracy)、輪廓系數(shù)(Silhouette_score)。與9種基準(zhǔn)算法進(jìn)行對(duì)比,具體如下:
1) LMSC.本文模型是基于該模型改進(jìn)的[21]。該方法為多視圖的子空間聚類,先計(jì)算隱空間,再利用學(xué)習(xí)到的自表達(dá)矩陣進(jìn)行聚類,本文重點(diǎn)研究提升隱空間的能力,將LMSC模型學(xué)習(xí)的隱空間作為分類任務(wù)的輸入矩陣得到分類預(yù)測(cè)結(jié)果與本文模型進(jìn)行對(duì)比。
2) Co-Reg SPC.該算法采用協(xié)同正則化思想,實(shí)現(xiàn)多視圖的一致性表達(dá)[23]。
3) LRRBestSV.該算法是最好的單視圖子空間低秩聚類表征學(xué)習(xí)方法[24]。
4) Min-Disagreement?;凇白钚』制纭彼枷?,創(chuàng)建二部圖。解決兩視圖譜聚類的問題[25]。
5) RMSC.該算法將每個(gè)視圖構(gòu)造成一個(gè)轉(zhuǎn)移概率矩陣,然后利用這些矩陣恢復(fù)出共享的低秩轉(zhuǎn)移概率矩陣,作為聚類算法的輸入,該方法具有低秩稀疏分解的特點(diǎn)。另外,為解決模型的優(yōu)化問題,算法提出了基于增廣拉格朗日乘子格式的優(yōu)化方法[26]。
6) CCA.該算法計(jì)算兩視圖的最大相關(guān)系數(shù),即兩視圖的相關(guān)性最大[2]。
7) DCCA.該算法是CCA基于深度網(wǎng)絡(luò)的擴(kuò)展,能夠?qū)W習(xí)兩視圖的非線性映射,再計(jì)算最大相關(guān)系數(shù),但有視圖數(shù)量的局限性[6]。
8) DGCCA.該算法解決了DCCA和GCCA不足[7]。
9) MSL-DDF.該算法為CCA-based改進(jìn)算法,優(yōu)于最新DGCCA方法[17]。
具體地,實(shí)驗(yàn)結(jié)果分析中,根據(jù)算法適用任務(wù)不同,聚類任務(wù)中基準(zhǔn)算法為:LMSC、Co-Reg SPC、LRRBestSV、Min-Disagreement、RMSC、CCA、DCCA、DGCCA、MSL-DDF;分類任務(wù)中基準(zhǔn)算法為:LMSC、CCA、DCCA、DGCCA、MSL-DDF.
本文方法是在LMSC基礎(chǔ)上加入動(dòng)態(tài)路由機(jī)制,因此,首先驗(yàn)證采用動(dòng)態(tài)路由機(jī)制對(duì)提升LMSC隱空間學(xué)習(xí)效果的可行性,如圖5所示,在3個(gè)數(shù)據(jù)集上聚類結(jié)果均提升,表明提高視圖的表征能力可直接提升隱空間的學(xué)習(xí)能力,從中分析原因?yàn)椋簞?dòng)態(tài)路由機(jī)制中采用向量形式表示單視圖能夠更好地表示實(shí)體不同特征的屬性,并使用轉(zhuǎn)換矩陣實(shí)現(xiàn)內(nèi)在空間關(guān)系、實(shí)體與實(shí)體的空間位置信息學(xué)習(xí),實(shí)現(xiàn)了更豐富、更具體的信息表達(dá)。實(shí)驗(yàn)中另加入輪廓系數(shù)指標(biāo),該指標(biāo)值越接近1,說明聚類越合理,MLSFR在兩數(shù)據(jù)集上輪廓系數(shù)均高于LMSC,表明加入動(dòng)態(tài)路由機(jī)制可增強(qiáng)聚類性能。
圖5 本文模型與LMSC模型的聚類性能對(duì)比Fig.5 Clustering performance comparison of our model and LMSC model
其次,利用單視圖學(xué)習(xí)的隱空間的表征能力進(jìn)行探索,結(jié)果如圖6所示,從中發(fā)現(xiàn):利用單視圖分別學(xué)習(xí)隱空間,本文模型MLSFR性能總體不如LMSC模型,雖利用多視圖學(xué)習(xí)后, MLSFR模型比LMSC模型學(xué)習(xí)效果更優(yōu),但MLSFR模型利用單視圖學(xué)習(xí)能力較差。
圖6 單視圖融合表征的聚類性能對(duì)比Fig.6 Clustering performance comparison based on fusion representation of single view
然后,結(jié)合LMSC工作結(jié)果,與多視圖聚類基準(zhǔn)算法進(jìn)行聚類性能分析,如圖7所示,為Co-Reg SPC、LRRBestSV、RMSC、LMSC和本文模型較基準(zhǔn)算法Min-Disagreement的F1提升率,可看出,本文模型較LRRBestSV的F1和Accuracy提升率分別為4.73%和19.25%,而LMSC模型較LRRBe-stSV的F1和Accuracy提升率為14.37%和11.56%,表明MLSFR的聚類準(zhǔn)確性更高。
圖7 MLSFR與多視圖聚類算法性能對(duì)比Fig.7 Performance comparison of MLSFR and multi-view clustering algorithms
最后,探索了本文MLSFR算法與其他CCA-based方法的聚類性能差異性,結(jié)果如圖8所示,從中看出:在Football數(shù)據(jù)集上,雖LMSC的F1性能最優(yōu),但MLSFR均高于CCA-based方法。在Handwritten數(shù)據(jù)集上,MLSFR的F1值高于LMSC,在Wikipedia數(shù)據(jù)集上,MLSFR低于CCA-based算法。結(jié)果證明:在視圖數(shù)量越多的數(shù)據(jù)集上,本文聚類性能優(yōu)勢(shì)越明顯。
圖8 MLSFR與CCA-based方法的聚類性能對(duì)比Fig.8 Clustering performance comparison of MLSFR and CCA-based methods
綜上分析,雖本文算法與基于子空間學(xué)習(xí)CCA-based方法相比,聚類性能提升并不突出,但本文算法較LMSC性能有明顯提升,且較其他聚類方法的F1和準(zhǔn)確率提升率明顯,可見采用膠囊網(wǎng)絡(luò)的動(dòng)態(tài)路由機(jī)制挖掘視圖深層增強(qiáng)特征可提升融合表征聚類性能,該研究有待繼續(xù)深入。
采用90%的數(shù)據(jù)集作為訓(xùn)練集,10%的數(shù)據(jù)集作為測(cè)試集。隱空間H的維度設(shè)置為100,權(quán)衡參數(shù)λ選擇從{0.001,0.01,0.1,10,100,1000}.
分類實(shí)驗(yàn)中采用Softmax分類器,隱空間矩陣維度為100.與聚類實(shí)驗(yàn)一樣,首先,驗(yàn)證加入動(dòng)態(tài)路由機(jī)制在分類任務(wù)中的提升效果,結(jié)果如表1,在ORL數(shù)據(jù)集上,MLSFR較LMSC的F1指標(biāo)提高了1.2倍,在Football數(shù)據(jù)集上,MLSFR較LMSC的F1指標(biāo)提高了8%,在Handwritten數(shù)據(jù)集上,MLSFR較LMSC的F1指標(biāo)提高了21.3%,在Wikipedia數(shù)據(jù)集上,MLSFR較LMSC的F1指標(biāo)提高了5%,結(jié)果表明MLSFR提升了多視圖隱表征的分類性能。
表1 MLSFR與LMSC的分類性能對(duì)比Table 1 Classification performance comparison of MLSFR and LMSC
然后,進(jìn)一步對(duì)比單視圖的隱空間學(xué)習(xí)性能,如圖9所示,從中看出:MLSFR基本高于LMSC,證明模型提高隱空間表征的能力穩(wěn)定。綜上結(jié)果分析:本文模型在單視圖分類性能差異較大時(shí),融合表征后的分類能力下降。視圖越多提高了融合表征計(jì)算復(fù)雜度高,影響融合表征聚類合理性。
圖9 單視圖融合表征的分類性能對(duì)比Fig.9 Classification performance comparison based on fusion representation of single view
另外,為驗(yàn)證本文模型在分類任務(wù)中的穩(wěn)定性能,與其他CCA-based方法進(jìn)行對(duì)比,結(jié)果如圖10所示。從數(shù)據(jù)集分析,在視圖較少數(shù)據(jù)集上,MLS-FR性能較穩(wěn)定,在視圖較多數(shù)據(jù)集上,性能不如CCA-based.從目標(biāo)函數(shù)分析,CCA-based模型設(shè)計(jì)中以相關(guān)性最大為目標(biāo),而本文MLSFR只考慮到數(shù)據(jù)本身的全局相關(guān)性,未考慮局部關(guān)系,影響了模型的分類性能。
圖10 本文模型與CCA-based模型的分類性能對(duì)比Fig.10 Classification performance comparison of our model and fusion representation models
本文為了豐富單視圖特征的表達(dá)和實(shí)現(xiàn)多視圖間互補(bǔ)學(xué)習(xí),提出了一種基于多視圖增強(qiáng)學(xué)習(xí)的隱空間學(xué)習(xí)方法,通過多目標(biāo)設(shè)計(jì),學(xué)習(xí)到滿足于分類任務(wù)的隱空間表征和滿足于聚類任務(wù)的自表達(dá)矩陣。為了增強(qiáng)單視圖的獨(dú)特性表達(dá),對(duì)單視圖提取基礎(chǔ)特征、構(gòu)造特征圖豐富特征、特征向量化、動(dòng)態(tài)路由學(xué)習(xí)。在單視圖豐富表征后,進(jìn)而進(jìn)行多視圖間的自監(jiān)督表達(dá),實(shí)現(xiàn)互補(bǔ)融合學(xué)習(xí),得到視圖的共享隱空間,并利用該隱空間進(jìn)行分類任務(wù)。為了使得融合表征適用于聚類任務(wù),在模型的末端加入以聚類任務(wù)為導(dǎo)向的自表達(dá)學(xué)習(xí)過程,利用包含單視圖獨(dú)特性和視圖間互補(bǔ)性的隱空間作為該子模塊的輸入,基于自表達(dá)的子空間聚類算法,將隱空間H作為字典進(jìn)行再學(xué)習(xí),得到自表達(dá)矩陣Z,最后計(jì)算相似度矩陣S,并基于相似度矩陣進(jìn)行聚類。最后在4個(gè)數(shù)據(jù)集上評(píng)測(cè)模型性能,表明:增強(qiáng)視圖表征提升了模型聚類和分類性能;視圖數(shù)量越多,聚類越好;模型聚類準(zhǔn)確性高于基準(zhǔn)算法;模型在單視圖上分類差異較大時(shí),融合表征后的整體分類下降。并發(fā)現(xiàn)模型在視圖數(shù)量多時(shí)的聚類合理性略有下降,視圖數(shù)量越多提高了計(jì)算融合表征的復(fù)雜度,影響了融合表征的聚類合理性,如何穩(wěn)定地提升模型在大規(guī)模、視圖數(shù)量多的數(shù)據(jù)集上的學(xué)習(xí)性能有待進(jìn)一步研究。