李順勇 許曉麗
摘要:多視圖數(shù)據(jù)集普遍分布在低維子空間上.為了解決多視圖子空間聚類時各視圖信息量不同的問題,提出了一種新的基于信息熵加權(quán)的多視圖子空間聚類算法(IEMLRR).首先在低秩表示的約束下獲得每個視圖的子空間表示,在獲取公共子空間表示時,使用信息熵加權(quán)來保證不同視圖所攜帶的信息差異,最后用譜聚類算法進(jìn)行聚類.采用增廣拉格朗日乘子法對IEMLRR算法進(jìn)行優(yōu)化,并在五個數(shù)據(jù)集上驗證了算法的有效性.
關(guān)鍵詞:信息熵加權(quán); 多視圖學(xué)習(xí); 低秩表示; 子空間聚類
中圖分類號:TP391文獻(xiàn)標(biāo)志碼: A
Multi-view subspace clustering algorithm based on
information entropy weighting
LI Shun-yong, XU Xiao-li(School of Mathematics Sciences, Shanxi University, Taiyuan 030006, China)
Abstract:Multi-view datasets are generally distributed across low-dimensional subspace.In order to solve the problem that the amount of information of each view is different when multi-view subspace is clustered,a new multi-view subspace clustering algorithm based on information entropy weighting (IEMLRR) is proposed.First,the subspace representation of each view is obtained under the constraints of the low-rank representation,and when the public subspace representation is obtained,the information entropy weight is used to ensure the information difference carried by different views,and finally the spectral clustering algorithm is used for clustering.The IEMLRR algorithm was optimized by augmented Lagrange multiplier method,and the effectiveness of the algorithm is verified on five datasets.
Key words:information entropy weighting; multi-view learning; low-rank representation; subspace clustering
0引言
在如今的大數(shù)據(jù)時代,數(shù)據(jù)信息的多樣化使得單視圖數(shù)據(jù)已經(jīng)無法滿足人們的需要.針對同一個事物,多視圖數(shù)據(jù)[1]是通過提取不同角度的不同特征來獲取的.子空間聚類[2]是恢復(fù)數(shù)據(jù)子空間結(jié)構(gòu)的常用方法,假設(shè)高維數(shù)據(jù)是從低維子空間中近似提取的,子空間聚類就是找到這樣的子空間,使數(shù)據(jù)集可以正確分類.多視圖子空間聚類在此基礎(chǔ)上對不同的視圖進(jìn)行低維子空間表示,并在獲得的最終子空間上進(jìn)行聚類[3].多樣性誘導(dǎo)多視角子空間聚類[4](DiMSC)在自表示子空間聚類框架下,利用希爾伯特-施密特獨立準(zhǔn)則(HSIC)探索互補(bǔ)信息.低秩張量約束多視圖子空間聚類(LT-MSC) [5]探討了這些子空間表示之間的高階相關(guān)性.文獻(xiàn)[6]中的方法將不同的視圖統(tǒng)一為一個共同的指標(biāo)矩陣,而不是一個共同的子空間表示,這些方法在每個視圖中重建數(shù)據(jù)點.為了更深刻地探索多視圖數(shù)據(jù)的隱藏結(jié)構(gòu),一系列尋找共享潛在子空間的多視圖聚類方法相繼被提出.文獻(xiàn)[7]提出了潛在的多視圖子空間聚類算法(LMSC),利用不同的投影矩陣,映射出一個共同的表示矩陣,然后再進(jìn)行子空間聚類.2020年,Zhang等[8]提出了基于潛在表示和每個視圖之間的線性相關(guān)性的線性LMSC(lLMSC)和基于處理一般關(guān)系的神經(jīng)網(wǎng)絡(luò)的廣義LMSC(gLMSC).
稀疏表示(SSC)[9]和低秩表示[10](LRR)揭示了用于子空間聚類的高維數(shù)據(jù)的底層結(jié)構(gòu).SSC通過解決l1范數(shù)最小化問題,使用數(shù)據(jù)點的最稀疏表示,顯示了其捕獲高維數(shù)據(jù)局部結(jié)構(gòu)的能力.LRR對數(shù)據(jù)點施加低秩約束來尋找子空間結(jié)構(gòu),通過核范數(shù)最小化的凸優(yōu)化問題來解決,最終獲得高維數(shù)據(jù)的全局結(jié)構(gòu).在2020年,文獻(xiàn)[11]提出的多個分區(qū)對齊的聚類算法采用了在聚類結(jié)果階段進(jìn)行融合,但是融合的方式比較粗糙,容易導(dǎo)致大量信息損失.2020年,張培等[12]提出了一種單步劃分融合多視圖子空間聚類算法,之后,文獻(xiàn)[13]在獲得不同視圖的低維子空間表示后,通過融合得到一個共享的低維子空間表示,最后進(jìn)行譜聚類.
針對多視圖子空間聚類時各視圖信息量不同的問題,本文提出了一種新的基于信息熵加權(quán)的多視圖子空間聚類算法(Multi-view subspace clustering algorithm based on information entropy weighting,IEMLRR算法).首先使用低秩表示對每個視圖的子空間學(xué)習(xí)進(jìn)行約束,然后用一個公共表示來保證一致性,在確定公共表示時,通過信息熵確定每個視圖的權(quán)重.本文還提出了一個有效的算法來解決IEMLRR算法的優(yōu)化問題.最后,在五個數(shù)據(jù)集上進(jìn)行大量實驗,驗證了該算法的有效性.
1相關(guān)工作
1.1子空間聚類算法
1.2譜聚類
1.3多視圖子空間聚類
1.4信息熵(簡稱熵)
2本文模型
本節(jié)介紹提出的基于信息熵加權(quán)的多視圖子空間聚類算法(IEMLRR算法),并對此算法進(jìn)行優(yōu)化.
2.1IEMLRR算法
2.2優(yōu)化過程
2.2.1優(yōu)化w(v)
2.2.2固定w(v),獨立優(yōu)化單個視圖中的變量
3實驗與分析
3.1數(shù)據(jù)集介紹
3.2評價指標(biāo)
3.3對比方法介紹
為了驗證本文提出算法的有效性,將IEMLRR算法分別與自身三個變體算法和DiMSC、LMSC、MLRRSC與FMR四個多視圖聚類算法進(jìn)行比較.
IEMLRR算法的三個變體算法分別為:
(1)LRRbest:單視圖下的LRR[9]:在每個視圖特征上運(yùn)行LRR,來獲得低秩子空間表示,在這些表示上運(yùn)行譜聚類,選擇最好結(jié)果;
(2)MLRR:在低秩表示約束下的多視圖子空間聚類算法,在單個視圖分別運(yùn)行低秩子空間表示,然后將獲得的子空間表示組合在一起;
(3)WMLRR:在MLRR基礎(chǔ)上,獲得一個公共的子空間表示,用自適應(yīng)權(quán)重[23]對視角進(jìn)行加權(quán).
進(jìn)行比對的四個多視圖子空間聚類算法:
(1)DiMSC[4]:在獲取子空間表示的過程中,加入希爾伯特-史密斯獨立性準(zhǔn)則下的多樣性項,探索了多視圖表示的互補(bǔ)性;
(2)LMSC[7]:在多個視圖均來自同一個潛在的表示的假設(shè)下,通過合理的潛在表示和子空間重構(gòu)進(jìn)行約束,最后用潛在表示進(jìn)行聚類,獲得聚類結(jié)果;
(3)MLRRSC[20]:基于低秩和稀疏子空間的聚類算法,要求子空間表示矩陣同時為低秩和稀疏矩陣;
(4)FMR[21]:在希爾伯特-史密斯獨立性準(zhǔn)則理論支持下,構(gòu)造互補(bǔ)信息的潛在表示項,再通過數(shù)據(jù)重建得到子空間表示.
3.4實驗結(jié)果分析
3.4.1消融性實驗結(jié)果分析
在實驗過程中,首先對每組數(shù)據(jù)進(jìn)行歸一化處理,并針對不同算法進(jìn)行參數(shù)調(diào)優(yōu),最終選取最優(yōu)結(jié)果,每組實驗進(jìn)行30次,獲得聚類結(jié)果的平均值和標(biāo)準(zhǔn)差,具體實驗結(jié)果如表4所示.
分析表4可知,與未加權(quán)的MLRR算法和自適應(yīng)加權(quán)算法WMLRR相比,在五個數(shù)據(jù)集上的各個評價指標(biāo)值均有顯著提升,表明本文提出的IEMLRR算法具有更優(yōu)的聚類效果,也說明利用不同視角的信息來進(jìn)行加權(quán)是可取的.
為了更加直觀地體現(xiàn)基于信息熵加權(quán)下每個視圖權(quán)重的差異,以MSRCV1數(shù)據(jù)集為例,對MSRCV1數(shù)據(jù)集在IEMLRR算法下最終獲得的最優(yōu)權(quán)重值與單視圖條件下五個視圖的ACC和NMI進(jìn)行展示,具體如圖1所示.由圖1可以看出,MSRCV1數(shù)據(jù)集在視圖2上聚類結(jié)果最好,且視圖2的權(quán)重值最大,表明IEMLRR算法所求各權(quán)重與聚類結(jié)果一致.
圖1MSRCV1數(shù)據(jù)集各視圖的權(quán)重及聚類效果3.4.2與其他算法對比實驗結(jié)果分析
對比IEMLRR算法與其余幾種算法,結(jié)果如表5所示.表5顯示了不同算法的聚類性能結(jié)果.與多視圖子空間聚類算法DiMSC,基于潛在表示的算法LMSC、FMR,基于低秩稀疏聚類算法MLRSSC相比,IEMLRR算法在大部分?jǐn)?shù)據(jù)集上都優(yōu)于其他算法,比如在UCI-digit數(shù)據(jù)集上,本文算法比MLRSSC在ACC和NMI方面分別提高了2.63%和0.95%左右;對于每個數(shù)據(jù)集,IEMLRR算法在NMI和ARI上優(yōu)勢顯著,具體而言,IEMLRR產(chǎn)生的NMI與數(shù)據(jù)集Caltech101-7、BBCsports、MSRCV1、UCI-digit上的其他算法相比,分別至少提高1.36%、3.60%、5.46%、0.95%.
3.5參數(shù)設(shè)置與收斂性分析
3.5.1參數(shù)設(shè)置
實驗過程中,超參數(shù)λ從集合{1e-2,5e-2,0.1,1,5,10,1e2,5e2,1 000}中選擇.參數(shù)θ在{0.001,0.01,0.1,1,10,100,1 000}中進(jìn)行選擇.懲罰參數(shù)μ從{101,102,103,104}中進(jìn)行選擇,ρ設(shè)置為1.1,maxμ為106,最大迭代次數(shù)設(shè)置為100.
3.5.2收斂性分析
為了實證IEMLRR算法的收斂性,畫出本文所提算法在五個數(shù)據(jù)集上的收斂曲線如圖2所示.在圖2中,三條曲線分別表示三個收斂條件所計算出的誤差.可以看出,在迭代次數(shù)大約到50次時,本文提出的IEMLRR算法在五個數(shù)據(jù)集上均收斂,這表明算法的目標(biāo)值隨著迭代次數(shù)的增加顯著降低,同時也驗證了該算法良好的收斂性.
4結(jié)論
本文提出了一種基于信息熵加權(quán)的多視圖子空間聚類算法(IEMLRR算法),該算法的主要特點是在對子空間進(jìn)行低秩約束的基礎(chǔ)上,學(xué)習(xí)所有視圖的子空間表示,再獲取公共的子空間表示,在這過程中,引入信息熵來區(qū)分不同視圖的信息,從而獲得不同視圖對公共子空間表示的貢獻(xiàn)程度.在五個多視圖數(shù)據(jù)集上的實驗結(jié)果表明,該算法的性能優(yōu)先于其他現(xiàn)有的多視圖子空間聚類算法.
參考文獻(xiàn)
[1] Zhao J,Xie X,Xu X,et al.Multi-view learning overview:Recent progress and new challenges[J].Information Fusion,2017,38(2):43-54.
[2] Zhan K,Zhang C,Guan J,et al.Graph learning for multi-view clustering[J]. IEEE Transactions on Cybernetics,2017,48(10): 2 887-2 895.
[3] 李順勇,顧嘉成.一種增強(qiáng)的K-prototypes混合數(shù)據(jù)聚類算法[J].陜西科技大學(xué)學(xué)報,2021,39(2):183-188.
[4] Cao X C,Zhang C Q,F(xiàn)u H Z,et al.Diversity-induced multi-view subspace clustering[C]//IEEE Conference on Computer Vision and Pattern Recognition.Boston:IEEE,2015:586-594.
[5] Zhang C,F(xiàn)u H,Liu S,et al.Low-rank tensor constrained multi-view subspace clustering[C]//IEEE International Conference on Computer Vision.Santiago:IEEE,2015:1 582-1 590.
[6] Gao H,Nie F,Li X,et al.Multi-view subspace clustering[C]// International Conference on Computer Vision.Santiago:IEEE,2016:4 238-4 246.
[7] Zhang C Q,Hu Q H,F(xiàn)u H Z,et al.Latent multi-view subspace clustering[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition.Honolulu:IEEE,2017:4 279-4 287.
[8] Zhang C Q,F(xiàn)u H Z,Hu Q H,et al.Generalized latent multi-view subspace clustering[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2020,42(1):86-99.
[9] Ehsan E,Rene V.Sparse subspace clustering:Algorithm,theory,and applications[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,35(11):2 765-2 781.
[10] Liu G,Lin Z,Yan S,et al.Robust recovery of subspace structures by low-rank representation[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,35(1):171-184.
[11] Zhao K,Guo Z P,Huang S D,et al.Multiple partitions aligned clustering[C]//Proceedings of the Twenty-Eighth International Joint Conference on Artificial Intelligence.Macao:IJCAI,2019:2 701 -2 707.
[12] 張培,祝恩,蔡志平.單步劃分融合多視圖子空間聚類算法[J].計算機(jī)科學(xué)與探索,2021,15(12):2 413-2 420.
[13] 黃宗超,王思為,祝恩,等.基于子空間融合的多視圖聚類算法[J].鄭州大學(xué)學(xué)報(理學(xué)版),2021,53(1):68-73.
[14] Li R H,Zhang C Q,F(xiàn)u H Z,et al.Reciprocal multi-layer subspace learning for multi-view clustering[C]//International Conference on Computer Vision.Seoul:IEEE,2019:8 171-8 179.
[15] Hu H,Lin Z C,F(xiàn)eng J,et al.Smooth representation clustering[C]//IEEE Conference on Computer Vision and Pattern Recognition.Columbus:IEEE,2014:3 834-3 841.
[16] 陳迪,劉驚雷.基于乘法更新規(guī)則的k-means與譜聚類的聯(lián)合學(xué)習(xí)[J].南京大學(xué)學(xué)報(自然科學(xué)版),2021,57(2):177-188.
[17] 代勁,胡艷.混合粒度多視圖新聞數(shù)據(jù)聚類方法[J].小型微型計算機(jī)系統(tǒng),2021,42(4):719-724.
[18] 曹容瑋,祝繼華,郝問裕,等.雙加權(quán)多視角子空間聚類算法[J].軟件學(xué)報,2022,33(2):585-597.
[19] 劉金花,王洋,錢宇華.基于譜結(jié)構(gòu)融合的多視圖聚類[J].計算機(jī)研究與發(fā)展,2022,59(4):922-935.
[20] Brbic M,Kopriva I.Multi-view low-rank sparse subspace clustering[J].Pattern Recognition the Journal of the Pattern Recognition Society,2018,73(8):247-258.
[21] Li R,Zhang C,Hu Q,et al.Flexible multi-view representation learning for subspace clustering[C]//Proceedings of the Twenty-Eighth International Joint Conference on Artificial Intelligence.Macao:IJCAI,2019:2 916-2 922.
【責(zé)任編輯:陳佳】