范莉莉,盧桂馥,唐肝翌,楊 丹
(安徽工程大學(xué)計(jì)算機(jī)與信息學(xué)院,安徽蕪湖 241000)
在信息社會(huì)高速發(fā)展的今天,高維數(shù)據(jù)越來越多,結(jié)構(gòu)越來越復(fù)雜,如何進(jìn)行高維數(shù)據(jù)聚類分析已成為亟須解決的難題。人們通常假設(shè)高維數(shù)據(jù)分布于一個(gè)聯(lián)合的低維子空間中,這一合理假設(shè)推動(dòng)了子空間聚類算法的發(fā)展。目前,子空間聚類[1-4]已成為解決高維數(shù)據(jù)聚類的一種重要方法,廣泛應(yīng)用于計(jì)算機(jī)視覺、模式識別和機(jī)器學(xué)習(xí)等相關(guān)領(lǐng)域的研究中。
子空間聚類的思想[5]是將來自多個(gè)線性子空間的一組高維數(shù)據(jù),根據(jù)類別的不同分割到相互獨(dú)立的子空間中。常用的子空間聚類算法主要有:迭代方法、代數(shù)方法、統(tǒng)計(jì)方法和基于譜聚類的方法。基于譜聚類的方法[6-7]因在算法效率和聚類精度上的較好效果,是目前子空間聚類算法的重點(diǎn)研究方向。該方法主要利用數(shù)據(jù)點(diǎn)周圍的局部信息或全局信息的相似性構(gòu)造親和矩陣,然后運(yùn)用譜聚類方法得到聚類結(jié)果。數(shù)據(jù)點(diǎn)間的最優(yōu)表示直接影響后面的聚類效果。
稀疏子空間聚類(Sparse Subspace Clustering,SSC)算法[8]和低秩表示(Low-Rank Representation,LRR)子空間聚類算法[9-10]是代表性的兩種子空間聚類算法,它們通過基于稀疏和低秩表示來有效處理噪聲和異常值。SSC 算法利用L1范數(shù)設(shè)置類間相似性為0、類內(nèi)相似性為1 來保證矩陣的稀疏性,但因忽略數(shù)據(jù)間的關(guān)聯(lián)性,使得系數(shù)矩陣表示過于稀疏,可能會(huì)降低聚類的準(zhǔn)確性。LRR 算法解決了這一問題,其通過最小核范數(shù)尋求數(shù)據(jù)全局結(jié)構(gòu)的低秩表示,并對含噪聲和重大污染的數(shù)據(jù)有較好的魯棒性。文獻(xiàn)[11]提出的最小二乘回歸(Least Squares Regression,LSR)子空間聚類算法在子空間獨(dú)立的假設(shè)下,能獲得矩陣的塊對角結(jié)構(gòu),更好地保持?jǐn)?shù)據(jù)的聚集性。
上述經(jīng)典算法為子空間聚類的研究奠定了很好的基礎(chǔ),近年來,不斷有新的改進(jìn)方法被提出來以提高聚類效果。文獻(xiàn)[12]利用矩陣的Forbenius 范數(shù)對系數(shù)矩陣進(jìn)行約束,通過高效密集子空間聚類(Efficient Dense Subspace Clustering,EDSC)來有效處理噪聲和異常值,提高聚類準(zhǔn)確度。文獻(xiàn)[13]使用具有對稱約束的低秩表示(Low-Rank Representation with Symmetric Constraint,LRRSC)來解決子空間聚類問題,通過將對稱約束集成到高維數(shù)據(jù)表示的低秩屬性中,擴(kuò)展了原始的低秩表示算法。文獻(xiàn)[14]從原始數(shù)據(jù)的低維空間動(dòng)態(tài)學(xué)習(xí)親和矩陣,通過低秩稀疏子空間(Lowrank Sparse Subspace,LSS)聚類方法提高聚類性能。然而這些算法都忽略了數(shù)據(jù)間的局部相關(guān)性,不能很好地揭示局部數(shù)據(jù)間的關(guān)系。為此,研究者們采用流形學(xué)習(xí)的方法來保持原有數(shù)據(jù)的拓?fù)浜蛶缀谓Y(jié)構(gòu),以體現(xiàn)數(shù)據(jù)的局部流形特征。
目前大多數(shù)基于流形學(xué)習(xí)的子空間聚類主要應(yīng)用拉普拉斯正則化來提升算法性能。文獻(xiàn)[15]通過拉普拉斯正則化LRR(Laplacian regularized LRR,LapLRR)來探索數(shù)據(jù)的全局和局部流形結(jié)構(gòu),利用流形正則化來增強(qiáng)LRR 的性能。文獻(xiàn)[16]提出了一個(gè)廣義拉普拉斯正則化低秩表示框架,利用圖正則化不僅可以表示全局低維結(jié)構(gòu),而且可以捕獲局部數(shù)據(jù)結(jié)構(gòu)中的非線性幾何信息。文獻(xiàn)[17]將圖正則化引入到LRR 中,提出的圖正則化LRR(Low-Rank Representation with Graph Regularization,LRRGR)算法集成了流形學(xué)習(xí)和低秩表示,可以很好地利用樣本的全局和局部結(jié)構(gòu)信息,并對噪聲具有較好的魯棒性。文獻(xiàn)[18]提出的圖正則化最小二乘回歸(Graph-regularized Least Squares Regression,GLSR)算法,通過使用最小二乘回歸代替核范數(shù)來產(chǎn)生分組效應(yīng),同時(shí)利用流形約束來保留樣本的局部幾何結(jié)構(gòu)。這些算法通過使用拉普拉斯正則項(xiàng)來對數(shù)據(jù)的局部相關(guān)性進(jìn)行表示,都較好地提高了子空間聚類的性能。然而,已有研究[19-20]表明拉普拉斯正則化使得該項(xiàng)的極小解傾向于一個(gè)常數(shù),不能很好地保持?jǐn)?shù)據(jù)的局部拓?fù)浣Y(jié)構(gòu),這也導(dǎo)致了拉普拉斯算子缺乏推測能力。與傳統(tǒng)的拉普拉斯正則化相比,Hessian 正則化有良好的推測能力,它不依賴于常量函數(shù),該項(xiàng)的極小化使得最優(yōu)函數(shù)為流形上的線性函數(shù),從而可以更好地利用數(shù)據(jù)的拓?fù)湫畔?,因此Hessian 正則化往往比拉普拉斯正則化更適合維護(hù)數(shù)據(jù)的局部流形結(jié)構(gòu)。此外,現(xiàn)有算法求得的系數(shù)矩陣往往有正有負(fù),而負(fù)值往往沒有實(shí)際的意義。
近幾年,隨著神經(jīng)網(wǎng)絡(luò)的迅猛發(fā)展,深度學(xué)習(xí)在圖像處理領(lǐng)域顯示出了其強(qiáng)大的優(yōu)勢。文獻(xiàn)[21]利用深度神經(jīng)網(wǎng)絡(luò),提出了一種深度嵌入式聚類(Deep Embedded Clustering,DEC)方法,通過特征學(xué)習(xí)在低維空間中迭代優(yōu)化聚類目標(biāo)。文獻(xiàn)[22]在深度自動(dòng)編碼器的基礎(chǔ)上提出了一種無監(jiān)督的深度子空間聚類網(wǎng)絡(luò)(Deep Subspace Clustering Networks,DSC-Nets),利用自表達(dá)層來學(xué)習(xí)親和矩陣。文獻(xiàn)[23]提出了一種有監(jiān)督的深度學(xué)習(xí)方法來優(yōu)化嵌入函數(shù),降低時(shí)間復(fù)雜度。文獻(xiàn)[24]對稀疏子空間進(jìn)行深度擴(kuò)展,提出了L1范數(shù)的深度子空間聚類(Deep Subspace Clustering with L1-norm,DSC-L1)方法,可同時(shí)滿足親和矩陣的稀疏性及神經(jīng)網(wǎng)絡(luò)的非線性特點(diǎn)。上述方法都利用深度網(wǎng)絡(luò)有效降低了分類錯(cuò)誤率,體現(xiàn)出了良好的性能。然而,這些深度模型結(jié)構(gòu)復(fù)雜、參數(shù)眾多(幾百萬甚至更多的參數(shù)),算法復(fù)雜度高。為了達(dá)到算法的最佳性能,需要不停地調(diào)參,所需時(shí)間很長,且其應(yīng)用在中小規(guī)模數(shù)據(jù)集時(shí)容易產(chǎn)生過擬合,因而其往往更適合大規(guī)模數(shù)據(jù)集的數(shù)據(jù)處理。而本文提出的算法參數(shù)較少(三個(gè)參數(shù)),算法復(fù)雜度低,能比較容易地達(dá)到算法的最佳性能,實(shí)驗(yàn)結(jié)果表明,其在一些常見的數(shù)據(jù)集上可以得到較好的聚類效果。
基于以上問題,本文提出了一種基于Hessian 正則化和非負(fù)約束的低秩表示子空間聚類算法(Low-Rank Representation subspace clustering algorithm based on Hessian regularization and Non-negative constraint,LRR-HN)。在LRR-HN 中:1)考慮到系數(shù)矩陣中的負(fù)值往往沒有實(shí)際意義,將非負(fù)約束引入低秩表示的目標(biāo)函數(shù),來保證系數(shù)矩陣的有效性;2)受流形學(xué)習(xí)的影響,考慮到Hessian 正則項(xiàng)在保持?jǐn)?shù)據(jù)局部拓?fù)浣Y(jié)構(gòu)上的良好表現(xiàn)[25-26],將Hessian 正則項(xiàng)作為懲罰函數(shù)加入到目標(biāo)函數(shù),來更好地保持?jǐn)?shù)據(jù)間的局部幾何結(jié)構(gòu)。此外,通過利用自適應(yīng)懲罰的線性交替方向法,本文還設(shè)計(jì)了一種求解LRR-HN 的有效算法。在一些實(shí)際數(shù)據(jù)庫上的實(shí)驗(yàn)表明,LRR-HN 優(yōu)于現(xiàn)有的一些算法,具有更好的聚類性能。
給定一個(gè)數(shù)據(jù)矩陣X,X的N個(gè)數(shù)據(jù)點(diǎn)來自d個(gè)線性獨(dú)立子空間的并,子空間聚類的目標(biāo)是求解子空間的數(shù)目d和它們的維數(shù),并將數(shù)據(jù)點(diǎn)分割到對應(yīng)的子空間中。
LRR 算法[10]的基本思想是將數(shù)據(jù)矩陣X表示成在字典矩陣A下的線性組合。最理想的情況為數(shù)據(jù)是干凈的。最小化模型的秩函數(shù)為:
由于秩函數(shù)的優(yōu)化問題是NP-hard,很難求解。一般的處理方法是用核函數(shù)來代替秩函數(shù),最小化模型的核函數(shù)為:
對于數(shù)據(jù)點(diǎn)有噪聲的情形,加入噪聲項(xiàng)E來增加魯棒性,得到LRR 的基本模型為:
設(shè)fk是將高維數(shù)據(jù)點(diǎn)xi映射為Vki的函數(shù),即fk(xi)=Vki。設(shè)Np(xi)為數(shù)據(jù)xi的p個(gè)最近鄰數(shù)據(jù)的集合,則fk在xi處的Hessian 可近似為:
在本章中,針對LRR 算法數(shù)據(jù)局部相關(guān)性缺失及系數(shù)矩陣有正有負(fù)等問題,把非負(fù)約束和Hessian 正則項(xiàng)引入到目標(biāo)函數(shù)(1),提出了基于Hessian 正則化和非負(fù)約束的低秩表示子空間聚類算法(LRR-HN)。
一般來說,從模型中獲得的系數(shù)矩陣有正有負(fù),但在實(shí)際應(yīng)用場景中,系數(shù)矩陣中的負(fù)值可能是不合理且沒有意義的。為了使系數(shù)矩陣更加合理和有意義,本文通過Z的非負(fù)約束,即Z≥0,保證每個(gè)數(shù)據(jù)點(diǎn)都位于其鄰接點(diǎn)的凸包中,更能體現(xiàn)數(shù)據(jù)點(diǎn)之間的關(guān)聯(lián),使其在局部結(jié)構(gòu)描述上更有意義。
另外,基于流形假設(shè),即如果兩個(gè)數(shù)據(jù)點(diǎn)在數(shù)據(jù)分布的本質(zhì)幾何結(jié)構(gòu)中相近,那么這兩個(gè)數(shù)據(jù)點(diǎn)在嵌入或投影到新的空間中也相近。因此為了保持?jǐn)?shù)據(jù)局部拓?fù)浣Y(jié)構(gòu),鑒于Hessian 能的良好性能,本文把Hessian 正則項(xiàng)=tr(VTMV)作為懲罰項(xiàng)融入低秩表示的目標(biāo)函數(shù)(1)中,來更好地表達(dá)局部數(shù)據(jù)間的相關(guān)性。
將系數(shù)矩陣Z代入Hessian 正則項(xiàng),則LRR-HN 的目標(biāo)函數(shù)最終定義為:
為求解問題(2),本文采用自適應(yīng)懲罰的線性交替方向法(Linearized Alternating Direction Method with Adaptive Penalty,LADMAP)[27]求解。使用X作為字典并引入輔助變量C,將式(2)轉(zhuǎn)化為
式(3)的增廣拉格朗日函數(shù)為
其中:μ>0是懲罰參數(shù),Y1、Y2為拉格朗日乘子。
固定C,E,更新Z:
式(6)沒有閉合解。通過應(yīng)用LADMAP[27],本文將L1中的平滑部分表示為:
那么L1的最小化問題可替換為求解下列問題:
綜上所述,LRR-HN的求解算法如算法1所示。
算法1 LRR-HN的求解算法。
通過求解式(2)得到系數(shù)矩陣Z*后,本文采用文獻(xiàn)[17]的方法構(gòu)造親和矩陣,然后應(yīng)用K-means 方法得到最終的聚類結(jié)果。基于LRR-HN 的子空間聚類算法如算法2 所示。
算法2 基于LRR-HN的子空間聚類算法。
算法1 是LADMAP 的直接應(yīng)用,可收斂到式(2)的全局最優(yōu)解。有關(guān)LADMAP 的收斂證明,可詳見文獻(xiàn)[27]。
通過奇異值閾值更新Z時(shí),本文可以使用文獻(xiàn)[29]中提到的秩預(yù)測策略來預(yù)測Zk+1的秩r,然后對Z進(jìn)行奇異值分解,取前r個(gè)奇異值及對應(yīng)的向量。這使得奇異值分解的計(jì)算復(fù)雜度為O(rn2),其中n為數(shù)據(jù)矩陣X的列數(shù)。但此時(shí)算法1 的復(fù)雜度仍為O(n3),因?yàn)闃?gòu)造Zk是全尺度的矩陣乘法。采用文獻(xiàn)[27]中的Lanczos 方法,只需要Zk的縮減矩陣乘法,其中Z=Zk-?zq(Zk)/η1。這樣處理后,算法1 的迭代復(fù)雜性為O(rn2)。
3.1.1 實(shí)驗(yàn)所用的數(shù)據(jù)集
為了驗(yàn)證算法的有效性,分別在Yale 數(shù)據(jù)集和ORL 數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。Yale 數(shù)據(jù)集由耶魯大學(xué)創(chuàng)建,里面包含15 個(gè)人的165 幅灰度人臉圖像。每個(gè)人在不同的表情、姿態(tài)、光照等條件下拍攝11 張照片。本實(shí)驗(yàn)中,圖像的大小為32×32。圖1 為用于實(shí)驗(yàn)的Yale 數(shù)據(jù)集中的部分圖像。
圖1 Yale數(shù)據(jù)集中的部分圖像Fig.1 Some images in Yale dataset
ORL 數(shù)據(jù)集由劍橋大學(xué)創(chuàng)建,里面包含40 個(gè)人的面部圖像。每個(gè)人在較暗的均勻背景下拍攝10 張照片,這些照片是在不同的時(shí)間、光照、面部表情和面部細(xì)節(jié)環(huán)境下采集的。本實(shí)驗(yàn)中,圖像的大小為32×32。圖2 為用于實(shí)驗(yàn)的ORL 數(shù)據(jù)集中的部分圖像。
圖2 ORL數(shù)據(jù)集中的部分圖像Fig.2 Some images in ORL dataset
3.1.2 方法比較
實(shí)驗(yàn)中將本文算法分別與K均值(K-means)[30]、非負(fù)矩陣分解(Non-negative Matrix Factorization,NMF)[31]、主成分分析(Principal Component Analysis,PCA)[32]、歸一化切割(Normalized cut,Ncut)[33]、LRR[10]和自適 應(yīng)低秩表示(Adaptive Low-Rank Representation,ALRR)[4]等6 種具有代表性的算法進(jìn)行比較,以驗(yàn)證本文所提算法的有效性。
K-means 是一種基于距離的聚類算法。其思想是隨機(jī)選擇幾個(gè)類作為初始的聚類中心,根據(jù)每個(gè)樣本與聚類中心的距離劃分類別,更新聚類中心,重復(fù)以上過程,直到收斂為止。
NMF 是一種無監(jiān)督學(xué)習(xí)算法。NMF 算法能夠?qū)⒁粋€(gè)任意給定的非負(fù)矩陣分解為左右兩個(gè)非負(fù)矩陣的乘積,從而對數(shù)據(jù)進(jìn)行降維。本文實(shí)驗(yàn)中將原始數(shù)據(jù)應(yīng)用NMF 降維后采用K-means 進(jìn)行聚類。
PCA 是一種常用的無監(jiān)督數(shù)據(jù)降維方法。通過線性變換將原始數(shù)據(jù)變換為一組各維度線性無關(guān)的表示,可用于特征提取及噪聲去除。本文實(shí)驗(yàn)中將原始數(shù)據(jù)應(yīng)用PCA 降維后采用K-means 進(jìn)行聚類。
Ncut 是一種譜聚類方法。其通過鄰接矩陣求解特征值及特征向量,將特征向量歸一化后構(gòu)造新的矩陣,然后應(yīng)用K-means 進(jìn)行聚類。
LRR 是一種低秩表示的子空間聚類算法,通過尋找數(shù)據(jù)在自身數(shù)據(jù)字典上的低秩表示來求解親和矩陣,然后應(yīng)用Ncut 方法進(jìn)行聚類。
ALRR 是一種自適應(yīng)低秩表示算法,可用于子空間聚類。其通過自適應(yīng)字典學(xué)習(xí)策略獲取投影矩陣和低秩表示,然后將Ncut 方法應(yīng)用于親和矩陣進(jìn)行聚類。
3.1.3 評價(jià)準(zhǔn)則
為評估所提出算法的性能,本文采用正確率(ACcuracy,AC)和歸一化互信息(Normalized Mutual Information,NMI)兩種評價(jià)準(zhǔn)則[34]來對算法性能進(jìn)行定量評價(jià)。
設(shè)xi為數(shù)據(jù)樣本,gi為樣本xi的真實(shí)類別,為樣本xi聚類求出的類別,則AC 方法定義為:
其中:n為樣本總數(shù),δ(a,b)為delta 函數(shù),當(dāng)且僅當(dāng)a=b時(shí),δ(a,b)=1;否則,δ(a,b)=0。
設(shè)兩種聚類結(jié)果為D和D′,則NMI方法定義為:
其中:H(D)和H(D′)表示聚類D和D′的熵,MI(D,D′)表示D和D′的互信息。
本文算法中主要涉及3 個(gè)參數(shù),分別是平衡參數(shù)λ1、λ2和λ3。在本次實(shí)驗(yàn)中將會(huì)分析3 個(gè)參數(shù)在不同數(shù)據(jù)集中對AC 和NMI 兩個(gè)評價(jià)準(zhǔn)則的影響。本文的實(shí)驗(yàn)環(huán)境為Microsoft Windows 10,處理器為英特爾酷睿i5,內(nèi)存容量16 GB,所有算法采用Matlab 2016a 編程實(shí)現(xiàn)。
Yale數(shù)據(jù)集中包含15個(gè)人,每人11張照片。為了更好地比較不同算法上的聚類結(jié)果,分別選用前m(5、8、12、15)個(gè)類別相關(guān)數(shù)據(jù)進(jìn)行聚類。不同算法在Yale 數(shù)據(jù)集上的聚類結(jié)果如表1所示。
表1 不同算法在Yale數(shù)據(jù)集上的聚類結(jié)果 單位:%Tab.1 Clustering results of different algorithms on Yale dataset unit:%
ORL數(shù)據(jù)集中包含40個(gè)人,每人10張照片。分別選用前m(10、20、30、40)個(gè)類別相關(guān)數(shù)據(jù)進(jìn)行聚類,不同算法在ORL數(shù)據(jù)集上的聚類結(jié)果如表2所示。
表2 不同算法在ORL數(shù)據(jù)集上的聚類結(jié)果 單位:%Tab.2 Clustering results of different algorithms on ORL dataset unit:%
表1、2中的每條數(shù)據(jù)都是重復(fù)進(jìn)行20次實(shí)驗(yàn)取平均得到的。其中LRR和ALRR 算法的聚類結(jié)果是在源代碼的基礎(chǔ)上通過搜索選取最優(yōu)參數(shù)獲得的。由表1~2 中的數(shù)據(jù)可以看出,與經(jīng)典的K-means、NMF、PCA、Ncut等算法相比,LRR 算法因低秩結(jié)構(gòu)表現(xiàn)出了良好的聚類性能,AC和NMI的值遠(yuǎn)高于這些經(jīng)典算法。ALRR 算法在低秩表示基礎(chǔ)上增加了自適應(yīng)性,實(shí)驗(yàn)結(jié)果表明,ALRR 算法的聚類結(jié)果在ORL 數(shù)據(jù)集上優(yōu)于LRR 算法,在Yale 數(shù)據(jù)集上與LRR 算法不相上下。而本文提出的LRR-HN,在AC 和NMI 上均高于LRR 算法,且在大多數(shù)情況下優(yōu)于ALRR 算法。這表明Hessian 正則項(xiàng)的引入和系數(shù)矩陣的非負(fù)約束能夠更好地保持?jǐn)?shù)據(jù)的局部拓?fù)浣Y(jié)構(gòu),更能體現(xiàn)數(shù)據(jù)間的關(guān)聯(lián),從而提高算法的聚類效果。
在本文算法中,平衡參數(shù)λ1、λ2和λ3的取值對聚類結(jié)果的影響較大。為討論3 個(gè)參數(shù)對本文算法的影響,在本次實(shí)驗(yàn)中,采用固定其中兩個(gè)參數(shù),然后對另一個(gè)參數(shù)取不同的值來觀察AC 和NMI 的變化。
在Yale 數(shù)據(jù)集上,設(shè)置聚類數(shù)目為15,λ1=1,λ2=1.5,λ3=0.4。固定其余兩位參數(shù)的值,分別對λ1、λ2、λ3的不同取值進(jìn)行實(shí)驗(yàn),AC 和NMI 的變化曲線如圖3~5 所示。從圖3~5中可以看到,AC 在λ1取值為{10-3,10-2,10-1,100},λ2取值為{1.5,2,2.5,3},λ3取值為{0.005,0.01,0.05,0.1,0.5}時(shí),AC 的變化相對較小。而NMI 在λ1和λ2的取值區(qū)間中起伏較大,但最優(yōu)性能顯著,在λ3的取值區(qū)間中變化基本平穩(wěn)。
圖3 Yale數(shù)據(jù)集上不同λ1時(shí)的AC和NMI變化曲線Fig.3 Change curves of AC and NMI with different λ1 on Yale dataset
在ORL 數(shù)據(jù)集上,設(shè)置聚類數(shù)目為40,λ1=10-3,λ2=1.9,λ3=1.1。固定其余兩位參數(shù)的值,分別對λ1、λ2、λ3的不同取值進(jìn)行實(shí)驗(yàn),AC 和NMI 的變化曲線如圖6~8 所示。從圖6~8中可以看到,AC 和NMI 在λ1取值為{10-6,10-5,10-4,10-3},λ2取值為{0.5,1,1.5,2,2.5,3}時(shí),變化基本平穩(wěn),在λ3取值為{10-3,10-2,10-1,100,101}時(shí),AC 和NMI 略有起伏,但變化不大。
圖4 Yale數(shù)據(jù)集上不同λ2時(shí)的AC和NMI變化曲線Fig.4 Change curves of AC and NMI with different λ2 on Yale dataset
圖5 Yale數(shù)據(jù)集上不同λ3時(shí)的AC和NMI變化曲線Fig.5 Change curves of AC and NMI with different λ3 on Yale dataset
圖6 ORL數(shù)據(jù)集上不同λ1時(shí)的AC和NMI變化曲線Fig.6 Change curves of AC and NMI with different λ1 on ORL dataset
圖7 ORL數(shù)據(jù)集上不同λ2時(shí)的AC和NMI變化曲線Fig.7 Change curves of AC and NMI with different λ2 on ORL dataset
從圖3~8 可知,由于不同的數(shù)據(jù)集受噪聲影響程度不同,平衡參數(shù)的最優(yōu)值也不相同;但在合適的參數(shù)區(qū)間上,本文提出的LRR-HN表現(xiàn)出了較好的穩(wěn)定性。
圖8 ORL數(shù)據(jù)集上不同λ3時(shí)的AC和NMI變化曲線Fig.8 Change curves of AC and NMI with different λ3 on ORL dataset
受流形學(xué)習(xí)思想的啟發(fā),本文提出了一種基于Hessian正則化和非負(fù)約束的低秩表示子空間聚類算法。首先,該算法利用核范數(shù)來探索數(shù)據(jù)的全局結(jié)構(gòu),使得來自同一子空間的高相關(guān)數(shù)據(jù)劃分為同一類別。其次,引入了Hessian 正則項(xiàng),采用近鄰樣本對數(shù)據(jù)線性表示,來加強(qiáng)數(shù)據(jù)間的局部相關(guān)性。為了更好地表征數(shù)據(jù)的局部結(jié)構(gòu),本文利用非負(fù)約束來保證解的有效性。最后,采用自適應(yīng)懲罰的線性交替方向法求解,并在兩個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)對比,表明了所提算法的可行性。