賀艷芳,李莉杰
(河南開封科技傳媒學(xué)院 理工學(xué)院,河南 開封 475004)
聚類是機器學(xué)習(xí)中最重要的研究課題之一,其目的是在不知道樣本標(biāo)簽的情況下,將樣本分成不同的組,稱為聚類。在當(dāng)今時代,聚類技術(shù)在人工智能、數(shù)據(jù)挖掘和模式識別中占有重要的地位,通過聚類能夠進行圖像識別、數(shù)據(jù)的分類等。聚類技術(shù)屬于無監(jiān)督學(xué)習(xí),利用數(shù)據(jù)之間內(nèi)在結(jié)構(gòu)技術(shù),它是把相似的數(shù)據(jù)結(jié)構(gòu)分為一類。多視角數(shù)據(jù)的特征包含了同一個對象不同角度的信息。例如:一個網(wǎng)頁數(shù)據(jù)中有兩個視角的數(shù)據(jù)既包含網(wǎng)頁內(nèi)容又包含網(wǎng)頁鏈接信息,其中網(wǎng)頁內(nèi)容是一個視角,而網(wǎng)頁鏈接信息是另一個視角;視頻中包含音頻、圖像等特征;圖像數(shù)據(jù)中既涉及顏色直方圖特征、紋理特征等圖像特征,又設(shè)計描述該圖像內(nèi)容的文本。多視圖聚類就是將多個特征集聚成在一起進行聚類。由于這種方法解決了聚類的很多問題,所以多視圖聚類算法已被廣泛的使用和開發(fā),以獲得額外的信息,以改善最終的聚類。而在這些方法中,譜聚類方法因其定義明確的數(shù)學(xué)框架和易于實現(xiàn)而成為最流行的方法。目前常見的多視角方法可以分為以下幾種方法:(1)協(xié)同訓(xùn)練方法;(2)多核學(xué)習(xí)方法;(3)多視圖融合方法;(4)多視角子空間學(xué)習(xí)方法。協(xié)同訓(xùn)練算法在多視角算法中屬于半監(jiān)督學(xué)習(xí)方法,該算法只能解決兩個視角的問題,當(dāng)出現(xiàn)多個視角特征,用該算法會有局限性。它是通過訓(xùn)練兩個視圖中的兩個分類器,這兩個分類器進行分類,一起相互訓(xùn)練,兩個視覺之間相互學(xué)習(xí),不斷迭代,直到信息一致。多核學(xué)習(xí)方法是將不同數(shù)據(jù)用多核表示,多視角數(shù)據(jù)通過多核框架,將多特征數(shù)據(jù)映射到高維空間,在高維空間構(gòu)造組合空間,利用各個核的特征映射組合,在高維空間得到精確度更高的聚類結(jié)果。多視圖融合方法,通過構(gòu)建多視圖親和矩陣來進行聚類,一個視圖用來約束另一個視圖的相似度矩陣,通過強化不同視圖的聚類來達成一致。大多數(shù)現(xiàn)有的基于圖的聚類方法用圖結(jié)構(gòu)分離數(shù)據(jù)聚類。同時基于圖學(xué)習(xí)的方法能更好地捕獲數(shù)據(jù)空間的圖結(jié)構(gòu)。多視角子空間學(xué)習(xí)方法,學(xué)習(xí)目的從多視圖中獲得合適的子空間,這些視圖生成一致性表示。
現(xiàn)實生活中的數(shù)據(jù)往往是多角度或多領(lǐng)域的,而傳統(tǒng)的數(shù)據(jù)表示僅僅用一種數(shù)據(jù)表示,多數(shù)據(jù)的共性是有多個特征,使用多視角聚類算法能同時處理多特征數(shù)據(jù)。盡管這些多視角中的單個視角能充分完成聚類學(xué)習(xí)任務(wù),但是結(jié)合不同視角的互補信息能減少任務(wù)的復(fù)雜性。由于稀疏表示和低秩約束利用不包含噪聲的數(shù)據(jù)集且具有自表達的特性對數(shù)據(jù)點進行重建,即每個數(shù)據(jù)點能用其他樣本點的線性組合來表示。本文研究前人的稀疏表示和低秩約束多視角算法,發(fā)現(xiàn)文獻Elhamifar等人提出了使用稀疏矩陣表示的子空間聚類,該算法中的數(shù)據(jù)點和其他數(shù)據(jù)點之間是線性組合關(guān)系。文獻LIU等提出的多視角子空間聚類算法,該算法用二維數(shù)據(jù)矩陣來描述系數(shù)之間的關(guān)聯(lián)性,最終讓數(shù)據(jù)構(gòu)成的相關(guān)系數(shù)矩陣的秩達到最小。Kheirandishfard等人提出的DLRSC算法(Deep Low-Rank Subspace Clustering),該算法將低秩表示約束融入深度學(xué)習(xí)子空間聚類中,主要方法是將深度學(xué)習(xí)中的自編碼器中間的單個自表達層替換成兩個低秩自表達層,從而實現(xiàn)對自表達矩陣的低秩約束。該算法實驗表明,基于深度學(xué)習(xí)的子空間聚類模型DSC往往可以更好地挖掘出數(shù)據(jù)之間的復(fù)雜結(jié)構(gòu),用更有的表示方法表述數(shù)據(jù)間的數(shù)據(jù)結(jié)構(gòu),為了最終獲得更好的聚類效果。從以上多視角算法研究中,發(fā)現(xiàn)稀疏矩陣和低秩約束在多視角中占有重要地位。然而,主要的挑戰(zhàn)是如何集成這些信息,利用稀疏矩陣和低秩約束提供一個融合兼容所有視圖的解決方案。
構(gòu)建一個功能強大,能有效描述數(shù)據(jù)點之間內(nèi)在聯(lián)系的圖是當(dāng)前多視圖聚類算法實現(xiàn)的目標(biāo),基于圖的半監(jiān)督學(xué)習(xí)算法取得了良好的性能。當(dāng)前較為火的基于圖的構(gòu)造算法中,低秩表示(low-rank representation, LRR)它可以同時探索數(shù)據(jù)的全局結(jié)構(gòu)。因此,可以利用LRR學(xué)習(xí)到低秩系數(shù)矩陣來構(gòu)建數(shù)據(jù)的近鄰矩陣。除了傳統(tǒng)的LRR模型,還有許多先進的方法,例如最近有人提出了變體。為了有效地探索結(jié)構(gòu)信息的數(shù)據(jù),鄭等人施加局部表示系數(shù)的約束特征從而形成了局部的低秩代表約束(LRRLC)模型。
LRR中考慮一組樣本=[,,…,x]∈R,LRR的目的是將數(shù)據(jù)中的每個樣本表示為=[,,…,a]∈R,通過=,其中=[,,…,z]是一個矩陣,每個z和樣本x的系數(shù)對應(yīng)一個線性組合。因此在中每條記錄都可以看成對于的x的重構(gòu)。LRR算法能通過下面式子獲得最小秩的解優(yōu)化問題:
其中直接優(yōu)化秩函數(shù)是NP難問題,很難求出該解。因此,我們通常使用跟蹤規(guī)范(也稱為核規(guī)范)。作為最接近秩范數(shù)的凸代理,它實現(xiàn)以下目標(biāo):
其中‖·‖*是某個矩陣的奇異值之和??紤]到樣本通常是有噪聲的或者缺失數(shù)據(jù)構(gòu)成,LRR可以用一個更合理的目標(biāo)可以表示為:
子空間聚類算法被用于處理高維數(shù)據(jù),它是機器學(xué)習(xí)中常用的聚類算法,而具有高維數(shù)據(jù)特征的數(shù)據(jù)在數(shù)據(jù)結(jié)構(gòu)中較復(fù)雜。首先它將輸入的數(shù)據(jù)特征映射到子空間的低維,其次在低維空間中,利用數(shù)據(jù)特征的不同,最后在子空間中把數(shù)據(jù)進行不同的聚類劃分。從上面可以看出,基于子空間的聚類算法能把輸入到不同子空間的數(shù)據(jù)融合在一起,子空間中聚類能夠計算出子空間聚類的數(shù)目、數(shù)據(jù)的維度和每個子空間對應(yīng)的基。由于子空間在處理高維度數(shù)據(jù)具有一定的優(yōu)勢,子空間被廣泛用于圖像的處理。
給定數(shù)據(jù)矩陣∈R,子空間自表示特性可以表示為=,其中,為自表示系數(shù)矩陣,通過使用最小化矩陣的范數(shù),求出的最優(yōu)解,該解具有對角結(jié)構(gòu)。求解過程可以由下列式子表示:
其中,‖·‖表示矩陣的范數(shù),不同算法使用的范數(shù)不同,如在稀疏子空間聚類(SSC)算法應(yīng)該采用范數(shù)。
基于子空間聚類算法,該文獻[9]提出的算法是通過學(xué)習(xí)一個低秩核的映射,該核函數(shù)將數(shù)據(jù)從低維度空間映射到高維空間,在高維特征空間中具有線性子空間的結(jié)構(gòu)。當(dāng)高維特征子空間呈現(xiàn)線性結(jié)構(gòu)時,數(shù)據(jù)對應(yīng)的核函數(shù)()是低秩的。映射到高維特征線性子空間上,優(yōu)化目標(biāo)函數(shù)可以表示為:
其中:=(,)=()()表示未知的核Gram矩陣;是一個平衡參數(shù)。在這里,最優(yōu)化‖()‖使得()是低秩的??梢詫⑹剑?)轉(zhuǎn)為以下形式:
上述式(5)優(yōu)化需要解決‖()‖的問題,因為上述式子過于依賴()。通過使用LEE等人提出的重參數(shù),解決上述的最小的解。因為核矩陣是對稱半正定矩陣,故可以把它分解成=,同時在該式子中,是一個方陣。可以得到以下式子:
利用‖‖來代替‖()‖,則目標(biāo)函數(shù)表示為:
其中:()()=,在該式子中,假設(shè)數(shù)據(jù)點在離線性子空間距離很近,因此可以使用比較簡單的核函數(shù)去定義。本算法的主要通過學(xué)習(xí)一個核矩陣=來解決問題。
深度學(xué)習(xí)是當(dāng)前學(xué)者研究的熱點內(nèi)容,它是以神經(jīng)網(wǎng)絡(luò)為基礎(chǔ),在對深層神經(jīng)網(wǎng)絡(luò)訓(xùn)練時,需要大量的數(shù)據(jù)和計算能力,當(dāng)前研究者主要研究卷積層的深度學(xué)習(xí)框架。主要的深度學(xué)習(xí)框架有AWS亞馬遜MXNet,谷歌的Tensorflow,F(xiàn)acebook的PyTorch等,上述的框架都是利用稠密矩陣乘法實現(xiàn)卷積計算。
將深度學(xué)習(xí)引入到多視角模型中,可以使用合適的自表達關(guān)系。深度學(xué)習(xí)在算法中能更深層次挖掘數(shù)據(jù)之間的關(guān)系。通過挖掘出比較好的數(shù)據(jù)自表達方式,提高聚類性能。
為了向自表達矩陣中添加低秩表示約束,通常是直接在目標(biāo)函數(shù)中增加自表達矩陣的核范數(shù)正則化‖‖。但是在反向傳播算法中,這種方法不適用。因為難以計算出核范數(shù)約束的梯度,讓這一方法變得困難。為了解決這個問題,通過在該文在提出的DMSC算法中添加秩約束rank()≤來解決??梢杂梢韵率阶咏鉀Q:
針對當(dāng)前基于K-means的多視角模糊聚類算法研究中存在的問題,文獻[13]提出的一種基于低秩約束的熵加權(quán)多視角模糊聚類新方法。它主要通過向多視角模糊聚類算法的目標(biāo)學(xué)習(xí)準(zhǔn)則中引入低秩約束項,在整體上控制聚類過程中各視角的一致性;另一方面由于所有視圖都被平等對待,在這些方法中沒有考慮每個視圖的差異基于香農(nóng)熵理論,通過熵加權(quán)機制來控制各視角之間的差異性。
設(shè)多視角隸屬度,…,,融合成為一個隸屬度矩陣,將矩陣的秩函數(shù)凸松弛為核函數(shù),在矩陣中進行低秩約束,可以將多視角數(shù)據(jù)之間的一致性問題轉(zhuǎn)為核范數(shù)最小問題進行求解,具體定義為:
其中約束條件為:
以上算法是在k-means算法的基礎(chǔ)上進行研究,該算法的優(yōu)點對噪音跟離群點比較敏感。由于在高維數(shù)據(jù)的情況下,數(shù)據(jù)點的距離相近,使用歐式距離無法測量數(shù)據(jù)點的關(guān)系,故該算法也不能解決高維數(shù)據(jù)的問題。雖然利用低秩約束的子空間聚類能夠解決高維數(shù)據(jù)的問題,但是利用K-means算法的多視角聚類在結(jié)構(gòu)上具有一定的優(yōu)勢,它能夠構(gòu)建多視角的隱式結(jié)構(gòu),能夠充分利用多視角數(shù)據(jù)的互補性,同時在K-means算法的基礎(chǔ)上利用低秩約束和稀疏約束算法,能解決解決數(shù)據(jù)的局部結(jié)構(gòu)和稀疏結(jié)構(gòu)問題。
在將來的工作中,我們會將低秩約束融入多視圖聚類算法中,融合多視圖不同的相似矩陣,同時會研究由于多視角數(shù)據(jù)集在收集過程中導(dǎo)致數(shù)據(jù)的丟失即不完備數(shù)據(jù),設(shè)計新的算法處理不完備數(shù)據(jù)。同時針對大數(shù)據(jù),進一步研究在大數(shù)據(jù)背景下,多視角聚類的算法。