99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

<nav id="iii0i"></nav>

<noscript id="iii0i"><dd id="iii0i"></dd></noscript>

<nav id="iii0i"><sup id="iii0i"></sup></nav>

?

基于深度自編碼的多視圖子空間聚類網(wǎng)絡(luò)

2020-09-04 03:15:44仲兆滿李存華

計(jì)算機(jī)工程與應(yīng)用 2020年17期

關(guān)鍵詞：視圖編碼器準(zhǔn)確率

郭圣，仲兆滿，李存華

1.中國礦業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院，江蘇徐州 221000

2.江蘇海洋大學(xué) 計(jì)算機(jī)工程學(xué)院，江蘇連云港 222005

1 引言

子空間聚類是機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺和模式識(shí)別的基礎(chǔ)課題之一，例如圖像表示、人臉聚類和運(yùn)動(dòng)分割[1-2]。子空間聚類的重要性在大量文獻(xiàn)中得以體現(xiàn)，因?yàn)樗峭ㄟ^數(shù)據(jù)分析從子空間推斷數(shù)據(jù)結(jié)構(gòu)信息的關(guān)鍵步驟[3]。子空間聚類的目的是將從多個(gè)低維子空間中提取的數(shù)據(jù)點(diǎn)分割成不同的聚類。

在現(xiàn)實(shí)的應(yīng)用中，樣本中的數(shù)據(jù)通常都是高維的[4]，因此許多聚類技術(shù)也面臨維度災(zāi)難的挑戰(zhàn)，為了充分處理這些高維的樣本數(shù)據(jù)，一個(gè)合理的方法是檢測并使用這些樣本的底層子空間結(jié)構(gòu)。大量研究表明，這些高維數(shù)據(jù)的內(nèi)在維度通常遠(yuǎn)小于實(shí)際維度[5]。因此，子空間聚類技術(shù)近年來受到了廣泛的關(guān)注。近年來提出了許多子空間聚類方法，例如稀疏子空間聚類（SSC）[2]、低秩表示（LRR）[1]。為了提高原始SSC 或基于LRR 的方法的魯棒性和表示能力，研究者們還提出許多改進(jìn)方法，例如結(jié)構(gòu)化稀疏子空間聚類（S3C）[6]、圖正則化低秩表示（LRRGR）[7]和潛在低秩表示（LLRR）[8]等子空間聚類方法。S3C 將每個(gè)數(shù)據(jù)點(diǎn)表達(dá)為所有其他數(shù)據(jù)點(diǎn)的結(jié)構(gòu)化稀疏線性組合，并同時(shí)學(xué)習(xí)相似性和分割性。LRRGR和LLRR利用流行正則化項(xiàng)來保留數(shù)據(jù)的局部幾何結(jié)構(gòu)，提高原始模型的表示能力和子空間分割精度。雖然在單視圖數(shù)據(jù)（由一個(gè)視圖組成的數(shù)據(jù)）上這些子空間聚類方法取得了較好的性能，但這些方法具有以下限制。首先一個(gè)挑戰(zhàn)性的問題是這些方法采用線性假設(shè)，基于這種情況利用凸方法可以很好地解決子空間聚類問題，但是在現(xiàn)實(shí)中，數(shù)據(jù)之間的關(guān)系通常是高度非線性的，上述方法可能會(huì)降低聚類性能。其次隨著如今對(duì)數(shù)據(jù)信息化的要求越來越高，特定信息和通用信息在數(shù)據(jù)中共存，僅從單一視圖描述數(shù)據(jù)已無法得到預(yù)期效果。

在當(dāng)今數(shù)據(jù)爆炸時(shí)代，通常獲得的數(shù)據(jù)具有多個(gè)視角（對(duì)事物不同的特征描述），即多視圖數(shù)據(jù)。相比單視圖數(shù)據(jù)，從多視圖數(shù)據(jù)中可獲得豐富的信息。因此多視圖數(shù)據(jù)的子空間聚類問題成為學(xué)者們的研究重點(diǎn)。對(duì)于多視圖數(shù)據(jù)子空間聚類來說需要利用來自多個(gè)不同數(shù)據(jù)特征中所挖掘的綜合信息，即互補(bǔ)性和一致性，如圖1 所示。最近，Cao 等人提出多樣性誘導(dǎo)的多視圖子空間聚類（DIMSC）[9]。此方法從不同的角度探索不同視圖的互補(bǔ)信息，利用希爾伯特-施密特獨(dú)立準(zhǔn)則（HSIC）從不同的角度學(xué)習(xí)不同的子空間，可以解決數(shù)據(jù)相對(duì)復(fù)雜的依賴性。然而使用HSIC 的缺點(diǎn)是HSIC是一個(gè)值感知標(biāo)準(zhǔn)，由于規(guī)模問題值感知正則化可能會(huì)降低了其性能，而且DIMSC 在兩個(gè)分離的階段中執(zhí)行子空間學(xué)習(xí)和譜聚類，不能充分地保留公共聚類結(jié)構(gòu)。Wang 等人為了克服上述缺點(diǎn)提出了排他性-一致性正則化多視圖子空間聚類（ECMSC）[10]，在此方法中使用位置感知準(zhǔn)則處理元素值大小，并將兩個(gè)分離的步驟（即子空間學(xué)習(xí)和譜聚類）合并到一個(gè)優(yōu)化框架中，利用補(bǔ)充信息的排他性和一個(gè)指示器的一致性來統(tǒng)一處理子空間聚類，但是此方法構(gòu)建的相似性信息量較少而且也缺乏利用不同視圖之間的多樣性，無法揭示不同視圖的子空間結(jié)構(gòu)。Gao 等人為了確保不同視圖之間的一致性提出了多視圖子空間聚類（MVSC）[11]，這種方法對(duì)每個(gè)視圖執(zhí)行子空間聚類，采用了一個(gè)共同的指標(biāo)來保證共同的集群結(jié)構(gòu)，強(qiáng)制使不同視圖中的點(diǎn)被分類到同一集群中。但是這個(gè)算法忽略了每個(gè)視圖的局部結(jié)構(gòu)，僅僅拼接多視圖數(shù)據(jù)中的特征并執(zhí)行子空間聚類，無法利用數(shù)據(jù)的內(nèi)在特征。樸素多視圖子空間聚類（NaMSC）方法首先使用Hu等人提出的平滑表示聚類（SMR）[12]從每個(gè)視圖中學(xué)習(xí)子空間表示，然后將譜聚類應(yīng)用到學(xué)習(xí)表示的框架中，NaMSC 僅直接組合多視圖表示并獨(dú)立地學(xué)習(xí)每個(gè)子空間表示，因此無法保證不同視圖的互補(bǔ)性。這些方法雖然取得了不錯(cuò)的聚類結(jié)果，但還是存在上述問題。目前多視圖聚類方法大部分基于淺層聚類模型，因此對(duì)于復(fù)雜數(shù)據(jù)結(jié)構(gòu)很難學(xué)習(xí)魯棒表示。

圖1 多視圖學(xué)習(xí)示意圖

在深度學(xué)習(xí)領(lǐng)域中，自編碼器作為另一種流行的復(fù)雜數(shù)據(jù)表示方法，引起了研究者們的關(guān)注。Hinton等將自編碼器作為一種降維方法使用在深度定向網(wǎng)絡(luò)中，改善了數(shù)據(jù)局部極小的問題[13]。Vincent P 等將自編碼器應(yīng)用于圖像的降噪[14]，能夠強(qiáng)迫網(wǎng)絡(luò)學(xué)習(xí)到更加魯棒的不變性特征，并獲得較好的結(jié)果。Krizhevsky用自編碼器編碼圖像，在目標(biāo)分類問題上取得了巨大的成功[15]。自編碼器在其優(yōu)化發(fā)展過程中，被廣泛應(yīng)用到模式識(shí)別、自然語言處理、圖像分類和聚類以及其他領(lǐng)域[16]。為了提高多視圖復(fù)雜數(shù)據(jù)子空間聚類算法的學(xué)習(xí)效率，本文將子空間學(xué)習(xí)引入到深度自編碼模型中，提出一種基于深度自編碼的多視圖子空間聚類網(wǎng)絡(luò)（DMSCN），該網(wǎng)絡(luò)能夠表示多視圖數(shù)據(jù)中非線性結(jié)構(gòu)，且有效地從多視圖中提取多層子空間。在模型中利用加權(quán)稀疏表示，并保證數(shù)據(jù)的局部性，進(jìn)而提高了學(xué)習(xí)效率。最后實(shí)驗(yàn)表明，在常用的多視圖數(shù)據(jù)集上，提出的模型優(yōu)于其他先進(jìn)的多視圖子空間聚類模型。

2 深度子空間聚類網(wǎng)絡(luò)

2.1 淺層自編碼器模型

自編碼器是一種無監(jiān)督的數(shù)據(jù)維度壓縮和數(shù)據(jù)特征表達(dá)方法[16]。在自編碼器中，通過不斷訓(xùn)練網(wǎng)絡(luò)中的參數(shù)，就可以將網(wǎng)絡(luò)中的權(quán)重初始化到一個(gè)比較好的位置，經(jīng)過這樣的多重訓(xùn)練可以得到信息的多重表示方式。一般自編碼器的結(jié)構(gòu)如圖2所示，自編碼器的目標(biāo)函數(shù)（1）如下所示：

自編碼器分為淺層自編碼器和深層自編碼器，淺層自編碼器分別有一層編碼器和解碼器，深層自編碼器則有多層編碼器和解碼器。以淺層自編碼器為例：

（1）編碼器部分，其實(shí)現(xiàn)了數(shù)據(jù)的壓縮，對(duì)于輸入X：

圖2 淺自編碼器網(wǎng)絡(luò)結(jié)構(gòu)

其中，W1是連接輸入層到中間隱層的權(quán)重矩陣，p1是編碼器的偏置向量。sJ(?)為輸入層和中間隱層之間的激活函數(shù)，一般選取為sigmoid函數(shù)，即。

（2）通過解碼器部分將編碼h映射到原始數(shù)據(jù)維度上，即對(duì)數(shù)據(jù)的復(fù)現(xiàn)：

其中，W2是中間隱層到輸出層的權(quán)重矩陣，p2是解碼器的偏置向量，g(?)為解碼器激活函數(shù)。通常選取為sigmoid函數(shù)或恒等函數(shù)，恒等函數(shù)即g(x)=x。

從式（2）和式（3）可以看出，自編碼器每一層的訓(xùn)練都是獨(dú)立的，通過嘗試重建前一層中的表示來捕獲更抽象的特征。在訓(xùn)練過程中尋找參數(shù)集，重構(gòu)輸入數(shù)據(jù)，使得輸出層輸出的數(shù)據(jù)與輸入層輸入的數(shù)據(jù)盡可能接近，即輸出數(shù)據(jù)與輸入數(shù)據(jù)的誤差盡可能小。這里損失函數(shù)可以有兩種形式，（1）平方誤差損失函數(shù)，即式（4）。（2）交叉熵（cross-entropy）損失函數(shù)，即式（5）。

在訓(xùn)練中，通過優(yōu)化平滑函數(shù)（通常是歐幾里德范數(shù)）來學(xué)習(xí)編碼器和解碼器，結(jié)合式（2）到式（5）可得目標(biāo)損失函數(shù)為：

其中，LS項(xiàng)中Lζ表示交叉熵?fù)p失函數(shù)LCE或是平方誤差損失函數(shù)LMSE。另外ng表示神經(jīng)網(wǎng)絡(luò)的層數(shù)，sg和sg+1分別表示第g層和第g+1 層的元素?cái)?shù)目，λ為權(quán)衡參數(shù)。

2.2 深度子空間聚類網(wǎng)絡(luò)模型

前面著重介紹了淺層自編碼器模型，在本節(jié)中將進(jìn)一步介紹加入重建關(guān)系的自編碼器——深度自編碼器網(wǎng)絡(luò)模型。在流形學(xué)習(xí)中，假設(shè)某些屬性對(duì)不同的投影空間是不變的，因此可以通過將輸入空間中的特定屬性保留到另一個(gè)空間來學(xué)習(xí)表示。這種表示是尋求不變性，在文獻(xiàn)[17-18]中已表明其有效性：假設(shè)數(shù)據(jù)由N個(gè)實(shí)值向量Si組成，每一個(gè)維度都是從某些潛在的流形中采樣。若有足夠的數(shù)據(jù)，則期望每個(gè)數(shù)據(jù)點(diǎn)及其鄰近點(diǎn)位于或接近流形的局部線性塊上，可以用線性系數(shù)從相鄰的數(shù)據(jù)點(diǎn)重建每個(gè)數(shù)據(jù)點(diǎn)，進(jìn)行描述這些塊的局部幾何特征。這里重建誤差用損失函數(shù)（7）來衡量：

其中，權(quán)重Wij表示第j個(gè)數(shù)據(jù)點(diǎn)對(duì)第i個(gè)數(shù)據(jù)點(diǎn)重建的貢獻(xiàn)。使重建誤差最小化的約束權(quán)重遵循一個(gè)重要的對(duì)稱性：對(duì)于任何特定的數(shù)據(jù)點(diǎn)，它們對(duì)該數(shù)據(jù)點(diǎn)及其相鄰點(diǎn)的旋轉(zhuǎn)、重定線和轉(zhuǎn)換都是不變的。在本文中重建關(guān)系可以認(rèn)為是不變性的類型。這種關(guān)系可以保證數(shù)據(jù)的全局結(jié)構(gòu)，此網(wǎng)絡(luò)中引入一種已證明在傳統(tǒng)子空間聚類中有效的自我表示特性。通過這種方式可以學(xué)習(xí)所有數(shù)據(jù)點(diǎn)之間的成對(duì)相似性，并產(chǎn)生樣本親和度矩陣和子空間聚類結(jié)果。

其中，||·||F表示Frobenius范數(shù)，λ為權(quán)衡參數(shù)。因此可以利用C來構(gòu)建用于譜聚類的親和度矩陣。

在大多數(shù)現(xiàn)有的子空間聚類方法中，每個(gè)樣本都被編碼為整個(gè)數(shù)據(jù)集的線性組合。與線性子空間聚類模型不同，深度子空間聚類網(wǎng)絡(luò)可以學(xué)習(xí)多個(gè)非線性變換將樣本輸入映射到另一個(gè)子空間中，從而可以將獲得的低維表示與非線性表示相結(jié)合，同時(shí)適應(yīng)局部和全局子空間結(jié)構(gòu)。特別是該網(wǎng)絡(luò)以最小的重建誤差來學(xué)習(xí)輸入數(shù)據(jù)的表示，確保數(shù)據(jù)的固有局部性結(jié)構(gòu)。深度子空間聚類網(wǎng)絡(luò)模型構(gòu)建如下[19]：

其中，R(S)表示編碼器的輸出，||R(S)-R(S)C||表示自我表示項(xiàng)，?表示由自編碼器輸出的數(shù)據(jù)。在此網(wǎng)絡(luò)中將每個(gè)數(shù)據(jù)點(diǎn)作為網(wǎng)絡(luò)中的一個(gè)節(jié)點(diǎn)，并將每一個(gè)數(shù)據(jù)點(diǎn)通過權(quán)重與其他點(diǎn)的加權(quán)線性組合來近似計(jì)算，可以通過一個(gè)線性全連接層來表示自我表示項(xiàng)。相比于傳統(tǒng)的自編碼器，深度子空間聚類網(wǎng)絡(luò)模型不僅適用于無監(jiān)督子空間聚類，可將輸入的數(shù)據(jù)非線性映射到潛在空間，在模型中引入傳統(tǒng)子空間聚類中自我表示特性，表明其關(guān)系對(duì)于不同的特征空間是不變的，進(jìn)一步揭示數(shù)據(jù)的相關(guān)性；而且該網(wǎng)絡(luò)從深度學(xué)習(xí)模型的不同層收集視圖的補(bǔ)充信息，使得它能恢復(fù)更準(zhǔn)確和穩(wěn)定的聚類結(jié)構(gòu)，以獲得更好的聚類結(jié)果。

該網(wǎng)絡(luò)算法主要描述為如下過程：

（1）如式（2），X作為輸入數(shù)據(jù)進(jìn)行前向反饋運(yùn)算，根據(jù)式（3）得到輸出Y。

（2）根據(jù)式（9）得到函數(shù)損失值。

（3）進(jìn)行后向反饋運(yùn)算，利用隨機(jī)子梯度下降法算法優(yōu)化損失函數(shù)。

（4）重復(fù)步驟（1）到（4），直至損失函數(shù)收斂。通過上述算法步驟可以得出自表示系數(shù)矩陣。

3 深度自編碼器的多視圖子空間聚類網(wǎng)絡(luò)模型

3.1 問題設(shè)置

首先，解釋以下一些符號(hào)表達(dá)。B表示矩陣，b表示向量，tr(B)表示矩陣B的跡，BT表示矩陣B的轉(zhuǎn)置矩陣，(B)ij表示矩陣B中第i行j列的元素，bj表示矩陣的第j列向量。

現(xiàn)實(shí)中的數(shù)據(jù)通常為多視圖非線性數(shù)據(jù)。若采用傳統(tǒng)線性聚類方法針對(duì)這類數(shù)據(jù)進(jìn)行聚類，既不能有效表示數(shù)據(jù)非線性結(jié)構(gòu)又不能充分利用多個(gè)視圖信息，從而導(dǎo)致聚類效果往往不夠理想。雖然深度子空間聚類網(wǎng)絡(luò)能夠表示數(shù)據(jù)中非線性結(jié)構(gòu)，但是該網(wǎng)絡(luò)不能保證所學(xué)習(xí)的矩陣具有一致性和原始數(shù)據(jù)的相似性信息，導(dǎo)致性能不佳。為了解決上述問題，本文提出一種基于深度自編碼的多視圖子空間聚類網(wǎng)絡(luò)（DMSCN）。

3.2 深度自編碼的多視圖子空間聚類網(wǎng)絡(luò)

在本節(jié)中將詳細(xì)介紹基于深度自編碼的多視圖子空間聚類網(wǎng)絡(luò)（DMSCN）。圖3 說明了DMSCN 的基本思想，具體說明為：（1）DMSCN是一種多層非線性網(wǎng)絡(luò)模型，具有捕獲數(shù)據(jù)非線性的能力。（2）DMSCN通過自表達(dá)層H(N2)提取數(shù)據(jù)中的特性進(jìn)行編碼，保證了數(shù)據(jù)的全局性。（3）在DMSCN中利用加權(quán)稀疏表示，保證數(shù)據(jù)的局部性，從而實(shí)現(xiàn)更高效和準(zhǔn)確的數(shù)據(jù)表示。（4）模型中低維共識(shí)子空間能聚合來自所有子空間的聚類信息。圖3 中We,Wd分別表示編碼層和解碼層的權(quán)重矩陣。

在DMSCN 中為了執(zhí)行每一個(gè)視圖的N個(gè)非線性變換，對(duì)每一個(gè)視圖采用N+1 層的神經(jīng)網(wǎng)絡(luò)，其中每個(gè)第一層表示數(shù)據(jù)的輸入。第一個(gè)N2 隱藏層作為編碼器的輸出用于學(xué)習(xí)緊湊表示，最后一個(gè)N2 層作為編碼器的輸入保證數(shù)據(jù)的全局性。此外說明一下符號(hào)表示，如表示數(shù)據(jù)集中第v個(gè)視圖中輸入的一個(gè)數(shù)據(jù)點(diǎn)，以及式（10）中表示第v個(gè)視圖的第n層的輸出。

圖3 DMSCN結(jié)構(gòu)體系

其中，索引層數(shù)表示為n=1,2,…,N。dnv表示第v個(gè)視圖相應(yīng)層的神經(jīng)元數(shù)，σ(· )表示使用的激活函數(shù)。

為了保證數(shù)據(jù)全局結(jié)構(gòu)，如2.2 節(jié)所述在網(wǎng)絡(luò)的編碼層和解碼層之間引入自表示層，通過學(xué)習(xí)低秩子空間表示來進(jìn)一步增強(qiáng)聚類結(jié)構(gòu)：

J1中Cv和分別表示第v個(gè)視圖的子空間表示和自表示層，N一般為偶數(shù)。非負(fù)約束Cv≥0 是為了約束其解。通過自表示學(xué)習(xí)，Cv中的每個(gè)元素都反映兩個(gè)樣本之間的相似性。為了確保Cv的塊對(duì)角線屬性，采用核范數(shù)進(jìn)行約束，這樣可以有效地增強(qiáng)數(shù)據(jù)相關(guān)性并揭示不同視圖中固有的低秩聚類結(jié)構(gòu)。

在大多數(shù)子空間聚類中，數(shù)據(jù)的局部結(jié)構(gòu)很容易被忽略。近年來許多研究[20-21]表明數(shù)據(jù)局部結(jié)構(gòu)的重要性，雖然一部分方法使用L1 范數(shù)的稀疏約束自適應(yīng)地選取少量樣本進(jìn)行數(shù)據(jù)表示，但由于稀疏性并不一定保證了局部性，也不能捕捉到數(shù)據(jù)固有的局部性結(jié)構(gòu)。為了保證數(shù)據(jù)局部性，在模型中引入一個(gè)距離約束。另外考慮到視圖之間互補(bǔ)性和多樣性，建議學(xué)習(xí)低維共識(shí)子空間F∈?n×s，它可以在不同視圖中交替學(xué)習(xí)視圖的特征：J2中[χ1,χ2,…,χn]∈ ?m×n表示每個(gè)視圖中包含n個(gè)樣本的數(shù)據(jù)矩陣，其中每個(gè)樣本表示為一個(gè)列向量。正交約束FTF=I避免平凡解，tr(· )表示矩陣的跡操作。

通過組合上述問題形成整體目標(biāo)函數(shù)。對(duì)于多視圖子空間聚類建議最小化以下目標(biāo)函數(shù)：

其中，參數(shù)λ1,λ2為權(quán)衡參數(shù)。求解式（14）可以通過不同視圖的低秩子空間來學(xué)習(xí)共識(shí)子空間F，然后將共識(shí)子空間作為新的數(shù)據(jù)表示，然后對(duì)其進(jìn)行聚類分析，得到多視圖子空間聚類結(jié)果。

4 優(yōu)化

在本章中，使用隨機(jī)子梯度下降法算法來優(yōu)化深度自編碼的多視圖子空間聚類網(wǎng)絡(luò)。在每次迭代中，固定其他變量只更新一個(gè)變量。重寫式（14）為下面形式：

首先根據(jù)式（10）中對(duì)的定義，使用反向傳播算法更新W(n)和b(n)。

（1）更新Wn和bn

其中，⊙ 叫作 Hadamard 積，σ′(· )表示σ(· )的導(dǎo)數(shù)，使用隨機(jī)子梯度下降法算法，Wn和bn更新（其中學(xué)習(xí)率ε=10-3）如下：

然后從式（15）保留其余變量，以及為了使其可分離進(jìn)行優(yōu)化引入輔助變量P，得到以下問題：

（2）更新civ

式（21）的增廣拉格朗日函數(shù)是：

式（22）采用交替最小化方法解決所有變量，設(shè)置偏導(dǎo)數(shù)?L(civ,Y1,Y2)?(civ)=0 解決civ并獲得：

其中，G=Y1+D1,U=Y2+D2以及I是單位矩陣。為了解決Y1，設(shè) ?L(civ,Y1,Y2)?(Y1)=0 并獲得：

使用Θτ(X)=UΔτVT，即奇異值閾值算子解決式（25），更新Y2：

（3）更新P

（4）更新F

其中，(LC)v是C第v個(gè)視圖的拉普拉斯矩陣。式（30）可以通過特征值分解進(jìn)行求解，其解是LC的最小s個(gè)特征值對(duì)應(yīng)的特征向量集。

算法1深度多視圖子空間聚類網(wǎng)絡(luò)

算法1總結(jié)了模型的優(yōu)化過程。在本文的實(shí)現(xiàn)中，使用σ(·)=tanh(· )作為激活函數(shù)并采用預(yù)訓(xùn)練的方式進(jìn)行算法優(yōu)化。先通過預(yù)訓(xùn)練較淺的自編碼器網(wǎng)絡(luò)，然后使用預(yù)訓(xùn)練的權(quán)重來初始化更深的網(wǎng)絡(luò)。必須要指出的是，本文工作側(cè)重于子空間聚類。

算法2更新輔助變量和拉格朗日乘子

5 實(shí)驗(yàn)

首先，描述了實(shí)驗(yàn)設(shè)置，包括評(píng)估指標(biāo)和比較方法。第二，實(shí)驗(yàn)分析，包括數(shù)據(jù)集介紹，以及參數(shù)設(shè)置和網(wǎng)絡(luò)層結(jié)構(gòu)對(duì)深度自編碼多視圖子空間聚類網(wǎng)絡(luò)（DMSCN）的影響。

5.1 實(shí)驗(yàn)設(shè)置

在實(shí)驗(yàn)中為了公平，所有方法的參數(shù)都選取能使聚類結(jié)果達(dá)到最好的值，并且對(duì)每個(gè)數(shù)據(jù)集都進(jìn)行10 次實(shí)驗(yàn)，結(jié)果取其平均值。使用兩個(gè)指標(biāo)來衡量聚類效果，一種為準(zhǔn)確率（ACC）來評(píng)判所有方法的聚類性能，正確率：ACC=Naccuracy／Ntotal。其中Naccuracy表示正確樣本數(shù)量，Ntotal表示樣本總數(shù)。另一種為標(biāo)準(zhǔn)化互信息（NMI），其定義如下：

其中，表示樣本中的第l類。np表示集群Cp的樣本數(shù)目，np,l表示第l類和集群Cp交集的樣本數(shù)目?？梢钥闯鯪MI 的取值范圍是從0 到1，NMI 數(shù)值越大表示兩個(gè)集群的相似度越大。將本文方法與五種先進(jìn)的多視圖聚類方法進(jìn)行比較，如 DiMSC[9]、ECMSC[10]、MVSC[11]、NaMSC、SWMC[22]。

5.2 實(shí)驗(yàn)分析

5.2.1 數(shù)據(jù)集

對(duì)三個(gè)廣泛使用的數(shù)據(jù)集如3-Sources 數(shù)據(jù)、Cornell 數(shù)據(jù)集、Numerals 數(shù)據(jù)集，進(jìn)行深度自編碼的多視圖子空間聚類網(wǎng)絡(luò)的實(shí)驗(yàn)評(píng)估。本文的所有實(shí)驗(yàn)均在Matlab R2014a 編寫運(yùn)行，運(yùn)行計(jì)算機(jī)處理器是1.80 GHz Intel CoreTMi5-3337U，內(nèi)存為8 GB。

（1）3-Sources數(shù)據(jù)集（http：//mlg.ucd.ie/datasets/3sources.html）。Sources中收集三個(gè)著名的在線新聞源，如BBC（英國廣播公司）、Reuters（路透社）、The Guardian（衛(wèi)報(bào)）。這個(gè)數(shù)據(jù)集總共收集了948篇新聞文章。

（2）Cornell 數(shù)據(jù)集（http://www.cs.cmu.edu/afs/cs/project/theo-20/www/data/）。Cornell是網(wǎng)頁數(shù)據(jù)集WebKB的其中一個(gè)子集。其中的每個(gè)數(shù)據(jù)點(diǎn)都由2個(gè)視圖：內(nèi)容和引用來描述。

（3）Numerals 數(shù)據(jù)集（http：//archive.ics.uci.edu/ml/datasets/Multiple+Features）。 Handwritten Numerals 是來自伊利諾斯大學(xué)的手寫數(shù)字?jǐn)?shù)據(jù)集，這個(gè)數(shù)據(jù)集包含2 000 個(gè)對(duì)應(yīng)于數(shù)字?jǐn)?shù)據(jù)點(diǎn)，這些數(shù)字由0 到9 組成，共10類。這三個(gè)數(shù)據(jù)集的基本數(shù)據(jù)特征總結(jié)在表1中。

表1 多視圖數(shù)據(jù)集的基本數(shù)據(jù)特征

5.2.2 參數(shù)設(shè)置

在DMSCN 中有控制參數(shù)λ1、λ2以及懲罰參數(shù)μ，為了驗(yàn)證參數(shù)對(duì)目標(biāo)函數(shù)值準(zhǔn)確性的影響，使用準(zhǔn)確率作為度量，根據(jù)不同的數(shù)據(jù)集對(duì)參數(shù)λ1、λ2和μ進(jìn)行調(diào)整，以觀察參數(shù)值對(duì)準(zhǔn)確率的影響。在實(shí)驗(yàn)中，使λ1取值圍為{0.01,0.1,1,10,100} ，對(duì)于λ2不同數(shù)據(jù)集取值不同，以及其中懲罰參數(shù)μ=λ2λ1。對(duì)于不同的參數(shù)，各數(shù)據(jù)集算法準(zhǔn)確率如圖4所示。

從圖4 中可以看到，算法在參數(shù)λ1、λ2、μ取不同值得到不同的聚類準(zhǔn)確率。因此調(diào)整參數(shù)λ1、λ2、μ，能得到更好的選擇結(jié)果。可見在3-Sources 數(shù)據(jù)集中λ1=1.0,λ2=10.0,μ=10.0。DMSCN的聚類誤差相對(duì)較小。對(duì)于 Cornell 數(shù)據(jù)集λ1=0.1 ，λ2=0.2 ，μ=2.0 ，DMSCN 的聚類精度最高。在Numerals 數(shù)據(jù)集中λ1=0.1,λ2=30,μ=300，DMSCN的聚類效果最好。

5.2.3 層結(jié)構(gòu)

為聚類網(wǎng)絡(luò)嘗試了不同的體系結(jié)構(gòu)，例如，不同的網(wǎng)絡(luò)層數(shù)和神經(jīng)元數(shù)量，但當(dāng)增加這些值時(shí)，雖然增加了網(wǎng)絡(luò)的表示能力，但是它也增加了網(wǎng)絡(luò)參數(shù)的數(shù)量。

為了研究深度自編碼的多視圖子空間聚類網(wǎng)絡(luò)（DMSCN）聚類性能是如何隨著層的大小和神經(jīng)元的數(shù)量而變化，構(gòu)建了一層到四層模型，其中一層模型即包含一層編碼器和一層解碼器，二層模型即包含二層編碼器和二層解碼器，以此類推。每個(gè)模型中又含有一個(gè)自表達(dá)層。神經(jīng)元的數(shù)量在每一個(gè)模型中每層步長分別增加20，50，100，150。

不同層結(jié)構(gòu)對(duì)于模型的聚類結(jié)果影響如圖5所示，從圖5 中可以看出，在3-Sources 數(shù)據(jù)集和Cornell 數(shù)據(jù)集中三層模型以及其神經(jīng)元數(shù)量步長為100 時(shí)的NMI值最高。在一層和二層模型中，因?yàn)閷訑?shù)或神經(jīng)元數(shù)量較少以至于無法捕捉信息的多視點(diǎn)數(shù)據(jù)。而在四層模型中由于包含很多的參數(shù)，導(dǎo)致過多的冗余信息不利于聚類。在Numerals 數(shù)據(jù)集中二層模型及神經(jīng)元數(shù)量步長為50時(shí)NMI值高于其他。Numerals數(shù)據(jù)集中數(shù)據(jù)量較多，當(dāng)增加模型層數(shù)和神經(jīng)元數(shù)量時(shí)將會(huì)導(dǎo)致更多的參數(shù)，降低了聚類性能。

綜上所述，在實(shí)驗(yàn)中對(duì)于3-Sources數(shù)據(jù)集和Cornell數(shù)據(jù)集采用三層模型以及神經(jīng)元步長為100，即300-200-100-100-200-300。對(duì)于Numerals 數(shù)據(jù)集則采用二層模型及其神經(jīng)元步長為50，即100-50-50-100。

5.3 實(shí)驗(yàn)結(jié)果以及評(píng)價(jià)

本文算法與相比較的算法均在同一實(shí)驗(yàn)環(huán)境下進(jìn)行，最后提取10 次運(yùn)行實(shí)驗(yàn)結(jié)果的均值評(píng)估各算法的性能，各算法在數(shù)據(jù)集上得出的實(shí)驗(yàn)結(jié)果如圖6 所示，三個(gè)數(shù)據(jù)集在DMSCN 中的最終可視化結(jié)果如圖7所示。

圖4 不同參數(shù)下準(zhǔn)確率的直方圖

圖5 不同層結(jié)構(gòu)對(duì)聚類性能的影響

圖6 各算法在不同數(shù)據(jù)集上的結(jié)果

圖7 結(jié)果可視化

通過圖6可以看出隨著實(shí)驗(yàn)次數(shù)的增加，本文算法在數(shù)據(jù)集上的聚類準(zhǔn)確率有些波動(dòng)，但經(jīng)過十次實(shí)驗(yàn)得到的平均準(zhǔn)確率要比其他多視圖子空間聚類算法高。為了更直觀對(duì)比各個(gè)算法的準(zhǔn)確率和互信息，將各算法的準(zhǔn)確率（均值±標(biāo)準(zhǔn)偏差）以及互信息（均值±標(biāo)準(zhǔn)偏差）的統(tǒng)計(jì)結(jié)果列表。如表2 所示，本文算法在各個(gè)數(shù)據(jù)集上的準(zhǔn)確率均為最高，其中比算法DiMSC 的準(zhǔn)確率高出7.057 個(gè)百分點(diǎn)，比算法ECMS 的準(zhǔn)確率高出3.048個(gè)百分點(diǎn)，比算法NaMSC的準(zhǔn)確率高出12.736個(gè)百分點(diǎn)，比算法MVSC的準(zhǔn)確率高出9.897個(gè)百分點(diǎn)，比算法SWMC的準(zhǔn)確率高出8.938個(gè)百分點(diǎn)。

表2 準(zhǔn)確率統(tǒng)計(jì)結(jié)果 %

從表3中可以看出，本文算法在各個(gè)數(shù)據(jù)集上互信息平均值最高，其中比算法DiMSC的互信息平均值高出1.889 個(gè)百分點(diǎn)，比算法ECMS 的互信息平均值高出0.826 個(gè)百分點(diǎn)，比算法NaMSC 的互信息平均值高出4.528 個(gè)百分點(diǎn)，比算法MVSC 的互信息平均值高出3.187 個(gè)百分點(diǎn)，比算法SWMC 的互信息平均值高出0.832個(gè)百分點(diǎn)。

表3 互信息統(tǒng)計(jì)結(jié)果%

6 結(jié)束語

在本文中，基于深度自編碼的多視圖子空間聚類網(wǎng)絡(luò)（DMSCN）模型主要用于多視圖子空間聚類，與現(xiàn)有主要依賴深度學(xué)習(xí)模型的淺層多視圖學(xué)習(xí)不同，DMSCN 通過利用多個(gè)層中所包含的聚類信息進(jìn)一步提高了聚類性能，并利用多視圖數(shù)據(jù)之間的差異性和互補(bǔ)性，在不同視圖中交替學(xué)習(xí)聚類指示矩陣F，捕獲數(shù)據(jù)的內(nèi)在聚類結(jié)構(gòu)，以及利用加權(quán)稀疏表示來增強(qiáng)子空間聚類，進(jìn)而可以獲得更全面和多樣化的聚類信息。對(duì)幾個(gè)數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn)，證明該模型的有效性。在未來的工作中將繼續(xù)探索、擴(kuò)展本文的深度模型和優(yōu)化策略。

猜你喜歡

視圖編碼器準(zhǔn)確率

乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析

健康之家(2021年19期)2021-05-23 11:17:39

不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討

醫(yī)學(xué)食療與健康(2021年27期)2021-05-13 18:46:23

2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析

農(nóng)業(yè)科技與信息(2021年2期)2021-03-27 07:27:38

基于FPGA的同步機(jī)軸角編碼器

成都信息工程大學(xué)學(xué)報(bào)(2018年3期)2018-08-29 01:08:40

高速公路車牌識(shí)別標(biāo)識(shí)站準(zhǔn)確率驗(yàn)證法

中國交通信息化(2018年5期)2018-08-21 03:37:40

5.3 視圖與投影

中學(xué)生數(shù)理化·中考版(2017年6期)2017-11-09 02:46:46

非公有制企業(yè)黨建(2017年10期)2017-11-03 02:26:27

Y—20重型運(yùn)輸機(jī)多視圖

現(xiàn)代兵器(2017年4期)2017-06-02 15:59:24

SA2型76毫米車載高炮多視圖

現(xiàn)代兵器(2017年4期)2017-06-02 15:58:14

基于PRBS檢測的8B/IOB編碼器設(shè)計(jì)

電子設(shè)計(jì)工程(2017年20期)2017-02-10 03:39:29

計(jì)算機(jī)工程與應(yīng)用2020年17期

計(jì)算機(jī)工程與應(yīng)用的其它文章: 直覺對(duì)偶猶豫模糊集在多屬性群決策中的應(yīng)用; 基于運(yùn)動(dòng)篩選和3D卷積的視頻早期煙霧檢測; 路網(wǎng)交通流在時(shí)空分析背景下的預(yù)測研究; 基于FPGA的手寫數(shù)字BP神經(jīng)網(wǎng)絡(luò)研究與設(shè)計(jì); 面向招投標(biāo)領(lǐng)域的遠(yuǎn)程監(jiān)督實(shí)體關(guān)系抽取研究; 不平衡數(shù)據(jù)集下的水下目標(biāo)快速識(shí)別方法

长岭县| 郁南县| 安远县| 清水河县| 临沭县| 库伦旗| 泰安市| 柞水县| 苍南县| 确山县| 尉犁县| 台江县| 宜宾市| 衡南县| 吉隆县| 富顺县| 慈利县| 邛崃市| 巩留县| 靖边县| 翁源县| 荣昌县| 乌兰察布市| 鄂托克旗| 东丽区| 合水县| 广东省| 团风县| 厦门市| 滦南县| 宝兴县| 托克托县| 聊城市| 固始县| 张家港市| 泸西县| 依安县| 景洪市| 巧家县| 五寨县| 望谟县|

<noscript id="iiiii"><dd id="iiiii"></dd></noscript>

<tfoot id="iiiii"></tfoot>