張勝杰 王一飛 向 旺 薛迪展 錢勝勝
圖像聚類[1-4]旨在圖像類別標(biāo)簽不可用的情況下,將圖像聚為不同的簇,這是一項重要的無監(jiān)督學(xué)習(xí)任務(wù).由于深度學(xué)習(xí)[5]的出現(xiàn),深度圖像聚類已成為圖像聚類研究的主要領(lǐng)域之一.然而,絕大多數(shù)現(xiàn)有的深度圖像聚類[6-8]關(guān)注有參數(shù)的圖像聚類任務(wù)(Parametric Image Clustering, PIC),即聚類數(shù)量作為先驗信息已經(jīng)給出,但在實際情況中,聚類數(shù)量往往是未知的.在聚類數(shù)量未知的情況下,有參數(shù)的聚類方法明顯達(dá)不到相當(dāng)?shù)男Ч?因此,本文將研究重心聚集在一個更具有現(xiàn)實意義的任務(wù)上,即非參數(shù)圖像聚類(Nonparametric Image Clustering, NI-C)[9-10].在NIC中,聚類數(shù)量被定義為K,值未知.
貝葉斯方法是針對NIC的傳統(tǒng)解決方法,其中迪利克雷過程混合方法(Mixtures of Dirichlet Proce-sses)[11]由于其堅實的數(shù)學(xué)基礎(chǔ)和高效的實踐性能引起學(xué)者們的廣泛關(guān)注.然而,對于迪利克雷過程混合方法,傳統(tǒng)的蒙特卡洛馬爾可夫鏈采樣方法[12-13]十分耗時.因此,為了提高效率,變分方法[14-16]將預(yù)測問題轉(zhuǎn)化為優(yōu)化問題.
但是,現(xiàn)有的針對迪利克雷過程混合的變分方法需要在整個數(shù)據(jù)集上進(jìn)行優(yōu)化,如果在大規(guī)模數(shù)據(jù)集[17-18]上,計算開銷非常大.此外,現(xiàn)有的大多數(shù)貝葉斯方法,包括DeepDPM[19],遵循迪利克雷過程混合方法的思想,并在深度學(xué)習(xí)的框架中使用一種分離/融合的機(jī)制以發(fā)現(xiàn)聚類數(shù)量,分開進(jìn)行特征學(xué)習(xí)與聚類.但是最近的深度聚類研究[7-8,20-21]表明,聯(lián)合訓(xùn)練特征與分類器可以有效促進(jìn)性能提升,從而提高聚類性能.針對上述問題,如何構(gòu)建一個能夠擴(kuò)展到大規(guī)模數(shù)據(jù)集的高效非參聚類方法,并且與深度學(xué)習(xí)方法在一個端到端的框架中無縫嵌入是解決非參數(shù)聚類的關(guān)鍵點(diǎn)之一.
最近,對比學(xué)習(xí)方法[22-23]能夠有效學(xué)習(xí)樣本的特征表示,在深度聚類任務(wù)中引起持續(xù)關(guān)注.對比學(xué)習(xí)的思想是構(gòu)造樣本對:如果兩個樣本對是正樣本對,認(rèn)為是相似的兩個樣本,將其距離拉近;否則,如果兩個樣本對是負(fù)樣本,認(rèn)為兩個樣本是不相似的樣本,將其距離拉遠(yuǎn).Zhong等[20]提出DRC(Deep Robust Clustering),研究交互信息與對比學(xué)習(xí)之間的內(nèi)在關(guān)系,將交互信息最大化轉(zhuǎn)化為最小化對比損失.Li等[7]提出CC(Contrastive Clustering),同時優(yōu)化實例和簇級對比損失,從實例樣本視角和聚類視角進(jìn)行優(yōu)化.Zhong等[8]提出GCC(Graph CC),設(shè)計基于圖拉普拉斯對比損失和基于圖的對比學(xué)習(xí)策略,學(xué)習(xí)更多的判別特征和更緊湊的聚類分配.然而,現(xiàn)有的對比聚類方法和大多數(shù)其它深度聚類方法依賴于已經(jīng)給出的聚類數(shù)量,數(shù)據(jù)增強(qiáng)產(chǎn)生的隨機(jī)噪聲影響對比學(xué)習(xí)的穩(wěn)定性和效率.此外,在當(dāng)前的研究中,常忽略預(yù)測的聚類標(biāo)簽會傾向于接近某個獨(dú)熱編碼這一現(xiàn)象.因此,如何利用對比聚類中產(chǎn)生的噪聲和聚類標(biāo)簽接近某個獨(dú)熱編碼的特性,增強(qiáng)對比學(xué)習(xí)的效率和判別能力是提高非參數(shù)聚類的性能表現(xiàn)的關(guān)鍵點(diǎn)之一.
因此,本文提出基于變分貝葉斯對比網(wǎng)絡(luò)的非參數(shù)圖像聚類方法,可以自動搜索聚類數(shù)量,并將聚類模型與對比學(xué)習(xí)整合進(jìn)一個端到端的框架中.首先,提出深度變分迪利克雷過程混合優(yōu)化方法(Deep Variational Dirichlet Process Mixture, DVDPM),優(yōu)化迪利克雷過程高斯混合模型的變分推理損失,自動發(fā)現(xiàn)新的聚類簇.本文的變分推理損失基于變分分布和后驗分布的Kullback-Leibler(KL)散度,能夠在一個批次內(nèi)優(yōu)化,進(jìn)而可擴(kuò)展到大規(guī)模數(shù)據(jù)集上.同時,變分推理損失可以與其它設(shè)計好的損失進(jìn)行聯(lián)合優(yōu)化,如對比損失,使DVDPM能夠自動發(fā)現(xiàn)新簇,并無縫嵌入到深度學(xué)習(xí)方法中.然后,提出極化對比聚類學(xué)習(xí)方法,高效學(xué)習(xí)圖像特征和分類器.設(shè)計的極化標(biāo)簽去噪策略利用預(yù)測標(biāo)簽和生成的極化標(biāo)簽間的噪聲對整個模型進(jìn)行優(yōu)化.為了能夠讓極化標(biāo)簽與預(yù)測標(biāo)簽進(jìn)行對比優(yōu)化,提出極化對比損失,能夠有效優(yōu)化模型并擬合數(shù)據(jù).在三個基準(zhǔn)數(shù)據(jù)集上的實驗表明,本文方法性能較優(yōu).
假設(shè)一個數(shù)據(jù)集
O={x1,x2,…,xN},
包含N幅圖像,其中xi表示第i幅圖像,由RGB組成的張量表示.
本文提出基于變分貝葉斯對比網(wǎng)絡(luò)的非參數(shù)圖像聚類方法,總體框圖如圖1所示.
圖1 本文方法框架圖
本文方法由如下部分構(gòu)成:
1)圖像特征提取器.對于給定的輸入圖像,使用ResNet[24]進(jìn)行圖像特征提取.
2)深度變分迪利克雷過程混合優(yōu)化方法(DVD-PM).對于得到的圖像特征,使用DVDPM優(yōu)化迪利克雷過程高斯混合模型.
3)極化對比聚類學(xué)習(xí).通過極化標(biāo)簽去噪策略生成去噪的極化標(biāo)簽,并與預(yù)測標(biāo)簽通過極化對比學(xué)習(xí)損失進(jìn)行優(yōu)化.
為了更好地得到圖像的細(xì)粒度特征表示,本文使用ResNet[24]進(jìn)行圖像特征的細(xì)粒度特征信息提取.圖像特征提取器如下所示:
fi=AvgPool(ResNet(xi,θ))∈R2048
.
其中:ResNet(·)輸出為一個49×2 048維的數(shù)組;AvgPool(·)為平均池化函數(shù),可以將數(shù)組轉(zhuǎn)化為2 048維的向量;θ為ResNet的參數(shù).
為了提高模型訓(xùn)練的效率,本文使用與DeepDPM相同的MoCo(Momentum Contrast)[23]對ResNet進(jìn)行無監(jiān)督的預(yù)訓(xùn)練.
為了發(fā)現(xiàn)聚類數(shù)量,并將聚類方法與特征學(xué)習(xí)方法融入一個統(tǒng)一的深度學(xué)習(xí)框架中,本文提出深度變分迪利克雷過程混合優(yōu)化方法(DVDPM).
1)Drawvi|α~Beta(1,α),i∈N+.
3)對于第n個數(shù)據(jù)點(diǎn):
(1)Drawzn|{v1,v2,…}~Mult(π(v)),
其中
其中:Mult(·)表示多項式分布,G0表示一個非原子概率分布.
構(gòu)成,如hn~N(μzn,Σzn).由于深度神經(jīng)網(wǎng)絡(luò)可以在表示空間中學(xué)習(xí)線性尺度,不同維度也被認(rèn)為是獨(dú)立的,因此本文采用各向同性高斯以簡化計算,如
此外,G0為一個正態(tài)伽馬分布,
G0=NormalGamma(μ0,c,a,b).
因此,基于上述推斷,可以將高斯分布的參數(shù)表示為
(μzn,Σzn)~NormalGamma(μ0,c,a,b).
在迪利克雷過程混合模型的先驗下,無法直接計算后驗分布,需要近似推斷方法,因此引入馬爾可夫鏈蒙特卡羅(Markov Chain Monte Carlo, MCMC)采樣方法[12-13].然而,由于數(shù)據(jù)點(diǎn)是串行生成的,MCMC的采樣效率低下,尤其是在大規(guī)模數(shù)據(jù)集上,采樣緩慢.變分推理提供一種確定性和高度并行的算法以逼近似然性和后驗.
DVDPM通過推導(dǎo)DPGMM(Dirichlet Process Gaussian Mixture Model)[25]的深度變分推理損失以優(yōu)化整個模型,并且可以無縫嵌入到深度神經(jīng)網(wǎng)絡(luò)中.
但下面兩個缺點(diǎn)導(dǎo)致現(xiàn)有的變分推理方法[14-16]不適用于本文的任務(wù):1)必須同時對所有數(shù)據(jù)進(jìn)行聚類,這在大型數(shù)據(jù)集(如本文實驗中的數(shù)據(jù)集)上不可行,因為內(nèi)存和計算成本過高;2) 很難與基于批處理的深度學(xué)習(xí)訓(xùn)練方式結(jié)合.
為了解決上述問題,DVDPM參數(shù)化迪利克雷和高斯混合,可以單獨(dú)預(yù)測每個觀測的高斯分配概率,降低內(nèi)存和計算成本,并使其可以以批處理的方式進(jìn)行訓(xùn)練.此外,DVDPM的參數(shù)和輸入可以通過具有特定目標(biāo)的損失函數(shù)的反向傳播算法聯(lián)合優(yōu)化.考慮DPGMM的參數(shù)
θ={α,μ0,c,a,b},
隱變量
w={v,η*,z},
觀察值
H={h1,h2,…,hn},
使qγ(w)為變分參數(shù)y作為索引的分布簇,目標(biāo)是最小化qγ(w)和隱變量的后驗分布p(w|h)的KL散度:
KL(qγ(w)‖p(w|H,θ))=
Eq[lnqγ(w)]-Eq[lnp(w,H|θ)]+lnp(H|θ).
在本文使用q作為期望的下標(biāo)時,省略變分參數(shù)γ.上式的最小化可以替換為對數(shù)邊緣似然lnp(h|θ)下界的最大化:
lnp(H|θ)≥Eq[lnp(w,H|θ)]-Eq[lnqγ(w)],
其中差值為qγ和p之間的KL散度.
由于本文方法是基于DPGMM的斷棒構(gòu)造,可以擴(kuò)展變分下界并進(jìn)行優(yōu)化.本文需要一個近似于無限維隨機(jī)測度G分布的變分分布簇,可用無窮集合
v={v1,v2,…}
和η表示.由于特定數(shù)據(jù)集通常包含有限簇,本文采用截斷值T足夠大(在實現(xiàn)中比K大得多,以避免K的信息泄漏)的斷棒構(gòu)造.因此,q(vT=1)=1,意味著當(dāng)t>T時,混合比例πt(v)=0.本文參數(shù)化截斷的v={v1,v2,…,vT-1}.對于截斷的高斯混合,參數(shù)
在觀測到高斯分量后,hn的賦值概率
qγ(zn=i)∝N(hn|μi,Σi).
所有的變分參數(shù)
γ={v1,…,vT-1,μ1,…,μT,Σ1,…,ΣT}.
再計算變分下界的所有項.為了將DVDPM整合進(jìn)深度學(xué)習(xí),得到變分損失:
因此,可以將Lvar添加到最終損失函數(shù)中,并聯(lián)合優(yōu)化模型.對于大多數(shù)候選簇,后驗概率πi(v)迅速縮減到接近0,可用簇的數(shù)量將其減少到接近K.
為了簡化表示,表示概率向量:
q(zn)=DVDPM(hn)∈RT
.
DVDPM偽代碼如下.
算法1DVDPM
輸入原始數(shù)據(jù)集O,數(shù)據(jù)增強(qiáng)集Ow,
數(shù)據(jù)增強(qiáng)集Ss,截斷值T,損失系數(shù)λ,
溫度系數(shù)τs,學(xué)習(xí)率l,批量大小bs
輸出優(yōu)化后的ResNet參數(shù)θ,
優(yōu)化后的迪利克雷過程高斯混合模型參數(shù)
v,η*,原始數(shù)據(jù)集O樣本的類別標(biāo)簽Y
隨機(jī)初始化迪利克雷過程高斯混合模型參數(shù)v,η*;
從原始數(shù)據(jù)集O、數(shù)據(jù)增強(qiáng)集Ow、數(shù)據(jù)增強(qiáng)集
優(yōu)化ResNet參數(shù)θ和迪利克雷過程高斯混合模
型參數(shù)v,η*;
end for
從原始數(shù)據(jù)集O隨機(jī)采樣bs個樣本xbs;
計算嵌入特征fbs;
計算預(yù)測標(biāo)簽ybs;
Y=Y∪ybs;
end for
return ResNet參數(shù)θ,迪利克雷過程高斯混合模型參
數(shù)v,η*,原始數(shù)據(jù)集的預(yù)測標(biāo)簽Y
為了聯(lián)合訓(xùn)練DVDPM中的圖像特征提取器和分類器,本文提出極化對比聚類學(xué)習(xí).
首先,使用數(shù)據(jù)增強(qiáng),生成一個增強(qiáng)圖像集:
從Fw獲得聚類標(biāo)簽的方式如下:
(1)
1.5.1 極化標(biāo)簽去噪
由于數(shù)據(jù)增強(qiáng)增加數(shù)據(jù)樣本的泛化性卻不改變其類別標(biāo)簽,數(shù)據(jù)增強(qiáng)集Ss應(yīng)趨于接近數(shù)據(jù)增強(qiáng)集Ow生成的偽標(biāo)簽,即“聚類預(yù)測標(biāo)簽接近某個獨(dú)熱編碼”.這一現(xiàn)象對于非參數(shù)聚類是有利的,因為在本文提出的深度變分迪利克雷過程混合優(yōu)化與極化對比聚類過程中,聚類數(shù)會逐漸收斂至真實聚類數(shù)量K,導(dǎo)致數(shù)據(jù)增強(qiáng)集Ow生成的偽標(biāo)簽的可信性逐漸增高.
然后,去噪聚類中心計算表示如下:
為所有聚類中心的距離最近的集合的集.對應(yīng)的極化標(biāo)簽定義為
為了簡化表示,同樣定義
1.5.2 極化對比學(xué)習(xí)
在得到極化去噪標(biāo)簽Yp之后,將極化去噪標(biāo)簽Yp與預(yù)測標(biāo)簽進(jìn)行對比學(xué)習(xí).在圖像集S上應(yīng)用另外一種數(shù)據(jù)增強(qiáng)方式,得到數(shù)據(jù)增強(qiáng)圖像集:
通過特征提取器得到增強(qiáng)圖像的特征
然后,通過DVDPM計算特征的預(yù)測標(biāo)簽:
由于相同樣本的標(biāo)簽應(yīng)該具有一致性,在極化標(biāo)簽與預(yù)測標(biāo)簽之間的極化對比損失為:
其中,cos(·,·)表示余弦相似度,τs表示溫度系數(shù).
總體的優(yōu)化損失:
L=λLvar+Lcon.
(2)
其中,Lvar在兩個數(shù)據(jù)增強(qiáng)圖像集上進(jìn)行計算,λ用于平衡兩個損失項的系數(shù).
本文使用STL-10[27]、ImageNet-dog[28]、Tiny-Ima-geNet[29]作為基準(zhǔn)數(shù)據(jù)集進(jìn)行訓(xùn)練和測試.STL-10數(shù)據(jù)集包含10個類別的圖像,每類包含500幅訓(xùn)練圖像和800幅測試圖像.ImageNet-dog數(shù)據(jù)集是ImageNet數(shù)據(jù)集[28]的一個子集,包含15種狗的類別.Tiny-ImageNet數(shù)據(jù)集是一個具有挑戰(zhàn)性的數(shù)據(jù)集,包含ImageNet數(shù)據(jù)集的200個子類,由100 000幅訓(xùn)練圖像和10 000幅測試圖像構(gòu)成.具體數(shù)據(jù)集信息如表1所示.
表1 實驗數(shù)據(jù)集信息
采用3個標(biāo)準(zhǔn)度量評估聚類性能,包括準(zhǔn)確度(Accuracy, ACC)、歸一化互信息(Normalized Mutual Information, NMI)和調(diào)整蘭德系數(shù)(Adjus-ted Rand Index, ARI).
本文利用PyTorch實現(xiàn)所有實驗,并采用Adam(Adaptive Moment Estimation)優(yōu)化器[30],初始學(xué)習(xí)率l=0.005.基于文獻(xiàn)[8]和文獻(xiàn)[19]的工作,本文采用ResNet[24]的兩個變體作為圖像特征提取器的主干,即ResNet18和ResNet34.截斷值T在Tiny-ImageNet數(shù)據(jù)集上設(shè)置為256,在其它兩個數(shù)據(jù)集上設(shè)置為128.批量大小設(shè)置為256.對于數(shù)據(jù)增強(qiáng)集Ow,使用標(biāo)準(zhǔn)翻轉(zhuǎn)和移位作為增強(qiáng)方法.對于數(shù)據(jù)增強(qiáng)集Ss,主要應(yīng)用一個復(fù)雜的增強(qiáng)組合[8],包括Cutout增強(qiáng)、RandAugment增強(qiáng)、Random Horizontal Flip增強(qiáng)和Random Crop增強(qiáng).在3個數(shù)據(jù)集上,設(shè)置Lvar的損失系數(shù)λ=1e-5,設(shè)置溫度系數(shù)τs=1.
本文選擇9種參數(shù)圖像聚類方法(PIC)和4種非參數(shù)圖像聚類方法(NIC)進(jìn)行對比,其中聚類數(shù)量在PIC中為已知信息,但在NIC方法中為未知信息.
1)PIC方法.
(1)DAC(Deep Adaptive Clustering)[1].結(jié)合特征學(xué)習(xí)和聚類的算法.
(2)DCCM(Deep Comprehensive Correlation Mi-ning)[4].
(3)PICA(Partition Confidence Maximisation)[6].
(4)CC[7].基于對比學(xué)習(xí)的深度圖像聚類.
(5)GCC[8].基于構(gòu)圖的對比學(xué)習(xí)聚類算法.
(6)DRC[20].基于對比學(xué)習(xí)的深度魯棒聚類.
(7)DSEC(Deep Self-Evolution Clustering)[31].
(8)IDFD(Instance Discrimination and Feature Decorrelation)[32].
(9)EDESC[33].
2)NIC方法.
(1)GCC-NIC.GCC在本文NIC設(shè)置下的變體,由修改分類器的參數(shù)聚類數(shù)量得到.在STL-10、ImageNet-dog數(shù)據(jù)集上,本文將GCC-NIC的聚類數(shù)量K設(shè)置為32;在Tiny-ImageNet數(shù)據(jù)集上,本文將GCC-NIC的聚類數(shù)量K設(shè)置為256.
(2)DeepDPM[19].使用一個分裂/融合網(wǎng)絡(luò),并提出一個損失計算函數(shù).
(3)文獻(xiàn)[26]方法.使用肘部法則優(yōu)化簇類發(fā)現(xiàn)的K-means算法.
(4)DBSCAN(Density Based Spatial Clustering of Applications with Noise)[34].比較有代表性的非貝葉斯的基于密度的聚類算法.
各方法在3個數(shù)據(jù)集上的指標(biāo)值對比結(jié)果如表2~表4所示,表中黑體數(shù)字表示最優(yōu)值,斜體數(shù)字表示次優(yōu)值.
表2 各方法在STL-10數(shù)據(jù)集上的指標(biāo)值對比
表3 各方法在ImageNet-dog數(shù)據(jù)集上的指標(biāo)值對比
表4 各方法在Tiny-ImageNet數(shù)據(jù)集上的指標(biāo)值對比
觀察表1~表3中的數(shù)據(jù)可得到如下結(jié)論.
1)本文方法在3個數(shù)據(jù)集上性能顯著優(yōu)于4種NIC方法.相比性能最優(yōu)的DeepDPM,本文方法在STL-10、ImageNet-dog、Tiny-ImageNet數(shù)據(jù)集上分別實現(xiàn)0.027、0.183和0.052的ACC提升.這表明本文方法可以在特征學(xué)習(xí)和聚類的聯(lián)合框架內(nèi)準(zhǔn)確找到聚類數(shù),并將數(shù)據(jù)分類到不同的簇中.
2)相比PIC方法(給出聚類數(shù)量),本文方法仍然可以獲得具有競爭力的性能.特別地,相比GCC,本文方法在STL-10、ImageNet-dog、Tiny-ImageNet數(shù)據(jù)集上分別實現(xiàn)0.027、0.073和0.023的ACC提升.這表明本文方法可以在未知聚類數(shù)量的情況下有效聚類圖像,這顯著提升本文方法的實用性.
3)GCC-NIC的性能明顯低于GCC和本文方法,這表明NIC是一項具有挑戰(zhàn)性的任務(wù),當(dāng)前的PIC方法無法直接解決NIC問題.然而,本文的DVDPM可以在訓(xùn)練期間自動搜索聚類數(shù),促進(jìn)非參數(shù)聚類.
為了驗證本文方法的有效性,設(shè)計如下變式.
1)CE.僅使用交叉熵?fù)p失函數(shù)進(jìn)行優(yōu)化.
3)CE+Lvar.使用交叉熵?fù)p失函數(shù)和變分推理損失進(jìn)行優(yōu)化.
本文方法的不同變式在STL-10、ImageNet-dog數(shù)據(jù)集上的指標(biāo)值對比如表5所示,表中黑體數(shù)字表示最優(yōu)值.
表5 模型的不同變式在2個數(shù)據(jù)集上的性能對比
由表5可得如下結(jié)論.
為了進(jìn)一步驗證本文方法的特征學(xué)習(xí)與聚類效果,進(jìn)行聚類可視化的定性分析.由于DeepDPM的特征是由MoCo提取的,并未在訓(xùn)練過程中聯(lián)合學(xué)習(xí)特征,因此本節(jié)將本文方法與GCC在STL-10數(shù)據(jù)集上進(jìn)行對比.
為了公平對比,將GCC引入NIC設(shè)置,并將聚類數(shù)K設(shè)置為32,而本文的截斷值T設(shè)置為128.
本文方法和GCC-NIC由t-SNE[35]生成的可視化聚類效果如圖2所示.從圖2(a)和(b)中可以觀察到,本文方法更具有判別性,幾乎將每類特征都聚成簇,而GCC-NIC幾乎將所有特征混合在一起,由此驗證本文方法在NIC設(shè)置下聯(lián)合學(xué)習(xí)特征的高效性.
(a)本文方法(T=128)
同時,為了展示本文方法聚類效果的先進(jìn)性,將本文方法與在PIC設(shè)置下的GCC進(jìn)行可視化聚類對比.圖2(c)為GCC-PIC由t-SNE生成的可視化聚類效果.
從圖2(a)和(c)中可以觀察到,本文方法依然具有較強(qiáng)的判別性,而GCC-PIC的聚類簇之間并沒有較清晰的界限,同時較多的聚類簇混雜在一起.從(b)和(c)中可以觀察到,相比GCC-NIP,GCC-PIC有更清晰的聚類效果,這也印證現(xiàn)有PIC方法無法在NIC設(shè)定下媲美PIC方法這一結(jié)論.
為了進(jìn)一步驗證本文方法的穩(wěn)定性,進(jìn)行特征提取器敏感性分析,選取ResNet-18、ResNet-34、ResNet-50網(wǎng)絡(luò),本文方法在不同深度的ResNet上的準(zhǔn)確率對比如圖3所示.
圖3 特征提取器不同時本文方法在2個數(shù)據(jù)集上的準(zhǔn)確率對比
由圖3可知,本文方法在不同深度的ResNet上實現(xiàn)相當(dāng)?shù)男阅?表明本文方法在不同的特征提取器上的表現(xiàn)具有穩(wěn)定性.
為了進(jìn)一步探究式(2)損失項λLvar中超參數(shù)λ的敏感性,本節(jié)設(shè)計λ在STL-10、ImageNet-dog數(shù)據(jù)集上的敏感性實驗,結(jié)果如圖4所示.由圖可知,當(dāng)λ逐漸增大,推理聚類數(shù)量逐漸減少時,對應(yīng)的準(zhǔn)確率先增大后減小.上述觀察結(jié)果揭示在非參數(shù)聚類中選擇合適參數(shù)的重要性.
圖4 λ不同時本文方法在2個數(shù)據(jù)集上的準(zhǔn)確率對比
本節(jié)分析NIC方法的運(yùn)行效率.DBSCAN、GCC-NIC、DeepDPM和本文方法在STL-10、ImageNet-dog數(shù)據(jù)集上的運(yùn)行時間如表6所示.從表可看出,本文方法顯著提升運(yùn)行效率,由此也驗證方法的高效性.同時也證實當(dāng)前NIC方法在本文的較大規(guī)模數(shù)據(jù)集上并不適用,驗證本文方法在較大規(guī)模數(shù)據(jù)集上的可靠性.本文將貝葉斯方法與對比學(xué)習(xí)相結(jié)合以提高NIC性能,是較新穎的NIC方式.
表6 各方法在2個數(shù)據(jù)集上的運(yùn)行時間對比
本文提出基于變分貝葉斯對比網(wǎng)絡(luò)的非參數(shù)圖像聚類方法.首先,通過推導(dǎo)迪利克雷過程高斯混合模型的變分推理損失,提出深度變分迪利克雷過程混合優(yōu)化方法,自動推斷聚類數(shù)量,并無縫集成到端到端的深度模型中.然后,提出極化對比聚類學(xué)習(xí),利用極化標(biāo)簽去噪策略,對比極化標(biāo)簽和預(yù)測標(biāo)簽,有效學(xué)習(xí)圖像特征和分類器.在3個基準(zhǔn)數(shù)據(jù)集上的實驗表明,本文方法性能較優(yōu).今后將在非參數(shù)文本聚類和非參數(shù)多視圖聚類等其它應(yīng)用上研究本文方法.