張志遠,陳亞瑞,楊劍寧,丁文強,楊巨成
天津科技大學(xué) 人工智能學(xué)院,天津300457
無監(jiān)督聚類是機器學(xué)習(xí)領(lǐng)域一個富有挑戰(zhàn)性的研究方向,它是將無標簽的數(shù)據(jù)通過某種度量聚集在一起的過程。傳統(tǒng)聚類的方法一般分為兩種:基于相似度的聚類和基于特征的聚類。基于相似度的聚類方法是通過某種距離度量來表示數(shù)據(jù)之間的相似性,并將相似度高的數(shù)據(jù)聚集在一起,經(jīng)典代表算法是譜聚類(spectral clustering,SC)[1]。基于特征的聚類方法是在數(shù)據(jù)的特征空間中,依照某種度量來進行聚類的,經(jīng)典代表算法包括K-均值方法(K-means)[2]和高斯混合模型(Gaussian mixture model,GMM)[3]。傳統(tǒng)聚類算法實現(xiàn)簡單高效,被廣泛應(yīng)用于各種實際問題。但是傳統(tǒng)聚類算法的瓶頸在于它無法學(xué)習(xí)到數(shù)據(jù)的高層特征表示,同時也很難處理高維度的大規(guī)模數(shù)據(jù)集。
近幾年,深度學(xué)習(xí)在人工智能領(lǐng)域掀起熱潮,它利用深層神經(jīng)網(wǎng)絡(luò)強大的學(xué)習(xí)能力來挖掘數(shù)據(jù)的特征信息,可以高效處理高維度、大規(guī)模的數(shù)據(jù)集。深度學(xué)習(xí)的特性為聚類算法提供了新的思路,將深度學(xué)習(xí)與聚類算法結(jié)合起來,首先通過深層神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)數(shù)據(jù)的特征信息,再結(jié)合聚類算法對特征信息進行聚類,最終實現(xiàn)端到端的深度聚類。已有的一些研究工作[4-5]將深度學(xué)習(xí)與基于特征的聚類方法結(jié)合起來,利用神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)數(shù)據(jù)在隱空間中的結(jié)構(gòu)化信息,再在隱空間中使用傳統(tǒng)聚類算法對隱向量進行聚類,最后聯(lián)合深度模型和聚類算法的優(yōu)化目標,利用隨機梯度下降法來訓(xùn)練神經(jīng)網(wǎng)絡(luò)的參數(shù)。還有一些研究工作[6]將深度學(xué)習(xí)與基于相似度的聚類方法結(jié)合起來,主要用來解決傳統(tǒng)聚類算法的瓶頸問題。
相比傳統(tǒng)聚類模型,深度聚類模型不僅解決了傳統(tǒng)聚類算法的瓶頸問題,而且大幅度提高了模型的聚類精度。具體地,Yang 等人[7]提出了深度聚類網(wǎng)絡(luò)模型(deep clustering network,DCN),該模型在自編碼器的優(yōu)化目標中加入了聚類損失來學(xué)習(xí)數(shù)據(jù)的隱向量與聚類分配。Xie 等人[8]提出了深度嵌入聚類模型(deep embedded clustering,DEC),該模型首先使用自編碼器和K-means 算法來初始化模型參數(shù),然后將定義好的KL 散度作為優(yōu)化目標,利用隨機梯度下降算法進行參數(shù)更新。Zhang 等人[9]提出了混合自編碼模型(mixture of autoencoder,MIXAE),該模型聯(lián)合多個自編碼器來學(xué)習(xí)數(shù)據(jù)在隱空間中的特征表示,其中,一個自編碼器學(xué)習(xí)一種類別信息,并使用神經(jīng)網(wǎng)絡(luò)來計算隱向量的聚類分配。上述模型以不同的方式建模,可以達到較好的聚類性能,但是很難擴展到聚類之外的其他任務(wù),如生成數(shù)據(jù)。
深度生成模型結(jié)合了深度神經(jīng)網(wǎng)絡(luò)和概率生成模型,是深度學(xué)習(xí)領(lǐng)域的重要研究方向之一,經(jīng)典的深度生成模型包括:變分自編碼(variational autoencoder,VAE)[10]模型、生成對抗網(wǎng)絡(luò)(generative adversarial nets,GAN)[11]模型和對抗自編碼(adversarial autoencoders,AAE)[12]模型等。已有研究工作表明用深度生成模型進行數(shù)據(jù)聚類,不僅可以實現(xiàn)高精度的聚類任務(wù),而且可以生成高質(zhì)量的數(shù)據(jù)[4-5,13-17]。具體地,Jiang 等人[4]提出了變分深度嵌入(variational deep embedding,VaDE)模型,該模型使用VAE 模型作為基礎(chǔ)框架,并假設(shè)隱向量的先驗概率分布為GMM,通過VAE 模型學(xué)習(xí)生成數(shù)據(jù)的能力,通過GMM 在數(shù)據(jù)的隱空間完成聚類分配的任務(wù)。Dilokthanakul等人[5]提出了高斯混合變分自編碼(Gaussian mixture variational autoencoders,GMVAE)模型,該模型與VaDE 模型的本質(zhì)思想相同,區(qū)別在于GMVAE 模型比VaDE 模型多了一個隨機過程,用來配合神經(jīng)網(wǎng)絡(luò)計算GMM 的均值與方差。然而VaDE 與GMVAE 對隱向量分布的學(xué)習(xí)都是獨立的,無法捕捉到數(shù)據(jù)的局部結(jié)構(gòu)信息。Yang 等人[13]提出了基于圖嵌入的深度高斯混合(deep Gaussian-mixture VAE with graph embedding,DGG)模型,該模型在VaDE 模型的基礎(chǔ)上引入了圖嵌入技術(shù),將每一個樣本數(shù)據(jù)看成圖中的點,將JS 散度(Jensen Shannon divergence)作用在每一條邊上,以此描述樣本數(shù)據(jù)間的結(jié)構(gòu)信息。實驗表明,DGG 模型的聚類精度相比VaDE 模型有很大的提升。VaDE 模型、GMVAE 模型和DGG 模型在訓(xùn)練初期都存在局部收斂問題[14],因而這些模型在訓(xùn)練初期都使用了自編碼器來進行預(yù)訓(xùn)練,解決該問題的方法還有最小化信息約束算法[14]。
本文在VAE 模型框架下提出VDGC-ER(variational deep generative clustering model under entropy regularizations)模型。首先,VDGC-ER 模型的生成模型以連續(xù)隱向量作為模型的特征表示,并對連續(xù)隱向量進行GMM 先驗建模,以離散隱向量作為類別向量。模型的變分推理模型是基于均值場的分解形式,可分解為編碼和聚類兩部分。與VaDE 模型不同的是,該模型通過對離散隱向量引入樣本熵正則化項來增強預(yù)測聚類類別的區(qū)分度,即增大預(yù)測為真的分量與預(yù)測為假的分量之間的距離,提升模型的聚類精度;VDGC-ER 模型通過對離散隱向量定義聚合樣本熵正則化項,降低聚類不平衡,避免局部最優(yōu),提升生成模型生成數(shù)據(jù)的多樣性。進一步,采用蒙特卡洛采樣及重參策略近似模型的優(yōu)化目標,并利用隨機梯度下降法求解模型參數(shù)。在訓(xùn)練時對重構(gòu)誤差項設(shè)置權(quán)重,緩解模型在訓(xùn)練初期的局部收斂問題。最后,為了驗證模型的有效性,分別在MNIST 數(shù)據(jù)集、HHAR 數(shù)據(jù)集、REUTERS 數(shù)據(jù)集和REUTERS-10K 數(shù)據(jù)集上,設(shè)計了對比實驗驗證VDGC-ER 模型不僅可以生成高質(zhì)量的樣本,而且可以顯著提升聚類精度。
VAE模型是由Kingma 和Rezende兩個團隊于2014 年分別獨立提出的,該模型有效結(jié)合了變分貝葉斯方法和深層神經(jīng)網(wǎng)絡(luò),是經(jīng)典的深度生成模型之一。相比傳統(tǒng)的自編碼模型,VAE 對隱空間注入了噪音,使隱空間服從于某種分布,從而豐富了隱空間的表達能力,并使模型具有生成數(shù)據(jù)的能力。
VAE 假設(shè)高維數(shù)據(jù)x是由低維隱向量z生成,其生成模型表示形式為:
其中,p(z)=N(z;0,I)表示隱向量先驗概率分布,I表示單位矩陣;p(x|z)=N(x;μ,σ2I) 表示條件概率分布。VAE 中數(shù)據(jù)的生成過程為:先從先驗概率分布p(z)中采樣隱向量z,然后從條件概率分布p(x|z)中采樣生成數(shù)據(jù)x。
上述生成模型中的概率推理問題是求解數(shù)據(jù)集的邊緣似然概率p(X)及隱向量的后驗概率分布p(z|x),考慮無法精確計算這兩個概率分布,VAE 引入變分推理模型q(z|x)來近似后驗分布p(z|x),將推理問題轉(zhuǎn)化為了優(yōu)化問題。對于單樣本點x,VAE 的證據(jù)似然下界(envidence lower bound,ELBO)為:
其中,式(2)右邊第一項表示重構(gòu)誤差,第二項表示概率分布q(z|x) 與p(z) 之間的KL 散度,用來約束VAE 模型的隱空間。
VAE 模型優(yōu)化目標為最大化式(2),可以通過蒙特卡洛采樣近似優(yōu)化目標,并利用隨機梯度下降算法求解優(yōu)化目標。
本章首先給出VDGC-ER 的生成模型和變分推理模型,然后引入樣本熵正則化項與聚合樣本熵正則化項,并給出模型的優(yōu)化目標,最后利用蒙特卡洛采樣及隨機梯度下降進行優(yōu)化問題求解。
VDGC-ER 的生成模型以連續(xù)隱向量作為模型的特征表示,同時引入離散隱向量對連續(xù)隱向量進行GMM 先驗建模,并以離散隱向量作為類別向量。令x∈RD表示觀測向量,z∈RM表示低維連續(xù)隱向量,y表示為離散型指示向量,VDGC-ER 生成模型的聯(lián)合概率分布表示為:
該模型的數(shù)據(jù)生成過程為:首先從概率分布p(y)中采樣y,以此來決定從哪個組件采樣z;然后從概率分布p(z|y)中采樣隱向量樣本z;最后通過概率分布pθ(x|z)采樣數(shù)據(jù)x。
對于VDGC-ER 的生成模型,通過引入變分分布q?(z,y|x)來近似求解p(z,y|x),其中?表示推理模型的神經(jīng)網(wǎng)絡(luò)參數(shù)。根據(jù)均值場變分推理思想,將q?(z,y|x)分解為編碼和聚類兩部分:
根據(jù)生成模型聯(lián)合概率分布,如式(3)所示,和推理模型分布,如式(7)所示,可以得到VDGC-ER 模型的證據(jù)似然下界(ELBO)為:
其中,等式右邊第一項記為重構(gòu)誤差項;第二項是基于y的后驗概率分布與先驗概率分布p(y)之間的KL 散度,記為先驗項;第三項是基于z的條件概率分布之間的KL散度,記為條件項。
圖1 給出了VDGC-ER 的生成模型和推理模型。其中,白色圓表示隱變量,灰色圓表示觀測變量,黑色實心圓表示模型的參數(shù)。圖1(a)表示VDGC-ER的生成模型,圖1(b)表示VDGC-ER 的推理模型,N表示樣本數(shù)量。
圖1 VDGC-ER 的生成模型與推理模型Fig.1 Generative model and inference model of VDGC-ER
離散型指示向量y在給定樣本x條件下的近似后驗概率分布為:
在優(yōu)化過程中,上式中的期望可以通過基于重采樣的蒙特卡洛方法計算。變分分布反映了某樣本x聚類的概率輸出。在聚類過程中,通過變分分布的最小化熵約束來提高聚類準確性,達到平衡硬分類與軟分類的作用。對于變分分布,定義熵約束:
該約束又稱為樣本熵正則化項。式(12)的值越小,變分分布的熵越小,則樣本x聚為某一類的概率越大,更接近于硬分割。
該約束又稱為聚合樣本熵正則化項。當(dāng)式(14)的值越大,聚合后驗概率分布的熵越大,則數(shù)據(jù)集X對應(yīng)的隱向量集Y的分布與均勻分布的距離越小。
最終,結(jié)合式(10)、式(12)與式(14),在數(shù)據(jù)集X上,VDGC-ER 模型的優(yōu)化目標為:
其中,η和γ表示正則化系數(shù)。此時求解的優(yōu)化問題為:
為了求解優(yōu)化問題式(16),首先對含有期望的ELBO 項使用蒙特卡洛采樣及重參策略來估計,然后利用隨機梯度下降方法進行參數(shù)更新。
對于VDGC-ER 模型的ELBO 項,如式(10)所示,逐項基于蒙特卡洛采樣及重構(gòu)策略進行估計。具體地,式(10)等式右邊第一項估計為:
其中,ρ表示超參數(shù),z(l)表示蒙特卡洛第l次采樣時的隱變量樣本,由重參數(shù)化技巧獲得:
分析式(21)易知先驗項具有反聚類的作用:在最小化式(21)時,會使熵變大,促使趨近于均勻分布,導(dǎo)致每個樣本x對GMM 中組件的選擇都是隨機的,失去了聚類的效果。這個問題可以通過樣本熵正則化項來減緩。
對于式(10)等式右邊第三項估計為:
3) 為了保證閥門泄漏等級達到Class VI,該閥門采用金屬支撐的軟密封結(jié)構(gòu),即在軟性材料的旁邊有金屬限位平面。閥芯軟密封環(huán)通過螺紋壓緊在閥芯體上,閥芯和閥座之間通過斜錐面密封,有效密封寬度4 mm左右。該閥門閥芯頭部帶18 mm左右延伸段,該結(jié)構(gòu)優(yōu)點:
式(22)為聚類的關(guān)鍵項,具體地,對于某個樣本x,當(dāng)為概率分配中的最大值時,由于KL散度的約束,使樣本x更傾向于從p(z|y=k)中產(chǎn)生。
最后,結(jié)合式(17)、式(21)與式(22),對于單樣本點x,VDGC-ER 模型的證據(jù)似然下界估計為:
其中,z(l)表示第l次蒙特卡洛采樣得到的隱向量樣本。
最后將式(23)~式(25)代入式(15)得到最終的目標函數(shù),再采用隨機梯度下降法來對參數(shù){θ,?,β}進行更新。
圖2 表示VDGC-ER 模型訓(xùn)練時前向傳播過程的網(wǎng)絡(luò)框架圖,具體包括三部分:f1、f2、f3。分別計算概率分布的參數(shù)。具體地,對于單樣本x,首先經(jīng)過f2得到概率分布的均值和方差;然后經(jīng)過重參處理,得到隱向量樣本z;最后z經(jīng)過f1得到重構(gòu)數(shù)據(jù)x′,經(jīng)過f3得到概率分布的參數(shù)。對于概率分布p(z|y)的參數(shù)β,它在隨機初始化后作為模型的可訓(xùn)練參數(shù)參與模型優(yōu)化目標的計算。針對優(yōu)化目標式(16),結(jié)合前向傳播與反向傳播,利用隨機梯度下降法對參數(shù)?、θ與β進行更新。
圖2 VDGC-ER 的網(wǎng)絡(luò)框架Fig.2 Network framework of VDGC-ER
本章設(shè)計了對比實驗來證明VDGC-ER 模型的聚類性能,同時,考慮生成模型本身的特性,驗證模型生成樣本的能力。具體包括3 個實驗:實驗1,分析正則化項對聚類精度產(chǎn)生的影響,并確定正則化項超參數(shù);實驗2,在不同數(shù)據(jù)集上通過對比實驗驗證VDGC-ER 算法的聚類性能;實驗3,分析VDGC-ER模型生成樣本的能力及數(shù)據(jù)隱空間的可視化。
本文采用的數(shù)據(jù)集包括MNIST 數(shù)據(jù)集[18]、REUTERS數(shù)據(jù)集[19]、REUTERS-10K數(shù)據(jù)集[19]、HHAR數(shù)據(jù)集[20]。具體地,MNIST 是標準的手寫數(shù)字識別數(shù)據(jù)集,包括10 種不同的數(shù)字(0~9)。REUTERS 與REUTERS-10K 是兩個新聞數(shù)據(jù)集,包括4 類數(shù)據(jù):企業(yè)/工業(yè)數(shù)據(jù)、政府/社會數(shù)據(jù)、市場數(shù)據(jù)和經(jīng)濟數(shù)據(jù)。HHAR 是人體活動檢測數(shù)據(jù)集,包括6 類數(shù)據(jù):走路、上樓、下樓、坐著、站著、躺著。4 個數(shù)據(jù)集的其他詳細信息如表1 所示。
表1 數(shù)據(jù)集的詳細信息Table 1 Detailed information of datasets
對比實驗的模型包括:K-means 方法[2]、GMM[3]、VaDE模型[4]、DEC模型[8]、MIXAE模型[9]、AAE模型[12]。
本節(jié)在MNIST 數(shù)據(jù)集、HHAR 數(shù)據(jù)集、REUTERS數(shù)據(jù)集和REUTERS-10K 數(shù)據(jù)集上,通過設(shè)置不同樣本熵正則化項系數(shù)η和聚合樣本熵正則化系數(shù)γ的值,分析兩個正則化項對模型聚類精度產(chǎn)生的影響。針對VDGC-ER 模型,首先固定γ=0,設(shè)置不同的η值,分析樣本熵正則化項對VDGC-ER 模型的影響;然后固定η=0,設(shè)置不同的γ值,分析聚合樣本熵正則化項對VDGC-ER 模型的影響。實驗結(jié)果如表2 和表3 所示。
根據(jù)表2 可知,對于樣本熵正則化項,當(dāng)對應(yīng)的正則化系數(shù)η取值逐漸增大時,VDGC-ER 模型在數(shù)據(jù)集上的聚類精度先增加后減少。聚類精度上升階段:隨著η取值不斷增大,樣本對應(yīng)的隱向量z歸屬于某一類別的置信度逐漸增大,將軟分類近似轉(zhuǎn)換為硬分類,即變分分布q?2(y|z)趨向于獨熱編碼。聚類精度下降階段:該階段模型陷入局部最優(yōu)解,即對于不同類別的數(shù)據(jù),VDGC-ER 模型傾向于將它們歸屬到同一聚類簇中,且隨著η不斷增大,局部最優(yōu)解問題越來越明顯。
表2 樣本熵正則化項對聚類精度的影響Table 2 Influence of sample-wise entropy regularisation term on clustering accuracy
根據(jù)表3 可知,對于聚合樣本熵正則化項,當(dāng)對應(yīng)的正則化系數(shù)γ取值逐漸增大時,VDGC-ER模型在MNIST 數(shù)據(jù)集和HHAR 數(shù)據(jù)集上的聚類精度有上升趨勢,總體相對穩(wěn)定在一個較高的值,而在REUTERS數(shù)據(jù)集和REUTERS-10K 數(shù)據(jù)集上聚類精度先上升再下降,且下降的趨勢較為明顯。聚類精度有上升現(xiàn)象表明VDGC-ER 模型強制數(shù)據(jù)集均勻分布在各個聚類中心附近,達到聚類樣本均衡狀態(tài)后,聚類精度將相對穩(wěn)定。聚類精度顯著下降是由于樣本不平衡導(dǎo)致的,因此聚合樣本熵正則化項對數(shù)據(jù)集的選擇較為敏感。
表3 聚合樣本熵正則化項對聚類精度的影響Table 3 Influence of batch-wise entropy regularisation term on clustering accuracy
本實驗也反映出由先驗項所導(dǎo)致的反聚類現(xiàn)象。在表2 中,考慮η取值從0 到1.0 的過程,先驗項慢慢被抵消。在η=1.0 時,先驗項被完全抵消,此時發(fā)現(xiàn)在MNIST 數(shù)據(jù)集、HHAR 數(shù)據(jù)集、REUTERS 數(shù)據(jù)集和REUTERS-10K 數(shù)據(jù)集上分別取到了0.11 個百分點、3.10 個百分點、1.75 個百分點和4.00 個百分點的提升。
綜上,通過實驗分析可知,樣本熵正則化項和聚合樣本熵正則化項均可提升VDGC-ER 模型的聚類精度,其中樣本熵正則化項通過提升隱向量樣本z的聚類置信度來提升聚類精度,聚合樣本熵正則化項通過使聚類樣本均衡來提升聚類精度。最后通過實驗說明了先驗項的反聚類的作用。
本節(jié)在MNIST、REUTERS、REUTERS-10K及HHAR數(shù)據(jù)集上,對比VDGC-ER、GMM、K-means、AAE、DEC、MIXAE 與VaDE 模型的聚類精度。
具體地,在4個數(shù)據(jù)集上的基本實驗參數(shù)有:優(yōu)化器為Adam[21],學(xué)習(xí)率0.001,迭代次數(shù)為epochs=50,批量樣本大小B=128,隱向量維度M=32,蒙特卡洛采樣次數(shù)L=1,超參數(shù)ρ=2.5。參數(shù)K設(shè)置為數(shù)據(jù)集的類別個數(shù)。在MNIST 數(shù)據(jù)集中,推理模型和生成模型均采用卷積神經(jīng)網(wǎng)絡(luò),分類器和先驗層均使用全連接網(wǎng)絡(luò),而在其他3個數(shù)據(jù)集上,全部使用全連接網(wǎng)絡(luò)。樣本熵正則化系數(shù)η在MNIST 數(shù)據(jù)集、REUTERS數(shù)據(jù)集、REUTERS-10K數(shù)據(jù)集及HHAR數(shù)據(jù)集上的值分別為2.7、3.8、3.8 與3.8。聚合樣本熵正則化項系數(shù)γ在4個數(shù)據(jù)集上的值均為6.0。
聚類性能的評價指標遵循了DEC 模型中的方法,即VDGC-ER 模型的聚類精度定義為:
其中,N為總樣本數(shù),li表示第i個樣本的真實標簽,ci為第i個樣本在概率分配中的最大值的索引,由分類器計算得到。m∈Ω表示真實標簽和聚類標簽之間的映射關(guān)系,Ω為映射關(guān)系的集合,最佳映射關(guān)系可由Hungarian 算法[22]給出。
對比實驗的結(jié)果如表4所示,可以看出VDGC-ER模型在相同數(shù)據(jù)集條件下,相較于其他模型,聚類精度都達到了最高。具體地,VDGC-ER 在MNIST、REUTERS、REUTERS-10K 和HHAR 數(shù)據(jù)集上,相較于對比模型中聚類精度最高值分別有1.44 個百分點、7.83個百分點、5.12個百分點和1.30個百分點的提升。
表4 不同數(shù)據(jù)集上不同模型的聚類精度的對比Table 4 Clustering accuracy comparison of different models on different datasets 單位:%
另外,通過結(jié)合實驗1 和實驗2 發(fā)現(xiàn),當(dāng)將兩個正則化項一起使用,并設(shè)置合適η和γ值時,得到的效果總比單獨使用樣本熵正則化項的效果要好,這說明聚合樣本熵正則化項可以改善由樣本熵正則化項引起的局部最優(yōu)解問題。關(guān)于超參數(shù)的值的選取,具體地:對于超參數(shù)ρ,它控制著訓(xùn)練過程中重構(gòu)誤差項的權(quán)重,推薦取值為[2,3];對于超參數(shù)η和γ,它們控制著正則化強度,考慮兩個正則化項之間的關(guān)系,推薦在[0.5,10.0]這個區(qū)間內(nèi)進行網(wǎng)格搜索以確定最佳的η和γ。
通過實驗分析可知,VDGC-ER引入兩項正則化項后,模型在聚類性能上有明顯的提升,這也表明,正則化項可以使VDGC-ER模型更加穩(wěn)定,聚類結(jié)果更優(yōu)。
本節(jié)在MNIST 數(shù)據(jù)集上驗證了VDGC-ER 模型生成樣本的能力,并且利用VDGC-ER 模型對MNIST和HHAR 數(shù)據(jù)集的隱空間進行了可視化。
為了驗證VDGC-ER 模型的生成能力,本實驗在MNIST 數(shù)據(jù)集上分別使用VAE、VaDE 和VDGC-ER模型來生成圖片。具體地,對于VAE 模型來說,模型訓(xùn)練好后直接從標準正態(tài)分布中采樣來生成圖片。對于VaDE 和VDGC-ER 模型來說,模型訓(xùn)練好后從GMM 中的每個組件中隨機采樣來生成圖片。最終得到的結(jié)果如圖3 所示。
圖3(a)表示VAE 隨機生成的樣本,生成的圖像顯示VAE 生成的圖像比較模糊,并且沒有聚類的能力。圖3(b)和圖3(c)中每一行代表從每個聚類簇中生成的圖片,證明VaDE 和VDGC-ER 不僅可以生成質(zhì)量較清晰的圖像,而且具有很好的聚類能力。值得注意的是,觀察圖3(b)中方框圈出來的數(shù)字,它們相對較為模糊而且與它們生成的數(shù)字與真實標簽相比存在一定的誤差,VDGC-ER 模型則沒有,可視化實驗也表明VDGC-ER模型的聚類性能要優(yōu)于VaDE模型。
圖3 用VAE、VaDE 和VDGC-ER 生成的數(shù)字Fig.3 Digits generated by VAE,VaDE and VDGC-ER
本文進一步對VDGC-ER 模型在MNIST 數(shù)據(jù)集和HHAR 數(shù)據(jù)集聚類后的隱空間進行可視化。對于訓(xùn)練后的VDGC-ER 模型,隨機選取了2 000 個樣本點,利用t-SNE 算法[23]將隱向量z從32維降成2維,并在二維空間進行可視化表示,如圖4 所示。在圖4 中,每一種顏色代表一個聚類簇,例如在MNIST 數(shù)據(jù)集中,每一個簇表示一類數(shù)字。由圖4 可知,在MNIST數(shù)據(jù)集和HHAR 數(shù)據(jù)集上,類別個數(shù)與對應(yīng)隱空間中簇的個數(shù)是一致的,且簇與簇之間有明顯的分離現(xiàn)象,說明VDGC-ER模型具有非常好的聚類效果。
圖4 VDGC-ER 在兩個數(shù)據(jù)集上的隱空間可視化Fig.4 Visualization of latent space on MNIST and HHAR datasets using VDGC-ER model
通過實驗分析,VDGC-ER 模型不僅具有良好的生成能力,而且通過可視化訓(xùn)練數(shù)據(jù)集的隱空間,驗證了VDGC-ER 模型具有非常好的聚類能力。
本文提出熵正則化下的變分深度聚類模型,使用VAE 模型作為基礎(chǔ)框架,利用GMM 為數(shù)據(jù)的隱空間進行先驗建模,通過引入樣本熵正則化項與聚合樣本熵正則化項來約束隱空間中的聚類分配和樣本生成任務(wù),最后采用蒙特卡洛法及重參策略來求解優(yōu)化問題。樣本熵正則化項通過約束離散樣本點近似后驗概率分布提高聚類精度,聚合樣本熵通過約束離散空間的分布避免局部最優(yōu);同時基于生成模型的聚類方式可以使模型具有較好的樣本生成能力。理論分析與實驗結(jié)果表明,VDGC-ER 模型的熵正則化項不僅可以生成高質(zhì)量的樣本,而且可以顯著提升聚類精度。