林 爽,王曉軍
1.南京郵電大學(xué) 計算機(jī)學(xué)院,南京 210023
2.南京郵電大學(xué) 物聯(lián)網(wǎng)學(xué)院,南京 210003
傳統(tǒng)分類任務(wù)通過使用大量數(shù)據(jù)訓(xùn)練模型實(shí)現(xiàn)高精度分類,但現(xiàn)實(shí)中的一些數(shù)據(jù),譬如珍稀動植物樣本,難以獲得或者收集代價過大。若能利用已見過類的樣本訓(xùn)練模型,使之能夠識別未見過類的樣本,便可以解決上述問題,于是有學(xué)者提出了零樣本學(xué)習(xí)(zero-shot learning,ZSL)問題,ZSL的難點(diǎn)在于如何將未見過類信息與見過類信息聯(lián)系起來。常見的解決方法是將語義
作為見過類和未見過類的橋梁,即為每個類提供額外的屬性定義[1-2]、單詞向量[3-4]和文本描述[5]等中間層語義表示[6],來輔助系統(tǒng)識別那些未見過類的樣本。舉個例子,您見過鴨子和海貍,但沒有見過鴨嘴獸,如果告訴您鴨嘴獸的嘴和腳像鴨子,而身體和尾部像海貍,那么您在第一次見到真實(shí)的鴨嘴獸的時候,一定能認(rèn)出它。Akata等人[7]和Lampert等人[1]提出利用視覺語義嵌入的方式解決ZSL問題?;谇度肽P偷姆椒ㄊ侵笇⒁曈X和語義映射到同一空間中,再根據(jù)相似性度量進(jìn)行分類[8],但同樣的語義在不同物種上的表現(xiàn)并不相同,這些方法由于沒有測試類樣本可以進(jìn)行訓(xùn)練,在映射測試類樣例時便會產(chǎn)生偏差,這就是映射域漂移(projection domain shift)問題。解決映射域漂移問題的關(guān)鍵在于如何提高映射模型的泛化能力[9],于是Zhu等人[10]提出了基于生成模型的解決方案,通過未見過類生成樣本,將ZSL問題轉(zhuǎn)變?yōu)閭鹘y(tǒng)的分類問題。
ZSL設(shè)置的初衷在于通過學(xué)習(xí)見過類事物,繼而識別未知事物,因此在訓(xùn)練階段,其測試集不包含見過類樣本。但這種設(shè)置沒有考慮到現(xiàn)實(shí)中待分類樣本種類混雜,不可能先通過人工篩選出其中的未見過類樣本,再交付分類器進(jìn)行分類。因此,有學(xué)者提出了廣義零樣本學(xué)習(xí)(generalized zero-shot learning,GZSL)問題,GZSL希望分類器能夠同時識別見過類和未見過類樣本。這樣的設(shè)置更貼合實(shí)際,但同時也帶來了新的問題:由于模型只學(xué)習(xí)了如何分辨見過類的事物,因此在判別一個未知事物時,總是更傾向于把它歸為某個已見過類。這就是GZSL的偏見性預(yù)測問題(bias of prediction)[11]。Schonfeld等人[12]提出的交叉分布對齊變分自編碼器模型(cross and distribution aligned VAE,CADA-VAE)在一定程度上對齊了VAE[13-14]模型抽取的視覺和語義潛層特征,然后利用潛層特征進(jìn)行分類。CADA-VAE模型結(jié)合了生成模型和嵌入模型的優(yōu)勢,在一定程度上避免了映射域漂移和偏見性預(yù)測問題。
但是訓(xùn)練數(shù)據(jù)的稀疏性會影響CADA-VAE模型對視覺特征和語義嵌入的共享潛層特征空間的學(xué)習(xí)。因此,當(dāng)從語義潛層向量交叉重構(gòu)視覺樣本時,生成的視覺樣本分布不能保持真實(shí)樣本空間的簇結(jié)構(gòu)。同時,潛層空間的類數(shù)據(jù)重疊分布也會影響分類性能。這需要研究在抽取核心特征以及交叉重構(gòu)時,如何在適當(dāng)范圍內(nèi)為數(shù)據(jù)編碼及樣本生成提供指導(dǎo),在保持類內(nèi)多樣性的同時保留類間區(qū)分性信息。此外,在CADA-VAE模型的基礎(chǔ)上如果能充分利用現(xiàn)實(shí)中的大量未標(biāo)注數(shù)據(jù)以及未見過類語義進(jìn)行輔助訓(xùn)練,則能在一定程度上提升模型的性能。于是本文針對上述兩個問題,提出了對CADA-VAE模型的改進(jìn)方案:(1)利用未標(biāo)注樣本特征及未見過類語義輔助模型進(jìn)行模態(tài)內(nèi)半監(jiān)督自學(xué)習(xí),提升模型的魯棒性;(2)針對CADA-VAE交叉重構(gòu)方案提出模態(tài)間互學(xué)習(xí)改進(jìn)方案,通過使用本文提出的異類語義潛層向量指導(dǎo)視覺模態(tài)的特征編碼過程,利用視覺質(zhì)心對語義交叉重構(gòu)進(jìn)行約束,保證生成的樣本具有類內(nèi)多樣性的同時保持類間區(qū)分度。
ZSL要求訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)類別不存在交集,即利用已見過類數(shù)據(jù)訓(xùn)練模型,用模型對未見類樣本的識別率評估其性能。故ZSL使用的訓(xùn)練數(shù)據(jù)為{(xi,yi)|xi∈Xs,yi∈Ys}及{(yi,ci)|yi∈Y,ci∈C},可以將這兩者進(jìn)行數(shù)據(jù)處理,整合成D={(xi,yi,ci)|xi∈Xs,yi∈Ys,ci∈Cs}?{(yi,ci)|yi∈Yu,ci∈Cu},并使用其訓(xùn)練模型,其中Xs、Ys、Cs分別為見過類樣本特征集合、標(biāo)簽集合、語義集合,Yu、Cu和Y、C分別為未見過類和所有類的標(biāo)簽集合、語義集合;在訓(xùn)練完成后,利用模型識別未見過類的樣本特征Xu[15]。而GZSL和ZSL設(shè)置唯一的區(qū)別在于測試集的設(shè)置,GZSL測試集中既包含見過類樣本,也包含未見過類樣本。
ZSL發(fā)展之初,為了解決映射域偏移問題提出的方案,諸如DeViSE[16]、SJE[17]、ALE[18]和EZSL[19],設(shè)法學(xué)習(xí)視覺和語義嵌入之間的線性兼容性函數(shù)(linear compatibility function),但是相似類的樣本在經(jīng)線性兼容性函數(shù)映射后會出現(xiàn)重疊,導(dǎo)致這類學(xué)習(xí)方法并不適合解決細(xì)粒度分類問題[20]。于是CMT[21]和LATEM[20]嘗試使用非線性嵌入的方法應(yīng)對ZSL挑戰(zhàn)。上述幾種傳統(tǒng)嵌入模型試圖在視覺和語義之間尋求關(guān)聯(lián),而基于相似度的方法另辟蹊徑,它們試圖從類與類的關(guān)聯(lián)中尋找突破,譬如SYNC[22]利用“幻象”類(“Phantom”classes)將未知類與已知類相關(guān)聯(lián),從而完成對未知類樣本的分類。實(shí)驗(yàn)表明,此類模型在ZSL設(shè)置上表現(xiàn)良好,但由于此類模型完全基于對已知類樣本的分類,因此在面對GZSL問題時,很難通過類遷移函數(shù)分離混雜在已知類樣本中的未知類樣本。Xian等人[23]的實(shí)驗(yàn)結(jié)果表明,SYNC方法在GZSL問題上的表現(xiàn)相比傳統(tǒng)嵌入模型要更差一些。
為了應(yīng)對GZSL的偏見性預(yù)測挑戰(zhàn),近年來人們提出的方案主要分為兩類,其中一類是諸如ReViSE[24]的新型嵌入模型方案。該方案先用自編碼器分別抽取樣本視覺和類語義的潛層特征。這種方案的優(yōu)勢在于,無論是見過類樣本,還是未見過類樣本,通過自編碼器得到的中間層向量,保留了樣本核心特征而不會存在偏見,同時,利用核心特征進(jìn)行分類減少了視覺特征中的無效噪聲帶來的擾動。另一類是諸如CVAE[25]、SE[26]和f-CLSWGAN[27]等基于生成模型的方案,它們利用語義生成未知類的視覺特征,并將之作為分類模型的訓(xùn)練樣本,從而將GZSL問題轉(zhuǎn)變?yōu)閭鹘y(tǒng)的分類問題,緩解偏見性預(yù)測問題;同時,額外的生成數(shù)據(jù)的引入也使得模型的魯棒性更強(qiáng)。在這之后提出的CADA-VAE模型結(jié)合了嵌入模型和生成模型的特點(diǎn),通過交叉分布對齊視覺和語義的核心特征,進(jìn)一步提升了模型在GZSL問題上的識別率。
CADA-VAE利用兩組變分自編碼器(VAE)分別學(xué)習(xí)兩種數(shù)據(jù)模態(tài)(視覺特征和語義屬性)組合的表示形式,并使用圖1中分布對齊損失LDA和交叉重構(gòu)損失LCA對模型進(jìn)行約束。CADA-VAE模型的邊緣似然為兩種模態(tài)中各個數(shù)據(jù)點(diǎn)的邊緣似然之和,見式(1)。其中的logpθ(xi)可展開為式(2),logpθ(ci)同理。
圖1 交叉分布對齊的變分自編碼器模型Fig.1 Cross and distribution aligned variational autoencoder model
不妨設(shè)式(2)中的先驗(yàn)概率p服從多元高斯分布(multivariate gaussian),編碼器使用多層感知器(multilayer perceptron,MLP)找尋期望μ和方差Σ,使得后驗(yàn)分布q=N( )μ,Σ與分布p接近,繼而生成潛層向量z[28],見式(3)。因?yàn)槭剑?)中的第一項(xiàng)為兩個分布之間的KL散度,數(shù)值非負(fù),所以logpθ(xi)的變分下界為L(θ,φ;xi),若 能 增 大 該 變 分 下 界,則 必 然 能 增 大logpθ(xi),L(θ,φ;xi)見式(4)。
式(4)中,前者表示由xi生成的z再還原為xi的期望,本質(zhì)上描述了解碼器的性能,想要最大化該期望,等價于最小化樣本特征在編解碼前后的損失,即最小化VAE重構(gòu)損失;而后者作為KL散度,恒大于0,因此想要增大L(θ,φ;xi),只需要最小化該KL散度即可。
對于式(4)中的VAE重構(gòu)損失部分,為了最大程度地減少信息丟失,提高向量z的核心特征保留能力,必須通過視覺和語義模態(tài)對應(yīng)的編解碼器網(wǎng)絡(luò)重建原始數(shù)據(jù)。實(shí)際上,第i個樣本xi的模型重構(gòu)損失LiR是樣本特征損失和語義損失之和,見式(5),其中E1()、E2()、D1()、D2()分別表示數(shù)據(jù)經(jīng)過Encoder1、Encoder2、Decoder1、Decoder2映射得到的結(jié)果,VAE模型損失見式(6)1),其中z1為視覺潛層,z2為語義潛層。
在特征和語義重構(gòu)的基礎(chǔ)上,CADA-VAE方案提出使用交叉重構(gòu)(cross-alignment,CA)損失和分布對齊(distribution-alignment,DA)損失對模型進(jìn)行約束。
在訓(xùn)練完CADA-VAE之后,利用模型對(Xs,Ys)和(C,Y)編碼,分別得到它們的潛層特征和標(biāo)簽的組合(ZXs,Ys)和(ZC,Y)。然后,使用(ZXs,Ys)?(ZC,Y)訓(xùn)練分類器,可實(shí)現(xiàn)對任意一個由CADA-VAE編碼得到的潛層向量的分類,從而解決GZSL問題。
在CADA-VAE模型(圖1)基礎(chǔ)上提出了半監(jiān)督模態(tài)融合的VAE改進(jìn)方案(semi-supervised modal fusion VAE model,SMF-VAE)。圖2為改進(jìn)后的模型圖,其中的藍(lán)色箭頭表示改進(jìn)方案中新增的數(shù)據(jù)流向,Imagesl中的五角星為對應(yīng)類的視覺質(zhì)心,坐標(biāo)圖表示計算異類語義潛層向量,視覺質(zhì)心和異類語義潛層向量的定義見2.2.2節(jié)。
圖2 基于模態(tài)融合的半監(jiān)督廣義零樣本學(xué)習(xí)模型Fig.2 Semi-supervised generalized zero-shot learning model based on modal fusion
2.2.1 模態(tài)內(nèi)半監(jiān)督學(xué)習(xí)方案
大量標(biāo)注數(shù)據(jù)訓(xùn)練后的CADA-VAE模型,抽取樣本核心特征的能力較強(qiáng),但在標(biāo)注數(shù)據(jù)不足的情況下,模型較難提取樣本核心特征,甚至解碼潛層特征后無法還原為初始樣本特征?,F(xiàn)實(shí)中,由于人工標(biāo)注樣本代價較大,難以獲得大量的有標(biāo)注樣本,若能使用未標(biāo)注樣本及未見過類的語義等輔助信息對模型進(jìn)行訓(xùn)練,則在一定程度上能夠減少訓(xùn)練階段對標(biāo)注樣本的依賴。不難發(fā)現(xiàn),模型中提取樣本潛層特征的功能主要是通過VAE實(shí)現(xiàn)的,而VAE采用無監(jiān)督學(xué)習(xí)方法,故提出半監(jiān)督學(xué)習(xí)方案。該方法利用標(biāo)注樣本和未標(biāo)注樣本、見過
1)CADA-VAE論文中此公式β前的符號為“-”,但結(jié)合論文提供的源代碼以及VAE論文,認(rèn)為此處應(yīng)該為“+”。類語義和未見過語義進(jìn)行聯(lián)合訓(xùn)練(joint training),即模型利用標(biāo)注樣本和所有類語義進(jìn)行有監(jiān)督的視覺和語義模態(tài)內(nèi)自學(xué)習(xí)及模態(tài)間互學(xué)習(xí);利用未標(biāo)注數(shù)據(jù)和未見過類語義進(jìn)行模態(tài)內(nèi)無監(jiān)督自學(xué)習(xí)。
為了使用未標(biāo)注樣本,將訓(xùn)練集(Xs,Ys)劃分為標(biāo)注樣本集(Xl,Yl)和未標(biāo)注樣本集Xul。用于訓(xùn)練的每批數(shù)據(jù)中包含從Xs隨機(jī)選取的標(biāo)注樣本以及未標(biāo)注樣本,其中有標(biāo)注樣本nl個,未標(biāo)注樣本nul個。通過最小化每批數(shù)據(jù)中的標(biāo)注樣本損失Ll和未標(biāo)注樣本損失Lul之和L,達(dá)到對模型進(jìn)行約束的目的。Ll見式(10),Lul見式(11),L見式(12):
在使用未標(biāo)注樣本進(jìn)行無監(jiān)督模態(tài)內(nèi)自學(xué)習(xí)時,也采用特征VAE和語義VAE聯(lián)合訓(xùn)練的方法,但和有監(jiān)督方法不同的是,這里的未標(biāo)注樣本xiul和語義ci∈C不再滿足一一對應(yīng)的關(guān)系。
圖2中使用Imagesul和unseen的Textual Attribute進(jìn)行額外的模態(tài)內(nèi)自學(xué)習(xí)。
2.2.2 模態(tài)間互學(xué)習(xí)方案
CADA-VAE方案通過對齊視覺和語義潛層向量空間,融合了視覺模態(tài)和語義模態(tài)的共有信息。在跨模態(tài)數(shù)據(jù)互助方面,提出模態(tài)間互學(xué)習(xí)的改進(jìn)方案,利用語義模態(tài)的異類語義潛層向量指導(dǎo)視覺模態(tài)的特征編碼過程;利用視覺模態(tài)的視覺質(zhì)心指導(dǎo)語義模態(tài)進(jìn)行交叉重構(gòu)。
(1)利用視覺質(zhì)心指導(dǎo)語義交叉重構(gòu)
CADA-VAE是使用(xi,yi,ci)聯(lián)合訓(xùn)練特征VAE和語義VAE的,訓(xùn)練集中的每個見過類具有多個樣本特征,每個類別對應(yīng)一個語義向量。在訓(xùn)練階段,對于兩組類別相同的數(shù)據(jù)(xi,yi,ci)、(xj,yj,cj),其中ci=cj,yi=yj,ci和cj通過編碼器Encoder2進(jìn)行加噪編碼后,會生成不同的語義潛層向量在交叉重構(gòu)時將被解碼成不同視覺特征的樣本類似于現(xiàn)實(shí)中一個物種擁有無數(shù)個體,CADA-VAE將語義向量交叉重構(gòu)后可生成多個不同的此類樣本,保證了生成樣本的類內(nèi)多樣性。但同類樣本的視覺特征在高維空間分布的稀疏性會影響CADA-VAE模型在潛層學(xué)習(xí)到的條件概率分布。這個問題導(dǎo)致語義潛層向量通過交叉重構(gòu)的視覺樣本分散,丟失了用于類間區(qū)分的部分信息。為解決這個問題,需要考慮在交叉重構(gòu)時,如何為模型提供提示,以保證生成的樣本具有類內(nèi)多樣性的同時類間分布更具區(qū)分度。故本文提出在CADA-VAE方案的基礎(chǔ)上,利用視覺模態(tài)的信息為語義模態(tài)的交叉重構(gòu)提供指導(dǎo),在語義交叉重構(gòu)部分加入視覺質(zhì)心設(shè)計,對于每一個(xi,yi,ci),使得由語義屬性ci生成的視覺特征D1(E2(ci))和yi類所有標(biāo)注樣本的視覺質(zhì)心對齊。
每個類的視覺質(zhì)心定義為高維空間中該類樣本視覺特征簇的質(zhì)心,可以通過計算真實(shí)視覺特征在各維度的均值得到;也可以使用諸如密度聚類等其他類簇中心獲取方法得到。為降低計算成本,采用前者得到視覺質(zhì)心。yi類的視覺質(zhì)心p(yi)見式(13),其中Xyi為yi類所有已見過樣本的集合,|Xyi|為Xyi中樣本數(shù)量。
質(zhì)心約束損失LC為模型生成的樣本和其所屬類視覺質(zhì)心的二階矩,LC表達(dá)式見式(14)。將其作為正則項(xiàng)添加在模型損失中,保留了CADA-VAE模型交叉重構(gòu)樣本多樣化的優(yōu)勢,同時使得生成的同類樣本更加集中,類間區(qū)分度更大。
圖2中,用不同顏色的圓點(diǎn)表示不同類別的樣本,用五角星表示此類樣本的視覺質(zhì)心位置,在所有數(shù)據(jù)送入模型訓(xùn)練之前計算每一個類的視覺質(zhì)心,希望通過LC的約束,能讓Textual Attribute中的語義通過模型生成圍繞此類樣本視覺質(zhì)心的特征。
(2)利用異類語義潛層向量優(yōu)化視覺特征編碼
因?yàn)镃ADA-VAE方案是基于編碼視覺特征后得到的潛層向量進(jìn)行分類的,所以視覺特征的潛層分布決定了分類的性能。CADA-VAE通過交叉重構(gòu),使用語義指導(dǎo)本類視覺特征編碼固然有一定的效果,但相似類語義向量接近,導(dǎo)致它們的視覺特征在潛層的分布會出現(xiàn)重疊,這必然會降低分類性能。為了解決這個問題,提出異類語義潛層向量的概念。
算法1描述了利用標(biāo)注樣本和未標(biāo)注樣本對SMFVAE模型進(jìn)行訓(xùn)練的詳細(xì)步驟,其中n_epoch為訓(xùn)練紀(jì)元(epoch)的大小,n_dataset為數(shù)據(jù)集(dataset)的數(shù)據(jù)總量,n_batch為每一批(batch)的大小。使用Adam算法每次在一個批上優(yōu)化模型參數(shù)(第23行)。
算法1 SMF-VAE Algorithm
算法1首先計算各類樣本的視覺質(zhì)心p(yi)(第5~7行),通過減少質(zhì)心約束損失LC(第22、24行),使得由語義屬性ci重構(gòu)的視覺特征D1(E2(ci))具備此類樣本的核心特征。然后,計算每個類的異類語義潛層向量zˉ~yi(第12~15行),通過最大化異類語義距離LCD(21、24行),使得模型能夠沿異類語義潛層向量負(fù)方向進(jìn)行視覺特征編碼
Xian等人[23]通過評估現(xiàn)有的數(shù)據(jù)集分割方法,制定了統(tǒng)一的ZSL/GZSL評估基準(zhǔn)。GZSL數(shù)據(jù)不平衡的問題,會鼓勵分類器只在數(shù)據(jù)密集的類上表現(xiàn)出高性能,但實(shí)際應(yīng)用中人們希望在數(shù)據(jù)稀少的類上也有很好的性能,因此,通常使用式(18)、(19)分別計算見過類和未見過類的平均識別率,使用式(20)作為最終的ZSL/GZSL性能評估標(biāo)準(zhǔn),其中ns為見過類的類別總數(shù),nu為未見過類的類別總數(shù)。使用此評估方法進(jìn)行了以下GZSL的相關(guān)實(shí)驗(yàn)。
使用粗粒度標(biāo)準(zhǔn)數(shù)據(jù)集AWA1和細(xì)粒度標(biāo)準(zhǔn)數(shù)據(jù)集CUB、SUN來評估方案。AWA1數(shù)據(jù)集由50個動物類,共30 475幅圖像組成,每個類提供85個數(shù)值屬性值;CUB數(shù)據(jù)集包含200個鳥類,共11 788張圖像;SUN數(shù)據(jù)集包含717場景類,共14 340張圖片。為了便于同其他廣義零樣本學(xué)習(xí)方法進(jìn)行比較,使用廣義零樣本學(xué)習(xí)最新基準(zhǔn)[23]對數(shù)據(jù)集進(jìn)行劃分。
為了測試半監(jiān)督學(xué)習(xí)方案性能,將訓(xùn)練集(Xs,Ys)分成了標(biāo)注樣本集(Xl,Yl)和未標(biāo)注樣本集Xul兩個部分,即從(Xs,Ys)中的每一類數(shù)據(jù)中隨機(jī)選取ratio比例的數(shù)據(jù),組合成(Xl,Yl),將沒有被選中的數(shù)據(jù)作為Xul,這樣保證了每一個見過類都有數(shù)據(jù)參與訓(xùn)練,并且每個類的訓(xùn)練數(shù)據(jù)占比和原始數(shù)據(jù)一樣,同其他方案對比得到的結(jié)果也更具可信力。
下述的實(shí)驗(yàn)均是基于python3.5和pytorch框架。
圖4 CUB數(shù)據(jù)集上不同參數(shù)對SMF-VAE性能的影響Fig.4 Effects of different parameters on performance of SMF-VAE on CUB
為了和CADA-VAE模型進(jìn)行比較,沿用了文獻(xiàn)[12]實(shí)驗(yàn)中CADA-VAE模型的參數(shù)。為了找尋改進(jìn)方案中核心參數(shù)α、φ、η的取值,從原訓(xùn)練集隨機(jī)取90%的樣本作為訓(xùn)練集,10%樣本作為驗(yàn)證集。利用網(wǎng)格搜索方法尋找超參數(shù)α、φ、η,使得模型在使用訓(xùn)練集樣本訓(xùn)練后,能夠在驗(yàn)證集上表現(xiàn)性能最佳。實(shí)驗(yàn)中發(fā)現(xiàn),參數(shù)α、φ、η不宜過大,否則會出現(xiàn)梯度爆炸現(xiàn)象。在AWA1、CUB、SUN三個數(shù)據(jù)集上進(jìn)行不同參數(shù)的對比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖3~5所示,其中橫坐標(biāo)的每組參數(shù)分別對應(yīng)α、φ、η。當(dāng)參數(shù)α∈(0.5,3.5),φ∈(0.3,0.5),η∈(0.25,1.75)時,模型在三個數(shù)據(jù)集上都能夠獲得不錯的效果,當(dāng)參數(shù)超出這個范圍后,性能會有些下降。因此建議參數(shù)取值范圍為α∈(0.5,3.5),φ∈(0.3,0.5),η∈(0.25,1.75),在AWA1數(shù)據(jù)集上的調(diào)參實(shí)驗(yàn)發(fā)現(xiàn),η=0.5時效果更優(yōu),其他參數(shù)選擇參數(shù)區(qū)間的中值更優(yōu),故在AWA1上使用參數(shù)α=2,φ=0.4,η=0.5,在CUN和SUN上使用參數(shù)α=2,φ=0.4,η=1進(jìn)行了3.4和3.5節(jié)的實(shí)驗(yàn),實(shí)驗(yàn)表明此組參數(shù)在不同訓(xùn)練數(shù)據(jù)量上都表現(xiàn)良好。
圖3 AWA1數(shù)據(jù)集上不同參數(shù)對SMF-VAE性能的影響Fig.3 Effects of different parameters on performance of SMF-VAE on AWA1
將本文提出的方案應(yīng)用于AWA1、CUB和SUN數(shù)據(jù)集,同當(dāng)下主流的12個GZSL監(jiān)督學(xué)習(xí)模型對比性能差異。為了同其他實(shí)驗(yàn)保持訓(xùn)練數(shù)據(jù)量的一致,此時的訓(xùn)練數(shù)據(jù)全部用于了監(jiān)督學(xué)習(xí),所以沒有使用未標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練,將在下一節(jié)同CADA-VAE方案進(jìn)行對比時,再介紹使用模態(tài)內(nèi)半監(jiān)督自學(xué)習(xí)改進(jìn)方案的提升。
表1總結(jié)了SMF-VAE方案和其他方法在三個數(shù)據(jù)集上的性能。表中識別率為見過類識別率S和未見過識別率U的調(diào)和平均數(shù)H,其中HAWA1、HCUB、HSUN分別為方案在AWA1、CUB、SUN數(shù)據(jù)集上的識別率。表中CADA-VAE以及SMF-VAE的識別率是通過五次實(shí)驗(yàn)求平均值得到的,由于CADA-VAE論文和本文的實(shí)驗(yàn)都是使用相同劃分的基準(zhǔn)數(shù)據(jù)集,故其余的對比實(shí)驗(yàn)結(jié)果均直接引用CADA-VAE論文中的識別率。SMF-VAE在粗粒度數(shù)據(jù)集AWA1上的表現(xiàn)明顯優(yōu)于所有現(xiàn)有的方法,比起原始方案CADA-VAE方案的識別率高出1.1個百分點(diǎn);而細(xì)粒度數(shù)據(jù)集CUB和SUN上,相對于原始CADA-VAE方法提升為0.53和0.65個百分點(diǎn)。這主要是因?yàn)椋篈WA1是粗粒度數(shù)據(jù)集,其中包含了各種動物,動物之間的差異較大,所以不同類別樣本的視覺質(zhì)心距離較遠(yuǎn),使用視覺質(zhì)心指導(dǎo)語義交叉重構(gòu),令語義生成的樣本分布在此類全體樣本的視覺質(zhì)心位置附近,使用此方案后,相當(dāng)于減少了分布的方差,從而減少了分布邊緣的樣本被錯誤歸為其他類別的可能。此外,使用異類語義潛層向量優(yōu)化視覺編碼,相當(dāng)于將整類樣本分布沿異類語義潛層向量的負(fù)方向靠攏,一定程度上可以增大樣本分布的類間距離。而CUB、SUN為細(xì)粒度數(shù)據(jù)集,類間差異遠(yuǎn)不如AWA1數(shù)據(jù)集中的不同動物類之間大,故使用此方案后,在CUB和SUN數(shù)據(jù)集上的識別精度提升略低于在AWA1數(shù)據(jù)集上的提升。
圖5 SUN數(shù)據(jù)集上不同參數(shù)對SMF-VAE性能的影響Fig.5 Effects of different parameters on performance of SMF-VAE on SUN
表1 SMF-VAE與主流的廣義零樣本學(xué)習(xí)方案性能比較Table 1 Performance comparison between SMF-VAE and mainstream generalized zero-shot learning schemes
比較了以下四種改進(jìn)方法和CADA-VAE方案的性能差異:
(1)使用模態(tài)內(nèi)半監(jiān)督自學(xué)習(xí)改進(jìn)方案;
(2)使用視覺質(zhì)心指導(dǎo)語義交叉重構(gòu)改進(jìn)方案;
(3)使用異類語義潛層向量優(yōu)化視覺特征編碼改進(jìn)方案;
(4)同時使用三種改進(jìn)方法,即使用SMF-VAE方案。
圖6描述了四種改進(jìn)方法和原始的CADA-VAE方案在AWA1、CUB和SUN數(shù)據(jù)集上性能的對比,其中橫坐標(biāo)為用于訓(xùn)練的標(biāo)注樣本占總訓(xùn)練數(shù)據(jù)量的比例ratio,縱坐標(biāo)為模型的平均識別率acc。實(shí)驗(yàn)結(jié)果和預(yù)期一樣,隨著用于訓(xùn)練的標(biāo)注樣本不斷增多,三種改進(jìn)方法和CADA-VAE的識別率都在穩(wěn)步提升,且本文的所有改進(jìn)都一直優(yōu)于CADA-VAE方案。
圖6 改進(jìn)方法和CADA-VAE模型的性能對比Fig.6 Performance comparison of improved schemes and CADA-VAE
模態(tài)內(nèi)半監(jiān)督自學(xué)習(xí)改進(jìn)在標(biāo)注樣本較少而未標(biāo)注樣本較多的情況下提升效果十分顯著。并且由于細(xì)粒度數(shù)據(jù)集的樣本類間距離較小,在使用少量標(biāo)注樣本訓(xùn)練時,編碼器不能很好地把視覺特征映射到潛層,所以此時使用模態(tài)內(nèi)半監(jiān)督自學(xué)習(xí)方案改進(jìn)效果更明顯。在ratio比率為0.1時,AWA1、CUB和SUN數(shù)據(jù)集上識別率提升分別為1.01、1.85和1.89個百分點(diǎn)。隨著用于無監(jiān)督學(xué)習(xí)的數(shù)據(jù)量的減少,性能提升程度也在不斷降低,最終用于無監(jiān)督學(xué)習(xí)的數(shù)據(jù)量為0時,模態(tài)內(nèi)半監(jiān)督自學(xué)習(xí)方法和原始方案完全一致。
視覺質(zhì)心指導(dǎo)語義交叉重構(gòu)和異類語義潛層向量優(yōu)化視覺特征編碼改進(jìn)帶來的提升都比較穩(wěn)定,在不同ratio比率的情況下,在AWA1、CUB和SUN數(shù)據(jù)集上視覺質(zhì)心指導(dǎo)帶來的提升分別為0.64、0.32和0.40個百分點(diǎn)左右,異類語義潛層向量帶來的提升分別為0.52、0.32和0.42個百分點(diǎn)。
SMF-VAE改進(jìn)方案繼承了上述三種方法的優(yōu)點(diǎn),性能提升比較均衡,在標(biāo)注樣本較少的時候,模態(tài)內(nèi)半監(jiān)督自學(xué)習(xí)帶來的提升占主導(dǎo);在標(biāo)注樣本較多時,視覺質(zhì)心指導(dǎo)和異類語義潛層向量方法帶來的提升占主導(dǎo)??傮w來看,合成方案性能更優(yōu)。尤其在ratio比率為0.1時,即標(biāo)注樣本很少時,AWA1、CUB和SUN數(shù)據(jù)集上識別率提升分別為1.12、2.21和2.76個百分點(diǎn)。
圖7中,S為見過類識別率,U為未見過類識別率,H為兩者的調(diào)和平均數(shù)。正如圖中顯示的那樣,在AWA1、CUB和SUN數(shù)據(jù)集上,當(dāng)ratio比率為1時,本文的改進(jìn)方案并不是通過大幅犧牲未見過類識別率或者已見過類識別率中的一者來提升另一者,而是提升總體的識別率。本文的方案在標(biāo)注樣本較少,而未標(biāo)注樣本較多時性能提升較大。當(dāng)ratio=0.1時,如圖8所示,本文的方案同樣可以通過提升見過類和未見過識別率的其中一者或者兩者來大幅提升綜合識別率。
圖7 SMF-VAE和CADA-VAE在ratio=1時識別率的對比Fig.7 Comparison of recognition rate of SMF-VAE and CADA-VAE at ratio=1
圖8 SMF-VAE和CADA-VAE在ratio=0.1時識別率的對比Fig.8 Comparison of recognition rate of SMF-VAE and CADA-VAE at ratio=0.1
本文針對GZSL問題提出了一種基于模態(tài)融合的半監(jiān)督學(xué)習(xí)改進(jìn)方案SMF-VAE。半監(jiān)督模態(tài)內(nèi)自學(xué)習(xí)方案在使用標(biāo)注樣本以及見過類語義訓(xùn)練模型的基礎(chǔ)上,通過使用大量未標(biāo)注樣本及未見過類語義訓(xùn)練模型的模態(tài)內(nèi)編解碼能力,模態(tài)間互學(xué)習(xí)方案使得模型由語義生成的樣本更具代表性,模型編碼未知類樣本時能夠更大程度保留其核心特征,提升了模型的魯棒性。本文在3個基準(zhǔn)數(shù)據(jù)集上將SMF-VAE和當(dāng)下主流的GZSL方案進(jìn)行性能對比,實(shí)驗(yàn)結(jié)果表明,本文所提出的方案性能優(yōu)于當(dāng)下主流方案,尤其在使用少量標(biāo)注樣本和大量未標(biāo)注樣本進(jìn)行訓(xùn)練的情況下,性能提升更為明顯。