汪玉金,謝 誠,余蓓蓓,向鴻鑫,柳 青
屬性語義與圖譜語義融合增強的零次學(xué)習(xí)圖像識別
汪玉金,謝 誠,余蓓蓓,向鴻鑫,柳 青
(云南大學(xué)軟件學(xué)院,云南 昆明 650500)
零次學(xué)習(xí)(ZSL)是遷移學(xué)習(xí)在圖像識別領(lǐng)域一個重要的分支。其主要的學(xué)習(xí)方法是在不使用未見類的情況下,通過訓(xùn)練可見類語義屬性和視覺屬性映射關(guān)系來對未見類樣本進行識別,是當(dāng)前圖像識別領(lǐng)域的熱點?,F(xiàn)有的ZSL模型存在語義屬性和視覺屬性的信息不對稱,語義信息不能很好地描述視覺信息,從而出現(xiàn)了領(lǐng)域漂移問題。未見類語義屬性到視覺屬性合成過程中部分視覺特征信息未被合成,影響了識別準(zhǔn)確率。為了解決未見類語義特征缺失和未見類視覺特征匹配合成問題,本文設(shè)計了屬性語義與圖譜語義融合增強的ZSL模型實現(xiàn)ZSL效果的提升。該模型學(xué)習(xí)過程中使用知識圖譜關(guān)聯(lián)視覺特征,同時考慮樣本之間的屬性聯(lián)系,對可見類樣本和未見類樣本語義信息進行了增強,采用對抗式的學(xué)習(xí)過程加強視覺特征的合成。該方法在4個典型的數(shù)據(jù)集上實驗表現(xiàn)出了較好的實驗效果,模型也可以合成較為細致的視覺特征,優(yōu)于目前已有的ZSL方法。
零次學(xué)習(xí);知識圖譜;生成對抗網(wǎng)絡(luò);圖卷積神經(jīng)網(wǎng)絡(luò);圖像識別
零次學(xué)習(xí)(zero-shot learning,ZSL)是遷移學(xué)習(xí)在圖像識別領(lǐng)域中的一個重要分支。ZSL可在完全沒有視覺訓(xùn)練樣本的情況下,對從未訓(xùn)練過的視覺目標(biāo)類別進行一定程度的識別。這種學(xué)習(xí)模型能夠顯著提升傳統(tǒng)視覺計算模型的適應(yīng)性和泛用性,在視覺計算領(lǐng)域有著極其重要的研究意義。其相關(guān)研究也在快速增長,成為了當(dāng)前的一個重要研究熱點。
ZSL的本質(zhì)是跨模態(tài)學(xué)習(xí),具體來說是語義(屬性)-視覺”的跨模態(tài)學(xué)習(xí)。即視覺特征是可以被語義特征所描述的,只要準(zhǔn)確地找到視覺特征與語義特征的跨模態(tài)對應(yīng)關(guān)系,便可以在不進行相應(yīng)視覺樣本訓(xùn)練的條件下,預(yù)測未見視覺目標(biāo)的所屬分類。一個經(jīng)典事例是:一個從未見過斑馬的人,通過對斑馬的語義表述(如像一匹馬,身體白色,但有黑色斑紋),便能夠在腦海中想象出斑馬樣貌,從而識別出斑馬?;谠撍悸?,ZSL不斷迭代發(fā)展,已經(jīng)衍生出一系列經(jīng)典方法。
2009年,ZSL首次由PALATUCCI等[1]明確提出。同年,LAMPERT等[2]正式發(fā)表了第1個ZSL模型-直接屬性預(yù)測(direct attribute prediction,DAP),其原理是對視覺樣本進行屬性標(biāo)記(如是否有尾巴、毛發(fā)顏色等),進而學(xué)習(xí)視覺目標(biāo)的語義屬性特征,最后由一個判斷器評判視覺目標(biāo)所滿足的屬性組合分類。隨著語義嵌入技術(shù)的發(fā)展,ZSL的第2個階段性標(biāo)志是2013年由AKATA等[3]提出的屬性標(biāo)簽嵌入(attribute label embedding,ALE)模型,其將屬性的語義編碼作為向量,并將圖像編碼作為特征向量,而后學(xué)習(xí)一個函數(shù),計算屬性語義編碼和圖像視覺編碼之間的相似度,從而預(yù)測圖像的分類。
隨著深度學(xué)習(xí)技術(shù)在圖像識別領(lǐng)域的發(fā)展,ZSL的第3個階段性標(biāo)志是2017年由KODIROV等[4]提出的激活酶(SUMO-activating enzyme,SAE)模型,采用自動編碼技術(shù),其能夠?qū)D像更細粒度的屬性特征進行編碼,并與語義屬性特征進行解碼映射,較好地做到了“視覺-語義”的跨模態(tài)學(xué)習(xí),整體性能較ALE有明顯提升。憑借著對抗生成網(wǎng)絡(luò)[5]在視覺計算中的顯著效果,ZSL迎來了第4個階段性標(biāo)志。2018年ZHU等[6]發(fā)表了對抗生成的零次學(xué)習(xí)(generative adversarial approach for zero-shot learning,GAZSL)模型,其采用對抗生成網(wǎng)絡(luò),將語義特征合成為視覺特征,進而能夠通過語義信息合成偽視覺信息,開創(chuàng)性地實現(xiàn)了“語義-視覺”的跨模態(tài)學(xué)習(xí),其H-score (未見類得分和可見類得分的調(diào)和分?jǐn)?shù))在多個ZSL標(biāo)準(zhǔn)集中超過25%,較之前最優(yōu)模型提升近2倍?;谠搶股傻乃悸?,ZSL出現(xiàn)了井噴式的發(fā)展。到2020年底,相關(guān)研究[7-10]已經(jīng)將GAZSL模型進行了深度優(yōu)化,H-score在ZSL多個標(biāo)準(zhǔn)集中也達到了60%以上。然而,對比一般的圖像分類模型普遍90%以上準(zhǔn)確率,ZSL還有很大的提升空間,但目前已觸到了瓶頸。
這個瓶頸便是ZSL中經(jīng)典的“領(lǐng)域漂移問題”。從2009年ZSL首次提出,到2020年底的最新研究,領(lǐng)域漂移問題不斷被消解,但從未被消除。領(lǐng)域漂移問題普遍存在于“語義-視覺”跨模態(tài)學(xué)習(xí)中,由于語義信息較視覺信息更為單一,在語義信息轉(zhuǎn)化為視覺信息時,會丟失視覺的細節(jié)信息,從而造成誤判。典型的例子是同樣描述一個視覺目標(biāo)是否“有黑色的尾巴”,但是真實視覺可能是“羅威納犬的尾巴”或“杜賓犬的尾巴”,雖然都是黑色的尾巴,但是其視覺細節(jié)有著巨大的差異,語義信息并不能完備地對其描述。這主要是由于相較于視覺信息,語義信息不夠豐富而不能對等匹配,在“語義-視覺”跨模態(tài)轉(zhuǎn)化時,產(chǎn)生嚴(yán)重的領(lǐng)域漂移問題。
針對該問題,本文提出了一種屬性語義與知識圖譜關(guān)聯(lián)語義融合增強的方法,用于增強語義信息,緩解目前語義信息與視覺信息不對稱情況,進一步消解ZSL的領(lǐng)域漂移問題。首先,基于對抗生成的思路,模型采用圖卷積網(wǎng)絡(luò)設(shè)計了一個知識圖譜視覺特征生成網(wǎng)絡(luò),能夠?qū)⒅R圖譜語義信息轉(zhuǎn)化為相應(yīng)的關(guān)聯(lián)視覺特征。而后,將關(guān)聯(lián)視覺特征與通過屬性語義信息轉(zhuǎn)化而來的屬性視覺特征共同輸入特征融合網(wǎng)絡(luò)合成融合視覺特征。最后,將融合視覺特征輸入一個特征空間映射網(wǎng)絡(luò)并與真實視覺特征進行合理性判別和類別判別。整個模型在ZSL標(biāo)準(zhǔn)集SUN,AWA,CUB和aPY中進行了評估,結(jié)果證明其能夠顯著地增強語義特征,合成更為細致的視覺特征,其表現(xiàn)優(yōu)于目前已有的ZSL方法。
知識圖譜是一種特殊的圖結(jié)構(gòu),也可以看作是一種大規(guī)模的語義網(wǎng)絡(luò)[11]。知識圖譜抽象地描述了現(xiàn)實世界。現(xiàn)實中的事物被描述成圖譜中一個點,事物之間的聯(lián)系描述成了一條邊。錯綜復(fù)雜的事物關(guān)系便構(gòu)成了一張網(wǎng)。結(jié)構(gòu)化的表現(xiàn)形式和豐富的語義信息讓知識圖譜可以服務(wù)人工智能領(lǐng)域的下游任務(wù)。
知識圖譜用于ZSL的現(xiàn)階段工作較少。2018年KIPF和WELLING[12]引入了圖卷積網(wǎng)絡(luò)(graph convolution networks,GCN),在做零次圖像識別時使用了語義屬性的嵌入和類別的關(guān)系的類別預(yù)測分類器[13],并將每個數(shù)據(jù)集類別作為一個知識圖譜的節(jié)點,樣本類別之間的關(guān)系作為圖譜的邊。GCN模型訓(xùn)練的輸入為節(jié)點的語義嵌入特征。該模型使用6層的圖卷積作為預(yù)測類別分類器。測試中,使用訓(xùn)練完成的可見分類器給未見類別進行分類。該方法在某些指標(biāo)上得到2%~3%的提升。是最早將知識圖譜應(yīng)用于ZSL的方法。
2019年KAMPFFMEYER等[14]針對文獻[13]工作做了改進,提出了GCNZ[13]的一些不足并做了改進,同時指出6個層次的圖卷積層會導(dǎo)致過度的拉普拉斯平滑,讓每一個節(jié)點趨于相似,降低了模型的性能。另一個矛盾是,較淺的圖卷積網(wǎng)絡(luò)層不會學(xué)習(xí)到較遠距離的節(jié)點特征。于是本文針對該問題做了2個改進:①減少了GCN圖卷積網(wǎng)絡(luò)的層數(shù),設(shè)置為2;②改進了知識圖譜的結(jié)構(gòu),在原有的知識圖譜上將祖先節(jié)點和孫子節(jié)點進行了相連從而得到了更為稠密的知識圖譜。同時在知識圖譜的邊上設(shè)置權(quán)重值,即稠密圖傳播(dense graph propagation,DGP)方式。其他處理形式同文獻[13]。
生成對抗網(wǎng)絡(luò)(generative adversarial networks,GAN)是文獻[13]提出的機器學(xué)習(xí)架構(gòu)。監(jiān)督學(xué)習(xí)的數(shù)據(jù)集通常是由大量的帶有標(biāo)簽的訓(xùn)練集和測試集組成。非監(jiān)督方式學(xué)習(xí)[15]可以根據(jù)學(xué)習(xí),從而降低出錯的概率。監(jiān)督方式的學(xué)習(xí)準(zhǔn)確率領(lǐng)先于非監(jiān)督式的學(xué)習(xí)方式,但前者需要大量優(yōu)質(zhì)的帶有標(biāo)簽的數(shù)據(jù)集,且十分費時費力。GAN的出現(xiàn)是非監(jiān)督式學(xué)習(xí)提升一個關(guān)鍵因素。其十分擅長無監(jiān)督的學(xué)習(xí),特別是在生成數(shù)據(jù)方面。GAN具有強大的表征能力,在潛在的向量空間執(zhí)行算數(shù)運算,并可以很好地轉(zhuǎn)換為對應(yīng)特征空間的特征表示。
圖1是生成對抗網(wǎng)絡(luò)的基本學(xué)習(xí)框架。隨機噪聲輸入到生成器中生成偽視覺特征。訓(xùn)練樣本的視覺特征和生成器生成的視覺特征一同輸入到判別器中進行判別。若判別器識別正確,說明生成器效果還有提升,此時會優(yōu)化生成器;若判斷錯誤,說明判別器有優(yōu)化空間,對其進行優(yōu)化,以避免錯誤再次發(fā)生。經(jīng)過不斷的迭代優(yōu)化,生成器可以生成接近真實圖片分布的偽視覺特征,判別器可以鑒別出真和偽視覺特征,兩者達到一個均衡和諧的狀態(tài)。
圖1 生成對抗網(wǎng)絡(luò)的基本框架
原始GAN[5]生成圖片的效果并不理想,與變分編碼器(variational autoencoder,VAE)[16]效果不相上下,遠遠未達到研究者的目標(biāo)。因此研究者們對GAN做了較多的改進,解決其訓(xùn)練中存在的不穩(wěn)定、梯度消失和模式崩潰等問題。例如WGAN模型(wasserstein generative adversarial networks)[17]通過理論分析發(fā)現(xiàn),若2個分布之間存在不相交的部分,則JS散度不適用于衡量這兩者之間的距離。因此使用Wasserstein代替JS散度來測算2個條件分布之間距離,解決模式崩潰的難題。基于文獻[17],條件生成對抗網(wǎng)絡(luò)(conditional GAN,CGAN)[18]通過為生成器以及辨別器引入輔助信息,例如類別標(biāo)簽、文本甚至圖像,提高生成圖像的質(zhì)量。輔助分類生成對抗網(wǎng)絡(luò)(auxiliary classifier GAN,ACGAN)[19]則通過添加額外的類別識別分支,進一步穩(wěn)定了辨別器的訓(xùn)練過程。與ACGAN[19]不同,為ZSL設(shè)計的生成對抗網(wǎng)絡(luò)(generative adversarial approach for zero-shot learning,ZSL-GAN)[20]中添加了視覺軸正則化(visual pivot regularization,VPG)使生成樣本的數(shù)據(jù)分布中心盡可能逼近真實樣本數(shù)據(jù)分布聚類中心。
目前,已有較多研究基于GAZSL開展。文獻[13]為了解決GAN中存在的多樣性和可靠性低的問題,提出了條件式瓦瑟斯坦距離的(conditional Wasserstein GAN,CWGAN)。語義描述和噪聲作為CWGAN的輸入來產(chǎn)生具有多樣性的生成樣本。同時,該方法定義了靈魂樣本,通過使生成器生成的樣本靠近對應(yīng)的靈魂樣本來保證生成器的可靠性。為了解決GAN在語義到視覺轉(zhuǎn)化過程中出現(xiàn)的領(lǐng)域漂移現(xiàn)象,HUANG等[21]提出了雙向的生成對抗網(wǎng)絡(luò)(generative dual adversarial network,GDAN),該網(wǎng)絡(luò)分別使用生成器和回歸器完成語義到視覺和視覺到語義的雙向映射來保證更加泛化的生成器。然而,目前該方向的研究仍然基于常規(guī)的對抗生成網(wǎng)絡(luò),在ZSL跨模態(tài)生成過程中存在原理上的局限。
知識圖譜(knowledge graph)[11]的概念由谷歌2012年正式提出,旨在實現(xiàn)更智能的搜索引擎,并于2013年后開始在學(xué)術(shù)界和工業(yè)界普及。其在智能問答、情報分析、反欺詐等應(yīng)用中發(fā)揮著重要的作用。
知識圖譜構(gòu)建采用2種方式:①基于數(shù)據(jù)集原始屬性語義空間距離構(gòu)建知識圖譜;②基于自然知識構(gòu)建知識圖譜。
基于屬性語義空間構(gòu)建知識圖譜具體流程如圖2所示。由原始屬性語義的空間分布來獲取類別之間的聯(lián)系。類別聯(lián)系建立的依據(jù)是否超過2個類別屬性語義空間分布距離D。D值根據(jù)類別可視化距離分布情況而設(shè)定。
圖2 基于語義空間距離的圖譜構(gòu)建
基于自然知識構(gòu)建知識圖譜方法具體流程如圖3所示。實驗中AWA[22]和SUN[23]使用自然知識構(gòu)建了圖譜。因為AWA和SUN中類別屬性語義空間分布比較雜亂,構(gòu)建質(zhì)量較好的數(shù)據(jù)集圖譜較為困難。AWA知識圖譜構(gòu)建是根據(jù)門綱目科屬種中的“屬”關(guān)系來進行構(gòu)建。SUN知識圖譜構(gòu)建是根據(jù)其官網(wǎng)展示中的場景相似鏈接。以此場景相似關(guān)系作為SUN知識圖譜構(gòu)建的依據(jù)。AWA,SUN,CUB和aPY構(gòu)建的圖譜規(guī)模見表1。
圖3 基于自然知識的圖譜構(gòu)建
表1 SUN,AWA,CUB和aPY圖譜大小
圖嵌入(graph embedding)是表示學(xué)習(xí)的范疇,也可以叫做圖表示學(xué)習(xí)。其目的是將圖譜中的節(jié)點表示成向量的形式。嵌入后的向量在特定的向量空間中可以得到合理的表示,具體的可以用于學(xué)習(xí)的下游任務(wù),比如節(jié)點的分類等。
圖嵌入的方式有3種:①矩陣分解;②DeepWalk;③圖神經(jīng)網(wǎng)絡(luò)(graph neural network,GNN)。實驗中知識圖譜嵌入方法使用圖卷積神經(jīng)網(wǎng)絡(luò)(graph convolutional network,GCN)的方式。GCN是GNN的一種,即采用卷積方式的一種網(wǎng)絡(luò),具體為
其中,為第層的輸入,當(dāng)=0時,對應(yīng)的H是原始圖譜的輸入;為鄰接矩陣,不同的GCN的差異體現(xiàn)在了函數(shù)上。
式(1)是以圖譜語義網(wǎng)絡(luò)作為輸入。通過不斷的迭代實現(xiàn)節(jié)點圖卷積學(xué)習(xí)的效果。以節(jié)點為特征的圖卷積式為
權(quán)重矩陣參數(shù)。
模型可以劃分為3部分:①圖譜語義學(xué)習(xí);②屬性語義學(xué)習(xí);③空間映射學(xué)習(xí)。本文將以SUN數(shù)據(jù)集為輸入來說明屬性語義與圖譜語義融合增強ZSL模型學(xué)習(xí)過程。
2.3.1 圖譜語義學(xué)習(xí)
與傳統(tǒng)的GCN不同,本文方法在GCN卷積融合的同時讓其做泛化的生成。GCN模塊的使用會彌補GAN中缺失合理泛化和語義信息缺失的問題。GCN的對抗學(xué)習(xí)網(wǎng)絡(luò)設(shè)置了判別器DGcn (discriminator for Gcn),其對抗優(yōu)化的目標(biāo)式為
圖卷積部分實現(xiàn)圖譜語義到視覺空間的嵌入。本文使用SUN官網(wǎng)場景相似關(guān)系提取了該數(shù)據(jù)集中的樣本關(guān)系。SUN知識圖譜包含717個類節(jié)點,3 641條屬性邊。按照DGL庫中標(biāo)準(zhǔn)輸入,本文將樣本分為起始節(jié)點和結(jié)束節(jié)點的集合。類別節(jié)點的特征表示使用原始語義屬性。圖譜語義特征到視覺特征之間的映射方法使用GCN[12]{Kipf, 2016 #11}來實現(xiàn)。GCN輸入是圖關(guān)系中的起始節(jié)點的序號集合和結(jié)束節(jié)點序號集合。研究方法使用了DGL庫中2個圖卷積函數(shù)來組成圖卷積模塊。GCN輸出的偽視覺特征和真實視覺特征使用余弦相似度比較產(chǎn)生損失進行圖卷機模塊GCN的學(xué)習(xí)。圖譜語義學(xué)習(xí)框架如圖4中圖譜語義部分。
圖4 屬性語義與圖譜語義融合增強模型架構(gòu)。生成器實現(xiàn)語義到視覺特征的映射;圖卷積網(wǎng)絡(luò)實現(xiàn)圖譜語義到視覺映射
Fig.4 The framework of attribute and graph semantic reinforcement. The generator realizes the mapping from semantic attributes to visual features, and the graph convolution network realizes the mapping from graph semantic attributes to visual features
2.3.2 屬性語義學(xué)習(xí)
生成器(generator,G)在模型中是用來將語義信息合成偽視覺特征。合成的偽視覺特征將用于視覺特征的融合。生成器部分實現(xiàn)了屬性語義到視覺空間的映射。
場景類別的102維度的語義特征拼接102維的噪聲后輸入到生成器。噪聲的加入保證了生成器可以生成豐富多樣的特征,如圖4中屬性語義部分。
訓(xùn)練過程中生成器和判別器對抗優(yōu)化的目標(biāo)式為
2.3.3 空間映射對抗學(xué)習(xí)
空間映射模塊的作用是將融合后的視覺特征映射到新的空間中,合成的視覺特征在此空間更加的泛化??臻g映射(space encoder,SE)模塊,對應(yīng)的對抗判別器(discriminator for space encoder,DSE)。其將GCN和G的融合視覺特征映射到新的特征空間。其對抗優(yōu)化式為
模型中的圖卷積模塊和生成器產(chǎn)生的偽視覺特征通過融合模塊進行了特征融合,產(chǎn)生了新的視覺特征,如圖4框架圖后半部分。為使融合的視覺特征在測試階段具有類級別的判別性,模型使用空間映射模塊SE (space encoder)讓偽視覺特征在新的特征空間進一步接近真實視覺特征。訓(xùn)練空間映射模塊時真實特征的輸入為ResNet[24]提取的2 048維度的視覺特征??臻g映射模塊接受融合后的偽視覺特征和真實圖片的視覺特征輸入,將合成的視覺特征和真實的視覺特征映射為1 024維度。SE判別器在圖片的真實性和類別標(biāo)簽正確性兩方面進行判別。該判別器在保證SE映射后的視覺特征真實性的前提下,又讓樣本之間產(chǎn)生一定的判別性。空間映射模塊的判別器中使用了標(biāo)簽損失以此來達到更好地分類效果。這種判別性具體體現(xiàn)在類別視覺特征經(jīng)過SE現(xiàn)映射后在映射空間會存在合理的距離。模型測試階段的分類方法使用KNN算法[25]來實現(xiàn)樣本的分類。
實驗通過SUN,AWA,CUB和aPY 4個數(shù)據(jù)集來評估屬性語義與圖譜語義融合模型。本文將依次介紹本次實驗數(shù)據(jù)集、評估方法、實驗細節(jié)和可視化對比展示。
在ZSL中常用的數(shù)據(jù)集有CUB[26],AWA1,AWA2,SUN和aPY[27]等。其中CUB和SUN數(shù)據(jù)集是細粒度的數(shù)據(jù)集。AWA1,AWA2和aPY是粗粒度的數(shù)據(jù)集。為了更好地評測該方法的有效性,本文選擇了SUN,AWA1,CUB和aPY 4個標(biāo)準(zhǔn)數(shù)據(jù)集進行實驗。
場景理解(scene understanding,SUN)數(shù)據(jù)集,是中規(guī)模細粒度混合場景(包括人物、風(fēng)景、風(fēng)箏等類別)的數(shù)據(jù)集。其包括717個場景類別的14 340張圖片,每類含有20張圖片。并且數(shù)據(jù)集中為每個類別提供了102維的場景屬性向量。這些屬性特征描述了場景的材質(zhì)和表面屬性,以及照明條件、功能、供給和一般圖像布局等屬性。
動物與屬性(animals with attributes,AWA)數(shù)據(jù)集涵蓋50個動物分類,30 475張圖像,每類至少包括92個樣本。每張圖像由6個預(yù)提取的特征表示,并且為每個類別標(biāo)注了85維語義屬性。標(biāo)注的屬性使得已見類到未見類的知識遷移成為可能。通常在ZSL的實驗中,將數(shù)據(jù)集中的40類劃分為訓(xùn)練集,10類劃分為測試集。
加州鳥類(Caltech-UCSD Birds-200-2011,CUB)數(shù)據(jù)集是目前細粒度分類識別研究的基準(zhǔn)圖像數(shù)據(jù)集,共有11 788張鳥類圖像,包含200類子類,提供了圖像類標(biāo)記信息、圖像中鳥的屬性信息、位置邊框信息等。
帕斯卡和雅虎(attribute Pascal and Yahoo,aPY)數(shù)據(jù)集是中規(guī)模粗粒度的數(shù)據(jù)集。該數(shù)據(jù)集類別語義為64維,共有15 339張圖片,包含32個目標(biāo)類。4個ZSL數(shù)據(jù)集詳細規(guī)模信息見表2。
表2 SUN,AWA,CUB和aPY數(shù)據(jù)集規(guī)模
目前對于小規(guī)模數(shù)據(jù)集評價指標(biāo)分為2類,即平均分類準(zhǔn)確率(accuracy,Acc)和平均精確率(mean average precision,mAP)。由于部分?jǐn)?shù)據(jù)集可能出現(xiàn)樣本分布不均的情況,在這種情況使用mAP將導(dǎo)致評價結(jié)果失去意義。
模型性能的評估是通過每個類別的Top-1準(zhǔn)確率來進行評估的。在廣義的ZSL中,可見類和未見類的圖片作為ZSL的測試集。然而傳統(tǒng)的ZSL測試集僅僅是未見類中的圖片。在此,評估模型的Top-1準(zhǔn)確率在可見類中,記做。同樣的,未見類的Top-1準(zhǔn)確率記做。然后定義調(diào)和平均值=(2××)/(+)來整體評測ZSL模型的性能。
實驗中,模型的搭建選擇了神經(jīng)網(wǎng)絡(luò)框架Pytorch。生成器構(gòu)建了含有4 096個隱藏單元的隱藏層,激活函數(shù)采用LeakyReLU[28]激活方式。
GCN的知識圖譜的構(gòu)建以及圖譜的卷積操作,模型使用DGL庫函數(shù)以及自定義的模塊化的GCN網(wǎng)絡(luò)來完成知識圖譜語義知識到偽視覺向量的映射。
在DGcn和DG中的相似度判別方式使用了余弦相似度的方式來計算GCN和G生成偽視覺特征的損失值。余弦相似度不同于歐氏距離,其從特定的向量空間中計算出空間向量的夾角,可以從整體的角度去衡量合成視覺特征的真實性。
在特征融合階段,GCN的輸出特征和G的輸出特征通過融合模塊融合?,F(xiàn)階段的視覺特征融合方法使用視覺特征拼接的方式。
在優(yōu)化器的選擇上,選擇了Pytorch中的Adam優(yōu)化器[29],同時將批處理大小設(shè)置為512。學(xué)習(xí)率設(shè)置為0.000 1。實驗中為了使生成器生成偽視覺特征更真實穩(wěn)定,模型的學(xué)習(xí)過程采用Wasser-steinGAN[17]和一些其他的改進優(yōu)化策略。
本文與其他方法進行比較,以驗證屬性語義與圖譜語義融合增強方法的有效性。實驗針對測試階段合成視覺特征的數(shù)量,對模型的性能進行了相應(yīng)的測試。合成視覺特征的數(shù)量對實驗結(jié)果有很大的性能影響是因為測試預(yù)測階段使用最近鄰算法(K-nearest neighbor,KNN)[25]的方式去進行評估,如圖5所示。
圖5 生成器合成視覺特征數(shù)量對實驗結(jié)果的影響((a)AWA數(shù)據(jù)集下,不同數(shù)量的合成視覺特征對的影響。當(dāng)數(shù)量為600時H取得最好的結(jié)果;(b)SUN數(shù)據(jù)集下,不同數(shù)量的合成視覺特征對的影響。當(dāng)數(shù)量為600時H取得最好的結(jié)果;(c) CUB數(shù)據(jù)集下,不同數(shù)量的合成視覺特征對的影響。當(dāng)數(shù)量為200時H取得最好的結(jié)果;(d)APY數(shù)據(jù)集下,不同數(shù)量的合成視覺特征對的影響。當(dāng)數(shù)量為1000時H取得最好的結(jié)果)
KNN考慮的是特征空間中最近的個特征,合成的偽視覺的數(shù)量會直接影響評估算法的匹配。合成未見類特征數(shù)量越多,匹配到未見類別視覺特征的幾率越大。通過在SUN,AWA,CUB和aPY 4個標(biāo)準(zhǔn)數(shù)據(jù)集實驗發(fā)現(xiàn):
(1) SUN數(shù)據(jù)集上合成的視覺特征數(shù)量在600時,,和都取得了最高的值。SUN數(shù)據(jù)集中訓(xùn)練種類多且數(shù)據(jù)集中每個場景類別圖片數(shù)量有明顯差距。屬性語義與圖譜語義融合增強的ZSL模型泛化能力,讓類別數(shù)量較少的未見類識別精度高于可見類識別精度。
(2) aPY數(shù)據(jù)集上,和3個值最高均在合成數(shù)量為1 000時。aPY數(shù)據(jù)集上和值差距較大是由于測試圖片數(shù)量高于訓(xùn)練圖片的數(shù)量。
SUN數(shù)據(jù)集在ZSL中是有挑戰(zhàn)的數(shù)據(jù)集。諸多ZSL模型在AWA,CUB和aPY數(shù)據(jù)集上表現(xiàn)較好,但是在SUN數(shù)據(jù)集上效果欠佳。圖6展示了SUN數(shù)據(jù)集未見類真實的視覺特征通過t-SNE[30]算法降維后的數(shù)據(jù)特征分布。SUN數(shù)據(jù)中未見類的真實視覺特征區(qū)分度不大,聚合度不夠,場景類別視覺中心不夠明顯。
圖6 SUN未見類中真實視覺特征分布
為使數(shù)據(jù)的類視覺中心明確。本文方法首先通過屬性語義與圖譜語義融合增強,進而輸入到SE模塊映射到新空間中進行分類預(yù)測。在新的特征空間中合成的未見類視覺特征可以合理的分布在真實視覺特征中心的周圍,如圖7所示。
圖7 SUN未見類中真實特征和合成特征的分布
表3為廣義的ZSL的結(jié)果。本文選擇近三年來廣義ZSL的相關(guān)方法與屬性語義與圖譜語義融合增強的方法進行對比。通過對比,本文方法模型在4個標(biāo)準(zhǔn)數(shù)據(jù)集上都取得了相對較好的實驗結(jié)果。
表3 屬性語義與圖譜語義融合增強的零次學(xué)習(xí)方法與現(xiàn)階段工作的對比
本文設(shè)計了一種屬性語義與圖譜語義融合增強的ZSL模型,并在SUN,AWA,CUB和aPY數(shù)據(jù)集上進行了實驗,表現(xiàn)出較好的效果。該方法結(jié)合知識圖譜和GAN在ZSL中的優(yōu)點,一定程度上解決了領(lǐng)域漂移問題中語義信息缺失問題,可以將類別語義特征合成更為細致泛化的視覺特征,有著較強的泛用性和可解釋性。
后續(xù)將針對ZSL中領(lǐng)域漂移的未見類語義缺失問題,通過使用知識圖譜關(guān)聯(lián)目標(biāo)級別的視覺特征嘗試進行解決。這也是ZSL向強人工智能邁進的重要一步。
[1] PALATUCCI M, POMERLEAU D, HINTON G E, et al. Zero-shot learning with semantic output codes[C]//The 22nd International Conference on Neural Information Processing Systems. New York: ACM Press, 2009: 1410-1418.
[2] LAMPERT C H, NICKISCH H, HARMELING S. Learning to detect unseen object classes by between-class attribute transfer[C]//2009 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2009: 951-958.
[3] AKATA Z, PERRONNIN F, HARCHAOUI Z, et al. Label-embedding for attribute-based classification[C]//2013 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2013: 819-826.
[4] KODIROV E, XIANG T, GONG S G. Semantic autoencoder for zero-shot learning[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2017: 4447-4456.
[5] GOODFELLOW I, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial networks[J]. Communications of the ACM, 2020, 63(11): 139-144.
[6] ZHU Y Z, ELHOSEINY M, LIU B C, et al. A generative adversarial approach for zero-shot learning from noisy texts[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 1004-1013.
[7] JI Z, CHEN K X, WANG J Y, et al. Multi-modal generative adversarial network for zero-shot learning[J]. Knowledge- Based Systems, 2020, 197: 105847.
[8] LI J J, JING M M, LU K, et al. Leveraging the invariant side of generative zero-shot learning[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2019: 7394-7403.
[9] HUANG H, WANG C H, YU P S, et al. Generative dual adversarial network for generalized zero-shot learning[C]// 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2019: 801-810.
[10] SARIYILDIZ M B, CINBIS R G. Gradient matching generative networks for zero-shot learning[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2019: 2163-2173.
[11] PUJARA J, MIAO H, GETOOR L, et al. Knowledge graph identification[C]//The 12th International Semantic Web Conference. Heidelberg: Springer, 2013: 542-557.
[12] KIPF T N, WELLING M. Semi-supervised classification with graph convolutional networks[EB/OL]. [2021-02-21]. https:// arxiv.org/abs/1609.02907.
[13] WANG X L, YE Y F, GUPTA A. Zero-shot recognition via semantic embeddings and knowledge graphs[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 6857-6866.
[14] KAMPFFMEYER M, CHEN Y B, LIANG X D, et al. Rethinking knowledge graph propagation for zero-shot learning[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2019: 11479-11488.
[15] BARLOW H B. Unsupervised learning[J]. Neural Computation, 1989, 1(3): 295-311.
[16] KINGMA D P, WELLING M.Auto-encoding variational bayes[EB/OL]. [2021-01-30]. https://arxiv.org/pdf/1312.6114. pdf?source=post_page.
[17] ARJOVSKY M, CHINTALA S, BOTTOU L.Wasserstein generative adversarial networks[C]//The 34th International Conference on Machine Learning. New York: ACM Press, 2017: 214-223.
[18] MIRZA M, OSINDERO S.Conditional generative adversarial nets[EB/OL]. [2021-02-05]. https://arxiv.org/pdf/1411.1784. pdf.
[19] ODENA A, OLAH C, SHLENS J. Conditional image synthesis with auxiliary classifier GANs[EB/OL]. [2021-02-29]. http:// proceedings.mlr.press/v70/odena17a/odena17a.pdf.
[20] ZHU Y Z, ELHOSEINY M, LIU B C, et al. A generative adversarial approach for zero-shot learning from noisy texts[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 1004-1013.
[21] HUANG H, WANG C H, YU P S, et al. Generative dual adversarial network for generalized zero-shot learning[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2019: 801-810.
[22] PATTERSON G, XU C, SU H, et al. The SUN attribute database: beyond categories for deeper scene understanding[J]. International Journal of Computer Vision, 2014, 108(1-2): 59-81.
[23] HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2016: 770-778.
[24] HASTIE T, TIBSHIRANI R. Discriminant adaptive nearest neighbor classification[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1996, 18(6): 607-616.
[25] WELINDER P, BRANSON S, MITA T, et al. Caltech-UCSD birds 200 [EB/OL]. [2021-01-30]. https://www.researchgate. net/publication/46572499_Caltech-UCSD_Birds_200.
[26] FARHADI A, ENDRES I, HOIEM D, et al. Describing objects by their attributes[C]//2009 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2009: 1778.
[27] LAMPERT C H, NICKISCH H, HARMELING S. Learning to detect unseen object classes by between-class attribute transfer[C]//2009 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2009: 951-958.
[28] ZHANG X H, ZOU Y X, SHI W. Dilated convolution neural network with LeakyReLU for environmental sound classification[C]//2017 22nd International Conference on Digital Signal Processing (DSP). New York: IEEE Press, 2017: 1-5.
[29] DA K. A method for stochastic optimization[EB/OL]. [2021- 01-13]. https://arxiv.org/pdf/1412.6980.pdf.
[30] VAN DER MAATEN L, HINTON G. Visualizing data using t-SNE[J]. Journal of Machine Learning Research, 2008, 9: 2579-2625.
[31] VERMA V K, ARORA G, MISHRA A, et al. Generalized zero-shot learning via synthesized examples[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 4281-4289.
[32] XIAN Y Q, LORENZ T, SCHIELE B, et al. Feature generating networks for zero-shot learning[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 5542-5551.
[33] SCH?NFELD E, EBRAHIMI S, SINHA S, et al. Generalized zero- and few-shot learning via aligned variational autoencoders[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2019: 8239-8247.
[34] PAUL A, KRISHNAN N C, MUNJAL P. Semantically aligned bias reducing zero shot learning[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2019: 7049-7058.
[35] SARIYILDIZ M B, CINBIS R G. Gradient matching generative networks for zero-shot learning[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2019: 2168-2178.
[36] VYAS M R, VENKATESWARA H, PANCHANATHAN S. Leveraging seen and unseen semantic relationships for generative zero-shot learning[C]//The 16th European Conference on Computer Vision - ECCV 2020. Heidelberg: Springer, 2020: 70-86.
Attribute and graph semantic reinforcement based zero-shot learning for image recognition
WANG Yu-jin, XIE Cheng, YU Bei-bei, XIANG Hong-xin, LIU Qing
(School of Software, Yunnan University, Kunming Yunnan 650500, China)
Zero-shot learning (ZSL) is an important branch of transfer learning in the field of image recognition. The main learning method is to train the mapping relationship between the semantic attributes of the visible category and the visual attributes without using the unseen category, and use this mapping relationship to identify the unseen category samples, which is a hot spot in the current image recognition field. For the existing ZSL model, there remains the information asymmetry between the semantic attributes and the visual attributes, and the semantic information cannot well describe visual information, leading to the problem of domain shift. In the process of synthesizing unseen semantic attributes into visual attributes, part of the visual feature information was not synthesized, which affected the recognition accuracy. In order to solve the problem of the lack of unseen semantic features and synthesis of unseen visual features, this paper designed a ZSL model that combined attribute and graph semantic to improve the zero-shot learning’s accuracy. In the learning process of the model, the knowledge graph was employed to associate visual features, while considering the attribute connection among samples, the semantic information of the seen and unseen samples was enhanced, and the adversarial learning process was utilized to strengthen the synthesis of visual features. The method shows good experimental results through experiments on four typical data sets, and the model can synthesize more detailed visual features, and its performance is superior to the existing ZSL methods.
zero-shot learning; knowledge graph; generative adversarial networks; graph convolution; image recognition
TP 391
10.11996/JG.j.2095-302X.2021060899
A
2095-302X(2021)06-0899-09
2021-03-24;
2021-05-10
中國科協(xié)“青年人才托舉工程”項目(W8193209);云南省科技廳項目(202001BB050035)
汪玉金(1995-),男,山東泰安人,碩士研究生。主要研究方向為知識圖譜、零次學(xué)習(xí)和圖像生成。E-mail:wyj1934966789@gmail.com
謝 誠(1987-),男,云南普洱人,副教授,博士。主要研究方向為知識圖譜與零次學(xué)習(xí)。E-mail:xiecheng@ynu.edu.cn
24 March,2021;
10May,2021
China Association for Science and Technology “Youths Talents Support Project” (W8193209); Technology Department Program of Yunnan Province (202001BB050035)
WANG Yu-jin (1995–), male, master student. His main research interests cover knowledge graph, zero-shot learning and image generation. E-mail:wyj1934966789@gmail.com
XIE Cheng (1987–), male, associate professor, Ph.D. His main research interests cover knowledge graph, zero-shot learning. E-mail:xiecheng@ynu.edu.cn