王紫沁,楊 維
(北京交通大學(xué) 電子信息工程學(xué)院,北京 100044)
當(dāng)測(cè)試數(shù)據(jù)中的類(lèi)別(不可見(jiàn)類(lèi))在訓(xùn)練數(shù)據(jù)的類(lèi)別(可見(jiàn)類(lèi))中沒(méi)有出現(xiàn)時(shí),零樣本學(xué)習(xí)算法(zero-shot learning,ZSL)通過(guò)利用包含類(lèi)別關(guān)聯(lián)信息的語(yǔ)義空間和已知類(lèi)的訓(xùn)練數(shù)據(jù)對(duì)不可見(jiàn)類(lèi)識(shí)別[1,2]。基于映射方法的ZSL做法是用可見(jiàn)類(lèi)數(shù)據(jù)學(xué)習(xí)圖像空間和語(yǔ)義空間的映射模型,將模型運(yùn)用到不可見(jiàn)類(lèi)上,然后在映射空間使用相似性度量對(duì)未知類(lèi)進(jìn)行識(shí)別。針對(duì)視覺(jué)-語(yǔ)義映射模型,已有的工作可以分為3類(lèi):第一類(lèi)將圖像特征映射到語(yǔ)義空間[3-5],第二類(lèi)將圖像特征和語(yǔ)義特征映射到公共空間[6-9]。不論是語(yǔ)義空間還是公共空間映射都會(huì)加劇高維空間樞紐問(wèn)題,采用KNN算法時(shí),一些“hubs”會(huì)成為大多樣本的預(yù)測(cè)類(lèi)別。第三類(lèi)采用反向映射回歸方法可以規(guī)避樞紐問(wèn)題[10,11],但是語(yǔ)義原型特征映射到圖像空間后易于匯聚到原點(diǎn),偏離每類(lèi)的圖像特征區(qū)域。除了樞紐問(wèn)題外,第二類(lèi)方法中Fu等提出域漂移現(xiàn)象,并提出使用多個(gè)語(yǔ)義和圖像特征的正規(guī)相關(guān)分析來(lái)緩解漂移問(wèn)題,但使用了測(cè)試數(shù)據(jù)并且算法復(fù)雜[7]。第一類(lèi)方法中Kodirov E等提出語(yǔ)義自編碼(SAE)方法,通過(guò)構(gòu)建語(yǔ)義空間映射模型并增加重構(gòu)圖像空間的約束。該方法存在語(yǔ)義特征到圖像特征的映射,但是體現(xiàn)在CUB數(shù)據(jù)集,在AwA數(shù)據(jù)集是正向映射為主體。SAE針對(duì)解決的是域漂移問(wèn)題,算法高效且簡(jiǎn)單[5]。
為了聯(lián)合考慮上述兩個(gè)問(wèn)題,提出了基于語(yǔ)義對(duì)齊和重構(gòu)的零樣本學(xué)習(xí)算法RMSASC(reverse mapping via semantic alignment and semantic reconstruction)。首先,本文采用語(yǔ)義空間到圖像空間映射規(guī)避樞紐問(wèn)題,并針對(duì)語(yǔ)義原型偏離現(xiàn)象提出基于語(yǔ)義對(duì)齊的約束,使語(yǔ)義原型特征都映射至每類(lèi)圖像特征原型處,促使兩個(gè)空間特征對(duì)齊,緩解了樞紐問(wèn)題。同時(shí)為了緩解域漂移問(wèn)題提出語(yǔ)義特征重構(gòu)的約束,使模型學(xué)習(xí)到完整的映射到圖像空間的、沒(méi)有丟失不可見(jiàn)類(lèi)的有效語(yǔ)義特征維度信息,使模型更具有泛化性和魯棒性。通過(guò)在零樣本學(xué)習(xí)的基準(zhǔn)數(shù)據(jù)集(AWA和CUB)上實(shí)驗(yàn),驗(yàn)證了所提零樣本算法具有較好的分類(lèi)效果。
RMSASC零樣本學(xué)習(xí)算法是為了緩解零樣本學(xué)習(xí)中的樞紐問(wèn)題和域漂移問(wèn)題而提出的,該算法的基本映射模型是語(yǔ)義空間到圖像空間的反向回歸映射。模型的架構(gòu)采用兩層的神經(jīng)網(wǎng)絡(luò),每層神經(jīng)網(wǎng)絡(luò)是線性層和激活層的組合,比線性映射模型有更強(qiáng)的表達(dá)能力,充分學(xué)習(xí)兩個(gè)空間特征的關(guān)系。采用基本模型,映射后的語(yǔ)義特征比圖像特征方差小,仍會(huì)偏離圖像特征中心區(qū)域,在采用KNN算法找最近鄰時(shí),hubs會(huì)導(dǎo)致預(yù)測(cè)失誤。語(yǔ)義對(duì)齊的正則化約束可以使每個(gè)樣本的語(yǔ)義原型特征映射至每類(lèi)圖像特征原型處,促使兩個(gè)空間特征原型對(duì)齊,有效緩解了樞紐問(wèn)題。同時(shí),為了緩解零樣本學(xué)習(xí)中的域漂移問(wèn)題,提出加入將圖像空間中的語(yǔ)義特征映射點(diǎn)重新映射到語(yǔ)義空間的正則化約束,重構(gòu)完整有效的語(yǔ)義特征信息。因?yàn)樵谟每梢?jiàn)類(lèi)訓(xùn)練數(shù)據(jù)訓(xùn)練模型中,有的語(yǔ)義特征維度對(duì)于不可見(jiàn)類(lèi)是重要的,而于可見(jiàn)類(lèi)是不重要的,在模型學(xué)習(xí)中可能會(huì)被丟掉。語(yǔ)義重構(gòu)的約束會(huì)重構(gòu)完整的語(yǔ)義特征信息,使得模型更具有泛化性和魯棒性。接下來(lái)從RMSASC零樣本學(xué)習(xí)算法的基本模型、語(yǔ)義對(duì)齊和語(yǔ)義重構(gòu)約束介紹。
本文提出的基于語(yǔ)義對(duì)齊和重構(gòu)的零樣本學(xué)習(xí)算法——RMSASC的整體架構(gòu)如圖1所示,主要包含兩個(gè)分支:圖像特征提取分支和語(yǔ)義特征映射分支。
圖1 RMSASC模型整體架構(gòu)
圖像特征提取分支是將訓(xùn)練圖像Ii輸入CNN卷積特征提取網(wǎng)絡(luò),輸出得到維度為D的圖像特征向量φ(Ii)∈RD×1。 圖像特征空間將作為圖像的嵌入空間和該圖像所對(duì)應(yīng)的可見(jiàn)類(lèi)語(yǔ)義特征的映射空間。
圖2 語(yǔ)義特征映射分支
語(yǔ)義特征映射分支中的映射模型中的參數(shù)是需要學(xué)習(xí)的,當(dāng)每個(gè)訓(xùn)練圖像的語(yǔ)義特征映射到圖像特征空間后,和提取的圖像特征之間計(jì)算通過(guò)平方損失函數(shù),目標(biāo)是最小化訓(xùn)練樣本的圖像特征和語(yǔ)義嵌入特征的誤差,使得訓(xùn)練圖像的語(yǔ)義嵌入特征與圖像特征的相似度變大。通過(guò)上述定義,則RMSASC算法的基本模型(RM)如下所示
(1)
其中,W1∈RL×M是語(yǔ)義特征映射分支映射模型的神經(jīng)網(wǎng)絡(luò)的第一個(gè)FC層的權(quán)重,W2∈RM×D是第二個(gè)FC層的權(quán)重。γ是損失函數(shù)中對(duì)權(quán)重的正則化損失的參數(shù),是一個(gè)超參數(shù)。f(·)=max(0,·) 是ReLU激活函數(shù)。
反向回歸映射后,會(huì)存在一種現(xiàn)象:在圖像特征空間中,語(yǔ)義嵌入特征的方差小于圖像特征的方差,即映射后的數(shù)據(jù)更加接近空間的原點(diǎn)而不是目標(biāo)數(shù)據(jù)分布。雖然式(1)的目標(biāo)函數(shù)是為了使每個(gè)圖像的語(yǔ)義特征映射后盡可能接近于該圖像特征,但是存在的這個(gè)現(xiàn)象,使每個(gè)樣本的語(yǔ)義特征不能通過(guò)映射模型學(xué)習(xí)到圖像空間中最佳的映射點(diǎn),在進(jìn)行最近鄰預(yù)測(cè)算法中,hubs可能導(dǎo)致類(lèi)別預(yù)測(cè)錯(cuò)誤。因此,設(shè)計(jì)一個(gè)語(yǔ)義對(duì)齊約束,讓每個(gè)樣本所屬類(lèi)別的語(yǔ)義特征通過(guò)映射后,與該類(lèi)樣本圖像特征的原型對(duì)齊。這種約束對(duì)數(shù)據(jù)進(jìn)行了增強(qiáng)處理,增加了樣本的多樣性,進(jìn)而增強(qiáng)了模型的學(xué)習(xí)表達(dá)能力;同時(shí)提供了圖像空間每個(gè)類(lèi)的標(biāo)準(zhǔn),利于語(yǔ)義原型特征映射到正確類(lèi)別的圖像特征處而不是原點(diǎn)附近,緩解了樞紐問(wèn)題。
每類(lèi)樣本的圖像特征的原型是具有代表性的點(diǎn),大量的樣本的數(shù)據(jù)分布滿足高斯分布,因此原型點(diǎn)是每類(lèi)圖像特征的均值。提出的語(yǔ)義對(duì)齊的約束如下
(2)
在基于語(yǔ)義對(duì)齊的反向映射零樣本學(xué)習(xí)算法(RMSA)中,其目的是最小化語(yǔ)義特征和圖像特征、語(yǔ)義特征和圖像特征原型的歐氏距離,很好學(xué)習(xí)到了可見(jiàn)類(lèi)圖像的兩個(gè)特征空間的數(shù)據(jù)相似關(guān)系。但是,可見(jiàn)類(lèi)和不可見(jiàn)類(lèi)別對(duì)象分別具有不同的互斥的類(lèi)集,因此在兩個(gè)空間的數(shù)據(jù)分布是不同的。如果直接把在可見(jiàn)類(lèi)數(shù)據(jù)集上學(xué)習(xí)到映射模型運(yùn)用到不可見(jiàn)類(lèi)別的對(duì)象上,則結(jié)果會(huì)產(chǎn)生一定的偏差。因此,為了緩解這一問(wèn)題,受語(yǔ)義自編碼模型的啟發(fā),考慮添加將語(yǔ)義嵌入特征映射的結(jié)果再反向映射到語(yǔ)義空間的語(yǔ)義重構(gòu)約束。這一約束可以使得語(yǔ)義-視覺(jué)的映射模型重構(gòu)原始完整的語(yǔ)義特征信息。因?yàn)橛械恼Z(yǔ)義特征對(duì)于不可見(jiàn)類(lèi)別是重要的,對(duì)可見(jiàn)類(lèi)是不重要的,所以可能用訓(xùn)練數(shù)據(jù)學(xué)習(xí)模型過(guò)程中,某些不可見(jiàn)類(lèi)的語(yǔ)義特征被丟失。因此語(yǔ)義重構(gòu)約束使得模型具有魯棒性和泛化性,更好的應(yīng)用于未知類(lèi)對(duì)象。語(yǔ)義重構(gòu)約束如下
(3)
通過(guò)結(jié)合上述的基本模型、語(yǔ)義對(duì)齊約束和語(yǔ)義重構(gòu)約束,得到了基于語(yǔ)義對(duì)齊和重構(gòu)的零樣本分類(lèi)算法(RMSASC)。算法模型表示為
(4)
其中,λ、β和γ是需要學(xué)習(xí)的超參。
當(dāng)映射模型學(xué)習(xí)完以后,將測(cè)試圖像Ij輸入圖像特征提取分支得到圖像視覺(jué)特征φ(Ij)∈RD×1, 將所有不可見(jiàn)類(lèi)語(yǔ)義特征經(jīng)過(guò)語(yǔ)義特征映射分支映射到圖像特征空間中,得到語(yǔ)義嵌入特征φ(yv)∈RD×1, 然后計(jì)算測(cè)試圖像視覺(jué)特征與所有的語(yǔ)義潛入特征的距離,最后找到距離最小的語(yǔ)義嵌入特征,其所對(duì)應(yīng)的類(lèi)為該對(duì)象的類(lèi)別。計(jì)算如下
(5)
其中,D是距離度量函數(shù),本文采用的是歐式距離。yv是語(yǔ)義特征空間的第v類(lèi)的語(yǔ)義特征。
本文基于PyTorch[12]深度學(xué)習(xí)框架實(shí)現(xiàn)了RMSASC算法,并在兩大主流零樣本標(biāo)準(zhǔn)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。實(shí)驗(yàn)的環(huán)境是一臺(tái)擁有4張12 196 MB顯存的Titan Xp和1塊62 GB的CPU內(nèi)存的Ubuntu服務(wù)器。
本次實(shí)驗(yàn)使用的是各具特點(diǎn)的且含有公開(kāi)圖像的標(biāo)準(zhǔn)的零樣本學(xué)習(xí)數(shù)據(jù)集,即AwA(animals with attribu-tes)[13]和Caltech-UCSD Bird2011(CUB)[14]。數(shù)據(jù)集的詳細(xì)細(xì)節(jié)見(jiàn)表1。
表1 數(shù)據(jù)集的詳細(xì)信息
AwA是動(dòng)物數(shù)據(jù)集,屬于粗粒度圖像,共包括50個(gè)類(lèi)別的30 475張圖像。按照官方劃分,其中可見(jiàn)類(lèi)類(lèi)別是40類(lèi),不可見(jiàn)類(lèi)類(lèi)別是10類(lèi),每個(gè)類(lèi)別都具有85維的連續(xù)屬性。CUB是鳥(niǎo)類(lèi)數(shù)據(jù)集,屬于細(xì)粒度圖像,共包括200個(gè)類(lèi)別的11 788張圖像,其中,可見(jiàn)類(lèi)類(lèi)別是150類(lèi),不可見(jiàn)類(lèi)別是50類(lèi),每個(gè)類(lèi)別都具有312維的連續(xù)屬性。
本文實(shí)驗(yàn)數(shù)據(jù)集的圖像特征提取網(wǎng)絡(luò)采用的是在ImageNet數(shù)據(jù)集上進(jìn)行過(guò)預(yù)訓(xùn)練的ResNet101卷積網(wǎng)絡(luò)[15],并沒(méi)有在相應(yīng)的數(shù)據(jù)集上做微調(diào)處理。首先把本文數(shù)據(jù)集的圖像按照中心裁剪方式裁剪成256×256尺寸,然后縮放成224×224尺寸;其次,將圖像的3個(gè)顏色通道分別按均值為(0.229,0.224,0.225),標(biāo)準(zhǔn)差為(0.485,0.456,0.406)進(jìn)行歸一化處理后,輸入到預(yù)訓(xùn)練的ResNet101卷積網(wǎng)絡(luò),得到全局池化層(GAP)輸出的2048維的圖像特征。
本文使用的語(yǔ)義空間的特征是屬性特征。具體地說(shuō),AwA使用的是數(shù)據(jù)集提供的85維度的類(lèi)級(jí)別的連續(xù)屬性;CUB使用的是數(shù)據(jù)集提供的312維度的類(lèi)級(jí)別的連續(xù)屬性。
(1)首先要確定在基本模型RM下語(yǔ)義特征映射分支的神經(jīng)網(wǎng)絡(luò)的架構(gòu),輸入層神經(jīng)元數(shù)目由屬性維度決定,輸出神經(jīng)元數(shù)目由圖像特征維度確定,中間第一個(gè)FC層的神經(jīng)元個(gè)數(shù)通過(guò)實(shí)驗(yàn)確定。對(duì)于AwA,設(shè)置FC層神經(jīng)元數(shù)目m取值范圍是m∈[100,2000]; 對(duì)于CUB,設(shè)置FC層神經(jīng)元數(shù)目m取值范圍是m∈[400,2000]。 通過(guò)實(shí)驗(yàn)確定AwA和CUB的第一個(gè)FC層的神經(jīng)元個(gè)數(shù)分別為300和800。
(2)當(dāng)確定了神經(jīng)網(wǎng)絡(luò)模型后,調(diào)節(jié)目標(biāo)函數(shù)(4)的超參,設(shè)置λ∈[0,0.2,0.4,0.6,0.8,1],β∈[0,0.00001,0.0001,0.001,0.01,0.1,1]。 通過(guò)取不同數(shù)值進(jìn)行網(wǎng)格搜索,得到了RMSASC模型。
在第(1)和第(2)的訓(xùn)練過(guò)程中,采用的是Adam優(yōu)化算法,對(duì)于AwA數(shù)據(jù)集,學(xué)習(xí)率設(shè)置為0.0001,mini-batch設(shè)置為64,梯度裁剪設(shè)置為5;對(duì)于CUB數(shù)據(jù)集,學(xué)習(xí)率設(shè)置為0.000 01,mini-batch設(shè)置為100,梯度裁剪設(shè)置為1。
經(jīng)過(guò)在AwA和CUB的20 000次和30 000次的迭代訓(xùn)練和權(quán)重更新,本文得到了在數(shù)據(jù)集AwA和CUB上的ZSL實(shí)驗(yàn)結(jié)果,表2給出了本文方法與其它方法的比較結(jié)果。本文對(duì)比的零樣本學(xué)習(xí)算法有直接屬性預(yù)測(cè)(DAP)[4]、語(yǔ)義相似性嵌入零樣本學(xué)習(xí)算法(SSE)[16]、聯(lián)合嵌入零樣本學(xué)習(xí)算法(SJE)[6]、一種簡(jiǎn)單的不可靠約束的零樣本學(xué)習(xí)算法(ESZSL)[8]、合成分類(lèi)器的零樣本學(xué)習(xí)算法(SYNC)[17]、指數(shù)族的零樣本學(xué)習(xí)算法(GFZSL)[18]、語(yǔ)義自編碼器的零樣本學(xué)習(xí)算法(SAE)[5]和深度嵌入約束的零樣本學(xué)習(xí)算法(DEM)[10]。
表2 不同的零樣本分類(lèi)方法在數(shù)據(jù)集上的正確率比較
表2中,“-”表示該文獻(xiàn)并沒(méi)有對(duì)相應(yīng)的數(shù)據(jù)集做實(shí)驗(yàn)。
我們可以看到本文提出的RMSASC模型在AwA數(shù)據(jù)集的未知類(lèi)別上取得了88.8%的分類(lèi)正確率,在CUB數(shù)據(jù)集的未知類(lèi)別上取得了59.6%的分類(lèi)正確率。對(duì)于AWA,本文的分類(lèi)正確率是最高的,與本文具有較大競(jìng)爭(zhēng)力的是SAE和DEM模型,本文模型比SAE和DEM模型分別提高了4.1%和2.1%;對(duì)于CUB,本文模型的分類(lèi)正確率雖然比SAE模型小,但是效果仍然是比較好的,比GFZEL和DEM模型分別提高了3.1%和1.3%。驗(yàn)證了本文的方法對(duì)未知類(lèi)別具有較高的識(shí)別能力。
本文是在反向映射的基本模型上,增加了基于語(yǔ)義對(duì)齊和語(yǔ)義重構(gòu)的約束,得到了RMSASC模型。接下來(lái)想考察一下RM、RMSA和RMSASC模型在數(shù)據(jù)集上的分類(lèi)識(shí)別率,來(lái)驗(yàn)證一下兩個(gè)約束的有效性。
下面定義一下3種模型:
(1)RM基本模型:設(shè)置目標(biāo)函數(shù)(4)中的λ=0,β=0;
(2)RMSA模型:設(shè)置目標(biāo)函數(shù)(4)中β=0, 調(diào)節(jié)λ;
(3)RMSASC模型:目標(biāo)函數(shù)(4)不變,調(diào)節(jié)λ和β。
圖3和圖4分別是RMSA模型在AwA和CUB數(shù)據(jù)集的分類(lèi)識(shí)別率情況。從圖中可以看出,增加語(yǔ)義對(duì)齊約束可以提高零樣本分類(lèi)算法的分類(lèi)性能。對(duì)于AwA,當(dāng)λ等于0.6的時(shí)候,RMSA的分類(lèi)正確率比λ等于0(RM基本模型)的分類(lèi)正確率高。對(duì)于CUB,當(dāng)λ等于0.4的時(shí)候,RMSA的分類(lèi)正確率比λ等于0(RM基本模型)的分類(lèi)正確率高。根據(jù)結(jié)果,說(shuō)明了基于語(yǔ)義對(duì)齊的約束,可以幫助語(yǔ)義空間的每類(lèi)的語(yǔ)義特征較優(yōu)地映射到圖像空間中每類(lèi)的圖像特征中,提高了分類(lèi)識(shí)別率,驗(yàn)證了它的有效性。
圖3 RMSA模型在AwA數(shù)據(jù)集的分類(lèi)識(shí)別率
圖4 RMSA模型在CUB數(shù)據(jù)集的分類(lèi)識(shí)別率
圖5和圖6分別是RMSASC模型在AwA和CUB數(shù)據(jù)上的分類(lèi)識(shí)別率情況。圖中,橫坐標(biāo)顯示的是不同的語(yǔ)義約束,圖中央顯示的6個(gè)不同的語(yǔ)義重構(gòu)約束,縱坐標(biāo)顯示的是分類(lèi)正確率。
圖5 RMSASC模型在AwA數(shù)據(jù)集的分類(lèi)識(shí)別率
圖6 RMSASC模型在CUB數(shù)據(jù)集的分類(lèi)識(shí)別率
如圖5所示,對(duì)于AwA數(shù)據(jù)集,當(dāng)λ等于0時(shí),只存在重構(gòu)約束的情況下,仍然可以得到比RM模型較高的分類(lèi)識(shí)別率。當(dāng)λ不等于0時(shí),可以看到beta等于0.000 01、0.0001時(shí),RMSASC模型的分類(lèi)識(shí)別率具有明顯的提升,比RM模型的分類(lèi)識(shí)別率高1.73%,比RMSA模型分類(lèi)識(shí)別率高1.4%。如圖6所示,對(duì)于CUB數(shù)據(jù)集,當(dāng)λ等于0時(shí),只存在重構(gòu)約束的情況下,仍然可以得到比RM模型較高的分類(lèi)識(shí)別率。當(dāng)λ不等于0時(shí),可以看到beta等于0.000 01、0.0001時(shí),RMSASC模型的分類(lèi)識(shí)別率也有一定的提升,比RM模型的分類(lèi)識(shí)別率高0.88%,比RMSA模型分類(lèi)識(shí)別率高0.61%。根據(jù)結(jié)果,表明了基于語(yǔ)義重構(gòu)的約束,幫助重構(gòu)語(yǔ)義空間語(yǔ)義特征,可以提高模型的泛化能力,緩解了ZSL的域漂移,提高了分類(lèi)識(shí)別率,驗(yàn)證了它的有效性。
本文聯(lián)合樞紐問(wèn)題和域漂移問(wèn)題,提出了一種基于語(yǔ)義對(duì)齊和語(yǔ)義重構(gòu)約束的零樣本學(xué)習(xí)算法。本文采用語(yǔ)義空間回歸映射到圖像空間來(lái)避免映射到其它空間加劇樞紐問(wèn)題。針對(duì)反向映射現(xiàn)象存在的不足:映射后的語(yǔ)義特征比圖像特征方差小,易于匯聚到處于原點(diǎn)附近。加入語(yǔ)義對(duì)齊的正則化約束,有利于語(yǔ)義空間類(lèi)級(jí)別的語(yǔ)義原型特征和圖像特征原型點(diǎn)的對(duì)齊,進(jìn)一步緩解了樞紐問(wèn)題,提高了最近鄰算法的預(yù)測(cè)正確率。同時(shí)提出加入語(yǔ)義重構(gòu)的正則化約束,重構(gòu)語(yǔ)義特征信息,使得模型更具有泛化性和魯棒性,緩解了域漂移問(wèn)題。實(shí)驗(yàn)結(jié)果表明,在基本模型的基礎(chǔ)上所加入的約束對(duì)于AwA和CUB數(shù)據(jù)集測(cè)試類(lèi)樣本的識(shí)別率具有較明顯的提升,驗(yàn)證了所提算法的有效性。