袁志祥,王雅卿,黃俊
(安徽工業(yè)大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,安徽 馬鞍山 243032)
傳統(tǒng)的圖像分類問題主要屬于單標記學(xué)習(xí)領(lǐng)域的問題,即一個對象只有一個類別標簽。而在很多應(yīng)用中目標對象并沒有那么簡單,一個對象可以屬于好幾個類別。例如,在圖像分類中,一張圖片里可能包含多個物體;在文本分類中,一篇新聞可能涵蓋多個主題;在視頻分類中,一個電影可能屬于多個類型。
由于以往的單標記學(xué)習(xí)方法只能預(yù)測類別單一的樣本,使用效果有待改善,因此人們將注意力轉(zhuǎn)移到了多標記學(xué)習(xí)上。多標記學(xué)習(xí)的主要任務(wù)是通過訓(xùn)練數(shù)據(jù),學(xué)習(xí)高效的分類模型,為輸入樣本預(yù)測可能的類別標記集合。隨著數(shù)據(jù)集的擴大和深度學(xué)習(xí)方法越來越成熟,多標記學(xué)習(xí)問題得到解決,但在實際應(yīng)用場景中,大部分數(shù)據(jù)集依然沒有類別標記,這要求模型能夠識別訓(xùn)練過程中從未見過的類別,于是多標記零樣本學(xué)習(xí)應(yīng)運而生。多標記零樣本學(xué)習(xí)模擬了人類學(xué)習(xí)未知事物的過程,利用以往學(xué)習(xí)到的先驗知識為目標樣本推理預(yù)測多個未見過的新類別。然而目前的零樣本問題幾乎也都屬于單標記學(xué)習(xí)領(lǐng)域,在多標記方向上的研究很少。
本文針對多標記零樣本分類問題,提出一種基于深度互學(xué)習(xí)技術(shù)的解決方案。該方案包含3 個模塊,其中一個子網(wǎng)絡(luò)利用圖像中每個區(qū)域與其他區(qū)域的關(guān)聯(lián)信息來增強圖像本身的特征,挖掘圖像中存在的類別標簽,包括已知和未知;另一個子網(wǎng)絡(luò)將標簽的語義信息與圖像的每個區(qū)域特征相融合,在訓(xùn)練過程中引入標簽語義使知識可以很好地從已知標簽轉(zhuǎn)移到未知標簽;另一個是深度互學(xué)習(xí)模塊,該模塊能使兩個子網(wǎng)絡(luò)在訓(xùn)練過程中做深度互學(xué)習(xí),即他們在訓(xùn)練自身分類性能的同時還能互相學(xué)習(xí)對方的訓(xùn)練經(jīng)驗,從而達到互相促進、共同進步的目的。
隨著數(shù)據(jù)集的擴大和深度學(xué)習(xí)方法的逐漸成熟,圖像分類領(lǐng)域取得了顯著的發(fā)展。多標記分類的任務(wù)是為輸入圖像預(yù)測多個標簽,通過為每個標簽學(xué)習(xí)一個二元分類器[1]完成,但它有兩個缺點,一是在處理大量標簽時增加了計算的復(fù)雜性,二是不包含標簽之間的相關(guān)性。近年來大多數(shù)多標記學(xué)習(xí)方法均聚焦在挖掘標簽之間的相關(guān)性上,比如文獻[2]通過對標記空間進行屬性聚類來挖掘標簽的局部相關(guān)性;文獻[3]利用余弦相似性來計算標簽的全局和局部相關(guān)性;文獻[4-5]采用圖神經(jīng)網(wǎng)絡(luò)建立標簽之間的依賴關(guān)系;文獻[6]基于先驗知識的詞嵌入將標簽轉(zhuǎn)化為嵌入的標簽向量后,再利用標簽之間的相關(guān)性;文獻[7-9]使用基于注意力機制的方法來解決多標記問題,通過編碼圖像的每個區(qū)域,使訓(xùn)練過程中的模型能注意到圖像中的每個部分。
雖然上述大多數(shù)方法在傳統(tǒng)的多標記學(xué)習(xí)中都能取得很好的成績,但不能直接應(yīng)用到多標記零樣本學(xué)習(xí)。由傳統(tǒng)多標記學(xué)習(xí)方法訓(xùn)練得到的模型只能識別和預(yù)測它學(xué)習(xí)過程中見過的類別,見過的類別越多,即訓(xùn)練數(shù)據(jù)越多,該模型的分類性能就越好。盡管研究人員為了科研工作標記了大量數(shù)據(jù)集,但在現(xiàn)實生活中的數(shù)據(jù)依舊是未標記占絕大多數(shù),導(dǎo)致以往的訓(xùn)練方法很難有效地解決實際問題,于是人們開始關(guān)注多標記零樣本學(xué)習(xí)。
隨著對零樣本圖像分類的廣泛研究,模型在很大程度上克服了對未知類別數(shù)據(jù)進行分類的局限。零樣本學(xué)習(xí)依賴于已知類別與未知類別之間相關(guān)聯(lián)的語義信息,這通常是利用相關(guān)先驗知識得到的,比如屬性、詞向量、文本描述等。零樣本學(xué)習(xí)的解決方式主要分為兩種,一種是將圖像視覺特征和標簽語義向量結(jié)合起來學(xué)習(xí),如文獻[10]提出的ALE(Attribute Label Embedding)模型,首先提取圖像視覺特征及類別標簽的語義向量,引入一個雙線性評分函數(shù),通過衡量視覺特征嵌入語義空間的兼容度來預(yù)測輸入圖像的類別。文獻[11]提出LDF(Latent Discriminative Features)模型,能夠發(fā)現(xiàn)圖像中的判別性區(qū)域,并將圖像的判別性區(qū)域特征與圖像的全局特征進行聯(lián)合學(xué)習(xí),提升分類的準確率。另一種通過生成模型來生成未知標簽的特征,再將其當(dāng)做傳統(tǒng)的監(jiān)督學(xué)習(xí)進行訓(xùn)練,比如基于生成對抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN)[12]的方法和進一步對生成對抗網(wǎng)絡(luò)進行優(yōu)化的GMMN[13]方法等。
上述方法在零樣本領(lǐng)域取得了巨大的成功,但這些解決方案并不能直接用到多標記零樣本分類問題中。多標記零樣本分類任務(wù)是為輸入圖像預(yù)測多個已知標簽和未知標簽。目前,對多標記零樣本學(xué)習(xí)問題的研究較少,比較典型的有文獻[14]中結(jié)合知識圖譜的框架來描述多標簽之間的關(guān)系,以此來建模已知類和未知類之間的相互依賴,但它需要訪問已知和未知標簽之間的先驗知識圖;相似地,還有文獻[15]介紹的融合圖卷積神經(jīng)網(wǎng)絡(luò)(Graph Convolutional Network,GCN)的多標記零樣本學(xué)習(xí)框架,也是利用圖來學(xué)習(xí)標簽相互依賴的分類器;文獻[16]提出一種基于生成模型的多標記零樣本學(xué)習(xí)方法,它提出的CLF(Cross-Level feature Fusion)方法結(jié)合了ALF(Attribute-Level Fusion)標簽依賴性和FLF(Feature-Level Fusion)特定類判別性的優(yōu)點,并將其集成到常用生成模型框架中進行預(yù)測分類。還有一些基于注意機制的解決方案,例如文獻[17]介紹了多模態(tài)注意,它可用于為每個標簽產(chǎn)生特定的注意,并通過標簽語義推廣到未知標簽,但是對數(shù)千個標簽需要計算數(shù)千個注意,這會導(dǎo)致巨大的時間和內(nèi)存消耗。文獻[18]提出一種共享多注意框架,該框架為一幅圖像學(xué)習(xí)所有類別共享的多個注意力模塊,利用得到的多個注意力權(quán)重對圖像的區(qū)域特征進行加權(quán);而后文獻[19]在其上進行優(yōu)化,提出雙層注意模塊,通過融合圖像的區(qū)域和全局信息來增強圖像視覺特征。這兩個模型的缺點在于在訓(xùn)練過程中只單獨關(guān)注到圖像特征,包括利用區(qū)域特征與區(qū)域特征之間的關(guān)聯(lián)以及區(qū)域特征與全局特征之間的關(guān)聯(lián),并沒有引入標簽語義信息參與訓(xùn)練。
以上目前存在的多標記零樣本學(xué)習(xí)方法在訓(xùn)練過程中除了利用一般圖像分類任務(wù)所給定的基礎(chǔ)信息(已標記的樣本和類別先驗知識)外,要么就只利用圖像區(qū)域信息,要么就只利用標簽語義信息。而本文提出的基于深度互學(xué)習(xí)技術(shù)的解決方案,在兩個子網(wǎng)絡(luò)互相學(xué)習(xí)的過程中,不僅可以起到互相促進、互相增強的效果,而且可以同時將圖像區(qū)域信息和標簽語義信息一起引入到訓(xùn)練過程中,這樣得到的模型既能識別未知類,又能更全面地挖掘圖像中存在的已知和未知標記。
文獻[20]介紹了深度互學(xué)習(xí),其靈感來源于模型蒸餾算法。模型蒸餾算法需要有教師網(wǎng)絡(luò)和學(xué)生網(wǎng)絡(luò),教師網(wǎng)絡(luò)向?qū)W生網(wǎng)絡(luò)單方向傳遞它自身所學(xué)到的知識,即教師網(wǎng)絡(luò)單方面教學(xué)生網(wǎng)絡(luò),并不能從學(xué)生網(wǎng)絡(luò)上學(xué)到東西。而且在做蒸餾的時候,要有一個訓(xùn)練好的網(wǎng)絡(luò)當(dāng)教師,但深度互學(xué)習(xí)是將多個子網(wǎng)絡(luò)同時進行訓(xùn)練,這些子網(wǎng)絡(luò)不僅被真實標簽值監(jiān)督來訓(xùn)練自身的預(yù)測性能,而且能通過學(xué)習(xí)其他子網(wǎng)絡(luò)的訓(xùn)練經(jīng)驗來進一步提高預(yù)測能力。在模型訓(xùn)練時,多個子網(wǎng)絡(luò)之間都在不斷分享訓(xùn)練經(jīng)驗,互相學(xué)習(xí)、互相增強,從而實現(xiàn)共同進步。
本文用CS表示已知類別集合,其中S表示已知類別個數(shù);用CU表示未知類別集合,其中U表示未知類別個數(shù)。已知類別表示在訓(xùn)練過程中出現(xiàn)過的類別,而未知類別表示訓(xùn)練過程中沒有出現(xiàn)過,只包含在測試數(shù)據(jù)集中的類別。CS+U?CS∪CU表示包括已知和未知類別的集合。(I1,Y1),(I2,Y2),…,(IN,YN)表示N個訓(xùn)練樣本,其中Ii表示第i個訓(xùn)練圖像,Yi?CS表示第i個訓(xùn)練圖像對應(yīng)的標簽集合。由于未知類沒有對應(yīng)的訓(xùn)練圖像,本文假設(shè)給定標簽描述的語義向量{Vc}c∈CS+U,給定的標簽語義向量可以是屬性或者詞嵌入。傳統(tǒng)多標記零樣本分類的任務(wù)是為給定圖像Ii預(yù)測其存在的多個未知標簽Yi?CU;廣義多標記零樣本分類的任務(wù)是為給定圖像Ii預(yù)測其存在的多個已知和未知標簽Yi?CS+U。
本文提出一種基于深度互學(xué)習(xí)技術(shù)的方案來解決多標記零樣本圖像分類問題,框架如圖1 所示,該模型由兩個子網(wǎng)絡(luò)和一個深度互學(xué)習(xí)模塊組成。具體過程為:給定圖像Ii,經(jīng)過卷積神經(jīng)網(wǎng)絡(luò)獲得圖像特征xi。在區(qū)域特征與區(qū)域特征相關(guān)聯(lián)的子網(wǎng)絡(luò)中將xi輸入到多頭自注意機制,得到圖像中各區(qū)域特征之間的相關(guān)性權(quán)值rm,m為多頭自注意機制的投影頭,最終利用圖像中各區(qū)域相關(guān)信息得到基于區(qū)域的特征Fi,將Fi映射到語義空間中,計算每個標簽的置信度分數(shù);在區(qū)域特征與標簽語義相關(guān)聯(lián)的子網(wǎng)絡(luò)中,通過計算標簽語義V={V1,V2,…,VS}與圖像特征xi的相關(guān)性權(quán)重,對標簽語義與圖像特征進行融合,最終得到基于語義的特征Fg,將Fg映射到語義空間中,計算每個標簽的置信度分數(shù);最后加上深度互學(xué)習(xí)模塊,引入一種損失函數(shù)對整個模型進行約束,使得兩個子網(wǎng)絡(luò)能夠一邊訓(xùn)練自身的分類性能,一邊學(xué)習(xí)對方的訓(xùn)練經(jīng)驗。
圖1 基于深度互學(xué)習(xí)的多標記零樣本學(xué)習(xí)模型Fig.1 Multi-label zero-shot learning model based on deep mutual learning
2.2.1 關(guān)聯(lián)區(qū)域特征與區(qū)域特征的子網(wǎng)絡(luò)
在該子網(wǎng)絡(luò)中引入多頭自注意力機制來關(guān)聯(lián)圖像各個區(qū)域,相當(dāng)于利用各區(qū)域的相關(guān)信息增強圖像自身的特征,得到基于區(qū)域的視覺特征表示。
首先從卷積神經(jīng)網(wǎng)絡(luò)中提取得到原始圖像特征xi∈Rh×w×d,本文可以將其分成h×w個d維區(qū)域特征,即其中表示圖像i的第r個區(qū)域。然后將原始圖像特征xi∈Rh×w×d映射到低維空間(d'=d/M),使用M個投影頭為圖像的每個區(qū)域創(chuàng)建查詢向量(query)、鍵向量(key)和值向量(value)。則原始特征經(jīng)過3 種映射可得到:
計算每個區(qū)域的查詢向量與圖像中所有h×w個區(qū)域的鍵向量之間的相關(guān)性,可得到圖像各個區(qū)域的相關(guān)權(quán)值:
其中:rm∈Rhw×hw;σ函數(shù)用來對權(quán)重值做歸一化處理。利用得到的權(quán)值對值向量進行加權(quán):
其中:αm∈Rh×w×d',表示從第m個投影頭得到的h×w個d'維加權(quán)區(qū)域特征。在多頭自注意機制中,圖像原始特征的通道數(shù)將會從d維被切片成M個d'維,經(jīng)過計算加權(quán)后再合并這些低維特征,得到最終基于區(qū)域的特征表示Fi:
其中:Wf∈Rd×d表示可學(xué)習(xí)的權(quán)重參數(shù)。
本文將加權(quán)后的特征表示Fi∈Rh×w×d也分成h×w個區(qū)域,即其中表示圖像i中第r個區(qū)域的加權(quán)特征。
最后將得到的Fi映射到語義空間中,可以計算所有標簽在圖像i中的置信度分數(shù),即圖像i中存在這些標簽的概率。計算如下:
其中:c表示第c個標簽;θc∈R1×d為c的分類器參數(shù);將圖像的每個區(qū)域特征都與標簽c的分類器參數(shù)做計算,取結(jié)果中最大值作為標簽c的置信度分數(shù)Sci。
每個標簽的分類器參數(shù)都取決于其對應(yīng)的語義向量,可表示為:
如果圖像中存在一個標簽,那么該標簽在圖像上的置信度分數(shù)一定大于其他不存在的標簽,據(jù)此引入損失函數(shù)作為一種約束,對該子網(wǎng)絡(luò)進行優(yōu)化:
其中:yi表示圖像i中所存在標簽的集合;表示標簽c的置信度分數(shù);表示標簽c'的置信度分數(shù)。
2.2.2 關(guān)聯(lián)區(qū)域特征與標簽語義的子網(wǎng)絡(luò)
首先將從卷積神經(jīng)網(wǎng)絡(luò)中提取到的原始圖像特征和所有的標簽語義向量輸入該子網(wǎng)絡(luò),計算每個標簽與給定圖像中每個區(qū)域特征的相關(guān)性權(quán)重,利用相關(guān)性權(quán)重融合標簽語義信息與圖像視覺特征,獲得基于語義的視覺特征表示。
其中:Wg∈Rda×d是可學(xué)習(xí)的權(quán)重參數(shù);表示標簽c對圖像i中第r個區(qū)域的相關(guān)性權(quán)重。
其中:Fc∈R1×d表示圖像i中所有區(qū)域經(jīng)標簽c加權(quán)后的特征,則Fg={F1,F(xiàn)2,…,F(xiàn)S}表示圖像i經(jīng)所有標簽加權(quán)后的特征,即基于語義的視覺特征表示。
然后將Fg同樣映射到語義空間中,可以計算所有標簽在圖像i中的置信度分數(shù),表達式如式(13)所示:
其中:c表示第c個標簽;θc∈R1×d由式(8)得到。
同樣規(guī)定,如果圖像中存在一個標簽,那么該標簽在圖像上的置信度分數(shù)一定大于其他不存在的標簽,據(jù)此引入損失函數(shù)作為約束,對該子網(wǎng)絡(luò)進行優(yōu)化:
其中:yi表示圖像i中所存在標簽的集合;表示標簽c的置信度分數(shù);表示標簽c'的置信度分數(shù)。
2.2.3 兩種子網(wǎng)絡(luò)互相學(xué)習(xí)
為約束提出的兩個子網(wǎng)絡(luò),使它們在整個訓(xùn)練過程中相互學(xué)習(xí)、相互促進,本文提出一種互學(xué)習(xí)損失函數(shù)。由于子網(wǎng)絡(luò)學(xué)習(xí)到的訓(xùn)練經(jīng)驗可以通過最后輸出的概率分布表現(xiàn)出來,所以本文將每個子網(wǎng)絡(luò)得到的概率分布引入互學(xué)習(xí)損失,在互學(xué)習(xí)過程中讓兩個概率分布應(yīng)盡可能接近,保持一致性。
在一般情況下,用KL 散度(Kullback-Leibler divergence)來計算概率分布之間的差別,概率分布越相似,散度值就越小,表達式如下:
KL 散度的缺點是P1與P2之間的散度值和P2與P1之間的散度值不相等。所以本文模型采用JS 散度(Jensen-Shannon divergence)作為互學(xué)習(xí)損失,JS散度為KL 散度的變體,表達式如下:
最后,本文定義模型總的損失函數(shù)如式(17)所示:
其中:λ是一個控制互學(xué)習(xí)損失的系數(shù)。
2.2.4 多標記零樣本預(yù)測
利用得到的模型對多標記零樣本圖像分類任務(wù)進行預(yù)測:首先從CNN 網(wǎng)絡(luò)中得到測試樣本Ii的原始特征,再將原始特征分別輸入到關(guān)聯(lián)區(qū)域特征與區(qū)域特征的子網(wǎng)絡(luò)和關(guān)聯(lián)區(qū)域特征與標簽語義的子網(wǎng)絡(luò),輸出基于區(qū)域和基于語義的兩種特征表示,將兩種表示分別做映射,在語義空間中計算標簽的置信度分數(shù),得到和。最后,本文引入一組權(quán)重(α,1-α)融合這兩個子網(wǎng)絡(luò)輸出的預(yù)測值,可得到測試樣本Ii的最終標簽預(yù)測,表達式如下:
其中:topk表示按照預(yù)測值大小排序的操作;arg topk表示取前k個預(yù)測值作為測試樣本Ii的預(yù)測標簽的操作;當(dāng)c∈CU時,表示標簽c屬于只包含未知類別的集合,即是未知標簽,此時該任務(wù)屬于傳統(tǒng)多標記零樣本分類;當(dāng)c∈CU+S時,表示標簽c屬于同時包含未知類別和已知類別的集合,即可能是未知標簽也可能是已知標簽,此時該任務(wù)屬于廣義多標簽零樣本分類。
實驗中采用多標記零樣本分類常用的兩個數(shù)據(jù)集NUS-WIDE[21]和MS COCO[22]。NUS-WIDE 數(shù)據(jù)集中有81 個人工標注的標簽被用作未知類,925 個用戶自動標記的標簽被用作已知類;本文參考文獻[23]對MS COCO 數(shù)據(jù)集中的標簽進行劃分,分成了48 個已知類和17 個未知類。數(shù)據(jù)集的具體信息見表1。
表1 數(shù)據(jù)集的具體信息Table 1 Specific information of the data set 單位:個
為評估本文方法的有效性,使用mAP 和每個圖像的前K個預(yù)測的F1 得分作為評價標準。
本文的實驗配置與文獻[24]保持一致,所有實驗均使用預(yù)訓(xùn)練的VGG-19 網(wǎng)絡(luò)對圖像進行特征提取。輸入圖片尺寸為224×224 像素,本文提取最后一個卷積層輸出的特征,尺寸大小為14×14×512 像素,將其看作14×14 個區(qū)域的特征。使用基于維基文章訓(xùn)練得到的GloVe[25]模型來提取標簽的語義向量,其中每個標簽的向量維度等于300。
本文將多頭注意機制的投影頭個數(shù)M設(shè)置為8。當(dāng)模型訓(xùn)練時,在NUS-WIDE 數(shù)據(jù)集上使用ADAM優(yōu)化器,(β1,β2)設(shè)為(0.5,0.999),學(xué)習(xí)率設(shè)為0.006,批量大小設(shè)為256,訓(xùn)練20 輪;在MS COCO 數(shù)據(jù)集上使用SGD 優(yōu)化器,動量值設(shè)為0.9,學(xué)習(xí)率設(shè)為0.001,批量大小設(shè)為32,訓(xùn)練20輪。
3.2.1 NUS-WIDE 數(shù)據(jù)集上的實驗結(jié)果
為評估本文方法的性能,本文在NUS-WIDE 數(shù)據(jù)集上做了傳統(tǒng)多標記零樣本(ZS)圖像分類實驗和廣義多標記零樣本(GZS)圖像分類實驗。將本文方法 與Fast0Tag[24]、CONSE[26]、LabelEM[27]、One Attention per Label[17]、One Attention per Cluster[18]和LESA[18]進行對比,這些對比方法在NUS-WIDE 數(shù)據(jù)集上的實驗結(jié)果由本文直接引入文獻[18]中的結(jié)果獲得。文獻[26]介紹的CONSE 是最基本的零樣本學(xué)習(xí)模型,利用CNN 計算給定圖像的預(yù)測標簽,再將其輸入Word2Vec 模型得到對應(yīng)的類別向量,最后與真實的類別向量計算相似度。文獻[27]介紹的LabelEM是基于嵌入的方式解決零樣本學(xué)習(xí)模型,將類別標簽嵌入到給定的屬性向量空間中,再引入兼容函數(shù),計算圖像特征和嵌入標簽的兼容度。文獻[24]介紹的Fast0Tag 是最開始用于解決多標記零樣本圖像分類問題的模型,利用圖像-標簽的關(guān)聯(lián),提出對于給定圖像,相關(guān)標簽的詞向量在詞向量空間中沿著一個主方向排在不相關(guān)的標簽前面,該方法通過估計圖像的主方向來解決圖像標記問題。表2 展示了在數(shù)據(jù)集NUS-WIDE 上兩種分類實驗的結(jié)果比較,表中加粗數(shù)字表示該組數(shù)據(jù)最大值。對于傳統(tǒng)多標記零樣本分類,LESA 方法提出一種共享多注意框架,為一幅圖像學(xué)習(xí)所有K∈{3,5}類別共享的多個注意力模塊,得到加權(quán)注意特征后,再將注意特征映射到語義空間進行預(yù)測分類。LESA 方法的分類性能在各方面都優(yōu)于之前的方法。對比LESA 方法,本文方法在ZS 任務(wù)上的F1(K=3)分數(shù)、F1(K=5)分數(shù)、mAP 分別提高了1.4、1.1、1.9 個百分點。對于廣義多標記零樣本分類,與LESA 方法相比,本文方法的mAP、F1(K=3)分數(shù)、F1(K=5)分數(shù)分別提高了1.4、0.2、0.8 個百分點。實驗結(jié)果表明,在NUS-WIDE 數(shù)據(jù)集上,本文方法在傳統(tǒng)多標記零樣本(ZS)圖像分類實驗和廣義多標記零樣本(GZS)圖像分類實驗中,性能都可以達到最佳。
表2 在NUS-WIDE 數(shù)據(jù)集上的傳統(tǒng)多標記零樣本和廣義多標記零樣本分類性能比較Table 2 Comparison of classification performance between traditional multi-label zero-shot and generalized multi-label zero-shot on NUS-WIDE data set %
3.2.2 MS COCO 數(shù)據(jù)集上的實驗結(jié)果
MS COCO 數(shù)據(jù)集曾被用于多標記零樣本目標檢測,近年來開始用在多標記零樣本圖像分類任務(wù)中。將本文方法與 Fast0Tag[24]、CONSE[26]、Deep0Tag[28]進行對比,這些對比方法 在MS COCO數(shù)據(jù)集上的實驗結(jié)果將參考文獻[23]中的結(jié)果。文獻[28]介紹的Deep0Tag 是一種基于多示例框架來解決多標記零樣本學(xué)習(xí)問題的模型,能夠自動定位相關(guān)圖像區(qū)域和建模圖像標記(端到端),從多個尺度發(fā)現(xiàn)圖像中場景信息,并兼顧全局和局部圖像細節(jié)。表3 展示了在MS COCO 數(shù)據(jù)集上廣義多標記零樣本(GZS)圖像分類的結(jié)果,主要將K=3 處的F1 分數(shù)及每個F1 分數(shù)的P 值和R 值進行比較。
表3 MS COCO 數(shù)據(jù)集上的廣義多標記零樣本分類性能比較Table 3 Comparison of classification performance of generalized multi-label zero-shot on MS COCO data set %
在MS COCO 數(shù)據(jù)集中,參照文獻[23]工作結(jié)果對已知類別和未知類別進行劃分,本文模型在傳統(tǒng)多標記零樣本(ZS)圖像分類任務(wù)中的性能不占優(yōu)勢,這是因為本文模型對一些復(fù)雜和抽象的類別如baseball bat、baseball glove、microwave、dining table、sink、fire hydrant 等難以預(yù)測。但在廣義多標記零樣本分類中,本文模型性能依然可以達到最好。
以往提出的多標記零樣本分類方法中大多基于目標檢測等模塊,可以在MS COCO 數(shù)據(jù)集上達到較好的效果。通過對比本文方法和傳統(tǒng)方法,發(fā)現(xiàn)本文方法即便不使用任何額外的檢測模塊,性能也可以達到最優(yōu),實驗結(jié)果如表3 所示。對比Deep0Tag 方法,本文方法的P 值、R 值、F1 分數(shù)分別提高了5.4、4.9、5.2 個百分點。
本文還在NUS-WIDE 數(shù)據(jù)集上進行了消融實驗:僅使用關(guān)聯(lián)區(qū)域特征與區(qū)域特征的子網(wǎng)絡(luò)1 訓(xùn)練、僅使用關(guān)聯(lián)區(qū)域特征與標簽語義的子網(wǎng)絡(luò)2 訓(xùn)練,僅使用本文方法訓(xùn)練,將其得到的實驗結(jié)果進行對比。表4 展示了在傳統(tǒng)多標記零樣本(ZS)和廣義多標記零樣本(GZS)分類實驗上三者的F1 分數(shù)和mAP 的對比,表中加粗數(shù)字表示該組數(shù)據(jù)最大值。對于傳統(tǒng)多標記零樣本分類,當(dāng)僅使用子網(wǎng)絡(luò)2時,相對于僅使用子網(wǎng)絡(luò)1 的F1(K=3)分數(shù)、F1(K=5)分數(shù)、mAP 值分別提高了4.8、3.5、8.4 個百分點。而本文方法相對于僅使用子網(wǎng)絡(luò)2 的F1(K=3)分數(shù)、F1(K=5)分數(shù)、mAP 值分別提高了2.7、1.8、1.5 個百分點。對于廣義多標記零樣本分類,當(dāng)僅使用子網(wǎng)絡(luò)1時,相對于僅使用子網(wǎng)絡(luò)2 的F1(K=3)分數(shù)、F1(K=5)分數(shù)分別提高了1.1、1.0 個百分點。而本文方法相對于僅使用子網(wǎng)絡(luò)1 的F1(K=3)分數(shù)、F1(K=5)分數(shù)分別提高了0.9、1.3 個百分點。
表4 在NUS-WIDE 數(shù)據(jù)集上3 種方法的分類性能對比Table 4 Comparison of classification performance of the three methods on NUS-WIDE data set %
上述結(jié)果說明了關(guān)聯(lián)區(qū)域特征與標簽語義的子網(wǎng)絡(luò)2 在傳統(tǒng)多標記零樣本分類任務(wù)中表現(xiàn)更好,這是因為在傳統(tǒng)多標記零樣本分類任務(wù)中,測試數(shù)據(jù)集只包含未知標簽,訓(xùn)練過程中只將每個標簽的語義信息融入到圖像區(qū)域,知識能很好地從已知標簽轉(zhuǎn)移到未知標簽,所以在只識別未知標簽的任務(wù)中表現(xiàn)較好;而關(guān)聯(lián)區(qū)域特征與區(qū)域特征的子網(wǎng)絡(luò)1在廣義多標記零樣本分類任務(wù)中表現(xiàn)更好,這是因為在廣義多標記零樣本分類任務(wù)中,測試數(shù)據(jù)集既包含已知標簽又包含未知標簽,將圖像中各區(qū)域的特征信息相互關(guān)聯(lián)之后,更容易挖掘圖像中存在的標簽,包括已知標簽和未知標簽。而本文方法在兩種類型任務(wù)中的表現(xiàn)都能達到最好,證明了兩種子網(wǎng)絡(luò)在訓(xùn)練過程中進行深度互學(xué)習(xí)的有效性。
本文在NUS-WIDE 數(shù)據(jù)集上進行實驗,分析互學(xué)習(xí)損失系數(shù)λ的影響,實驗結(jié)果如圖2 所示,其中F1_ZS_3 表示在ZS 分類實驗中排名前三的預(yù)測結(jié)果的F1 分數(shù)。對比實驗結(jié)果發(fā)現(xiàn),當(dāng)λ=0.01時,本文模型性能達到最佳。
圖2 不同互學(xué)習(xí)損失系數(shù)λ 對模型性能的影響Fig.2 Effect of different mutual learning loss coefficients λ on model performance
本文還通過實驗分析了2 個子網(wǎng)絡(luò)權(quán)重系數(shù)組合(α,1-α) 對模型預(yù)測性能的影響。在數(shù)據(jù)集NUS-WIDE上,實驗結(jié)果如圖3 所示,對比結(jié)果發(fā)現(xiàn)α=0.3 即權(quán)重組合系數(shù)為(0.3,0.7)時,本文模型性能達到最佳;在數(shù)據(jù)集MS COCO上,實驗結(jié)果如圖4 所示,對比結(jié)果發(fā)現(xiàn)α=0.2 即權(quán)重組合系數(shù)為(0.2,0.8)時,本文模型性能達到最佳。
圖3 NUS-WIDE 數(shù)據(jù)集上不同權(quán)重系數(shù)α對模型性能的影響Fig.3 Effect of different weight coefficients α on model performance on NUS-WIDE data set
圖4 MS COCO 數(shù)據(jù)集上不同權(quán)重系數(shù)α對模型性能的影響Fig.4 Effect of different weight coefficients α on model performance on MS COCO data set
為了解決多標記零樣本圖像分類問題,本文提出基于深度互學(xué)習(xí)的方法,使圖像區(qū)域信息和標簽語義信息同時參與到模型訓(xùn)練中,增強圖像本身的視覺特征。建立標簽與圖像特征之間的關(guān)系,且在訓(xùn)練過程中讓2 個子網(wǎng)絡(luò)互相學(xué)習(xí)對方的訓(xùn)練經(jīng)驗,互相促進。最后在對輸入樣本做預(yù)測時,使用一個組合權(quán)重系數(shù)融合兩個子網(wǎng)絡(luò)分別得到的預(yù)測值。本文還在兩個數(shù)據(jù)集上進行傳統(tǒng)多標記零樣本分類和廣義多標記零樣本分類兩種類型的實驗,與以往研究方法的結(jié)果進行對比,證明所提方法的有效性。由于深度互學(xué)習(xí)并不局限于兩個子網(wǎng)絡(luò)進行互相學(xué)習(xí),因此下一步也可以設(shè)計多個子網(wǎng)絡(luò),從不同的研究方向和技術(shù)切入,讓各個子網(wǎng)絡(luò)做不同的工作,互相彌補、促進,提高分類性能。