張玲玲 陳一葦 吳文俊 魏筆凡 羅 炫 常曉軍 劉 均
1(西安交通大學(xué)計算機科學(xué)與技術(shù)學(xué)院 西安 710049) 2(皇家墨爾本理工大學(xué)計算技術(shù)學(xué)院 澳大利亞墨爾本 3000)
近年來,基于大規(guī)模監(jiān)督的深度神經(jīng)網(wǎng)絡(luò)在計算機視覺領(lǐng)域取得突飛猛進的發(fā)展.然而,在現(xiàn)實世界中,視覺數(shù)據(jù)的分布呈現(xiàn)顯著的長尾效應(yīng),即很多視覺類僅包含少量的樣本可供訓(xùn)練,這為計算機視覺的持續(xù)發(fā)展帶來挑戰(zhàn)[1].不同于深度神經(jīng)網(wǎng)絡(luò),人總是可以從極少的樣本中學(xué)習(xí)到這類樣本的特點[2].例如,我們在只見過幾次斑馬后,就能認識到“斑馬是一種身上有斑紋的馬”.受此啟發(fā),小樣本學(xué)習(xí)(few-shot learning, FSL)被提出用以完成僅有幾個標(biāo)注樣本的視覺分類任務(wù)[3-4].
當(dāng)前的小樣本學(xué)習(xí)方法都基于統(tǒng)一假設(shè):方法是在學(xué)習(xí)了一些視覺類的大量數(shù)據(jù)后,對于新的類別,才具有從少量樣本中學(xué)習(xí)的能力[5].因此,在模擬小樣本學(xué)習(xí)的過程中,將數(shù)據(jù)集分為源數(shù)據(jù)集(base dataset)和目標(biāo)數(shù)據(jù)集(novel dataset)兩部分.其中,源數(shù)據(jù)集中的每類都包含大量標(biāo)記樣本,且其涵蓋的類別與目標(biāo)數(shù)據(jù)集中的類別完全不重疊.小樣本學(xué)習(xí)旨在源數(shù)據(jù)集上訓(xùn)練方法的小樣本學(xué)習(xí)能力,然后將方法遷移到目標(biāo)數(shù)據(jù)集上進行小樣本學(xué)習(xí)能力的測試.根據(jù)小樣本在源數(shù)據(jù)集上的學(xué)習(xí)模式,研究方法主要分為3類:基于數(shù)據(jù)增強的方法、基于度量學(xué)習(xí)的方法以及基于優(yōu)化的方法.其中,數(shù)據(jù)增強方法旨在利用一些轉(zhuǎn)換規(guī)則或生成理論合成一些虛假圖像,達到擴充數(shù)據(jù)集的目的[6];度量學(xué)習(xí)方法將小樣本分類轉(zhuǎn)化為學(xué)習(xí)樣本間語義距離的問題,根據(jù)無標(biāo)記樣本與其他所有標(biāo)記樣本的距離來進行分類[7];基于優(yōu)化的方法嘗試為小樣本任務(wù)學(xué)習(xí)參數(shù)初始化函數(shù),使得訓(xùn)練從好的初始點開始并只迭代幾次就達到不錯的分類效果[8-9].
傳統(tǒng)的小樣本學(xué)習(xí)方法缺乏過程的可解釋性,屬于黑盒方法,即對于方法如何完成樣本識別的過程仍不清晰.換言之,如何通過構(gòu)建無標(biāo)記樣本以及標(biāo)記樣本之間的關(guān)聯(lián)關(guān)系進行樣本分類的這一過程仍不明晰.因此,為小樣本分類提供可解釋的推理過程是一個值得研究的方向.不同于一般的黑盒方法,人類在識別現(xiàn)實世界中的對象時往往有明確的證據(jù)支撐.人類在做出決策前,會先分析無標(biāo)記圖像的一些關(guān)鍵部位,然后在大腦中搜索與這些關(guān)鍵部位相關(guān)的記憶.例如,人類可以對“啄木鳥”的圖像進行分類,是因為“啄木鳥”的喙與他們之前見過的“啄木鳥”樣本高度相似.
受此啟發(fā),我們模擬人腦做出決策的過程,提出基于對比約束的可解釋小樣本學(xué)習(xí)(interpretable few-shot learning, INT-FSL)方法.INT-FSL方法采用元學(xué)習(xí)思想生成多個小樣本分類元任務(wù),每個元任務(wù)有極少的標(biāo)記樣本作為支持集,通過挖掘無標(biāo)記樣本與標(biāo)記樣本間的關(guān)聯(lián)關(guān)系達到分類目標(biāo).當(dāng)設(shè)定每個元任務(wù)中包含M個類且每類有K個標(biāo)記樣本時,稱為M-wayK-shot小樣本分類任務(wù).如圖1是3-way 2-shot小樣本學(xué)習(xí)任務(wù)描述圖.INT-FSL方法包括3個模塊:特征映射模塊、可解釋小樣本分類模塊和對比學(xué)習(xí)模塊.其中,特征映射模塊用于提取樣本的深度特征,將單個圖像樣本表示為多個局部描述子的集合;可解釋小樣本分類模塊一方面用標(biāo)記樣本的局部特征描述子重構(gòu)圖像類別的描述子空間,另一方面挖掘無標(biāo)記樣本的關(guān)鍵部位,并通過度量這些關(guān)鍵部位與所有類別描述子空間的語義距離來對它進行分類,以便提供可解釋的分類過程;對比學(xué)習(xí)模塊旨在對比元任務(wù)中目標(biāo)無標(biāo)記圖像與其他樣本的局部和全局特征,以達到強化樣本局部表征的能力.在訓(xùn)練過程中,INT-FSL方法聯(lián)合交叉熵分類損失與對比損失,在優(yōu)化訓(xùn)練數(shù)據(jù)上小樣本分類性能的同時,保證方法在測試數(shù)據(jù)上保持良好的泛化能力.本文的主要貢獻有3個方面:
1)提出可解釋性的小樣本分類模塊,采用注意力機制提取無標(biāo)記樣本的關(guān)鍵局部特征,通過學(xué)習(xí)這些關(guān)鍵特征與其他標(biāo)記樣本局部特征的關(guān)聯(lián)關(guān)系,達到小樣本分類的目標(biāo),以便回答“方法對哪些區(qū)域感興趣,無標(biāo)記樣本的這些區(qū)域與支持樣本的哪些區(qū)域相似”問題,滿足用戶的可解釋性需求;
2)將特征對比學(xué)習(xí)模塊融入小樣本分類模塊,通過對比元任務(wù)中目標(biāo)無標(biāo)記樣本與其他樣本的局部和全局語義特征,達到利用樣本自身信息增強特征映射模塊有效性的目標(biāo),進而緩解小樣本分類中監(jiān)督信息不足的問題.
3)在3個真實數(shù)據(jù)集上進行了大量小樣本圖像分類的實驗.實驗結(jié)果證明,INT-FSL方法不僅能有效提高當(dāng)前主流小樣本學(xué)習(xí)方法的分類準(zhǔn)確度,而且能提供有效的可解釋性決策過程.
Fig.1 3-way 2-shot few-shot learning with meta-learning training pattern
小樣本學(xué)習(xí)旨在從極少甚至僅僅一個標(biāo)記樣本中學(xué)習(xí)這類圖像的特性.人腦具有先天的小樣本學(xué)習(xí)能力,比如小孩只去過幾次動物園后,就能準(zhǔn)確分辨獅子和斑馬等動物.受此啟發(fā),小樣本學(xué)習(xí)涌入了機器學(xué)習(xí)領(lǐng)域,并引起了很多研究者的關(guān)注.近年來,隨著深度學(xué)習(xí)技術(shù)的迅猛發(fā)展,很多基于卷積神經(jīng)網(wǎng)絡(luò)的方法在小樣本分類上取得了優(yōu)異的性能.這些方法主要分為3類:基于數(shù)據(jù)增強的方法、基于度量學(xué)習(xí)的方法以及基于優(yōu)化的方法.
基于數(shù)據(jù)增強的方法強調(diào)利用圖像轉(zhuǎn)換規(guī)則,如裁剪、映射、翻轉(zhuǎn)等方式擴充有限的小樣本數(shù)據(jù)集.例如,Alfassy等人[6]提出將給定的樣例映射到特征空間,采用特征向量合成方法生成對應(yīng)標(biāo)簽集中的樣例,例如交、并、差等操作;由于人工制定的轉(zhuǎn)換規(guī)則是有限的,導(dǎo)致擴充的新樣本與原始樣本差別不大;為此,Edraki等人[10]提出基于圖像生成的數(shù)據(jù)增強方法,將文本或標(biāo)簽輸入生成對抗網(wǎng)絡(luò)[11],生成與其對應(yīng)的圖像樣本;Schwartz等人[12]設(shè)計了一種創(chuàng)新的自動編碼器結(jié)構(gòu),該編碼器有效捕獲同類訓(xùn)練實例對間的類內(nèi)變形信息,并將這些信息遷移到只有少數(shù)樣本的新類別,以便有效合成新類別的樣本;Zhang等人[13]提出一種通用的小樣本框架MetaGNN學(xué)習(xí)特定任務(wù)中數(shù)據(jù)分布的流形結(jié)構(gòu),由此生成一些虛假數(shù)據(jù)來輔助小樣本分類器學(xué)習(xí)更清晰的決策邊界;另外,Zhang等人[14]利用顯著性目標(biāo)檢測算法分割圖像,將不同圖像的前景和背景組合生成很多虛假圖像,以此實現(xiàn)數(shù)據(jù)集的擴充.
基于度量的方法將小樣本分類問題轉(zhuǎn)化為樣本間的相似度度量問題.這類方法往往對特征空間中樣本間距離分布進行建模,使得在該空間中同類樣本靠近且異類樣本遠離.例如,Koch等人[15]通過構(gòu)建一個孿生網(wǎng)絡(luò)(siamese network)來挖掘2張圖像高層語義特征的相似性,進而判斷其是否來自同一個圖像類;Vinyals等人[7]將度量學(xué)習(xí)與記憶增強網(wǎng)絡(luò)[16]結(jié)合,提出一種端到端的深度匹配網(wǎng)絡(luò)(matching network),實現(xiàn)了在少量樣本的條件下對無標(biāo)記樣本的標(biāo)簽預(yù)測;Snell等人[17]提出一種小樣本原型網(wǎng)絡(luò)(prototypical network),將每類樣本的特征中心點作為原型,通過度量測試樣本到所有類別原型的歐氏距離來預(yù)測樣本標(biāo)簽;Sung等人[18]考慮將基于深度的特征映射函數(shù)和非線性距離函數(shù)聯(lián)合學(xué)習(xí),通過構(gòu)建一種端到端的關(guān)系網(wǎng)絡(luò)(relation network)實現(xiàn)小樣本圖像識別.另外,還有很多研究者利用圖卷積神經(jīng)網(wǎng)絡(luò)(graph convolution neural network)來學(xué)習(xí)樣本間的關(guān)聯(lián)關(guān)系,從而實現(xiàn)小樣本分類的目標(biāo)[19-21].
基于優(yōu)化的方法認為:當(dāng)只有少量標(biāo)注樣本時,梯度優(yōu)化算法如momentum[22],ADAM[23]等無法使深度網(wǎng)絡(luò)中的大量參數(shù)在幾步內(nèi)快速收斂;為此,對于小樣本任務(wù),嘗試系統(tǒng)的學(xué)習(xí)一個參數(shù)初始化函數(shù),使得訓(xùn)練從一個好的初始點開始并只迭代幾次就達到不錯的分類效果,例如,F(xiàn)inn等人[8]提出一種與方法無關(guān)(model-agnostic)的元學(xué)習(xí)方法,該方法能快速且高效地適應(yīng)多個小樣本分類任務(wù);Ravi等人[24]提出,對于一個規(guī)模較大的小樣本分類器,其可以使用一個參數(shù)量較少的長短時記憶網(wǎng)絡(luò)(long short-term memory, LSTM)元學(xué)習(xí)器來優(yōu)化學(xué)習(xí);另外,Li等人[25]提出一種更容易實現(xiàn)、效率更高的Meta-SGD方法,該方法不僅可以學(xué)習(xí)小樣本分類器的初始化參數(shù),還可以學(xué)習(xí)其更新方向和學(xué)習(xí)率.
對比學(xué)習(xí)旨在通過大量正負樣本進行對比的方式學(xué)習(xí)一個語義嵌入空間,使得相似樣本在該空間距離接近,而不相似樣本間距離較遠.對比學(xué)習(xí)是一種有效的自監(jiān)督學(xué)習(xí)方式,其主要利用數(shù)據(jù)本身作為監(jiān)督信息來學(xué)習(xí)樣本的特征表達.根據(jù)構(gòu)造正負樣本對的粒度可將當(dāng)前的對比學(xué)習(xí)框架分為2類:情境-實例對比與實例-實例對比,這2類框架在下游任務(wù)中都表現(xiàn)出很好的性能.
情境-實例對比也稱為全局-局部對比,該學(xué)習(xí)模式主要針對圖像樣本的局部特征與全局上下文間的歸屬關(guān)系進行建模.也就是說,樣本的某一局部表征與其對應(yīng)的全局語義間應(yīng)具有較高的關(guān)聯(lián)度,例如“條紋狀身體”(圖像局部)的語義應(yīng)在“斑馬”(圖像全局)的語義表征中有所體現(xiàn).例如,DIM(Deep InfoMax)[26]方法通過最大化圖像局部特征與全局上下文間的互信息來學(xué)習(xí)無監(jiān)督表示,其采用對抗匹配先驗分布的方式來實現(xiàn)統(tǒng)計特征約束.另外,DeepMind團隊提出一種創(chuàng)新的對比預(yù)測編碼(contrastive predictive coding, CPC)[27]方法,其通過編碼器將高維數(shù)據(jù)嵌入到低維空間,然后結(jié)合自回歸建模與噪聲對比估計來預(yù)測未來時刻樣本序列的語義表示.不同于DIM方法,AMDIM(Augmented Multiscale Deep InfoMax)[28]方法一方面添加了多種擴充圖像數(shù)據(jù)的方法,包括隨機裁剪、顏色變換、灰度圖轉(zhuǎn)換等,另一方面對圖像的不同尺度特征進行互信息的最大化,以達到增強方法泛化性的目標(biāo).除了圖像領(lǐng)域外,基于全局-局部的對比學(xué)習(xí)模式也廣泛應(yīng)用在文本和圖數(shù)據(jù)領(lǐng)域.例如,InfoWord[29]通過最大化N-Gram局部語義和句子全局語義的互信息來訓(xùn)練語言方法,其中正樣本是當(dāng)前語境下的N-Gram詞表征,負樣本是語料庫中其他語境下的詞表征.在圖學(xué)習(xí)中,DGI(Deep graph InfoMax)[30]方法將節(jié)點表示作為局部特征,將隨機采樣的2-hop鄰居節(jié)點的平均表征作為全局上下文,并通過節(jié)點擾動生成負樣本,實現(xiàn)局部-全局的對比模式.
實例-實例的對比學(xué)習(xí)模式主要針對圖像樣本的多個視圖間關(guān)聯(lián)關(guān)系進行建模.例如,CMC(Con-trastive Multiview Coding)[31]采用同一張圖像的多個不同視圖作為正樣本,另一張圖像的任一視圖作為負樣本,約束正樣本在嵌入空間中的距離接近且與負樣本的距離較遠.動量對比(momentum contrast, MoCo)[32]方法更加關(guān)注負樣本的數(shù)量,其從字典查找的角度出發(fā),構(gòu)建帶有隊列和平均移動編碼器的動態(tài)字典.當(dāng)查詢是相同圖像的編碼視圖,則查詢將與關(guān)鍵字匹配,否則不匹配.SimCLR[33]是一種非常簡易的對比學(xué)習(xí)框架,其更加強調(diào)構(gòu)建負樣本的方式對對比學(xué)習(xí)的重要性.SimCLR通過數(shù)據(jù)增強的方式生成輸入圖像的正樣本,將batch中的其他圖像當(dāng)成負樣本,并采用噪聲對比估計損失來調(diào)整相似性評分的范圍.另外,Tian等人[34]提出一種InfoMin對比學(xué)習(xí)原則,其使特征提取網(wǎng)絡(luò)在學(xué)到不同視圖之間共享的信息之外,盡量去除與下游任務(wù)無關(guān)的冗余信息來保證學(xué)習(xí)到的特征具有很好的泛化能力;Grill等人[35]認為正負樣本之間的對比會使訓(xùn)練過程很不穩(wěn)定,同時會增大數(shù)據(jù)集的系統(tǒng)偏差.為此,他們提出了無需負采樣的BYOL方法,顯著改善了對比學(xué)習(xí)方法的訓(xùn)練效率和泛化能力.目前,基于實例-實例對比的策略也已經(jīng)廣泛應(yīng)用于圖數(shù)據(jù)表征[36-37].
本節(jié)介紹基于對比約束的可解釋小樣本學(xué)習(xí)方法及應(yīng)用.2.1節(jié)給出了小樣本學(xué)習(xí)的定義.2.2節(jié)提出了可解釋的小樣本網(wǎng)絡(luò)框架INT-FSL.
Fig.2 Framework of interpretable few-shot learning with contrastive constraint
本節(jié)詳細介紹基于對比約束的可解釋小樣本學(xué)習(xí)方法INT-FSL.如圖2整體框架圖所示,其包含3個模塊:特征映射模塊(feature embedding module)、可解釋小樣本分類模塊(few-shot learning module)和對比學(xué)習(xí)模塊(contrastive learning module).3個模塊的具體介紹:
1)特征映射模塊.給定元任務(wù)T={S,Q},特征映射模塊提取支持集與查詢集中所有圖像的深度特征.圖2中的映射函數(shù)ψ(·)是典型的深度卷積網(wǎng)絡(luò),可以是VGG,ResNet等框架.對于任意圖像X∈T,經(jīng)過深度卷積網(wǎng)絡(luò)后輸出d×h×w的三維張量,可以視作hw個維度為d的局部特征描述子集合,即:
ψ(X)={x1,x2,…,xhw},xj∈Rd,
(1)
2)可解釋小樣本分類模塊.如圖2可解釋小樣分類模塊部分,方法通過度量無標(biāo)記圖像到支持集中M個類別的語義距離來實現(xiàn)小樣本分類的目標(biāo).首先,該模塊利用樣本的局部特征描述子重構(gòu)圖像類別的描述子空間.對于支持集中的任一類別m,其對應(yīng)的子空間是所有屬于該類標(biāo)記樣本的局部描述子集合,記為
(2)
(3)
(4)
不同空間位置的局部描述子對無標(biāo)記圖像的語義貢獻是有很大差距的.例如,對于一張描述狗的圖像,圖像中關(guān)于眼睛、耳朵、尾巴的局部描述子比其他描述草、房間等背景信息的特征更為重要.在小樣本分類中,需要對圖像中的一些關(guān)鍵部位賦予更強的關(guān)注度,減弱噪聲部位的負面影響,通過適應(yīng)多種圖像變換來強化小樣本分類的魯棒性.為此,在圖2中設(shè)計空間注意力機制學(xué)習(xí)不同局部描述子對小樣本分類的注意分值,該過程可形式化為
aq=σ(AvgPool(ψ(Xq));MaxPool(ψ(Xq))),
(5)
(6)
除此之外,我們認為同類圖像在特征分布上存在高度相似性,而不同類圖像的特征分布差異較大.為此,設(shè)計度量方法計算無標(biāo)簽圖像樣本Xq與支持集中第m類圖像特征子空間Rm的分布相似得分:
(7)
其中,μq與Σq分別是圖像樣本Xq局部描述子集合ψ(Xq)的均值向量和方差矩陣,μm與Σm是第m類圖像特征子空間Rm的均值向量和方差矩陣.顯然,當(dāng)ψ(Xq)與Rm的空間分布越接近,Sdis(Xq,m)得分值越高,反之亦然.
綜合式(6)與式(7)中的特征與分布得分,預(yù)測圖像Xq屬于支持集S中第m類的概率值:
(8)
其中,Scom(Xq,m)是特征相似得分Sfea(Xq,m)與分布相似得分Sdis(Xq,m)的和.
基于此,采用交叉熵度量當(dāng)前元任務(wù)T={S,Q}的真實損失值為
(9)
① 全局對比.旨在約束圖像全局表征xq與圖像特征Eψ(Xq)間的互信息最大,可形式化為
(10)
(11)
互信息度量函數(shù)有多種實現(xiàn)類型,本文采用典型的Jensen-Shannon散度(JSD)進行度量,實現(xiàn)過程與Hjelm等人[26]的工作基本一致.
綜合上述三大模塊,INT-FSL方法的整體目標(biāo)優(yōu)化函數(shù)為
(12)
其中,λ和β分別是全局對比與局部對比損失的權(quán)衡系數(shù).
本節(jié)在3個數(shù)據(jù)集上驗證所提INT-FSL方法的有效性,并將依次介紹實驗數(shù)據(jù)集、對比方法、實驗設(shè)置、對比結(jié)果定量分析、對比模塊以及可解釋性實驗分析.
我們使用了3個公開圖像數(shù)據(jù)集進行實驗.其中,miniImageNet[7]是大規(guī)模ImageNet數(shù)據(jù)集的子集,包含100類圖像,每類600張圖像樣本,其中64,16,20類圖像分別用于訓(xùn)練、驗證和測試數(shù)據(jù)集.Stanford Dogs[38]是斯坦福大學(xué)構(gòu)建的犬類數(shù)據(jù)集,其仍然是ImageNet數(shù)據(jù)集的子集,共有20 580張圖像,涉及120類狗.其中,70類圖像用于訓(xùn)練,20類用于驗證,30類用于測試.CUB-200-2011[39]是2011年發(fā)布的一個鳥科數(shù)據(jù)集,由加州理工大學(xué)構(gòu)建,涵蓋200種不同的鳥,每種鳥大概有60張圖像,共有11 788張圖像.在本實驗中,130,20,50種鳥分別用于訓(xùn)練、驗證與測試.
本文將所提INT-FSL方法與11種流行的小樣本分類方法相比,驗證INT-FSL方法的有效性.
1)Matching Net[7].經(jīng)過卷積特征提取模塊與LSTM上下文嵌入模塊后,通過度量目標(biāo)圖像與支持集圖像在特征空間的距離來實現(xiàn)小樣本分類.
2)MAML[8].學(xué)習(xí)一組泛化能力強的初始化參數(shù),使其能在小樣本場景下經(jīng)過一步或幾步梯度調(diào)整后就能達到快速收斂的目的.
3)Prototypical Net[17].采用支持集中每類圖像的平均特征向量來表示該類圖像的原型,計算目標(biāo)圖像與所有原型的空間距離,判別目標(biāo)圖像類別.
4)Relation Net[18].聯(lián)合學(xué)習(xí)樣本的特征映射函數(shù)與樣本間的距離度量函數(shù),以目標(biāo)樣本與支持集中標(biāo)記樣本間的距離為依據(jù),實現(xiàn)小樣本分類.
5)SNAIL[40].結(jié)合時序空洞卷積與因果注意力機制,將小樣本分類任務(wù)轉(zhuǎn)化為一個序列到序列的問題,達到快速吸取過去經(jīng)驗的目標(biāo).
6)DN4[41].用多個局部描述子表征圖像語義,采用最近鄰算法比較目標(biāo)圖像與每個類別的局部描述子間的相似度,以此完成小樣本分類.
7)DSN[42].提出一種動態(tài)的子空間分類器,為每個類別尋找一個適合的特征子空間,通過度量目標(biāo)圖像在子空間與帶標(biāo)簽樣本的距離來預(yù)測類別.
8)MAML+L2F[43].采用動態(tài)衰減策略自動控制先驗知識對當(dāng)前小樣本分類任務(wù)的影響,遺忘MAML初始化參數(shù)中的沖突,以便更好適應(yīng)當(dāng)前的小樣本任務(wù).
9)BOIL[44].在MAML算法的內(nèi)循環(huán)中,設(shè)計只更新方法的特征提取器模塊,凍結(jié)小樣本分類器模塊,從而更好的適用新領(lǐng)域的小樣本分類任務(wù).
10)PCM[45].設(shè)計端到端的小樣本網(wǎng)絡(luò),包括雙線性特征學(xué)習(xí)模塊和分類器映射模塊.其中,分類器映射模塊以參數(shù)很少的方式生成決策邊界.
11)RCN[46].在基于局部特征小樣本匹配的基礎(chǔ)上,添加了可解釋模塊為小樣本分類結(jié)果提供依據(jù),并提出一種區(qū)域激活映射的方法可視化策略.
INT-FSL方法是基于開源深度學(xué)習(xí)框架Pytorch實現(xiàn)的.為了減少開銷,所有圖像都調(diào)整為84×84×3的大小后再輸入到INT-FSL網(wǎng)絡(luò).所有網(wǎng)絡(luò)的中間層都使用ReLU函數(shù)進行非線性映射.另外,網(wǎng)絡(luò)中所有卷積以及全連接層后都添加了歸一化操作(batch normalization),同時在全連接層后加入了概率為0.1的dropout層,增強網(wǎng)絡(luò)穩(wěn)定性和泛化能力.INT-FSL方法在32 G單塊GPU的Tesla服務(wù)器上運行.在上述設(shè)置下,將目標(biāo)函數(shù)(13)中的權(quán)衡系數(shù)λ和β分別設(shè)為0.5與1.0,采用學(xué)習(xí)率為0.01,動量為0.9,權(quán)值衰減為0.001的隨機梯度下降法來優(yōu)化INT-FSL方法中的參數(shù).
Table 1 The Experimental Results on miniImageNet Dataset
將M-wayK-shot小樣本設(shè)置中的M=5,K設(shè)為1和5,批大小設(shè)為32.為了公平對比,我們在每種小樣本設(shè)置場景下運行5次,計算分類的平均準(zhǔn)確率和標(biāo)準(zhǔn)差.表1~3分別記錄了miniImageNet,Stanford Dogs,CUB-200-2011三個公開數(shù)據(jù)集上的小樣本分類結(jié)果.對于INT-FSL方法中的特征映射模塊,我們在miniImageNet數(shù)據(jù)集上采用了Conv4(4層圖卷積)和ResNet網(wǎng)絡(luò)2種,在其他2個數(shù)據(jù)集上只采用了Conv4一種.另外,我們在細粒度數(shù)據(jù)集CUB-200-2011以及Stanford Dogs上采用了圖像旋轉(zhuǎn)、變形等方式進行數(shù)據(jù)增強.對比這些實驗結(jié)果,可得出3點結(jié)論:
1)在已有的小樣本方法中,MAML+L2F方法在miniImageNet數(shù)據(jù)集上取得最優(yōu)分類效果.RCN方法在Stanford Dogs和CUB-200-2011兩個數(shù)據(jù)集上取得最佳性能.這是因為MAML+L2F方法的動態(tài)衰減策略能有效緩解不同小樣本分類元任務(wù)間的沖突影響,從而使初始化參數(shù)在不同任務(wù)上具備更好的適應(yīng)能力;RCN方法采用局部區(qū)域元學(xué)習(xí)器捕獲圖像的關(guān)鍵位置特征,從而更好地進行小樣本分類.
2)與已有的小樣本分類方法相比,在大多數(shù)情況下,所提出的INT-FSL方法的圖像分類性能顯著提升.例如,對于5-way 1-shot分類任務(wù),INT-FSL(Conv4)在miniImageNet上提高了2.52個百分點,在Stanford Dogs和CUB-200-2011兩個數(shù)據(jù)集上分別提高了3.62和6.55個百分點.這說明INT-FSL方法能有效捕捉無標(biāo)記樣本的關(guān)鍵部位,并準(zhǔn)確學(xué)習(xí)這些部位與標(biāo)記樣本間的關(guān)聯(lián)關(guān)系,進一步改善小樣本圖像識別的性能.
Table 2 The Experimental Results on Stanford Dogs Dataset
Table 3 The Experimental Results on CUB-200-2011 Dataset
Table 4 The Contrastive Learning Analysis on Three Datasets
3)在3個數(shù)據(jù)集上的實驗結(jié)果都呈現(xiàn)一個共同的現(xiàn)象:隨著shot的增加,分類性能明顯上升.例如,當(dāng)INT-FSL(Conv4)方法在miniImageNet運行時,5-way 5-shot上的小樣本分類性能比5-way 1-shot的結(jié)果高18.17個百分點.這個現(xiàn)象非常合理,因為標(biāo)注樣本越少,小樣本分類任務(wù)的難度越高,分類的準(zhǔn)確率越低.
INT-FSL方法中的特征對比模塊通過生成大量正負樣本對比的方式,將數(shù)據(jù)內(nèi)部信息利用起來以強化圖像的局部特征表征.INT-FSL方法中包含全局對比和局部對比2種模式.為了進一步驗證該模塊對小樣本圖像分類性能的影響,本節(jié)設(shè)計了3個方法變種進行實驗驗證分析.其中,INT-FSL#0是在原始方法的基礎(chǔ)上去掉特征對比學(xué)習(xí)模塊,即目標(biāo)函數(shù)(12)中的權(quán)重系數(shù)λ=β=0;INT-FSL#1只保留對比學(xué)習(xí)模塊中的全局對比模式,去除局部對比模式,即λ=0.5且β=0;相反,INT-FSL#2保留對比學(xué)習(xí)模塊中的局部對比模式,去除全局對比模式,即λ=0且β=1.0.在5-way 1-shot和5-way 5-shot任務(wù)設(shè)置下,表4記錄了4種方法在3個數(shù)據(jù)集上的小樣本分類性能.從表4中可以分析得到:
1)與INT-FSL#0相比,其他3種方法都能在一定程度上提升了小樣本圖像識別的性能.例如,在數(shù)據(jù)集miniImageNet上,INT-FSL#0方法在5-way 1-shot小樣本分類任務(wù)上的準(zhǔn)確率為53.56%,INT-FSL#1,INT-FSL#2與INT-FSL能在此基礎(chǔ)上分別提升0.31,0.87與1.06個百分點.這個現(xiàn)象進一步說明對比學(xué)習(xí)模塊能通過最大化互信息的方式有效輔助小樣本特征映射,增強圖像局部描述子的語義表征.
2)在大多數(shù)情況下,方法INT-FSL#2的小樣本分類性能略高于INT-FSL#1.對于5-way 1-shot任務(wù),INT-FSL#1在Stanford Dogs與CUB-200-2011上的分類準(zhǔn)確率達56.96%與72.83%.INT-FSL#2分別達到57.56%和73.57%的性能.INT-FSL方法能將準(zhǔn)確率提升到57.91%和73.61%.結(jié)果說明,局部對比和全局對比模式都對小樣本分類具有一定的促進作用,且當(dāng)這2種模式綜合考慮時性能提升更加明顯.
在所提的小樣本分類模塊中,將注意力機制作用于無標(biāo)記圖像的hw個局部描述特征上,得到每個局部描述子對于當(dāng)前圖像語義的貢獻度.通過學(xué)習(xí)無標(biāo)記圖像重要區(qū)域與標(biāo)記樣本的相似度,達到小樣本分類的目標(biāo),并提供了可解釋的決策過程.本節(jié)在方法INT-FSL#1,INT-FSL#2與INT-FSL方法上去除小樣本分類模塊中的注意力機制(記為“-Att”),即通過賦予無標(biāo)記圖像所有局部描述子相同的權(quán)重完成3個數(shù)據(jù)集上的小樣本分類任務(wù).根據(jù)表5的實驗結(jié)果可以得知,注意力機制能有效提升小樣本分類的性能.例如,與INT-FSL(-Att)相比,INT-FSL在5-way 1-shot與5-way 5-shot小樣本任務(wù)上提升0.2~0.9個百分點.
Table 5 Spatial Attention Analysis for INT-FSL#1,INT-FSL#2,INT-FSL on Three Datasets
Fig.3 Spatial attention visualization for some unlabeled images from CUB-200-2011 dataset
為了進一步說明INT-FSL方法的可解釋性,我們針對CUB-200-2011數(shù)據(jù)集上的小樣本分類元任務(wù)進行案例分析.圖3是查詢集中4張無標(biāo)記圖像的注意力權(quán)重矩陣與熱力圖的可視化結(jié)果.可以看出,無標(biāo)記鳥類樣本的分類主要取決于圖像中“頭”“嘴巴”“身體”“腳”等關(guān)鍵部位,而與其周圍背景的關(guān)聯(lián)度偏弱.另外,針對一個3-way 1-shot的小樣本分類任務(wù),圖4展示了該任務(wù)中無標(biāo)記圖像注意力權(quán)重取值較大的3個區(qū)域,并展示了支持集中與這3個關(guān)鍵區(qū)域最相似的3個局部區(qū)域,可發(fā)現(xiàn)支持集中的一張標(biāo)記圖像與無標(biāo)記圖像的這3個區(qū)域高度相似,這在很大程度上為小樣本分類的過程提供了可解釋的推理過程.
Fig.4 Case study of interpretable few-shot learning
本文提出了一種創(chuàng)新的基于對比約束的可解釋小樣本圖像識別方法INT-FSL,旨在通過注意力機制提取無標(biāo)記樣本的關(guān)鍵局部特征,學(xué)習(xí)這些關(guān)鍵特征與其他標(biāo)記樣本局部特征的關(guān)聯(lián)關(guān)系,為小樣本分類提供可解釋的推理過程.另外,INT-FSL方法融合對比學(xué)習(xí)機理,設(shè)計全局和局部2種對比模式增強圖像的特征表征能力,緩解小樣本分類中監(jiān)督信息不足的問題.本文在3個標(biāo)準(zhǔn)圖像數(shù)據(jù)集上進行驗證,結(jié)果表明INT-FSL方法不僅能有效提高當(dāng)前主流小樣本方法的分類準(zhǔn)確度,而且能提供有效的可解釋性決策過程,滿足用戶的可解釋性需求.在未來工作中,可以設(shè)計更符合小樣本學(xué)習(xí)的對比策略來強化分類性能,同時調(diào)整特征映射模塊的網(wǎng)絡(luò)結(jié)構(gòu),滿足小樣本分類任務(wù)中圖像特征提取的可解釋性需求.