李國(guó)強(qiáng) 王天雷 龔寧 王俊妍
(燕山大學(xué)電氣工程學(xué)院 秦皇島071000)
隨著深度學(xué)習(xí)的發(fā)展,圖像識(shí)別技術(shù)得到了飛速的進(jìn)步,在大數(shù)據(jù)的驅(qū)動(dòng)下,圖像分類、目標(biāo)檢測(cè)、語(yǔ)義分割等領(lǐng)域都取得了顯著的成果。當(dāng)前的深度學(xué)習(xí)算法大多數(shù)基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN),隨著硬件設(shè)備的迭代更新,在訓(xùn)練量足夠的前提下,CNN 具有提取特征速度快、提取特征準(zhǔn)確等一系列優(yōu)點(diǎn)。依靠這些優(yōu)點(diǎn),CNN 逐漸取代了傳統(tǒng)圖像識(shí)別中利用人工標(biāo)注獲取特征的方法,廣泛應(yīng)用于圖像識(shí)別領(lǐng)域[1]。然而當(dāng)數(shù)據(jù)量不足時(shí),現(xiàn)有的基于CNN 的深度學(xué)習(xí)算法逐漸暴露出泛化能力差、過(guò)擬合嚴(yán)重等缺點(diǎn)。小樣本學(xué)習(xí)(few-shot learning)旨在當(dāng)訓(xùn)練數(shù)據(jù)量較少的情況下,利用相關(guān)算法完成計(jì)算機(jī)視覺(jué)領(lǐng)域的各個(gè)任務(wù),近些年來(lái)逐漸成為計(jì)算機(jī)視覺(jué)領(lǐng)域的研究重點(diǎn)之一[2-3]。
目前處理小樣本學(xué)習(xí)問(wèn)題的方法大致可分為以下幾種:基于元學(xué)習(xí)的小樣本學(xué)習(xí)策略、基于遷移學(xué)習(xí)的小樣本學(xué)習(xí)策略和基于圖神經(jīng)網(wǎng)絡(luò)的小樣本學(xué)習(xí)策略等[4]。其中基于元學(xué)習(xí)的小樣本學(xué)習(xí)應(yīng)用最為廣泛,其目的是訓(xùn)練神經(jīng)網(wǎng)絡(luò)學(xué)會(huì)利用以往的經(jīng)驗(yàn),使模型學(xué)會(huì)自己學(xué)習(xí),其顯著特點(diǎn)為測(cè)試集(test set)的類別為訓(xùn)練集(train set)從未見過(guò)的新類。而基于元學(xué)習(xí)的小樣本學(xué)習(xí)算法又可以分為基于優(yōu)化的元學(xué)習(xí)算法、基于模型的元學(xué)習(xí)算法和基于度量學(xué)習(xí)的元學(xué)習(xí)算法。
基于度量的元學(xué)習(xí)算法思想簡(jiǎn)單易懂,同時(shí)在多個(gè)數(shù)據(jù)集上都取得了較好的效果,進(jìn)而成為處理小樣本學(xué)習(xí)的最主要算法之一。根據(jù)度量方式不同,基于度量的元學(xué)習(xí)分為固定距離度量以及非固定距離度量[5]。本文借鑒了基于度量的元學(xué)習(xí)算法思想,在經(jīng)典的小樣本學(xué)習(xí)模型的基礎(chǔ)上,提出了基于注意力類協(xié)方差的原型網(wǎng)絡(luò)(attention-based class covarance prototypical network,ACCPN)。首先,為增加模型的泛化能力,特征嵌入模塊在IBNResnet[6]的基礎(chǔ)上,提出了IBN-Resnet12;同時(shí)為加強(qiáng)局部特征,在特征提取器后引入了空間注意力模塊(spatial attention model,SAM)。對(duì)于分類器部分,本文將類協(xié)方差距離作為小樣本學(xué)習(xí)度量分類器中的距離度量方式。實(shí)驗(yàn)證明,該方法能夠在不增加額外參數(shù)的前提下,提升小樣本圖像分類的準(zhǔn)確率。
小樣本學(xué)習(xí)是指在給定訓(xùn)練樣本較少的前提下,完成相關(guān)的包括圖像分類、語(yǔ)義分割、目標(biāo)檢測(cè)等任務(wù),其目標(biāo)是希望模型經(jīng)過(guò)訓(xùn)練后,僅通過(guò)少量的樣本就能快速學(xué)習(xí)新類。其實(shí)現(xiàn)過(guò)程可分為元訓(xùn)練階段Dbase和元測(cè)試階段Dnovel。區(qū)別于普通的圖像識(shí)別,小樣本學(xué)習(xí)以“任務(wù)”為單位,每一“任務(wù)”又包含支持集Ds和查詢集Dq。其評(píng)價(jià)指標(biāo)通常為C-wayN-shot,即在經(jīng)過(guò)元訓(xùn)練階段Dbase多個(gè)“任務(wù)”訓(xùn)練過(guò)后,在元測(cè)試階段Dnovel的支持集Ds中每一個(gè)“任務(wù)”有C個(gè)類別,每個(gè)類別有N個(gè)樣本[7]。小樣本學(xué)習(xí)的最終目的就是在Dnovel中只通過(guò)Ds的少量樣本就能識(shí)別出Dq中的樣本。
當(dāng)前處理小樣本學(xué)習(xí)多利用元學(xué)習(xí)的思想,而基于元學(xué)習(xí)的小樣本學(xué)習(xí)算法又可以分為基于優(yōu)化的元學(xué)習(xí)算法、基于模型的元學(xué)習(xí)算法和基于度量學(xué)習(xí)的元學(xué)習(xí)算法等。
基于優(yōu)化的元學(xué)習(xí)算法的目標(biāo)為尋找一個(gè)好的初始化參數(shù),在測(cè)試階段只需微調(diào)就能使網(wǎng)絡(luò)在面對(duì)從未見多的新樣本時(shí)能夠很快尋找到最優(yōu)初始值。文獻(xiàn)[8]在2017 年提出了一種與模型無(wú)關(guān)的元學(xué)習(xí)算法(model-agnostic meta-learning,MAML)。該算法提出的模型無(wú)關(guān)性元學(xué)習(xí)算法,使用少量的梯度迭代步驟就可以學(xué)習(xí)到適用于新任務(wù)的參數(shù),能夠匹配任何使用梯度下降法訓(xùn)練的模型。
基于模型的元學(xué)習(xí)算法旨在學(xué)習(xí)不同模型中的通用知識(shí),并用通用知識(shí)預(yù)測(cè)基準(zhǔn)模型參數(shù),并能加快訓(xùn)練速度。文獻(xiàn)[9]在2017 年使用卷積神經(jīng)網(wǎng)絡(luò)構(gòu)造了一種元網(wǎng)絡(luò)(meta networks,Meta-Nets),其思想是學(xué)習(xí)一種跨任務(wù)的元級(jí)學(xué)習(xí),利用外部記憶模塊存儲(chǔ)每個(gè)類別對(duì)應(yīng)的權(quán)重信息和表征信息,利用該信息進(jìn)行預(yù)測(cè),結(jié)果表明該方法能在保證準(zhǔn)確率的同時(shí)對(duì)新任務(wù)實(shí)現(xiàn)快速參數(shù)化。
基于度量的元學(xué)習(xí)算法借鑒了度量學(xué)習(xí)的思想,簡(jiǎn)單易懂,且擁有較高的準(zhǔn)確率。2015 年Koch等人[10]針對(duì)小樣本學(xué)習(xí)提出了深度卷積孿生網(wǎng)絡(luò),該算法訓(xùn)練一個(gè)孿生網(wǎng)絡(luò)對(duì)樣本進(jìn)行相似性度量,即讓樣本對(duì)通過(guò)完全相同的網(wǎng)絡(luò)結(jié)構(gòu),利用歐式距離對(duì)從樣本中學(xué)習(xí)到的特征進(jìn)行相似性度量,根據(jù)學(xué)習(xí)到的特征映射對(duì)驗(yàn)證集進(jìn)行分類。而后Snell等人[11]提出原型網(wǎng)絡(luò)(prototypical networks,PN),對(duì)于給定數(shù)據(jù)集,計(jì)算每一類的類平均值作為類原型,測(cè)試時(shí),利用測(cè)試集提取的特征與各類的類原型之間的距離進(jìn)行分類。Sung 等人[12]在2018 年提出了端到端的相關(guān)網(wǎng)絡(luò)(relation network,RN),相關(guān)網(wǎng)絡(luò)由嵌入模塊和關(guān)系模塊組成,嵌入模塊用于提取圖像特征,關(guān)系模塊用于計(jì)算相關(guān)性得分,利用相關(guān)性得分進(jìn)行分類。王年等人[13]在關(guān)系網(wǎng)絡(luò)的基礎(chǔ)上,融合inception 塊和感受野塊,提出了一種基于改進(jìn)關(guān)系網(wǎng)絡(luò)的小樣本學(xué)習(xí)方法。文獻(xiàn)[14]在歐氏距離的基礎(chǔ)上借鑒了線性規(guī)劃中的運(yùn)輸問(wèn)題,提出了一種新的用于小樣本學(xué)習(xí)度量分類器中的距離度量方式,計(jì)算查詢集和支持集圖像的各個(gè)圖塊之間的最佳匹配代價(jià)來(lái)表示二者之間的相似程度。
此外,近些年還出現(xiàn)了區(qū)別于元學(xué)習(xí)的小樣本學(xué)習(xí)的方法,文獻(xiàn)[15]提出利用自監(jiān)督的方法增強(qiáng)小樣本數(shù)據(jù),文獻(xiàn)[16]引用外部擴(kuò)展集輔助訓(xùn)練。
當(dāng)前基于元度量學(xué)習(xí)的小樣本學(xué)習(xí)算法摒棄了傳統(tǒng)深度學(xué)習(xí)的全連接層作為最終的分類器,而選擇參數(shù)量較小且不易過(guò)擬合的距離度量方法作為小樣本學(xué)習(xí)分類器。距離度量方式大致可分為基于固定距離的度量和基于非固定距離的度量。其中基于固定距離的度量多借鑒原型網(wǎng)絡(luò)(PN)的思想,首先利用特征提取模塊提取支持集Ds圖像特征;而后計(jì)算每一類的類原型作為該類的類代表,具體地,對(duì)于第n類的類原型Cn可以表示為式中K表示第n類有K個(gè)樣本,fθ表示特征提取器,xni表示第n個(gè)類別的第i個(gè)樣本。而后對(duì)于查詢集Dq的樣本xi,提取其特征fθ(xi),再與每一類類原型計(jì)算距離,再根據(jù)距離利用softmax 函數(shù)完成最終的分類:
式中d(m,n)表示m和n之間的距離,Pni表示xi屬于類別n的概率,C表示每個(gè)任務(wù)有C類。目前大多小樣本學(xué)習(xí)算法的特征提取模塊多為4 層卷積神經(jīng)網(wǎng)絡(luò)或者Resnet 的變體Resnet-12,這種簡(jiǎn)單的網(wǎng)絡(luò)結(jié)構(gòu)雖然能在少量樣本的情況下較好地提取特征,但并未解決小樣本學(xué)習(xí)中常見的泛化能力差等問(wèn)題,且由于每一類的樣本數(shù)量過(guò)少,在計(jì)算各類的類原型時(shí)得到的并不是該類真正的類原型。同時(shí),基于度量的小樣本學(xué)習(xí)大多采用簡(jiǎn)單的歐式平方距離以及余弦距離作為最終的距離度量分類器,而這兩種距離度量方式忽略了樣本特征維度間的相關(guān)性,在計(jì)算類間距離時(shí)默認(rèn)了不同類別的協(xié)方差具有一致性。而對(duì)于小樣本學(xué)習(xí)任務(wù),同一類特征維度具有高度相關(guān)性,對(duì)特征維度相關(guān)性的建模能很大程度上提升小樣本學(xué)習(xí)的準(zhǔn)確率。
為解決上述問(wèn)題,本文從特征提取器和分類器兩方面對(duì)原型網(wǎng)絡(luò)(PN)進(jìn)行了改進(jìn),提出了注意力類協(xié)方差原型網(wǎng)絡(luò)(ACCPN)。
對(duì)于特征提取器,本文提出了IBN-Resnet12 作為特征提取網(wǎng)絡(luò),并在IBN-Resnet12 后添加了空間注意力模塊(SAM)[17],更高效提取特征的同時(shí)增加了模型的泛化能力,在樣本較少的情況下,更加突出重要的特征;對(duì)于分類器,本文提出將類協(xié)方差距離作為度量分類器的距離度量方式,有效解決了PN的度量分類器中歐式距離存在的問(wèn)題,其總結(jié)構(gòu)圖如圖1 所示。對(duì)于一個(gè)小樣本學(xué)習(xí)任務(wù)Γ,首先將訓(xùn)練集分為支持集(support set)和查詢集(query set),將support set 和query set 圖像輸入到特征提取器中得到特征US以及Uq,利用式(1)計(jì)算support set 中每一類的類原型CK;接著將Uq與CK進(jìn)行類協(xié)方差距離度量,并利用softmax 函數(shù)得到最終的分類結(jié)果。
圖1 ACCPN 總體結(jié)構(gòu)圖
本文在小樣本數(shù)據(jù)集Miniimagenet[18]和Tieredimagenet[19]上進(jìn)行了實(shí)驗(yàn),證明了模型整體的有效性;同時(shí)本文還做了大量消融實(shí)驗(yàn),證明了各個(gè)部分的有效性。
在小樣本學(xué)習(xí)中,由于support set 數(shù)量極少,訓(xùn)練得到的模型很容易出現(xiàn)過(guò)擬合嚴(yán)重、泛化能力差、局部特征不明顯等問(wèn)題。針對(duì)該問(wèn)題,本文改進(jìn)了傳統(tǒng)小樣本學(xué)習(xí)的特征提取模塊,提出了IBN-Resnet12 作為特征提取網(wǎng)絡(luò),增強(qiáng)了模型的泛化能力,同時(shí)在特征提取網(wǎng)絡(luò)后加入了空間注意力模塊(SAM),有效增強(qiáng)了局部特征。IBN-Resnet12 以及SAM 共同構(gòu)成了本文的特征提取模塊。
IBN-Resnet12 結(jié)構(gòu)圖如圖2 所示,其設(shè)計(jì)原理是將批歸一化(batch normalization,BN)[20]和實(shí)例歸一化(instance normalization,IN)[21]結(jié)合,IN 和BN在本質(zhì)上都是歸一化的方法,IN 針對(duì)單一的圖像,而BN 針對(duì)一個(gè)批次的圖像。Pan 等人[6]提出IN 對(duì)圖像外觀變化具有不變性,BN 可以保存內(nèi)容相關(guān)信息,故IN 常被用于圖像風(fēng)格遷移等底層視覺(jué)任務(wù)中,而BN 則常被用于目標(biāo)識(shí)別、分類等高層任務(wù)中。如果將IN 和BN 結(jié)合起來(lái),則同時(shí)提高了模型的泛化能力和學(xué)習(xí)能力。本文在淺層同時(shí)使用IN和BN,而在網(wǎng)絡(luò)深層只使用BN,提出了IBN-Resnet12。實(shí)驗(yàn)證明,該網(wǎng)絡(luò)對(duì)小樣本圖像分類效果有一定的提升。
圖2 IBN-Resnet12
當(dāng)前大多數(shù)基于度量的小樣本學(xué)習(xí)在經(jīng)過(guò)特征提取網(wǎng)絡(luò)后直接將特征輸入到相似性度量模塊。而由于各類的樣本較少,利用該方法計(jì)算得到的類原型并非該類真正的類原型。本文利用空間注意力模塊(SAM)增強(qiáng)局部特征,對(duì)更重要的局部特征賦予更大的權(quán)重,使經(jīng)過(guò)特征提取模塊并計(jì)算得到的類原型更加接近真實(shí)的類原型??臻g注意力模塊如圖3所示。
圖3 空間注意力模塊
空間注意力是對(duì)通道進(jìn)行壓縮,對(duì)于輸入到SAM 的特征,首先做一個(gè)基于通道的Max pooling 和Average pooling,然后在通道維度上進(jìn)行合并,再經(jīng)過(guò)一個(gè)卷積降維為一個(gè)通道,最后利用Sigmoid 函數(shù)生成權(quán)重σi,j(i∈(1,h),j∈(1,w))。其過(guò)程可由式(3)表示。
其中conv 表示一層卷積神經(jīng)網(wǎng)絡(luò),7×7 表示表示卷積核大小。
給定一張尺寸為H×W的圖像A,經(jīng)過(guò)2.1 小節(jié)中的IBN-Resnet12 特征提取模塊,得到了大小為h×w×d的特征向量矩陣U,其中h、w表示長(zhǎng)、寬,d表示通道數(shù),同時(shí)還可以將U看作h×w個(gè)局部特征的和,每個(gè)局部特征包含d個(gè)單位,即每一張圖像經(jīng)過(guò)特征提取擁有h×w個(gè)d維的局部特征[22]。本文在IBN-Resnet12 特征提取后利用SAM 強(qiáng)化局部特征,經(jīng)過(guò)IBN-Resnet12 模塊得到的特征為U=[u1,1,u1,2,…,ui,j,…,uh,w],其中ui,j∈R1×1×c代表空間位置(i,j),i∈{1,2,…,h},j∈{1,2,…,w},而后經(jīng)過(guò)由式(4)表示的SAM 過(guò)程,得到圖像特征中各個(gè)局部特征的權(quán)值,最后將原特征與權(quán)值相乘,得到由SAM 強(qiáng)化后的圖像特征USAM。
相比于只利用IBN-Resnet12 提取的特征U,USAM能有效地突出更重要的局部特征,而在計(jì)算類原型時(shí),由于每一類的樣本較少,利用USAM計(jì)算得到的類原型更接近該類的真實(shí)類原型。經(jīng)實(shí)驗(yàn)證明,SAM 模塊的添加,有效地提升了小樣本圖像分類的準(zhǔn)確率。
原型網(wǎng)絡(luò)(PN)采用固定距離度量方式,其側(cè)重點(diǎn)在于特征提取部分。在度量分類器的選擇上,通過(guò)比較歐式距離和余弦距離,最終選擇了歐氏距離作為度量分類器的距離度量方式。然而歐氏距離在度量特征之間的距離時(shí),有以下缺點(diǎn):(1) 歐氏距離并未考慮特征維度之間的關(guān)聯(lián)性;(2) 歐氏距離默認(rèn)了所有特征服從同一分布,而在小樣本學(xué)習(xí)中,對(duì)分布進(jìn)行建模能有效地提升模型性能。
本文提出類協(xié)方差距離度量,定義類協(xié)方差距離為基于類別的協(xié)方差距離的加權(quán)和。協(xié)方差距離是有效計(jì)算兩個(gè)樣本相似度的方法;對(duì)于一個(gè)均值為μ=(μ1,μ2,…,μp)T,協(xié)方差矩陣為Q的多變量x=(x1,x2,x3,…,xp)T,協(xié)方差距離如式(5)所示。
協(xié)方差距離解決了上述歐氏距離在計(jì)算小樣本學(xué)習(xí)中支持集類原型和查詢集特征相似度時(shí)的缺點(diǎn)。具體的,協(xié)方差距離在度量時(shí)通過(guò)協(xié)方差矩陣考慮到了特征維度間的關(guān)聯(lián)性,且成功解決了歐氏距離對(duì)于類內(nèi)樣本相對(duì)于原型的分布不敏感這一缺點(diǎn)[23]。協(xié)方差距離和歐氏距離的比較如圖4 所示。
圖4 兩種距離比較
對(duì)于一個(gè)小樣本學(xué)習(xí)任務(wù)Γ,輸入圖像經(jīng)過(guò)特征提取模塊,得到支持集DS的特征fθ(xs) 和查詢集Dq的特征fθ(xq),然后利用式(1)計(jì)算支持集各類的類原型CK,K表示第K類,則分類概率計(jì)算公式為
式中,dk表示協(xié)方差距離,其協(xié)方差矩陣為,表示特定于任務(wù)Γ和類別K的協(xié)方差矩陣。故如何計(jì)算該協(xié)方差矩陣為建模的關(guān)鍵,由于小樣本學(xué)習(xí)中支持集的樣本數(shù)量遠(yuǎn)小于特征空間維度,因此為保證可逆,使用一種正則化方法確定。
支持集圖像Ds經(jīng)過(guò)IBN-Resnet12 的特征提取以及SAM 增強(qiáng)局部特征后,得到經(jīng)過(guò)特征增強(qiáng)的圖像特征USSAM;對(duì)于第i類,利用式(1)計(jì)算該類的類原型Ci。查詢集圖像Dq同樣經(jīng)過(guò)特征提取模塊以及SAM 模塊得到該圖像的特征UqSAM;隨后將支持集得到的各類的類原型Ci與查詢集得到的特征UqSAM送入到相似性度量模塊,利用相似性得分,將查詢集圖像Dq進(jìn)行分類。其流程如算法1 所示。
由算法1 可以得到ACCPN 訓(xùn)練的全部流程;首先劃分?jǐn)?shù)據(jù)。將數(shù)據(jù)集分為訓(xùn)練集、驗(yàn)證集和測(cè)試集,取訓(xùn)練集Dbase并將其分為T個(gè)任務(wù),每個(gè)任務(wù)由支持集Ds和查詢集Dq組成。接著將劃分好的任務(wù)輸入到特征提取模塊中,計(jì)算支持集的類原型C。而后計(jì)算查詢集Dq中各個(gè)樣本與不同類別C的協(xié)方差距離d。最后利用d確定該樣本的類別。利用交叉熵?fù)p失函數(shù)計(jì)算損失,經(jīng)過(guò)R次迭代,得到訓(xùn)練好的模型FR。ACCPN 是基于PN 網(wǎng)絡(luò)的改進(jìn),由于其加入了注意力機(jī)制,故在反向傳播時(shí)需要迭代的參數(shù)除了CNN 還有SAM,使得ACCPN 在時(shí)間復(fù)雜度上略高于PN,但SAM 只包含少量卷積層,故該模型以犧牲時(shí)間復(fù)雜度來(lái)?yè)Q取準(zhǔn)確率的策略具有可行性。
為驗(yàn)證上述算法的有效性,本文在小樣本學(xué)習(xí)經(jīng)典數(shù)據(jù)集Miniimagenet 和Tieredimagenet 上進(jìn)行大量實(shí)驗(yàn)。
Miniimagenet 是從大型計(jì)算機(jī)視覺(jué)數(shù)據(jù)集Imagenet[24]上節(jié)選的部分?jǐn)?shù)據(jù)。2016 年DeepMind 團(tuán)隊(duì)將Miniimagenet 數(shù)據(jù)集用于小樣本圖像分類,自此該數(shù)據(jù)集成為了小樣本學(xué)習(xí)研究的基準(zhǔn)數(shù)據(jù)集。Miniimagenet 包含100 個(gè)類,每一類包含600 個(gè)樣本,每張圖像大小為84×84 像素。本文將該數(shù)據(jù)集按6 ∶2 ∶2的比例分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。
Tieredimagenet 也是從Imagenet 數(shù)據(jù)集中選取的部分?jǐn)?shù)據(jù),由文獻(xiàn)[17]于2018 年提出,并應(yīng)用于小樣本學(xué)習(xí)領(lǐng)域。其一共包含34 個(gè)大類,每個(gè)大類又包含10~30 個(gè)小類,共計(jì)608 個(gè)類別,779 165張圖像;將608 個(gè)類別劃分為351 個(gè)訓(xùn)練集,97 個(gè)驗(yàn)證集,160 個(gè)測(cè)試集,具體劃分情況如表1 所示。
表1 Tieredimagenet 數(shù)據(jù)集劃分情況
本實(shí)驗(yàn)的測(cè)試平臺(tái)是在 Nvidia TITAN Xp(GPU 12 GB),編程環(huán)境為Python 3.6,使用的深度學(xué)習(xí)框架為Pytorch;優(yōu)化器選擇Adam 優(yōu)化器,采用固定學(xué)習(xí)率為0.001。對(duì)于小樣本學(xué)習(xí)任務(wù),本文選擇5-way 5-shot 和5-way 1-shot 2 個(gè)評(píng)價(jià)指標(biāo),即測(cè)試階段的支持集隨機(jī)選取5 個(gè)類別,每種類別分別選取5 個(gè)以及1 個(gè)樣本;最終準(zhǔn)確率由測(cè)試階段所有任務(wù)的平均準(zhǔn)確率計(jì)算得到。在訓(xùn)練階段,支持集的類別數(shù)(support-way)和樣本數(shù)(support-shot)會(huì)直接影響模型訓(xùn)練的好壞和最終的準(zhǔn)確率;對(duì)于Miniimagenet 和Tieredimagenet 2 個(gè)數(shù)據(jù)集,本文設(shè)置的參數(shù)基本一致。5-way 5-shot 具體實(shí)驗(yàn)設(shè)置如表2 所示,5-way 1-shot 實(shí)驗(yàn)設(shè)置如表3 所示。
表2 5-way 5-shot 實(shí)驗(yàn)設(shè)置
表3 5-way 1-shot 實(shí)驗(yàn)設(shè)置
表中query-shot 為查詢集每一類樣本數(shù)量,max-epoch 表示迭代的總輪數(shù),save-epoch 表示保存模型的輪數(shù),task-num 表示任務(wù)的數(shù)量。
本文在原型網(wǎng)絡(luò)基礎(chǔ)上提出了基于注意力和類協(xié)方差的原型網(wǎng)絡(luò)(ACCPN),并在小樣本圖像分類經(jīng)典數(shù)據(jù)集Miniimagenet 和Tieredimagenet 上進(jìn)行大量實(shí)驗(yàn)來(lái)證明整體算法的有效性,同時(shí)進(jìn)行相關(guān)消融實(shí)驗(yàn)以證明各個(gè)部分的有效性。
3.3.1 Miniimagenet 實(shí)驗(yàn)對(duì)比
為驗(yàn)證整體模型的有效性,本文將ACCPN 與經(jīng)典小樣本學(xué)習(xí)算法進(jìn)行對(duì)比,其實(shí)驗(yàn)結(jié)果如表4所示。由表可知,本文對(duì)比了Matching Networks[25]、PN(4-conv)[11]、PN(Resnet12)[11]、MAML[8]、Relation Networks[12]、AdaResnet[26]和SNAIL[27]等小樣本學(xué)習(xí)算法,本文提出的方法ACCPN 在5-way 5-shot 和5-way 1-shot 任務(wù)上都取得了顯著的效果,其中ACCPN 在5-way 5-shot 任務(wù)上取得了所有對(duì)比算法中最好的效果。對(duì)于5-way 5-shot 任務(wù),ACCPN 相比于基準(zhǔn)算法PN(4-Conv)以及PN(Resnet12)的性能提升分別為6.73%和3.06%;對(duì)于5-way 1-shot 任務(wù),ACCPN 相比于基準(zhǔn)算法PN(4-Conv)以及PN(Resnet12)的性能提升為6.64%和3.09%。為證明各個(gè)改進(jìn)部分的有效性,本文進(jìn)行了大量的消融實(shí)驗(yàn),其結(jié)果如表5 所示?;鶞?zhǔn)模型為PN(Resnet12)。
由表4 可知,相比于其他的小樣本學(xué)習(xí)算法,本文提出的方法ACCPN 在小樣本圖像分類中取得了顯著的效果。而由表5 可知,本文提出的IBN-Resnet12,SAM 以及類協(xié)方差度量(class covariance,CC)對(duì)于小樣本圖像分類都具有一定的效果。對(duì)于5-way 5-shot 任務(wù),IBN-Resnet12 結(jié)構(gòu)相比于Resnet12 結(jié)構(gòu)的精度提升為0.70%左右;加入了SAM的PN 相比于基準(zhǔn)PN 的精度提升約為0.72%;本文提出的類協(xié)方差度量(CC)對(duì)于最終精度的提升效果最明顯,相對(duì)于基準(zhǔn)PN,該方法精度提升為2.6%左右。對(duì)于5-way 1-shot 任務(wù),IBN-Resnet12 結(jié)構(gòu)相比于Resnet12 結(jié)構(gòu)的精度提升為0.71%;加入了SAM 的PN 相比于基準(zhǔn)PN 的精度提升約為0.50%;類協(xié)方差度量(CC)相對(duì)于基準(zhǔn)PN 提升了1.58%的精確度。
表4 Miniimagenet 數(shù)據(jù)性能比較/%
表5 Miniimagenet 消融實(shí)驗(yàn)結(jié)果/%
3.3.2 Tieredimagenet 實(shí)驗(yàn)對(duì)比
本節(jié)按照上述Miniimagenet 的實(shí)驗(yàn)對(duì)比方法,在Tieredimagenet 上同樣進(jìn)行了大量的實(shí)驗(yàn)以及消融實(shí)驗(yàn),驗(yàn)證了ACCPN 模型的有效性,結(jié)果如表6所示。本文在Tieredimagenet 數(shù)據(jù)集上與PN(4-conv)[11]、PN(Resnet12)[11]、Relation Networks[12]以及其他小樣本學(xué)習(xí)算法進(jìn)行了比較。由表6 得知,ACCPN 在Tieredimagenet 數(shù)據(jù)集上取得了較好的效果,對(duì)于5-way 5-shot 任務(wù),ACCPN 相對(duì)于PN(4-conv),準(zhǔn)確率提升了 7.76%,相對(duì)于 PN(Resnet12),準(zhǔn)確率提升了1.67%。對(duì)于5-way 1-shot 任務(wù),ACCPN 相對(duì)于PN(4-conv),準(zhǔn)確率提升了6.09%,相對(duì)于PN(Resnet12),準(zhǔn)確率提升了1.55%。為證明各個(gè)改進(jìn)部分的有效性,本文進(jìn)行了大量的消融實(shí)驗(yàn),其結(jié)果如表7 所示。
表6 Tieredimagenet 數(shù)據(jù)性能比較/%
表7 Tieredimagenet 消融實(shí)驗(yàn)結(jié)果/%
由表7 的消融實(shí)驗(yàn)結(jié)果得知,本文提出的IBNResnet12、SAM 模塊以及類協(xié)方差度量(CC)對(duì)于小樣本圖像分類都具有一定的效果。對(duì)于5-way 5-shot 任務(wù),IBN-Resnet12 結(jié)構(gòu)相比于Resnet12 結(jié)構(gòu)的精度提升了1.03%左右,加入了SAM 的PN 相比于基準(zhǔn)PN 的精度提升約為0.68%,本文提出的類協(xié)方差度量(CC) 相對(duì)于基準(zhǔn)PN 提升精度為1.24%左右。對(duì)于5-way 1-shot 任務(wù),IBN-Resnet12結(jié)構(gòu)相比于Resnet12 結(jié)構(gòu)的精度提升了0.64%,加入了SAM 的PN 相比于基準(zhǔn)PN 的精度提升約為0.39%,類協(xié)方差度量(CC)相對(duì)于基準(zhǔn)PN 提升了1.16%的精確度。
3.3.3 模型復(fù)雜度分析
由上述實(shí)驗(yàn)可知ACCPN 相對(duì)于基準(zhǔn)的PN 以及其他小樣本學(xué)習(xí)算法有了較大的性能提升,接下來(lái)進(jìn)行該模型的復(fù)雜度分析。ACCPN 由特征提取器和分類器構(gòu)成,并非端到端的結(jié)構(gòu),故本文分別對(duì)特征提取器和分類器進(jìn)行復(fù)雜度分析。首先對(duì)于特征提取部分,相對(duì)于PN,本文的ACCPN 在CNN 后加入了SAM,故在參數(shù)計(jì)算時(shí)也只是加入了SAM 的參數(shù)量。具體參數(shù)量及時(shí)間復(fù)雜度對(duì)比如表8 所示。
表8 ACCPN 和PN 參數(shù)量及時(shí)間復(fù)雜度對(duì)比
由表8 可得,ACCPN 相對(duì)于PN 的總參數(shù)量只多了98,而時(shí)間復(fù)雜度可用浮點(diǎn)數(shù)來(lái)衡量,浮點(diǎn)數(shù)意指浮點(diǎn)運(yùn)算量,由表8 可得,ACCPN 的浮點(diǎn)數(shù)相比于PN 只多了2405。
對(duì)于分類器部分,由于ACCPN 需要計(jì)算類協(xié)方差距離,故比PN 的歐氏距離計(jì)算所需的時(shí)間要長(zhǎng)。但由于類協(xié)方差距離是固定距離計(jì)算,不引入額外的參數(shù),故總參數(shù)量是不變的。
綜上所述,ACCPN 在只增加少量參數(shù)及時(shí)間復(fù)雜度的前提下,準(zhǔn)確率有了較大的提升。
本文提出了一種基于自注意力和類協(xié)方差度量的原型網(wǎng)絡(luò)(ACCPN),相對(duì)于基準(zhǔn)原型網(wǎng)絡(luò),本文從特征提取模塊和分類器部分都做了改進(jìn)。首先利用IN 的圖像外觀不變性,提出IBN-Resnet12 作為特征提取結(jié)構(gòu),使模型在保持學(xué)習(xí)能力的同時(shí),增加模型泛化能力;其次在特征提取模塊后嵌入空間注意力模塊,增強(qiáng)局部特征;最后提出類協(xié)方差距離度量,突出了圖像特征間的關(guān)聯(lián)性。本文在小樣本學(xué)習(xí)經(jīng)典數(shù)據(jù)集Miniimagenet 和Tieredimagenet 上做了大量實(shí)驗(yàn),證明了模型的有效性。
小樣本學(xué)習(xí)旨在訓(xùn)練模型在給定樣本較少的情況下完成一系列任務(wù),而當(dāng)前小樣本學(xué)習(xí)方法多基于度量學(xué)習(xí)的思想,而忽略了對(duì)樣本數(shù)據(jù)分布的建模,故小樣本學(xué)習(xí)未來(lái)的發(fā)展應(yīng)重點(diǎn)放在樣本本身,依據(jù)不同樣本的數(shù)據(jù)分布特點(diǎn)建立泛化性更好的小樣本學(xué)習(xí)模型。同時(shí),當(dāng)前小樣本學(xué)習(xí)任務(wù)多為圖像分類,未來(lái)的應(yīng)用場(chǎng)景應(yīng)拓展到目標(biāo)檢測(cè)、語(yǔ)義分割和文本識(shí)別等多方面。