葉 萌,楊 娟,汪榮貴,薛麗霞,李 懂
(合肥工業(yè)大學(xué)計(jì)算機(jī)與信息學(xué)院,合肥 230601)
自深度學(xué)習(xí)[1]技術(shù)被提出以來,增加神經(jīng)網(wǎng)絡(luò)模型深度[2-3]從而使得模型具有更強(qiáng)的學(xué)習(xí)能力成為人工智能領(lǐng)域的熱點(diǎn)研究[4-6],但在構(gòu)建大容量模型時(shí)需要使用海量的訓(xùn)練樣本,因此在樣本獲取、標(biāo)注等工作上耗費(fèi)大量的人工成本。小樣本學(xué)習(xí)[7]研究的主要目的在于賦予深度學(xué)習(xí)模型從少量新事物中快速學(xué)習(xí)抽象概念的能力,并在遇見同類事物時(shí)能夠快速對(duì)比重要信息從而做出正確判斷。具體而言,小樣本學(xué)習(xí)任務(wù)的目標(biāo)是在少量待測試類別樣本參與模型訓(xùn)練的情況下構(gòu)建性能優(yōu)異的分類器。針對(duì)小樣本學(xué)習(xí)問題,基于距離度量的小樣本學(xué)習(xí)方法易于實(shí)現(xiàn),并且效果顯著,目前已成為小樣本學(xué)習(xí)領(lǐng)域的一個(gè)重要研究方向。此外,基于遷移學(xué)習(xí)的小樣本學(xué)習(xí)方法、基于數(shù)據(jù)增強(qiáng)的小樣本學(xué)習(xí)方法和基于元學(xué)習(xí)的小樣本學(xué)習(xí)方法也是小樣本學(xué)習(xí)領(lǐng)域的常用方法。
基于遷移學(xué)習(xí)的小樣本學(xué)習(xí)方法利用訓(xùn)練樣本對(duì)模型進(jìn)行預(yù)訓(xùn)練,并運(yùn)用有限的測試集樣本對(duì)模型參數(shù)進(jìn)行調(diào)整從而完成從源域到目標(biāo)域的遷移。文獻(xiàn)[8]利用內(nèi)積度量的邊際Fisher 準(zhǔn)則對(duì)源域進(jìn)行特征映射,并對(duì)源域中的樣本點(diǎn)進(jìn)行篩選,在核化空間上學(xué)習(xí)目標(biāo)域與源域特征的非線性映射,最終在目標(biāo)域中構(gòu)建小樣本分類器,該方法取得了一定的實(shí)際應(yīng)用效果。此類學(xué)習(xí)方法與快速學(xué)習(xí)的流程一致,都是在經(jīng)驗(yàn)信息的基礎(chǔ)上通過學(xué)習(xí)獲得對(duì)指定類別的泛化判別能力,但實(shí)際實(shí)驗(yàn)結(jié)果證明,深度學(xué)習(xí)模型在遷移過程中極易遺忘過往的經(jīng)驗(yàn)信息,在進(jìn)行參數(shù)遷移時(shí)往往會(huì)出現(xiàn)嚴(yán)重的過擬合現(xiàn)象,因此直接使用遷移學(xué)習(xí)方法難以有效解決小樣本學(xué)習(xí)問題。基于數(shù)據(jù)增強(qiáng)的小樣本學(xué)習(xí)方法則從樣本量角度出發(fā),生成虛擬樣本或借取真實(shí)樣本對(duì)訓(xùn)練樣本集進(jìn)行擴(kuò)充。文獻(xiàn)[9]從未標(biāo)注的樣本集中借取樣本從而實(shí)現(xiàn)數(shù)據(jù)增強(qiáng)。文獻(xiàn)[10]通過帶有注意力機(jī)制的生成對(duì)抗網(wǎng)絡(luò)(GAN)生成一些虛擬樣本實(shí)現(xiàn)了數(shù)據(jù)增強(qiáng)。雖然這些方法對(duì)模型的最終性能有著積極影響,但仍然存在不可忽視的缺陷,虛擬樣本或借取的真實(shí)樣本分布與訓(xùn)練樣本集的分布總存在一定差異,難以保證數(shù)據(jù)增強(qiáng)的有效性。相較于遷移學(xué)習(xí)方法和數(shù)據(jù)增強(qiáng)方法,元學(xué)習(xí)方法試圖根據(jù)現(xiàn)有數(shù)據(jù)學(xué)習(xí)更高級(jí)的問題解決策略。文獻(xiàn)[11]提出直接使用梯度優(yōu)化算法訓(xùn)練小樣本學(xué)習(xí)模型往往難以獲得最優(yōu)的模型參數(shù),但長短時(shí)記憶(LSTM)網(wǎng)絡(luò)[12]的計(jì)算形式與梯度優(yōu)化算法的計(jì)算形式類似,因此可將LSTM 模型作為元學(xué)習(xí)器,并代替優(yōu)化算法參與模型訓(xùn)練過程。文獻(xiàn)[13]認(rèn)為構(gòu)建一個(gè)具有較強(qiáng)泛化能力的模型,本質(zhì)上是在尋找一個(gè)可以應(yīng)用于許多任務(wù)的特征空間,基于這一思想所提出的模型無關(guān)元學(xué)習(xí)方法,可以通過少量樣本完成對(duì)其參數(shù)的有效更新,從而保證該方法的強(qiáng)大泛化性能。上述方法均說明了元學(xué)習(xí)方法的有效性,但同時(shí)也說明此類方法的模型結(jié)構(gòu)或計(jì)算方法往往較為復(fù)雜。
基于距離度量的小樣本學(xué)習(xí)方法多在特征空間中分析樣本之間的分布規(guī)律,根據(jù)同類樣本所對(duì)應(yīng)的特征向量分布相近、不同類別樣本的特征向量分布較遠(yuǎn)這一簡單假設(shè)完成對(duì)樣本類別的判定。此類方法簡單易行,且所使用的分類模型為無參數(shù)模型,因此距離度量方法能夠快速應(yīng)用于新的樣本類別判斷過程。目前,基于距離度量的小樣本學(xué)習(xí)研究成果顯著,文獻(xiàn)[14]提出一種具有兩路對(duì)稱結(jié)構(gòu)的網(wǎng)絡(luò)模型,該網(wǎng)絡(luò)共享上下兩路權(quán)值,分別完成對(duì)帶標(biāo)注樣本和無標(biāo)簽樣本從樣本空間到同一嵌入空間的映射,在求得特征向量后便可通過距離度量方式確定未標(biāo)注樣本,最后使用正則化的交叉熵?fù)p失函數(shù)完成對(duì)模型參數(shù)的訓(xùn)練。文獻(xiàn)[15]提出的匹配網(wǎng)絡(luò)模型在求解特征空間過程中加入了注意力機(jī)制,并給出episode 訓(xùn)練策略來統(tǒng)一模型訓(xùn)練過程和測試過程,即在訓(xùn)練和測試過程中模型都根據(jù)帶有標(biāo)簽的樣本對(duì)未標(biāo)注樣本類別進(jìn)行預(yù)測,相似的訓(xùn)練和測試流程使得該方法具備一定的泛化能力。文獻(xiàn)[16]則認(rèn)為特征空間中的每一類樣本都應(yīng)存在一個(gè)原型表示,而在合適的特征空間中同類樣本應(yīng)分布于該類別的原型附近,基于這一思想所構(gòu)建的原型網(wǎng)絡(luò)直接使用帶標(biāo)簽樣本特征向量的均值向量作為真實(shí)原型的近似,并通過比較待測試樣本特征向量與各近似原型之間的距離完成分類。
由于基于距離度量的小樣本學(xué)習(xí)方法均在特征空間中對(duì)樣本特征分布關(guān)系進(jìn)行分析,因此特征空間的質(zhì)量與模型最終效果關(guān)聯(lián)密切。為減小樣本特征之間的類內(nèi)距離,降低對(duì)樣本類別預(yù)測的難度,本文構(gòu)建一種具有雙路結(jié)構(gòu)的特征聚合網(wǎng)絡(luò),并提出一種綜合損失函數(shù)。結(jié)合綜合損失函數(shù),具有雙路網(wǎng)絡(luò)結(jié)構(gòu)的特征聚合網(wǎng)絡(luò)可將樣本映射到同類樣本特征更為聚集的特征空間中,以提升樣本類別的分類效果。
本文方法采用episode 訓(xùn)練策略[15]構(gòu)建模型從而解決上述小樣本分類問題。對(duì)于k-wayn-shot 學(xué)習(xí)任務(wù),在每一輪訓(xùn)練過程中首先從Cbase中隨機(jī)選定t個(gè)類別,再從每個(gè)選中類別中分別隨機(jī)選擇n個(gè)樣本對(duì)組成支持集{i=|1,2,…,t×n} },并從每個(gè)選中類別中分別隨機(jī)選擇m個(gè)樣本對(duì)組成查詢集{i=|1,2,…,t×m} }。在支持集的樣本輸入模型中,經(jīng)過前向計(jì)算可得出模型對(duì)樣本類別的預(yù)測值,對(duì)比樣本的真實(shí)標(biāo)簽與樣本類別的預(yù)測值即可確定損失函數(shù)的具體取值。為使得損失函數(shù)取得最小值,本文選擇Adam 優(yōu)化算法[17]對(duì)模型進(jìn)行優(yōu)化。具體來說,每次通過前向計(jì)算確定損失函數(shù)的具體取值后,可結(jié)合Adam 優(yōu)化算法完成一次模型參數(shù)更新,重復(fù)這一過程直至滿足特定條件即可求得最終模型在測試階段首先使用與訓(xùn)練階段相同的方式 抽取支持集1,2,…,k×n}和查詢集m},然后通過最終模型對(duì)支持集中的樣本進(jìn)行計(jì)算確定類別表示,并根據(jù)該組類表示對(duì)查詢集中的樣本類別進(jìn)行判別。在確定了支持集和查詢集后,首先將支持集中的樣本輸入特征聚合網(wǎng)絡(luò)從而獲得樣本對(duì)應(yīng)的特征向量,然后計(jì)算各類樣本的均值向量并將其作為各個(gè)類別的類表示向量。在確定類表示后,將查詢集中的樣本輸入特征聚合網(wǎng)絡(luò)獲得對(duì)應(yīng)的特征向量,并逐一比較各查詢集樣本特征向量與各類表示向量之間的歐式距離從而對(duì)樣本進(jìn)行分類。最后通過對(duì)比分類結(jié)果與樣本真實(shí)標(biāo)簽之間的差異,確定損失函數(shù)取值并利用反向傳播算法完成參數(shù)更新。
基于距離度量的小樣本學(xué)習(xí)方法[15-16]采用四層卷積塊結(jié)構(gòu)網(wǎng)絡(luò)進(jìn)行特征提取,但由于此類特征提取器結(jié)構(gòu)較為簡單,在面對(duì)miniImageNet、Cifar-100等復(fù)雜數(shù)據(jù)集時(shí),該模型往往難以尋找到合適的非線性映射方式,因此采用此類特征提取器的方法在實(shí)際應(yīng)用中難以取得理想效果。從度量學(xué)習(xí)角度出發(fā),在一個(gè)好的特征空間中同類樣本之間的距離應(yīng)該較小,而不同類別樣本之間距離應(yīng)該較大,基于這一簡單原理,本文嘗試構(gòu)建特征聚合網(wǎng)絡(luò)用于特征提取。特征聚合網(wǎng)絡(luò)由上下兩個(gè)網(wǎng)絡(luò)通路組成,其中一路用于學(xué)習(xí)樣本的特征表示,另一路則用于擬合樣本與當(dāng)前類表示之間的偏差,該網(wǎng)絡(luò)最終輸出的特征向量為樣本的特征向量與偏差向量之差。
考慮到小樣本學(xué)習(xí)問題中數(shù)據(jù)分布的復(fù)雜性,為更好地通過學(xué)習(xí)獲得較好的特征分布,特征聚合網(wǎng)絡(luò)中的特征提取通路應(yīng)當(dāng)具有強(qiáng)大的非線性映射能力。實(shí)驗(yàn)結(jié)果證明,層數(shù)越深、參數(shù)越多的網(wǎng)絡(luò)模型通常具有更強(qiáng)的非線性映射能力[1],文獻(xiàn)[5]提出的深度殘差網(wǎng)絡(luò)在實(shí)際任務(wù)中表現(xiàn)出了其強(qiáng)大的擬合能力,因此,本文沿用了resnet18 的主體結(jié)構(gòu)作為特征聚合網(wǎng)絡(luò)中的特征提取通路,但依次將每兩個(gè)殘差塊中的卷積核數(shù)目調(diào)整為16、32、64、256,并使用核大小的4×4 步長為1 的平均池化方式代替全連接層之前的全局平均池化方式,從而保留更多的信息以供后續(xù)計(jì)算,全連接層節(jié)點(diǎn)數(shù)目設(shè)置為1 600,即特征提取通路的最終輸出為1 600 維的特征向量。相比于特征提取通路而言,偏差擬合通路的任務(wù)難度較為簡單,因此此處采用四層卷積塊結(jié)構(gòu)網(wǎng)絡(luò)作為偏差擬合通路。具體來說,對(duì)于單個(gè)卷積塊,其中第一層為卷積層,卷積核大小為3×3,卷積步長為1,進(jìn)行一圈0 填充(padding=1);卷積層輸出的特征圖經(jīng)過ReLU 激活后再進(jìn)行步長為2 的最大值池化,得到該卷積塊的最終輸出。本文的偏差擬合通路由4 個(gè)卷積塊堆疊而成,4 個(gè)卷積塊中的卷積核數(shù)目分別設(shè)置為16、16、16、64。此處將最終所得到的64×5×5 大小的特征圖直接展開以獲得1600 維的偏差擬合向量。使用特征聚合網(wǎng)絡(luò)作為特征提取器時(shí)的整體模型結(jié)構(gòu)如圖1 所示。特征聚合網(wǎng)絡(luò)由兩路結(jié)構(gòu)組成,圖1 中的上半部分網(wǎng)絡(luò)結(jié)構(gòu)為特征提取通路,用于學(xué)習(xí)樣本分布,下半部分網(wǎng)絡(luò)結(jié)構(gòu)為偏差擬合通路,用于學(xué)習(xí)樣本特征到更優(yōu)特征空間的偏差分布。結(jié)合上下兩個(gè)通路所學(xué)得的信息可將樣本的特征向量向當(dāng)前類表示向量進(jìn)行偏移,從而得到類內(nèi)距離更小、類間距離更大的樣本特征分布,最后逐一對(duì)比查詢樣本與類表示之間的歐式距離完成分類。
圖1 本文整體模型結(jié)構(gòu)Fig.1 Whole model structure of this paper
為使得同類樣本的特征向量分布更加緊湊,需將特征向量向?qū)?yīng)類別的原型估計(jì)進(jìn)行定向偏移,此處使用偏差擬合通路Fbias估計(jì)支持集中任意圖像樣本與其對(duì)應(yīng)的類別原型之間的偏差,對(duì)于圖像樣本,其偏差向量估計(jì)為:
大部分鄉(xiāng)村百姓曾對(duì)民間傳統(tǒng)節(jié)日非常重視,如中秋節(jié)、春節(jié)、元宵節(jié)等,鄉(xiāng)民會(huì)聚在一起祭祖、設(shè)宴、載歌載舞、歡聲笑語,將傳統(tǒng)節(jié)日舉辦的紅紅火火,彰顯了鄉(xiāng)村欣欣向榮的氣息。然而,當(dāng)今大多數(shù)鄉(xiāng)村群眾不再注重這些“老氣息”,轉(zhuǎn)而追求洋文化,大張旗鼓地慶祝西洋節(jié)日,如情人節(jié)、圣誕節(jié)、萬圣節(jié)等。久而久之,傳統(tǒng)節(jié)日失去了往日的地位,人們普遍對(duì)傳統(tǒng)文化持輕視冷漠的態(tài)度,不注重對(duì)優(yōu)秀文化傳統(tǒng)的傳承與保護(hù)。隨著城市化的普及,鄉(xiāng)民向往城市生活,認(rèn)為鄉(xiāng)村無法實(shí)現(xiàn)個(gè)人價(jià)值,只有城市才能體現(xiàn)自我價(jià)值,盲目追求所謂的“城市身份”[6]。
為將特征向量向原型估計(jì)進(jìn)行偏移,此處設(shè)置特征聚合網(wǎng)絡(luò)FFAN對(duì)樣本的輸出為特征提取通路Ffeature與偏差擬合通路Fbias的輸出之差,因此特征聚合網(wǎng)絡(luò)FFAN對(duì)樣本的最終輸出為:
通過特征聚合網(wǎng)絡(luò)對(duì)支持集中所有樣本進(jìn)行特征提取后,可取各類樣本特征向量的均值作為新的原型估計(jì),類別標(biāo)簽為yk的類別原型估計(jì)為:
為確保特征偏移的有效性和網(wǎng)絡(luò)最終的分類效果,本文考慮在損失函數(shù)中分別對(duì)偏差擬合通路輸出以及整個(gè)模型最終的分類效果進(jìn)行懲罰,并通過對(duì)查詢集樣本進(jìn)行前向計(jì)算確定損失函數(shù)的具體取值,從而對(duì)網(wǎng)絡(luò)參數(shù)進(jìn)行更新。為保證特征偏移的有效性,本文使用均方誤差損失限制偏差擬合通路Fbias的輸出,接近于通過特征提取通路Ffeature所提取的特征向量與對(duì)應(yīng)類別原型之間的偏差,為保證整個(gè)模型的分類效果,本文使用交叉熵?fù)p失函數(shù)限制模型的最終分類結(jié)果與樣本真實(shí)標(biāo)簽相同,為減輕網(wǎng)絡(luò)的過擬合現(xiàn)象,本文在損失函數(shù)中添加了L2 正則化項(xiàng)。對(duì)于查詢集1,2,…,t×m},損失函數(shù)的具體形式為:
其中,θ為特征聚合網(wǎng)絡(luò)的參數(shù)向量,I(A,B)在A=B時(shí)取1,否則取值為0,d(a,b)為向量a和b之間的歐式距離,α為正則化系數(shù),其余表示規(guī)則與上文相同。通過優(yōu)化上述目標(biāo)函數(shù)并利用反向傳播算法便可完成參數(shù)更新。
若僅使用均方誤差項(xiàng)對(duì)偏差擬合通路的參數(shù)更新過程進(jìn)行限制,由于目標(biāo)函數(shù)要求偏差擬合通路Fbias對(duì)樣本的輸出、特征提取通路Ffeature以及對(duì)樣本的輸出,與該樣本所屬類別的原型估計(jì)相近,因此在模型收斂時(shí),對(duì)于任意樣本X有:
結(jié)合式(7)、式(8)有:
在模型收斂的情況下,對(duì)于任意給定的樣本X,通過特征聚合網(wǎng)絡(luò)所提取到的特征向量FFAN(X) 均分布于樣本X所屬類別的類原型估計(jì)附近。但由于此處采用綜合損失函數(shù)對(duì)整體模型參數(shù)更新過程加以限制,此時(shí)偏差擬合通路的參數(shù)更新過程同時(shí)受交叉熵?fù)p失項(xiàng)和均方誤差損失項(xiàng)影響,這意味著偏差擬合通路的輸出需在完成特征偏移的同時(shí)保證整體模型的性能。
在本文實(shí)驗(yàn)中,驗(yàn)證模型解決小樣本學(xué)習(xí)能力和特征聚合特性的實(shí)驗(yàn)分別在miniImageNet[15]、Cifar-100[18]、Caltech-UCSD Birds 200-2011[19]和Caltech-256[20]4 個(gè)數(shù)據(jù)集上完成。本文所有實(shí)驗(yàn)均在搭載NVIDIA GeForce GTX TITANX 12 GB 顯卡、Intel i7-6700處理器并具有16 GB 運(yùn)行內(nèi)存的PC 機(jī)上完成,采用PyTorch 深度學(xué)習(xí)框架Windows 版本實(shí)現(xiàn)。所有參與訓(xùn)練和測試的圖像樣本尺度都?xì)w一化為84×84 大小,部分實(shí)驗(yàn)中從ImageNet 數(shù)據(jù)集中抽取了20%的樣本對(duì)模型進(jìn)行預(yù)訓(xùn)練,預(yù)訓(xùn)練樣本均不包含在miniImageNet 數(shù)據(jù)集中。
實(shí)驗(yàn)1本文所提出的特征聚合網(wǎng)絡(luò)可將樣本映射為類內(nèi)分布更緊湊的特征向量,為驗(yàn)證這一理論,此處使用類內(nèi)樣本距離均值與類原型距離均值作為指標(biāo)衡量模型性能。具體來說,假設(shè)測試過程中共進(jìn)行q次采樣,每次測試過程有p類,每類有r個(gè)測試樣本,則在每次測試過程中,每個(gè)類別的類內(nèi)樣本特征向量之間共有r(r-1)/2 條無向邊,因此在整個(gè)測試過程中共計(jì)有q×p×r(r-1)/2 條無向邊。由于每條邊的長度表示兩個(gè)同類樣本之間的歐式距離,因此可計(jì)算得到整個(gè)測試過程中所有同一采樣過程中類內(nèi)樣本兩兩之間的歐式距離平均值dins,這一平均值可作為類內(nèi)距離使用;同理,也可通過計(jì)算獲得所有同一采樣過程中類原型兩兩之間的歐式距離平均值douts,并使用該值度量特征空間中的類間距離。由于在一個(gè)好的特征空間中,特征向量的分布具有類內(nèi)距離小、類間距離大的特性,因此可使用Ra=dins/douts作為衡量特征提取器性能的指標(biāo),當(dāng)Ra越小時(shí)特征提取器性能越好。
本文由于本文方法是受原型網(wǎng)絡(luò)思想啟發(fā)而提出,并且方法流程與原型網(wǎng)絡(luò)方法流程最為接近,因此性能對(duì)比選擇原型網(wǎng)絡(luò)實(shí)際效果作為基準(zhǔn)線。此處所有數(shù)據(jù)均為5 次測試結(jié)果的平均值,其中每次測試進(jìn)行500 次采樣,查詢集中共5類,每類樣本數(shù)量為30。經(jīng)測試得到5-way 1-shot 和5-way 5-shot 結(jié)果分別如表1和表2 所示。
表1 5-way 1-shot 測試結(jié)果Table 1 5-way 1-shot test results
表2 5-way 5-shot 測試結(jié)果Table 2 5-way 5-shot test results
由上述實(shí)驗(yàn)結(jié)果可知,無論是在5-way 1-shot 任務(wù)還是5-way 5-shot 任務(wù)中,所有使用特征聚合網(wǎng)絡(luò)的具體方法在各個(gè)數(shù)據(jù)集上的Ra取值均小于原型網(wǎng)絡(luò)在對(duì)應(yīng)數(shù)據(jù)集上的Ra取值,并且所對(duì)應(yīng)的分類正確率均高于原型網(wǎng)絡(luò)。這一結(jié)果表明,相較于原型網(wǎng)絡(luò),特征聚合網(wǎng)絡(luò)在各個(gè)數(shù)據(jù)集上均將樣本映射到了較優(yōu)的特征空間中,特征聚合網(wǎng)絡(luò)所提取到的特征類內(nèi)更加緊湊。
實(shí)驗(yàn)2為驗(yàn)證本文整體方法的有效性,分別在上述4 個(gè)數(shù)據(jù)集上對(duì)比了多種類型的具有代表性的相關(guān)方法,包括匹配網(wǎng)絡(luò)MN[15]、原型網(wǎng)絡(luò)PN[16]、關(guān)系網(wǎng)絡(luò)RN[21]、MAML[13]和元學(xué)習(xí)LSTM[11]。本文所提出的相關(guān)方法實(shí)驗(yàn)結(jié)果數(shù)據(jù),由訓(xùn)練過程間隙驗(yàn)證正確率最高的優(yōu)化模型經(jīng)5 次測試并取其均值得到,參與對(duì)比的其他方法實(shí)驗(yàn)結(jié)果來自于對(duì)應(yīng)文獻(xiàn),經(jīng)實(shí)驗(yàn)得到表3 所示的結(jié)果。
表3 5-way 1-shot 與5-shot 正確率對(duì)比Table 3 Comparison of 5-way 1-shot and 5-shot accuracy%
在表3 中,本文使用加粗字體展示了對(duì)比方法中的最優(yōu)效果。根據(jù)表3 中的數(shù)據(jù)可知,除了在miniImageNet 數(shù)據(jù)集的5-way 1-shot 任務(wù)和5-way 5-shot 任務(wù)中本文方法取得了次優(yōu)結(jié)果之外,在其他3個(gè)數(shù)據(jù)集的所有實(shí)驗(yàn)任務(wù)中,本文方法均取得了參與對(duì)比方法的最優(yōu)結(jié)果。相較于原型網(wǎng)絡(luò)分類正確率這一基準(zhǔn)線而言,本文方法在5-way 1-shot 任務(wù)和5-way 5-shot 任務(wù)中均取得了超過2%的性能提升。實(shí)驗(yàn)結(jié)果表明,本文所提出的特征聚合網(wǎng)絡(luò)優(yōu)于絕大多數(shù)小樣本學(xué)習(xí)方法所使用的特征提取器。
本文針對(duì)傳統(tǒng)特征提取器難以求得較優(yōu)特征向量分布的問題,提出一種特征聚合網(wǎng)絡(luò)。該特征聚合網(wǎng)絡(luò)能夠有效地將原始特征向更優(yōu)的特征空間中進(jìn)行偏移,最終使得同類樣本之間的特征向量分布更為緊湊,從而提升特征提取的有效性。下一步將對(duì)基于半監(jiān)督學(xué)習(xí)的小樣本學(xué)習(xí)進(jìn)行研究,設(shè)計(jì)更有效和更具通用性的數(shù)據(jù)增強(qiáng)方法。