黃彥乾,遲冬祥,徐玲玲
上海電機(jī)學(xué)院 電子信息學(xué)院,上海 201306
在十幾年來,計算機(jī)科學(xué)技術(shù)的迅猛發(fā)展,產(chǎn)生的數(shù)據(jù)也隨之爆炸性增長,對大量數(shù)據(jù)強(qiáng)大的處理分析能力的需求使得機(jī)器學(xué)習(xí)躋身當(dāng)今時代熱門的話題之一。作為人工智能的子領(lǐng)域,看似無所不能的機(jī)器學(xué)習(xí),在數(shù)據(jù)分析的進(jìn)程中逐漸暴露出一系列問題[1-2],其最突出的問題便是過于依賴豐富的數(shù)據(jù)。現(xiàn)實生活中諸多應(yīng)用領(lǐng)域[3-4],對大規(guī)模數(shù)據(jù)的采集以及標(biāo)注代價昂貴,在樣本量較少時,機(jī)器學(xué)習(xí)更是遭遇了極大的阻礙。對于人類而言,這些問題極少存在,其原因莫過于人類具有強(qiáng)大的思考能力,能積累過去各種信息,因此可以從少量的樣本中快速學(xué)習(xí),并進(jìn)一步延伸到新的未知事物中,而這卻是機(jī)器學(xué)習(xí)很難實現(xiàn)的關(guān)鍵點[5],也是人工智能擬人之路得以實現(xiàn)的轉(zhuǎn)折點。人們進(jìn)一步細(xì)分機(jī)器學(xué)習(xí),提出了小樣本學(xué)習(xí)的概念,即模仿人類學(xué)習(xí),基于此利用少量樣本學(xué)習(xí)并快速泛化到新任務(wù)中。近年來,如何進(jìn)行小樣本學(xué)習(xí)并提高學(xué)習(xí)效率引發(fā)了一股研究熱潮,研究人員從各個角度出發(fā),提出一系列在小樣本條件下進(jìn)行快速學(xué)習(xí)及提高泛化能力的方法,且在圖像領(lǐng)域[6]中取得巨大成果。嵌入學(xué)習(xí)方法作為其中的代表方法之一,引發(fā)了不少熱議。
為了方便描述對小樣本學(xué)習(xí)進(jìn)行闡述,首先引入機(jī)器學(xué)習(xí)的定義,Mitchell等人[7]認(rèn)為,若一個計算機(jī)程序利用經(jīng)驗E在任務(wù)T中改善了其性能,即提升了度量P(評估計算機(jī)程序在某類任務(wù)的性能),則稱計算機(jī)程序?qū)?jīng)驗E進(jìn)行了學(xué)習(xí)。這與人類針對某一個問題進(jìn)行思考得出解決問題的經(jīng)驗去處理其他問題的過程是類似的。
然而,盡管機(jī)器學(xué)習(xí)在人工智能的擬人之路上實現(xiàn)了突破,但在數(shù)據(jù)不充足的設(shè)定下,保證模型能夠?qū)颖具M(jìn)行快速學(xué)習(xí)和提高泛化能力給研究者帶來了巨大挑戰(zhàn),也是人工智能向人類智能進(jìn)一步突破的關(guān)鍵?;趯嵺`價值和領(lǐng)域需求,研究者給機(jī)器學(xué)習(xí)領(lǐng)域中劃分了新的子領(lǐng)域——小樣本學(xué)習(xí)[8],小樣本學(xué)習(xí)期望使用遠(yuǎn)小于機(jī)器學(xué)習(xí)的樣本量,實現(xiàn)在保證模型性能的同時進(jìn)一步提升樣本學(xué)習(xí)和泛化的能力,可以通過場景數(shù)據(jù)量(本質(zhì)是單位樣本產(chǎn)生的模型收益[9],即經(jīng)驗E)來區(qū)分它們。
雖然小樣本學(xué)習(xí)在各行各業(yè)中被頻繁提出,但目前對小樣本的定義還沒有統(tǒng)一的看法和公認(rèn)的標(biāo)準(zhǔn)。由于目前小樣本學(xué)習(xí)在圖像學(xué)習(xí)領(lǐng)域[10-11]發(fā)展比較成熟,圖像領(lǐng)域常用的標(biāo)準(zhǔn)小樣本集都是取自于大樣本集[12](用于深度學(xué)習(xí)),通過對小樣本集與其來源的大樣本集進(jìn)行對比分析,發(fā)現(xiàn)無論是小樣本還是大樣本,在每類樣本數(shù)基本一致的情況下,決定樣本是“小”還是“大”的關(guān)鍵是樣本類別的數(shù)量。因此,本文嘗試給小樣本定義如下,當(dāng)一個樣本集與常規(guī)大樣本集的樣本類別比達(dá)到1∶100甚至以上時,則可以認(rèn)為該樣本集為小樣本。小樣本的學(xué)習(xí)任務(wù)都是針對每個類別下的少數(shù)樣本[13]展開的,當(dāng)每個類別下的訓(xùn)練樣本只有一個的情況下,小樣本即為特殊的單樣本學(xué)習(xí)(One-shot learning)[14],而每個類別下的訓(xùn)練樣本有多個時則劃分為常規(guī)的小樣本學(xué)習(xí)(Few-shot learning)。
在小樣本場景中,訓(xùn)練得到的模型易陷入對目標(biāo)任務(wù)樣本的過擬合[15],實際表現(xiàn)較差,與最優(yōu)模型表現(xiàn)的差距也無法通過多次訓(xùn)練和超參數(shù)調(diào)整有效縮小。不少研究者[16]認(rèn)為,小樣本學(xué)習(xí)過程中忽略了一個關(guān)鍵點,即先驗知識[17]的存在,人類能夠?qū)π颖具M(jìn)行快速學(xué)習(xí)往往依賴于對先驗知識的理解和應(yīng)用。因此,讓給定模型具備相關(guān)任務(wù)的先驗知識已然成為小樣本學(xué)習(xí)的基礎(chǔ)。
可見,如何結(jié)合先驗知識是實現(xiàn)小樣本學(xué)習(xí)的核心。按照結(jié)合先驗知識的途徑,本文提出將現(xiàn)有的小樣本學(xué)習(xí)的研究工作劃分為三類:數(shù)據(jù)類、模型類和算法類,匯總并闡述它們的核心思想,同時進(jìn)行簡單地對比分析,如表1所示。
根據(jù)表1,對比其他兩類方法,模型類的解決方法通俗易懂且實現(xiàn)成本較低,能夠在保持目標(biāo)任務(wù)樣本不變的同時避免受限于數(shù)據(jù)量和模型精度不足的問題,并可以更快地調(diào)整和尋找合適參數(shù)來得到優(yōu)質(zhì)的模型(限制獲得最優(yōu)模型所需要尋找的參數(shù)組合的范圍,去除無效參數(shù)組合),大大降低過擬合問題的風(fēng)險。
表1 小樣本學(xué)習(xí)的解決方法Table 1 Solutions of few-shot learning
近些年來,作為較為經(jīng)典的模型類的解決方法,嵌入學(xué)習(xí)方法在小樣本的圖像分類[26-27]等領(lǐng)域取得不俗的研究成果,吸引了不少研究人員進(jìn)行研究。因此,本文將針對嵌入學(xué)習(xí)方法,探索模型類方法如何結(jié)合先驗知識解決小樣本學(xué)習(xí)問題。
2.1.1 方法定義
嵌入學(xué)習(xí)方法,又稱表示學(xué)習(xí),嵌入即映射,與降維類似,核心思想是將樣本嵌入到低維空間中,將樣本特征轉(zhuǎn)化特征向量的形式保存在低維特征空間[28-29]中,減少假設(shè)空間的范圍,通過較小的嵌入空間來進(jìn)一步擴(kuò)大嵌入樣本間的區(qū)分度,使得同類樣本聯(lián)系更加緊密,而異類樣本分布則更加分散,它的關(guān)鍵在于如何嵌入樣本特征以及特征嵌入之后如何學(xué)習(xí)。
2.1.2 通用框架及基本流程
小樣本場景中,嵌入學(xué)習(xí)方法的核心思想是訓(xùn)練優(yōu)秀的特征嵌入函數(shù)[30]來實現(xiàn)對樣本的映射,旨在讓樣本在較小的樣本特征嵌入空間具有更加清晰的區(qū)分度。嵌入學(xué)習(xí)方法主要由嵌入模塊和度量模塊組成,嵌入模塊的功能是利用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)構(gòu)建并訓(xùn)練特征嵌入函數(shù),將樣本以特征向量的形式映射到特征空間中;度量模塊則選擇合適的度量函數(shù)計算樣本的相似度度量,完成對樣本的分類。
通常,為了保證小樣本學(xué)習(xí)的性能,嵌入學(xué)習(xí)方法采用了Episodic Training的跨任務(wù)學(xué)習(xí)模式(借鑒元學(xué)習(xí)(Meta-Learning)[31]的思想),旨在將對整個目標(biāo)任務(wù)樣本集的學(xué)習(xí)轉(zhuǎn)換為多個子任務(wù)的多次學(xué)習(xí)(以N-wayK-shot的方式),嵌入學(xué)習(xí)方法的通用學(xué)習(xí)流程如圖1所示。
首先,每次學(xué)習(xí)(Episode)時,嵌入學(xué)習(xí)方法從目標(biāo)任務(wù)樣本集所有類別的樣本中隨機(jī)選出N個類別,每個類別隨機(jī)選擇K個樣本組成支持集a(已知類別樣本);再從之前選取的N個類別剩下的樣本中隨機(jī)抽取一批樣本(每個類別抽取一個或者多個,數(shù)量不限)組成查詢集b(待分類樣本),支持集和查詢集共同組成一個子任務(wù)(支持集a和查詢集b的樣本兩兩隨機(jī)組合成樣本對(a,b))。然后,分別采用兩個特征嵌入函數(shù)f、g對子任務(wù)中的樣本對(a,b)進(jìn)行特征嵌入(f嵌入a,g嵌入b),提取樣本特征并以樣本特征對(a′,b′)的形式保存到訓(xùn)練好的特征嵌入空間中,構(gòu)建特征嵌入空間即學(xué)習(xí)特征嵌入函數(shù),這是嵌入學(xué)習(xí)方法的關(guān)鍵。嵌入學(xué)習(xí)方法一般借助輔助數(shù)據(jù)構(gòu)建和訓(xùn)練兩個CNN來訓(xùn)練兩個特征嵌入函數(shù)(f和g),如圖1所示的虛線框部分,輔助數(shù)據(jù)一般來源于外界包含足夠多種類樣本的大規(guī)模數(shù)據(jù)集,也可以從目標(biāo)任務(wù)樣本中抽取。輔助數(shù)據(jù)D′也采用了Episodic Training的學(xué)習(xí)模式進(jìn)行訓(xùn)練(多次采樣,多次訓(xùn)練),旨在讓輔助數(shù)據(jù)D′與目標(biāo)任務(wù)樣本的場景設(shè)置保持一致,保證特征嵌入函數(shù)的有效性。每次訓(xùn)練時,隨機(jī)采樣輔助數(shù)據(jù)D′構(gòu)建輔助數(shù)據(jù)D′的支持集m與查詢集n,并將它們以樣本對(m,n)的形式組合成一個子任務(wù),樣本對(m,n)分別輸入到兩個CNN中進(jìn)行預(yù)訓(xùn)練,通過多次抽樣和訓(xùn)練,使得CNN獲取足夠的先驗知識對特征嵌入函數(shù)的參數(shù)θf和θg(θf≠θg)更新與優(yōu)化,最終完成特征嵌入函數(shù)(空間)的構(gòu)建與訓(xùn)練。接下來,選擇合適的相似性度量函數(shù)S(可以是一個簡單的距離度量,也可以是動態(tài)學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò))構(gòu)建度量模塊,將特征嵌入空間的樣本對的特征一同輸入到度量模塊中,計算樣本對中樣本之間的度量值,依據(jù)度量準(zhǔn)則[32]預(yù)測查詢集(待分類樣本)樣本的類別。最后,嵌入學(xué)習(xí)方法經(jīng)過多次學(xué)習(xí),完成對所有待分類樣本的分類。
圖1 常規(guī)嵌入學(xué)習(xí)方法Fig.1 Conventional embedded learning methods
2.1.3 嵌入學(xué)習(xí)方法分類
一般情況下,嵌入學(xué)習(xí)方法對特征嵌入函數(shù)的訓(xùn)練很大程度依賴于輔助數(shù)據(jù)[33],在輔助數(shù)據(jù)中學(xué)習(xí)的是通用特征信息[34](外部先驗知識),而在目標(biāo)任務(wù)樣本中學(xué)習(xí)的是特定特征信息[35](內(nèi)部先驗知識)。嵌入學(xué)習(xí)方法可以只利用輔助數(shù)據(jù)的外部先驗知識或目標(biāo)樣本的內(nèi)部先驗知識來訓(xùn)練特征嵌入函數(shù),也可以同時結(jié)合兩種特征信息來獲得特征嵌入函數(shù)。因此,依據(jù)訓(xùn)練特征嵌入函數(shù)的過程中結(jié)合任務(wù)特征信息的方式,本文將嵌入學(xué)習(xí)方法劃分為單一嵌入模型和混合嵌入模型。
下面,本文就兩類嵌入模型和它們的代表性方法進(jìn)行闡述、討論與分析。
單一嵌入模型通常只結(jié)合樣本的通用特征信息或者特定特征信息(只結(jié)合一種特征信息)來訓(xùn)練特征嵌入函數(shù),相應(yīng)地稱為一般嵌入模型和特定嵌入模型。
一般嵌入模型只通過輔助數(shù)據(jù)來獲取通用特征信息并訓(xùn)練特征嵌入函數(shù),特征嵌入函數(shù)可以直接用于嵌入目標(biāo)任務(wù)的樣本,無需再用目標(biāo)任務(wù)樣本重新訓(xùn)練,即特征嵌入函數(shù)的參數(shù)不再隨所嵌入的目標(biāo)任務(wù)樣本的特征信息發(fā)生改變。
不同于一般嵌入模型,特定嵌入模型不依賴輔助數(shù)據(jù),它只依賴目標(biāo)任務(wù)樣本獲取特定特征信息并訓(xùn)練特征嵌入函數(shù)。每次學(xué)習(xí)時,嵌入模塊會根據(jù)當(dāng)前任務(wù)的樣本特征信息,為當(dāng)前子任務(wù)訓(xùn)練對應(yīng)的特征嵌入函數(shù),每進(jìn)行一次任務(wù),就需要結(jié)合當(dāng)前任務(wù)樣本的特定特征信息訓(xùn)練一個特征嵌入函數(shù),因而不同任務(wù)對應(yīng)不同的特征嵌入函數(shù)。
下面,本文對幾種典型的單一嵌入模型方法進(jìn)行介紹和討論。
2.2.1 孿生網(wǎng)絡(luò)(SN)
孿生網(wǎng)絡(luò)(siamese network,SN),早在1993年就已經(jīng)作為一個神經(jīng)網(wǎng)絡(luò)模型[36]被提出來。2015年,Koch等人[37]用其進(jìn)行了單樣本的圖像識別,驗證了其處理小樣本學(xué)習(xí)問題的可行性。
SN的基本流程如圖2所示。它的創(chuàng)新點主要為兩點,一是嵌入模塊采用了兩個一樣的CNN網(wǎng)絡(luò)(相互對稱,雙網(wǎng)絡(luò)之間的參數(shù)例如權(quán)重W等共享)來構(gòu)建并訓(xùn)練兩個一樣的通用的特征嵌入函數(shù)(即f和g等價);二是在度量模塊中,SN采用了歐式距離作為距離度量。
圖2 孿生網(wǎng)絡(luò)Fig.2 Siamese network
對于SN而言,它簡化了嵌入模塊架構(gòu),采用了相同且相互對稱的兩個CNN網(wǎng)絡(luò)有助于提升特征嵌入函數(shù)訓(xùn)練的效率。然而,它對外部先驗知識極度依賴,當(dāng)輔助數(shù)據(jù)的樣本量極少或樣本較為復(fù)雜時(缺乏足夠的先驗知識),SN無法訓(xùn)練出優(yōu)質(zhì)的特征嵌入函數(shù)來準(zhǔn)確并快速對樣本分類。于是,Sameer等人[38]提出深度孿生網(wǎng)絡(luò)(deep siamese network,DSN),DSN在有限的數(shù)據(jù)下增強(qiáng)了訓(xùn)練空間,進(jìn)一步加強(qiáng)特征嵌入函數(shù)對于復(fù)雜樣本的特征提取能力。另外,Zhao等人[39]提出了孿生密集神經(jīng)網(wǎng)絡(luò)(siamese dense neural network,SDNN),SDNN采用更多層的網(wǎng)絡(luò)來訓(xùn)練特征嵌入函數(shù),一級級地學(xué)習(xí)樣本特征,最終捕獲最高水平的相似度特征,克服了訓(xùn)練數(shù)據(jù)不足的問題。
2.2.2 匹配網(wǎng)絡(luò)(MN)
2016年,Vinyals以及Cai等人[40-41]在SN的基礎(chǔ)上提出了匹配網(wǎng)絡(luò)(matching network,MN),他們認(rèn)為可以結(jié)合外部機(jī)制來訓(xùn)練出更好的特征嵌入函數(shù),MN的創(chuàng)新點為以下兩點。
一是MN在構(gòu)建通用特征嵌入函數(shù)的過程中加入了優(yōu)化過程。優(yōu)化通過記憶機(jī)制完成,它的本質(zhì)是特征信息的接收反饋和適應(yīng)調(diào)整(網(wǎng)絡(luò)參數(shù)的優(yōu)化),以消除輔助數(shù)據(jù)隨機(jī)選擇支持集與查詢集樣本的差異性。如圖3所示,MN引入了雙路LSTM[42]網(wǎng)絡(luò)(BiLSTM)作為記憶模塊,連接f和g所在的CNN網(wǎng)絡(luò),再訓(xùn)練和優(yōu)化兩個特征嵌入函數(shù)(將輔助數(shù)據(jù)D′的支持集m重新編碼成一個序列m′[43],利用LSTM將其同時輸入到f和g所在的CNN網(wǎng)絡(luò)中,再訓(xùn)練和優(yōu)化形成新的特征嵌入函數(shù)′和′)。
圖3 匹配網(wǎng)絡(luò)Fig.3 Matching network
二是MN在度量模塊中加入了注意力(Attention)機(jī)制,并不直接采用度量距離(余弦距離)來對樣本分類,而是通過帶注意力機(jī)制的核函數(shù)來歸類樣本。
歸類的過程如公式(1)所示:
式(1)類似一個加權(quán)求和[44]過程,y代表支持集樣本a的類別,代表預(yù)測類別值,α是注意力核函數(shù)[45]。
MN通過外部機(jī)制的融合實現(xiàn)了對傳統(tǒng)的通用特征嵌入函數(shù)的優(yōu)化,提升了其對目標(biāo)任務(wù)樣本的特征嵌入能力,使其更加適應(yīng)新的任務(wù)樣本,極大提升了學(xué)習(xí)的性能。研究人員還提出不少MN的變體[46-47]對其優(yōu)勢進(jìn)行延伸和完善,如Bachman等人[48]在原有的MN上做出小改變,結(jié)合主動學(xué)習(xí)[49]思想,采用了樣本選擇機(jī)制,標(biāo)注最有益的未標(biāo)注樣本,來增強(qiáng)訓(xùn)練樣本,使得訓(xùn)練的特征嵌入函數(shù)對目標(biāo)任務(wù)樣本的特征概括能力更強(qiáng)。
現(xiàn)有的研究工作大多只關(guān)注樣本特征信息,對樣本的類別標(biāo)簽關(guān)注較少。因此,Wang等人[50]提出了多注意力網(wǎng)絡(luò)模型(multi-atteniton matching network,MAMN),MANN構(gòu)建了樣本特征以及類別語義標(biāo)簽的帶多注意力機(jī)制的嵌入模塊,用樣本的類別標(biāo)簽來引導(dǎo)注意力機(jī)制判斷樣本哪些部分與類別語義標(biāo)簽相關(guān)(多個對應(yīng)多注意力),訓(xùn)練并更新特征嵌入函數(shù),以求獲取更好的樣本特征表示。
盡管上述MN及相關(guān)變體方法取得不錯的成果,但它們需要引入外部機(jī)制讓模型架構(gòu)復(fù)雜化以提升樣本學(xué)習(xí)性能,大大增加了樣本學(xué)習(xí)的負(fù)擔(dān)和成本,不利于提升樣本學(xué)習(xí)的效率。另外,MN與SN一樣,主要都是針對單樣本學(xué)習(xí)問題,對于常規(guī)的小樣本學(xué)習(xí)問題而言,還沒有權(quán)威的實驗證明MN能取得同樣的學(xué)習(xí)效果。
2.2.3 原型網(wǎng)絡(luò)(PN)
在一般的小樣本學(xué)習(xí)任務(wù)中,每個待分類樣本需要一一計算與每個已知類別樣本的度量(相似度),依次比較然后歸類。Snell等人[51]認(rèn)為上述過程較為繁瑣,他們參照聚類思想,提出了原型網(wǎng)絡(luò)(prototypical network,PN)。
原型的計算如公式(2)所示:
式(2)中,xi、y i代表支持集的某個樣本及其對應(yīng)類別,fφ代表特征嵌入函數(shù),S K是類別k的樣本總數(shù),φ是可學(xué)習(xí)的參數(shù),C K是每一類的原型(M維)。
PN主要有兩個創(chuàng)新點,首先,PN提出了原型[52]的概念,即每個類都存在一個“嵌入”,每一類樣本點都圍繞其進(jìn)行聚類。如圖4所示,嵌入模塊在嵌入目標(biāo)任務(wù)樣本后還增加了計算樣本的類原型a~的步驟;其次,度量模塊調(diào)整了計算樣本相似性度量(采用歐式距離作為度量)的過程也做出了調(diào)整,只計算查詢集樣本與支持集類原型(已知類)的度量。
圖4 原型網(wǎng)絡(luò)Fig.4 Prototypical network
對比之前幾種方法,PN將嵌入學(xué)習(xí)方法的思想進(jìn)一步延伸到于非單樣本的常規(guī)小樣本學(xué)習(xí)問題中,驗證了嵌入學(xué)習(xí)方法的思想有助于提升小樣本的學(xué)習(xí)效果,后續(xù)不少小樣本學(xué)習(xí)的研究工作都是圍繞它展開;另外,PN減少了復(fù)雜的模型擴(kuò)展,它提出的“原型”概念不僅簡化了度量模塊的度量流程,還進(jìn)一步明確了小樣本學(xué)習(xí)的思想,讓學(xué)習(xí)的效果更穩(wěn)定有效。
PN一般采用帶標(biāo)注信息的樣本(支持集樣本)來計算類原型,然而當(dāng)目標(biāo)任務(wù)樣本的數(shù)據(jù)量較少時(較少的標(biāo)注信息),會使得到的類原型不一定是類別中心,可能會使得后續(xù)樣本分類出現(xiàn)較大分類偏差。為了緩解問題,不少人將PN以與其他機(jī)器學(xué)習(xí)問題[53-54]相結(jié)合來減少誤差。Ren等人[55]參照了半監(jiān)督學(xué)習(xí)[56]的思想,在訓(xùn)練時加入了不帶標(biāo)簽的樣本來修正原型,縮小了樣本的分類偏差。Sun等人[57]提出了將三級注意力機(jī)制與PN結(jié)合的層次注意力原型網(wǎng)絡(luò)(hierarchical attention prototypical network,HAPN),用于保存和獲取可用于樣本分類的重要特征(標(biāo)注信息),提升類原型的有效性。
然而,在不少PN的研究工作中(例如語音識別中)存在有不少樣本離原型較遠(yuǎn)容易被忽視的情況,尤其在帶噪音的語音識別場景中會更加影響樣本學(xué)習(xí)的效果??紤]到這個問題,在語音關(guān)鍵字捕捉領(lǐng)域中,Seth等人[58]提出不同類別的樣本具有不同的重要程度(類別),引入了原型損失(用不同的權(quán)重來代表不同類樣本的重要程度,獲得更具表達(dá)力的加權(quán)原型),同時將PN與遷移學(xué)習(xí)[59]結(jié)合起來,用深度語音微調(diào)原型解決了關(guān)鍵字缺失以及噪音被錯誤劃分到語音類的影響。
2.2.4 關(guān)系網(wǎng)絡(luò)(RN)
2018年,Sung等研究人員[60]從完善距離度量函數(shù)的角度出發(fā),提出用關(guān)系網(wǎng)絡(luò)(relation network,RN)來解決小樣本學(xué)習(xí)問題。
如圖5所示,與傳統(tǒng)的嵌入學(xué)習(xí)方法相比,RN創(chuàng)新性地做出兩點突破。一是將傳統(tǒng)度量模塊由一個簡單的固定度量替換成一個可學(xué)習(xí)的深度CNN,提出了關(guān)系分?jǐn)?shù)的新式可學(xué)習(xí)度量。二是加入級聯(lián)機(jī)制(級聯(lián)塊)連接嵌入模塊與度量模塊的網(wǎng)絡(luò),并對所有樣本對特征進(jìn)行拼接,級聯(lián)機(jī)制通過對嵌入的不同樣本的特征進(jìn)行拼接來計算樣本的相似性度量,提升了度量模塊的靈活性。
圖5 關(guān)系網(wǎng)絡(luò)Fig.5 Relation network
關(guān)系分?jǐn)?shù)公式如下:
式(3)中,fφ代表特征嵌入函數(shù),C(fφ(xi),fφ(x j))代表級聯(lián)機(jī)制,gσ代表連接單元;r i,j代表關(guān)系分?jǐn)?shù)(非線性度量)。
RN提升了對與任務(wù)無關(guān)樣本的泛化能力和學(xué)習(xí)能力,這是大部分單一嵌入模型中所不具備的;除此之外,它突破了傳統(tǒng)度量的限制,不再用固定的距離函數(shù)來計算樣本間的相似性度量,實現(xiàn)了距離度量函數(shù)的參數(shù)化,擴(kuò)展度量的適用性(應(yīng)用于某些特定任務(wù)),利用深度CNN來學(xué)習(xí)度量(模擬了人類比較學(xué)習(xí)的能力)可以更好地判斷每個樣本類別中哪些特征信息對于類別劃分很重要,同時一定程度上減少了對樣本的特征信息標(biāo)注量,減少了對特征嵌入函數(shù)的過度依賴,讓度量標(biāo)準(zhǔn)更加合理有效。然而,RN在學(xué)習(xí)動態(tài)度量所采用的深度CNN算法還不夠合理,存在較大的改善空間;另外,對度量模塊的創(chuàng)新在一定程度上提高了網(wǎng)路架構(gòu)的構(gòu)建要求,增加了模型復(fù)雜性,加重了成本負(fù)擔(dān)。
另外,雖然RN的特征嵌入能力有所提升,但是在面對某些復(fù)雜目標(biāo)任務(wù)樣本時,特征嵌入函數(shù)對復(fù)雜樣本特征的映射能力仍有待提高。于是Zhang等人[61]提出了深度比較網(wǎng)絡(luò)(deep comparison network,DCN),DCN將嵌入模塊和度量模塊同時進(jìn)行分層,并用更優(yōu)秀的SENET網(wǎng)絡(luò)取代了原有的Conv-4網(wǎng)絡(luò),嵌入模塊按層次訓(xùn)練特征嵌入函數(shù),然后一層層地嵌入樣本特征,實現(xiàn)對嵌入特征的聯(lián)合嵌入學(xué)習(xí),有效地利用了復(fù)雜樣本的特征,提升了模型性能。
上述方法都只考慮到成對的支持集和查詢集樣本間的關(guān)系,忽略了支持集樣本間的關(guān)系,容易導(dǎo)致訓(xùn)練得到的特征嵌入函數(shù)不夠可靠。于是,He等人[62]提出了記憶增強(qiáng)關(guān)系網(wǎng)絡(luò)(memory-augmented relation network,MARN),它加入了記憶架構(gòu)[63],存儲樣本信息來增強(qiáng)樣本[64],然后結(jié)合轉(zhuǎn)化學(xué)習(xí)思想探索支持集中樣本的聯(lián)系,同時采用無向圖替代CNN來訓(xùn)練特征嵌入函數(shù),對支持集樣本進(jìn)行信息傳播,提高特征嵌入嵌入能力以獲取更好的特征表示。
2.2.5 圖神經(jīng)網(wǎng)絡(luò)(GNN)
2005年,由Scarselli等人[65]提出用圖模型來專門處理圖結(jié)構(gòu)的數(shù)據(jù),可以保存重要的拓?fù)湫畔?,提升模型的可解釋性和性能。GNN[66-67]是CNN在非歐空間[68]的擴(kuò)展,可以看做是CNN的特例[69]。Garcia等人[70]認(rèn)為圖結(jié)構(gòu)對樣本特征的學(xué)習(xí)能力和表示能力都較強(qiáng),于是提出用圖神經(jīng)網(wǎng)絡(luò)(graph neural network,GNN)來解決小樣本分類問題。
GNN方法是常規(guī)的一般嵌入模型的擴(kuò)展,與以往的工作不同的是,GNN方法做出以下兩點改變。首先,在嵌入模塊方面,它只采用一個CNN來構(gòu)建并訓(xùn)練通用特征嵌入函數(shù)f(采樣的樣本直接作為子任務(wù)參與訓(xùn)練);其次,GNN方法的關(guān)鍵變化在于度量模塊,它采用圖網(wǎng)絡(luò)來訓(xùn)練距離度量函數(shù),通過無向圖的遍歷完成樣本的度量以及歸類。結(jié)合圖6,嵌入的目標(biāo)任務(wù)樣本特征作為輸入進(jìn)入圖網(wǎng)絡(luò)(GNN)中,拼接樣本特征與自身標(biāo)簽,初始化圖模型節(jié)點的。然后通過公式(4)構(gòu)建圖鄰接矩陣[71],構(gòu)建節(jié)點連邊,邊的功能是用來評估樣本的相似度,邊上的權(quán)重[72]即為相似度,權(quán)重是可訓(xùn)練的(更新邊,重新學(xué)習(xí)邊上的權(quán)重);后面經(jīng)過兩次圖卷積,通過公式(4)更新邊向量進(jìn)而更新邊上的節(jié)點(更新節(jié)點的標(biāo)簽信息),實現(xiàn)信息傳遞。
圖6 圖神經(jīng)網(wǎng)絡(luò)Fig.6 Graph neural network
GNN方法在一定程度上提升了特征嵌入函數(shù)的嵌入能力,加速其訓(xùn)練過程,同時它采用的任務(wù)驅(qū)動的消息傳遞算法提升了樣本學(xué)習(xí)的效率;除此之外,GNN的框架極易讓其能快速與其他框架結(jié)合,框架的擴(kuò)展幫助GNN擁有更好的小樣本學(xué)習(xí)能力;另外,它借鑒了RN采用可學(xué)習(xí)度量的思想,隱式地構(gòu)建了可學(xué)習(xí)的權(quán)重作為相似性度量,實現(xiàn)優(yōu)勢的結(jié)合,在保證小樣本學(xué)習(xí)的準(zhǔn)確率的同時極大提升了學(xué)習(xí)的效率,不少GNN的變體也沿用了該思路。例如,Liu等人[73]于2019年提出GNN的變體—轉(zhuǎn)換傳播網(wǎng)絡(luò)(transductive prototypical network,TPN),本質(zhì)也是實現(xiàn)圖中節(jié)點分類。不同的是它引入了轉(zhuǎn)換學(xué)習(xí)[74]方法,將標(biāo)簽傳播模塊和圖網(wǎng)絡(luò)構(gòu)建的模塊分開,實現(xiàn)節(jié)點嵌入?yún)?shù)與節(jié)點更新的參數(shù)的聯(lián)合學(xué)習(xí)。
Kim等人[75]從另一個角度出發(fā),提出邊緣標(biāo)記圖神經(jīng)網(wǎng)絡(luò)(edge-labeling graph neural network,ELGNN)。與GNN和TPN相反,ELGNN對圖的邊進(jìn)行分類,主要是利用邊中節(jié)點的類內(nèi)相似性和類間差異性進(jìn)行迭代更新,以此帶動對節(jié)點的更新,顯式地構(gòu)建了樣本間的度量完成樣本分類。
然而,GNN及其變體的度量模塊對計算能力要求較高,當(dāng)目標(biāo)任務(wù)樣本的數(shù)據(jù)量越大,邊需要大量地被更新,不斷地計算調(diào)整權(quán)重使得計算量急劇上升,高昂的計算成本會使實際場景的應(yīng)用變得困難。
2.2.6 信息檢索法(IRL)
Triantafillou等人[76]另辟蹊徑,他們于2017年提出一個新的方法,嘗試從信息檢索的角度去處理小樣本學(xué)習(xí)問題,該方法的思路是不借助輔助數(shù)據(jù)來獲取先驗知識,將小樣本分類問題轉(zhuǎn)化為信息優(yōu)化問題,本文總結(jié)其為信息檢索法(information retrieval lens,IRL)。
區(qū)分于前面的幾種方法,IRL屬于單一嵌入模型中的特定嵌入模型。如圖7所示,IRL的學(xué)習(xí)流程有較大的改變。首先,在嵌入模塊中,IRL調(diào)整了Episodic Training的學(xué)習(xí)模式,直接用目標(biāo)任務(wù)樣本訓(xùn)練特征嵌入函數(shù)。每次訓(xùn)練(Episode)時,直接隨機(jī)采樣目標(biāo)任務(wù)樣本作為查詢集u組成子任務(wù),每個子任務(wù)會選定其中一個樣本,定義其為“查詢”,該任務(wù)內(nèi)的其他樣本為候選集樣本。不同訓(xùn)練批的子任務(wù)需要訓(xùn)練不同的特征嵌入函數(shù)。
圖7 信息檢索法Fig.7 Information retrieval lens
其次,在度量模塊,IRL借鑒了枚舉的思想,用相似度排序(采用余弦距離作為度量)的方式取代原有的只計算樣本度量的方式,并引入外部框架(結(jié)構(gòu)化預(yù)測框架等)來對度量模塊進(jìn)行優(yōu)化,篩選出更優(yōu)秀的學(xué)習(xí)結(jié)果。IRL選定“查詢”與候選集樣本逐個進(jìn)行對比,按照相似度高低對候選集樣本排序組合成候選樣本對,每次將“查詢”與候選集中相似度最高的樣本歸為一類。最后,如公式(5)所示,IRL引入結(jié)構(gòu)化預(yù)測框架(標(biāo)準(zhǔn)的結(jié)構(gòu)性支持向量機(jī)以及直接損失最小化方法)來構(gòu)建和優(yōu)化評分函數(shù),并采用了MAP函數(shù)作為優(yōu)化的目標(biāo)函數(shù)來輔助評分函數(shù)的優(yōu)化,對候選樣本對評分并選出最優(yōu)的候選樣本對,即得到最優(yōu)的樣本相似度排序,選取相似度排第一的樣本的類別作為當(dāng)前“查詢”的類別,以此類推,預(yù)測每個任務(wù)批次的樣本類別。
式(5)中,x i代表當(dāng)前“查詢”,x j和xk代表候選樣本集的樣本;X代表輸入的候選樣本相似度排序?qū)Γ瑈代表最優(yōu)的候選樣本相似度排序?qū)?;ω代表評分函數(shù)的參數(shù);表示與樣本x i類別相同的樣本集合;相反,代表與樣本xi類別不同的樣本集合;代表輸出的結(jié)構(gòu)化向量;φ是余弦函數(shù)。
目前關(guān)于特定嵌入模型的研究比較少,IRL是唯一的特定嵌入模型。IRL只對目標(biāo)任務(wù)樣本訓(xùn)練,可以對任務(wù)信息最大程度地挖掘和利用,非常適合于含有多標(biāo)簽樣本的學(xué)習(xí),對提升學(xué)習(xí)效果很有幫助,這是其最具特色的優(yōu)勢。
然而,IRL需要訓(xùn)練多個特征嵌入函數(shù)(每個子任務(wù)對應(yīng)一個特征嵌入函數(shù)),訓(xùn)練量大,流程冗余導(dǎo)致的樣本學(xué)習(xí)效率較低是其主要的劣勢;而在目標(biāo)任務(wù)樣本較為復(fù)雜或者數(shù)量極少時,不同任務(wù)間的樣本會有不小偏差,為每個任務(wù)來量身定制特征嵌入函數(shù)只能在理論上成立。事實上,IRL容易陷入到過擬合的困境,每個任務(wù)訓(xùn)練得到的特征嵌入函數(shù)與其他(新)任務(wù)樣本的契合度不高。
近年來,研究人員發(fā)現(xiàn),當(dāng)輔助數(shù)據(jù)與目標(biāo)任務(wù)樣本的任務(wù)相關(guān)性較低時,單一嵌入模型訓(xùn)練的特征嵌入函數(shù)對目標(biāo)任務(wù)樣本的特征提取能力會大大降低。因此,他們提出了混合嵌入模型的概念,旨在綜合一般嵌入模型以及特定嵌入模型的特點,結(jié)合樣本的通用特征信息(輔助數(shù)據(jù))和特定特征信息(目標(biāo)任務(wù)樣本)作為先驗知識來訓(xùn)練特征嵌入函數(shù)。該類模型會事先通過獲取通用特征信息訓(xùn)練初始的特征嵌入函數(shù),同時當(dāng)進(jìn)行目標(biāo)任務(wù)樣本的學(xué)習(xí)時,再結(jié)合當(dāng)前任務(wù)樣本的特定特征信息作為特征嵌入函數(shù)的適應(yīng)標(biāo)準(zhǔn),不斷動態(tài)調(diào)整函數(shù)參數(shù),構(gòu)建適應(yīng)性更好的混合特征嵌入函數(shù)。
該類模型借鑒了數(shù)據(jù)增強(qiáng)的思想,進(jìn)一步提升了特征嵌入函數(shù)對與任務(wù)相關(guān)的樣本特征的挖掘與保存能力,使特征嵌入函數(shù)能夠更好地應(yīng)對各種復(fù)雜場景下的小樣本學(xué)習(xí)問題。
下面,本文將對混合嵌入模型的幾種典型方法進(jìn)行闡述。
2.3.1 孿生學(xué)習(xí)網(wǎng)絡(luò)(SL)
鑒于原有的SN存在的諸多缺陷(例如學(xué)習(xí)場景的限制),Bertinetto等人[77]在SN基礎(chǔ)上提出孿生學(xué)習(xí)網(wǎng)絡(luò)(siamese learnet,SLN),探討用于解決單樣本學(xué)習(xí)的新思路。
SLN與以往研究工作有所區(qū)別,它在以下兩個方面做出了創(chuàng)新。
一是整體架構(gòu)的改變。如圖8所示,它針對原有的SN網(wǎng)絡(luò)做出了改變,只采用原有SN的一個CNN訓(xùn)練初始的特征嵌入函數(shù);然后引入了動態(tài)卷積層,重新構(gòu)建了一個新的CNN(學(xué)習(xí)網(wǎng)絡(luò)——LearNet,LN)網(wǎng)絡(luò)取締了另外一邊的CNN網(wǎng)絡(luò),對特征嵌入函數(shù)多次再訓(xùn)練與調(diào)整,結(jié)合了目標(biāo)任務(wù)樣本的特定特征信息,參數(shù)也隨之動態(tài)地學(xué)習(xí)與優(yōu)化(預(yù)測動態(tài)權(quán)重參數(shù)ω等,一個樣本類別對應(yīng)一個權(quán)重參數(shù)值),得到混合特征嵌入函數(shù)。
圖8 孿生學(xué)習(xí)網(wǎng)絡(luò)Fig.8 Siamese learnet
二是優(yōu)化了原有的度量模塊,將簡單的固定度量替換成一個動態(tài)度量學(xué)習(xí)網(wǎng)絡(luò)——Pupil Net(LN根據(jù)預(yù)測的動態(tài)權(quán)重參數(shù)ω學(xué)習(xí)到的子網(wǎng)絡(luò))。Pupil Net依據(jù)權(quán)重參數(shù)學(xué)習(xí)待分類樣本(單樣本)的相似性度量(加權(quán)歐式距離)。
目前,Bertinetto等人[78]又繼續(xù)對SLN進(jìn)行改進(jìn),主要是對學(xué)習(xí)網(wǎng)絡(luò)(LN)的架構(gòu)調(diào)整,取締了全連接層,采用了嶺回歸(Ridge regression)和邏輯回歸(Logistic regression)訓(xùn)練出更有用的嵌入?yún)?shù),幫助訓(xùn)練出更好的特征嵌入函數(shù)。
SLN的出現(xiàn)是單樣本學(xué)習(xí)問題的進(jìn)一步延伸,使得混合嵌入模型的概念成為了現(xiàn)實。它給原先的CNN加入了許多動態(tài)學(xué)習(xí)要素(例如動態(tài)參數(shù)等),在網(wǎng)絡(luò)架構(gòu)上做出突破,同時加速先驗知識融入樣本學(xué)習(xí)的過程,同時結(jié)合離線訓(xùn)練和在線訓(xùn)練的方式,實現(xiàn)用一個網(wǎng)絡(luò)學(xué)習(xí)另一個網(wǎng)絡(luò),幫助訓(xùn)練出性能更為優(yōu)秀的特征嵌入函數(shù)并減少了不必要的參數(shù)調(diào)整,使得整個單樣本學(xué)習(xí)流程是一次性的、高效的、實時的,提升了樣本學(xué)習(xí)精度。
盡管如此,SLN仍然依賴大量輔助數(shù)據(jù)來訓(xùn)練和優(yōu)化特征嵌入函數(shù),這是后面Pupil Net能夠只利用較少樣本(單樣本)便可完成樣本類別預(yù)測的保證。另外,SLN屬于復(fù)雜的大型動態(tài)學(xué)習(xí)網(wǎng)絡(luò),需要學(xué)習(xí)大量的參數(shù),這會導(dǎo)致輸出空間過大,影響參數(shù)的學(xué)習(xí)與優(yōu)化,降低了樣本學(xué)習(xí)的效率。
2.3.2 動態(tài)條件卷積網(wǎng)絡(luò)(DCCN)
Zhao等人[79]發(fā)現(xiàn)在實際場景訓(xùn)練任務(wù)中,許多用于小樣本學(xué)習(xí)任務(wù)的樣本都攜帶不少標(biāo)簽信息(以老虎為例,它既可以被劃分為食肉類動物,也可以是哺乳類動物,或者是貓科動物等)。因此,在樣本數(shù)量足夠的情況下,每個類別的樣本就變得很少,不利于進(jìn)行訓(xùn)練,容易出現(xiàn)過擬合問題。之前的工作大多沒有考慮到這點(只考慮一個樣本對應(yīng)一個類別),于是他們針對該問題,提出動態(tài)條件卷積網(wǎng)絡(luò)(dynamic conditional convolutional network,DCCN)。
DCCN從統(tǒng)計學(xué)角度出發(fā),它主要在兩個方面進(jìn)行了創(chuàng)新。
一是網(wǎng)絡(luò)架構(gòu)的突破,將條件極值問題的求解應(yīng)用到小樣本學(xué)習(xí)當(dāng)中。DCCN取締了傳統(tǒng)的嵌入學(xué)習(xí)方法的通用架構(gòu),以條件網(wǎng)絡(luò)[80]模型(Condinet,CDN)為基礎(chǔ),同時結(jié)合動態(tài)卷積網(wǎng)絡(luò)[81](DyConvNet,DCVN)組成雙子網(wǎng)結(jié)構(gòu)。
二是對訓(xùn)練特征嵌入函數(shù)的流程做出較大調(diào)整,取締了傳統(tǒng)的訓(xùn)練模式,采用雙子網(wǎng)聯(lián)合學(xué)習(xí)的方式訓(xùn)練混合特征嵌入函數(shù)和學(xué)習(xí)樣本。如圖9所示,DCCN讓輔助數(shù)據(jù)和目標(biāo)任務(wù)樣本共同作為訓(xùn)練數(shù)據(jù)參與初始的特征嵌入函數(shù)f(基濾波器)的訓(xùn)練;與此同時,DCCN還隨機(jī)將訓(xùn)練數(shù)據(jù)所攜帶的已有的樣本類別信息訓(xùn)練(條件輸入)得到另一個初始的條件嵌入函數(shù)g(CDN的CNN+LSTM),為每個樣本類別預(yù)測一組自適應(yīng)權(quán)值ω。接下來,DCVN再利用基濾波器來線性組合(動態(tài)卷積)目標(biāo)任務(wù)樣本,結(jié)合樣本的特定特征信息(ω)再訓(xùn)練混合特征嵌入函數(shù)′。
DCCN的訓(xùn)練方式對網(wǎng)絡(luò)架構(gòu)的要求較高,成本負(fù)擔(dān)較高。除此之外,DCCN在常規(guī)的簡單任務(wù)(例如樣本只有一個標(biāo)簽)中,它學(xué)習(xí)的效果不如其他的方法。另外,目前這種解決思路的應(yīng)用范圍較狹窄,只適合于一些特定場景下的小樣本學(xué)習(xí)問題,并且鑒于目前只有DCCN這一種方法,有效性仍需進(jìn)一步被驗證。
盡管如此,DCCN適合于那些帶有許多類別標(biāo)簽的復(fù)雜樣本的挑戰(zhàn)性應(yīng)用場景,在處理包帶諸多條件(類別)信息的樣本的學(xué)習(xí)問題取得優(yōu)秀的效果,而這對現(xiàn)實的諸多工業(yè)應(yīng)用領(lǐng)域是極具價值的,這意味著許多情況下不需要再去采用數(shù)據(jù)合成等方式來保證小樣本學(xué)習(xí)的效果,只采用原有的數(shù)據(jù)便可滿足實際分析的需求,同時它在這些領(lǐng)域中還具備較為不錯的泛化能力,有助于對實際數(shù)據(jù)進(jìn)行建模學(xué)習(xí)。另外,DCCN在緩解過擬合問題方面也頗有成果,在未來的許多實際應(yīng)用領(lǐng)域是極具研究價值的。
2.3.3 任務(wù)相關(guān)自適應(yīng)度量(TDAM)
在輔助數(shù)據(jù)與目標(biāo)任務(wù)樣本相關(guān)性較低時,一般嵌入模型訓(xùn)練的特征嵌入函數(shù)對于目標(biāo)任務(wù)樣本的嵌入能力會變得比較糟糕。于是,Oreshkin等人[82]在原有PN的基礎(chǔ)上,提出任務(wù)相關(guān)自適應(yīng)度量(task dependent adaptive metric,TADAM)。
TADAM的創(chuàng)新之處主要體現(xiàn)在兩個方面。首先,它對初始特征嵌入函數(shù)的訓(xùn)練過程做出部分調(diào)整,如圖10所示,每次訓(xùn)練時,TADAM會讓目標(biāo)任務(wù)樣本與輔助數(shù)據(jù)協(xié)同訓(xùn)練初始的特征嵌入函數(shù)。
圖10 任務(wù)相關(guān)自適應(yīng)度量Fig.10 Task dependent adaptive metric
其次,TADAM構(gòu)建了深度任務(wù)條件嵌入網(wǎng)絡(luò)(TEN)再訓(xùn)練和優(yōu)化初始的特征嵌入函數(shù),同時突破了傳統(tǒng)的相似性度量的思路,提出了度量縮放的概念,淡化了度量選擇的重要性,這是該方法最大的創(chuàng)新點。TADAM借鑒了PN的思想,計算目標(biāo)任務(wù)中已知類別樣本(支持集)中每一類的類原型均值,將類原型均值作為任務(wù)表征信息輸入到TEN中,TEN通過遍歷所有的任務(wù)表征信息并動態(tài)地學(xué)習(xí)每個任務(wù)中樣本的特定特征信息(任務(wù)相關(guān)系數(shù)和度量縮放因子α等),再訓(xùn)練獲得混合特征嵌入函數(shù)f′。Oreshkin等人還先后對比了采用余弦距離作為度量和采用歐式距離作為度量的差異,發(fā)現(xiàn)差異產(chǎn)生的原因在于度量尺度的不同,于是他們提出了用一個度量因子來縮放度量,并驗證了度量縮放能有效地提升樣本學(xué)習(xí)的性能。
TADAM采用協(xié)同訓(xùn)練方式取代傳統(tǒng)預(yù)訓(xùn)練方式取得不錯的效果,可以實時地進(jìn)行各種參數(shù)反饋與調(diào)整(類似人類的學(xué)習(xí)),提升特征嵌入函數(shù)的嵌入能力。另外,采用TEN再訓(xùn)練特征嵌入函數(shù)可以有效地捕捉樣本的特定特征信息,有助于進(jìn)一步提升特征嵌入函數(shù)對其他(新)任務(wù)樣本的泛化能力。還有,采用度量縮放有助于提升小樣本學(xué)習(xí)的性能,同時提高了在選擇相似性度量的可解釋性。
盡管如此,TADAM的協(xié)同訓(xùn)練模式對樣本數(shù)據(jù)量的要求較高,因而在某些缺乏樣本數(shù)據(jù)的實際場景中,它的應(yīng)用價值較低。除此之外,TEN網(wǎng)絡(luò)需要較強(qiáng)的任務(wù)表征信息來優(yōu)化特征嵌入函數(shù),目前的任務(wù)表征信息的設(shè)計仍有較大空間完善,另外構(gòu)建TEN網(wǎng)絡(luò)對整體架構(gòu)要求較高,加重了工作成本負(fù)擔(dān)。還有,目前關(guān)于度量縮放的研究工作較少,度量縮放的可行性束縛了方法推廣的范圍。
本章將介紹各類嵌入學(xué)習(xí)方法在小樣本學(xué)習(xí)任務(wù)(主要是圖像領(lǐng)域)中采用的數(shù)據(jù)集,同時比較各類嵌入學(xué)習(xí)方法在最常用的數(shù)據(jù)集上的表現(xiàn),分析各類嵌入學(xué)習(xí)方法的性能影響要素,最后詳細(xì)地總結(jié)所有嵌入學(xué)習(xí)方法。
在小樣本學(xué)習(xí)任務(wù)中,各類嵌入學(xué)習(xí)方法采用了MiniImageNet[83]數(shù)據(jù)集、Omniglot[84-85]數(shù)據(jù)集和Tiered-ImageNet數(shù)據(jù)集以及CIFAR100[86]數(shù)據(jù)集等作為標(biāo)準(zhǔn)數(shù)據(jù)集。
表2選取5-way 1-shot以及5-way 5-shot這兩種情況來對各個嵌入學(xué)習(xí)方法的表現(xiàn)進(jìn)行分析,其中有些對應(yīng)專用數(shù)據(jù)集或者只采用一種數(shù)據(jù)集的方法說服性和討論性并不高,因此它們的表現(xiàn)并沒有列出。
如表2所示,首先,無論采用哪個數(shù)據(jù)集作為小樣本學(xué)習(xí)的標(biāo)準(zhǔn)數(shù)據(jù)集,5-shot的分類準(zhǔn)確率都要比1-shot的高,這證明了用于學(xué)習(xí)的樣本數(shù)量越多,獲取到的特征越多,訓(xùn)練出的特征嵌入函數(shù)越好,最終的學(xué)習(xí)效果越佳;其次,不同的數(shù)據(jù)集對模型的影響也比較巨大,所有采用Omniglot數(shù)據(jù)集的方法在1-shot和5-shot的分類準(zhǔn)確率均達(dá)到96%以上,進(jìn)一步提升的空間已經(jīng)比較小了;而在MiniImageNet數(shù)據(jù)集上1-shot和5-shot的分類準(zhǔn)確率大多都只有50%/70%上下,這是因為MiniImageNet數(shù)據(jù)集的圖片樣本種類較多,樣本特征信息較為復(fù)雜;除此之外,不同類別的嵌入學(xué)習(xí)方法的表現(xiàn)也不同,混合嵌入模型相對于單一嵌入模型的分類準(zhǔn)確率有明顯的提升,這凸顯出同時結(jié)合兩種特征信息訓(xùn)練得到的混合特征嵌入函數(shù)更有助于提升樣本學(xué)習(xí)的有效性;另外,在MiniImageNet數(shù)據(jù)集中,表現(xiàn)最好的方法與表現(xiàn)最差的方法在1-shot/5-shot上的分類準(zhǔn)確率相差15%到11%,這些都意味著嵌入學(xué)習(xí)方法還有較大的提升空間。
表2 各嵌入學(xué)習(xí)方法表現(xiàn)Table 2 Performance of embedded learning methods
綜合各個嵌入學(xué)習(xí)方法的表現(xiàn),本文依據(jù)影響因素是否為方法所特有,將嵌入學(xué)習(xí)方法的影響小樣本學(xué)習(xí)性能的因素劃分為決定因素和一般因素,這里通過表格歸納和分析每個因素所起的作用,如表3所示。
表3 性能影響因素Table 3 Influence factors
結(jié)合表3,決定因素是嵌入學(xué)習(xí)方法影響小樣本學(xué)習(xí)性能的關(guān)鍵,首先是特征嵌入能力,它是小樣本學(xué)習(xí)的基礎(chǔ),好的特征嵌入函數(shù)可以充分地提取樣本的特征信息,學(xué)習(xí)到更好的特征表示;其次,度量類型包括固定度量和動態(tài)可學(xué)習(xí)的度量,結(jié)合前文所述,采用動態(tài)可學(xué)習(xí)度量方法的性能要比采用固定度量的方法的性能要好,選擇不同類型的度量影響最終的學(xué)習(xí)性能;而特征遷移能力關(guān)系到特征嵌入函數(shù)對不同任務(wù)樣本的適應(yīng)能力,具備較好的特征遷移能力可以讓小樣本的快速學(xué)習(xí)和泛化事半功倍。另外,小樣本學(xué)習(xí)的性能還受一般因素影響,一般因素不局限于在嵌入學(xué)習(xí)方法中施加影響,它們在所有的小樣本學(xué)習(xí)方法中都可產(chǎn)生影響,可以通過靈活調(diào)整來影響小樣本學(xué)習(xí)的性能。
上一節(jié)已經(jīng)闡述了各個嵌入學(xué)習(xí)方法,這里分別按方法類別和方法本身對它們總結(jié)歸納,對比各類別的嵌入學(xué)習(xí)方法的優(yōu)劣勢,然后深入各類別的具體方法,分析它們具體的方法機(jī)制、優(yōu)越性、局限性以及它們的適用場景,具體如表4、表5所示。
結(jié)合表4和表5,總體而言,兩類嵌入學(xué)習(xí)方法均以CNN為主體架構(gòu),主要是通過學(xué)習(xí)一個特征嵌入函數(shù)(空間)并借助相似性度量來進(jìn)行分類,省略了分類器的參數(shù)訓(xùn)練,使整體便于計算和公式化。然而,在實際情況下,無論是輔助數(shù)據(jù),還是目標(biāo)任務(wù)樣本,或者是其他任務(wù)樣本,不同樣本集的相似性一般,幾乎所有方法訓(xùn)練得到的特征嵌入函數(shù)容易陷入到過擬合問題中(模型在訓(xùn)練數(shù)據(jù)上過擬合),基本上都需要額外的數(shù)據(jù)支持來幫助緩解;另外,大部分嵌入學(xué)習(xí)方法的可解釋性都不高,實際應(yīng)用價值仍有待提升。
表4 各類別嵌入學(xué)習(xí)方法的對比Table 4 Comparison of all kinds of embedding learning methods
具體而言,單一嵌入模型中的方法大多都過于依賴外部先驗知識的獲取,只能適用于那些帶較多標(biāo)注信息樣本的應(yīng)用場景,應(yīng)用范圍狹窄但應(yīng)用難度小。而混合嵌入模型的方法減少了對先驗知識的依賴,提升了對各類任務(wù)樣本的特征嵌入能力,既保證了模型的可靠性和穩(wěn)定性,也保證了學(xué)習(xí)性能的改善,但是成本較高,應(yīng)用范圍廣泛但應(yīng)用難度大。值得一提的是,當(dāng)前的嵌入學(xué)習(xí)方法的研究工作大多數(shù)以單一嵌入模型為主,發(fā)展較為成熟,可供研究以及改進(jìn)的地方比較有限;而混合嵌入模型作為一類新興的方法,它主要是在原有的單一嵌入模型的基礎(chǔ)上進(jìn)行改進(jìn),目前還在起步階段。因此,混合嵌入模型仍有很大空間可供研究和完善。
事實上,所有嵌入學(xué)習(xí)方法都期望以最低的成本實現(xiàn)對小樣本的快速學(xué)習(xí)和泛化,但是現(xiàn)有研究工作無法再訓(xùn)練得到一個可靠且實用性高的特征嵌入函數(shù)(空間)的同時消除過擬合問題的影響,不可避免地需要增加成本優(yōu)化(例如引入外部機(jī)制,模型架構(gòu)改進(jìn)等),因此目前仍需側(cè)重這個問題進(jìn)一步深入研究。
雖然目前嵌入學(xué)習(xí)方法在解決小樣本學(xué)習(xí)問題取得一些進(jìn)展,但仍面臨著挑戰(zhàn)。
(1)過度依賴于輔助數(shù)據(jù),預(yù)訓(xùn)練的模式違背了小樣本學(xué)習(xí)的本質(zhì)定義。幾乎所有的嵌入學(xué)習(xí)方法都需要通過大量輔助樣本來預(yù)訓(xùn)練特征嵌入函數(shù),但在實際應(yīng)用場景中,很多時候數(shù)據(jù)量受限,使用輔助樣本的思路顯得不切實際。還有,使用的輔助數(shù)據(jù)與當(dāng)前任務(wù)樣本的相關(guān)性較低時,嵌入學(xué)習(xí)方法會學(xué)習(xí)到較差的特征嵌入函數(shù),不利于后續(xù)準(zhǔn)確地對樣本分類,而各類嵌入學(xué)習(xí)模型或多或少都會面臨這種問題,但目前沒有較好的解決方法。
(2)模型的設(shè)計與訓(xùn)練都過于偏向當(dāng)前特定的任務(wù)基準(zhǔn),對其他任務(wù)樣本的適用性和泛化性不夠。在現(xiàn)有的研究工作中,將模型推廣到新的但與目標(biāo)任務(wù)無關(guān)的樣本并保證其能夠?qū)颖究焖賹W(xué)習(xí)也是需要實現(xiàn)的目標(biāo),但是每一類嵌入模型都過度針對特定的基準(zhǔn)任務(wù)(Episodic Training的子任務(wù))和數(shù)據(jù)集(輔助數(shù)據(jù)與目標(biāo)任務(wù))設(shè)計,削弱了對其他任務(wù)(新任務(wù))的適用性。
(3)特征嵌入函數(shù)的訓(xùn)練模型對信息的結(jié)合以及參數(shù)的遷移不夠明確,缺乏足夠的可解釋性。人們只知道訓(xùn)練樣本的特征嵌入函數(shù)時學(xué)習(xí)了網(wǎng)絡(luò)參數(shù),但對于訓(xùn)練過程中如何使用外部先驗知識以及如何結(jié)合目標(biāo)任務(wù)的特征信息等相關(guān)細(xì)節(jié)并不是特別清晰,需要更加明確信息(知識)結(jié)合以及參數(shù)遷移的過程。
(4)對度量選擇依據(jù)的討論不夠明確,缺乏對每個方法的最優(yōu)度量選擇的分析。度量的選擇會影響小樣本學(xué)習(xí)的最終學(xué)習(xí)效果,然而各嵌入學(xué)習(xí)方法并沒有權(quán)威地討論本方法選擇度量的依據(jù)以及選擇何種距離度量是最佳的(取得最好的學(xué)習(xí)效果)。
(5)樣本學(xué)習(xí)的過程中忽視了類內(nèi)差異的影響?,F(xiàn)階段關(guān)于樣本類內(nèi)差異的研究相對較少,大部分嵌入學(xué)習(xí)方法關(guān)注的重點是類間差異,類內(nèi)差異也會對樣本學(xué)習(xí)的準(zhǔn)確率產(chǎn)生影響,這是當(dāng)前工作需要解決的點。
(6)當(dāng)前研究工作的梯度遷移算法還不是很合理,大多是針對傳統(tǒng)機(jī)器學(xué)習(xí)領(lǐng)域中的大數(shù)據(jù)集學(xué)習(xí),算法實現(xiàn)過程中容易出現(xiàn)過擬合問題。在Episodic training中,每次訓(xùn)練時子任務(wù)在學(xué)習(xí)知識的過程中梯度下降是較緩慢的。當(dāng)模型遷移到新任務(wù)時,受限于樣本數(shù)量較少,模型期望快速收斂的目標(biāo)顯得十分關(guān)鍵,需要梯度快速下降,但梯度下降過快容易導(dǎo)致過擬合問題的出現(xiàn)。因此,目前還需要針對嵌入學(xué)習(xí)方法設(shè)計合理的梯度下降算法來完善當(dāng)前的工作,滿足小樣本學(xué)習(xí)的需求。
(7)對各領(lǐng)域的應(yīng)用大多在起步階段,缺乏足夠小樣本標(biāo)準(zhǔn)數(shù)據(jù)集供研究。目前嵌入學(xué)習(xí)方法只有在圖像應(yīng)用領(lǐng)域的發(fā)展較為成熟,而對文本分類,聲音分類等領(lǐng)域[87-88]的研究工作仍不成熟。在圖像領(lǐng)域中,諸如MiniImagenet數(shù)據(jù)集和Omniglot數(shù)據(jù)集等帶標(biāo)注的數(shù)據(jù)集已經(jīng)被廣泛使用。而在其他應(yīng)用領(lǐng)域中,標(biāo)準(zhǔn)數(shù)據(jù)集僅有少數(shù)個例,比較有代表性的是Han等人[89]在2018年提出的小樣本關(guān)系抽取數(shù)據(jù)集FewRel,構(gòu)建合適的標(biāo)準(zhǔn)小樣本數(shù)據(jù)集是急需解決的問題。
梳理目前嵌入學(xué)習(xí)方法的研究工作,本文對嵌入學(xué)習(xí)未來的發(fā)展方向進(jìn)行展望。
(1)在數(shù)據(jù)角度上,可以嘗試?yán)闷渌闰炛R(知識圖譜[90])進(jìn)行特征嵌入函數(shù)的訓(xùn)練,探索不依賴模型預(yù)訓(xùn)練特征嵌入函數(shù)的可行性。訓(xùn)練時,輔助數(shù)據(jù)中利用較多的是已標(biāo)注的數(shù)據(jù),而現(xiàn)實場景的數(shù)據(jù)以無標(biāo)注數(shù)據(jù)為主,往往無標(biāo)注數(shù)據(jù)蘊(yùn)含著許多有用的信息,值得進(jìn)行挖掘和利用。因此,未來對無標(biāo)注數(shù)據(jù)的合理利用是一個有價值的研究方向。
(2)混合嵌入模型的深入研究尤為必要。對比單一嵌入模型,無論是訓(xùn)練出更優(yōu)秀且穩(wěn)定的特征嵌入函數(shù)還是緩解過擬合問題方面,混合嵌入模型已經(jīng)初步證明了自身的巨大優(yōu)越性和潛力,未來混合嵌入模型勢必會成為嵌入學(xué)習(xí)方法的主流,有必要深層次地研究與完善該類方法。
(3)優(yōu)化Episodic Training訓(xùn)練模式,設(shè)計一個更加強(qiáng)大的元學(xué)習(xí)器。如今元學(xué)習(xí)作為新興的代表,在模型應(yīng)用上不夠成熟,現(xiàn)有的元學(xué)習(xí)器無法學(xué)習(xí)到足夠且有效的元知識。未來,如何設(shè)計好的元學(xué)習(xí)器并提升學(xué)習(xí)的有效性和豐富性也是至關(guān)重要的研究方向。
(4)設(shè)計性能更加優(yōu)秀的神經(jīng)網(wǎng)絡(luò)算法。首先,構(gòu)建以及訓(xùn)練特征嵌入函數(shù)的過程中離不開神經(jīng)網(wǎng)絡(luò)的支持,參數(shù)能否快速學(xué)習(xí)和優(yōu)化決定了特征嵌入函數(shù)的有效性;另外,度量的有關(guān)研究已經(jīng)較為成熟,固定度量的改進(jìn)空間非常小,很可能會被動態(tài)的可學(xué)習(xí)度量取代,而動態(tài)度量的學(xué)習(xí)很大程度依賴于神經(jīng)網(wǎng)絡(luò)。綜上所述,未來對于性能更優(yōu)的神經(jīng)網(wǎng)絡(luò)算法的設(shè)計需求將會越來越大。
(5)嘗試結(jié)合不同嵌入學(xué)習(xí)方法中各自的優(yōu)勢,或者在嵌入學(xué)習(xí)方法的基礎(chǔ)上,融合其他小樣本學(xué)習(xí)解決方法(不平衡學(xué)習(xí)、強(qiáng)化學(xué)習(xí)等先進(jìn)機(jī)器學(xué)習(xí)框架)的思想,改進(jìn)原有的方法,形成新的可靠且有效的解決方法。目前已經(jīng)有一些組合解決方法的研究工作,后續(xù)研究工作不妨以這些優(yōu)勢作為切入點,優(yōu)勢結(jié)合或許可以帶來性能的質(zhì)變。例如,可以在學(xué)習(xí)動態(tài)度量時進(jìn)行度量縮放;其次,鑒于嵌入學(xué)習(xí)方法中GNN特征表達(dá)能力較強(qiáng),而基于外部記憶學(xué)習(xí)方法的記憶模塊可以不斷保存樣本中的許多有效信息,同時結(jié)合這兩種方法有望在樣本學(xué)習(xí)過程中保留更關(guān)鍵的特征信息,設(shè)計出性能更為出色的特征嵌入函數(shù);
(6)現(xiàn)有的嵌入學(xué)習(xí)方法的研究工作需擴(kuò)展應(yīng)用領(lǐng)域的范圍,局限于較小的應(yīng)用層次不利于進(jìn)一步探索和完善該類方法,使得該類方法的整體有效性缺乏說服力。嵌入學(xué)習(xí)方法現(xiàn)有的應(yīng)用領(lǐng)域主要集中在計算機(jī)視覺(圖像處理)的小樣本學(xué)習(xí)問題,而在諸如語音識別、自然語言處理等應(yīng)用領(lǐng)域中,相關(guān)的研究較少,而這些領(lǐng)域的小樣本學(xué)習(xí)問題也值得未來深入開展研究。