陳良臣,傅德印
(1.中國(guó)勞動(dòng)關(guān)系學(xué)院 計(jì)算機(jī)教研室,北京 100048;2.中國(guó)勞動(dòng)關(guān)系學(xué)院 應(yīng)用統(tǒng)計(jì)學(xué)教研室,北京 100048;3.中國(guó)科學(xué)院信息工程研究所,中國(guó)科學(xué)院網(wǎng)絡(luò)測(cè)評(píng)技術(shù)重點(diǎn)實(shí)驗(yàn)室,北京 100093;4.武漢理工大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,武漢 430063)
盡管機(jī)器學(xué)習(xí)在擬人化人工智能上實(shí)現(xiàn)了突破,并在數(shù)據(jù)密集型應(yīng)用中取得了較好的效果,然而深度學(xué)習(xí)需要較強(qiáng)的算力和大量標(biāo)注好的數(shù)據(jù)進(jìn)行支撐。而在網(wǎng)絡(luò)安全領(lǐng)域等很多實(shí)際應(yīng)用場(chǎng)景中,收集和標(biāo)注大量網(wǎng)絡(luò)中的新型未知攻擊樣本是極其困難的。當(dāng)帶標(biāo)簽的數(shù)據(jù)樣本很少或數(shù)據(jù)集較小時(shí),確保機(jī)器學(xué)習(xí)模型能快速學(xué)習(xí)樣本并提高泛化能力對(duì)研究人員不僅是巨大挑戰(zhàn),也是必須解決的現(xiàn)實(shí)問(wèn)題[1]。為推動(dòng)機(jī)器學(xué)習(xí)在這種樣本數(shù)據(jù)極稀缺場(chǎng)景下的應(yīng)用,研究人員提出了小樣本學(xué)習(xí)[2]。
小樣本學(xué)習(xí)是面向小樣本數(shù)據(jù)的機(jī)器學(xué)習(xí)[3]。目前,小樣本學(xué)習(xí)的研究主要關(guān)注如何在缺乏足夠樣本的條件下,僅通過(guò)較少數(shù)量的樣本就能理解事物的本質(zhì)特征,避免過(guò)擬合并給出泛化性良好的結(jié)果。根據(jù)訓(xùn)練樣本數(shù)量將小樣本學(xué)習(xí)分為3類:只有一個(gè)訓(xùn)練樣本,稱為單樣本學(xué)習(xí);不存在目標(biāo)訓(xùn)練樣本,稱為零樣本學(xué)習(xí);目標(biāo)訓(xùn)練樣本在數(shù)十個(gè)量級(jí)時(shí),稱為小樣本學(xué)習(xí)。很多文獻(xiàn)將這3類統(tǒng)稱為小樣本學(xué)習(xí),其中前兩類為特殊情況[4]。目前,小樣本學(xué)習(xí)的領(lǐng)域主要有概念學(xué)習(xí)和經(jīng)驗(yàn)學(xué)習(xí)兩個(gè)研究方向。概念學(xué)習(xí)是讓機(jī)器盡量模擬人腦的學(xué)習(xí)過(guò)程,即通過(guò)少量樣本理解事物本質(zhì)概念這一過(guò)程,而另一種經(jīng)驗(yàn)學(xué)習(xí)的思想是將小樣本問(wèn)題轉(zhuǎn)化為通用的大數(shù)據(jù)范式。
針對(duì)小樣本數(shù)據(jù),很多學(xué)者從基于模型微調(diào)、基于數(shù)據(jù)增強(qiáng)、基于度量學(xué)習(xí)和基于元學(xué)習(xí)等4 個(gè)方面的機(jī)器學(xué)習(xí)方法進(jìn)行研究。本文總結(jié)面向小樣本數(shù)據(jù)的機(jī)器學(xué)習(xí)方法最新研究進(jìn)展,對(duì)小樣本學(xué)習(xí)方法進(jìn)行歸納分類,并列舉常用小樣本數(shù)據(jù)集和評(píng)價(jià)指標(biāo),在此基礎(chǔ)上整理常用機(jī)器學(xué)習(xí)方法在小樣本數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果。最后,對(duì)目前面向小樣本數(shù)據(jù)的機(jī)器學(xué)習(xí)方法進(jìn)行總結(jié)并闡述其未來(lái)發(fā)展趨勢(shì)。
小樣本學(xué)習(xí)也稱為少樣本學(xué)習(xí),是通過(guò)從較少數(shù)量的樣本數(shù)據(jù)中學(xué)習(xí)得到解決實(shí)際問(wèn)題的機(jī)器學(xué)習(xí)方法[5]。在標(biāo)記數(shù)據(jù)少甚至無(wú)標(biāo)記數(shù)據(jù)場(chǎng)景下所做的工作都?xì)w為小樣本學(xué)習(xí)問(wèn)題。給定一個(gè)特定任務(wù)T,包含有少量可用信息的數(shù)據(jù)集DT,以及與T 無(wú)關(guān)的輔助數(shù)據(jù)集DA,為任務(wù)T 構(gòu)建函數(shù)f,任務(wù)的完成使用了DT中很少的信息和DA中的知識(shí)。
如圖1 所示,小樣本學(xué)習(xí)的基本模型為p=C(f(x|θ)|ω),由特征提取器f(·|θ)和分類器C(·|ω)組成,其中:θ和ω分別表示f和C的參數(shù);x表示待識(shí)別的樣本;f(x|θ)表示對(duì)樣本x提取的特征;p表示對(duì)樣本x識(shí)別的結(jié)果。
圖1 小樣本學(xué)習(xí)基本模型Fig.1 Basic model of few-shot learning
在小樣本學(xué)習(xí)模型訓(xùn)練的過(guò)程中,訓(xùn)練樣本集所包含的樣本數(shù)量過(guò)少,在該訓(xùn)練樣本集上訓(xùn)練分類模型p所得到的參數(shù)θ和ω會(huì)導(dǎo)致模型過(guò)度擬合。
小樣本學(xué)習(xí)最早出現(xiàn)在圖像分類和識(shí)別的應(yīng)用中,在實(shí)際場(chǎng)景中,小樣本學(xué)習(xí)除了集中在深度學(xué)習(xí)比較有優(yōu)勢(shì)的計(jì)算機(jī)視覺(jué)領(lǐng)域和自然語(yǔ)言處理領(lǐng)域外,也被廣泛地應(yīng)用到很多機(jī)器學(xué)習(xí)的其他領(lǐng)域中,如表1 所示。這些領(lǐng)域的特點(diǎn)一般是訓(xùn)練數(shù)據(jù)的獲取成本很高,甚至根本無(wú)法獲取。例如:在罕見(jiàn)疾病診斷中,由于一些罕見(jiàn)疾病的病例數(shù)非常少,因此幾乎無(wú)法獲取訓(xùn)練樣本;在人臉識(shí)別中,受采集條件限制,往往無(wú)法獲取各個(gè)角度的人臉圖片,在多數(shù)情況下每張人臉只有一張對(duì)應(yīng)的訓(xùn)練圖片;在小語(yǔ)種相關(guān)的機(jī)器翻譯中,一些語(yǔ)系的訓(xùn)練數(shù)據(jù)采集工作往往難以開(kāi)展等。
表1 小樣本學(xué)習(xí)應(yīng)用領(lǐng)域Table 1 Few-shot learning application areas
2003 年,從LI 等[16]提出小樣本學(xué)習(xí)的框架開(kāi)始,小樣本學(xué)習(xí)得到越來(lái)越研究者的關(guān)注,并有了一些研究和發(fā)展。目前主流的小樣本學(xué)習(xí)方法主要分為基于模型微調(diào)、數(shù)據(jù)增強(qiáng)、度量學(xué)習(xí)和元學(xué)習(xí)四大類。各分類方法的核心內(nèi)容如表2 所示。
表2 小樣本學(xué)習(xí)方法的核心內(nèi)容Table 2 The core content of few-shot learning methods
為了解決數(shù)據(jù)受限問(wèn)題,基于數(shù)據(jù)增強(qiáng)的小樣本學(xué)習(xí)方法使用生成模型等技術(shù)增強(qiáng)訓(xùn)練樣本以增加模型中先驗(yàn)知識(shí)[17];基于度量的小樣本學(xué)習(xí)方法則通過(guò)學(xué)習(xí)嵌入空間來(lái)解決資源不足時(shí)的過(guò)擬合問(wèn)題;基于元學(xué)習(xí)的小樣本學(xué)習(xí)算法關(guān)注算法本身設(shè)計(jì),即設(shè)計(jì)一種可以快速收斂到最佳模型參數(shù)的跨任務(wù)優(yōu)化策略[18]。其中,基于數(shù)據(jù)增強(qiáng)的小樣本學(xué)習(xí)方法包括基于無(wú)標(biāo)簽數(shù)據(jù)、數(shù)據(jù)合成、特征增強(qiáng)等;基于度量學(xué)習(xí)的方法包括匹配網(wǎng)絡(luò)、原型網(wǎng)絡(luò)、關(guān)系網(wǎng)絡(luò)、圖神經(jīng)網(wǎng)絡(luò)等;基于元學(xué)習(xí)的方法包括模型無(wú)關(guān)學(xué)習(xí)、元轉(zhuǎn)移學(xué)習(xí)、記憶增強(qiáng)神經(jīng)網(wǎng)絡(luò)、長(zhǎng)短時(shí)記憶模型等。小樣本學(xué)習(xí)方法分類如圖2 所示。
圖2 小樣本學(xué)習(xí)方法的分類Fig.2 Classification of few-shot learning methods
基于模型微調(diào)的方法通常先在大量數(shù)據(jù)集上對(duì)網(wǎng)絡(luò)模型進(jìn)行預(yù)訓(xùn)練,然后固定部分參數(shù),在小樣本數(shù)據(jù)集上對(duì)網(wǎng)絡(luò)模型中的特定參數(shù)進(jìn)行微調(diào),得到微調(diào)后的模型,如圖3 所示。若目標(biāo)數(shù)據(jù)集和源數(shù)據(jù)集分布較類似,則可采用模型微調(diào)的方法。該方法依賴的數(shù)據(jù)量較少,能較快地達(dá)到所需效果[1]。
圖3 基于模型微調(diào)的小樣本學(xué)習(xí)方法Fig.3 Small sample learning method based on model fine-tuning
文獻(xiàn)[9]提出重新賦權(quán)模塊的FSRW 模型,首先通過(guò)基類樣本訓(xùn)練特征調(diào)整模塊,然后根據(jù)小樣本新類與基類樣本聯(lián)合訓(xùn)練模型,以達(dá)到對(duì)新類樣本的檢測(cè)。文獻(xiàn)[19]提出一種傳導(dǎo)性微調(diào)的方法,首先利用大量帶標(biāo)簽數(shù)據(jù)對(duì)模型進(jìn)行第一階段訓(xùn)練,接著使用少數(shù)的有標(biāo)簽數(shù)據(jù)微調(diào)模型,以達(dá)到新類數(shù)據(jù)的分類。文獻(xiàn)[20]提出一種簡(jiǎn)單的微調(diào)方法,固定第一階段訓(xùn)練后的特征提取模塊,只對(duì)分類器和回歸器進(jìn)行微調(diào)。文獻(xiàn)[21]設(shè)計(jì)一個(gè)通用微調(diào)語(yǔ)言模型,該模型的創(chuàng)新點(diǎn)在于改變學(xué)習(xí)速率來(lái)微調(diào)語(yǔ)言模型,使模型更符合目標(biāo)任務(wù)。另外,文獻(xiàn)[22]提出一種微調(diào)方法,在訓(xùn)練過(guò)程使用更低學(xué)習(xí)率,在微調(diào)階段使用自適應(yīng)梯度優(yōu)化器。文獻(xiàn)[23]提出一個(gè)基于T0 模型的微調(diào)方法T-Few,無(wú)需針對(duì)特定任務(wù)的調(diào)整或修改即可應(yīng)用于新任務(wù)。
為了使小樣本學(xué)習(xí)模型的分類效果更好,研究人員需要考慮選擇哪種類型的微調(diào)方法。在真實(shí)的小樣本學(xué)習(xí)的應(yīng)用場(chǎng)景中,目標(biāo)樣本集和源樣本集并不一定相似,采用模型微調(diào)的小樣本學(xué)習(xí)方法可能會(huì)導(dǎo)致機(jī)器學(xué)習(xí)模型在目標(biāo)樣本集上出現(xiàn)過(guò)擬合問(wèn)題[1]。因此,在解決實(shí)際問(wèn)題中,一般將模型微調(diào)方法和數(shù)據(jù)增強(qiáng)、度量學(xué)習(xí)或元學(xué)習(xí)方法相結(jié)合來(lái)避免少量數(shù)據(jù)帶來(lái)的模型過(guò)擬合問(wèn)題。
在深度學(xué)習(xí)中,經(jīng)常通過(guò)對(duì)樣本進(jìn)行旋轉(zhuǎn)、縮放、變形、剪切或者變換顏色等處理方法來(lái)增強(qiáng)數(shù)據(jù)。小樣本學(xué)習(xí)因?yàn)閿?shù)據(jù)量太少而導(dǎo)致樣本多樣性低,所以可使用數(shù)據(jù)增強(qiáng)來(lái)提高樣本多樣性。如圖4所示,使用輔助數(shù)據(jù)或者輔助信息,本文根據(jù)某種規(guī)則將新類數(shù)據(jù)集Dnovel中的樣本(xi,yi)轉(zhuǎn)換成多個(gè)樣本,轉(zhuǎn)換生成的樣本擁有與被轉(zhuǎn)換樣本相同的類別標(biāo)簽,并加入到原數(shù)據(jù)集Dnovel中,生成一個(gè)更大的數(shù)據(jù)集,新數(shù)據(jù)集包含更多數(shù)據(jù),可直接通過(guò)深度學(xué)習(xí)模型訓(xùn)練。
圖4 基于數(shù)據(jù)增強(qiáng)的小樣本學(xué)習(xí)方法Fig.4 Few-shot learning method based on data augmentation
數(shù)據(jù)增強(qiáng)是針對(duì)小樣本集進(jìn)行數(shù)據(jù)擴(kuò)充或者特征增強(qiáng)。其中,數(shù)據(jù)擴(kuò)充是添加新數(shù)據(jù)、無(wú)標(biāo)簽數(shù)據(jù)或合成的有標(biāo)簽數(shù)據(jù),特征增強(qiáng)是在特征空間中添加新特征。基于數(shù)據(jù)增強(qiáng)的小樣本學(xué)習(xí)方法主要包括基于無(wú)標(biāo)簽數(shù)據(jù)、數(shù)據(jù)合成和特征增強(qiáng)的方法[1]。
2.2.1 基于無(wú)標(biāo)簽數(shù)據(jù)的方法
基于無(wú)標(biāo)簽數(shù)據(jù)的方法是指使用大量的無(wú)標(biāo)簽數(shù)據(jù)對(duì)原有的小樣本數(shù)據(jù)集進(jìn)行擴(kuò)充,包括無(wú)監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)、直推式學(xué)習(xí)等常見(jiàn)方法。
無(wú)監(jiān)督小樣本學(xué)習(xí)是指輔助數(shù)據(jù)集由無(wú)標(biāo)簽數(shù)據(jù)組成,模型不需要標(biāo)簽數(shù)據(jù),減少了收集和標(biāo)注數(shù)據(jù)的成本,使小樣本學(xué)習(xí)更符合生活中的實(shí)際應(yīng)用場(chǎng)景。為了減少依賴輔助數(shù)據(jù)集,無(wú)監(jiān)督小樣本學(xué)習(xí)作為一個(gè)被重點(diǎn)關(guān)注的研究方向[24]。但是沒(méi)有標(biāo)簽樣本就無(wú)法構(gòu)建小樣本訓(xùn)練任務(wù),這正是小樣本學(xué)習(xí)方法成功的關(guān)鍵。文獻(xiàn)[24-25]使用基于聚類的方法,根據(jù)不同的簇來(lái)構(gòu)造偽標(biāo)簽并使用元訓(xùn)練優(yōu)化模型,該方法對(duì)聚類效果有很高的要求。文獻(xiàn)[26-27]使用基于數(shù)據(jù)增強(qiáng)的方法,利用其類別保持的性質(zhì)來(lái)構(gòu)造訓(xùn)練任務(wù),增強(qiáng)的好壞直接影響模型的效果。文獻(xiàn)[28]通過(guò)自訓(xùn)練獲得無(wú)標(biāo)注樣本的偽標(biāo)簽來(lái)增強(qiáng)數(shù)據(jù),并通過(guò)設(shè)計(jì)新度量偽標(biāo)簽置信度來(lái)挑選置信度高的樣本。文獻(xiàn)[29]在小樣本場(chǎng)景的無(wú)標(biāo)簽數(shù)據(jù)上,通過(guò)利用數(shù)據(jù)增強(qiáng)方法提取更加通用的先驗(yàn)知識(shí)。文獻(xiàn)[30]提出一種基于分離增強(qiáng)的無(wú)監(jiān)督小樣本學(xué)習(xí)框架,關(guān)注偽小樣本學(xué)習(xí)任務(wù)分布差異,緩解模型過(guò)擬合問(wèn)題。文獻(xiàn)[31]提出一種基于度量的輔助學(xué)習(xí)的小樣本學(xué)習(xí)框架,通過(guò)生成偽標(biāo)簽來(lái)動(dòng)態(tài)指導(dǎo)模型迭代中的粗學(xué)習(xí)。
半監(jiān)督學(xué)習(xí)是機(jī)器學(xué)習(xí)研究領(lǐng)域的重要方向,將半監(jiān)督學(xué)習(xí)應(yīng)用到小樣本學(xué)習(xí)中已經(jīng)有很多不同的嘗試,并取得了較好的效果。文獻(xiàn)[32]對(duì)原型網(wǎng)絡(luò)進(jìn)行拓展,提出一種半監(jiān)督的小樣本學(xué)習(xí)方法,使用小樣本分類中生成的少量已標(biāo)注樣本和多數(shù)未標(biāo)注樣本來(lái)計(jì)算原型,獲得了更好的效果。文獻(xiàn)[33]提出一種基于標(biāo)記傳導(dǎo)的傳感前傳模型,在基于半監(jiān)督的小樣本學(xué)習(xí)中獲得非常好的分類準(zhǔn)確率。文獻(xiàn)[34]在半監(jiān)督學(xué)習(xí)思想下,提出增加無(wú)監(jiān)督元訓(xùn)練階段,使多個(gè)頂層單元學(xué)習(xí)大量的無(wú)標(biāo)注數(shù)據(jù)。文獻(xiàn)[35]提出一種使用MAML 模型進(jìn)行半監(jiān)督學(xué)習(xí)的方法,分別使用無(wú)標(biāo)簽樣本和有標(biāo)簽樣本調(diào)整嵌入函數(shù)參數(shù)和分類器參數(shù)。
直推式學(xué)習(xí)被認(rèn)為是半監(jiān)督學(xué)習(xí)的子問(wèn)題,目標(biāo)是通過(guò)未標(biāo)注數(shù)據(jù)的測(cè)試數(shù)據(jù)讓深度模型取得最佳的泛化能力。模型在學(xué)習(xí)階段除了能夠看到訓(xùn)練樣本和標(biāo)簽外,還能接觸到測(cè)試樣本,期望能夠使用測(cè)試樣本的內(nèi)在結(jié)構(gòu),將測(cè)試樣本作為一個(gè)整體預(yù)測(cè)分類,而不是孤立地預(yù)測(cè)每一個(gè)測(cè)試樣本。文獻(xiàn)[33]使用直推式學(xué)習(xí)提出了轉(zhuǎn)導(dǎo)傳播網(wǎng)絡(luò)來(lái)解決小樣本問(wèn)題,使標(biāo)簽從標(biāo)注數(shù)據(jù)傳播到無(wú)標(biāo)注數(shù)據(jù)。文獻(xiàn)[36]提出一種基于直推式學(xué)習(xí)的交叉注意力網(wǎng)絡(luò)和轉(zhuǎn)換推理算法,迭代地使用未標(biāo)記數(shù)據(jù)以增加數(shù)據(jù)集,使類別特征更具有代表性。
2.2.2 基于數(shù)據(jù)合成的方法
基于數(shù)據(jù)合成的方法為小樣本類別合成新的帶標(biāo)簽數(shù)據(jù),以達(dá)到擴(kuò)充訓(xùn)練數(shù)據(jù)的目的?,F(xiàn)有的數(shù)據(jù)生成方法不能捕捉復(fù)雜的樣本分布,無(wú)法泛化小樣本類別且合成的特征不可解釋。
文獻(xiàn)[29]提出一種用于小樣本學(xué)習(xí)的自動(dòng)數(shù)據(jù)增強(qiáng)框架,采用強(qiáng)化學(xué)習(xí)探索能給模型帶來(lái)最大收益的自動(dòng)數(shù)據(jù)增廣,并結(jié)合數(shù)據(jù)增強(qiáng)模型和任務(wù)模型,采用端到端的方式進(jìn)行優(yōu)化。文獻(xiàn)[37]提出一種生成對(duì)抗網(wǎng)絡(luò)模型GAN,并基于博弈論思想將噪聲分布映射到接近數(shù)據(jù)的真實(shí)分布,對(duì)小樣本數(shù)據(jù)進(jìn)行數(shù)據(jù)增強(qiáng)。文獻(xiàn)[38]在生成對(duì)抗網(wǎng)絡(luò)基礎(chǔ)上,提出了數(shù)據(jù)增強(qiáng)生成對(duì)抗網(wǎng)絡(luò)DAGAN,組合UNet和ResNet,通過(guò)生成與樣本近似分布的增強(qiáng)數(shù)據(jù)來(lái)改善模型質(zhì)量。文獻(xiàn)[39]提出一種生成對(duì)抗殘差成對(duì)網(wǎng)絡(luò)來(lái)處理單樣本學(xué)習(xí)問(wèn)題。文獻(xiàn)[40]基于語(yǔ)義信息提出了語(yǔ)義自編碼器以對(duì)更高層面數(shù)據(jù)進(jìn)行增強(qiáng),通過(guò)元學(xué)習(xí)對(duì)訓(xùn)練集樣本插值,并將樣本原始特征和轉(zhuǎn)換后特征進(jìn)行融合以達(dá)到數(shù)據(jù)增強(qiáng)。文獻(xiàn)[41]提出一種融合元學(xué)習(xí)的數(shù)據(jù)生成模型,使用數(shù)據(jù)生成、特征提取和分類共同訓(xùn)練生成對(duì)任務(wù)實(shí)用的樣本以擴(kuò)充樣本多樣性。文獻(xiàn)[42]設(shè)計(jì)一種Meta-GAN 模型,結(jié)合生成對(duì)抗網(wǎng)絡(luò)和分類網(wǎng)絡(luò)優(yōu)化,使用產(chǎn)生的數(shù)據(jù)進(jìn)行小樣本數(shù)據(jù)增強(qiáng)。文獻(xiàn)[43]改進(jìn)了自動(dòng)編碼器,將源數(shù)據(jù)中不同樣本方差應(yīng)用在新類別中生成新樣本,實(shí)現(xiàn)對(duì)小樣本任務(wù)的數(shù)據(jù)增強(qiáng)。文獻(xiàn)[44]結(jié)合變分編碼器和GAN,集成新網(wǎng)絡(luò),完成小樣本學(xué)習(xí)分類,并使得生成樣本的特征空間具有可解釋性。文獻(xiàn)[45]利用CWGAN 生成擴(kuò)充數(shù)據(jù)集以提高分類能力和生成樣本的多樣性。文獻(xiàn)[46]提出一種適用于小樣本學(xué)習(xí)的數(shù)據(jù)增強(qiáng)生成對(duì)抗網(wǎng)絡(luò)f-DAGAN,使用雙重鑒別器來(lái)處理生成的數(shù)據(jù)和生成的特征空間,以更好地學(xué)習(xí)給定的數(shù)據(jù)。
2.2.3 基于特征增強(qiáng)的方法
基于無(wú)標(biāo)簽數(shù)據(jù)和數(shù)據(jù)合成的方法都是使用輔助數(shù)據(jù)或輔助信息來(lái)增強(qiáng)樣本空間。在小樣本學(xué)習(xí)中,為了提高樣本的多樣性,還可增強(qiáng)樣本的特征空間,小樣本學(xué)習(xí)最重要的是獲得泛化性較高的特征提取器[1]。
文獻(xiàn)[18]提出一種基于特征增強(qiáng)元學(xué)習(xí)的小樣本算法,能解決線性分類器容易過(guò)擬合問(wèn)題和增強(qiáng)嵌入特征以強(qiáng)化任務(wù)表示。文獻(xiàn)[47]針對(duì)3D 圖像提出了一種基于屬性引導(dǎo)的擴(kuò)展模型學(xué)習(xí)合成數(shù)據(jù)的映射,該方法先映射圖像到某一特定空間,然后使用訓(xùn)練過(guò)的編碼器和解碼器生成多樣式的樣本圖像。文獻(xiàn)[48]將特征向量進(jìn)行多次轉(zhuǎn)換,生成新類別的特征向量,并將生成圖像添加到新類別訓(xùn)練集以增強(qiáng)數(shù)據(jù)。文獻(xiàn)[49]提出一種特征遷移網(wǎng)絡(luò),以記錄隨物體姿態(tài)變化導(dǎo)致的運(yùn)動(dòng)軌跡變化。文獻(xiàn)[43]提出一種編碼器,利用少量樣本合成新類別樣本并用于分類器訓(xùn)練,該模型能有效地合成新類樣本并提取同類樣本間的類內(nèi)變形。文獻(xiàn)[50]提出一個(gè)雙向網(wǎng)絡(luò)模型TriNet,基于編碼器-解碼器,結(jié)合標(biāo)簽語(yǔ)義空間和圖像特征空間,更好地提取圖像特征,對(duì)樣本的特征進(jìn)行增強(qiáng)。文獻(xiàn)[51]將提取的不同樣本的前景和背景隨機(jī)組合以增強(qiáng)樣本。文獻(xiàn)[52]從深度學(xué)習(xí)模型的表征層層面提出了一個(gè)更加適用于小樣本學(xué)習(xí)的新表征方法:判別變分表征算法。該算法通過(guò)約束表征空間的先驗(yàn)分布,使得表征分布呈現(xiàn)出良好的類無(wú)關(guān)的遷移性質(zhì)。文獻(xiàn)[53]使用仿射變換進(jìn)行圖像特征增強(qiáng),并通過(guò)擾動(dòng)輸入的數(shù)據(jù)特征分布以提高模型對(duì)分布差異的魯棒性。文獻(xiàn)[54]提出一種新穎的特征增強(qiáng)網(wǎng)絡(luò)FAN,用于小樣本無(wú)約束掌紋識(shí)別,旨在同時(shí)消除由無(wú)約束采集引起的圖像變化,并僅從少數(shù)支持樣本中增強(qiáng)其特征表示。
基于數(shù)據(jù)增強(qiáng)的小樣本學(xué)習(xí)方法,僅需通過(guò)輔助數(shù)據(jù)或者輔助信息來(lái)進(jìn)行數(shù)據(jù)擴(kuò)充或特征增強(qiáng),不需要調(diào)整模型的參數(shù),但可能會(huì)引入噪聲或特征,對(duì)學(xué)習(xí)模型的效果形成不利的影響,模型通常會(huì)比較復(fù)雜且計(jì)算量較大。此外,因?yàn)閷?shí)際樣本數(shù)目較少,現(xiàn)有的機(jī)器學(xué)習(xí)方法在實(shí)際的數(shù)據(jù)增強(qiáng)中,容易出現(xiàn)知識(shí)偏移和過(guò)擬合的問(wèn)題,所以實(shí)際的應(yīng)用效果并不是特別理想。但是數(shù)據(jù)增強(qiáng)的思想對(duì)于解決實(shí)際的樣本缺失問(wèn)題來(lái)說(shuō)具有普遍意義,因此將數(shù)據(jù)增強(qiáng)的思想融入度量學(xué)習(xí)或元學(xué)習(xí)的方法中是非常值得研究的方向[5]。
度量學(xué)習(xí)也稱相似度學(xué)習(xí),使用給定距離函數(shù)來(lái)度量?jī)蓚€(gè)數(shù)據(jù)樣本間的距離,以計(jì)算其相似度[55]?;诙攘繉W(xué)習(xí)的小樣本分類過(guò)程可分為映射和分類兩個(gè)階段?;诙攘繉W(xué)習(xí)的小樣本學(xué)習(xí)方法如圖5所示,其中:f是將支持集樣本xj映射到特征空間的嵌入模型;θf(wàn)是f對(duì)應(yīng)的參數(shù);g是將查詢集樣本xi映射到特征空間的嵌入模型;θg是g對(duì)應(yīng)的參數(shù);S(·,·)是度量支持集樣本與查詢集樣本的相似性度量模塊,可以是一個(gè)簡(jiǎn)單的距離度量,也可以是一個(gè)可學(xué)習(xí)性網(wǎng)絡(luò)。通過(guò)相似性度量模塊輸出的相似度可以用來(lái)對(duì)查詢樣本進(jìn)行分類預(yù)測(cè)。
圖5 基于度量學(xué)習(xí)的小樣本學(xué)習(xí)方法Fig.5 Few-shot learning method based on metric learning
基于度量學(xué)習(xí)的小樣本學(xué)習(xí)方法主要關(guān)注與學(xué)習(xí)模型的有判別性和可泛化特征[56]。該方法利用大量數(shù)據(jù)訓(xùn)練特征提取網(wǎng)絡(luò),然后對(duì)特征使用相似計(jì)算以獲得不同度量表示。相似性度量通常采用歐氏距離、曼哈頓距離或余弦相似度等。采用度量學(xué)習(xí)的小樣本學(xué)習(xí)方法主要有以下兩種:固定度量,如匹配網(wǎng)絡(luò)和原型網(wǎng)絡(luò);可學(xué)習(xí)度量,如關(guān)系網(wǎng)絡(luò)和圖神經(jīng)網(wǎng)絡(luò)等。
基于匹配網(wǎng)絡(luò)的方法是第一個(gè)將度量學(xué)習(xí)用于小樣本分類的工作,關(guān)鍵思想是將圖像映射到一個(gè)封裝了標(biāo)簽分布的嵌入空間,然后使用不同體系結(jié)構(gòu)將測(cè)試圖像投影到同一嵌入空間中,接著使用余弦相似度來(lái)衡量相似度,以確保測(cè)試數(shù)據(jù)點(diǎn)是否已知,實(shí)現(xiàn)分類和檢測(cè)效果。以匹配網(wǎng)絡(luò)為代表,小樣本學(xué)習(xí)算法領(lǐng)域涌現(xiàn)出一大批學(xué)習(xí)特征表示模型的算法[57-59]。文獻(xiàn)[60]基于深度神經(jīng)特征度量學(xué)習(xí)的思想,提出一種基于Attention 機(jī)制匹配網(wǎng)絡(luò),編碼支持集樣本與目標(biāo)集樣本并計(jì)算其相似度,根據(jù)測(cè)試樣本和各類的相似度來(lái)決定其分類,在小樣本數(shù)據(jù)的分類任務(wù)中具有很好的效果。文獻(xiàn)[61]提出了粗粒度原型匹配網(wǎng)絡(luò)Meta-RPN,使用基于度量學(xué)習(xí)的非線性分類器代替?zhèn)鹘y(tǒng)的線性目標(biāo)分類器,去處理查詢圖片中的錨框和新類之間的相似性,從而提高對(duì)少量新類候選框的召回率。文獻(xiàn)[62]提出一種基于網(wǎng)絡(luò)匹配的元學(xué)習(xí)方法MGIMN,它執(zhí)行實(shí)例比較,然后聚合以生成類匹配向量,實(shí)例比較的關(guān)鍵是類特定上下文和情節(jié)特定上下文中的交互匹配。
基于原型網(wǎng)絡(luò)的方法關(guān)鍵思想是尋找各類別在嵌入空間中的原型,學(xué)習(xí)一個(gè)度量函數(shù)以找到該類別的原型中心。匹配網(wǎng)絡(luò)對(duì)訓(xùn)練集和測(cè)試集用了兩個(gè)不同的嵌入函數(shù),而原型網(wǎng)絡(luò)中的訓(xùn)練集和測(cè)試集都是同一個(gè)嵌入函數(shù)。原型網(wǎng)絡(luò)利用每個(gè)樣本類別中所有樣本的平均值來(lái)代表該類,并通過(guò)余弦距離計(jì)算樣本和原型的相似度。文獻(xiàn)[56]提出一種可用于小樣本學(xué)習(xí)的原型網(wǎng)絡(luò),并通過(guò)計(jì)算樣本和原型的距離來(lái)確定所屬類別,此方法在小樣本數(shù)據(jù)取得了很好的分類效果。文獻(xiàn)[63]提出基于距離權(quán)值的原型網(wǎng)絡(luò)和子空間原型網(wǎng)絡(luò),提高了小樣本圖像分類的準(zhǔn)確率。原型網(wǎng)絡(luò)可應(yīng)用于零樣本學(xué)習(xí),但是該方法只通過(guò)一個(gè)原型來(lái)代表整個(gè)類,可能會(huì)導(dǎo)致一些有效信息的丟失,而且度量方式的選擇也非常困難。研究人員可以在已有基于原型網(wǎng)絡(luò)的小樣本學(xué)習(xí)研究的基礎(chǔ)上,在原型表示和度量選擇等領(lǐng)域進(jìn)一步深入探索[64]。文獻(xiàn)[65]提出一個(gè)基于樣本自適應(yīng)的動(dòng)態(tài)原型網(wǎng)絡(luò)DPNSA,用于小樣本惡意軟件檢測(cè)。該方法將原型定義為支持集中每個(gè)類的所有惡意軟件樣本的動(dòng)態(tài)嵌入的平均值;然后提出了一種雙樣本動(dòng)態(tài)激活函數(shù),利用雙樣本的相關(guān)性來(lái)減少樣本之間不相關(guān)的特征對(duì)度量的影響;最后使用基于度量的方法計(jì)算查詢樣本與原型之間的距離,以實(shí)現(xiàn)惡意軟件檢測(cè)。
本文基于關(guān)系網(wǎng)絡(luò)的方法來(lái)研究距離度量函數(shù)的表示,提出學(xué)習(xí)一種深度網(wǎng)絡(luò)的方式來(lái)設(shè)計(jì)相似性的度量標(biāo)準(zhǔn)。在關(guān)系網(wǎng)絡(luò)中,度量的選擇極為關(guān)鍵,可以通過(guò)學(xué)習(xí)的方式確定度量,這避免了手工選取度量的弊端。文獻(xiàn)[66]提出一種基于CNN 的關(guān)系網(wǎng)絡(luò)小樣本分類模型,代替固定度量方式的線性分類器,關(guān)系網(wǎng)絡(luò)利用神經(jīng)網(wǎng)絡(luò)模型提取樣本特征并拼接后使用關(guān)系模塊計(jì)算出相似性度量。文獻(xiàn)[67]提出一種基于注意力關(guān)系網(wǎng)絡(luò)的小樣本無(wú)線膠囊內(nèi)鏡圖像分類方法,將關(guān)系網(wǎng)絡(luò)、注意力機(jī)制和元學(xué)習(xí)訓(xùn)練策略相結(jié)合,在少量標(biāo)記樣本下對(duì)無(wú)線膠囊內(nèi)鏡圖像進(jìn)行有效分類。文獻(xiàn)[68]提出一種適用于小樣本學(xué)習(xí)的多尺度克羅內(nèi)克積關(guān)系網(wǎng)絡(luò)MsKPRN,該方法將特征圖與從克羅內(nèi)克積模塊生成的空間相關(guān)圖相結(jié)合,以捕獲比較特征之間的位置相關(guān)性,然后將它們饋送到關(guān)系網(wǎng)絡(luò)模塊,該模塊以多尺度方式捕獲組合特征之間的相似性。
基于圖神經(jīng)網(wǎng)絡(luò)的方法是一種基于深度學(xué)習(xí)的處理圖領(lǐng)域信息模型,每個(gè)樣本都設(shè)定為圖中節(jié)點(diǎn),可同時(shí)學(xué)習(xí)所有節(jié)點(diǎn)和邊的嵌入向量。文獻(xiàn)[69]提出圖神經(jīng)網(wǎng)絡(luò),對(duì)圖節(jié)點(diǎn)之間的依賴關(guān)系進(jìn)行建模。由于其較好的性能和可解釋性,已被應(yīng)用到基于度量學(xué)習(xí)的小樣本學(xué)習(xí)上。文獻(xiàn)[70]提出一種基于圖神經(jīng)網(wǎng)絡(luò)的小樣本學(xué)習(xí)模型,使用圖神經(jīng)網(wǎng)絡(luò)提取兩個(gè)節(jié)點(diǎn)間的特征差異,將小樣本學(xué)習(xí)擴(kuò)展到半監(jiān)督學(xué)習(xí)與主動(dòng)學(xué)習(xí),其提出一種基于圖卷積網(wǎng)絡(luò)小樣本短文本分類模型,在異構(gòu)圖卷積網(wǎng)絡(luò)中利用雙重注意力機(jī)制度量不同相鄰節(jié)點(diǎn)的重要性和不同節(jié)點(diǎn)類型對(duì)當(dāng)前節(jié)點(diǎn)的重要性,可有效緩解小樣本短文本分類過(guò)程中出現(xiàn)的語(yǔ)義稀疏與過(guò)擬合問(wèn)題。文獻(xiàn)[71]借鑒圖神經(jīng)網(wǎng)絡(luò)的思想,并引入了兩種懲罰項(xiàng)解決小樣本學(xué)習(xí)中梯度消失和過(guò)擬合問(wèn)題。文獻(xiàn)[72]提出一種新穎的混合GNN 模型HGNN,該模型由兩個(gè)GNN、一個(gè)實(shí)例GNN 和一個(gè)原型GNN 組成,這些GNN 充當(dāng)特征嵌入適應(yīng)模塊,用于將元學(xué)習(xí)特征嵌入快速適應(yīng)小樣本學(xué)習(xí)中的新任務(wù)。文獻(xiàn)[73]提出一種用于小樣本學(xué)習(xí)任務(wù)的新型標(biāo)簽引導(dǎo)圖學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)模型LGLNN,該模型結(jié)合標(biāo)簽信息,通過(guò)采用成對(duì)約束傳播來(lái)學(xué)習(xí)GNN 的最佳度量圖,可以通過(guò)聚合來(lái)自相鄰邊的度量信息來(lái)學(xué)習(xí)每個(gè)圖邊的度量,從而可以協(xié)同一致地對(duì)所有邊進(jìn)行度量學(xué)習(xí)。
匹配網(wǎng)絡(luò)在輸入數(shù)據(jù)不成對(duì)情況下也可獲得類似KNN 的度量識(shí)別準(zhǔn)確率。關(guān)系網(wǎng)絡(luò)在匹配網(wǎng)絡(luò)模型基礎(chǔ)上實(shí)現(xiàn)了更復(fù)雜的距離度量,實(shí)際的識(shí)別性能會(huì)比匹配網(wǎng)絡(luò)更好。原型網(wǎng)絡(luò)反映了更簡(jiǎn)單的歸納偏差,更利于數(shù)據(jù)少的情況,在存在噪聲數(shù)據(jù)的場(chǎng)景中,原型網(wǎng)絡(luò)一般會(huì)取得更好的學(xué)習(xí)性能[5]?;诙攘繉W(xué)習(xí)的小樣本學(xué)習(xí)方法簡(jiǎn)單易操作,便于計(jì)算和公式化,只需通過(guò)距離來(lái)衡量樣本間相似度,通過(guò)對(duì)比減輕樣本稀少帶來(lái)的負(fù)面影響[74]。但是模型過(guò)度依賴度量方式的選擇和特征表示的質(zhì)量,在小樣本數(shù)據(jù)情況下,只通過(guò)簡(jiǎn)單的距離衡量相似度會(huì)導(dǎo)致準(zhǔn)確率降低[75]。基于度量的小樣本學(xué)習(xí)方法借助非參數(shù)化的分類模型,降低了特征提取器的訓(xùn)練難度,更加適合小樣本分類,而且模型結(jié)構(gòu)更加靈活和高效。
在小樣本學(xué)習(xí)中,元學(xué)習(xí)從大量先驗(yàn)任務(wù)中學(xué)習(xí)元知識(shí),然后指導(dǎo)模型更好地完成小樣本任務(wù)[4]?;谠獙W(xué)習(xí)的小樣本學(xué)習(xí)方法如圖6 所示,主要思想是設(shè)計(jì)一種快速搜索到模型最優(yōu)參數(shù)的方法,加速學(xué)習(xí)模型在新的任務(wù)上的收斂速度[18]。常用的基于元學(xué)習(xí)的小樣本學(xué)習(xí)方法有模型未知元學(xué)習(xí)方式、元轉(zhuǎn)移學(xué)習(xí)和記憶神經(jīng)網(wǎng)絡(luò)元學(xué)習(xí)。
圖6 基于元學(xué)習(xí)的小樣本學(xué)習(xí)方法Fig.6 Few-shot learning method based on meta-learning
基于模型無(wú)關(guān)元學(xué)習(xí)方法的更新方式與模型之間沒(méi)有關(guān)聯(lián),只需要在更新學(xué)習(xí)器權(quán)重的時(shí)候使用梯度,并且也沒(méi)有引入更多的參數(shù)。文獻(xiàn)[76]提出一種模型無(wú)關(guān)元學(xué)習(xí)算法MAML,該方法重新定義了梯度下降算法,設(shè)計(jì)了一個(gè)與模型無(wú)關(guān)的元學(xué)習(xí)器,只需少量梯度下降次數(shù)和少量新任務(wù)樣本就能生成很好的泛化性能。文獻(xiàn)[77]提出了未知任務(wù)元學(xué)習(xí)方法TAML,在輸出預(yù)測(cè)時(shí)加入了一個(gè)正則化項(xiàng),以避免元學(xué)習(xí)模型對(duì)訓(xùn)練任務(wù)過(guò)擬合。文獻(xiàn)[78]將MAML 應(yīng)用到了文本領(lǐng)域,提出一種基于注意力機(jī)制的未知任務(wù)元學(xué)習(xí)方法。文獻(xiàn)[79]在MAML 基礎(chǔ)上,同時(shí)訓(xùn)練參數(shù)初始化、更新方向及步長(zhǎng),提高了模型性能。文獻(xiàn)[80]提高了MAML 對(duì)高維數(shù)據(jù)的適應(yīng)度,通過(guò)大量訓(xùn)練樣本訓(xùn)練特征提取器,獲得參數(shù)生成模型以提取各類參數(shù)。文獻(xiàn)[42]結(jié)合MAML 與模型回歸網(wǎng)絡(luò),使用常見(jiàn)的參數(shù)初始化方法,使模型支持小樣本的快速學(xué)習(xí)。文獻(xiàn)[81]結(jié)合MAML 與數(shù)據(jù)增強(qiáng),提出基于生成偽標(biāo)簽的MAML 模型GP-MAML,利用查詢集的統(tǒng)計(jì)數(shù)據(jù)來(lái)提高小樣本學(xué)習(xí)中新任務(wù)的性能。
基于元轉(zhuǎn)移學(xué)習(xí)的方法主要應(yīng)用在淺層卷積網(wǎng)絡(luò)模型中,可有效解決面對(duì)深度神經(jīng)網(wǎng)絡(luò)時(shí)極易導(dǎo)致過(guò)擬合及深層網(wǎng)絡(luò)性能降低的問(wèn)題。文獻(xiàn)[42]提出了元轉(zhuǎn)移學(xué)習(xí)模型MTL,該模型使用大量數(shù)據(jù)集訓(xùn)練深度神經(jīng)網(wǎng)絡(luò),將獲得的預(yù)訓(xùn)練網(wǎng)絡(luò)權(quán)重進(jìn)行縮放和平移,在不增加網(wǎng)絡(luò)神經(jīng)元數(shù)量的情況下,模型得到快速擬合并解決災(zāi)難性遺忘問(wèn)題[82]。文獻(xiàn)[83]提出一種元轉(zhuǎn)移學(xué)習(xí)方法,基于零樣本的超分辨率,找到適用于內(nèi)部學(xué)習(xí)的通用初始化參數(shù),利用梯度更新來(lái)訓(xùn)練,效果較好。文獻(xiàn)[84]通過(guò)改進(jìn)注意力網(wǎng)絡(luò)模型,提出一種注意力元轉(zhuǎn)移學(xué)習(xí)方法AttentionMTL,在小樣本虹膜識(shí)別中獲得了很高的準(zhǔn)確率。
基于記憶神經(jīng)網(wǎng)絡(luò)的方法可通過(guò)在神經(jīng)網(wǎng)絡(luò)上添加記憶網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)學(xué)習(xí)經(jīng)驗(yàn)的長(zhǎng)時(shí)間保存。早在2001 年,文獻(xiàn)[48]就證明了記憶神經(jīng)網(wǎng)絡(luò)可適用于元學(xué)習(xí)。記憶神經(jīng)網(wǎng)絡(luò)元學(xué)習(xí)包括記憶增廣神經(jīng)網(wǎng)絡(luò)、基于長(zhǎng)短時(shí)記憶模型的元學(xué)習(xí)等。其中記憶增廣神經(jīng)網(wǎng)絡(luò)的元學(xué)習(xí)方法使用基于外部記憶的加權(quán)優(yōu)化機(jī)制代替原來(lái)的隨機(jī)梯度下降優(yōu)化器,基于長(zhǎng)短時(shí)記憶模型的元學(xué)習(xí)方法使用基于長(zhǎng)短期記憶網(wǎng)絡(luò)的元學(xué)習(xí)器來(lái)代替原來(lái)的隨機(jī)梯度下降優(yōu)化器,這樣能夠使整個(gè)優(yōu)化過(guò)程兼容小樣本學(xué)習(xí)任務(wù)。文獻(xiàn)[60]基于外部記憶增強(qiáng)神經(jīng)網(wǎng)絡(luò)提出了匹配網(wǎng)絡(luò)算法,在小樣本分類任務(wù)中表現(xiàn)出色。文獻(xiàn)[85]提出一種基于長(zhǎng)短期記憶網(wǎng)絡(luò)的元學(xué)習(xí)器模型,替代了隨機(jī)梯度優(yōu)化器,以使用小樣本學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)參數(shù)。文獻(xiàn)[86]借鑒神經(jīng)圖靈機(jī)引入外部記憶模塊,提出一種具備記憶增強(qiáng)神經(jīng)網(wǎng)絡(luò)的小樣本元學(xué)習(xí)模型,能夠?qū)τ谏倭康臉颖绢悇e進(jìn)行記憶增強(qiáng),并且可以針對(duì)單個(gè)樣本進(jìn)行快速學(xué)習(xí)。
基于元學(xué)習(xí)的小樣本學(xué)習(xí)方法通過(guò)基學(xué)習(xí)器學(xué)習(xí)先驗(yàn)任務(wù),使模型具備自動(dòng)學(xué)習(xí)能力,能夠?qū)W習(xí)訓(xùn)練之外的知識(shí),在解決不同類問(wèn)題時(shí)變得靈活。元訓(xùn)練提升基類泛化能力會(huì)導(dǎo)致模型對(duì)新泛化能力變差,模型復(fù)雜度較高,需要改進(jìn)方面較多。如何設(shè)定任務(wù)通用參數(shù)和特定參數(shù),有效訓(xùn)練元學(xué)習(xí)模型等一直是該領(lǐng)域研究熱點(diǎn)。此外,不同任務(wù)的數(shù)據(jù)具有不同分布,數(shù)據(jù)分布差異較大會(huì)導(dǎo)致模型難以收斂。元學(xué)習(xí)機(jī)制缺乏可解釋性,如何從理論上解釋元學(xué)習(xí),也是今后重要的研究方向[5]。
早期的小樣本學(xué)習(xí)研究主要集中在小樣本圖像識(shí)別的任務(wù)上,以Mini-Image 和Omnigraffle 兩個(gè)數(shù)據(jù)集為代表。一些標(biāo)準(zhǔn)開(kāi)放的小樣本數(shù)據(jù)集被廣泛使 用,主要包括Omniglot、Mini-ImageNet、Tiered-ImageNet、CUB-200、CIFAR-100、Stanford Dogs 和Stanford Cars,其中:Omniglot 是單樣本學(xué)習(xí)最常用的數(shù)據(jù)集;Mini-ImageNet 是小樣本學(xué)習(xí)最常用的數(shù)據(jù)集;CIFAR-100、Stanford Dogs 和Stanford Cars 是細(xì)粒度小樣本圖像分類最常用的數(shù)據(jù)集。近年來(lái),在自然語(yǔ)言處理領(lǐng)域也開(kāi)始出現(xiàn)小樣本學(xué)習(xí)的數(shù)據(jù)集,如FewRel、ARSC 和ODIC 數(shù)據(jù)集。
1)Omniglot,火星文數(shù)據(jù)集,主要是各種字母組成的手寫(xiě)數(shù)據(jù)集,該數(shù)據(jù)集由Amazon 亞馬遜的Mechanical Turk收集。其中包含50個(gè)字母的1 623個(gè)手寫(xiě)字符,每個(gè)字符都是由20 個(gè)不同的人手寫(xiě)得到,即每類樣本含有20 個(gè)樣本。
2)Mini-ImageNet,是由google DeepMind 團(tuán) 隊(duì)從ImageNet 提取得到的,其中包含100 個(gè)類,如蘑菇、鳥(niǎo)等類別,每類含有600 個(gè)圖像。
3)Tiered-ImageNet,是ImageNet 的子集,相比Mini-ImageNet 數(shù)據(jù)集,Tiered-ImageNet 數(shù)據(jù)集中類別更多,有608 種,共16 185 張圖像,每一類約有1 281 張圖片。
4)CUB-200,是一個(gè)鳥(niǎo)類圖像數(shù)據(jù)集,由加州理工學(xué)院提出,包含200 種鳥(niǎo)類,共計(jì)11 788 張圖像,每類約60 張圖片。
5)CIFAR-100,共100 個(gè)類,每類包含600 張圖像,共20 個(gè)父類和100 個(gè)子類,每個(gè)圖像有一個(gè)父類標(biāo)簽和子類標(biāo)簽。
6)Stanford Dogs,共20 580 張圖像,包括120 類狗的樣本,一般用于細(xì)粒度圖像分類任務(wù)。
7)Stanford Cars,共16 185 張圖像,包括196 類車的樣本,一般用于細(xì)粒度圖像分類任務(wù)。
8)FewRel,小樣本關(guān)系分類數(shù)據(jù)集,共70 000 個(gè)關(guān)系樣本,包括100 個(gè)類,每類包含700 個(gè)關(guān)系樣本。
上述部分?jǐn)?shù)據(jù)集的相關(guān)信息如表3 和圖7 所示。由文獻(xiàn)[87]的實(shí)驗(yàn)結(jié)果可知,類別越多或類內(nèi)樣本越多,對(duì)小樣本圖像進(jìn)行分類越有利,這表明數(shù)據(jù)量級(jí)的大小對(duì)小樣本圖像的分類結(jié)果具有一定影響。
圖7 部分小樣本公用數(shù)據(jù)集樣本示例Fig.7 Sample examples of some few-shot public datasets
表3 部分小樣本公用數(shù)據(jù)集信息Table 3 Few-shot public dataset information
評(píng)價(jià)指標(biāo)對(duì)機(jī)器學(xué)習(xí)任務(wù)非常重要,不同的機(jī)器學(xué)習(xí)任務(wù)具有不同的評(píng)價(jià)指標(biāo)。當(dāng)前對(duì)小樣本數(shù)據(jù)的分類結(jié)果將從整體評(píng)估指標(biāo)和單類別評(píng)估指標(biāo)這兩個(gè)層次來(lái)度量。整體評(píng)估指標(biāo)可以度量整個(gè)數(shù)據(jù)集上的分類結(jié)果,而單類別評(píng)估指標(biāo)則更細(xì)致地度量每一個(gè)類別的分類結(jié)果。
3.2.1 單類別評(píng)估指標(biāo)
對(duì)于單個(gè)類別的評(píng)估和傳統(tǒng)分類任務(wù)一樣,相關(guān)指標(biāo)主要包括精確率(Precision)、召回率(Recall)和F 值(F1-score)等。
1)精確率。精確率是指用于衡量分類結(jié)果中分類正確的正樣本數(shù)和全部正樣本數(shù)的比例,用來(lái)分析正樣本被預(yù)測(cè)正確的概率大小。精確率計(jì)算公式如下:
其中:TTP代表正類被判定為正類;FFP代表負(fù)類被判定為正類。
2)召回率。召回率是指用于衡量分類過(guò)程中被正確分類的正樣本數(shù)占被正確分類的總樣本數(shù)的比例。召回率計(jì)算公式如下:
其中:FFN代表正類被判定為負(fù)類。
3)F 值。F 值是精確率和召回率的調(diào)和平均值,用于綜合評(píng)估分類結(jié)果的準(zhǔn)確性。F 值計(jì)算公式如下:
3.2.2 整體評(píng)估指標(biāo)
整體評(píng)估指標(biāo)為準(zhǔn)確率(Accuracy),如果多分類存在顯著的不平衡,則可以使用各類精度的平均與多分類版的幾何平均、曲線下平均面積等指標(biāo)。
1)準(zhǔn)確率。準(zhǔn)確率是指用于衡量分類檢測(cè)過(guò)程中被檢測(cè)模型分類準(zhǔn)確的樣本數(shù)和全部樣本數(shù)占比。準(zhǔn)確率計(jì)算公式如下:
其中:TTN代表負(fù)類被判定為負(fù)類。
2)幾何平均G-mean(GM)。幾何平均指標(biāo)評(píng)估一個(gè)學(xué)習(xí)算法的綜合性能。在數(shù)據(jù)不平衡時(shí),這個(gè)指標(biāo)具有參考價(jià)值,可以用來(lái)評(píng)定數(shù)據(jù)的不平衡度。GGM等于所有召回率的幾何平均值,計(jì)算公式如下:
3)曲線下平均面積(MAUC)。曲線下平均面積是AAUC的多類擴(kuò)展,計(jì)算公式如下:
其中:AAUC為ROC 曲線下的面積。
為了更好地對(duì)比已有面向小樣本數(shù)據(jù)的機(jī)器學(xué)習(xí)方法和常用數(shù)據(jù)集以進(jìn)行后續(xù)研究,本節(jié)整理了一些基于典型小樣本學(xué)習(xí)方法在Omniglot 和Mini-ImageNet 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果,因?yàn)镺mniglot 和Mini-ImageNet 數(shù)據(jù)集使用最多,其他數(shù)據(jù)集相對(duì)使用較少,所以選擇了5-way 1-shot 和5-way 5-shot 的結(jié)果進(jìn)行比較。具體如表4 所示。
表4 小樣本學(xué)習(xí)方法在Omniglot 和Mini-ImageNet 數(shù)據(jù)集上的準(zhǔn)確率Table 4 Accuracy of few-shot learning methods on Omniglot and Mini-ImageNet datasets
從表4 可以看出,對(duì)于任意機(jī)器學(xué)習(xí)方法,每個(gè)數(shù)據(jù)集中5-shot 都比1-shot 的準(zhǔn)確率高很多。這表明可用于訓(xùn)練的數(shù)據(jù)越多,模型學(xué)到的知識(shí)也越多,分類效果就會(huì)越好。由于Omniglot 數(shù)據(jù)集比較簡(jiǎn)單,所有模型在1-shot 的準(zhǔn)確率都在92%以上,在5-shot 的準(zhǔn)確率都在96% 以上,部分準(zhǔn)確率接近100%,可提升的空間較少。在Mini-ImageNet 數(shù)據(jù)集上,不同模型之間的提升較大,而且還有較大的提升空間。因此,后期小樣本機(jī)器學(xué)習(xí)方法大都會(huì)在Mini-ImageNet 數(shù)據(jù)集上進(jìn)行驗(yàn)證。由于本節(jié)使用不同機(jī)器方法,采用的數(shù)據(jù)預(yù)處理及網(wǎng)絡(luò)框架等設(shè)置并不相同,因此很難對(duì)比不同機(jī)器學(xué)習(xí)方法的優(yōu)勢(shì)。
小樣本學(xué)習(xí)是在人類的學(xué)習(xí)方式和人工智能之間建立聯(lián)系的橋梁,使深度學(xué)習(xí)在樣本稀有的案例上部署成為可能,未來(lái)面向小樣本數(shù)據(jù)的機(jī)器學(xué)習(xí)方法的研究會(huì)逐漸深入,并將取得良好的發(fā)展。
小樣本學(xué)習(xí)各類方法的總結(jié)和優(yōu)缺點(diǎn)如表5所示。
表5 小樣本學(xué)習(xí)方法優(yōu)缺點(diǎn)對(duì)比Table 5 Comparison of advantages and disadvantages of few-shot learning methods
基于模型微調(diào)的小樣本學(xué)習(xí)方法通過(guò)大量樣本的源數(shù)據(jù)集對(duì)模型進(jìn)行訓(xùn)練,然后在小樣本目標(biāo)數(shù)據(jù)集上進(jìn)行微調(diào),操作簡(jiǎn)單而且僅需重新調(diào)整參數(shù),但是如果目標(biāo)數(shù)據(jù)集和源數(shù)據(jù)集不相似,會(huì)引起模型過(guò)擬合。一般將模型微調(diào)方法和數(shù)據(jù)增強(qiáng)、度量學(xué)習(xí)或元學(xué)習(xí)等方法結(jié)合,以避免少量數(shù)據(jù)帶來(lái)的模型過(guò)擬合問(wèn)題?;跀?shù)據(jù)增強(qiáng)的小樣本學(xué)習(xí)方法僅需通過(guò)輔助數(shù)據(jù)或者輔助信息來(lái)進(jìn)行數(shù)據(jù)擴(kuò)充或特征增強(qiáng),不需要調(diào)整模型的參數(shù),但是可能會(huì)引入噪聲或特征,對(duì)學(xué)習(xí)模型的效果形成不好的影響,模型通常會(huì)比較復(fù)雜且計(jì)算量較大?,F(xiàn)有的機(jī)器學(xué)習(xí)方法在實(shí)際的數(shù)據(jù)增強(qiáng)中容易出現(xiàn)知識(shí)偏移和過(guò)擬合的問(wèn)題,所以實(shí)際的應(yīng)用效果并不是特別理想,一般將數(shù)據(jù)增強(qiáng)的思想融入度量學(xué)習(xí)或元學(xué)習(xí)的方法中?;诙攘繉W(xué)習(xí)的小樣本學(xué)習(xí)方法模擬樣本之間的距離分布,使用非參數(shù)估計(jì)的方法進(jìn)行分類,簡(jiǎn)單易操作,便于計(jì)算和公式化,只需通過(guò)距離來(lái)衡量樣本間相似度,通過(guò)對(duì)比減輕樣本稀少帶來(lái)的負(fù)面影響,但是模型過(guò)度依賴度量方式的選擇和特征表示的質(zhì)量,在小樣本數(shù)據(jù)情況下,只通過(guò)簡(jiǎn)單的距離衡量相似度會(huì)導(dǎo)致準(zhǔn)確率降低[76]。基于度量的小樣本學(xué)習(xí)方法借助非參數(shù)化的分類模型,降低了特征提取器的訓(xùn)練難度,更加適合小樣本分類,而且模型結(jié)構(gòu)更加靈活和高效?;谠獙W(xué)習(xí)的小樣本學(xué)習(xí)方法通過(guò)基學(xué)習(xí)器學(xué)習(xí)先驗(yàn)任務(wù),通過(guò)輔助元學(xué)習(xí)器學(xué)習(xí)策略,加速學(xué)習(xí)模型在新任務(wù)上的收斂速度,使模型具備自動(dòng)學(xué)習(xí)能力,能學(xué)習(xí)訓(xùn)練之外的知識(shí),在解決不同類問(wèn)題時(shí)變得靈活。元訓(xùn)練提升基類泛化能力會(huì)導(dǎo)致模型對(duì)新泛化能力變差,模型復(fù)雜度較高,需要改進(jìn)的方面較多。不同任務(wù)的數(shù)據(jù)具有不同數(shù)據(jù)分布,數(shù)據(jù)分布差異較大會(huì)導(dǎo)致模型難以收斂,且元學(xué)習(xí)機(jī)制缺乏可解釋性。
傳統(tǒng)深度學(xué)習(xí)模型在訓(xùn)練數(shù)據(jù)不足以及訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)不是同分布的情況下性能存在明顯下降,小樣本學(xué)習(xí)要解決的問(wèn)題是如何提升深度學(xué)習(xí)模型的泛化能力,以實(shí)現(xiàn)真正的強(qiáng)人工智能。通過(guò)對(duì)當(dāng)前小樣本學(xué)習(xí)研究進(jìn)展的梳理,下文從數(shù)據(jù)層面、理論研究和應(yīng)用研究3 個(gè)方面對(duì)小樣學(xué)習(xí)的未來(lái)發(fā)展進(jìn)行展望。
1)小樣本學(xué)習(xí)的數(shù)據(jù)層面:(1)現(xiàn)有的面向小樣本數(shù)據(jù)的機(jī)器學(xué)習(xí)模型都需要在大量數(shù)據(jù)集上預(yù)訓(xùn)練,除了在小樣本圖像分類任務(wù)中有被廣泛應(yīng)用的標(biāo)準(zhǔn)數(shù)據(jù)集外,其他很多領(lǐng)域都缺少可用的預(yù)訓(xùn)練數(shù)據(jù)集,如何構(gòu)建能被多種任務(wù)廣泛使用的具備細(xì)粒度標(biāo)記的小樣本學(xué)習(xí)數(shù)據(jù)集,并選擇合適的數(shù)據(jù)標(biāo)記方法是一個(gè)非常有必要的研究方向;(2)在許多應(yīng)用場(chǎng)景中,有標(biāo)簽樣本量很少,但是大量的無(wú)標(biāo)簽數(shù)據(jù)擁有非常豐富的信息,如何更好地使用無(wú)標(biāo)注數(shù)據(jù)信息訓(xùn)練模型值得深入研究。為了使小樣本學(xué)習(xí)更接近真實(shí)場(chǎng)景,需要進(jìn)一步研究和尋找不依賴模型預(yù)訓(xùn)練和先驗(yàn)知識(shí)就能獲得較好效果的機(jī)器學(xué)習(xí)方法。
2)小樣本學(xué)習(xí)的理論研究:(1)針對(duì)基于度量學(xué)習(xí)的小樣本學(xué)習(xí)方法,以距離函數(shù)度量的方法相對(duì)成熟,通過(guò)神經(jīng)網(wǎng)絡(luò)計(jì)算樣本間相似性將成為主流的度量方法,如何設(shè)計(jì)更優(yōu)秀的神經(jīng)網(wǎng)絡(luò)度量方法是未來(lái)研究趨勢(shì);(2)針對(duì)基于數(shù)據(jù)增強(qiáng)的小樣本學(xué)習(xí)方法,如何設(shè)計(jì)更好的生成方法,更好地利用無(wú)標(biāo)注數(shù)據(jù)或輔助特征是未來(lái)研究的方向;(3)針對(duì)基于元學(xué)習(xí)的小樣本學(xué)習(xí)方法,因?yàn)樵獙W(xué)習(xí)無(wú)法從小樣本中獲得足夠可理解的信息,使其學(xué)習(xí)不具備可解釋性,后續(xù)可以從元學(xué)習(xí)注意力機(jī)制和元學(xué)習(xí)因果推斷機(jī)制[75]方面進(jìn)一步研究,如何設(shè)計(jì)更合理的元學(xué)習(xí)機(jī)制,使用先驗(yàn)知識(shí)把部分不可解釋問(wèn)題轉(zhuǎn)化為可解釋問(wèn)題,并證明其合理性是重要的研究方向[88];(4)已有的小樣本學(xué)習(xí)方法大多運(yùn)用單一的數(shù)據(jù)增強(qiáng)或者轉(zhuǎn)移學(xué)習(xí)技術(shù),未來(lái)可以嘗試不同小樣本學(xué)習(xí)方法的融合,從數(shù)據(jù)和模型兩個(gè)層面共同改進(jìn),也可以嘗試將主動(dòng)學(xué)習(xí)和強(qiáng)化學(xué)習(xí)等先進(jìn)框架應(yīng)用到小樣本學(xué)習(xí)上。
3)小樣本學(xué)習(xí)的應(yīng)用研究:現(xiàn)有的小樣本學(xué)習(xí)研究主要集中在圖像分類和視覺(jué)任務(wù)等領(lǐng)域,但在工業(yè)界仍然存在大量的實(shí)際問(wèn)題也迫切需要通過(guò)小樣本學(xué)習(xí)來(lái)進(jìn)一步解決,雖然可能有少量應(yīng)用,但是效果還不太理想。典型的例子包括商品分類、新藥研發(fā)、罕見(jiàn)疾病診斷、實(shí)時(shí)環(huán)境感知、機(jī)器與人類的交互等場(chǎng)景。在這些場(chǎng)景中,訓(xùn)練樣本往往難以獲取,或是需要模型即時(shí)做出響應(yīng),而小樣本學(xué)習(xí)恰好可以提升深度學(xué)習(xí)模型對(duì)樣本數(shù)據(jù)的利用效率,這些都是未來(lái)小樣本學(xué)習(xí)的重要應(yīng)用場(chǎng)景和應(yīng)用研究方向。
擁有從少量樣本數(shù)據(jù)中學(xué)習(xí)和概括的能力是將人工智能和人類智能進(jìn)行區(qū)分的分界點(diǎn),小樣本學(xué)習(xí)在機(jī)器學(xué)習(xí)領(lǐng)域具有重要意義和挑戰(zhàn)性。本文分別闡述了基于模型微調(diào)、數(shù)據(jù)增強(qiáng)、度量學(xué)習(xí)和元學(xué)習(xí)這4 大類小樣本學(xué)習(xí)方法的最新研究進(jìn)展,整理和分析了常用方法在兩種公開(kāi)數(shù)據(jù)集中的表現(xiàn),并對(duì)各種方法及其優(yōu)缺點(diǎn)進(jìn)行了總結(jié)。在此基礎(chǔ)上,對(duì)面向小樣本數(shù)據(jù)的機(jī)器學(xué)習(xí)方法的未來(lái)研究方向進(jìn)行了展望,未來(lái)可從數(shù)據(jù)層面構(gòu)建能被多種任務(wù)廣泛使用的小樣本學(xué)習(xí)數(shù)據(jù)集,從理論層面嘗試融合不同小樣本學(xué)習(xí)方法,從應(yīng)用層面提升深度學(xué)習(xí)模型對(duì)樣本數(shù)據(jù)的利用效率,以適應(yīng)各種實(shí)際應(yīng)用場(chǎng)景。