摘" 要:深度學習在圖像識別任務中的表現(xiàn)依賴于數(shù)據(jù)集的大小,當樣本稀缺時,模型難以獲得優(yōu)異的成績。針對如何在少量數(shù)據(jù)的條件下訓練出表現(xiàn)優(yōu)越的識別模型這一問題,受生成對抗網(wǎng)絡的啟發(fā),文章提出了一種基于多域數(shù)據(jù)擴充的小樣本識別模型。該模型通過已有數(shù)據(jù)集訓練生成模型,生成用于擴充數(shù)據(jù)集的偽樣本。再利用這些擴充樣本與真實樣本協(xié)同訓練小樣本識別模型。實驗結(jié)果表明,所提方法在識別準確率與模型訓練的穩(wěn)定性上有一定的提升。
關(guān)鍵詞:小樣本學習;多域;數(shù)據(jù)擴充;生成對抗網(wǎng)絡
中圖分類號:TP391.4;TP181" 文獻標識碼:A" 文章編號:2096-4706(2025)03-0061-07
Few-Shot Learning Method Based on Multi-Domain Data Expansion
CHEN Qi, XU Changwen, DONG Feifei, LI Zheng
(Jiangxi Earthquake Agency, Nanchang" 330026, China)
Abstract: The performance of Deep Learning in image recognition tasks depends on the size of the dataset. When the samples are scarce, the model is difficult to achieve excellent results. Aiming at the problem of how to train a superior recognition model under the condition of a small amount of data, inspired by the Generative Adversarial Networks, this paper proposes a Few-Shot Learning model based on multi-domain data expansion. The model generates a model through the training of existing datasets, and generates pseudo-samples for expanding the datasets. Then these expanded samples and real samples are used to train the small sample recognition model coordinately. The experimental results show that the proposed method has a certain improvement in recognition accuracy and stability of model training.
Keywords: Few-Shot Learning; multi-domain; data expansion; Generative Adversarial Networks
0" 引" 言
隨著計算機技術(shù)的發(fā)展與軟硬件設備的更新,深度學習在圖像[1]領域取得了不俗的成績,特別是在圖像識別領域,現(xiàn)階段流行的識別模型已經(jīng)超越了人類的水平。但基于深度學習的識別模型的性能很大程度上依賴于數(shù)據(jù)集的質(zhì)量。數(shù)據(jù)量大、種類多、標簽精細能夠給模型訓練帶來更大的優(yōu)勢,使識別模型的識別準確率更高、泛化性能更好。然而,在現(xiàn)實生活中,并非所有領域都可以構(gòu)建包含大量樣本的數(shù)據(jù)集,許多領域存在數(shù)據(jù)瓶頸的問題。如醫(yī)療領域,由于隱私保護和病例的稀有性,該領域的數(shù)據(jù)處于相對封閉的狀態(tài);再如自然災害中的地震數(shù)據(jù),由于現(xiàn)代科學的地震監(jiān)測時間較短、震級較大的地震發(fā)生頻率低等原因,數(shù)據(jù)樣本的獲取難度較大;又或是地方方言等非結(jié)構(gòu)化數(shù)據(jù),構(gòu)造數(shù)據(jù)集費時費力,構(gòu)建該類領域的大型數(shù)據(jù)集也存在一定的難度。在數(shù)據(jù)樣本不足的情況下,采用深度學習方法訓練識別模型時,模型的性能可能會受到影響,導致模型識別準確率較低。
現(xiàn)階段,有不少研究學者致力于研究使用少量數(shù)據(jù)樣本訓練模型,并且使模型具有較好的性能。這類研究可以統(tǒng)稱為小樣本學習[2]。目前主流的小樣本學習方法可以大致劃分為四種不同的類型。第一類是基于度量學習[3]的方式,度量學習是一種學習樣本之間近似程度的方法,通常是將樣本映射到度量空間并設置適合任務的度量距離函數(shù);第二類是基于數(shù)據(jù)增強[4]的方式,主要是通過生成數(shù)據(jù)樣本來彌補因數(shù)據(jù)樣本不足導致的識別準確率低的問題;第三類是基于元學習[5]的方式,這類方法主張跨任務學習,其核心思想是通過多種不同的任務訓練學習者的學習能力,以便適應未知的新任務;第四類是基于遷移學習的方式,通常是將與分類任務相關(guān)的先驗知識應用于目標任務中,協(xié)助模型訓練。
本文所提的小樣本學習方法是一種基于數(shù)據(jù)增強的方法,通過生成對抗網(wǎng)絡[6](Generative Adversarial Networks, GAN)生成與任務相關(guān)的數(shù)據(jù),協(xié)同真實數(shù)據(jù)樣本訓練模型,以提高模型的性能。目前較為流行的基于數(shù)據(jù)增強的小樣本識別方法,如Chen[4]等人的文獻中,通過將現(xiàn)有數(shù)據(jù)集進行形變,如重影、遮擋等方式,產(chǎn)生額外的數(shù)據(jù)樣本并增加樣本的多樣性,從而提高模型的識別能力;Li等人[7]的研究中通過生成對抗網(wǎng)絡增加數(shù)據(jù)樣本的數(shù)量,以緩解小樣本學習過程中因數(shù)據(jù)樣本不足而性能不佳的問題;Wang等人[8]的工作中通過構(gòu)造幻覺者生成與任務相關(guān)的幻覺樣本,增加訓練識別模型的數(shù)據(jù)量。大多數(shù)基于增加數(shù)據(jù)樣本的小樣本學習方法在生成數(shù)據(jù)的過程中,通常是針對特定的任務訓練生成器生成數(shù)據(jù),關(guān)注的是單一風格的數(shù)據(jù)生成。這類生成方法生成的數(shù)據(jù)樣本風格單一,多樣性較差,難以一次性生成多種類別的數(shù)據(jù),甚至會發(fā)生模式坍塌的現(xiàn)象。如果在測試階段直接應用于未知類別的樣本中,可能會生成分辨率低、類別不清晰的樣本,導致小樣本模型訓練效果不佳。受上述問題的啟發(fā),本文提出一種基于多域數(shù)據(jù)[9]生成的小樣本識別模型,通過多域生成模型,緩解單一生成模型生成樣本缺乏多樣性、面對不同任務時生成樣本質(zhì)量差的問題。所提方法的基本思想是嵌入多域生成對抗網(wǎng)絡,增加數(shù)據(jù)樣本的數(shù)量和提高樣本的多樣性,進而提高模型的識別準確率。區(qū)別于其他的利用生成模型生成數(shù)據(jù)樣本的方法,本文所提的方法可以一次訓練生成多種類別的樣本,生成模型的數(shù)據(jù)樣本覆蓋面更廣。本文的主要貢獻可歸納為以下幾點:
1)本文針對數(shù)據(jù)樣本不足而導致識別模型性能較差的問題,提出一種基于數(shù)據(jù)增強的小樣本模型。該模型通過生成多域的數(shù)據(jù)樣本,增加訓練數(shù)據(jù)集的數(shù)量和提高數(shù)據(jù)集的多樣性,幫助小樣本識別模型更好地提取樣本特征,從而提高小樣本的識別準確率。
2)不同于其他基于數(shù)據(jù)增強的小樣本識別方法,本文的生成模型并非只關(guān)注當前的識別任務或單一類別的數(shù)據(jù)集,而是一種能夠生成多種不同類別數(shù)據(jù)的模型。此外,為了避免因生成效果不佳而導致模型訓練困難的現(xiàn)象,本文在模型訓練的過程中添加了譜歸一化和模式坍塌損失,使生成模型盡可能生成逼真的數(shù)據(jù)樣本。
3)所提方法的有效性在小樣本學習常見的任務:5-class5-shot、5-class10-shot和5-class20-shot中得到了驗證。本文分別在五種不同類型的小樣本數(shù)據(jù)集上進行實驗,實驗結(jié)果表明,本文所提的方法在小樣本識別任務的準確率上有一定程度的提高,說明增加多域的數(shù)據(jù)樣本能讓模型更快更好地適應新任務,提高模型訓練的穩(wěn)定性。
1" 相關(guān)工作
1.1" 小樣本學習
在機器學習領域,數(shù)據(jù)集在模型訓練、驗證和測試階段起著至關(guān)重要的作用,是該領域發(fā)展不可或缺的部分。但并非每個領域的數(shù)據(jù)都能輕易獲取,有些數(shù)據(jù)需要耗費大量人力物力進行細致的預處理,有些領域的數(shù)據(jù)樣本因隱私保護、出現(xiàn)頻率低等原因難以獲得,這些都導致難以構(gòu)造該領域的大型數(shù)據(jù)集,進而使得涉及該領域的任務因缺乏數(shù)據(jù)而影響模型訓練的性能。
小樣本學習(Few-shot Learning, FSL)是一種在數(shù)據(jù)樣本較少的情況下,訓練模型并使模型能夠有效完成目標任務的方法,常用于計算機視覺領域。FSL不同于傳統(tǒng)的分類模型,傳統(tǒng)的分類模型是通過數(shù)據(jù)集訓練模型,數(shù)據(jù)集中僅包含與目標任務相關(guān)的某兩類或幾類的數(shù)據(jù)集合。為了確保模型的泛化能力,避免發(fā)生過擬合,傳統(tǒng)分類模型的數(shù)據(jù)集中需要包含大量的數(shù)據(jù)樣本。與深度學習模型不同,人類可以僅從少量樣本中建立對未知事物的認知,F(xiàn)SL正是模仿這種人類認知的模型,是人工智能向人類智能發(fā)展的研究方向。FSL通過利用多種不同類別的數(shù)據(jù)集并在多個不同類型的分類任務中訓練模型,使識別模型具備從少量樣本中學習和概括的能力。當模型遇到未知任務和新數(shù)據(jù)樣本時,僅需少量樣本就能進行準確判斷,從而降低識別模型的訓練成本。
1.2" 數(shù)據(jù)擴充與生成對抗網(wǎng)絡
在少樣本學習中,因數(shù)據(jù)樣本不足而導致模型訓練效果不佳是最主要的問題。不少學者將數(shù)據(jù)合成技術(shù)應用于小樣本學習中,通過擴充數(shù)據(jù)數(shù)量來克服數(shù)據(jù)不足的問題。數(shù)據(jù)合成是一種學習現(xiàn)有數(shù)據(jù)間的分布,生成與原始數(shù)據(jù)風格類似的逼真數(shù)據(jù)。將擴充數(shù)據(jù)用于模型訓練的核心目標是通過增加數(shù)據(jù)樣本數(shù)量與多樣性,幫助模型訓練,提高模型的性能與泛化能力。數(shù)據(jù)合成方法廣泛運用與圖像分類、風格遷移等任務中,在圖像數(shù)據(jù)合成領域,生成對抗網(wǎng)絡[6]是較為流行的方法。GAN是一種端到端的圖像生成模型,通常由兩個模塊組成:生成器和判別器,生成器主要根據(jù)目標任務生成數(shù)據(jù)樣本,判別器主要判斷輸入樣本是真實樣本還是生成的偽樣本,并將結(jié)果反饋給生成器,生成器需要根據(jù)反饋結(jié)果調(diào)整模型參數(shù),進而改進生成樣本的質(zhì)量。生成器的目標是盡可能生成逼真的數(shù)據(jù)樣本欺騙判別器,而判別器的目標是盡可能準確地區(qū)分真實樣本與虛假樣本。生成器與判別器在這種對抗、交替迭代的訓練過程中逐漸提升自己的性能。
1.3" 元學習
元學習是小樣本學習中常用的方法之一,它是一種學會學習的方法。元學習在訓練過程中關(guān)注的不是學習的結(jié)果,而是學習的過程,目的是訓練一個能夠快速學習的模型。元學習模型的訓練過程通??梢愿爬閮蓚€階段:一是設置多個任務來訓練模型,使模型在訓練過程中獲得經(jīng)驗,提高完成任務的能力;二是將訓練好的模型應用于未知任務中,以增強模型的泛化能力,使其更好地適應新任務。如Finn等人[10]的工作中設置了兩種不同的學習者——基礎學習者和元學習者。基礎學習者需要完成多種不同類型的任務,并在完成任務后將參數(shù)反饋給元學習者;元學習者則需要根據(jù)基礎學習者的經(jīng)驗進行歸納總結(jié),并應用于未知的新任務上。該方法的核心思想是通過基礎學習器的學習經(jīng)驗來獲得一個好的初始化權(quán)重,使元學習者能夠在良好的初始化基礎上快速收斂。元學習方法能夠有效地緩解因數(shù)據(jù)不足導致的模型訓練性能不佳的問題,提高模型的泛化能力和快速適應能力。
2" 本文所提模型
本節(jié)主要介紹所提方法,即一種基于多域數(shù)據(jù)擴充的小樣本學習方法。該方法的核心思想是通過多域生成模型擴充樣本數(shù)量、提高數(shù)據(jù)樣本的多樣性,從而提升模型在小樣本識別任務中的識別準確率和泛化能力。
2.1" 多域圖像生成
生成對抗網(wǎng)絡是近來廣泛運用于圖像生成任務的一種模型,在圖像合成任務中取得了令人印象深刻的成績。多域圖像生成的問題可以描述為:給定風格域的圖像數(shù)據(jù),通過風格遷移模型生成其他多種風格域的數(shù)據(jù)圖像。在本文中,我們主要關(guān)注一個大類的數(shù)據(jù),如多種不同種類的狗、鳥等數(shù)據(jù)集。為了使模型能夠生成多域的數(shù)據(jù)樣本,我們給相應的數(shù)據(jù)集添加了唯一的域類別標簽,通過標簽確定圖像類別。具體來說,在訓練過程中,我們設置獨熱向量作為風格域標簽,向量大小與訓練數(shù)據(jù)集中包含的類別數(shù)量一致。針對具體的類別,每個類別由唯一的獨熱向量表示。例如,如果數(shù)據(jù)集中一共包含4個不同類別的數(shù)據(jù),則每個類別對應的獨熱向量為{1000}、{0100}、{0010}、{0001},獨熱向量的大小隨著數(shù)據(jù)集中包含的類別數(shù)量增減。本文涉及的獨熱向量為人工設置標簽,生成模型需要學習輸入類別域到輸出類別域的映射。在模型訓練過程中,源風格域數(shù)據(jù)和目標風格域的標簽作為模型輸入,通過模型訓練后生成屬于目標風格的數(shù)據(jù)樣本。
2.2" 多域生成對抗網(wǎng)絡
為了有效解決多類圖像生成問題,本文以多域圖像生成模型星狀生成對抗網(wǎng)絡[9](Star Generative Adversarial Networks, StarGAN)為基準模型。StarGAN模型一共包含兩個模塊:生成器與判別器。與單類別GAN模型類似,StarGAN模型的生成器的目標是生成盡可能逼真的數(shù)據(jù)樣本,而判別器的目標則是盡可能準確地判別輸入樣本的真?zhèn)?。StarGAN模型訓練過程示意圖如圖1所示,從圖中可以看出,生成器根據(jù)輸入圖像數(shù)據(jù)與目標域類別標簽,生成屬于目標類別的偽圖像數(shù)據(jù)。此外,為了提高生成樣本的質(zhì)量,使模型能夠生成更加逼真的圖像數(shù)據(jù),生成器還需要通過輸入偽圖像數(shù)據(jù)和域類別標簽來生成重構(gòu)源域圖像。判別器除了需要判斷輸入圖像的真?zhèn)沃?,還需要判別圖像所屬的類別,并輸出與判斷類別對應的域類別標簽。
StarGAN的對抗損失函數(shù)與常見的損失函數(shù)類似,目的是使判別器與生成器相互對抗,在博弈中提升各自的性能,要求生成器生成盡可能逼真的樣本,判別器盡可能多地判別出輸入圖像的真?zhèn)?。如式?)所示:
(1)
StarGAN還包含域分類損失和重構(gòu)損失。域分類損失由兩部分組成,分別為針對真實樣本的域分類損失和針對生成偽樣本的域分類損失。在訓練過程中,要求判別器盡可能多地判斷出圖片所屬的類別。域分類損失協(xié)助模型實現(xiàn)多域數(shù)據(jù)樣本生成,生成更加貼合目標域的圖像。如式(2)所示:
(2)
為了實現(xiàn)多域之間的相互轉(zhuǎn)換,StarGAN設置了重構(gòu)損失,即在模型訓練的過程中,生成器要實現(xiàn)源域與目標域圖像的相互轉(zhuǎn)換,通過生成的偽目標域圖像和源類別標簽生成的偽重構(gòu)源域圖像,該損失函數(shù)的目的是使二者之間的差異盡可能小,損失函數(shù),如式(3)所示:
(3)
其中,G表示生成器,D表示判別器,x表示真實的源域類別圖像,c表示目標域類別標簽,表示源域類別標簽,表示根據(jù)目標域標簽生成的偽圖像,表示重構(gòu)圖像。
2.3" 基于多域數(shù)據(jù)擴充的小樣本學習
鑒于小樣本學習任務中缺乏足夠的數(shù)據(jù)樣本,導致識別性能不佳的問題,本文通過設計一種嵌入多域數(shù)據(jù)生成的小樣本學習方法,來增加模型訓練的數(shù)據(jù)樣本,從而提升小樣本學習模型的識別性能。具體地,本文以Meta-Transfer Learning(MTL)為基準模型,將多域生成對抗網(wǎng)絡模型嵌入至元學習框架中。如圖2所示,所提出的小樣本學習方法包含四個階段:數(shù)據(jù)擴充階段、深度神經(jīng)網(wǎng)絡[11](Deep Neural Networks,DNN)訓練階段、元學習階段和元測試階段。
具體介紹如下:
1)數(shù)據(jù)擴充階段。該階段主要是利用多域生成對抗網(wǎng)絡擴充訓練集的數(shù)據(jù)量,以提高訓練模型的性能。在訓練過程中,以訓練集作為輸入,生成多個類別的數(shù)據(jù)樣本,并將生成的偽樣本與真實樣本組合,形成擴充后的訓練集。
2)DNN訓練階段。該階段與傳統(tǒng)的DNN模型訓練一致,為多分類識別模型。該階段僅考慮擴充后的訓練集數(shù)據(jù),在模型訓練完畢后,固定模型的卷積層參數(shù)用于下一階段的學習。
3)元學習階段。該階段的目標是訓練一個優(yōu)秀的元學習者,使其能夠快速適應未知任務并取得優(yōu)異成績。元學習階段可以簡單概括為兩步:第一步是基礎學習,即訓練基礎學習者,每個任務都對應一個基礎學習者;第二步是元學習,即訓練元學習者,根據(jù)基礎學習者所學知識優(yōu)化元學習者的參數(shù)。
4)元測試階段。該階段主要用于驗證元學習者的性能,在未知任務上進行小樣本識別任務測試,并通過測試結(jié)果評估元學習者的性能。
根據(jù)上述描述,本文所提模型的主要流程可以表述如下:首先,通過多域生成對抗網(wǎng)絡擴充數(shù)據(jù)樣本數(shù)量,用于下一階段模型訓練;其次,利用擴充后的數(shù)據(jù)集訓練DNN模型,并在訓練完成后固定卷積層參數(shù);然后,訓練元學習者,使元學習者在小樣本任務中不斷學習并累積經(jīng)驗,以更好地適應未知任務;最后,測試元學習者,通過未知任務檢驗其性能。
3" 實驗及結(jié)果分析
在本節(jié)中,設計了一系列實驗以驗證所提模型的有效性。為了方便描述,將所提模型簡稱為DE-MTL(Data-Expansion for Meta-Transfer Learning)。
3.1" 實驗設置
本文實驗中,包含五種不同類別的數(shù)據(jù)集:StanfordDog、StanfordCar、CUB200_2011、FC100和mini-ImageNet。StanfordDog數(shù)據(jù)集包含了來自世界各地的120種不同類別的狗的圖片;StanfordCar包含了196種不同類別汽車的圖像(本文實驗中僅采用150類);CUB200_2011數(shù)據(jù)集包含了來自世界各地的200種不同類別的鳥的圖片;FC100包含了100種不同類別事物的數(shù)據(jù)集;Mini-ImageNet數(shù)據(jù)集包含了100種不同類別的事物,如氣球、圍巾、狗等大類。在所有實驗中,均使用60%的類別數(shù)據(jù)作為訓練集、20%的類別數(shù)據(jù)作為驗證集、20%的類別數(shù)據(jù)作為測試集。
本文數(shù)據(jù)擴充的生成器主要為殘差網(wǎng)絡,判別器為卷積模塊,并額外添加了譜歸一化用于模型訓練。元學習階段的模型主要以ResNet-12為主,連接全連接層用于類別輸出。本文涉及的對比模型包括基準模型MTL及基于數(shù)據(jù)增強的IDeME-Net[4](Image Deformation Meta-Networks)、SGM[12](Squared Gradient Magnitude)和PMN[8](Prototype Matching Networks)的小樣本識別模型。在元學習、測試階段,采用小樣本識別任務的通用形式(x-class,y-shot)的形式,在實際訓練、測試中,本文涉及的小樣本識別任務包括(5class,5shot、10shot、20shot),即任務中包含5類數(shù)據(jù),且每類包含5個樣本、10個樣本或20個樣本。具體地,針對每一個可復現(xiàn)模型,均在同樣環(huán)境下進行實驗,所有模型在對比實驗中選取的迭代次數(shù)、超參數(shù)均保持一致。所提模型的訓練過程如圖2所示,首先訓練生成模型按一定比例擴充數(shù)據(jù)集;其次將擴充數(shù)據(jù)集按比例劃分為訓練集、驗證集和測試集,在訓練集上訓練DNN模型,固定DNN模型的卷積參數(shù),為后續(xù)元學習提供先驗知識;再訓練元學習者并在驗證集上進行微調(diào);最后在測試集上對元學習者進行測試,小樣本識別任務中的測試結(jié)果為最終展示結(jié)果。基準模型的訓練過程與本文所提模型一致,但其采用的數(shù)據(jù)集為原始數(shù)據(jù)集,無數(shù)據(jù)擴充階段。
3.2" 與基準模型對比
本節(jié)實驗主要對比基準模型,在StanfordDog、StanfordCar、CUB200_2011和FC100四種數(shù)據(jù)集上分別設置了5class5shot、10shot、20shot的小樣本識別任務,以驗證所提模型的有效性。實驗結(jié)果如表1所示。從表1可以看出,與基準模型MTL相比,所提模型在識別準確率上均有一定的提升,且在5class5shot任務中性能提升更為顯著。這表明在識別樣本較少時,擴充數(shù)據(jù)能更好地協(xié)助模型訓練。為了進一步驗證本文模型在識別準確率和訓練穩(wěn)定性上的改善,我們統(tǒng)計了部分實驗中識別準確率迭代與訓練損失迭代的數(shù)據(jù)。具體來說,在StanfordDog數(shù)據(jù)集上選取了5class20shot的實驗結(jié)果;在StanfordCar數(shù)據(jù)集上選取了5class20shot的實驗結(jié)果;在CUB200_2011數(shù)據(jù)集上選取了5class10shot的實驗結(jié)果;在FC100數(shù)據(jù)集上選取了5class5shot的實驗結(jié)果,實驗結(jié)果如圖3所示。從圖中可以看出,與MTL模型相比,在訓練后期,本文所提模型收斂過程更加平穩(wěn),識別準確率也有一定的提升。
此外,所提方法在數(shù)據(jù)擴充階段采用了譜歸一化策略。為了驗證該策略對性能的影響,我們設計了一系列對比實驗。實驗結(jié)果中,DE-MTL-表示在數(shù)據(jù)擴充階段未采用譜歸一化,具體結(jié)果如表1和圖3所示。從表1中可以看出,大多數(shù)添加了譜歸一化策略的模型在識別準確率上有一定提升,這說明添加譜歸一化能夠一定程度提高生成樣本的質(zhì)量,進而提升模型的識別準確率,但不同數(shù)據(jù)集上的提升效果略有差異。從圖3中也可以看出,添加譜歸一化后,模型訓練的穩(wěn)定性也有所改善。結(jié)果表明,通過添加模型訓練技巧,可以一定程度提升生成模型的生成質(zhì)量和訓練的穩(wěn)定性,進而一定程度提高小樣本識別準確率。
3.3" 消融實驗
為了使本文所提的生成模型更適應小樣本識別任務,我們在StanfordDog、CUB200_2011、Stanford-Car數(shù)據(jù)集上設計了一系列關(guān)于數(shù)據(jù)生成量級的消融實驗,并將性能最好的模型運用于后續(xù)的元學習階段中。在數(shù)據(jù)生成階段,我們分別設計了擴充原數(shù)據(jù)集5%、15%、30%和45%四種不同量級的數(shù)據(jù),并在5class10shot的識別任務中與基準模型進行對比?;鶞誓P驮谠紨?shù)據(jù)集上進行訓練,實驗結(jié)果如表2所示。實驗結(jié)果表明,在三種不同的數(shù)據(jù)集上,30%的數(shù)據(jù)擴充量均達到了最好的性能,且在大多數(shù)擴充數(shù)據(jù)樣本的場景下,模型識別準確率有不同程度的提升。然而,在StanfordDog和CUB200_2011數(shù)據(jù)集中,45%的數(shù)據(jù)擴充量反而使模型識別準確率小幅降低,這可能是因為生成的偽樣本過多而導致數(shù)據(jù)失真,進而影響了識別模型的性能。這也進一步說明,數(shù)據(jù)擴充并非越多越好,在增加數(shù)據(jù)集多樣性的前提下,還需要避免因偽數(shù)據(jù)過多而導致數(shù)據(jù)集過于失真的現(xiàn)象。
3.4" 與其他主流模型對比
本小節(jié)將本文模型與現(xiàn)階段較為流行的基于數(shù)據(jù)增強和數(shù)據(jù)擴充的小樣本識別模型進行對比,以進一步證明所提模型的有效性。實驗均在mini-ImageNet數(shù)據(jù)集上進行,驗證了模型在5class5shot、10shot和20shot三種不同小樣本識別任務下的性能。實驗結(jié)果如表3所示,在涉及的實驗中,本文所提方法均有優(yōu)秀表現(xiàn)。特別是在5class5shot的實驗中,本文方法相比第二好的模型性能提升最為明顯。在本節(jié)實驗中,對于可復現(xiàn)模型,采用本地復現(xiàn)結(jié)果;對于不可復現(xiàn)模型,則采用其研究中展示的最好結(jié)果。
4" 結(jié)" 論
本文提出了一種基于多域數(shù)據(jù)擴充的小樣本學習方法,該方法在模型訓練過程中增加數(shù)據(jù)樣本的數(shù)量,從而緩解了小樣本學習任務中因樣本不足導致的性能不佳問題。傳統(tǒng)的生成對抗網(wǎng)絡一次訓練只能實現(xiàn)兩個類別的數(shù)據(jù)相互轉(zhuǎn)換,而要實現(xiàn)多類別數(shù)據(jù)相互轉(zhuǎn)換則需訓練多個生成模型。相比之下,本文所提方法僅需訓練一個生成模型,即可同時生成多個類別的數(shù)據(jù),有效縮短了擴充數(shù)據(jù)樣本的時間。此外,本文設計了一系列實驗以驗證所提模型的有效性。實驗結(jié)果表明:與基準模型MTL相比,在擴充數(shù)據(jù)后,所提方法在識別準確率上有一定提升;與其他主流的小樣本識別模型相比,所提方法在大多數(shù)任務中均表現(xiàn)出色。綜上所述,本文所提方法能夠有效提升小樣本識別任務的性能。
參考文獻:
[1] 張曰花,王紅,馬廣明.基于深度學習的圖像識別研究 [J].現(xiàn)代信息科技,2019,3(11):111-112+114.
[2] 晏明昊,強夢燁,陸琴心.基于ALDR注意力的少樣本學習模型 [J].現(xiàn)代信息科技,2022,6(22):81-85.
[3] 沈媛媛,嚴嚴,王菡子.有監(jiān)督的距離度量學習算法研究進展 [J].自動化學報,2014,40(12):2673-2686.
[4] CHEN Z T,F(xiàn)U Y W,WANG Y X,et al. Image Deformation Meta-Networks for One-Shot Learning [C]// 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).Long Beach:IEEE,2019:8672-8681.
[5] SUN Q,LIU Y,CHUA T S,et al. Meta-Transfer Learning for Few-Shot Learning [C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).Long Beach:IEEE,2019:403-412.
[6] GOODFELLOW I J,POUGET-ABADIE J,MIRZA M,et al. Generative Adversarial Networks [J/OL].arXiv.1406.2661 [stat.ML].(2014-06-10).https://arxiv.org/abs/1406.2661.
[7] LI K,ZHANG Y L,LI K P, et al. Adversarial Feature Hallucination Networks for Few-Shot Learning [C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).Seattle:IEEE,2020:13467-13476.
[8] WANG Y X,GIRSHICK R,HEBERT M,et al. Low-Shot Learning from Imaginary Data [C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake City:IEEE,2018:7278-7286.
[9] CHOI Y,CHOI M,KIM M,et al. StarGAN: Unified Generative Adversarial Networks for Multi-Domain Image-to-Image Translation [J/OL].arXiv:1711.09020 [cs.CV].(2017-11-24).https://arxiv.org/abs/1711.09020.
[10] FINN C,ABBEEL P,LEVINE S. Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks [J/OL].arXiv:1703.03400 [cs.LG].(2017-03-09).https://arxiv.org/abs/1703.03400.
[11] 山世光,闞美娜,劉昕,等.深度學習:多層神經(jīng)網(wǎng)絡的復興與變革 [J].科技導報,2016,34(14):60-70.
[12] HARIHARAN B, GIRSHICK R. Low-shot Visual Recognition by Shrinking and Hallucinating Features [C]//2017 IEEE International Conference on Computer Vision (ICCV).Venice:IEEE,2017:3037-3046.
作者簡介:陳琪(1997—),女,漢族,江西九江人,工程師,碩士研究生,研究方向:深度學習、圖像處理;徐長文(1993—),男,漢族,江西樂平人,工程師,碩士研究生,研究方向:圖像識別、網(wǎng)絡安全與信息化;董非非(1982—),女,漢族,陜西西安人,高級工程師,碩士研究生,研究方向:固體地球物理;李正(1982—),男,漢族,江西新余人,高級工程師,本科,研究方向:計算機網(wǎng)絡。