劉牧云,卞春江,陳紅珍
1.中國科學(xué)院國家空間科學(xué)中心復(fù)雜航天系統(tǒng)綜合電子與信息技術(shù)重點(diǎn)實(shí)驗(yàn)室,北京 100190
2.中國科學(xué)院大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,北京 100049
近年來,遙感圖像采集和深度學(xué)習(xí)技術(shù)快速發(fā)展,遙感圖像智能解譯算法取得了重大突破[1]??罩心繕?biāo)檢測與識(shí)別是遙感技術(shù)在軍事偵察領(lǐng)域的重要應(yīng)用,隨著天基遙感影像分辨率提升及軍事偵察工作的需要,空中目標(biāo)細(xì)粒度檢測任務(wù)對(duì)分類精確度提出了更高標(biāo)準(zhǔn)要求。但性能優(yōu)異的深度學(xué)習(xí)模型通常依賴準(zhǔn)確標(biāo)注的大規(guī)模數(shù)據(jù)集訓(xùn)練,樣本收集、人力標(biāo)注需要耗費(fèi)大量資源和精力[2]。并且,飛機(jī)目標(biāo)的高動(dòng)態(tài)特性以及復(fù)雜多變的背景環(huán)境導(dǎo)致其缺乏長期數(shù)據(jù)收集的客觀觀測條件,大規(guī)模、高質(zhì)量的遙感飛機(jī)目標(biāo)圖像數(shù)據(jù)集存在收集困難的問題[3]。因此,現(xiàn)有的遙感圖像飛機(jī)細(xì)粒度圖像數(shù)據(jù)集往往存在各子類樣本數(shù)較少且分布不均衡情況?;跀?shù)據(jù)驅(qū)動(dòng)的深度學(xué)習(xí)模型容易在樣本數(shù)量豐富的類別上過擬合,而在樣本數(shù)量缺乏的類別上欠擬合,這種現(xiàn)象稱為長尾效應(yīng),是導(dǎo)致導(dǎo)致分類、檢測等模型的性能難以提升的重要因素[4]。為數(shù)據(jù)匱乏的類別生成更多樣本圖像補(bǔ)充原有數(shù)據(jù)集是緩解模型過擬合,提升下游模型性能的直接途徑。
數(shù)據(jù)增強(qiáng)是解決樣本不足、不平衡的關(guān)鍵技術(shù)。傳統(tǒng)的數(shù)據(jù)增強(qiáng)方法包括仿射變化、色彩變換、信息遮擋、多圖融合等,這類方法生成的樣本雖然能在數(shù)量上對(duì)原有數(shù)據(jù)集做補(bǔ)充,但存在泛化能力差、樣本多樣性不足的瓶頸問題[5]。小樣本圖像生成技術(shù)是圖像數(shù)據(jù)增廣的一種方式,其僅利用少量未知種類的圖像數(shù)據(jù)生成大量真實(shí)且多樣的同類別圖像,在不實(shí)質(zhì)性增加數(shù)據(jù)的條件下,通過深度生成模型提高原始數(shù)據(jù)的數(shù)量和質(zhì)量,讓有限的數(shù)據(jù)產(chǎn)生等價(jià)于更多數(shù)據(jù)的價(jià)值,從而為細(xì)粒度圖像分類、目標(biāo)檢測等多種的下游任務(wù)提供數(shù)據(jù)支持。并且,相比于上述傳統(tǒng)數(shù)據(jù)增強(qiáng)方法,小樣本圖像生成技術(shù)能夠提供更加多樣的圖像,并且在特征層面生成更加豐富和合理的語義信息。當(dāng)前基于深度生成模型的圖像生成方法往往依賴大規(guī)模數(shù)據(jù)集訓(xùn)練,提出一種少樣本條件下的數(shù)據(jù)增廣方法是有必要的。
小樣本圖像生成技術(shù)能夠借助深度生成模型(deep generation models,DGM)從現(xiàn)有數(shù)據(jù)集中學(xué)習(xí)和模擬真實(shí)的數(shù)據(jù)分布,并生成新的圖像。當(dāng)前主流的深度生成模型可分為3 類:變分自編碼器[6](variational auto-encoders,VAE)、生成對(duì)抗網(wǎng)絡(luò)[7](generative adversarial networks,GAN)和擴(kuò)散模型[8](diffusion models,DM)。GAN 網(wǎng)絡(luò)由生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò)兩部分組成,以對(duì)抗的方式,交替優(yōu)化網(wǎng)絡(luò)參數(shù),直到二者達(dá)到納什均衡,從而生成以假亂真的樣本。但GAN 網(wǎng)絡(luò)對(duì)數(shù)據(jù)分布是隱式建模,并且在模型訓(xùn)練過程中容易陷入模式坍塌。DM 的基本思想是在正向擴(kuò)散過程中系統(tǒng)地?cái)_動(dòng)原始數(shù)據(jù)分布,在反向擴(kuò)散過程中學(xué)習(xí)如何恢復(fù)數(shù)據(jù)分布。DM 雖然在圖像生成質(zhì)量上優(yōu)于GAN 和VAE,但其仍存在采樣效率低、最大似然估計(jì)效果差、訓(xùn)練所需資源多的問題。VAE 是小樣本圖像生成技術(shù)的主流生成模型之一,其包含一個(gè)編碼器作為推斷網(wǎng)絡(luò)和一個(gè)解碼器作為生成網(wǎng)絡(luò)。它是基于變分推斷思想的概率模型,能夠?qū)τ跀?shù)據(jù)分布進(jìn)行顯式建模,這大大提高了生成樣本的可解釋性。總的來說,相比于其他生成式模型,VAE有可解釋性強(qiáng)、訓(xùn)練穩(wěn)定、資源消耗小的優(yōu)勢。
并且,近年來,VAE及其變體在醫(yī)學(xué)影像分析、人臉識(shí)別、故障檢測等領(lǐng)域取得了優(yōu)異的表現(xiàn)并具有重要的實(shí)際應(yīng)用價(jià)值。但在遙感圖像處理的應(yīng)用領(lǐng)域,仍缺少相應(yīng)的數(shù)據(jù)增廣方法。一方面,傳統(tǒng)的VAE 方法需要大規(guī)模數(shù)據(jù)作為支撐用于訓(xùn)練模型,無法解決少樣本條件下的數(shù)據(jù)增廣問題;另一方面,由于真實(shí)場景下的遙感飛機(jī)目標(biāo)圖像存在類間相似度高、類內(nèi)差異性大的特性,針對(duì)全局特征擬合的小樣本圖像生成算法難以生成高質(zhì)量和多樣性的細(xì)粒度飛機(jī)圖像。
因此,針對(duì)目前空中高價(jià)值目標(biāo)數(shù)據(jù)匱乏的實(shí)際問題,為了增強(qiáng)生成樣本多樣性和模型可解釋性,采用基于特征解耦的小樣本圖像生成技術(shù)生成特征豐富的遙感飛機(jī)圖像樣本。在模型編碼階段通過變分推斷和平均池化的方式分別提取圖像的類內(nèi)可變特征和類間判別特征,在解碼階段多次隨機(jī)采樣重組特征以提高生成圖像多樣性。并且,利用上述方法的生成結(jié)果補(bǔ)充現(xiàn)有數(shù)據(jù)集,有效提升了后續(xù)目標(biāo)精細(xì)化識(shí)別準(zhǔn)確率。
在本文中,做出了如下貢獻(xiàn):
(1)為解決生成樣本多樣性不足的問題,提出了“圖像由類內(nèi)可變特征和類間判別特征組成”的假設(shè),并根據(jù)此假設(shè)構(gòu)建特征解耦模塊。
(2)改進(jìn)原始VAE 結(jié)構(gòu),提出了特征解耦變分自編碼器(feature disentangle variational auto-encoders,F(xiàn)D-VAE),用于在少樣本條件下生成具有特征多樣性、語義信息豐富的遙感細(xì)粒度飛機(jī)樣本圖像。
(3)在兩個(gè)細(xì)粒度飛機(jī)數(shù)據(jù)集上FAIR1M[9]和MAR20[10]驗(yàn)證FD-VAE 算法生成圖像的性能。將生成的樣本補(bǔ)充到原有的數(shù)據(jù)集中形成增廣數(shù)據(jù)集,并輸入到下游ResNet-18[11]分類網(wǎng)絡(luò)中驗(yàn)證數(shù)據(jù)增廣對(duì)提升下游模型分類精度的效果,形成閉環(huán)實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果證明了本文方法在飛機(jī)圖像生成效果上的優(yōu)勢以及對(duì)于下游模型分類準(zhǔn)確率提升的有效性。
隨著人工智能的快速發(fā)展,越來越多的人試圖解決低樣本情況下的機(jī)器學(xué)習(xí)問題。小樣本學(xué)習(xí)(few-shot learning,F(xiàn)SL)和圖像生成結(jié)合的方法被稱作小樣本圖像生成技術(shù)(few-shot image generation,F(xiàn)SIG),用于在數(shù)據(jù)規(guī)模有限的情況下,生成高質(zhì)量、多樣性的圖像,增強(qiáng)原有數(shù)據(jù)集。FSIG是利用可見類別數(shù)據(jù)訓(xùn)練生成模型,再通過少量未知種類的條件圖像來控制生成模型生成特定圖像。通過生成額外的圖像對(duì)小樣本類別進(jìn)行增強(qiáng)可以有效緩解小樣本學(xué)習(xí)中由于訓(xùn)練數(shù)據(jù)類別不平衡(long-tailed)導(dǎo)致的過擬合問題,并從根源上解決實(shí)際應(yīng)用中某些類別樣本數(shù)量不足的情況。
許多相關(guān)研究內(nèi)容已經(jīng)發(fā)表,研究人員通過修改網(wǎng)絡(luò)框架、損失函數(shù)、迭代方法等方式來構(gòu)建新的生成網(wǎng)絡(luò),從而提高圖像生成器的性能。從當(dāng)前小樣本圖像生成模型的工作原理出發(fā)將小樣本圖像生成方法分為優(yōu)化法、類內(nèi)轉(zhuǎn)換法以及特征融合法。
優(yōu)化法是指將元學(xué)習(xí)(meta-learning)算法與深度生成模型結(jié)合的小樣本圖像生成方法[12-14],其基本原理是在可見類別數(shù)據(jù)上用元學(xué)習(xí)算法框架訓(xùn)練生成式模型,在少樣本數(shù)據(jù)集上進(jìn)行參數(shù)微調(diào)后得到針對(duì)小樣本類別圖像的生成器。基于優(yōu)化的方法能夠成功生成圖像,但生成圖像往往不夠清晰和真實(shí),在圖像生成質(zhì)量上還有較大的提升空間。
基于特征融合的小樣本圖像生成[15-17]是指通過全局或局部特征匹配的方式將多張條件圖像特征融合并形成新樣本的方法。LoFGAN[17]提出的局部融合策略,解決了由于條件圖像語義信息不對(duì)齊導(dǎo)致生成樣本存在混疊偽影的不合理現(xiàn)象,但仍存在生成樣本多樣性不足的問題。由于特征匹配和融合理論的固有限制,目前的融合方法難以在生成圖像形狀、姿態(tài)等方面做出改變。并且,此類方法需要輸入多張條件圖像,并不適用于單樣本圖像生成。
類內(nèi)轉(zhuǎn)換法[18-20]的基本假定是同一類別不同樣本之間的差異是能夠泛化到其他的類別中的。用大量的可見類別樣本中訓(xùn)練模型學(xué)習(xí)如何提取和轉(zhuǎn)換的類內(nèi)可變特征到非可見類別樣本中,生成新樣本。近年來,基于類內(nèi)轉(zhuǎn)換的方法實(shí)現(xiàn)了從小樣本特征增強(qiáng)到圖像生成的進(jìn)步。AGE[20]試圖在編碼好的隱空間中學(xué)習(xí)有效的特征編輯方向,通過編輯特征向量生成多樣性的圖像,實(shí)現(xiàn)了在沒有明確監(jiān)督的情況下的特征解耦和圖像編輯,但仍需要借助預(yù)訓(xùn)練到解碼和圖像到編碼的逆轉(zhuǎn)換模型。
相較于基于優(yōu)化和基于融合的小樣本生成方法,基于類內(nèi)轉(zhuǎn)換的方法在生成更加多樣性的圖像上具有顯著優(yōu)勢。因?yàn)轭悆?nèi)轉(zhuǎn)換的方式能夠?qū)W習(xí)到條件圖像可移植的類內(nèi)可變特征或可編輯屬性,并借此生成更加多樣化的同類別圖像,這種方法有效地提升了模型的創(chuàng)造力。另一方面,在圖像生成的真實(shí)性和清晰度上,基于類內(nèi)轉(zhuǎn)換的樣本生成方法也達(dá)到了當(dāng)前最為先進(jìn)的水平。
隨著小樣本圖像生成領(lǐng)域的研究逐漸深入,其應(yīng)用場景也愈加豐富。如今,小樣本圖像生成技術(shù)廣泛應(yīng)用于醫(yī)學(xué)影像分析[21]、故障檢測[22]等領(lǐng)域,具有重要的實(shí)際應(yīng)用價(jià)值。相對(duì)來說,小樣本圖像生成技術(shù)在遙感圖像增廣領(lǐng)域的相關(guān)研究比較匱乏。雖然一些遙感場景下基于深度生成模型的建筑物[23]、飛機(jī)[24]、船舶目標(biāo)圖像[25]數(shù)據(jù)增廣方法被提出,但均沒有考慮少樣本條件下的圖像生成問題。姜雨辰等人[26]提出改進(jìn)StyleGAN2方法適用于少樣本條件下的遙感圖像數(shù)據(jù)增強(qiáng),但此方法主要針對(duì)遙感圖像中的大型建筑目標(biāo),生成樣本缺乏局部細(xì)粒度信息。
在少樣本條件下,提出一種遙感細(xì)粒度圖像生成方法用于數(shù)據(jù)增廣是有必要的。因此,針對(duì)當(dāng)前小樣本遙感圖像生成的應(yīng)用領(lǐng)域缺少解決細(xì)粒度圖像增廣方法的實(shí)際問題,本文提出了基于類內(nèi)轉(zhuǎn)換法的圖像生成算法特征解耦變分自編碼器FD-VAE 用于少樣本條件下的光學(xué)遙感飛機(jī)細(xì)粒度目標(biāo)圖像增廣,助力下游分類模型精度提升。FD-VAE 每次僅輸入一張條件圖像即可生成多樣性的增廣樣本,實(shí)現(xiàn)完成1-shot 生成。并且,相較于當(dāng)前基于類內(nèi)轉(zhuǎn)換法的模型結(jié)構(gòu),F(xiàn)D-VAE無需任何預(yù)訓(xùn)練和逆轉(zhuǎn)換模型。
2013年Kingma提出了基于變分推斷思想的概率生成模型VAE,其整體結(jié)構(gòu)如圖1所示。在訓(xùn)練階段VAE的編碼器作為推斷網(wǎng)絡(luò)擬合數(shù)據(jù)分布,將輸入樣本映射為隱空間的概率分布,解碼器作為生成網(wǎng)絡(luò)用于重構(gòu)圖像。在生成階段,網(wǎng)絡(luò)使用采樣器在潛在空間的概率分布中隨機(jī)采樣,再輸入到已訓(xùn)練的解碼器用于生成新的圖像。VAE 的基本原理是利用逼近變量后驗(yàn)概率變分下界的方式擬合目標(biāo)數(shù)據(jù)的最大似然概率分布,再利用重采樣的方式生成多樣化目標(biāo)數(shù)據(jù)集。
圖1 變分自編碼器結(jié)構(gòu)圖Fig.1 Basic structure diagram of VAE
假設(shè)每個(gè)真實(shí)樣本Xk都存在一個(gè)專屬分布p(Z|Xk),那么整體輸入數(shù)據(jù)的概率分布p(x)可表示為:
由于分布q(z|x)計(jì)算較為復(fù)雜,對(duì)上式求對(duì)數(shù)似然,可得到:
根據(jù)詹森不等式,可推出:
VAE將數(shù)據(jù)概率分布p(x)的推斷問題轉(zhuǎn)化為近似分布q(z|x)的優(yōu)化問題。式(3)稱作分布logp(x)的變分下界(evidence lower bound,ELBO),其標(biāo)準(zhǔn)形式表示為:
如圖2 所示,輸入樣本圖像x,編碼器通過優(yōu)化分布q(z|x)使得變分下界L最大化,將輸入數(shù)據(jù)映射到隱空間中,得到隱變量z的壓縮表達(dá):
圖2 變分自編碼器原理圖Fig.2 Schematic diagram of VAE
為了避免采樣噪聲為0 導(dǎo)致生成模型的隨機(jī)性減少,VAE假設(shè)p(z|x)服從正態(tài)分布,式(5)可表示為:
隱變量z可以在分布N(μ,σ)中采樣得到,但此過程不可導(dǎo)。為解決此問題,VAE 使用重參數(shù)技巧,先在分布N(0,I)中采樣ε,再經(jīng)線性變換得到:
最終,在訓(xùn)練階段,解碼器將采樣到的隱變量z重構(gòu)為原圖像。在生成階段,解碼器將隱空間中隨機(jī)采樣的點(diǎn)還原為圖像,從而生成新樣本。
VAE 以其優(yōu)雅的推斷理論和穩(wěn)定的訓(xùn)練過程在圖像生成領(lǐng)域大放光彩,并迅速涌現(xiàn)出一系列基于VAE的改進(jìn)模型。VAE 系列改進(jìn)方法根據(jù)其工作原理大致可分為3 類,增加條件約束提升模型的用戶控制能力、通過分解隱變量提高生成圖像清晰度、將VAE 與GAN等其他深度生成模型結(jié)合,增強(qiáng)模型生成性能和生成圖像多樣性。
(1)增加條件約束
VAE能夠?qū)崿F(xiàn)用給定的隨機(jī)噪聲生成圖像,但其生成結(jié)果是不可控的。為了生成指定類別的圖像,如圖3所示,條件變分自編碼器(conditional variational autoencoder,CVAE)[27],在輸入階段同時(shí)輸入圖像x和其對(duì)應(yīng)的類別標(biāo)簽y,用于約束生成圖像的類別。編碼器從估計(jì)樣本圖像在潛在空間的概率分布p(x)擴(kuò)展為估計(jì)隱變量的條件概率分布p(x|y),解碼器在標(biāo)簽的監(jiān)督下重構(gòu)圖像,從而生成指定標(biāo)簽類別的樣本。
圖3 條件變分自編碼器原理圖Fig.3 Schematic diagram of CVAE
動(dòng)態(tài)變分自編碼器(dynamical variational autoencoder,DVAE)[28]輸入數(shù)據(jù)改進(jìn)為序列數(shù)據(jù)x1:T,按照時(shí)間序列分解輸入序列和隱變量序列如式(8)所示:
其中,x、z、u分別為模型的輸入序列、隱變量和控制變量,變量之間遵循時(shí)間鏈?zhǔn)椒▌t。
DVAE 考慮了數(shù)據(jù)向量的序列以及對(duì)應(yīng)的隱變量的序列在時(shí)間維度上的關(guān)聯(lián)性,常用于音頻或視頻生成,但對(duì)于輸入數(shù)據(jù)規(guī)模和質(zhì)量要求較高。以上兩種相關(guān)方法都是為輸入變量增加關(guān)聯(lián)約束,從而促使模型生成特定類別或時(shí)間的樣本。
(2)分解隱變量
Nouveau VAE[29](NVAE)引入多尺度設(shè)計(jì),分層次設(shè)置了多組隱變量,再利用自回歸的高斯模型擬合復(fù)雜的連續(xù)型分布,其模型框架如圖4所示。
圖4 NVAE框架圖Fig.4 Framework diagram of NVAE
具體來說,NVAE通過設(shè)計(jì)多尺度的編碼器將原有的隱變量z分解為L組隱空間中的向量,即:
并為分解后的每個(gè)隱變量z1,z2,…,zL建立高斯分布,將整體模型建立為自回歸高斯模型,后驗(yàn)概率分布可表示為:
最終,解碼器自上而下地利用多組隱變量實(shí)現(xiàn)樣本圖像的還原。
不同于NVAE構(gòu)建多尺度隱變量,量子化自編碼器[30](vector quantized variational autoencoder,VQ-VAE)為解決連續(xù)隱變量逼近精度有限的問題,將圖像編碼為離散的隱變量,再通過自回歸模型擬合離散分布。這類分離隱變量的改進(jìn)方法有效提高了生成圖像的清晰度,但其訓(xùn)練代價(jià)也顯著增大。
(3)與其他深度生成模型結(jié)合
自省變分自編碼器[31](introspective variational autoencoder,IntroVAE)借助GAN網(wǎng)絡(luò)對(duì)抗訓(xùn)練的思想構(gòu)建自省變分自編碼器,將生成圖像循環(huán)輸入到編碼器中。如圖5所示,編碼器不僅作為需要獲得輸入圖像的概率分布,它還充當(dāng)一個(gè)“判別網(wǎng)絡(luò)”,將真實(shí)輸入圖像與解碼器生成的圖像區(qū)分開。相對(duì)地,解碼器希望盡可能真實(shí)地重建圖像來欺騙編碼器。最終,IntroVAE通過編碼器、解碼器交替對(duì)抗訓(xùn)練的方式進(jìn)一步提升了模型的圖像生成質(zhì)量。Soft IntroVAE[32]進(jìn)一步解決了IntroVAE中需要人為設(shè)定硬邊界閾值的限制,并且訓(xùn)練過程更加穩(wěn)健。這類與其他深度生成模型結(jié)合的改進(jìn)方法雖然有效提高了模型的生成性能,同時(shí)也存在訓(xùn)練不穩(wěn)定的問題。
圖5 Intro-VAE原理圖Fig.5 Schematic diagram of IntroVAE
提出的方法FD-VAE與以上三類改進(jìn)思路不同,上述相關(guān)方法僅針對(duì)圖像層面的樣本進(jìn)行還原和重構(gòu),主要關(guān)注隱層編碼在圖像色彩和結(jié)構(gòu)上的還原能力,其構(gòu)建的隱空間往往存在不均勻和無規(guī)律的情況,這一定程度上限制了生成樣本的可解釋性和多樣性。針對(duì)以上問題,為在平滑、連續(xù)的潛在空間中隨機(jī)采樣或插值得到有意義和可解釋的樣本,并且進(jìn)一步增強(qiáng)模型生成結(jié)果的多樣性和語義信息合理性,本文提出的解耦變分自編碼器FD-VAE 一方面使用特征解耦模塊促使模型在解碼階段進(jìn)行特征層面的學(xué)習(xí),試圖讓模型“理解”樣本的語義信息,從而生成更加有意義的樣本圖像。另一方面,在模型解碼階段引入特征調(diào)節(jié)因子α,控制判別特征和可變特征的重組關(guān)系,從而提高模型生成樣本的多樣性。
由于遙感飛機(jī)目標(biāo)圖像類間相似度高、類內(nèi)差異性大的特性,提出的圖像由類內(nèi)可變特征和類間判別特征組成的基本假設(shè)。類內(nèi)可變特征包括光照、陰影、飛機(jī)涂裝、飛機(jī)停放角度、背景條件等環(huán)境因素,這些特征在所有類別中共享,即在真實(shí)環(huán)境下,不同型號(hào)的飛機(jī)樣本可能存在相似的停放角度、背景條件、光照條件等環(huán)境特征。在數(shù)據(jù)模擬階段,使用共同分布p(zv)為類內(nèi)可變特征建模。類間判別特征指飛機(jī)的型號(hào)特征,如引擎數(shù)量、氣動(dòng)結(jié)構(gòu)等。相同類別的飛機(jī)樣本具有同樣的類間判別特征,因此,對(duì)每個(gè)類別的樣本圖像特征求均值即可得到各個(gè)類別飛機(jī)的類間判別特征。在圖像生成階段,通過多次隨機(jī)采樣的方式增強(qiáng)生成樣本環(huán)境特征多樣性,從而更改同類別樣本的類內(nèi)可變特征,達(dá)到生成大量類別相同而環(huán)境特征多樣的樣本圖像的目的。
基于上述假設(shè)提出了特征解耦變分自編碼器FDVAE,其原理圖如圖6所示。不同于VAE及其衍生模型使用變分推理的方式擬合整體圖像特征概率分布,而是僅擬合圖像的類內(nèi)可變特征分布,即陰影、飛機(jī)涂裝、飛機(jī)停放角度、背景條件、光照條件等客觀環(huán)境因素,并結(jié)合平均池化模塊提取圖像的類間判別特征,從而分離類間判別特征和類內(nèi)可變特征(客觀環(huán)境特征),并通過多次隨機(jī)采樣和特征重組的方式達(dá)到提升生成樣本多樣性的目的。
圖6 FD-VAE原理圖Fig.6 Schematic diagram of FD-VAE
FD-VAE 的整體網(wǎng)絡(luò)結(jié)構(gòu)如圖7 所示,包含一個(gè)特征提取器、一個(gè)編碼器用于擬合類內(nèi)可變特征zv、一個(gè)池化模塊用于提取類間判別特征zd,一個(gè)解碼器和一個(gè)特征重構(gòu)器用于重構(gòu)和生成圖像。特征提取器選用基于卷積層的殘差網(wǎng)絡(luò),它包含兩個(gè)殘差模塊。圖像重構(gòu)器相比于特征提取器增加了一個(gè)全連接層用于分類重構(gòu)圖像,確保生成圖像的判別特征保持不變。
圖7 FD-VAE網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.7 Framework of FD-VAE
特征解耦模塊由編碼器和池化模塊組成?;谳斎雸D像xi的特征是由類內(nèi)變量特征和類間判別特征組成的假設(shè),圖像特征可以表示為:
其中,輸入圖像xi對(duì)應(yīng)特征圖X(i)的類間判別特征zd由多個(gè)同類別圖像特征圖的平均池化得到。
其中,n為批量數(shù)(batch size,BS)。
真實(shí)的后驗(yàn)分布p(z|x)難以計(jì)算,可用分布q(z|x)近似推斷p(z|x),并用KL散度約束二者間的距離:
進(jìn)一步假設(shè)近似后驗(yàn)分布p(z|x)是各項(xiàng)獨(dú)立的正態(tài)分布,表示為:
其中,μ(i)、σ(i)由編碼器擬合數(shù)據(jù)分布得到,根據(jù)公式(10)和重參數(shù)技巧,zv可以表示為:
最大化p(x)的變分下界使得真實(shí)后驗(yàn)分布與近似分布之間的差距最小,可表示為:
其中,p(X|z(i))由解碼器提供。
每個(gè)輸入條件圖像唯一確定一個(gè)類內(nèi)判別特征zd:
lbp(x)的變分下界可寫為:
編碼器通過優(yōu)化式(19)變分下界和多次采樣獲得樣本的可變特征。
圖像生成階段,為了生成更多樣的樣本,在生成階段FD-VAE引入了特征調(diào)節(jié)因子α,用于控制重構(gòu)特征中類間鑒別特征zd和類內(nèi)變量特征zv的比例。特征向量zd、zv均歸一化后:
損失函數(shù)由重構(gòu)損失、KL損失和分類損失組成。
分類損失用于確保池化模塊所提取到類間判別特征zd的準(zhǔn)確性:
其中,y(i)表示輸入特征圖X(i)的類別標(biāo)簽。
重構(gòu)損失和KL 損失用于監(jiān)督編碼器學(xué)習(xí)數(shù)據(jù)分布,由于p(X|zr)被建模為近似高斯分布,lbp(X|zv)等價(jià)于x和p(X|zr)均值的平方誤差重構(gòu)損失,lbp(x)的變分下界可寫為:
式(23)的前半部對(duì)應(yīng)重構(gòu)損失,后半部對(duì)應(yīng)于KL損失。βrec和βkl是重構(gòu)損失和KL 損失對(duì)應(yīng)的超參數(shù)權(quán)重。
為了與編碼器變分下界的重構(gòu)約束保持一致,采用加權(quán)圖像級(jí)MSE重構(gòu)損失來約束解碼器生成的圖像Xr:
編碼器的目標(biāo)函數(shù)包括分類損失和變分損失,變分損失由KL損失和重構(gòu)損失組成。
解碼器的目標(biāo)函數(shù)包括分類損失和重構(gòu)損失:
其中,βcls、βrec、βkl分別對(duì)應(yīng)分類損失、重構(gòu)損失和KL損失的超參數(shù)權(quán)重。
FD-VAE 網(wǎng)絡(luò)根據(jù)上述三類目標(biāo)函數(shù)進(jìn)行端到端優(yōu)化。
本文選取兩個(gè)細(xì)粒度的遙感圖像數(shù)據(jù)集FAIR1MAircrafts[9]MAR20[10]作為模型效果評(píng)估的數(shù)據(jù)集。這兩個(gè)數(shù)據(jù)集的飛機(jī)類別不重疊。
(1)FAIR1M-AIRCRAFTS:在FAIR1M 數(shù)據(jù)集中截取了9 種不同類型的民用飛機(jī)圖像,共19 299 個(gè)示例。其中7 個(gè)類別被設(shè)置為可見類別,用于訓(xùn)練,另外兩個(gè)被指定不可見類別,用于測試。
(2)MAR20:MAR20 包括20 種軍用飛機(jī),共有22 341 個(gè)示例。其中,16 個(gè)類別用于訓(xùn)練,其余4 個(gè)類別的樣本用于評(píng)估。
本文的網(wǎng)絡(luò)采用端到端的形式進(jìn)行訓(xùn)練,輸入圖像大小為64×64,批量數(shù)為32,共迭代300次。在超參數(shù)設(shè)置方面,對(duì)于FAIR1M-Aircraft 數(shù)據(jù)集,超參數(shù)設(shè)置為βcls=1,βrec=2,βkl=4,z_dim=512 ,其中z_dim表示隱特征空間的維度。對(duì)于MAR20 數(shù)據(jù)集,潛在編碼維度是512,其他參數(shù)設(shè)置為βcls=1,βrec=4,βkl=8。在測試階段,遵循標(biāo)準(zhǔn)的小樣本圖像生成評(píng)估方案。根據(jù)1-shot和3-shot的實(shí)驗(yàn)設(shè)置,每次使用1或3張未見類別樣本圖像輸入到生成器。
將本文提出的FD-VAE方法分別與原始VAE方法、引入對(duì)抗訓(xùn)練的VAE 方法IntroVAE、基于特征融合的樣本生成方法LoFGAN 以及基于類內(nèi)轉(zhuǎn)換的樣本生成方法AGE對(duì)比生成圖像質(zhì)量。
采取了一系列試驗(yàn)驗(yàn)證FD-VAE 在圖像生成方面的性能,包括生成圖像的定性和定量分析實(shí)驗(yàn)用于評(píng)估生成圖像質(zhì)量,特征解耦消融實(shí)驗(yàn)用于驗(yàn)證本方法的特征可分性以及隱空間的線性插值實(shí)驗(yàn)用于驗(yàn)證本方案生成圖像的多樣性和真實(shí)性。
3.3.1 生成圖像質(zhì)量定性評(píng)價(jià)
將FD-VAE(1-Shot,每次生成僅使用1個(gè)輸入樣本)與LoFGAN(3-Shot,每次生成使用3 個(gè)輸入樣本)、AGE(1-Shot)方法在FAIR1M數(shù)據(jù)集上的生成圖像進(jìn)行定性比較。
如圖8 所示,前兩列是輸入真實(shí)樣本,其余各列分別是AGE、LoFGAN 和提出的FD-VAE 算法生成結(jié)果。第1 至5 行分別展示了輸入樣本在一般情況下、存在多目標(biāo)實(shí)例或?qū)嵗煌暾?、存在涂裝、存在尾影、高曝光或陰影條件下各方法的圖像生成結(jié)果。AGE方法生成的圖像清晰度較高但生成的飛機(jī)主體存在局部扭曲的現(xiàn)象,并且當(dāng)輸入樣本實(shí)例不完整、存在局部涂裝時(shí),AGE難以重建圖像。LoFGAN 方法雖然能夠完成各種情況下的圖像重建,但存在重構(gòu)機(jī)身不完整、局部模糊的現(xiàn)象。相比之下,F(xiàn)D-VAE在生成圖像清晰度和真實(shí)性方面優(yōu)于其他方法,而且具有很好的魯棒性。
圖8 LoFGAN、AGE和FD-VAE方法生成圖像質(zhì)量比較Fig.8 Comparison between images generated by LoFGAN,AGE and FD-VAE
3.3.2 生成圖像質(zhì)量定量評(píng)價(jià)
選取FID[33]和LPIPS[34]兩個(gè)定量指標(biāo)評(píng)估圖像的生成質(zhì)量。
FID(fréchet inception distance)指標(biāo)用于計(jì)算真實(shí)樣本、生成樣本在特征空間之間的距離,表示生成圖像分布和真實(shí)圖像分布的距離,較低的FID意味著較高圖片的質(zhì)量,其表達(dá)式如下:
其參數(shù)是將圖像真實(shí)分布Pr和生成圖像分布Pg建模為多維高斯分布(μr,Σr),(μg,Σg),其中μ、Σ分別表示均值向量和協(xié)方差矩陣,tr 表示矩陣的跡(矩陣對(duì)角元素之和)。
學(xué)習(xí)感知圖像塊相似度(learned perceptual image patch similarity,LPIPS),用于度量兩張圖像在數(shù)據(jù)分布上的差別。對(duì)于生成樣本集來說,較高的LPIPS代表圖像具有較好的多樣性和真實(shí)性,其計(jì)算表達(dá)式為:
其中,d為x與x0之間的距離,l為特征提取堆的層數(shù),Hl、Wl分別為通道的行和列數(shù)。
在評(píng)估階段,F(xiàn)D-VAE 對(duì)于每個(gè)不可見類別的測試樣本生成1 024張圖像用于計(jì)算FID和LPIPS。
表1、表2 分別展示了本文的方法和其他幾種先進(jìn)的小樣本圖像生成方法在FAIR1M-Aircrafts 和MAR20數(shù)據(jù)集上的測試結(jié)果。所提出的FD-VAE 方法與其他方法相比在FID 和LPIPS 評(píng)價(jià)指標(biāo)上取得了顯著改進(jìn)。與原始VAE生成方法相比,本文的方法在FAIR1M數(shù)據(jù)集上的測試結(jié)果FID下降了20.07%,LPIPS上升了13.21%。在MAR20 數(shù)據(jù)集上的測試結(jié)果FID 下降了21.83%,LPIPS上升了21.36%。這表明FD-VAE生成的圖像具有更好的特征多樣性和圖像真實(shí)性,本文方法的核心優(yōu)勢在于從編碼器擬合的數(shù)據(jù)分布N(μ(i),σ(i))中多次采樣類內(nèi)可變特征zv并保持與原始圖像相似的判別特征zd。前者提高了生成圖像的多樣性,后者保證了生成圖像的真實(shí)性。這使得本文方法的生成結(jié)果與其他方法相比,在真實(shí)性和多樣性的評(píng)價(jià)指標(biāo)上表現(xiàn)出極大的優(yōu)勢。
表1 FAIR1M-Aircrafts數(shù)據(jù)集上的定量評(píng)價(jià)結(jié)果Table 1 Quantitative comparison on FAIR1M-Aircrafts
表2 MAR20數(shù)據(jù)集上的定量評(píng)價(jià)結(jié)果Table 2 Quantitative comparison on MAR20
3.3.3 特征解耦消融實(shí)驗(yàn)
在圖像生成階段,特征調(diào)節(jié)因子α決定了生成圖像判別特征和類內(nèi)可變特征的比例。如圖9 所示最左側(cè)一列是輸入的真實(shí)圖像,其余各列是不同α取值對(duì)應(yīng)生成圖像。如式(21)所示,特征調(diào)節(jié)因子α僅決定重構(gòu)圖像判別特征和類內(nèi)可變特征的比例,與輸入樣本的類別無關(guān)。當(dāng)α=0 時(shí),生成的圖像僅由類間判別特征重建??梢暬Y(jié)果表明,此時(shí)重建圖像主體突出,而背景趨于模糊,色調(diào)趨于均勻,這表明判別特征zd被成功提取,證明了特征解耦模塊設(shè)計(jì)方案的合理性。當(dāng)α值逐漸升高,可變特征zv在重構(gòu)特征z中所占的比例增大,生成的圖像與原始圖像的差異越大,這種可視化結(jié)果表明額外添加的類內(nèi)可變特征zv在不影響圖像真實(shí)性的前提下,改變了圖像生成結(jié)果,增強(qiáng)生成模型結(jié)果的多樣性。
圖9 不同特征調(diào)節(jié)因子α 對(duì)應(yīng)的重構(gòu)圖像Fig.9 Images generated with different regulatory factor α
3.3.4 線性插值實(shí)驗(yàn)
對(duì)于VAE 系列生成模型來說,編碼器所映射隱空間的規(guī)則性和連續(xù)性決定了生成圖像的質(zhì)量。設(shè)計(jì)并完成了隱空間的線性插值實(shí)驗(yàn)。
在潛在空間中兩個(gè)真實(shí)圖像的特征向量之間進(jìn)行線性插值,將插值特征向量輸入到解碼器中獲得生成圖像,以證明編碼空間的連續(xù)性。如圖10所示,第一列和最后一列是真實(shí)圖像,其余5列是生成的插值圖像。按行從左至右觀察,可見生成圖像的背景、紋理、光強(qiáng)、飛機(jī)類型和旋轉(zhuǎn)角度按照最左側(cè)輸入圖像向最右側(cè)輸入圖像逐漸改變,這種平滑的變化過程表明本文的編碼空間是一個(gè)流暢的、連續(xù)的流形空間。語義豐富且合理的插值結(jié)果表明,本文的模型準(zhǔn)確地“捕獲”了潛在空間中圖像的語義特征,而不僅僅是“記住”它們。
圖10 隱空間兩個(gè)真實(shí)圖像間的平滑插值圖像Fig.10 Smooth interpolation between two real images in latent space
為了驗(yàn)證提出的小樣本圖像生成方法FD-VAE 對(duì)下游分類模型精度提升的增益效果,設(shè)計(jì)了一系列定量和定性實(shí)驗(yàn)。
選用ResNet-18 作為下游分類模型,在FAIR1MAircrafts 數(shù)據(jù)集上測試。FAIR1M-Aircrafts 數(shù)據(jù)集包含9類民用飛機(jī)樣本,其中ARJ21型號(hào)的飛機(jī)樣本數(shù)量最少,為197 張,A220 型號(hào)的飛機(jī)樣本數(shù)量最多,為6 173張。整體數(shù)據(jù)集樣本數(shù)量不均衡較為明顯,9類樣本數(shù)量的平均數(shù)為2 400張,存在6類樣本數(shù)量低于平均數(shù)。
未做任何處理的FAIR1M-Aircrafts 數(shù)據(jù)集,稱為原始數(shù)據(jù)集A0。將A0 中樣本數(shù)量高于平均數(shù)的類別樣本隨機(jī)抽取2 400 張,樣本數(shù)量低于平均數(shù)的類別樣本分別利用FD-VAE 或傳統(tǒng)方法增廣為2 400 張,補(bǔ)充至原有數(shù)據(jù)集。傳統(tǒng)方法增廣選用50%隨機(jī)旋轉(zhuǎn)、25%色彩變換、25%隨機(jī)縮放的增廣方案。最終形成FD-VAE增廣的數(shù)據(jù)集A1,傳統(tǒng)方法增廣的對(duì)照數(shù)據(jù)集A2。各數(shù)據(jù)集樣本數(shù)量如表3所示,數(shù)據(jù)集A0、A1、A2均按照60%、20%、20%劃分為各自的訓(xùn)練集、測試集和驗(yàn)證集。
表3 三種測試數(shù)據(jù)集的樣本數(shù)量Table 3 Number of samples of three datasets
使用劃分好的未增廣數(shù)據(jù)集A0、增廣數(shù)據(jù)集A1、對(duì)照數(shù)據(jù)集A2 分別訓(xùn)練ResNet18 網(wǎng)絡(luò),分類準(zhǔn)確率如表4所示。
表4 三種數(shù)據(jù)集的ResNet-18網(wǎng)絡(luò)分類準(zhǔn)確率Table 4 Classification accuracy of ResNet-18 network on three datasets 單位:%
使用FD-VAE增廣后的數(shù)據(jù)集A1分類準(zhǔn)確率相比原始數(shù)據(jù)集A0提升了2.3個(gè)百分點(diǎn),相比傳統(tǒng)方法增廣的對(duì)照數(shù)據(jù)集A2 提升了2.05 個(gè)百分點(diǎn),并在ARJ21 類別的飛機(jī)樣本上分類準(zhǔn)確率達(dá)到99.79%。實(shí)驗(yàn)結(jié)果驗(yàn)證了提出的圖像增廣算法FD-VAE 在提升下游模型分類精度方面的有效性。
本文提出了一種用于少樣本條件下遙感飛機(jī)圖像生成的算法FD-VAE,在兩個(gè)公開數(shù)據(jù)集上定性和定量的測試其圖像生成能力,實(shí)驗(yàn)結(jié)果表明生成網(wǎng)絡(luò)在小樣本圖像生成領(lǐng)域十分具有競爭力,生成圖像具有多樣性和可解釋性,F(xiàn)D-VAE的定量評(píng)價(jià)結(jié)果超過了目前較為先進(jìn)的1-Shot和3-Shot模型。并且,使用提出的圖像生成方法增廣后的數(shù)據(jù)集有助于提升下游模型分類精度。