周立君,劉 宇,白 璐,茹志兵,于 帥
(1.西安應(yīng)用光學(xué)研究所,陜西 西安 710065;2.西安北方光電科技防務(wù)有限公司,陜西 西安 710043)
目標(biāo)檢測(cè)和識(shí)別技術(shù)在軍事領(lǐng)域有著重要的應(yīng)用,近年來(lái)發(fā)展了很多基于深度學(xué)習(xí)的目標(biāo)分類(lèi)算法[1]。這些算法所依賴的模型參數(shù)需要通過(guò)大量的樣本進(jìn)行訓(xùn)練才能得到。然而軍事目標(biāo)能夠采集到的樣本數(shù)目有限,且大樣本數(shù)據(jù)手工標(biāo)注耗時(shí)且成本高等[2-3]。本文研究了基于生成式對(duì)抗網(wǎng)絡(luò)GAN(generative countermeasure network)和跨域自適應(yīng)遷移學(xué)習(xí)的樣本生成和自動(dòng)標(biāo)注方法[4-5]。該方法利用自適應(yīng)遷移學(xué)習(xí)網(wǎng)絡(luò),基于已有的少量可見(jiàn)光圖像樣本集,挖掘目標(biāo)在紅外和可見(jiàn)光圖像中特征內(nèi)在相關(guān)性,構(gòu)建自適應(yīng)的轉(zhuǎn)換遷移學(xué)習(xí)網(wǎng)絡(luò)模型,生成標(biāo)注好的目標(biāo)圖像,解決實(shí)際應(yīng)用中紅外圖像樣本數(shù)量少且標(biāo)注費(fèi)時(shí)的問(wèn)題,為后續(xù)多頻段協(xié)同目標(biāo)檢測(cè)和識(shí)別獲得足夠的樣本數(shù)據(jù)。
這里以生成和自動(dòng)標(biāo)注紅外樣本數(shù)據(jù)為例。在圖1 中,虛線部分為GAN,首先將已有的紅外樣本數(shù)據(jù)輸入GAN,生成式對(duì)抗網(wǎng)絡(luò)通過(guò)學(xué)習(xí)該紅外圖像樣本的區(qū)域目標(biāo)特征,然后生成與輸入樣本數(shù)據(jù)分布一致的無(wú)標(biāo)注紅外圖像樣本數(shù)據(jù)。在這個(gè)過(guò)程中,生成模型捕捉樣本數(shù)據(jù)的分布,用服從某一分布(均勻分布,高斯分布等)的噪聲生成一個(gè)類(lèi)似真實(shí)訓(xùn)練數(shù)據(jù)的樣本。判別模型是一個(gè)分類(lèi)器,估計(jì)一個(gè)樣本來(lái)自于訓(xùn)練數(shù)據(jù)的概率,如果樣本來(lái)自于真實(shí)的訓(xùn)練數(shù)據(jù),則輸出大概率,否則,輸出小概率。生成網(wǎng)絡(luò)不斷生成類(lèi)似于樣本的“紅外圖像”,而判別網(wǎng)絡(luò)通過(guò)判別去除不符合要求的樣本數(shù)據(jù),最后獲取相關(guān)性強(qiáng)的樣本數(shù)據(jù)集。獲得的大量無(wú)標(biāo)注紅外圖像樣本數(shù)據(jù),可解決軍工背景下訓(xùn)練深度網(wǎng)絡(luò)所需大樣本數(shù)據(jù)缺失的問(wèn)題。
圖1 多頻段數(shù)據(jù)自適應(yīng)轉(zhuǎn)移學(xué)習(xí)方法的原理Fig.1 Principal diagram of multi-band data adaptive transfer learning method
圖1 下半部分是跨域自適應(yīng)遷移學(xué)習(xí)技術(shù)路線,對(duì)現(xiàn)有的可見(jiàn)光相關(guān)數(shù)據(jù)集即源域進(jìn)行學(xué)習(xí),完成源域的標(biāo)注問(wèn)題即源任務(wù),獲得在可見(jiàn)光領(lǐng)域下對(duì)目標(biāo)的識(shí)別和標(biāo)注的方法。通過(guò)跨域自適應(yīng)遷移學(xué)習(xí)來(lái)構(gòu)建學(xué)習(xí)系統(tǒng),并應(yīng)用于紅外圖像的目標(biāo)檢測(cè)與標(biāo)注。對(duì)通過(guò)GAN 獲得的紅外圖像樣本數(shù)據(jù)進(jìn)行跨域自適應(yīng)無(wú)監(jiān)督遷移學(xué)習(xí),實(shí)現(xiàn)對(duì)其自動(dòng)標(biāo)注,從而獲得大量標(biāo)注好的紅外圖像樣本數(shù)據(jù)。
GAN 是Goodfellow 等人于2014 年提出的一種生成式模型,GAN 在結(jié)構(gòu)上受博弈論中二人靈活博弈的啟發(fā),系統(tǒng)由一個(gè)生成器和一個(gè)判別器構(gòu)成,生成器和判別器互為競(jìng)爭(zhēng)關(guān)系。判別模型的任務(wù)是判斷給定的數(shù)據(jù)看起來(lái)是自然的還是人為偽造的,生成模型的任務(wù)是生成看起來(lái)自然真實(shí)并且和原始數(shù)據(jù)相似的數(shù)據(jù)。生成器試圖欺騙判別器,判別器則努力不被生成器欺騙。經(jīng)過(guò)交替優(yōu)化訓(xùn)練,兩種模型都能得到提升,直到到達(dá)一個(gè)“假冒產(chǎn)品和真實(shí)產(chǎn)品無(wú)法區(qū)分”的點(diǎn)。生成器和判別器的目標(biāo)是生成與訓(xùn)練集中一些非常相似的數(shù)據(jù)點(diǎn)。GAN 的優(yōu)化過(guò)程是一個(gè)極小極大博弈問(wèn)題,優(yōu)化目標(biāo)是達(dá)到納什均衡,使得生成器估測(cè)到數(shù)據(jù)樣本的分布。在當(dāng)前的人工智能熱潮下,GAN 的提出滿足了許多領(lǐng)域的研究和應(yīng)用需求,同時(shí)為這些領(lǐng)域注入了新的發(fā)展動(dòng)力。GAN 已經(jīng)成為人工智能學(xué)界一個(gè)熱門(mén)的研究方向,著名學(xué)者LeCun 甚至將其稱為“過(guò)去10 年間機(jī)器學(xué)習(xí)領(lǐng)域最讓人激動(dòng)的點(diǎn)子”。目前,人們利用GAN 可以完成不同種類(lèi)的生成任務(wù),它能夠生成現(xiàn)實(shí)中的圖片、三維模型、視頻和其他更有價(jià)值的樣本數(shù)據(jù)[6-11]。
針對(duì)生成式對(duì)抗網(wǎng)絡(luò)基于區(qū)域的特征學(xué)習(xí),提出區(qū)域生成式對(duì)抗網(wǎng)絡(luò)框架:包含2 個(gè)分類(lèi)器模型,其中一個(gè)用于對(duì)單個(gè)圖像進(jìn)行基于深度判別特征提取,另外一個(gè)分類(lèi)器也稱作對(duì)抗網(wǎng)絡(luò),用于區(qū)分標(biāo)簽圖和預(yù)測(cè)出來(lái)的概率圖,引入對(duì)抗網(wǎng)絡(luò)的目的是使得到的概率預(yù)測(cè)圖更符合真實(shí)的標(biāo)簽圖。將需要訓(xùn)練的影像記為{xn,yn,n=1,···,N}表示預(yù)測(cè)出來(lái)的概率圖,a(x,y)表示對(duì)抗網(wǎng)絡(luò)預(yù)測(cè)y是x的真實(shí)標(biāo)簽圖的概率。那么損失函數(shù)可以定義如下:
式中:Lmce(y1,y)表示預(yù)測(cè)的概率圖y1和真實(shí)標(biāo)簽圖y之間的多類(lèi)交叉熵?fù)p失;Lbce(z1,z) = - [zlnz1+(1-z)ln(1-z1)],表示兩類(lèi)交叉熵?fù)p失。
與傳統(tǒng)生成式對(duì)抗網(wǎng)絡(luò)的訓(xùn)練方法類(lèi)似,這里的模型訓(xùn)練也是通過(guò)迭代訓(xùn)練生成模型和判別模型來(lái)完成的。訓(xùn)練對(duì)抗模型的過(guò)程等價(jià)于優(yōu)化如下表達(dá)式,其物理意義是使得對(duì)抗模型對(duì)概率圖和真實(shí)標(biāo)簽圖的區(qū)分能力更強(qiáng),即:
基于生成式對(duì)抗網(wǎng)絡(luò)目標(biāo)特征學(xué)習(xí)流程如圖2所示。在良好訓(xùn)練的區(qū)域生成對(duì)抗網(wǎng)絡(luò)基礎(chǔ)上,根據(jù)輸入場(chǎng)景得到的區(qū)域類(lèi)標(biāo)圖進(jìn)行分析,即可得到場(chǎng)景中包含的目標(biāo)及其位置信息。
圖2 基于GAN 的樣本生成流程Fig.2 Sample generation process based on GAN
目前主要通過(guò)人工標(biāo)注大量樣本數(shù)據(jù)構(gòu)建訓(xùn)練樣本,根據(jù)這些樣本建立相關(guān)模型來(lái)實(shí)現(xiàn)目標(biāo)的檢測(cè)和識(shí)別。然而,人工標(biāo)注樣本數(shù)據(jù)是一項(xiàng)費(fèi)時(shí)費(fèi)力的工作,而且傳統(tǒng)的訓(xùn)練學(xué)習(xí)方法通常假設(shè)訓(xùn)練樣本與測(cè)試樣本來(lái)源于同樣的數(shù)據(jù)域。另外,傳統(tǒng)的訓(xùn)練學(xué)習(xí)方法只在擁有大量已標(biāo)注訓(xùn)練數(shù)據(jù)的前提下,對(duì)測(cè)試數(shù)據(jù)進(jìn)行比較,魯棒性分類(lèi)或標(biāo)注。在僅有少量標(biāo)注數(shù)據(jù)的情況下,傳統(tǒng)的學(xué)習(xí)方法很難訓(xùn)練出具有較強(qiáng)魯棒性、較好泛化能力的分類(lèi)器。所幸的是,遷移學(xué)習(xí)可以解決只有少量甚至沒(méi)有標(biāo)注數(shù)據(jù)的分類(lèi)器學(xué)習(xí)問(wèn)題。它通過(guò)利用其他不同相關(guān)數(shù)據(jù)域中已有的知識(shí)和數(shù)據(jù)來(lái)學(xué)習(xí)適用于感興趣數(shù)據(jù)域的分類(lèi)器[12-13]。
這里給出具體從現(xiàn)有相關(guān)數(shù)據(jù)集圖像中獲取知識(shí)用以自動(dòng)標(biāo)注樣本數(shù)據(jù)的遷移學(xué)習(xí)方法。首先,通過(guò)構(gòu)建一個(gè)新的判別式結(jié)構(gòu)化模型(跨領(lǐng)域結(jié)構(gòu)化模型),聯(lián)合獲取源圖像域特征與目標(biāo)圖像域特征之間的相關(guān)性,以及不同圖像屬性之間的關(guān)系。同時(shí),在此模型中,通過(guò)使用典型相關(guān)性分析構(gòu)建共同特征空間,使得源域與目標(biāo)域中的數(shù)據(jù)在統(tǒng)一的框架中聯(lián)合學(xué)習(xí)。為了避免單一特征獲得知識(shí)過(guò)于片面,在基于單一特征匹配的跨域知識(shí)遷移中引入了基于多特征聯(lián)合的匹配方法,提出分組權(quán)重聯(lián)合學(xué)習(xí)算法,有效地將不同但相關(guān)的圖像組分類(lèi)器遷移到樣本數(shù)據(jù)。使用一種共同特征子空間來(lái)解決知識(shí)遷移過(guò)程中源域與目標(biāo)域特征異構(gòu)的問(wèn)題,實(shí)現(xiàn)樣本數(shù)據(jù)自動(dòng)標(biāo)注,從而減少人工標(biāo)注的代價(jià)[14]。
圖3 跨域自適應(yīng)遷移學(xué)習(xí)的樣本無(wú)監(jiān)督標(biāo)注流程Fig.3 Sample unsupervised labeling process for crossdomain adaptive transfer learning
首先,建立一個(gè)共同的特征子空間,使不同特征空間中的數(shù)據(jù)能夠使用同一個(gè)分類(lèi)器進(jìn)行預(yù)測(cè)。這樣,得到的目標(biāo)域的分類(lèi)器具有更好的泛化性。源域Ds=(xs,P(Xs))包含了已標(biāo)注相關(guān)數(shù)據(jù)集,目標(biāo)域Dt=(xt,P(xt))為需要標(biāo)注的樣本數(shù)據(jù)。這里P(Xs)和P(Xt)分別表示源域數(shù)據(jù)的特征空間Xs和目標(biāo)域數(shù)據(jù)特征空間Xt的分布。
定義源域第g組樣本圖像的預(yù)分類(lèi)器為
式中:ω=[ω1;ω2]為預(yù)分類(lèi)器模板;xs,g是第g組圖像中的第s個(gè)圖像樣本。ψ(xs,g)和v(xs,g)分別是共同特征和圖像特征。目標(biāo)域中的圖像特征分布與源域的圖像特征分布在某種程度上是不一樣的,為消除這種不匹配,需要優(yōu)化預(yù)分類(lèi)器的模板ω1和ω2。源域的數(shù)據(jù)只在初始化組預(yù)分類(lèi)器時(shí)使用,在完成初始化后,源域中的樣本就逐漸被目標(biāo)域的樣本替代,從而得到最終的分類(lèi)平面。
在得到了預(yù)分類(lèi)器后,接下來(lái)的工作就是如何將這些分類(lèi)器整合起來(lái)得到目標(biāo)分類(lèi)器。這里使用一種新的聯(lián)合組權(quán)重學(xué)習(xí)方法,將不同的組根據(jù)他們與目標(biāo)域的相關(guān)性加權(quán)整合起來(lái),每個(gè)組的權(quán)重代表了這個(gè)組對(duì)分類(lèi)目標(biāo)視頻的貢獻(xiàn)。
在聯(lián)合組權(quán)重學(xué)習(xí)中,將樣本的目標(biāo)分類(lèi)器定義為
式中αg>0 是第g組的權(quán)重,將g歸一化,
基于對(duì)不同組的平滑假設(shè),既需要最小化目標(biāo)函數(shù)在標(biāo)注源域數(shù)據(jù)上的誤差,也需要最小化不同組分類(lèi)器在目標(biāo)域數(shù)據(jù)上的差距。學(xué)習(xí)計(jì)算框架可以表示為
式中λL,λG,λT>0 為平衡參數(shù)。(5)式中,為控制目標(biāo)函數(shù)ft的復(fù)雜度,α=[α1,α2,···,αg]T為所有分組的權(quán)重向量。
ΩL(ft)是目標(biāo)域分類(lèi)函數(shù)在源域的標(biāo)注數(shù)據(jù)上的損失函數(shù),定義為
如果僅僅使用源域中的已標(biāo)注數(shù)據(jù)訓(xùn)練目標(biāo)函數(shù)會(huì)導(dǎo)致目標(biāo)函數(shù)在訓(xùn)練數(shù)據(jù)上過(guò)擬合,從而降低了目標(biāo)函數(shù)的泛化性能。在一些傳統(tǒng)的直推式學(xué)習(xí)方法中,目標(biāo)域的未標(biāo)注數(shù)據(jù)也能提供一些約束信息,從而提高分類(lèi)效果。因此,考慮使用一個(gè)分組損失函數(shù)來(lái)保證目標(biāo)函數(shù)在分組上的平滑性,即:
這個(gè)損失函數(shù)約束同一個(gè)事件在不同的分組中應(yīng)該具有相似的決策值。從域適應(yīng)角度來(lái)看,假定屬于同一事件類(lèi)別的不同預(yù)分類(lèi)器,對(duì)于目標(biāo)域的未標(biāo)注樣本應(yīng)該具有相似的決策制。例如,假設(shè)源域的第i個(gè)分類(lèi)器和第k個(gè)分類(lèi)器屬于同一個(gè)事件,那么應(yīng)該認(rèn)為盡可能的相似。事實(shí)上,可以引入ΩG(ft)來(lái)懲罰那些遠(yuǎn)遠(yuǎn)偏離大部分事件相關(guān)組的樣本組。
使用目標(biāo)域的未標(biāo)注樣本來(lái)增強(qiáng)所學(xué)得模型的泛化性能,表示為正則項(xiàng):
整合以上所有各項(xiàng),可以得到如下優(yōu)化問(wèn)題:
公式(9)中的優(yōu)化問(wèn)題可以通過(guò)二次優(yōu)化算法得到解決。需要注意的是,基于特征的遷移學(xué)習(xí)方法和基于實(shí)例的遷移學(xué)習(xí)方法的不同是,基于特征遷移學(xué)習(xí)需要進(jìn)行特征變換,使得源域和目標(biāo)域數(shù)據(jù)變換到同一特征空間,而基于實(shí)例的遷移學(xué)習(xí)只是從實(shí)際數(shù)據(jù)中進(jìn)行選擇來(lái)得到與目標(biāo)域相似的部分?jǐn)?shù)據(jù),然后直接學(xué)習(xí)。
利用以上自動(dòng)標(biāo)注算法對(duì)實(shí)際采集的裝甲目標(biāo)圖像、生成的裝甲目標(biāo)圖像數(shù)據(jù)集各1 000 張進(jìn)行了自動(dòng)標(biāo)注測(cè)試,將結(jié)果與人工確認(rèn)進(jìn)行對(duì)比,對(duì)實(shí)際裝甲目標(biāo)圖像的標(biāo)注準(zhǔn)確率達(dá)到95%以上,對(duì)生成的裝甲目標(biāo)標(biāo)注準(zhǔn)確率達(dá)到83%以上。通過(guò)編寫(xiě)軟件實(shí)現(xiàn)標(biāo)注和訓(xùn)練數(shù)據(jù)處理,利用人工進(jìn)行少量的勘誤工作后,標(biāo)注的數(shù)據(jù)可以用于模型的訓(xùn)練,大大降低了樣本處理的工作負(fù)荷。
根據(jù)上述算法,在原有的裝甲目標(biāo)樣本數(shù)據(jù)基礎(chǔ)上,通過(guò)GAN 生成的樣本數(shù)據(jù)如圖4 所示。基于GAN 生成樣本,在一定程度上緩解了軍工背景下能夠采集到的樣本數(shù)目有限導(dǎo)致的模型過(guò)擬合,為后續(xù)目標(biāo)檢測(cè)和識(shí)別獲得足夠的樣本數(shù)據(jù)提供了保證。
圖4 GAN 生成的裝甲目標(biāo)樣本結(jié)果Fig.4 Sample results of armored targets generated by GAN
在對(duì)抗生成網(wǎng)絡(luò)中,判別器和生成器的目標(biāo)函數(shù)通常都是用來(lái)衡量它們各自的性能。例如,生成器的目標(biāo)函數(shù)用來(lái)衡量生成的圖片能騙過(guò)分類(lèi)器的性能,但是這并不能很好地衡量生成圖片的質(zhì)量和多樣性。通常,我們使用IS(inception score)和FID(fréchet inception distance)這2 個(gè)指標(biāo)來(lái)評(píng)價(jià)不同的GAN 模型,能夠給出模型的定量評(píng)價(jià)。Konstantin Shmelkov 等人認(rèn)為現(xiàn)有指標(biāo)不足以評(píng)估GAN模型,又引入了2 個(gè)基于圖像分類(lèi)的指標(biāo)GAN-train和GAN-test,分別對(duì)應(yīng)GAN 的召回率(多樣性)和精確率(圖像質(zhì)量),研究者還基于這2 個(gè)指標(biāo)評(píng)估了最近的GAN 方法并證明了這些方法性能的顯著差異,證明了這些評(píng)價(jià)標(biāo)準(zhǔn)的有效性[15-16]。
利用IS、FID、GAN-train 和GAN-test 指標(biāo)分別對(duì)本文所用的網(wǎng)絡(luò)進(jìn)行性能測(cè)試,測(cè)試的數(shù)據(jù)集包括本文的裝甲目標(biāo)數(shù)據(jù)集,以及常用的CIFAR10、CIFAR100、ImageNet 數(shù)據(jù)集。表1 給出了用本文方法產(chǎn)生的目標(biāo)圖像進(jìn)行評(píng)價(jià)的測(cè)試結(jié)果,其中IS 越高越好,F(xiàn)ID 越低越好。GAN-train和GAN-test 是以百分比形式給出的準(zhǔn)確率,越高越好。
由上表可以看出,數(shù)據(jù)集復(fù)雜程度(從CIFAR10到CIFAR100 再到ImageNet)與GAN 質(zhì)量呈負(fù)相關(guān)關(guān)系。為了便于比較生成圖像數(shù)據(jù)集大小對(duì)GANtrain 準(zhǔn)確率產(chǎn)生的影響,圖5 給出了改變真實(shí)圖像訓(xùn)練數(shù)據(jù)集大小對(duì)結(jié)果產(chǎn)生的影響。圖6 給出了利用純真實(shí)圖像和真實(shí)圖像與生成圖像的混合數(shù)據(jù)集對(duì)訓(xùn)練分類(lèi)器性能的影響,結(jié)果顯示利用真實(shí)圖像和生成圖像的混合數(shù)據(jù)集訓(xùn)練的分類(lèi)器的性能和使用純真實(shí)圖像時(shí)基本一致。
表1 測(cè)試結(jié)果Table 1 Test results
圖5 改變生成圖像數(shù)據(jù)集大小對(duì)GAN-train 準(zhǔn)確率產(chǎn)生的影響Fig.5 Effect of changing size of generated image data set on accuracy of GAN-train
圖6 用真實(shí)圖像和SNGAN 生成的圖像結(jié)合的數(shù)據(jù)集訓(xùn)練分類(lèi)器的結(jié)果Fig.6 Results of classifiers trained with data set of real images and images generated by SNGAN
自主裝甲目標(biāo)識(shí)別在軍事上有著重要的應(yīng)用價(jià)值,但是由于樣本數(shù)量較少,大大影響分類(lèi)器的訓(xùn)練效果,過(guò)擬合會(huì)導(dǎo)致分類(lèi)準(zhǔn)確率降底。本文提出了利用GAN 網(wǎng)絡(luò)生成裝甲目標(biāo)的方法,能夠一定程度上緩解樣本數(shù)目有限導(dǎo)致的模型過(guò)擬合。通過(guò)對(duì)生成樣本的測(cè)試和分析可以知道,數(shù)據(jù)集復(fù)雜程度與GAN 生成圖像質(zhì)量呈負(fù)相關(guān)關(guān)系,而裝甲目標(biāo)需要分類(lèi)的數(shù)據(jù)種類(lèi)少,剛好可以實(shí)現(xiàn)高質(zhì)量的圖像生成。進(jìn)一步測(cè)試結(jié)果也表明,利用真實(shí)圖像和生成圖像的混合數(shù)據(jù)集訓(xùn)練的分類(lèi)器的性能和使用純真實(shí)圖像時(shí)基本一致,利用GAN 網(wǎng)絡(luò)生成裝甲目標(biāo)圖像質(zhì)量較高,不會(huì)降低分類(lèi)器的性能,相關(guān)方法和流程可行,可以根據(jù)具體應(yīng)用進(jìn)一步優(yōu)化。