周立君,劉 宇,白 璐,茹志兵,于 帥
(1.西安應用光學研究所,陜西 西安 710065;2.西安北方光電科技防務有限公司,陜西 西安 710043)
目標檢測和識別技術在軍事領域有著重要的應用,近年來發(fā)展了很多基于深度學習的目標分類算法[1]。這些算法所依賴的模型參數(shù)需要通過大量的樣本進行訓練才能得到。然而軍事目標能夠采集到的樣本數(shù)目有限,且大樣本數(shù)據(jù)手工標注耗時且成本高等[2-3]。本文研究了基于生成式對抗網(wǎng)絡GAN(generative countermeasure network)和跨域自適應遷移學習的樣本生成和自動標注方法[4-5]。該方法利用自適應遷移學習網(wǎng)絡,基于已有的少量可見光圖像樣本集,挖掘目標在紅外和可見光圖像中特征內(nèi)在相關性,構建自適應的轉(zhuǎn)換遷移學習網(wǎng)絡模型,生成標注好的目標圖像,解決實際應用中紅外圖像樣本數(shù)量少且標注費時的問題,為后續(xù)多頻段協(xié)同目標檢測和識別獲得足夠的樣本數(shù)據(jù)。
這里以生成和自動標注紅外樣本數(shù)據(jù)為例。在圖1 中,虛線部分為GAN,首先將已有的紅外樣本數(shù)據(jù)輸入GAN,生成式對抗網(wǎng)絡通過學習該紅外圖像樣本的區(qū)域目標特征,然后生成與輸入樣本數(shù)據(jù)分布一致的無標注紅外圖像樣本數(shù)據(jù)。在這個過程中,生成模型捕捉樣本數(shù)據(jù)的分布,用服從某一分布(均勻分布,高斯分布等)的噪聲生成一個類似真實訓練數(shù)據(jù)的樣本。判別模型是一個分類器,估計一個樣本來自于訓練數(shù)據(jù)的概率,如果樣本來自于真實的訓練數(shù)據(jù),則輸出大概率,否則,輸出小概率。生成網(wǎng)絡不斷生成類似于樣本的“紅外圖像”,而判別網(wǎng)絡通過判別去除不符合要求的樣本數(shù)據(jù),最后獲取相關性強的樣本數(shù)據(jù)集。獲得的大量無標注紅外圖像樣本數(shù)據(jù),可解決軍工背景下訓練深度網(wǎng)絡所需大樣本數(shù)據(jù)缺失的問題。
圖1 多頻段數(shù)據(jù)自適應轉(zhuǎn)移學習方法的原理Fig.1 Principal diagram of multi-band data adaptive transfer learning method
圖1 下半部分是跨域自適應遷移學習技術路線,對現(xiàn)有的可見光相關數(shù)據(jù)集即源域進行學習,完成源域的標注問題即源任務,獲得在可見光領域下對目標的識別和標注的方法。通過跨域自適應遷移學習來構建學習系統(tǒng),并應用于紅外圖像的目標檢測與標注。對通過GAN 獲得的紅外圖像樣本數(shù)據(jù)進行跨域自適應無監(jiān)督遷移學習,實現(xiàn)對其自動標注,從而獲得大量標注好的紅外圖像樣本數(shù)據(jù)。
GAN 是Goodfellow 等人于2014 年提出的一種生成式模型,GAN 在結(jié)構上受博弈論中二人靈活博弈的啟發(fā),系統(tǒng)由一個生成器和一個判別器構成,生成器和判別器互為競爭關系。判別模型的任務是判斷給定的數(shù)據(jù)看起來是自然的還是人為偽造的,生成模型的任務是生成看起來自然真實并且和原始數(shù)據(jù)相似的數(shù)據(jù)。生成器試圖欺騙判別器,判別器則努力不被生成器欺騙。經(jīng)過交替優(yōu)化訓練,兩種模型都能得到提升,直到到達一個“假冒產(chǎn)品和真實產(chǎn)品無法區(qū)分”的點。生成器和判別器的目標是生成與訓練集中一些非常相似的數(shù)據(jù)點。GAN 的優(yōu)化過程是一個極小極大博弈問題,優(yōu)化目標是達到納什均衡,使得生成器估測到數(shù)據(jù)樣本的分布。在當前的人工智能熱潮下,GAN 的提出滿足了許多領域的研究和應用需求,同時為這些領域注入了新的發(fā)展動力。GAN 已經(jīng)成為人工智能學界一個熱門的研究方向,著名學者LeCun 甚至將其稱為“過去10 年間機器學習領域最讓人激動的點子”。目前,人們利用GAN 可以完成不同種類的生成任務,它能夠生成現(xiàn)實中的圖片、三維模型、視頻和其他更有價值的樣本數(shù)據(jù)[6-11]。
針對生成式對抗網(wǎng)絡基于區(qū)域的特征學習,提出區(qū)域生成式對抗網(wǎng)絡框架:包含2 個分類器模型,其中一個用于對單個圖像進行基于深度判別特征提取,另外一個分類器也稱作對抗網(wǎng)絡,用于區(qū)分標簽圖和預測出來的概率圖,引入對抗網(wǎng)絡的目的是使得到的概率預測圖更符合真實的標簽圖。將需要訓練的影像記為{xn,yn,n=1,···,N}表示預測出來的概率圖,a(x,y)表示對抗網(wǎng)絡預測y是x的真實標簽圖的概率。那么損失函數(shù)可以定義如下:
式中:Lmce(y1,y)表示預測的概率圖y1和真實標簽圖y之間的多類交叉熵損失;Lbce(z1,z) = - [zlnz1+(1-z)ln(1-z1)],表示兩類交叉熵損失。
與傳統(tǒng)生成式對抗網(wǎng)絡的訓練方法類似,這里的模型訓練也是通過迭代訓練生成模型和判別模型來完成的。訓練對抗模型的過程等價于優(yōu)化如下表達式,其物理意義是使得對抗模型對概率圖和真實標簽圖的區(qū)分能力更強,即:
基于生成式對抗網(wǎng)絡目標特征學習流程如圖2所示。在良好訓練的區(qū)域生成對抗網(wǎng)絡基礎上,根據(jù)輸入場景得到的區(qū)域類標圖進行分析,即可得到場景中包含的目標及其位置信息。
圖2 基于GAN 的樣本生成流程Fig.2 Sample generation process based on GAN
目前主要通過人工標注大量樣本數(shù)據(jù)構建訓練樣本,根據(jù)這些樣本建立相關模型來實現(xiàn)目標的檢測和識別。然而,人工標注樣本數(shù)據(jù)是一項費時費力的工作,而且傳統(tǒng)的訓練學習方法通常假設訓練樣本與測試樣本來源于同樣的數(shù)據(jù)域。另外,傳統(tǒng)的訓練學習方法只在擁有大量已標注訓練數(shù)據(jù)的前提下,對測試數(shù)據(jù)進行比較,魯棒性分類或標注。在僅有少量標注數(shù)據(jù)的情況下,傳統(tǒng)的學習方法很難訓練出具有較強魯棒性、較好泛化能力的分類器。所幸的是,遷移學習可以解決只有少量甚至沒有標注數(shù)據(jù)的分類器學習問題。它通過利用其他不同相關數(shù)據(jù)域中已有的知識和數(shù)據(jù)來學習適用于感興趣數(shù)據(jù)域的分類器[12-13]。
這里給出具體從現(xiàn)有相關數(shù)據(jù)集圖像中獲取知識用以自動標注樣本數(shù)據(jù)的遷移學習方法。首先,通過構建一個新的判別式結(jié)構化模型(跨領域結(jié)構化模型),聯(lián)合獲取源圖像域特征與目標圖像域特征之間的相關性,以及不同圖像屬性之間的關系。同時,在此模型中,通過使用典型相關性分析構建共同特征空間,使得源域與目標域中的數(shù)據(jù)在統(tǒng)一的框架中聯(lián)合學習。為了避免單一特征獲得知識過于片面,在基于單一特征匹配的跨域知識遷移中引入了基于多特征聯(lián)合的匹配方法,提出分組權重聯(lián)合學習算法,有效地將不同但相關的圖像組分類器遷移到樣本數(shù)據(jù)。使用一種共同特征子空間來解決知識遷移過程中源域與目標域特征異構的問題,實現(xiàn)樣本數(shù)據(jù)自動標注,從而減少人工標注的代價[14]。
圖3 跨域自適應遷移學習的樣本無監(jiān)督標注流程Fig.3 Sample unsupervised labeling process for crossdomain adaptive transfer learning
首先,建立一個共同的特征子空間,使不同特征空間中的數(shù)據(jù)能夠使用同一個分類器進行預測。這樣,得到的目標域的分類器具有更好的泛化性。源域Ds=(xs,P(Xs))包含了已標注相關數(shù)據(jù)集,目標域Dt=(xt,P(xt))為需要標注的樣本數(shù)據(jù)。這里P(Xs)和P(Xt)分別表示源域數(shù)據(jù)的特征空間Xs和目標域數(shù)據(jù)特征空間Xt的分布。
定義源域第g組樣本圖像的預分類器為
式中:ω=[ω1;ω2]為預分類器模板;xs,g是第g組圖像中的第s個圖像樣本。ψ(xs,g)和v(xs,g)分別是共同特征和圖像特征。目標域中的圖像特征分布與源域的圖像特征分布在某種程度上是不一樣的,為消除這種不匹配,需要優(yōu)化預分類器的模板ω1和ω2。源域的數(shù)據(jù)只在初始化組預分類器時使用,在完成初始化后,源域中的樣本就逐漸被目標域的樣本替代,從而得到最終的分類平面。
在得到了預分類器后,接下來的工作就是如何將這些分類器整合起來得到目標分類器。這里使用一種新的聯(lián)合組權重學習方法,將不同的組根據(jù)他們與目標域的相關性加權整合起來,每個組的權重代表了這個組對分類目標視頻的貢獻。
在聯(lián)合組權重學習中,將樣本的目標分類器定義為
式中αg>0 是第g組的權重,將g歸一化,
基于對不同組的平滑假設,既需要最小化目標函數(shù)在標注源域數(shù)據(jù)上的誤差,也需要最小化不同組分類器在目標域數(shù)據(jù)上的差距。學習計算框架可以表示為
式中λL,λG,λT>0 為平衡參數(shù)。(5)式中,為控制目標函數(shù)ft的復雜度,α=[α1,α2,···,αg]T為所有分組的權重向量。
ΩL(ft)是目標域分類函數(shù)在源域的標注數(shù)據(jù)上的損失函數(shù),定義為
如果僅僅使用源域中的已標注數(shù)據(jù)訓練目標函數(shù)會導致目標函數(shù)在訓練數(shù)據(jù)上過擬合,從而降低了目標函數(shù)的泛化性能。在一些傳統(tǒng)的直推式學習方法中,目標域的未標注數(shù)據(jù)也能提供一些約束信息,從而提高分類效果。因此,考慮使用一個分組損失函數(shù)來保證目標函數(shù)在分組上的平滑性,即:
這個損失函數(shù)約束同一個事件在不同的分組中應該具有相似的決策值。從域適應角度來看,假定屬于同一事件類別的不同預分類器,對于目標域的未標注樣本應該具有相似的決策制。例如,假設源域的第i個分類器和第k個分類器屬于同一個事件,那么應該認為盡可能的相似。事實上,可以引入ΩG(ft)來懲罰那些遠遠偏離大部分事件相關組的樣本組。
使用目標域的未標注樣本來增強所學得模型的泛化性能,表示為正則項:
整合以上所有各項,可以得到如下優(yōu)化問題:
公式(9)中的優(yōu)化問題可以通過二次優(yōu)化算法得到解決。需要注意的是,基于特征的遷移學習方法和基于實例的遷移學習方法的不同是,基于特征遷移學習需要進行特征變換,使得源域和目標域數(shù)據(jù)變換到同一特征空間,而基于實例的遷移學習只是從實際數(shù)據(jù)中進行選擇來得到與目標域相似的部分數(shù)據(jù),然后直接學習。
利用以上自動標注算法對實際采集的裝甲目標圖像、生成的裝甲目標圖像數(shù)據(jù)集各1 000 張進行了自動標注測試,將結(jié)果與人工確認進行對比,對實際裝甲目標圖像的標注準確率達到95%以上,對生成的裝甲目標標注準確率達到83%以上。通過編寫軟件實現(xiàn)標注和訓練數(shù)據(jù)處理,利用人工進行少量的勘誤工作后,標注的數(shù)據(jù)可以用于模型的訓練,大大降低了樣本處理的工作負荷。
根據(jù)上述算法,在原有的裝甲目標樣本數(shù)據(jù)基礎上,通過GAN 生成的樣本數(shù)據(jù)如圖4 所示?;贕AN 生成樣本,在一定程度上緩解了軍工背景下能夠采集到的樣本數(shù)目有限導致的模型過擬合,為后續(xù)目標檢測和識別獲得足夠的樣本數(shù)據(jù)提供了保證。
圖4 GAN 生成的裝甲目標樣本結(jié)果Fig.4 Sample results of armored targets generated by GAN
在對抗生成網(wǎng)絡中,判別器和生成器的目標函數(shù)通常都是用來衡量它們各自的性能。例如,生成器的目標函數(shù)用來衡量生成的圖片能騙過分類器的性能,但是這并不能很好地衡量生成圖片的質(zhì)量和多樣性。通常,我們使用IS(inception score)和FID(fréchet inception distance)這2 個指標來評價不同的GAN 模型,能夠給出模型的定量評價。Konstantin Shmelkov 等人認為現(xiàn)有指標不足以評估GAN模型,又引入了2 個基于圖像分類的指標GAN-train和GAN-test,分別對應GAN 的召回率(多樣性)和精確率(圖像質(zhì)量),研究者還基于這2 個指標評估了最近的GAN 方法并證明了這些方法性能的顯著差異,證明了這些評價標準的有效性[15-16]。
利用IS、FID、GAN-train 和GAN-test 指標分別對本文所用的網(wǎng)絡進行性能測試,測試的數(shù)據(jù)集包括本文的裝甲目標數(shù)據(jù)集,以及常用的CIFAR10、CIFAR100、ImageNet 數(shù)據(jù)集。表1 給出了用本文方法產(chǎn)生的目標圖像進行評價的測試結(jié)果,其中IS 越高越好,F(xiàn)ID 越低越好。GAN-train和GAN-test 是以百分比形式給出的準確率,越高越好。
由上表可以看出,數(shù)據(jù)集復雜程度(從CIFAR10到CIFAR100 再到ImageNet)與GAN 質(zhì)量呈負相關關系。為了便于比較生成圖像數(shù)據(jù)集大小對GANtrain 準確率產(chǎn)生的影響,圖5 給出了改變真實圖像訓練數(shù)據(jù)集大小對結(jié)果產(chǎn)生的影響。圖6 給出了利用純真實圖像和真實圖像與生成圖像的混合數(shù)據(jù)集對訓練分類器性能的影響,結(jié)果顯示利用真實圖像和生成圖像的混合數(shù)據(jù)集訓練的分類器的性能和使用純真實圖像時基本一致。
表1 測試結(jié)果Table 1 Test results
圖5 改變生成圖像數(shù)據(jù)集大小對GAN-train 準確率產(chǎn)生的影響Fig.5 Effect of changing size of generated image data set on accuracy of GAN-train
圖6 用真實圖像和SNGAN 生成的圖像結(jié)合的數(shù)據(jù)集訓練分類器的結(jié)果Fig.6 Results of classifiers trained with data set of real images and images generated by SNGAN
自主裝甲目標識別在軍事上有著重要的應用價值,但是由于樣本數(shù)量較少,大大影響分類器的訓練效果,過擬合會導致分類準確率降底。本文提出了利用GAN 網(wǎng)絡生成裝甲目標的方法,能夠一定程度上緩解樣本數(shù)目有限導致的模型過擬合。通過對生成樣本的測試和分析可以知道,數(shù)據(jù)集復雜程度與GAN 生成圖像質(zhì)量呈負相關關系,而裝甲目標需要分類的數(shù)據(jù)種類少,剛好可以實現(xiàn)高質(zhì)量的圖像生成。進一步測試結(jié)果也表明,利用真實圖像和生成圖像的混合數(shù)據(jù)集訓練的分類器的性能和使用純真實圖像時基本一致,利用GAN 網(wǎng)絡生成裝甲目標圖像質(zhì)量較高,不會降低分類器的性能,相關方法和流程可行,可以根據(jù)具體應用進一步優(yōu)化。