冉建國,劉 珩,張 月
(陸軍工程大學,江蘇 南京 210007)
數(shù)碼迷彩是采用規(guī)則的最小可分辨色塊,進行排列組合生成的一種能在不同分辨率下和背景特征相匹配的迷彩方案。在國外,美國自20世紀70年代開展數(shù)碼迷彩研究以來,先后經(jīng)歷了雙重紋理偽裝和Dual-Tex數(shù)碼迷彩,20世紀末,又相繼開發(fā)了林地型、城市型和荒漠型數(shù)碼迷彩,2001年加拿大國防研究基地申請了CADPAT TW專利。國內(nèi)數(shù)碼迷彩研究始于1984年,在87式防雷達偵察偽裝遮障研制中提出并應(yīng)用了雙重結(jié)構(gòu)迷彩,其形態(tài)與目前的數(shù)碼迷彩如出一轍。2006年,在二維結(jié)構(gòu)網(wǎng)面上實現(xiàn)了三維結(jié)構(gòu)設(shè)計,國慶70周年大部分閱兵裝備上也采用了數(shù)碼迷彩。在數(shù)碼迷彩偽裝方案設(shè)計中,通常用提前設(shè)計好的通用模板進行填充。迷彩的本質(zhì)是無限接近于使用環(huán)境以方便隱藏目標,如圖1所示。在目標上實施迷彩的偽裝成效,主要取決于背景顏色的復(fù)制水平和采用迷彩的類型。迷彩偽裝通常依賴于聚類方法以提取主色。大多數(shù)背景基本上是色彩斑駁的,很少有單一顏色。因此,主色提取的準確與否被用來衡量迷彩偽裝的優(yōu)劣。
圖1 不同迷彩偽裝方案的視覺比較
傳統(tǒng)方法的一個潛在缺點是在主色提取后,原始圖像中的結(jié)構(gòu)、紋理和顏色可能會發(fā)生變化。另外,大多數(shù)用于迷彩偽裝方案設(shè)計的經(jīng)典技術(shù),使用手工拼圖技術(shù),這對設(shè)計方法的結(jié)果有顯著影響。為此,我們提出了一種基于pix2pix(Image-to Image Translation,圖像翻譯)的設(shè)計方法,圖像處理、計算機圖形學和計算機視覺中的許多問題都可以歸結(jié)為將輸入圖像“翻譯”成相應(yīng)的輸出圖像。該方法不僅消除了對參考圖像的需求,而且獲得了與地面真實情況的高度視覺相似性。本文利用pix2pix架構(gòu)將背景圖像數(shù)據(jù)集和相應(yīng)的數(shù)碼迷彩數(shù)據(jù)集訓練后,比較生成的數(shù)碼迷彩方案與背景的真實情況。結(jié)果表明,使用pix2pix有利于提取紋理的特征,表現(xiàn)出顯著的改進,保存重要顏色信息。此外,本文的方法從像素出發(fā)預(yù)測底層結(jié)構(gòu),因此,可以說pix2pix是一種有效的處理方法,可以減少人工干預(yù)的影響。
深度神經(jīng)網(wǎng)絡(luò)是一種模仿神經(jīng)網(wǎng)絡(luò)進行信息分布式處理的數(shù)學模型,生成對抗網(wǎng)絡(luò)(Generative Adversarial Networks,GAN)是一種神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu),具備生成數(shù)據(jù)的能力,是深度學習的一種高級形式。由于其生成數(shù)據(jù)的強大能力,在深度學習的領(lǐng)域廣受歡迎。雖然僅僅過去幾年的時間,但生成對抗網(wǎng)絡(luò)的功能已經(jīng)不再只產(chǎn)生模糊數(shù)字,而是能夠生成非常逼真的圖像,但GAN采用無監(jiān)督學習的方式在提取特征的過程中沒有針對性,導(dǎo)致生成的圖像顏色布局比較隨意,主要顏色失真度較高,圖像結(jié)構(gòu)難以保持穩(wěn)定。生成器負責將噪聲向量映射到潛在輸出空間目標域,判別器負責區(qū)分圖像是訓練生成的還是真實的。生成器和判別器都是用反向傳播訓練的,它們都有各自的損耗函數(shù)。在這里,我們分別稱它們?yōu)楹?。GAN的網(wǎng)絡(luò)架構(gòu)示意圖如圖2所示,是潛在空間,其流程是負責將采集的噪聲矢量傳達到,是生成器網(wǎng)絡(luò),將傳達過來的噪聲矢量轉(zhuǎn)變成圖像,接著,將生成的假的樣本和訓練數(shù)據(jù)使用的真的樣本同時輸入,是判別器,可以設(shè)定不同的判別參數(shù),用以區(qū)分生成的圖像和真實的數(shù)據(jù)集圖像,最后,看兩者圖像之間的差別是否比設(shè)定的參數(shù)小來區(qū)別真假圖像。目前,幾乎所有的GAN都是這樣的網(wǎng)絡(luò)架構(gòu)。GAN最初的目標函數(shù)如下所示。
圖2 GAN的架構(gòu)
~()[log(1-(()))]
(1)
其中,()是判別網(wǎng)絡(luò)模型,()是生成網(wǎng)絡(luò)模型,()是真實數(shù)據(jù)分布,()是生成網(wǎng)絡(luò)生成的數(shù)據(jù)分布,是期望輸出。在訓練過程中,(判別網(wǎng)絡(luò),discriminator)試圖最大化公式的最終取值,而(生成網(wǎng)絡(luò),generator)試圖最小化該值。如此訓練出來的GAN中,生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò)之間會達到一種平衡,此時模型即“收斂”了。
目前,國內(nèi)外對迷彩偽裝圖案設(shè)計開展了大量的研究,從國外公開的技術(shù)資料來看,主要也是利用分形、聚類等方法設(shè)計迷彩圖案,美國已實現(xiàn)計算機自動設(shè)計圖案,由機具或機器人實施噴涂作業(yè)。國內(nèi)的迷彩偽裝研究起步于20世紀60年代,目前,迷彩圖案設(shè)計研究較多的大學和科研院所主要有陸軍工程大學、國防科技大學、陸軍研究院、西安工業(yè)大學、東北大學等。采用多種模型和聚類方法對顏色、亮度、紋理、邊緣、尺寸開展了迷彩圖案設(shè)計。賈其等分析了目標偽裝面臨的偵察威脅,從人眼的分辨率和偽裝斑點的設(shè)計原則出發(fā)對迷彩的斑點形狀和尺寸進行了研究;陳祥安分析了迷彩偽裝的特點,指出了小斑點迷彩的優(yōu)點,論述了色彩混合規(guī)律和同色異譜現(xiàn)象,并提出了小斑點迷彩設(shè)計的初步方案;雙曉結(jié)合數(shù)碼迷彩和仿造迷彩的基本特點,借助計算機圖像處理技術(shù),通過提取自然背景的主色、紋理以及層次性等主要特征信息,形成以像素點陣為基本單元、能反映背景斑塊特征的數(shù)碼迷彩圖案;武國晶等在充分考慮人雙目立體成像的生理特征的基礎(chǔ)上提出了一種基于柱透鏡光柵的數(shù)碼迷彩立體動態(tài)成像算法,推導(dǎo)出迷彩立體動態(tài)成像的視差設(shè)計原理,并根據(jù)背景深度信息將數(shù)碼迷彩圖像分為多幅迷彩深度序列圖,最終生成一幅光柵圖像,用來裱貼于光柵板后即可實現(xiàn)立體動態(tài)數(shù)碼迷彩;張勇針對迷彩偽裝設(shè)計的難題,提出了仿生迷彩的概念,將生物特征信息融入傳統(tǒng)迷彩設(shè)計準則,闡述了仿生迷彩生成方法,設(shè)計了四種仿生迷彩,并對仿生迷彩偽裝的效果進行了評估。除此之外,還有很多學者利用計算機視覺技術(shù)為提高偽裝圖像的質(zhì)量進行了相關(guān)研究。這些方法從不同的角度設(shè)計迷彩偽裝圖像,并取得了偽裝質(zhì)量的改善,但是在偽裝圖像與背景的匹配質(zhì)量及生成偽裝圖像的效率方面依然有比較大的提升空間。目前,對于偽裝設(shè)計方法的研究已經(jīng)不僅僅局限于迷彩斑點的設(shè)計,高精度的戰(zhàn)場環(huán)境對偽裝的準確性與實時性都提出了很高的要求,這也促使更多學者從不同角度采用不同方法來解決偽裝技術(shù)的設(shè)計難題,提出可行的偽裝設(shè)計方法能夠使裝備與背景更好地融合并且更有效率地實施偽裝,已經(jīng)成為軍事科學界研究的重要難題。
在GAN中,生成器僅從潛在變量產(chǎn)生圖像。然而,在圖像到圖像的轉(zhuǎn)換任務(wù)中,生成的圖像必須與源圖像相關(guān)。為了解決這個問題,可以使用條件GANs (cGAN),將附加信息作為輸入。例如,接收源圖像作為生成器和鑒別器的附加信息。cGANs的損失函數(shù)如下:
~()[log(1-((·)·))]
(2)
本文首次使用pix2pix來進行數(shù)碼迷彩方案設(shè)計。pix2pix是一個擴展的cGAN,它學習從輸入圖像到輸出圖像的映射,并使用一個損失函數(shù)來訓練這種映射。在pix2pix中,L1損耗鼓勵生成器生成一個類似于條件變量的樣本。它是訓練圖像和生成圖像(,)之間每個像素差的絕對值的平均值。
1()=,,[‖(·)-‖]
(3)
最后,式(3)作為一個L1規(guī)范化術(shù)語被添加到式(2),用作對抗性損失。本工作中的損耗函數(shù)如下:
(·)=(·)+1()
(4)
其中,λ表示控制項權(quán)重的超參數(shù)。在本文的例子中,它被設(shè)置為100。在訓練期間,最小化生成器,最大化判別器。換句話說,訓練的目的是找到解決優(yōu)化問題的目標函數(shù):
~()[(())]
(5)
pix2pix方法需要訓練階段的圖像對,由原始圖像和相應(yīng)的變換圖像組成,生成器中使用的U-net和鑒別器中的PatchGAN有類似的架構(gòu)。在U-net架構(gòu)中,編碼器層和解碼器層通過圖中黃色模塊和藍色模塊“跳躍連接”的方式直接連接。因為這種連接可以避開編碼器-解碼器網(wǎng)絡(luò)的瓶頸傳輸?shù)图壭畔?這些信息通常在輸入和輸出圖像之間共享),能夠充分融合特征,有效地提高了圖像轉(zhuǎn)換的性能。在卷積PatchGAN中,將每張圖像分成×段,不是對整個圖像進行分類而是判斷輸入的*大小區(qū)域是真還是假。最后,取所有答案的平均值,進行最終的分類。換句話說,只有特定規(guī)模的補丁結(jié)構(gòu)才會受到懲罰。pix2pix通用框架如圖3所示。通過判別器輸出的對抗損耗和數(shù)碼迷彩圖像輸出的損耗約束生成圖像和真實圖像之間的差異,更新生成器的權(quán)值。同時訓練一個條件生成器和判別器。訓練生成器根據(jù)輸入圖像生成圖像(以生成數(shù)碼迷彩圖像為例)。該判別器的目的是對生成的數(shù)碼迷彩圖像進行真假分類。
圖3 pix2pix框架圖
本文中的優(yōu)化模型改善了得到圖像的清晰度,以真實背景數(shù)據(jù)為基礎(chǔ),通過改進目標函數(shù)極大地減小了生成數(shù)據(jù)與真實數(shù)據(jù)間的差異;其次,通過擴展顏色空間參數(shù)盡可能地保留背景的主要顏色。最后,通過結(jié)構(gòu)相似性分析和心理物理學實驗進行效果評估,說明了模型在迷彩偽裝中的客觀性與可靠性,對偽裝作業(yè)設(shè)計與實施均具有重要意義。
本文將pix2pix與三種較好的數(shù)碼迷彩生成技術(shù)進行了比較。
本文數(shù)據(jù)集由240張背景圖與相應(yīng)的數(shù)碼迷彩圖組成,每張圖像大小為256×256像素,擴充后最終得到了450張非重疊的數(shù)據(jù)集。對于訓練集,我們從這些圖像中提取400對隨機圖像。另外,為了定量評估,我們將剩余的50張圖像作為測試集(在訓練集中看不到)。為了驗證所提出算法的有效性,本文編寫了Python程序并完成了相關(guān)實驗。在Windows 10系統(tǒng)上選用Python搭建生成對抗網(wǎng)絡(luò)。訓練過程使用GPU芯片,顯卡型號為TITAN V,顯存大小為120 G。
Pix2pix不僅學習真實背景到數(shù)碼迷彩斑塊的映射,還學習一個損失函數(shù)來訓練這種映射。由于判別器的訓練相對于生成器來說是快速的,因此,判別器損耗分為兩部分來減緩訓練過程(見圖4)。生成器和判別器模型都使用隨機梯度下降的Adam版本進行訓練,學習速率為0.000 2。動量參數(shù)=0.5。此外,兩個網(wǎng)絡(luò)權(quán)值都是從均值為0、標準差為0.02的高斯分布初始化的。每次實驗訓練30個epoch,每幅圖像后更新模型,換句話說,batch size為1。根據(jù)損耗值進行訓練后,我們選擇一個背景模型,然后使用這個模型,可以將該圖像轉(zhuǎn)換成數(shù)碼迷彩圖案。圖4表示生成器和判別器損失函數(shù)在訓練過程中的變化情況。
圖4 生成器和判別器在訓練期間的損失
利用結(jié)構(gòu)相似性(Structural SIMilarity,SSIM)算法來評估生成數(shù)碼迷彩的有效性,在評估相似性時,這個值的下降部分是由于兩類數(shù)據(jù)集之間的微小差異造成的。因此,為了展示STST的優(yōu)秀結(jié)果,我們檢驗了不同的評價指標。用于比較的度量是結(jié)構(gòu)相似指數(shù)(SSIM)、峰值信噪比(PSNR)、均方誤差(MSE),如表1所示。
圖5a)代表原背景圖,b)~f)分別表示使用不同方法生成的數(shù)碼迷彩,結(jié)合表1中的數(shù)據(jù)分析生成數(shù)碼迷彩的質(zhì)量,SSIM值整體偏低,說明幾種方法生成的數(shù)碼迷彩在變形方面有不錯的效果,但前4種方法顏色失真度較高,本文方法與原背景圖融合性較高,所以SSIM 值稍高,顏色方面pix2pix保持得相對較好。大多數(shù)計算指標的設(shè)計不是為了直接衡量歸一化圖像的感知相似性,因此,評價結(jié)果有時可能與主觀印象不相容。但通過視覺評價,一般可以檢驗不同方法的有效性,如表2所示。
表1 使用不同方法生成的數(shù)碼迷彩方案評價指標(平均值±std)
圖5 對來自不同方法生成的數(shù)碼迷彩比較
表2 用不同方法生成的數(shù)碼迷彩時間對比
下面從心理物理學角度檢驗幾種類型迷彩的遮蔽效果,類別判定法是一種對刺激的感知進行分類的心理物理學實驗方法。該方法要求觀察者進行刺激感知后按照類別判定量表進行分類,如表3所示。采用該方法實驗時,根據(jù)Torgerson的類別判定法和統(tǒng)計假設(shè)理論,將統(tǒng)計結(jié)果轉(zhuǎn)化為等距量表。
表3 類別判定量表
在實驗設(shè)計中,共安排了10名色覺正常的觀察者參加,均為在校大學本科生,包括5名男性和5名女性,年齡介于20~25歲之間。每名觀察者進行了兩次實驗,用來分析觀察者間的精度。因此,本實驗所獲得的視覺評價數(shù)據(jù)共有100個。
將不同方法生成的圖案制作成6.8 m×6.8 m的制式偽裝網(wǎng),在200 m距離上利用人眼進行觀察。光柵法生成的數(shù)碼迷彩10名學生當中7名選擇類別5(恰好不可接受),另外3名選擇類別4(勉強可以接受);馬爾科夫鏈法生成的迷彩10名學生當中5名選擇類別4(勉強可以接受),另外5名選擇類別5(恰好不可接受);立體動態(tài)和循環(huán)一致生成網(wǎng)絡(luò)生成的迷彩結(jié)果10名學生當中7名選擇類別3(可感知且可完全接受),2名選擇選擇類別4(勉強可以接受),1名選擇類別5(恰好不可接受);本文方法10名學生當中7名選擇類別1(無色差),另外3名選擇類別3(可感知且可完全接受)。
表4 心理物理學統(tǒng)計
本文使用了pix2pix架構(gòu)來進行圖像到圖像的轉(zhuǎn)換,為背景紋理和顏色的模擬提供了合適的技術(shù)途徑。以生成對抗網(wǎng)絡(luò)為支撐的設(shè)計技術(shù)體系可以生成融合度較高的數(shù)碼迷彩圖案,能有效對付不同距離的偵察威脅。針對模型效果評估的問題,提出利用結(jié)構(gòu)相似性(SSIM)和心理物理學實驗方法進行偽裝效果評估。實驗結(jié)果表明,該方法獲得的處理時間比所有測試方法都要短(見表2),并且在評價指標上取得了不錯的效果,驗證了所提出方法在數(shù)碼迷彩設(shè)計中的有效性。因此我們得出結(jié)論,該方法優(yōu)于經(jīng)典常規(guī)的數(shù)碼迷彩生成方法,可用于數(shù)碼迷彩的方案設(shè)計。