冉建國(guó),劉 珩,楊 鑫
(陸軍工程大學(xué),江蘇 南京 210007)
夜間實(shí)施迷彩作業(yè)主要受限于光照條件,難以獲取有效背景信息,成為偽裝技術(shù)中的一大難題。考慮到紅外數(shù)據(jù)不受白天黑夜的限制,本文提出將紅外圖像轉(zhuǎn)換成彩色圖像的構(gòu)想。傳統(tǒng)的場(chǎng)景重建技術(shù),大多利用數(shù)學(xué)計(jì)算的方式從二維圖像中恢復(fù)三維立體結(jié)構(gòu)信息。尤其近年來(lái)消費(fèi)級(jí)深度相機(jī)的出現(xiàn),通過(guò)儀器設(shè)備,比如深度掃描儀,Kinect等儀器,將 RGB 彩色圖信息與深度圖信息進(jìn)行融合計(jì)算,進(jìn)而完成三維場(chǎng)景重建。這類傳統(tǒng)的三維場(chǎng)景重建方法經(jīng)過(guò)不斷的研究改進(jìn),目前已經(jīng)趨于成熟,如基于2D匹配圖像的SFM(Structure from Motion)算法[1]、用RGBD相機(jī)實(shí)時(shí)三維重建的Kinect Fusion 算法[2-3]、基于RGB圖像和模型的亮度變化連續(xù)性的Bundle Fusion 算法[4]。以 Kinect Fusion算法為例,其采用了Frame-to-Model 的方式注冊(cè)(通過(guò)當(dāng)前幀深度圖像轉(zhuǎn)換得到的點(diǎn)云,和根據(jù)上一幀相機(jī)位姿從模型投影獲取的深度圖像轉(zhuǎn)換得到的點(diǎn)云進(jìn)行配準(zhǔn)),通過(guò)深度傳感器拍攝的深度信息來(lái)對(duì)相機(jī)軌跡進(jìn)行跟蹤并實(shí)時(shí)重建場(chǎng)景的三維建模算法。迷彩的本質(zhì)是無(wú)限接近于使用環(huán)境以方便隱藏目標(biāo)。在目標(biāo)上實(shí)施迷彩的偽裝成效,主要取決于背景顏色的復(fù)制水平[5]。以上三種方法的共同特點(diǎn)是,在白天取景,且均是利用重構(gòu)算法將2D圖像轉(zhuǎn)換為3D圖像。迷彩偽裝方案設(shè)計(jì)的關(guān)注點(diǎn)主要在背景顏色的采集上,夜晚無(wú)法有效獲取光學(xué)數(shù)據(jù),這對(duì)設(shè)計(jì)方法的結(jié)果有顯著影響,紅外熱圖的獲取卻不受影響。為此,我們提出了一種基于pix2pix的紅外圖像與可見(jiàn)光圖像轉(zhuǎn)換的設(shè)計(jì)方法,將可見(jiàn)光數(shù)據(jù)集和對(duì)應(yīng)的熱紅外數(shù)據(jù)集訓(xùn)練后,進(jìn)行了紅外熱圖場(chǎng)景重建,獲得了與地面背景真實(shí)情況基本一致的視覺(jué)特性。結(jié)果表明,使用pix2pix能夠進(jìn)行場(chǎng)景重建,得到了重要的背景顏色信息[6]。因此可以說(shuō)pix2pix是一種有效的場(chǎng)景重建方法,解決了夜間可見(jiàn)光信息采集的難題。
生成對(duì)抗網(wǎng)絡(luò)(generative adversarial networks,GAN)是一種無(wú)監(jiān)督機(jī)器學(xué)習(xí)算法生成數(shù)據(jù)的深度神經(jīng)網(wǎng)絡(luò)架構(gòu),理論上可用于場(chǎng)景重建模型,因?yàn)樗梢詫W(xué)習(xí)圖像數(shù)據(jù)的分布方式,但GAN采用無(wú)監(jiān)督學(xué)習(xí)的方式在提取特征的過(guò)程中沒(méi)有針對(duì)性,導(dǎo)致生成的圖像顏色布局比較隨意,主要顏色失真度較高,圖像結(jié)構(gòu)難以保持穩(wěn)定[7]。生成器負(fù)責(zé)學(xué)習(xí)從一個(gè)噪聲向量映射在潛在的輸出圖像的空間目標(biāo)域,判別器負(fù)責(zé)將圖像從訓(xùn)練圖像或生成器產(chǎn)生的圖像進(jìn)行分類。生成器和判別器都是用反向傳播訓(xùn)練的,它們都有各自的損耗函數(shù)。GAN的體系結(jié)構(gòu)如圖1所示。為了使生成網(wǎng)絡(luò)生成的圖像能以假亂真,達(dá)到逼真的目的,應(yīng)盡量提高生成網(wǎng)絡(luò)生成數(shù)據(jù)和真實(shí)數(shù)據(jù)之間的相似度??墒褂媚繕?biāo)函數(shù)測(cè)量這種相似度。生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò)均有目標(biāo)函數(shù),訓(xùn)練過(guò)程中也分別試圖最小化各自的目標(biāo)函數(shù)。GAN最初的目標(biāo)函數(shù)如下所示:
圖1 GAN的架構(gòu)Fig.1 The structure of the GAN
[log(1-D(G(z)))]
(1)
其中,D(x)是判別網(wǎng)絡(luò)模型;G(z)是生成網(wǎng)絡(luò)模型;p(x)是真實(shí)數(shù)據(jù)分布;p(z)是生成網(wǎng)絡(luò)生成的數(shù)據(jù)分布;E是期望輸出。在訓(xùn)練過(guò)程中;D(判別網(wǎng)絡(luò),discriminator)試圖最大化公式的最終取值;而G(生成網(wǎng)絡(luò),generator)試圖最小化該值。如此訓(xùn)練出來(lái)的GAN中,生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò)之間會(huì)達(dá)到一種平衡,此時(shí)模型即“收斂”了。
本文首次嘗試紅外圖像與可見(jiàn)光圖像轉(zhuǎn)換達(dá)到場(chǎng)景重建的目的。在GAN中,生成器僅從潛在變量z產(chǎn)生圖像。然而,在圖像到圖像的平移任務(wù)中,生成的圖像必須與源圖像相關(guān)。為了解決這個(gè)問(wèn)題,可以使用條件GANs(cGAN),將附加信息y作為輸入[8]。例如,接收源圖像作為生成器和鑒別器的附加信息。cGANs的損失函數(shù)如下:
LG=-Ex~pdata(x)[log(1-D(x,z)]-
Ez~p(z)[log(D(z,x))]
(2)
LD=-Ex~pdata(x)[log(D(x,z))]
-Ez~p(z)[log(1-D(z,x)]
(3)
觀察上式,能發(fā)現(xiàn)的一個(gè)明顯特點(diǎn)是,兩個(gè)公式把D部分中的x和z部分交換了一下,符合GAN的基本思想:鑒別器負(fù)責(zé)鑒定真實(shí)圖像,生成器負(fù)責(zé)生成虛假圖像。本文的框架是使用Isola等[9]人的工作,pix2pix是一個(gè)擴(kuò)展的cGAN,用真實(shí)圖像代替隨機(jī)噪聲,學(xué)習(xí)從輸入圖像到輸出圖像的映射,并使用一個(gè)損失函數(shù)來(lái)訓(xùn)練這種映射,生成器和判別器分別由 U-Net 和 PatchGAN 組成。在pix2pix中,損耗鼓勵(lì)生成器生成一個(gè)類似于條件變量x的樣本。它是訓(xùn)練圖像x和生成圖像G(x,y)之間每個(gè)像素差的絕對(duì)值的平均值。本文引入了一個(gè)多尺度融合網(wǎng)絡(luò),使用空洞卷積在同等參數(shù)數(shù)量情況下額外擴(kuò)大了感受野。多尺度融合網(wǎng)絡(luò)模塊如圖2所示。
卷積神經(jīng)網(wǎng)絡(luò)通過(guò)逐層學(xué)習(xí)的方式提取目標(biāo)的特征,高層網(wǎng)絡(luò)語(yǔ)義信息表征能力強(qiáng),但是特征圖的分辨率低,空間幾何特征細(xì)節(jié)缺乏;低層網(wǎng)絡(luò)幾何細(xì)節(jié)信息表征能力強(qiáng),但是語(yǔ)義信息表征能力弱。本文采用高層與低層跳躍互聯(lián)的方法。從圖2中可以看到,該結(jié)構(gòu)的優(yōu)勢(shì)在于層與層之間并不孤立,每一層與其他層之間均有關(guān)聯(lián),優(yōu)化了網(wǎng)絡(luò)結(jié)構(gòu),縮短了傳輸路徑,節(jié)省了運(yùn)算時(shí)間。
圖2 多尺度融合網(wǎng)絡(luò)模塊Fig.2 Multi-scale fusion network module
Pix2pix方法需要訓(xùn)練圖像對(duì),該圖像對(duì)由紅外圖像和相應(yīng)的彩色圖像組成。在U-net架構(gòu)中,編碼器層和解碼器層通過(guò)“跳躍連接”直接連接[9]。因?yàn)樘竭B接可以跨越編碼器-解碼器網(wǎng)絡(luò)的瓶頸傳輸?shù)图?jí)信息(這些信息通常在輸入和輸出圖像之間共享)。它有效地提高了圖像轉(zhuǎn)換的性能。在卷積PatchGAN中,不是對(duì)整個(gè)圖像進(jìn)行分類而是將每張圖像分成N×N段,然后預(yù)測(cè)每一部分是真還是假。最后取所有答案的平均值,進(jìn)行最終的分類。換句話說(shuō),只有特定規(guī)模的補(bǔ)丁結(jié)構(gòu)才會(huì)受到懲罰。我們工作中的pix2pix框架如圖3所示。通過(guò)判別器輸出的對(duì)抗損耗和生成圖像輸出的損耗更新生成器的權(quán)值[10]。同時(shí)訓(xùn)練一個(gè)條件生成器和判別器,訓(xùn)練生成器根據(jù)輸入圖像(在本文中,是相應(yīng)的紅外熱圖)生成圖像(在本文中是彩色背景圖像)。該判別器的目的是對(duì)生成的彩色圖像進(jìn)行真假分類。
圖3 Pix2pix網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.3 Pix2pix network structure diagram
本文優(yōu)化模型改善了生成圖像的清晰度,以真實(shí)背景數(shù)據(jù)為基礎(chǔ),盡可能地預(yù)測(cè)真實(shí)背景的主要顏色;其次,通過(guò)交換D部分的x和z,極大的減小了生成數(shù)據(jù)與真實(shí)數(shù)據(jù)間的差異[11]。最后,通過(guò)結(jié)構(gòu)相似性分析和心理物理學(xué)實(shí)驗(yàn)進(jìn)行效果評(píng)估檢驗(yàn)?zāi)P驮趫?chǎng)景重建中的客觀性與可靠性,對(duì)夜間偽裝作業(yè)具有重要意義。
本文數(shù)據(jù)集借助大疆M300 RTK在南京湯山拍攝的成對(duì)數(shù)據(jù)集,由80張紅外熱圖與彩色圖像組成,每張圖像大小為1024×1024像素,擴(kuò)充后最終得到了260張非重疊的數(shù)據(jù)集。對(duì)于訓(xùn)練集,我們從這些圖像中提取220對(duì)隨機(jī)圖像。另外,為了定量評(píng)估,我們將剩余的40張圖像作為測(cè)試集(在訓(xùn)練集中看不到)。為了驗(yàn)證所提出算法的有效性,本文編寫(xiě)了Python程序并完成了相關(guān)實(shí)驗(yàn)。在使用64位Windows 10操作系統(tǒng)上選用Python搭建生成對(duì)抗網(wǎng)絡(luò)。訓(xùn)練過(guò)程使用GPU芯片,顯卡型號(hào)為T(mén)ITAN V,顯存大小為120G,虛擬環(huán)境采用Anaconda,PyTorch1.4.0,CUDA 10.0。
該方法不需要參考圖像,但對(duì)于目前最先進(jìn)的方法,以經(jīng)驗(yàn)證明對(duì)參考圖像的選擇的敏感性。pix2pix網(wǎng)絡(luò)不僅學(xué)習(xí)紅外熱圖到彩色圖像的映射,還學(xué)習(xí)一個(gè)損失函數(shù)來(lái)訓(xùn)練這種映射。由于判別器的訓(xùn)練相對(duì)于生成器來(lái)說(shuō)是高速的,因此判別器損耗分為兩部分來(lái)減緩訓(xùn)練過(guò)程。生成器和判別器模型都使用Liyuan Liu等[12]的RAdam版本進(jìn)行訓(xùn)練,它既具有Adam快速收斂的優(yōu)點(diǎn),又具備隨機(jī)梯度下降不易震蕩的優(yōu)勢(shì),令模型收斂至質(zhì)量更高的結(jié)果,如圖4所示。
圖4 采用不同優(yōu)化器后的訓(xùn)練損失對(duì)比Fig.4 Comparison of training losses with different optimizers
傳統(tǒng)的質(zhì)量指標(biāo)在評(píng)估相似性時(shí),這個(gè)值的下降部分是由于兩類數(shù)據(jù)集之間的微小差異造成的。為了展示pix2pix網(wǎng)絡(luò)將紅外熱圖轉(zhuǎn)換成彩色圖像的良好結(jié)果,我們利用了不同的評(píng)價(jià)指標(biāo)來(lái)度量,分別是結(jié)構(gòu)相似指數(shù)(SSIM)、峰值信噪比(PSNR)、均方誤差(MSE),如表1所示。
表1 使用不同方法生成的數(shù)碼迷彩方案評(píng)價(jià)指標(biāo)(平均值±std)Tab.1Digital camouflage scheme evaluation index generated by different methods(mean ±std)
圖5(a)代表夜間用紅外相機(jī)采集到的原背景圖,圖5(b)代表使用本文方法生成的彩色圖像,圖5(c)代表用光學(xué)鏡頭在白天采集到的彩色圖像,由圖5可以發(fā)現(xiàn)山體、道路、植被、天空等背景特征均能取得較好的還原,結(jié)合表1中的數(shù)據(jù)分析生成彩色圖像的質(zhì)量,SSIM值大于0.5,說(shuō)明本文方法生成的彩色圖像在場(chǎng)景重建方面有不錯(cuò)的效果。另外從心理物理學(xué)角度檢驗(yàn)生成情況,類別判定法是一種對(duì)刺激的感知進(jìn)行分類的心理物理學(xué)實(shí)驗(yàn)方法。該方法要求觀察者在觀察樣本剌激之后,將刺激的視覺(jué)感知按照類別判定量表進(jìn)行分類。采用該方法時(shí),首先應(yīng)正確劃分類別判定量表,取有特殊意義的點(diǎn),如判斷色差時(shí),可將無(wú)色差、恰可察覺(jué)色差、恰可接受色差等作為分類點(diǎn)。一般,類別判定法的分類可以根據(jù)需要分為5類、7類、9類等,也有一些研究為了避免觀察者取中間值,而將類別劃分為偶數(shù),如6類、8類等。在實(shí)驗(yàn)過(guò)程中,觀察者按照給出的類別判定量表對(duì)觀察到的刺激進(jìn)行分類,然后根據(jù)Torgerson的類別判定法和統(tǒng)計(jì)假設(shè)理論,轉(zhuǎn)化為等距量表,如表2所示。
表2 類別判定量表Tab.2 Category determination scale
圖5 生成的彩色圖像與真實(shí)背景圖像之間的對(duì)比Fig.5 The contrast between the generated color image and the real background image
在實(shí)驗(yàn)設(shè)計(jì)中,共安排了10名色覺(jué)正常的觀察者參加,均為在校大學(xué)本科生,包括5名男性和5名女性,年齡介于20和25之間。每名觀察者進(jìn)行了兩次,用來(lái)分析觀察者間的精度。因此,本實(shí)驗(yàn)所獲得的視覺(jué)評(píng)價(jià)數(shù)據(jù)共有100個(gè),10名學(xué)生均選擇類別1,無(wú)感知色差;可見(jiàn)經(jīng)過(guò)生成的彩色圖像能夠?qū)崿F(xiàn)場(chǎng)景重建人眼視覺(jué)要求。
本文使用了pix2pix架構(gòu)來(lái)進(jìn)行紅外圖像到彩色圖像的轉(zhuǎn)換,為夜間偽裝方案設(shè)計(jì)提供了可行的技術(shù)途徑。以圖像到圖像的生成對(duì)抗網(wǎng)絡(luò)為支撐的網(wǎng)絡(luò)架構(gòu)可以進(jìn)行場(chǎng)景重建,能有效應(yīng)對(duì)夜間能見(jiàn)度不足無(wú)法采集背景信息的限制。針對(duì)模型效果評(píng)估的問(wèn)題,根據(jù)機(jī)器視覺(jué)的特點(diǎn)提出利用結(jié)構(gòu)相似性等一系列算法和心理物理學(xué)實(shí)驗(yàn)進(jìn)行生成圖像效果評(píng)估。實(shí)驗(yàn)結(jié)果表明,該方法能夠?qū)⒓t外圖像轉(zhuǎn)換成逼真的彩色圖像,并且在評(píng)價(jià)指標(biāo)上取得了不錯(cuò)的效果,驗(yàn)證了所提出方法在場(chǎng)景重建中的有效性。