劉硯菊,崔 潔,宋建輝,劉曉陽(yáng),池 云
(沈陽(yáng)理工大學(xué) 自動(dòng)化與電氣工程學(xué)院,沈陽(yáng) 110159)
圖像融合是指對(duì)兩個(gè)或多個(gè)圖像傳感器獲得的互補(bǔ)或冗余圖像信息進(jìn)行集合的過(guò)程,以得到清晰度高和信息豐富的融合圖像,為后續(xù)的圖像目標(biāo)定位、識(shí)別、檢測(cè)等提供支持[1]。紅外傳感器是利用物體發(fā)射的紅外輻射成像,可以在光照條件較差時(shí)反映出隱藏目標(biāo),但紅外圖像無(wú)法表現(xiàn)細(xì)節(jié)信息,圖像的清晰度較低;可見(jiàn)光傳感器是利用物體的反射光成像,可見(jiàn)光圖像具有豐富的細(xì)節(jié)信息,但在光照條件不好的情況下無(wú)法獲得清晰圖像。將紅外與可見(jiàn)光圖像進(jìn)行融合,能夠保證得到的融合圖像目標(biāo)清晰且突出、紋理細(xì)節(jié)清晰,能夠增強(qiáng)對(duì)場(chǎng)景的理解,便于準(zhǔn)確識(shí)別目標(biāo),利于系統(tǒng)全天候工作。
在紅外與可見(jiàn)光圖像融合過(guò)程中,將圖像分割為目標(biāo)圖像和背景圖像,再采取不同的損失函數(shù)分別對(duì)目標(biāo)圖像和背景圖像進(jìn)行融合,既可以突出目標(biāo)又可以保留背景信息。常見(jiàn)的傳統(tǒng)圖像語(yǔ)義分割包括閾值分割方法、區(qū)域分割方法、邊緣分割方法[2]。傳統(tǒng)的分割方法提取的是圖像的大小、紋理、顏色等低級(jí)語(yǔ)義,在復(fù)雜環(huán)境中的應(yīng)對(duì)能力和精準(zhǔn)度都不夠。近年來(lái),基于深度學(xué)習(xí)的圖像語(yǔ)義分割方法越來(lái)越多[3]。在圖像分割領(lǐng)域中,語(yǔ)義分割可以將目標(biāo)圖像從源圖像中分割出來(lái),將目標(biāo)轉(zhuǎn)換為帶有語(yǔ)義信息的掩膜。Long J等[4]提出的全卷積神經(jīng)網(wǎng)絡(luò)在卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上,將網(wǎng)絡(luò)中的全連接層替換為上采樣,使輸入的圖像可以為任意大小,但隨著網(wǎng)絡(luò)層次的逐漸增加,圖像丟失原圖中的空間結(jié)構(gòu)信息,使分割結(jié)果不夠精準(zhǔn),輸出圖像模糊。Yu C等[5]提出雙向分割網(wǎng)絡(luò)BiSeNet,該網(wǎng)絡(luò)包含的空間路徑結(jié)構(gòu)解決分割圖像的空間信息缺失問(wèn)題,包含的上下文路徑結(jié)構(gòu)解決感受野縮小的問(wèn)題,但模型中含有的U形結(jié)構(gòu)在高分辨率特征圖上引入額外的計(jì)算,會(huì)降低模型速度。Lin G等[6]使用鏈?zhǔn)綒埐钸B接網(wǎng)絡(luò)(Re-fineNet),在解碼器結(jié)構(gòu)中加入金字塔池化模塊,形成的遠(yuǎn)距離殘差連接能將底層和高層語(yǔ)義特征采用上采樣進(jìn)行融合,由于中間結(jié)果均為分辨率很大的特征圖,訓(xùn)練和推理過(guò)程對(duì)內(nèi)存的要求很高。Chen L C等[7]提出Deeplabv3+,采用編碼解碼網(wǎng)絡(luò)結(jié)構(gòu),加強(qiáng)了圖像邊緣分割效果,優(yōu)化了分割后圖像完整性。
常見(jiàn)的傳統(tǒng)紅外與可見(jiàn)光圖像融合方法較多,包括多尺度變換法、稀疏表示法、小波變換法等[8],傳統(tǒng)方法對(duì)圖像進(jìn)行多尺度分解,將圖像分為不同頻率的區(qū)域,再進(jìn)行區(qū)域的區(qū)分和篩選融合,該方法在方向性上有較大限制,對(duì)邊緣特征提取不足。隨著深度學(xué)習(xí)的廣泛應(yīng)用,程永翔等[9]將卷積神經(jīng)網(wǎng)絡(luò)首次應(yīng)用于紅外與可見(jiàn)光圖像融合,輸入源圖像分別由不同類型傳感器獲得,同一位置像素值強(qiáng)度可能差別很大,直接采用空間域的像素融合效果不好。Li H等[10]利用VGG-19作為特征提取器對(duì)分解后的圖像進(jìn)行特征提取與融合,該方法雖然有利于得到細(xì)節(jié)豐富的融合圖像,但對(duì)輸入圖像要求較高,需預(yù)先配準(zhǔn)對(duì)齊。He K等[11]提出殘差網(wǎng)絡(luò)(RestNet),其模型簡(jiǎn)單且易于優(yōu)化,但模型容易發(fā)生過(guò)擬合問(wèn)題和梯度消失問(wèn)題,導(dǎo)致反向傳播無(wú)法進(jìn)行。Li H等[12]提出了密集融合(DenseFuse),可根據(jù)不同的情況設(shè)計(jì)靈活的融合策略將編碼后的特征進(jìn)行融合,缺點(diǎn)是此方法使用密集連接塊進(jìn)行圖像特征提取與復(fù)用,存在信息丟失的問(wèn)題。 Goodfellow I J等[13]提出生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN),其通過(guò)生成器與判別器協(xié)同訓(xùn)練產(chǎn)生融合圖像,無(wú)需預(yù)訓(xùn)練,網(wǎng)絡(luò)的訓(xùn)練和測(cè)試均直接在融合圖像的數(shù)據(jù)集上進(jìn)行,可以更好地保留融合信息。
為使融合后的圖像目標(biāo)對(duì)比度更高,背景細(xì)節(jié)信息更多,本文提出基于GAN網(wǎng)絡(luò)的紅外與可見(jiàn)光圖像分割后融合方法,既可解決背景信息不足的問(wèn)題,也可解決融合后目標(biāo)圖像不清晰的問(wèn)題,使得融合后的圖像背景細(xì)節(jié)紋理清晰、目標(biāo)突出、視覺(jué)效果更好。
為使融合圖像既有突出的目標(biāo)又有細(xì)節(jié)信息更豐富的背景,本文使用deeplabv3+網(wǎng)絡(luò)分割的紅外和可見(jiàn)光圖像融合方法,融合框架如圖1所示。
圖1 融合流程圖
融合過(guò)程通過(guò)deeplabv3+網(wǎng)絡(luò)對(duì)紅外圖像進(jìn)行語(yǔ)義分割,得到帶有語(yǔ)義信息的紅外目標(biāo)圖像,該圖像稱為掩膜;再根據(jù)掩膜帶有的語(yǔ)義信息來(lái)分割紅外圖像和可見(jiàn)光圖像,得到紅外目標(biāo)圖像和背景圖像,以及可見(jiàn)光目標(biāo)圖像和背景圖像;再將不同區(qū)域的圖像輸入到不對(duì)稱的雙輸入GAN網(wǎng)絡(luò)得到不同區(qū)域的融合圖像;最后兩張融合圖像加權(quán)得到最終融合圖像。
圖像分割是將圖像分離成互不交疊的有相同性質(zhì)的區(qū)域。為應(yīng)對(duì)不同區(qū)域的融合要求,將圖像分割為目標(biāo)區(qū)域和背景區(qū)域。采用圖像語(yǔ)義分割網(wǎng)絡(luò)deeplabv3+,其結(jié)構(gòu)如圖2所示。圖中Conv表示卷積層。
圖2 圖像語(yǔ)義分割網(wǎng)絡(luò)結(jié)構(gòu)圖
由于紅外圖像目標(biāo)對(duì)比度較高,有利于圖像進(jìn)行語(yǔ)義分割,故由紅外圖像對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,得到帶有語(yǔ)義信息的掩膜,再根據(jù)掩膜將紅外與可見(jiàn)光圖像分割為目標(biāo)圖像和背景圖像[14],計(jì)算方法為
(1)
式中:Ir1表示紅外目標(biāo)圖像;Im表示掩膜;⊙為哈達(dá)瑪乘積;Ir為紅外圖像;Iv1為可見(jiàn)光目標(biāo)圖像;Iv為可見(jiàn)光圖像;Ir2為紅外背景圖像;Iv2為可見(jiàn)光背景圖像。
1.2.1 GAN網(wǎng)絡(luò)的設(shè)計(jì)
為獲得不同區(qū)域的融合特征,在傳統(tǒng)的GAN網(wǎng)絡(luò)基礎(chǔ)上,生成器G的單輸入改為雙輸入,具體網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。
圖3 GAN網(wǎng)絡(luò)的生成器G結(jié)構(gòu)圖
該網(wǎng)絡(luò)由特征提取模塊、特征融合模塊和輸出模塊組成。特征提取模塊有兩個(gè)路徑,其中輸入路徑1由5個(gè)卷積層、批量歸一化層(Batch Normalization,BN)和激活函數(shù)LReLU層組成,其中卷積層的卷積核分別為5×5、5×5、5×5、5×5和3×3,卷積核個(gè)數(shù)n分別為256、128、64、32和16。輸入路徑2由3個(gè)卷積層、批量歸一化層和激活函數(shù)LReLU層組成,其中卷積層的卷積核分別為5×5、5×5和3×3,卷積核個(gè)數(shù)n分別為64、32和16。路徑1相對(duì)于路徑2可以更深入提取特征,兩個(gè)特征提取路徑的不同結(jié)構(gòu)對(duì)應(yīng)目標(biāo)圖像和背景圖像的不同融合需求。特征融合模塊由1個(gè)卷積層、批量歸一化層和激活層組成,其中卷積層的卷積核為3×3,卷積核個(gè)數(shù)n為 8,其將提取的特征融合后輸出。輸出模塊由1×1卷積層、批量歸一化層和激活層組成,其中卷積層的卷積核為1×1,卷積核個(gè)數(shù)n為 1。
判別器D結(jié)構(gòu)如圖4所示,該網(wǎng)絡(luò)由4個(gè)卷積層和1個(gè)激活層組成,其中卷積層的卷積核均為3×3,卷積核個(gè)數(shù)n分別為32、64、128和256,步長(zhǎng)s為2,最后一層用于判別,并輸出判別結(jié)果。
圖4 GAN網(wǎng)絡(luò)的判別器D結(jié)構(gòu)
1.2.2 損失函數(shù)
將源圖像輸入到生成器G得到融合圖像。生成器G整體的損失函數(shù)為
LG=LAdv+λ1LCon
(2)
(3)
(4)
判別器D的損失函數(shù)為
(5)
式中:b和c分別代表Iv1和If1的標(biāo)簽;D1(Iv1)和D1(If1)分別代表Iv1和If1的判別結(jié)果。
為使目標(biāo)圖像對(duì)比度更高,生成器輸出的融合目標(biāo)圖像保留更多紅外圖像的對(duì)比度,則路徑1的輸入為紅外目標(biāo)圖像Ir,路徑2的輸入為可見(jiàn)光目標(biāo)圖像Iv,目標(biāo)圖像融合的過(guò)程如圖5所示。
圖5 目標(biāo)圖像融合
為使融合圖像的背景具有更好的細(xì)節(jié)信息,生成器輸出的融合背景圖像保留更多可見(jiàn)光圖像的細(xì)節(jié)信息,則路徑1的輸入為可見(jiàn)光背景圖像,路徑2的輸入為紅外背景圖像,背景圖像融合過(guò)程如圖6所示。
圖6 背景圖像融合
通過(guò)網(wǎng)絡(luò)分割后的圖像存在許多不帶有語(yǔ)義信息且像素值為0的區(qū)域,對(duì)分割后的圖像進(jìn)行融合時(shí),融合圖像會(huì)在像素為0的分割區(qū)域產(chǎn)生少量像素值。為減少對(duì)融合圖像的影響,采用掩膜提取目標(biāo)圖像的方法[14],利用掩膜將目標(biāo)融合圖像的目標(biāo)和背景融合圖像中的背景分割。分割方式如式(6)、(7)所示。
I1=Im⊙If1
(6)
I2=(1-Im)⊙If2
(7)
式中:I1為目標(biāo)圖像;I2為背景圖像;If2為背景融合圖像。
經(jīng)過(guò)語(yǔ)義分割后的圖像I1只在目標(biāo)區(qū)域有像素值,背景區(qū)域的像素值均為0,圖像I2只在背景區(qū)域有像素值,目標(biāo)區(qū)域的像素值均為0,由此最終融合圖像If可通過(guò)像素直接相加得到,如式(8)所示。
If=I1+I2
(8)
為驗(yàn)證本文GAN網(wǎng)絡(luò)的紅外與可見(jiàn)光圖像融合算法的有效性,實(shí)驗(yàn)中deeplabv3+網(wǎng)絡(luò)的訓(xùn)練與測(cè)試采用公開(kāi)的數(shù)據(jù)集TNO,圖像尺寸為450×450,網(wǎng)絡(luò)分割生成的目標(biāo)圖像和背景圖像作為訓(xùn)練非對(duì)稱的雙輸入GAN網(wǎng)絡(luò)的數(shù)據(jù)集。在分割網(wǎng)絡(luò)相同的基礎(chǔ)上,選取以殘差塊連接的RestNet的圖像融合、以生成器為單輸入的FusionGAN(簡(jiǎn)稱FGAN)的圖像融合及以GAN網(wǎng)絡(luò)的語(yǔ)義分割圖像融合作為對(duì)比實(shí)驗(yàn),通過(guò)主觀評(píng)價(jià)和客觀評(píng)價(jià)兩方面對(duì)融合圖像進(jìn)行對(duì)比。
主觀評(píng)價(jià)是基于人眼的視覺(jué)效果來(lái)評(píng)價(jià)融合圖像質(zhì)量,選取的圖像及融合結(jié)果如圖7所示。
圖7 選取圖像及融合結(jié)果
本文采用基于GAN網(wǎng)絡(luò)圖像分割后融合,將分割后不同區(qū)域的圖像輸入到雙輸入的GAN網(wǎng)絡(luò)中,不同輸入路徑可以提取不同深度的圖像特征。圖7a和圖7c的融合圖像對(duì)比中,本文GAN網(wǎng)絡(luò)的圖像融合,相較于RestNet、FGAN和基于語(yǔ)義分割網(wǎng)絡(luò)的融合,左側(cè)框內(nèi)橋的邊界清晰,右側(cè)框內(nèi)橋與外側(cè)的邊界更清晰,更接近于可見(jiàn)光圖像,人像相較于背景具有更高的對(duì)比度。圖7b和圖7d的融合圖像對(duì)比中,本文GAN網(wǎng)絡(luò)的圖像融合,相較于RestNet、FGAN和基于語(yǔ)義分割網(wǎng)絡(luò)的融合,左側(cè)框中草叢的輪廓和邊緣更清晰,更好保留細(xì)節(jié)信息,雨傘圖像的整體和邊緣更清晰,視覺(jué)效果更好,人像相較于背景具有更高的對(duì)比度。
圖像融合結(jié)果中,本文的融合方法中融合圖像的目標(biāo)對(duì)比度更高,能有效地突出目標(biāo),有利于目標(biāo)檢測(cè)。背景區(qū)域保留的紋理細(xì)節(jié)更好,通過(guò)主觀評(píng)價(jià),本文融合圖像效果優(yōu)于其他用于比較的圖像融合方法。
客觀評(píng)價(jià)是通過(guò)數(shù)學(xué)建模對(duì)圖像的特性進(jìn)行評(píng)價(jià),相比于主觀評(píng)價(jià)具有更好的準(zhǔn)確性和高效性。本文選用信息熵(Entropy,EN)、互信息(Mutual Information,MI)、結(jié)構(gòu)相似性(Structural Similarity,SSIM)、標(biāo)準(zhǔn)差(Standard Deviation,SD)4種客觀評(píng)價(jià)標(biāo)準(zhǔn)。
使用EN、MI、SSIM、SD客觀參數(shù)對(duì)2組圖像進(jìn)行客觀性能評(píng)估,實(shí)驗(yàn)結(jié)果如表1所示。
表1 各算法融合結(jié)果客觀評(píng)價(jià)
由表1可見(jiàn),本文的圖像融合方法中4個(gè)客觀參數(shù)的值均最高。
信息熵的值越大,融合圖像包含源圖像的信息量越多,說(shuō)明本文的融合方法能更好地保留源圖像的目標(biāo)和背景信息;互信息的值越大,融合圖像與源圖像的關(guān)聯(lián)性越強(qiáng),說(shuō)明本文的融合方法能更好地加強(qiáng)融合圖像與源圖像的關(guān)系;結(jié)構(gòu)相似性的值越大,融合圖像與紅外及可見(jiàn)光圖像的空間結(jié)構(gòu)相關(guān)性越大,說(shuō)明本文的融合方法可有效地保留圖像的亮度、對(duì)比度和結(jié)構(gòu)特性;標(biāo)準(zhǔn)差的值越大,融合圖像的對(duì)比度更高,說(shuō)明本文的融合方法可以有效保留目標(biāo)圖像的對(duì)比度,對(duì)融合后的圖像進(jìn)行目標(biāo)檢測(cè)和定位更有利。
使用deeplabv3+網(wǎng)絡(luò)將紅外目標(biāo)圖像分割為掩膜,利用掩膜的語(yǔ)義信息將紅外與可見(jiàn)光圖像分割為目標(biāo)圖像和背景圖像,再使用非對(duì)稱的雙輸入GAN網(wǎng)絡(luò),得到最終的融合圖像。非對(duì)稱的雙輸入GAN網(wǎng)絡(luò)對(duì)目標(biāo)圖像和背景圖像采用不同路徑,提取不同深度的特征,解決特征提取不足和梯度消失問(wèn)題,使融合圖像的目標(biāo)具有更高的對(duì)比度,背景具有更好的細(xì)節(jié)信息,融合后圖像的質(zhì)量更高。在主觀評(píng)價(jià)和客觀評(píng)價(jià)方面與基于FGAN網(wǎng)絡(luò)、RestNet網(wǎng)絡(luò)的融合相比,圖像均具有更好的融合效果。