曲海成,胡倩倩,張雪聰
專欄:〈多源圖像融合〉
多源圖像融合能最大限度地綜合各信道有利信息,在計(jì)算機(jī)視覺、軍事遙感、醫(yī)學(xué)圖像處理等領(lǐng)域發(fā)揮著重要作用。近年來,在以混合型融合算法為代表的智能化浪潮推動(dòng)下,多源圖像融合領(lǐng)域取得了長(zhǎng)足的發(fā)展和進(jìn)步?;诖耍都t外技術(shù)》面向研究人員推出“多源圖像融合專欄”,力圖展示多源圖像融合技術(shù)的最新研究成果,為從事相關(guān)研究的讀者提供參考。
通過廣泛征集和嚴(yán)格評(píng)審,本期專欄收錄了來自西安工業(yè)大學(xué)、中國(guó)石油大學(xué)等從事多源圖像融合團(tuán)隊(duì)的7篇論文。論文內(nèi)容既有對(duì)紅外與可見光圖像融合等熱門方向的研究,也有面向全色與多光譜圖像融合、夜視抗暈光針對(duì)性融合、無人機(jī)目標(biāo)檢測(cè)自適應(yīng)融合等最新應(yīng)用技術(shù)的研究。
然而,圖像特征的差異性、探測(cè)環(huán)境的復(fù)雜性、應(yīng)用場(chǎng)景的多樣性等都對(duì)多源圖像融合技術(shù)的發(fā)展和應(yīng)用提出了更嚴(yán)峻的挑戰(zhàn)。本期專欄只是一個(gè)起點(diǎn),希望能夠啟發(fā)廣大讀者做出更多更精彩的研究。
最后,感謝各位審稿專家和編輯的辛勤工作。
——楊風(fēng)暴
結(jié)合信息感知與多尺度特征的紅外與可見光圖像融合
曲海成,胡倩倩,張雪聰
(遼寧工程技術(shù)大學(xué) 軟件學(xué)院,遼寧 葫蘆島 125105)
現(xiàn)有的基于深度學(xué)習(xí)圖像融合算法無法同時(shí)滿足融合效果與運(yùn)算效率,且在建模過程中大部分采用基于單一尺度的融合策略,無法很好地提取源圖像中上下文信息。為此本文提出了一種基于信息感知與多尺度特征結(jié)合的端到端圖像融合網(wǎng)絡(luò)。該網(wǎng)絡(luò)由編碼器、融合策略和解碼器組成。具體來說,通過編碼器提取紅外與可見光圖像的多尺度特征,并設(shè)計(jì)特征增強(qiáng)融合模塊來融合多個(gè)尺度的不同模態(tài)特征,最后設(shè)計(jì)了一個(gè)輕量級(jí)的解碼器將不同尺度的低級(jí)細(xì)節(jié)與高級(jí)語(yǔ)義信息結(jié)合起來。此外,利用源圖像的信息熵構(gòu)造一個(gè)信息感知損失函數(shù)來指導(dǎo)融合網(wǎng)絡(luò)的訓(xùn)練,從而生成具有豐富信息的融合圖像。在TNO、MSRS數(shù)據(jù)集上對(duì)提出的融合框架進(jìn)行了評(píng)估實(shí)驗(yàn)。結(jié)果表明:與現(xiàn)有的融合方法相比,該網(wǎng)絡(luò)具有較高計(jì)算效率;同時(shí)在主觀視覺評(píng)估和客觀指標(biāo)評(píng)價(jià)上都優(yōu)于其它方法。
圖像融合;多尺度特征;信息感知;特征增強(qiáng)
由于成像設(shè)備硬件限制,單一類型的傳感器只能捕獲部分場(chǎng)景信息,通常無法全面地表征成像場(chǎng)景。多模態(tài)圖像融合能夠?qū)⒍鄠€(gè)傳感器捕獲的有用信息整合到單幅融合圖像中,以實(shí)現(xiàn)對(duì)場(chǎng)景有效且全面地表征。典型的多模態(tài)圖像融合包括紅外和可見光圖像融合以及醫(yī)學(xué)圖像融合等。
本文重點(diǎn)研究紅外與可見光圖像融合。紅外傳感器可以捕獲目標(biāo)自身的熱輻射信息,能夠全天候地突出行人、車輛等顯著目標(biāo),但是紅外圖像存在邊緣細(xì)節(jié)模糊、無法提供足夠的環(huán)境照明信息等缺點(diǎn);而可見光圖像利用物體表面對(duì)光的反射原理成像,相比紅外圖像來說,可見光圖像具有更高的對(duì)比度和更豐富的紋理細(xì)節(jié),但是卻容易遭受極端環(huán)境的影響而丟失場(chǎng)景中的目標(biāo),在夜間或云霧等條件下不能取得較好的成像效果,成像具有一定的局限性。值得注意的是,紅外圖像和可見光圖像具有很強(qiáng)的互補(bǔ)特性,將這些互補(bǔ)特征通過圖像融合技術(shù)集成到單一圖像中,一方面可以獲取紅外圖像中如車、行人等顯著目標(biāo),另一方面可以獲得可見光圖像中豐富的背景細(xì)節(jié)信息,從而得到具有更好的場(chǎng)景表達(dá)和視覺感知效果的圖像,能夠有效地促進(jìn)諸如目標(biāo)檢測(cè)[1-2]、目標(biāo)識(shí)別[3]、圖像分割[4]等實(shí)際計(jì)算機(jī)視覺應(yīng)用。
根據(jù)圖像融合方法的原理,現(xiàn)有的紅外與可見光圖像融合算法可分為傳統(tǒng)算法和基于深度學(xué)習(xí)算法兩大類。傳統(tǒng)的圖像融合算法通常利用數(shù)學(xué)變換在空間域或者變換域進(jìn)行活動(dòng)水平測(cè)量,并設(shè)計(jì)特定的融合規(guī)則實(shí)現(xiàn)紅外與可見光圖像融合。代表性的方法通常分為以下5類:基于多尺度變換(Multiscale transformation,MST)[5-8],基于稀疏表示(Sparse representation,SR)[9-10],基于子空間[11-12]以及基于顯著性[13]和混合方法[14]。
基于多尺度變換的方法將原始圖像分解成不同尺度提取特征,并針對(duì)每個(gè)尺度設(shè)計(jì)相應(yīng)的融合策略,最后重建圖像。SR通常在局部圖像塊上執(zhí)行,得到的融合圖像符合人類視覺感知?;谧涌臻g的方法將高維輸入圖像投影到低維空間或子空間中,獲取原始圖像的內(nèi)部結(jié)構(gòu)。基于顯著性的方法可以保持顯著目標(biāo)區(qū)域的完整性,提高融合圖像的視覺質(zhì)量?;旌戏椒▽⑵渌愋偷姆椒ㄕ系蕉喑叨茸儞Q框架中,結(jié)合不同方法的優(yōu)點(diǎn)來提高圖像融合性能。傳統(tǒng)算法雖然取得了一定的效果,但其融合性能高度依賴手工設(shè)計(jì),限制了融合性能的進(jìn)一步提升,另一方面,諸如SR等傳統(tǒng)方法耗時(shí)較長(zhǎng),也限制了傳統(tǒng)融合方法的進(jìn)一步發(fā)展。
近年來,考慮到基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)提取圖像特征的優(yōu)點(diǎn),采用深度學(xué)習(xí)的方法可以獲得更好的圖像質(zhì)量。Li等[15]提出一種用于紅外與可見光圖像融合的DenseFuse,在編碼器網(wǎng)絡(luò)中引入密集連接提取圖像深度特征,實(shí)現(xiàn)特征重用,使用L1范數(shù)策略或加法策略融合編碼器提取的深層特征,最后使用解碼器生成融合圖像;由于深度特征的不可解釋性,手工設(shè)計(jì)的融合策略無法為深度特征分配恰當(dāng)?shù)臋?quán)重以至于無法有效地捕獲這些深度特征的特性。為了避免手工設(shè)計(jì)融合策略帶來的弊端,Ma等[16]和武等[17]將生成對(duì)抗網(wǎng)絡(luò)引入圖像融合領(lǐng)域中,將圖像融合問題視為特征對(duì)抗問題;Hou等[18]基于像素強(qiáng)度衡量源圖像中的顯著性程度,指導(dǎo)融合網(wǎng)絡(luò)保留源圖像中豐富的顯著信息;考慮到光照條件對(duì)融合圖像的影響,Tang等[19]提出基于光照感知的漸進(jìn)式融合網(wǎng)絡(luò)PIAFusion,構(gòu)造光照感知損失函數(shù)指導(dǎo)融合網(wǎng)絡(luò)的訓(xùn)練。
雖然以上方法可以很好地恢復(fù)空間細(xì)節(jié)信息,但網(wǎng)絡(luò)結(jié)構(gòu)都為單一尺度,受限于感受野大小,無法很好地提取圖像上下文信息。因此,Li等[20]提出多尺度圖像融合自編碼器框架NestFuse,編碼器采用連續(xù)下采樣方式提取多尺度特征,解碼器則使用蜂巢連接融合不同尺度的特征,并設(shè)計(jì)了基于空間/通道注意力機(jī)制的融合策略,更好地融合圖像中的背景細(xì)節(jié)和顯著區(qū)域;為了解決NestFuse融合策略不可學(xué)習(xí)的問題,Li等[21]提出RFN-Nest,進(jìn)一步在其基礎(chǔ)上設(shè)計(jì)了殘差融合網(wǎng)絡(luò)(Residual Fusion Network,RFN)代替手工制作的融合策略。
然而上述多尺度特征網(wǎng)絡(luò)架構(gòu)模型往往設(shè)計(jì)較為復(fù)雜,其模型對(duì)計(jì)算能力、內(nèi)存消耗、顯存容量的高要求,阻礙了其在資源受限的設(shè)備上的應(yīng)用,而且RFN-Nest融合策略的訓(xùn)練與編碼器解碼器的訓(xùn)練是分開的,對(duì)不同模態(tài)的特征無法充分提取。為此本文提出一種基于多尺度特征提取的無監(jiān)督紅外與可見光圖像融合網(wǎng)絡(luò)(Multi-scale Features Fusion Network, MFF-Net)。主要工作如下:
1)在RFN-Nest框架基礎(chǔ)上進(jìn)一步簡(jiǎn)化網(wǎng)絡(luò)設(shè)計(jì),構(gòu)建一個(gè)輕量化的多尺度特征提取融合網(wǎng)絡(luò);
2)利用源圖像的信息熵構(gòu)造一個(gè)信息感知損失函數(shù)來指導(dǎo)融合網(wǎng)絡(luò)的訓(xùn)練,從而生成具有豐富信息的融合圖像;
3)針對(duì)多尺度深度特征的融合,設(shè)計(jì)特征增強(qiáng)融合模塊來融合同一尺度下的不同模態(tài)特征,融合策略與編碼器、解碼器同時(shí)訓(xùn)練,充分訓(xùn)練網(wǎng)絡(luò)對(duì)不同模態(tài)圖像的特征提取能力;
4)在TNO[22]和MSRS[19]數(shù)據(jù)集上進(jìn)行對(duì)比實(shí)驗(yàn),從主觀視覺描述、客觀指標(biāo)評(píng)價(jià)以及推理時(shí)間等方面對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析。
圖1 MFF-Net整體框架
表1 編碼器網(wǎng)絡(luò)整體結(jié)構(gòu)
融合層則由3個(gè)特征增強(qiáng)融合模塊(Feature Enhancement Fusion Module,F(xiàn)EF)組成,分別用來融合解碼器提取出的每個(gè)尺度的紅外特征和可見光特征;解碼器則根據(jù)融合的多尺度特征重建出融合圖像。
圖2 FEF網(wǎng)絡(luò)結(jié)構(gòu)
Fig.2 Architecture of FEF network
圖3中的表示原始特征圖的輸出通道,而的數(shù)值由公式(3)自動(dòng)獲得:
式中:odd表示離|×|中數(shù)值最近的一個(gè)奇數(shù)。ECA模塊在不降維的基礎(chǔ)上同時(shí)考慮了跨通道的信息交互,使得其能夠?qū)W習(xí)到更加有效的通道注意力權(quán)重。
圖3 ECA模塊示意圖
Fig.3 Diagram of ECA module
圖4 解碼器網(wǎng)絡(luò)結(jié)構(gòu)
表2 解碼器網(wǎng)絡(luò)整體結(jié)構(gòu)
損失函數(shù)應(yīng)當(dāng)使融合圖像包含更多紅外圖像中的熱輻射信息以及可見光圖像中的背景細(xì)節(jié)紋理信息,因此設(shè)計(jì)了強(qiáng)度損失和梯度損失,其數(shù)學(xué)表達(dá)分別如公式(4)和公式(5)所示。
式中:max(ir,vi)表示取ir和vi對(duì)應(yīng)像素的最大值,用來表示紅外與可見光圖像中的顯著信息。和表示特征圖的高度和寬度。int用來衡量融合圖像和源圖像對(duì)中顯著信息的像素?fù)p失,而紅外圖像中的熱輻射信息通常在源圖像對(duì)中表現(xiàn)為顯著信息,因此強(qiáng)度損失可以使得融合圖像包含更多的紅外熱輻射信息。?表示計(jì)算梯度的函數(shù),本文采用Sobel算子來計(jì)算圖像的梯度。grad表示的是融合圖像與輸入圖像的顯著梯度信息損失均值,可以使得融合圖像包含更多可見光圖像中的背景細(xì)節(jié)紋理信息。
然而強(qiáng)度損失容易受到光照條件的影響,使得融合圖像過分關(guān)注亮度過高但是信息很少的區(qū)域。為此本文創(chuàng)新性地提出一種基于信息感知的像素?fù)p失函數(shù),數(shù)學(xué)表達(dá)如下:
綜上所述,總的損失函數(shù)定義為:
式中:,1,2是用來平衡不同損失函數(shù)的超參數(shù)??梢钥闯隹偟膿p失函數(shù)分為兩個(gè)部分:第一部分為融合圖像的像素?fù)p失,包括強(qiáng)度損失和基于信息感知的像素?fù)p失;第二部分為梯度損失。
實(shí)驗(yàn)在Windows10操作系統(tǒng)和NVIDIA GTX 1080Ti GPU上完成,程序版本為Pytorch 1.9.0,訓(xùn)練與測(cè)試平臺(tái)為PyCharm。融合結(jié)果的客觀質(zhì)量評(píng)價(jià)指標(biāo)結(jié)果在Matlab 2018a上計(jì)算得到。本文方法的訓(xùn)練集選用MSRS數(shù)據(jù)集,包含1444對(duì)對(duì)齊的高質(zhì)量紅外和可見光圖像。為了生成足夠的訓(xùn)練數(shù)據(jù),本文以步長(zhǎng)64將這些圖像裁剪成64×64的圖像塊,共計(jì)56280個(gè)圖像塊。同時(shí)為了加快運(yùn)行速度,所有的圖像數(shù)據(jù)在被送入模型前都被歸一化為[0,1]。在測(cè)試部分選用MSRS測(cè)試集和TNO測(cè)試集,分別包括361對(duì)和42對(duì)紅外與可見光圖像。為了驗(yàn)證網(wǎng)絡(luò)的泛化性,使用在MSRS訓(xùn)練集得到的權(quán)重進(jìn)行TNO數(shù)據(jù)集的測(cè)試。
在訓(xùn)練時(shí),對(duì)于損失函數(shù)中的系數(shù),設(shè)置1=5、2=30、=0.2。采用Adam優(yōu)化器更新參數(shù),訓(xùn)練輪次為30輪,學(xué)習(xí)率計(jì)劃設(shè)置如公式(11)所示,前15輪采用固定學(xué)習(xí)率0.001訓(xùn)練,后15輪采用線性衰減學(xué)習(xí)率。
對(duì)于包含彩色可見光圖像的MSRS數(shù)據(jù)集,本文首先將彩色可見光圖像從RGB顏色空間映射到Y(jié)CbCr顏色空間,然后采用不同的融合方法將可見光圖像的Y通道和紅外圖像進(jìn)行融合,最后將融合圖像作為新的Y通道再結(jié)合可見光圖像的Cb和Cr通道,將圖像數(shù)據(jù)重新映射回RGB顏色空間。
實(shí)驗(yàn)中選擇了7種典型的、最新的融合方法在MSRS、TNO數(shù)據(jù)集上進(jìn)行大量的定性和定量實(shí)驗(yàn)來評(píng)估所提出的融合網(wǎng)絡(luò)的性能。其中包括2種傳統(tǒng)的融合算法:CBF[24]和WLS[25],以及DenseFuse[15]、FusionGAN[16]、NestFuse[20]、RFN-Nest[21]和PIAfusion[18]5種基于深度學(xué)習(xí)的融合方法。以上所有方法均按照原始論文設(shè)置參數(shù)。
同時(shí)為了客觀評(píng)價(jià)融合圖像的性能,本文使用如下7個(gè)評(píng)價(jià)指標(biāo):標(biāo)準(zhǔn)差(standard deviation,SD)、空間頻率(spatial frequency,SF)、信息熵(entropy,EN)、互信息(mutual information,MI)、視覺保真度(visual information fidelity,VIF)、abf、差異相關(guān)和(the sum of the correlation of differences,SCD)。其中,SD、SF是基于圖像特征的評(píng)估指標(biāo);EN、MI是基于信息論的評(píng)估指標(biāo);VIF是基于人類視覺感知的評(píng)估指標(biāo);SCD和abf是基于源圖像與融合圖像的評(píng)估指標(biāo)。SD表示各像素灰度的標(biāo)準(zhǔn)差,值越大表示融合圖像的對(duì)比度越高;SF使用圖像像素值的變化率來表示圖像的清晰程度,值越大表示融合圖像越清晰;EN反映融合圖像紋理信息的豐富程度,其熵值越大,則說明其保留了更豐富的源圖像信息,MI用于度量?jī)煞鶊D像之間的相似程度,值越大表示融合圖像保留源圖像信息越多,質(zhì)量越好;VIF越大圖像質(zhì)量越好,SCD值越大,融合圖像中保留的源圖像對(duì)中的互補(bǔ)信息越多;abf用于評(píng)價(jià)源圖像中的顯著目標(biāo)在融合圖像中的呈現(xiàn)情況的指標(biāo),值越大表明融合圖像中顯著信息越多。
本文從MSRS測(cè)試數(shù)據(jù)集中挑選4組具有代表性的對(duì)比實(shí)驗(yàn),包括2個(gè)白天和2個(gè)夜間場(chǎng)景。不同方法的融合結(jié)果對(duì)比如圖5和圖6以及圖7、圖8所示,并用不同顏色的矩形框給出局部放大圖。
從圖5和圖6中可以看出:CBF方法的融合結(jié)果較差,融合結(jié)果中包含了大量的噪聲,在兩組對(duì)比圖中的天空區(qū)域污染嚴(yán)重,清晰度差,丟失了大量的圖像細(xì)節(jié);DenseFuse、FusionGAN、RFN-Nest方法得到的融合結(jié)果,雖然沒有產(chǎn)生較多的噪聲,但是圖像中天空區(qū)域污染嚴(yán)重,整體較為模糊,細(xì)節(jié)信息保留的不是很好,如第一組中紅色框中的人物均被虛化,尤其FusionGAN融合方法中的人物還存在一定程度的偽影;紅色框中的建筑物標(biāo)識(shí)信息只有WLS融合方法與本文提出的方法有所保留,但本文方法保留細(xì)節(jié)信息更為突出;對(duì)于NestFuse和PIAFusion方法,雖然整體獲得了比較不錯(cuò)的效果,但是對(duì)于紅外圖像的信息保留的較少,在第二組中PIAFusion融合方法由于過度關(guān)注光照條件,紅外圖像中綠色框中的大樓細(xì)節(jié)信息丟失比較嚴(yán)重;WLS和本文方法總體上獲得了較好的融合效果,但是WLS方法的融合圖像整體偏暗,路面細(xì)節(jié)信息不夠突出,且綠色方框內(nèi)的大樓信息不如本文方法的顯著性強(qiáng)。
圖5 MSRS數(shù)據(jù)集中白天場(chǎng)景一融合結(jié)果
圖6 MSRS數(shù)據(jù)集中白天場(chǎng)景二融合結(jié)果
總體來看,本文方法得益于精心設(shè)計(jì)的信息感知損失函數(shù)以及特征增強(qiáng)模塊對(duì)編碼器提取的多尺度特征充分利用,在細(xì)節(jié)保留與顯著性增強(qiáng)方面有明顯優(yōu)勢(shì),清晰度與對(duì)比度也比較客觀,不僅保留了源圖像場(chǎng)景信息,也對(duì)場(chǎng)景信息進(jìn)行了增強(qiáng),可以實(shí)現(xiàn)紅外和可見光圖像信息的良好平衡。
圖7 MSRS數(shù)據(jù)集中夜間場(chǎng)景一融合結(jié)果
圖8 MSRS數(shù)據(jù)集中夜間場(chǎng)景二融合結(jié)果
不同于白天場(chǎng)景,紅外與可見光圖像在夜間場(chǎng)景中只能提供有限的場(chǎng)景信息,因此,如何更大程度地將紅外與可見光圖像中有意義的信息有效融合是一個(gè)難題。
如圖7和圖8所示,雖然不同算法都對(duì)紅外圖像和可見光圖像中的互補(bǔ)信息進(jìn)行了一定程度的融合,但融合結(jié)果仍然存在一些細(xì)微的變化。在兩組對(duì)比圖中,CBF方法綠色框中的柵欄和路面交通標(biāo)識(shí)線污染嚴(yán)重,清晰度低;DenseFuse、FusionGAN、RFN-Nest方法得到的融合結(jié)果雖然沒有產(chǎn)生較多污染,但模糊了綠色框中目標(biāo)的輪廓,細(xì)節(jié)信息丟失嚴(yán)重;對(duì)于WLS、NestFuse和PIAFusion方法,雖然融合結(jié)果不錯(cuò),但是對(duì)紅外圖像中的信息紋理保留不充分,且WLS整體偏暗。
總體來看,其他方法存在紋理細(xì)節(jié)的污染和顯著目標(biāo)的弱化等問題。本文方法能夠有效融合源圖像中的互補(bǔ)信息,得益于本文提出的特征增強(qiáng)融合模塊,以及基于信息感知的像素?fù)p失函數(shù),從而生成包含豐富信息的融合圖像。
表3顯示了不同融合算法在MSRS數(shù)據(jù)集上的客觀評(píng)價(jià)指標(biāo),取值為每個(gè)指標(biāo)的平均值。其中最優(yōu)值用黑色加粗字體表示,次優(yōu)值用藍(lán)色數(shù)字表示。相比其他算法,本文所提方法在SD、EN、VIF、SCD、Qabf這5個(gè)指標(biāo)上都取得最優(yōu)值。
具體分析來說,本文在EN上取得最優(yōu)說明本文的融合結(jié)果包含最多的信息量;在SD和VIF上表現(xiàn)最優(yōu)說明本文的結(jié)果表現(xiàn)出最高的對(duì)比度,并且能呈現(xiàn)出最符合人類視覺感知的視覺效果;在SCD與abf上取得最優(yōu)值的結(jié)果說明融合圖像中保留了源圖像對(duì)中的互補(bǔ)信息最多,并且融合圖像中保留紅外源圖像中顯著目標(biāo)信息最多。這些結(jié)論與定性結(jié)果中的結(jié)果相一致;此外本文在指標(biāo)MI和SF上表現(xiàn)出具有競(jìng)爭(zhēng)力的融合性能。但是相比于其他融合方法,本文的融合結(jié)果包含豐富的紋理信息和邊緣信息。在不影響細(xì)節(jié)保留和顯著信息增強(qiáng)的前提下,圖片整體偏亮,對(duì)比度略低,而SF通過圖像像素值的變化率來衡量圖像質(zhì)量,因此本文算法并未在幾種評(píng)估指標(biāo)平均值上均達(dá)到最優(yōu),但總的來說,本文提出的融合方法下的融合結(jié)果和源圖像間保持了較高的相關(guān)性。
在TNO數(shù)據(jù)集上不同方法下的紅外與可見光圖像融合前后的結(jié)果如圖9和圖10所示。
實(shí)驗(yàn)中選取兩組具有代表性的融合圖片,并在圖中用不同顏色框給出局部放大圖。
表3 融合算法在MSRS數(shù)據(jù)集上的客觀評(píng)價(jià)指標(biāo)
圖9 TNO數(shù)據(jù)集部分一融合結(jié)果圖
圖10 TNO數(shù)據(jù)集部分二融合結(jié)果圖
從第一組圖片可以看出,CBF方法下的融合結(jié)果比較粗糙,雖然保留了源圖像間的互補(bǔ)信息,但同時(shí)也存在一些噪聲和污染,比如藍(lán)色框中的交通標(biāo)識(shí)牌和紅色框中的樹枝和天空,且房屋與背景信息不能很好地區(qū)分開,同樣的問題出現(xiàn)在WLS、DenseFuse、RFN-Nest、FusionGAN、NestFuse方法中,且FusionGAN獲得的融合結(jié)果傾向于保留紅外典型目標(biāo),而損失了大量的可見光結(jié)構(gòu)信息,比如藍(lán)色框中的交通標(biāo)識(shí)牌信息和綠色框中人物前的植物,從而導(dǎo)致融合結(jié)果比較模糊。PIAFusion方法雖然沒有出現(xiàn)這個(gè)問題,但由于過度關(guān)注光照信息,從而造成部分細(xì)節(jié)信息以及顯著性信息丟失,從紅色框中可以看出,丟失了紅外圖像中樹枝的信息,且綠色框中人物顯著性信息保留的也不夠充分;
在第二組圖片中,CBF、FusionGAN方法下的融合結(jié)果也存在前景信息與背景不能很好地區(qū)分開的問題,NestFuse、DenseFuse、RFN-Nest、WLS方法下的融合結(jié)果雖然保留了可見光圖像紋理細(xì)節(jié),但是目標(biāo)亮度嚴(yán)重缺乏,且圖像背景較暗,導(dǎo)致其對(duì)比度偏低,部分細(xì)節(jié)不明顯。且WLS融合結(jié)果存在噪聲,沒有PIAFusion方法和本文方法下的融合圖片清晰光滑,但同樣PIAFusion方法由于偏向于光照信息從而導(dǎo)致紅色框中的煙囪信息丟失。
相較而言,本文方法的融合結(jié)果充分保留了源圖像的互補(bǔ)信息,能在顯著性目標(biāo)和結(jié)構(gòu)紋理的保留上取得較好的平衡,且整體比較清晰,對(duì)比度較高。
不同融合算法在TNO數(shù)據(jù)集上的客觀評(píng)價(jià)指標(biāo)見表4。表中指標(biāo)值為42幅融合圖像的平均值,其中最優(yōu)值用黑色加粗字體表示,次優(yōu)值用藍(lán)色字體表示。
相比表中其它算法,本文算法在EN、MI、abf、SCD評(píng)價(jià)指標(biāo)上表現(xiàn)為最優(yōu)值,在SD、VIF上表現(xiàn)次優(yōu)值;說明本文方法下的融合圖像包含豐富的紋理信息與顯著信息,融合圖像保留了更多的源圖像對(duì)中的互補(bǔ)信息,與源圖像具有較強(qiáng)的相似性。SF指標(biāo)中,傳統(tǒng)算法CBF表現(xiàn)最高值,但本文算法與之?dāng)?shù)值相差僅為0.01左右,而且從融合圖像根據(jù)主觀評(píng)價(jià)來看,CBF算法融合圖像有不同程度的失真。
表4 融合算法在TNO數(shù)據(jù)集上的客觀評(píng)價(jià)指標(biāo)
綜合主觀評(píng)價(jià)和客觀指標(biāo),本文算法在TNO數(shù)據(jù)集上仍有較好的表現(xiàn),說明本文算法泛化能力較好。
同時(shí)為了對(duì)比不同方法的運(yùn)行效率,在表4中添加了不同方法的推理速度,推理速度指將圖像數(shù)組輸入到模型或者算法時(shí)開始直至得到輸出的總時(shí)間消耗。推理速度不涉及到數(shù)據(jù)的預(yù)處理和后處理操作。
由表4可以看出,本文的方法相較于PIAFusion、NestFuse、RFN-Nest、CBF和FusionGAN在CPU中的推理速度明顯提升,這得益于設(shè)計(jì)了輕量化的解碼器結(jié)構(gòu)。雖然在CPU中的推理速度低于DenseFuse和WLS,但得益于CUDA加速,在GPU上的差距并不是很明顯。
為了驗(yàn)證本文提出的特征增強(qiáng)融合模塊和各損失函數(shù)的作用,本節(jié)使用TNO數(shù)據(jù)集中的42對(duì)典型紅外與可見光圖像設(shè)計(jì)了消融實(shí)驗(yàn)。采用客觀評(píng)價(jià)對(duì)所有方法生成的融合圖像進(jìn)行測(cè)評(píng)。
其中,針對(duì)本文提出的特征增強(qiáng)融合模塊(FEF),設(shè)計(jì)如下消融實(shí)驗(yàn):
(1)除融合策略外,其余如學(xué)習(xí)率、訓(xùn)練輪數(shù)、損失函數(shù)系數(shù)等配置均固定;
(2)使用均值策略和最大值策略代替FEF模塊,分別使用Mean、Max表示。
融合策略消融實(shí)驗(yàn)結(jié)果見表5??梢钥闯?,本文提出的FEF與其他兩個(gè)融合策略相比,指標(biāo)abf有略有降低,其余指標(biāo)均明顯提升,表5中的數(shù)據(jù)驗(yàn)證了本文FEF融合策略的有效性。
為了驗(yàn)證各損失函數(shù)的作用,本文設(shè)計(jì)了如下消融實(shí)驗(yàn):
1)為驗(yàn)證像素?fù)p失的有效性,設(shè)置1=0,2=30,記作1;
2)為驗(yàn)證梯度損失的有效性,設(shè)置1=5,2=0,=0.2,記作2;
3)為驗(yàn)證強(qiáng)度損失的有效性,設(shè)置1=5,2=30,=0,記作3;
4)為了驗(yàn)證信息感知像素?fù)p失函數(shù)的有效性,設(shè)置1=5,2=30,=1,記作4;
5)本文采用的1=5,2=30,=0.2,記作5。
關(guān)于損失函數(shù)的消融實(shí)驗(yàn)對(duì)比結(jié)果見表6。
表5 FEF模塊的消融實(shí)驗(yàn)結(jié)果
表 6 損失函數(shù)的消融實(shí)驗(yàn)
通過對(duì)比5與1,可以發(fā)現(xiàn)去掉像素?fù)p失后,只有指標(biāo)SF、abf略有上升外,其余指標(biāo)均有所降低,尤其指標(biāo)MI大幅下降,在5與3的對(duì)比中同樣可以觀察到這一點(diǎn),這說明去掉像素?fù)p失中的強(qiáng)度損失會(huì)造成融合圖像中包含的源圖像信息顯著減少;通過對(duì)比5與2,可以發(fā)現(xiàn)移除梯度損失后,指標(biāo)abf明顯下降,可以得知移除梯度損失會(huì)造成融合圖像中包含源圖像中的顯著信息減少;通過對(duì)比5與4,發(fā)現(xiàn)在已有強(qiáng)度損失和梯度損失的前提下,增加信息感知像素?fù)p失后,與信息相關(guān)的指標(biāo)EN、MI、SCD進(jìn)一步得到提升,可以得知增加該損失函數(shù)可以促使網(wǎng)絡(luò)生成更加具有豐富信息的融合圖像。
同時(shí)從指標(biāo)整體上來看,使用強(qiáng)度損失、信息感知像素?fù)p失和梯度損失的方案5相較于其余方案獲得了更多的最優(yōu)值。因此本文的損失函數(shù)采用方案5。
本文提出了結(jié)合信息感知與多尺度特征的紅外與可見光圖像融合方法,首先設(shè)計(jì)了多尺度特征編碼和解碼網(wǎng)絡(luò),以充分利用不同尺度的紅外與可見光圖像特征;然后在編碼器和解碼器中間構(gòu)建了可學(xué)習(xí)的特征增強(qiáng)融合模塊FEF,以融合各個(gè)尺度的不同模態(tài)特征。此外,本文提出了基于信息感知的像素?fù)p失函數(shù),以指導(dǎo)網(wǎng)絡(luò)生成具有豐富信息的融合圖像。消融實(shí)驗(yàn)驗(yàn)證了FEF模塊和損失函數(shù)中各部分的有效性。同時(shí),在MSRS和TNO數(shù)據(jù)集上,與7種典型方法進(jìn)行了對(duì)比實(shí)驗(yàn),結(jié)果表明本文方法在推理速度、主客觀評(píng)價(jià)方面的綜合表現(xiàn)具有優(yōu)越性。如何構(gòu)造更加輕量級(jí)的融合網(wǎng)絡(luò)以便后續(xù)計(jì)算機(jī)視覺應(yīng)用是下一步重點(diǎn)研究的內(nèi)容。
[1] 白玉, 侯志強(qiáng), 劉曉義, 等. 基于可見光圖像和紅外圖像決策級(jí)融合的目標(biāo)檢測(cè)算法[J]. 空軍工程大學(xué)學(xué)報(bào): 自然科學(xué)版, 2020, 21(6): 53-59.
BAI Yu, HOU Zhiqiang, LIU Xiaoyi, et al. An object detection algorithm based on decision-level fusion of visible light image and infrared image[J].: Natural Science Edition, 2020, 21(6): 53-59.
[2] CAO Yanpeng, GUAN Dayan, HUANG Weilin, et al. Pedestrian detection with unsupervised multispectral feature learning using deep neural networks[J]., 2019, 46: 206-217.
[3] 段輝軍, 王志剛, 王彥. 基于改進(jìn)YOLO網(wǎng)絡(luò)的雙通道顯著性目標(biāo)識(shí)別算法[J]. 激光與紅外, 2020, 50(11): 1370-1378.
DUAN Huijun, WANG Zhigang, WANG Yan. Two-channel saliency object recognition algorithm based on improved YOLO network[J]., 2020, 50(11): 1370-1378.
[4] Tang Linfeng, Yuan Jiteng, Ma Jiayi. Image fusion in the loop of high-level vision tasks: A semantic-aware real-time infrared and visible image fusion network[J]., 2022, 82: 28-42.
[5] CHEN Jun, LI Xuejiao, Luo Linbo, et al. Infrared and visible image fusion based on target-enhanced multiscale transform decomposition[J]., 2020, 508: 64-78.
[6] LIU Xingbin, MEI Wenbo, DU Huiqian. Structure tensor and nonsubsampled shearlet transform based algorithm for CT and MRI image fusion[J]., 2017, 235: 131-139.
[7] LIU Yipeng, JIN Jing, Wang Qiang, et al. Region level based multi-focus image fusion using quaternion wavelet and normalized cut[J]., 2014, 97: 9-30.
[8] Zhang Qiong, Maldague X. An adaptive fusion approach for infrared and visible images based on NSCT and compressed sensing[J]., 2016, 74: 11-20.
[9] Li Hui, Wu Xiaojun J, Kittler J. MDLatLRR: A novel decomposition method for infrared and visible image fusion[J]., 2020, 29: 4733-4746.
[10] Liu Yu, Chen Xun, Ward R K, et al. Image fusion with convolutional sparse representation[J]., 2016, 23(12): 1882-1886.
[11] Fu Zhizhong, Wang Xue, Xu Jin, et al. Infrared and visible images fusion based on RPCA and NSCT[J]., 2016, 77: 114-123.
[12] Mou Jiao, Gao Wei, Song Zongxi. Image fusion based on non-negative matrix factorization and infrared feature extraction[C]//6th(CISP)., 2013, 2: 1046-1050.
[13] Ma Jiayi, Chen Chen, Li Chang, et al. Infrared and visible image fusion via gradient transfer and total variation minimization[J]., 2016, 31: 100-109.
[14] Liu Yu, Liu Shuping, Wang Zengfu. A general framework for image fusion based on multi-scale transform and sparse representation[J]., 2015, 24: 147-164.
[15] Li Hui, Wu Xiaojun. DenseFuse: A fusion approach to infrared and visible images[J]., 2018, 28(5): 2614-2623.
[16] Ma Jiayi, Yu Wei, Liang Pengwei, et al. FusionGAN: A generative adversarial network for infrared and visible image fusion[J]., 2019, 48: 11-26.
[17] 武圓圓, 王志社, 王君堯, 等. 紅外與可見光圖像注意力生成對(duì)抗融合方法研究[J]. 紅外技術(shù), 2022, 44(2): 170-178.
WU Yuanyuan, WANG Zhishi, WANG Junyao, et al. Infrared and visible image fusion using attention-based generative adversarial networks[J]., 2022, 44(2): 170-178.
[18] Hou Ruichao, Zhou Dongming, Nie Rencan, et al. VIF-Net: an unsupervised framework for infrared and visible image fusion[J]., 2020, 6: 640-651.
[19] Tang Linfeng, Yuan Jiteng, Zhang Hao, et al. PIAFusion: A progressive infrared and visible image fusion network based on illumination aware[J]., 2022, 83: 79-92.
[20] Li Hui, Wu Xiaojun, Durrani T. NestFuse: An infrared and visible image fusion architecture based on nest connection and spatial/channel attention models[J]., 2020, 69(12): 9645-9656.
[21] Li Hui, Wu Xiaojun, Kittler J. RFN-Nest: An end-to-end residual fusion network for infrared and visible images[J]., 2021, 73: 72-86.
[22] Toet Alexander. TNO Image Fusion Dataset[EB/OL]. [2022-08-20]. https://doi.org/10.6084/m9.figshare.1008029.v2.
[23] WANG Qilong, WU Banggu, ZHU Pengfei, et al. ECA-Net: efficient channel attention for deep convolutional neural networks[C]//(CVPR), 2020: 11531-11539.
[24] Kumar B S. Image fusion based on pixel significance using cross bilateral filter[J]., 2015, 9(5): 1193-1204.
[25] MA Jinlei, ZHOU Zhiqiang, WANG Bo, et al. Infrared and visible image fusion based on visual saliency map and weighted least square optimization[J]., 2017, 82: 8-17.
Infrared and Visible Image Fusion Combining Information Perception and Multiscale Features
QU Haicheng,HU Qianqian,ZHANG Xuecong
(School of Software, Liaoning Technical University, Huludao 125105, China)
Existing image fusion algorithms based on deep learning are unable to satisfy the demands of computational efficiency and fusion effect. Most have also adopted a fusion strategy based on a single-scale model, which cannot effectively extract the contextual information in images. This study proposes an end-to-end image fusion network based on information perception and multiscale features. The network consists of an encoder, a fusion strategy, and decoder. Specifically, the multiscale features of the infrared and visible images were extracted by the encoder, and a feature complementary enhancement module was designed to fuse different modal multiscale features. Finally, the lightweight decoder was designed to combine the low-level details and high-level semantic information. In addition, the information entropy of the source image was used to construct an information-sensing loss function to train the fusion network and generate the fused image with rich information. The proposed fusion framework was evaluated on the TNO and MSRS datasets. The results show that compared with existing fusion methods, the proposed network was superior to other methods in terms of both subjective visual description and objective index evaluation, with higher computational efficiency.
image fusion, multi-scale feature, information perception, feature complementary enhancement
TP391
A
1001-8891(2023)07-0685-11
2022-08-28;
2022-11-30.
曲海成(1981-),男,博士,副教授,主要研究方向:圖像與智能信息處理。E-mail:quhaicheng@lntu.edu.cn。
遼寧省教育廳一般項(xiàng)目(LJ2019JL010);遼寧工程技術(shù)大學(xué)學(xué)科創(chuàng)新團(tuán)隊(duì)資助項(xiàng)目(LNTU20TD-23)。