陳 永,張嬌嬌,王 鎮(zhèn)
(蘭州交通大學(xué) 電子與信息工程學(xué)院,甘肅 蘭州 730070)
紅外輻射是一種與可見光頻譜相鄰的不可見光,其在云霧中具有很強(qiáng)的穿透力,受不良天氣干擾較小,紅外視覺在安防和軍事等各個領(lǐng)域有突出優(yōu)勢。但紅外圖像相比于可見光圖像存在細(xì)節(jié)缺失、邊緣結(jié)構(gòu)模糊、分辨率不高等缺點(diǎn)??梢姽鈭D像雖紋理細(xì)節(jié)信息豐富,但在弱光條件下成像后存在有效目標(biāo)模糊、難以被識別的問題。因此,利用紅外與可見光圖像的互補(bǔ)信息,將兩者融合,其紋理細(xì)節(jié)和目標(biāo)信息都盡可能被保留,具有更優(yōu)的可視效果,能夠提高目標(biāo)的檢測及識別率,非常有利于目標(biāo)指示和場景信息的獲取[1]。通過紅外與可見光圖像的融合可以擴(kuò)展系統(tǒng)的時空覆蓋率,增強(qiáng)系統(tǒng)的可靠性和魯棒性,其可廣泛應(yīng)用于交通安全監(jiān)控[2]、軍事偵察[3]、醫(yī)學(xué)成像[4]、遙感[5]等多種應(yīng)用場景。
目前,紅外與可見光圖像融合方法分為傳統(tǒng)方法和基于深度學(xué)習(xí)的融合方法。傳統(tǒng)融合方法根據(jù)理論依據(jù)不同,可分為變換融合[6]、稀疏表示[7]、拉普拉斯金字塔融合[8]等方法。其中變換融合方法因其算法簡單,性能較好被廣泛應(yīng)用,該類方法包括雙樹復(fù)小波變換(Dual-Tree Complex Wavelet Transform,DTCWT)[9]、非下采樣輪廓波變換(NonSubsampled Contourlet Transform,NSCT)[10]等。然而上述傳統(tǒng)方法在融合階段,需要根據(jù)具體問題手工設(shè)計融合規(guī)則,導(dǎo)致其泛化性能較差。
隨著深度學(xué)習(xí)的快速發(fā)展,圖像融合領(lǐng)域也提出了很多基于深度學(xué)習(xí)的方法[11-14]。文獻(xiàn)[15]提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)融合方法,但該方法網(wǎng)絡(luò)層數(shù)較少,難以提取有效特征信息,以致融合結(jié)果存在信息缺失問題。文獻(xiàn)[16]提出一種基于生成對抗網(wǎng)絡(luò)的融合方法(Generative Adversarial Network for infrared and visible image Fusion,F(xiàn)usionGAN),該方法通過生成器與判別器的博弈來完成融合,但其判別器在對抗訓(xùn)練時僅以可見光圖像為參照,忽略了紅外圖像對于融合的互補(bǔ)作用,導(dǎo)致融合后的圖像局部信息不明顯。文獻(xiàn)[17]提出了一種深度無監(jiān)督的圖像融合方法(Deep unsupervised approach for Fusion,DeepFuse),該方法通過色彩空間轉(zhuǎn)換后進(jìn)行雙分支特征提取進(jìn)行融合,但該方法在融合時采用相同權(quán)重,這一操作導(dǎo)致無法獲取到圖像的差異化信息,最終的融合圖像出現(xiàn)細(xì)節(jié)紋理模糊的問題。文獻(xiàn)[18]提出了一種基于殘差網(wǎng)絡(luò)(Residual Network,ResNet)的圖像融合方法,該方法可利用網(wǎng)絡(luò)結(jié)構(gòu)提取紅外與可見光圖像特征,但在融合重構(gòu)時采用加權(quán)平均的策略,融合后圖像容易丟失重要信息。文獻(xiàn)[19]提出了基于密集連接網(wǎng)絡(luò)的融合方法——Densefuse,該方法將源圖像輸入編碼網(wǎng)絡(luò)構(gòu)造特征映射,再利用解碼網(wǎng)絡(luò)重構(gòu)出最終融合圖像,但該方法在編碼網(wǎng)絡(luò)中只使用單尺度的卷積核提取圖像特征,導(dǎo)致融合后的圖像目標(biāo)邊緣易出現(xiàn)模糊現(xiàn)象。
綜上所述,現(xiàn)有融合方法大都采用單一尺度卷積核提取圖像特征,未考慮紅外與可見光圖像中具有多樣復(fù)雜的特征信息,導(dǎo)致融合結(jié)果存在特征提取不充分、細(xì)節(jié)信息重構(gòu)缺失等問題。針對上述問題,提出了一種多尺度密集連接注意力的紅外與可見光圖像融合方法。主要工作有:(1)設(shè)計多尺度卷積神經(jīng)網(wǎng)絡(luò)編碼子網(wǎng)絡(luò)提取紅外與可見光圖像中不同感受野大小的特征信息,克服了單一尺度特征提取不足的問題;(2)在編碼子網(wǎng)絡(luò)末端引入通道與改進(jìn)的可變形卷積空間注意力機(jī)制用于捕捉全局信息的依賴關(guān)系,以促進(jìn)網(wǎng)絡(luò)有效地對紅外與可見光圖像中的重要特征信息進(jìn)行聚焦;(3)將編碼子網(wǎng)絡(luò)提取到的紅外與可見光特征信息輸入融合層,使用基于L1范數(shù)的融合策略進(jìn)行融合;(4)構(gòu)建解碼子網(wǎng)絡(luò)對融合后的特征進(jìn)行重構(gòu),得到最終融合后圖像。對紅外與可見光的融合實(shí)驗(yàn)結(jié)果表明,所提方法較對比方法在主、客觀角度均取得較好的融合效果。
可見光RGB圖像一般包含豐富的細(xì)節(jié)信息,紅外圖像含有突出的目標(biāo)信息,為了提高可見光與紅外圖像特征提取能力,提升融合性能,提出了一種多尺度密集連接注意力的紅外與可見光圖像融合深度學(xué)習(xí)模型,網(wǎng)絡(luò)總體框架如圖1所示,主要由紅外與可見光特征編碼子網(wǎng)絡(luò)、融合子網(wǎng)絡(luò)和解碼子網(wǎng)絡(luò)三部分構(gòu)成。
模型工作時,首先,在網(wǎng)絡(luò)模型中編碼子網(wǎng)絡(luò)通過多尺度特征提取層獲得多通道圖像特征信息;其次,將得到的特征輸入密集連接模塊從而盡可能地保留紅外與可見光圖像的特征信息;然后,利用在編碼子網(wǎng)絡(luò)末端引入改進(jìn)的可變形卷積注意力機(jī)制(Deformable-Convolutional Block Attention Module,D-CBAM),從通道和空間兩個方面對紅外與可見光圖像的顯著信息聚焦,并抑制無用信息,以確保在融合層所有的顯著特征都可以被利用;接著,融合層使用基于L1范數(shù)的融合策略[19]對編碼子網(wǎng)絡(luò)提取的特征進(jìn)行融合;最后,解碼子網(wǎng)絡(luò)由全卷積構(gòu)成,在解碼子網(wǎng)絡(luò)中將提取的特征信息進(jìn)行重構(gòu),輸出紅外與可見光圖像的融合結(jié)果。
圖1 網(wǎng)絡(luò)總體框架圖Fig.1 Overall network framework
本文編碼子網(wǎng)絡(luò)由多尺度層、密集連接塊和注意力機(jī)制模塊三部分構(gòu)成。所提方法設(shè)計了多種尺度的卷積核提取不同感受野的特征信息,紅外光與可見光圖像都具有復(fù)雜的紋理信息,密集連接網(wǎng)絡(luò)可以提取到圖像的目標(biāo)深層特征,使得最終的融合圖像具有更好精度。注意力機(jī)制則可以促進(jìn)全局的依賴關(guān)系,使網(wǎng)絡(luò)提取到更豐富全面的紅外與可見光圖像特征信息。
2.2.1 多尺度特征提取層
紅外圖像和可見光圖像的融合實(shí)質(zhì)是將紅外圖像中的信息根據(jù)一定的規(guī)則融合可見光圖像。融合時除了考慮圖像的亮度信息還需要考慮當(dāng)前像素所在的連通區(qū)域特征,若能充分考慮包含當(dāng)前像素的多尺度區(qū)域特征,將會提取到關(guān)于目標(biāo)對象更準(zhǔn)確的圖像特征。在基于深度學(xué)習(xí)的方法中通常使用卷積層提取圖像特征,但如果單純使用一種尺度卷積核提取特征,導(dǎo)致圖像在其他感受野的特征表現(xiàn)將無法被感知。為了充分獲得輸入紅外與可見光圖像在不同尺度下的特征,首先分別使用5×5、3×3和1×1三種不同尺度大小的卷積核對輸入紅外與可見光圖像不同維度的特征信息進(jìn)行提取,其結(jié)構(gòu)如圖2所示。多尺度卷積操作能夠克服單尺度卷積操作感受野單一、特征范圍受限的問題。
圖2 多尺度特征提取圖Fig.2 Multi-scale feature extraction diagram
圖2中,多尺度特征提取時,利用式(1)和式(2)計算如下:
其中:Fin為輸入特征圖;*代表卷積操作;卷積核大小為fj,j=1,3,5;Fout為輸出的特征圖。
2.2.2 密集連接特征提取模塊
為了進(jìn)一步提高網(wǎng)絡(luò)提取圖像特征信息的準(zhǔn)確性,在多尺度卷積層之后再采用密集連接網(wǎng)絡(luò)提取圖像的深層特征信息。密集連接網(wǎng)絡(luò)將每層卷積提取的特征輸出至后續(xù)所有的卷積層,這種方式可以讓每個卷積層都能感知到前驅(qū)卷積層的計算結(jié)果。密集連接將網(wǎng)絡(luò)的寬度控制在一個較窄的水平上,很好地解決了過擬合等問題[20]。為了能夠充分利用圖像各層卷積的特征輸出,本文在多尺度卷積層后連接了一個密集連接網(wǎng)絡(luò)模塊,該模塊是由3個密集連接的卷積層組成,密集連接模塊中的卷積算子的尺度都是3×3,其結(jié)構(gòu)如圖3所示。
從圖3可以看出,密集連接塊的輸出是之前每一層的拼接,輸出圖像的通道數(shù)不發(fā)生改變,每一層的輸出如式(3)所示。
其中:xt表示第t層的輸出,xt-1為前一層,Ht代表非線性轉(zhuǎn)化函數(shù)(Non-liear Transformation),可表示一個組合函數(shù)操作,密集連接塊中采用的是BN+ReLU+Conv(3×3)的結(jié)構(gòu)。
2.2.3 可變形卷積注意力機(jī)制
在編碼網(wǎng)絡(luò)模型中,通過不同尺度的卷積核以及密集連接塊提取可見光與紅外圖像更豐富、更深層次的圖像特征,克服了單尺度圖像融合特征提取不足的問題。但普通卷積操作僅為局部信息感知,無法獲得全局關(guān)聯(lián)信息,而注意力機(jī)制能夠捕獲全局的依賴關(guān)系[21]。
本文在紅外與可見光圖像融合網(wǎng)絡(luò)結(jié)構(gòu)中采用提出的可變形卷積注意力機(jī)制D-CBAM,以便更加有效地對紅外與可見光圖像中的重要特征信息進(jìn)行聚焦。相比于SE注意力方法(Squeeze-and-Excitation,SE)僅關(guān)注通道之間的關(guān)系,忽略了紅外與可見光融合對象輪廓特征信息的關(guān)注。而CBAM[22]注意力機(jī)制能夠同時在通道和空間維度上進(jìn)行注意力特征提取,其通過在內(nèi)部運(yùn)用全局最大池化和全局平均池化的并行方式來減小池化操作帶來的損失,從中將可見光與紅外輪廓及紋理細(xì)節(jié)特征信息得以增強(qiáng)。并且CBAM模塊是一個輕量級模塊,集成到網(wǎng)絡(luò)中產(chǎn)生的額外開銷可忽略不計,其結(jié)構(gòu)如圖4所示。CBAM主要由通道注意力單元(Channel Attention Module,CAM)和空間注意力單元(Spatial Attention Module,SAM)構(gòu)成,兩個模塊分別獨(dú)立作用于通道與空間,可節(jié)約參數(shù)并且避免了繁瑣的計算。
本文在CBAM空間注意力模塊中將最大池化和平均池化通道拼接后的7×7標(biāo)準(zhǔn)卷積改進(jìn)為一個3×3的可變形卷積。這是因?yàn)槠胀ň矸e的感受野根據(jù)卷積核的大小是固定的矩形,但在實(shí)際應(yīng)用過程中,各種圖像物體的特征形狀大小各不相同。而可變形卷積通過增加偏移變量可以對感受野大小進(jìn)行自適應(yīng)調(diào)節(jié),結(jié)構(gòu)如圖5所示。
圖3 密集連接模塊Fig.3 Dense connected module
圖5中,特征圖通過3×3的可變形卷積層操作,能夠輸出帶有偏移量參數(shù)的特征圖??勺冃尉矸e是在普通卷積的采樣點(diǎn)位置都加了一個可學(xué)習(xí)的偏移量{Δan|n=1,…,N},如式(4)和式(5)所示。
其中:x為輸入的特征圖;y為輸出的特征圖;w是 權(quán) 重 值;R表 示 采 樣 區(qū) 域,R={(-1,-1),(-1,0),…,(0,1),(1,1)};a0表示特征圖y中的點(diǎn);an表示R內(nèi)的所有采樣點(diǎn);因?yàn)棣n可能是小數(shù),所以一般使用雙線性插值計算x(a0+an+Δan)的值。
在紅外與可見光圖像融合時,利用可變形卷積能更高效地關(guān)注特征區(qū)域,相較與普通卷積其采樣點(diǎn)更加貼近物體的真實(shí)形狀及位置,如圖6所示。
在可變形卷積注意力機(jī)制中,通道注意力可以增強(qiáng)可見光與紅外圖像中的重要通道特征,并削弱無關(guān)特征,其示意圖如圖7所示。在此模塊中輸入特征圖F(H×W×C),H為特征圖的高,W為特征圖的寬,C為特征圖的通道數(shù),然后,經(jīng)過全局最大池化和平均池化及多層感知器(Multi-Layer Perception,MLP)單元后,得到兩個特征向量,最后經(jīng)過元素加操作和Sigmoid激活后得到通道注意力權(quán)重值。
圖4 注意力機(jī)制模塊圖Fig.4 Convolutional block attention module
圖5 可變形卷積Fig.5 Deformable Convolution
圖6 標(biāo)準(zhǔn)卷積和可變形卷積對比Fig.6 Comparison of standard convolution and deformable convolution
紅外與可見光融合時,通道注意力通過式(6)計算得到:
在得到通道注意力權(quán)重Mc(F)后,在輸入空間注意力模塊之前,再將其與輸入圖像特征做基于元素的乘法操作,計算過程如式(7):
其中:σ是Sigmoid函數(shù),F(xiàn)是輸入的特征圖,F(xiàn)′是通道注意力模塊得到的特征。
接著將通道注意力特征信息輸入空間注意力模塊中,通過最大池化和平均池化進(jìn)行通道拼接,其結(jié)構(gòu)如圖8所示。
在圖8特征圖通道拼接后,再經(jīng)過3×3的可變形卷積操作,接著通過Sigmoid激活函數(shù),如式(8)所示:
圖7 通道注意力模塊圖Fig.7 Channel attention module
其中,f3×3DCov表示可變形卷積操作。將得到的空間特征圖與輸入的特征信息做元素乘積操作,輸出D-CBAM注意力機(jī)制增強(qiáng)后的特征圖,如式(9)所示:
其中:F″是運(yùn)行空間注意力模塊得到的特征。
紅外與可見光圖像的目標(biāo)信息具有突出的互補(bǔ)性,在融合時為了提高特征圖融合的有效性,采用L1范數(shù)[19]的融合策略,如圖9所示。該策略是通過計算活動圖完成融合工作。由編碼子網(wǎng)絡(luò)輸出的特征圖用φmi表示,通過L1范數(shù)得到特征圖φmi的初始活動水平圖Ci,最終活動水平i由基于窗口的平均算子獲得;再將i經(jīng)過Soft-max函數(shù)運(yùn)算,得到融合后的特征圖fm。
基于L1范數(shù)的融合策略詳細(xì)步驟如下:
(1)采用L1范數(shù)得到初始活動水平圖Ci:
其中,φ1:Mi(x,y)是一個M維的向量,(x,y)代表位置坐標(biāo)。
其中:a為窗口橫坐標(biāo)取值,b為窗口縱坐標(biāo)取值,r代表窗口大小。
(3)通過Softmax函數(shù)得到初始權(quán)重圖wi,并得出最終的特征圖fm。
其中,fm為融合后的待解碼特征圖。
解碼子網(wǎng)絡(luò)的輸入為融合層的輸出特征圖,實(shí)現(xiàn)對融合后圖像的重構(gòu)。通過解碼子網(wǎng)絡(luò),使得網(wǎng)絡(luò)得到的融合圖像保留更多的目標(biāo)細(xì)節(jié)信息。為了獲得更加精細(xì)的解碼效果,解碼子網(wǎng)絡(luò)采用全卷積結(jié)構(gòu)構(gòu)成,如圖10所示,使用4個3×3卷積核和ReLU激活函數(shù)進(jìn)行解碼重構(gòu)操作,最終輸出重構(gòu)后的紅外與可見光融合圖像。
圖8 空間注意力模塊圖Fig.8 Spatial Attention Module
圖9 基于L1范數(shù)的融合策略Fig.9 Fusion strategy based on L1 norm
圖10 解碼子網(wǎng)絡(luò)結(jié)構(gòu)Fig.10 Encoder subnet structure
設(shè)計損失函數(shù)時,為了使網(wǎng)絡(luò)可以更精確地提取并重構(gòu)圖像特征,在訓(xùn)練過程中加入最小化損失函數(shù)來訓(xùn)練網(wǎng)絡(luò)模型。損失函數(shù)(Lloss)由加權(quán)λ結(jié)構(gòu)相似性度量誤差(Lssim)和像素誤差(Lpixel)組成,由式(14)可得:
其中:I表示圖像融合訓(xùn)練網(wǎng)絡(luò)的輸入圖像,O表示網(wǎng)絡(luò)輸出圖像。相似度損失(Lssim)可由式(16)得到:
其中,fSSIM(·)函數(shù)代表結(jié)構(gòu)相似度操作,即fSSIM(O,I)代表輸入與輸出圖像的結(jié)構(gòu)相似度。
為了驗(yàn)證所提方法的有效性,與8種代表性的融合方法進(jìn)行比較,包括雙樹復(fù)小波變換(DTCWT)[9]、非下采樣輪廓波變換(NSCT)[10]、基于雙分支多聚焦特征融合的深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)[15]、生成對抗網(wǎng)絡(luò)(FusionGAN)[16]、密集連接網(wǎng)絡(luò)(DenseFuse)[19]、卷積稀疏表示(Convolutional Sparse Representation,CSR)[23]、多 尺度分解(Novel Decomposition Method for Infrared and Visible Image Fusion,MDLatLRR)[24]、潛在低秩表示(Infrared and Visible Image Fusion using Latent Low-Rank Representation,LatLRR)[25],并通過主客觀評價指標(biāo)進(jìn)行評價分析。軟件環(huán)境為Windows10、python3.6及pytorch。硬件配置環(huán)境為Intel(R)Core i7-9700K CPU@3.6 GHz,64.0 GB RAM,NVIDIA Ge-Force GTX 1660,對比實(shí)驗(yàn)的軟硬件環(huán)境相同。實(shí)驗(yàn)測試階段選取了TNO數(shù)據(jù)集中的紅外與可見光圖像。訓(xùn)練階段使用MS-COCO數(shù)據(jù)集,其目的是訓(xùn)練網(wǎng)絡(luò)模型的重構(gòu)能力。
選取TNO數(shù)據(jù)集中“street”組進(jìn)行實(shí)驗(yàn)分析,實(shí)驗(yàn)結(jié)果如圖11所示。可以看出,CNN算法和CSR算法實(shí)驗(yàn)結(jié)果中背景被過度虛化且含有噪聲偽影的現(xiàn)象。FusionGAN算法、MDLatLRR算法實(shí)驗(yàn)融合結(jié)果雖然有所改善,但右上角行人部分依然是虛化的。NSCT算法、DenseFuse算 法、LatLRR算 法 和DTCWT算 法實(shí)驗(yàn)結(jié)果中目標(biāo)和整體場景的層次對比度較弱且缺少紅外與可見光圖像更多的邊緣和細(xì)節(jié)信息。本文提出的算法實(shí)驗(yàn)結(jié)果中右上方行人汽車的紋理結(jié)構(gòu)特征豐富明顯,較好地保留了邊緣及細(xì)節(jié)信息。
為了進(jìn)一步驗(yàn)證圖像融合實(shí)驗(yàn)的優(yōu)越性,從TNO數(shù)據(jù)集中繼續(xù)選取五組不同的圖像作為對比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如圖12所示,可以看出,CSR算法和NSCT算法的融合圖像結(jié)果不理想并且噪聲現(xiàn)象非常嚴(yán)重。CNN算法相對于CSR算法和NSCT算法的融合結(jié)果噪聲現(xiàn)象得以改善,但是依然存在嚴(yán)重的偽影。DTCWT、LatLRR和
MDLatLRR算法很大程度上解決了上述算法存在的問題,圖像的輪廓信息比較清晰,但是一些重要信息仍得不到體現(xiàn),如圖中紅框所示,DTCWT算法融合結(jié)果第四組圖像中,房子上方的樹枝紋理模糊。LatLRR算法融合結(jié)果第五組圖像中,窗戶邊緣不清晰。MDLatLRR算法融合結(jié)果第三組圖像中,融合效果不佳導(dǎo)致人像周圍的信息缺失。FusionGAN和DenseFuse算法是基于深度學(xué)習(xí)的融合方法,其融合結(jié)果既保留了可見光的有用信息又存在紅外圖像的目標(biāo)特征信息。但結(jié)果中目標(biāo)特征信息邊緣較為模糊,如在DenseFuse算法融合結(jié)果的第三組圖像中,右下角的草叢與地面的輪廓不清晰,對比度不明顯。本文所提方法融合結(jié)果目標(biāo)信息更加清晰且保留了更豐富的紋理細(xì)節(jié)信息,并且在亮度上也得到一定的提升。
圖12 不同算法對TNO數(shù)據(jù)集紅外與可見圖像融合結(jié)果比較Fig.12 Results of infrared and visible image fusion based on TNO dataset with different algorithms
主觀評價是憑個人的感覺進(jìn)行主觀判斷,具有一定的隨機(jī)性與片面性。因此需要結(jié)合客觀評價對融合圖像的質(zhì)量進(jìn)行綜合分析對比。
為了更好地分析融合圖像的質(zhì)量,選取結(jié)構(gòu)相似度(SSIM)、空間頻率(SF)、信息熵(EN)、視覺信息保真度(VIFF)、差異相關(guān)系數(shù)(SCD)和邊緣信息保持度(QAB/F)六種有代表性的公認(rèn)的客觀評價指標(biāo)對融合圖像質(zhì)量進(jìn)行對比實(shí)驗(yàn)分析。
首先對“street”這一組實(shí)驗(yàn)進(jìn)行定量分析,結(jié)果如表1所示,其中黑體為最優(yōu)值。根據(jù)表1的客觀評價數(shù)據(jù)可以發(fā)現(xiàn),本文方法在“street”這一組實(shí)驗(yàn)對比中,大部分評價指標(biāo)較其他對比算法是最優(yōu)的。尤其較DenseFuse算法,SF指標(biāo)提高了約77.22%,說明圖像中邊緣與紋理信息更加豐富清晰;其次SSIM指標(biāo)提高了約42.61%,說明圖像中的顯著信息表現(xiàn)更佳。同時在EN、SCD和VIFF指標(biāo)都有不同程度的提高。在本對比實(shí)驗(yàn)客觀評價的數(shù)據(jù)結(jié)果顯示與主觀評價是相符的。
表1 “street”組客觀評價Tab.1 Objective evaluation of“street”
進(jìn)一步從TNO數(shù)據(jù)集中選取6組不同場景的紅外與可見光圖像進(jìn)行融合量化分析對比,將得出的指標(biāo)得分以折線圖的形式進(jìn)行可視化,圖13為不同算法的客觀評價指標(biāo)折線圖。從各項指標(biāo)之間的對比可知,本文方法在提高融合圖像質(zhì)量的同時具有較好的視覺信息保真度,與主觀評價一致。
擴(kuò)大客觀評價實(shí)驗(yàn),從TNO數(shù)據(jù)集中共選取10組融合結(jié)果進(jìn)行對比實(shí)驗(yàn),結(jié)果如表2所示。
圖13 不同算法的6種客觀指標(biāo)對比Fig.13 Comparison of six objective metrics for different algorithms
表2 10組融合結(jié)果平均定量值Tab.2 Average quantitative value of the fusion results of 10 groups
可以看出本文提出的方法在10組不同場景下得到的6種評價指標(biāo)平均定量值,有5種評價指標(biāo)結(jié)果都是最優(yōu)的,其中SSIM、SF指標(biāo)分別平均提高了0.26倍、0.45倍。此外,從表2可以看出,所提方法僅在邊緣保持度(QAB/F)評價指標(biāo)略低于CSR算法,這是因?yàn)镃SR算法將源圖像作為整體進(jìn)行稀疏編碼,有效保留了圖像的全局邊緣特征信息,但該算法在字典構(gòu)造時,存在字典單一且不具備自適應(yīng)性的問題,當(dāng)噪聲逐漸加大時,使用該算法融合后會產(chǎn)生模糊、清晰度差的問題。綜合上述客觀比較,所提方法融合結(jié)果自然清晰,層次感更好。
為了驗(yàn)證本文方法中提出的各模塊的功能及有效性,進(jìn)行消融實(shí)驗(yàn):(1)僅以密集連接(Densely Connection,DC)進(jìn)行圖像融合實(shí)驗(yàn);(2)以多尺度的密集連接(Multiscale-Densely Connection,M-DC)進(jìn)行圖像融合實(shí)驗(yàn);(3)以多尺度密集連接及注意力機(jī)制(Multiscale-Densely Connection+Convolutional Block Attention Module,M-DC+CBAM)進(jìn)行圖像融合實(shí)驗(yàn);(4)以多尺度密集連接及改進(jìn)的可變形卷積注意力機(jī)制(M-DC+D-CBAM)進(jìn)行圖像融合實(shí)驗(yàn)。在TNO數(shù)據(jù)集中隨機(jī)選擇一組圖像“Kaptein”的融合結(jié)果作為主觀對比,繼續(xù)選取10組圖像的融合結(jié)果進(jìn)行消融實(shí)驗(yàn)的客觀評價指標(biāo)對比。圖14為消融實(shí)驗(yàn)結(jié)果,通過觀察發(fā)現(xiàn),多尺度密集連接在亮度上有一定的提升,可以體現(xiàn)出更多的圖像特征信息,但是圖像對比度略顯不足。多尺度密集連接及注意力機(jī)制的融合結(jié)果改善了上述缺點(diǎn),行人后面的帳篷輪廓更加清晰,但紅框內(nèi)的草叢紋理細(xì)節(jié)依舊模糊。本文提出的多尺度密集連接及改進(jìn)的可變形卷積注意力機(jī)制融合結(jié)果可以很好地保留紅外與可見光圖像中的特征信息,紋理信息豐富。融合效果良好。消融實(shí)驗(yàn)的客觀指標(biāo)選取了表示融合算法效果的結(jié)構(gòu)相似性指標(biāo)(SSIM)和反映圖像細(xì)節(jié)和紋理信息的平均梯度(AG)指標(biāo)。表3為消融實(shí)驗(yàn)的客觀評價指標(biāo)數(shù)據(jù)。
圖14 消融實(shí)驗(yàn)結(jié)果Fig.14 Results of ablation experiments
表3 消融實(shí)驗(yàn)客觀指標(biāo)Tab.3 Objective indicators of ablation experiment
從表3可以發(fā)現(xiàn),加入各模塊會使本文所提方法融合性能有不同程度的提高,第四組消融實(shí)驗(yàn)結(jié)構(gòu)相似性指標(biāo)可高達(dá)96.37%,平均梯度也明顯上升,證明本文提出的多尺度密集連接及改進(jìn)的可變形卷積注意力方法的有效性。
最后,對模型計算復(fù)雜度和運(yùn)行效率進(jìn)行比較分析。在深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)模型中,一般通過計算量,即模型的運(yùn)算次數(shù)來衡量算法計算復(fù)雜度,并根據(jù)融合十組紅外與可見光圖像所需的平均時間衡量算法的運(yùn)行效率。將本文算法與3種經(jīng)典的紅外與可見光圖像融合深度學(xué)習(xí)方法進(jìn)行比較,包括基于雙分支多聚焦融合的深度卷積神經(jīng)網(wǎng)絡(luò)融合算法(CNN)[15]、生成對抗網(wǎng)絡(luò)融合算法(FusionGAN)[16]、密集連接網(wǎng)絡(luò)融合算法(DenseFuse)[19],計算復(fù)雜度和運(yùn)行效率的對比實(shí)驗(yàn)結(jié)果如表4所示。
表4 計算量和運(yùn)行時間Tab.4 Computational amount and runtime
表4中,1 GFLOPs=109FLOPs,從表4中可以發(fā)現(xiàn),基于雙分支多聚焦融合的深度卷積神經(jīng)網(wǎng)絡(luò)算法(CNN)因?yàn)榫W(wǎng)絡(luò)層數(shù)較少,僅使用簡單卷積操作進(jìn)行特征提取,因此其計算量和運(yùn)行時間在4種方法中最小,但該方法無法提取有效特征信息,融合結(jié)果較差。本文方法相較于生成對抗網(wǎng)絡(luò)融合算法(FusionGAN)和密集連接網(wǎng)絡(luò)(DenseFuse)計算量明顯減少,且運(yùn)行時間也低于上述兩種方法。綜上分析,結(jié)合表2客觀指標(biāo)評價和表4計算量和運(yùn)行時間比較,可知本文算法在總體指標(biāo)及算法性能上均取得了更好的評價。
本文結(jié)合多尺度和密集連接網(wǎng)絡(luò)的思想,提出一種多尺度密集連接注意力的紅外與可見光圖像融合方法。在編碼子網(wǎng)絡(luò)模型中,通過多尺度卷積、密集連接可變形卷積注意力機(jī)制進(jìn)行多維度特征提取,保留了紅外與可見光圖像中更多的細(xì)節(jié)和目標(biāo)信息。然后,將提取到的紅外與可見光特征在融合層使用基于L1范數(shù)的融合策略進(jìn)行融合,最后通過全卷積解碼子網(wǎng)絡(luò)進(jìn)行重構(gòu)解碼,生成最終的紅外與可見光融合圖像。通過數(shù)據(jù)集對比實(shí)驗(yàn)表明:相較于其他對比實(shí)驗(yàn),本文方法客觀評價指標(biāo)都有所提高,其中結(jié)構(gòu)相似性、空間頻率指標(biāo)分別平均提高了0.26倍、0.45倍。所提方法克服了現(xiàn)有深度學(xué)習(xí)模型在紅外與可見光圖像融合時特征提取不充分,細(xì)節(jié)重構(gòu)丟失等問題,在主觀視覺融合方面,能夠有效減少偽影,使得目標(biāo)邊緣信息更加清晰,具有更好的對比度和清晰度,在主客觀評價方面均優(yōu)于對比方法。