何 樂,李忠偉,羅 偲,任 鵬,隋 昊
基于空洞卷積與雙注意力機(jī)制的紅外與可見光圖像融合
何 樂1,李忠偉1,羅 偲1,任 鵬1,隋 昊2
(1. 中國石油大學(xué)(華東)海洋與空間信息學(xué)院,山東 青島 266580;2. 中國石油大學(xué)(華東)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,山東 青島 266580)
針對紅外與可見光圖像融合算法中多尺度特征提取方法損失細(xì)節(jié)信息,且現(xiàn)有的融合策略無法平衡視覺細(xì)節(jié)特征和紅外目標(biāo)特征,出了基于空洞卷積與雙注意力機(jī)制(Dilated Convolution and Dual Attention Mechanism, DCDAM)的融合網(wǎng)絡(luò)。該網(wǎng)絡(luò)首先通過多尺度編碼器從圖像中提取原始特征,其中編碼器利用空洞卷積來系統(tǒng)地聚合多尺度上下文信息而不通過下采樣算子。其次,在融合策略中引入雙注意力機(jī)制,將獲得的原始特征輸入到注意力模塊進(jìn)行特征增強(qiáng),獲得注意力特征;原始特征和注意力特征合成最終融合特征,得在不丟失細(xì)節(jié)信息的情況下捕獲典型信息,同時(shí)抑制融合過程中的噪聲干擾。最后,解碼器采用全尺度跳躍連接和密集網(wǎng)絡(luò)對融合特征進(jìn)行解碼生成融合圖像。通過實(shí)驗(yàn)表明,DCDAM比其他同類有代表性的方法在定性和定量指標(biāo)評價(jià)都有提高,體現(xiàn)良好的融合視覺效果。
圖像融合;空洞卷積;多尺度結(jié)構(gòu);密集網(wǎng)絡(luò)
圖像融合是將同一場景的多模態(tài)圖像中的重要信息集成到單張圖像中,以實(shí)現(xiàn)最佳信息豐富度。高分辨率、細(xì)節(jié)豐富的可見光圖像有利于視覺觀察,但當(dāng)光照不足或物體被陰影、煙霧等遮擋時(shí),會(huì)丟失重要的目標(biāo)信息;而紅外圖像可以突出比背景溫度更高或低的目標(biāo)而不受外在條件約束[1-2]。因此,紅外與可見光圖像融合可以全面恢復(fù)場景信息。
目前圖像融合算法可分為傳統(tǒng)方法和深度學(xué)習(xí)方法。傳統(tǒng)方法的分解和融合過程需要人工設(shè)計(jì)和大量計(jì)算,這限制了它在實(shí)時(shí)檢測任務(wù)中的應(yīng)用。因此,深度學(xué)習(xí)因其能保留高級語義信息和強(qiáng)大的自主學(xué)習(xí)能力而被廣泛應(yīng)用于圖像融合。深度學(xué)習(xí)方法可分為卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)、生成對抗網(wǎng)絡(luò)(Generative Adversarial Networks, GAN)和自動(dòng)編碼/解碼器。而CNN網(wǎng)絡(luò)模型結(jié)構(gòu)簡單,對學(xué)習(xí)較復(fù)雜融合模型時(shí)效果不佳;GAN模型生成圖像不穩(wěn)定,容易造成融合圖像整體亮度降低,且在融合過程中易引入噪聲;而自動(dòng)編碼/解碼器架構(gòu)在沒有監(jiān)督學(xué)習(xí)的情況下具有良好的重構(gòu)特性。2018年Li[3]等提出了一種端到端模型,將網(wǎng)絡(luò)分為編碼器、解碼器和融合層,編碼器中引入Densenet網(wǎng)絡(luò)提取圖像的深層特征,并在訓(xùn)練階段丟棄融合層以獲得更加靈活的網(wǎng)絡(luò)。在此基礎(chǔ)上,Jian[4]等在融合階段引入了殘差模塊,通過元素選擇獲得的補(bǔ)償特征被傳遞到相應(yīng)的卷積層去重建圖像。但是這種方法并未充分提取圖像的多尺度特征。在圖像處理中,不同尺度的特征映射得到不同的信息,底層特征圖具有詳細(xì)的空間信息和圖像邊緣信息;高級特征映射更多地是關(guān)于圖像的位置信息。因此,采用多尺度特征提取會(huì)使圖像包含信息更加豐富。2020年,Li[5]等將Unet++結(jié)構(gòu)用于圖像融合,提出NestFuse,在每層編碼器與解碼器間形成一個(gè)多尺度嵌套連接;為了減少層級之間的語義鴻溝,通過上采樣與跳躍連接,引入更多參數(shù)將中間層的特征信息利用,最后重建圖像。但是這種網(wǎng)絡(luò)模型都使用下采樣算子進(jìn)行多尺度特征提取。在每次下采樣操作中,詳細(xì)信息逐漸被稀釋;同時(shí),多尺度結(jié)構(gòu)在解碼中沒有得到充分利用。
為了進(jìn)一步滿足多尺度信息融合算法的要求,本文設(shè)計(jì)了一種新的圖像融合模型DCDAM。首先提出了一種新的多尺度特征提取網(wǎng)絡(luò),它在不改變圖像分辨率的情況下增加感受野,避免由于多次下采樣操作而丟失圖像細(xì)節(jié)信息,從而最大限度地保留原始圖像信息。同時(shí),在特征融合中引入了雙注意力機(jī)制模塊進(jìn)行特征加強(qiáng)。將原始特征與注意力特征相加后得到最終的融合特征,以平衡紅外目標(biāo)與可見光細(xì)節(jié)信息。最后,在特征重建時(shí)提出了一種密集連接解碼網(wǎng)絡(luò),該網(wǎng)絡(luò)通過全尺度密集網(wǎng)絡(luò)連接,充分利用多尺度特征,對提取的特征最大程度重建。通過實(shí)驗(yàn)表明,DCDAM比其他同類有代表性的方法在定性和定量指標(biāo)評價(jià)都有提高,體現(xiàn)良好的融合視覺效果。
本文算法模型主要包含特征提取編碼器模塊與圖像融合模塊,其中圖像融合模塊包括雙注意力機(jī)制特征融合與全尺度密集連接解碼器。vi和ir分別表示輸入可見光圖像與紅外圖像,f表示輸出融合圖像,網(wǎng)絡(luò)框架圖如1所示。
圖1 基于空洞卷積與雙注意力機(jī)制的融合框架
如表1所示,編碼器結(jié)構(gòu)深度為5層,用于圖像特征的多尺度提取。由于空洞卷積提取圖像特征可以保留內(nèi)部數(shù)據(jù)結(jié)構(gòu),可避免多次下采樣算子造成的像素?fù)p失。同時(shí)可以通過設(shè)置空洞因子的步長,在不改變分辨率情況下增加感受野[6]。DCDAM網(wǎng)絡(luò)中前兩層為普通卷積層,后3層的卷積塊用空洞卷積塊替代。卷積塊CB1和CB2(ConvBlock)包含兩個(gè)卷積與一個(gè)池化層;空洞卷積塊DCB1(Dilated ConvBlock)和DCB2包含3個(gè)空洞卷積與一個(gè)池化層。最后一次卷積提取特征后將進(jìn)行特征融合,因此DCB3則比其他兩個(gè)空洞卷積塊少一個(gè)池化層。為消除空洞卷積造成的網(wǎng)格效應(yīng),并在圖像特征提取中實(shí)現(xiàn)特征全覆蓋。我們采用HDC[7]結(jié)構(gòu),通過將空洞因子設(shè)置為鋸齒狀結(jié)構(gòu)避免像素消失,即3個(gè)空洞因子分別設(shè)置為[1,2,5]。特征提取時(shí),同時(shí)輸入一組可見光和紅外圖像,這些特征的融合是可行的,因?yàn)橄嗤木矸e層共享相同的權(quán)重,這可以輸出相同類型的特征。
表1 編碼器的網(wǎng)絡(luò)設(shè)置
兩幅源圖像進(jìn)行特征提取后輸入到圖像融合模塊。圖像融合模塊包含兩部分:一是雙注意力機(jī)制的特征融合策略;二是全尺度密集連接解碼器。下面我們將分別介紹特征融合和特征解碼重建。
1.2.1 雙注意力機(jī)制特征融合策略
大多數(shù)特征融合策略是采用平均加權(quán)方式來融合特征。但是這種融合方法無法突出源圖像中的重要信息,如紅外圖像中的目標(biāo)特征信息。為了獲得更好的融合效果,保留重要細(xì)節(jié)和突出紅外目標(biāo)特征,我們引入雙注意力融合策略。我們的特征融合模塊與特征提取網(wǎng)絡(luò)類似,同樣具有5層。如圖2所示為其中一層特征融合過程,將提取的可見光圖像特征與紅外圖像特征分別輸入通道注意力模塊和空間注意力模塊進(jìn)行特征加強(qiáng)后獲得注意力特征。本文中通道注意力模塊,采用全局池化和softmax函數(shù)計(jì)算加權(quán)向量;在空間注意力模塊中由L1范數(shù)和softmax函數(shù)計(jì)算加權(quán)向量。將加權(quán)向量與原始圖相乘后獲得通道注意力特征圖,最后將注意力特征圖與原始特征圖相加獲得每層融合特征圖。
圖2 雙注意力機(jī)制融合策略
1.2.2 全尺度密集連接解碼器
解碼器目的是從全尺度上探索足夠的信息以重建融合圖像。特征融合后需要解碼器解碼以重建融合圖像。受到UNet3+[8]的解碼器啟發(fā),我們的解碼器網(wǎng)絡(luò)同樣采用全尺度密集連接網(wǎng)絡(luò)。我們將5層重建特征映射連接到解碼器塊中,在每個(gè)解碼卷積路徑上集成一個(gè)密集塊,將淺層細(xì)節(jié)信息與高層語義信息無縫集成,為后續(xù)重建提供更豐富的特征。圖3說明了構(gòu)造密集塊D3特征圖過程。上面兩條跳躍連接通過最大池化操作將F1和F2的特征進(jìn)行池化下采樣,以統(tǒng)一特征圖的分辨率。下面兩條跳躍連接則通過雙線性插值法對解碼器中的D5和D4進(jìn)行上采樣放大特征圖的分辨率。統(tǒng)一分辨率后通過64個(gè)3×3大小的濾波器進(jìn)行卷積,產(chǎn)生64個(gè)通道的特征圖。將5個(gè)尺度的特征圖進(jìn)行拼接融合后,得到320個(gè)分辨率相同的特征圖。再通過320個(gè)3×3濾波器卷積、BN和ReLU函數(shù)后獲得解碼塊D3。其他解碼塊同理獲得。最后將D1進(jìn)行一次1×1卷積重建出融合圖像。
圖3 解碼器聚合圖
由于紅外和可見光圖像融合屬于異質(zhì)圖像融合,沒有融合后的真值圖像用于訓(xùn)練,而訓(xùn)練階段是為了獲得良好的網(wǎng)絡(luò)模型進(jìn)行特征提取和特征重構(gòu),因此我們在訓(xùn)練階段丟棄融合層。如圖4所示,輸入單張?jiān)磮D像,在特征提取操作后跳過異源融合特征階段,直接執(zhí)行特征解碼重建的過程。通過計(jì)算重建圖像和原始圖像之間的損失值來訓(xùn)練網(wǎng)絡(luò)。
圖4 訓(xùn)練框架
在訓(xùn)練階段,我們的損失函數(shù)由像素?fù)p失(loss)和結(jié)構(gòu)相似性損失(SSIMloss)作為總損失函數(shù)。這兩個(gè)損失函數(shù)可以同時(shí)在像素和結(jié)構(gòu)上約束重建圖像與原始圖像保持一致。像素?fù)p失loss計(jì)算公示如下:
式中:與分別代表輸出圖像和輸入圖像;(,)代表像素點(diǎn)位置。結(jié)構(gòu)相似性函數(shù)SSIM(structural similarity index measure)結(jié)合亮度、對比度和結(jié)構(gòu)3方面對比圖像相似性質(zhì)量。用A和B表示兩張圖像,計(jì)算其結(jié)構(gòu)相似性值表達(dá)式為:
在訓(xùn)練中我們將設(shè)置為11×11,為9×10-4。結(jié)構(gòu)相似性損失(SSIMloss)定義公式如下:
式中:表示滑窗的總個(gè)數(shù)。SSIMloss越小代表融合圖像與源圖像越相似。網(wǎng)絡(luò)總損失函數(shù)定義如下:
loss=loss+SSIMloss(5)
我們從MS-COCO數(shù)據(jù)集中選擇80000張可見光圖像,從KAIST數(shù)據(jù)集中選擇20000張紅外圖像作為我們的訓(xùn)練數(shù)據(jù)集。為了驗(yàn)證我們方法的有效性,我們選擇了7種有代表性的融合方法進(jìn)行測試實(shí)驗(yàn)分析,方法包括交叉雙邊濾波融合(CBF)[9]、Densefuse、Deeplearning[10]、FusionGAN[11]、Bayesian[12]、NestFuse和DDcGAN[13]。同時(shí),因?yàn)橐曈X觀測易受到主觀因素影響,我們選擇了6個(gè)客觀評價(jià)指標(biāo)評估實(shí)驗(yàn)結(jié)果,包括熵(En)、標(biāo)準(zhǔn)差(SD)、互信息(MI)、無參考圖像的改進(jìn)結(jié)構(gòu)相似度(SSIMa)[14]、視覺信息保真度(VIF)[15]和峰值信噪比(PSNR)。所有的客觀評價(jià)指標(biāo)值與融合圖像質(zhì)量成正比。本文實(shí)驗(yàn)平臺為NVIDIA GeForce GTX 1650顯卡。我們將部分融合結(jié)果的細(xì)節(jié)圖放大到紅色框內(nèi),便于主觀視覺分析;客觀指標(biāo)中最優(yōu)值用加粗字體,次優(yōu)值用下劃線標(biāo)出。
如圖5所示,我們選取TNO[16]數(shù)據(jù)集中21組圖像進(jìn)行測試,并將其中6組代表性圖像展示。從(a)到(j)分別為可見光源圖像、紅外源圖像、CBF、Densefuse、Deeplearning、FusionGAN、Bayesian、NestFuse、DDcGAN和DCDAM。從圖5中總體融合效果顯示CBF的結(jié)果噪聲干擾嚴(yán)重,結(jié)果產(chǎn)生較多虛假像素和邊緣偽影,視覺效果差;Densefuse、Deeplearning和Bayesian的融合結(jié)果更偏向可見光圖像的細(xì)節(jié)信息沒有突出紅外目標(biāo)且圖像對比度低;而FusionGAN側(cè)重紅外圖像而損失了紋理細(xì)節(jié)信息,并且融合圖像產(chǎn)生平滑清晰度低。圖中第四組NestFuse沒有凸顯出傘骨的輪廓細(xì)節(jié)且背景對比度低,視覺效果較不理想,而DDcGAN結(jié)果偏紅外源圖像,在樹的重疊處出現(xiàn)融合失真,圖像中產(chǎn)生邊緣偽影。DCDAM結(jié)果中傘的輪廓清晰且失真較小。圖中第三組DDcGAN忽略了人物的細(xì)節(jié)同時(shí)融合結(jié)果有平滑效果導(dǎo)致圖像不清晰,NestFuse中的人物與紅外源圖像中的目標(biāo)一致,沒有重建衣物細(xì)節(jié)紋理信息;而DCDAM保留了人員衣物細(xì)節(jié)。圖中第六組DDcGAN對于郵筒的輪廓重建失真不清晰,NestFuse沒有清晰顯示郵筒上的圖案,DCDAM對郵筒的輪廓和細(xì)節(jié)都有很好的重建效果。圖中第五組NestFuse目標(biāo)不突出,DDcGAN可以突出目標(biāo)但無法將草的細(xì)節(jié)特征形態(tài)重建出來,DCDAM的融合結(jié)果中不僅草的輪廓和細(xì)節(jié)紋理清晰,且紅外目標(biāo)與背景細(xì)節(jié)的對比度高。綜上所述,DCDAM在紋理細(xì)節(jié)和突出目標(biāo)上都表現(xiàn)出強(qiáng)大的重構(gòu)能力。
圖5 TNO數(shù)據(jù)集實(shí)驗(yàn)對比數(shù)據(jù)
客觀分析中,我們對21組融合圖像客觀指標(biāo)值取平均值得到表2的結(jié)果,加粗的數(shù)據(jù)為最優(yōu)結(jié)果,下劃線的數(shù)據(jù)為次優(yōu)結(jié)果。從表2數(shù)據(jù)顯示,我們的融合結(jié)果在EN、MI、SSIMa、VIF和PSNR這5種指標(biāo)均為表現(xiàn)最佳,說明DCDAM在信息豐富度和視覺保真度均優(yōu)于其他方法。SD指標(biāo)值稍低是因?yàn)殡p注意力機(jī)制導(dǎo)致融合過程中存在特征平滑,導(dǎo)致?lián)p失清晰度。但是我們的方法SD數(shù)值仍處于前幾列,并未過于損失清晰度。NestFuse的多項(xiàng)指標(biāo)獲得次優(yōu)值,是因?yàn)镹estFuse也采用多尺度特征提取方法。但是不同的是它融合時(shí)沒有加入原始可見光圖像中的細(xì)節(jié)特征,而且特征提取時(shí)下采樣算子操作會(huì)損失細(xì)節(jié)信息,導(dǎo)致融合結(jié)果中紅外目標(biāo)的細(xì)節(jié)紋理丟失。DDcGAN在EN指標(biāo)中獲得次佳值是因?yàn)槠浞椒óa(chǎn)生邊緣偽影虛假像素,這與我們主觀分析一致。
INO[17]是加拿大光學(xué)所錄制的視頻監(jiān)控?cái)?shù)據(jù)集,內(nèi)容涉及各種生活日常場景。我們對INO數(shù)據(jù)集的視頻幀提取后選取36組圖像作為INO測試集。將其中一組典型融合結(jié)果擴(kuò)大展示如圖6,其融合結(jié)果客觀指標(biāo)取平均值于表3所示。從圖6中可以看出,CBF、Densefuse、Deeplearning方法對于重建路燈的輪廓和細(xì)節(jié)信息都有損失;FusionGAN中建筑細(xì)節(jié)信息模糊,邊緣信息缺失;Beyesian在可見光細(xì)節(jié)重建方面效果較好,但是樹枝重建時(shí)丟失了紅外的輪廓信息;NestFuse中路燈細(xì)節(jié)有損失且人物重建結(jié)果偏紅外不利于視覺觀測;DDcGAN中建筑的細(xì)節(jié)模糊,同時(shí)融合圖像背景融入紅外源圖像中的噪聲點(diǎn);DCDAM在路燈和建筑的輪廓細(xì)節(jié)都有很好的重建效果,同時(shí)對路燈的輪廓重建也清晰。
表2 TNO數(shù)據(jù)集評價(jià)指標(biāo)
從表3的評價(jià)指標(biāo)可以看出,我們的方法在EN、MI、SSIMa、VIF和PSNR指標(biāo)都獲得了最佳值,說明DCDAM在此數(shù)據(jù)集上也實(shí)現(xiàn)了較好的融合結(jié)果。值得說明的是INO數(shù)據(jù)集的PSNR指標(biāo)值相較于其他兩個(gè)數(shù)據(jù)集的PSNR指標(biāo)值較低,是因?yàn)镮NO數(shù)據(jù)集是從視頻中進(jìn)行提取幀圖像,含有較多噪聲點(diǎn),融合結(jié)果皆會(huì)包含噪聲較多所以導(dǎo)致此指標(biāo)值較低。DCDAM的SD指標(biāo)值較低是由于我們的注意力機(jī)制在抑制噪聲點(diǎn)的同時(shí)對圖像有平滑效果,而此測試集中噪聲較多,導(dǎo)致DCDAM融合過程中圖像產(chǎn)生平滑導(dǎo)致清晰度不高。而NestFuse的SSIMa和VIF指標(biāo)值居第二但是其他指標(biāo)值低,表明其結(jié)構(gòu)信息重建很好,但是它的紅外目標(biāo)的紋理信息缺失;DDcGAN方法的EN和MI指標(biāo)值高,是因?yàn)槠淙诤蠄D像中含有較多噪點(diǎn),與源紅外圖像像素保持較多相似,這與主觀分析一致。
圖6 INO數(shù)據(jù)集實(shí)驗(yàn)對比數(shù)據(jù)
VOT-RGBT[18]數(shù)據(jù)集是愛爾蘭大學(xué)利用熱成像攝像機(jī)和彩色攝像機(jī)采用同步鎖相方式拍攝。我們選取了18組圖片作為測試集,將一組融合結(jié)果展示如圖7。從圖7中看出,CBF融合結(jié)果產(chǎn)生失真,融入了噪聲干擾;Densefuse、Deeplearning、NestFuse和DDcGAN融合結(jié)果沒有突出目標(biāo)特征;FusionGAN的融合結(jié)果出現(xiàn)邊緣偽影;Bayesian融合結(jié)果在放大框的結(jié)果目標(biāo)不夠突出,且在融合背景天空云朵的特征時(shí)有所忽略,邊緣細(xì)節(jié)丟失;DCDAM不僅紅外目標(biāo)輪廓清晰且邊緣信息保留,實(shí)現(xiàn)了紅外與可見光圖像良好的平衡。
表3 INO數(shù)據(jù)集評價(jià)指標(biāo)
圖7 VOT-RGBT數(shù)據(jù)集實(shí)驗(yàn)對比數(shù)據(jù)
從表4可以看出,DDcGAN在EN、VIF和PSNR指標(biāo)值較高但是SD、MI和SSIMa指標(biāo)低表示DDcGAN信息豐富度高,但是與源圖像相似度低,結(jié)果出現(xiàn)了失真。這與主觀視覺中融合圖像的天空云彩重建效果較好,但是出現(xiàn)了邊緣陰影分析一致。NestFuse的SD和MI指標(biāo)較高表示細(xì)節(jié)紋理重構(gòu)結(jié)構(gòu)和清晰度較好,與我們主觀分析一致。DCDAM在6種評價(jià)指標(biāo)中均實(shí)現(xiàn)了最佳,表明DCDAM在紅外與可見光特征實(shí)現(xiàn)了良好的平衡,在保留細(xì)節(jié)的同時(shí)突出了紅外目標(biāo)。
表4 VOT-RGBT數(shù)據(jù)集評價(jià)指標(biāo)
本文針對紅外與可見光圖像融合領(lǐng)域?qū)τ谏顚犹卣魈崛『屠们啡保诤蠄D像無法平衡目標(biāo)與細(xì)節(jié)信息,提出了基于空洞卷積與雙注意力機(jī)制的紅外與可見光圖像融合方法。通過空洞卷積對圖像進(jìn)行多尺度信息提取,將原始特征輸入到雙注意力模塊得到注意力特征,與原始特征聚合成最終融合特征,最后通過一系列密集連接對融合特征加以解碼,在3個(gè)數(shù)據(jù)集上的主觀與客觀雙重指標(biāo)證明了我們的網(wǎng)絡(luò)獲得良好的效果。但是當(dāng)源圖像中含有較多噪聲點(diǎn)時(shí),注意力機(jī)制會(huì)噪聲抑制對圖像進(jìn)行平滑,導(dǎo)致清晰度欠佳,下一步我們將進(jìn)一步解決此問題。
[1] LI S, KANG X, FANG L, et al. Pixel-level image fusion: a survey of the state of the art[J]., 2017, 33: 100-112.
[2] ZHAO W, LU H, WANG D. Multisensor image fusion and enhancement in spectral total variation domain[J]., 2017, 20(4): 866-879.
[3] HUI L, WU X J . DenseFuse: a fusion approach to infrared and visible images[J]., 2018, 28(5): 2614-2623.
[4] JIAN L, YANG X, LIU Z, et al. SEDRFuse: A symmetric encoder–decoder with residual block network for infrared and visible image fusion[J]., 2020, 70: 1-15.
[5] LI H, WU X J, Durrani T. NestFuse: An infrared and visible image fusion architecture based on nest connection and spatial/channel attention models[J]., 2020, 69(12): 9645-9656.
[6] YU F, Koltun V. Multi-scale context aggregation by dilated convolutions[J/OL]. arXiv preprint arXiv:1511.07122, 2015.
[7] WANG P, CHEN P, YUAN Y, et al. Understanding convolution for semantic segmentation[C]//2018(WACV)., 2018: 1451-1460.
[8] HUANG H, LIN L, TONG R, et al. Unet 3+: A full-scale connected unet for medical image segmentation[C]//ICASSP 2020-2020(ICASSP)., 2020: 1055-1059.
[9] Shreyamsha Kumar B K. Image fusion based on pixel significance using cross bilateral filter[J]., 2015, 9(5): 1193-1204.
[10] LI H, WU X J, Kittler J. Infrared and visible image fusion using a deep learning framework[C]//2018 24th(ICPR)., 2018: 2705-2710.
[11] MA J, WEI Y, LIANG P, et al. FusionGAN: A generative adversarial network for infrared and visible image fusion[J]., 2019, 48:11-26.
[12] ZHAO Z, XU S, ZHANG C, et al. Bayesian fusion for infrared and visible images[J]., 2020, 177: 107734.
[13] MA J, XU H, JIANG J, et al. DDcGAN: a dual-discriminator conditional generative adversarial network for multi-resolution image fusion[J]., 2020, 29: 4980-4995.
[14] WANG Z, Bovik A C, Sheikh H R, et al. Image quality assessment: from error visibility to structural similarity[J]., 2004, 13(4): 600-612.
[15] HAN Y, CAI Y, CAO Y, et al. A new image fusion performance metric based on visual information fidelity[J]., 2013, 14(2): 127-135.
[16] Toet Alexander. TNO Image Fusion Dataset [EB/OL]. 2014, https://doi.org/10.6084/m9.figshare.1008029.v1.
[17] INO. INO’s Video Analytics Dataset[EB/OL]. [2022-06-07]. https://www. ino.ca/en/technologies/video-analytics-dataset/.
[18] Conaire C ó, O'Connor N E, Cooke E, et al. Comparison of fusion methods for thermo-visual surveillance tracking[C]//2006 9th, 2006: 1-7.
Infrared and Visible Image Fusion Based on Dilated Convolution and Dual Attention Mechanism
HE Le1,LI Zhongwei1,LUO Cai1,REN Peng1,SUI Hao2
(1. College of Oceanography and Space Informatics, China University of Petroleum (East China), Qingdao 266580, China;2. College of Computer Science and Technology, China University of Petroleum (East China), Qingdao 266580, China)
The multiscale features extraction method in infrared and visible image fusion algorithms loses detail information. Existing fusion strategies also cannot balance the visual detail and infrared target features. Therefore, a fusion network via a dilated convolution and dual-attention mechanism (DCDAM) is proposed. First, the network extracts the original features from the image through a multiscale encoder. The encoder systematically aggregates the multiscale context information through dilated convolution instead of using downsampling operator. Second, a dual-attention mechanism is introduced into the fusion strategy, and the original features are input into the attention module for feature enhancement to obtain the attention features. The original and attention features were combined into the final fusion feature. The mechanism captured the typical information without losing details and suppressed the noise during the fusion process. Finally, the decoder used a full-scale jump connection and dense network to decode the fusion features and generate the fused image. The experimental results show that the DCDAM is better than other representative methods in qualitative and quantitative index evaluations and has a good visual effect.
image fusion, dilated convolution, multiscale structure, dense network
TP391
A
1001-8891(2023)07-0732-07
2022-06-07;
2022-08-10.
何樂(1997-),女,碩士研究生。主要研究方向?yàn)閳D像融合與目標(biāo)檢測。E-mail:hele0128@163.com。
羅偲(1983-),男,副教授。主要研究方向?yàn)闊o人系統(tǒng)的仿生設(shè)計(jì)和控制。E-mail:tsai.lo.95@gmail.com。
國家自然科學(xué)基金聯(lián)合基金(U1906217);國家自然科學(xué)基金(62071491);國家重點(diǎn)研發(fā)計(jì)劃(2021YFE0111600);中央高校基本科研業(yè)務(wù)費(fèi)專項(xiàng)資金資助(22CX01004A-1)。