摘" 要:針對(duì)現(xiàn)有的圖像融合方法在特征提取和融合策略上的不足,提出了一種基于頻域分解的近紅外與可見光圖像自適應(yīng)融合模型STAFuse。通過引入Transformer與CNN的特征提取模塊,以及自適應(yīng)融合模塊,實(shí)現(xiàn)不同模態(tài)圖像特征的有效融合。在多模態(tài)圖像的獲取上,為解決傳統(tǒng)多傳感器系統(tǒng)體積大、校準(zhǔn)復(fù)雜等問題,設(shè)計(jì)了一種新型多模態(tài)傳感器,可同時(shí)獲取高分辨率的可見光圖像和低分辨率的近紅外圖像。實(shí)驗(yàn)結(jié)果表明,STAFuse在多個(gè)指標(biāo)上優(yōu)于現(xiàn)有模型,在結(jié)構(gòu)相似性上比DenseFuse模型提升了102.7%,在視覺信息保真度上比DIDFuse模型提升了25%,在保持視覺質(zhì)量和圖像細(xì)節(jié)方面表現(xiàn)突出。
關(guān)鍵詞:近紅外與可見光融合;自適應(yīng)融合;Transformer;CNN;多模態(tài)傳感器;頻域分解
中圖分類號(hào):TP212;TP183" 文獻(xiàn)標(biāo)識(shí)碼:A" 文章編號(hào):2096-4706(2024)24-0163-08
Adaptive Fusion Model for Near-infrared and Visible Light Images Based on Multimodal Sensors
LI Zhenwei1,3,4,5, SHI Wenzao1,3,4,5, FU Qiang2, YUAN Junru1,3,4,5
(1.College of Photonic and Electronic Engineering, Fujian Normal University, Fuzhou" 350117, China; 2.Tucsen Photonics Co., Ltd., Fuzhou" 350003, China; 3.Fujian Provincial Engineering Technology Research Center of Photoelectric Sensing Application, Fujian Normal University, Fuzhou" 350117, China; 4.Key Laboratory of Optoelectronic Science and Technology for Medicine (Ministry of Education), Fujian Normal University, Fuzhou" 350117, China; 5.Fujian Provincial Key Laboratory for Photonics Technology, Fujian Normal University, Fuzhou" 350117, China)
Abstract: Aiming at the shortcomings of feature extraction and fusion strategies in the existing image fusion methods, this paper proposes an adaptive fusion model for near-infrared and visible light images, called STAFuse, based on frequency domain decomposition. It realizes the effective fusion of different modal image features, by introducing feature extraction modules of Transformer and CNN and the adaptive fusion modules. To address the issues of large size and complex calibration in traditional multi-sensor systems on the acquisition of the multimodal images , a novel multimodal sensor is designed, capable of simultaneously capturing high-resolution visible light images and low-resolution near-infrared images. Experimental results demonstrate that STAFuse outperforms existing models in multiple metrics, which improves by 102.7% compared with DenseFuse model in Structural Similarity (SSIM), improves by 25% compared with DIDFuse model in Visual Information Fidelity (VIF), and is outstanding in maintaining visual quality and image details.
Keywords: near-infrared and visible light fusion; adaptive fusion; Transformer; CNN; multimodal sensor; frequency domain decomposition
0" 引" 言
圖像融合在各個(gè)領(lǐng)域都有著廣泛的應(yīng)用[1-3]。由于硬件設(shè)備的限制,單一傳感器成像常面臨信息不完全的問題,影響圖像質(zhì)量和應(yīng)用[4]。可見光傳感器雖然分辨率較高,但容易受到光照和天氣的影響;近紅外傳感器則能在惡劣光照下工作,但其空間分辨率較低,紋理和細(xì)節(jié)信息匱乏。圖像融合技術(shù)通過結(jié)合兩者優(yōu)勢(shì),生成的融合圖像不僅具備了更加全面的場(chǎng)景信息,還提高了視覺感知的準(zhǔn)確性。
為了解決圖像融合的問題,這些年來學(xué)者們已經(jīng)提出了許多方法。這些方法大致可以分為傳統(tǒng)方法[5-6]和深度學(xué)習(xí)方法[7-11]。盡管現(xiàn)有方法已經(jīng)取得了不錯(cuò)的效果,但仍存在特征提取效率低、融合策略復(fù)雜等問題。此外,多模態(tài)圖像通常來自捕獲不同波段信息的雙傳感器,但在體積和成本受限的應(yīng)用場(chǎng)景(如微型無人機(jī))中,雙傳感器配置會(huì)增加系統(tǒng)復(fù)雜性和維護(hù)成本。針對(duì)目前方法存在的缺點(diǎn),我們提出了一個(gè)基于頻域分解的近紅外與可見光圖像自適應(yīng)融合模型STAFuse。我們的方法的主要功能如下:
1)針對(duì)現(xiàn)有方法在圖像特征提取方面的局限性,引入了一種結(jié)合Transformer與CNN的模塊,用于增強(qiáng)圖像的全局特征提取能力。
2)針對(duì)現(xiàn)有方法在融合策略上的不足,我們引入了Pag(Pixel-attention-guided fusion module)模塊[12]。Pag模塊通過自適應(yīng)地調(diào)整不同特征圖之間的權(quán)重分配,能夠根據(jù)特征圖的語義信息有效融合,從而避免了傳統(tǒng)方法中人工設(shè)計(jì)策略的復(fù)雜性。
3)針對(duì)多傳感器系統(tǒng)在體積、重量和維護(hù)成本上的問題,在獲取多模態(tài)源圖像的途徑上,提出了一種多模態(tài)傳感器的改進(jìn)方案。該傳感器可以在同一塊芯片上同時(shí)獲取高分辨率的可見光圖像和低分辨率的近紅外圖像。這種多模態(tài)傳感器的設(shè)計(jì)不僅降低了系統(tǒng)的體積和重量,還減少了對(duì)多傳感器校準(zhǔn)的需求,從而降低了維護(hù)成本。
1" 相關(guān)工作
1.1" 基于頻域分解的圖像融合原理
頻域分解是圖像處理中的一種重要方法,通過將圖像從空間域轉(zhuǎn)換到頻域,能夠有效地分離圖像中的不同特征。在頻域中,圖像被分解為低頻、中頻和高頻分量,分別代表圖像中的不同信息:低頻分量通常包含全局結(jié)構(gòu)和亮度信息,中頻分量包含邊緣和紋理等細(xì)節(jié)信息,而高頻分量則主要是噪聲及微小的細(xì)節(jié)[13]。對(duì)于一幅圖像I(x,y),通過二維傅里葉變換可以得到其頻域F(u,v):
(1)
在頻域中,圖像可以進(jìn)一步分解為低頻、中頻和高頻分量:
(2)
其中Fl(u,v)表示低頻部分,F(xiàn)m(u,v)表示中頻部分,F(xiàn)h(u,v)表示高頻部分。通過對(duì)圖像有霧圖像和無霧圖像的觀察發(fā)現(xiàn):在一小塊無霧圖像中,RGB圖像和近紅外圖像的高頻分量相似;相比之下,在模糊圖像的一小塊區(qū)域中,它們彼此不同[14]。基于這一點(diǎn),我們將圖像的分解為相似的低中頻部分和不相似的高頻部分,再通過自適應(yīng)的融合策略進(jìn)行融合。
1.2" 多模態(tài)傳感器的設(shè)計(jì)
在源圖像的獲取上,本文采用了多模態(tài)傳感器的設(shè)計(jì),在一個(gè)傳感器上同時(shí)得到了可見光和近紅外光的信息,再通過后續(xù)的處理得到可見光和近紅外光圖像對(duì)。
為了模擬這種多模態(tài)傳感器得到的圖像,我們?cè)O(shè)計(jì)了一個(gè)軟件模擬流程,在MATLAB上完成了模擬,該流程的核心步驟如下:
1)多模態(tài)傳感器像素排列定義。本文設(shè)計(jì)的多模態(tài)傳感器的像素排列方式為以四個(gè)像素為一組,右下角像素為近紅外像素,其他三個(gè)像素為可見光像素,如圖1所示。
2)獲得多模態(tài)傳感器的模擬圖像。為了模擬得到圖1所示的多模態(tài)傳感器的圖像,選取RGB-NIR Scene Dataset[15]下的若干對(duì)近紅外和可見光圖像對(duì),通過循環(huán)遍歷可見光和近紅外圖像,將可見光圖像和近紅外圖像的像素按多模態(tài)傳感器的像素排列方式重新組合。以多模態(tài)傳感器的一組四個(gè)像素為例,右下角的像素來自近紅外圖像,其余三個(gè)像素來自可見光圖像,模擬圖像的成長過程如圖2所示,模擬圖像的生成結(jié)果如圖3所示。
3)對(duì)多模態(tài)傳感器圖像的處理。為了適應(yīng)圖像融合模型的輸入,對(duì)模擬生成的多模態(tài)傳感器圖像進(jìn)行處理。將可見光像素和近紅外像素分離。近紅外像素直接提取出來,組成一個(gè)低分辨率的近紅外圖像。在多模態(tài)傳感器的像素排列中,已經(jīng)提取了近紅外像素組成了低分辨的近紅外圖像,因此剩下的像素排列中,原本近紅外像素的位置為空,采取插值法進(jìn)行了填充,得到了一個(gè)高分辨的可見光圖像。最終得到了一個(gè)低分辨率的近紅外圖像和高分辨率的可見光圖像,對(duì)多模態(tài)傳感器圖像的處理過程如圖4所示,處理得到的圖像如圖5所示。
1.3" 特征提取模塊
近年來,Vision Transformer在圖像處理領(lǐng)域中取得了顯著的成功,尤其是在分類[16]、目標(biāo)檢測(cè)[17]和分割[18]等任務(wù)中表現(xiàn)出色。然而其對(duì)局部信息的捕捉能力相對(duì)較弱,且由于其對(duì)空間自注意力機(jī)制的依賴,計(jì)算開銷較大。
為了克服傳統(tǒng)方法在圖像特征提取方面的局限性,受到ConvFormer模塊[19]的啟發(fā),本文提出了MultiScaleTransformer模塊,該模塊結(jié)合了Transformer與CNN的優(yōu)勢(shì),在標(biāo)準(zhǔn)Transformer架構(gòu)中引入了多尺度特征提取機(jī)制,使得模型能夠在不同尺度上提取特征,增強(qiáng)了對(duì)圖像局部和全局信息的捕捉能力,尤其適合處理高分辨率圖像。相比傳統(tǒng)的CNN和Vision Transformer,MultiScaleTransformer在結(jié)構(gòu)上更好地平衡了計(jì)算效率與特征提取能力,不僅能捕捉圖像中的全局依賴關(guān)系,還能有效保留空間細(xì)節(jié)信息。
在高頻特征提取模塊上,本文提出了DEN模塊,該模塊在INN模塊[20]的基礎(chǔ)上引入了動(dòng)態(tài)特征處理節(jié)點(diǎn)和批歸一化層,增強(qiáng)了特征提取的靈活性和穩(wěn)定性,提高了對(duì)不同輸入數(shù)據(jù)的適應(yīng)能力和細(xì)節(jié)特征的捕捉精度。
1.4" Pag模塊
在多模態(tài)圖像處理任務(wù)中,傳統(tǒng)的融合策略如簡單的加法或加權(quán)平均,往往未能充分挖掘不同模態(tài)特征之間的互補(bǔ)性,導(dǎo)致融合效果不佳。針對(duì)這一問題,本文引入了Pag模塊。
Pag模塊的核心思想是利用特征圖之間的語義信息,動(dòng)態(tài)調(diào)整每個(gè)特征圖的權(quán)重,以提高融合結(jié)果的準(zhǔn)確性。與傳統(tǒng)的固定融合策略不同,Pag模塊通過計(jì)算特征圖的相似度,自適應(yīng)地調(diào)整每個(gè)特征圖的權(quán)重,使得模型能夠根據(jù)輸入數(shù)據(jù)動(dòng)態(tài)優(yōu)化融合方式,避免了固定策略的局限性。此外,Pag模塊還可以選擇性地引入通道注意力機(jī)制,進(jìn)一步提升特征融合的精度,充分挖掘不同模態(tài)特征的互補(bǔ)性。更重要的是,Pag模塊能夠與模型的其他部分一起參與訓(xùn)練,使得融合策略在訓(xùn)練過程中自動(dòng)優(yōu)化,簡化了手動(dòng)調(diào)整參數(shù)的復(fù)雜性,并顯著提升了多模態(tài)圖像融合任務(wù)的表現(xiàn)。
2" 近紅外與可見光圖像自適應(yīng)融合模型
本節(jié)詳細(xì)介紹了所提出的近紅外與可見光圖像自適應(yīng)融合模型STAFuse的細(xì)節(jié),包括編碼器的中低頻特征和高頻特征提取模塊、自適應(yīng)融合模塊、損失函數(shù)。這里為了表示方便,將中低頻特征和高頻特征分別用結(jié)構(gòu)特征和紋理特征來表示。首先分別將可見光圖像和近紅外圖像輸入編碼器得到結(jié)構(gòu)特征和紋理特征,通過自適應(yīng)融合模塊得到融合特征,再將融合特征輸入到解碼其中得到輸出,其中將特征提取模塊中的多尺度特征與注意力融合后的特征在特征重建模塊中進(jìn)行連接,來補(bǔ)償卷積操作后的信息丟失,從而保留更多的圖像細(xì)節(jié)信息,提高圖像融合的質(zhì)量。
2.1" STAFuse模型結(jié)構(gòu)
在STAFuse中,受到Li等[21]提出的RFN-Nest模型的啟發(fā),模型訓(xùn)練過程采用二階段訓(xùn)練法,并在兩階段中加入了跳躍連接以充分利用編碼器、Pag自適應(yīng)融合模塊和解碼器的能力。在第一階段主要集中于優(yōu)化編碼器和解碼器的性能。編碼器從輸入的近紅外和可見光圖像中提取多尺度的特征,并通過跳躍連接將低層次特征直接傳遞到解碼器。解碼器負(fù)責(zé)從編碼器傳遞的特征中重建出圖像。第一階段訓(xùn)練的結(jié)構(gòu)如圖6所示。
第二階段訓(xùn)練中,自適應(yīng)融合模塊Pag與編碼器和解碼器共同參與訓(xùn)練,并且繼續(xù)利用跳躍連接以保留多尺度特征。Pag模塊負(fù)責(zé)動(dòng)態(tài)調(diào)整不同模態(tài)圖像的特征權(quán)重,結(jié)合這些特征生成融合圖像。在此階段,編碼器繼續(xù)優(yōu)化其特征提取能力,解碼器則通過跳躍連接增強(qiáng)其對(duì)低層次細(xì)節(jié)特征的重建能力。第二階段訓(xùn)練的結(jié)構(gòu)如圖7所示,測(cè)試階段的結(jié)構(gòu)如圖8所示。
2.2" 編碼器模塊
如圖6所示,本文的編碼器模塊由三個(gè)主要部分構(gòu)成:公共卷積層、中低頻特征提取模塊MultiScale Transformer和高頻特征提取模塊DEN。
首先,公共卷積層有兩個(gè)卷積層Conv1和Conv2,卷積核大小為3,使用零填充。如圖1在第一階段的訓(xùn)練中,對(duì)于可見光圖像的輸入,公共卷積層的計(jì)算過程可以表示:
(3)
其中,F(xiàn)shared表示公共卷積層的輸出,Ivis表示輸入的可見光圖像。
之后,在編碼器中的第二部分引入了MultiScale Transformer模塊和DEN模塊。如圖1在第一階段的訓(xùn)中,對(duì)于可見光圖像的輸入,MultiScale Transformer和DEN的計(jì)算過程可以表示:
(4)
其中,表示經(jīng)過MultiScale Transformer得到的結(jié)構(gòu)特征,表示經(jīng)過DEN得到的紋理特征。
2.3" 融合策略
在多模態(tài)圖像融合任務(wù)中,本文引入了Pag模塊作為融合策略的核心組件,實(shí)現(xiàn)了更加有效的特征融合。如圖7所示,在第二階段訓(xùn)練中,Pag模塊的計(jì)算過程如下:
對(duì)于輸入的特征圖x和y,分別通過卷積層進(jìn)行特征變換:
(5)
其中,fx和fy分別表示特征圖x和y的卷積變換。
之后通過逐通道求和計(jì)算特征圖xk和yq的相似度:
(6)
其中,σ表示Sigmoid激活函數(shù),sim_map表示求得的權(quán)重圖。
最后根據(jù)求得的相似度映射,將兩個(gè)特征圖進(jìn)行加權(quán)融合:
(7)
其中,xfused表示最后融合得到的特征圖。
2.4" 解碼器模塊
在STAFuse模型中,解碼器模塊的作用是將編碼器和自適應(yīng)融合模塊Pag處理后的特征圖進(jìn)行上采樣和重建,以生成最終的融合圖像。如圖6所示的第一階段的訓(xùn)練中,解碼器模塊由三個(gè)卷積層構(gòu)成分別為Conv3、Conv4和Conv5。Conv3、Conv4和Conv5都采用3×3的卷積核和邊緣填充,Conv3的目的是對(duì)融合的特征圖進(jìn)行初步的上采樣和特征融合,為后續(xù)的重建過程提供基礎(chǔ)。Conv4進(jìn)一步處理經(jīng)過Conv3層的特征圖,增強(qiáng)圖像的細(xì)節(jié)和紋理信息,同時(shí)通過跳躍連接接收來自編碼器的Conv2層的輸出,增強(qiáng)圖像的全局結(jié)構(gòu)信息。Conv5負(fù)責(zé)最終的圖像重建,該層通過跳躍連接接收來自編碼器的Conv1層的輸出,確保最終輸出的融合圖像能夠保留豐富的細(xì)節(jié)和紋理信息。
2.5" 損失函數(shù)
如圖6所示,在第一階段的訓(xùn)練中,第一步將近紅外和可見光圖像對(duì)Inir和Ivis分別輸入共享的公共卷積層中得到初始特征fnir和fvis。第二步將得到的初始特征分別輸入獨(dú)立的特征提取模塊中,這個(gè)特征模塊由MultiScale Transformer和DEN組成,fnir經(jīng)過MultiScale Transformer和DEN分別得到結(jié)構(gòu)特征和紋理特征,fvis經(jīng)過MultiScale Transformer和DEN得到結(jié)構(gòu)特征和紋理特征。第三步將和、和分別在通道上做拼接之后送入解碼器得到輸出Onir和Ovis。第一階段的損失函數(shù):
(8)
其中Lvis表示:
(9)
其中表示圖像之間的L2范數(shù),表示兩個(gè)圖像在像素值上的差異。SSIM(Ivis,Ovis)表示結(jié)構(gòu)相似度函數(shù),用于衡量兩個(gè)圖像在結(jié)構(gòu)、亮度和對(duì)比度上的相似性。Lgrad表示梯度損失:
(10)
其中∥?Ivis-Ovis∥使用的是L1范數(shù),?表示梯度算子,這一項(xiàng)的作用是度量Ivis和Ovis在邊緣和細(xì)節(jié)上的相似性。
如圖7所示,在第二階段的訓(xùn)練,將近紅外圖像的結(jié)構(gòu)特征和可見光圖像的結(jié)構(gòu)特征作為Pag模塊的輸入,得到融合的結(jié)構(gòu)特征,將近紅外圖像的紋理特征和可見光圖像的紋理特征作為Pag模塊的輸入,得到融合的紋理特征,最后將和在通道上做拼接后作為解碼器的輸入得到融合圖像。第二階段訓(xùn)練的損失函數(shù)表示為:
(11)
其中表示:
(12)
表示:
(13)
代表融合模塊的損失,表示:
(14)
3" 實(shí)驗(yàn)及結(jié)果分析
在本節(jié)中對(duì)所提出的模型進(jìn)行了實(shí)驗(yàn)驗(yàn)證。首先介紹對(duì)多模態(tài)傳感器分離后得到的圖像對(duì)的預(yù)處理,接著介紹了訓(xùn)練階段的參數(shù)設(shè)置,之后將融合網(wǎng)絡(luò)和現(xiàn)有的其他算法進(jìn)行了定性比較和定量分析,最后提出了幾項(xiàng)消融實(shí)驗(yàn),用于研究融合網(wǎng)絡(luò)中一些因素的影響。
本文所提出的融合網(wǎng)絡(luò)是使用PyTorch作為編程環(huán)境,在NVIDIA GeForce RTX 3060上實(shí)現(xiàn)的。
3.1 圖像預(yù)處理
在2.3小節(jié)中提到,為了適應(yīng)融合網(wǎng)絡(luò)的輸入,對(duì)多模態(tài)傳感器的圖像進(jìn)行了預(yù)處理得到了低分辨率的近紅外圖像和高分辨率的可見光圖像,且可見光圖像的分辨率是近紅外圖像的4倍。本文設(shè)計(jì)的STAFuse需要相同分辨率的圖像對(duì)輸入,為了解決這個(gè)問題,引入了預(yù)訓(xùn)練的超分辨模塊VDSR[22],該模塊可以實(shí)現(xiàn)多種尺度的圖像超分辨,本文選擇了將低分辨的近紅外圖像分辨率變?yōu)樵瓉淼?倍,實(shí)驗(yàn)結(jié)果如圖9所示。
3.2" 參數(shù)設(shè)置
在訓(xùn)練階段,使用了RGB-NIR Scene Dataset的477對(duì)近紅外和可見光圖像對(duì)中的380對(duì)圖像對(duì)。在2.3節(jié)中先將這380對(duì)圖像對(duì)用于多模態(tài)傳感器模擬圖像的生成,在4.1節(jié)中將多模態(tài)傳感器生成的低分辨率近紅外圖像和高分辨的可見光圖像進(jìn)行預(yù)處理得到380對(duì)圖像對(duì)。對(duì)著380對(duì)圖像對(duì)進(jìn)行裁剪,裁剪的大小為256×256,得到4 128對(duì)近紅外和可見光的圖像對(duì)。
在第一階段的訓(xùn)練中,設(shè)λ1 = 5,訓(xùn)練輪次為60輪,學(xué)習(xí)率設(shè)置為10-4且每隔20輪學(xué)習(xí)率降低為原來的一半,batch_size = 8。在第二階段的訓(xùn)練中,設(shè)λ2 = 1,λ3 = 1,λ4 = 2,訓(xùn)練輪次為80輪,學(xué)習(xí)率也設(shè)置為10-4且每隔20輪學(xué)習(xí)率降低為原來的一半。
3.3" 實(shí)驗(yàn)結(jié)果
在測(cè)試階段中,使用了RGB-NIR Scene Dataset中來自不同場(chǎng)景的97對(duì)近紅外和可見光圖像對(duì)作為測(cè)試集用于測(cè)試STAFuse的性能,并將融合結(jié)果與最先進(jìn)的方法進(jìn)行比較,包括Shallow CNN[10]、DenseFuse[9]、DIDFuse[4]和DDcGAN[11]。
3.3.1" 定性比較和定量分析
本節(jié)中將STAFuse模型的融合結(jié)果與幾種最先進(jìn)的圖像融合方法進(jìn)行了定性比較和定量比較。
在圖10中展示了多對(duì)近紅外和可見光源圖像及其通過不同方法生成的融合圖像,并將部分關(guān)鍵區(qū)域進(jìn)行了放大比較。從圖10中可以看到,Shallow CNN在細(xì)節(jié)保留上表現(xiàn)欠佳,特別是在復(fù)雜場(chǎng)景中,生成的圖像較為模糊。DenseFuse在細(xì)節(jié)和對(duì)比度上有一定提升,但在邊緣處理上仍顯不足。DIDFuse雖然在邊緣清晰度和全局結(jié)構(gòu)還原上表現(xiàn)較好,但細(xì)節(jié)豐富度和對(duì)比度仍有所欠缺。相比之下,STAFuse能夠更好地結(jié)合近紅外圖像在低光或復(fù)雜環(huán)境中的表現(xiàn)和可見光圖像的細(xì)節(jié)信息。特別是復(fù)雜場(chǎng)景下的細(xì)節(jié),例如樹木的紋理或人行道的細(xì)微特征,STAFuse生成的融合圖像在亮度、對(duì)比度和邊緣清晰度方面均有顯著提升,呈現(xiàn)出更好的視覺效果。
為了評(píng)估STAFuse模型的融合性能,本文采用了熵(EN)、標(biāo)準(zhǔn)差(SD)、互信息(MI)、差值相關(guān)總和(SCD)、視覺信息保真度(VIF)、邊緣保持指數(shù)(Qabf)和結(jié)構(gòu)相似性指數(shù)(SSIM)這7個(gè)指標(biāo)進(jìn)行評(píng)估。定量比較結(jié)果如表1所示,STAFuse模型在多數(shù)指標(biāo)上均表現(xiàn)出色,尤其是在EN、SD、MI和VIF方面,取得了明顯的提升。
表1" 定量比較結(jié)果及消融實(shí)驗(yàn)分析
具體而言,STAFuse在熵值和標(biāo)準(zhǔn)差上表現(xiàn)優(yōu)異,分別達(dá)到了7.29和51.97,這表明其融合圖像包含了較多信息量,并且保留了豐富的細(xì)節(jié)。相比之下,DenseFuse和DDcGAN在標(biāo)準(zhǔn)差上的得分分別為63.76和51.76,雖然稍高,但STAFuse在其他指標(biāo)上的優(yōu)勢(shì)更加明顯。例如,STAFuse的VIF達(dá)到了1.10,相比于DenseFuse的0.72和DDcGAN的0.88,提升了約53%和25%。這表明STAFuse生成的融合圖像在視覺質(zhì)量上更接近于人類的視覺感知。在Qabf和SSIM上,STAFuse也表現(xiàn)突出,分別取得了0.67和0.75的較高得分。相較于DIDFuse的0.49和DenseFuse的0.37,STAFuse的Qabf提升了約37%和81%。同樣,STAFuse在SSIM上也有顯著提升,達(dá)到了0.75,較DenseFuse的0.37提高了102.7%。這些結(jié)果表明,STAFuse不僅能在融合過程中保持圖像結(jié)構(gòu)的一致性,還能更好地保留邊緣信息和關(guān)鍵特征。此外,盡管DDcGAN在熵值上達(dá)到了7.43,略高于STAFuse的7.29,但其在MI和SSIM上的表現(xiàn)欠佳,無法充分結(jié)合來自不同模態(tài)圖像的互補(bǔ)信息。
綜上所述,STAFuse在多個(gè)關(guān)鍵指標(biāo)上優(yōu)于現(xiàn)有方法,特別是在細(xì)節(jié)保留、視覺質(zhì)量和融合圖像的結(jié)構(gòu)完整性方面表現(xiàn)出色。這證明了STAFuse自適應(yīng)融合策略的有效性和魯棒性。
3.3.2" 消融實(shí)驗(yàn)
為了驗(yàn)證STAFuse中自適應(yīng)融合策略的有效性,本文設(shè)計(jì)了消融實(shí)驗(yàn),分別將自適應(yīng)融合模塊替換為平均融合(Average)和殘差融合策略(RFN)。表1展示了不同融合策略下模型的性能。結(jié)果表明,自適應(yīng)融合策略能夠顯著提升融合圖像的質(zhì)量,尤其在VIF和SSIM等關(guān)鍵指標(biāo)上表現(xiàn)更佳。具體來說,使用自適應(yīng)融合策略時(shí),模型的VIF指標(biāo)達(dá)到1.10,相較于平均融合策略(1.08)提升了約1.9%,相較于殘差融合策略(1.09)提升了約0.9%。此外,SSIM從平均融合策略的0.72提升到0.75,增幅為4.2%;相較于殘差融合策略(0.72),SSIM也提升了約4.2%。這些結(jié)果證明了自適應(yīng)融合策略在不同模態(tài)圖像融合中的優(yōu)勢(shì),能夠更好地保留圖像的結(jié)構(gòu)和細(xì)節(jié)信息,顯著提升了融合圖像的整體質(zhì)量。
4" 結(jié)" 論
本文提出了一種基于頻域分解的近紅外與可見光圖像自適應(yīng)融合模型STAFuse,利用結(jié)合Transformer與CNN的特征提取模塊,以及自適應(yīng)融合模塊Pag,實(shí)現(xiàn)了不同模態(tài)圖像特征的有效融合。在多模態(tài)數(shù)據(jù)的獲取上,提出了一種多模態(tài)傳感器的改進(jìn)方案,為圖像融合技術(shù)的發(fā)展提供了新的思路。實(shí)驗(yàn)結(jié)果表明,STAFuse在多個(gè)評(píng)估指標(biāo)上均取得了較為優(yōu)異的成績,能夠在復(fù)雜環(huán)境下生成具有高細(xì)節(jié)保留、良好對(duì)比度和視覺質(zhì)量的融合圖像。此外,通過消融實(shí)驗(yàn)驗(yàn)證了自適應(yīng)融合策略在提升融合圖像質(zhì)量方面的有效性。
在未來的工作中,計(jì)劃將STAFuse模型部署到FPGA上,結(jié)合新型多模態(tài)傳感器,構(gòu)建一個(gè)集成化的圖像采集和處理系統(tǒng)。通過將模型部署到FPGA上,一方面可以充分利用硬件加速的優(yōu)勢(shì),提升圖像融合處理的實(shí)時(shí)性和效率,特別是在低功耗和資源受限的場(chǎng)景下。另一方面,F(xiàn)PGA作為獨(dú)立的硬件平臺(tái),可以實(shí)現(xiàn)系統(tǒng)的高度集成,使圖像處理系統(tǒng)不再依賴PC端的GPU處理器,從而具備更高的可移植性和靈活性,適合于嵌入式應(yīng)用場(chǎng)景,特別是在無人機(jī)、自動(dòng)駕駛、智能監(jiān)控等對(duì)體積、功耗和實(shí)時(shí)性要求嚴(yán)格的應(yīng)用中,F(xiàn)PGA的硬件加速特性將為此類產(chǎn)品提供更具競(jìng)爭力的解決方案。
參考文獻(xiàn):
[1] LAHOUD F,SUSSTRUNK S. Ar in VR: Simulating Infrared Augmented Vision [C]//2018 25th IEEE International Conference on Image Processing (ICIP).Athens:IEEE,2018:3893-3897.
[2] HU H M,WU J W,LI B,et al. An Adaptive Fusion Algorithm for Visible and Infrared Videos Based on Entropy and the Cumulative Distribution of Gray Levels [J].IEEE Transactions on Multimedia,2017,19(12):2706-2719.
[3] MA J Y,ZHOU Y. Infrared and Visible Image Fusion Via Gradientlet Filter [J].Computer Vision and Image Understanding,2020,197/198:12.
[4] ZHAO Z X,XU S,ZHANG C X,et al. DIDFuse: Deep Image Decomposition for Infrared and Visible Image Fusion [J/OL].arXiv:2003.09210 [eess.IV].[2024-10-08].https://arxiv.org/abs/2003.09210?context=eess.
[5] LI S T,YANG B,HU J W. Performance Comparison of Different Multi-Resolution Transforms for Image Fusion [J].Information Fusion,2011,12(2):74-84.
[6] ZONG J J,QIU T S. Medical Image Fusion Based on Sparse Representation of Classified Image Patches [J].Biomedical Signal Processing and Control,2017,34:195-205.
[7] LI H,WU X J,KITTLER J. Infrared and Visible Image Fusion Using A Deep Learning Framework [C]//2018 24th international conference on pattern recognition (ICPR).Beijing:IEEE,2018:2705-2710.
[8] MA J Y,YU W,LIANG P,et al. FusionGAN: A Generative Adversarial Network for Infrared and Visible Image Fusion [J].Information Fusion,2018,48:11-26.
[9] LI H,WU X J. DenseFuse: A Fusion Approach to Infrared and Visible Images [J].IEEE Transactions on Image Processing,2019,28(5):2614-2623.
[10] LI L,XIA Z Q,HAN H J,et al. Infrared and Visible Image Fusion Using a Shallow CNN and Structural Similarity Constraint [J].IET Image Processing,2020,14(14):3562-3571.
[11] MA J Y,XU H,JIANG J J,et al. DDcGAN: A Dual-Discriminator Conditional Generative Adversarial Network for Multi-Resolution Image Fusion [J].IEEE Transactions on Image Processing,2020,29:4980-4995.
[12] XU J C,XIONG Z X,BHATTACHARYYA S P. PIDNet: A real-time Semantic Segmentation Network Inspired by PID Controllers [C]//2023 IEEE/CVF conference on computer vision and pattern recognition.Vancouver:IEEE,2023:19529-19539.
[13] XU L L,LIANG P X,HAN J,et al. Global Filter of Fusing Near-Infrared and Visible Images in Frequency Domain for Defogging [J].IEEE Signal Processing Letters,2022,29:1953-1957.
[14] JANG D W,PARK R H. Colour Image Dehazing Using near-Infrared Fusion [J].IET Image Processing,2017,11(8):587-594.
[15] ROWN M,SüSSTRUNK S. Multi-Spectral SIFT for Scene Category Recognition [C]//CVPR 2011.Colorado Springs:IEEE,2011:177-184.
[16] DOSOVITSKIY A,BEYER L,KOLESNIKOV A,et al. An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale [J/OL].arXiv:2010.11929 [cs.CV].[2024-10-08].https://arxiv.org/abs/2010.11929v2.
[17] CARION N,MASSA F,SYNNAEVE G,et al. End-to-End Object Detection with Transformers [C]//16th European conference on computer vision.Glasgow:Springer,2020:213-229.
[18] ZHENG S X,LU J C,ZHAO H S,et al. Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective with Transformers [C]//2021 IEEE/CVF conference on computer vision and pattern recognition.Nashville:IEEE,2021:6877-6886.
[19] LIN X,YAN Z Q,DENG X B,et al. Conv Former: Plug-and-play CNN-style transformers for improving medical image segmentation [C]//26th International Conference on Medical Image Computing and Computer-Assisted Intervention.Vancouver:Springer,2023:642-651.
[20] ARDIZZONE L,KRUSE J,WIRKERT S,et al. Analyzing Inverse Problems with Invertible Neural Networks [J/OL].arXiv:1808.04730 [cs.LG].[2024-10-09].https://arxiv.org/abs/1808.04730.
[21] LI H,WU X J,KITTLER J. RFN-Nest: An end-to-End Residual Fusion Network for Infrared and Visible Images [J].Information Fusion,2021,73:72-86.
[22] KIM J,LEE J K,LEE K M. Accurate Image Super-Resolution Using Very Deep Convolutional Networks [C]//2016 IEEE conference on computer vision and pattern recognition.Las Vegas:IEEE,2016:1646-1654.
作者簡介:李振偉(2000—),男,漢族,福建福鼎人,碩士在讀,研究方向:深度學(xué)習(xí)、圖像融合。