王志社,邵文禹,楊風(fēng)暴,陳彥林
(1 太原科技大學(xué) 應(yīng)用科學(xué)學(xué)院,太原 030024)
(2 中北大學(xué) 信息與通信工程學(xué)院,太原 030051)
紅外傳感器對(duì)熱源輻射敏感,通過捕捉物體發(fā)出的熱輻射感知熱源目標(biāo)特性,但所獲得的紅外圖像通常缺乏結(jié)構(gòu)特征和紋理細(xì)節(jié)。相反,可見光傳感器通過光反射成像,圖像具有較高的空間分辨率和豐富的紋理細(xì)節(jié),但不能有效突出目標(biāo)特性,且易受到外界環(huán)境影響,特別在低照度的環(huán)境條件下,信息丟失嚴(yán)重。紅外與可見光圖像融合旨在綜合兩類傳感器的優(yōu)勢(shì),互補(bǔ)生成的融合圖像具有更好的目標(biāo)感知和場(chǎng)景表達(dá),在目標(biāo)跟蹤[1]、目標(biāo)檢測(cè)[2]和行人重識(shí)別[3]等領(lǐng)域有廣泛應(yīng)用。
現(xiàn)有的傳統(tǒng)圖像融合方法大致可分為多尺度變換[4]、稀疏表示[5]、顯著性融合[6]、子空間融合[7]和擬態(tài)融合[8]等。傳統(tǒng)圖像融合方法通常以相同的特征變換或特征表示提取圖像特征,采用合適的融合規(guī)則進(jìn)行合并,再通過反變換重構(gòu)獲得最終融合圖像。由于紅外與可見光傳感器成像機(jī)制不同,紅外圖像以像素亮度表征目標(biāo)特征,而可見光圖像以邊緣和梯度表征場(chǎng)景紋理。傳統(tǒng)融合方法不考慮源圖像的內(nèi)在不同特性,采用相同的變換或表示模型無(wú)差別地提取圖像特征,不可避免地造成融合性能低、視覺效果差的結(jié)果。此外,融合規(guī)則是人為設(shè)定的,且越來越復(fù)雜,計(jì)算成本高,限制了圖像融合的實(shí)際應(yīng)用。
目前,由于深度學(xué)習(xí)的卷積操作具有很強(qiáng)的特征提取能力,且可從大量數(shù)據(jù)中學(xué)習(xí)構(gòu)建模型參數(shù),深度學(xué)習(xí)成為圖像融合領(lǐng)域最有潛力的方向[9]。深度學(xué)習(xí)融合方法可粗略分為卷積神經(jīng)網(wǎng)絡(luò)[10-17]和生成對(duì)抗融合方法[18-22]。文獻(xiàn)[10-13]采用編碼模型提取圖像深度特征,設(shè)計(jì)相應(yīng)的融合規(guī)則,再利用解碼模型重構(gòu)融合圖像。特別地,文獻(xiàn)[12]采用了空間注意力作為融合規(guī)則,且利用中間特征和補(bǔ)償特征來提高深度特征表征能力。文獻(xiàn)[13]構(gòu)建了Lp正則化注意力融合模型,從通道和空間維度分別提取深度特征的注意力特征圖。盡管這些方法取得了較好的融合結(jié)果,但都是非端到端融合網(wǎng)絡(luò),仍需人為設(shè)定融合規(guī)則。文獻(xiàn)[18]提出生成對(duì)抗圖像融合方法,由于采用單一的對(duì)抗機(jī)制,導(dǎo)致融合結(jié)果不平衡,偏向于紅外圖像,可見光圖像紋理邊緣信息丟失嚴(yán)重。文獻(xiàn)[19]利用生成對(duì)抗機(jī)制將圖像融合轉(zhuǎn)變?yōu)槎喾诸愊薅▎栴},雖能緩解融合不平衡問題,但融合圖像中目標(biāo)邊緣模糊,紋理邊緣信息依然缺失。
為此,本文提出一種紅外與可見光圖像交互注意力生成對(duì)抗融合方法,采用權(quán)重共享的雙路編碼網(wǎng)絡(luò)結(jié)構(gòu)分別提取源圖像各自的深度特征,利用交互注意力融合模型建立深度特征的全局依賴特性,獲得的注意力圖像更聚焦于紅外典型目標(biāo)和可見光紋理細(xì)節(jié)。此外,雙鑒別器和互補(bǔ)損失函數(shù)設(shè)計(jì)進(jìn)一步優(yōu)化生成對(duì)抗網(wǎng)絡(luò)模型,使得融合圖像能夠同時(shí)保留更突出的紅外圖像典型目標(biāo)和更清晰的可見光圖像紋理細(xì)節(jié),獲得更好的圖像融合性能。
交互注意力生成對(duì)抗融合原理框圖如圖1(a)所示。在生成網(wǎng)絡(luò)模型中,紅外和可見光圖像作為輸入源,通過編碼-解碼網(wǎng)絡(luò),雙編碼網(wǎng)絡(luò)提取源圖像各自的多尺度深度特征,交互注意力融合模型(Interactive Attention Fusion model,IAFM)建立多尺度局部特征的全局依賴特性,獲得融合注意力圖,最后經(jīng)過解碼網(wǎng)絡(luò)重構(gòu)獲得融合圖像。在對(duì)抗網(wǎng)絡(luò)模型中,設(shè)計(jì)了面向紅外和可見光圖像的雙鑒別器,能更均衡地判斷融合圖像與源圖像的真假性,優(yōu)化生成網(wǎng)絡(luò)模型,使生成的融合圖像更接近源圖像的真實(shí)數(shù)據(jù)分布,最終獲得更平衡的融合結(jié)果。
圖1 交互注意力生成對(duì)抗融合原理Fig.1 The principle of interactive attention-based generative adversarial network
生成網(wǎng)絡(luò)模型包括編碼部分、交互注意力融合模塊和解碼部分。編碼部分由1 個(gè)普通卷積層(C0)和2個(gè)多尺度聚合卷積模塊(Multi-scale Aggregate Convolution block,MACB)構(gòu)成,如圖1(b)所示。普通卷積層提取圖像的底層特征,而多尺度聚合卷積模塊提取圖像的高層特征。對(duì)于輸入的底層特征,首先利用1×1 卷積轉(zhuǎn)換通道數(shù),并將輸入特征圖分成4 個(gè)特征子圖(x1,x2,x3,x4)。每個(gè)子圖具有相同的空間大小,通道數(shù)為輸入特征圖的1/4。然后,除第一個(gè)特征子圖x1 以外,其他每個(gè)子圖通過3×3 卷積后,通道連接(Concatenate)到下一個(gè)特征子圖中。多尺度聚合卷積模塊無(wú)需采用上采樣或者下采樣,以多視場(chǎng)聚合方式獲取多尺度深度特征,盡可能保留有用的特征信息。解碼部分由4 個(gè)卷積核大小為3×3 的普通卷積層組成。
對(duì)抗網(wǎng)絡(luò)模型如圖1(c)所示,采用紅外(Discriminator-IR)和可見光(Discriminator-VIS)雙鑒別器設(shè)計(jì),網(wǎng)絡(luò)結(jié)構(gòu)相同,都由5 個(gè)普通卷積層組成,其中前4 個(gè)卷積層采用大小為3×3 的卷積核,卷積步長(zhǎng)為2,濾波器組的參數(shù)分別是32、64、128、128 和1。采用BatchNorm 對(duì)前4 層普通卷積的輸出數(shù)據(jù)進(jìn)行歸一化操作,加速收斂速度,避免出現(xiàn)梯度消失等問題。融合網(wǎng)絡(luò)的卷積層均采用LeakyRelu 函數(shù)作為激活函數(shù),其他參數(shù)設(shè)定如圖1 所示。
交互注意力融合模型如圖2 所示,由通道注意力和空間注意力級(jí)聯(lián)組成,從通道和空間維度上建立局部特征的全局依賴特性。對(duì)于輸入的紅外和可見光圖像深度特征ΦI和ΦV∈RH×W×C,首先經(jīng)過全局平均池化層,將深度特征轉(zhuǎn)化為通道描述向量,獲得相應(yīng)的初始通道加權(quán)系數(shù)和∈R1×1×C,即
圖2 交互注意力融合模型Fig.2 Interactive attention fusion model
式中,AvgPool(?)表示全局平均池化操作,c=1,2,…,C表示通道索引。隨后,利用Softmax 操作獲得最終的通道加權(quán)系數(shù)和1×1×C,即
將最終通道加權(quán)系數(shù)與原始輸入的深度特征進(jìn)行元素相乘,獲得紅外和可見光圖像的通道注意力圖和分別為
接著,將紅外和可見光圖像的通道注意力圖作為空間注意力模型的輸入特征,首先經(jīng)過最大池化和平均池化層,經(jīng)過通道連接和7×7 卷積層后,獲得初始空間加權(quán)系數(shù)和∈RM×N×1,即
式中,MaxPool(?)表示最大池化,Concate[?]表示通道連接。利用Softmax 操作獲得最終的空間加權(quán)系數(shù)和∈RM×N×1,即
將最終空間加權(quán)系數(shù)與通道注意力圖進(jìn)行元素相乘,獲得紅外和可見光圖像的空間注意力圖和分別為
最后,將紅外和可見光圖像的空間注意力圖進(jìn)行通道連接和1×1 卷積層后,獲得最終的融合注意力圖ΦF為
生成網(wǎng)絡(luò)模型的損失函數(shù)LG由對(duì)抗損失Ladv和內(nèi)容損失Lcon兩部分構(gòu)成,即
雖然紅外圖像以像素亮度表征目標(biāo)特征,可見光圖像以邊緣和梯度表征場(chǎng)景細(xì)節(jié),但事實(shí)上,可見光圖像也存在一定的亮度分布信息。因此,采用Frobenius 范數(shù)分別約束融合圖像與紅外、可見光圖像間的數(shù)據(jù)分布相似度,保留紅外與可見光圖像像素強(qiáng)度,且通過比例系數(shù)突出紅外目標(biāo)的亮度信息??紤]到Frobenius 范數(shù)會(huì)放大融合圖像與源圖像之間的灰度差異,導(dǎo)致可見光圖像的紋理細(xì)節(jié)信息損失,又采用L1范數(shù)進(jìn)一步約束融合圖像與可見光圖像的相似性,保留可見光的紋理細(xì)節(jié)信息。因此,兩個(gè)損失函數(shù)設(shè)計(jì)是相互補(bǔ)償?shù)?,使整個(gè)損失函數(shù)平衡,生成的融合圖像在突出紅外目標(biāo)亮度前提下,保留了更加豐富的可見光圖像紋理細(xì)節(jié)信息。內(nèi)容損失函數(shù)Lcon可表示為
式中,H、W分別表示源圖像的高和寬,β為調(diào)整系數(shù)且取值大于1,If、Iir和Ivis分別表示融合圖像、紅外圖像和可見光圖像,||?||F為Frobenius 范數(shù),||?||1表示L1 范數(shù)。
此外,對(duì)抗損失函數(shù)可表示為
式中,N表示融合圖像數(shù)量,Dir(?)與Dvis(?)表示兩個(gè)鑒別器的輸出結(jié)果。
在對(duì)抗網(wǎng)絡(luò)模型中,設(shè)計(jì)了紅外(Discriminator-IR)和可見光(Discriminator-VIS)雙鑒別器,通過鑒別損失函數(shù)可以平衡判定融合圖像與源圖像的真假性,進(jìn)而與生成網(wǎng)絡(luò)模型形成對(duì)抗博弈,使生成融合圖像更趨向于源圖像的真實(shí)數(shù)據(jù)分布。紅外和可見光圖像的鑒別器損失函數(shù)可表示為
式中,?表示梯度算子,第一項(xiàng)表示源圖像的鑒別器損失,第二項(xiàng)表示融合圖像的鑒別器損失,前兩項(xiàng)表示源圖像與融合圖像的Wasserstein 距離,最后一項(xiàng)為梯度懲罰,限制鑒別器的學(xué)習(xí)能力,λ為正則化參數(shù)。
在訓(xùn)練過程中,由于紅外與可見光圖像數(shù)據(jù)集有限,在TNO 數(shù)據(jù)集上采用滑動(dòng)步長(zhǎng)為12,將原始圖像對(duì)尺寸裁剪為256×256,灰度值范圍轉(zhuǎn)換為[0,1],以獲得10 653 組紅外與可見光圖像對(duì)作為訓(xùn)練數(shù)據(jù)集。此外,采用Adam 優(yōu)化器更新網(wǎng)絡(luò)模型參數(shù),Batchsize 和Epoch 分別設(shè)置為4 和6。生成網(wǎng)絡(luò)模型和對(duì)抗網(wǎng)絡(luò)模型的學(xué)習(xí)率分別設(shè)置為1×10-4和4×10-4,且對(duì)應(yīng)的訓(xùn)練次數(shù)分別設(shè)置為1 和2。在損失函數(shù)參數(shù)設(shè)置中,平衡因子β為3.5,正則化參數(shù)λ 設(shè)置為10。實(shí)驗(yàn)測(cè)試平臺(tái)采用Intel i9-10850k CPU、64 GB 內(nèi)存和NVIDIA GeForce GTX 3090 顯卡,訓(xùn)練和測(cè)試環(huán)境為Python 和PyTorch 平臺(tái)。
在測(cè)試過程中,從TNO[23]、Roadscene[24]數(shù)據(jù)集分別選取25 和30 組紅外和可見光圖像、以及Nato_camp序列作為測(cè)試數(shù)據(jù)。本文方法與現(xiàn)有的9 種典型融合方法進(jìn)行比較,包括WLS[6]、DenseFuse[10]、IFCNN[11]、SEDRFuse[12]、U2Fusion[15]、PMGI[16]、FusionGAN[18]、GANMcC[19]和RFN-Nest[14]??陀^評(píng)價(jià)采用8 個(gè)融合評(píng)價(jià)指標(biāo),分別為平均梯度(Average Gradient,AG)、標(biāo)準(zhǔn)差(Standard Deviation,SD)、互信息(Mutual Information,MI)、相位一致性(Phase Congruency,PC)、非線性相關(guān)信息熵(Nonlinear Correlation Information Entropy,NCIE)、空間頻率(Spatial Frequency,SF)、多尺度結(jié)構(gòu)相似性(Multi-Scale Structural Similarity Index Measure,MS_SSIM)和視覺信息保真度(Visual Information Fidelity,VIF)。在客觀評(píng)價(jià)中,評(píng)價(jià)指標(biāo)數(shù)值越大表明融合性能越好。此外,還采用平均指標(biāo)提高率(Average Metric Improvement Rate,AMIR)來量化指標(biāo)提高程度,其公式表示為
式中,Mours和Mother分別表示本文方法和其他對(duì)比方法取得的客觀指標(biāo)值,N表示對(duì)比方法個(gè)數(shù)。
為了驗(yàn)證交互注意力融合模型的有效性,將與無(wú)注意力模型(記作No_atten)、僅有通道注意力模型(記作Only_CA)、僅有空間注意力模型(記作Only_SA)和空間級(jí)聯(lián)通道注意力模型(記作SA_CA)進(jìn)行比較。實(shí)驗(yàn)采用TNO 數(shù)據(jù)集25 組圖像和8 個(gè)評(píng)價(jià)指標(biāo)。圖3 給出了5 種模型的融合對(duì)比結(jié)果。從結(jié)果可以看出,No_atten 模型融合結(jié)果既丟失了紅外目標(biāo)亮度信息,又缺失了可見光的紋理細(xì)節(jié)。Only_CA 和Only_SA 模型能夠保留紅外典型目標(biāo),但可見光圖像的紋理細(xì)節(jié)依然有所缺失。相比之下,SA_CA 和交互注意力模型取得了更平衡的融合結(jié)果,同時(shí)保留了紅外圖像的典型目標(biāo)和可見光圖像的紋理細(xì)節(jié),從主觀上來看,兩者之間的差異不明顯,要從客觀評(píng)價(jià)上來比較兩者的融合性能。
圖3 5 種融合模型的主觀對(duì)比結(jié)果Fig.3 The subjective comparison results of five fusion models
表1 給出了5 種模型的客觀評(píng)價(jià)對(duì)比結(jié)果,最優(yōu)值和次優(yōu)值分別以加粗和下劃線標(biāo)注??梢钥闯觯琌nly_CA 和Only_SA 模型顯著好于No_atten 模型,表明注意力機(jī)制可以有效提高圖像融合性能。此外,SA_CA 模型和交互注意力模型的融合性能高于Only_CA 和Only_SA 模型,表明交互的通道和空間注意力模型顯著好于單個(gè)注意力模型。本文方法取得了指標(biāo)AG、MI、NCIE、SF 和VIF 的最優(yōu)值,而SA_CA 模型取得了指標(biāo)AG、SD、PC、NCIE、SF 和VIF 的次優(yōu)值。對(duì)比其他4 個(gè)模型,本文的交互注意力模型取得了最優(yōu)的融合結(jié)果。
表1 TNO 數(shù)據(jù)集的5 種融合模型的客觀對(duì)比結(jié)果Table 1 The objective comparison results of five fusion models on the TNO dataset
為了驗(yàn)證本文方法的優(yōu)越性,對(duì)TNO 數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)驗(yàn)證,選取其中7 組典型紅外和可見光圖像作為主觀評(píng)價(jià),包括Nato_camp、Street、Soldiers_with_jeep、Movie_01、Helicopter、Kaptein_1654 和Sandpath。圖4給出了7 組圖像的主觀評(píng)價(jià)對(duì)比結(jié)果。為了便于直觀觀察,典型的紅外目標(biāo)和紋理細(xì)節(jié)分別以虛線框和實(shí)線框標(biāo)注,且對(duì)紋理細(xì)節(jié)進(jìn)行局部放大??梢钥闯?,傳統(tǒng)融合方法WLS 在一定程度上保留了可見光的紋理細(xì)節(jié),但是典型的紅外目標(biāo)信息丟失嚴(yán)重,存在較為嚴(yán)重的偽影現(xiàn)象。深度學(xué)習(xí)融合方法DenseFuse 和IFCNN,由于采用加權(quán)平均的融合規(guī)則,獲得融合圖像傾向于保留可見光的紋理細(xì)節(jié),典型的紅外目標(biāo)信息依然缺失嚴(yán)重。相比之下,SEDRFuse、U2Fusion 和PMGI 取得了相對(duì)滿意的效果。盡管這樣,這些方法依然不能有效保留紅外目標(biāo)亮度特性,目標(biāo)特性不突出。FusionGAN 和GANMcC 的融合結(jié)果傾向于紅外圖像,能夠保留紅外圖像的典型目標(biāo),但目標(biāo)邊緣模糊,且可見光的紋理細(xì)節(jié)丟失嚴(yán)重。RFN-Nest 雖然采用兩階段訓(xùn)練,但所獲得的結(jié)果傾向于保留更多的紋理細(xì)節(jié),紅外圖像的目標(biāo)信息嚴(yán)重丟失??偟膩碚f,本文方法能夠有效保留紅外圖像的典型目標(biāo)和可見光圖像的紋理細(xì)節(jié),達(dá)到更平衡的融合結(jié)果,獲得最優(yōu)的視覺效果。
圖4 TNO 數(shù)據(jù)集上不同融合方法主觀評(píng)價(jià)對(duì)比結(jié)果Fig.4 The subjective comparison results of different fusion methods on the TNO dataset
表2 給出了TNO 數(shù)據(jù)集的客觀評(píng)價(jià)指標(biāo)對(duì)比結(jié)果,可以看出,本文方法獲得了指標(biāo)MI、PC、NCIE 和VIF 的最優(yōu)平均值,指標(biāo)AG、SD、SF 的次優(yōu)平均值,指標(biāo)平均提高率分別為34.548%、21.416%、54.385%、33.056%、0.436%、33.735%、22.384%,指標(biāo)MS_SSIM 降低了1.670%,整體指標(biāo)平均提高率為24.786%。為了進(jìn)一步驗(yàn)證本文方法的有效性,表3 給出了Nato_camp 序列的客觀評(píng)價(jià)指標(biāo)對(duì)比結(jié)果。本文方法取得了指標(biāo)SD、MI、PC 和NCIE 的最優(yōu)值,指標(biāo)VIF 的次優(yōu)值,指標(biāo)平均提高率分別為18.593%、29.815%、78.433%、32.005%、0.505%、23.208%、10.656%,指標(biāo)MS_SSIM 降低了2.565%,整體指標(biāo)平均提高率為23.831%。此外,可以發(fā)現(xiàn)本文方法在指標(biāo)MS_SSIM 未取得最優(yōu)值,這是因?yàn)椴捎媒换プ⒁饬θ诤夏K,獲得的融合圖像既要保留紅外圖像的典型目標(biāo)又要保留可見光圖像的紋理細(xì)節(jié),交互特征融合可能弱化了某些結(jié)構(gòu)或邊緣特征,導(dǎo)致指標(biāo)MS_SSIM 取得了相對(duì)較低的值。盡管如此,從多指標(biāo)評(píng)價(jià)的結(jié)果來看,本文融合方法取得了最優(yōu)的融合性能,客觀評(píng)價(jià)與上述的主觀評(píng)價(jià)一致。
表2 不同融合方法在TNO 數(shù)據(jù)集上的客觀評(píng)價(jià)指標(biāo)對(duì)比結(jié)果Table 2 The objective comparison results of different fusion methods on the TNO dataset
表3 不同融合方法在Nato_camp 序列上的客觀評(píng)價(jià)指標(biāo)對(duì)比結(jié)果Table 3 The objective comparison results of different fusion methods on the Nato-camp sequence
從評(píng)價(jià)結(jié)果來看,最優(yōu)的MI、NCIE 和PC 指標(biāo)表明本文方法能夠從源圖像提取更多特征信息,保留到融合結(jié)果上。這是因?yàn)楸疚姆椒ú捎秒p路編碼-解碼生成網(wǎng)絡(luò)模型,多尺度聚合卷積模塊提取了多尺度特征,能夠有效地表征圖像特征信息。最優(yōu)的AG、SF 指標(biāo)表明本文方法的融合結(jié)果保留了更多的邊緣和紋理特征信息,說明雙鑒別器能夠平衡融合圖像與源圖像的真實(shí)數(shù)據(jù)分布,相互補(bǔ)充的損失函數(shù)進(jìn)一步平衡了融合結(jié)果。此外,最優(yōu)的SD 和VIF 指標(biāo)表明本文方法具有最高的對(duì)比度和視覺效果,這是因?yàn)椴捎媒换プ⒁饬θ诤夏P湍軌驈耐ǖ篮涂臻g維度上對(duì)局部特征進(jìn)行建模,獲取局部特征的全局依賴特性,使得注意力圖更聚焦于紅外圖像的目標(biāo)特性和可見光的紋理細(xì)節(jié)。主客觀實(shí)驗(yàn)驗(yàn)證了方法的有效性,表明本文方法取得了較好的融合性能,優(yōu)于其他9 種典型融合方法。
為進(jìn)一步驗(yàn)證該融合方法的有效性,從Roadscene 數(shù)據(jù)集中選取了30 組紅外和可見光圖像進(jìn)行實(shí)驗(yàn)驗(yàn)證。圖5、6 給出了“FLIR_06422”和“FLIR_07210”的主觀評(píng)價(jià)對(duì)比結(jié)果,可以看出,對(duì)于紅外圖像的典型目標(biāo),如虛線框標(biāo)注的行人和路燈,WLS、DenseFuse、IFCNN、U2Fusion 和RFN-Nest 的融合結(jié)果偏向于可見光圖像,能保留可見光圖像紋理細(xì)節(jié)信息,但紅外圖像的目標(biāo)不突出,亮度特性丟失嚴(yán)重。對(duì)于可見光圖像的細(xì)節(jié)特征,如實(shí)線框標(biāo)注的地面和標(biāo)志牌上“STOP”字樣,SEDRFuse、PMGI、FusionGAN 和GANMcC的融合結(jié)果偏向于紅外圖像,能夠保留紅外圖像的典型目標(biāo),但細(xì)節(jié)信息損失嚴(yán)重。對(duì)比之下,本文方法的融合結(jié)果既能保留紅外圖像的典型目標(biāo),又能保留可見光圖像的紋理細(xì)節(jié),獲得了最佳的視覺效果,更符合人類視覺系統(tǒng)。
圖5 FLIR_06422 的不同融合方法主觀評(píng)價(jià)對(duì)比結(jié)果Fig.5 The subjective comparison results of different fusion methods for FLIR_06422
表4 給出了Roadscene 數(shù)據(jù)集的客觀評(píng)價(jià)指標(biāo)對(duì)比結(jié)果,本文融合方法在指標(biāo)MI、PC、NCIE 和VIF 上取得了最優(yōu)值,在指標(biāo)AG 和SF 上取得了次優(yōu)值,指標(biāo)平均提高率分別為23.610%、0.923%、24.547%、38.148%、0.224%、26.580%、21.948%,指標(biāo)MS_SSIM 降低了4.427%,整體指標(biāo)平均提高率為16.466%??陀^實(shí)驗(yàn)結(jié)果驗(yàn)證本方法具有顯著的融合性能。從主、客觀評(píng)價(jià)結(jié)果來看,本文融合方法在2 個(gè)數(shù)據(jù)集和1個(gè)序列上的融合性能都優(yōu)于其他典型融合方法,表明了本文方法具有較強(qiáng)的魯棒性和優(yōu)越性。此外,為了進(jìn)一步驗(yàn)證融合計(jì)算效率,傳統(tǒng)方法WLS 在CPU 上進(jìn)行測(cè)試,而深度學(xué)習(xí)方法都在GPU 上測(cè)試。表5 給出了不同融合方法計(jì)算效率的對(duì)比結(jié)果。本文方法的計(jì)算效率略低于DenseFuse 和IFCNN,這是因?yàn)檫@兩個(gè)方法采用了加權(quán)平均的融合規(guī)則。綜合實(shí)驗(yàn)分析結(jié)果表明本文方法在取得更佳融合性能的同時(shí),還具有較高的計(jì)算效率。
圖6 FLIR_07210 的不同融合方法主觀評(píng)價(jià)對(duì)比結(jié)果Fig.6 The subjective comparison results of different fusion methods for FLIR_07210
表4 不同融合方法在Roadscene 數(shù)據(jù)集上的客觀評(píng)價(jià)指標(biāo)對(duì)比結(jié)果Table 4 The objective comparison results of different fusion methods on the Roadscene dataset
表5 不同融合方法計(jì)算效率對(duì)比結(jié)果(單位:秒)Table 5 The comparison results of computation efficiency for different fusion methods(units:s)
本文提出了一種紅外與可見光圖像交互注意力生成對(duì)抗融合方法,設(shè)計(jì)了雙路編碼-解碼的生成網(wǎng)絡(luò)模型,構(gòu)造多尺度聚合卷積模塊,有效提取源圖像各自的深度特征;構(gòu)建了交互注意力融合模型,建立了局部特征的全局依賴特性,使注意力圖更聚焦于紅外典型目標(biāo)和可見紋理細(xì)節(jié)。在對(duì)抗網(wǎng)絡(luò)模型中,設(shè)計(jì)了雙鑒別器來判定融合圖像與源圖像間的真假性,互補(bǔ)的損失函數(shù)優(yōu)化生成網(wǎng)絡(luò)模型獲得最佳的融合結(jié)果。實(shí)驗(yàn)結(jié)果表明,與其他9 種典型融合方法相比,本文方法能夠取得更平衡的主觀視覺融合結(jié)果,在TNO、Nato_camp 序列和Roadscene 數(shù)據(jù)集上客觀指標(biāo)分別提高了24.786%、23.831%、16.466%,獲得了最優(yōu)的融合性能,且具有較高的計(jì)算效率和較強(qiáng)的魯棒性。下一步工作將注意力機(jī)制引入對(duì)抗網(wǎng)絡(luò)模型中,進(jìn)一步提高紅外與可見光圖像融合性能。