徐慧琳,趙 鑫,于波
(安徽理工大學(xué) 人工智能學(xué)院,安徽 淮南 232001)
紅外傳感器通過捕獲物體發(fā)出的熱輻射信息成像,形成的紅外圖像基于輻射差異將目標(biāo)與背景區(qū)分開,突出顯著目標(biāo),但其容易忽略紋理信息并易受到噪聲影響.可見光傳感器通過捕獲物體的反射光信息成像,形成的可見光圖像通常包含豐富的紋理和結(jié)構(gòu)信息,但其受限于光照條件[1].因此,將可見光圖像與紅外圖像融合,有利于二者取長補短,獲得更加完善的圖像描述,并可用于高級視覺任務(wù)的預(yù)處理模塊,例如目標(biāo)檢測[2]、目標(biāo)跟蹤[3]和語義分割[4].
近年來,深度學(xué)習(xí)以其強大的特征提取和表達能力主導(dǎo)了計算機視覺領(lǐng)域發(fā)展,圖像融合領(lǐng)域的研究者探索了大量基于深度學(xué)習(xí)的算法.現(xiàn)有的基于深度學(xué)習(xí)的圖像融合算法主要分為3類:基于自編碼器(Auto encoder,AE)的圖像融合框架、基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural network,CNN)的圖像融合框架和基于生成對抗網(wǎng)絡(luò)(Generative adversarial network,GAN)的圖像融合框架.LIU等[5]在基于自編碼器的融合框架中引入邊緣引導(dǎo)的注意力機制,將特征學(xué)習(xí)模塊與融合學(xué)習(xí)機制級聯(lián)在一起.JIAN等[6]設(shè)計了一種具有殘余塊網(wǎng)絡(luò)的對稱AE網(wǎng)絡(luò),網(wǎng)絡(luò)中卷積層生成的所有特征完全保留了每個級別的信息,都融合到最終結(jié)果中.俞利新等[7]設(shè)計了一種無監(jiān)督端到端的AE 網(wǎng)絡(luò)模型,圖像特征提取模塊采用結(jié)構(gòu)重參數(shù)化方法,同時引入注意力機制,減小了冗余信息對融合結(jié)果的干擾.基于CNN 的圖像融合框架算法依靠設(shè)計的網(wǎng)絡(luò)結(jié)構(gòu)實現(xiàn)特征提取、特征融合和圖像重建.LIU等[8]提出一種基于網(wǎng)絡(luò)架構(gòu)搜索的圖像融合方法,能夠針對不同融合任務(wù)的特點,自適應(yīng)地構(gòu)造高效且有效的特征提取、特征融合以及圖像重建網(wǎng)絡(luò).LI等[9]提出一種基于元學(xué)習(xí)的深度框架,該框架可以接受不同分辨率的源圖像,并僅使用單個學(xué)習(xí)模型即可生成任意分辨率的融合圖像.基于GAN 的圖像融合框架通過判別器來迫使生成器生成的融合結(jié)果在概率分布上與目標(biāo)分布趨于一致,從而實現(xiàn)特征提取、融合和圖像重建[10].MA等[11]在FusionGAN 中首次將圖像融合問題定義為生成器與判別器之間的對抗博弈,隨后又提出利用雙判別器維持不同模態(tài)間的信息平衡,并更好地約束融合結(jié)果的概率分布.在此基礎(chǔ)上,LI等[12]將注意力機制注入基于GAN 的圖像融合框架中,以促使生成器和判別器更關(guān)注那些重要區(qū)域.現(xiàn)有方法雖然可以生成融合結(jié)果較好的圖像,但是在提取圖像細粒度細節(jié)特征方面效果不佳.另一方面,現(xiàn)有算法在提高視覺質(zhì)量和評估指標(biāo)的同時忽略了滿足高級視覺任務(wù)的需求.
針對上述問題本文提出一種用于紅外和可見光圖像的語義信息感知圖像融合網(wǎng)絡(luò)(Semantic information aware fusion network,SIAFusion).該網(wǎng)絡(luò)基于CNN 框架,在特征提取階段設(shè)計一組基于梯度的殘差模塊(Gradient residual block,GRB),該模塊由主流部分和殘差流部分組成.主流部分使用普通卷積操作提取圖像淺層特征,針對紅外圖像和可見光圖像的特性在殘差流部分引入兩種不同的梯度算子,有效提取紅外圖像邊緣信息和可見光圖像細粒度細節(jié)特征.為了使融合圖像包含更多語義信息,通過引入一個用于構(gòu)建語義損失的分割網(wǎng)絡(luò)指導(dǎo)網(wǎng)絡(luò)的訓(xùn)練.同時,本文建立了一個標(biāo)準的夜間紅外圖像語義分割數(shù)據(jù)集——紅外夜間語義分割數(shù)據(jù)集(Night infrared semantic dataset,NISD).
網(wǎng)絡(luò)架構(gòu)圖如圖1所示,SIAFusion網(wǎng)絡(luò)架構(gòu)由特征提取器和圖像重建器兩部分組成,紅外圖像與可見光圖像同時輸入網(wǎng)絡(luò),首先分別經(jīng)過由一組卷積核大小為3×3的普通卷積層和兩組GRB模塊組成的特征提取器,其中考慮提取紅外圖像和可見光圖像的特征不同,GRB模塊被設(shè)計為兩種,分別為GRB_VIS模塊和GRB_INF模塊.之后將提取的紅外圖像特征與可見光圖像特征進行級聯(lián)融合,并送入由三組卷積核大小為3×3的普通卷積層和一組卷積核大小為1×1的普通卷積層組成的圖像重建器,實現(xiàn)特征聚合和圖像重建.最后輸出融合圖像.
圖1 SIAFusion網(wǎng)絡(luò)結(jié)構(gòu)圖
為解決現(xiàn)有算法無法有效提取紅外圖像邊緣信息和可見光圖像細粒度細節(jié)特征的問題,本文構(gòu)建了一組基于梯度的殘差模塊GRB,并將其部署在SIAFusion網(wǎng)絡(luò)特征提取器中,該特征提取器由一組卷積核大小為3×3的LeakyRelu卷積層和兩組GRB模塊組成.
GRB模塊由主流部分和殘差流部分組成.主流部分布署了兩組卷積核大小為3×3的LeakyRelu卷積層和一組卷積核大小為1×1的普通卷積層,用于提取圖像淺層特征,殘差流部分采用兩種不同的梯度算子分別提取紅外圖像邊緣信息和可見光圖像細粒度細節(jié)特征.通過將主流和殘差梯度流的輸出逐元素相加,之后經(jīng)過一組卷積核大小為1×1的普通卷積層消除通道差異,再與淺層特征進行拼接操作,最后作為特征提取器的輸出.GRB模塊的網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示.針對可見光圖像采用Prewitt算子進行細粒度特征提取,針對紅外圖像采用Sobel算子進行邊緣信息提取.
圖2 GRB模塊
GRB模塊提取特征過程用公式可表示為:
其中,F(xiàn)i表示GRB模塊的輸入特征,Conv(·)表示卷積運算,Convn(·)表示n級聯(lián)卷積操作.在本文中,n設(shè)置為2,"表示梯度算子.在GRB_VIS模塊中,殘差流采用Prewitt算子作為梯度算子提取可見光圖像特征圖的邊緣細節(jié)信息.在GRB_INF模塊中,殘差流采用Sobel算子作為梯度算子來提取紅外圖像特征圖的細粒度細節(jié)信息.此外,表示逐元素求和操作.GRB模塊將可學(xué)習(xí)的卷積特征與梯度大小信息聚合在一起.
特征提取器過程用公式可表示為:
其中,F(xiàn)ir和Fvi表示經(jīng)過特征提取器后的細節(jié)特征,Iir和Ivi表示特征提取器的紅外和可見光圖像輸入.
SIAFusion網(wǎng)絡(luò)的圖像重建器由三組串聯(lián)的卷積核大小為3×3的普通卷積層和一組卷積核大小為1×1的普通卷積層組成.所有3×3卷積層均采用LeakyRelu函數(shù)作為激活函數(shù),而1×1卷積層的激活函數(shù)為Tanh函數(shù).經(jīng)過特征提取器的紅外圖像特征與可見光圖像特征首先通過級聯(lián)策略進行融合,隨后將融合后的特征輸入圖像重建器,完成特征聚合和圖像融合.
融合操作用公式可表示為
其中,C(·)表示通道維度中的級聯(lián),F(xiàn)f表示融合后的特征.
圖像重建操作用公式可表示為
其中,RI(·)表示圖像重建操作,If表示從融合特征Ff中恢復(fù)的融合圖像.
本文采用由TANG等[13]提出的內(nèi)容損失(Content Loss)和語義損失(Semantic Loss)組成的聯(lián)合損失策略約束融合網(wǎng)絡(luò).聯(lián)合損失網(wǎng)絡(luò)框架如圖3所示,其中采用的圖像分割網(wǎng)絡(luò)為Bisenet輕量級語義分割網(wǎng)絡(luò)[14].
圖3 聯(lián)合損失網(wǎng)絡(luò)框架
聯(lián)合損失公式如下
其中,Lcontent表示內(nèi)容損失,Lsemantic表示語義損失,β是表示語義損失重要性的超參數(shù).
1.4.1 內(nèi)容損失
內(nèi)容損失由強度損失和紋理損失組成,公式如下所示
其中,Lintensity表示強度損失,約束融合圖像的整體表現(xiàn)強度,Ltexture表示紋理損失,使融合圖像包含更細粒度的紋理細節(jié),α用以平衡強度損失和紋理損失.
強度損失用于衡量融合圖像和源圖像在像素級別的差異,公式如下
其中,H和W分別表示輸入圖像的高度和寬度,max(·)表示最大像素值選擇策略,‖·‖1表示l1范數(shù).
紋理損失用于使融合圖像包含更細粒度的紋理信息,公式如下
其中,"表示Sobel算子,|·|表示絕對值運算.
1.4.2 語義損失
通過在訓(xùn)練過程中引入語義分割網(wǎng)絡(luò),利用語義損失充分提升融合圖像的語義信息.語義損失由主要語義損失和輔助語義損失組成,公式如下
其中,Lmain表示主要語義損失,Laux表示輔助語義損失,λ用于平衡主要損失和輔助損失.
主要語義損失公式如下
其中,Lso∈H×W×C表示從語義標(biāo)簽轉(zhuǎn)換來的獨熱向量,Is∈(1,C)H×W表示語義分割網(wǎng)絡(luò)輸出結(jié)果,H、W和C分別表示圖像高度、寬度和語義標(biāo)簽類別數(shù)量.
輔助語義損失公式如下
其中,Isa∈H×W×C表示語義分割網(wǎng)絡(luò)輔助分割結(jié)果.
本文建立了一個夜間紅外圖像語義分割數(shù)據(jù)集NISD,包括人、建筑物、門、樹、道路、自行車、路燈、交通錐和背景9個語義標(biāo)簽.NISD 數(shù)據(jù)集包括1055對紅外和可見光圖像.所使用的數(shù)據(jù)集劃分為訓(xùn)練集和測試集,其中訓(xùn)練集包含929對圖像,測試集包含126對圖像.
數(shù)據(jù)集部分圖片展示如圖4所示.
圖4 NISD 數(shù)據(jù)集部分圖像展示
本文采用HIKVISION 熱成像雙光譜半球攝像機(DS-2TD1217-3/PA)在夜間場景下的不同視角以及不同遮擋度等條件下獲取數(shù)據(jù)集.標(biāo)注工具為開源標(biāo)注工具labelme,在標(biāo)注完所有圖片后,進行第二輪檢查,剔除不標(biāo)準的圖片,最終篩選出1055張可用且標(biāo)注良好的標(biāo)簽圖.各類標(biāo)簽數(shù)量如圖5所示.
圖5 NISD 數(shù)據(jù)集各類標(biāo)簽數(shù)量
本文算法基于PyTorch框架,實驗硬件配置如表1所示.
表1 實驗硬件配置
圖像融合網(wǎng)絡(luò)訓(xùn)練初始學(xué)習(xí)率設(shè)置為0.001,訓(xùn)練輪次設(shè)置為10,采用梯度下降優(yōu)化算法,動量和權(quán)重衰減分別設(shè)置為0.9和0.0002.塊大小設(shè)置為2,輸入圖像的大小縮放為1024×1024.
本文選擇3 個評價指標(biāo)來評估網(wǎng)絡(luò)性能:均方誤差(Mean Square Error,MSE)、峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)、平均梯度(Average Gradient,AG)[15].
MSE用于衡量融合圖像和理想?yún)⒖紙D像之間的差異,MSE越小融合圖像質(zhì)量越好.計算公式如下
其中,n表示樣本數(shù)量,xi表示第i個樣本的預(yù)測值,yi是模型對第i個樣本的標(biāo)注值.
PSNR 是融合圖像中峰值功率與噪聲功率的比值,反映融合過程中的失真情況.PSNR 越大,說明融合圖像與源圖像越接近,即融合產(chǎn)生的誤差越小.計算公式如下
其中,F(xiàn)表示融合圖像.
AG主要反映圖像中細節(jié)的區(qū)別和紋理變化.通常情況下,AG越大,圖像的清晰度越高,融合質(zhì)量越好.計算公式如下
其中,F(xiàn)表示融合圖像,M和N分別表示圖的寬和高。
為測試網(wǎng)絡(luò)性能,選取30組紅外和可見光圖像進行融合實驗,并將融合結(jié)果與其他3種基于深度學(xué)習(xí)的圖像融合算法的實驗結(jié)果進行比較,其他3 種算法分別為基于GAN 網(wǎng)絡(luò)的圖像融合算法FusionGAN、基于CNN 框架的NestFuse[16]網(wǎng)絡(luò)和SeAFusion網(wǎng)絡(luò).表2列舉了本文算法與以上3種算法的性能比較.
表2 融合性能比較數(shù)據(jù)表
表2給出了4種算法對測試集中30組圖像融合得到的3個客觀評價指標(biāo)的平均值,在不同算法中,評價指標(biāo)AG 和PSNR 值越大越好,評價指標(biāo)MSE 值越小越好.從表2可看出,本文提出的算法在3個指標(biāo)值上均取得了最好的結(jié)果,進一步驗證本文算法提取的紅外圖像細粒度特征和可見光圖像邊緣信息均比其他3種算法更有效.
圖6展示了部分測試集中的可見光圖像(a)與紅外圖像(b).可以看出,(a)相較于(b)包含更豐富的紋理和結(jié)構(gòu)信息,而(b)相較于(a)則包含更突出的目標(biāo)信息.(c)、(d)和(e)分別為NestFuse、SeAFusion和SIAFusion 3種網(wǎng)絡(luò)將(a)和(b)進行融合后的輸出圖像,可以看出本文所提出的SIAFusion算法相較于其他算法可以輸出更清晰的融合圖像,更多地保留了(a)中的紋理信息以及(b)中的目標(biāo)信息和細粒度特征,同時融合了高級視覺任務(wù)所需要的更多特征.
圖6 測試集結(jié)果比較
本文采用Deeplabv3+語義分割模型測試生成的融合圖像分割性能[17].語義分割性能測試訓(xùn)練集和測試集的劃分與本文融合網(wǎng)絡(luò)數(shù)據(jù)集劃分保持一致.首先,使用3種圖像融合網(wǎng)絡(luò)SIAFusion、NestFuse和SeAFusion將NISD 數(shù)據(jù)集中的紅外圖像和可見光圖像進行融合,生成3種融合圖像數(shù)據(jù)集;其次,將NISD 中的紅外圖像數(shù)據(jù)集、可見光圖像數(shù)據(jù)集以及經(jīng)過算法生成的3種融合圖像數(shù)據(jù)集送入語義分割網(wǎng)絡(luò)中訓(xùn)練并測試.
分割性能評價指標(biāo)選取了語義分割目前常用的MIOU、MPA 及PA[18],表3給出了5種圖像經(jīng)過Deeplabv3+分割后得到的3個評價指標(biāo)值.可以看出,采用本文網(wǎng)絡(luò)生成的融合圖像經(jīng)語義分割網(wǎng)絡(luò)分割后測得的所有評價指標(biāo)均為最好.相較于其他2種圖像融合算法,本文提出的算法包含更多的語義信息,可以有效提升圖像細粒度細節(jié)特征方面的融合效果,滿足高級視覺任務(wù)的需求.
針對現(xiàn)有圖像融合算法在提取圖像細粒度細節(jié)特征方面效果不佳以及難以滿足高級視覺任務(wù)需求的問題,本文基于卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)框架提出了一種語義信息感知圖像算法,在該算法中設(shè)計了一種基于梯度的殘差模塊GRB,可有效提取紅外圖像邊緣信息和可見光圖像細粒度細節(jié)特征,滿足高級視覺任務(wù)的需求.