安曉東,李亞麗,王 芳
鄭州航空工業(yè)管理學院 航空宇航學院,鄭州 450046
駕駛員在夜間或傍晚光線昏暗、雨雪、煙霧、遮擋物等可視條件較差時,對車輛周圍環(huán)境信息的識別度較差,容易造成交通事故?,F(xiàn)代智能車輛普遍采用汽車高級駕駛輔助系統(tǒng)(advanced driver assistance system,ADAS)技術[1],借助攝像頭、雷達傳感器和超聲波傳感器等傳感器“群”,通過融合不同類型數(shù)據(jù)的方法,提高對場景的認識深度和表達能力,實現(xiàn)準確識別車輛環(huán)境信息??梢姽鈭D像包含豐富的紋理信息,紅外圖像具有目標的顯著對比度,理論上可見光與紅外圖像融合具有良好的魯棒性和準確性[2];但目前圖像融合效果在準確率、廣泛性和實時性等方面,與L3級智能駕駛和L4級自動駕駛等實際需求還存在一定的差距[3],因此近幾年來,基于ADAS的紅外與可見光圖像融合研究日益受到國內(nèi)外學者關注。
車輛目標跟蹤和環(huán)境識別等領域廣泛采用紅外與可見光圖像融合技術,針對其融合算法,研究者提出了基于傳統(tǒng)像素融合方法[4]、稀疏表示(sparse representation based methods,SR)[5]、卷 積 神 經(jīng) 網(wǎng) 絡(convolutional neural network,CNN)[6]和生成對抗神經(jīng)網(wǎng)絡(generative adversarial network,GAN)[7]等融合算法,實現(xiàn)了像素級、特征級和決策級等不同級別的圖像融合[8]。但上述融合算法各有優(yōu)缺點,因此研究者為增強融合圖像的效果,不斷提出新的融合算法和優(yōu)化網(wǎng)絡結(jié)構(gòu)。
為了更好地拓展紅外與可見光圖像融合技術的應用研究,文中針對近十四年來相關研究進行了綜述。首先分析了車輛ADAS 系統(tǒng)對紅外和可見光融合圖像的需求,然后總結(jié)了基于數(shù)學方法框架的傳統(tǒng)像素融合算法;隨后概述了基于神經(jīng)網(wǎng)絡結(jié)構(gòu)的融合算法;最后基于ADAS發(fā)展需求進行了總結(jié)和展望。
紅外與可見光圖像成像原理不同,可見光圖像屬于反射成像,在白天視野較好的情況下圖像包含豐富的圖像邊緣、紋理和顏色等細節(jié),能夠滿足車輛需求的環(huán)境信息和目標分類,但在光亮度較差時圖像中目標的識別度較差[9]。紅外圖像屬于熱成像,具有對比度顯著、穿透力強、測距遠和夜間成像等特點,但成像為灰度圖像[10]。紅外與可見光融合圖像要在車輛變道、泊位、倒車和彎道拐彎等應用場景下識別行人和障礙物等信息,融合過程需要提取紅外圖像顯著目標特征,以及可見光圖像紋理和色彩等特征,使融合圖像更符合人眼視覺系統(tǒng),如圖1 所示[11]。因此,針對車輛的特殊應用場景,紅外與可見光圖像融合技術應滿足以下要求:(1)高實時性,融合計算過程不能產(chǎn)生過多的參數(shù)變量,減少預警時間;(2)泛化性強,解決車輛復雜應用場景造成的準確度差異問題;(3)無監(jiān)督學習功能,解決人工標注目標特征需要占用大量時間的缺點;(4)融合信息共享,保障車輛報警系統(tǒng)、換道輔助、自動泊位等系統(tǒng)共享融合圖像信息,方便人-車-云互聯(lián)。
圖1 車輛應用場景的紅外與可見光融合圖像Fig.1 Infrared and visible fusion images based on vehicle application scene
本文匯總和分析了2009—2022 年期間發(fā)表的紅外與可見光圖像融合算法文獻,主要的10種融合算法被研究和討論,包括曲波變換、輪廓波變換、小波變換、PCNN、主成分分析、剪切波變換、基于稀疏表示、顯著性表示、卷積神經(jīng)網(wǎng)絡、生成對抗網(wǎng)絡等。其中,2016年前主要采用數(shù)學方法進行圖像變換的傳統(tǒng)融合算法,包括曲波變換、輪廓波變換、小波變換、主成分分析和剪切波變換等算法;2016—2019 年期間,出現(xiàn)了基于稀疏表示、顯著性表示和卷積神經(jīng)網(wǎng)絡等算法;2020年之后出現(xiàn)了生成對抗網(wǎng)絡算法。近5 年最為關注的主要融合算法為生成對抗網(wǎng)絡、卷積神經(jīng)網(wǎng)絡、輪廓波變換、剪切波變換、基于卷積稀疏表示、顯著性、PCNN 等7 種主要算法,其中,輪廓波變換、剪切波變換、顯著性表示等屬于數(shù)學方法框架下的傳統(tǒng)意義融合算法,卷積稀疏表示、卷積神經(jīng)網(wǎng)絡、生成對抗網(wǎng)絡、PCNN等屬于基于神經(jīng)網(wǎng)絡框架下的融合算法。下面分別進行闡述。
傳統(tǒng)意義的紅外與可見光圖像融合算法基本上屬于像素級融合,是對經(jīng)過圖像配準后的圖像直接進行數(shù)學方法操作的處理方法。根據(jù)處理方法不同可分為非多尺度和多尺度變換,或空間域和變換域融合方式[12]。傳統(tǒng)意義上的圖像融合算法較多,對同一應用場景各種融合算法在細節(jié)表征、顯著性、對比度和邊緣信息清晰度等方面存在差異,如圖2所示[13]。
圖2 基于傳統(tǒng)圖像融合算法的圖像效果對比Fig.2 Image effect comparison based on traditional image fusion algorithms
非多尺度變換方法是直接對像素進行處理的方法,紅外與可見光圖像的非多尺度融合算法如表1 所示[14-26]。其中,平均方法通過對像素進行平均運算,能夠改善融合圖像的信噪比,但削弱了對比度;為了改善對比度減小的問題,通常在局部子空間或方向上進行能量加權[14]或梯度加權[15],但效果并不理想。主成分分析方法(principal component analysis,PCA)的優(yōu)點是通過矩陣變換實現(xiàn)低維空間代替高維空間,解決關注維度空間的融合,缺點是由于高頻率圖像替代低頻率圖像,融合圖像容易出現(xiàn)光譜畸變,當前主要算法有PPCA[16]和改進PCA[17]等,廣泛應用于圖像壓縮和融合等領域?;谡{(diào)制方法主要通過灰度直方圖增加圖像對比度和灰度,缺點是由于歸一化處理,容易造成細節(jié)丟失和增強過渡,該算法通常與NSCT、NSST 等算法結(jié)合,增強邊緣和對比度[18]。低秩表示通過對源圖像分解,獲得低秩成分和稀疏成分,該算法能夠突出圖像的全局結(jié)構(gòu)信息,但融合圖像局部保持和細節(jié)提取能力較差,常用的低秩方法有LRR[19]和LatLRR[20]等算法。非負矩陣分解方法是把圖像矩陣分解為兩個非負矩陣乘積的算法,實現(xiàn)亮度分量提取,其中NMF[21]算法被廣泛應用。最優(yōu)化方法是把融合任務看作為優(yōu)化問題,具有貝葉斯方法[22]、馬爾可夫隨機場方法[23]等算法,具有保存較多細節(jié)信息的優(yōu)點,主要應用于人類識別和分類等。引導濾波方法是通過局部線性函數(shù)表示的方法,具有保持邊緣的優(yōu)點,缺點是融合圖像容易產(chǎn)生光暈現(xiàn)象,細節(jié)紋理信息表達不足,主要應用于圖像增強和摳圖,典型算法有GFF[24]和BF[25]等。
表1 非多尺度變換融合算法(空間域)Table 1 Fusion algorithm based on non-multi-scale transform(spatial domain)
顯著性表示具有突出區(qū)域活躍度和顯著性的優(yōu)勢,日益受到關注。根據(jù)人類視覺注意力機制,圖像不同區(qū)域在整幅圖像中的重要性不同,顯著性表示能夠考慮源圖像的局部活躍度和全局視覺顯著性,使融合圖像保留更多的感興趣信息,但顯著性表示在面對復雜背景且含有不同尺度目標的源圖像時,存在特征描述不足等問題,融合結(jié)果不能體現(xiàn)完整顯著區(qū)域;另外,在融合過程中耗時較長,很難兼顧融合質(zhì)量和效率。顯著性檢測有權重計算和顯著目標提取兩種應用方式,基本的算法步驟為,首先通過顯著性檢測模型對顯著區(qū)域檢測和提取,主要采用Context-aware[26]等方法;隨后進行圖像融合。在紅外與可見光圖像的融合過程中,顯著性表示方法主要是針對圖像感興趣區(qū)域特征的處理方法。顯著性表示通常結(jié)合多尺度變換、卷積神經(jīng)網(wǎng)絡等構(gòu)成混合網(wǎng)絡結(jié)構(gòu),達到顯著區(qū)域檢測的目的。文獻[27]利用引導濾波改進頻率調(diào)諧的顯著性檢測算法,獲取的融合圖像能夠突出紅外目標,保留較多的可見光背景信息,但融合圖像對比度變化不大且目標存在偽影現(xiàn)象。文獻[28]利用梯度L0范數(shù)改進顯著性檢測算法,獲取的融合圖像中可見光細節(jié)信息豐富,紅外目標區(qū)域突出,但該方法容易造成紅外目標偏暗,丟失部分可見光背景信息。文獻[29]利用最大對稱環(huán)繞顯著性檢測算法,獲取的融合圖像紅外目標突出,沒有區(qū)域污染的現(xiàn)象,但對比度與清晰度不高。文獻[30]提出顯著性檢測的雙尺度融合算法TSIFVS,該方法融合圖像信息豐富,但存在偽影現(xiàn)象。顯著性表示與NSCT結(jié)合的網(wǎng)絡結(jié)構(gòu),使融合圖像更大程度地保留源圖像的光譜信息,并能突出源圖像中的目標區(qū)域,但該方法融合效率低[31]。顯著性表示和NSST結(jié)合的網(wǎng)絡結(jié)構(gòu),能夠改善融合圖像的突出目標和對比度,但該方法在高頻系數(shù)活躍度的表現(xiàn)差[32]。文獻[33]利用GAN和顯著性表示的網(wǎng)絡結(jié)構(gòu),融合圖像包含更多的源圖像顯著區(qū)域特征。
上述顯著性表示的網(wǎng)絡結(jié)構(gòu)屬于傳統(tǒng)的基于多尺度變換的紅外與可見光圖像融合,提取特征單一,融合規(guī)則需要手動設計,難以應對多場景的應用需要。
以上非尺度變換算法中最優(yōu)化方法可以豐富細節(jié),加權方法能夠改善信噪比,極值方法可以提高對比度,PCA 算法能夠降維運算,引導濾波可以提高邊緣保持;但單一的非多尺度變換算法都不能全面反映融合圖像多方面的要求,多數(shù)情況下與其他算法聯(lián)合構(gòu)造網(wǎng)絡結(jié)構(gòu),達到突出某個尺度空間域的優(yōu)點。
對比非多尺度變換方法,多尺度變換方法是一種廣泛采用的像素級圖像融合算法,其基本融合步驟為:首先將源圖像進行多尺度變換分解,得到子圖像或者一系列系數(shù);然后針對要求以及圖像特征制定融合規(guī)則,融合分解后的子圖像或系數(shù);最后通過逆變換融合圖像。多尺度融合算法具有多尺度方向上特征細節(jié)提取的優(yōu)點,常用的多尺度算法如表2所示[34-52]。
表2 多尺度變換融合算法(變換域)Table 2 Fusion algorithm based on multi-scale transform(transform domain)
金字塔變換是通過金字塔變換把圖像分解成不同尺度且呈金字塔狀的子帶圖像系列,具有拉普拉斯金字塔[34]、比率低通金字塔[35]、對比度金字塔[36]、形態(tài)學金字塔[37]等算法。相對其他空間域圖像融合方法,金字塔變換為最先發(fā)展起來的多尺度變換方法,在圖像細節(jié)保留方面有較大的提升,但是金字塔變換屬于冗余變換,各層數(shù)據(jù)直接相關性大,易產(chǎn)生塊效應;同時在逆變換過程中容易出現(xiàn)高頻細節(jié)信息丟失嚴重和圖像信噪比低的問題。
小波變換方法是基于塔式算法,首先對圖像進行小波金字塔分解,對各分解除層從高到低進行融合處理,最終獲得融合后的小波金字塔。小波變換有離散小波變換[38]、雙樹離散小波變換[39]、提升小波變換[40]、四元數(shù)小波變換[41]、譜圖小波變換[42]等不同算法。與金字塔變換相比,小波變換不會產(chǎn)生塊效應,信噪比高,并降低了圖像分解過程中的信息冗余,但該算法不能有效表示圖像中具有方向性的邊緣和紋理等特征。
針對小波變換只能反映信號點奇異性的不足,脊波變換通過Randon 變換把圖像中線特征轉(zhuǎn)換為點特征,然后通過一維小波進行奇異性檢測,克服了小波變換僅能反映“過”邊緣的特征,而無法表達邊沿特征;另外脊波變換具有很強的方向性奇異性特征,但脊波變換在重構(gòu)圖像中存在輕微劃痕和計算過程復雜等問題,其中RT[43]等算法廣泛應用于圖像噪聲抑制。
基于偏微分分解的FPDE[44]、基于支持度的SVT[45]、基于曲波變換的CVT[46]等算法目前應用不多,故不再對其進行介紹。以下針對應用廣泛的輪廓波變換、剪切波變換、稀疏表示等3 種算法進行分析,其中稀疏表示算法與卷積稀疏表示算法在3.2.2小節(jié)進行介紹。
2.2.1 非下采樣輪廓波變換
為獲取圖像方向信息,消除吉布斯現(xiàn)象,解決平移不變性等問題,文獻[53]提出了非下采用輪廓波(nonsubsampled contourlet transform,NSCT)算法,網(wǎng)絡結(jié)構(gòu)包括非下采樣金字塔分解(NSPFB)和非下采樣方向濾波器(NSDFB)兩部分。NSCT變換是對Contourlet變換的改進,不僅具有多分辨率及各向異性,還具有平移不變性[54],能有效地提取圖像紋理特征及邊緣信息,且融合過程中不會產(chǎn)生抖動現(xiàn)象。NSCT 主要變換方法如圖3所示,首先采用非下采樣金字塔分解對圖像進行塔式分解,將圖像分解為一個低頻子帶和多個環(huán)形高頻帶通子帶;然后,利用非下采樣方向濾波器將上一步分解得到的高頻子帶進行多方向分解,進一步重復這一過程,直至分解結(jié)束。非下采樣方向濾波器在每次分解前都對相應的濾波器進行上采樣,再對分解子帶進行分析濾波,確保所有分解后的低頻和高頻子帶與輸入圖像尺寸大小相同。
圖3 NSCT變換方法Fig.3 NSCT transformation methods
NSCT通常與PCA、PCNN、局部能量等算法構(gòu)建混合網(wǎng)絡結(jié)構(gòu),文獻[55]利用主成分分析算法,并結(jié)合NSCT,使融合圖像取得較好的融合效果;文獻[56]提出NSCT與PCA和PCNN相結(jié)合的網(wǎng)絡結(jié)構(gòu),該算法具有突出細節(jié)表征能力的優(yōu)點,但運算效率不高;文獻[57]采用局部能量和NSCT的混合網(wǎng)絡,能夠有效保留圖像細節(jié)信息和增加信息量,但該算法相比DWT、Contourlet等算法,該混合網(wǎng)絡結(jié)構(gòu)表現(xiàn)并不突出。
NSCT 相比小波變換和金字塔變換等算法,其變換過程不存在上采用和下采用過程,因此消除了輪廓變換過程中出現(xiàn)的頻譜混疊現(xiàn)象,但是NSCT 分解過程復雜,計算效率較低,難以應用于實時性要求高的場景。
2.2.2 非下采樣剪切波變換
為滿足高實時性要求,非下采用剪切波變換(nonsubsampled shearlet transform,NSST)被提出,NSST 變換由非下采樣金字塔濾波器組和剪切濾波器組成[58],主要變換方法如圖4所示,首先利用非下采樣金字塔濾波器組對圖像進行k層多尺度分解,形成1個低頻子帶和k個高頻子帶,實現(xiàn)平移不變性;然后利用剪切濾波器對高頻子帶進行多方向分解,形成高頻方向子帶系列,從而有效地捕獲方向信息,保持各向異性。
圖4 NSST變換方法Fig.4 NSST transformation methods
NSST避免下采樣的操作,表現(xiàn)出平移不變性,同時相比于NSCT還具有運算簡單、時間復雜度低以及良好的稀疏表示性能等特性,優(yōu)越的信息捕獲和表示能力使NSST成為一種流行的紅外與可見光圖像融合方法。文獻[59]在NSST 基礎上,引入?yún)^(qū)域平均能量和局部對比度的融合規(guī)則,將空間域分析和多尺度分析的優(yōu)點最大程度地融合在一起,降低了圖像的冗余信息。文獻[60]基于自適應NSST-PCNN網(wǎng)絡結(jié)構(gòu)進行紅外與可見光圖像融合,該算法提高了對比度和保留細節(jié)信息,但與NSST 相比增加了運行效率。文獻[61]采用NSST 與PCNN的雙通道融合算法,達到了增強融合圖像信息和效果的目的。文獻[62]采用NSST與引導濾波結(jié)合的方法,保留了更多的邊緣信息,但源圖像每一層的特征頻帶需要分別進行融合處理,運行時間較長。
相比NSCT變換方法NSST有利于源圖像細節(jié)和紋理特征的提取,具有高稀疏性和準確表征融合信息的特征;但是NSST分解時由于引入了非下采用金字塔變換的方法,容易造成高頻子帶圖像細節(jié)的丟失,降低融合圖像的亮度。
上述以多尺度為基本網(wǎng)絡構(gòu)架的融合算法,依賴于預先定義的變換方式對源圖像進行分解,當在光線昏暗時圖像的對比度、紋理等特征較差,并包含噪聲,預先定義的變換并不能自適應地調(diào)整源圖像在融合規(guī)則中比重,導致融合過程不能同時保留輪廓信息和輪廓內(nèi)的紋理細節(jié)信息,出現(xiàn)細節(jié)丟失或者輪廓模糊的問題。
隨著神經(jīng)科學和認知科學的發(fā)展,早期的神經(jīng)科學家構(gòu)造了一種模仿人腦神經(jīng)系統(tǒng)的人工神經(jīng)網(wǎng)絡,但是在解決圖像和語音識別等優(yōu)化過程中,容易出現(xiàn)局部最優(yōu)問題,造成梯度消失現(xiàn)象;為了解決以上問題,出現(xiàn)了一種深層前饋神經(jīng)網(wǎng)絡,即卷積神經(jīng)網(wǎng)絡。上述兩種神經(jīng)網(wǎng)絡結(jié)構(gòu)在紅外與可見光圖像融合實際應用中日益受到關注,因此針對其算法特征歸納如下。
人工神經(jīng)網(wǎng)絡方法是通過非線性變換的映射模型,把多個并行圖像數(shù)據(jù)變換為一個數(shù)據(jù)表示,具有并行性好的特征,有雙模態(tài)神經(jīng)網(wǎng)絡方法[63]、脈沖耦合神經(jīng)網(wǎng)絡(pulse coupled neural network,PCNN)[64]、多層感知器[65]等類型。PCNN 相比于其他空間域算法,能夠解決細節(jié)層細節(jié)丟失的問題,提高細節(jié)表達能力,因此實際選用PCNN算法的較多。
PCNN 屬于決策級融合,融合方法如圖5 所示,首先,將源圖像多尺度分解為低頻和高頻子帶;然后,設計融合規(guī)則融合低頻和高頻子帶;最后,采用逆變換方法生成最終的融合圖像。
圖5 基于PCNN的圖像融合方法Fig.5 Image fusion method based on PCNN
PCNN 主要應用于圖像的高頻子帶或者同時作用于高低子帶進行融合。在紅外與可見光圖像融合網(wǎng)絡結(jié)構(gòu)中PCNN 通常與曲波變換、NSCT 和NSST 等算法構(gòu)建混合融合網(wǎng)絡結(jié)構(gòu),提高細節(jié)表達能力。文獻[66]提出曲波變換與PCNN的融合方法,相比傳統(tǒng)方法該融合算法具有更好的視覺效果,在熵、平均梯度、標準差等指標優(yōu)于其他方法。文獻[67]構(gòu)建PCNN和NSCT網(wǎng)絡結(jié)構(gòu),融合圖像在邊緣和紋理細節(jié)等方面優(yōu)勢明顯,但PCNN 的參數(shù)設定對紅外與可見光圖像的融合效果影響較大;文獻[68]提出NSST和IPCNN融合網(wǎng)絡,融合圖像提高了細節(jié)稀疏表示的性能和對比度,但清晰度不高。
PCNN算法與其他神經(jīng)網(wǎng)絡算法相比,無需訓練與學習過程,可有效提取圖像信息,PCNN 算法中神經(jīng)元與圖像像素一一對應,解決了傳統(tǒng)方法中圖像細節(jié)丟失的問題;但PCNN 網(wǎng)絡結(jié)構(gòu)復雜,參數(shù)設置復雜;另外,其與多尺度變換組合的方法,只是實現(xiàn)了網(wǎng)絡結(jié)構(gòu)的局部自適應。
深度學習(deep learning,DL)是一種基于人工神經(jīng)網(wǎng)絡結(jié)構(gòu),通過神經(jīng)元逐級傳遞,上層神經(jīng)元的輸出作為下層神經(jīng)元的輸入,經(jīng)過多層神經(jīng)元后直到輸出層。DL 神經(jīng)網(wǎng)絡強大的非線性擬合能力,能夠自動從數(shù)據(jù)中提取特征和估計期望分布,自2017 年后被廣泛應用于計算機視覺、跟蹤識別和圖像融合等領域。針對深度學習算法框架在紅外與可見光圖像融合技術的應用研究,主要體現(xiàn)在基于CNN、CSR 和GAN 等網(wǎng)絡框架方面。
3.2.1 基于卷積神經(jīng)網(wǎng)絡的融合算法
CNN融合算法是一種典型深度學習特征級融合方法,網(wǎng)絡結(jié)構(gòu)包括輸入層、卷積層、激活池化層、全連接層和輸出層等;卷積核映射出一個新的特征平面并提取特征,不同卷積層可以選擇對應的卷積核;池化層用于降低特征平面的分辨率及抽象;激活函數(shù)的非線性使得神經(jīng)網(wǎng)絡幾乎可以任意逼近非線性函數(shù),用以解決梯度消失的問題。紅外與可見光融合網(wǎng)絡結(jié)構(gòu)一般分為兩部分,一是分別由紅外與可見光圖像的卷積層和池化層交替連接構(gòu)成骨干網(wǎng)絡,用以從輸入中提取不同類型圖像豐富的特征;二是全連接層,連接紅外與可見光特征圖平,聚合全局信息并將其映射到輸出空間,如圖6所示[69]。
圖6 CNN融合網(wǎng)絡Fig.6 Fusion network based on CNN
紅外與可見光圖像的CNN 融合算法主要分為兩類,分別是圖像特征的深度提取和融合網(wǎng)絡構(gòu)建。在深度 提 取 方 面,19Layer 的VGG 網(wǎng) 絡 結(jié) 構(gòu)[70],18Layer、34Layer、50Layer、101Layer 和152Layer 的 參 差 網(wǎng) 絡(residual network,ResNet)結(jié)構(gòu)[71]等被提出,其中ResNet-152 和VGG-19 被 廣 泛 應 用,ResNet-152 網(wǎng) 絡 深 度 是VGG-19 的8 倍,網(wǎng)絡深度的增加提高了圖像的深度特征能力,但較多的卷積層參數(shù)映射造成了參數(shù)量增多、計算量增大和計算硬件要求高等問題。文獻[72]采用4層卷積層的編碼器和3層卷積層解碼器的DenseFuse網(wǎng)絡,解決了紅外與可見光圖像融合過程梯度消失和參數(shù)數(shù)量過多的問題,但存在輸出特征中有大量冗余信息的問題。2020年,文獻[73]采用DenseNet作為子網(wǎng)絡進行特征提取和重構(gòu),并把該算法應用于無監(jiān)督網(wǎng)絡學習。
為了突出紅外與可見光圖像融合過程中局部區(qū)域的特征,結(jié)合CNN和其他算法的網(wǎng)絡結(jié)構(gòu)被構(gòu)建,2019年,文獻[74]對源圖像進行多尺度分解,在細節(jié)層進行CNN 提取細節(jié)特征,但是沒有充分利用中間卷積操作獲得的特征;2020 年,文獻[75]采用視覺顯著性權重圖(VSWM)與CNN相結(jié)合的改進網(wǎng)絡框架。上述構(gòu)建網(wǎng)絡結(jié)構(gòu)的一般方法是,首先針對細節(jié)特征提取,通過CNN 網(wǎng)絡設計卷積層數(shù)、卷積核大小、池化層、輸入和輸出通道數(shù)等,例如,2019 年,文獻[76]構(gòu)建IVFuseNet網(wǎng)絡結(jié)構(gòu),包括4 層不同的卷積層,卷積核大小分別為11×11,5×5,3×3,3×3,2層2×2的池化層,實現(xiàn)深度網(wǎng)絡預測;然后,結(jié)合其他算法設定融合規(guī)則,例如,2020年,文獻[77]結(jié)合加權算法進行特征的融合層設計,該算法主要應用于監(jiān)督神經(jīng)網(wǎng)絡結(jié)構(gòu);2021 年,文獻[78]把變分模型轉(zhuǎn)化為損失函數(shù),用輸出圖像和原圖像表示正則化項,最后利用深度卷積神經(jīng)網(wǎng)絡算法融合圖像,該算法主要應用于多聚焦圖像融合。通過上述網(wǎng)絡結(jié)構(gòu)加深或者融合其他算法進行設計,減少了融合圖像噪聲,突出了紅外圖像對比度和可見光圖像包含相對豐富的細節(jié)信息,使細節(jié)特征更加自然。
相對于傳統(tǒng)的紅外與可見光圖像細節(jié)層融合規(guī)則,卷積神經(jīng)網(wǎng)絡有著強大的特征提取能力,可以在融合過程中有效的提取圖像的深層細節(jié)信息以及平滑噪聲,實現(xiàn)模型的自適應融合,具有較強的容錯性和魯棒性。但是存在以下問題:(1)卷積神經(jīng)網(wǎng)絡需要一個大的數(shù)據(jù)集來訓練神經(jīng)網(wǎng)絡,在紅外與可見光圖像融合領域中一般不存在標準參考圖像;(2)多數(shù)傳統(tǒng)方法的特征特取和融合規(guī)則需要手工設計。
卷積神經(jīng)網(wǎng)絡是當前經(jīng)常采用的深度學習圖像融合方法,基于CNN的融合算法能夠?qū)崿F(xiàn)端到端、無監(jiān)督學習、提高細節(jié)表征、圖像深度提取等功能優(yōu)勢,因此未來與不同種算法結(jié)合的混合卷積神經(jīng)網(wǎng)絡結(jié)構(gòu)將成為研究人員普遍采用的方法。
3.2.2 基于卷積稀疏表示的融合算法
稀疏表示理論通常結(jié)合PCNN[79]、小波變換[80]、NSCT[81]等多尺度變換算法構(gòu)造融合網(wǎng)絡結(jié)構(gòu),在紅外與可見光圖像融合領域得到了廣泛的應用,能夠有效表示原始圖像的顯著特征,然而基于稀疏表示理論的圖像融合方法所采用的局部建模方式易于導致語義信息損失和對誤匹配的低容忍度兩大缺陷。CSR 的基本原理是通過一組預先訓練的卷積字典濾波器將源圖像分解為一系列的卷積稀疏相應圖,每張卷積稀疏相應圖都包含了目標不同層級的信息,融合圖像視為卷積和,如公式(1)所示:
文獻[82]首次把CSR應用于紅外與可見光圖像,證明了CSR 對克服上述不足具有巨大的優(yōu)勢;隨后文獻[83]增加卷積稀疏層數(shù)實現(xiàn)更有效的圖像融合,但是降低了計算效率。CSR 結(jié)合其他算法對紅外與可見光圖像進行融合,應用于多聚焦圖像融合、跟蹤和識別等領域,體現(xiàn)了在突出表征圖像特征方面的巨大優(yōu)勢。文獻[84]采用NSCT 和CSR 的網(wǎng)絡結(jié)構(gòu),增強了融合圖像的對比度。文獻[85]結(jié)合CSR引導濾波器、高斯濾波器和非下采樣方向濾波器等,提高了融合圖像的多特征提取能力。文獻[86]采用DTCWT和CSR的網(wǎng)絡結(jié)構(gòu)。上述融合方法利用多尺度變換將圖像多層分解,但隨著分解層數(shù)的增加,噪聲和配準對融合效果的影響增大,CSR 雖然能改善多尺度變換中特征信息不足和配準要求高的問題,但其仍然存在以下問題:(1)過完備字典的信號表示能力有限,容易造成圖像紋理細節(jié)信息丟失;(2)滑窗技術分割出的重疊小塊,降低了運行效率。
CSR 與SR 的局部變換方式不同,CSR 有效抑制了SR 應用于圖像融合所導致的兩大缺陷;CSR 相比CNN等融合方法在計算復雜度方面具有明顯的優(yōu)勢。CSR具備全局建模能力,在無匹配條件下具有明顯的優(yōu)勢,是一種基于非監(jiān)督學習的融合網(wǎng)絡,無需大量帶有標簽的訓練樣本,CSR的卷積稀疏字典訓練和卷積稀疏響應圖的求解方法對融合效果的影響較大,而CSR則是利用滑窗技術將圖像分割成多個重疊小塊并將其向量化,通過學習超完備字典來進行圖像融合,有利于圖像更好的提取和表達。
3.2.3 基于生成對抗網(wǎng)絡的融合算法
GAN網(wǎng)絡在2014年首次被提出后在深度學習領域被廣泛關注,其網(wǎng)絡結(jié)構(gòu)主要利用生成損失函數(shù)控制生成器保留源圖像的特征信息,再利用生成器與判別器之間的對抗損失,使融合圖像獲取源圖像更多的細節(jié)信息,提高融合質(zhì)量[87]。GAN網(wǎng)絡結(jié)構(gòu)的基本算法框架如圖7 所示,網(wǎng)絡包括生成器和判別器兩部分,其中生成器將輸入數(shù)據(jù)生成新的樣本,判別器用來判別樣本是來自于真實數(shù)據(jù)或者生成器生成的,通過不斷迭代直到判別器無法區(qū)分生成的樣本數(shù)據(jù)和真實數(shù)據(jù),判別器的目標是迫使融合圖像具有可見光圖像中存在的更多細節(jié),由于GAN可以在不受監(jiān)督的情況下更好地估計目標的概率分布,具有擬合多個分布的特征。
圖7 生成對抗網(wǎng)絡基本結(jié)構(gòu)Fig.7 Basic structure of generative adversarial network
GAN網(wǎng)絡在紅外與可見光圖像融合的應用主要集中于生成器和鑒別器組成網(wǎng)絡的復雜程度,以及對生成器或者鑒別器的局部網(wǎng)絡結(jié)構(gòu)設計。在GAN網(wǎng)絡的復雜程度方面,2019 年,文獻[7]首次將GAN 網(wǎng)絡應用于紅外與可見光圖像融合,提出FusionGAN 網(wǎng)絡結(jié)構(gòu),但由于FusionGAN采用單一的對抗機制,導致融合結(jié)果不平衡偏向于紅外圖像,以及可見光圖像紋理邊緣信息丟失嚴重的問題。同年又提出具有增強融合細節(jié)保留的GAN 網(wǎng)絡[88],相對于FusionGAN 網(wǎng)絡結(jié)構(gòu)在一定程度上改善了融合圖像的紋理邊緣信息丟失問題;但忽視了紅外圖像中的細節(jié)和亮度信息,這樣使融合圖像丟失了大量的紅外圖像的信息。為了保持紅外圖像信息,2020年,文獻[89]提出雙鑒別器的DDcGAN網(wǎng)絡;2021年,文獻[90]提出具有兩個生成器與一個鑒別器的雙層生成對抗網(wǎng)絡;2021 年,提出雙融合路徑生成對抗網(wǎng)絡DFPGAN[91]網(wǎng)絡;2021年提出多分類器約束的GANMcC網(wǎng)絡[92]、ResNetGAN[93]網(wǎng)絡。上述GAN 網(wǎng)絡復雜度的增加,能夠部分緩解融合不平衡問題,但融合圖像中在對抗網(wǎng)絡訓練過程中產(chǎn)生梯度消失的現(xiàn)象,造成目標邊緣模糊,紋理邊緣信息依然缺失,缺乏突出源圖像中典型區(qū)域的能力。
為了解決上述AGN 融合網(wǎng)絡結(jié)構(gòu)中存在的問題,GAN 網(wǎng)絡引入局部二進制模式LBP、二維窗口經(jīng)驗模式分解WEMD、二維經(jīng)驗模態(tài)分解BEMD、注意力集中Attention、語義分割等算法。2020年,文獻[94]提出基于注意力生成對抗網(wǎng)絡AttentionFGAN;2020年,文獻[95]提出LBP-BEGAN 網(wǎng)絡,采用LBP 的損失函數(shù)成功地保留了源圖像中的大量信息。2021 年,文獻[96]提出MFF-GAN 網(wǎng)絡結(jié)構(gòu),實現(xiàn)了高細節(jié)保存的多焦圖像融合;2022年,文獻[97]提出TGFuse網(wǎng)絡結(jié)構(gòu)實現(xiàn)端到端融合。
基于GAN的融合算法以CNN網(wǎng)絡結(jié)構(gòu)為框架,通過強特征提取能力,極大地提高了融合質(zhì)量,并利用源圖像與生成圖像的對抗,實現(xiàn)源圖像對學習參數(shù)的監(jiān)督;但是因卷積核大小以及網(wǎng)絡深度的限制,卷積核所提取的特征依賴圖像某一位置相關性最強的局部區(qū)域,忽略了特征圖通道之間的相關性。
針對紅外與可見光圖像融合算法,前文總結(jié)了基于數(shù)學方法框架的傳統(tǒng)像素融合算法和基于神經(jīng)網(wǎng)絡框架融合算法的網(wǎng)絡結(jié)構(gòu)特征和發(fā)展趨勢,結(jié)合當前車輛ADAS系統(tǒng)對紅外與可見光融合圖像技術的需求,獲得以下結(jié)論:
(1)顯著性分析具有突出源圖像感興趣目標區(qū)域信息的特征;GAN 具有提高融合細節(jié)圖像質(zhì)量的優(yōu)勢;NSST計算效率實時性好,但圖像亮度低等特征。因此,融合顯著性表示、GAN 和NSST 等算法的網(wǎng)絡結(jié)構(gòu),能夠滿足車輛對紅外與可見光融合圖像的高實時性和行人目標清晰識別的需求。
(2)CNN具有深層圖像特征的能力,CNN與NSCT、NSST、輪廓波變換等多尺度算法融合可以增加對車輛環(huán)境信息的理解深度;在考慮網(wǎng)絡結(jié)構(gòu)復雜度時,CSR與多尺度算法混合有助于提高卷積神經(jīng)網(wǎng)絡的運算時間。
(3)考慮到融合圖像信息在車輛通信網(wǎng)絡上的信息共享,融合圖像容量不能太大,基于壓縮感知和稀疏表達與深度學習等混合融合算法應用于車輛場景的研究將是關注熱點之一。
隨著車輛無人駕駛技術和智能網(wǎng)聯(lián)車輛的發(fā)展,紅外與可見光圖像融合技術在車輛識別可視條件較差環(huán)境方面的作用日益重要,并結(jié)合當前圖像融合的發(fā)展現(xiàn)狀和問題,未來關于紅外與可見光圖像融合的研究以期延伸到以下幾個方面:
(1)由于車輛應用場景的復雜性,缺乏統(tǒng)一的數(shù)據(jù)集和樣本標簽,以及不能在此基礎上進行不同算法的優(yōu)劣對比,因此未來發(fā)展車輛應用環(huán)境的紅外與可見光數(shù)據(jù)集和評價指標將是非常有必要的。
(2)發(fā)展泛化性好的卷積神經(jīng)網(wǎng)絡結(jié)構(gòu)算法,其中端到端卷積神經(jīng)網(wǎng)絡模型具有較好的應用前景。
(3)為了提高人眼的視覺效果,發(fā)展彩色轉(zhuǎn)換模型用于彩色可見光與紅外圖像融合算法中,滿足車輛在不同應用場景時的視覺融合效果。