周祎楠,楊曉敏
(四川大學電子信息學院,成都610065)
圖像融合是利用多個傳感器的信息,對采集到的圖像進行融合,得到最終融合結(jié)果的后處理過程。紅外圖像的融合通常是在可見光和可見光兩個領(lǐng)域進行的。紅外圖像是由紅外傳感器捕獲的圖像。它們的特點是全天候條件下的熱信息強度不同。與紅外相比,可見光圖像(VIS)是由光學相機拍攝的圖像,對光照條件的依賴性很強。它們攜帶著不同傳感器捕捉到的不同信息,因此融合它們試圖在融合結(jié)果中保持盡可能多的信息特征。
近幾十年來,紅外與可見光圖像融合已經(jīng)從傳統(tǒng)的方法發(fā)展到基于學習的方法。最常用的方法可歸納為以下步驟。首先,他們使用特定的濾波器/變換來分解源圖像。其次,采用相應的融合規(guī)則對不同層次的特征進行融合。最后對圖像進行重建,得到融合結(jié)果。交叉雙邊濾波器(CBF)[1]和加權(quán)最小二乘(WLS)[2]濾波器是圖像融合中處理邊緣和細節(jié)的主要方法。他們應用一定的濾波器來分解源圖像。然后,分別使用平均融合規(guī)則和最大絕對融合規(guī)則從不同的尺度生成融合結(jié)果。然而,紅外與可見光圖像融合的一個關(guān)鍵問題是融合規(guī)則的設(shè)計。也就是說,如何處理不同來源圖像的信息,對融合結(jié)果有著重要的影響。例如,平均規(guī)則認為IR和VIS的信息同樣重要。它廣泛應用于背景信息的融合。最大絕對規(guī)則選擇最重要的信息作為融合結(jié)果。它通常用于融合細節(jié)和紋理。一般來說,這些規(guī)則對無法處理對象的像素強度敏感。在探測任務中,目標是非常重要的,它在紅外圖像中非常突出。在我們看來,對于物體突出的區(qū)域,紅外圖像比可見光圖像信息量大得多。綜上所述,這種純常規(guī)方法的缺陷是雙重的。首先,濾波器/變換和融合規(guī)則必須預先設(shè)計,并且高度依賴設(shè)計者的先驗知識。其次,這些方法不能單獨處理紅外圖像中的顯著區(qū)域(如圖1所示)。因此,必須有一種方法來提取紅外圖像的顯著區(qū)域,并將這些關(guān)鍵信息保存起來。目前,單純的傳統(tǒng)濾波方法已經(jīng)達到了極限,人們對自適應融合方法的要求也越來越高。
可見光(VIS)和紅外(IR)圖像融合為決策提供了方便。對于偵查任務,以士兵為目標,例如,即使在夜間黑暗或惡劣的天氣條件下,由于他們在紅外中攜帶熱量,士兵也完全突出。與之相比,可見光圖像(VIS)對光照條件的依賴性很強,由于夜間VIS的光照條件較差,士兵被隱藏在黑暗中。然而,視覺系統(tǒng)反映了許多細節(jié)和紋理,這也有助于許多偵探任務。在這種情況下,我們提出在融合過程中提取紅外圖像中的顯著目標并對其進行有目的的保存,將在很大程度上有利于融合的結(jié)果。這是因為在這些顯著區(qū)域中,紅外圖像比可見光圖像更具信息性和關(guān)鍵性,我們的方法可以分別處理這些區(qū)域(如圖1所示)。因此,有必要利用這些不同類型的源圖像,生成信息豐富的融合圖像,以便于決策。
圖1 紅外圖像的顯著性區(qū)域
綜合上述因素,本文提出了一種新的生成對抗網(wǎng)絡,在融合過程中保留紅外圖像中重要的顯著區(qū)域,并得到更好的融合結(jié)果。
在本節(jié)中,我們將詳細介紹我們的融合方法。整個融合過程如圖2所示。
圖2 融合過程
我們的GAN融合方法由三個主要部分組成:VSM過程、發(fā)生器和鑒別器。在GAN中,紅外和可見光圖像融合可以看作是一個對抗性的問題。VSM過程輸出顯著信息圖像,使得GAN能夠分別處理顯著區(qū)域。生成器根據(jù)源圖像輸出預融合圖像并滿足基于給定準則的鑒別器,鑒別器嘗試區(qū)分給定圖像是預融合圖像還是可見圖像。此外,生成器收集源圖像的全部信息,鑒別器通過對抗過程輔助融合更多細節(jié)。在我們看來,發(fā)生器和鑒別器的過程都在做圖像融合的工作。
基于直方圖對比度的視覺顯著性圖算法VSM首先由Cheng等人[3]提出。它計算了可見光圖像的整體對比度差和空間相干性,得到了較好的顯著性結(jié)果??梢姽鈭D像的顯著性結(jié)果和紅外圖像的顯著性結(jié)果在物理上有很大的共同點,這是基于以下事實:兩種源圖像的顯著性區(qū)域在某一通道上具有高強度(對于RGB,它們有三個通道),它們與背景的對比度很高,通常描繪一個明顯的物體。然而,在可見光和紅外光譜之間是有區(qū)別的。在處理可見光圖像的原始VSM中,采用平滑和平均運算來細化顯著性結(jié)果。但在我們看來,這些操作并不適合于處理紅外圖像中的顯著區(qū)域,因為這些操作會對邊緣造成很大的破壞,并且會削弱圖像的強度。我們進一步去除這些操作,使不確定像素只對其原始強度敏感。因此,利用該方法計算紅外圖像的顯著區(qū)域是合理和可行的。
在VSM過程中,首先通過評估整體對比度差異和像素級加權(quán)連續(xù)性得分將紅外圖像轉(zhuǎn)換為顯著性圖。然后根據(jù)紅外圖像的強度,利用顯著性映射提取紅外圖像的顯著信息。最后,將顯著信息反饋給發(fā)生器,以保持融合圖像中的顯著區(qū)域[3]。
在生成過程中,發(fā)生器根據(jù)紅外、可見光和顯著信息輸出預融合結(jié)果。這個過程可以看作是一個融合的過程,因為它將多源圖像結(jié)合起來,生成一個基本的融合圖像。預判結(jié)果不理想,需要在鑒別器中進行修飾。也就是說,生成器是一臺生產(chǎn)機器,它的輸入是可見光、紅外和顯著信息。GAN生成器由五組模塊組成,如圖1所示。在第一組和第二組模塊中,我們應用了5×5卷積層、BatchNorm操作和ReLU函數(shù)。在第三組和第四組模塊中,我們應用了3×3卷積層、BatchNorm操作和ReLU函數(shù)。在最后一組模塊中,我們使用1×1卷積層和tanh激活層來輸出預融合圖像。
在鑒別過程中,鑒別器輸出預測的標簽,計算預融合圖像與可見光圖像之間的損失。這個過程可以看作是一個融合過程,因為它試圖最小化預融合圖像和可見光圖像之間的差異。我們采用最小二乘損失函數(shù)作為損失函數(shù),對預融合圖像和可見光圖像進行約束,從而融合出豐富的可見光信息。換句話說,鑒別器被設(shè)置成區(qū)分預融合圖像和可見光圖像之間的差異,直到可以忽略差異為止。GAN的鑒別器由五組模塊組成,如圖1所示。在第一組模塊中,我們應用了3×3卷積層和ReLU函數(shù)。從第二組到第四組模塊,我們應用了3×3卷積層、BatchNorm操作和ReLU函數(shù)。在最后一組模塊中,我們應用一個線性層來輸出預測的標簽。
對于常見的基于學習的網(wǎng)絡,下采樣和上采樣操作被廣泛地用于促進訓練過程。然而,在圖像融合領(lǐng)域,我們認為這些操作并不能令人滿意,因為它們丟棄了源圖像的關(guān)鍵信息。因此,在我們的網(wǎng)絡中,步長被設(shè)置為1,并且不應用下采樣或上采樣操作。此外,為了避免消失梯度這一關(guān)鍵問題,我們在生成器和鑒別器中采用了BatchNorm操作。
紅外原始圖像和可見光原始圖像的分辨率不同是一個值得注意的事實。由于不同傳感器的特性,紅外圖像的分辨率較低,而可見光圖像的分辨率較高。為了解決這個問題,我們對紅外圖像進行了采樣。隨后,我們將紅外和可見光圖像的大小調(diào)整為512×512的比例,作為優(yōu)化的圖像對。最后,我們將每個圖像的跨距設(shè)置為14,以裁剪足夠的數(shù)據(jù)。這樣,我們就可以產(chǎn)生大量的紅外和可見光數(shù)據(jù)集以訓練本文網(wǎng)絡。
為了驗證我們所提出的算法的有效性和有效性,我們選取了六對典型的圖像對進行主觀評價,這六對圖像對在可見光和紅外圖像融合中被廣泛應用。實驗結(jié)果如圖3所示。
圖3 圖像融合結(jié)果
實驗結(jié)果可以看出,作為對比的方法簡單易行,不能保留原有的顯著區(qū)域。這是因為它每次從可見光圖像中迭代學習,顯著區(qū)域的邊緣和強度都會受到越來越多的約束。為此,在GAN中引入VSM過程并提取顯著區(qū)域是非常必要的。然而,我們基于GAN的方法解決了這個問題,成功地保存了豐富的熱信息。以B列的直升機為例,其他算法無法保持邊緣尖銳的突出物體,這將導致在某些計算機視覺任務中分類效果不理想。相比之下,本文算法成功地保留了顯著信息,這將大大有利于分類任務。
本文認為將顯著區(qū)域提取技術(shù)應用于紅外與可見光圖像融合具有重要意義。然而,現(xiàn)有的融合方法卻忽略了紅外圖像中突出物體的熱信息保持的重要性,使得融合后圖像中的突出物體消失而難以分類。我們相信,將顯著區(qū)域提取引入圖像融合的思想和GAN結(jié)構(gòu)的設(shè)計將為圖像融合領(lǐng)域和各種應用做出貢獻。