朱雯青,張 寧,李 爭*,劉 鵬,湯心溢
1.中國科學(xué)院上海技術(shù)物理研究所,上海 200083 2.中國科學(xué)院大學(xué),北京 100049 3.中國科學(xué)院紅外探測與成像技術(shù)重點實驗室,上海 200083
隨著傳感器技術(shù)的發(fā)展,單一傳感器已經(jīng)滿足不了日益發(fā)展的需求。圖像融合技術(shù)能夠結(jié)合不同圖像傳感器的優(yōu)勢對目標特征進行表達,從而獲得增強目標特性的效果。紅外與可見光圖像融合技術(shù)一直是圖像融合領(lǐng)域的研究熱點之一,紅外探測器能在低光照、惡劣天氣條件下描述熱目標,目標顯著性強卻紋理細節(jié)信息少,可見光圖像分辨率高、符合人眼視覺感受但是容易受到光照天氣的影響。圖像融合技術(shù)將紅外與可見光波段的信息以適宜的策略進行有效信息,廣泛應(yīng)用在多光譜遙感分析、軍事探測等領(lǐng)域。
國內(nèi)外有較多學(xué)者從事紅外與可見光圖像融合算法的研究,提出了基于引導(dǎo)濾波[1]、稀疏表示[2]、脈沖耦合神經(jīng)網(wǎng)絡(luò)[3]等融合算法。同時深度學(xué)習(xí)在圖像融合領(lǐng)域也取得了較大進展,如Liu等提出了一種基于孿生卷積網(wǎng)絡(luò)的圖像融合算法[4],Ma等首次提出了基于生成對抗網(wǎng)絡(luò)的端到端圖像融合算法[5],Li等提出了基于空間通道注意力機制的卷積網(wǎng)絡(luò)融合算法[6]等。但是大部分算法都只適用于紅外圖像與可見光圖像分辨率一致的情況下。在實際應(yīng)用中,因硬件工藝、成本的限制,紅外探測器的分辨率遠低于可見光探測器,但是從硬件上提升紅外探測器分辨率的成本很高。一般思路是將低分辨率紅外圖像用超分辨重建方法得到高分辨率的紅外圖像,再與高分辨率可見光圖像進行圖像融合,這類方法的缺點是超分與融合任務(wù)中重復(fù)提取特征,算法復(fù)雜度比較高。針對這個問題,Ma等[7]提出了基于雙判別器條件生成對抗網(wǎng)絡(luò)的多分辨率圖像融合算法(DDcGAN),生成器企圖生成真實的融合圖像欺騙兩個判別器,雙判別器分別區(qū)分融合圖像和源圖像之間的結(jié)構(gòu)差異,并利用了反卷積層學(xué)習(xí)高低分辨率之間的映射關(guān)系,但該方法的缺點在于輸入的圖像尺度受到限制,一個模型只能適應(yīng)一種尺度,當源圖像的尺度改變時需要重新訓(xùn)練模型。Li等提出了基于元學(xué)習(xí)的紅外與可見光圖像融合算法[8],采用卷積網(wǎng)絡(luò)分別提取源圖像的特征,并用元上采樣模塊根據(jù)實際需求實現(xiàn)任意分辨率的上采樣,然而該方法在源圖像倍數(shù)相差較大時噪聲較大,紋理細節(jié)缺失嚴重。
針對以上問題,提出了基于多任務(wù)學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)框架,用于紅外與可見光多分辨率圖像融合。將超分辨思想引入融合問題中,先采用雙通道卷積網(wǎng)絡(luò)分別提取源圖像的特征,再采用特征上采樣模塊對紅外圖像特征進行超分辨率重建,接著通過線性注意力機制學(xué)習(xí)特征空間位置的非線性關(guān)系,提升網(wǎng)絡(luò)對全局信息的提取,同時提出了梯度損失函數(shù),無需理想的融合圖像進行監(jiān)督訓(xùn)練,并且模型不受源圖像分辨率比例關(guān)系的限制,一個模型就能實現(xiàn)任意分辨率的圖像融合。
1.1.1 總體框架
在紅外與可見光圖像的分辨率不一致的情況下進行圖像融合,首先需要有效提取源圖像的重要信息,再提高紅外特征的分辨率,同時與可見光特征進行有效融合,最后重建出高分辨率的融合圖像。研究中設(shè)計了多任務(wù)卷積神經(jīng)網(wǎng)絡(luò),整個模型由兩個子網(wǎng)絡(luò)組成,分別用于紅外圖像超分辨率重建和圖像融合兩個任務(wù),模型框架如圖1所示。
圖1 模型框架圖
1.1.2 特征上采樣模塊
廣義上的空間域超分辨率重建方法包括三個類別:基于插值、基于重建和基于學(xué)習(xí)的重建方法。其中最早提出的是基于插值的重建方法,這種方法理論簡單、易于實現(xiàn),包括雙線性插值、雙立方插值等。超分辨重建是一個病態(tài)問題,難點在于上采樣過程,一般上采樣層有亞像素卷積層、反卷積層[9]等方法。亞像素卷積層是將若干個特征圖的像素重新排列成一個新的特征圖,例如,在放大倍數(shù)為r的網(wǎng)絡(luò)中,假設(shè)特征圖尺寸為r2×H×W,亞像素卷積層會將該特征圖重新排列成1×rH×rW的高分辨率特征圖,從而達到上采樣的效果。反卷積層是通過轉(zhuǎn)置后的轉(zhuǎn)換矩陣與特征圖進行卷積操作,從而將低維特征映射到高維特征。但是這些上采樣方法只能實現(xiàn)單一倍數(shù)的上采樣,任意尺度上采樣一直是超分領(lǐng)域的難點。
為了能夠生成任意分辨率的紅外超分圖像,研究中設(shè)計了特征上采樣模塊,結(jié)構(gòu)如圖2所示。首先用雙線性插值方法按照平滑性假設(shè)增加像素個數(shù),初步計算得到高分辨率紅外特征,實現(xiàn)特征高寬與可見光特征相同,然后利用多層感知器(multilayer perceptron,MLP)學(xué)習(xí)平滑特征與真實高分辨率特征間的非線性關(guān)系,多層感知器由4層參數(shù)為[256, 256, 256, 64]的全連接層組成,在每層全連接層后用ReLU激活函數(shù)防止網(wǎng)絡(luò)退化,增強網(wǎng)絡(luò)非線性。令雙線性插值后得到的特征圖為F0,每層隱藏層按照式(1)不斷迭代傳播信息
圖2 特征上采樣模塊結(jié)構(gòu)示意圖
Fl=fl(WlFl-1+bl),l=1, 2, 3, 4
(1)
式(1)中,F(xiàn)l-1和Fl分別表示第l-1、l層的特征,Wl和bl分別表示第l層的權(quán)重與偏置,fl表示ReLU激活函數(shù)。
1.1.3 線性注意力模塊
傳統(tǒng)卷積網(wǎng)絡(luò)的感受野受到卷積核大小以及網(wǎng)絡(luò)深度的限制,難以學(xué)習(xí)到全局信息。自注意力這一概念最早應(yīng)用在自然語言處理領(lǐng)域,是一種計算單個序列不同位置的關(guān)聯(lián)來表達序列的注意機制,可以將全局信息引入網(wǎng)絡(luò)中,增加感受野。自注意力機制通過測量查詢向量元素與每個關(guān)鍵向量元素之間的相似度來選擇相關(guān)信息,輸出向量是由相似度得分加權(quán)值向量的總和,如果相似度高就能從值向量中提取相關(guān)信息。令輸入的序列為x,分別用投影矩陣Wq∈RF×D,Wk∈RF×D,Wv∈RF×M將x映射為查詢向量Q、關(guān)鍵向量K、值向量V,x的自注意力計算公式如式(2)所示。
Q=xWq
K=xWk
V=xWv
(2)
式(2)中,D為列向量的維度,softmax激活函數(shù)作用在QKT上。假設(shè)將Q和K的長度表示為N,同時設(shè)它們的特征維度為D,Q和K的點積引入了計算成本,并且計算復(fù)雜度隨輸入序列的長度呈二次方增長[O(N2)],在提取尺寸較大的圖像全局信息時對計算資源要求很高。
本工作引入了線性注意力機制,能在提取全局相關(guān)信息的同時減少計算成本,模塊結(jié)構(gòu)如圖3所示。先將紅外與可見光特征在通道維度相加以后得到特征fin, 特征大小為[B,H,W,C],分別用矩陣Wq∈RC×D,Wk∈RC×D,Wv∈RC×D將fin映射為尺寸為[B,H,W,D]的Q,K,V。自注意力中最重要的是計算Q和K之間的關(guān)系,可以由式(3)表示。
圖3 線性注意力結(jié)構(gòu)圖
(3)
原始自注意力機制中的相似性是由內(nèi)積計算得到的,Linear Transformer通過用替代核函數(shù)sim(Q,K)=φ(Q)φ(K)T的方法代替原始注意力層中使用的指數(shù)核,將自注意力的計算復(fù)雜度降低到O(N),計算方法如式(4)所示。
φ(x)=elu(x)+1
(4)
圖像融合是一個無監(jiān)督問題,損失函數(shù)決定了多分辨率圖像的融合效果。本工作需要同時對超分辨率重建和圖像融合任務(wù)進行優(yōu)化來提高模型的學(xué)習(xí)能力,因此設(shè)計了多任務(wù)損失函數(shù),模型損失函數(shù)由梯度損失Lgradient和像素損失Lpixel組成。
理想的融合圖像既能包含可見光的細節(jié)紋理信息,又能突出紅外熱目標。一般圖像邊緣越清晰,圖像信息越豐富,清晰度越高。為了保留源圖像中的特征并將其融合在一張圖像上,需要保留紅外與可見光圖像中的灰度變化趨勢,實現(xiàn)互補信息的融合。采用高斯拉普拉斯算子LoG分別計算可見光圖像IVis、紅外圖像IIR和生成的融合圖像If的響應(yīng)值,保留紅外與可見光圖像中梯度變化較大處的響應(yīng)值,并計算該值與融合圖像響應(yīng)值的Frobenius范數(shù),如式(5)和式(6)所示。
(5)
(6)
像素損失Lpixel用來優(yōu)化真實高分辨率與超分辨重建的紅外圖像間灰度值分布差異,如式(7)所示。
(7)
像素損失Lpixel與梯度損失Lgradient共同組成了本模型的損失函數(shù)Ltotal對網(wǎng)絡(luò)進行訓(xùn)練,并引進參數(shù)λ平衡Lpixel和Lgradient對模型的作用,如式(8)所示。
Ltotal=λLpixel+Lgradient
(8)
本研究中網(wǎng)絡(luò)使用的卷積大小均為3×3,通道數(shù)為64,損失函數(shù)中的λ為500,使用參數(shù)β1=0.9,β2=0.999的Adam[10]算法進行優(yōu)化,整個模型訓(xùn)練的epoch數(shù)為10,批量大小為32,學(xué)習(xí)率設(shè)為10-4。模型使用了Tensorflow框架,訓(xùn)練環(huán)境為NVIDIA 1080 Ti GPU。本算法與ASR[2],HMSD_GF[11],F(xiàn)usionGAN[5],MLF[8]算法在TNO測試集上進行了對比,其中ASR、HMSD_GF為傳統(tǒng)算法,F(xiàn)usionGAN、MLF為基于深度學(xué)習(xí)的算法。除了對算法進行主觀評價以外,還使用了信息熵(entropy,EN)、差異相關(guān)性總量(sum of the correlations of differences,SCD)[12]、標準差(standard deviation,SD)、平均梯度(average gradient,AG)[13]和空間頻率(spatial frequency,SF)[14]五個客觀評價指標進行圖像客觀質(zhì)量評價,指標值越大表示成像效果越佳。
為了證明所提出方法的有效性,設(shè)置了5種不同尺度的源圖像分辨率,如表1所示。將原始紅外圖像使用不同尺度因子的雙三次插值計算低分辨率紅外圖像,可見光圖像分辨率不變,輸出的紅外圖像、融合圖像的目標分辨率與可見光圖像分辨率相同。例如,Setting #2表示要融合的紅外和可見光圖像的長、寬分別是原始圖像的1/2和1倍,即可見光圖像分辨率是紅外圖像的2倍。紅外圖像與可見光圖像分辨率之間的比例關(guān)系是相對的,因此在改變輸入分辨率的同時固定融合圖像分辨率與可見光圖像分辨率相同的策略是合理的。
表1 不同尺度的源圖像分辨率設(shè)置
考慮到ASR,HMSD_GF, FusionGAN三種算法只能實現(xiàn)相同分辨率的圖像融合,在測試時這三種方法輸入的紅外圖像是按照表1所示的尺度關(guān)系將低分辨率紅外圖像用雙三次插值算法模擬計算得到的,可見光圖像的分辨率不變。5種算法在TNO數(shù)據(jù)集“men in front of house”圖像對上的效果如圖4所示。從圖4可得,ASR算法的融合圖像較為平滑,邊緣較為模糊,降低了紅外目標的顯著性;HMSD_GF算法生成的圖像在大塊平滑區(qū)域出現(xiàn)不必要的紋理變化,紅外目標邊界不清晰,隨著紅外圖像質(zhì)量的下降,融合算法效果也受到了影響;FusionGAN 算法生成的融合圖像分布趨近于紅外圖像,丟失了大量可見光細節(jié)特征;MLF算法沒有將指示牌等互補信息融合到圖像中,并且在低倍數(shù)下生成的圖像較為平滑,在源圖像分辨率相差4倍及以上時引入了大量噪聲,細節(jié)丟失嚴重,邊緣出現(xiàn)扭曲。本算法能夠?qū)崿F(xiàn)不同分辨率的圖像融合,既能突出紅外目標,又能較好保留可見光的細節(jié)紋理信息,并且當紅外圖像分辨率是可見光圖像的1/4、1/6時,圖像邊緣銳化,有提升對比度的效果。同時,本方法無需重新訓(xùn)練模型就能生成任意尺度的紅外上采樣圖像,在“man_in_doorway”圖像上的測試結(jié)果如圖5所示,與雙三次插值方法相比,在放大6倍時依舊能保持良好的紅外目標邊緣,與真值(groundtruth)相比有一定的增強效果。
圖4 不同分辨率“men in front of house”圖像上不同方法的融合結(jié)果
圖5 在“man_in_doorway”不同尺度上采樣的視覺比較
研究中抽取了TNO數(shù)據(jù)集的20對圖像進行圖像客觀質(zhì)量評價,結(jié)果如表2所示。setting #1—5任務(wù)中本算法在EN,SCD和SD指標上的表現(xiàn)最好,在SF指標上本算法在setting#2—5任務(wù)中表現(xiàn)最優(yōu),在AG指標上本算法在setting#3和setting#4任務(wù)中表現(xiàn)突出,其他任務(wù)中與HMSD_GF算法接近,并且隨著紅外圖像分辨率的降低,本算法優(yōu)勢越明顯。綜合來看,本算法重建的融合圖像信息量豐富、邊緣清晰,紋理細節(jié)保留較為完整,視覺效果較好,在紅外與可見光圖像分辨率相差較大時依舊能保持良好的成像質(zhì)量。而且本模型在分布差異較大的RoadScene和TNO數(shù)據(jù)集上分別進行訓(xùn)練與測試,圖像質(zhì)量的主客觀評價結(jié)果優(yōu)異,說明本模型的泛化能力較強。
表2 不同圖像融合方法在TNO數(shù)據(jù)集上的客觀評價結(jié)果
為了驗證線性注意力和特征上采樣模塊的作用,設(shè)計了消融實驗,在保證網(wǎng)絡(luò)參數(shù)與損失函數(shù)不變的情況下,去除網(wǎng)絡(luò)部分結(jié)構(gòu)在相同訓(xùn)練集上重新訓(xùn)練模型,在setting#4任務(wù)的TNO數(shù)據(jù)集“soldiers_with_jeep”圖像對上測試結(jié)果如圖6所示,其中圖6(a)和(b)分別是可見光和4倍放大顯示的紅外圖像。在保證其他不變的情況下只去除了線性注意力模塊,模型測試結(jié)果如圖6(c)所示,保留特征上采樣模塊中的雙線性插值層,只去除多層感知器,模型測試效果如圖6(d)所示,本文模型結(jié)果如圖6(e)所示。對比可知,線性注意力可以起到抑制噪聲、偽影等無關(guān)信息的作用,圖像表達的視覺感受更佳;多層感知器能夠更精細地學(xué)習(xí)高低分辨率之間的非線性映射關(guān)系,使得圖像邊緣更為清晰,局部對比度更高。
圖6 線性注意力和特征上采樣模塊的有效性驗證
圖7 各部分損失函數(shù)對模型的作用
針對在實際應(yīng)用場景下紅外與可見光圖像分辨率相差較大的問題,本文提出了多任務(wù)卷積神經(jīng)網(wǎng)絡(luò)框架,應(yīng)用于紅外與可見光多分辨率圖像融合。首先本文將超分辨率重建與融合任務(wù)相結(jié)合,提出了特征上采樣模塊,實現(xiàn)任意倍數(shù)的紅外圖像超分辨率重建,同時實現(xiàn)不同分辨率的紅外與可見光圖像融合。其次引入了線性注意力機制學(xué)習(xí)特征間的非線性關(guān)系,提升圖像的視覺表達。同時提出了一種梯度損失函數(shù),無需理想的融合圖像進行監(jiān)督就能有效融合源圖像中的信息。實驗結(jié)果表明,本文方法不受源圖像分辨率比例關(guān)系的限制,生成的融合圖像能夠較好地保留可見光的紋理并能突出紅外目標,并且圖像信息豐富、邊緣清晰,模型泛化能力較強,實現(xiàn)了傳感器互補的效果。但是本文算法在紅外圖像分辨率與可見光圖像相差倍數(shù)過多超出訓(xùn)練分布尺度時性能有限,在高倍數(shù)下的融合效果仍需要研究,通過改進網(wǎng)絡(luò)結(jié)構(gòu)、訓(xùn)練方法后算法仍有提升空間。