劉嫻雅 劉 賓
(中北大學信息與通信工程學院 太原 030051)
高光譜圖像擁有豐富的光譜信息,有效地提高了探測、識別等任務的能力[1]。近年來,高光譜圖像已廣泛應用于工業(yè)、農業(yè)、環(huán)境以及軍事領域[2~5]。然而,由于高光譜圖像成像設備有限,成像環(huán)境復雜,使得高光譜圖像空間分辨率很低,這嚴重限制了高光譜圖像的發(fā)展[6]。因此,為了得到高分辨率高光譜圖像(HR-HSI),一般將同一目標的低分辨率高光譜圖像(LR-HSI)和高分辨率多光譜圖像(HR-MSI)進行融合。
當前的高光譜融合方法通常分為三種:基于全銳化的方法、基于分解的方法以及基于深度學習的方法?;谌J化的方法通常是將同一目標的多光譜圖像和全色圖像加以融合獲得的高分辨率多光譜圖像[7]。近年來,人們將全銳化技術推廣到高光譜多光譜融合領域,但是由于全銳化涉及的光譜分辨率較低,因此全銳化的方法獲得的融合圖像會產(chǎn)生一定的光譜失真?;诜纸獾姆椒ǎ@一類方法將融合問題視為反問題,通過利用解混模型和設計適當?shù)南闰炐畔慝@得所需的融合結果[8]。Yokoya等[9]采用非負矩陣分解法以耦合的方式對LR-HSI和HR-MSI 圖像進行解混。Dong[10]等利用高光譜圖像空間光譜稀疏性的先驗知識,將高分辨率高光譜圖像的估計表示為高光譜字典和稀疏碼的聯(lián)合估計。Xu[11]等通過耦合張量正則多元分解探討了HSI 和MSI 之間的關系,提出了一種用于HSI-MSI融合的分解模型。基于分解的方法通常效果較好,但是融合質量和所使用的特定融合模型有著很大的關聯(lián),并且計算成本較高,實現(xiàn)也比較復雜。
近年來,基于深度學習的高光譜圖像融合方法相比與前兩種融合方法展現(xiàn)出一定的優(yōu)勢。Palsson[12]等提出了3D-CNN 網(wǎng)絡模型,雖然該模型可以有效減少圖像的光譜失真,但是極大地增加了網(wǎng)絡參數(shù)的數(shù)量。Dian 等[13]將深度卷積網(wǎng)絡與基于分解的方法相結合,利用深度卷積網(wǎng)絡所學習的先驗信息來正則化融合問題。但是這種方法只能在一些光譜波段進行訓練,在其余部分進行測試,破壞了光譜的完整性。Zhou[14]等提出了一種金字塔全卷積網(wǎng)絡以全局到局部的方式逐步重建HR-HSI,該融合方法有效地挖掘了HR-MSI 的空間信息。雖然深度學習在高光譜圖像融合領域得到了快速的發(fā)展,但仍然面臨著一些困難和挑戰(zhàn),例如:特征提取不完整;深層次特征難以提取利用,將會影響融合的性能;沒有考慮不同層次的特征融合,可能會導致融合結果信息丟失等問題。
綜上,本文提出了一種基于多尺度殘差融合網(wǎng)絡(Multiscale Residual Fusion Network,MRFN)的高光譜圖像融合算法,來獲得HR-HSI。相比于現(xiàn)有的高光譜圖像融合方法,該網(wǎng)絡能夠有效提取高光譜圖像的光譜信息和多光譜圖像空間信息,可以顯著降低光譜失真,提高高光譜圖像的空間分辨率。因此,該方法在實際應用中對提高高光譜圖像的性能具有重要意義。
本文提出了一種基于多尺度殘差融合網(wǎng)絡的高光譜圖像融合算法。該算法網(wǎng)絡框架由特征提取模塊、融合模塊以及特征重建模塊三個核心計算模塊組成,具體結構如圖1 所示。首先,采用特征提取模塊分別提取LR-HSI 的光譜信息和HR-MSI的空間信息;然后將特征提取模塊中獲取的特征信息,視為融合模塊的輸入,由模型自發(fā)地去學習融合規(guī)則,逐級獲得融合圖像的全部特征信息;最后通過特征重建模塊重建高分辨率高光譜圖像。
圖1 總體網(wǎng)絡結構
特征提取模塊由多尺度特征提取模塊(Multiscale feature extraction block,MFB)和級聯(lián)殘差模塊構成,用于分別提取LR-HSI 的光譜信息和HR-MSI 空間信息。首先使用一個多尺度特征提取模塊對輸入圖像進行不同尺度的淺層特征提取,有效地保證了特征圖信息的完整性。然后通過級聯(lián)殘差模塊提取輸入圖像的深層語義特征,獲取更多圖像細節(jié)特征。其實現(xiàn)過程如下:
式中:fMFB表示多尺度特征提取模塊;fres表示殘差模塊;HSk、MSk分別表示高光譜圖像和多光譜圖像第k層特征,本文中k=1,2,3,4。
1)多尺度特征提取模塊
本文設計了一種多尺度特征提取模塊,結合特征融合操作,同時采用4 個不同大小的卷積核對輸入圖像進行特征提取,其結構如圖2 所示。該模塊選擇的卷積核大小依次是1×1,3×3,5×5,7×7,其中小卷積核提取圖像中比較平滑區(qū)域,大卷積核提取圖像的邊緣輪廓信息,使用不同大小的卷積核能夠獲得圖像更多的特征信息,從而提高了網(wǎng)絡模型的特征提取能力。上述過程可以表示為
圖2 多尺度特征提取模塊
式中:fi為輸入特征圖;w 表示卷積層的權重;b 為偏置項;Concat 為特征圖通道拼接;f1×1,f3×3,f5×5,f7×7分別對應的是1×1,3×3,5×5,7×7 卷積操作。
2)級聯(lián)殘差模塊
為了提取HR-MSI和LR-HSI空間維以及光譜維更多的細節(jié)特征,本文采用3 個級聯(lián)的殘差模塊提取圖像深層特征,基本結構如圖3 所示。每個殘差模塊通過跳躍連接的形式將單元的輸入信息繞道傳至輸出,這種形式極大地提高了輸入信息的完整性同時提高模型的訓練速度。當網(wǎng)絡模型層數(shù)增加時,網(wǎng)絡性能下降的問題也可以得到解決。
圖3 殘差模塊
融合模塊是將LR-HSI 的光譜信息和HR-MSI的空間信息逐級融合。通過特征拼接方式將獲得的特征信息堆疊成新的圖像,并進行1×1 卷積計算的結果。為了提升模型的融合能力,使用ReLU 函數(shù)增加網(wǎng)絡的非線性,防止過擬合。每一級融合都考慮了上一級融合的結果,因此可以看作是一種特殊的多級尺度融合方法。其實現(xiàn)過程如下:
式中:HS0為輸入的LR-HSI,MS0為輸入的HR-MSI;I表示拼接后的圖像;HSMS為融合后的特征圖。
特征重建模塊由若干個卷積層組成。從融合模塊所得到的特征圖的通道數(shù)為256,因此要獲取融合圖像F,就需要對特征圖進行降維重建??紤]到較大的核大小和網(wǎng)絡深度會削弱融合性能,增加計算復雜度,因此本文采用4個1×1的卷積層,依次為1×1×256、1×1×128、1×1×64、1×1×1。同時,為了增加模型中各層次間的非線性聯(lián)系,可以通過ReLU 函數(shù)提高模型的非線性。具體實現(xiàn)過程如下:
式中:表示1×1的卷積操作;F表示融合后的圖像。
為了更好地訓練MRFN 網(wǎng)絡模型,使得融合結果接近真實的高分辨率圖像,本文采用融合圖像F與參考圖像R 之間的均方誤差作為網(wǎng)絡的損失函數(shù),使網(wǎng)絡神經(jīng)元權值不斷更新。MSE損失函數(shù)定義如下:
式中n為訓練樣本數(shù)。
本文使用CAVE[15]和Harvard[16]數(shù)據(jù)集來驗證所提出方法的有效性。其中CAVE 數(shù)據(jù)集是室內場景下的高光譜數(shù)據(jù)集,該數(shù)據(jù)集由三十張大小為512×512 的高光譜圖像構成,波段范圍為400nm~700nm,共三十一個高光譜波段。Harvard數(shù)據(jù)集是真實場景下的高光譜數(shù)據(jù)集,該數(shù)據(jù)集由五十張大小為1392 × 1040 的高光譜圖像構成,波段范圍為420nm~720nm,共三十一個高光譜波段。取CAVE 數(shù)據(jù)集中的前二十幅圖片作為訓練集,后十二幅圖片作為測試集。對于Harvard數(shù)據(jù)集中使用的前三十幅作為訓練集,后二十幅圖片作為測試集。
本文所構建的多尺度殘差融合網(wǎng)絡的輸入是LR-HSI 和HR-MSI,輸出是HR-HSI。為了得到LR-HSI,我們需要對訓練集中的高光譜圖像進行預處理。將其按步長32 切成64×64 大小的圖像塊用作訓練,然后將原始圖像下采樣(雙線性插值)至原始大小1/8,最后再上采樣(雙三次插值)至原始大小作為LR-HSI。在模型測試的時候不需要切分,可直接輸入LR-HSI得到融合結果。
實驗環(huán)境為Windows10,處理器為Intel(R)Core(TM)i7-10750H CPU @2.60GHz,顯卡為NVIDIA GeForce GTX1660Ti,基于TensorFlow 庫構建高光譜圖像融合網(wǎng)絡,模型利用ADAM算法進行訓練,訓練周期設為100,Batchsize 設置為16,學習率初始設置為0.0001,分別在訓練周期總數(shù)的50%和75%處將學習率設為之前的1/10。
將基于多尺度殘差融合網(wǎng)絡的高光譜圖像融合算法(MRFN)與幾種優(yōu)秀的融合算法在CAVE和Harvard 數(shù)據(jù)集上進行實驗對比,對比的算法有MRA[17]、CNMF、3D-CNN。其中MRA 屬于全銳化方法;CNMF 是基于分解的融合方法;而3D-CNN為深度學習的融合方法,該融合方式避免了人為制定融合規(guī)則,能夠通過大量學習得到融合模型。
為了評估融合結果的質量,本文選擇均方根誤差(RMSE)、全局相對光譜損失(ERGAS)、結構相似性(SSIM)、光譜角映射(SAM)和峰值信噪比(PSNR)對融合圖像質量進行評價。PSNR、RMSE和SSIM 在空間域中衡量融合結果質量,SAM 用來反映融合圖像光譜失真的程度。而ERGAS 則反映了融合結果的總體質量,包括空間和光譜。
將本文所提出的方法與3.2節(jié)中提到的幾種優(yōu)秀的算法進行了比較。圖4和圖5分別為小球和衣服兩個數(shù)據(jù)集在不同波段下的融合結果,表1 為不同融合算法下融合圖像的評價指標,評價指標包括RMSE、ERGAS、SSIM、PSNR 和SAM。在表1 中,“↓”表示數(shù)值越小越好,“↑”表示數(shù)值越大越好??陀^評價指標的最佳結果用粗體表示,而次最佳結果用下劃線表示。
表1 不同融合算法的對比結果
圖4 小球數(shù)據(jù)集融合結果
圖5 衣服數(shù)據(jù)集融合結果
從表1 中可以看出,本文算法相比較其他三種算法客觀評價指標均有一定的提升,表明本文算法在極大程度上降低光譜失真的同時提升高光譜圖像的空間分辨率,使融合出的圖像細節(jié)信息更多。為了直觀地進行比較,圖4 和圖5 中顯示了小球和衣服兩個數(shù)據(jù)集在不同融合算法下的融合圖像,每個融合圖像使用方框標識重點區(qū)域并放大5 倍以便于觀察。從標識區(qū)域和融合圖像可以看出,MRA 方法融合后的圖像存在一定的光譜失真,邊緣紋理比較模糊,很多細節(jié)無法辨認;CNMF 和3D-CNN 算法一定程度上提高了融合圖像的清晰度,但邊緣細節(jié)仍然模糊;本文提出的算法相比較其他三種算法,融合圖像邊緣細節(jié)恢復較好,整體有較好的視覺效果,可以顯著降低光譜失真,提高高光譜圖像的空間分辨率。
本文從高光譜和多光譜圖像的成像特點和融合目標出發(fā),提出了一種基于多尺度殘差融合網(wǎng)絡的高光譜圖像融合算法。首先,利用多尺度特征提取模塊和級聯(lián)殘差模塊提取LR-HSI和HR-MSI的光譜信息和空間信息,然后通過融合模塊將獲取到的光譜信息和空間信息逐級融合;最后利用卷積層重建融合結果,得到HR-HSI。實驗證明,本文所提出的方法在CAVE 和Harvard 這兩個數(shù)據(jù)集上峰值信噪比分別達到了39.8504 和42.9646,光譜角映射分別達到了0.0685 和0.1585,比其他幾種方法均有一定的提升。融合后的圖像可以顯著降低光譜失真,提高高光譜圖像的空間分辨率,具有很好的應用前景。