曲海成, 王雅萱, 申磊
(遼寧工程技術(shù)大學軟件學院,葫蘆島 125105)
高光譜圖像是由高光譜成像傳感器在多個連續(xù)的窄光譜波段上獲取同一場景的圖像,通常有幾十個到上百個波段,其中包含了豐富的光譜信息。高光譜圖像被廣泛應(yīng)用于生物識別[1]、植被檢測[2]和醫(yī)療診斷[3]等領(lǐng)域。高光譜圖像超分辨率是一種信號后處理技術(shù)的研究熱點,旨在從低分辨率圖像中獲取高分辨率圖像,以克服高光譜圖像固有的分辨率限制。
現(xiàn)有高光譜圖像超分辨率方法可以分為2類: 基于多源融合的超分辨率方法和基于單幅圖像的超分辨率方法?;诙嘣慈诤系姆椒ㄊ抢猛粓鼍暗妮o助高分辨率圖像如多光譜圖像、全色圖像等重建高分辨率高光譜圖像。Akhtar等[4]通過利用輔助圖像和低分辨率高光譜圖像的稀疏表示,提出了一種基于稀疏空間光譜表示的超分辨率方法,實現(xiàn)了輔助空間信息和光譜信息的融合。Dian等[5]提出了一種用于低分辨率高光譜圖像與高分辨率多光譜圖像融合的深度高光譜圖像銳化方法,該方法通過基于深度卷積神經(jīng)網(wǎng)絡(luò)的殘差學習直接學習圖像先驗知識,提高了重建精度。這些融合方法通常都能取得很好的效果,但這些方法都需要輔助圖像,這極大地限制了實際應(yīng)用。單幅高光譜圖像超分辨率方法不需要輔助圖像直接從低分辨率高光譜圖像重建高分辨率高光譜圖像。主要包括基于插值、基于稀疏表示和基于深度學習的方法。早期Huang等[6]提出在傅里葉插值變換域內(nèi)重構(gòu),從而恢復高頻信息,但插值方法能力有限,且重構(gòu)圖像細節(jié)丟失嚴重,導致該方法實用性不強。進一步,練秋生等[7]基于稀疏表示提出了一種基于兩級字典以及分頻帶字典的單幅圖像超分辨率算法,該算法利用高低分辨率系數(shù)之間的對應(yīng)關(guān)系進行圖像重構(gòu)。之后,一些基于稀疏表示的單幅圖像高光譜圖像超分辨率方法相繼被提出[8],這些方法雖然明顯優(yōu)于基于插值的方法,但由于其淺層啟發(fā)式模型的表達能力有限,仍然不能很好地恢復復雜的圖像細節(jié)。近年來,深度學習算法已被廣泛應(yīng)用于各類計算機視覺任務(wù)中,由于其神經(jīng)網(wǎng)絡(luò)架構(gòu),能夠擬合復雜的非線性映射函數(shù),研究者開始研究適合單幅高光譜圖像超分辨率的映射函數(shù)。Li等[9]通過低分辨率觀測鄰近波段與高分辨率觀測波段之間的光譜差異學習深度映射,與傳統(tǒng)方法相比取得了優(yōu)異的結(jié)果。Qiao等[10]提到,深度網(wǎng)絡(luò)中輸入的低分辨率圖像與輸出的高分辨率圖像一定程度上是近似的,即低分辨率圖像中的高低頻信息與高分辨率圖像攜帶的高低頻信息相似,利用圖像的低頻信息和高頻信息,使重建圖像的輪廓、細節(jié)信息更豐富,完成低分辨率圖像向高分辨率圖像的映射。另外,基于深度學習的單幅圖像超分辨方法雖然取得了一定的成果,但大多忽略了高光譜圖像相鄰光譜波段間的強相關(guān)性,不能深入研究組間的光譜相關(guān)性,便限制了網(wǎng)絡(luò)提取光譜特征的能力。
為此,本文提出了一種多感受野特征提取與空譜注意力結(jié)合的超分辨率算法,命名為MASR。該算法利用高光譜圖像光譜分辨率高、波段覆蓋范圍廣、“圖譜合一”等特點,進行空譜結(jié)合的注意力增強; 同時通過卷積核大小不同的多尺度卷積提取高光譜圖像的高頻信息和低頻信息,進行圖像的特征重建; 此外還應(yīng)用像素級反卷積緩解棋盤格效應(yīng),改善圖像特征重建質(zhì)量。
圖像高頻信息表示圖像中灰度值變化劇烈的區(qū)域,對應(yīng)著圖像的邊緣、紋理等,反映的是小范圍的細節(jié)信息。圖像低頻信息表示圖像中灰度值變化緩慢,對應(yīng)著圖像中連續(xù)漸變的區(qū)域,也就是大范圍的輪廓信息,即常說的圖像大致概貌和背景,是圖像的近似信息。為了獲取圖像中的高低頻信息,使用傅里葉變換實現(xiàn)對圖像頻率的過濾,過濾方法包括高通濾波和低通濾波,所謂高通濾波便是保留圖像中的高頻信息,過濾低頻成分,高通濾波表達式為:
(1)
式中:Hh(u,v)為高通濾波; (u,v)為頻率矩形中心點坐標;D(u,v)為距頻率矩形中心的距離;D0為截止頻率。
低通濾波與之相反,只保留圖像中的低頻信息,低通濾波表達式為:
Hl(u,v)=e-D2(u,v)/2σ2,
(2)
式中:Hl(u,v)為低通濾波;σ為關(guān)于中心的擴展度的度量。
為了直觀感受圖像中高頻信息和低頻信息的差異,在Chikusei和Pavia Centre scene數(shù)據(jù)集上,對圖像中的高頻信息和低頻信息進行可視化,顯示結(jié)果如圖1所示。
(a) Chikusei圖像(b) 高頻信息(c) 低頻信息
(d) Pavia Centre scene圖像(e) 高頻信息(f) 低頻信息
在卷積過程中,較大的卷積核可以提取圖像細節(jié)特征,保留原始圖像高頻信息,較小的卷積核可以提取圖像輪廓信息,若在特征提取的過程中使用單一卷積,可能造成提取特征信息的丟失,因此使用不同大小的卷積核構(gòu)成多感受野卷積,有效地保證了特征圖信息的完整性。
注意力機制(attention mechanism,AMM) 是機器學習中的數(shù)據(jù)處理方法,旨在通過深度網(wǎng)絡(luò)自動學習圖像中的局部重要特征,通過對特征信息之間的相互依賴進行建模,利用神經(jīng)網(wǎng)絡(luò)的平均池化層生成一個mask掩碼, mask上的值代表圖像不同區(qū)域的特征權(quán)重,基于權(quán)重值自適應(yīng)地重新劃分特征圖中的信息重要度。
空間注意力機制(spatial attention module,SAM)可以引導網(wǎng)絡(luò)聚焦于空間域中最具特征量的區(qū)域,通常的做法是將特征圖沿通道軸做平均池化處理,生成二維的特征描述符,該描述符標注了空間域中需要被關(guān)注或抑制的特征位置,增強網(wǎng)絡(luò)對重要信息量的捕獲與傳遞能力。通道注意力機制(channel attention module,CAM)是對空間注意力的有效補充,通過平均池化層順著空間維度進行特征壓縮,將每個通道的二維的空間特征變?yōu)橐粋€實數(shù),某種程度上,這個實數(shù)對特征具有全局的感知能力,代表了該通道對全局特征的響應(yīng)權(quán)重,衡量了每個通道對特征有效提取的貢獻能力。
不同于對高光譜圖像整體進行特征提取,為了更充分利用高光譜圖像相鄰光譜波段之間的相關(guān)性,MASR網(wǎng)絡(luò)將高光譜圖像沿光譜波段分成多個組。每組主要包括特征提取、上采樣、特征融合和圖像重建4個部分,總體網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
圖2 總體網(wǎng)絡(luò)結(jié)構(gòu)
圖像超分辨率是一個不適定問題,需要額外的先驗知識(正則化)來約束重建過程。對于高光譜圖像的超分辨率問題,有效利用高光譜圖像的內(nèi)在特性,即空間上的非局部自相似性和光譜間的高相關(guān)性是至關(guān)重要的。因此,本文提出了多感受野特提取和空譜注意力模塊來利用空間和光譜先驗知識,提取圖像特征,該模塊結(jié)構(gòu)如圖3所示。
圖3 多感受野特征提取注意力模塊
該模塊包括多感受野特征提取模塊(multi-receptive field feature extraction block,MFB)和空譜結(jié)合注意力模塊(space spectrum combined with attention module,AM)2部分,該模塊可以從輸入圖像中獲得既有低頻信息又有高頻信息的特征。
卷積核的大小會影響特征提取過程中所獲取的信息。小尺寸核對低頻信息的特征提取效果較好,對高頻信息的特征提取效果較差,而大尺寸核對高頻信息的特征提取效果較好,但對小細節(jié)的特征提取效果較差。這個問題可以通過在不同的卷積神經(jīng)網(wǎng)絡(luò)層中使用不同大小的卷積核來解決。但是,這增加了卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)的深度,會導致更高的復雜性。因此,本文使用同一層內(nèi)的多感受野卷積,構(gòu)成MFB,該模塊結(jié)構(gòu)如圖4所示。
圖4 多感受野特征提取模塊
該模塊,同時使用不同的卷積核進行特征提取,該模塊采取的卷積核大小分別為1×1,3×3,5×5,7×7,小卷積核可以提取低頻信息即圖像中比較平滑區(qū)域,大卷積核提取高頻信息即圖像的邊緣輪廓信息,同時提取低頻信息和高頻信息,使輸入的特征圖有更細的信息。上述過程描述的表達式為:
F[o]=Conv[Concat(f1,f3,f5,f7)],
(3)
式中:F[o]為輸出特征圖; Conv表示卷積操作; Concat表示特征圖通道拼接;f1,f3,f5,f7分別對應(yīng)的是1×1,3×3,5×5,7×7卷積操作。具體表達式分別為:
(4)
式中:F[i]為輸入特征圖;w和b分別代表卷積的權(quán)重和偏置,特征圖從4個卷積操作中被獲得,它們可以通過多感受野特征的連接操作組合起來。為了對連接后的特征圖進行降維,將其輸入至一個3×3的卷積層,降低通道維度。
該模塊有助于有效地提高網(wǎng)絡(luò)的表示能力,文中使用的AM設(shè)計如圖5所示。
圖5 空譜結(jié)合注意力模塊
該模塊前半部分是空間殘差注意力,后半部分是光譜殘差注意力。該模塊采用2個3×3卷積構(gòu)建更深層網(wǎng)絡(luò),然后沿通道維度做全局空間池化,形成空間注意力圖。將注意力圖和卷積后的特征圖相乘,增強高光譜圖像中信息的傳遞,將空間注意力殘差模塊和光譜殘差模塊串聯(lián),將輸出的特征圖經(jīng)過2個1×1卷積塊,做光譜通道縮放,學習光譜維度的權(quán)重值,將其與特征圖相乘,增強光譜信息的有效表達,通過光譜特征之間的相互依賴進行建模,自適應(yīng)地重新分配每個通道特征。前半部分過程描述的表達式為:
Fspa=F′+GAP[Conv3(F′)]?Conv3[Conv3(F′)] ,
(5)
式中:Fspa為空間注意力;F′為輸入的特征圖;GAP()為全局平均池化函數(shù); Conv3為3×3卷積。后半部分過程描述的表達式為:
F=Fspa+GAP[Conv1(Fspa)]?Conv1[Conv1(Fspa)],
(6)
式中:F為輸出特征圖; Conv1為1×1卷積操作。
為了更好地訓練MASR網(wǎng)絡(luò)模型,使得超分辨率結(jié)果接近真實的高分辨率圖像,本文使用的總體損失函數(shù)[12]L定義為:
L(θ)=L1+βLSSTV,
(7)
式中:β為平衡不同損失貢獻度的權(quán)重參數(shù),通常使用常數(shù)去衡量,所以在實驗中設(shè)定β=1E-3;L1損失被稱為最小絕對值偏差,它衡量了目標值與估計值之間的絕對差值,在整個訓練階段都能保持較好的收斂性,所以選定L1損失來衡量模型重構(gòu)精度。該L1損失函數(shù)定義為:
(8)
(9)
實驗用3個高光譜圖像數(shù)據(jù)集來測試,分別為 Chikusei,Pavia Centre scene和 CAVE數(shù)據(jù)集。
第一個高光譜數(shù)據(jù)集是Chikusei數(shù)據(jù)集,有128個波段,光譜范圍為363~1 018 nm。場景由2 517×2 335像素組成,地面采樣距離為2.5 m。首先對圖像的中心區(qū)域進行裁剪,得到2 304×2 048×128像素的子圖像,再將其分為訓練數(shù)據(jù)和測試數(shù)據(jù)。提取該圖像頂部區(qū)域作為測試數(shù)據(jù),測試數(shù)據(jù)為4幅無重疊的高光譜圖像,圖像大小為512×512×128像素。
第二個數(shù)據(jù)集是Pavia Centre scene數(shù)據(jù)集,它有102個光譜波段(從最初的115個光譜波段中去除了水汽吸收和噪聲光譜波段)和1 096×1 096像素。需要注意的是,在中心場景中,不包含信息的區(qū)域被刪除,只留下一個有意義的1 096×715像素區(qū)域。對圖像的中心區(qū)域進行裁剪,提取圖像的左半部分作為測試數(shù)據(jù),測試數(shù)據(jù)為4幅無重疊的高光譜圖像,圖像大小為224×224像素。
為了證明本文算法對于高光譜圖像的普適性,本文不僅選擇遙感高光譜數(shù)據(jù)集進行實驗,還在普通高光譜數(shù)據(jù)集CAVE上進行驗證。CAVE數(shù)據(jù)集是由32個日常物體場景組成,圖像大小為512×512像素,有31個光譜波段,光譜范圍為400~700 nm。為了準備訓練樣本,從數(shù)據(jù)集中隨機抽取20幅高光譜圖像,隨機抽取10%的樣本作為驗證集。數(shù)據(jù)集剩余的12幅高光譜圖像用于測試,其中原始圖像作為高分辨率高光譜圖像的真值圖。輸入的低分辨率高光譜圖像是真值圖空間分辨率的1/4大小。
實驗采用Pytorch框架實現(xiàn)了多感受野特征與空譜結(jié)合的卷積神經(jīng)網(wǎng)絡(luò),所使用計算機的CPU型號為Intel Core i7-6700 @3.4 GHz,GPU型號為NVIDIA TITAN RTX,內(nèi)存為24 GB。
實驗中使用了6個指標評估本文的算法,它們分別是均方根誤差RMSE, 峰值信噪比PSNR,CC(cross correlation)[14],光譜角映射SAM,相對全局合成誤差ERGAS[15],結(jié)構(gòu)相似度SSIM[16]。對于重建高光譜圖像的PSNR和SSIM,取它們在所有波段的平均值,即平均峰值信噪比MPSNR[17]和平均結(jié)構(gòu)相似度MSSIM[17]。CC,SAM和ERGAS是高光譜融合任務(wù)中被廣泛采用的3個質(zhì)量指標[12],其余3個指標是常用于定量評價圖像恢復質(zhì)量的指標。這些指標的最佳值分別是0,+∞,1,0,0和1。
3.3.1 多感受野特征提取與注意力模塊
為了驗證MFB和AM的有效性,實驗對Chikusei數(shù)據(jù)集采用6個指標進行實驗比較,結(jié)果見表1。
表1 Chikusei數(shù)據(jù)集在不同模塊實驗對比
由表1可知,MFB模塊可以有效地提取低頻信息特征和高頻信息特征,與沒有MFB相比,采用MFB模塊后,本文算法獲得了一定的性能提升。加入MFB模塊后,雖然各客觀指標的改進幅度相對較小,但MPSNR提高了0.534 1,SAM降低了0.252 9,這證明了MFB的引入更有利于網(wǎng)絡(luò)性能的提升。
AM模塊有助于有效提高網(wǎng)絡(luò)的表示能力。由表1可知,與沒有AM相比,采用AM機制后,本文算法獲得了一定的性能提升。加入AM模塊后,雖然各客觀指標的改進幅度相對較小,MPSNR提高了1.571 2,SAM降低了0.790 2。由此可見,AM的引入更有利于光譜特征的表示。
為了從直觀上驗證本文添加的MFB和AM模塊的有效性,以2幅Chikusei數(shù)據(jù)集的區(qū)域為例,圖6給出了對比效果。
(a) 真值圖1(b) 無MFB1(c) 有MFB1(d) 本文算法1(MFB+AM)
(e) 真值圖2(f) 無MFB2(g) 有MFB2(h) 本文算法2(MFB+AM)
從圖6可以看出,Chikusei數(shù)據(jù)集是對農(nóng)田的遙感影像圖,當沒有采用MFB模塊時,田地間的分界線模糊,顏色間亮暗分布不均勻,加入MFB模塊之后,圖像的色差有所改善,且建筑物與農(nóng)田間的邊緣信息更加清晰,說明MFB模塊可以有效地提取圖像的細節(jié)信息及輪廓信息。本文算法結(jié)合了MFB模塊與AM模塊,由圖6(d)和(h)可知,繼續(xù)加入的AM模塊,可利用高光譜圖像豐富的光譜信息輔助存在缺陷的空間信息,重建更高空間分辨率的高光譜圖像,實驗效果不管是紋理還是顏色更接近于真值。本文算法可以獲得有效的特征,使得特征信息更加有效、完整,達到了較理想的超分辨率效果。
同時為了驗證方法的泛化能力,使用Pavia Centre scene數(shù)據(jù)集進行測試,以2幅Pavia Centre scene數(shù)據(jù)集的區(qū)域為例,結(jié)果如圖7所示。
(a) 真值圖1(b) 無MFB1(c) 有MFB1(d) 本文算法1(MFB+AM)
(e) 真值圖2(f) 無MFB2(g) 有MFB2(h) 本文算法2(MFB+AM)
從圖7可以看出,Pavia Centre scene數(shù)據(jù)集是對水、瀝青、磚和陰影等地方的遙感影像圖,當沒有采用MFB模塊時,磚的分界線模糊,顏色間亮暗分布不均勻,陰影與瀝青邊緣也模糊不清,加入MFB模塊之后,圖像的色差有所改善,且磚、陰影和瀝青的邊緣信息更加清晰,說明MFB模塊可以有效地提取圖像的細節(jié)信息及輪廓信息。圖7(d)和(h)是本文算法的結(jié)果,本文算法結(jié)合MFB和AM模塊后,圖像中房屋間的邊緣特征得到了更好的重建。相比于其他的實驗結(jié)果,本文算法的藍色屋頂更加清晰,陰影部分更加精細。通過效果圖的對比可以看出,本文算法對復雜的地物目標超分辨率后,重建的細節(jié)特征更加明顯。
3.3.2 分組策略
為了有效地利用高光譜圖像相鄰光譜波段間的相關(guān)關(guān)系,減少模型參數(shù),本文設(shè)計了一種分組策略,即沿光譜維度將高光譜圖像分成若干組,為盡可能地保留組間光譜波段的關(guān)聯(lián)性,每組內(nèi)設(shè)置重疊波段數(shù)P。為驗證分組策略的可行性,在Pavia Centre scene數(shù)據(jù)集上,進行分組驗證。首先通過將每組光譜通道數(shù)g固定為8,探討重疊因子P對圖像超分辨率后MPSNR的影響,實驗結(jié)果如圖8所示。
圖8 重疊因子對MPSNR的影響
從圖8可以看出,重疊因子與MPSNR是非線性關(guān)系,并不是越大越好,當它取到臨界值P=2時,此時網(wǎng)絡(luò)中MPSNR最大。可見,重疊因子為2時,已滿足對組間光譜相關(guān)性的充分利用,若繼續(xù)增加重疊波段,可能會對組內(nèi)光譜信息造成干擾,因此分組時選擇重疊因子為2。為進一步確定組內(nèi)光譜波段數(shù)g的選擇,固定P=2進行實驗驗證,結(jié)果如圖9所示。
圖9 每組光譜通道數(shù)
從圖9可以看出,當每組光譜波段數(shù)為8時,網(wǎng)絡(luò)中MPSNR最大,使用分組策略后,光譜重構(gòu)性能有了很大的提高。經(jīng)過多次實驗表明當g=8,P=2時,實驗效果最佳。
最后,為驗證本文算法的有效性,在Chikusei數(shù)據(jù)集上,將本文算法與現(xiàn)有的算法進行比較,對比的算法有Bicubic[18],VDSR[19],TLCNN[20],EDSR[21],RCAN[22],SAN[23],3DCNN[24],GDRRN[25],DeepPrior[26]。實驗對比結(jié)果見表2。
表2 在Chikusei數(shù)據(jù)集上不同算法的對比結(jié)果
表2中,VDSR算法在引入了深度殘差網(wǎng)絡(luò)后進行圖像超分辨,取得了一定的效果,但其殘差結(jié)構(gòu)不如本文設(shè)計得巧妙,并未有較好的超分辨率效果; 3DCNN通過給定大量的原始圖像及其損壞圖像的實例對,可以很好地利用光譜相關(guān)性,將退化的圖像恢復到原始圖像,但其計算復雜度非常大,檢測性能受到一定的制約; GDRRN通過設(shè)計一組遞歸模塊并將其嵌入到全局殘差結(jié)構(gòu)中,提出了一種分組深度遞歸殘差網(wǎng)絡(luò),這種群卷積和遞歸結(jié)構(gòu)保證了它能夠產(chǎn)生很好的性能,可見分組卷積模式有利于高光譜圖像信息充分提??; DeepPrior開發(fā)了一種有效的單幅高光譜圖像恢復算法,由于高光譜訓練樣本有限,光譜波段維度高,很難充分挖掘高光譜圖像空間信息和光譜之間的相關(guān)性。綜上所述,本文提出的MASR模型沿光譜波段進行分組卷積,使用不同卷積核精細化地提取原始圖像信息,并且充分挖掘了空譜之間的相關(guān)性,超分辨率效果優(yōu)于TLCNN,3DCNN,GDRRN和DeepPrior等現(xiàn)有算法。
為了驗證本文算法的泛化能力,使用Pavia Centre scene數(shù)據(jù)集與其他算法進行再次比較,對比結(jié)果見表3。
表3 在Pavia Centre scene數(shù)據(jù)集上不同算法的對比結(jié)果
由表3可知,在不同的高光譜數(shù)據(jù)集Pavia Centre scene上,本文算法仍然優(yōu)于其他先進算法。其中MPSNR為31.942 2,RMSE為0.028 1。通過以上2個對比實驗可以看出,本文算法使用的MFB有效地提取了圖像的低頻信息和高頻信息,AM能夠有效地增強特征表達能力。
以上2個數(shù)據(jù)集均為遙感高光譜數(shù)據(jù)集,為驗證本文算法的有效性,在普通高光譜數(shù)據(jù)集CAVE上實現(xiàn)進一步的實驗驗證,對比結(jié)果見表4。
表4 在CAVE數(shù)據(jù)集上不同算法的對比結(jié)果
由表4可知,在普通的高光譜圖像CAVE數(shù)據(jù)集中,本文算法依然實現(xiàn)了較好的超分辨率效果,其中RMSE為0.013 9,MPSNR為39.172 9。通過上述對比實驗結(jié)果可以看出,本文算法針對普通高光譜數(shù)據(jù)集也適用,本文的MFB有效地提取了特征的高低頻信息,AM增強了圖像的空間和光譜信息,捕獲了更加敏感的特征信息,使得最終得到的特征圖的信息更加完整且有效。
本文提出的多感受野特征與空譜注意力結(jié)合的高光譜圖像超分辨率算法,在高光譜圖像超分辨率上取得了較好的效果,具體結(jié)論如下:
1)本文算法在單個卷積層中設(shè)計多尺度卷積核,充分提取多感受野特征,保證圖像中高頻信息和低頻信息完整性。
2)空譜結(jié)合注意力模塊充分利用了高光譜數(shù)據(jù)的空間和光譜相關(guān)性特征,增強網(wǎng)絡(luò)對圖像細節(jié)信息的敏感性,更有效地重建超分辨率圖像特征。
3)通過模塊分析實驗可以看出,本文使用的2個模塊可以有效地提升重建結(jié)果的質(zhì)量。該網(wǎng)絡(luò)中也采用了像素反卷積層,緩解了特征圖因上采樣產(chǎn)生的棋盤格效應(yīng)。在高光譜數(shù)據(jù)集上的實驗結(jié)果表明,本文算法優(yōu)于其他現(xiàn)有算法,在超分辨率上表現(xiàn)優(yōu)異。