齊 濟(jì),楊海濤,孔 卓
(1.航天工程大學(xué) 研究生院, 北京 101400; 2.航天工程大學(xué) 航天信息學(xué)院, 北京 101400)
高光譜圖像的波段數(shù)通常具有數(shù)百個(gè)甚至更多,相對(duì)于多光譜圖像而言,光譜特征豐富,可用于軍事監(jiān)測(cè)、農(nóng)業(yè)、地理信息監(jiān)測(cè)和天氣預(yù)報(bào)等多個(gè)遙感領(lǐng)域[1]。在應(yīng)用遙感圖像時(shí),通常需要高空間分辨率的高光譜圖像,但并不能被單源傳感器直接獲得。在空間域和光譜域上,低空間分辨率高光譜圖像與高空間分辨率多光譜圖像具有一定的互補(bǔ)性[2],將兩者用圖像融合的技術(shù)結(jié)合,在很大程度上,能提升高光譜圖像的空間分辨率,提高其實(shí)際應(yīng)用價(jià)值[3]。
近年來(lái),在高光譜和多光譜圖像融合領(lǐng)域,傳統(tǒng)方法和深度學(xué)習(xí)的方法被廣泛應(yīng)用。Shen等[4]提出了一種二次優(yōu)化網(wǎng)絡(luò),并結(jié)合了矩陣分解進(jìn)行圖像優(yōu)化,是將傳統(tǒng)方法和深度學(xué)習(xí)方法作了結(jié)合。Hu等[5]設(shè)計(jì)了一種基于變壓器的網(wǎng)絡(luò),用于融合低分辨率高光譜圖像和高分辨率多光譜圖像。Qu等[6]為了實(shí)現(xiàn)高光譜圖像超分辨率,提出了一個(gè)無(wú)監(jiān)督的稀疏Dirichler-Net框架。Wang等[7]進(jìn)行多光譜和高光譜圖像融合時(shí)應(yīng)用深度注意力網(wǎng)絡(luò),可以將高光譜圖像的細(xì)節(jié)信息更好地提取。Liu等[8]提出了一種雙分支卷積神經(jīng)網(wǎng)絡(luò)(ResTFNET)來(lái)解決多光譜圖像的泛銳化問(wèn)題,本文中參考這一泛銳化的方法,并引申到高光譜的圖像融合研究中。Han等[9]為了將高光譜圖像的超分辨率問(wèn)題解決,提出了一種深度卷積神經(jīng)網(wǎng)絡(luò)(ConSSFCNN)。Yuan等[10]基于深度CNN,引入多尺度特征提取(MSDCNN)進(jìn)行遙感圖像的處理。Zhang等[11]提出了一種基于CNN的空間光譜信息重構(gòu)網(wǎng)絡(luò)(SSR-NET),以提高融合高光譜圖像的空間分辨率。此網(wǎng)絡(luò)的損失函數(shù)可以很好地計(jì)算到空間邊緣以及光譜邊緣的信息,但是由于高光譜圖像進(jìn)行上采樣的操作有一定的不精確性,相對(duì)于多光譜圖像而言,這樣處理后的高光譜圖像的很多高頻邊緣紋理會(huì)丟失,直接的跨通道融合會(huì)產(chǎn)生結(jié)構(gòu)性的問(wèn)題[12]。
本文中結(jié)合文獻(xiàn)[8,11]提出一種新的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。首先,將SSR-NET的第一步跨通道串聯(lián)圖像的像素級(jí)插值算法部分替換成文獻(xiàn)[8]的雙分支卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),用深度學(xué)習(xí)的方法代替矩陣間計(jì)算的方法進(jìn)行特征提取,可提取到細(xì)節(jié)更豐富的圖像;然后,對(duì)提取到的特征進(jìn)行融合;其次,通過(guò)圖像重建網(wǎng)絡(luò),提取第二步融合圖像中的高空間分辨率的高光譜圖像;最后再對(duì)其進(jìn)行空間邊緣和光譜邊緣的重構(gòu),得到最終的高空間分辨率的高光譜圖像。
預(yù)處理工作包含下采樣、插值、濾波、整形、降維等步驟。融合圖像的質(zhì)量評(píng)估通常采用Wald的協(xié)議[13-14]。本文中的研究重點(diǎn)是低分辨率的高光譜圖像與高分辨率的多光譜圖像之間的融合,實(shí)驗(yàn)所用數(shù)據(jù)集采用目前已公開(kāi)的數(shù)據(jù)集:Botswana和Indian Pines(IP)。Botswana數(shù)據(jù)集總共有波段數(shù)242個(gè),在將未校準(zhǔn)和有噪聲的吸水特征波段去除后,保留剩余的145個(gè)波段,每個(gè)波段的圖像為1 476×256像素,空間分辨率為30 m。IP數(shù)據(jù)集有波段數(shù)224個(gè)。在將覆蓋水吸收區(qū)域的波段去除后,還剩下220個(gè)波段,每個(gè)波段的圖像為145×145像素[15]。
參考的高光譜圖像為原始的高光譜圖像數(shù)據(jù)集,經(jīng)實(shí)驗(yàn)估計(jì)的高光譜圖像表示為Z∈RH×W×L,H和W表示高和寬的尺寸,L表示光譜帶的數(shù)量。輸入的高光譜圖像表示為X∈Rh×w×L,多光譜圖像表示為Y∈RH×W×l。X和Y通過(guò)文獻(xiàn)[11]采用的方法在空間和光譜模式下進(jìn)行下采樣。
X=Gaussian(Z)
(1)
X=Bilinear(X,1/r)
(2)
Y(k)=Z(sk),k∈{1,…,l}
(3)
sk=(k-1)*L/(l-1),sk∈{s1,…,sl}
(4)
其中,X通過(guò)Z經(jīng)高斯濾波器進(jìn)行預(yù)先模糊后以r的比率進(jìn)行下采樣得到。Y以相等的波段間隔從Z采樣,Y(k)表示Y的第k個(gè)波段。s1,…,sl表示高光譜圖像中光譜取樣的編號(hào)。
本文中采用的4個(gè)客觀評(píng)價(jià)指標(biāo)分別為:均方根誤差(root-mean-squared error,RMSE)、峰值信噪比(peak signal-to-noise ratio,PSNR)、相對(duì)無(wú)量綱全局誤差(erreur relative globaleadimensionnelle de synthèse,ERGAS)以及光譜角映射(spectral angle mapper,SAM)。
本文中采用的空間邊緣損失函數(shù)和光譜邊緣損失函數(shù)均采用文獻(xiàn)[11]提出的損失函數(shù)。
2.3.1空間邊緣損失
由于卷積神經(jīng)網(wǎng)絡(luò)的黑盒特性,學(xué)習(xí)特征映射是不可控的。眾所周知,圖像的空間邊緣含有高頻特征,這對(duì)于空間重建至關(guān)重要。為了使空間重構(gòu)網(wǎng)絡(luò)聚焦于空間信息的恢復(fù),應(yīng)用基于空間邊緣的空間邊緣損失算法。
用lspat表示,其公式為:
(5)
(6)
lspat=0.5*lspat1+0.5*lspat2
(7)
2.3.2光譜邊緣損失
在空間重構(gòu)后,利用一個(gè)與空間重構(gòu)相同結(jié)構(gòu)的卷積層進(jìn)一步重構(gòu)光譜信息。類似于空間邊緣,頻帶的頻譜邊緣包含了對(duì)頻譜重建至關(guān)重要的高頻信息。為了著重于光譜信息的恢復(fù),應(yīng)用基于光譜邊緣的空間邊緣損失算法。
用lspec表示,其公式如下:
Espec(i,j,k)=Zspec(i,j,k+1)-Zspec(i,j,k)
(8)
(9)
(10)
對(duì)于最終估計(jì)的高光譜圖像Zfus,它的損失函數(shù)為:
(11)
最終總損失函數(shù)l為:
l=lspat+lspec+lfus
(12)
深度學(xué)習(xí)方法的網(wǎng)絡(luò)可以對(duì)多光譜圖像中的空間信息和高光譜圖像中的光譜信息綜合利用,在物理上直觀地獲得了最佳的融合質(zhì)量。神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)對(duì)CNN的性能發(fā)揮起著至關(guān)重要的作用。
LIM等[16]提出:由于不同于其他圖像處理任務(wù),進(jìn)行圖像融合時(shí),批量歸一化層(batch normal,BN)會(huì)破壞數(shù)字圖像的對(duì)比度等信息,改變圖像的色彩分布特征。因此在本文中去掉雙分支卷積神經(jīng)網(wǎng)絡(luò)中殘差單元的BN層,同時(shí)為了使融合后輸入分量不變,本文中還將雙分支卷積神經(jīng)網(wǎng)絡(luò)中的所有PRelu層刪除。
模型總體結(jié)構(gòu)如圖1所示。輸入的高光譜圖像和多光譜圖像在經(jīng)歷雙分支卷積神經(jīng)網(wǎng)絡(luò)提取特征后進(jìn)行特征融合以及圖像重建得到初步的高分辨率高光譜圖像Zpre,之后將其空間信息和光譜信息進(jìn)行重構(gòu),得到最后的高分辨率高光譜圖像。
圖1 模型總體結(jié)構(gòu)示意圖
3.1.1特征提取融合網(wǎng)絡(luò)
在開(kāi)始階段,我們使用2個(gè)分支分別從HSI和MSI中提取特征信息。2個(gè)分支結(jié)構(gòu)相似,每個(gè)分支由3層卷積和一層下采樣組成。大部分CNN結(jié)構(gòu)使用最大或平均池來(lái)獲得尺度和旋轉(zhuǎn)不變特征,但細(xì)節(jié)信息的提取更為重要,本文中采用步長(zhǎng)為2的卷積核進(jìn)行圖像的下采樣,而不是用簡(jiǎn)單的池化操作實(shí)現(xiàn)。CNN結(jié)構(gòu)中,殘差塊的改進(jìn)如圖2和圖3所示。
在經(jīng)歷特征提取步驟后,我們得到了高光譜圖像和多光譜圖像的特征圖,介于目標(biāo)高光譜圖像要具有高空間以及高光譜分辨率,光譜信息和空間信息必須被特征同時(shí)捕捉到,基于此,將2個(gè)特征圖拼接到一起。融合網(wǎng)絡(luò)結(jié)構(gòu)由4層卷積、一層下采樣和一層上采樣構(gòu)成,它融合了2個(gè)輸入圖像的空間和光譜信息,通過(guò)CNN網(wǎng)絡(luò)將級(jí)聯(lián)的特征映射編碼成更緊湊的表示,特征提取融合部分的網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。其中,CONV表示卷積層,Down-conv表示下采樣卷積層;Fusion表示將從輸入圖像提取到的特征進(jìn)行融合。其中,Up-Conv表示上采樣卷積層,殘差網(wǎng)絡(luò)使用圖2所示的改進(jìn)的網(wǎng)絡(luò)結(jié)構(gòu)。
圖4 特征提取融合網(wǎng)絡(luò)結(jié)構(gòu)示意圖
3.1.2圖像重建網(wǎng)絡(luò)
圖像重建網(wǎng)絡(luò)是在前面已融合的特征中重建所需要的高空間分辨率的高光譜圖像,圖像的空間分辨率應(yīng)采用逐步上采樣的步驟以防止高頻信息的丟失,重建得到的圖像記為Zpre。特征提取網(wǎng)絡(luò)和特征融合網(wǎng)絡(luò)的作用相當(dāng)于編碼過(guò)程,而圖像重建網(wǎng)絡(luò)相當(dāng)于解碼的過(guò)程,從高層特征中恢復(fù)細(xì)節(jié)紋理是困難的,因?yàn)楦邔犹卣饔成鋵?duì)圖像的語(yǔ)義和抽象信息進(jìn)行了編碼。為了恢復(fù)精細(xì)和真實(shí)的細(xì)節(jié),將所有層次的特征表示出來(lái),仍采用圖2所示的改進(jìn)殘差網(wǎng)絡(luò)結(jié)構(gòu),以加強(qiáng)模型訓(xùn)練的穩(wěn)定性以及恢復(fù)更多的細(xì)節(jié)信息。具體結(jié)構(gòu)如圖5所示。
圖5 圖像重建網(wǎng)絡(luò)結(jié)構(gòu)示意圖
在經(jīng)過(guò)前一節(jié)的3個(gè)步驟處理后,為了從Zpre中重構(gòu)空間信息,采用兩層卷積核為3×3的網(wǎng)絡(luò)結(jié)構(gòu),表示為:
Zspat=Zpre+Convspat(Zpre)
(17)
式中:Convspat表示卷積層。跳過(guò)連接(skip-connection)操作用于在訓(xùn)練階段提高模型的穩(wěn)定性。
在空間重構(gòu)后,仍使用與空間信息結(jié)構(gòu)相同的卷積層作為光譜信息重構(gòu)的計(jì)算。其表述如下:
Zspec=Zspat+Convspec(Zspat)
(18)
式中:Convspec(Zspat)表示卷積層,也用到了跳過(guò)連接操作。網(wǎng)絡(luò)結(jié)構(gòu)如圖6所示。
圖6 空間、光譜邊緣信息重構(gòu)網(wǎng)絡(luò)結(jié)構(gòu)示意圖
如表1所示,匯總了在前面所述的各個(gè)階段中,Bostwana數(shù)據(jù)集的網(wǎng)絡(luò)卷積層數(shù)量、卷積核大小、步長(zhǎng)以及輸入和輸出的維度大小。
表1 Bostwana數(shù)據(jù)集中各個(gè)階段的網(wǎng)絡(luò)卷積層數(shù)量、卷積核大小、步長(zhǎng)以及輸入和輸出的維度大小
對(duì)于Bostwana數(shù)據(jù)集,在每次迭代中,將中心128×128子區(qū)域裁剪,作為實(shí)驗(yàn)的測(cè)試圖像,其余區(qū)域用于訓(xùn)練。在每次迭代中,從訓(xùn)練區(qū)域隨機(jī)裁剪具有相同空間分辨率128×128的訓(xùn)練圖像。訓(xùn)練和測(cè)試區(qū)域是不重疊的,這是通過(guò)在訓(xùn)練階段用數(shù)據(jù)集中的零填充測(cè)試區(qū)域來(lái)實(shí)現(xiàn)的,對(duì)于IP數(shù)據(jù)集,因其受限的空間分辨率,在每次迭代中,將中心64×64子區(qū)域裁剪,作為實(shí)驗(yàn)的測(cè)試圖像,其余區(qū)域作為訓(xùn)練圖像。在每次迭代中,從訓(xùn)練區(qū)域隨機(jī)裁剪具有相同空間分辨率64×64的訓(xùn)練圖像,具體做法如圖7所示。選擇ConSSFCNN和MSDCNN以及SSR-NET三種深度學(xué)習(xí)方法作為比較方法來(lái)評(píng)估所提出方法的性能訓(xùn)練階段迭代輪數(shù)為10 000,學(xué)習(xí)率為0.000 1,優(yōu)化器為Adam優(yōu)化器。本文中所有基于深度學(xué)習(xí)的實(shí)驗(yàn)都是在Python 3.9上用Pytorch 1.9.0實(shí)現(xiàn)的,計(jì)算機(jī)硬件設(shè)備參數(shù)為GeForce RTX 3090,主頻為4.0 GHz,內(nèi)存為64 GB。
圖7 數(shù)據(jù)集處理
在Bostwana數(shù)據(jù)集中,像素的空間分辨率高達(dá)30 m,因此,其空間信息比其他數(shù)據(jù)集更復(fù)雜,具有更高的特征提取要求。本文中提出的CNN模型可以在初始階段更好的提取圖像的高頻信息,有利于提取非線性深度特征以及空間重建。圖8和圖9中第一行所列的圖像表示不同方法的融合結(jié)果,第二行表示融合結(jié)果與參考圖像之間的差異。
圖8 不同方法在Bostwana數(shù)據(jù)集上的融合結(jié)果圖
圖9 不同方法在IP數(shù)據(jù)集上的融合結(jié)果圖
由圖8(e)可知,本文中提出算法的融合結(jié)果和參考圖像相比差異更小,融合性能更好;由圖8(b)可知,ConSSFCNN算法的效果并不理想,圖像細(xì)節(jié)信息丟失嚴(yán)重;由圖8(c)可知,MSDCNN算法融合結(jié)果和SSR-NET較為接近,但其對(duì)比度較差,部分紋理細(xì)節(jié)丟失。綜上所述,本文中提出的融合模型融合效果最佳。
由圖9(b)和圖9(c)可知,在IP數(shù)據(jù)集中,ConSSFCNN模型和MSDCNN模型融合結(jié)果分辨率仍較差,圖像細(xì)節(jié)信息丟失嚴(yán)重,圖像邊緣不清晰,場(chǎng)景信息模糊,且和參考圖像相比差異較大;由圖9(d)和圖9(e)可知,雖然提出的方法在與參考圖像對(duì)比度方面較SSR-NET模型差,但是SSR-NET模型融合結(jié)果圖像整體偏暗,含有較差的對(duì)比度,本文中提出的方法得到的融合圖像中,提取了相對(duì)完整的目標(biāo),含有清晰的圖像紋理、適中的亮度以及較高的對(duì)比度,整體融合效果更好,更符合人類視覺(jué)的感知。因此,本文中提出的方法更適合。
圖10和圖11根據(jù)2.2節(jié)所述的4項(xiàng)評(píng)價(jià)指標(biāo)來(lái)對(duì)比本文中所提方法和其他方法的融合情況,其中圖10采用的是數(shù)據(jù)集Bostwana,圖11采用的是數(shù)據(jù)集IP。在四種客觀評(píng)價(jià)指標(biāo)中,PSNR是正向指標(biāo),數(shù)值越大說(shuō)明失真越少圖像越清晰,而其他3個(gè)指標(biāo)RMSE值越小說(shuō)明離散程度越好、ERGAS值越小表明融合質(zhì)量越高、SAM值越小表示光譜失真越少,性能越好。
圖10 不同方法在Bostwana數(shù)據(jù)集上的結(jié)果曲線
圖11 不同方法在IP數(shù)據(jù)集上的結(jié)果曲線
由圖10可知本文中提出的方法的PSNR和RMSE指標(biāo)遠(yuǎn)高于其他3種算法,融合性能更好;在ERGAS和SAM指標(biāo)方面,本文中提出的方法較其他3種算法相比,有著略微的優(yōu)勢(shì)。由圖11可知,本文中提出的方法模型在PSNR、RMSE以及ERGAS評(píng)價(jià)指標(biāo)中具有明顯的性能優(yōu)勢(shì),SAM指標(biāo)則具有微弱的性能優(yōu)勢(shì)。
表2和表3所列的是在2種數(shù)據(jù)集上,不同方法評(píng)價(jià)指標(biāo)的最優(yōu)值。由表2可知,對(duì)于Bostwana數(shù)據(jù)集,本文中提出的方法在PSNR指標(biāo)上,比SSR-NET以及MSDCNN方法高出3.5左右,比ConSSFCNN方法高出9左右,其性能在PSNR方面具有非常大的優(yōu)勢(shì);本文中提出的方法在RMSE指標(biāo)上,和其他3種方法相比,優(yōu)勢(shì)不明顯,但也有略微提升;在ERGAS指標(biāo)上,本文中提出的方法較ConSSFCNN而言,大約提升了13,具有良好的性能優(yōu)勢(shì),和SSR-NET以及MSDCNN方法相比也是有一定的提升;在SAM指標(biāo)方面,本文中方法較其他3種方法均有一定的提升。
表2 不同方法在Bostwana數(shù)據(jù)集上的最優(yōu)值(最優(yōu)值用粗體標(biāo)出)Table 2 Optimal values of different methods on the Bostwanadataset(Optimal values are marked in bold)
表3 不同方法在IP數(shù)據(jù)集上的最優(yōu)值(最優(yōu)值用粗體標(biāo)出)Table 3 Optimal values of different methods on the IP dataset(Optimal values are marked in bold)
由表3可知,在IP數(shù)據(jù)集上,本文中提出的方法在PSNR指標(biāo)方面,比SSR-NET提升了1左右,比MSDCNN提升了2左右,比ConSSFCNN提升了4左右;在RMSE指標(biāo)方面,較SSR-NET而言,提升僅有0.2左右,較MSDCNN提升了1.4左右,較ConSSFCNN提升了2.3左右;在ERGAS方面,本文中方法較SSR-NET和ConSSFCNN而言提升較大,但稍落后于MSDCNN方法,原因是因?yàn)镋RGAS度量的是全局誤差,而本文中改進(jìn)的方法繼續(xù)采用了SSR-NET的損失函數(shù),此損失函數(shù)計(jì)算空間、光譜的邊緣特征,忽略了全局特征;在SAM指標(biāo)方面,本文中提出的方法均具有不同程度的性能提升。
提出一種基于CNN的高光譜和多光譜圖像融合方法。將初始圖像信息整合從圖像域轉(zhuǎn)化到特征域,可以更好地對(duì)圖像高頻信息進(jìn)行提取,防止丟失細(xì)節(jié)信息;在進(jìn)行空間信息和光譜信息重構(gòu)時(shí),將卷積層增加至四層,圖像的更深層次特征可以由更深層次的網(wǎng)絡(luò)結(jié)構(gòu)提取到,具有更多的非線性特征,增強(qiáng)了網(wǎng)絡(luò)的判別能力。并沒(méi)有采用更深層的網(wǎng)絡(luò),避免了過(guò)深的網(wǎng)絡(luò)產(chǎn)生的過(guò)擬合。實(shí)驗(yàn)結(jié)果表明,本文中提出的方法較SSR-NET、MSDCNN、ConSSFCNN等方法而言,具有更優(yōu)越的性能。后續(xù)將進(jìn)一步對(duì)圖像融合耗時(shí)和模型結(jié)構(gòu)等問(wèn)題進(jìn)行改進(jìn),以將更好的圖像融合效果所達(dá)到。