遙感圖像時空融合綜述

2022-05-19 13:25:28楊廣奇鐘錫武錢育蓉

計算機工程與應(yīng)用 2022年10期

楊廣奇，劉慧，鐘錫武，陳龍，錢育蓉

1.新疆維吾爾自治區(qū)信號檢測與處理重點實驗室，烏魯木齊 830046 2.新疆大學(xué) 軟件學(xué)院，烏魯木齊 830000 3.新疆大學(xué) 信息工程學(xué)院，烏魯木齊 830000 4.新疆大學(xué) 軟件工程重點實驗室，烏魯木齊 830000

隨著計算機的發(fā)展，遙感技術(shù)取得了很大進步，遙感領(lǐng)域進入了一個更大范圍、更高精度、更深層次的階段[1]。時間密集的高空間分辨率遙感圖像在資源調(diào)查[2-3]、森林監(jiān)測[4]、生態(tài)系統(tǒng)動態(tài)監(jiān)測[5]、實時災(zāi)害[6]等動態(tài)監(jiān)測和變化檢測的應(yīng)用方面都有重要作用。然而，由于技術(shù)和預(yù)算的限制，目前的遙感衛(wèi)星還存在著“時空矛盾”的問題[7]，即單個衛(wèi)星傳感器不能同時獲取高空間、高時間分辨率兼并的遙感圖像數(shù)據(jù)[8]。

一個經(jīng)濟有效的解決方案是時空特征融合方法，該方法的核心思想是將來自多個衛(wèi)星傳感器的不同類型的遙感圖像融合在一起，獲得具有高空間分辨率和高時間分辨率的遙感圖像[9]。例如，高空間分辨率陸地衛(wèi)星（Landsat）系列傳感器獲得的遙感衛(wèi)星圖像空間分辨率約為30 m，并且可以用于森林監(jiān)測、精準(zhǔn)農(nóng)業(yè)、生態(tài)環(huán)境動態(tài)監(jiān)測和土地覆蓋分類等領(lǐng)域[10-12]。因為低空間分辨率的圖像具有局限性，所以提取到地物的紋理等細節(jié)特征受阻。例如低空間分辨率傳感器Aqua和Terra衛(wèi)星上的中分辨率成像光譜儀（MODIS）能夠獲得高時間分辨率圖像，重返周期為一天，但是空間分辨率較低，只有250~1 000 m[13]。時空融合的方法就是將這兩種類型的圖像融合，使得融合后的圖像同時具有高時間分辨率和高空間分辨率，在滿足地物快速變化的同時，保留地物細節(jié)等特征。

1 相關(guān)工作

本文總結(jié)了五類時空特征融合方法：基于分解的方法、基于權(quán)值函數(shù)的方法、基于貝葉斯的方法、基于學(xué)習(xí)的方法和混合的方法[14]。最先被提出的是基于分解的時空融合算法，例如多傳感器多分辨率技術(shù)（multisensor multiresolution technique，MMT）[15]、LAC-GAC NDVI Integration[16]等。隨后出現(xiàn)大量基于權(quán)重的時空融合方法，此類方法包含的模型數(shù)量最多，最為代表性的是時空自適應(yīng)反射融合模型（spatial and temporal adaptive reflectance fusion，STARFM）[17]，之后基于STARFM方法衍生出非常多的方法?；谪惾~斯的方法將時空融合視為最大后驗概率問題，代表方法有貝葉斯最大熵（Bayesian maximum entropy，BME）[18]、Unified Fusion[19]等。隨著機器學(xué)習(xí)算法的逐漸成熟，時空融合領(lǐng)域也不斷涌現(xiàn)出基于學(xué)習(xí)的算法，如基于稀疏表示的時空反射融合模型（spatiotemporal reflectance fusion，SPSTFM）[20]、One-pair Learning Method[21]等。近年來，神經(jīng)網(wǎng)絡(luò)等深度學(xué)習(xí)模型由于其強大的自動特征表示學(xué)習(xí)能力，能夠從原始數(shù)據(jù)中自動高效地學(xué)習(xí)空間鄰近性和時間相關(guān)性，在各種機器學(xué)習(xí)任務(wù)中都取得了顯著的結(jié)果[22]。為了結(jié)合各類方法，將各類方法最大的優(yōu)勢集中在一起，提出了混合方法，比如靈活時空數(shù)據(jù)融合（flexible spatiotemporal data fusion，F(xiàn)SDAF）[23]、時空反射分解模型（spatial and temporal reflectance unmixing model，STRUM）[24]等。

本文主要總結(jié)了現(xiàn)有的基于深度學(xué)習(xí)的遙感圖像時空融合算法及其評估標(biāo)準(zhǔn)，分析各個模型的特點優(yōu)勢與存在的問題，并對未來的發(fā)展方向提出展望。本文的貢獻可歸納如下：

（1）對遙感圖像時空融合的算法進行分類總結(jié)分析。

（2）在AHB、DX、TJ數(shù)據(jù)集上進行傳統(tǒng)和深度學(xué)習(xí)模型的實驗分析。

（3）為后期遙感圖像時空融合研究提供理論參考。

2 基于傳統(tǒng)遙感圖像時空融合

2.1 基于分解的時空融合模型

基于分解的方法采用線性光譜混合理論，通過分析粗像素的組成并對其進行分解來估計細像素的值。Zhukov等提出的MMT[15]是一種融合不同時間和不同空間分辨率衛(wèi)星圖像的基于分解的方法。該方法將分解過程中已有的所有信息融合在一起，采用以下四個步驟來預(yù)測精細分辨率圖像：（1）對輸入的高分辨率圖像分類得到高分辨率分類圖。（2）對低分辨率像素信號的類貢獻進行定義。（3）對基于窗口的粗像素進行分解。（4）未混合（銳化）圖像的重建。但是MMT仍不能很好地解決光譜分解誤差較大和類內(nèi)可變性問題。為了解決類內(nèi)變異性問題，Maselli等[25]提出使用局部校正的多元回歸模型，通過局部校正的統(tǒng)計量來處理類內(nèi)NDVI的空間變異性。Landsat-MERIS[26]采用改進的正則化分解方法增加圖像土地覆蓋類別的光譜可變性。此外，改進的成本函數(shù)使處理結(jié)果更加穩(wěn)健。Zhang等[16]在STDFM算法的基礎(chǔ)上，引入基于補丁的分類方法和滑動窗口技術(shù)，充分考慮了空間異質(zhì)性，使預(yù)測結(jié)果更加符合實際地物的變化。Wu等[27-28]通過在一個移動窗口中分解輸入和預(yù)測日期的端元反射率來估計反射率變化，將估計的反射率變化添加到基礎(chǔ)精細分辨率圖像中得到預(yù)測，又通過自適應(yīng)窗口大小選取的方法，更精確地分解像素。Lu等[29]采用多數(shù)據(jù)分割技術(shù)，確定最佳分割尺度以此改進像素信息的提取，減緩分解誤差較大的問題。Zurita-Milla等[30]利用基于解混的數(shù)據(jù)融合技術(shù)，引入約束條件，成功保留了更多光譜信息。

基于分解的時空融合的這類模型起源最早，算法原理簡單并且易于操作，但是由于粗圖像分辨率過低而無法準(zhǔn)確地分解每一種地物信息，在土地覆蓋類型較多的混合區(qū)域無法分解出較好的結(jié)果。此類方法適用土地覆蓋類型較少的場景，具體方法對比分析如表1所示。

表1 基于分解的時空融合模型Table 1 Spatiotemporal fusion models based on decomposition

2.2 基于權(quán)函數(shù)的時空融合模型

基于權(quán)函數(shù)的方法通過權(quán)函數(shù)結(jié)合所有輸入圖像的信息來估計精細像素值。Gao等[17]首次提出基于權(quán)函數(shù)的時空自適應(yīng)反射率融合模型STARFM。STARFM采用加權(quán)函數(shù)來預(yù)測像素，加權(quán)函數(shù)通過數(shù)據(jù)間的光譜差異和鄰近像素的信息計算得出。STARFM存在兩個主要問題：在多種土地覆蓋類型的異質(zhì)景觀中效果較差，權(quán)函數(shù)是經(jīng)驗函數(shù)。為了提高STARFM在異質(zhì)景觀中的預(yù)測效果，Zhu等[31]提出增強自適應(yīng)反射率融合模型（enhanced STARFM，ESTARFM），使用轉(zhuǎn)換系數(shù)更準(zhǔn)確地保證了對小對象和線性對象的反射率預(yù)測。映射反射變化的時空自適應(yīng)算法（spatial temporal adaptive algorithm for mapping reflectance change，STAARCH）[32]從粗圖像的密集時間序列中監(jiān)測變化點，以較好的細節(jié)水平識別景觀的空間和時間變化。SADFAT[33]算法修改了STARFM，通過轉(zhuǎn)換系數(shù)將粗細分辨率圖像上的熱輻射變化聯(lián)系起來。Hwang等[34]提出基于多時相數(shù)據(jù)的復(fù)雜地形下植被動態(tài)降尺度算法，通過降尺度技術(shù)將MODIS和Landsat數(shù)據(jù)融合，并且在降尺度的過程中補償物候差異，最后緩解了空間異質(zhì)性問題。Shen等[35]考慮不同傳感器的觀測差異，改變STARFM中計算像素權(quán)重的方式，提高最終的預(yù)測精度。Fu等[36]對ESTARFM進行了改進，引入了土地覆蓋數(shù)據(jù)作為光譜相似相鄰像素的補充信息，使得在預(yù)測圖像時能夠保留更相似的空間細節(jié)。

基于權(quán)重函數(shù)的時空融合模型理論簡單，出現(xiàn)大量基于權(quán)重函數(shù)的變體算法，但大多屬于經(jīng)驗函數(shù)，依賴其他輸入圖像的像素信息，這導(dǎo)致當(dāng)土地覆蓋類型過多或發(fā)生土地覆蓋突變等異常變化時難以從相鄰圖像提取精確的信息，反而融合精度較差。此類方法適用于土地覆蓋小范圍變化的場景，具體方法對比分析如表2所示。

表2 基于權(quán)重的時空融合模型Table 2 Spatiotemporal fusion models based on weight

2.3 基于貝葉斯的方法

時空貝葉斯數(shù)據(jù)融合將圖像時間序列中的時間相關(guān)信息結(jié)合起來，將融合問題轉(zhuǎn)化為估計問題[37]。Li等[18]使用貝葉斯最大熵的融合方法避免由縮放造成的復(fù)雜性和不確定性。Huang等[19]提出統(tǒng)一模型，通過低通濾波對空間關(guān)系進行建模，并使用線性模型對時間關(guān)系進行建模。在NDVI-BSFM[38]中，使用線性混合模型對高分辨率圖像和低分辨率圖像進行建模，同時利用多年NDVI時間序列作為先驗信息進行建模。Xue等[39]提出將圖像時間序列中的事件信息結(jié)合起來，將融合問題轉(zhuǎn)化為估計問題，提高了在異質(zhì)景觀場景中的融合效果。Shen等[40]在所提出的融合框架中，利用最大后驗概率理論來描述逆融合問題，建立綜合關(guān)系模型，利用共軛梯度優(yōu)化算法完成最終的融合。

基于貝葉斯的融合方法的重點在于對觀測圖像和待預(yù)測圖像之間的關(guān)系進行建模，當(dāng)發(fā)生土地覆蓋類型變化時會導(dǎo)致預(yù)測精度降低。此方法適用對模型靈活性要求高的場景，具體方法對比分析如表3所示。

表3 基于貝葉斯的時空融合模型Table 3 Spatiotemporal fusion models based on Bayesian

2.4 基于學(xué)習(xí)的方法

基于學(xué)習(xí)的方法使用機器學(xué)習(xí)對觀測到的圖像對之間的關(guān)系建模，預(yù)測未觀測到的圖像[14]。Huang[20]通過稀疏表示將細圖像和粗圖像之間的對應(yīng)關(guān)系訓(xùn)練為字典對，利用兩對已知粗細圖像對之間的變化關(guān)系對預(yù)測圖像進行預(yù)測。隨后Song等[21]進行了優(yōu)化，提出基于一對圖像對進行預(yù)測的融合方法。Wu等[41]對字典擾動的誤差界進行正則化，從而達到預(yù)測精度。Liu等[42]利用極限學(xué)習(xí)機技術(shù)，建立一個學(xué)習(xí)差分圖像的映射函數(shù)，實現(xiàn)快速準(zhǔn)確的精細預(yù)測。Moosavi等[43]結(jié)合小波變換和人工智能方法，構(gòu)建出一個非線性模型來處理地表溫度的非線性特征。Wei等[44]提出結(jié)構(gòu)稀疏和半耦合學(xué)習(xí)的方法解決稀疏表示降低表達精度的問題。

基于學(xué)習(xí)的方法根據(jù)精細和粗略分辨率圖像的結(jié)構(gòu)相似性建立對應(yīng)關(guān)系，可以捕獲預(yù)測中的主要特征，包括土地覆蓋類型變化等，但是由于粗圖像與細圖像之間的尺度差異較大，無法準(zhǔn)確地保持預(yù)測對象的形狀，尤其是不規(guī)則形狀的地物對象。此方法適用于對數(shù)據(jù)樣本量大、時間跨度長的場景，具體方法對比分析如表4所示。

表4 基于學(xué)習(xí)的時空融合模型Table 4 Spatiotemporal fusion models based on learning

2.5 基于混合的方法

一些時空融合方法結(jié)合分解方法、貝葉斯理論、權(quán)重函數(shù)和學(xué)習(xí)方法的優(yōu)勢來追求更好的融合效果。例如Zhu等提出了將基于分解的方法、基于權(quán)重的方法和空間插值思想集中在一起的時空融合方法FSDAF[23]，F(xiàn)SDAF能夠融合具有挑戰(zhàn)性的場景中的圖像，即異質(zhì)景觀和突然的土地覆蓋變化。時空遙感圖像和土地覆蓋圖融合模型（spatial-temporal remotely sensed images and land cover maps fusion model，STIMFM）[45]結(jié)合光譜分解和貝葉斯框架，將多時相粗圖像和少量土地覆蓋圖生成一系列精細時空分辨率的土地覆蓋圖。時空反射分解模型（spatial and temporal reflectance unmixing model，STRUM）[24]采用貝葉斯的方法分解粗圖像中的時間差異，利用STARFM原理將時間差異添加到細圖像中得到融合圖像。為了生成高空間細節(jié)的日精細分辨率地表溫度，BLEST[46]將權(quán)值函數(shù)、時間插值和空間降尺度融合，保留更多的空間細節(jié)和時間變化信息。

混合的時空融合方法可以通過多種方法的組合來處理不同的土地覆蓋類型變化問題，提高了模型的泛化能力，但同時也提高了算法的復(fù)雜性，限制了算法的大規(guī)模應(yīng)用。此方法適用于要求預(yù)測精度高、模型復(fù)雜度沒有限制的場景，具體方法對比分析如表5所示。

表5 基于混合的時空融合模型Table 5 Spatiotemporal fusion models based on hybrid

3 基于深度學(xué)習(xí)的遙感圖像時空融合

在基于多層次的遙感圖像超分辨率重建中，基于時序和空間特征的融合在近些年取得了突破，尤其是基于深度學(xué)習(xí)的時空融合為其發(fā)展指明了新的方向。

基于深度學(xué)習(xí)的時空融合算法一般都需要一對到兩對先驗信息。先驗信息表示同一時刻的高空間低時間分辨率和低空間高時間分辨率結(jié)合而成的一對信息。目前，在遙感圖像時空融合領(lǐng)域，大多數(shù)實驗中高空間低時間分辨率（HSLT）采用Landsat數(shù)據(jù)集，低空間高時間分辨率（LSHT）采用MODIS數(shù)據(jù)集。接下來主要總結(jié)了近兩年來涌現(xiàn)出的基于深度學(xué)習(xí)的時空融合算法，分析各個算法的特點，并對基于深度學(xué)習(xí)的融合算法進行對比，如表6所示。

表6 深度學(xué)習(xí)時空融合模型對比Table 6 Comparison of deep learning spatiotemporal fusion models

3.1 基于普通卷積網(wǎng)絡(luò)的時空融合算法

Song等[47]提出了一種基于CNN的時空融合算法（spatiotemporal fusion using deep convolutional neural networks，STFDCNN）。該方法訓(xùn)練階段分為兩部分，這兩部分充分利用殘差網(wǎng)絡(luò)的思想，讓網(wǎng)絡(luò)著重于學(xué)習(xí)高頻細節(jié)，如圖1左圖所示。預(yù)測階段，為了利用預(yù)測日期前后的兩個臨近時刻的先驗圖像的時間變化信息，應(yīng)用了高通調(diào)制方法[48]來預(yù)測圖像。該方法既可以使用兩對先驗圖像又可以使用一對先驗圖像來對預(yù)測圖像進行信息的補充，在先驗圖像的對數(shù)方面沒有嚴(yán)格的限制。雖然該方法總體表現(xiàn)良好，但是在預(yù)測時由于使用高通調(diào)制和權(quán)重融合，不可避免地會丟失一些空間細節(jié)。

圖1 STFDCNN網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.1 STFDCNN network structure diagram

Tan等[49]提出的深度卷積時空融合網(wǎng)絡(luò)（deep convolutional spatiotemporal fusion network，DCSTFN）找到了低空間分辨率高時間分辨HTLS與低時間分辨率高空間分辨LTHS圖像之間的直接非線性映射關(guān)系。網(wǎng)絡(luò)包含兩部分，如圖2所示，第一部分是一個共享子網(wǎng)絡(luò)，在提取HTLS和LTHS低頻分量特征的同時擴展其尺寸，第二部分對LTHS的先驗圖像進行高頻分量特征的提取，最后，將三張圖像得來的特征進行融合。該算法的優(yōu)點是利用一對先驗圖像即可進行預(yù)測，然而這對先驗圖像的要求比較高，如果僅有的一對先驗圖像質(zhì)量不高，將會極大程度地影響預(yù)測結(jié)果。另外，隨著網(wǎng)絡(luò)層數(shù)的深度加深，引入殘差網(wǎng)絡(luò)也可以解決該算法可能存在的網(wǎng)絡(luò)退化問題。隨后Tan等對DCSTFN算法進行改進，提出增強型深卷積時空融合網(wǎng)絡(luò)（enhanced deep convolutional spatiotemporal fusion network，EDCSTFN）[50]，引入雙分支以支持兩對參考圖像。此外，引入新的復(fù)合損失函數(shù)，將圖像的精度和視覺損失結(jié)合起來，能夠較好地預(yù)測土地覆蓋變化問題，并盡可能地保留高頻信息，生成清晰的圖像。

圖2 DCSTFN網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.2 DCSTFN network structure diagram

Liu等[51]基于卷積神經(jīng)網(wǎng)絡(luò)提出了雙流卷積神經(jīng)網(wǎng)絡(luò)（two-stream convolutional neural network，StfNet）。該方法為了緩解在特征提取過程中出現(xiàn)的空間信息丟失問題，引入了時間依賴性和時間一致性原理。網(wǎng)絡(luò)結(jié)構(gòu)如圖3，預(yù)測日期的圖像分別與前一刻日期和后一刻日期的圖像結(jié)合，利用時間依賴性得到兩個精細圖像特征，兩個精細圖像特征再利用時間一致性獲得最終的預(yù)測結(jié)果。此方法在客觀和主觀評價方面都取得了非常好的性能。

圖3 StfNet網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.3 StfNet network structure diagram

3.2 基于殘差網(wǎng)絡(luò)的時空融合算法

Wang等[52]提出了基于殘差網(wǎng)絡(luò)的時空融合算法，如圖4所示，網(wǎng)絡(luò)建立了一種低空間高時間分辨率圖像與高空間低時間分辨率圖像之間的非線性映射模型。該方法增加了神經(jīng)網(wǎng)絡(luò)的深度，提取到了更多的細節(jié)特征，并且利用殘差網(wǎng)絡(luò)避免或減少了梯度消失的問題。但是對數(shù)據(jù)集的時間信息提取不足，不能精準(zhǔn)地預(yù)測土地覆蓋類型的變化。

圖4 基于殘差網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.4 Network diagram based on residual network

3.3 基于生成對抗網(wǎng)絡(luò)的時空融合算法

Zhang等[53]提出了一種基于生成對抗網(wǎng)絡(luò)的時空融合方法（spatiotemporal fusion method using a GAN，STFGAN），借鑒SRGAN（generative adversarial network for image super resolution）[54]的思想，如圖5所示，利用生成對抗網(wǎng)絡(luò)的優(yōu)勢提高預(yù)測效果，并且在生成器中引入殘差學(xué)習(xí)的結(jié)構(gòu)，使深層次結(jié)構(gòu)網(wǎng)絡(luò)也能獲取到更多地物細節(jié)以及高級抽象特征的同時避免了梯度消失和梯度爆炸問題。生成器對抗網(wǎng)絡(luò)的參數(shù)量多和難訓(xùn)練是該模型最需要優(yōu)化的問題。

圖5 IFGAN模塊結(jié)構(gòu)圖Fig.5 IFGAN module structure diagram

為了緩解模型對參考圖像過于依賴的問題，Tan等[55]提出基于生成對抗網(wǎng)絡(luò)的時空融合模型（GAN-based spatiotemporal fusion model，Ganstfm），如圖6所示。在以往模型中，往往需要一對或者兩對參考圖像，并且必須對參考圖像應(yīng)用嚴(yán)格的約束。為了應(yīng)對該問題，并且提升模型在惡劣條件下圖像的預(yù)測精度，采用條件生產(chǎn)對抗網(wǎng)絡(luò)和可切換歸一化模塊，緩解了對輸入圖像的嚴(yán)格限制。

圖6 Ganstfm網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.6 Ganstfm network structure diagram

3.4 基于多尺度與擴張卷積的時空融合算法

Li等[56]提出基于多尺度機制和擴張卷積的神經(jīng)網(wǎng)絡(luò)（network architecture using dilated convolution and multiscale mechanisms，DMNet），網(wǎng)絡(luò)結(jié)構(gòu)如圖7所示，不但避免局部特征冗余，而且獲取更多的圖像特征，利用多尺度機制采用不同尺度卷積核提取圖像的信息，可以更加準(zhǔn)確地提取到特征圖的時間變化和空間細節(jié)。同時引入跳躍連接，避免了多尺度機制造成特征信息的丟失。

圖7 DMNet網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.7 DMNet network structure diagram

3.5 基于3D卷積神經(jīng)網(wǎng)絡(luò)的時空融合算法

隨著遙感技術(shù)和傳感器的快速發(fā)展，目前已經(jīng)積累了大量的遙感數(shù)據(jù)，為長時間序列遙感數(shù)據(jù)的處理奠定基礎(chǔ)。Peng等[57]提出了基于三維卷積神經(jīng)網(wǎng)絡(luò)的融合方法（fast three-dimensional convolutional neural network，STF3DCNN），結(jié)構(gòu)如圖8所示，主要包括剩余序列排序和剩余特征映射網(wǎng)絡(luò)，根據(jù)4D殘差規(guī)則使數(shù)據(jù)排列成4D殘差序列數(shù)據(jù)集，將數(shù)據(jù)集輸入到剩余特征映射網(wǎng)絡(luò)中進行預(yù)測。該方法首次使用三維卷積和四維數(shù)據(jù)進行時空融合，時間權(quán)重改善了季節(jié)性有規(guī)律變化的土地覆蓋類型，在保持總體精度的同時顯著減少了總運行時間。但該模型對于輸入數(shù)據(jù)要求嚴(yán)格，并且突然不規(guī)則的土地覆蓋變化沒有得到改善。

圖8 STF3DCNN網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.8 STF3DCNN network structure diagram

3.6 基于Transformer的時空融合方法

作為注意力機制的一個應(yīng)用，Transformer引入到視覺領(lǐng)域后取得了良好的效果。為了能夠?qū)W習(xí)全局變換信息，Li等[58]引入ViT（vision Transformer），ViT與卷積結(jié)構(gòu)進行結(jié)合設(shè)計出雙分支網(wǎng)絡(luò)，分支的結(jié)構(gòu)如圖9所示。網(wǎng)絡(luò)在提取到特征的同時，利用ViT的自我注意機制和位置信息來學(xué)習(xí)粗圖像局部和全局時間變化信息之間的關(guān)系，同時使用平均加權(quán)的方法對兩個分支進行融合，使融合效果更佳精確。

圖9 MSNet網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.9 MSNet network structure diagram

4 實驗

4.1 數(shù)據(jù)集

本文選取了AHB數(shù)據(jù)集、天津數(shù)據(jù)集（TJ）和大興數(shù)據(jù)集（DX），分別收集于內(nèi)蒙古科爾沁旗、天津市和北京市大興區(qū)。每一幅遙感數(shù)據(jù)具有6個波段，包括藍色波段、綠色波段、紅色波段、近紅外波段、短波紅外-1波段、短波紅外-2波段[9]。各個數(shù)據(jù)集總結(jié)詳細信息見表7所示。

表7 數(shù)據(jù)集介紹Table 7 Dataset introduction

4.2 實驗環(huán)境和實現(xiàn)細節(jié)

因為在MODIS圖像的兩個短波紅外波段存在著明顯的條帶噪聲，這給訓(xùn)練過程帶來了很大的挑戰(zhàn)，在實驗中只用前四個波段進行訓(xùn)練。粗細圖像對（低分辨率和高分辨率圖像對），三對組成一組訓(xùn)練數(shù)據(jù)，分別是t0、t1、t2時刻的圖像對。t0和t2是參考圖像，為了預(yù)測t1時刻的高分辨率圖像。數(shù)據(jù)集的80%用于模型的訓(xùn)練，20%用于模型的驗證和測試。由于訓(xùn)練過程中整張輸入圖像會導(dǎo)致運行顯存不足，數(shù)據(jù)采用分塊訓(xùn)練（整張訓(xùn)練需要太大顯存），把遙感數(shù)據(jù)分為80×80。訓(xùn)練細節(jié)方面，本模型采用Adam優(yōu)化方法更新模型的參數(shù)，其中初始學(xué)習(xí)率為0.001，batch_size設(shè)置為8，epoch設(shè)置為30。本文使用Pytorch實現(xiàn)所有的實驗，并在NVIDIA RTX 3090設(shè)備上進行測試，具體實驗環(huán)境配置如表8所示。

表8 實驗環(huán)境介紹Table 8 Introduction to environment experiment

4.3 評價標(biāo)準(zhǔn)

圖像質(zhì)量評價一直是計算機視覺中的重要問題。本文使用研究人員提出的通用評價指標(biāo)對不同數(shù)據(jù)集上的實驗結(jié)果進行分析。

（1）峰值信噪比

峰值信噪比（peak signal to noise ratio，PSNR）[59]是一種十分常用的圖像質(zhì)量評價準(zhǔn)則，在圖像像素級別反映了待評價圖像與真實參考圖像間的統(tǒng)計差異性。通過計算對應(yīng)像元間灰度差異的統(tǒng)計均值來反映相似性與圖像質(zhì)量好壞：

其中，R為真實參考圖像，S為重建后的圖像，MAX為圖像點顏色的最大值，m、n為圖像的尺寸。

（2）結(jié)構(gòu)自相似性

結(jié)構(gòu)自相似性（structural similarity，SSIM）[60]是一種評價圖像質(zhì)量的優(yōu)良準(zhǔn)則，主要認為人眼對圖像質(zhì)量的評價是基于圖像中的結(jié)構(gòu)信息，因此好的圖像質(zhì)量應(yīng)該能夠較好地保持恢復(fù)圖像中的結(jié)構(gòu)信息，做到結(jié)構(gòu)失真盡量最低。為此，提出了結(jié)構(gòu)相似性測度：

其中，μx、σx分別為待評價圖像x的均值與標(biāo)差，μy、σy分別為參考圖像y的均值與標(biāo)準(zhǔn)差，σxy為二者的協(xié)方差。通過式（5）可以看出，SSIM評價準(zhǔn)則的取值范圍為-1到1，SSIM值越大，圖像質(zhì)量越高。

（3）相對全局綜合誤差

相對全局綜合誤差（ERGAS）[61]用來計算所有波段出現(xiàn)的光譜錯誤率，主要評價融合圖像的波段的光譜質(zhì)量，其公式如下：

其中，h為高分辨率的圖片的分辨率，l為低分辨率的圖片的分辨率，N為波段數(shù)，Bi為多光譜圖像，M i為多光譜圖像的輻射率的平均值。ERGAS值越小，表明在光譜范圍，融合后的圖像的光譜質(zhì)量越好，光譜損失越少。

（4）光譜角相似度

普通圖像沒有光譜角相似度（spectral angle mapper，SAM）[62]這個概念，其只存在于多光譜和高光譜圖像，計算的是融合圖像的整體光譜扭曲度，用于度量原始高光譜數(shù)據(jù)與重構(gòu)高光譜數(shù)據(jù)之間的光譜相似度，公式如下：

（5）空間相關(guān)系數(shù)

為了評估融合圖像與參考圖像空間細節(jié)的相似性，利用高通濾波器提取參考圖像的高頻信息，計算高頻信息之間的相關(guān)系數(shù)（correlation coefficient，CC）[63]。這種數(shù)量指標(biāo)稱為空間相關(guān)系數(shù)。CC越高，說明融合過程中PAN圖像的大部分空間信息都被注入。計算融合圖像和參考圖像之間的CC，最終的CC在MS圖像的所有波段上取平均值。

相關(guān)系數(shù)的計算為：

其中，X為融合圖像，Y為參考圖像，w和h為圖像的寬和高，μ表示圖像的平均值。

（6）均方根誤差

均方根誤差（root mean square error，RMSE）[64]表示融合結(jié)果與實際觀測圖像之間的輻射差異的全局描述，通過直接計算像素值的變化來比較融合結(jié)果與觀測圖像的差異。定義如下：

4) 通過小曲拐最大節(jié)點應(yīng)力應(yīng)變的變化趨勢得知3個小曲拐有相似的運動規(guī)律與受力狀況。符合小曲拐平面四桿機構(gòu)的運動規(guī)律，為小曲拐進一步的優(yōu)化提供重要的參考。

其中，L和L?分別表示實際觀測圖像和融合結(jié)果，R和C分別記錄圖像的寬度和高度。RMSE越小，預(yù)測效果越好。

4.4 實驗結(jié)果分析

4.4.1 定量分析

本實驗采用STARFM、FSDAF、DCSTFN、EDCSTFN作為基準(zhǔn)模型，綜合超分辨率重建的評價指標(biāo)，分別采用PSNR、SAM、SSIM、ERGAS、CC、RMSE評價模型性能。STARFM和FSDAF是傳統(tǒng)模型，DCSTFN是單分支的深度學(xué)習(xí)模型，EDCSTFN是雙分支的深度學(xué)習(xí)模型，并且由DCSTFN改進而來，選擇這四個模型可以有效地觀察傳統(tǒng)模型和深度學(xué)習(xí)模型的區(qū)別，以及單分支模型和雙分支模型之間的區(qū)別。

表9為基準(zhǔn)模型在AHB數(shù)據(jù)集上的測試結(jié)果，傳統(tǒng)模型在峰值信噪比（PSNR）、光譜角映射器（SAM）、結(jié)構(gòu)相似性（SSIM）、相對全局綜合尺度（ERGAS）、均方根誤差（RMSE）指標(biāo)上都略低于深度學(xué)習(xí)模型，但在相關(guān)系數(shù)（CC）指標(biāo)上要比深度學(xué)習(xí)的模型高。這是由于AHB數(shù)據(jù)集地物目標(biāo)較多，現(xiàn)有的大多數(shù)深度學(xué)習(xí)時空融合模型對于多地物特征的重建有一定的困難。同時深度學(xué)習(xí)模型在提取特征方面具有獨特的優(yōu)勢，使得模型在其他方面有不錯的效果。

對于DX數(shù)據(jù)集和TJ數(shù)據(jù)集，深度學(xué)習(xí)模型的各方面指標(biāo)都可以取得最好的效果，如表10和表11所示。在指標(biāo)方面，部分指標(biāo)不如AHB數(shù)據(jù)集上的效果優(yōu)秀，是因為DX和TJ是城市數(shù)據(jù)集，城市擁有更多的細節(jié)特征需要模型學(xué)習(xí)。低分辨率圖像與高分辨率圖像的分辨率比值是1∶16，也給細節(jié)特征的提取帶來一些困難。

表10 DX數(shù)據(jù)集實驗結(jié)果Table 10 Experimental results of DX dataset

表11 TJ數(shù)據(jù)集實驗結(jié)果Table 11 Experimental results of TJ dataset

4.4.2 定性分析

本實驗選擇了一些樣本圖片進行預(yù)測，并展示了它的預(yù)測結(jié)果。

圖10 AHB數(shù)據(jù)集部分樣例測試結(jié)果Fig.10 Sample test results of AHB dataset

圖11顯示了在DX數(shù)據(jù)集上各個模型的預(yù)測結(jié)果圖。在DX數(shù)據(jù)集中，深度學(xué)習(xí)模型在每個指標(biāo)上都要優(yōu)于傳統(tǒng)學(xué)習(xí)模型，與AHB不同的是，DX數(shù)據(jù)集中主要是城市和農(nóng)田，目標(biāo)種類較少，在圖像全局效果方面得到了比較不錯的重建。但是也由于城市具有大量的細節(jié)特征，部分特征細節(jié)難以提取，使得指標(biāo)略低于AHB數(shù)據(jù)集。

圖11 DX數(shù)據(jù)集部分樣例測試結(jié)果Fig.11 Sample test results of DX dataset

圖12顯示了在TJ數(shù)據(jù)集上各個模型的預(yù)測結(jié)果圖。與DX數(shù)據(jù)集相似，TJ數(shù)據(jù)集也主要包含城市和農(nóng)村，目標(biāo)種類較少，深度學(xué)習(xí)模型在每個指標(biāo)上都要優(yōu)于傳統(tǒng)學(xué)習(xí)模型，在圖像全局特征和局部特征細節(jié)方面也都有比較不錯的重建效果。

圖12 TJ數(shù)據(jù)集部分樣例測試結(jié)果Fig.12 Sample test results of TJ dataset

5 總結(jié)和展望

隨著遙感技術(shù)的發(fā)展，單一的衛(wèi)星傳感器獲取到的遙感圖像已不能滿足實際應(yīng)用的需求，遙感圖像時空融合技術(shù)作為解決該問題的有效方法，逐漸得到國內(nèi)外研究學(xué)者的關(guān)注，尤其是將深度學(xué)習(xí)方法引入時空融合領(lǐng)域后，基于深度學(xué)習(xí)的時空融合算法在與傳統(tǒng)的時空融合算法比較中取得了明顯的優(yōu)勢。本文總結(jié)了各類遙感圖像時空融合算法，著重分析了基于深度學(xué)習(xí)的時空融合模型的優(yōu)勢和不足，并對時空融合模型的數(shù)據(jù)方面和模型方面做出如下展望。

（1）多源數(shù)據(jù)融合

在科技快速發(fā)展的支持下，已經(jīng)有越來越多的衛(wèi)星傳感器、無人機和雷達等可以獲取到各種類型的遙感圖像，而目前大多數(shù)時空融合算法使用兩種類型的數(shù)據(jù)進行融合，未來的時空融合方法可以考慮將多種類型的遙感數(shù)據(jù)結(jié)合起來。在融合過程中，來自不同傳感器的數(shù)據(jù)雖然有相似的光譜和空間結(jié)構(gòu)，但它們難免會有差異，比如大氣條件、視角以及由位置偏差導(dǎo)致的像素差異。目前已有的大多數(shù)研究使用數(shù)據(jù)預(yù)處理等手段消除這種差異，但仍然難以將精度達到精細像素級。未來的研究可以考慮融合兩種及兩種以上的傳感器數(shù)據(jù)，在充分利用不同來源的數(shù)據(jù)信息的同時，降低不同傳感器數(shù)據(jù)之間的差異，結(jié)合不同數(shù)據(jù)的優(yōu)勢，提高融合效果。

（2）半監(jiān)督與無監(jiān)督學(xué)習(xí)

在遙感圖像時空融合領(lǐng)域，大多是基于深度學(xué)習(xí)的有監(jiān)督學(xué)習(xí)網(wǎng)絡(luò)，基于半監(jiān)督和無監(jiān)督學(xué)習(xí)的模型很少。在遙感領(lǐng)域，伴隨著傳感器的增多，數(shù)據(jù)也不斷增多，但能夠滿足研究時空融合條件的數(shù)據(jù)量還是較少，而具有標(biāo)記的數(shù)量更是有限，只用有監(jiān)督學(xué)習(xí)無法充分利用已有的數(shù)據(jù)。目前半監(jiān)督和無監(jiān)督學(xué)習(xí)已經(jīng)在普通圖像分類、超分重建等領(lǐng)域逐漸成熟，然而在遙感圖像領(lǐng)域的應(yīng)用很少，未來的研究可以充分考慮使用半監(jiān)督和無監(jiān)督學(xué)習(xí)應(yīng)對可用數(shù)據(jù)少的問題。

（3）對時間序列的依賴性

目前的時空融合算法，大多利用一對或者兩對參考圖像提取到參考圖像與預(yù)測圖像之間的時間信息，將時間信息與空間信息進行融合進而得到預(yù)測日期的精細圖像。這種方法對參考圖像的日期選擇具有嚴(yán)格要求，需要預(yù)測日期前后兩個日期的參考圖像，且時間相隔不宜太長，然而在實際的應(yīng)用中，通常無法滿足這種條件限制。目前已有研究使用可切換歸一化和生成式對抗網(wǎng)絡(luò)來降低對輸入圖像數(shù)量的限制，但仍需要在預(yù)測時對參考圖像進行時間的約束，且在某些復(fù)雜區(qū)域的預(yù)測效果并不如使用兩對參考圖像。如何利用已有的數(shù)據(jù)，在打破輸入數(shù)量限制和時間限制的同時，提升預(yù)測效果是使模型更具實用性的研究方向之一。

（4）模型泛化性能與效率

限制遙感圖像時空融合算法應(yīng)用于實際應(yīng)用的因素主要有以下兩點：模型泛化性和模型計算效率。

不同數(shù)據(jù)集的研究區(qū)域以及研究場景所需要考慮的情況不同，比如針對山區(qū)、森林的模型在生態(tài)環(huán)境監(jiān)測中有較好預(yù)測結(jié)果，然而無法準(zhǔn)確預(yù)測城市中具有大量人為因素的土地覆蓋變化情況。因此提高模型的泛化性，使一個模型能夠在多個不同地區(qū)以及不同類型的數(shù)據(jù)集上有相同的優(yōu)秀效果至關(guān)重要。

另一方面，大多數(shù)傳統(tǒng)的時空融合方法是基于像素級計算和移動窗口策略，這種策略造成模型具有復(fù)雜性。除此之外，近年來基于生成式對抗網(wǎng)絡(luò)和基于Transformer的網(wǎng)絡(luò)在遙感圖像時空融合領(lǐng)域也取得了不錯的效果，然而這些模型也存在參數(shù)量大、計算時間長等問題。因此，提高模型計算效率，減少模型參數(shù)，減少預(yù)測所需要的時間，增強模型的實時性也是一個研究重點，是滿足實際應(yīng)用的需求之一。