鄭思宇,胡華浪,黃 進,付國棟,楊 旭,王 敏,李劍波,秦澤宇
(西南交通大學 電氣工程學院,成都 611756)
遙感變化檢測是近年來地表觀測的熱門課題之一.其目的在于比較給定區(qū)域的多時相遙感影像以檢測遙感信息的變化[1].根據(jù)場景的不同,遙感變化檢測又派生出了更多的子任務包括土地測量[2,3]、城區(qū)擴建檢測[4,5]和自然災害預警[6-8]等.本文的第1 節(jié)將回顧遙感變化檢測的發(fā)展過程,列舉出存在的問題與解決方法.
由于遙感變化檢測的數(shù)據(jù)稀少,早期的變化檢測方法多以傳統(tǒng)機器學習與圖像處理為主,包括K-means聚類[9]、主成分分析法[10]、支持向量機[11,12]、決策樹[13]和隨機場[6,14,15].這些方法主要的處理過程包含圖像預處理、變化檢測機制、圖像后處理.然而這些方法普遍存在的問題在于傳統(tǒng)算法的變化檢測機制無法提取魯棒的特征.
隨著遙感技術的不斷發(fā)展,越來越多的多時相遙感數(shù)據(jù)被采集獲取.此外,卷積神經(jīng)網(wǎng)絡(CNN)也不斷迭代更新,在許多不同的領域里逐漸占領主導地位.孿生網(wǎng)絡[16]、偽孿生網(wǎng)絡和雙通道網(wǎng)絡[17]分別給出了處理多圖像輸入的架構.全卷積網(wǎng)絡[18]使用徹底的卷積架構以實現(xiàn)圖像像素級分割任務.U-Net[19]在此基礎之上提出了帶有跳躍連接的編解碼結構以提升數(shù)據(jù)融合的效果.遙感變化檢測得益于這些工作,衍生出了不同的網(wǎng)絡框架與學習策略.
根據(jù)遙感變化檢測融合數(shù)據(jù)方式的不同,其網(wǎng)絡框架可以被概括為編碼前融合與解碼前融合,如圖1所示.解碼前融合的方法[20-23]將兩路圖像輸入分別進行編碼.其中,編碼器既可共享權重(即孿生網(wǎng)絡)也可以獨享權重(即偽孿生網(wǎng)絡).然后,解碼器融合編碼器提取到的特征以生成遙感變化圖.此種結構的特點在于能夠清晰地明確網(wǎng)絡各個部分的處理任務,將圖像特征提取與特征融合分別安排給編碼器與解碼器.
圖1 變化檢測網(wǎng)絡框架示意圖
編碼前融合[3,24-28]的方法在輸入部分將不同時相的數(shù)據(jù)拼接起來再送入語義分割網(wǎng)絡處理.這種結構沒有明確對編碼器和解碼器進行任務分工.整個網(wǎng)絡傾向于同時進行特征提取與特征比較.這賦予了網(wǎng)絡靈活性以及更魯棒的訓練條件[17].
為了對遙感變化特征進行學習,不同的學習策略可主要歸納為逐像素與逐目標兩種.逐像素的方法通過解碼器以逐個像素的方式對特征進行解碼.因此,其后處理生成遙感變化圖的方式多以閾值分割或聚類為主.相關的數(shù)據(jù)集[20,29-34]對圖像組(多時相為一組)逐個像素進行二分類的標簽制作.其中,正樣本標簽代表了遙感信息存在變化,負樣本標簽表示沒有變化.然而,不相關聯(lián)地對逐個像素進行變化檢測往往會導致輸出的遙感變化圖存在許多椒鹽噪聲.
逐目標的方法認為像素并不是完好地反映遙感變化對象結構與性質(zhì)的最小單元[3].為了增強模型對遙感對象的理解,逐目標的方法首先會對不同的輸入圖像進行語義分割的預測,再通過逐目標比較的辦法生成遙感變化圖.與逐像素的方法相比,逐目標的方法對數(shù)據(jù)集標簽制作要求更高且工作量更大,需要對所有輸入圖像進行多分類的語義分割標簽制作.
最近的研究[3,21]表明,逐像素和逐目標的方法也可以相互結合來實現(xiàn)遙感變化檢測的多任務學習.如圖2所示,HRSCD 數(shù)據(jù)集[3]即包含了多分類的語義分割標簽又二分類的變化標簽.HRSCD 制作者在此基礎上嘗試了不同的學習策略,證明了同時進行逐像素與逐目標學習的多任務策略是有效的.
圖2 HRSCD 數(shù)據(jù)集樣本示例
前述的研究中對時序的影響很少評估.所訓練的模型通常擬合從固定的一個時序點到另外一個時序點的變化.因為時序的一致性,所評估的模型往往能夠生成效果較好的遙感變化圖.但是當圖像輸入的時序相反時,這種模型的效果如何? 圖3的結果表明,所生成的遙感變化圖效果不同程度上惡化了,且所要檢測的變化變化特征越細微,模型呈現(xiàn)出的檢測能力就越弱.因此,在實際應用中,時序變化檢測的模型無法進行反時序變化檢測和雙向時相檢測的任務,諸如季節(jié)變化,天氣變化和房屋建筑的修建拆遷等.為了解決此問題,最直觀的方式是將數(shù)據(jù)集翻倍,同時包含時序變化與反時序變化的數(shù)據(jù).然而,此方式同時也會造成訓練時間的延長.本文希望提出一種模型調(diào)整的方法,使模型能夠在保持高精度檢測的情況下獲得有效的訓練.通過使模型對稱化,模型能夠自適應不同的圖像輸入時序.在此基礎上,本文添加了雙通道孿生輸入模塊使模型編碼器能夠提取更魯棒的特征.為了進一步精煉編碼器提取到的特征,本文在模型跳躍連接處添加了注意力機制以實現(xiàn)不同感受野的特征聚合融合.
圖3 FC-EF-Res[3]網(wǎng)絡在OSCD 測試集3 個測試案例(dubai,brasilia,lasvegas)的遙感變化檢測結果
本文之后部分論述安排如下:第3 節(jié)將細述所提出的模型與方法;第4 節(jié)將通過比較試驗和消融實驗從多個角度驗證本文的模型與方法;第5 節(jié)總結全文.
圖3的結果表明遙感影像的時序變化和反時序變化存在著固有上的差異.單用時序變化數(shù)據(jù)集或者反時序變化的數(shù)據(jù)集以訓練模型,模型參數(shù)都無法將兩種不同的變化歸納泛化.但是從另一個角度考慮,模型參數(shù)本身就能歸納概括這兩種不同的變化,那么對于這種模型,只需使用時序變化數(shù)據(jù)集或反時序變化數(shù)據(jù)集任意一個即可對其訓練.由此,本文提出了符合這種條件的對稱模型,也即對于不同的圖像輸入時序,輸出結果恒等的一種模型.同時,本文給出了對稱模型設計的3 個準則:1)對稱函數(shù):模型中的每個多輸入函數(shù)(如通道拼接、求和、求絕對值等)都應保證恒等輸出;2)對稱模塊:一個對稱模塊應該包含多個對稱函數(shù)輸出或者是多個對稱函數(shù)的堆疊;3)對稱模型:對稱模型由對稱編碼器模塊、對稱解碼器模塊和對稱跳躍連接組成.
本文基于3 個相關的網(wǎng)絡FC-Siam-conc、FCSiam-diff和FC-EF-Res 進行本文的基準模型設計[3,20].FC-Siam-conc和FC-Siam-diff 都采用了孿生U-Net 結構并在解碼器之前對特征進行融合,如圖1(a)所示.兩者的區(qū)別在于,FC-Siam-diff的跳躍連接輸出計算的是絕對值差,是一個對稱函數(shù).FC-EF-Res 采用殘差模塊和瓶頸模塊[35]以提升特征提取性能.但是,該網(wǎng)絡采用的是編碼前數(shù)據(jù)融合的結構,如圖1(b)所示,使得整個網(wǎng)絡失去了對稱性.本文將FC-EF-Res與FC-Siam-diff相結合構造本文的基準模型,如圖4所示.值得注意的是FC-Siam-diff 在第5 個編碼器模塊上的跳躍連接放棄了計算絕對值,這會導致模型的對稱性被破壞.本文在基準模型的設計中對此進行了修正,具體情況如圖中紅色虛線框內(nèi)所示.本文仿照圖3的實驗初步訓練并驗證了基準模型的效果,結果如圖5所示.結果表明,該基準模型能夠?qū)τ诓煌瑫r序的圖像輸入保持輸出恒等,是對稱模型.
圖4 基準模型模型結構示意圖
圖5 基準模型在OSCD 測試集3 個測試案例(dubai,brasilia,lasvegas)的遙感變化檢測結果
如圖6所示,本文提出一種圖像輸入處理模塊——雙通道孿生輸入.該模塊首先在圖像通道維度上,將圖像分別以正時序和反時序拼接.然后將包裝完成的數(shù)據(jù)送入孿生網(wǎng)絡進行后續(xù)的處理.雙通道孿生輸入模塊的設計思路主要源自圖1的兩種結構.一方面,雙通道的拼接使得時序變化以及反時序變化的特征能同時且更有效地提取;另一方面,孿生結構符合對稱模塊設計原則保持了模型的對稱性.除此之外,該模塊的引入只會增加輸入部分計算量,不會對整體網(wǎng)絡架構增加額外計算負擔.
圖6 雙通道孿生輸入模塊示意圖
Attention U-Net[36]指出,深層下采樣后的CNN 更專注于歸納概括全局圖像信息而往往會忽視對細節(jié)物像信息的提取.基于此,Attention U-Net 采用了注意力門的機制以主動抑制全局圖像中無關的背景信息.遵循著這一思路,本文在網(wǎng)絡的跳躍連接處部署雙通道孿生融合模塊,其作用機理如圖7所示.
圖7 雙通道孿生融合模塊示意圖.
首先,由編碼器提取到的兩組特征fa0和fb0分別由一個權重共享的CBAM注意力模塊[37]進行特征相關性計算:
然后,相關性特征對原始特征fa0和fb0進行重新賦權,抑制高度相關的圖像背景信息,放大存在差異的遙感變化信息:
為了防止重新賦權的特征過擬合,最后原始特征fa0和fb0與重新賦權的特征fa2和fb2進行加和得到雙通道孿生融合模塊的輸出:
不同于FC-Siam-diff 在跳躍連接處直接計算特征的絕對值差以獲得特征變化,本文所提出的雙通道孿生輸入模塊對輸入圖像包裝后,編碼器本身就在提取時序變化特征和反時序變化特征,故而,在跳躍連接處部署雙通道孿生融合模塊可以進一步精煉圖像前景信息并抑制圖像背景信息.與計算絕對值差相同的是,該模塊的設計同樣是符合對稱模塊設計原則的.
最終,在基準模型上添加了前述兩個模塊后,本文所提出的雙通道孿生網(wǎng)絡結構如圖8所示.
圖8 雙通道孿生網(wǎng)絡示意圖
為了評估本文第3 節(jié)所介紹的模型與模塊,本文使用OSCD 數(shù)據(jù)集[20]進行測評.OSCD 數(shù)據(jù)集是一個遙感變化檢測的經(jīng)典數(shù)據(jù)集.其多時相數(shù)據(jù)由Sentinel-2 衛(wèi)星獲取.數(shù)據(jù)集中共包含24 組圖像,其中14 組用于訓練,10 組用于測試.該數(shù)據(jù)集采集對象遍布全球24 個城市,主要著重于城區(qū)擴建、建筑變化和道路變化等數(shù)據(jù)標注.值得注意的是,除了傳統(tǒng)RGB 圖像之外,OSCD 數(shù)據(jù)集還提供了更利于特征提取的多分辨率多光譜圖像.本文之后的實驗都是基于多光譜圖像.為了驗證時序影響,本文測試集將在原始數(shù)據(jù)集上翻倍,同時囊括原始數(shù)據(jù)和反時序數(shù)據(jù).
本文網(wǎng)絡訓練的批處理大小設置為32,學習率初始化為10-4.為了防止訓練過擬合,訓練過程實施了指數(shù)學習率衰減.優(yōu)化器算法的選擇為自適應動量估計法(Adam).損失函數(shù)的選擇為二分類交叉熵,其計算公式如下:
其中,yt表示數(shù)據(jù)集標簽,yp表示模型預測結果.實驗整體框架使用PyTorch.所有訓練與預測過程皆在一臺英偉達Tesla K80 GPU 上完成.
遙感變化檢測學習目標與二分類語義分割大體相似.因此,本文所采用的評價指標也源自語義分割任務,即F1 指標 (F1)、精準率(P)、召回率 (R)和整體準確率(OA).其定義如下:
其中,TP代表模型能正確識別遙感影像變化像素個數(shù);TN代表模型能正確識別遙感影像未變化像素個數(shù);FP代表模型錯誤地判定為遙感影像變化像素個數(shù);FN代表模型錯誤地判定遙感影像未變化像素個數(shù).
本文選取了最新的5 個遙感變化檢測網(wǎng)絡與本文所提出的雙通道孿生網(wǎng)絡進行訓練有效性與模型精度兩方面的對比.所選取的網(wǎng)絡具體介紹如下:
1) CDNet[38]:CDNet是一個端到端像素級街景變化檢測網(wǎng)絡.網(wǎng)絡結構由收縮模塊和擴張模塊組成.
2) FCN-PP[39]:FCN-PP是一個用于山體滑坡變化測繪的網(wǎng)絡.其整體框架有編碼器與解碼器構建.此外,該網(wǎng)絡還采用了特征金字塔的結構以獲取更寬泛的視覺感受野.
3) FCN-Siam-conc[20]:FC-Siam-conc是為訓練OSCD 數(shù)據(jù)集而提出的網(wǎng)絡.其處理流程分3 步.首先,不同時相的數(shù)據(jù)通過編碼器分別進行編碼.然后,編碼后的特征通過通道拼接的方式送入解碼器進行解碼.最后,解碼后的特征經(jīng)過Softmax 操作生成遙感變化圖.
4) FC-Siam-diff[20]:FC-Siam-diff是FC-Siamconc的改進.其跳躍連接放棄了通道拼接方式的數(shù)據(jù)融合轉(zhuǎn)而使用計算絕對值差的方式,引導網(wǎng)絡直接比較特征差異.
5) FC-EF-Res[3]:FC-EF-Res是為訓練高分辨率遙感變化檢測而提出的網(wǎng)絡.通過部署殘差模塊,該網(wǎng)絡精度相比FCN-Siam-conc和FCN-Siam-diff 都大幅度提升.
表1展示了各網(wǎng)絡指標比較.圖9繪制了各網(wǎng)訓練損失變化情況.圖10挑選了測試集中的兩個測試案例進行遙感變化圖的可視化.
表1 雙通道孿生網(wǎng)絡與其他網(wǎng)絡的指標對比(%)
圖9 各網(wǎng)絡的訓練損失曲線.
圖10 不同模型在OSCD 測試集2 個測試案例的遙感變化檢測結果,圖中白、黑、綠、粉色部分分別代表TP、TN、FP、FN (定義見4.2 節(jié))
上述結果表明本文所提出的雙通道孿生網(wǎng)絡相比于其他網(wǎng)絡有著更好的性能.本文主要將其歸因于兩個方面.一方面,本文通過對模型調(diào)整使得模型對稱.模型能夠?qū)Σ煌瑫r序的圖像輸入保持輸出恒等.從圖9可以看出,這一點使得模型只需用原始的時序數(shù)據(jù)訓練網(wǎng)絡,網(wǎng)絡的訓練損失可以更快地下降,保證了訓練的有效性.另一方面,本文所設計的雙通道孿生輸入以及雙通道孿生融合是兩個輕量級即插即用模塊.本文將其分別嵌入在網(wǎng)絡輸入和跳躍連接部分使得網(wǎng)絡精度大幅提升.
為了評估本文所提出的兩個模塊的性能.在基準模型的基礎上(圖4),本文設計消融實驗逐步添加模塊并驗證效果.為了比較注意力機制性能,本文額外選取了PGA-SiamNet[40]的共注意力機制與本文的雙通道孿生融合進行對比.實驗指標于表2給出.圖11選取了兩個測試集樣本并繪制了網(wǎng)絡處理結果的熱力圖.
圖11 表2模型在OSCD 測試集2 個測試案例的注意力熱力圖可視化
表2 消融實驗中各網(wǎng)絡指標(%)
結果表明,共注意力機制雖然提取不同時相特征相關性以提升變化檢測性能(在lasvegas 測試案例中),但是對于小尺寸物像的差異變化信息捕捉較差(在chongqing的測試案例中).原因之一便是共注意力機制計算開銷較大,往往被嵌入在網(wǎng)絡的深層.在網(wǎng)絡的深層中,視覺感受野較大往往會忽略圖像細節(jié)信息.而本文所提出的雙通道孿生融合模塊,由于其計算輕量,被嵌入在多處跳躍連接中,以獲得不同尺度感受野的信息融合,以提升對小尺寸遙感物像變化檢測的效果.
本文首先指出了時序影響對反時序變化檢測效果的影響.這種影響使得時序變化檢測器無法處理反時序變化檢測或者雙向時序變化檢測任務.為了客觀地驗證這種影響,本文在實驗部分的測試集將原始數(shù)據(jù)集翻倍,同時囊括原始數(shù)據(jù)和反時序數(shù)據(jù).在其他相關的數(shù)據(jù)集以及網(wǎng)絡中,類似的問題也可能存在.因此,本文強烈建議加上時序這一因素重新對其進行指標驗證.
本文的另一個貢獻在于提出了雙通道孿生網(wǎng)絡.該網(wǎng)絡的基準網(wǎng)絡是由現(xiàn)有模型重構微調(diào).其整體呈現(xiàn)對稱的特性,對不同時序的圖像輸入,都能保證輸出恒等.這一性質(zhì)使得網(wǎng)絡能夠僅使用原始的時序數(shù)據(jù)對網(wǎng)絡進行更快速更有效地訓練.此外,雙通道孿生網(wǎng)絡嵌入了雙通道孿生輸入和雙通道孿生融合兩個模塊進一步提升了網(wǎng)絡的精度.本文實驗表明,所提出的網(wǎng)絡效果無論從訓練有效性還是模型精度上都超過了現(xiàn)有的最新模型.此外,本文設計的消融實驗驗證了所提出的兩個模塊的性能.這兩個輕量性模塊可供今后的相關研究采用.