葉沅鑫,孫苗苗,周 亮,楊 超,劉天逸,郝思媛
1. 西南交通大學地球科學與環(huán)境工程學院, 四川 成都 611756; 2. 高速鐵路安全運營空間信息技術國家地方聯(lián)合工程實驗室, 四川 成都 611756; 3. 青島理工大學信息與控制工程學院, 山東 青島 266520
建筑物作為一個城市的重要組成部分,其拆除、新建、擴建等變化與人類生活息息相關,及時準確地獲取建筑物的變化信息對于人類發(fā)展具有重要意義[1]。隨著遙感成像技術的快速發(fā)展,可用于變化檢測的遙感影像數(shù)據(jù)越來越多,為利用遙感影像進行建筑物變化檢測提供了海量的研究數(shù)據(jù)。面向建筑物的遙感影像變化檢測成為研究熱點[2-3]。相關的變化檢測方法研究也獲得巨大發(fā)展,從早期的基于像元的建筑物變化檢測發(fā)展至結合面向對象分析的方法,從只利用光譜特征的方法發(fā)展至結合光譜、形態(tài)學指數(shù)[4]等多種特征[5-8]的方法。雖然傳統(tǒng)的像元級、對象級方法研究取得了豐碩的研究成果,但受限于人為設計特征的表達能力和分割結果的準確性,其在檢測的準確性和完整性方面仍存在許多不足之處。
近年來,深度學習技術憑借其特有的深層特征表達能力,為大數(shù)據(jù)時代下遙感影像處理領域如目標檢測[9-10]、影像匹配[11]、變化檢測[12]、影像分類[13]等提供了新的解決方案,得到了學者們的廣泛關注。其中,將深度學習技術引入傳統(tǒng)變化檢測流程中的方法[14-15]應用較早,但由于未能充分利用神經(jīng)網(wǎng)絡端到端的結構優(yōu)勢,檢測效率較低。因此,許多學者將可進行像元級預測的全卷積神經(jīng)網(wǎng)絡(fully convolutional networks,FCN)[16]引入變化檢測中,構建端到端的變化檢測模型。雖然端到端的方式提高了檢測效率,但FCN中的下采樣操作會影響像元空間位置的準確性,難以獲得規(guī)則的建筑物形狀。一系列改進方法被提出,如以U-Net為代表的編碼-解碼結構[17-18]可通過上采樣和反卷積盡可能地恢復影像的空間位置信息,提高檢測結果的準確性;以注意力模型為代表的結合時空關系的方法[19-21]可通過位置注意力、通道注意力增強網(wǎng)絡對變化和未變化像元的可分離度,優(yōu)化建筑物邊界的檢測效果。
上述基于深度學習的變化檢測方法雖然在探測建筑物變化方面獲得了較好的檢測結果,但由于它是通過建模影像的全局信息來提高物體內部的一致性,或是通過多尺度特征融合優(yōu)化地物邊緣檢測效果,忽視了地物主體與邊緣間的差異(主體內像元間相似性強,邊緣像元屬性間存在較大差異),檢測結果中易產(chǎn)生鋸齒形邊界,出現(xiàn)多個相鄰建筑物被視為單個建筑物的情況。為此,本文借鑒解耦思想[22]在語義分割領域的成功應用,把地物分解成主體和邊緣的解耦思想引入變化檢測中,并在此基礎上增加特征優(yōu)化結構,提出了一種基于主體、邊緣分解與重組網(wǎng)絡的建筑物變化檢測方法(building change detection method based on main body,edge decomposition and reorganization network,BEDRNet)。該方法通過特征分離,分解出主體特征和邊緣特征,然后采用多重監(jiān)督將計算出的標簽與預測間的損失都傳送給網(wǎng)絡,并利用特征優(yōu)化結構實現(xiàn)主體特征和邊緣特征的精準優(yōu)化,削弱原始影像中的不相關信息,最后通過特征重組和上采樣形成完整的變化檢測流程。
BEDRNet模型主要包括特征提取、特征分解、特征優(yōu)化、特征重組與損失函數(shù)5個模塊,并采用多重監(jiān)督的策略訓練網(wǎng)絡。其中,①特征提?。禾崛‰p時相影像的多尺度差值特征;②特征分解:通過構建可學習的流域,分離出主體特征和邊緣特征;③特征優(yōu)化:設計特征優(yōu)化結構,利用主體標簽和邊緣標簽對主體特征和邊緣特征進行精準優(yōu)化;④特征重組:對優(yōu)化后的主體特征和邊緣特征進行重組并生成最終的變化檢測結果以形成完整的變化檢測流程;⑤監(jiān)督策略與損失函數(shù):采用多重監(jiān)督的策略,損失函數(shù)由主體損失、邊緣損失和預測結果損失3部分組成。模型整體設計如圖1所示。
圖1 本文方法總體流程Fig.1 Flowchart of the proposed method
變化檢測中的兩期遙感影像間存在一定的光譜和時相差異,特征提取對于網(wǎng)絡檢測效果具有重要的影響。FCN作為一種逐像元確定預測結果的經(jīng)典模型,在變化檢測中取得了廣泛應用,但其中的下采樣操作會導致預測圖中地物邊界檢測效果較差,出現(xiàn)檢測性能降低的情況,尤其對于小目標的檢測。ResNet[23]作為提取影像深層特征的基本模塊,已經(jīng)在目標識別、圖像分割等任務中表現(xiàn)出良好的性能。此外,孿生網(wǎng)絡結構作為一種能夠高效提取兩分支輸入特征的網(wǎng)絡結構,對于變化檢測而言具有天然的優(yōu)勢,在變化檢測中得到了廣泛應用[24]。為此,本文在特征提取部分參考FCN網(wǎng)絡架構,基于孿生ResNet提取影像特征。本文將對孿生ResNet架構及特征提取實施細節(jié)進行介紹。
1.1.1 孿生ResNet
孿生網(wǎng)絡是由兩個分支網(wǎng)絡構成的一種耦合架構,如圖2所示,相比于傳統(tǒng)神經(jīng)網(wǎng)絡只能接收一個樣本輸入,孿生網(wǎng)絡可以同時接收兩個輸入,最后經(jīng)過決策層獲得輸出。在孿生網(wǎng)絡中,分支網(wǎng)絡結構相同且權值共享,決策層可以是全連接層,可以是某種相似性度量算法,也可以是某種簡單運算,如相減、卷積等。孿生ResNet包含兩個結構相同且權值共享的ResNet分支網(wǎng)絡,可以提取多尺度差值特征作為后續(xù)變化檢測模塊的輸入。
圖2 孿生網(wǎng)絡架構Fig.2 The architecture of Siamese network
ResNet作為一種有效的特征提取手段,憑借殘差連接的方式可以很好地解決深層神經(jīng)網(wǎng)絡中存在的“退化”現(xiàn)象。其基本思想為:在提取影像特征時,不直接學習目標y與輸入x之間的關系,而是通過殘差的形式對目標進行學習。其基本單元如式(1)所示
y=F(x,{wi,b})+x
(1)
式中,F(xiàn)(x,{wi,b})為殘差函數(shù);wi為權重;b為偏置項。
不同深度的ResNet結構,殘差基本單元的構成形式存在微小差異。圖3展示了殘差基本單元常用的兩種構成形式。左側為由兩個卷積層組成殘差基本單元,即ResNet18和ResNet34的基本模塊,右側為含有3個卷積層的殘差單元,ResNet50、ResNet101及ResNet152的基本結構。3個卷積層中第1個卷積層和第3個卷積層的卷積核大小設定為1,可以實現(xiàn)特征通道數(shù)的轉換,減少網(wǎng)絡中的卷積核參數(shù)個數(shù)??紤]到訓練效率及特征提取能力,本文參考ResNet50構建特征提取模塊。
圖3 殘差基本單元Fig.3 The residual basic unit
1.1.2 特征提取
在遙感影像中,地物主體對應影像的低頻信息部分,像元間的相似性較強,邊緣對應影像的高頻部分,像元間的差異性較強。相對于存在較大差異的邊緣部分而言,具有更強內部一致性的主體像元特征更容易提取,且對于具有不同分辨率的多尺度特征而言,低分辨率特征圖可以更好地反映影像的整體信息,更易提取對象的主體特征。在特征提取的5個階段中,如圖4所示,DF1、DF2細節(jié)信息豐富,DF5更好地反映了影像整體信息,故本文將雙時相影像多尺度差值特征中最深層次的特征DF5作為特征分解部分的輸入,通過可學習的流域將對象內部的像元特征流向對象的中心,以提取主體特征。然后通過特征圖減去主體特征獲得影像的邊緣特征。
圖4 特征提取各階段結果Fig.4 The results of each stage in feature extraction module
網(wǎng)絡結構如圖5所示,F(xiàn)為用于分解出主體和邊緣的特征,F(xiàn)Low為編碼特征圖,DF為解碼后的特征圖,F(xiàn)low為流域,F(xiàn)body為分離出的主體特征,F(xiàn)edge為分離出的邊緣特征。其中流域通過學習F→Fbody的映射關系獲得主體特征,其學習任務與光流相似,都是旨在學習輸入與目標之間的運動信息。由于卷積神經(jīng)網(wǎng)絡在給定足夠訓練數(shù)據(jù)的情況下,非常善于學習輸入與輸出的關系。因此,本文參考神經(jīng)光流網(wǎng)絡[25]的結構構建特征分解部分,即整體采用編碼解碼的結構設計,通過對特征進行下采樣獲得頻率更低的編碼特征圖FLow,再通過上采樣和跨步卷積生成低頻圖DF,最后通過輸入特征F和卷積獲得流域Flow,其中,F(xiàn)、FLow、DF、Flow的特征圖大小分別為256×32×32、256×16×16、256×32×32、256×32×32。
圖5 特征分解Fig.5 Feature decomposition module
獲得流域Flow后,通過Flow對物體內像元特征的流向進行引導,采用xl+Flowl(xl)將標準空間格網(wǎng)Ωl中每個位置的點xl映射為新點x′。接著如式(2)所示,采用空間變換網(wǎng)絡中所提出的雙線性差分采樣機制[26]來近似估計Fbody中的每個點xl,通過雙線性內插獲得主體特征圖Fbody中xl鄰域范圍內4個像元的像元值
(2)
式中,?l表示在分離空間格網(wǎng)上的雙線性核的權重,主要由Flow計算得到;N表示鄰域范圍內的像元。
邊緣特征Fedge為影像的高頻信息部分,主體特征為影像中的低頻信息,故可以從整幅影像中“減去”表示低頻信息的主體特征來獲得。如式(3)所示,從深度特征F中減去主體特征Fbody生成Fedge
Fedge=F-Fbody
(3)
特征分解出的主體特征和邊緣特征的特征層次較深,可更好地反映整體信息但缺少細節(jié)特征,其邊界信息的可靠性不強。且上采樣操作雖能增加特征圖的尺寸,卻無法提升其信息量。直接對其進行監(jiān)督,計算相應的損失對網(wǎng)絡參數(shù)進行更新,生成的預測邊界的準確性不高。為提高地物邊界的準確度,本文設計特征優(yōu)化結構,通過結合多尺度淺層特征的方式,在逐漸增加特征圖尺寸的同時添加細節(jié)信息。由于地物的邊緣和主體分別屬于高低頻信息,本文采用圖6所示的特征優(yōu)化結構對邊緣特征和主體特征分別進行優(yōu)化。
圖6 特征優(yōu)化Fig.6 Feature optimization module
現(xiàn)有的變化檢測方法只對最終的預測結果進行監(jiān)督訓練,忽視了地物主體和邊緣之間存在相互作用。為實現(xiàn)主體特征和邊界特征的精準優(yōu)化,本文采用多重監(jiān)督的策略,分別利用主體特征標簽、邊緣特征標簽及變化檢測結果標簽對優(yōu)化后的主體特征、邊緣特征和最終的預測結果進行監(jiān)督。其中,邊緣特征標簽由變化檢測結果標簽的最外層像元構成(遍歷結果標簽圖每一個像素,判斷其4鄰域所屬類別,如有不同則識別為邊緣,否則識別為非邊緣),主體標簽由變化檢測結果標簽減去邊緣標簽生成。損失函數(shù)如式(4)所示
(4)
通過多重的監(jiān)督訓練,特征優(yōu)化結構對主體特征和邊緣特征的優(yōu)化效果如圖7所示,其中,第1行為主體特征的優(yōu)化效果,第2行為邊緣特征的優(yōu)化效果。由圖7(a)可以看出,通過特征分解形成的主體特征和邊緣特征,其輪廓比較模糊,難以給出完整的地物變化信息;由圖7(b)可以看出,優(yōu)化一次的主體特征可以明顯地看出變化地物的輪廓,但缺乏詳細的細節(jié)信息,優(yōu)化一次的邊緣特征可以發(fā)現(xiàn)某些地物輪廓信息,但多數(shù)變化地物的邊界線存在不連續(xù)現(xiàn)象,難以獲取準確的變化地物輪廓。對比圖7(c)和圖7(d)可以發(fā)現(xiàn),經(jīng)過兩次優(yōu)化的主體特征和邊緣特征能夠獲得準確的地物變化信息,即BEDRNet模型可通過多重監(jiān)督訓練,對地物的主體和邊緣進行精準優(yōu)化。
圖7 網(wǎng)絡預測效果Fig.7 Network forecasting effect
本文采用文獻[19]在2020年公開的航空影像建筑物變化檢測數(shù)據(jù)集LEVIR-CD。該數(shù)據(jù)集由639張1024×1024像素的谷歌地球影像組成,空間分辨率為0.5 m,雙時相影像間的跨度為5~14 a,其中的建筑物包括別墅、高層公寓、小型車庫和大型倉庫等,種類豐富。整個數(shù)據(jù)集中共含有31 333個獨立的變化建筑物,平均每個影像對中含有50個變化的建筑物,變化信息十分豐富。本文在試驗時,沿用LEVIR-CD的數(shù)據(jù)劃分方式,將數(shù)據(jù)集分為訓練集、驗證集和測試集3組,每組數(shù)據(jù)集分別包括445組、64組、128組影像對。數(shù)據(jù)擴增方式采用無重疊裁剪、隨機翻轉、-15°~15°內隨機旋轉,影像裁剪的尺寸為256×256。擴增后的訓練集、驗證集和測試集的樣本量分別為10 680、1536和2048張。
為突出基于BEDRNet的變化檢測的優(yōu)越性,探索網(wǎng)絡結構設計的合理性,本文設計了兩組試驗對比方案。第1組方案為不同方法間的對比,本文將BEDRNet模型與4種變化檢測模型進行比較。其中,方法Ⅰ為FC-EF[27],方法Ⅱ為EF-Siam-conc[27],方法Ⅲ為全卷積孿生網(wǎng)絡結合基本時空注意力模型的STA-BAM[19],方法Ⅳ為全卷積孿生網(wǎng)絡結合金字塔時空注意力模型的STA-PAM[19]。方法Ⅴ為基于BEDRNet的本文方法。第2組為消融試驗,在BEDRNet模型中,本文所設計的優(yōu)化結構(見1.3節(jié))對于主體和邊緣的精準優(yōu)化非常重要,為對其有效性及合理性進行分析,本文設計了相應的消融試驗對特征優(yōu)化結構的性能進行測試。試驗方法涉及BEDRNet-base和BEDRNet,其中BEDRNet-base為不含特征優(yōu)化結構的BEDRNet模型。
所有試驗基于Ubuntu 18.04系統(tǒng),CPU型號為Intel(R) Core(TM) i7-10700KF,GPU為NVIDIA GeForce RTX 3080顯卡,顯存大小為10 GB。采用Pytorch 1.8.0深度學習框架。各試驗方法參數(shù)設置見表1。
表1 各試驗方法參數(shù)設置Tab.1 The parameters setting of each method
2.3.1 不同方法檢測結果對比
為對5種基于深度學習的變化檢測方法進行合理的評價,本文從定性和定量兩方面對變化檢測結果進行分析。在定量分析方面,采用總分類精度、召回率、精確度、F1score及均值交并比(Mean IoU)5種評價指標對檢測結果的精度進行評價,并對比了5種方法的訓練與測試效率。定性方面,對測試集中一般密集度及較高密集度的建筑物檢測效果,及檢測結果邊界準確性進行了詳細分析。
在定量分析方面,表2展示了上述5種基于深度學習的變化檢測方法在LEVIR-CD數(shù)據(jù)集上的檢測精度。
表2 LEVIR-CD數(shù)據(jù)集5種方法檢測精度Tab.2 The detection accuracy of the five methods on LEVIR-CD data set (%)
對表2中的數(shù)據(jù)進行分析,可以發(fā)現(xiàn):①BEDRNet的檢測性能最佳,在5種評價指標上均達到了最高精度。特別地,其在精確度、F1score及Mean_IoU方面分別比結合金字塔時空注意力模型的STA-PAM方法高出約9.3%、5.1%、4.4%。②在對全局信息進行建模的變化檢測方法中,相較于基于U-Net的FC-EF法和EF-Siam-conc法,結合時空注意力的STA-BAM法和STA-PAM法能夠獲得較好的檢測性能,但其檢測精度仍低于BEDRNet的檢測結果。
表3展示了5種變化檢測方法平均每輪訓練用時及平均測試每對影像所用時長。由于模型復雜度和數(shù)據(jù)處理策略的不同,各方法模型訓練用時差異較大,其中FC-EF法與STA-BAM法的訓練用時最短,EF-Siam-conc法次之,本文方法與STA-PAM訓練用時相對較長。5種方法均達到了較高的變化檢測效率,得到每對雙時相影像變化檢測結果的平均用時均小于0.05 s。其中,F(xiàn)C-EF法與STA-BAM法測試效率最高,本文方法與EF-Siam-conc次之,STA-PAM檢測效率相對較低。綜合考慮變化檢測精度與檢測效率可知,本文方法具有較好的變化檢測性能。
表3 5種方法訓練與測試用時Tab.3 The training and testing time of the five methods
在定性分析方面,為直觀地展示上述5種變化檢測方法的檢測效果,本文分別以彩色疊加圖和黑白二值變化圖為例,對不同建筑物密集程度的檢測結果進行了展示,在兩種類型的圖中,從左到右依次是變化檢測結果標簽、FC-EF法檢測結果、EF-Siam-conc法檢測結果、STA-BAM法檢測結果、STA-PAM法檢測結果、BEDRNet法檢測結果。其中,圖8展示了在建筑物一般密集程度研究區(qū)域的檢測結果,綠色部分表示能夠正確識別的變化區(qū)域,紅色部分表示錯誤識別區(qū)域。由第1行及第2行的檢測結果可以看出,BEDRNet能較好地保持地物輪廓的完整性,對大型建筑物進行準確識別。由第3行、第4行及第5行的結果可以發(fā)現(xiàn),BEDRNet可以對小型建筑物實現(xiàn)精準識別,對地物邊界的描述也更加詳細準確。
圖8 5種方法在建筑物一般密集度區(qū)域的檢測結果Fig.8 The detection results of the five methods in the general density building area
圖9顯示了5種方法在建筑物間密集程度較高區(qū)域的檢測效果,圖10對比了5種方法變化區(qū)域邊界檢測的準確性??梢悦黠@看出,沒有結合注意力機制的FC-EF法及EF-Siam-conc法檢測效果較差,很難識別出建筑物之間的間隙,且檢測結果邊界破碎,準確性不高。相比之下,結合時空注意力的STA-BAM法和STA-PAM法檢測性能有所提升,但對建筑物間隙的識別能力仍然較弱,建筑物之間存在部分連接現(xiàn)象,且容易產(chǎn)生“鋸齒形邊界”現(xiàn)象(見圖10矩形框)。而BEDRNet在建筑物密集度較高的區(qū)域具有更好的識別能力,且能夠較好地保持地物輪廓的準確性,具有很強的抗鋸齒性能。以上試驗結果表明,雖然時空注意力在提高變化檢測性能方法具有一定的優(yōu)越性,但在密集度較高的建筑物區(qū)域的檢測效果仍有待提升,而BEDRNet通過分別對地物主體、邊緣進行建模,可以準確地識別大型和小型建筑物,且在保持地物邊界的準確性方面也具有更好的性能。
圖9 5種方法在密集度較高區(qū)域的檢測結果Fig.9 The detection results of the five methods in the high-density area
圖10 5種方法邊界檢測效果Fig.10 The boundary detection effect of the five methods
2.3.2 消融試驗
為了精確地優(yōu)化建筑物的主體和邊緣特征,本文在BEDRNet模型中設計了特征優(yōu)化結構。為了對其設計的合理性和有效性進行驗證,這里開展了有關特征優(yōu)化結構的消融試驗。試驗方法包括無特征優(yōu)化結構的BEDRNet-base法及含有特征優(yōu)化結構的BEDRNet。其定量檢測精度見表4。
表4 消融試驗檢測精度Tab.4 The detection accuracy of ablation experiments (%)
由表4可以看出,BEDRNet的精確度、F1score和Mean_IoU分別比BEDRNet-base高出約2.6%、2.0%和1.7%,即含有特征優(yōu)化結構的方法可以獲得較高的檢測精度。
檢測結果如圖11所示,其中第1列為變化檢測結果標簽,第2列為BEDRNet-base檢測結果圖,第3列為BEDRNet法檢測結果。由圖11可知,含有特征優(yōu)化結構的BEDRNet法能夠在大型建筑物區(qū)域獲得完整的建筑物輪廓(如圖中第1行檢測結果中的矩形框所示),能夠較好地識別小型建筑物(如圖中第2行和第3行檢測結果中的矩形框及橢圓框所示),且無論是對于大型建筑物還是小型建筑物,BEDRNet檢測結果中的鋸齒現(xiàn)象都較弱。
圖11 消融試驗結果Fig.11 The results of ablation experiment
綜上所述,BEDRNet模型中的特征優(yōu)化結構設置合理,性能高效,能夠通過分別建模大型和小型建筑物的主體和邊緣實現(xiàn)地物輪廓的準確識別。
為優(yōu)化建筑物密集區(qū)域的邊界檢測效果,本文將特征解耦的思想應用到變化檢測中,提出了一種基于主體、邊緣分解與重組網(wǎng)絡的建筑物變化檢測方法(BEDRNet模型)。該方法的網(wǎng)絡結構包括特征提取、特征分解、特征優(yōu)化、特征重組及預測損失5個部分。其中特征提取主要用于提取影像的深層特征,特征分解用于分解出主體特征和邊緣特征,特征優(yōu)化通過結合多尺度淺層特征對主體特征、邊緣特征進行精準優(yōu)化,特征重組部分用于對優(yōu)化后的特征進行重組和上采樣,生成變化檢測二值圖。試驗結果表明,相較于基于U-Net網(wǎng)絡的方法、結合時空注意力的方法,BEDRNet模型能夠在建筑物區(qū)域獲得較優(yōu)的檢測結果。由于訓練樣本的多樣性對模型的性能十分重要,目前現(xiàn)有的數(shù)據(jù)集多為同源遙感影像,未來的研究方向之一就是制作異源遙感影像變化檢測數(shù)據(jù)集,以測試和進一步改進BEDRNet模型。