傅繪錦
(1.武漢大學(xué) 遙感信息工程學(xué)院,湖北 武漢 430079)
利用遙感影像動態(tài)掌握國土資源變化,可為國家提供地理國情信息決策支撐。傳統(tǒng)人工變化檢測對高分辨率衛(wèi)星遙感圖像的特征刻畫能力較差,且工作量巨大,而基于深度學(xué)習(xí)的解譯方法可自動分析變化信息,但如何提升檢測效率和準(zhǔn)確性仍是業(yè)界重要討論的主題。變化檢測主要分為兩步,即先進(jìn)行圖像內(nèi)的目標(biāo)提取,再計算圖像間的信息差,因此高效正確的目標(biāo)提取對后續(xù)信息差計算影響很大。
在深度學(xué)習(xí)普及前,傳統(tǒng)方法根據(jù)像素閾值、顏色等信息進(jìn)行目標(biāo)提取,如袁敏[1]等利用最大流、最小割函數(shù)進(jìn)行圖像分割,但無法消除遙感影像中“同物異譜、同譜異物”的影響;肖明虹[2]等提出的超像素協(xié)同分割變化檢測方法有效克服了椒鹽噪聲,但忽略了像素塊之間的關(guān)系,檢測效果不理想。隨著深度學(xué)習(xí)的快速發(fā)展,變化檢測方法得到了相關(guān)算法的支持與改進(jìn),如LYU H[3]等利用卷積神經(jīng)網(wǎng)絡(luò)提取遙感影像抽象特征,但只重點關(guān)注了高維語義信息,重要邊界細(xì)節(jié)易丟失;GONG M[4]等利用分類圖獲取訓(xùn)練樣本,通過深度學(xué)習(xí)訓(xùn)練得到變化檢測圖,但特征提取較少,預(yù)分類結(jié)果缺少空間結(jié)構(gòu)信息。業(yè)界提出利用語義分割提取目標(biāo)的方法,語義分割網(wǎng)絡(luò)形成兩大流派:①以SVM、UNet為代表的下采樣后復(fù)原方法,如孫紅巖[5]提出的SVM與多特征融合的方法,該方法受噪聲影響較大,在特征圖分辨率縮小的過程中仍有空間信息流失;②以DeepLab為代表的保持特征高分辨率的方法,如趙祥[6]等提出的改進(jìn)的DeepLab3+孿生網(wǎng)絡(luò),計算繁雜、效率不高。相較于傳統(tǒng)目視方法,深度學(xué)習(xí)降低了檢測成本,但目前只有少數(shù)研究關(guān)注到保持高空間語義信息對模型性能的影響,為了做出改進(jìn),SUN K[7]等在研究人類姿勢時提出了一種并行結(jié)構(gòu)網(wǎng)絡(luò)HRNet,不同于傳統(tǒng)語義分割網(wǎng)絡(luò),其通?;趶母叩降偷木幋a器提取特征圖,使特征提取同時擁有高分辨率和高語義,能保留重要的形狀和邊界細(xì)節(jié)。受上述研究啟發(fā),本文以CHEN H[8]等提出的BIT-CD框架為基礎(chǔ),設(shè)計了一種基于HRNet方法的H-BIT遙感影像變化檢測方法,通過HRNet融合高分辨率和高語義信息,Transformer整合特征向量與語義特征輸出強化特征,最后生成二值變化結(jié)果;并在LEVIR-CD數(shù)據(jù)集上進(jìn)行了對比實驗,驗證了本文方法的有效性和魯棒性,還通過消融實驗獲取了最佳模型。
H-BIT變化檢測網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,由HRNet-V2特征提取主網(wǎng)絡(luò)、雙時態(tài)圖像自注意力變換網(wǎng)絡(luò)Transformer和差異計算預(yù)測Predction Head三個模塊組成。
圖1 H-BIT變化檢測網(wǎng)絡(luò)結(jié)構(gòu)
1.1.1 HRNet-V2特征提取主網(wǎng)絡(luò)
受HRNet[7]啟發(fā),本文采用多分辨率并行的HRNet-V2網(wǎng)絡(luò),對不同分辨率的特征圖進(jìn)行提取后再跨分辨率融合,從而解決傳統(tǒng)串聯(lián)網(wǎng)絡(luò)提取語義高維信息時高分辨率空間信息被壓縮、對小尺度目標(biāo)特征提取能力有限的問題,保證在高分辨率特征圖下較精確完整的空間位置信息,對位置敏感的語義分割任務(wù)友好。
如圖2所示,HRNet-V2網(wǎng)絡(luò)對圖像特征進(jìn)行并行提取,特征單元塊通過下采樣使語義聚合、上采樣恢復(fù)高分辨率,再通過層間融合得到一代特征圖X i,即可在提取高維語義信息的同時,保留高分辨率特征。
圖2 HRNet-V2特征提取主網(wǎng)絡(luò)結(jié)構(gòu)
1.1.2 雙時態(tài)圖像自注意力變換網(wǎng)絡(luò)Transformer
Transformer主要包括詞元分析器、編碼器和解碼器,用于處理一代特征圖。如圖3所示,詞元分析器可將HRNet-V2輸出的一代特征圖轉(zhuǎn)換為詞元,類似自然語言處理,將語句切分后用詞元去表達(dá),CHEN H[8]等設(shè)計了孿生形的詞元集,將X1、X2兩幅特征圖送入同一個詞元分析器網(wǎng)絡(luò)分別進(jìn)行卷積操作,將提取的特征圖也分為A1、A2兩套子圖,并分別映射為T1、T2兩套詞元集。為了匯聚空間層面上的信息,本文利用Woo S[9]等提出的Convolutional Block Attention Module中的空間注意力模塊來壓縮通道,得到語義豐富的緊湊詞元。
圖3 詞元分析器結(jié)構(gòu)
編碼器與Dosovitskiy A[10]等提出的ViT相似,但本文模塊更小,注意力模塊只堆疊了4次。如圖4所示,將Transformer輸出的兩套詞元集T1、T2串聯(lián)成為一個詞元集后進(jìn)行編碼、范數(shù)計算,得到Query、Key和Value。多頭自我注意力機制模塊并行處理,串聯(lián)后計算范數(shù),送入多層感知機模塊。多頭自我注意力機制利用不同位置的多種子圖信息表達(dá),擁有異源信息共同作用的優(yōu)勢。多層感知機模塊則通過GELU激活函數(shù)[11]連接兩個線性轉(zhuǎn)換層構(gòu)成,最終將輸出的詞元集切片還原為富含高級語義信息的詞元集
解碼器采用孿生網(wǎng)絡(luò)形式,結(jié)合詞元信息對原始特征進(jìn)行改進(jìn)。為了將編碼器得到的富語義詞元集重投影到像素空間,解碼器利用原始影像特征向量X1、X2每個像素與富語義詞元集之間的關(guān)系,得到優(yōu)化后的特征向量如圖4所示,解碼器由多頭交叉注意力模塊和多層感知機模塊組成,不同于Siamese解碼器[12],利用多頭交叉注意力模塊代替原始多頭自我注意力模塊,可有效避免像素間富連接造成的不良影響,此時Query、Key和Value分別來自不同的輸入序列,即Query來自一代特征圖,Key和Value來自富語義詞元集。
圖4 編碼器與解碼器結(jié)構(gòu)
1.1.3 差異計算預(yù)測Predction Head
在最后的預(yù)測模塊,Prediction Head對改進(jìn)后得到的兩幅特征圖作差再取絕對值得到差異特征張量,利用FCN的思想,在分類器中通過兩個卷積核大小為3×3的卷積層,得到最終預(yù)測輸出的二值變化圖。
在訓(xùn)練階段,為優(yōu)化網(wǎng)絡(luò)參數(shù),選擇最大程度降低交叉熵?fù)p失L,計算公式為:
式中,l(P hw,y)=-log(Phwy)為交叉熵?fù)p失函數(shù);Y hw為位于(h,w)上像素的標(biāo)簽。
本文在PyTorch上實現(xiàn)了H-BIT方法。訓(xùn)練時采用動量梯度隨機下降(SGD)優(yōu)化器,動量設(shè)置為0.99,權(quán)重衰減設(shè)置為5×10-4,學(xué)習(xí)率最大值max_lr=0.01,并在前30%的迭代輪次中進(jìn)行學(xué)習(xí)率預(yù)熱,從0緩慢上升到max_lr,再隨迭代輪次逐步衰減到max_lr/75。每輪訓(xùn)練后對模型進(jìn)行驗證,驗證集中的最佳模型用于測試集預(yù)測。實驗在武漢大學(xué)超級計算中心的GPU服務(wù)器上完成模型訓(xùn)練,具體硬件配置為兩塊Intel(R)Xeon(R)E5-2640 v4 x86_64、24 GHz、20核心,4塊Nvidia Tesla V100 16GB和128GB DDR4 2 400 MHz ECC,共迭代100輪,訓(xùn)練635幅遙感影像數(shù)據(jù)。模型每迭代一輪大約需要花費5 min。
LEVIR-CD數(shù)據(jù)集源于北航LEVIR團(tuán)隊的公開論文[8],包含637對由航拍器采集的遙感影像對,時間跨度為5~14 a,每幅圖像由近紅外、紅色和綠色3個波段組成,大小均為1 024像素×1 024像素,影像分辨率為0.5 m,共有31 333個變化建筑實例作為數(shù)據(jù)集的變化信息,平均變化大小為987像素。由于GPU內(nèi)存限制,將圖像切成256×256的無重疊小尺寸圖像塊,按照訓(xùn)練集、驗證集、測試集的劃分,分別得到7 120對訓(xùn)練圖像塊、1 024對驗證圖像塊和2 048對測試圖像塊。
鑒于遙感影像變化檢測可看作像素點的二分類問題,本文的評價指標(biāo)選取機器學(xué)習(xí)統(tǒng)計學(xué)中用以衡量二分類模型精確度的F1得分(可兼顧分類模型的精確率和召回率)、精確率(precision)、召回度(recall)、交并比(IoU)、總體精度(OA)。
TP表示將正類預(yù)測為正類,F(xiàn)P表示將負(fù)類預(yù)測為正類,TN表示將負(fù)類預(yù)測為負(fù)類,F(xiàn)N表示將正類預(yù)測為負(fù)類,構(gòu)成變化檢測混淆矩陣如表1所示。
表1 變化檢測混淆矩陣
利用訓(xùn)練好的模型對測試集進(jìn)行端對端的輸出預(yù)測;在LEVIR-CD數(shù)據(jù)集上,將H-BIT方法與原始BIT方法進(jìn)行比較實驗,數(shù)據(jù)集和實驗環(huán)境均相同。定量和定性結(jié)果如表2和圖5所示,可以看出,H-BIT方法各項指標(biāo)均優(yōu)于原始BIT方法,說明H-BIT方法能有效提升模型變化檢測精度;兩種方法均能識別檢測目標(biāo)的變化,但H-BIT方法效果更好。圖5中白色代表建筑變化,黑色代表未變化,黃色標(biāo)記圈出了H-BIT方法的優(yōu)點,與標(biāo)準(zhǔn)變化標(biāo)簽圖相比,原始BIT方法存在錯檢、漏檢現(xiàn)象,大型變化建筑檢測結(jié)果結(jié)構(gòu)丟失、部分內(nèi)部有較大空洞,小型變化建筑檢測結(jié)果邊界模糊、形態(tài)缺陷;而H-BIT方法在復(fù)雜背景下也表現(xiàn)優(yōu)越,建筑邊界更平滑,去除了噪點影響,能完整提取目標(biāo)、有效區(qū)分變化像素與偽變化像素,極少出現(xiàn)錯檢、漏檢現(xiàn)象,對于不同尺度目標(biāo)的提取均能發(fā)揮較好的效果,因此在定性結(jié)果上,H-BIT方法也優(yōu)于原始BIT方法。
表2 H-BIT與BIT方法的精度對比/%
圖5 H-BIT方法與原始BIT方法檢測結(jié)果對比
為了獲得性能最優(yōu)的H-BIT模型,本文控制一些參數(shù)的設(shè)置,仍采用F1得分、precision、recall、IoU和OA五個評價指標(biāo),通過調(diào)整學(xué)習(xí)率預(yù)熱所占總體訓(xùn)練輪次的比例和Token_length,獲得一個較穩(wěn)定的模型。本文分別在預(yù)熱比例為0.3、0.5、0.7和Token_length為4、6的情況下訓(xùn)練模型,具體結(jié)果如表3所示,可以看出,模型在預(yù)熱比例為0.3和Token_length為6時的表現(xiàn)較好;預(yù)熱比例為0.5和0.7時,雖然模型訓(xùn)練經(jīng)過預(yù)熱已經(jīng)穩(wěn)定,但剩下較少的訓(xùn)練輪次,模型無法取得足夠的訓(xùn)練條件;模型在Token_length為6時,更加符合數(shù)據(jù)集語義信息,因此學(xué)習(xí)率預(yù)熱比例為0.3,Token_length為6的H-BIT模型在LEVIR-CD上表現(xiàn)最優(yōu)。
表3 消融實驗結(jié)果統(tǒng)計
本文將遙感影像變化檢測視為目標(biāo)提取與差異計算兩大塊,基于BIT變化檢測框架提出了一種改進(jìn)后以HRNet為目標(biāo)提取主干網(wǎng)絡(luò)的H-BIT模型;在公開的遙感影像變化檢測數(shù)據(jù)集LEVIR-CD上進(jìn)行訓(xùn)練與測試;并與原始BIT模型進(jìn)行定性和定量的測試對比。同時,為了獲得性能最優(yōu)的模型,本文對H-BIT模型進(jìn)行了參數(shù)消融實驗,結(jié)果表明:
1)以HRNet為目標(biāo)提取的主干網(wǎng)絡(luò),在很大程度上降低了錯檢漏、檢概率,提高了變化檢測精度。H-BIT方法的precision、recall、F1得分和OA分別達(dá)到了86.95%、90.24%、87.93%和96.62%,較原始BIT方法分別提高了11.02%、10.22%、10.86%和3.95%。HRNet有利于目標(biāo)邊界的平滑處理,對于背景與目標(biāo)模糊的影像也能完整提取出目標(biāo)。
2)不同于原始卷積神經(jīng)網(wǎng)絡(luò)降低分辨率的做法,經(jīng)HRNet網(wǎng)絡(luò)提取的特征圖像融合了高分辨率和高語義信息兩大優(yōu)勢,高分辨率有利于后續(xù)差異計算,對小目標(biāo)的變化也很敏感,即使影像復(fù)雜,存在多種尺度目標(biāo),H-BIT方法也能表現(xiàn)出較高的變化檢測性能。
3)相較于原始方法,H-BIT方法的參數(shù)數(shù)量和計算量更少,訓(xùn)練速度更快,擁有時間優(yōu)勢。
本文提出的基于HRNet的H-BIT模型仍存在一些不足,如訓(xùn)練樣本變化檢測目標(biāo)種類單一等,下一步將獲取擁有不同種類目標(biāo)的數(shù)據(jù)進(jìn)行檢測,以進(jìn)一步提高該方法的目標(biāo)可拓展性。