夏凡凡 肖志峰 談筱薇 王凱
(1.武漢大學(xué)測繪遙感信息工程國家重點(diǎn)實(shí)驗(yàn)室,湖北 武漢 430079;2.武漢大學(xué)遙感信息工程學(xué)院,湖北 武漢 430079)
變化檢測廣泛應(yīng)用于土地利用變化監(jiān)測[1]、災(zāi)害識別[2]等領(lǐng)域。近年來,變化檢測技術(shù)實(shí)現(xiàn)了從像素級變化檢測到對象級變化檢測,從二值變化檢測到語義變化檢測,從面向同源光學(xué)遙感數(shù)據(jù)到面向異源遙感數(shù)據(jù)三方面的發(fā)展。
“從像素級變化檢測到對象級變化檢測”,旨在解決噪聲或混合像元的存在給土地覆蓋類型變化檢測帶來干擾混淆的問題[3]。使用證據(jù)理論和形態(tài)學(xué)知識將基于像素的結(jié)果擴(kuò)展到基于對象的結(jié)果。DCA-Det[4]提出一種單階段對象級變化檢測網(wǎng)絡(luò),解決建筑物變化檢測問題?!皬亩底兓瘷z測到語義變化檢測”,強(qiáng)調(diào)前一時相與后一時相圖像中對象具體類別轉(zhuǎn)變的檢測,而不是僅識別出“變化”和“不變”兩種狀態(tài)[5]。將語義變化檢測視為兩步分類任務(wù)——對象實(shí)例分割和變化檢測[6],以端到端的方式完成了整個過程?!皬拿嫦蛲垂鈱W(xué)遙感數(shù)據(jù)到面向異源遙感數(shù)據(jù)”,是指利用來自多個傳感器的多時相數(shù)據(jù)進(jìn)行變化檢測,其關(guān)鍵是在異構(gòu)數(shù)據(jù)中找到地物的特征一致性[7],發(fā)現(xiàn)地物在光學(xué)和SAR 數(shù)據(jù)上具有局部結(jié)構(gòu)一致性[8],發(fā)現(xiàn)了Landsat-5 和Landsat-7 對于同類地物的光譜一致性。
盡管基于多時相遙感數(shù)據(jù)的變化檢測技術(shù)取得了巨大進(jìn)步,但仍存在許多挑戰(zhàn)[9]。船舶或飛機(jī)等動態(tài)目標(biāo)的實(shí)時狀態(tài)和狀態(tài)變化是異常檢測和監(jiān)測的重要基礎(chǔ),但基于這些動態(tài)目標(biāo)的變化檢測的研究較少。此外,隨著遙感技術(shù)的發(fā)展,可獲取的多傳感器、多時相遙感影像越來越豐富,但目前公開的變化檢測數(shù)據(jù)集仍以光學(xué)影像為主,缺乏包含異源數(shù)據(jù)的數(shù)據(jù)集。
論文針對現(xiàn)階段變化檢測的主要挑戰(zhàn),提出了一種面向多時相光學(xué)和SAR 遙感影像中動態(tài)目標(biāo)的對象級變化檢測方法,構(gòu)建基于孿生網(wǎng)絡(luò)的對象級變化檢測框架,對異源遙感數(shù)據(jù)深度語義特征圖提取和語義特征相似度的定量描述,判別異源影像上動態(tài)目標(biāo)的狀態(tài)變化。同時提出對象級變化檢測數(shù)據(jù)集OCD3k,利用OCD3k 數(shù)據(jù)集和兩組高分二號和高分三號衛(wèi)星影像,驗(yàn)證了該方法的有效性。
大多數(shù)變化檢測數(shù)據(jù)集僅對圖像進(jìn)行了像素級標(biāo)注,難以應(yīng)用于對象級變化檢測研究。為驗(yàn)證和評估論文方法的有效性,構(gòu)建了一個對象級變化檢測數(shù)據(jù)集OCD3k,以模擬真實(shí)場景下動態(tài)目標(biāo)在不同時相的異源遙感影像上的狀態(tài)變化。
論文從光學(xué)遙感圖像目標(biāo)檢測數(shù)據(jù)集DOTA[10]中收集光學(xué)影像目標(biāo)切片,從MSAR[11,12]、Air-SARShip-1.0[13]等SAR 遙感圖像目標(biāo)檢測數(shù)據(jù)集和高分三號衛(wèi)星影像中收集SAR 影像目標(biāo)切片。這些數(shù)據(jù)集標(biāo)注了圖像上目標(biāo)的邊界框和類別,通過以下步驟將這些數(shù)據(jù)集轉(zhuǎn)換為OCD3k 數(shù)據(jù)集:
(1)根據(jù)原始數(shù)據(jù)集的標(biāo)注,通過邊界框獲取目標(biāo)的切片,并按類別分組。
(2)所有類分為兩大類:動態(tài)目標(biāo)和靜態(tài)場景。動態(tài)目標(biāo)切片包含從光學(xué)圖像和SAR 圖像中獲取的飛機(jī)和船只目標(biāo)切片。靜態(tài)場景包括棒球場、籃球場、橋梁、操場、港口、十字路口、足球場、油罐、游泳池和網(wǎng)球場。其中,橋梁和油罐既有光學(xué)影像切片也有SAR 圖像切片,其余靜態(tài)場景僅包含光學(xué)影像切片。
(3)對象級變化檢測對劃分。所有切片兩兩組合成圖像對。同一類別的兩個動態(tài)目標(biāo)被標(biāo)記為語義不變圖像對(對應(yīng)真實(shí)場景中目標(biāo)狀態(tài)不變的情況),其余均被標(biāo)記為語義變化圖像對(對應(yīng)真實(shí)場景中目標(biāo)狀態(tài)改變的情況)。語義一致圖像對和語義不一致圖像對示例如圖1 所示。
圖1 語義一致圖像對和語義不一致圖像對示例
(4)數(shù)據(jù)集圖片總數(shù)為3024 張,訓(xùn)練集、驗(yàn)證集、測試集中,每個傳感器每類的圖片數(shù)之比約為4∶1∶16。記每個傳感器每類的圖片數(shù)為N,靜態(tài)場景的圖片數(shù)為Nss,飛機(jī)和船的圖片總數(shù)分別為Npl和Nsh,語義不一致圖像對數(shù)量為Nlabel=1,語義一致圖像對數(shù)量為Nlabel= 0:
公式(1)(2)中,C表示組合計算。根據(jù)上述規(guī)則,可將3024 張圖像切片擴(kuò)充至百萬對不重復(fù)的對象級變化檢測對。OCD3k 數(shù)據(jù)集圖片和圖片對的組成如表1 所示。
論文選用兩組高分衛(wèi)星影像,每組由一張分辨率為1m 的高分二號全色波段影像和一張分辨率為3m 的高分三號SAR 影像組成。數(shù)據(jù)一為新加坡某機(jī)場2020 年5 月29 日的高分二號衛(wèi)星全色波段影像(8305×8721),和2020 年10 月27 日的高分三號衛(wèi)星影像(8089×8338),該場景包含船只目標(biāo)圖像對130 個,其中狀態(tài)變化的59 個,狀態(tài)未變化的71 個。數(shù)據(jù)二為荷蘭某港口2021 年4 月27 日的高分二號衛(wèi)星全色波段影像(11424×11142),和2020 年10 月23 日的高分三號衛(wèi)星影像(14091×11127),該場景包含飛機(jī)目標(biāo)圖像對203 個,其中狀態(tài)變化的109 個,狀態(tài)未變化的94 個。
論文提出一種基于孿生網(wǎng)絡(luò)的對象級變化檢測框架。該框架包含異源影像目標(biāo)特征提取、特征相似性描述以及目標(biāo)狀態(tài)變化決策三個階段,整體框架如圖2 所示。在異源影像目標(biāo)語義特征提取階段,異源圖像目標(biāo)切片圖像作為孿生網(wǎng)絡(luò)的輸入,其深度語義特征通過兩個共享參數(shù)f(·)的并列子網(wǎng)提取。兩個子網(wǎng)輸出特征的語義差異在相似性描述階段進(jìn)行定量表示。最后,在目標(biāo)變化決策階段,差異度大的目標(biāo)對被標(biāo)識為發(fā)生變化的目標(biāo)對,反之則為未發(fā)生變化的目標(biāo)對。
圖2 基于孿生網(wǎng)絡(luò)的對象級變化檢測框架
記兩個時相的影像分別為I1和I2,前一時相影像I1上的任一目標(biāo)切片記為P1,后一時相影像I2上與P1相同地理位置的目標(biāo)切片記為P2。孿生網(wǎng)絡(luò)同時接收兩張圖片作為輸入,與單分支網(wǎng)絡(luò)相比,保留了輸入數(shù)據(jù)的原始信息。并列的兩個子網(wǎng)共享網(wǎng)絡(luò)參數(shù),分別接收P1和P2作為輸入,輸出特征圖可以表述為:
公式(3)中,t表示第t個卷積層。卷積神經(jīng)網(wǎng)絡(luò)中,淺層特征圖包含更豐富的細(xì)節(jié)和位置信息,深層特征圖則包含更豐富的語義信息。由于論文主要關(guān)注語義信息的變化,因此僅使用最后一個卷積層的特征圖,與全連接層連接起來,得到整合后的圖像特征。輸入圖像對中的兩張圖像分別被編碼為f(P1)和f(P2)。
兩個特征向量間的距離通常用于衡量特征之間的相似性,其中歐氏距離是最常見的。歐氏距離的定義如下:
歐氏距離保留了特征向量的原始性,平方計算能夠?qū)μ卣鏖g不明顯的差異進(jìn)行放大。但在訓(xùn)練階段開始時,高維特征向量f(P1)和f(P2)的數(shù)值差異很大,使用歐氏距離可能會導(dǎo)致梯度爆炸問題。因此,論文引入余弦距離,將特征向量的差異值拉伸至[0,1]之間。兩個特征向量的余弦距離定義為:
目標(biāo)狀態(tài)變化決策階段通過比較相似性描述模塊輸出的特征向量間的距離與距離閾值間的關(guān)系,將圖像對判別為語義一致和語義不一致圖像對。判別規(guī)則如下:
公式(7)中,變量y表示給圖像對賦予的標(biāo)簽,y= 0 表示圖像對語義一致,y= 1 表示圖像對語義不一致表表示示兩張圖片特征向量的距離,margin是距離閾值。
通過計算前一時相上的目標(biāo),與后一時相相同地理位置圖像切片的深度語義特征的距離相似度,在合適的距離閾值下,根據(jù)公式(7),給該地理位置的圖像對分配標(biāo)簽,判別目標(biāo)狀態(tài)是否發(fā)生變化。重復(fù)上述過程直至給前一時相上所有的目標(biāo)均分配標(biāo)簽。
論文使用在ImageNet[14]上進(jìn)行預(yù)訓(xùn)練的ResNets[15]作為特征提取網(wǎng)絡(luò)。訓(xùn)練和測試過程在16GB 內(nèi)存的Tesla-V100 GPU 上進(jìn)行。訓(xùn)練過程中,使用隨機(jī)梯度下降(SGD)優(yōu)化器,動量為0.9,權(quán)重衰減為1×10?4。在更改特征維度和主干網(wǎng)絡(luò)時,保持訓(xùn)練輪次為30,初始學(xué)習(xí)率為0.01,然后在第18 個和第27 個輪次時分別降低為0.001 和0.0001。網(wǎng)絡(luò)輸入的圖像大小為64×64。使用余弦距離時,距離閾值設(shè)置為0.6,使用歐氏距離時設(shè)置為1.0。
論文使用精確率(Precision,prec)、召回率(Recall,rec)和特異度(Specificity,spec)評估對象級變化檢測方法的性能。
考慮到測試集和訓(xùn)練集的數(shù)據(jù)差異性較大,訓(xùn)練時用的距離閾值不一定是測試階段的最優(yōu)閾值。在ROC 曲線的啟發(fā)下,以0.1 為間隔,統(tǒng)計在大于0 且小于等于訓(xùn)練階段距離閾值的所有閾值下的精確度、召回率和特異度指標(biāo)。繪制 “recall-(1-specificity)”曲線,記為“閾值靈敏性曲線”(Margin-sensitivity Curve),曲線示意圖如圖3 所示。
圖3 閾值靈敏性曲線
和ROC 曲線類似,“閾值靈敏性曲線”圖中有一條線通過(0,0)和(1,1)的直線,表示“隨機(jī)猜測”模型,其在二分類問題中表示的可信度為0.5 的模型。在“隨機(jī)猜測”線上方的曲線代表有效模型,任意“閾值靈敏性曲線”中,如果一個點(diǎn)比任何其他點(diǎn)離“隨機(jī)猜測”線更遠(yuǎn),即認(rèn)為模型在對應(yīng)的距離閾值上表現(xiàn)最佳。與該點(diǎn)對應(yīng)的指標(biāo)將被記錄為測試集的結(jié)果。同時,曲線和x 軸包圍的面積越大表示曲線對應(yīng)模型的性能越高。
3.3.1 OCD3k 數(shù)據(jù)集實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)在2.1 節(jié)所提及的OCD3k 數(shù)據(jù)集的測試集上進(jìn)行。表2 統(tǒng)計不同深度的特征提取網(wǎng)絡(luò)(backbone,分別為ResNet18、ResNet50 和ResNet152)、全連接層特征維度(fc,可設(shè)置為32 或128 或152)和損失函數(shù)中距離公式(dis_func,cosine 表示使用余弦距離,Euclidean 表示使用歐氏距離)的情況下,每個模型的召回率(rec),精度(prec)和特異性(spec)指標(biāo),這些指標(biāo)依據(jù)3.2 節(jié)中的“閾值靈敏性曲線”篩選得到。
表2 OCD數(shù)據(jù)集測試集實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)結(jié)果表明,即使在數(shù)據(jù)集的組織上,測試集中包含訓(xùn)練集中未出現(xiàn)的語義變化組合,當(dāng)實(shí)驗(yàn)設(shè)置不同的“特征提取網(wǎng)絡(luò)-距離函數(shù)-特征維度”(“ backbone -dis_fun-fc”)組合時,所有模型都表現(xiàn)出較高準(zhǔn)確率,除“ResNet18-cosine-32”“ResNet50-cosine-32”和“ResNet152- cosine-128”三組設(shè)置的模型準(zhǔn)確度略低外,其余設(shè)置下模型的準(zhǔn)確度均高于95.00%,在選用ResNet18 作為主干網(wǎng)絡(luò)、歐氏距離作為距離函數(shù)、全連接層特征維度設(shè)置為32 時(“ResNet18-Euclidean-32”),準(zhǔn)確度最高,達(dá)到98.23%。這表示論文方法不僅能檢測經(jīng)過訓(xùn)練類別間的語義變化,在檢測未經(jīng)訓(xùn)練類別的圖像語義變化上也表現(xiàn)出巨大潛能。
使用余弦距離和歐氏距離的模型的“閾值靈敏性曲線”分別如圖4 和圖5 所示。從表2、圖4、圖5 分析得出,隨著網(wǎng)絡(luò)層數(shù)和特征向量維數(shù)的增加,模型在余弦距離和歐氏距離上的表現(xiàn)趨勢幾乎相反。具體表現(xiàn)為:
圖4 距離函數(shù)為余弦距離時的閾值靈敏性曲線
圖5 距離函數(shù)為歐氏距離時的閾值靈敏性曲線
(1)如果沒有梯度爆炸,使用歐氏距離的模型在最佳閾值下的性能整體上優(yōu)于使用余弦距離的模型;
(2)網(wǎng)絡(luò)較淺且特征維度較小的模型在使用歐氏距離時效果更好,但在使用余弦距離時效果更差。使用歐氏距離時,最好效果的模型的主干網(wǎng)絡(luò)為ResNet18、全連接層特征維度為32(“ResNet18-Euclidean-32”),最差效果的模型的主干網(wǎng)絡(luò)為ResNet152、全連接層特征維度為1024(“ResNet152-Euclidean-1024”);使用余弦距離時,最好效果的模型的主干網(wǎng)絡(luò)為ResNet152、全連接層特征維度為1024(“ResNet152-cosine-1024”),最差效果的模型的主干網(wǎng)絡(luò)為ResNet18、全連接層特征維度為32(“ResNet18-cosine-32”)。
(3)總體來說,使用歐氏距離的模型在識別語義不一致圖像對方面顯示出明顯優(yōu)勢,特別是網(wǎng)絡(luò)較淺且特征維度較少時,但隨著網(wǎng)絡(luò)層和特征維數(shù)的增加,歐氏距離優(yōu)勢減弱,使用余弦距離的模型開始顯示出優(yōu)勢。這是由于余弦距離能夠?qū)?shù)據(jù)進(jìn)行壓縮,抑制了無用的信息,更適合更深的網(wǎng)絡(luò)和更高的特征維度。從另一個角度來看,歐氏距離強(qiáng)調(diào)有用的信息,特別是在使用較淺的網(wǎng)絡(luò)和較少維度的特征時。綜上,在數(shù)據(jù)量較小時,選擇較深的網(wǎng)絡(luò)和余弦距離,或者選擇較淺的網(wǎng)絡(luò)和歐氏距離,可以取得更好的效果。
3.3.2 動態(tài)目標(biāo)變化檢測實(shí)例
利用2.2 節(jié)提及的兩組高分衛(wèi)星影像,將論文提出的對象級變化檢測方法擴(kuò)展至真實(shí)衛(wèi)星影像的應(yīng)用上。圖6 中,(a)(b)展示了數(shù)據(jù)一的原始影像,(e)(f)展示了數(shù)據(jù)二的原始影像,(c)(g)分別展示了數(shù)據(jù)一和數(shù)據(jù)二的變化檢測真值,(d)(h)展示了選用ResNet50 作為主干網(wǎng)絡(luò)、歐氏距離作為距離函數(shù)、特征維度設(shè)置為1024 的模型,對前一時相遙感影像上的飛機(jī)或船只目標(biāo),在后一時相影像中的狀態(tài)是否發(fā)生變化進(jìn)行檢測的結(jié)果。圖中,藍(lán)色方塊表示前后時相圖像的目標(biāo)狀態(tài)不變,黃色方框表示目標(biāo)狀態(tài)改變。
圖6 異源高分影像變化檢測結(jié)果
論文針對異源遙感影像動態(tài)目標(biāo)變化檢測問題,提出一種基于孿生網(wǎng)絡(luò)結(jié)構(gòu)的對象級變化檢測方法。通過兩個結(jié)構(gòu)和權(quán)重完全相同的分支,提取異源圖像對具有判別性的語義特征;利用距離函數(shù)構(gòu)建圖像對深度特征相似性描述符,抑制無效信息,增強(qiáng)特征差異。為解決異源遙感影像對象級變化檢測數(shù)據(jù)不足問題,論文收集了典型類別目標(biāo)的圖像切片3024 張,組合成包含百萬對同源和異源圖像對的數(shù)據(jù)集,構(gòu)建了一種適用于異源影像對象級變化檢測的數(shù)據(jù)集OCD3k。論文方法的有效性在數(shù)據(jù)集和真實(shí)衛(wèi)星數(shù)據(jù)上得到了驗(yàn)證,在區(qū)分經(jīng)過訓(xùn)練及未經(jīng)訓(xùn)練的目標(biāo)類別間的語義變化問題上,都表現(xiàn)出較高的準(zhǔn)確率。