向 浩,祁信舒,呂現(xiàn)偉,梁 思,沈佳潔
(1.湖北省航測(cè)遙感院,湖北 武漢 430074;2.華中科技大學(xué),湖北 武漢 430074;3.武漢天遠(yuǎn)視科技有限責(zé)任公司,湖北 武漢 430070)
作為地理空間中最重要的人工要素信息,建筑物提取對(duì)城市建設(shè)、耕地保護(hù)、軍事偵察等都具有重要意義[1]。因此,遙感影像中的建筑物提取一直都是人們研究的熱點(diǎn),早期學(xué)者主要利用遙感影像中的邊界、區(qū)域等紋理信息識(shí)別建筑物,如明冬萍[2]等首先利用紋理信息在大尺度圖像上粗略識(shí)別大目標(biāo)區(qū)域,再利用區(qū)域大小、形狀和位置關(guān)系得到基元特征,進(jìn)而對(duì)這些區(qū)域進(jìn)行精細(xì)化分割;劉正軍[3]等首先利用建筑物特有的光譜、形態(tài)和紋理信息從遙感影像中提取建筑物,再將提取的建筑物邊界變換為直線邊界,從而得到建筑物的輪廓線;陳行[4]等基于建筑物形狀和結(jié)構(gòu)特點(diǎn),從形態(tài)學(xué)的角度利用引導(dǎo)濾波改善了遙感影像中的建筑物提取性能,上述方法盡管在一定程度上實(shí)現(xiàn)了建筑物提取,但分割效率和精度還無法達(dá)到預(yù)期效果。
近年來,深度學(xué)習(xí)技術(shù)的快速發(fā)展極大地促進(jìn)了以目標(biāo)檢測(cè)、識(shí)別與分割為代表的計(jì)算機(jī)視覺領(lǐng)域的進(jìn)步。借助深度神經(jīng)網(wǎng)絡(luò)強(qiáng)大的特征提取能力,可顯著提升計(jì)算機(jī)視覺技術(shù)的性能。FCN 網(wǎng)絡(luò)[5]的提出拉開了基于深度學(xué)習(xí)的圖像分割技術(shù)的序幕,實(shí)現(xiàn)了端到端的圖像語(yǔ)義分割。Ronneberger O[6]等提出了一種U型網(wǎng)絡(luò)模型U-Net,通過不同網(wǎng)絡(luò)層級(jí)的拼接,最大程度保留圖像中的目標(biāo)紋理和邊緣等語(yǔ)義信息,從而改善了對(duì)目標(biāo)的表征能力。Chen L[7]等提出的Deep?Labv3+模型在先前研究的基礎(chǔ)上增加了一個(gè)解碼器修正分割結(jié)果,從而進(jìn)一步改善了分割邊緣。鑒于U-Net 和DeepLabv3+在目標(biāo)分割上取得的良好效果,呂道雙[8]、于明洋[9]等分別將U-Net和DeepLabv3+應(yīng)用于遙感影像的建筑物提取中。雖然這些基于深度學(xué)習(xí)技術(shù)的模型可快速提取建筑物,但受限于訓(xùn)練樣本數(shù)量和質(zhì)量,其準(zhǔn)確率仍難以滿足“真實(shí)可靠準(zhǔn)確”的質(zhì)量要求。最近基于海量數(shù)據(jù)訓(xùn)練的分割大模型SAM引起了研究人員的廣泛關(guān)注,盡管無法得到分割區(qū)域的語(yǔ)義信息,但其強(qiáng)大的分割能力以及可將目標(biāo)上點(diǎn)、目標(biāo)框等信息作為目標(biāo)提示輸入的特性被廣泛應(yīng)用于各種目標(biāo)分割任務(wù)中。分割精度不高的建筑物提取模型可為SAM提供潛在的建筑物目標(biāo)提示信息。
鑒于此,本文提出了基于SAM 的建筑物分割方法,將建筑物分割模型與SAM相結(jié)合,建筑物分割模型提供語(yǔ)義信息,SAM 提供準(zhǔn)確的分割結(jié)果;并以LoveDA 數(shù)據(jù)集中的遙感影像為實(shí)驗(yàn)數(shù)據(jù),與直接使用DeepLabv3+得到的分割結(jié)果進(jìn)行對(duì)比,以驗(yàn)證該方法的有效性。
基于SAM 的建筑物分割方法主要利用SAM 的提示信息分割功能,首先利用DeepLabv3+得到遙感影像中建筑物粗分割區(qū)域;然后從建筑物粗分割區(qū)域中生成有效的建筑物目標(biāo)點(diǎn)或目標(biāo)框,作為SAM的提示信息;最后將提示信息與遙感影像一起輸入SAM 模型,利用SAM提示信息分割功能得到建筑物的精確分割結(jié)果(圖1)。
圖1 基于提示信息SAM的建筑物分割方法研究框架
雖然基于深度學(xué)習(xí)的建筑物分割模型在準(zhǔn)確度上仍難以滿足生產(chǎn)質(zhì)量要求,但可作為SAM分割模型重要的提示信息,將潛在的建筑物區(qū)域通過關(guān)鍵目標(biāo)點(diǎn)或目標(biāo)框與原始影像一起輸入到SAM 模型中,指導(dǎo)SAM模型精確提取建筑物,從而賦予SAM語(yǔ)義分割的能力。本文選擇經(jīng)典的DeepLabv3+作為建筑物粗分割模型,將訓(xùn)練好的DeepLabv3+模型直接輸入原始遙感影像,輸出為與原始影像大小相同的二值影像,其中白色表示潛在的建筑物區(qū)域。本文分別采用X∈RH×W×3和I∈RH×W表示分辨率為H×W的原始影像和對(duì)應(yīng)的二值分割結(jié)果。
SAM模型提供了基于目標(biāo)關(guān)鍵點(diǎn)或目標(biāo)框等提示信息的目標(biāo)分割功能,因此需將DeepLabv3+輸出的二值化分割結(jié)果轉(zhuǎn)換為分割區(qū)域的目標(biāo)關(guān)鍵點(diǎn)或目標(biāo)框。由于DeepLabv3+的分割結(jié)果只包含建筑物的語(yǔ)義信息,不同建筑物的區(qū)域是無法區(qū)分的,因此不能直接將二值化分割結(jié)果轉(zhuǎn)換為建筑物區(qū)域的提示信息。為解決該問題,本文首先利用開源程序庫(kù)skimage.measure 中的label 函數(shù)將建筑物二值化結(jié)果中互不連通的區(qū)域轉(zhuǎn)換為不同的建筑物目標(biāo),然后利用regionprops 函數(shù)得到每個(gè)建筑物目標(biāo)的最小矩形框。基于DeepLabv3+提取的建筑物目標(biāo)框定義為:
二值化分割結(jié)果中不同的建筑物目標(biāo)見圖2,矩形框?yàn)榛谏鲜龇椒ǖ玫降哪繕?biāo)框,由于DeepLabv3+的分割結(jié)果中存在一些分散的小區(qū)域(圖2 中藍(lán)色矩形框),其中并不包含建筑物目標(biāo),因此需進(jìn)一步對(duì)建筑物目標(biāo)面積小于一定閾值的區(qū)域進(jìn)行過濾?;贒eepLabv3+提取的建筑物目標(biāo)框定義修改為:
圖2 建筑物目標(biāo)框
式中,b=(x,y,w,h)為中心坐標(biāo)為(x,y)、寬和高分別為2w和2h的目標(biāo)框; area(b)為目標(biāo)框b的面積;本文面積閾值T的取值為64。
最終得到的建筑物如圖2 中紅色矩形框所示,這些建筑物目標(biāo)框可有效指導(dǎo)SAM模型對(duì)該目標(biāo)的精確分割。
為驗(yàn)證不同提示信息對(duì)SAM分割結(jié)果的影響,基于建筑物目標(biāo)框生成目標(biāo)關(guān)鍵點(diǎn),進(jìn)而利用目標(biāo)提示點(diǎn)對(duì)SAM 的建筑物分割進(jìn)行指導(dǎo)。為避免Deep?Labv3+模型分割結(jié)果在目標(biāo)邊界上的誤差引起的錯(cuò)誤提示,本文將建筑物目標(biāo)框中心以及該中心與4 個(gè)頂點(diǎn)的中心作為候選關(guān)鍵點(diǎn);同時(shí)為了保證目標(biāo)提示點(diǎn)的準(zhǔn)確性,只有在建筑物目標(biāo)上的候選點(diǎn)才能作為該建筑物目標(biāo)的提示關(guān)鍵點(diǎn),即二值化分割結(jié)果在候選點(diǎn)位置的值為1。如圖3所示一個(gè)建筑物目標(biāo)的5個(gè)候選關(guān)鍵點(diǎn),只有4個(gè)紅色點(diǎn)包含在DeepLabv3+二值化分割出的建筑物中,因此這4 個(gè)點(diǎn)被選為該建筑物目標(biāo)的提示關(guān)鍵點(diǎn)。 給定一個(gè)建筑物目標(biāo)框b=(x,y,w,h),5 個(gè)候選關(guān)鍵點(diǎn)pointsc和目標(biāo)提示點(diǎn)points 可定義為:
圖3 建筑物目標(biāo)關(guān)鍵點(diǎn)
式中,I(p)為DeepLabv3+二值分割結(jié)果在p點(diǎn)的取值。
SAM 分割模型提供了全圖分割和提示分割兩種方式,全圖分割根據(jù)影像的紋理特征將整個(gè)影像分割為不同的區(qū)域,但無法輸出這些區(qū)域的語(yǔ)義信息;提示分割則可根據(jù)給定的目標(biāo)關(guān)鍵點(diǎn)、目標(biāo)框等提示信息分割影像中的指定目標(biāo)。本文采用SAM的提示分割功能提取給定遙感影像中的建筑物目標(biāo)。根據(jù)DeepLabv3+建筑物粗分割結(jié)果中生成的建筑物目標(biāo)框及其關(guān)鍵點(diǎn),本文分別采用這兩種提示信息指導(dǎo)SAM對(duì)遙感影像中的建筑物目標(biāo)進(jìn)行精準(zhǔn)分割;再整合所有建筑物目標(biāo)的分割結(jié)果,即可完成基于SAM的建筑物提取。
為驗(yàn)證提出方法的有效性,本文采用武漢大學(xué)提供的遙感地表覆蓋數(shù)據(jù)集LoveDA,包含農(nóng)村和城市兩種風(fēng)格的遙感影像,影像分辨率為1 024×1 024。從該數(shù)據(jù)集的驗(yàn)證集部分隨機(jī)選擇100 張包含建筑物目標(biāo)的遙感影像進(jìn)行實(shí)驗(yàn)評(píng)估。該數(shù)據(jù)集包含多個(gè)地物信息類別,本文進(jìn)行實(shí)驗(yàn)評(píng)估時(shí)只考慮建筑物,其他視為背景。
對(duì)于語(yǔ)義分割而言,影像的每一個(gè)像素分割均可視為二分類任務(wù)。因此,為評(píng)估該方法的建筑物提取效果,本文采用精確率(Prec)、召回率(Rec)、F1-Score、交并比(IoU)和正確率(Acc)等語(yǔ)義分割常用評(píng)價(jià)標(biāo)準(zhǔn),其中Prec 表示模型預(yù)測(cè)為建筑物區(qū)域中真實(shí)建筑物區(qū)域像素點(diǎn)的占比,亦稱查準(zhǔn)率,反映模型預(yù)測(cè)結(jié)果的可信度;Rec 表示所有建筑物區(qū)域?qū)?yīng)的像素點(diǎn)被預(yù)測(cè)正確的比例,亦稱查全率;F1-Score為一個(gè)綜合性評(píng)價(jià)指標(biāo),同時(shí)考慮了Prec 和Rec;IoU 表示模型預(yù)測(cè)為建筑物區(qū)域與真實(shí)建筑物區(qū)域在像素點(diǎn)上交集與并集的比值,理想情況下IoU為1,即預(yù)測(cè)為建筑物區(qū)域與真實(shí)建筑物區(qū)域完全重疊;Acc 表示預(yù)測(cè)正確的像素點(diǎn)占比。
式中,TP為將建筑物區(qū)域預(yù)測(cè)為建筑物區(qū)域的像素?cái)?shù);FP為將非建筑物區(qū)域預(yù)測(cè)為建筑物區(qū)域的像素?cái)?shù);FN為將建筑物區(qū)域預(yù)測(cè)為非建筑物區(qū)域的像素?cái)?shù);TN為將非建筑物區(qū)域預(yù)測(cè)為非建筑物區(qū)域的像素?cái)?shù)。
SAM 提供了vit_h、vit_l、vit_b 等3 個(gè)骨干網(wǎng)絡(luò)預(yù)訓(xùn)練模型,其中vit_h擁有最多的模型參數(shù),因此實(shí)驗(yàn)選取vit_h 作為SAM 的骨干網(wǎng)絡(luò)。為對(duì)比不同提示信息對(duì)建筑物分割結(jié)果的影響,實(shí)驗(yàn)中分別采用單獨(dú)使用目標(biāo)框、單獨(dú)使用目標(biāo)關(guān)鍵點(diǎn)、同時(shí)使用目標(biāo)框和關(guān)鍵點(diǎn)3種方法提取建筑物區(qū)域,并與直接基于Deep?Labv3+的建筑物分割結(jié)果進(jìn)行對(duì)比。不同方法的評(píng)價(jià)指標(biāo)見表1。3種組合的分割結(jié)果均為基于目標(biāo)框和關(guān)鍵點(diǎn)的最佳、基于目標(biāo)框的次之、基于目標(biāo)關(guān)鍵點(diǎn)的最差,這是由于目標(biāo)關(guān)鍵點(diǎn)只是建筑物區(qū)域的一些代表點(diǎn),與目標(biāo)框相比,包含的目標(biāo)區(qū)域信息量更少,而將二者組合后,在標(biāo)定建筑物區(qū)域的同時(shí)可以指示目標(biāo)框中建筑物區(qū)域與非建筑背景區(qū)域的具體差異,包含更具體的目標(biāo)提示信息,因此目標(biāo)框和關(guān)鍵點(diǎn)的組合可為SAM提供更好建筑物分割指導(dǎo)。另外,單獨(dú)使用目標(biāo)框或關(guān)鍵點(diǎn)方法的Prec 比DeepLabv3+低,這是由于DeepLabv3+的分割結(jié)果區(qū)域較小且都屬于建筑物區(qū)域,而單獨(dú)使用目標(biāo)框或關(guān)鍵點(diǎn)時(shí),提示信息不夠精確,導(dǎo)致SAM將提示信息周圍紋理信息相近的區(qū)域分割出來,從而引入一部分非建筑物區(qū)域;而將目標(biāo)框和關(guān)鍵點(diǎn)同時(shí)作為提示信息將會(huì)更精確地為SAM提供指導(dǎo),因此提取的建筑物區(qū)域更加準(zhǔn)確,與DeepLabv3+相比,Prec 從88.71%提升至91.49%。對(duì)于其他的評(píng)價(jià)指標(biāo),相較于DeepLabv3+,基于3種提示信息組合的分割結(jié)果均有大幅提升,其中目標(biāo)框和關(guān)鍵點(diǎn)的組合分別將Rec、F1-Score、IoU 和Acc 從58.38%、70.42%、54.34%、94.67%提升至83.74%、87.44%、77.69%、97.38%。綜上所述,基于提示信息的SAM 建筑物提取方法可有效改善建筑物分割結(jié)果,為SAM提供更多提示信息的目標(biāo)框和關(guān)鍵點(diǎn)組合可更好地提升分割結(jié)果。不同方法在不同影像上的分割效果見圖4。
表1 本文方法與基準(zhǔn)方法的建筑物分割結(jié)果對(duì)比/%
圖4 不同方法建筑物提取結(jié)果對(duì)比
本文提出的基于提示信息的SAM建筑物提取方法可實(shí)現(xiàn)遙感影像中建筑物的精準(zhǔn)提取。與DeepLabv3+相比,效果提升明顯,其中Prec 、 Rec 分別從88.71%、58.38%提升至91.49%、83.74%。該方法可顯著改善建筑物邊界,針對(duì)單個(gè)建筑物的分割效果更佳。未來將研究如何進(jìn)一步改善基于SAM分割的效率問題。