張銘飛, 高國(guó)偉, 胡敬芳, 宋 鈺
(1.北京信息科技大學(xué) 傳感器北京市重點(diǎn)實(shí)驗(yàn)室,北京 100101;2.北京信息科技大學(xué) 現(xiàn)代測(cè)控技術(shù)教育部重點(diǎn)實(shí)驗(yàn)室,北京 100192;3.傳感器聯(lián)合國(guó)家重點(diǎn)實(shí)驗(yàn)室 中國(guó)科學(xué)院空天信息創(chuàng)新研究院,北京 100190)
水資源可用性是旱地可持續(xù)發(fā)展的主要限制因素。氣候變化加劇了人與環(huán)境之間的用水需求沖突,凸顯了有效水資源管理對(duì)于實(shí)現(xiàn)經(jīng)濟(jì)發(fā)展與環(huán)境保護(hù)之間平衡的重要性。2008年,中國(guó)北方典型旱地內(nèi)蒙古提出了嚴(yán)格的水資源開(kāi)發(fā)利用規(guī)定,以實(shí)現(xiàn)可持續(xù)發(fā)展。隨著全國(guó)水資源保護(hù)政策的提出,水域變化監(jiān)測(cè)顯得尤為重要。
現(xiàn)階段用來(lái)進(jìn)行水體提取的方法主要有閾值法[1]、決策樹(shù)法[2]、支持向量機(jī)(SVM)法[3]。王鑫等人[4]將圖像的局部二值模式(local binary patterns,LBP)和頻譜特征通過(guò)視覺(jué)詞袋模型進(jìn)行融合,以增強(qiáng)遙感影像中的水體目標(biāo)特征表達(dá)能力,設(shè)計(jì)了基于詞袋的遙感圖像水體識(shí)別模型。然而由于該方式是在頻域范圍內(nèi)對(duì)水體進(jìn)行特征提取,并不能完全表征目標(biāo)的特定信息。
陳坤等人[5]使用具有三層卷積層的神經(jīng)網(wǎng)絡(luò)模型,經(jīng)過(guò)訓(xùn)練實(shí)現(xiàn)對(duì)遙感水體的提?。缓魏G宓热薣6]將水體指數(shù)與卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)相結(jié)合建立水體提取模型,水體識(shí)別精度達(dá)到了94.19 %;何紅術(shù)等人基于U-Net模型,經(jīng)過(guò)改進(jìn)提高了其識(shí)別精度。以上文獻(xiàn)表明,CNN可用于水體識(shí)別,但這些模型的識(shí)別精度并不高,而且有些模型的網(wǎng)絡(luò)結(jié)構(gòu)較為復(fù)雜。
針對(duì)現(xiàn)有的網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜,模型訓(xùn)練收斂慢等問(wèn)題,基于CNN,本文提出了一種用于遙感圖像水體提取的模型。首先通過(guò)網(wǎng)絡(luò)爬蟲(chóng)構(gòu)造遙感圖像訓(xùn)練數(shù)據(jù)集,為了比較模型的魯棒性,構(gòu)造了兩種類(lèi)型的數(shù)據(jù)集。第一個(gè)是由0.1~0.8 m辨率的高分一、二、六號(hào)衛(wèi)星圖像組成的粗標(biāo)記的數(shù)據(jù)集,第二個(gè)是由0.8 m分辨率的高分二號(hào)衛(wèi)星圖像組成的精標(biāo)記的數(shù)據(jù)集[7],最后在Tensorflow的框架下設(shè)計(jì)網(wǎng)絡(luò)模型,通過(guò)訓(xùn)練后在測(cè)試集上進(jìn)行模型驗(yàn)證。
經(jīng)典語(yǔ)義分割模型UNet[8]最先用于醫(yī)學(xué)圖像的分割,并在醫(yī)學(xué)圖像數(shù)據(jù)集上取得了非常好的分割效果。由于網(wǎng)絡(luò)模型并沒(méi)有較深的層數(shù),并且在較少的數(shù)據(jù)集上表現(xiàn)出了非常好的分割效果,因此備受廣大研究者的追捧。受U-Net結(jié)構(gòu)的啟發(fā),本文提出了一種具有通道注意力機(jī)制的殘差網(wǎng)絡(luò)U-Net(residual U-Net with attention mechanisms,AMR-Unet)模型。它不僅能夠?qū)W習(xí)圖像中簡(jiǎn)單的局部特征,而且可以結(jié)合通道特征組成復(fù)雜的特征。其核心是將圖像局部特征和通道空間特征結(jié)合起來(lái),從而獲得位移、尺度、形變的不變特征,具有很強(qiáng)的魯棒性。因此在以上背景下,利用AMR-Unet有利于克服水域的復(fù)雜環(huán)境因素,對(duì)水體進(jìn)行提取。
U-Net結(jié)構(gòu)由兩部分組成,由下采樣收縮路徑和上采樣擴(kuò)張路徑組成,其中下采樣模塊遵循典型的卷積網(wǎng)絡(luò)架構(gòu),如圖1所示。AMR-Unet模型由Encoder和Decoder兩部分組成,如圖2所示,Encoder對(duì)應(yīng)U-Net的收縮路徑,Decoder對(duì)應(yīng)擴(kuò)張路徑。
圖1 U-Net結(jié)構(gòu)
圖2 AMR-Unet結(jié)構(gòu)
在CNN中,卷積層通過(guò)卷積運(yùn)算,提取原始圖像的高維語(yǔ)義特征,可以增強(qiáng)信號(hào)的特征也可以降低信號(hào)噪聲[9~11]。卷積操作可表示下
input(Ni,k)
(1)
式中 *為二維離散卷積運(yùn)算符,N為batch size,C為通道數(shù)量,H為輸入圖像特征圖的高度(以像素為單位),W為輸入圖像特征圖的寬度(以像素為單位),bias為偏置值,out為卷積運(yùn)算的輸出結(jié)果。
CNN中,池化(pooling)層通常稱(chēng)為下采樣(subsampling)層,池化操作利用圖像局部具有相關(guān)性原理,對(duì)上一層特征圖中相鄰矩形區(qū)域進(jìn)行統(tǒng)計(jì)計(jì)算,起到了二次特征提取作用。常用的池化操作有最大池化(max pooling)、最小池化(min pooling)、平均池化(average pooling)[10]等。池化操作表示如下
(2)
式中Hin,Win分別為輸入特征圖的高和寬;Hout,Wout分別為池化操作后特征圖的高和寬;padding為對(duì)特征圖進(jìn)行填充,通常在特征圖邊緣填充0或1;kernel_size為池化區(qū)域的大小;stride為池化操作移動(dòng)的步長(zhǎng)。
全連接層將得到的一系列特征圖像素取出排成一個(gè)向量,其過(guò)程如下
(3)
SoftMax分類(lèi)器用作損失函數(shù)的評(píng)估,并對(duì)分類(lèi)的正確與否進(jìn)行調(diào)整??杀硎救缦?/p>
(4)
式中xi為進(jìn)行評(píng)估的目標(biāo),xj為需要進(jìn)行評(píng)估的所有目標(biāo)。
實(shí)驗(yàn)數(shù)據(jù)集分為兩個(gè)數(shù)據(jù)集,第一個(gè)數(shù)據(jù)集是來(lái)自高分一號(hào)、高分二號(hào)、高分六號(hào),擁有1 000張粗標(biāo)注的數(shù)據(jù)集,訓(xùn)練集、驗(yàn)證集和測(cè)試集的比例為8︰1︰1,該數(shù)據(jù)集的分辨率為256×256;第二個(gè)數(shù)據(jù)集是來(lái)自高分二號(hào)的1 000張精標(biāo)注的數(shù)據(jù)集[12],訓(xùn)練集、驗(yàn)證集和測(cè)試集比例與第一個(gè)數(shù)據(jù)集相同,該數(shù)據(jù)集的分辨率為492×492。
其中訓(xùn)練過(guò)程平均交并比(mean intersection over union,MIOU)記錄如圖3、圖4所示。對(duì)于粗標(biāo)記數(shù)據(jù)集,在訓(xùn)練第115次時(shí)模型開(kāi)始收斂;訓(xùn)練精標(biāo)記數(shù)據(jù)集,模型在第100次時(shí)進(jìn)行收斂。
圖3 粗標(biāo)記MIoU
圖4 精標(biāo)記MIoU
將訓(xùn)練后的模型在測(cè)試集上進(jìn)分割的效果如圖5所示。其中AMR-Unet模型和U-Net分別在兩種數(shù)據(jù)集上的MIoU、像素準(zhǔn)確度(pixel accuracy,PA)和推理時(shí)間(infer time)如表1所示。從表1可以看出,AMR-Unet模型的分割效果要好于U-Net模型,在Infer time變化較小的情況下提高了MIoU和PA。
圖5 分割結(jié)果對(duì)比
表1 評(píng)價(jià)指標(biāo)
實(shí)驗(yàn)所使用的計(jì)算機(jī)配置如下:CPU為Intel Core i7—11800H,運(yùn)行內(nèi)存大小為16 GB;GPU為NVIDIA GeForce GTX 3060,顯卡內(nèi)存大小為6 GB。超參數(shù)設(shè)定為:學(xué)習(xí)率(learning rate)為1×e-4,批大小(batchsize)為2。
實(shí)驗(yàn)結(jié)果表明,在兩種數(shù)據(jù)集上,模型提取精度分別為94.78 %,94.42 %,對(duì)于不同的數(shù)據(jù)集都表現(xiàn)出很好的分割效果,魯棒性較好,分割精度高于傳統(tǒng)的U-Net模型,表明該模型對(duì)于遙感圖像水體提取具有良好的效果。
本文提出了一種遙感圖像水體提取的卷積神經(jīng)網(wǎng)絡(luò)AMR-Unet,利用網(wǎng)絡(luò)爬蟲(chóng)并手動(dòng)標(biāo)記,建立了兩種不同標(biāo)記類(lèi)型的數(shù)據(jù)集,通過(guò)實(shí)驗(yàn)驗(yàn)證模型分割精度達(dá)94.78 %,在模型復(fù)雜度較低的情況下,能夠達(dá)到理想的分割效果,為后續(xù)基于遙感圖像進(jìn)行水域監(jiān)測(cè)打下基礎(chǔ)。由于訓(xùn)練集中并未包含具有冰層的遙感數(shù)據(jù)集,因此,模型如何能夠?qū)⒈鶎右沧R(shí)別為水體還需進(jìn)一步研究。