李萬(wàn)琦,李克儉,陳少波
(中南民族大學(xué) 電子與信息工程學(xué)院,武漢,430074)
隨著遙感影像技術(shù)的飛速發(fā)展,人們可以采集、獲取越來(lái)越多的高分辨率遙感影像[1](地面采樣距離在5到10厘米之間),在這些影像中可以清楚的觀測(cè)到如汽車(chē)、建筑物等較小的物體,這使得像素級(jí)的語(yǔ)義分割成為可能.遙感圖像語(yǔ)義分割可用于環(huán)境監(jiān)測(cè)、災(zāi)后重建、農(nóng)業(yè)、林業(yè)和城市規(guī)劃[2]等領(lǐng)域,例如政府機(jī)構(gòu)在規(guī)劃新區(qū)建設(shè)時(shí),就可以依靠高質(zhì)量的土地覆蓋圖像進(jìn)行數(shù)據(jù)分析.
近年來(lái),深度學(xué)習(xí)[3]方法下的卷積神經(jīng)網(wǎng)絡(luò)(CNN)在計(jì)算機(jī)視覺(jué)領(lǐng)域有許多重大突破,且在自然場(chǎng)景下的語(yǔ)義分割任務(wù)中也取得了很多新的技術(shù)成果.卷積神經(jīng)網(wǎng)絡(luò)模型利用卷積計(jì)算提取高級(jí)語(yǔ)義特征,在與標(biāo)簽比對(duì)的同時(shí),利用反向傳播算法[4]更新網(wǎng)絡(luò)參數(shù);模型通過(guò)訓(xùn)練得到最優(yōu)解并以端到端的形式輸出結(jié)果,計(jì)算效率顯著提升.高分辨率遙感圖像具有背景復(fù)雜,目標(biāo)物存在遮擋、大小不一、分布不均衡等問(wèn)題;光照條件對(duì)成像質(zhì)量也有一定影響,往往表現(xiàn)為色彩對(duì)比度低[5].這些復(fù)雜情況往往需要一定的專(zhuān)業(yè)知識(shí)背景才能對(duì)圖片進(jìn)行分析處理,因此通過(guò)深度學(xué)習(xí)的方法實(shí)現(xiàn)端到端遙感圖像語(yǔ)義分割,對(duì)海量數(shù)據(jù)實(shí)現(xiàn)自動(dòng)化處理以獲取最新的圖像信息,能節(jié)省大量人力物力.
在計(jì)算機(jī)視覺(jué)語(yǔ)義分割任務(wù)中,有兩種代表性的網(wǎng)絡(luò)結(jié)構(gòu),分別是全卷積網(wǎng)絡(luò)[6](Fully convolutional network, FCN)以及編碼器-解碼器結(jié)構(gòu)的網(wǎng)絡(luò).2014年LONG等提出的FCN在自然場(chǎng)景的圖像分割任務(wù)中取得了很好的效果.FCN的核心在于全連接層,它可視作感受野為整個(gè)輸入圖像的卷積核,而這些卷積核的計(jì)算是權(quán)值共享的,因而提升了整個(gè)網(wǎng)絡(luò)的效率;ZHONG等提出的FCN-4s[7]用于遙感圖像分割,使用跳躍連將低層特征與高層特征融合,使模型更適應(yīng)遙感數(shù)據(jù)集的分割任務(wù);ZHAO等人提出的PSPNet[8]是將金字塔池化模塊嵌入至以ResNet-101[9]為基礎(chǔ)網(wǎng)絡(luò)的FCN模型中,該模塊在池化層使用大卷積核來(lái)獲得多尺度信息,得到了更好的分割效果.
BADRINARAYANAN提出的SegNet[10]是語(yǔ)義分割模型中另一大體系,它采用編碼器對(duì)輸入圖像提取特征,而后使用解碼器對(duì)特征圖進(jìn)行上采樣以獲得高分辨率密集特征,最后使用Softmax[11]函數(shù)對(duì)特征圖進(jìn)行像素級(jí)分類(lèi);NOH等提出的DeconvNet[12]與SegNet類(lèi)似,它通過(guò)加深上采樣來(lái)獲得更精細(xì)的分割結(jié)果;2015年RONNEBERGER提出的U-Net[13]在SegNet的基礎(chǔ)上,通過(guò)引入編碼器與解碼器之間的級(jí)聯(lián),融合低級(jí)與高級(jí)語(yǔ)義特征,在醫(yī)學(xué)影像分割中獲得了很好的效果; RefineNet[14]采用了類(lèi)似U-Net的結(jié)構(gòu),其改進(jìn)為編碼解碼過(guò)程中引入了殘差模塊來(lái)獲取背景信息,并得到了更高的分割精度.
上述方法在一定程度上提高了自然場(chǎng)景下的圖片分割精度,而在遙感圖像的俯拍場(chǎng)景下,單獨(dú)使用上述分割模型并不能達(dá)到最佳效果.由于遙感圖像具有低照度、多遮擋、空間信息不足等特點(diǎn),僅僅使用RGB圖像作為網(wǎng)絡(luò)輸入提取到的特征無(wú)法包含必要的空間信息.為進(jìn)一步加強(qiáng)深度學(xué)習(xí)模型在遙感圖像上的分割能力,本文提出了一種多模態(tài)融合的方法,基于U-Net設(shè)計(jì)了SE-UNet(Squeeze and Excitation UNet).該模型將數(shù)值地表模型(Digital Surface Model)轉(zhuǎn)化而來(lái)的DSM圖像與RGB圖像作為網(wǎng)絡(luò)的雙輸入,通過(guò)SE(Squeeze and Excitation)模塊[15]將DSM所包含的高度信息以壓縮再激活的形式編碼為特征向量,其元素值作為其對(duì)應(yīng)的RGB圖像每個(gè)通道的加權(quán),從而構(gòu)建出DSM圖像與RGB圖像之間的通道關(guān)聯(lián).這一結(jié)構(gòu)能夠利用空間信息進(jìn)行自學(xué)習(xí)訓(xùn)練,提取到更全面更具判別性的語(yǔ)義特征用于最后的分割任務(wù).
本文提出了一種多模態(tài)融合的方法,基于U-Net設(shè)計(jì)了SE-UNet(Squeeze and Excitation UNet).網(wǎng)絡(luò)整體框架如圖1所示,包括SE模塊、U-Net編碼器和U-Net解碼器.網(wǎng)絡(luò)采用雙輸入模式,DSM圖像通過(guò)SE模塊編碼得到特征向量與RGB圖通過(guò)U-Net編碼器得到特征圖在通道級(jí)別(channel-level)相乘得到新的特征圖,這一過(guò)程將DSM圖像所包含的高度信息編碼作為RGB圖像每個(gè)通道的加權(quán)信息,通過(guò)學(xué)習(xí)的方式計(jì)算每個(gè)特征通道的重要程度,參考權(quán)重強(qiáng)調(diào)有用特征并抑制對(duì)當(dāng)前任務(wù)用處不大的特征.之后將特征圖通過(guò)U-Net的解碼器還原為原輸入大小并完成損失函數(shù)的優(yōu)化,預(yù)測(cè)得到圖像中每個(gè)像素點(diǎn)的分類(lèi).
圖1 SE-UNet整體框架
U-Net[13]于2015發(fā)表,該模型在醫(yī)療影像(CT、磁共振圖片)語(yǔ)義分割任務(wù)中取得了很好的效果,常被用作醫(yī)療影像處理領(lǐng)域的基礎(chǔ)網(wǎng)絡(luò).U-Net采用了對(duì)稱(chēng)的編碼器-解碼器結(jié)構(gòu),如圖2所示.編碼器共進(jìn)行4次下采樣(Max-Pooling),下采樣率為16倍;對(duì)稱(chēng)地,其編碼器也相應(yīng)進(jìn)行4次上采樣(Up-Sampling),將特征圖恢復(fù)到原圖分辨率;同時(shí)在每一個(gè)水平階段使用跳躍鏈接的方式將高級(jí)語(yǔ)義特征與淺層特征相融合,最終得到用于分割的特征圖.
圖2 U-Net網(wǎng)絡(luò)結(jié)構(gòu)
本文使用U-Net作為骨干網(wǎng)絡(luò)主要考慮到醫(yī)學(xué)影像與遙感影像有兩個(gè)相似之處:
(1)數(shù)據(jù)集規(guī)模小.醫(yī)學(xué)與遙感影像的數(shù)據(jù)獲取和標(biāo)簽制作相對(duì)于自然場(chǎng)景要難,多數(shù)公開(kāi)數(shù)據(jù)集的原始訓(xùn)練集不超過(guò)50張圖片.U-Net網(wǎng)絡(luò)結(jié)構(gòu)簡(jiǎn)單,參數(shù)量級(jí)在3千萬(wàn)左右,這種設(shè)計(jì)對(duì)小數(shù)據(jù)集來(lái)說(shuō)能更好的避免模型出現(xiàn)過(guò)擬合.
(2)數(shù)據(jù)具有多模態(tài).相比自然影像,這兩種影像數(shù)據(jù)除了有傳統(tǒng)的RGB圖像模式,還具有多種模態(tài)的影像類(lèi)型,本文使用的是單通道32位的DSM圖像和三通道8位的RGB圖像.
單純使用U-Net訓(xùn)練也存在一定問(wèn)題,醫(yī)學(xué)影像與遙感影像最大的不同在于醫(yī)學(xué)影像語(yǔ)義較為簡(jiǎn)單、結(jié)構(gòu)較為固定,分割任務(wù)多為二分類(lèi)(病灶與背景)[16];而遙感影像往往具有復(fù)雜的場(chǎng)景,目標(biāo)尺度大小不一、分布不均衡.為了更好地利用DSM圖像的高度信息,本文引入SE(Squeeze and Excitation)模塊單獨(dú)對(duì)DSM圖像進(jìn)行編碼,下面介紹SE模塊.
Squeeze-and-Excitation網(wǎng)絡(luò)(SE-Net)[15]是由自動(dòng)駕駛公司Momenta在2017年發(fā)表的圖像識(shí)別模型.其核心在于SE模塊,它可嵌入到其他分類(lèi)或檢測(cè)模型中,通過(guò)對(duì)特征通道間的相關(guān)性建模,把重要的特征進(jìn)行強(qiáng)調(diào)以獲得更具判別性的特征.圖3所示的是一個(gè)SE模塊結(jié)構(gòu).
圖3 SE模塊
如圖3所示,F(xiàn)tr為普通卷積操作,X和U分別代表Ftr的輸入與輸出,U之后的操作為SE模塊的主體部分,該模塊具備可移植性.輸出特征U首先會(huì)通過(guò)一次壓縮(Squeeze)Fsq(·),作者采用全局平均池化算法[17]將全局信息壓縮到一個(gè)通道中,算法如下:
(1)
公式(1)中Uc表示c通道(i,j)位置的像素值;H和W表示c通道長(zhǎng)和寬;輸出Zx為一個(gè)通道上的所有像素點(diǎn)平均值,大小為1×1×C。ZC可以理解為整個(gè)通道像素信息的統(tǒng)計(jì)數(shù)據(jù)集合,代表了圖像在該通道的全局信息.
第二步是激活過(guò)程(Extraction)Fex(·,W),這一過(guò)程可以得到各通道與原特征圖之間的關(guān)聯(lián),以此判斷哪個(gè)通道的特征圖需要賦予更多的權(quán)重.這一步驟需具備可學(xué)習(xí)性,即通道之間是非線性關(guān)系,同時(shí)要保證有多個(gè)通道被選中,而不是人工激活.為滿足上述條件,作者采用了兩個(gè)全連接層(Fully-connected)后接Relu函數(shù)[18]和Sigmoid做激活層,激活步驟的算法如公式(2);激活函數(shù)如公式(3)和(4):
s=Fex(z,W)=δ(g(z,W))=σ(W2δ(W1z)),
(2)
δ(·)=Relu(x)={x,x>00,x≤0,
(3)
(4)
(5)
經(jīng)過(guò)上述三個(gè)步驟,SE模塊將原本的特征圖通過(guò)壓縮再激活,映射為原圖每個(gè)通道的權(quán)值,把重要的特征增強(qiáng)、不重要的特征減弱,從而讓提取的特征指向性更強(qiáng).且這一權(quán)值信息是通過(guò)網(wǎng)絡(luò)自學(xué)習(xí)優(yōu)化得到的,沒(méi)有人為干涉.
本文設(shè)計(jì)的SE-UNet完整的網(wǎng)絡(luò)結(jié)果如圖4所示,整體劃分為六個(gè)階段(Stage0-5):第0階段為DSM圖像處理過(guò)程,第1~5階段為RGB圖像經(jīng)由U-Net編碼、解碼過(guò)程.這里DSM圖像與RGB圖像是成對(duì)輸入網(wǎng)絡(luò)的,模型在訓(xùn)練過(guò)程中使用的圖像來(lái)自ISPRS公開(kāi)數(shù)據(jù)集[19].
圖4 SE-UNet網(wǎng)絡(luò)結(jié)構(gòu)
S1=W·D1?δ(W·R1),
(6)
其中W代表3×3卷積核,δ代表Relu激活函數(shù),?代表對(duì)應(yīng)元素通道級(jí)別相乘.每個(gè)階段重復(fù)公式(6)的計(jì)算.需要注意的是,在進(jìn)入下一階段前,前一階段輸出的特征圖會(huì)通過(guò)最大池化(Max Pooling)進(jìn)行下采樣,采樣率為2.這一操作在DSM圖像和RGB圖像上同步進(jìn)行,其目的在于進(jìn)一步增強(qiáng)有效特征并縮減模型參數(shù).因?yàn)殡S著網(wǎng)絡(luò)加深,到第5階段時(shí),特征圖的通道數(shù)會(huì)增至1024,如保持原圖大小則會(huì)占用過(guò)多資源導(dǎo)致網(wǎng)絡(luò)無(wú)法繼續(xù)訓(xùn)練.
經(jīng)由5個(gè)階段的編碼過(guò)程,我們得到了大小為32×32×1024的特征圖。該特征圖不僅具備RGB圖像的高級(jí)語(yǔ)義特征,還融合了DSM圖像高度信息.通過(guò)U-Net的解碼器對(duì)其進(jìn)行上采樣和反卷積解碼;與編碼過(guò)程保持對(duì)稱(chēng)的同時(shí),模型使用跳躍連接,將低階特征和高階特征級(jí)聯(lián),最終編碼得到了一張與原輸入大小一致的特征圖用于分類(lèi)預(yù)測(cè).
本文使用的是ISPRS提供的遙感圖像數(shù)據(jù)集[19],包含38張超高分辨率的3通道正射影像和其對(duì)應(yīng)的數(shù)字地表模型轉(zhuǎn)化成的單通道灰度圖,圖片分辨率為6000×6000。所有影像拍攝自德國(guó)歷史名城波茨坦,該地區(qū)擁有大型建筑物、狹窄的街道和密集的住宅區(qū),每張圖片被標(biāo)注為6種常見(jiàn)的土地類(lèi)別:不透水面、建筑物、灌木、樹(shù)木、汽車(chē)和背景.圖5展示了數(shù)據(jù)集中的樣張,從左至右分別是原圖、DSM圖和標(biāo)簽圖.
a)RGB原圖 b)DSM灰度圖 c)標(biāo)簽圖
我們使用24張圖片作為訓(xùn)練集,剩下14張圖片為測(cè)試集,測(cè)試集僅在測(cè)試時(shí)使用.由于原始圖片過(guò)大無(wú)法直接輸入網(wǎng)絡(luò),我們將訓(xùn)練集中的24張?jiān)瓐D以500步長(zhǎng)裁剪為1000×10000大小的子圖像,對(duì)相應(yīng)的DSM圖像和標(biāo)簽進(jìn)行了同步操作,總共得到得2096張圖片.在將圖片輸入模型訓(xùn)練之前,使用OpenCV對(duì)所有訓(xùn)練圖片和標(biāo)簽隨機(jī)裁剪為512×512大小,同時(shí)進(jìn)行了翻轉(zhuǎn)、旋轉(zhuǎn)、尺度變換以及HSV空間變換等隨機(jī)的數(shù)據(jù)擴(kuò)充操作.
在SE-UNet中,所有卷積核大小都為3×3,步長(zhǎng)為1,初始卷積核數(shù)為64,每次池化操作后卷積核數(shù)加倍,訓(xùn)練中使用0填充保證每次卷積操作后的輸入輸出大小一致.前向網(wǎng)絡(luò)得到特征圖后,經(jīng)由Softmax函數(shù)[20]將像素值轉(zhuǎn)化為目標(biāo)類(lèi)別的概率值,并在反向傳播更新參數(shù)時(shí),使用二進(jìn)制交叉熵函數(shù)作為損失函數(shù),其算法如公式(7)和(8):
(7)
(8)
實(shí)驗(yàn)中,一批次輸入為2張圖片,所有圖片都完成一次訓(xùn)練為一個(gè)迭代,共迭代50次;每5次迭代使用交叉驗(yàn)證對(duì)模型進(jìn)行階段性檢測(cè).我們?cè)O(shè)定的初始學(xué)習(xí)率為1×10-3,每10個(gè)迭代后依次衰減為0.5×10-3、0.1×10-3、0.05×10-3、0.01×10-3.實(shí)驗(yàn)使用的是Ubuntu18.04系統(tǒng)以及一塊NVIDIA 1080 8GB顯卡,程序語(yǔ)言為Python3.6,深度學(xué)習(xí)框架為Pytorch[20].本實(shí)驗(yàn)完成訓(xùn)練共耗時(shí)27小時(shí).
分割結(jié)果使用常用標(biāo)準(zhǔn)進(jìn)行評(píng)估,包括精準(zhǔn)率(Precision)、召回率(Recall)以及F1值和總準(zhǔn)確率(Overall Accuracy, OA),后兩項(xiàng)為綜合評(píng)價(jià)指標(biāo),也是最為常用的標(biāo)價(jià)標(biāo)準(zhǔn).公式(9)~(12)給出了各類(lèi)評(píng)價(jià)指標(biāo)的算法:
(9)
(10)
(11)
(12)
其中TP(True Positive)表示目標(biāo)正確分類(lèi)的像素點(diǎn)數(shù);TN(True Negative)表示背景正確分類(lèi)的像素點(diǎn)數(shù);FN(False Negative)表示應(yīng)為目標(biāo)卻被錯(cuò)分為背景的像素點(diǎn)數(shù);FP(False Positive)應(yīng)為背景卻被錯(cuò)分為目標(biāo)的像素點(diǎn)數(shù).
本文在ISPRS-Potsdam測(cè)試集[19]上進(jìn)行測(cè)試,該測(cè)試集共14張圖片.實(shí)驗(yàn)結(jié)果如表1所示,除了本文提出的SE-UNet外,我們還訓(xùn)練了單輸入RGB圖像的U-Net和E-Net模型進(jìn)行對(duì)比試驗(yàn).其中E-Net[21]是PASZKE于2016年提出的一種用于視頻場(chǎng)景分割的模型,與U-Net類(lèi)似,該模型整體采用了編碼器-解碼器結(jié)構(gòu).該模型在編碼階段使用了初始模塊(initial module)來(lái)壓縮輸入圖像的體積,這一結(jié)構(gòu)與本文使用的SE模塊有相似之處,雖在一定程度上犧牲了精度,但盡可能縮小了模型體積,減少總參數(shù)量,大大提升了訓(xùn)練和預(yù)測(cè)速度.
表1 不同模型在各分類(lèi)上的分割準(zhǔn)確率、F1值、OA值
表1中加粗?jǐn)?shù)值代表最優(yōu)結(jié)果,從表中可以看出,本文提出的模型在F1值和總準(zhǔn)確率(OA)上有明顯提升,F(xiàn)1值和OA值較U-Net分別提升了5%和3.3%,較E-Net分別提升了8.6%和5.9%.在五大類(lèi)中,建筑物的高度最為突出,在該類(lèi)別中SE-UNet取得了94.9%的準(zhǔn)確率,較單輸入的U-Net提升了5.8%,這說(shuō)明我們提出的模型很好的利用了DSM圖像的高度信息,對(duì)該類(lèi)目標(biāo)的識(shí)別與分割起到了很強(qiáng)的指導(dǎo)作用.圖6展示了一張測(cè)試圖片(裁剪為1024×1024)在不同網(wǎng)絡(luò)中的分割結(jié)果,可以看到我們提出的模型(Fig.6-c)類(lèi)間粘粘情況較少,尤其是建筑物的(深藍(lán)色)分割結(jié)果較其它兩個(gè)模型更為精準(zhǔn).
圖6 測(cè)試結(jié)果展示
表2給出了使用SE-UNet進(jìn)行測(cè)試的單張完整圖片“top_potsdam_3_13_class.tif”的混淆矩陣,對(duì)角線上的數(shù)值代表預(yù)測(cè)類(lèi)別與真實(shí)類(lèi)別相同的概率,非對(duì)角線上的數(shù)值表示實(shí)際為縱軸類(lèi)別但預(yù)測(cè)為橫軸類(lèi)別的概率.從表中可以看出,誤判率最高的為背景、最低的為建筑物,其潛在原因可能在于圖片中背景的高度信息在DSM圖像中沒(méi)有得到體現(xiàn),所以預(yù)測(cè)準(zhǔn)確率較低,這也從側(cè)面驗(yàn)證了DSM圖像的所具備的高度信息對(duì)于模型的特征提取有指導(dǎo)意義.
表2 單張測(cè)試圖片混淆矩陣
圖7為該圖預(yù)測(cè)結(jié)果的視覺(jué)展示.最右側(cè)的紅綠圖展示了每個(gè)像素點(diǎn)的預(yù)測(cè)情況,其中紅色區(qū)域代表分類(lèi)判斷錯(cuò)誤的像素點(diǎn);綠色代表判斷正確的像素.
圖7 “Top_potsdam_3_13_class.tif”單張測(cè)試結(jié)果及誤判圖
為了解決RGB遙感圖像存在的高度信息缺失的問(wèn)題,本文設(shè)計(jì)了一種融合DSM圖像和RGB圖像的卷積神經(jīng)網(wǎng)絡(luò)模型,在U-Net的基礎(chǔ)上引入了SE模塊對(duì)DSM圖像的高度信息進(jìn)行提取,并將提取到的信息與RGB圖像進(jìn)行融合編碼以獲得更具判別性的特征圖.在ISPRS-Potsdam數(shù)據(jù)集中我們的模型取得了較好的分割結(jié)果,總體準(zhǔn)確率(OA)達(dá)到了88.8%.通過(guò)實(shí)驗(yàn)驗(yàn)證,我們的模型較單輸入的U-Net及E-Net精度提升了3.3%和5.9%,通過(guò)數(shù)據(jù)說(shuō)明了引入DSM圖像的有效性.同時(shí)我們注意到,模型在對(duì)背景的預(yù)測(cè)上表現(xiàn)不夠優(yōu)異,在后續(xù)的研究工作中,我們還要針對(duì)這一問(wèn)題優(yōu)化模型的訓(xùn)練策略.同時(shí)也應(yīng)在網(wǎng)絡(luò)模型的精簡(jiǎn)上進(jìn)行進(jìn)一步探索,使其具備實(shí)際應(yīng)用價(jià)值.