王興武,雷濤,王營(yíng)博,耿新哲,張?jiān)?/p>
(1.陜西科技大學(xué) 陜西省人工智能聯(lián)合實(shí)驗(yàn)室,陜西 西安 710021;2.陜西科技大學(xué) 電子信息與人工智能學(xué)院,陜西 西安 710021)
遙感圖像語(yǔ)義分割是將對(duì)象類標(biāo)簽分配給遙感圖像中每個(gè)像素的一項(xiàng)技術(shù),被廣泛應(yīng)用于地質(zhì)的量化分析、城市規(guī)劃、環(huán)境監(jiān)測(cè)和保護(hù)等領(lǐng)域。因此,語(yǔ)義分割一直是遙感領(lǐng)域的研究熱點(diǎn)。然而,建筑物、道路和樹(shù)木等地物具有較高的類內(nèi)方差和相似的類間外觀,因此遙感圖像語(yǔ)義分割具有一定的挑戰(zhàn)性。
遙感圖像的光譜信息,例如紅、綠、藍(lán)三通道圖像(red,green,blue,RGB)或近紅外、紅、綠(infrared,red,green,IRRG)圖像,通常是語(yǔ)義分割任務(wù)的第一個(gè)數(shù)據(jù)源。近年來(lái),深度學(xué)習(xí)在遙感圖像的光譜圖像語(yǔ)義分割方面取得了重大進(jìn)展[1-2]。基于全卷積網(wǎng)絡(luò)的方法和編碼架構(gòu)已被廣泛應(yīng)用并取得了較好效果。Fu 等[3]設(shè)計(jì)了基于全卷積神經(jīng)網(wǎng)絡(luò)的遙感圖像語(yǔ)義分割算法,實(shí)現(xiàn)了遙感圖像端到端的語(yǔ)義分割。在此基礎(chǔ)上,研究者們還提出了空間關(guān)系模塊[4]和空間信息推理模塊[5]。通過(guò)對(duì)特征圖通道及空間上下文關(guān)系進(jìn)行有效建模,使網(wǎng)絡(luò)聚焦于目標(biāo)區(qū)域,抑制其他類別的影響。Zhang 等[6]在編解碼結(jié)構(gòu)中采用金字塔池化模塊以聚合不同區(qū)域的上下文信息,從而提高網(wǎng)絡(luò)獲取全局信息的能力。此外,在損失函數(shù)的設(shè)計(jì)上,為了解決遙感圖像中嚴(yán)重的類不平衡問(wèn)題,Dong 等[7]提出了加權(quán)損失和像素級(jí)交叉熵?fù)p失相結(jié)合的多類損失,提升了小樣本量地物分割精度。Liu 等[8]將邊界損失引入網(wǎng)絡(luò)中得到了更精細(xì)的地物邊界分割結(jié)果。這些方法在遙感圖像語(yǔ)義分割中均取得了顯著效果。但在某些特定場(chǎng)景下,如物體的外觀因陰影和天氣條件而改變,某些地物在光譜信息上高度相似的類間外觀(高低植被)等,僅僅利用光譜信息作為單一信息源會(huì)導(dǎo)致分割性能低,在某些地物上錯(cuò)分嚴(yán)重。
隨著航空拍攝和衛(wèi)星成像技術(shù)的不斷發(fā)展,獲取到的遙感圖像也愈加多樣,如數(shù)字地形模型(DTM)、數(shù)字表面模型(DSM),數(shù)字高程模型(DEM)等。這些高程數(shù)據(jù)通過(guò)向二維光譜數(shù)據(jù)提供三維幾何信息,自動(dòng)補(bǔ)充光譜信號(hào),這對(duì)光照變化、陰影等具有魯棒性,合理地使用高程數(shù)據(jù)可以大幅提高遙感圖像的語(yǔ)義分割性能[9]。目前,簡(jiǎn)單地將近紅外、紅色、綠色(IRRG)光譜和DSM 合并為四通道作為網(wǎng)絡(luò)輸入的像素級(jí)融合方法,但這種方法已被證明不能充分融合異構(gòu)信息之間的關(guān)系,需要額外的網(wǎng)絡(luò)結(jié)構(gòu)單獨(dú)對(duì)高程信息進(jìn)行特征提取[10]。
基于多模態(tài)信息融合的遙感圖像語(yǔ)義分割算法可以總結(jié)為三類結(jié)構(gòu),即早期融合、中期融合和后期融合。
Cao 等[11]提出的中期融合策略用兩個(gè)獨(dú)立編碼器分別提取光譜和高程分支特征,在上采樣之前或期間進(jìn)行融合。融合特征僅存在于解碼器端,這種中期融合的優(yōu)勢(shì)在于:在網(wǎng)絡(luò)中間階段進(jìn)行融合,多模態(tài)特征語(yǔ)義信息豐富,可以避免某單一源的低級(jí)特征將噪聲信息帶入融合特征。Hazirbas 等[12]提出的早期融合策略,將高程分支特征作為光譜分支特征的補(bǔ)充,并在不同的下采樣階段將它們?nèi)诤显谝黄稹_@種方法存在高程分支只處理高程信息的問(wèn)題,而光譜分支實(shí)際上處理的是融合數(shù)據(jù),高程分支帶來(lái)有效信息的同時(shí)也引入了噪聲信息。因此,這種方法會(huì)破壞原始光譜分支的特征流,使網(wǎng)絡(luò)在對(duì)某些地物分類時(shí)陷入對(duì)某單一模態(tài)數(shù)據(jù)的過(guò)分依賴,造成誤判。Audebert 等[13]提出了后期融合策略。他們?yōu)楣庾V數(shù)據(jù)和DSM 數(shù)據(jù)訓(xùn)練了兩個(gè)獨(dú)立的深度網(wǎng)絡(luò),然后將兩個(gè)深度網(wǎng)絡(luò)的最終特征映射概率圖輸入到殘差校正網(wǎng)絡(luò)中進(jìn)行訓(xùn)練。然而,存在的不足是:一方面,僅在語(yǔ)義層面的融合忽略了語(yǔ)義分割任務(wù)對(duì)低級(jí)融合特征的需求;另一方面,大量參數(shù)和復(fù)雜訓(xùn)練過(guò)程限制了該方法的實(shí)際應(yīng)用。
雖然上述方法在多模態(tài)數(shù)據(jù)遙感圖像語(yǔ)義分割任務(wù)中均取得了不錯(cuò)的效果,但這些網(wǎng)絡(luò)在進(jìn)行特征融合時(shí)均未考慮多模態(tài)數(shù)據(jù)之間的關(guān)系,容易導(dǎo)致復(fù)雜地物的誤分。在本文中,假設(shè)從光譜和高程信息計(jì)算的中層特征(網(wǎng)絡(luò)中特征提取階段結(jié)束時(shí)提取的特征)有相同特征和互補(bǔ)特征,那么從光譜和高程計(jì)算的信息將相互作用,從而為分類提供更獨(dú)特和互補(bǔ)的特征?;谶@一假設(shè),本文設(shè)計(jì)了用于多模態(tài)遙感圖像語(yǔ)義分割的雙分支互補(bǔ)特征學(xué)習(xí)(complementary features learning)網(wǎng)絡(luò)。在該網(wǎng)絡(luò)中,通過(guò)添加額外的損失重建共有和互補(bǔ)特征,可以產(chǎn)生更魯棒的融合特征以提高分割精度。
為了充分利用光譜數(shù)據(jù)與高程數(shù)據(jù)之間的異構(gòu)信息,大多數(shù)現(xiàn)有算法均采用兩個(gè)深度網(wǎng)絡(luò)分別提取多模態(tài)信息特征,在網(wǎng)絡(luò)不同階段將提取到的多模態(tài)特征融合,融合特征比原始單一模態(tài)特征更具魯棒性,從而產(chǎn)生更精細(xì)的分割結(jié)果。然而,現(xiàn)有方法存在以下問(wèn)題:一方面,以直接相加或級(jí)聯(lián)的方式通過(guò)建模實(shí)現(xiàn)多模態(tài)信息融合,或簡(jiǎn)單地以多模態(tài)特征自身所含信息量決定該模態(tài)特征在融合特征中所占比例[14],這兩種方法均忽略了多源信息間的關(guān)系,在某些復(fù)雜地物上造成嚴(yán)重錯(cuò)分;另一方面,融合策略的選取也會(huì)嚴(yán)重影響分割結(jié)果,幾種融合策略各有優(yōu)劣[15]?;诖?,我們?cè)诰W(wǎng)絡(luò)訓(xùn)練過(guò)程中引入互補(bǔ)特征學(xué)習(xí)約束,并根據(jù)該約束的特點(diǎn)選取中期融合策略。提出的網(wǎng)絡(luò)根據(jù)多模態(tài)數(shù)據(jù)之間的關(guān)系,選擇性地提取對(duì)分割任務(wù)更有效的部分,可以有效減少誤分,提升分割精度。
現(xiàn)有算法在構(gòu)建多模態(tài)特征融合時(shí),僅僅將多源特征在網(wǎng)絡(luò)的不同階段簡(jiǎn)單合并或相加,而忽略了多源信息間的互補(bǔ)性,對(duì)于一些光譜上表現(xiàn)相似的地物,如高低植被、建筑物陰影遮擋后的路面與正常路面等,網(wǎng)絡(luò)偏向于高程信息時(shí),對(duì)提升分割精度是有利的;但是對(duì)于車輛、路面而言,高程信息難以體現(xiàn)情況,分割精度較低。為了更清晰地展示過(guò)分依賴單一信息源造成的誤分現(xiàn)象,利用網(wǎng)絡(luò)提取到的特征圖解釋這一現(xiàn)象,圖1 和圖2 給出了裁剪出更小區(qū)域時(shí)的分割結(jié)果,并用紅色框標(biāo)記重點(diǎn)誤分區(qū)域。圖1 和圖2中的(a)、(b)、(c)分別為光譜圖、歸一化DSM圖以及手工標(biāo)注標(biāo)簽,(d)、(e)分別為DSMFNet編碼器中光譜分支與高程分支第一次下采樣后得到的特征圖,(f)為DSMFNet 分割結(jié)果。圖1 的地物背景是兩塊在光譜上表現(xiàn)完全不同的建筑物,其中一塊光譜上表現(xiàn)為低植被類,另一塊在光譜上表現(xiàn)為建筑物類別,但是在高程數(shù)據(jù)中,兩塊建筑物區(qū)域數(shù)值并不高,與道路特征類似,由于大量數(shù)據(jù)樣本下的建筑物高程上數(shù)值都很高,在這種情況下網(wǎng)絡(luò)偏向于信任高程信息,將該區(qū)域錯(cuò)分為低植被類。在圖2 中,位于建筑物頂部的汽車,在光譜圖像中特征明顯,但是在高程圖像中幾乎表現(xiàn)不出來(lái),高程分支提取到的特征圖在該區(qū)域也十分模糊,導(dǎo)致網(wǎng)絡(luò)仍偏向于高程特征,最終分割結(jié)果并沒(méi)有將汽車類別準(zhǔn)確分割。
圖1 建筑區(qū)域的可視化特征圖Fig.1 Visual feature map of the buliding region
圖2 不透水和汽車的可視化特征圖Fig.2 Visual feature map of water impervidle and automobile region
由上述分析可得,光譜和高程數(shù)據(jù)在相同地物上會(huì)表現(xiàn)出不同的特征。如何有效地識(shí)別它們的差異并將兩種類型信息統(tǒng)一表示為語(yǔ)義特征是十分重要的。我們認(rèn)為光譜和高程信息計(jì)算的中層特征存在相同信息和互補(bǔ)信息,相同信息包括重合的建筑物、植被的邊緣信息;光譜數(shù)據(jù)中的互補(bǔ)信息有車輛顏色、紋理信息,高程數(shù)據(jù)中的互補(bǔ)信息有可區(qū)分的高、低植被高度以及輪廓信息。光譜和高程計(jì)算的信息需要相互作用,這為分類提供更獨(dú)特和互補(bǔ)的信息?;谶@一結(jié)論,我們把多模態(tài)數(shù)據(jù)提取到的中層特征分別劃分為相同的和互補(bǔ)的特征,在多模態(tài)特征融合時(shí)將提取到的互補(bǔ)特征與另一模態(tài)所有特征合并,補(bǔ)充后的互補(bǔ)特征可以有效避免上述誤分。
目前基于多模態(tài)信息融合的語(yǔ)義分割網(wǎng)絡(luò)中,應(yīng)用最為廣泛的是早期融合策略。該策略采用兩個(gè)深度網(wǎng)絡(luò)分別對(duì)多模態(tài)數(shù)據(jù)進(jìn)行特征提取,將高程分支下采樣過(guò)程中產(chǎn)生的不同尺寸的特征圖作為輔助與光譜分支中的特征圖進(jìn)行合并,再由共用的解碼器完成特征重建[16]。該方法的理論依據(jù)是:網(wǎng)絡(luò)的淺層主要提取邊緣特征,而光譜圖像和高程圖像所表現(xiàn)的邊緣特征有很大不同。主要表現(xiàn)為:無(wú)結(jié)構(gòu)的邊緣主要依靠顏色區(qū)分,無(wú)紋理的邊緣主要依靠結(jié)構(gòu)高度區(qū)分[17]。因此,早期融合策略是從淺層開(kāi)始對(duì)特征進(jìn)行融合。這種方法雖然應(yīng)用廣泛且取得了不錯(cuò)的分割結(jié)果,但仍存在一些問(wèn)題:一方面,在網(wǎng)絡(luò)淺層提取到的低級(jí)特征在提供融合特征細(xì)節(jié)信息的同時(shí)也會(huì)帶來(lái)大量冗余信息,例如,光譜數(shù)據(jù)中地物陰影的邊界,高程數(shù)據(jù)中建筑物鋸齒狀的邊緣等噪聲,均會(huì)干擾網(wǎng)絡(luò)模型對(duì)該區(qū)域的識(shí)別;另一方面,由于需要從多模態(tài)特征中提取出對(duì)應(yīng)的互補(bǔ)特征,該互補(bǔ)特征是依靠最大化多模態(tài)特征之間的距離得到的,如果在網(wǎng)絡(luò)淺層就開(kāi)始采用互補(bǔ)特征約束最大化多模態(tài)特征之間的距離,會(huì)導(dǎo)致網(wǎng)絡(luò)過(guò)于注重提取到的多模態(tài)特征間的差異性,而忽略了對(duì)分割任務(wù)語(yǔ)義信息的提取。
基于上述分析,本文先采用中期融合策略,利用光譜和高程數(shù)據(jù)分別訓(xùn)練兩個(gè)結(jié)構(gòu)相同的深度網(wǎng)絡(luò),再對(duì)編碼器的最后一層輸出特征圖進(jìn)行融合。這種方法雖然舍棄了一定的細(xì)節(jié)信息,但網(wǎng)絡(luò)中添加的互補(bǔ)特征約束的語(yǔ)義級(jí)特征融合會(huì)對(duì)融合特征中的錯(cuò)誤部分進(jìn)行修正。此外,在下采樣過(guò)程中丟失的細(xì)節(jié)信息會(huì)通過(guò)跳躍連接補(bǔ)充到解碼器中。
多模態(tài)高分辨率遙感語(yǔ)義分割任務(wù)中,輸入為IRRG 光譜圖像和相應(yīng)的DSM 高程圖像,輸出是每個(gè)像素的語(yǔ)義類別標(biāo)簽。本文利用一種模態(tài)數(shù)據(jù)改進(jìn)另一種模態(tài)的特征提取過(guò)程:一方面,由于一些語(yǔ)義特征在這兩種模態(tài)中都是可見(jiàn)的,可以從光譜圖像和相應(yīng)的高程信息中提取一組相似特征;另一方面,由于光譜圖主要捕獲外觀信息,高程圖主要捕獲形狀信息,可以分別從它們中提取一些特定的特征。
在本文中,我們通過(guò)最大化共享信息之間的相似性和特定模態(tài)信息之間的互補(bǔ)性,將每個(gè)模態(tài)的特征分別分解為共同特征和互補(bǔ)特征。得到這些特征后,一種模態(tài)通過(guò)借用另一種模態(tài)中的互補(bǔ)特征,以增強(qiáng)它們共享信息的能力。這種共享機(jī)制在單一模態(tài)特征沒(méi)有被很好提取時(shí)是十分有效的,最后通過(guò)融合這兩種模態(tài)輸出的概率圖得到分割結(jié)果。
如圖3 所示,互補(bǔ)特征學(xué)習(xí)網(wǎng)絡(luò)由兩個(gè)相同的并行基礎(chǔ)分割網(wǎng)絡(luò)和互補(bǔ)特征提取部分組成,并行基礎(chǔ)分割網(wǎng)絡(luò)包括光譜信息分支和高程信息分支?;パa(bǔ)特征提取部分位于編碼器(encoder)與解碼器(decoder) 之間,由4 個(gè)并行的補(bǔ)充性特征融合(complementary feature fusion)卷積層組成。
圖3 CFL-Net 網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 CFL-Net network structure
兩個(gè)基礎(chǔ)分割網(wǎng)絡(luò)均以ResNet-50[18]作為backbone,并有完成特征重建的解碼器與之對(duì)應(yīng)。為了防止網(wǎng)絡(luò)過(guò)深造成的梯度消失問(wèn)題,在解碼器中添加殘差結(jié)構(gòu)。為了將低階特征利用起來(lái),將每一個(gè)res-block 輸出特征圖以跳躍連接的方式補(bǔ)充到解碼器部分。為了避免信息冗余,我們?cè)诿總€(gè)跳躍連接上添加了額外的卷積塊,以自適應(yīng)地過(guò)濾由低級(jí)特征帶來(lái)的冗余信息。
此外,為適應(yīng)遙感圖像特殊的紋理特征,對(duì)骨干網(wǎng)絡(luò)ResNet-50 做出以下改進(jìn)。原始ResNet-50 網(wǎng)絡(luò)用于自然圖像分類,由一個(gè)步長(zhǎng)為2 的7×7卷 積層、3×3池化層以及4 個(gè)殘差塊組成。此處保持4 個(gè)殘差塊不變,將最初步長(zhǎng)為2 的7×7卷積層替換為 3×3卷積層,步長(zhǎng)保持不變,后續(xù)的3×3池化層被刪除。通過(guò)在第一塊中使用較小的卷積核和丟棄最大池化,可以避免特征圖過(guò)于平滑,從而保留更清晰的邊界信息,以區(qū)分通常具有尖銳邊界信息的對(duì)象,如建筑物、車輛等。
該網(wǎng)絡(luò)主要?jiǎng)?chuàng)新在于互補(bǔ)特征提取部分,光譜數(shù)據(jù)與高程數(shù)據(jù)經(jīng)過(guò)相同的編碼器處理得到中間的語(yǔ)義特征,為了不破壞空間信息,本文分別用兩個(gè)卷積對(duì)它們進(jìn)一步處理,將單個(gè)特征圖劃分為共同特征與互補(bǔ)特征,以此達(dá)到不同模式的共同特征是相似的,而互補(bǔ)特征是不同的。此外,采用額外的互補(bǔ)特征學(xué)習(xí)損失約束共同特征和相似特征之間的距離。在融合策略上,以光譜分支為例,將光譜分支獲取的共同特征與互補(bǔ)特征、高程分支獲取的互補(bǔ)特征合并在一起,構(gòu)成新的融合特征。得到的光譜分支的融合特征Us及高程分支的融合特征Ud可以分別表示為
式中:Ss和Sc分別表示光譜、高程分支的共同特征;Ds和Dc分別表示光譜、高程分支的互補(bǔ)特征。在特征融合之后,利用ASPP 模塊[19]擴(kuò)大感受野,獲取多尺度融合特征。最后,解碼器使用具有殘差結(jié)構(gòu)的反卷積模塊重建語(yǔ)義標(biāo)記結(jié)果。
該結(jié)構(gòu)中,這兩種模態(tài)可以通過(guò)學(xué)習(xí)到的互補(bǔ)特征相互促進(jìn)。若其中一種模態(tài)的數(shù)據(jù)提取到的特征較差,丟失了部分關(guān)鍵信息時(shí),另外一種模態(tài)的互補(bǔ)特征將是十分有利的。由于不同模態(tài)的數(shù)據(jù)特征通過(guò)不同網(wǎng)絡(luò)獲取,且通過(guò)額外的損失約束兩組特征之間的距離,在保證互補(bǔ)特征的差異性基礎(chǔ)上又可以保證對(duì)分割任務(wù)是有效的。
為了減少池化操作引起的細(xì)節(jié)信息丟失問(wèn)題,研究人員提出了使用空洞卷積代替池化操作[20]。這種空洞卷積與普通卷積不同的地方在于引進(jìn)了空洞率的思想,在卷積取點(diǎn)時(shí)將空洞率作為取點(diǎn)步長(zhǎng)??斩淳矸e在不增加計(jì)算量、不添加網(wǎng)絡(luò)層數(shù)的基礎(chǔ)上有效擴(kuò)大感受野。另一種在池化操作上的改進(jìn)是Zhao 等[21]提出的空間金字塔池化模塊,該模塊對(duì)不同核大小卷積得到的多尺度特征進(jìn)行融合,大幅提升了對(duì)過(guò)大或者過(guò)小目標(biāo)的分割性能。
結(jié)合空洞卷積和多尺度金字塔池化塊的優(yōu)點(diǎn),Chen 等[22]提出了一種可以大幅提升分割精度的空洞空間金字塔池化模塊。然而,ASPP 模塊在圖像分割中仍然存在兩個(gè)問(wèn)題:1)在原始空洞率組合下,任意一個(gè)空洞卷積對(duì)某些點(diǎn)均復(fù)發(fā)采樣,造成局部信息嚴(yán)重丟失,從分割結(jié)果上表現(xiàn)為網(wǎng)格效應(yīng)嚴(yán)重,分割結(jié)果不完整[23];2)原始ASPP模塊中高達(dá)18 的空洞率在遙感圖像提取到的特征中是不適用的,這種空洞率下的卷積提取到的信息在很大的距離上是不相關(guān)的。原始輸入圖片的尺寸為 256×256,經(jīng)過(guò)ResNet-50 中的5 次下采樣之后,特征圖尺寸變?yōu)?8×8,只需要較小的空洞率即可獲得全局的特征。因此對(duì)ASPP 模塊中的空洞率部分的超參做出調(diào)整,具體結(jié)構(gòu)如圖4所示。
圖4 多尺度特征融合模塊Fig.4 Multi-scale feature fusion module
由于顯存限制,首先將融合特征用1 ×1卷積進(jìn)行降維,再經(jīng)過(guò)優(yōu)化后的ASPP 模塊處理,該特征分別由最大池化(max-pooling)、1 ×1卷積、空洞率為2、4、6 的空洞卷積進(jìn)行處理,得到5 個(gè)多尺度特征圖,并在通道上均有一定的維度減少。最終將多尺度特征統(tǒng)一尺寸之后與原始特征圖進(jìn)行合并,通過(guò)這種融合,可以保留對(duì)象的空間上下文和邊界細(xì)節(jié),以極小的計(jì)算增加獲取更大范圍的感受野,產(chǎn)生更精細(xì)的分割結(jié)果。
為了獲得相似的光譜和高程的共同特征,可以簡(jiǎn)單地最小化它們的歐氏距離。然而,歐氏距離對(duì)不相似的共同特征的異常值很敏感。將兩種模態(tài)的共同(互補(bǔ))特征看作兩個(gè)分布的樣本,將問(wèn)題建模為計(jì)算分布之間的距離。為了獲得兩個(gè)相似分布的公共特征和不同分布的互補(bǔ)特征:一方面需要衡量?jī)蓚€(gè)分布之間的距離;另一方面,需要將這一距離作為損失函數(shù)并約束訓(xùn)練階段,提取共同特征時(shí)要最小化這個(gè)損失,相反,提取互補(bǔ)特征時(shí)需要最大化該損失。
當(dāng)前有許多計(jì)算分布之間相似性的技術(shù),如熵、互信息或JS、KL 散度等[24]。然而,這些信息論方法依賴于密度估計(jì),或復(fù)雜的空間劃分、偏差校正策略,這些策略對(duì)于高維數(shù)據(jù)通常是不可行的。還有一些利用生成對(duì)抗的思想,間接最小化分布之間的JS 散度[25]。這種方法需要額外的網(wǎng)絡(luò)且難以收斂。
在遷移學(xué)習(xí)領(lǐng)域中,最大均值差異(MMD)損失[26]常用來(lái)衡量多模態(tài)特征之間的距離,表現(xiàn)出優(yōu)異的性能,通過(guò)最小化子空間特征的分布差異,從而使源域與目標(biāo)域的特征分布盡可能相似。我們將MMD 應(yīng)用在多模態(tài)特征融合任務(wù)中,一方面要求從兩種模態(tài)數(shù)據(jù)中提取的共同特征分布相同時(shí)需要最小化該差異,另一方面提取互補(bǔ)特征時(shí)需要最大化該差異。
MMD 的作用效果很大程度上取決于核函數(shù)k的選取,不同的核函數(shù)會(huì)得到不同的結(jié)果。Gretton等[27]在兩個(gè)測(cè)試樣本中提出了基于多核的MMD方法,通過(guò)生成基于核族的核函數(shù),多核MMD 可以提高測(cè)試能力,并成功地應(yīng)用于域適應(yīng)中。目前,以多個(gè)不同高斯核的線性組合為核函數(shù)的多核MMD 損失已經(jīng)被集成在pytorch 工具包中。
訓(xùn)練階段,在batchsize 維度上分組計(jì)算特征之間MK-MMD 的無(wú)偏估計(jì),以共同特征之間的損失函數(shù)d(Sc,Dc)為例:
式中:n為batchsize;Sc和Dc分別為解碼器得到的光譜和高程的共同特征,可以計(jì)算出它們互補(bǔ)特征之間的相似性。
在本文的網(wǎng)絡(luò)中,期望共同特征Sc和Dc盡可能地相似,而互補(bǔ)特征Ss和Ds期望分布不同。因此,應(yīng)最小化d(Sc,Dc),同時(shí)最大化d(Ss,Ds)。網(wǎng)絡(luò)的損失函數(shù)為
式中:CEs和 CEd是標(biāo)簽與網(wǎng)絡(luò)輸出之間的像素級(jí)交叉熵?fù)p失。使用參數(shù) λ平衡像素級(jí)損失與互補(bǔ)學(xué)習(xí)的損失,λ參數(shù)由交叉驗(yàn)證得到。在反向傳播中,從反卷積特征和MK-MMD 距離兩個(gè)不同的來(lái)源計(jì)算了公共特征和互補(bǔ)特征的梯度。
為了驗(yàn)證提出方法的有效性,使用公開(kāi)的Potsdam 和Vaihingen 數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn)測(cè)試。這2 個(gè)數(shù)據(jù)集由ISPRS 語(yǔ)義分割委員會(huì)提供[28]。這兩個(gè)數(shù)據(jù)集主要覆蓋城市及其周邊地區(qū),均標(biāo)注了6 個(gè)常見(jiàn)類別,包括不透水表面(白色)、建筑物(藍(lán)色)、低植被(青色)、樹(shù)木(綠色)、汽車(黃色)和背景(紅色),其中背景類較特殊,包括集裝箱、網(wǎng)球場(chǎng)和水池等地物,根據(jù)文獻(xiàn)[29]本文將背景忽略。此外,為了防止不精確的邊緣標(biāo)注對(duì)評(píng)估模型精度造成的影響,這兩個(gè)數(shù)據(jù)集還提供了用半徑為3 像素的圓盤腐蝕類別邊界的標(biāo)簽。
Potsdam 是德國(guó)的一座歷史名城,有著巨大的建筑和密集的街道。Potsdam 數(shù)據(jù)集包括地面采樣距離(GSD)為5 cm 的24 幅圖像,包括近紅外、紅色、綠色、藍(lán)色和歸一化數(shù)字表面模型(nDSM)的5 個(gè)通道,分辨率均為6 000×6 000。在實(shí)驗(yàn)中,本文使用了17 幅圖像進(jìn)行訓(xùn)練,7 幅圖像進(jìn)行測(cè)試。另外,Vaihingen 是一個(gè)小而分散的村莊,Vaihingen 數(shù)據(jù)集包含3 波段IRRG(紅外、紅色和綠色)光譜圖像和相應(yīng)的數(shù)字表面模型(DSM)。其中,GSD 為9 cm,平均分辨率為2 500×2 500。根據(jù)之前的工作[30],本文選擇11 幅圖像進(jìn)行訓(xùn)練,其余5 幅圖像進(jìn)行測(cè)試。
在數(shù)據(jù)預(yù)處理中,考慮到GPU 內(nèi)存有限,使用步長(zhǎng)為64 像素的滑動(dòng)窗口將圖像分割成大小為256×256 的較小塊。為了減少可能出現(xiàn)的過(guò)擬合現(xiàn)象,采用4 種形式的數(shù)據(jù)增強(qiáng):噪聲干擾(高斯噪聲)、0.8~1.2 倍的隨機(jī)非比例縮放、0°~360°的隨機(jī)旋轉(zhuǎn)和90°、180°或270°的隨機(jī)翻轉(zhuǎn)。
所提出方法使用pytorch 工具庫(kù)實(shí)現(xiàn),互補(bǔ)特征學(xué)習(xí)網(wǎng)絡(luò)在兩塊顯存為32 GB 的GTX 3 090 顯卡上訓(xùn)練,batchsize 設(shè)置為16。初始學(xué)習(xí)率設(shè)置為0.001,每10 個(gè)epoch 學(xué)習(xí)率衰減10%。在優(yōu)化器設(shè)置上,采用動(dòng)量為0.9 的隨機(jī)梯度下降進(jìn)行優(yōu)化。此外,在訓(xùn)練階段本文使用沒(méi)有腐蝕邊界的標(biāo)簽,而在計(jì)算指標(biāo)時(shí)使用腐蝕邊緣的標(biāo)簽,以避免不確定的邊緣標(biāo)注對(duì)模型評(píng)估的影響。其他實(shí)驗(yàn)細(xì)節(jié)說(shuō)明如下。
1)多核MMD 損失設(shè)置:使用pytorch 中的多核MMD 損失,其核函數(shù)為多個(gè)高斯核的線性組合,將核函數(shù)個(gè)數(shù)設(shè)置為11,以保證可以區(qū)分互補(bǔ)特征與共同特征。
2)Fine-tuning:根據(jù)之前的工作[31],網(wǎng)絡(luò)模型在ImageNet 及PASCAL VOC 2012 語(yǔ)義分割數(shù)據(jù)集上的預(yù)訓(xùn)練模型基礎(chǔ)上進(jìn)行fine-tuning,可以收斂得更快且獲得更精確的結(jié)果。因此,本文用backbone 為Resnet-50 的Deeplab V3+模型在PASCAL VOC 2012 數(shù)據(jù)集上訓(xùn)練之后,將該Resnet-50 及ASPP 部分的checkpoint 作為預(yù)訓(xùn)練模型。
3)訓(xùn)練設(shè)置:訓(xùn)練階段,為了避免一開(kāi)始網(wǎng)絡(luò)就將重點(diǎn)放在最小化互補(bǔ)學(xué)習(xí)損失中而忽略對(duì)語(yǔ)義信息的學(xué)習(xí),本文先將兩個(gè)網(wǎng)絡(luò)分開(kāi)訓(xùn)練20 個(gè)epoch,當(dāng)兩個(gè)網(wǎng)絡(luò)都產(chǎn)生較穩(wěn)定的語(yǔ)義標(biāo)記輸出后,再將兩個(gè)網(wǎng)絡(luò)進(jìn)行聯(lián)合訓(xùn)練。
4)測(cè)試設(shè)置:測(cè)試階段,采用重疊滑窗采樣方法截取預(yù)測(cè)的小塊圖,獲取預(yù)測(cè)結(jié)果后對(duì)于重疊部分取平均值,可以有效糾正拼接邊界的小錯(cuò)誤,進(jìn)一步減少拼接帶來(lái)的邊界效應(yīng)。
為了更好地評(píng)估本文提出的互補(bǔ)特征學(xué)習(xí)網(wǎng)絡(luò)的性能,本文與5 種SOTA 方法進(jìn)行了比較,將這5 種方法分為兩類,即光譜數(shù)據(jù)網(wǎng)絡(luò)和多模態(tài)數(shù)據(jù)融合網(wǎng)絡(luò),前者包括FCN8s[32]、Deeplab v3+[22],后者包括VFuse-Net[33]、DP-DCN[34]、DSMFNet[11]。根據(jù)數(shù)據(jù)集guideline。在本實(shí)驗(yàn)中使用3 個(gè)指標(biāo)全面評(píng)估每個(gè)網(wǎng)絡(luò)的分割質(zhì)量,分別是總體準(zhǔn)確率(OA)、平均F1分?jǐn)?shù)和每個(gè)類別的F1分?jǐn)?shù)。在Potsdam 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如表1 所示。
表1 Potsdam 數(shù)據(jù)集分割精度對(duì)比Table 1 Comparison of segmentation accuracies for the Potsdam dataset %
從結(jié)果可以看出,所提出的CFL-Net 在OA中達(dá)到91.21%,在平均F1分?jǐn)?shù)中達(dá)到了92.47%。與DSMFNet 相比,平均OA 與F1分別提高了0.48%和0.87%,相較于SOTA 方法,本文的模型在更加細(xì)化的5 個(gè)類別上的F1分?jǐn)?shù)都有所提升。
為了更直觀、更清晰地比較本文提出的CFL-Net分割性能,分別選取兩大類分割網(wǎng)絡(luò)中性能較好的方法DeeplabV3+、DSMFNet 與本文的結(jié)果進(jìn)行可視化對(duì)比。圖5 展示了在Potsdam 數(shù)據(jù)測(cè)試集上3 種網(wǎng)絡(luò)在整張圖上分割的結(jié)果,從整張圖的分割結(jié)果來(lái)看,由于在測(cè)試時(shí)均采用了小步長(zhǎng)滑動(dòng)裁剪的方法,這幾張圖像的分割結(jié)果都沒(méi)有明顯的邊界效應(yīng),相鄰拼接塊之間物體邊界都比較平滑。
圖5 Potsdam 數(shù)據(jù)集整圖預(yù)測(cè)結(jié)果對(duì)比Fig.5 Comparison of the whole graph prediction results for the Potsdam dataset
此外,上述方法在防水表面類別的分割中都表現(xiàn)良好,均有較明顯的道路網(wǎng),這是由于在Potsdam 數(shù)據(jù)集中大多防水表面都有高對(duì)比度的邊界和可區(qū)分的光譜信息??梢钥吹?,CFL-Net的分割結(jié)果邊界往往更加精確且光滑,尤其是建筑和草地的邊緣及拐角。此外,對(duì)于一些零星的小目標(biāo)CFL-Net 也能夠?qū)崿F(xiàn)較精準(zhǔn)的分割。
在圖6 中給出了Postdam 數(shù)據(jù)測(cè)試集上更精細(xì)的矯正錯(cuò)誤分類區(qū)域的例子,并截取了較小的尺寸以便對(duì)比觀察。由圖6 可見(jiàn),兩棟樓房之間的連廊區(qū)域較小,樣本量也十分少,由于陰影、遮擋等因素在光譜上難以區(qū)分,因此僅光譜數(shù)據(jù)輸入的Deeplab V3+網(wǎng)絡(luò)的分割結(jié)果丟失了連廊區(qū)城,DSMFNet 雖然考慮到了高程信息,但簡(jiǎn)單地合并兩者信息并不能夠充分利用到多模態(tài)信息之間的相似性與互補(bǔ)性,造成對(duì)連廊的錯(cuò)分,將其分割為背景類。本文的CFL-Net 在該區(qū)域的分割上表現(xiàn)出良好的性能。圖6 中,nDSM 信息不能夠完全提供滿足對(duì)高低植被分類的高程信息時(shí),CFL-Net 也能夠充分利用光譜信息,并得到了比較好的分割結(jié)果。
圖6 Potsdam 數(shù)據(jù)集裁剪的小區(qū)域分割結(jié)果對(duì)比Fig.6 Comparison of small region segmentation results for the Potsdam dataset cropping
本文在Vaihingen 數(shù)據(jù)集上進(jìn)行了同樣的測(cè) 試,實(shí)驗(yàn)結(jié)果如表2 所示。
表2 Vaihingen 數(shù)據(jù)集分割精度對(duì)比Table 2 Comparison of segmentation accuracies for the Vaihingen dataset %
從圖7 中裁切的可視化結(jié)果可以看出,本文模型針對(duì)于之前提到的問(wèn)題有了很好的解決,在提取融合互補(bǔ)特征之后,多模態(tài)輸入網(wǎng)絡(luò)模型不再偏向于某單一模態(tài)數(shù)據(jù)提供的信息,而是針對(duì)語(yǔ)義分割任務(wù)以及多模態(tài)特征之間的關(guān)系選擇性地從多模態(tài)數(shù)據(jù)中提取特征。
圖7 Vaihingen 數(shù)據(jù)集裁剪的小區(qū)域分割結(jié)果對(duì)比Fig.7 Comparison of small region segmentation results for Vaihingen dataset cropping
通過(guò)圖7 可以發(fā)現(xiàn),在對(duì)一些低矮的建筑物,以及光譜上表現(xiàn)為植被的建筑物進(jìn)行分類時(shí),本文模型表現(xiàn)出很好的性能,證明該模型具有較好魯棒性。整體來(lái)說(shuō),本文提出的網(wǎng)絡(luò)具有更好的能力區(qū)分具有相似光譜性能的物體,如不透水表面和建筑物、低植被和樹(shù)木。同時(shí)又可以避免陷入對(duì)某一種模態(tài)信息的過(guò)分信任,減少可能的誤判。
從得到的結(jié)果來(lái)看,Vaihingen 數(shù)據(jù)集上CFLNet 的OA 為90.83%,平均F1為88.69%,分別比最近的競(jìng)爭(zhēng)方法DSMFNet 高0.78%和0.67%。盡管Vaihingen 數(shù)據(jù)集上的精度集小于Potsdam 數(shù)據(jù)集,但本文提出的方法仍然能夠獲得更好的性能。Vaihingen 數(shù)據(jù)集中整張圖像分割的可視化結(jié)果如圖4 所示。從各個(gè)類別的分割結(jié)果來(lái)看,本文提出的方法相較于其他方法可以獲得更加清晰的地物輪廓,對(duì)于形狀多變、紋理特征復(fù)雜、結(jié)構(gòu)復(fù)雜的建筑物類別分割得也更加完整。另外,對(duì)于一些面積較小的目標(biāo),如車輛、單體植被等,本文的分割方法在相鄰的小目標(biāo)之間沒(méi)有粘連現(xiàn)象。
本文對(duì)所提出的網(wǎng)絡(luò)進(jìn)行了分解和組合,利用OA 和F1-score 指標(biāo)驗(yàn)證了每個(gè)模塊的有效性。消融實(shí)驗(yàn)在Vaihengen 數(shù)據(jù)集上完成。首先,為了驗(yàn)證互補(bǔ)特征學(xué)習(xí)的有效性,分別單獨(dú)訓(xùn)練了完整的光譜分支與高程分支,對(duì)得到的模型進(jìn)行驗(yàn)證。其次,為了驗(yàn)證多核MMD 的有效性,本文在原有網(wǎng)絡(luò)框架基礎(chǔ)上,使用歐氏距離以及余弦相似度衡量特征之間的距離,并設(shè)置對(duì)應(yīng)的損失函數(shù)參與訓(xùn)練。采用IRRG-branch 表示光譜分支,DSM-branch 表示高程分支,dual path(DP)表示將兩個(gè)分支聯(lián)合訓(xùn)練,DP+ED 與DP+consine 分別表示將歐氏距離與余弦相似度作為互補(bǔ)特征約束的雙分支網(wǎng)絡(luò),最終實(shí)驗(yàn)結(jié)果如表3所示。
表3 消融實(shí)驗(yàn)結(jié)果Table 3 Results of the ablation experiments %
由表3 可得出結(jié)論:?jiǎn)我籇SM 分支由于缺少車輛、路面等地物的細(xì)節(jié)信息,精度最低。同樣,單一光譜分支雖然細(xì)節(jié)信息較多,但對(duì)于光譜上表現(xiàn)相似的地物識(shí)別能力有限,仍然無(wú)法得到較高的精度。聯(lián)合訓(xùn)練后,歐氏距離和余弦相似度的表示能力有限,無(wú)法完全衡量分布之間的距離。本文提出的多核MMD 方法取得了最好的結(jié)果,有效性最好。
本文對(duì)目前主流多模態(tài)數(shù)據(jù)融合遙感圖像語(yǔ)義分割存在的問(wèn)題進(jìn)行了分析,針對(duì)該問(wèn)題提出了基于互補(bǔ)特征學(xué)習(xí)的多模態(tài)數(shù)據(jù)語(yǔ)義分割網(wǎng)絡(luò)。一方面,本文從互補(bǔ)特征約束中設(shè)計(jì)損失函數(shù)參與網(wǎng)絡(luò)訓(xùn)練,使多模態(tài)數(shù)據(jù)在特征提取過(guò)程中可以相互學(xué)習(xí),并將它們建模為共同特征與互補(bǔ)特征。另一方面,本文將一種模態(tài)數(shù)據(jù)提取到的互補(bǔ)特征補(bǔ)充給另外一種模態(tài),在單一模態(tài)特征不足以完成語(yǔ)義重建時(shí),另一模態(tài)中提取到的互補(bǔ)特征可以對(duì)其進(jìn)行補(bǔ)充,產(chǎn)生更魯棒的融合特征。