李彥勝,武康,歐陽松,楊坤,李和平,張永軍
1.武漢大學(xué) 遙感信息工程學(xué)院,武漢 430079;
2.貴州省基礎(chǔ)地理信息中心,貴陽 550004;
3.貴州省第一測繪院,貴陽 550025
遙感影像語義分割作為地學(xué)信息解譯的基礎(chǔ)性工作,廣泛地應(yīng)用于土地覆蓋制圖、自然環(huán)境保護(hù)、災(zāi)害應(yīng)急監(jiān)測、城市空間規(guī)劃等領(lǐng)域,具有重要的應(yīng)用價(jià)值(Ma等,2019)。遙感影像是地表三維世界經(jīng)過大氣傳輸?shù)竭_(dá)傳感器的映射,包含了豐富的地物光譜、目標(biāo)形狀特征和地理空間關(guān)系等信息。人類領(lǐng)域?qū)<以谡Z義分割過程中,往往需要綜合考慮目標(biāo)語義信息和地學(xué)先驗(yàn)知識(shí)才能夠有效克服遙感影像的“同譜異物、同物異譜”問題,從而取得理想的分割結(jié)果(Zhu等,2017)。
傳統(tǒng)的圖像語義分割方法包括最大似然法(MLE)、隨機(jī)森林(RF)、決策樹(DT)、支持向量機(jī)(SVM)等基于淺層特征判別的監(jiān)督分類方法(Camps-Valls 等,2014;李楠 等,2018)。這類方法一般先根據(jù)人工設(shè)計(jì)的特征描述子提取圖像的光譜、紋理和幾何結(jié)構(gòu)特征,然后進(jìn)行特征分類(肖春姣 等,2020)。傳統(tǒng)分割方法高度依賴于人工設(shè)計(jì)特征,難以跨越底層圖像數(shù)據(jù)與高層邏輯信息的語義鴻溝,其魯棒性和精度較差。隨著人工智能理論與技術(shù)的快速發(fā)展,深度學(xué)習(xí)方法廣泛運(yùn)用到了遙感圖像處理任務(wù)中(Li 等,2018,2020,2021a)?;谏疃葘W(xué)習(xí)的語義分割方法包括全卷積網(wǎng)絡(luò)(FCN)、U型網(wǎng)絡(luò)(U-Net)、分割網(wǎng)絡(luò)(SegNet)、掩模區(qū)域卷積網(wǎng)絡(luò)(Mask R-CNN)、深度分割網(wǎng)絡(luò)(DeepLab)、分割Transformer(SegFormer)、多視野融合網(wǎng)絡(luò)(MFV-Net)、PID網(wǎng)絡(luò)(PIDNet)等深度語義分割網(wǎng)絡(luò)方法(Long等,2015;Ronneberger 等,2015;Badrinarayanan等,2017;Zhao 等,2017;He 等,2018;Chen等,2018;Xie 等,2021;Li 等,2023;Xu 等,2023)。深度語義分割網(wǎng)絡(luò)通過端到端的學(xué)習(xí)機(jī)制對(duì)特征提取與特征分類一體化模型自動(dòng)學(xué)習(xí),從而自適應(yīng)完成分割工作,使得分割的準(zhǔn)確度大幅提高、分割的過程也更加智能化。然而,深度學(xué)習(xí)是基于像素的數(shù)據(jù)驅(qū)動(dòng)方法,通過降低在每個(gè)像素上的損失來反向優(yōu)化網(wǎng)絡(luò)模型,缺乏實(shí)體級(jí)別的學(xué)習(xí),不能有效提取出目標(biāo)形狀特征,使得分割結(jié)果整體性缺失、邊界模糊和隨機(jī)噪聲分布明顯,同時(shí)受制于結(jié)構(gòu)化數(shù)據(jù)驅(qū)動(dòng)方法的缺陷,往往難以利用地學(xué)先驗(yàn)知識(shí)和實(shí)體間豐富的語義信息(如空間關(guān)系)(Liu 等,2020),導(dǎo)致可解釋性差。以上兩點(diǎn)不足嚴(yán)重制約著深度語義分割網(wǎng)絡(luò)性能,亟需在分割過程中從實(shí)體尺度出發(fā),綜合考慮地學(xué)先驗(yàn)知識(shí)和實(shí)體間語義信息。
先驗(yàn)知識(shí)和語義信息是對(duì)規(guī)則或事實(shí)的抽象化表達(dá),難以形式化建模。為充分利用先驗(yàn)知識(shí),國內(nèi)外專家學(xué)者探索了諸多方法,如輔助通道嵌入、物理模型建模、遷移學(xué)習(xí)等。輔助通道嵌入方法(Wu 等,2021)通過將領(lǐng)域知識(shí)作為輔助的輸入通道參與網(wǎng)絡(luò)訓(xùn)練測試從而進(jìn)行知識(shí)嵌入。物理模型建模方法(Xu 等,2022;Li 等,2022)將物理知識(shí)融入損失函數(shù)和模型結(jié)構(gòu)中來利用先驗(yàn)知識(shí)。遷移學(xué)習(xí)方法(Dash 等,2022;李發(fā)森等,2022;歐陽淑冰 等,2022)通過預(yù)訓(xùn)練等方式將領(lǐng)域先驗(yàn)知識(shí)耦合網(wǎng)絡(luò)模型中。然而這些方法大多只考慮到特定場景下的先驗(yàn)知識(shí)的入,對(duì)語義信息的利用程度不夠。在此背景下,遙感科學(xué)應(yīng)該得到本體論、知識(shí)圖譜等知識(shí)表示技術(shù)的支持。本體(Ontology)(Arvor 等,2019)作為對(duì)特定領(lǐng)域中概念及其相互關(guān)系的形式化表達(dá),具有很強(qiáng)的知識(shí)表示能力、基于認(rèn)知語義學(xué)的推理能力和共享知識(shí)的能力。地學(xué)知識(shí)圖譜作為語義網(wǎng)絡(luò),描述了地物目標(biāo)的屬性以及目標(biāo)之間的關(guān)系,相較于其他建模方式,能夠更好的捕捉實(shí)體之間的語義關(guān)聯(lián)和復(fù)雜的關(guān)系模式,有助于更好地理解和推理知識(shí),適用于地學(xué)知識(shí)的結(jié)構(gòu)化表達(dá)。其中,地學(xué)本體是地學(xué)知識(shí)圖譜的骨架,地物目標(biāo)作為本體的實(shí)例化對(duì)象組成了地學(xué)知識(shí)圖譜的基本單元。地學(xué)知識(shí)圖譜的發(fā)展經(jīng)歷了專家智能解譯系統(tǒng)(Goodenough 等,1987)、地學(xué)信息圖譜(張洪巖 等,2020)、地理知識(shí)圖譜(Hogan等,2022)3 個(gè)階段。傳統(tǒng)的專家智能解譯系統(tǒng)通過知識(shí)的規(guī)則化模仿專家的決策過程,針對(duì)性強(qiáng),但適用范圍小,解譯精度有限;地學(xué)信息圖譜是一種借鑒圖譜思想構(gòu)建的地球信息科學(xué)理論,系統(tǒng)化和抽象化地表達(dá)了地學(xué)知識(shí),但由于面向的是整個(gè)地學(xué)領(lǐng)域,并不能直接用于遙感影像解譯;地理知識(shí)圖譜則是將當(dāng)前的知識(shí)圖譜理論引入到了地理科學(xué)領(lǐng)域,完成了地學(xué)知識(shí)的結(jié)構(gòu)化表達(dá)和推理?,F(xiàn)有遙感影像解譯方法缺乏地學(xué)知識(shí)的嵌入,導(dǎo)致解譯的可解釋性和可靠性受限,這使得地學(xué)知識(shí)圖譜驅(qū)動(dòng)下的遙感影像智能解譯具有廣闊的應(yīng)用前景(王志華 等,2021;李彥勝和張永軍,2022;張永軍 等,2023)。通過引入地學(xué)知識(shí)圖譜,從中抽取符號(hào)化的地學(xué)先驗(yàn)知識(shí)和語義信息,并借助知識(shí)推理以完成遙感影像解譯,從而提高解譯結(jié)果的準(zhǔn)確度和可解釋性。在已有工作中,建筑物本體模型(Gui 等,2016)用于從SAR 影像中提取建筑物,地學(xué)知識(shí)圖譜推理(Gu等,2017)被用于基于目標(biāo)的高分辨率遙感影像語義分類方法,旨在挖掘利用地學(xué)知識(shí)圖譜推理理論對(duì)遙感影像解譯的優(yōu)勢。地學(xué)知識(shí)圖譜嵌入方法(吳瑞 等,2022)被用于高光譜解混領(lǐng)域,通過先驗(yàn)知識(shí)來進(jìn)一步提高端元選擇的可靠性,從而提升解混的精度。地學(xué)知識(shí)圖譜推理增強(qiáng)了分類結(jié)果的可解釋性和可信度,但是相比于深度學(xué)習(xí)方法,其分類精度較差(Li 等,2021b)。聯(lián)合深度學(xué)習(xí)與知識(shí)推理是協(xié)調(diào)數(shù)據(jù)驅(qū)動(dòng)方法與知識(shí)驅(qū)動(dòng)方法的重要途徑(Arvor 等,2019;Li 等,2022)。在該類工作中,Alirezaie等(2019)實(shí)現(xiàn)了本體推理器與深度神經(jīng)網(wǎng)絡(luò)分類器在輸入和輸出端的交互。耦合深度語義分割網(wǎng)絡(luò)和圖卷積神經(jīng)網(wǎng)絡(luò)的遙感影像語義分割方法DSSN-GCN(Ouyang和Li,2021)借助圖卷積神經(jīng)網(wǎng)絡(luò)對(duì)節(jié)點(diǎn)依賴關(guān)系的強(qiáng)大建模能力,在深度語義分割網(wǎng)絡(luò)的特征提取的基礎(chǔ)上引入了地物目標(biāo)空間拓?fù)潢P(guān)系,從而預(yù)先將空間拓?fù)湎闰?yàn)知識(shí)嵌入到了網(wǎng)絡(luò)中,有效提高了網(wǎng)絡(luò)的性能。雖然遙感領(lǐng)域已有研究引入知識(shí)來推動(dòng)遙感影像解譯技術(shù)(范菁 等,2017),但仍沒有具體工作來探討如何將地學(xué)知識(shí)圖譜來引導(dǎo)優(yōu)化深度網(wǎng)絡(luò)。鑒于結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化知識(shí)之間的鴻溝,如何將地學(xué)知識(shí)嵌入深度語義分割網(wǎng)絡(luò)中以自主引導(dǎo)網(wǎng)絡(luò)訓(xùn)練仍極具挑戰(zhàn)性。
基于上述分析,為在深度語義分割網(wǎng)絡(luò)分割過程中實(shí)現(xiàn)實(shí)體級(jí)特征自主學(xué)習(xí)以及充分利用空間語義信息與地學(xué)先驗(yàn)知識(shí),本文提出了地學(xué)知識(shí)圖譜引導(dǎo)的遙感影像深度語義分割方法,使用從地學(xué)知識(shí)圖譜中抽取得到的地物目標(biāo)語義信息和地學(xué)先驗(yàn)知識(shí)來構(gòu)建實(shí)體級(jí)連通約束和實(shí)體間共生約束,從而自主引導(dǎo)深度語義分割網(wǎng)絡(luò)訓(xùn)練。實(shí)體級(jí)連通約束通過對(duì)分割結(jié)果的實(shí)體級(jí)約束,保證了分割結(jié)果的整體性。實(shí)體間共生約束通過量化共生先驗(yàn)知識(shí),實(shí)現(xiàn)將非結(jié)構(gòu)化的知識(shí)嵌入到數(shù)據(jù)驅(qū)動(dòng)的深度語義分割網(wǎng)絡(luò)中。驗(yàn)證結(jié)果表明,本文提出的地學(xué)知識(shí)圖譜引導(dǎo)的深度語義分割方法明顯優(yōu)于已有深度語義分割方法。
本文提出方法的總體流程圖如圖1。主要包括地學(xué)知識(shí)圖譜構(gòu)建與遙感解譯先驗(yàn)知識(shí)提取模塊、地學(xué)知識(shí)圖譜引導(dǎo)的損失約束模塊以及深度語義分割網(wǎng)絡(luò)優(yōu)化模塊。地學(xué)知識(shí)圖譜構(gòu)建與遙感解譯先驗(yàn)知識(shí)提取模塊首先利用地學(xué)本體定義抽象類和屬性關(guān)系,再從數(shù)據(jù)集標(biāo)簽影像中抽取實(shí)體及其屬性以實(shí)例化本體類,從而完成地學(xué)知識(shí)圖譜構(gòu)建,最后從圖譜中提取空間共生先驗(yàn)知識(shí)。地學(xué)知識(shí)圖譜引導(dǎo)的損失約束模塊包括常規(guī)的像素級(jí)稠密約束、實(shí)體級(jí)連通約束和實(shí)體間共生約束。數(shù)據(jù)集中的標(biāo)簽包含大量的連通域,這些連通域是地物目標(biāo)的分割結(jié)果,連通域之間的空間共生分布是領(lǐng)域分類知識(shí)的體現(xiàn)。空間共生等地學(xué)先驗(yàn)知識(shí)可以根據(jù)連通域的空間分布進(jìn)行抽取。實(shí)體級(jí)連通約束和實(shí)體間共生約束均以連通域?yàn)樘幚韱卧?,前者?jì)算每一個(gè)連通域單元而不是像素的損失,以實(shí)現(xiàn)對(duì)實(shí)體的整體性約束;后者借助空間共生先驗(yàn)知識(shí)完成鄰域?qū)嶓w對(duì)中心實(shí)體的打分,該分值代表中心實(shí)體在當(dāng)前鄰域空間分布下所屬類別的置信度,再根據(jù)分值計(jì)算損失,從而實(shí)現(xiàn)對(duì)實(shí)體空間分布的約束。深度語義分割網(wǎng)絡(luò)優(yōu)化模塊負(fù)責(zé)網(wǎng)絡(luò)的訓(xùn)練和圖像的語義分割。本文提出方法是一種地學(xué)知識(shí)圖譜引導(dǎo)的遙感影像深度語義分割方法,深度語義分割網(wǎng)絡(luò)優(yōu)化模塊作為其中一部分,并不局限于特定的結(jié)構(gòu),可基于不同的深度語義分割網(wǎng)絡(luò)構(gòu)建。為了驗(yàn)證方法的通用性,本研究將地學(xué)知識(shí)圖譜引導(dǎo)的深度語義分割方法作用在U-Net 和DeepLab V3+這2 種常見的網(wǎng)絡(luò)中。深度語義分割網(wǎng)絡(luò)通過優(yōu)化加入約束的綜合損失來調(diào)整網(wǎng)絡(luò)模型,從而學(xué)習(xí)到實(shí)體級(jí)特征表示和利用空間共生知識(shí)引導(dǎo)分割。
圖1 本文提出方法的總體流程圖Fig.1 The workflow of the proposed method
2.1.1 地學(xué)知識(shí)圖譜構(gòu)建
地學(xué)知識(shí)圖譜建立在地學(xué)本體的基礎(chǔ)上,通過實(shí)例化本體完成構(gòu)建。地學(xué)本體的引入可將地學(xué)知識(shí)符號(hào)化,有助于提高知識(shí)的自主化運(yùn)用水平。為建立地學(xué)本體,本文使用網(wǎng)絡(luò)本體語言O(shè)WL(Web OntologyLanguage)描述本體。地學(xué)本體的層次結(jié)構(gòu)如圖2 所示。可見地物對(duì)象類(rs:GeoObject)為根類,其余子類從中衍生:一級(jí)子類主要包括水體(rs:Water)、植被(rs:Vegetation)、透水地面(rs:Ground)、農(nóng)業(yè)用地(rs:Agriculturaland)、城鎮(zhèn)用地(rs:Urbanland)、交通工具(rs:Vehicle)和其他(rs:Unknown);二級(jí)子類在一級(jí)子類的基礎(chǔ)上細(xì)分為湖泊(rs:Lake)、河流(rs:River)、海洋(rs:Sea)、草地(rs:Grass)、樹木(rs:Tree)、裸地(rs:Bareland),荒地(rs:Wasteland)、耕地(rs:Farmland)、牧場(rs:Rangeland)、建筑物(rs:Building)、道路(rs:Pavement)、車輛(rs:Car)、船只(rs:Ship)、飛機(jī)(rs:Airplane)。屬性關(guān)系是本體類間或?qū)嶓w間聯(lián)系的語義橋梁,地學(xué)本體的核心屬性主要包括從屬(oc:isA)等上下層屬性,相鄰(geo:adjacentTo)、環(huán)繞(geo:surroundedBy)、方位(geo:hasDirectionOf)等空間關(guān)系屬性以及多數(shù)類(geo:MaxClass)等統(tǒng)計(jì)屬性。圖2 中上下層屬性描述了實(shí)體間的從屬關(guān)系,比如:“耕地”是“農(nóng)業(yè)用地”,因此“耕地”和“農(nóng)業(yè)用地”之間就包含上下層屬性;空間關(guān)系屬性描述了實(shí)體間的空間關(guān)系,“道路”環(huán)繞“車輛”,因此“車輛”和“道路”之間就包含環(huán)繞的空間關(guān)系屬性;統(tǒng)計(jì)屬性描述實(shí)體間的統(tǒng)計(jì)性質(zhì)和特征,如某個(gè)類別在知識(shí)圖譜中出現(xiàn)的頻率等統(tǒng)計(jì)屬性。地學(xué)本體是地學(xué)知識(shí)圖譜的骨架,而實(shí)體作為本體類的實(shí)例化對(duì)象,組成了地學(xué)知識(shí)圖譜的基本單元(圖2)。
圖2 地學(xué)本體層次結(jié)構(gòu)Fig.2 The hierarchy of the geographic ontology
2.1.2 遙感解譯先驗(yàn)知識(shí)提取
數(shù)據(jù)集的標(biāo)簽影像包含大量的地物目標(biāo)信息,包括類別、空間分布等信息。地物目標(biāo)的空間分布是地學(xué)先驗(yàn)知識(shí)的體現(xiàn),因此可以從標(biāo)簽影像上地物目標(biāo)的空間分布中抽取空間共生關(guān)系等先驗(yàn)知識(shí)。一般來說,超像素可以作為目標(biāo)單元,因?yàn)槭艹袼胤指钏惴ǖ募s束,影像中每個(gè)超像素是由一系列同質(zhì)的像素組成的,同時(shí)超像素具有一致的形狀大小,意味著形狀較大的地物目標(biāo)可以分割出更多的超像素,那么在獲取目標(biāo)單元的條件共生概率等統(tǒng)計(jì)屬性時(shí)能夠?qū)⒌匚锬繕?biāo)的尺寸也一并考慮進(jìn)來。鑒于地物目標(biāo)尺寸信息的重要性,本文以原始影像超像素分割塊對(duì)應(yīng)于標(biāo)簽影像的區(qū)域作為本體類的實(shí)體。利用標(biāo)簽影像中的超像素(實(shí)體)實(shí)例化本體類,超像素中具有多數(shù)像素的地物類別作為對(duì)應(yīng)實(shí)體的本體類類別,也即實(shí)體的多數(shù)類geo:MaxClass 屬性。超像素的空間關(guān)系屬性和統(tǒng)計(jì)屬性作為實(shí)體的屬性。若實(shí)體obj1和obj2在空間上存在公共邊,則兩者具有相鄰屬性,以三元組(obj1geo:adjacentTo obj2)表示。同理可得其他屬性關(guān)系。本體類的空間共生屬性是一種地學(xué)先驗(yàn)知識(shí),可由統(tǒng)計(jì)概率表達(dá),具體做法是在鄰域內(nèi)統(tǒng)計(jì)不同本體類實(shí)體出現(xiàn)的條件概率。以本體類Ci、Cj為例,統(tǒng)計(jì)地學(xué)知識(shí)圖譜中所屬Ci的實(shí)體出現(xiàn)的概率P(Ci),以及出現(xiàn)與該實(shí)體相鄰的類別為Cj的實(shí)體的概率P(Ci,Cj),再根據(jù)下式即可計(jì)算出在本體類Ci實(shí)體出現(xiàn)的條件下鄰域內(nèi)出現(xiàn)本體類Cj實(shí)體的概率P(Cj|Ci),稱P為共生條件概率。
以類別Cbuilding建筑類為例,首先統(tǒng)計(jì)出地學(xué)知識(shí)圖譜中出現(xiàn)建筑類的實(shí)體的概率P(Cbuilding)以及鄰域內(nèi)同時(shí)出現(xiàn)類別為建筑類和Cpavement道路類實(shí)體的概率P(Cbuilding,Cpavement),再根據(jù)式(1)即可計(jì)算出在建筑類實(shí)體出現(xiàn)的條件下鄰域內(nèi)出現(xiàn)道路類實(shí)體的概率P(Cpavement|Cbuilding)。
從遙感領(lǐng)域知識(shí)圖譜中抽取目標(biāo)實(shí)體關(guān)系知識(shí)用于自主引導(dǎo)深度語義分割網(wǎng)絡(luò)訓(xùn)練。引導(dǎo)方法主要包括實(shí)體級(jí)連通約束和實(shí)體間共生約束,約束構(gòu)建以標(biāo)簽連通域?yàn)閷?shí)體。實(shí)體級(jí)連通約束以實(shí)體而不是像素為單元計(jì)算損失,實(shí)現(xiàn)對(duì)實(shí)體的整體性約束。實(shí)體間共生約束通過實(shí)體間空間共生知識(shí)將非結(jié)構(gòu)化的地學(xué)先驗(yàn)知識(shí)嵌入到數(shù)據(jù)驅(qū)動(dòng)的神經(jīng)網(wǎng)絡(luò)中以約束分割目標(biāo)的空間分布。深度語義分割網(wǎng)絡(luò)通過優(yōu)化總體目標(biāo)函數(shù)來完成遙感領(lǐng)域知識(shí)圖譜的嵌入。深度語義分割網(wǎng)絡(luò)的總體優(yōu)化目標(biāo)函數(shù)L 包括像素級(jí)稠密約束的常規(guī)損失項(xiàng)?P、實(shí)體級(jí)連通約束損失項(xiàng)?R和實(shí)體間共生約束損失項(xiàng)?K,具體計(jì)算公式如下:
式中,α和β為常數(shù),用于調(diào)節(jié)?R和?K在總體損失中所占的比例。
2.2.1 像素級(jí)稠密約束
深度語義分割網(wǎng)絡(luò)輸出的分類置信度圖F∈RC×H×W及其標(biāo)簽 影像Y∈RH×W計(jì)算像素級(jí)稠密損失,像素級(jí)稠密約束的常規(guī)損失項(xiàng)?P定義為
式中,F(xiàn)=?(I,Wθ),?(·)既 代表深度語義分割網(wǎng)絡(luò)的層次化映射函數(shù),也代表深度語義分割網(wǎng)絡(luò)模型,I為輸入圖像,Wθ為深度語義分割網(wǎng)絡(luò)的參數(shù)。C、H和W分別為圖像的類別數(shù)、高度和寬度。
2.2.2 實(shí)體級(jí)連通約束
圖像原始數(shù)據(jù)I輸入深度語義分割網(wǎng)絡(luò),輸出分類置信度圖F∈RC×H×W,對(duì)F按通道取最大值的序號(hào)即得到分割結(jié)果。實(shí)體級(jí)連通約束損失?R以標(biāo)簽中連通域?yàn)閱卧M(jìn)行計(jì)算,首先在分類置信度圖F上對(duì)Si(1 ≤i≤N)實(shí)體區(qū)域內(nèi)所有像素Pj(Pj∈Si)的分類置信度向量D按通道計(jì)算均值,得到具有通道維數(shù)C的向量,這個(gè)向量作為該實(shí)體的分類置信度向量;然后根據(jù)實(shí)體的分類置信度向量和真實(shí)類別Yi計(jì)算損失;最后取所有實(shí)體損失項(xiàng)的均值,該均值即為實(shí)體級(jí)連通約束損失?R。具體計(jì)算公式如下:
2.2.3 實(shí)體間共生知識(shí)約束
與實(shí)體級(jí)連通約束損失構(gòu)建一樣,實(shí)體間共生約束損失?K以標(biāo)簽中連通域?yàn)閷?shí)體單元進(jìn)行計(jì)算。首先確定每個(gè)實(shí)體的分類類別,取實(shí)體Si(1 ≤i≤N)的分類置信度向量將向量中最大值及其最大值序號(hào)分別作為該實(shí)體的分類置信度和分類類別k(1 ≤k≤C);其次給實(shí)體Si打分,取中心實(shí)體Si鄰域內(nèi)的所有實(shí)體{Sj|SjAdjacent toSi}對(duì)Si打分(鄰域內(nèi)共mi個(gè)實(shí)體),Si的分值由鄰域內(nèi)實(shí)體的分類置信度向量的最大值和共生條件概率P按類別加權(quán)求和而來,得到具有通道維數(shù)的分值向量Hi∈RC,該向量代表中心實(shí)體在當(dāng)前鄰域空間分布下所屬各類的分類置信度;最后根據(jù)實(shí)體的基于空間分布的分類置信度向量Hi和真實(shí)類別Yi計(jì)算損失,取所有實(shí)體損失項(xiàng)的均值作為實(shí)體間共生約束損失?K。具體計(jì)算公式如下:
實(shí)體間共生知識(shí)約束和實(shí)體級(jí)連通約束的關(guān)系如圖1所示。二者都以連通域單元作為基本計(jì)算單位且損失計(jì)算都依賴實(shí)體的分類置信度向量,但損失計(jì)算方式、約束角度有明顯區(qū)別。其中,連通域單元是標(biāo)簽中各類別實(shí)體相連通的像素區(qū)域,實(shí)體的分類置信度向量是通過計(jì)算每個(gè)連通域單元的預(yù)測結(jié)果的逐通道均值得到。如圖1 第3行所示,實(shí)體級(jí)連通約束計(jì)算實(shí)體的分類置信度向量和真實(shí)標(biāo)簽之間的損失,從實(shí)體層級(jí)對(duì)網(wǎng)絡(luò)進(jìn)行約束,使網(wǎng)絡(luò)自主學(xué)習(xí)實(shí)體級(jí)別的特征表示。如圖1第四行所示,實(shí)體間共生知識(shí)約束基于多個(gè)鄰域?qū)嶓w的分類置信度向量和地學(xué)知識(shí)圖譜中的共生條件概率得到空間分布的分類置信度向量,再計(jì)算空間分布的分類置信度向量和真實(shí)標(biāo)簽間損失,從領(lǐng)域知識(shí)的角度約束深度網(wǎng)絡(luò)訓(xùn)練。實(shí)體間共生知識(shí)約束將非結(jié)構(gòu)化的知識(shí)嵌入到數(shù)據(jù)驅(qū)動(dòng)的深度語義分割網(wǎng)絡(luò)中,從而自動(dòng)優(yōu)化分割結(jié)果的空間分布。
深度語義分割網(wǎng)絡(luò)輸出的分類置信度圖F及其標(biāo)簽影像Y∈RH×W計(jì)算總體損失,通過后向傳播算法降低總體損失L,從而優(yōu)化深度語義分割網(wǎng)絡(luò)。基于實(shí)體級(jí)連通約束的損失?R引導(dǎo)深度語義分割網(wǎng)絡(luò)在訓(xùn)練的過程中自主學(xué)習(xí)實(shí)體級(jí)別的特征表示,使得網(wǎng)絡(luò)輸出的分割結(jié)果更具整體性,邊界模糊和隨機(jī)噪聲現(xiàn)象得到抑制?;趯?shí)體間共生約束的損失?K根據(jù)實(shí)體間的空間共生知識(shí)調(diào)整目標(biāo)的空間分布,從而實(shí)現(xiàn)對(duì)分割實(shí)體的空間分布的自動(dòng)優(yōu)化。
本文基于UCM 遙感數(shù)據(jù)集(Shao 等,2018)和DeepGlobe 遙感數(shù)據(jù)集(Demir等,2018)。UCM數(shù)據(jù)集包含21 個(gè)地物類別,每個(gè)類別有100 張遙感圖像,每張圖像尺寸為256×256像素,地面分辨率為0.3 m。樣本集采用密集標(biāo)注的DLRSD 數(shù)據(jù)集(Shao 等,2018),共包含17 類。參照(Alirezaie等,2019)的做法,為了縮小類別之間的相似性,本文將樣本集中的17類合并成了8類,分別是植被(Tree,Grass)、裸地(Bare soil,Sand,Chaparral)、道路(Pavement,Dock)、建筑(Building,Mobile home,Tank)、水體(Water,Sea)、飛機(jī)(Airplane)、車輛(Cars)和船只(Ship)。每個(gè)類別由括號(hào)里面的原類別合并而成。為了減低類別之間的相似性,移除了包含F(xiàn)ield 或Tennis court 類的圖像。將這些篩選出來的圖像按8∶1∶1的比例隨機(jī)劃分出訓(xùn)練集、驗(yàn)證集和測試集,分別包含1513、189和190張圖像。
DeepGlobe土地覆蓋分類數(shù)據(jù)集提供了1146幅亞米分辨率的遙感影像,圖像尺寸為2448×2448像素。人工標(biāo)注了7 類,分別是城鎮(zhèn)、耕地、牧場、森林、水體、裸地和未知類。整個(gè)數(shù)據(jù)集分為訓(xùn)練集、驗(yàn)證集和測試集,分別包含803、171 和172 幅圖像。從每個(gè)原始圖像中均勻地裁剪大小為256×256 像素的圖像。將裁剪后的圖像按8∶1∶1的比例隨機(jī)劃分出訓(xùn)練集、驗(yàn)證集和測試集,分別包含10272、1280和1296張圖像。
UCM 遙感數(shù)據(jù)集中,訓(xùn)練所使用的地學(xué)知識(shí)圖譜各類別共生條件概率如表1 所示;DeepGlobe數(shù)據(jù)集中各類別共生條件概率如表2所示。表中每一行表示地學(xué)知識(shí)圖譜中的類別Ci,每一列表示與Ci不同的類別Cj;表中的具體數(shù)值表示共生條件概率,即本體類Ci實(shí)體出現(xiàn)的條件下鄰域內(nèi)出現(xiàn)本體類Cj實(shí)體的概率P(Cj|Ci)。
表1 UCM數(shù)據(jù)集各類別共生條件概率Table 1 Symbiosis conditional probability of each category in UCM dataset
表2 DeepGlobe數(shù)據(jù)集各類別共生條件概率Table 2 Symbiosis conditional probability of each category in DeepGlobe dataset
在實(shí)驗(yàn)測試的過程中,本文采用了經(jīng)典的UNet(Ronneberger 等,2015)和先進(jìn)的DeepLab V3+(Chen 等,2018)深度語義分割網(wǎng)絡(luò)。U-Net是一種用于圖像分割任務(wù)的卷積神經(jīng)網(wǎng)絡(luò),以其編碼—解碼結(jié)構(gòu)和跳躍連接的設(shè)計(jì)而聞名,能夠有效地處理醫(yī)學(xué)圖像和自然圖像等領(lǐng)域的分割問題。其采用了一種類似于“U”形的結(jié)構(gòu),將輸入的圖像分成兩個(gè)部分,分別進(jìn)行卷積和池化操作,然后將它們合并起來得到最終的輸出結(jié)果。這種結(jié)構(gòu)可以有效地捕捉圖像中的細(xì)節(jié)信息,從而提高了分割的精度。DeepLabv3+是一種用于圖像語義分割的深度學(xué)習(xí)模型。它結(jié)合了全卷積網(wǎng)絡(luò)和空洞卷積,以實(shí)現(xiàn)高效準(zhǔn)確的圖像分割。模型采用編碼器—解碼器結(jié)構(gòu),使用預(yù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)提取特征,并通過轉(zhuǎn)置卷積將特征映射上采樣到原始圖像尺寸??斩淳矸e和自適應(yīng)空洞擴(kuò)張模塊允許模型在不增加參數(shù)的情況下捕捉多尺度上下文信息。多尺度推理和空間金字塔池化進(jìn)一步提高分割性能。DeepLabv3+在圖像分割任務(wù)中取得了優(yōu)秀的性能。對(duì)于網(wǎng)絡(luò)的訓(xùn)練,分別采用隨機(jī)梯度下降法(SGD)和交叉熵(Cross Entropy)作為優(yōu)化器和損失函數(shù)。在深度學(xué)習(xí)領(lǐng)域中,當(dāng)數(shù)據(jù)規(guī)模等條件差距較大時(shí),為了保證網(wǎng)絡(luò)的收斂,通常使用不同的初始學(xué)習(xí)率進(jìn)行網(wǎng)絡(luò)訓(xùn)練(He 等,2016)。本文中2 個(gè)數(shù)據(jù)集的數(shù)據(jù)規(guī)模和分辨率等條件差異較大,因此,在UCM 數(shù)據(jù)集和DeepGlobe 數(shù)據(jù)集上的學(xué)習(xí)率設(shè)置不同,分別為3×10-4和2×10-4。另外,超像素分割方法采用了簡單線性迭代聚類SLIC(Simple Linear Iterative Cluster)(Achanta 等,2012)。所有的實(shí)驗(yàn)均在PyTorch 框架下使用一塊NVIDIA 1080Ti GPU 進(jìn)行的。
語義分割結(jié)果的評(píng)價(jià)指標(biāo)采用總體精度OA(Overall Accuracy)、交并比IoU(Intersection over Union)、均交并比(Mean Intersection over Union,MIoU)和頻權(quán)交并比FWIoU(Frequency Weighted Intersection over Union)。上述指標(biāo)計(jì)算公式如下:
式中,n為類別的數(shù)量,TP、TN、FP和FN 分別為正類被正確判別的像素?cái)?shù)、正類被錯(cuò)誤判別的像素?cái)?shù)、負(fù)類被正確判別的像素?cái)?shù)和負(fù)類被錯(cuò)誤判別的像素?cái)?shù)。
超參數(shù)主要包括式(2)中的α和β,α用于調(diào)節(jié)實(shí)體級(jí)連通約束損失項(xiàng)?R在總體損失L 中的占比,β用于調(diào)節(jié)實(shí)體間共生約束損失項(xiàng)?K在總體損失L 中的占比。由于?R和?K對(duì)于總體損失L 貢獻(xiàn)比例并無法直接通過理論得到,因此我們將其設(shè)置為超參數(shù),通過實(shí)驗(yàn)來探究合適的比例。在UCM 數(shù)據(jù)集和DeepGlobe 數(shù)據(jù)集上,本文使用DeepLab V3+(Chen 等,2018)作為基礎(chǔ)網(wǎng)絡(luò)進(jìn)行超參數(shù)的敏感性分析實(shí)驗(yàn)。
3.3.1 UCM數(shù)據(jù)集上超參數(shù)敏感性分析
UCM 驗(yàn)證集上α的敏感性分析結(jié)果見表3??梢姡寒?dāng)β=0.5 時(shí),隨著α增加,基礎(chǔ)網(wǎng)絡(luò)在驗(yàn)證集上的分割精度先上升后下降,當(dāng)α=0.5 時(shí)分割精度到達(dá)頂點(diǎn)。在最佳α=0.5 取值條件下,β的敏感性分析結(jié)果見表4??梢娀A(chǔ)網(wǎng)絡(luò)在驗(yàn)證集上的分割精度隨著α變化,當(dāng)β=0.5,得到最佳精度。
表3 在UCM驗(yàn)證集上α的敏感性分析(β=0.5)Table 3 The sensitivity analysis of α on the validation set of the UCM dataset(β=0.5)/%
表4 在UCM驗(yàn)證集上β的敏感性分析(α=0.5)Table 4 The sensitivity analysis of β on the validation set of the UCM dataset(α=0.5)/%
3.3.2 DeepGlobe數(shù)據(jù)集上超參數(shù)敏感性分析
表5 為DeepGlobe 驗(yàn)證集上α的敏感性分析結(jié)果??梢姡寒?dāng)β=0.5 時(shí),基礎(chǔ)網(wǎng)絡(luò)在驗(yàn)證集上的分割精度隨著α變化,當(dāng)α=0.5,得到最佳精度。在最佳α=0.5取值條件下,β的敏感性結(jié)果見表6,可見隨著β增加,基礎(chǔ)網(wǎng)絡(luò)在驗(yàn)證集上的分割精度先上升后下降,當(dāng)β=0.5時(shí)分割精度到達(dá)最佳。
表5 在DeepGlobe驗(yàn)證集上α的敏感性分析(β=0.5)Table 5 The sensitivity analysis of α on the validation set of the DeepGlobe dataset(β=0.5)/%
表6 在DeepGlobe驗(yàn)證集上β的敏感性分析(α=0.5)Table 6 Sensitivity analysis of β on the validation set of the DeepGlobe dataset(α=0.5)/%
在UCM數(shù)據(jù)集和DeepGlobe數(shù)據(jù)集上,本文使用U-Net(Ronneberger 等,2015)和DeepLab V3+(Chen等,2018)作為基礎(chǔ)網(wǎng)絡(luò)進(jìn)行消融實(shí)驗(yàn)。
3.4.1 UCM數(shù)據(jù)集上的結(jié)果
本文方法在UCM 測試集上的語義分割精度如表7所示。可見:相比于基于像素級(jí)稠密約束的常規(guī)損失(?P)訓(xùn)練的語義分割網(wǎng)絡(luò),加入實(shí)體級(jí)連通約束(?P+?R)訓(xùn)練的網(wǎng)絡(luò)的分割精度OA、MIoU 和FWIoU 均更高,尤其是在MIoU 上提升明顯,提升幅度達(dá)9%,這說明實(shí)體級(jí)學(xué)習(xí)能夠有效提高深度語義分割網(wǎng)絡(luò)的性能;綜合實(shí)體級(jí)連通約束與實(shí)體間共生約束(?P+?R+?K)的深度語義分割網(wǎng)絡(luò)的精度優(yōu)于只加入實(shí)體級(jí)連通約束(?P+?R)的網(wǎng)絡(luò),這體現(xiàn)了空間共生知識(shí)對(duì)于遙感影像語義分割的重要性。
表7 在UCM測試集上的語義分割精度Table 7 The accuracy of semantic segmentation on the test set of the UCM dataset/%
深度語義分割網(wǎng)絡(luò)在UCM 測試集上的分割結(jié)果如圖3 所示??梢姡簩?shí)體級(jí)連通約束(?P+?R)分割結(jié)果和綜合實(shí)體級(jí)連通約束與實(shí)體間共生約束(?P+?R+?K)的分割結(jié)果均明顯優(yōu)于常規(guī)的像素級(jí)稠密約束(?P)的分割結(jié)果;對(duì)于飛機(jī)、車輛等小目標(biāo)場景,施加實(shí)體級(jí)連通約束能獲取輪廓更加清晰的分割結(jié)果,對(duì)于建筑物和油罐等規(guī)則地物,施加實(shí)體級(jí)連通約束的分割結(jié)果整體性更佳,噪聲較少同時(shí)輪廓更加清晰,這表明約束項(xiàng)使得網(wǎng)絡(luò)學(xué)習(xí)到了實(shí)體級(jí)的特征表示。另外,綜合實(shí)體級(jí)連通約束與實(shí)體間共生約束(?P+?R+?K)的分割結(jié)果中地物實(shí)體空間分布更加接近真實(shí)世界中的空間布局,如建筑物鄰近道路與植被。
圖3 UCM測試集上的可視化分割結(jié)果圖Fig.3 The visible semantic segmentation of the test set of the UCM dataset
3.4.2 DeepGlobe數(shù)據(jù)集上的結(jié)果
本文方法在DeepGlobe 測試集上的語義分割精度如表8所示??梢娤啾扔诨谙袼丶?jí)稠密約束的常規(guī)損失(?P)訓(xùn)練的語義分割網(wǎng)絡(luò),加入實(shí)體級(jí)連通約束(?P+?R)訓(xùn)練的網(wǎng)絡(luò)的分割精度OA、MIoU 和FWIoU 均更高,這說明了實(shí)體級(jí)學(xué)習(xí)能夠有效提高深度語義分割網(wǎng)絡(luò)的性能;綜合實(shí)體級(jí)連通約束與實(shí)體間共生約束(?P+?R+?K)的深度語義分割網(wǎng)絡(luò)精度優(yōu)于常規(guī)的像素級(jí)稠密約束(?P)的網(wǎng)絡(luò)。
表8 在DeepGlobe測試集上的語義分割精度Table 8 The accuracy of semantic segmentation on the test set of the DeepGlobe dataset/%
圖4 為深度語義分割網(wǎng)絡(luò)在DeepGlobe 測試集上的分割結(jié)果??梢姡簩?shí)體級(jí)連通約束(?P+?R)分割結(jié)果和綜合實(shí)體級(jí)連通約束與實(shí)體間共生約束(?P+?R+?K)的分割結(jié)果均明顯優(yōu)于基于像素級(jí)稠密約束的常規(guī)損失(?P)的分割結(jié)果;第一行和第二行的水體和牧場區(qū)域施加實(shí)體級(jí)連通約束與實(shí)體間共生約束(?P+?R+?K)的分割結(jié)果整體性更佳;第三行和第四行的水體和農(nóng)業(yè)用地的分割結(jié)果施加約束后輪廓清晰,噪聲更少,這表明約束項(xiàng)使得網(wǎng)絡(luò)學(xué)習(xí)到了目標(biāo)級(jí)的特征表示。綜合以上結(jié)果可以看出綜合實(shí)體級(jí)連通約束與實(shí)體間共生約束的分割結(jié)果中地物目標(biāo)空間分布更加簡單,一些錯(cuò)分目標(biāo)類別被修正為鄰域目標(biāo)類別,從而優(yōu)化了地物目標(biāo)的空間布局。
圖4 DeepGlobe測試集上的可視化分割結(jié)果圖Fig.4 The visible semantic segmentation of the test set of the DeepGlobe dataset
為進(jìn)一步驗(yàn)證本文方法的有效性,本文選擇了經(jīng)典的U-Net 網(wǎng)絡(luò)(Ronneberger 等,2015)、先進(jìn)的DeepLab V3+網(wǎng)絡(luò)(Chen 等,2018)、深度語義分割網(wǎng)絡(luò)和圖卷積網(wǎng)絡(luò)相結(jié)合的DSSN-GCN 方法(Ouyang 和Li,2021)作為對(duì)比方法,其中DSSN-GCN 方法以DeepLab V3+作為基礎(chǔ)網(wǎng)絡(luò)。本文方法以DeepLab V3+作為基礎(chǔ)網(wǎng)絡(luò),超參數(shù)α和β取各數(shù)據(jù)集下的最佳值。各方法在UCM 測試集和DeepGlobe 測試集上的分割精度見表9 和表10 所示??梢姳疚奶岢龅牡貙W(xué)知識(shí)圖譜引導(dǎo)的遙感影像深度語義分割方法綜合了實(shí)體級(jí)連通約束與實(shí)體間共生約束(?P+?R+?K),均取得最佳的分割精度,這充分驗(yàn)證了本文方法對(duì)于遙感影像語義分割的有效性,同時(shí)說明了在深度語義分割網(wǎng)絡(luò)中嵌入地學(xué)先驗(yàn)知識(shí)的重要性。相比于地學(xué)先驗(yàn)知識(shí)預(yù)嵌入的DSSN-GCN 方法,本文方法能夠自主運(yùn)用和學(xué)習(xí)地學(xué)先驗(yàn)知識(shí),從而獲得精度高和魯棒性強(qiáng)的分割結(jié)果。各方法在UCM 測試集和DeepGlobe 測試集上的語義分割結(jié)果如圖5 和圖6所示。與表9 和表10 結(jié)果一致,本文方法取得比其余方法更佳的分割效果。各方法對(duì)建筑物的分割結(jié)果表明在實(shí)體級(jí)連通損失的約束下,本文方法的分割結(jié)果更具整體性,輪廓清晰(第一行至第三行)且對(duì)于干擾較大的場景時(shí)噪聲更少(第四行至第六行);實(shí)間空間共生知識(shí)約束修正了分割結(jié)果中地物目標(biāo)的空間分布,使其更接近現(xiàn)實(shí)世界的空間布局,如第一行所示的車輛通常近鄰道路(圖5)。圖6 中各方法分割結(jié)果也表現(xiàn)出類似的結(jié)論,本文方法對(duì)城鎮(zhèn)和水體的分割結(jié)果更具整體性,對(duì)于水體輪廓的分割結(jié)果更加清晰,且對(duì)于復(fù)雜城鎮(zhèn)場景的分割噪聲更少。
表9 各方法在UCM測試數(shù)據(jù)集上的語義分割精度Table 7 The accuracy of semantic segmentation of various methods on the test set of UCM dataset/%
表10 各方法在DeepGlobe數(shù)據(jù)集上的語義分割精度Table 10 The accuracy of semantic segmentation of various methods on the test set of DeepGlobe dataset/%
圖5 各方法在UCM測試集上的語義分割結(jié)果Fig.5 The semantic segmentation results of the test set of the UCM dataset
圖6 各方法在DeepGlobe測試集上的語義分割結(jié)果Fig.6 The semantic segmentation results of the test set of the DeepGlobe dataset
針對(duì)深度語義分割網(wǎng)絡(luò)缺乏目標(biāo)級(jí)學(xué)習(xí)以及難以利用地學(xué)先驗(yàn)知識(shí)和空間語義信息的問題,本文提出了地學(xué)知識(shí)圖譜引導(dǎo)的遙感影像深度語義分割方法。地物目標(biāo)的語義信息以地學(xué)知識(shí)圖譜的形式進(jìn)行表達(dá),地學(xué)先驗(yàn)知識(shí)從地學(xué)知識(shí)圖譜中抽取,地學(xué)先驗(yàn)知識(shí)和目標(biāo)空間語義信息用于構(gòu)建實(shí)體級(jí)連通約束損失和實(shí)體間共生約束損失。實(shí)體級(jí)連通約束損失引導(dǎo)深度語義分割網(wǎng)絡(luò)自主學(xué)習(xí)目標(biāo)級(jí)特征,實(shí)現(xiàn)了對(duì)實(shí)體的整體約束,使得分割結(jié)果更具整性并減少了邊界模糊和隨機(jī)噪聲;實(shí)體間共生約束損失成功地將非結(jié)構(gòu)化的地學(xué)先驗(yàn)知識(shí)嵌入到數(shù)據(jù)驅(qū)動(dòng)的深度語義分割網(wǎng)絡(luò)中,完成了對(duì)分割目標(biāo)的空間分布的自動(dòng)優(yōu)化。本文方法有效地提高了深度語義分割網(wǎng)絡(luò)的性能和魯棒性,但同時(shí)也存在所采用的地學(xué)先驗(yàn)知識(shí)單一的問題。后續(xù)研究工作將引入更全面的地學(xué)先驗(yàn)知識(shí),包括地物目標(biāo)空間拓?fù)湫畔?、形狀結(jié)構(gòu)信息等知識(shí)。
志 謝本研究的數(shù)值計(jì)算部分得到了武漢大學(xué)超級(jí)計(jì)算中心的幫助。