劉姝妍,何 柳,陶 劍,卓雨東,王浩東
(中國航空綜合技術(shù)研究所,北京 100028)
無人駕駛飛機簡稱“無人機”(Unmanned Aerial Vehicle,UAV),是利用無線電遙控設(shè)備和自備的程序控制裝置操縱的不載人飛行器。與載人飛行器相比,它的造價通常較低,同時具有環(huán)境適應(yīng)性強等優(yōu)勢。搭載光電視覺系統(tǒng)的無人機可按需求靈活地獲取、存儲及傳遞信息[1]。為了從整體上提升無人機的態(tài)勢感知和信息處理速度,需要通過人工智能技術(shù)提升其對獲取的遙感圖像的自動處理能力。
人工智能技術(shù)作為計算機科學(xué)的一個分支,近些年在計算機視覺、自然語言處理、語音識別、機器人學(xué)以及知識工程等領(lǐng)域均取得了重大突破,這在很多方面得益于深度學(xué)習(xí)技術(shù)的發(fā)展。相比于傳統(tǒng)的方法,深度學(xué)習(xí)方法對計算機視覺中的圖像分類、目標(biāo)識別和語義分割具有更好的效果,從而為無人機實現(xiàn)任務(wù)自主智能提供了基礎(chǔ)。無人機或地面系統(tǒng)的任務(wù)自主智能主要體現(xiàn)在如何高效、快速、精確地獲取遙感圖像中的關(guān)鍵信息。圖像分割技術(shù)為遙感圖像內(nèi)容識別和分析提供了有效途徑。遙感圖像分割技術(shù)旨在根據(jù)實際語義信息給遙感圖像進(jìn)行像素級分類,將其劃分為一系列具有道路、橋梁、機場跑道、工業(yè)區(qū)等地物類別標(biāo)簽的區(qū)域[2]。無人機采集到的高分辨率遙感圖像與自然圖像相比,具有場景復(fù)雜、光譜異質(zhì)性高、圖像遮擋嚴(yán)重、偽影復(fù)雜等特點,對分割算法的性能要求更高。
面對遙感圖像分割的需求,眾多研究者從不同的技術(shù)路線進(jìn)行了探索。傳統(tǒng)的遙感圖像語義分割方法通常是基于像素、區(qū)域或邊緣檢測的。這些方法存在各種問題,如基于區(qū)域的方法分割邊緣不清晰、基于邊緣檢測的方法難以形成閉合區(qū)域等。元啟發(fā)式方法將基于數(shù)學(xué)理論的方法和基于元啟發(fā)式算法的方法進(jìn)行融合[3],形成了可以獲取圖像上下文特征的模型,取得了不錯的效果。但這些模型復(fù)雜度高、訓(xùn)練耗時且依賴大量的標(biāo)注數(shù)據(jù),使得基于此類模型的研究和工程應(yīng)用成本過高,無法得到持續(xù)的發(fā)展。隨著深度學(xué)習(xí)在計算機視覺領(lǐng)域的跨越式發(fā)展,基于深度學(xué)習(xí)的圖像分割方法取得了很好的應(yīng)用效果,通過增加模型的深度可以快速且自動地從非常大的數(shù)據(jù)集中提取圖像特征,并通過迭代使用復(fù)雜模型來提高回歸算法的精度。深度學(xué)習(xí)在遙感圖像的應(yīng)用研究中也取得了突破性的效果,如植物識別[4]、道路提取[5]以及建筑物識別[6]等。
全卷積網(wǎng)絡(luò)(FCN)[7]是第一個有效的卷積神經(jīng)網(wǎng)絡(luò)(CNN)結(jié)構(gòu),其以端到端的方式解決語義分割問題?;贑NN的方法在遙感領(lǐng)域的分割任務(wù)中取得了顯著的效果[8-10],但在城市場景分割中遇到挑戰(zhàn)[11]。具體來說,具有有限感受野的分割網(wǎng)絡(luò)只能提取局部語義特征,缺乏建模全局信息的能力。然而,在高分辨率的遙感城市場景圖像中,復(fù)雜的模式和人造物體頻繁出現(xiàn),僅依靠局部信息很難識別這些復(fù)雜物體。為了解決該問題,更多的研究者利用自注意力Transformer模型[12]對圖像全局信息的提取能力來對圖像進(jìn)行建模,并在基本視覺任務(wù)上獲得了先進(jìn)結(jié)果。在此驅(qū)動下,遙感領(lǐng)域的許多研究人員將Transformer應(yīng)用于遙感圖像場景分類[13]、目標(biāo)檢測[14]等場景,特別是語義分割[15]。
基于Transformer的圖像編碼器由于高度復(fù)雜的自注意力機制,其參數(shù)量和計算量遠(yuǎn)高于基于CNN的編碼器,嚴(yán)重影響了其在城市相關(guān)實時應(yīng)用中的潛力和可行性。如何在面向城市的遙感圖像分割場景中充分利用Transformer的全局上下文提取能力,同時避免高計算復(fù)雜度是亟待解決的問題。本文以高效率、高精度的語義分割方案為目標(biāo),基于上述主流的注意力機制改進(jìn)了經(jīng)典的語義分割框架,并在多個面向城市場景的公開遙感圖像分割數(shù)據(jù)集上驗證了算法的有效性。本文的主要貢獻(xiàn)可以歸結(jié)為以下三點:
(1)提出了一套面向遙感領(lǐng)域的低參數(shù)、高精度的語義分割框架,旨在提供自動且高效的分割解決方案,支持高分辨率的遙感圖像輸入。
(2)改進(jìn)了經(jīng)典編碼-解碼的分割模式,將多種注意力機制引入到分割方案的設(shè)計中,包括用于判斷關(guān)鍵目標(biāo)“是什么”的通道注意力、定位關(guān)鍵目標(biāo)“在哪里”的空間注意力以及能夠聚合遠(yuǎn)距離遙感上下文信息的主流自注意力機制。
(3)構(gòu)建了多尺度的特征提取模塊并與注意力機制整合形成雙流的特征提取分支以提升對于小目標(biāo)和密集目標(biāo)的分割能力。相比之前的方法,本文方法可以得到更加精細(xì)和準(zhǔn)確的分割結(jié)果,分割效果更優(yōu)。
在自然圖像語義分割領(lǐng)域,UNet模型[16]以其結(jié)構(gòu)清晰、參數(shù)量低、效果良好成為眾多任務(wù)的首選,其主要包含編碼模塊、解碼模塊以及跳躍連接三部分。編碼模塊用于逐層解析輸入圖像的語義信息;解碼模塊用于恢復(fù)編碼模塊下采樣圖像后的空間損失從而完成分割預(yù)測;跳躍連接則用于圖像淺層紋理和深層抽象語義特征的整合。如圖1所示,UNet模型整體呈現(xiàn)出了一種U型的全卷積結(jié)構(gòu)。具體來說,模型左側(cè)為編碼模塊,存在四組編碼子模塊,每組包含三個卷積層以及一個最大池化的下采樣層,每次池化操作后,輸入特征圖的通道數(shù)翻倍,二者組合用于對輸入圖像進(jìn)行特征提取,并且降低圖像的原始空間分辨率。模型右側(cè)為解碼模塊,同樣由四組卷積以及池化層的堆疊構(gòu)成,在送入解碼子模塊前,通過去卷積操作將輸入特征圖的尺寸翻倍、通道數(shù)減半,再和左側(cè)編碼模塊的對應(yīng)輸出進(jìn)行拼接,通過跳躍連接構(gòu)成淺層特征和深層特征的交互。
針對遙感場景,本文仍然基于主流的U型編碼-解碼的結(jié)構(gòu)構(gòu)建,并借鑒Transformer模型在上述結(jié)構(gòu)中的優(yōu)勢[15],對編碼模塊和解碼模塊進(jìn)行了進(jìn)一步的針對性改進(jìn),設(shè)計了基于空間和通道注意力的編碼模塊、基于自注意力并聚合多尺度特征金字塔的解碼模塊,優(yōu)化后的語義編碼特征與解碼特征合并完成跳躍連接過程。本文模型的整體架構(gòu)如圖2所示。
在語義分割模型中,編碼模塊對于輸入圖像的解譯至關(guān)重要,影響模型后續(xù)的解碼和跳躍連接處的傳遞效果。為此,本文基于經(jīng)典的殘差卷積神經(jīng)網(wǎng)絡(luò)(ResNet)模型[17]構(gòu)建編碼模塊。ResNet模型能夠解決隨著網(wǎng)絡(luò)層數(shù)的加深引起梯度消失從而導(dǎo)致模型表征能力退化的問題,其內(nèi)部包含四組殘差模塊集合的堆疊,能夠逐層地將模型輸入的淺層特征與輸出的深層特征進(jìn)行多次拼接、融合,實現(xiàn)對模型編碼模塊表征能力的增強。同時,針對于本文的遙感場景,考慮到高分辨率的遙感影像往往具有自然場景復(fù)雜、目標(biāo)信息多樣且分布密集的特點,本文在多組殘差模塊的尾部連接一個通道與空間注意力的融合模塊。引入注意力機制能夠?qū)⒛P偷年P(guān)注重點聚集在遙感圖像的重要區(qū)域,避免無關(guān)區(qū)域?qū)τ谀P托阅艿挠绊憽?/p>
具體來說,輸入特征圖在傳遞至注意力融合模塊后,首先經(jīng)過通道注意力篩選出重要特征的權(quán)重序列,再經(jīng)過空間注意力計算重點關(guān)注區(qū)域的權(quán)重分布,之后得到的兩種權(quán)重信息同輸入特征圖相乘從而以自適應(yīng)的方式完成對輸入特征的語義信息修正。式(1)和式(2)分別展示了通道注意力以及空間注意力的運行機制。其中通道注意力主要關(guān)注輸入特征中有哪些是重要的特征。對于輸入特征圖,首先分別經(jīng)過平均值池化Pavg和最大值池化Pmax,Pavg可以學(xué)習(xí)到目標(biāo)的分布性特征,Pmax可以幫助獲取目標(biāo)的判別性特征,二者有利于更好地解析圖像語義信息;之后生成的兩種特征圖均被送入到一個多層感知機層Mmlp,其內(nèi)部存在能夠?qū)崿F(xiàn)特征降維與升維的卷積層用于指導(dǎo)生成輸出的權(quán)重序列,sig表示sigmoid函數(shù),能夠?qū)⑤斎朕D(zhuǎn)化到0~1的區(qū)間內(nèi)。
Mca(F)=sig(Mmlp(Pavg(F))+Mmlp(Pmax(F)))
(1)
Msa(F)=sig(C7×7([Pavg(F)+Pmax(F)]))
(2)
空間注意力則重點關(guān)注重要特征在輸入特征圖上的位置。輸入特征圖首先在通道維度經(jīng)過Pavg和Pmax,之后將二者生成的特征圖同樣在通道維度進(jìn)行拼接,“+”表示拼接操作,最后引入尺寸為7×7的卷積層C7×7處理拼接后的輸出并經(jīng)過sigmoid函數(shù)獲取空間注意力生成的特征權(quán)重分布。
解碼模塊用于對語義特征的解碼,能夠恢復(fù)在編碼模塊逐層降低的圖像分辨率,最后一層解碼層的輸出與編碼模塊的輸入圖像尺寸一致,從而完成最終的分割預(yù)測。在解碼模塊的構(gòu)造上,本文引入了基于自注意力的Transformer機制,與通道和空間注意力機制類似,自注意力模塊同樣可以將模型聚焦于重點關(guān)注的區(qū)域,但是內(nèi)部實現(xiàn)更加復(fù)雜,其能夠自適應(yīng)地整合全局上下文信息從而捕獲遠(yuǎn)距離的語義依賴關(guān)系,可以在不增加計算成本的情況下顯著增大感受野。Transformer模型最早被用于自然語言處理領(lǐng)域,現(xiàn)如今已滲透到了計算機視覺等各個領(lǐng)域的研究之中,本文在遙感場景下同樣采用Transformer模型構(gòu)建解碼模塊以解析全局的語義信息。同時,考慮到遙感影像中目標(biāo)信息與背景信息的差異通常較小,并面臨著目標(biāo)尺度變化大、形狀變化大的問題,與Transformer模型并連引入了多尺度金字塔[18]的特征局部抽取分支構(gòu)成特征細(xì)化模塊,上下文信息與多尺度的融合有利于提升模型處理不同尺度、形狀目標(biāo)的能力,避免模型忽略掉小尺寸目標(biāo)以及密集目標(biāo)的重要語義信息。雙分支結(jié)構(gòu)如圖3所示,包含全局和局部特征提取兩部分。
圖3 特征細(xì)化模塊結(jié)構(gòu)
(3)
特征金字塔結(jié)構(gòu)包含四種類型的尺度處理,通過應(yīng)用自適應(yīng)池化將輸入特征圖處理為原始尺寸的1倍、0.75倍、0.5倍以及0.25倍的特定大小,從而實現(xiàn)不同尺度情況下的遙感圖像語義特征提取,之后將所有尺度輸出的特征圖均上采樣到輸入尺寸后再與原始特征做拼接形成更豐富的特征表示以實現(xiàn)對于輸入特征圖的局部細(xì)節(jié)特征精細(xì)化。
在模塊的設(shè)計過程中,為了進(jìn)一步增大感受野,使模型可見更充分的上下文信息,在編碼模塊和解碼模塊的跳躍連接過程中,將部分卷積由傳統(tǒng)卷積設(shè)計為空洞卷積,其可以保留特征的連續(xù)性,也有助于同時處理不同大小目標(biāo)的關(guān)系??斩淳矸e主要通過擴張率進(jìn)行設(shè)置,卷積核大小為3×3,且擴張率設(shè)置為1時,空洞卷積的感受野與傳統(tǒng)卷積一致。當(dāng)擴張率設(shè)置為3時,表示在卷積操作的每個相鄰特征點之間添加兩個空洞,由此可以將感受野從原來的3×3擴大至7×7??斩淳矸e在圖像分割領(lǐng)域已經(jīng)被證明可以取得良好的效果。
首先,對高分辨率的遙感圖像進(jìn)行預(yù)處理,通過隨機裁剪、隨機旋轉(zhuǎn)等數(shù)據(jù)增強方式擴充數(shù)據(jù)集,增加數(shù)據(jù)分布的多樣性。然后,將處理后的圖像數(shù)據(jù)送入到本文提出的網(wǎng)絡(luò)模型中,輸入圖像先經(jīng)過編碼模塊抽取特征進(jìn)行解譯,將注意力聚焦在語義信息中的重點關(guān)注區(qū)域,之后通過解碼模塊恢復(fù)原始輸入圖像的空間分辨率信息,并對輸入特征進(jìn)行全局和局部特征的精細(xì)化增強,最后得到預(yù)測的語義分割結(jié)果。在模型訓(xùn)練的過程中,通過交叉熵?fù)p失和Dice損失聯(lián)合優(yōu)化編碼模塊和解碼模塊的性能,如式(4)和式(5)所示。
(4)
(5)
交叉熵?fù)p失是語義分割領(lǐng)域最常用的損失函數(shù),將每個像素看成獨立的樣本,用于指導(dǎo)像素級分類的預(yù)測準(zhǔn)確率,圖像的整體分割損失則為每個像素的交叉熵?fù)p失的平均值。Dice損失基于Dice系數(shù)構(gòu)建,也是主流的分割損失函數(shù)。Dice系數(shù)主要是評估預(yù)測區(qū)域與實際區(qū)域的重疊程度,|X|可以看作是預(yù)測區(qū)域的面積,|Y|則為真實區(qū)域的面積,|X∩Y|即為二者的重疊區(qū)域,其取值范圍為0~1,當(dāng)預(yù)測區(qū)域與真實區(qū)域完全重疊時,其值為1。
2.1.1 數(shù)據(jù)集介紹
本文的實驗數(shù)據(jù)基于Potsdam和Vaihingen高分辨率遙感影像數(shù)據(jù)集,二者均在ISPRS語義競賽中公開,并被手動劃分為6類常見的土地覆蓋類別。
在數(shù)據(jù)集的形式上,Potsdam數(shù)據(jù)集共包含38張高精細(xì)的、尺寸為6 000×6 000的高分辨率圖像,特征影像數(shù)據(jù)分辨率為8 m。數(shù)據(jù)集內(nèi)部提供了多種波段,包括多光譜波段(紅、綠、藍(lán)和近紅外波段)以及數(shù)字表面模型(DSM)和歸一化數(shù)字表面模型(NDSM)波段。本文模型基于紅、綠、藍(lán)三個波段的圖像。在數(shù)據(jù)的選擇上,23張圖像為完全標(biāo)注,被用于指導(dǎo)模型的訓(xùn)練,14張圖像用于驗證模型的效果(圖像ID為:2_13,2_14,3_13,3_14,4_13,4_14,4_15,5_13,5_14,5_15,6_13,6_14,6_15,7_13),ID為7_10的圖像由于帶有錯誤的圖像標(biāo)注被丟棄。數(shù)據(jù)集涉及6種類型,包括5個前景類(不透水的表面、建筑物、低植被、樹、汽車)和1個背景類(雜波)。
Vaihingen數(shù)據(jù)集共包含33張尺寸不一的高精細(xì)格式為8位TIFF的遙感圖像,平均尺寸為2 494×2 064。數(shù)據(jù)集內(nèi)部與Potsdam數(shù)據(jù)集類似,同樣提供了多種波段,包括多光譜波段以及DSM、NDSM波段的圖像,類別劃分與Potsdam數(shù)據(jù)集一致。對于數(shù)據(jù)集的劃分,17張圖像用于驗證模型的效果(ID為2、4、6、8、10、12、14、16、20、22、24、27、29、31、33、35、38),其余圖像用于完成模型的訓(xùn)練過程。
2.1.2 評價指標(biāo)選擇
在模型驗證階段,期望模型可以在復(fù)雜度較低的情況下取得較好的性能,為此,本文采用兩類指標(biāo)分別評估模型效果和模型復(fù)雜度。對于模型效果,采用平均準(zhǔn)確率(mA)、F1值(F1)和平均交并比(mIoU)。mA針對像素級準(zhǔn)確率,計算模型在各個類上的準(zhǔn)確率值并取平均得到。F1值可以有效地平衡像素級的精確率P和召回率R,如式(6)所示,常被用于存在分類計算的場景中。
(6)
mIoU則用于評估各個類的預(yù)測區(qū)域與真實區(qū)域的重疊程度,如式(7)所示。
(7)
模型參數(shù)數(shù)量(M)被用于評估模型參數(shù)的復(fù)雜度。
2.2.1 實驗環(huán)境
本文所有實驗均基于相同的硬件環(huán)境:Ubuntu18.04,Intel(R)Xeon(R)Gold 5218 CPU @ 2.30 GHz;128 GB內(nèi)存;單張Tesla V100 GPU顯卡,內(nèi)存為32 GB。軟件環(huán)境基于Python3.9編程語言,PyTorch2.0.1深度學(xué)習(xí)框架。
2.2.2 實驗設(shè)置
對于Potsdam和Vaihingen數(shù)據(jù)集,由于原始圖像分辨率較大,網(wǎng)絡(luò)模型不能直接處理,因此本文首先將原始圖像統(tǒng)一隨機裁剪為512×512大小的子圖。同時,應(yīng)用了一系列的數(shù)據(jù)增強方式,包含隨機旋轉(zhuǎn)、翻轉(zhuǎn)、縮放以及歸一化等處理以提升模型處理各種遙感目標(biāo)對象的能力。在模型訓(xùn)練期間,為了實現(xiàn)快速收斂,本文應(yīng)用了AdamW優(yōu)化器,其相比于Adam優(yōu)化器引入了L2正則的約束以限制參數(shù)值不會過大,學(xué)習(xí)率設(shè)置為5×10-4,權(quán)重衰減值為0.01。批處理大小設(shè)置為32,訓(xùn)練持續(xù)100輪,保存在驗證集上效果最好的模型。
本文將提出的語義分割方法與UNet、BiSeNet[19]和EaNet[20](基于卷積神經(jīng)網(wǎng)絡(luò)的遙感語義分割模型)、SwiftNet[21](基于卷積神經(jīng)網(wǎng)絡(luò)的輕量化遙感語義分割模型)、MaResUNet[22](基于卷積神經(jīng)網(wǎng)絡(luò)的注意力模型)以及Segmenter[23](基于完全自注意力的語義分割模型)等多個經(jīng)典的用于分割領(lǐng)域的網(wǎng)絡(luò)模型進(jìn)行了實驗結(jié)果的對比分析。Potsdam和Vaihingen數(shù)據(jù)集上的實驗結(jié)果分別如表1和表2所示,結(jié)果表明,本文模型在兩個數(shù)據(jù)集上均可以展現(xiàn)出先進(jìn)的精度,同時能夠保持較少的模型參數(shù)量,證明了本文方案的有效性和可行性。
表1 Potsdam數(shù)據(jù)集對比實驗分析
表2 Vaihingen數(shù)據(jù)集對比實驗分析
接下來查看模型在各個類上取得的具體F1指標(biāo)值以進(jìn)一步驗證模型的效果,在Potsdam數(shù)據(jù)集上各類別F1值如表3所示??梢钥闯?,本文方法在各個類上都取得了較好的表現(xiàn),表明本文模型針對各個類別都可以提取出更有效的語義特征表示。
表3 Potsdam數(shù)據(jù)集各類的F1值分析(%)
除此之外,本文還進(jìn)行了定性分析實驗,結(jié)果如圖4所示,從左到右分別為輸入的原始圖像、圖像對應(yīng)的實際分割標(biāo)注以及本文模型的預(yù)測結(jié)果。通過結(jié)果可以看出,本文模型在對目標(biāo)進(jìn)行語義分割時,對于預(yù)定義的各個類別均可以輸出較完整的分割預(yù)測區(qū)域,且預(yù)測的目標(biāo)區(qū)域和真實標(biāo)注區(qū)域較相似,也即具有較高的重疊率。然而,模型的預(yù)測結(jié)果在目標(biāo)區(qū)域的邊界處理上不夠清晰,對于占比較小的目標(biāo)對象仍然存在部分遺漏的情況,這是由于小目標(biāo)對象在特征傳遞過程中存在特征丟失的情況,體現(xiàn)出了遙感語義分割任務(wù)的挑戰(zhàn)性,也將作為本文未來的重點改進(jìn)工作。
為了驗證本文提出模型各個模塊的有效性,將各個模塊分解完成消融實驗,共涉及四個主要部分:
(1)ResNet模型作為編碼模塊,Transformer模型作為解碼模塊(消融1):本實驗為改進(jìn)的基準(zhǔn)實驗,編碼模塊和解碼模塊均采用主流模型。
(2)ResNet模型作為編碼模塊,Transformer模型作為解碼模塊的同時引入卷積神經(jīng)網(wǎng)絡(luò)分支形成全局特征提取和局部特征細(xì)化兩個分支(消融2):局部分支通過簡單的卷積層堆疊形成。
(3)在實驗2的基礎(chǔ)上,在編碼模塊的輸出尾部連接通道和空間的注意力機制(消融3)。
(4)在實驗3的基礎(chǔ)上,將局部特征細(xì)化分支替換為特征金字塔模塊,實現(xiàn)更加精細(xì)的特征提取(消融4)。
結(jié)果如表4所示,可以看出基礎(chǔ)模型在同樣的參數(shù)設(shè)置下也取得了較好的結(jié)果。消融實驗2證明了本文引入與自注意力模塊并聯(lián)的局部細(xì)化模塊的正確性,通過自注意力與卷積神經(jīng)網(wǎng)絡(luò)共同完成特征抽取的方式可以增強特征的表征能力。消融實驗3與實驗4結(jié)合證明了本文最終設(shè)計的各個模塊的有效性,通道和空間的注意力機制結(jié)合能夠突出輸入圖像中蘊含的重要語義信息,特征空間金字塔結(jié)構(gòu)通過輸出多尺度的特征表示能夠增強模型處理多尺度目標(biāo)的能力,使得特征提取過程變得更加細(xì)致。
表4 Potstdam數(shù)據(jù)集上的消融實驗結(jié)果
為了自動、精確且快速地完成遙感影像內(nèi)容分析,本文構(gòu)建了基于深度學(xué)習(xí)的高效遙感圖像分割方法。在主流U型結(jié)構(gòu)的編碼-解碼模式的基礎(chǔ)上提出了一套用于遙感圖像分割的整體模型框架,在編碼模塊內(nèi)部引入了能夠判斷關(guān)鍵目標(biāo)屬性和定位關(guān)鍵目標(biāo)位置的通道和空間注意力機制,在解碼模塊設(shè)計了基于自注意力完成遠(yuǎn)距離上下文解析的全局特征表征和用于多尺度目標(biāo)特征細(xì)化的局部特征表征。編碼與解碼模塊的針對性改進(jìn)能夠促進(jìn)對于遙感影像的全面解譯,增強對于復(fù)雜目標(biāo)和多變目標(biāo)的處理能力。在公開數(shù)據(jù)集上與典型模型對比的分割實驗結(jié)果證明了本文模型在參數(shù)量不大的情況下仍然可以取得最佳的分割效果,可以達(dá)到模型輕量化程度和分割精度的平衡。同時通過對每個改進(jìn)模塊的消融實驗驗證了本文方案的有效性和可行性。