蔡江海, 黃成泉, 楊貴燕, 羅森艷, 王順霞, 周麗華
(1 貴州民族大學 數(shù)據(jù)科學與信息工程學院, 貴陽 550025; 2 貴州民族大學 工程技術人才實踐訓練中心, 貴陽 550025)
隨著計算機視覺技術的飛速發(fā)展,圖像語義分割已成為該領域研究的熱點之一。 基于深度學習的語義分割方法相較于傳統(tǒng)圖像處理方法,性能得到了極大的提升,被廣泛應用于自動駕駛、醫(yī)學圖像處理、人臉識別等領域。 Long 等[1]提出的全卷積網(wǎng)絡(FCN)是一種端到端的語義分割網(wǎng)絡,可以有效應用于圖像語義分割研究。 然而,連續(xù)的池化和下采樣操作容易引起淺層語義信息丟失,進而導致小目標信息丟失和邊界分割模糊。 Ronneberger 等[2]提出了Unet 語義分割模型,該模型引入編碼器-解碼器結(jié)構(gòu),利用上采樣和下采樣過程進行跳躍連接,實現(xiàn)了更高精確的分割。 Fu 等[3]提出了引入空間注意力和通道注意力的分割網(wǎng)絡DANet,有效提升了模型的性能。 后續(xù),相關研究者又陸續(xù)提出了更好的兼顧精度和速度的圖像語義分割模型,如HMANet[4]、STLNet[5]等。 Chen 等[6]在DeepLabv1基礎上提出了DeepLabv2,并引入ASPP (Atrous Spatial Pyramid Pooling)模塊實現(xiàn)多尺度的特征提取。 之后又相繼提出了基于 ASPP 模塊的DeepLabv3 和采用編碼器-解碼器結(jié)構(gòu)的DeepLabv3+,實現(xiàn)了更好的圖像語義分割。
到目前為止,DeepLab 系列都是在降采樣8 倍尺度上進行預測的,邊界分割效果不甚理想。DeepLabv3 網(wǎng)絡并沒有包含過多的淺層特征,不僅在語義信息和位置信息的平衡上存在連續(xù)池化和下采樣導致的小目標信息丟失的問題,并且由于該網(wǎng)絡是通過多層卷積疊加而成的,存在訓練時效長、目標邊界分割粗糙等問題。 為此,Zhu 等[7]通過注意力式可分離卷積的編碼器-解碼器結(jié)構(gòu),在多尺度特征上有效均衡了訓練效率和分割精度。 Wang等[8]利用基于注意力機制的優(yōu)勢,較好地克服了因下采樣導致的淺層細節(jié)信息丟失的問題,但模型參數(shù)量大,訓練時效長,實用性較低。
針對以上問題,本文提出了融合多模塊的DCF-DeepLab(Double Cross-attention Fusion DeepLab)語義分割網(wǎng)絡。 首先,設計了基于雙注意力交叉融合的特 征 融 合 DAFM (Double Attention Fusion Moudle)模塊,以融合淺層特征彌補深層特征的不足,并將其應用于主干特征提取網(wǎng)絡的2、4、8 倍下采樣的特征圖上,充分提取小目標特征信息,實現(xiàn)特征圖跨模塊的融合;其次,在主干特征提取部分引入輕量級網(wǎng)絡MobileNetV3-Large,加速整體網(wǎng)絡的訓練速率;最后,通過嵌入DAFM 模塊、注意力模塊和串聯(lián)結(jié)構(gòu)得到MA-ASPP(Multiple Attention ASPP)模塊,實現(xiàn)多尺度信息編碼,增強圖像目標邊緣的細節(jié)特征提取能力。 DCF-DeepLab 語義分割網(wǎng)絡從整體上精細了語義分割結(jié)果,提升了語義分割性能。
DeepLabv3 網(wǎng)絡主要由兩部分組成:
(1)在編碼端使用Resnet101[9]殘差網(wǎng)絡模型作為基本特征提取的主干網(wǎng)絡,得到有效特征圖,再利用ASPP 模塊(由1 個1×1 卷積、1 個全局池化層以及3 個不同空洞率的空洞卷積共同組成)進一步提取特征得到多尺度特征圖;
(2)在解碼端將多尺度特征圖進行拼接和1×1的卷積操作得到特征圖(該特征圖與基本特征提取主干網(wǎng)絡下采樣得到的特征圖的通道數(shù)相同),最后通過上采樣,將所得特征圖還原回與原始圖像大小相同的尺寸,得到語義分割的結(jié)果。 DeepLabv3整體結(jié)構(gòu)如圖1 所示。
圖1 DeepLabv3 整體結(jié)構(gòu)Fig.1 Overall structure of DeepLabv3
為了使DCF-DeepLab 網(wǎng)絡高效地訓練出預期的結(jié)果,提升網(wǎng)絡訓練參數(shù)的速度,解決因訓練時間過長可能導致目標分割結(jié)果不佳的問題。 本文采用具有高效且網(wǎng)絡參數(shù)量、運算量小的MobileNetV3_large 作為本文網(wǎng)絡在編碼端的主干特征提取網(wǎng)絡。MobileNetV3_Large 網(wǎng)絡結(jié)構(gòu)見表1。
表1 MobileNetV3_Large 網(wǎng)絡結(jié)構(gòu)Tab.1 Structure of MobileNetV3_Large network
在MobileNetV3_large 網(wǎng)絡結(jié)構(gòu)中,“Input”表示輸入當前層特征矩陣的尺寸;“Operator”表示輸入特征矩陣在本層中進行的操作,主要由普通二維卷積操作、多個倒殘差模塊(bneck)操作以及池化操作組成,其中“NBN”表示不包含BN 層;“Exp size”表示利用1×1 的卷積核擴展后的通道數(shù);“#out”表示輸出特征矩陣的通道數(shù),其中k表示類別數(shù)量;“SE”表示通道注意力機制;“NL” 表示激活函數(shù),其中“HS”為H-Swish 激活函數(shù)、“RE”為RELU 激活函數(shù);“s” 表示步距。
在計算機視覺領域,通道注意力機制[10]被廣泛應用于各類研究。 SENet(Squeeze-and-Excitation Network)模塊針對不同語義信息的屬性特征,在通道上實現(xiàn)了更好的信息獲取和分割效果。 SENet 模塊結(jié)構(gòu)如圖2 所示。
圖2 SENet 模塊結(jié)構(gòu)Fig.2 Structure of SENet module
在全局平均池化中將全局空間信息轉(zhuǎn)換成通道統(tǒng)計信息,并執(zhí)行壓縮操作得到空間特征壓縮量。假設輸入特征統(tǒng)計量U ={u1,u2,…,uk,…,uα-1,uα},其中特征通道量uk∈RH×W,輸出特征統(tǒng)計量經(jīng)過全局平均池化得到,其中第k個元素值為
為了利用壓縮操作中聚合的信息,完全捕獲依賴通道的信息,執(zhí)行激活操作。 實現(xiàn)上,通過引入全連接層對輸出特征統(tǒng)計量Z進行通道依賴關系編碼,學習通道之間的非線性交互作用,并結(jié)合Sigmoid 函數(shù)進行通道賦權(quán),獲取通道注意力信息[11]。 最后,將得到的權(quán)重系數(shù)應用于輸入特征中,得到通道注意力的輸出其計算關系為
其中,σ(·) 為Sigmoid 激活函數(shù),Pfcl為全連接層參數(shù)。
CBAM(Convolutional Block Attention Module)模塊分別在通道和空間維度上進行注意力操作,以獲得全面的注意力信息,引導模型進行權(quán)重分配和信息指引。 CBAM 模塊結(jié)構(gòu)如圖3 所示。
圖3 CBAM 模塊結(jié)構(gòu)Fig.3 Structure of CBAM module
假設F∈?H×W×C表示輸入的特征圖,Mc∈?1×1×C表示一維的通道注意力,Ms∈?H×W×1表示二維的空間注意力。 經(jīng)過CBAM 模塊依次推導出通道注意力和空間注意力的映射,計算過程如下:
式(3)中,將原始特征圖F與其經(jīng)過通道注意力模塊操作后的結(jié)果進行元素相乘得到F′; 式(4)中,將輸出F′與經(jīng)過空間注意力模塊做特征提取后的結(jié)果進行元素相乘,得到最終的輸出結(jié)果F″。
為了提高通道注意力模塊中網(wǎng)絡的表征能力,首先,對輸入的特征進行最大池化操作(MaxPool)和平均池化操作(AvgPool)聚合特征圖的空間信息;其次,將池化后的特征信息輸入到共享全連接層中以生成通道注意力圖[12],其中共享全連接層由具有隱藏層的多層感知器(MLP)組成,并將輸出的特征進行相加融合;最后,利用Sigmoid 函數(shù)進行激活操作,得到輸入特征層中每一個通道的權(quán)重值。 通道注意力模塊結(jié)構(gòu)如圖4 所示。
圖4 通道注意力模塊結(jié)構(gòu)Fig.4 Structure of channel attention module
假設F∈?H×W×C表示輸入的特征圖,其經(jīng)過通道注意力模塊的計算過程為
式中:σ(·) 表示Sigmoid 激活函數(shù),F(xiàn)MLP表示全連接層,W0∈?C/r×C,W1∈?c×c/r, 其中r為縮減比率,F(xiàn)cmax、Fcavg分別表示最大池化特征和平均池化特征,MLP 權(quán)重W0、W1對于兩個輸入都是共享的。
在空間注意力模塊中,為了計算空間關注度并聚合空間特征信息[13],在通道軸上應用平均池化操作和最大池化操作,并將其連接起來生成有效的特征描述,再利用通道數(shù)為1 的卷積核進行降維,最后利用Sigmoid 函數(shù)進行激活操作,獲得輸入特征層的每一個特征點的權(quán)重值。 空間注意力模塊結(jié)構(gòu)如圖5 所示。
圖5 空間注意力模塊結(jié)構(gòu)Fig.5 Structure of spatial attention module
空間注意力模塊的計算過程為
式中:σ(·) 表示sigmoid 激活函數(shù),f表示濾波器的卷積運算,F(xiàn)smax、Fsavg分別表示最大池化特征和平均池化特征。
SENet 模塊給每個特征通道上的信號都賦予了一定的權(quán)重,對特征通道上的背景信息和前景目標信息有了更明確的選擇,強化了感興趣的特征,增強了特征通道下特定語義的響應能力。 CBAM 模塊在通道和空間維度上對不同位置元素間的關系進行建模,其兼顧通道注意力和空間注意力的優(yōu)勢,獲得更可靠的權(quán)重信息,增強了模型的表征能力。
計算機視覺領域常用的特征融合方式,是在同一張?zhí)卣鲌D上分別進行兩種注意力機制操作,并進行結(jié)果的融合[14],其主要不同之處在于特征融合方式。 考慮到語義分割任務中對圖像分辨率的影響,通常情況下,分辨率低的深層特征圖采取通道注意力操作,其關注點放在相關的特征通道上;分辨率高的淺層特征圖采取空間注意力操作,提取特征圖中關于空間位置的關鍵信息。 因此,本文綜合注意力機制對不同分辨率的深淺層特征圖提取特征的優(yōu)勢,通過嵌入SENet 和CBAM 模塊,得到有效融合淺層空間細節(jié)信息和深層高級語義線索的DAFM 模塊,如圖6 所示。
圖6 DAFM 模塊結(jié)構(gòu)Fig.6 Structure of DAFM module
假設:在DAFM 模塊中,輸入的低分辨率深層特征圖為ULR,尺寸大小為H1× W1;高分辨率淺層特征圖的輸入為UHR,尺寸大小為H ×W。 首先,根據(jù)公式(7),將ULR進行上采樣操作得到U′LR使得尺寸大小與UHR相同,均為H × W。
式中:FUP(·) 表示采用雙線性插值方法的上采樣操作,其次,對UHR進行CBAM 注意力操作,得到。 并根據(jù)公式(2),對U′LR通過SENet 注意力操作得到權(quán)重Ws,其計算公式為
再將權(quán)重Ws與U′CHR相乘,即根據(jù)公式(9),得到:
最后,將與UHR相加,并進行1×1 的卷積核降維操作,得到最終的輸出特征圖,即
式中:c表示1×1 卷積操作。
在DAFM 模塊中,淺層特征圖和深層特征圖為DAFM 模塊的輸入,深層特征圖經(jīng)過上采樣完成,并經(jīng)過SENet 注意力模塊處理后,與經(jīng)過CBAM 注意力模塊處理后的淺層特征圖進行像素級的相乘操作,最后經(jīng)過相加以及1×1 卷積降維操作,得到最終融合后的輸出特征圖。
DeepLabv3 網(wǎng)絡中的ASPP 模塊是由1 個1×1卷積、1 個全局平均池化層和不同空洞率的空洞卷積[15]簡單拼接而成的,存在易失去圖像中被忽略的小尺度目標信息的問題,進而降低特征提取能力,導致分割精度不高。 因此,在空洞率不變的前提下,提取目標多尺度信息并獲得足夠大的感受野變得尤為重要。
針對存在的問題,對ASPP 模塊進行了一系列的改進。 首先,受DenseASPP[16]網(wǎng)絡結(jié)構(gòu)的啟發(fā),將3 個不同空洞率的空洞卷積由簡單的堆疊變?yōu)槊芗B接的形式,即在原有3 個空洞卷積并行的基礎上增加了串聯(lián)結(jié)構(gòu),將空洞率較小的空洞卷積輸出和主干網(wǎng)絡的輸出級聯(lián),再依次送入空洞率較大的空洞卷積中。 由逐級遞增的并行操作,實現(xiàn)更密集化的像素級采樣,增強提取細節(jié)特征的能力;其次,對于另外兩個分支的卷積和全局平均池化操作,通過嵌入CBAM 模塊以獲取更多淺層特征的細節(jié)信息;最后,將融合5 個分支后的特征信息輸送到DAFM 模塊中,加強對重要目標信息和細節(jié)信息的選擇性注意,并結(jié)合1×1 卷積操作,構(gòu)成了具有強大特征提取能力的像素級MA-ASPP 模塊。 MAASPP 模塊結(jié)構(gòu)如圖7 所示。
圖7 MA-ASPP 模塊結(jié)構(gòu)Fig.7 Structure of MA-ASPP module
MA-ASPP 模塊中的3 個空洞卷積分支以密集連接的方式組織,其中任意一層的空洞卷積層輸出可表示為
式中:k表示卷積核的大小,rn表示第n層的空洞率,[…]表示拼接操作,[yn-1,yn-2, …,y0]表示將所有前一層的輸出拼接起來形成的輸出。
密集連接的方式不僅可以獲得更密集的像素級采樣,還可以提供更大的感受野[17],其計算過程如下:
式中:RFn表示第n層感受野大小,kn表示第n層卷積核大小,Sn表示前n層的總步長,Sn表示當前層步長。
由于所采取的空洞卷積步長為1,因此Sn的值恒等于1,有:
在DeepLabv3 網(wǎng)絡的ASPP 模塊中,采取空洞卷積rates ={6,12,18} 并聯(lián)連接方式的最大感受野大小為
通過疊加空洞卷積,采取串聯(lián)并行的連接方式,其所能獲得的最大感受野大小為
因此,可以計算出DA-ASPP 模塊采取rates ={6,12,18} 的空洞卷積所對應的RFmax大小為
通過計算,由式(14)和式(16)已知,DA-ASPP模塊中的RFmax值明顯大于ASPP 模塊中的RFmax值。 DA-ASPP 模塊通過逐層連接實現(xiàn)信息共享,不同空洞率的空洞卷積相互補充,使其細節(jié)信息更加豐富,并增大了感受野的范圍,有利于增強特征提取能力。
本文將主干特征提取網(wǎng)絡MobilenetV3_Large中2、4、8 倍下采樣獲得的淺層特征圖與DAFM 模塊連接,并與后續(xù)通過多個模塊獲得的深層特征圖進行融合。 DCF-DeepLab 整體網(wǎng)絡結(jié)構(gòu)如圖8所示。
圖8 DCF-DeepLab 整體網(wǎng)絡結(jié)構(gòu)Fig.8 Overall network structure of DCF-DeepLab
本文各項實驗均在GPU 上完成,軟硬件環(huán)境配置說明見表2。
表2 實驗環(huán)境配置Tab.2 Experimental environment configuration
本文在公開的PASCAL VOC 2012 數(shù)據(jù)集上進行了一系列的實驗,以驗證DCF-DeepLab 網(wǎng)絡的有效性。 PASCAL VOC 2012 數(shù)據(jù)集包括人物、動物、室內(nèi)外場景、交通工具等20 個具體前景類別,外加背景共21 類。 分別采用訓練集上1 464 張訓練圖像、驗證集上1 449 張驗證圖像以及測試集上449張圖像進行網(wǎng)絡的性能評估。 為了加速實驗結(jié)果的收斂性,在訓練階段采用了基于COCO 數(shù)據(jù)集(COCO 數(shù)據(jù)集是提供80 個目標類別、91 個材料類別的大型常用數(shù)據(jù)集)訓練得到的預訓練權(quán)重,且訓練時只針對和PASCAL VOC 2012 相同的類別進行訓練。
本文采用了在COCO 數(shù)據(jù)集上預先訓練得到的預訓練模型MobileNetV3_Large 和ResNet_50 的模型權(quán)重,分別對網(wǎng)絡DCF-DeepLab 和DeepLabv3 進行初始化,以加速收斂。
訓練參數(shù)設置如下:圖像預處理過程中隨機水平翻轉(zhuǎn)概率為0.5,圖像訓練塊大小為480×480 像素,在驗證階段采取的大小為520×520 像素;批量大小設置為6,初始學習率為0.001,動量設置為0.9,權(quán)重衰減為10-4,模型訓練的迭代次數(shù)為500 次。
采用Poly 學習率策略[7], 其作為一種指數(shù)變換的策略,具體計算公式如下:
式中:lr表示初始學習率,iter表示當前迭代步數(shù),max_iter表示最大迭代步數(shù),power取0.9。
啟用混合精度訓練,以減少顯存占用,加快網(wǎng)絡訓練速度。 使用交叉熵損失函數(shù)[18]計算主輸出上的損失,并結(jié)合使用全卷積網(wǎng)絡分割頭輔助訓練[19],得到的網(wǎng)絡總輸出損失為主輸出和輔助分類器上的損失加權(quán)代數(shù)和,比率為2 ∶1。
為了驗證DAFM 模塊、MA-ASPP 模塊和特征融合模塊對網(wǎng)絡性能的影響,設置了一系列相關的消融實驗。 所有實驗均在PASCAL VOC 2012 數(shù)據(jù)集上進行,以語義分割中常用的標準度量平均交并比(MIoU) 作為衡量評估指標,定義為真實值和預測值的交集和并集之比,其計算公式如下:
式中:N表示前景目標類別個數(shù),Pij表示真實值i被預測為j的數(shù)量。
2.3.1 DAFM 模塊
為了驗證本文所提出的DAFM 模塊對網(wǎng)絡性能的影響,通過與SENet 模塊和CBAM 模塊基于DeepLabv3 進行對比實驗,實驗結(jié)果見表3。
表3 注意力機制對模型性能的影響Tab.3 Effect of attentional mechanism on model performance
從表2 可看出,SENet 模塊和CBAM 模塊均可提升網(wǎng)絡整體的分割性能,MIoU值較原始網(wǎng)絡分別提高了0.4%和0.6%。 DAFM 模塊結(jié)合了兩者的優(yōu)勢,分割性能效果最好,MIoU值達到75.1%。 因此,本文考慮選取多個DAFM 模塊作為網(wǎng)絡解碼部分的主體框架,以使網(wǎng)絡達到更好的特征表達效果。
2.3.2 MA-ASPP 模塊
實驗采用DeepLabv3 作為基準模型,對ASPP模塊、MA-ASPP 模塊以及DAFM 模塊進行組合實驗,以驗證MA-ASPP 模塊的有效性。 實驗結(jié)果見表4。
表4 不同模塊組合對模型性能的影響Tab.4 Effect of different modules on model performance
從表4 可看出,對比ASPP 模塊,MA-ASPP 模塊和DAFM 模塊均可提升網(wǎng)絡整體的分割性能,MIoU值分別提高了0.9%和0.7%。 而將MA-ASPP模塊和DAFM 模塊同時組合進網(wǎng)絡,融合淺層特征和深層特征,提取出了更多關鍵的目標特征信息,網(wǎng)絡效果提升顯著,MIoU值達到74.1%。 因此,本文最終選擇將MA-ASPP 模塊和DAFM 模塊同時組合進網(wǎng)絡。
2.3.3 特征融合模塊
在編碼端使用不同尺度采樣所得的特征圖對網(wǎng)絡解碼端DAFM 模塊特征提取效果有不同程度的影響,本實驗在DAFM 模塊和MA-ASPP 模塊的基礎上,對DAFM 模塊結(jié)合主干特征提取網(wǎng)絡不同下采樣率所得特征圖的網(wǎng)絡整體組合效果進行實驗。實驗結(jié)果見表5。
表5 不同尺度特征圖對模型性能的影響Tab.5 Effect of different feature scales on model performance
從表5 可看出,在DeepLabv3 的基礎上,對主干特征提取網(wǎng)絡采取不同尺度的下采樣,均可提升網(wǎng)絡性能,其中使用MR(2,4,8)對DeepLabv3 的分割效果最優(yōu),達到72.8%。 在結(jié)合DAFM 模塊和MAASPP 模塊的基礎上,當對主干網(wǎng)絡使用MR(2,4)下采樣特征圖進行組合時,MIoU值為75.3%;當使用MR(2,8)下采樣特征圖進行組合時,MIoU值為75.5%;當使用MR(2,4,8)下采樣特征圖輸入DAFM 模塊時,網(wǎng)絡的整體性能最佳,MIoU值達到75.8%。 因此,本文還基于多尺度下采樣倍率MR(2,4,8)結(jié)合DAFM 模塊來改進原始網(wǎng)絡,實現(xiàn)了更密集化的像素級采樣,使得DCF-DeepLab 網(wǎng)絡具有更好的分割性能。
DeepLabv3 與 DCF - DeepLab 在 PASCAL VOC2012 驗證集上包括背景的21 個類別的測試結(jié)果見表6。 從表中可看出,相比于基礎語義分割網(wǎng)絡DeepLabv3 在PASCAL VOC2012 驗證集上的測試結(jié)果,基于DAFM 模塊的DCF-DeepLab 在其中18 個類別上的檢測精度都有所提升,尤其在自行車、瓶子、沙發(fā)這3 個類別上檢測精度提高了2% ~4%。 總體上,MIoU值由69.7%提高到70.6%,提升了0.9%。
表6 不同類別檢測性能對比Tab.6 Comparison of detection performance on different categories
為了進一步驗證本文提出的DCF-DeepLab 網(wǎng)絡的有效性,在PASCAL VOC 2012 數(shù)據(jù)集上將DCF-DeepLab 網(wǎng)絡與其它經(jīng)典語義分割網(wǎng)絡的實驗對比結(jié)果見表7。
表7 不同網(wǎng)絡模型測試結(jié)果對比Tab.7 Test results of different network models
從表7 可看出,DCF-DeepLab 在融合多尺度語義信息的基礎上,MIoU達到75.8%,優(yōu)于其他以VGGNet 和ResNet50 為主干特征提取網(wǎng)絡的語義分割模型。 同時,DCF-DeepLab 在模型參數(shù)量和分割時間上取得了較好的平衡,其模型參數(shù)量大小為48.9 MB,每張分割時間為0.123 s,明顯優(yōu)于對比網(wǎng)絡。 DCF-DeepLab 和DeepLabv3 在PASCAL VOC 2012 數(shù)據(jù)集上的部分可視化結(jié)果如圖9 所示。
圖9 部分可視化結(jié)果圖Fig.9 Visualizations of several prediction results
從圖9 可見,DCF-DeepLab 的分割性能整體上優(yōu)于DeepLabv3,尤其對精細的小目標進行分割時,其能夠更好地捕捉小尺度細節(jié)語義特征,使目標邊緣分割更加精細、光滑且完整。 如:可視化結(jié)果中飛機的輪子和綿羊腳部位的輪廓分割等,較好地改善了DeepLabv3 分割目標時存在的圖像邊界響應丟失及遠距離小目標信息和目標邊緣分割粗糙的問題。
本文針對DeepLabv3 中存在的圖像小目標信息易丟失等問題,提出了基于注意力機制的DAFM 模塊,融合淺層特征彌補深層特征的不足,實現(xiàn)特征圖跨模塊的融合。 同時,為了減少訓練時長,在主干特征提取網(wǎng)絡部分引入輕量級網(wǎng)絡MobileNetV3_Large。 針對目標邊界分割粗糙等問題,通過引入注意力模塊和串聯(lián)結(jié)構(gòu)改進ASPP 模塊,以增強局部特征提取的連貫性,進而從整體上提升語義分割性能。
消融實驗表明,DAFM 模塊和MA-ASPP 模塊對原始網(wǎng)絡的語義分割性能有一定程度的提升;對比實驗表明,DCF-DeepLab 網(wǎng)絡在參數(shù)量大小和分割效率等方面都取得了一定成效,驗證了本文設計網(wǎng)絡的有效性。
在后續(xù)的研究中考慮將網(wǎng)絡的小目標分割特性拓展到其他領域(如:苗族服飾圖像分割、醫(yī)學圖像分割、建筑物裂縫等工程問題),以提高網(wǎng)絡的泛化性。