賴松雨,史 方,廖 俊,周小力,趙 俊
(四川輕化工大學(xué) 自動(dòng)化與信息工程學(xué)院,四川 宜賓 644000)
城市行道樹是指排列在城市街道兩旁具有觀賞價(jià)值和發(fā)揮各類生態(tài)效益的喬木[1]。城市行道樹調(diào)查中,行道樹與周圍環(huán)境之間相似度較高、行道樹樹種之間結(jié)構(gòu)差異較大。以往林業(yè)人員在進(jìn)行城市行道樹資源調(diào)查時(shí)主要采用人工實(shí)測(cè)的方法獲取行道樹的種類、樹冠形狀和紋理等參數(shù)信息,效率低下,人工成本高[2]。因此,運(yùn)用深度學(xué)習(xí)的方法對(duì)采集到的街景圖片進(jìn)行行道樹參數(shù)信息的獲取具有非常重要的意義。
近年來深度學(xué)習(xí)在檢測(cè)、分類和分割方面大量應(yīng)用,一些研究者使用基于提議框的二階段目標(biāo)檢測(cè)和直接進(jìn)行邊界框的回歸的一階段目標(biāo)檢測(cè)方法[3-4]進(jìn)行行道樹檢測(cè)。董彥鋒等[5]提出了基于YOLO-v2網(wǎng)絡(luò)模型的改進(jìn)型一階段行道樹檢測(cè)方法,在神經(jīng)網(wǎng)絡(luò)中不經(jīng)過區(qū)域提議層,在特征提取之后直接進(jìn)行行道樹分類和邊界框回歸,該模型檢測(cè)的優(yōu)點(diǎn)是檢測(cè)速度較快。二階段的行道樹目標(biāo)檢測(cè)中,沈雨等[6]提出了一種基于Faster R-CNN的檢測(cè)框架,通過在原始模型中加入樹形分部加權(quán)R-CNN模塊,可以有效地解決部分遮擋問題。上述檢測(cè)模型中YOLO和Faster R-CNN檢測(cè)模型只能檢出行道樹的邊界框,不能對(duì)樹木的輪廓、紋理等細(xì)節(jié)做進(jìn)一步的提取。陸清嶼等[7]提出了一種基于Mask R-CNN的行道樹檢測(cè)模型,該方法使用遷移學(xué)習(xí)的思想對(duì)模型進(jìn)行訓(xùn)練,在對(duì)行道樹進(jìn)行定位以及分類的同時(shí),在行道樹表面覆蓋一層掩膜,做到了將行道樹與背景進(jìn)行分離,并能夠凸顯出行道樹的細(xì)節(jié)上的信息(如行道樹輪廓),在樹冠較密、樹干較粗的情況下該模型的分割效果較好,但在樹干較細(xì)、含遮擋的情況下出現(xiàn)樹干不能檢出、漏分割的問題?;谏疃葘W(xué)習(xí)的方法,一定程度上節(jié)省了人工成本,增加了行道樹調(diào)查的便利性,但檢測(cè)效果還達(dá)不到預(yù)期的效果。本文認(rèn)為,行道樹檢測(cè)有以下難點(diǎn):一是提取的行道樹圖片質(zhì)量不高,且行道樹與周圍環(huán)境相似度較高,圖像檢測(cè)算法不能提取到足夠的行道樹特征用于后續(xù)的檢測(cè)、分割過程。二是行道樹多為大、中等尺度目標(biāo),行道樹樹干一般情況下為細(xì)長(zhǎng)帶狀結(jié)構(gòu),淺層特征圖的感受野有限,遠(yuǎn)距離像素之間的關(guān)聯(lián)性不能充分結(jié)合。
為實(shí)現(xiàn)對(duì)行道樹更加高效的檢測(cè),本文提出了基于Mask R-CNN[8]改進(jìn)行道樹檢測(cè)算法,網(wǎng)絡(luò)做了以下2點(diǎn)改進(jìn):在Mask R-CNN網(wǎng)絡(luò)的特征提取模塊加入通道和空間注意力模塊,在通道層次和空間層次對(duì)行道樹特征進(jìn)行凸顯,從而提升行道樹特征在神經(jīng)網(wǎng)絡(luò)中的關(guān)注度。另外,在神經(jīng)網(wǎng)絡(luò)的特征金字塔模塊中用多尺度特征融合模塊與上采樣的特征圖相加,從而對(duì)長(zhǎng)距離上下文語義信息的關(guān)聯(lián)性進(jìn)行充分建模。
Mask R-CNN模型訓(xùn)練流程如圖1所示。本文主要對(duì)模型的特征提取階段進(jìn)行改進(jìn)。
圖1 Mask R-CNN模型訓(xùn)練流程Fig.1 Training process of Mask R-CNN model
本文在Mask R-CNN網(wǎng)絡(luò)的基礎(chǔ)上,針對(duì)行道樹數(shù)據(jù)集的特點(diǎn),提出改進(jìn)型Mask R-CNN算法,該網(wǎng)絡(luò)的特征提取部分由主干網(wǎng)絡(luò)模塊、特征金字塔[9]特征增強(qiáng)模塊、通道-空間注意力模塊和多尺度特征融合模塊構(gòu)成。特征提取模塊將輸出特征圖送至區(qū)域提議模塊,最后進(jìn)入至行道樹檢測(cè)模塊。用I表示輸入的行道樹圖片,主干網(wǎng)絡(luò)各個(gè)階段的輸出可表示為:
Ci=Si(I),i=2,3,4,5,
(1)
式中,S表示對(duì)圖片進(jìn)行特征提取操作;i表示圖片經(jīng)過的卷積層數(shù)。其中每個(gè)卷積層中加入了通道-空間注意力模塊,用Fi表示輸入注意力模塊的特征,本文對(duì)加入的注意力模塊進(jìn)行改進(jìn),使其能夠減少參數(shù)量,從而減少計(jì)算復(fù)雜度,同時(shí)能夠使抽象出更具體的目標(biāo)特征。該模塊可以表示為:
FiCBAM=HCBAM(Fi),
(2)
式中,HCBAM表示注意力機(jī)制對(duì)輸入特征圖Fi進(jìn)行空間和通道層次的建模。主干網(wǎng)絡(luò)輸出特征圖通過一個(gè)多尺度特征融合模塊進(jìn)入到特征金字塔,用Ci表示每個(gè)階段輸出特征圖:
Ni=HMSFF(C2,C3,C4,C5),i=2,3,4,5,
(3)
式中,HMSFF表示對(duì)主干網(wǎng)絡(luò)不同尺度輸出位置及語義信息互補(bǔ)性進(jìn)行建模;Ni表示輸出特征圖。經(jīng)多尺度特征融合后再將特征圖輸入特征金字塔增強(qiáng)模塊:
Pi=HFPN(C5,N2,N3,N4,N5),i=2,3,4,5。
(4)
注意力機(jī)制的運(yùn)用,使得神經(jīng)網(wǎng)絡(luò)可以模仿人的視覺系統(tǒng)自動(dòng)關(guān)注圖片中的重要信息,而對(duì)其他次要的信息進(jìn)行忽略[10-11]。本文使用一種卷積注意力模型(CBAM)模塊[12]在主干網(wǎng)絡(luò)ResNet101[13]中進(jìn)行集成,本文的算法中,基于注意力機(jī)制的模塊集成到主干網(wǎng)絡(luò)中每個(gè)階段的末尾中,集成位置位于每個(gè)階段中最后一個(gè)殘差塊,提取到的特征信息最多,對(duì)于注意力模塊的特征映射可以起到更大的效果,如圖2所示。
圖2 改進(jìn)型Mask R-CNN模型Fig.2 Improved Mask R-CNN model
注意力模塊擁有易集成的特點(diǎn),其具體集成位置如圖3所示。
圖3 Identity Block + CBAM模塊Fig.3 Identity Block + CBAM module
CBAM集成的位置在每個(gè)負(fù)責(zé)輸出C2,C3,C4,C5的Identity Block模塊,具體在該模塊的末端接入,進(jìn)行集成的模塊都存在于主干網(wǎng)絡(luò)不同尺寸特征提取階段的末端,即每個(gè)階段提取特征信息最豐富的模塊,在這些模塊中最能捕獲到更豐富的重要信息,最后對(duì)其進(jìn)行重要性等級(jí)的劃分。
相較于SE-Net模塊[14],CBAM的參數(shù)量、計(jì)算復(fù)雜度都更低,且可以同時(shí)在空間和通道2個(gè)維度上對(duì)重要信息給予更多的關(guān)注度。它可以靈活地集成到現(xiàn)有網(wǎng)絡(luò),同時(shí)花費(fèi)更少的計(jì)算開銷,這對(duì)前景、背景相似度較高的行道樹圖片的檢測(cè)、分割可以起到很大的作用。
1.2.1 通道注意力模塊
通道注意力機(jī)制主要解決的是讓神經(jīng)網(wǎng)絡(luò)判斷是什么使神經(jīng)網(wǎng)絡(luò)在空間層次對(duì)重要信息進(jìn)行聚焦,本文采用的注意力模塊為CBAM中的通道注意力塊,如圖4所示。
圖4 通道注意力結(jié)構(gòu)Fig.4 Channel attention structure
在該模塊的整個(gè)過程中,特征圖需要經(jīng)過2個(gè)非線性全連接層,整個(gè)全連接模塊對(duì)每個(gè)通道和其余通道的交互關(guān)系進(jìn)行建模,再進(jìn)行通道數(shù)還原。通道注意力模塊的計(jì)算如下:
Mc(F)=σ(MLP(Avg(F))+MLP(Max(F)))=
σ(W1(W0(Avg(F)))+W1(W0(Max(F)))),
F∈H×W×3,W0∈C/r×C,W1∈C/r×C,
(5)
式中,F(xiàn)為輸入特征圖;W0,W1分別為MLP第一層和第二層全連接層的權(quán)重;r為減少率。
為減少每次的通道間交互關(guān)系的計(jì)算帶來的操作冗余以及進(jìn)一步減少參數(shù)量,本文借鑒ECA-Net[15]模型的自適應(yīng)選擇核大小的思想,使用了一個(gè)k近鄰?fù)ǖ澜换ツK來替代MLP,該方法只對(duì)具有通道相關(guān)性的幾個(gè)相鄰?fù)ǖ肋M(jìn)行交互關(guān)系建模,節(jié)省了不必要的計(jì)算開支,如圖5所示。
圖5 改進(jìn)通道注意力結(jié)構(gòu)Fig.5 Improved channel attention structure
改進(jìn)型通道注意力模塊的計(jì)算如下:
M′c(F)=σ(C1Dk(Avg(F))+C1Dk(Max(F))),
(6)
(7)
(8)
C=φ(k)≈2(γ*k-b),
(9)
該式符合通道數(shù)C通常設(shè)置為2的整數(shù)次方原則,并且體現(xiàn)出指數(shù)形式的函數(shù)對(duì)處理未知映射函數(shù)的適用性。
1.2.2 空間注意力模塊
CBAM模塊中的空間注意力模塊(Spatial Attention Module,SAM)實(shí)現(xiàn)網(wǎng)絡(luò)在空間維度對(duì)重要特征信息進(jìn)行感知,強(qiáng)調(diào)重要信息在哪里,空間注意力模塊保證了空間角度對(duì)任務(wù)目標(biāo)特征進(jìn)行充分的定位。
空間注意力網(wǎng)絡(luò)結(jié)構(gòu)如圖6所示,不同空間位置特征的重要性以權(quán)重的形式表達(dá)。
圖6 空間注意力結(jié)構(gòu)Fig.6 Spatial attention structure
1.2.3 通道空間組合模塊
本文采取先通道后串聯(lián)SAM的形式組合成可集成注意力模塊,其集成在每個(gè)卷積層中能夠提取到特征信息最豐富的殘差塊中。CBAM如圖7所示。
圖7 CBAMFig.7 CBAM
CBAM總的模塊計(jì)算公式如下:
(10)
通道注意力模塊的輸出Mc(F)與原輸入特征圖F進(jìn)行乘法運(yùn)算得到F′,F(xiàn)′再與空間注意力模塊的輸出Ms(F′)進(jìn)行乘法運(yùn)算,最后得到F″,通道注意力模塊和SAM的組合使得網(wǎng)絡(luò)對(duì)行道樹特征圖的重要信息進(jìn)行了立體形式的呈現(xiàn)。
淺層特征中包含了大部分邊緣形狀特征以及大量的位置信息,而且隨著主干網(wǎng)絡(luò)層數(shù)的增加,網(wǎng)絡(luò)提取出的特征圖包含的語義信息更加抽象。雖然FPN對(duì)輸出的相鄰特征圖采用了特征融合的操作,擴(kuò)大了每個(gè)尺寸特征圖的感受野,豐富了語義信息,一定程度上避免了模型直接使用主干網(wǎng)輸出特征進(jìn)行圖像的預(yù)測(cè)??紤]到行道樹數(shù)據(jù)的特點(diǎn),普遍為大目標(biāo),樹干細(xì)長(zhǎng),淺層特征的感受野還是相對(duì)有限,長(zhǎng)距離語義信息關(guān)聯(lián)性不足,如圖8中紅色方形區(qū)域,淺層特征圖(圖左)的感受野存在盲區(qū)。
(a) 淺層特征圖感受野
(b) 深層特征圖感受野圖8 淺/深層特征圖感受野Fig.8 Shallow/deep feature map receptive field
針對(duì)該問題,本文借鑒PaNet[16]路徑聚合的思想,提出了多尺度特征融合的方法,使每個(gè)特征圖中的低階語義信息和高階語義信息充分互補(bǔ),并且使每個(gè)尺寸特征圖中的元素得到足夠大的感受野。多尺度特征融合網(wǎng)絡(luò)如圖9所示。
圖9 多尺度特征增強(qiáng)網(wǎng)絡(luò)Fig.9 Multi-scale feature enhancement network
其中,C2,C3,C4,C5分別經(jīng)過一個(gè)3×3卷積得到通道數(shù)相同的特征圖,再分別對(duì)特征圖進(jìn)行上、下采樣至同一尺寸,然后進(jìn)行特征圖拼接,變?yōu)橥ǖ罃?shù)為原通道數(shù)4倍的特征圖,最后根據(jù)特征圖相加的尺寸相應(yīng)地進(jìn)行下采樣、上采樣操作,從而使每個(gè)特征圖的互補(bǔ)效果更加明顯。
本文所提模型在自制行道樹數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),與原模型進(jìn)行了視覺比較和數(shù)據(jù)對(duì)比,并進(jìn)行了消融實(shí)驗(yàn)。
2.1.1 數(shù)據(jù)集
本文行道樹圖片信息采集設(shè)備為OnePlus6手機(jī),拍攝采集地點(diǎn)位于四川輕化工大學(xué)及其周邊街道,樹種類別包含桂花、天竺桂、香樟、廣玉蘭和藍(lán)花楹5種常綠樹,共采集到行道樹圖片535張,圖片格式為jpg,均為RGB三通道。為適應(yīng)行道樹檢測(cè)模型訓(xùn)練并且增加模型的魯棒性,實(shí)驗(yàn)將原始圖片進(jìn)行裁剪,統(tǒng)一至512 pixel×512 pixel×3大小,并且對(duì)處理后的圖片進(jìn)行水平翻轉(zhuǎn)、增加亮度2種數(shù)據(jù)增強(qiáng)操作對(duì)數(shù)據(jù)集進(jìn)行擴(kuò)充。對(duì)經(jīng)過數(shù)據(jù)增強(qiáng)的圖片集使用Labelme進(jìn)行手動(dòng)標(biāo)注,以json文件格式保存標(biāo)注信息,再對(duì)其進(jìn)行格式轉(zhuǎn)換以適用于模型訓(xùn)練,所用到的文件如圖10所示,每個(gè)json對(duì)應(yīng)生成5種不同格式的文件。
圖10 數(shù)據(jù)集格式Fig.10 Dataset format
最終獲得有效的標(biāo)注圖片共1 070張。采集到的每個(gè)樹種的數(shù)量如表1所示。
表1 采集到各類行道樹數(shù)量Tab.1 Number of street trees collected
2.1.2 實(shí)驗(yàn)環(huán)境
本文在實(shí)驗(yàn)過程中所采用的硬件和軟件配置如表2所示。
表2 實(shí)驗(yàn)平臺(tái)相關(guān)信息Tab.2 Related information of experimental platform
2.1.3 實(shí)驗(yàn)細(xì)節(jié)
數(shù)據(jù)集在打亂順序后按6∶2∶2的比例劃分訓(xùn)練集、驗(yàn)證集和測(cè)試集。超參數(shù):批大小設(shè)置為1,權(quán)重衰減設(shè)置為0.000 1,學(xué)習(xí)動(dòng)量設(shè)置為0.9,網(wǎng)絡(luò)初始學(xué)習(xí)率為0.001,迭代16 080次后學(xué)習(xí)率降低至0.000 1,共迭代32 160次,其中每迭代640次輸入驗(yàn)證集進(jìn)行測(cè)試,測(cè)試后根據(jù)模型的訓(xùn)練情況作相應(yīng)調(diào)整。本文將改進(jìn)的行道樹檢測(cè)模型與原模型性能分別進(jìn)行訓(xùn)練并進(jìn)行測(cè)試,最后對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行對(duì)比分析。圖11為Mask R-CNN模型與改進(jìn)模型在行道樹數(shù)據(jù)集上的訓(xùn)練情況,橫坐標(biāo)為模型訓(xùn)練的輪回?cái)?shù),一個(gè)輪回表示模型遍歷一遍完整的行道樹數(shù)據(jù)集,縱坐標(biāo)表示模型在訓(xùn)練集損失,一般來說,模型訓(xùn)練至一定輪回?cái)?shù)(epoch),訓(xùn)練集損失值趨于穩(wěn)定,模型停止學(xué)習(xí)。由圖11可知,改進(jìn)Mask R-CNN模型初始訓(xùn)練損失值比原模型要大,在經(jīng)過20輪回?cái)?shù)之后,2種模型趨于收斂。
圖11 模型訓(xùn)練曲線Fig.11 Model training curve
為了對(duì)改進(jìn)的Mask R-CNN模型與原模型進(jìn)行綜合性的對(duì)比,本文采用目前公開的主流評(píng)估指標(biāo)AP50,AP75,mAP,mIoU。AP50,AP75表示在交并比閾值為0.5和0.75下的平均精度。mAP表示交并比閾值為0.5~0.95下的平均精度求和求平均。上述評(píng)價(jià)指標(biāo)的取值用百分制計(jì)。平均精確率的計(jì)算涉及到交并比、精確率和召回率,其中IoU計(jì)算如下:
(11)
式中,g為真實(shí)標(biāo)簽掩膜;p為預(yù)測(cè)掩膜;area(g)∩area(p)為真實(shí)行道樹標(biāo)簽區(qū)域像素和預(yù)測(cè)目標(biāo)區(qū)域像素的交集;area(g)∪area(p)為真實(shí)標(biāo)簽區(qū)域像素和預(yù)測(cè)目標(biāo)區(qū)域像素的并集;IoU值的大小表示真實(shí)標(biāo)簽區(qū)域像素與檢測(cè)出目標(biāo)區(qū)域像素的重合程度。本文IoU閾值設(shè)置為0.5和0.75,在預(yù)測(cè)區(qū)域與真實(shí)目標(biāo)IoU值大于0.5或0.75情況下,則將預(yù)測(cè)結(jié)果判定為正樣本(True positive,TP),否則判定為負(fù)樣本(False positive,F(xiàn)P)。精確率、召回率的計(jì)算如下:
(12)
(13)
行道樹檢測(cè)模型分類數(shù)量共有背景、行道樹2個(gè)類別,其中行道樹標(biāo)簽定義為正樣本,TP為行道樹檢測(cè)模型預(yù)測(cè)為正(行道樹)的正樣本的數(shù)量,F(xiàn)P為行道樹檢測(cè)模型預(yù)測(cè)為背景的正樣本數(shù)量,F(xiàn)N為模型預(yù)測(cè)為背景的正樣本數(shù)量。P為正確識(shí)別出行道樹的數(shù)量與總的識(shí)別為行道樹的數(shù)量比值,代表正樣本預(yù)測(cè)結(jié)果的準(zhǔn)確度,R為正確識(shí)別出的行道樹總數(shù)與真實(shí)行道樹樣本總數(shù)的比值,表示模型對(duì)正樣本的識(shí)別度。
在選定IoU閾值時(shí)將行道樹預(yù)測(cè)結(jié)果按置信度分?jǐn)?shù)由高到低進(jìn)行排序,并根據(jù)不同的樣本比例閾值計(jì)算精確率Pi和召回率Ri。根據(jù)計(jì)算結(jié)果繪制PR曲線,對(duì)PR曲線求積分求得AP值,其計(jì)算表達(dá)式為:
(14)
式中,N為檢測(cè)結(jié)果數(shù);ΔR為相鄰樣本比例閾值之間召回率的增量。
為了對(duì)行道樹檢測(cè)模型的分割效果作數(shù)值上的比較,本文加入了圖像分割中總的真實(shí)掩膜集合和預(yù)測(cè)掩膜集合的交集與并集之比mIoU,計(jì)算如下:
(15)
式中,Pii表示把類別i正確識(shí)別為類別i的像素?cái)?shù)量;Pij表示把類別j識(shí)別為類別i的像素?cái)?shù)量;Pji表示把類別i識(shí)別為類別j的像素?cái)?shù)量。
為了體現(xiàn)改進(jìn)算法的優(yōu)異性,本文算法不局限于與基礎(chǔ)算法性能的比較。本文使用U-Net[17]和FCN[18]兩種經(jīng)典分割算法,在控制超參數(shù)相同的情況下輸入行道樹訓(xùn)練集對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,最終得到各網(wǎng)絡(luò)行道樹掩膜分割結(jié)果,如圖12所示。對(duì)于樹干較細(xì)、行道樹與周圍環(huán)境相似度較高的情況,本文方法分割的行道樹完整性要高于原模型,Mask R-CNN模型對(duì)于不明顯的目標(biāo)出現(xiàn)了漏檢的現(xiàn)象,本文算法對(duì)樹冠不規(guī)則的行道樹分割的掩膜更能體現(xiàn)出行道樹的輪廓。值得注意的是,U-Net和FCN在圖12中展示了良好的樹干部分的分割。
(a) 真實(shí)掩膜
(b) 本文算法
(c) FCN
(d) U-Net
(e) Mask R-CNN圖12 樹干較細(xì)、環(huán)境相似度較高情況下模型檢測(cè)結(jié)果Fig.12 Model detection results under the condition of thin trunk and high environmental similarity
含部分遮擋條件下的模型檢測(cè)結(jié)果如圖13所示??梢钥闯?,在行道樹包含了路燈、廣告牌等遮擋的情況下,本文算法體現(xiàn)了優(yōu)秀的區(qū)分能力,實(shí)現(xiàn)了行道樹與遮擋物更高的分離程度。
(a) 真實(shí)掩膜
(b) 本文算法
(c) FCN
(d) U-Net
(e) Mask R-CNN圖13 含部分遮擋條件下的模型檢測(cè)結(jié)果Fig.13 Model detection results with partial shelters
在視覺效果上證明了本文算法的可行性后,將模型與其他經(jīng)典模型在評(píng)價(jià)指標(biāo)mIoU上作進(jìn)一步比較,如表3所示。
表3 不同算法之間分割指標(biāo)對(duì)比Tab.3 Comparison of segmentation indices of different algorithms
由表3各算法的mIoU數(shù)值對(duì)比可知,3種算法的平均交并比都超過了80,本文算法較FCN算法mIoU提升了11.1,說明本文算法在對(duì)行道樹分割這一任務(wù)上具有更好的適應(yīng)性。
表4通過對(duì)類別平均精度(AP),類別均值平均精度(mAP),類別平均交并比(mIoU)進(jìn)行比較,可以得出改進(jìn)后的模型評(píng)價(jià)結(jié)果相比原模型有全面的提升,其中2種樹冠比較密集的天竺桂、香樟的類別平均精度AP50,AP75分別提升至100。
表4 改進(jìn)后的模型與原模型測(cè)試結(jié)果評(píng)價(jià)Tab.4 Evaluation of test results between the improved model and the original model
為了進(jìn)一步研究注意力機(jī)制以及多尺度特征增強(qiáng)在模型檢測(cè)行道樹圖片時(shí)的作用,本文進(jìn)行了消融實(shí)驗(yàn),性能對(duì)比如表5所示。
表5 注意力機(jī)制和多尺度特征增強(qiáng)性能對(duì)比Tab.5 Performance comparison of attention mechanism and multi-scale feature enhancement
上表中的評(píng)價(jià)指標(biāo)計(jì)算方式皆為對(duì)類別評(píng)價(jià)指標(biāo)求和求平均所得。由上表可知,單獨(dú)加入多尺度特征增強(qiáng)模塊進(jìn)行改進(jìn)時(shí),AP50精度略微下降,而AP75,mIoU分別增加了0.9,1.1,可見特征增強(qiáng)的加入一定程度上提高了模型對(duì)行道樹分割的完整度。在特征增強(qiáng)和注意力模塊同時(shí)加入時(shí)模型評(píng)價(jià)指標(biāo)效果提升最為明顯,AP50,AP75,mIoU,mAP分別提升2.4,2.6,2.0,3.6。綜合以上結(jié)果,改進(jìn)后的模型對(duì)行道樹的檢測(cè)、分割性能更優(yōu)。
為了研究改進(jìn)后的算法對(duì)單張圖片預(yù)測(cè)速度的影響,首先在控制超參數(shù)相同的情況下,使相同的數(shù)據(jù)集對(duì)原模型和改進(jìn)的3種算法進(jìn)行訓(xùn)練,得到相應(yīng)的權(quán)重文件,對(duì)相同的行道樹圖片進(jìn)行預(yù)測(cè)。最后得到每種算法的預(yù)測(cè)時(shí)間,如表6所示。
表6 模型檢測(cè)速度Tab.6 Model detection speed
由表6可知,Mask R-CNN 模型所需要的預(yù)測(cè)時(shí)間最少,本文算法耗費(fèi)的預(yù)測(cè)時(shí)間最長(zhǎng),相比原模型增加了0.98 s,其中加入改進(jìn)型CBAM模塊帶來預(yù)測(cè)時(shí)間的增加較多尺度特征增強(qiáng)模塊更多??偟膩碚f,本文基于Mask R-CNN算法的改進(jìn)帶來的參數(shù)量的變化較小,算法的單張圖片預(yù)測(cè)時(shí)間無明顯增加。
本文針對(duì)Mask R-CNN模型應(yīng)用于行道樹目標(biāo)檢測(cè)、分割時(shí)出現(xiàn)的不足進(jìn)行分析,針對(duì)行道樹的顏色相似度、結(jié)構(gòu)等特點(diǎn),在Mask R-CNN模型基礎(chǔ)上進(jìn)行改進(jìn)。為提高模型的檢測(cè)性能,增加遮擋情況下模型對(duì)行道樹圖片的處理能力,在原模型中引入通道-空間混合注意力機(jī)制,對(duì)輸出的行道樹特征圖進(jìn)行立體式的重要信息捕獲。為提高行道樹分割的完整性,引入一個(gè)多尺度特征融合,對(duì)主干網(wǎng)和特征金字塔的連接方式進(jìn)行替換,從而增強(qiáng)行道樹特征圖語義信息的互補(bǔ)性。該實(shí)驗(yàn)證明了改進(jìn)型行道樹檢測(cè)模型在自制行道樹數(shù)據(jù)集上的評(píng)價(jià)指標(biāo)結(jié)果有所提升,視覺上的檢測(cè)、分割效果也更加明顯。