高家軍,張 旭,郭 穎,劉昱坤,郭安琪,石蒙蒙,王 鵬,袁 瑩
(中國林業(yè)科學(xué)研究院資源信息研究所,北京 100091)
蟲害作為自然災(zāi)害之一,具有突發(fā)性強(qiáng)、危害范圍廣、防治難度高等特點(diǎn)[1-3],對農(nóng)、林、牧業(yè)等存在嚴(yán)重威脅,影響我國經(jīng)濟(jì)發(fā)展。實(shí)現(xiàn)對蟲害的識別監(jiān)測,是保護(hù)農(nóng)、林、牧業(yè)等資源不受破壞的前提,也是促進(jìn)我國經(jīng)濟(jì)發(fā)展的重要手段。
目前,對于蟲害識別的方法主要分為人工識別方法、傳統(tǒng)的機(jī)器學(xué)習(xí)方法以及深度學(xué)習(xí)方法,其中人工識別方法可以實(shí)現(xiàn)對蟲害的精細(xì)識別,但存在主觀性強(qiáng)、識別效率低、人工成本高等問題;傳統(tǒng)的機(jī)器學(xué)習(xí)方法基于優(yōu)選后的特征實(shí)現(xiàn)對蟲害的識別[4-5],能夠有效提高識別效率,降低人工成本,但其結(jié)果依賴于特征提取的優(yōu)劣,識別效果穩(wěn)定性不佳,泛化能力不強(qiáng);相比于傳統(tǒng)的機(jī)器學(xué)習(xí)方法,深度學(xué)習(xí)方法能夠自動(dòng)進(jìn)行特征提取,具有穩(wěn)定的識別效果與較強(qiáng)的泛化能力,已在蟲害識別領(lǐng)域取得了較好的應(yīng)用效果。在深度學(xué)習(xí)方法中,分類網(wǎng)絡(luò)可以實(shí)現(xiàn)對蟲害類型的判別[6-7],但無法精準(zhǔn)定位蟲害發(fā)生的位置;目標(biāo)檢測方法能夠?qū)δ繕?biāo)進(jìn)行識別框選,從而確定蟲害位置信息[8-9],但缺少對昆蟲個(gè)體信息的提取;語義分割方法可通過像素級的識別分割方式對昆蟲的個(gè)體信息進(jìn)行提取[10-11],但對于蟲害聚集重疊的情況其個(gè)體分割效果較差;實(shí)例分割方法不僅可以實(shí)現(xiàn)對蟲害的識別分類,還能夠?qū)ζ溥M(jìn)行框選分割,在蟲害聚集重疊的情況下可有效地獲取其個(gè)體信息,十分適用于蟲害定量化的精準(zhǔn)監(jiān)測。
現(xiàn)有基于實(shí)例分割方法的蟲害識別研究已經(jīng)取得了初步的進(jìn)展[12-13],但受限于實(shí)驗(yàn)環(huán)境,大部分研究多采用紋理清晰、單張圖片蟲害數(shù)量少且目標(biāo)占比大的圖片數(shù)據(jù)進(jìn)行實(shí)驗(yàn),對于蟲害數(shù)量較多、分布密集且目標(biāo)較小的情況,模型的識別分割效果不佳,誤檢漏檢現(xiàn)象嚴(yán)重。除此之外,目前多數(shù)實(shí)例分割方法在主干特征提取部分多采用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)結(jié)構(gòu),該類結(jié)構(gòu)模型感受野有限[14],且會(huì)隨網(wǎng)絡(luò)深度的增加而減弱特征的長期依賴[15],造成小目標(biāo)漏檢、目標(biāo)邊緣分割模糊的問題[16]。不同于CNN,Transformer技術(shù)[17]可憑借注意力(attention)機(jī)制捕獲整個(gè)特征圖的長距離依賴關(guān)系[18-19],實(shí)現(xiàn)對全局信息模型的構(gòu)建;而Swin Transformer技術(shù)[20]作為Transformer的改進(jìn)模型,不僅具有Transformer的全局建模能力,其層級化的網(wǎng)絡(luò)結(jié)構(gòu)與移動(dòng)的窗口信息交互方式在一定程度上擴(kuò)大了模型的感受范圍,減少了模型的計(jì)算量,適合于不同尺度目標(biāo)的特征提取。
基于此,筆者提出了一種融合Swin Transformer的蟲害圖像實(shí)例分割優(yōu)化方法(pest swin transformer,PST),該方法以經(jīng)典的實(shí)例分割模型Mask R-CNN[21]為主要框架,引入Swin Transformer優(yōu)化其主干特征提取部分,以此來實(shí)現(xiàn)對復(fù)雜真實(shí)場景下多幼蟲個(gè)體的識別分割。
研究采用的數(shù)據(jù)為廣西龍州縣大青山東坡(106°39′~106°59′E,21°57′~22°19′N)實(shí)地拍攝的黃野螟(Heortiavitessoides)圖像資料。黃野螟作為我國珍稀藥用植物土沉香(Aquilariasinensis)的主要害蟲[22-25],在幼齡期會(huì)對土沉香的葉片進(jìn)行蠶食,造成葉柄脫落[26-27],暴發(fā)時(shí)會(huì)對土沉香造成嚴(yán)重的損毀,植株被害率可達(dá)90%以上[28-29],嚴(yán)重威脅土沉香的生長。真實(shí)場景下的黃野螟幼蟲危害情況見圖1,從圖1中可以看出,黃野螟幼蟲個(gè)體小且分布聚集,其顏色紋理與周圍環(huán)境相近,這為模型的識別分割帶來了一定的挑戰(zhàn),但也為評估模型在真實(shí)野外場景下的蟲害識別應(yīng)用提供了數(shù)據(jù)支撐。
圖1 黃野螟幼蟲危害圖Fig.1 Heortia vitessoides larvae harm image
為避免不同設(shè)備性能的差異,所有試驗(yàn)數(shù)據(jù)均使用同一型號的數(shù)碼相機(jī)(佳能M50,日本)進(jìn)行采集,數(shù)據(jù)涵蓋黃野螟幼蟲在不同時(shí)間段、光照條件下的多種情況,經(jīng)人工篩選,共收集可用黃野螟幼蟲圖片141張。為了訓(xùn)練和驗(yàn)證深度學(xué)習(xí)模型,采用圖像標(biāo)注軟件 Labelme以人工標(biāo)注的方式進(jìn)行統(tǒng)一數(shù)據(jù)標(biāo)注,將人工標(biāo)注的數(shù)據(jù)集按照8∶2的比例隨機(jī)劃分為訓(xùn)練集和驗(yàn)證集,其中訓(xùn)練集112張,驗(yàn)證集29張。
在真實(shí)場景下受限于試驗(yàn)區(qū)數(shù)據(jù)采集設(shè)備以及蟲害本身?xiàng)l件,往往需要對所拍攝圖像中的小目標(biāo)蟲害進(jìn)行識別分割,因此,對數(shù)據(jù)集的具體情況進(jìn)行了統(tǒng)計(jì)分析。結(jié)合絕對尺度與相對尺度定義[30],本研究設(shè)定目標(biāo)像素占比≤0.3%判定為小目標(biāo),目標(biāo)像素占比>0.3%~3.0%的判定為中等目標(biāo),目標(biāo)像素占比>3.0%的判定為大目標(biāo),以此對數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析。數(shù)據(jù)分析結(jié)果表明,訓(xùn)練集中小目標(biāo)圖像共計(jì)98張,占比87.5%;中等目標(biāo)圖像共計(jì)14張,占比12.5%;無大目標(biāo)圖像。驗(yàn)證集中小目標(biāo)圖像共計(jì)26張,占比89.7%;中等目標(biāo)圖像3張,占比10.3%;無大目標(biāo)圖像。從數(shù)據(jù)集目標(biāo)尺度的分布可以看出,本次試驗(yàn)采用的數(shù)據(jù)集多為小目標(biāo)數(shù)據(jù),符合小目標(biāo)蟲害識別分割條件。
此次提出的PST模型原理是將Mask R-CNN的主干網(wǎng)部分以Swin Transformer進(jìn)行優(yōu)化改進(jìn),通過加強(qiáng)其主干網(wǎng)的特征提取能力來提高模型整體對于黃野螟蟲害的識別分割效果。
1.3.1 Mask R-CNN模型
Mask R-CNN作為實(shí)例分割領(lǐng)域常用的模型框架,其整體結(jié)構(gòu)見圖2。Mask R-CNN的整體結(jié)構(gòu)主要包括主干網(wǎng)(backbone)、區(qū)域候選網(wǎng)絡(luò)(region proposal network,RPN)以及頭部(heads)。主干網(wǎng)部分的作用是對輸入的圖像進(jìn)行特征提取;區(qū)域候選網(wǎng)絡(luò)部分的作用是對圖像的前后景進(jìn)行區(qū)分以篩選出目標(biāo)所在位置的近似建議框。在頭部主要包括全卷積神經(jīng)網(wǎng)絡(luò)(fully convolutional networks,FCN)與全連接層(fully connected layer,FCLayers)[31-32],其中全卷積神經(jīng)網(wǎng)絡(luò)將結(jié)果以掩膜(mask)形式輸出,對全連接層進(jìn)行分類(clssfication)與邊界框回歸(box regression)。
圖2 Mask R-CNN結(jié)構(gòu)Fig.2 The structure of Mask R-CNN
1.3.2 Swin Transformer模型
Swin Transformer由微軟研究院在2021年正式提出,該模型引入了層次化網(wǎng)絡(luò)結(jié)構(gòu)與滑窗操作,能夠在減少模型計(jì)算量的同時(shí)提高模型的識別效率。Swin Transformer根據(jù)卷積核的個(gè)數(shù)與多頭注意力模塊頭部數(shù)量分為Swin-T、Swin-S、Swin-B、Swin-L共4種結(jié)構(gòu),其中Swin-T相較于其他Swin Transformer模型,其模型體積更加輕量化,模型精度相差不大,因此基于Swin-T進(jìn)行實(shí)驗(yàn)研究。Swin-T的網(wǎng)絡(luò)結(jié)構(gòu)主要由切片分割層、線性嵌入層、切片合并層以及Swin Transformer層構(gòu)成,其整體結(jié)構(gòu)見圖3。在模型訓(xùn)練過程中,首先將圖像輸入到切片分割層對其進(jìn)行分割展平處理,再將分割展平后的結(jié)果通過線性嵌入層對每個(gè)像素的通道數(shù)據(jù)進(jìn)行線性變換,將線性變換后的特征圖通過Swin Transformer層進(jìn)行注意力計(jì)算,最后將計(jì)算后的特征圖輸入到由切片合并層與Swin Transformer層堆疊而成的3個(gè)部分中得到最終的特征圖。
圖3 Swin-T網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 The structure of Swin-T
1)切片合并層。切片合并層的作用是對特征圖進(jìn)行下采樣處理,其原理見圖4。首先將輸入的特征圖以2×2大小的窗口進(jìn)行劃分,并將不同窗口同一相對位置的像素塊取出,沿深度方向進(jìn)行拼接,將拼接后的結(jié)果輸入到歸一化層進(jìn)行層歸一化處理,最后將歸一化后的結(jié)果通過全連接層沿深度方向做線性變換得到最終結(jié)果。相比于最初輸入的特征圖,其結(jié)果圖的尺寸縮減為原來的一半,深度增加為原來的2倍。
圖4 切片合并層示意圖Fig.4 Illustrations of patch merging layers
2)Swin Transformer層。Swin Transformer層主要由歸一化層(normalized layer,LayerNorm)、窗口多頭自注意力模塊(windows multi-head self-attention,W-MSA)、位移窗口自注意力模塊(shifted windows multi-head self-attention,SW-MSA)以及多層感知機(jī)(multilayer perceptron,MLP)組成,具體見圖5。
圖5 Swin Transformer塊Fig.5 Swin Transformer block
歸一化層的作用是對輸入的特征圖進(jìn)行歸一化處理;W-MSA的原理是對不重疊的窗口特征圖進(jìn)行單獨(dú)注意力機(jī)制操作,相比于傳統(tǒng)的對整張圖片進(jìn)行注意力機(jī)制操作而言,這種方法能夠大大減少模型的計(jì)算量,但也使不同窗口的信息傳遞出現(xiàn)了斷層現(xiàn)象。而SW-MSA是在W-MSA的基礎(chǔ)上對窗口進(jìn)行偏移切割,并將切割后的窗口進(jìn)行移動(dòng)拼接使之恢復(fù)為W-MSA的窗口形狀,再對單獨(dú)窗口進(jìn)行注意力機(jī)制操作。這種方式一方面打通了窗口之間存在的信息斷層現(xiàn)象,另一方面并沒有單獨(dú)增加模型計(jì)算量,兩者結(jié)合可有效提高模型計(jì)算效率,兩者的計(jì)算原理見圖6。
圖6 窗口多頭自注意力模塊和位移窗口自注意力模塊示意圖Fig.6 Illustrations of W-MSA and SW-MSA
自注意力操作是Swin Transformer層中的核心部分。首先將輸入的特征圖進(jìn)行線性變換將其變?yōu)槎S的序列數(shù)據(jù),并記為a,再將a通過全連接層進(jìn)行計(jì)算得到Q、K、V,將Q、K、V輸入到比例點(diǎn)積注意力部分進(jìn)行處理,再將得到的結(jié)果進(jìn)行拼接處理,最后輸入到全連接層得到最終結(jié)果,具體公式見式(1)。
(1)
式中:Fsoftmax是將輸出值歸一化為0~1的概率值,并將概率值輸出;S表示自注意力操作;d表示為模型設(shè)置的維度;Q、K、V為特征圖線性變換的值。
多層感知機(jī)的作用是對輸入的特征圖進(jìn)行類別信息的劃分,其結(jié)構(gòu)見圖7。從圖7可以看出,多層感知機(jī)主要由兩個(gè)全連接層、一個(gè)激活函數(shù)層以及兩個(gè)隨機(jī)失活層構(gòu)成。其中激活函數(shù)采用了高斯誤差線性單元(gaussian error linear unit,GELU)函數(shù),相比于其他激活函數(shù),GELU在Transformer領(lǐng)域的應(yīng)用性能更佳;而隨機(jī)失活(dropout)層[31]可以通過隨機(jī)失活神經(jīng)元的方式防止模型出現(xiàn)過擬合現(xiàn)象。
圖7 多層感知機(jī)的結(jié)構(gòu)Fig.7 The structure of multilayer perceptron
1.3.3 PST模型
傳統(tǒng)的Mask R-CNN模型在主干網(wǎng)部分一般采用ResNet網(wǎng)絡(luò),相較于Swin Transformer網(wǎng)絡(luò),ResNet網(wǎng)絡(luò)的特征提取能力較弱,因此筆者提出的PST模型在Mask R-CNN的主干網(wǎng)部分引入Swin Transformer模型進(jìn)行替換改進(jìn),以此來增強(qiáng)模型的特征提取能力,進(jìn)而提高模型的識別分割效果,具體見圖8。從圖8中可以看出,改進(jìn)后的主干網(wǎng)部分將ResNet網(wǎng)絡(luò)替換為了Swin-T網(wǎng)絡(luò),同時(shí)降低了FPN網(wǎng)絡(luò)的輸入特征維度,從而提高了模型的運(yùn)算效率。
圖8 PST的結(jié)構(gòu)Fig.8 The structure of PST
基于深度學(xué)習(xí)框架PyTorch 1.7.1進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)操作系統(tǒng)為Windows 10,實(shí)驗(yàn)運(yùn)行環(huán)境為 Intel(R) Core(TM) i5-10400F @ 2.90GHz CPU、NVIDIA GeForce GTX1660TI GPU(6GB)。模型在訓(xùn)練階段采用AdamW算法進(jìn)行優(yōu)化[33],設(shè)置模型初始學(xué)習(xí)率為0.000 1、平滑常數(shù)為(0.9,0.999)、衰減率為0.05,采用交叉熵?fù)p失(cross entropy loss)函數(shù)作為模型訓(xùn)練的損失函數(shù)。實(shí)驗(yàn)中采用COCO數(shù)據(jù)集的預(yù)訓(xùn)練權(quán)重初始化網(wǎng)絡(luò)參數(shù),Batch Size設(shè)置為1,迭代輪數(shù)Epochs設(shè)置為100,在第20輪與第30輪調(diào)整學(xué)習(xí)率,所有訓(xùn)練結(jié)果在100輪均已收斂。
為評價(jià)模型對黃野螟幼蟲的識別性能,選擇平均精度(average precision,AP)與F1分?jǐn)?shù)(式中記為F1)作為模型預(yù)測性能的評價(jià)指標(biāo),各指標(biāo)計(jì)算公式如下:
(2)
(3)
(4)
(5)
式中:p為準(zhǔn)確率;r為召回率;F1為測度;TP為正確檢測的樣本數(shù)量;FP為錯(cuò)誤檢測的樣本數(shù)量;FN為漏檢樣本數(shù)量;AP為平均精度。
實(shí)驗(yàn)結(jié)果(表1)表明,PST模型在目標(biāo)框選方面,其F1分?jǐn)?shù)與AP分別為89.7%與88.0%;在目標(biāo)分割方面,其F1分?jǐn)?shù)與AP分別為84.3%與82.2%,模型大小為180 MB。模型整體的平均F1分?jǐn)?shù)為87.0%,平均AP為85.1%,兩個(gè)指標(biāo)數(shù)值均已超過85%。由于野外真實(shí)場景下難以近距離拍攝蟲害圖片,因此,研究模型對于小目標(biāo)蟲害的識別效果是十分有必要的。進(jìn)一步對數(shù)據(jù)集中的小目標(biāo)蟲害圖像進(jìn)行分析,結(jié)果表明,PST模型在目標(biāo)框選方面,其F1分?jǐn)?shù)與AP分別為88.4%與86.3%;在目標(biāo)分割方面,其F1分?jǐn)?shù)與AP分別為84.0%與81.7%;模型整體的平均F1分?jǐn)?shù)為86.2%,平均AP為84.0%,兩個(gè)指標(biāo)數(shù)值均已超過80%(表1)??傮w而言,PST模型對于蟲害整體的識別分割準(zhǔn)確率超過85%,對于小目標(biāo)蟲害圖像的識別準(zhǔn)確率超過80%,在一定程度上說明PST具有較好的模型穩(wěn)定性與模型泛化能力,可有效用于野外真實(shí)場景下的蟲害識別分割任務(wù)。
表1 消融實(shí)驗(yàn)結(jié)果
在對模型識別精度評價(jià)的基礎(chǔ)上,通過人工篩查的方式進(jìn)一步對PST模型在驗(yàn)證集上的識別分割效果進(jìn)行分析,其中驗(yàn)證集所有圖片中共包含401個(gè)黃野螟對象。結(jié)果表明,PST模型在驗(yàn)證集上誤檢14個(gè)漏檢30個(gè),分別占所有對象的3.5%與7.5%,誤檢漏檢率相對較低。通過對出現(xiàn)漏檢誤檢情況的圖像進(jìn)行分析可以發(fā)現(xiàn),漏檢的情況多出現(xiàn)于黃野螟對象數(shù)量較多且出現(xiàn)重疊情況的圖片,誤檢的情況多出現(xiàn)于黃野螟對象受葉片樹枝遮擋較為嚴(yán)重的圖片。這可能是因?yàn)?一方面由于黃野螟蟲害重疊導(dǎo)致了模型對于蟲害數(shù)量判別出現(xiàn)了少量漏檢的情況,另一方面由于樹枝遮擋導(dǎo)致模型出現(xiàn)了部分過度分割情況,造成模型對蟲害的誤檢。
2.2.1 模型精度比較
為了評估Swin-T對于網(wǎng)絡(luò)整體性能的影響,對不同主干網(wǎng)絡(luò)模型進(jìn)行了對比實(shí)驗(yàn)。鑒于模型的結(jié)構(gòu)、體積以及適用性,實(shí)驗(yàn)選取了Swin-S、ResNet 50、ResNet 101共3種常用主干網(wǎng)絡(luò)模型作為對照組,其中Swin-S相較于Swin-T在stage 3部分將Swin Transformer Block增加至18個(gè),其余結(jié)構(gòu)參數(shù)保持不變,ResNet 50與ResNet 101為常用的Mask R-CNN模型配置,將3個(gè)模型分別記為PST-S、MRC 50、MRC 101,交并比(intersection over union,IoU)閾值為0.5[13,15,20],具體實(shí)驗(yàn)結(jié)果見表1。
從表1可以看出,相較于其他3種模型,PST在目標(biāo)框選(box)方面其F1分?jǐn)?shù)分別提升0.8%、9.4%與8.0%;AP分別提升0.9%、9.4%與8.5%。在目標(biāo)分割(seg)方面其F1分?jǐn)?shù)分別提升0.5%、8.6%與8.3%;AP相較于PST-S并未提升,相較于其他兩種模型分別提升了8.4%與8.7%。對于小目標(biāo)蟲害識別,4種模型的F1分?jǐn)?shù)與AP均有所下降,其中,PST相較于其他3種模型在目標(biāo)框選(box)方面其F1分?jǐn)?shù)分別提升0.1%、10.1%與8.5%;AP受召回率影響相較于PST-S降低了0.3%,相較于其他兩種模型分別提升了9.7%與9.0%。在目標(biāo)分割(seg)方面其F1分?jǐn)?shù)分別提升1.2%、9.4%與9.5%;AP分別提升0.6%、8.9%與9.7%。F1分?jǐn)?shù)相較于MRC50與MRC101(Mask R-CNN)在目標(biāo)框選方面平均提升9.30%,在分割方面平均提升9.45%。總體而言,PST模型是4個(gè)模型中綜合表現(xiàn)最好的模型,對于蟲害圖像具有良好的識別分割效果。
為了進(jìn)一步驗(yàn)證PST模型對于更接近真實(shí)場景下的識別效果,采用IoU為0.75更嚴(yán)苛的標(biāo)準(zhǔn)對PST模型進(jìn)行評價(jià),并將其與其他模型進(jìn)行比較,如圖9所示。從圖9可以看出,PST在IoU為0.75時(shí)其模型框選的F1分?jǐn)?shù)與AP分別為69.73%與66.90%,模型分割的F1分?jǐn)?shù)與AP分別為52.45%與48.50%,雖然相較于IoU為0.5的分割精度有所下降,但是相較于其他模型表現(xiàn)良好,這說明PST在相對嚴(yán)苛的標(biāo)準(zhǔn)下相對于其他模型仍具有較好的模型識別效果。
圖9 模型的識別結(jié)果Fig.9 The recognition result of the model
2.2.2 模型參數(shù)及漏誤檢比較
在對模型識別精度評價(jià)基礎(chǔ)上進(jìn)一步分析了4種模型的參數(shù)信息與誤檢漏檢情況。受限于硬件條件,有關(guān)模型參數(shù)信息在浮點(diǎn)運(yùn)算數(shù)與參數(shù)量方面,以分辨率為1 280×800的彩色圖片作為網(wǎng)絡(luò)輸入進(jìn)行測試,在圖片檢測速度方面以分辨率6 240×4 160的實(shí)際圖像進(jìn)行測試,具體見表2。
表2 模型參數(shù)及漏誤檢
從表2可以看出,PST的計(jì)算量為135.38 GFLOPs,在所有模型中表現(xiàn)最好;在參數(shù)量方面PST大小為47.37×106;在檢測速度方面,PST平均每秒可檢測約2.5張圖像,與PST-S、MRC 101相當(dāng),略慢于MRC 50,但模型準(zhǔn)確率方面,PST表現(xiàn)最優(yōu)。因此,在兼顧模型檢測效率與準(zhǔn)確率方面,PST表現(xiàn)最優(yōu)。在模型漏誤檢方面,PST誤檢漏檢總數(shù)為44個(gè),在4個(gè)模型中表現(xiàn)最好;其次為PST-S,誤檢漏檢總數(shù)為58個(gè);雖然MRC 50在誤檢方面表現(xiàn)較好,但其漏檢目標(biāo)數(shù)量較多,整體較差;MRC 101誤檢漏檢總數(shù)為65個(gè),雖然相較于MRC 50在誤檢方面有所不足,但在漏檢方面表現(xiàn)較好,整體表現(xiàn)良好。
為了進(jìn)一步直觀對比不同模型的蟲害識別分割效果,通過目視分析的方法對驗(yàn)證集中的識別分割結(jié)果進(jìn)行評價(jià),如圖10所示。從A組圖片可以看出,MRC 50與MRC 101在圖片的左上角均出現(xiàn)了明顯的蟲害漏檢情況,而PST與PST-S蟲害則并未出現(xiàn);從B組圖片可以看出,4個(gè)模型在蟲害密集部分對于目標(biāo)邊緣分割均有所下降,以MRC 50與MRC 101降低最為嚴(yán)重,PST-S次之,PST最佳;從C組圖片可以看出,MRC 50與MRC 101分別在圖片的右下角與右上角的位置出現(xiàn)了誤檢情況,PST與PST-S模型并未誤檢。綜上所述,PST模型相較于其他模型具有更好的模型識別效果,更適用于復(fù)雜背景下多幼蟲個(gè)體識別分割任務(wù)的模型。
圖10 不同模型檢測結(jié)果對比Fig.10 A comparison of test results of different models
本研究提出了一種融合Swin Transformer的蟲害圖像實(shí)例分割優(yōu)化方法,基于實(shí)地拍攝的黃野螟幼蟲圖像數(shù)據(jù)集,選擇3種不同主干網(wǎng)的實(shí)例分割模型進(jìn)行對比實(shí)驗(yàn),對模型的總體精度、運(yùn)行效率、識別效果等進(jìn)行了分析。結(jié)果表明:該方法相較于其他模型在總體精度、運(yùn)行效率、識別效果、漏檢誤檢等方面均表現(xiàn)最優(yōu),表明了該方法對蟲害精準(zhǔn)監(jiān)測的可行性。
除此之外,與目前蟲害檢測識別與分割的研究[34-37]進(jìn)行對比分析可以發(fā)現(xiàn),大多數(shù)研究僅在無背景或單一背景的實(shí)驗(yàn)室環(huán)境蟲害圖像上具有較好的分割效果,缺少對復(fù)雜背景條件下蟲害識別分割效果分析。由于本研究對象為實(shí)地拍攝的黃野螟幼蟲圖像,包含背景相似、蟲害聚集、植物葉片遮擋等多種影響模型識別的因素,其實(shí)驗(yàn)結(jié)果更貼近于實(shí)際應(yīng)用場景,具有更好的普適性。通過對結(jié)果目視分析發(fā)現(xiàn),模型在大多數(shù)情況下可以取得較好的效果,但對于蟲害目標(biāo)受障礙物遮擋嚴(yán)重的圖像偶爾會(huì)出現(xiàn)漏檢或誤檢情況,這可能是因?yàn)楸緦?shí)驗(yàn)所采集的蟲害數(shù)據(jù)較少,對于評估PST模型的實(shí)際應(yīng)用效果具有一定的影響。在后續(xù)的研究工作中,應(yīng)繼續(xù)對數(shù)據(jù)集進(jìn)行擴(kuò)充與實(shí)驗(yàn),以進(jìn)一步驗(yàn)證PST模型在真實(shí)場景下的應(yīng)用效果。