郭子豪,董樂樂,曲志堅(jiān)
(山東理工大學(xué) 計算機(jī)科學(xué)與技術(shù)學(xué)院,山東 淄博 255000)
節(jié)肢動物數(shù)量龐大、種類多樣、生活環(huán)境復(fù)雜,在全部動物物種中,節(jié)肢動物占比超過80%,是動物界中最大物種種類,囊括一百多萬種的無脊椎動物。節(jié)肢動物分布廣泛,對自然環(huán)境的變化反應(yīng)敏感,因此節(jié)肢動物的鑒定與識別在生態(tài)環(huán)境監(jiān)測、農(nóng)田害蟲監(jiān)測[1-3]等方面有著重大的意義;然而,這些因素也給節(jié)肢動物的采樣、分類和識別帶來了巨大的挑戰(zhàn)。通過節(jié)肢動物對環(huán)境進(jìn)行監(jiān)測,或者對農(nóng)田病蟲害情況進(jìn)行分析,都需要先高效地對該區(qū)域內(nèi)的節(jié)肢動物進(jìn)行準(zhǔn)確識別和采樣。傳統(tǒng)的節(jié)肢動物采樣方法包括:1937 年Malaise[4]提出的馬氏網(wǎng)誘集法,1993年綦立正等[5]提出的吸蟲器法,1999年馮蘭萍等[6]提出的盆拍法以及1999年周強(qiáng)等[7]提出的目測法人工采樣方法。傳統(tǒng)的節(jié)肢動物分類方法主要依靠專業(yè)的昆蟲分類學(xué)家進(jìn)行人工分類,這種識別方式不僅耗時耗力,而且對專業(yè)知識有著較高要求,難以普及和推廣。
機(jī)器學(xué)習(xí)尤其是深度學(xué)習(xí)的高速發(fā)展為節(jié)肢動物進(jìn)行實(shí)時、準(zhǔn)確、自動的識別分類帶來了新的契機(jī)。早期,人們利用昆蟲的紋理、顏色等特征分別與支持向量機(jī)、人工神經(jīng)網(wǎng)絡(luò)等機(jī)器學(xué)習(xí)模型相結(jié)合對節(jié)肢動物進(jìn)行識別。但是,節(jié)肢動物數(shù)據(jù)量大、種類豐富,人工神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)容易欠擬合,識別效率不高,并且以往研究采用的數(shù)據(jù)集多為純動物形式的模式照[8],相關(guān)模型或算法在實(shí)際的復(fù)雜背景的生態(tài)環(huán)境中難以對節(jié)肢動物進(jìn)行準(zhǔn)確的識別。近年來,將深度學(xué)習(xí)模型用于復(fù)雜背景下的昆蟲自動識別已經(jīng)取得了一些成果。2017 年Zhu 等[9]利用將深層卷積神經(jīng)網(wǎng)絡(luò)作為提取器、支持向量機(jī)作為分類器的方式對鱗翅目物種進(jìn)行分類;2018 年謝娟英等[8]提出利用Faster RCNN 實(shí)現(xiàn)對節(jié)肢動物門下蝴蝶物種生態(tài)照的自動識別;2019 年P(guān)ang 等[10]通過聚類方法改進(jìn)原始自定義錨框生成,并使用基于區(qū)域的全卷積網(wǎng)絡(luò)(Region-based Fully Convolutional Network,R-FCN)模型實(shí)現(xiàn)自然環(huán)境下的昆蟲識別;李策等[11]使用可變形卷積改進(jìn)殘差網(wǎng)絡(luò)和感興趣區(qū)域池化層(Region of Interest Pooling,RoI Pooling),通過遷移學(xué)習(xí)的方式實(shí)現(xiàn)蝴蝶檢測;2020 年Zhang等[12]為了解決復(fù)雜自然環(huán)境下昆蟲識別準(zhǔn)確率低的問題,在DenseNet 中引入無邊緣主動輪廓分割策略;2021 年袁哲明等[13]使用輕量化網(wǎng)絡(luò)進(jìn)行多尺度特征融合實(shí)現(xiàn)鞘翅目等物種的分類。
雖然深度學(xué)習(xí)模型在昆蟲或動物識別領(lǐng)域取得了良好的效果,但是現(xiàn)有模型算法實(shí)現(xiàn)自然環(huán)境中節(jié)肢動物的識別和分類時仍存在一些問題:首先,節(jié)肢動物門數(shù)據(jù)集還不完善,大多數(shù)方法僅僅針對節(jié)肢動物門下具體某一目或某一種進(jìn)行識別,模型在泛化能力和魯棒性方面還存在著不足;其次,模型算法大多基于動物的模式照進(jìn)行識別且偏向于分類,在自然生態(tài)環(huán)境復(fù)雜的情況下其識別精度和識別準(zhǔn)確率難以滿足實(shí)際需求;最后,實(shí)際采集的節(jié)肢動物數(shù)據(jù)中通常包含小目標(biāo)和密集目標(biāo),而現(xiàn)階段對此類問題的研究往往局限于通用目標(biāo)檢測或特定檢測場景[14-16],缺乏檢測小目標(biāo)和密集目標(biāo)的針對性方法。
針對以上問題,本文提出了一種改進(jìn)Faster RCNN 模型的節(jié)肢動物識別方法,該方法適用于復(fù)雜背景下各種形態(tài)的節(jié)肢動物識別任務(wù)。不同于以往應(yīng)用于節(jié)肢動物門下單一目或種的方法,本文方法實(shí)現(xiàn)了對節(jié)肢動物門下主要7 種目的檢測,具有更好的泛化能力和魯棒性;同時還針對自然生態(tài)環(huán)境下存在的密集目標(biāo)、小目標(biāo)以及復(fù)雜背景下目標(biāo)的識別問題提出了有效解決辦法。
本文研究的數(shù)據(jù)來源于Kaggle 開源的ArTaxOr(Arthropod Taxonomy Orders Object Detection)數(shù)據(jù)集,它一共包含7 類,共15 376 張圖片,具體類別數(shù)據(jù)分布如表1 所示。獲取數(shù)據(jù)集后將圖像標(biāo)簽文件轉(zhuǎn)為MS COCO 格式,并將圖像數(shù)據(jù)按照6∶2∶2 的比例隨機(jī)劃分成訓(xùn)練集、驗(yàn)證集和測試集。
表1 ArTaxOr數(shù)據(jù)集類別分布Tab.1 Category distribution of ArTaxOr dataset
ArTaxOr數(shù)據(jù)集部分?jǐn)?shù)據(jù)集示例如圖1所示。對ArTaxOr數(shù)據(jù)集進(jìn)行觀察和分析,可以發(fā)現(xiàn)數(shù)據(jù)集中的節(jié)肢動物圖像具有以下特征:1)形態(tài)多變,所處環(huán)境復(fù)雜,且部分節(jié)肢動物擁有隱匿自身形態(tài)的技能;2)活動狀態(tài)豐富,多數(shù)情況下處在爬行、飛行、交配、捕食與被捕食等運(yùn)動狀態(tài)下;3)各類目標(biāo)尺寸不一,存在一定數(shù)量的小目標(biāo)和密集目標(biāo)。這些特征能夠很好地反映節(jié)肢動物的自然生存環(huán)境,同時也給節(jié)肢動物目標(biāo)檢測帶來了巨大的影響。為了提高自然環(huán)境下野外節(jié)肢動物檢測的精度和準(zhǔn)確率,本文改進(jìn)了兩階段目標(biāo)檢測通用模型Faster RCNN[17],提出了具有良好檢測性能的AROD RCNN(ARthropod Object Detection RCNN)方法。
圖1 數(shù)據(jù)集示例Fig.1 Dataset examples
AROD RCNN 方法是一種基于Faster RCNN 的節(jié)肢動物識別算法,而Faster RCNN 是一種能夠真正實(shí)現(xiàn)端到端訓(xùn)練的兩階段目標(biāo)檢測模型。Faster RCNN 模型主要可以分為四個模塊:特征提取網(wǎng)絡(luò)、區(qū)域建議網(wǎng)絡(luò)(Region Proposal Network,RPN)、RoI Pooling 以及分類和回歸部分。
AROD RCNN 模型針對生態(tài)環(huán)境中節(jié)肢動物特點(diǎn)對Faster RCNN 模型中的四個模塊分別做了相應(yīng)的適配與改進(jìn),具體如下:
首先,針對野外節(jié)肢動物活動狀態(tài)多樣、節(jié)肢動物個體尺寸差異較大、數(shù)據(jù)集采集角度不統(tǒng)一等問題導(dǎo)致的利用常規(guī)卷積規(guī)則采樣點(diǎn)難以學(xué)習(xí)到節(jié)肢動物在各種復(fù)雜場景下的姿態(tài)特征的問題,采用可變形卷積網(wǎng)絡(luò)(Deformable Convolution Network,DCN)[18]重 塑Faster RCNN 骨干特征提取網(wǎng)絡(luò)卷積層。
其次,針對一些節(jié)肢動物能夠利用偽裝與環(huán)境融為一體進(jìn)行自我保護(hù)的特點(diǎn),以及數(shù)據(jù)集中存在部分的密集目標(biāo)圖像,導(dǎo)致RPN 提取出的前景建議框中可能出現(xiàn)大量噪聲、遮擋以及難以區(qū)分目標(biāo)邊界的情況,提出一種有監(jiān)督的并行空間與通道注意力(Supervised Parallel Spatial and Channel ATtention modules,SPSCAT)結(jié)構(gòu),解決節(jié)肢動物圖像數(shù)據(jù)集中小目標(biāo)、遮擋目標(biāo)、模糊目標(biāo)和復(fù)雜背景的問題。
再次,由于節(jié)肢動物生態(tài)照中存在多尺度的目標(biāo),而多尺度的節(jié)肢動物目標(biāo)差異會影響模型的識別效果,另外特征圖在骨干網(wǎng)絡(luò)中進(jìn)行連續(xù)的下采樣過程中往往會丟失小目標(biāo)的位置和特征信息,所以使用特征金字塔網(wǎng)絡(luò)(Feature Pyramid Network,F(xiàn)PN)[19]對底層空間位置特征和高層語義特征進(jìn)行互補(bǔ),可以在各級分辨率特征圖中檢測不同尺寸的目標(biāo)。
最后,針對節(jié)肢動物數(shù)據(jù)集存在的密集目標(biāo)問題,使用密集局部回歸(Dense Local Regression,DLR)方法[20]對回歸階段進(jìn)行改進(jìn),提高了模型回歸的準(zhǔn)確性。
改進(jìn)后模型架構(gòu)如圖2 所示,使用3×3 的可變形卷積替換特征提取網(wǎng)絡(luò)中C1~C5 塊原有的3×3 卷積,并在C3~C5 塊后加入了SPSCAT 機(jī)制,同時采用特征金字塔思想對C2~C6塊進(jìn)行特征融合,在最后的回歸階段使用密集局部回歸。
圖2 改進(jìn)后模型的架構(gòu)Fig.2 Architecture of improved model
在AROD RCNN 模型骨干網(wǎng)絡(luò)中,可變形卷積對每一個采樣點(diǎn)都增加了一個偏移量{Δhn|n=1,2,…,N}(N∈ |R|),此時卷積操作如圖3 所示。由圖3 可知,卷積操作由圖3(a)變?yōu)椴灰?guī)則采樣點(diǎn)圖3(b);圖3(c)和(d)為可變形卷積中的特殊情況,表明可變形卷積可適用于各種形態(tài)變化。
圖3 常規(guī)卷積與可變形卷積的對比Fig.3 Comparison of conventional convolution and deformable convolution
常規(guī)卷積操作中采樣點(diǎn)h0與可變形卷積采樣點(diǎn)公式對比如下:
其中:R為規(guī)則網(wǎng)格,規(guī)定了感受野的大?。沪?hn)為權(quán)重;增加偏移量Δhn意味著需要對不連續(xù)位置進(jìn)行求導(dǎo),偏移量Δhn通常不是整數(shù),這里利用雙線性插值[21]來解決。
另外,普通卷積操作輸出通道數(shù)為N的輸出特征,同樣的操作在可變形卷積中可以得到通道數(shù)為2N的輸出特征,比普通卷積多了偏移特征,如圖4 所示。
圖4 可變形卷積過程Fig.4 Deformable convolution process
加入偏移量后,可能會出現(xiàn)卷積核的感受野大于目標(biāo)區(qū)域的情況,為解決此問題,在式(2)加上懲罰項(xiàng),改進(jìn)后如式(3)所示:
普通RoI Pooling 是把一張?zhí)卣鲌D分為若干個形狀規(guī)則、位置固定的區(qū)域,這給特征映射過程帶來了局限性,進(jìn)而會降低檢測結(jié)果的準(zhǔn)確性。ROI Pooling 也可借鑒可變形思想,在其原有結(jié)構(gòu)上增加了偏移特征如式(4)所示(式(4)可由式(2)推出):
其中:nij是第(i,j)特征圖區(qū)域空間塊上像素數(shù);Δhij是通過全連接層輸出的偏移量矩陣??勺冃蔚腞oI Pooling 提取了更多的節(jié)肢動物的結(jié)構(gòu)特特征,并且該模塊中全連接層的參數(shù)可以通過反向傳播進(jìn)行學(xué)習(xí)調(diào)整,進(jìn)而通過下采樣加速訓(xùn)練。
標(biāo)準(zhǔn)卷積與可變形卷積的采樣位置對比如圖5 所示,可變形卷積采樣點(diǎn)通過偏置矩陣的作用由原來的規(guī)則采樣變成根據(jù)特征變換采樣點(diǎn)位置,提取到的特征更具有代表性;同時感受野隨特征的變化而變化,自適應(yīng)地融合每個像素點(diǎn)相鄰的相似結(jié)構(gòu)信息,生成可變形的特征圖像,進(jìn)而提高檢測的準(zhǔn)確率。
圖5 兩種卷積的采樣位置對比Fig.5 Comparison of sampling positions of two convolutions
SPSCAT 機(jī)制的網(wǎng)絡(luò)結(jié)構(gòu)分為兩部分:虛線的上半部分為空間注意力模塊,下半部分為通道注意力模塊,如圖6所示。
圖6 SPSCAT機(jī)制的網(wǎng)絡(luò)結(jié)構(gòu)Fig.6 Network structure of SPSCAT mechanism
在空間注意力模塊中,經(jīng)過卷積得到的特征圖首先投影到一組非對稱的卷積結(jié)構(gòu)中,通過各尺度的卷積得到不同尺度的特征映射,獲取更豐富的空間特征,融合后再進(jìn)行一次卷積得到包含目標(biāo)區(qū)域與背景區(qū)域得分的顯著性圖(Saliency map)。同時對輸入圖像進(jìn)行二值化,該操作通過對應(yīng)標(biāo)簽給原始圖像不同區(qū)域打分,設(shè)含有目標(biāo)區(qū)域內(nèi)得分為1,其他區(qū)域得分為0,以此得到二值圖(Binary map),利用顯著性圖和該二值圖交叉熵?fù)p失進(jìn)行有監(jiān)督訓(xùn)練。通過訓(xùn)練調(diào)整各尺寸卷積核的權(quán)重,提高對目標(biāo)區(qū)域關(guān)注度,從而提高感興趣區(qū)域特征的影響力、降低背景信息的干擾。
在通道注意力模塊中,將獲取到的特征信息沿通道方向分別進(jìn)行全局平均池化和全局最大池化,將原始特征圖壓縮成一維向量,包含全局特征的向量再經(jīng)過兩個全連接層和一個激活層擬合通道間的相關(guān)性,分別得到兩個通道特征圖后進(jìn)行融合,最后經(jīng)過sigmoid 操作獲得歸一化后的權(quán)重并賦給每個特征通道。該模塊不同于SE-Net(Squeeze-and-Excitation Network)[23]中只利用全局平均池化作為壓縮操作的通道注意力機(jī)制,本文通過全局最大池化作為并聯(lián)分支,能提升該模塊的穩(wěn)健性。
將加權(quán)處理后的空間特征圖、通道特征圖、原特征圖相乘得到新的特征圖FA,圖7(b)、(c)分別為未經(jīng)過注意力機(jī)制的特征圖可視化結(jié)果和新的特征圖FA可視化結(jié)果,圖7(d)、(e)分別表示C5~C6 塊中SPSCAT 模塊下經(jīng)過不同尺度特征映射的融合結(jié)果及顯著性圖。這表明該模塊能夠增強(qiáng)有效特征、減弱無效特征,而且還可以保留細(xì)小特征信息和上下文語義信息。同時,引入的監(jiān)督機(jī)制可有效引導(dǎo)網(wǎng)絡(luò)進(jìn)行正確學(xué)習(xí),有利于網(wǎng)絡(luò)后期的分類和回歸,增加網(wǎng)絡(luò)的魯棒性。
圖7 可視化注意力機(jī)制和FPN融合Fig.7 Visualized attention mechanism and FPN fusion
為防止在連續(xù)的卷積操作過程中丟失小目標(biāo)的特征信息,本文采用特征金字塔思想對特征提取網(wǎng)絡(luò)中不同卷積塊進(jìn)行特征融合。圖7(f)為使用FPN 進(jìn)行特征融合得到的融合特征層P6 輸出的可視化結(jié)果,圖中高亮區(qū)域?yàn)槟P皖A(yù)測目標(biāo)所在位置,由該圖可以得知特征金字塔結(jié)構(gòu)能夠擬合不同尺度目標(biāo)的位置和語義信息,有效應(yīng)對復(fù)雜環(huán)境下節(jié)肢動物尺度不一的問題。
邊界框回歸一直是目標(biāo)檢測的難題,在Faster RCNN 模型回歸階段,輸入是Q×Q大小的特征子圖,將其作為一個單一的全局變量并求其在四個方向的偏移量,然后通過全連接層預(yù)測單個候選框的偏移量,如式(5)所示:
其中:(x,y)為框的中心點(diǎn)坐標(biāo),(w,h)為框的寬和高,G、P分別表示目標(biāo)真實(shí)框與目標(biāo)候選框。
使用上述方式進(jìn)行回歸預(yù)測往往會導(dǎo)致密集目標(biāo)檢測精度不高,回歸框中有多個目標(biāo)時準(zhǔn)確率會大幅度下降。針對這一問題,在回歸階段使用密集局部回歸方法,示意圖如圖8 所示。
圖8 密集局部回歸采樣Fig.8 Dense local regression sampling
首先將Q×Q大小的特征子圖中任一點(diǎn)作為特征點(diǎn),針對每個特征點(diǎn)求其在4 個方向的偏移量O(m,n,s,v),使用各個局部特征對任意框的局部位置進(jìn)行偏移預(yù)測,如式(6)所示:
其中:(x0,y0)為局部特征坐標(biāo);(xm,ys)、(xn,yv)分別為真實(shí)框左上角和右下角的坐標(biāo)。
同時,為了減少計算多個偏移量所帶來的計算量,引入新的矢量ti,其定義如式(7)所示:
在求偏移量之前利用交并比(Intersection over Union,IoU)判斷特征點(diǎn)屬于前景還是背景,然后在確定是有效特征點(diǎn)的基礎(chǔ)上求取偏移量,最后將每一個特征點(diǎn)的偏移量取均值得到最終的特征圖偏移量用作回歸。
本文所有實(shí)驗(yàn)均基于Ubuntu18.04 操作系統(tǒng),使用深度學(xué)習(xí)算法框架Pytorch1.4.0 并利用GPU 進(jìn)行加速計算,硬件系統(tǒng)為Intel Core i5-10400F,顯卡為GeForce RTX 2070 SUPER。消融實(shí)驗(yàn)采用標(biāo)準(zhǔn)隨機(jī)梯度下降法進(jìn)行訓(xùn)練,batchsize 均為1,初始學(xué)習(xí)率為0.001 25,權(quán)重衰減項(xiàng)為0.000 1,梯度更新權(quán)值為0.9,每個實(shí)驗(yàn)均訓(xùn)練24 個epoch。
本文設(shè)定IoU 在0.5~0.95 作為判斷檢測目標(biāo)是前景或背景的閾值,使用平均精度(Average Precision,AP)、召回率(Recall)和各類別平均精度均值(mean Average Precision,mAP)等評價指標(biāo)對各實(shí)驗(yàn)結(jié)果進(jìn)行評價。其中,AP 是IoU為0.5~0.95 時,當(dāng)前類別下模型Recall 為0~1 時的精度均值,計算方法如式(8)所示,即以召回率為橫軸、精確率(Precision)為縱軸繪成的Precision-Recall 二維曲線與橫軸間的面積。mAP 是所有類別平均精度AP 的均值,如式(9)所示。
為了量化分析Faster RCNN 中引入可變形卷積結(jié)構(gòu)、特征金字塔結(jié)構(gòu)、SPSCAT 機(jī)制、改進(jìn)回歸方式等方法對節(jié)肢動物目標(biāo)檢測性能的影響,本文分別使用上述方法與Faster RCNN 相結(jié)合,并在ArTaxOr 數(shù)據(jù)集上進(jìn)行消融實(shí)驗(yàn),消融實(shí)驗(yàn)中各模型結(jié)構(gòu)以及結(jié)果如表2 所示,表中各模型骨干網(wǎng)絡(luò)均為ResNet50,AT 均為SPSCAT 模塊,DCN 均指DCNv2。圖9反映了各模型在不同閾值下的PR(Precision-Recall)曲線。
從表2 和圖9 的實(shí)驗(yàn)結(jié)果來看,分別引入可變形卷積(Faster RCNN-DCN)、SPSCAT 模塊(Faster RCNN-AT)、特征金字塔結(jié)構(gòu)(Faster RCNN-FPN)對原Faster RCNN 模型檢測精度和召回均有較大的提升。其中單獨(dú)引入SPSCAT 模塊的檢測效果較另外兩個模型略有不足,原因分析如下:1)Faster RCNN-AT 結(jié)構(gòu)是在特征提取網(wǎng)絡(luò)中C6 塊之后對特征圖進(jìn)行改進(jìn),網(wǎng)絡(luò)輸出的僅是聚集注意力的最高層特征信息,而特征圖在進(jìn)行連續(xù)的下采樣過程中會丟失大量的像素信息,在SPSCAT 結(jié)構(gòu)中的空間注意力部分獲得的顯著圖無法很好地保留上下文語義信息,導(dǎo)致模型的魯棒性較差;2)特征提取網(wǎng)絡(luò)中特征圖經(jīng)過該模塊疊加空間和通道注意力機(jī)制時,上層提取到的特征圖受限于普通卷積的影響,同時,數(shù)據(jù)集中存在一部分圖像目標(biāo)被遮擋情況,被遮擋部分形狀不規(guī)則,注意力機(jī)制能消除部分背景信息影響,較小程度的干擾信息依然會影響模型的效果。
圖9 消融實(shí)驗(yàn)中各模型的PR曲線Fig.9 PR curves of different models in ablation experiments
從各模型識別效果來看,F(xiàn)aster RCNN 模型對節(jié)肢動物的檢測效果并不理想。主要是因?yàn)锳rTaxOr 數(shù)據(jù)集中存在密集小目標(biāo)以及目標(biāo)環(huán)境背景復(fù)雜等問題。說明Faster RCNN 模型針對單一目標(biāo)、背景信息簡單的節(jié)肢動物圖像有較好的性能,但未能檢測出隱匿能力較強(qiáng)的目標(biāo),即針對節(jié)肢動物外形紋理和背景相似的圖像檢測效果較差,對于多目標(biāo)數(shù)據(jù)漏檢率較高,對密集目標(biāo)以及部分遮擋目標(biāo)檢測效果不佳。圖10 給出了Faster RCNN 以及單獨(dú)引入可變形卷積(Faster RCNN-DCN)、SPSCAT 模塊(Faster RCNN-AT)、特征金字塔結(jié)構(gòu)(Faster RCNN-FPN)在部分?jǐn)?shù)據(jù)集中的表現(xiàn),從圖中可以看出,針對Faster RCNN 模型在檢測自然生態(tài)環(huán)境下的節(jié)肢動物時存在的問題,各改進(jìn)后的模型效果均有一定程度的改善。
圖10 單獨(dú)引入各方法的效果對比Fig.10 Comparison of effect of introducing single method individually
考慮到數(shù)據(jù)集圖像中存在豐富的背景信息,使用特征金字塔結(jié)構(gòu)進(jìn)行不同尺度的特征融合能夠很好地結(jié)合高低層特征的位置及語義信息,提高模型的魯棒性,故后續(xù)消融實(shí)驗(yàn)均使用特征金字塔結(jié)構(gòu)對骨干網(wǎng)絡(luò)中的C2~C6 塊進(jìn)行特征融合,表2 中Faster RCNN-DCFPN(實(shí)驗(yàn)5)和Faster RCNNATFPN(實(shí)驗(yàn)6)對比實(shí)驗(yàn)表明在加入FPN 后,兩個模型在節(jié)肢動物目標(biāo)檢測任務(wù)中擁有更好的擬合能力,尤其是Faster RCNN-ATFPN 模型,在引入有監(jiān)督并行空間和通道注意力的基礎(chǔ)上增強(qiáng)了特征,消除背景信息干擾的同時融合各層語義和位置信息,效果較可變形卷積加特征金字塔結(jié)構(gòu)更優(yōu)。改進(jìn)模型較原模型在ArTaxOr 數(shù)據(jù)集上的mAP0.5:0.95提升了0.453,召回率提升了0.303,大幅度改善了漏檢情況。
表2 消融實(shí)驗(yàn)中各模型結(jié)構(gòu)及結(jié)果Tab.2 Structures and results of different models in ablation experiments
為驗(yàn)證DLR 方法對節(jié)肢動物目標(biāo)檢測效果的影響,在實(shí)驗(yàn)5 和實(shí)驗(yàn)6 的最后回歸階段使用了密集局部回歸方法,結(jié)果如表2 中實(shí)驗(yàn)7 和實(shí)驗(yàn)8 所示。圖11 分別為實(shí)驗(yàn)5~8 的對比效果,圖中顯示使用DLR 方法后針對密集目標(biāo)以及目標(biāo)被遮擋情況均有改善,說明模型在回歸階段通過利用IoU加入過濾掩膜剔除無效區(qū)域特征點(diǎn),計算整個圖中有效特征點(diǎn)在4 個方向的偏移矢量的方法對于邊界框的回歸有較大改進(jìn)。
圖11 二次引入各方法的效果對比Fig.11 Comparison of effects of introducing two methods
表3 為對比實(shí)驗(yàn)中各模型在節(jié)肢動物數(shù)據(jù)集中檢測的各類AP 值(IoU 為0.5 到0.95 的各AP 均值),原始Faster RCNN 模型在數(shù)據(jù)集的7 個類別節(jié)肢動物檢測中表現(xiàn)均較差,主要是漏檢率和誤報率高,尤其是膜翅目,由于該類別下多為密集目標(biāo)圖像且該類本身類間差距小、類內(nèi)差距大,導(dǎo)致該類AP 值很低。表3 的實(shí)驗(yàn)結(jié)果表明,本文設(shè)計的各個模塊對各類節(jié)肢動物檢測精度有顯著提升。
表3 消融實(shí)驗(yàn)中各模型的各類別AP值Tab.3 AP value of each category of each model in ablation experiment
通過熱力圖可以直觀地看出各模型對待檢測圖像的感興趣區(qū)域。圖12 是對各模型在部分測試集中進(jìn)行可視化分析的熱力圖及與原圖疊加后的結(jié)果。圖12(b)~(j)分別為實(shí)驗(yàn)1~9 中(詳見表2)各個模型的效果,前4 張圖像分別為不同環(huán)境下的密集目標(biāo)實(shí)例,第5 張圖像為包含大目標(biāo)與小目標(biāo)實(shí)例,最后一張圖像為被捕食狀態(tài)即被遮擋目標(biāo)實(shí)例。圖12 的結(jié)果顯示,本文提出的模型對自然生態(tài)環(huán)境下的節(jié)肢動物檢測取得了較好的檢測結(jié)果,主要表現(xiàn)在:1)模型提取到的特征中幾乎不含噪聲,噪聲等因素對模型檢測干擾小;2)對于含多目標(biāo)的圖像,模型漏檢率低、目標(biāo)間邊界清晰;3)包含語義和位置信息豐富,能夠在復(fù)雜背景下對各種節(jié)肢動物精準(zhǔn)定位,進(jìn)而使得模型誤識率(模型判定背景區(qū)域?yàn)?目標(biāo)區(qū)域)低,精度高。
圖12 消融實(shí)驗(yàn)中不同模型的熱力圖對比Fig.12 Comparison of heatmaps of different models in ablation experiments
為進(jìn)一步驗(yàn)證本文提出的算法有效性,對比測試了現(xiàn)階段主流的無錨框檢測模型 FreeAnchor[24]、FoveaBox[25]、單階段檢測模型RetinaNet[26]、YOLOv4[27]、兩階段檢測模型Double-Head RCNN[28]、Grid RCNN[29],實(shí)驗(yàn)結(jié)果如表4 所示,表中列出了各模型在節(jié)肢動物數(shù)據(jù)集中檢測各類別精度以及所有類別平均精度和召回率。
表4 本文模型對比主流檢測模型的結(jié)果Tab.4 Comparison results of the proposed model and mainstream detection models
總體而言,無錨框檢測模型受限于回歸方式的影響,預(yù)測時多為假陽性目標(biāo),故模型召回率較高但精度很低;單階段檢測模型受限于檢測時回歸方式單一、特征表達(dá)能力較弱,且模型檢測誤報率較高,故檢測精度較差;對比而言兩階段檢測模型在節(jié)肢動物數(shù)據(jù)集中具有更好的表現(xiàn)。而本文提出的模型充分考慮到數(shù)據(jù)集目標(biāo)的特點(diǎn),有針對地對數(shù)據(jù)集中存在的目標(biāo)背景復(fù)雜、形態(tài)多變、小目標(biāo)和密集目標(biāo)問題進(jìn)行改進(jìn),故對于節(jié)肢動物檢測效果優(yōu)于上述主流模型,在各類別檢測中也表現(xiàn)出良好的性能。
針對野外自然環(huán)境下節(jié)肢動物檢測精度和準(zhǔn)確率不高的情況,改進(jìn)了Faster RCNN 的節(jié)肢動物目標(biāo)檢測方法,改進(jìn)模型較原模型在ArTaxOr 數(shù)據(jù)集上的mAP0.5:0.95提升了0.453,召回率提升了0.303,大幅度改善漏檢情況。首先,提出了一個新的注意力機(jī)制SPSCAT,采用有監(jiān)督的學(xué)習(xí)方式使模型更關(guān)注待檢測目標(biāo)區(qū)域的特征,避免采集和學(xué)習(xí)大量無用背景特征,降低了節(jié)肢動物所在環(huán)境的影響,解決了提取目標(biāo)特征時含有大量噪聲和遮擋問題,更易于區(qū)分交雜在一起的節(jié)肢動物,改善了漏檢誤報情況;由于注意力機(jī)制更傾向于關(guān)注全局特征分布,為充分利用局部信息的特征,使用可變形卷積重塑骨干網(wǎng)絡(luò)中的普通卷積,同時使用可變形RoI Pooling 使模型更準(zhǔn)確地擬合不同節(jié)肢動物的形狀和位置特征,大幅度提高模型的檢測精度和泛化能力。其次,使用特征金字塔結(jié)構(gòu)進(jìn)行特征融合,保留小目標(biāo)的低級語義特征,避免高分辨率和低分辨率特征圖中同時包含的目標(biāo)信息丟失,顯著提升了小目標(biāo)節(jié)肢動物的檢測精度。最后,在模型的回歸階段使用密集局部回歸方法,利用全卷積網(wǎng)絡(luò)代替全連接層對每個候選子區(qū)域進(jìn)行回歸預(yù)測,實(shí)現(xiàn)節(jié)肢動物在不同背景下的精準(zhǔn)定位。
為進(jìn)一步驗(yàn)證模型的泛化能力,后續(xù)將對數(shù)據(jù)集種類進(jìn)行擴(kuò)充,并在原有數(shù)據(jù)上進(jìn)行光照畸變、幾何畸變等數(shù)據(jù)增強(qiáng)方法,模仿人類對節(jié)肢動物分類的過程,采用半監(jiān)督學(xué)習(xí)方式進(jìn)行訓(xùn)練,提高模型性能;同時,今后還要深入研究節(jié)肢動物類間差異與類內(nèi)差異導(dǎo)致模型檢測存在誤報的問題。