蔡前舟,鄭伯川,曾祥銀,侯 金
(1.西華師范大學(xué)數(shù)學(xué)與信息學(xué)院,四川南充 637009;2.西華師范大學(xué)計(jì)算機(jī)學(xué)院,四川南充 637009;3.西華師范大學(xué)生命科學(xué)學(xué)院,四川南充 637009)
紅外線照相設(shè)備由于具有安裝方便、對(duì)野生動(dòng)物沒有傷害等優(yōu)點(diǎn),目前已經(jīng)成為野生動(dòng)物調(diào)查研究的主要工具。當(dāng)野生動(dòng)物出現(xiàn)在紅外線照相設(shè)備前面時(shí),紅外線照相設(shè)備可以自動(dòng)拍攝到野生動(dòng)物圖像和視頻。研究人員通過對(duì)圖像和視頻分析可以獲得野生動(dòng)物的生活習(xí)慣、種類和數(shù)量等有價(jià)值的信息,獲得這些信息有利于對(duì)野生動(dòng)物進(jìn)行更好的保護(hù)。紅外相機(jī)可以長期在野外環(huán)境自動(dòng)采集圖像和視頻,因此隨著時(shí)間推移,將會(huì)產(chǎn)生大量的野生動(dòng)物圖像和視頻數(shù)據(jù)。如果通過人工觀看方式分析識(shí)別圖像和視頻中的動(dòng)物種類和數(shù)量將消耗大量的人力物力。隨著計(jì)算機(jī)技術(shù)的發(fā)展,采用計(jì)算機(jī)視覺技術(shù)自動(dòng)識(shí)別圖像中野生動(dòng)物種類和數(shù)量已經(jīng)成為研究的熱點(diǎn)問題,特別是采用神經(jīng)網(wǎng)絡(luò)進(jìn)行野生動(dòng)物種類的識(shí)別已經(jīng)成為了首要方法。
基于神經(jīng)網(wǎng)絡(luò)的野生動(dòng)物種類和數(shù)量自動(dòng)識(shí)別方法需要標(biāo)注大量的樣本數(shù)據(jù),但是由于野生動(dòng)物種類數(shù)量不同,造成采集到圖像數(shù)據(jù)集中每個(gè)野生動(dòng)物種類的樣本數(shù)量不同,一些野生動(dòng)物種類的樣本數(shù)量占比大,而一些占比較小。如圖1 所示,不同種類的野生動(dòng)物樣本數(shù)量分布呈現(xiàn)出一條長長的尾巴,通常將有這樣分布的數(shù)據(jù)集叫作長尾數(shù)據(jù),將占比大的類稱為頭部類,占比小的類稱為尾部類。
圖1 野生動(dòng)物數(shù)據(jù)集的種類數(shù)量分布Fig.1 Distribution of the numbers of species in wildlife dataset
從圖1 可以看出,尾部類的野生動(dòng)物種類樣本數(shù)量很少,不同種類動(dòng)物的樣本數(shù)量分布極不均勻。與COCO(Microsoft Common Objects in COntext)、ImageNet、Cifar等均衡數(shù)據(jù)集不同,用長尾數(shù)據(jù)集訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)時(shí),由于頭部類樣本數(shù)量遠(yuǎn)多于尾部類樣本數(shù)量,所得模型預(yù)測(cè)結(jié)果會(huì)偏向頭部類,使得尾部類的識(shí)別錯(cuò)誤率上升,導(dǎo)致整體預(yù)測(cè)正確率下降。最近的一些研究旨在減小這種長尾問題的錯(cuò)誤率,提出了一些解決方法,這些方法大致可分成三種策略:重采樣、重加權(quán)和遷移學(xué)習(xí)。在重采樣中,可以對(duì)尾部類樣本進(jìn)行過采樣(添加重復(fù)數(shù)據(jù))或者是對(duì)頭部類樣本進(jìn)行欠采樣(刪除部分樣本)來調(diào)整樣本數(shù)量,使得數(shù)據(jù)集中各個(gè)類別的數(shù)量變得均勻,從而提升整體準(zhǔn)確率。例如王俊紅等提出了一種基于欠采樣和代價(jià)敏感的不平衡數(shù)據(jù)分類算法,在不平衡數(shù)據(jù)上表現(xiàn)出了更好的分類性能。在重加權(quán)中,通過給尾部類樣本分配更高的權(quán)重來影響損失函數(shù)。此類方法變種很多,例如最簡單的使用逆序加權(quán)、按照有效樣本數(shù)加權(quán)、根據(jù)樣本數(shù)優(yōu)化類間距的損失加權(quán)、根據(jù)正負(fù)樣本之間的成對(duì)損失進(jìn)行加權(quán)等。遷移學(xué)習(xí)是對(duì)頭部樣本和尾部樣本分別建立模型,將學(xué)到的頭部樣本的知識(shí)遷移給尾部樣本使用,例如:Xiang 等發(fā)現(xiàn)一個(gè)更均衡子集的訓(xùn)練結(jié)果反而比利用完整的數(shù)據(jù)集效果更好,因此采用多個(gè)子集來訓(xùn)練出更均衡的專家模型去指導(dǎo)一個(gè)學(xué)生模型。Zhang 等針對(duì)兩個(gè)階段訓(xùn)練的數(shù)據(jù)集有偏差的問題,提出了標(biāo)簽感知平滑和規(guī)范化批處理方法。
本文在自采集并標(biāo)注的野生動(dòng)物數(shù)據(jù)集上開展研究,由于YOLO(You Only Look Once)系列方法中YOLOv4-Tiny目標(biāo)檢測(cè)網(wǎng)絡(luò)具有參數(shù)小、識(shí)別速度快的優(yōu)點(diǎn),因此更容易加載到便攜式設(shè)備上,實(shí)現(xiàn)在邊緣設(shè)備上目標(biāo)自動(dòng)檢測(cè)?;诖?,本文利用YOLOv4-Tiny 目標(biāo)檢測(cè)網(wǎng)絡(luò)檢測(cè)野生動(dòng)物目標(biāo),從而識(shí)別野生動(dòng)物種類。重點(diǎn)針對(duì)數(shù)據(jù)集的長尾情況,提出了一種基于兩階段學(xué)習(xí)和重加權(quán)相結(jié)合的方法,其中重加權(quán)方法是對(duì)文獻(xiàn)[13]中的加權(quán)方法進(jìn)行改進(jìn)而來。
本文主要工作包括:
1)建立了一個(gè)新的野生動(dòng)物數(shù)據(jù)集,該數(shù)據(jù)集包含22種野生動(dòng)物種類,共有4 123 張圖像,每張圖像中都標(biāo)注了野生動(dòng)物的位置和類別。
2)采用兩階段訓(xùn)練方法訓(xùn)練神經(jīng)網(wǎng)絡(luò):第一階段在分類損失函數(shù)中采用無加權(quán)方式進(jìn)行訓(xùn)練,使得網(wǎng)絡(luò)對(duì)頭部數(shù)據(jù)進(jìn)行了充分訓(xùn)練;第二階段則采用第一階段學(xué)習(xí)到的模型作為預(yù)訓(xùn)練模型進(jìn)行重加權(quán)訓(xùn)練,使得尾部數(shù)據(jù)能夠得到更高的權(quán)重。
3)對(duì)文獻(xiàn)[13]中的有效樣本加權(quán)方法進(jìn)行了改進(jìn),用真實(shí)采集數(shù)據(jù)量代替特征空間中所有可能數(shù)據(jù)量,直接依據(jù)每類野生動(dòng)物樣本數(shù)量確定每個(gè)類別的特定權(quán)重參數(shù),不需要反復(fù)實(shí)驗(yàn)測(cè)試獲得全局統(tǒng)一權(quán)重參數(shù)。
利用紅外線照相設(shè)備可以在不干擾野生動(dòng)物的情況下采集野生動(dòng)物圖像和視頻,當(dāng)前一些研究通過神經(jīng)網(wǎng)絡(luò)對(duì)采集到的野生動(dòng)物圖像進(jìn)行分類識(shí)別。Zhu 等針對(duì)采集圖像清晰度低的問題提出了一種雙通道感知?dú)埐罱鹱炙W(wǎng)絡(luò),通過該網(wǎng)絡(luò)可生成高分辨率和高質(zhì)量的圖像,并且利用網(wǎng)絡(luò)中的殘差塊可以學(xué)習(xí)整合所有信息,獲得全尺度檢測(cè)分類結(jié)果。Chen 等使用深度卷積神經(jīng)網(wǎng)絡(luò)對(duì)20 種動(dòng)物進(jìn)行分類識(shí)別,他們使用自動(dòng)分割方法從圖像中裁剪出動(dòng)物圖像,然后用這些動(dòng)物圖像訓(xùn)練和測(cè)試網(wǎng)絡(luò)模型。Gomez 等在文獻(xiàn)[2]的基礎(chǔ)上使用不均衡和分段式的數(shù)據(jù)集進(jìn)行訓(xùn)練,并且使用了更深層數(shù)的神經(jīng)網(wǎng)絡(luò)進(jìn)行分類識(shí)別。
現(xiàn)有解決長尾數(shù)據(jù)問題的方法可分為三類:數(shù)據(jù)重采樣、數(shù)據(jù)重加權(quán)和遷移學(xué)習(xí)。
1.2.1 數(shù)據(jù)重采樣
數(shù)據(jù)重采樣技術(shù)指在數(shù)據(jù)預(yù)處理階段通過各種重采樣方法來平衡類別之間的數(shù)量。文獻(xiàn)[9,22]通過從少數(shù)類樣本中復(fù)制可用樣本來增加樣本數(shù)量,但是會(huì)產(chǎn)生過擬合問題。Chawla 等提出合成少數(shù)過采樣技術(shù)(Synthetic Minority Oversampling Technique,SMOTE),通過在原始數(shù)據(jù)點(diǎn)之間插值創(chuàng)建合成數(shù)據(jù),增加少數(shù)類數(shù)據(jù)的樣本數(shù)量。同時(shí)也有一些SMOTE 的改進(jìn)版本,如:Borderline SMOTE和Safe level SMOTE,但是這些過采樣技術(shù)不能確保生成的新樣本滿足少數(shù)類樣本的實(shí)際分布。除了增加少數(shù)類樣本數(shù)量外,文獻(xiàn)[10,26]則通過減少多數(shù)類樣本數(shù)量來平衡類別之間的數(shù)量,這些研究方法雖然減少了多數(shù)類的樣本數(shù)量,但一些重要的樣本數(shù)據(jù)可能被刪除,從而增加產(chǎn)生過擬合的風(fēng)險(xiǎn)。
1.2.2 數(shù)據(jù)重加權(quán)
數(shù)據(jù)重加權(quán)是通過在損失函數(shù)中給尾部類樣本分配更高的權(quán)重比例來達(dá)到平衡的方法。最簡單有效的加權(quán)方式是采用每類樣本數(shù)量的倒數(shù)作為每類樣本的權(quán)重,樣本出現(xiàn)頻率越高權(quán)重越低,反之亦然。文獻(xiàn)[27]在此基礎(chǔ)上進(jìn)行了改進(jìn),采用逆類頻率的平方根來計(jì)算樣本權(quán)重。Cui等則計(jì)算每類樣本的有效樣本數(shù),并根據(jù)有效樣本數(shù)分配權(quán)重。上述方法都假設(shè)尾部類樣本是最具代表性的樣本,因此給它們分配更高的權(quán)重。但這種假設(shè)可能不正確,如果給予高權(quán)重的樣本不具有代表性會(huì)導(dǎo)致整體性能下降。因此,Lin 等提出了一種稱作“焦點(diǎn)損失”的加權(quán)技術(shù),每個(gè)樣本的難度根據(jù)該樣本在網(wǎng)絡(luò)中的損失來衡量,損失越大則樣本難度越高。尾部類作為困難樣本,通過焦點(diǎn)損失加權(quán)時(shí)會(huì)比頭部類獲得更高的權(quán)重。
1.2.3 遷移學(xué)習(xí)
遷移學(xué)習(xí)是指兩個(gè)不同領(lǐng)域的知識(shí)遷移過程,利用源領(lǐng)域中學(xué)到的知識(shí)來幫助目標(biāo)領(lǐng)域上的學(xué)習(xí)任務(wù)。處理長尾問題時(shí),對(duì)尾部類采取重采樣或者重加權(quán)的方式可能會(huì)使頭部類的識(shí)別精度下降,影響整體性能。處理長尾問題采用遷移學(xué)習(xí)則是先學(xué)習(xí)原始數(shù)據(jù)的整體分布,然后再通過重采樣或者重加權(quán)的方式去學(xué)習(xí)尾部類。Liu 等提出通過一種方法學(xué)習(xí)一組動(dòng)態(tài)的元向量將頭部的視覺信息知識(shí)遷移給尾部類別使用。這組動(dòng)態(tài)元向量之所以可以遷移視覺知識(shí),是因?yàn)樗粌H結(jié)合直接的視覺特征,同時(shí)也利用一組關(guān)聯(lián)的記憶特征,這組記憶特征允許尾部類別通過相似度來利用相關(guān)的頭部信息。Kang 等提出將長尾分類模型的學(xué)習(xí)分成兩步:首先在不做處理的情況下使用原始數(shù)據(jù)來獲得一個(gè)學(xué)習(xí)模型,然后將學(xué)習(xí)模型中的權(quán)重參數(shù)固定,再單獨(dú)接上一個(gè)分類器,對(duì)分類器進(jìn)行重采樣學(xué)習(xí)。Zhou 等提出的方法和文獻(xiàn)[30]方法的想法類似,但是將模型兩步的學(xué)習(xí)步驟合并成一個(gè)雙分支模型,該模型的雙分支共享參數(shù),一個(gè)分支利用原始數(shù)據(jù)學(xué)習(xí),另一個(gè)分支使用重采樣學(xué)習(xí),然后對(duì)這兩個(gè)分支進(jìn)行動(dòng)態(tài)加權(quán)。
本文提出了一種基于兩階段學(xué)習(xí)的重加權(quán)方法。第一階段利用進(jìn)行無加權(quán)學(xué)習(xí),第二階段利用第一階段學(xué)習(xí)到的模型進(jìn)行重加權(quán)訓(xùn)練,加權(quán)方法基于文獻(xiàn)[13]改進(jìn)而來。本章先介紹YOLOv4-Tiny 網(wǎng)絡(luò)結(jié)構(gòu)以及改進(jìn)后的損失函數(shù),再介紹具體的加權(quán)改進(jìn)方法。
由于兩階段學(xué)習(xí)可以在第一階段學(xué)習(xí)整體數(shù)據(jù),然后在第二階段中通過重加權(quán)的方式使得模型重點(diǎn)關(guān)注尾部類樣本。這種學(xué)習(xí)方法優(yōu)點(diǎn)在于利用充分學(xué)習(xí)了頭部類知識(shí)的網(wǎng)絡(luò)去指導(dǎo)重加權(quán)下尾部類的網(wǎng)絡(luò),使得在不降低整體精度的情況下提升尾部類樣本的分類精度。圖2 中給出了兩階段學(xué)習(xí)的訓(xùn)練過程,主要思想是通過遷移學(xué)習(xí)將第一階段訓(xùn)練所得的最優(yōu)權(quán)重作為第二階段的預(yù)訓(xùn)練權(quán)重進(jìn)行訓(xùn)練,最后利用第二階段的最優(yōu)權(quán)重進(jìn)行分類預(yù)測(cè)。
圖2 兩階段訓(xùn)練過程Fig.2 Process of two-stage training
2.1.1 網(wǎng)絡(luò)結(jié)構(gòu)
YOLOv4-Tiny 網(wǎng)絡(luò)結(jié)構(gòu)如圖3 所示,采用CSPDarknet53(Cross Stage Partial Network Darknet 53)作為主干特征提取網(wǎng)絡(luò),激活函數(shù)為LeakyReLU(Leaky Rectified Linear Unit)。CSPDarknet53 具有兩個(gè)特點(diǎn):1)使用CSPNet(CSP Network)結(jié)構(gòu),將原來的殘差塊的堆疊進(jìn)行了拆分,拆成左右兩部分,主干部分繼續(xù)進(jìn)行原殘差塊的堆疊,另一部分則像一條殘差邊,經(jīng)過少量處理后直接連接,如圖3 中的Res(N
)Unit 結(jié)構(gòu);2)進(jìn)行通道的分割。CSPDarknet53 中會(huì)對(duì)一次3×3 卷積后的特征層進(jìn)行通道劃分,分成兩部分,各自經(jīng)過不同卷積核卷積后連接起來,如圖3 中的CSP-N 結(jié)構(gòu)。CSPDarknet53 后面連接特征金字塔網(wǎng)絡(luò)(Feature Pyramid Network,F(xiàn)PN)用于融合兩個(gè)不同大小的特征層。FPN 輸出兩個(gè)不同大小特征層,該兩個(gè)特征層輸入檢測(cè)網(wǎng)絡(luò)分別用于檢測(cè)不同大小的目標(biāo)。圖3 YOLOv4-Tiny網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Network structure of YOLOv4-Tiny
2.1.2 損失函數(shù)
YOLOv4-Tiny 的損失函數(shù)主要由三部分構(gòu)成,分別是預(yù)測(cè)邊界框的坐標(biāo)損失、含有物體的置信度損失以及物體類別預(yù)測(cè)值和真實(shí)值之間的分類損失,則總共損失Loss
可以寫成:loss
是預(yù)測(cè)候選框與真實(shí)框邊界之間產(chǎn)生的損失;loss
是該預(yù)測(cè)框是否含有物體的置信度損失;loss
是預(yù)測(cè)分類標(biāo)簽與真實(shí)分類標(biāo)簽的分類損失。由于完全交并比(Complete Intersection over Union,CIoU)損失對(duì)目標(biāo)與錨框之間的距離、重疊率、尺度以及懲罰項(xiàng)都有考慮,使得目標(biāo)框回歸更穩(wěn)定,不會(huì)出現(xiàn)類似IoU和廣義IoU(Generalized IoU,GIoU)中的發(fā)散問題,因此將CIoU 作為預(yù)測(cè)邊界框的損失。其計(jì)算公式如下:
ρ
(b
,b
)表示預(yù)測(cè)框與真實(shí)框的中心點(diǎn)的歐氏距離;c
是能夠同時(shí)包含預(yù)測(cè)框和真實(shí)框的最小閉包區(qū)域的對(duì)角線距離。α
和υ
的公式如下:w
與w
分別為真實(shí)框和預(yù)測(cè)框的高;h
與h
分別為真實(shí)框和預(yù)測(cè)框的寬。loss
的計(jì)算公式為:本文對(duì)分類損失的權(quán)重計(jì)算公式進(jìn)行改進(jìn),同時(shí)在實(shí)驗(yàn)中測(cè)試了交叉熵?fù)p失和焦點(diǎn)損失兩種分類損失計(jì)算方法。改進(jìn)后的分類損失函數(shù)計(jì)算公式見2.2 節(jié)。
V
構(gòu)成的樣本體積設(shè)為N
,該類特征空間中每個(gè)樣本都看作是特征空間V
的一個(gè)子集。由于特征重疊,所有子集的并集所構(gòu)成的樣本體積小于N
,把所有子集的并集構(gòu)成的樣本體積稱為期望體積,也被稱為有效樣本量。文獻(xiàn)[13]中有效樣本量的定義如下:設(shè)n
為某類采集到樣本的數(shù)量,N
為該類特征空間中所有可能樣本數(shù)量,定義該類樣本的有效樣本量E
為:S
=N
+N
+… +N
(i
∈C
,C
為樣本類別數(shù)),即S
為所有類別特征空間中所有可能的樣本數(shù)量N
的總和。由于無法知道每個(gè)類特征空間中所有可能的樣本數(shù)量N
,因此在文獻(xiàn)[13]中所有類的樣本量都統(tǒng)一設(shè)置為超參數(shù)N
。文獻(xiàn)[13]中在β
=0.9,0.99,0.999,0.999 9 時(shí)計(jì)算損失函數(shù),然后找出β
的最優(yōu)取值。2.2.1 公式計(jì)算改進(jìn)方法1
2.2.2 公式計(jì)算改進(jìn)方法2
2.2.3 改進(jìn)后的分類損失函數(shù)
設(shè)樣本標(biāo)簽為y
∈{1,2,…,C
},模型預(yù)測(cè)類概率為p
=[p
,p
…,p
],其中p
∈[0,1],分類損失函數(shù)用L
(p
,y
)表示,則對(duì)L
(p
,y
)進(jìn)行加權(quán)后的分類損失函數(shù)loss
表示為:野生動(dòng)物圖像數(shù)據(jù)集是通過紅外相機(jī)采集自四川臥龍自然保護(hù)區(qū),然后通過人工整理篩選后得到的。數(shù)據(jù)集包括大熊貓、金絲猴、藏綿羊、藏牦牛等19 種野生動(dòng)物,以及當(dāng)?shù)啬撩裨谝巴夥硼B(yǎng)的黃牛、家豬和馬3 種動(dòng)物,共4 123 張圖像。野生動(dòng)物種類數(shù)量的分布見圖1,其中藏綿羊最多(908 張),黑熊最少(46 張)。從圖1 可以看出,采集得到的野生動(dòng)物圖像數(shù)據(jù)集是典型的長尾數(shù)據(jù)。野生動(dòng)物圖像數(shù)據(jù)集中的每張圖像中還標(biāo)注了野生動(dòng)物的位置和類別信息。
在訓(xùn)練模型前將數(shù)據(jù)集按照9∶1 的比例隨機(jī)劃分成訓(xùn)練集和測(cè)試集,在訓(xùn)練集中隨機(jī)取出10%作為驗(yàn)證集,則訓(xùn)練集、驗(yàn)證集和測(cè)試集的數(shù)量分別為3 339 張、371 張、412 張。在訓(xùn)練模型之前,對(duì)訓(xùn)練集進(jìn)行mosaic 數(shù)據(jù)增強(qiáng),mosaic 數(shù)據(jù)增強(qiáng)利用4 張圖像進(jìn)行拼接,這樣可以豐富檢測(cè)物體的背景,并且可以一次性處理4 張圖像的數(shù)據(jù)。具體操作是每次讀取4 張圖像,分別對(duì)4 張圖像進(jìn)行翻轉(zhuǎn)、縮放、色域變換等操作,并且按照4 個(gè)方向位置擺放,然后進(jìn)行圖像裁剪拼接組合。
實(shí)驗(yàn)軟件環(huán)境:Ubuntu18.04.4 系統(tǒng),Python3.6 編程語言,Pytorch1.0 框架;硬件環(huán)境:Intel Xeon Silver 4114 CPU @2.20 GHz×40,內(nèi)存大小32 GB,GPU 為P5 000 和P2 000 兩張卡,顯存大小分別為8 GB 和4 GB。訓(xùn)練1 000 個(gè)Epoch,初始學(xué)習(xí)率設(shè)置為0.01,當(dāng)進(jìn)行到500 個(gè)Epoch 時(shí),學(xué)習(xí)率變成0.001。最小批次量設(shè)置為32,衰減速率設(shè)置為5E-4。
模型分兩階段進(jìn)行訓(xùn)練,第一階段訓(xùn)練時(shí),損失函數(shù)采用無加權(quán)方式,第二階段利用第一階段訓(xùn)練得到的權(quán)重作為預(yù)訓(xùn)練權(quán)重,然后分別采用無加權(quán)和本文改進(jìn)的2 種加權(quán)方式進(jìn)行訓(xùn)練。對(duì)于分類損失函數(shù)分別用交叉熵?fù)p失(Cross-Entropy loss,CE loss)函數(shù)和焦點(diǎn)損失(Focal loss)函數(shù)進(jìn)行訓(xùn)練。圖4 是交叉熵?fù)p失函數(shù)的變化情況,可以看出,在第二階段訓(xùn)練時(shí),本文提出的方法一和方法二的損失函數(shù)比無加權(quán)方式都下降得更低。圖5 是焦點(diǎn)損失函數(shù)的變化情況,其情況與圖4 類似,其中方法二的焦點(diǎn)損失函數(shù)相對(duì)較小。
圖4 交叉熵?fù)p失函數(shù)的變化圖Fig.4 Change graph of cross-entropy loss function
圖5 焦點(diǎn)損失函數(shù)的變化圖Fig.5 Change graph of focal loss function
γ
=0.5 的焦點(diǎn)損失函數(shù),進(jìn)行兩階段學(xué)習(xí)時(shí)可以獲得最好的mAP。表1 本文方法與無加權(quán)方法的mAP對(duì)比 單位:%Tab 1 mAP comparison of proposed methods and no-weighting method unit:%
當(dāng)采用γ
=0.5 的焦點(diǎn)損失函數(shù)時(shí),計(jì)算無加權(quán)、加權(quán)方法一和加權(quán)方法二對(duì)各樣本類別的平均精度(Average Precision,AP),結(jié)果如圖6 所示。由圖6 可以發(fā)現(xiàn):1)相較于無加權(quán)方法,兩種加權(quán)方法在整體上能保持頭部類的AP,同時(shí)也提高了整體尾部類的AP;2)整體上,加權(quán)方法二比加權(quán)方法一更有效,特別對(duì)尾部類更有效,例如對(duì)紅腹角雉、白腹錦雞、家豬、馬、大熊貓、斑羚等尾部類動(dòng)物的AP 相對(duì)更高。圖6 不同動(dòng)物種類的AP對(duì)比Fig.6 AP comparison of different species
為了進(jìn)一步驗(yàn)證本文加權(quán)方法的性能,將本文加權(quán)方法二與無加權(quán)、逆序加權(quán)、逆序平方根加權(quán)、有效樣本加權(quán)和LDAMLoss(Label-Distribution-Aware Margin Loss)方法在YOLOv4-Tiny 網(wǎng)絡(luò)下進(jìn)行對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表2所示??梢钥闯霰疚牡募訖?quán)方法二獲得的mAP 為61.18%,優(yōu)于其他4 種加權(quán)方法,與有效樣本加權(quán)方法相比,提高了2.14 個(gè)百分點(diǎn)。實(shí)驗(yàn)中對(duì)于有效樣本加權(quán)采用參數(shù)β
=0.99,以及焦點(diǎn)損失函數(shù)。表2 無加權(quán)方法與不同加權(quán)方法的mAP對(duì)比 單位:%Tab 2 mAP comparison of no-weighting method and different weighting methods unit:%
圖7 是不同加權(quán)方法獲得的部分尾部類野生動(dòng)物檢測(cè)結(jié)果。圖7 中每行是不同加權(quán)方法對(duì)同一張野生動(dòng)物圖像進(jìn)行目標(biāo)檢測(cè)的結(jié)果圖片??梢园l(fā)現(xiàn):
圖7 不同加權(quán)方法的部分野生動(dòng)物檢測(cè)結(jié)果Fig.7 Some wildlife detection results of different weighting methods
1)本文提出的加權(quán)方法二能更準(zhǔn)和更全地檢測(cè)出野生動(dòng)物目標(biāo)。對(duì)于樣例1 和樣例3,逆序加權(quán)和逆序平方根加權(quán)都不能檢測(cè)出圖像中的野生動(dòng)物;對(duì)于樣例1,只有本文加權(quán)方法二和LADMLoss 正確檢測(cè)出了野生動(dòng)物;對(duì)樣例2和樣例4 只有本文加權(quán)方法二正確檢測(cè)出了所有野生動(dòng)物;對(duì)于樣例3,只有有效樣本加權(quán)、LADMLoss 和本文加權(quán)方法二正確檢測(cè)出了野生動(dòng)物;
2)本文加權(quán)方法二檢測(cè)出的動(dòng)物目標(biāo)的置信度更高。對(duì)于樣例5 和樣例6,雖然所有加權(quán)方法都能檢測(cè)出野生動(dòng)物,但是本文提出的兩種加權(quán)方法的置信度是最高的,其中加權(quán)方法二對(duì)樣例5 和樣例6 的置信度更是達(dá)到了1。
為了解決長尾問題中數(shù)據(jù)不平衡問題,提出了一種兩階段學(xué)習(xí)與改進(jìn)重加權(quán)結(jié)合的方法,并將該方法融入YOLOv4-Tiny 中用于檢測(cè)野生動(dòng)物目標(biāo)。所提重加權(quán)方法基于有效樣本加權(quán)進(jìn)行改進(jìn),針對(duì)其需要多次尋找最優(yōu)超參數(shù)的不足,提出自動(dòng)計(jì)算超參數(shù)的公式。實(shí)驗(yàn)結(jié)果表明,提出的解決長尾問題的方法能有效解決野生動(dòng)物數(shù)據(jù)集的長尾問題,提升目標(biāo)檢測(cè)的整體性能,特別時(shí)提升對(duì)樣本量少的野生動(dòng)物種類的目標(biāo)檢測(cè)精度。下一步的工作將進(jìn)一步增加野生動(dòng)物圖像數(shù)據(jù)采集,研究進(jìn)一步提升野生動(dòng)物類別識(shí)別的技術(shù)。