中圖分類號(hào):TP3191.4;TP301.6 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):2096-4706(2025)08-0046-09
Abstract:To address theisues of low detection accuracy and highcomputational load in infrared smalltarget detection from UAVaerial perspectives,a lightweight infrared smalltargetdetectionmodel,YOLO-IRLight,is proposed basedon YOLOv8s.Thismodelintroduces theEMA(EffcientMultiscaleAttention)Atention Mechanism toenhancefeatureextraction capabilities.APConv-C2f module isadded tothe neck of the network toreducecomputationalloadand fuse scale sequence features,andaP2detectionlayerisincorporatedtootimizethenetworkstructure,therebyimprovingsmaltargetdetection performance.Aovellgtweightdetectionead,Goup-Detect,isesigned,andtheNWD(NoaledussnWten Distance)lossfunctionisincorpoatedintothelossfunctionof themodelinalinearcombination maer.Experimentalresults on the open dataset show that compared to the original YOLOv8s, the proposed model improves detection accuracy ( m A P@ 0 . 5 ) ( by 1 . 7 % ,reduces the number of parameters by 4 5 . 9 % ,decreases computational complexity (GFLOPs) by 3 3 . 5 % ,and increases F1 score by 0 . 9 % .The improved algorithm significantly outperforms traditional algorithms,with notable improvements in detection accuracy compared to current mainstream algorithms.
Keywords: Small Target Detection; infrared target; lightweight; YOLOv8; network optimization
0 引言
目標(biāo)檢測(cè)是計(jì)算機(jī)視覺(jué)的重要任務(wù),在各種領(lǐng)域如搜索救援、智能監(jiān)控中都有廣泛的使用。而無(wú)人機(jī)近年來(lái)不斷發(fā)展,因其能夠無(wú)視地形因素進(jìn)行拍攝和定位,將目標(biāo)檢測(cè)技術(shù)應(yīng)用于無(wú)人機(jī)上,能提升功能性從而為社會(huì)提供應(yīng)用價(jià)值。無(wú)人機(jī)拍攝的紅外圖像相較于可見光(Visible,VIS)圖像,能更好地反應(yīng)圖像的熱目標(biāo)特性。但在大部分應(yīng)用場(chǎng)景中,紅外小目標(biāo)缺少相對(duì)明顯的顏色、形狀、紋理等特征信息,且邊界模糊,環(huán)境噪聲與雜波導(dǎo)致紅外圖像的信噪比降低,進(jìn)一步加大了復(fù)雜環(huán)境下的紅外小目標(biāo)檢測(cè)難度。所以對(duì)于紅外小目標(biāo)的檢測(cè)過(guò)程仍面臨諸多挑戰(zhàn)[1]。實(shí)時(shí)性和準(zhǔn)確性對(duì)于無(wú)人機(jī)目標(biāo)檢測(cè)任務(wù)至關(guān)重要,將深度學(xué)習(xí)模型部署到小型設(shè)備上具有挑戰(zhàn)性,而輕量化模型又難以在提高準(zhǔn)確度的同時(shí)滿足實(shí)時(shí)性要求?;谶@一點(diǎn),本文提出設(shè)計(jì)一種模型復(fù)雜度較低的無(wú)人機(jī)航拍紅外小目標(biāo)圖像目標(biāo)檢測(cè)算法。
目前,傳統(tǒng)的檢測(cè)方法和基于深度學(xué)習(xí)的檢測(cè)方法都能完成紅外圖像小目標(biāo)檢測(cè)。傳統(tǒng)的目標(biāo)檢測(cè)算法通過(guò)特定的圖像處理技術(shù),建立背景模型來(lái)消除或降低背景噪聲,從而突出目標(biāo)信號(hào)完成目標(biāo)檢測(cè)。宋[2]等人提出一種基于改進(jìn)加權(quán)局部對(duì)比度的檢測(cè)方法,利用目標(biāo)的各向同性采用六方向梯度法選擇目標(biāo)點(diǎn)進(jìn)行決策,判斷出目標(biāo)的位置。但是對(duì)于變化劇烈的背景或光照條件敏感,容易產(chǎn)生虛假目標(biāo)。Younsi[3]等人在采用高斯混合模型(GaussianMixtureModel,GMM)背景差分法提取圖像序列中所有目標(biāo)后,引入基于形狀、外觀等組合相似函數(shù)來(lái)檢測(cè)目標(biāo)。但是背景中的小物體容易干擾主體目標(biāo)的檢測(cè),導(dǎo)致目標(biāo)信息的丟失。
目前卷積神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)技術(shù)都在不斷進(jìn)步,基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法層出不窮,而紅外小目標(biāo)檢測(cè)是重要的研究方向之一。Qi等人將Transformer和CNN的網(wǎng)絡(luò)架構(gòu)融合,CNN獲取局部細(xì)節(jié),Transformer用自注意機(jī)制來(lái)學(xué)習(xí)上下文依賴關(guān)系,增強(qiáng)了紅外圖像的目標(biāo)特征。文獻(xiàn)[5]中 Jiang等人基于Transformer針對(duì)可見光(visible,VIS)和熱紅外(thermalinfrared,TIR)圖像設(shè)計(jì)了目標(biāo)檢測(cè)模型。Liang等以FasterR-CNN為網(wǎng)絡(luò)結(jié)構(gòu),利用空間自適應(yīng)模塊的特征金字塔網(wǎng)絡(luò)(FeaturePyramidNetwork,F(xiàn)PN)結(jié)構(gòu),減少了紅外小目標(biāo)圖像中特征融合信息的損失。這類方法對(duì)于目標(biāo)檢測(cè)的精度提升較大,但檢測(cè)速度較慢,計(jì)算量偏高,不適合以無(wú)人機(jī)為載體進(jìn)行目標(biāo)檢測(cè)。近年來(lái)還出現(xiàn)許多基于單次檢測(cè)器(Single ShotDetector,SSD)的網(wǎng)絡(luò)結(jié)構(gòu)[7-9],在文獻(xiàn)[10]中,Zheng等在融合單次檢測(cè)器(FusionSingleShotMultiBoxDetector,F(xiàn)SSD)的淺層網(wǎng)絡(luò)中添加了一個(gè)特征增強(qiáng)模塊,用于檢測(cè)紅外目標(biāo),提高了檢測(cè)精度,且速度明顯優(yōu)于上面的二階段網(wǎng)絡(luò)。但同為一階檢測(cè)網(wǎng)絡(luò)的YOLO目前對(duì)小目標(biāo)的檢測(cè)精度已經(jīng)超越了單次檢測(cè)器(Single ShotDetector,SSD)類網(wǎng)絡(luò),文獻(xiàn)[11]中基于YOLOv5改進(jìn)了上下采樣,減少采樣階段小目標(biāo)特征的損失,文獻(xiàn)[12]改進(jìn)YOLOv7網(wǎng)絡(luò)使高級(jí)和低級(jí)語(yǔ)義之間能夠線性融合,克服了紅外小目標(biāo)檢測(cè)中噪聲引起的誤報(bào)問(wèn)題,文獻(xiàn)[13]通過(guò)融合多個(gè)輸入的多幀信息對(duì)YOLOv8進(jìn)行改進(jìn)。這些基于YOLO的網(wǎng)絡(luò)結(jié)構(gòu)都在紅外小目標(biāo)檢測(cè)方面表現(xiàn)出色。這表明YOLO系列算法在紅外目標(biāo)檢測(cè)上優(yōu)勢(shì)很大。以上算法對(duì)紅外目標(biāo)的檢測(cè)精度都有大幅提升,但對(duì)于無(wú)人機(jī)的紅外小目標(biāo)檢測(cè)來(lái)說(shuō),兼顧模型的參數(shù)量和檢測(cè)精度仍是一個(gè)挑戰(zhàn)。
1基于改進(jìn)Y0L0v8s的紅外小目標(biāo)檢測(cè)
YOLOv8是一種實(shí)時(shí)目標(biāo)檢測(cè)算法,其相較于其他算法表現(xiàn)出色。但它目前的損失函數(shù)未能充分對(duì)全局感知能力的充分利用,并且其特征融合策略限制了其對(duì)小目標(biāo)的檢測(cè)能力。YOLOv8有五個(gè)模型版本:n、s、m、1和x;模型的尺寸和精度是依次遞增的。為了保證一定的精度,又追求輕量化,選擇其中的YOLOv8s模型進(jìn)行改進(jìn)。實(shí)驗(yàn)結(jié)果表明,改進(jìn)后的模型有效地提高了對(duì)地面密集小目標(biāo)的檢測(cè)精度。改進(jìn)方法主要包括以下幾點(diǎn):
1)針對(duì)網(wǎng)絡(luò)模型參數(shù)量大、計(jì)算速度慢的問(wèn)題,在C2f模塊中引入FasterBlock[14模塊,形成新的PConv-C2f模塊替換進(jìn)頸部網(wǎng)絡(luò)中。在PConv-C2f的基礎(chǔ)上添加EMA注意力機(jī)制,形成PConv-C2f-EMA模塊替換主干網(wǎng)絡(luò)中。這一改進(jìn)讓網(wǎng)絡(luò)融合時(shí)運(yùn)算速度更快,提取特征時(shí)對(duì)紅外模糊小目標(biāo)更有針對(duì)性。
2)在頸部引入ASF-YOLO[15]中的 SSFF(ScaleSequence Feature Fusion)和 TFE(Triple FeatureEncoder,TFE)模塊,并融合P2檢測(cè)層改進(jìn),對(duì)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行優(yōu)化,形成新結(jié)構(gòu)SSFF-P2-TFE。原本的三尺度檢測(cè)升級(jí)為四尺度檢測(cè),提高了小目標(biāo)的檢測(cè)精度。
3)在模型中引入NWD[16](Normalized GaussianWassersteinDistance)損失函數(shù),更好地平衡不同目標(biāo)尺度的損失,強(qiáng)調(diào)對(duì)小目標(biāo)的定位預(yù)測(cè),提升小目標(biāo)的定位性能。
4)針對(duì)無(wú)人機(jī)硬件部署網(wǎng)絡(luò)不能過(guò)于臃腫的問(wèn)題,設(shè)計(jì)了輕量化的Group-Detect檢測(cè)頭,在保持精度的同時(shí)顯著減輕檢測(cè)頭的計(jì)算量。
1.1 整體網(wǎng)絡(luò)結(jié)構(gòu)
如圖1所示,本網(wǎng)絡(luò)分別改進(jìn)了主干和頸部的C2f模塊,并將主干中的P3、P4、P5級(jí)特征層送入SSFF模塊,P2和經(jīng)過(guò)TFE模塊處理后的P3、P4級(jí)特征圖送入SSFF模塊,最后得到多尺度特征輸入Group-Detect檢測(cè)頭檢測(cè)。
1.2 基于PConv改進(jìn) 模塊
1.2.1 PConv-C2f模塊
在實(shí)際使用場(chǎng)景中,算法需要能夠部署在邊緣計(jì)算設(shè)備上并滿足實(shí)時(shí)檢測(cè)的要求,為了讓設(shè)計(jì)能實(shí)際投入使用,需要減少冗余計(jì)算和內(nèi)存訪問(wèn),提高空間特征提取能力,而PConv卷積就是一個(gè)解決問(wèn)題的切入點(diǎn)。通過(guò)引入PConv卷積和倒殘差結(jié)構(gòu),采用1個(gè)PConv層和2個(gè)點(diǎn)卷積層并結(jié)合倒殘差結(jié)構(gòu)構(gòu)建FasterBlock模塊,使用FasterBlock模塊替換C2f模塊中的BottleNeck模塊,同時(shí)保留其他位置的普通卷積塊,提出了一種全新的輕量級(jí)PConv-C2f模塊,如圖2所示。
PConv只需要在輸入的部分通道上進(jìn)行卷積操作來(lái)提取空間特征,保持其他通道不變,這減少了計(jì)算負(fù)擔(dān)并降低了信息丟失。利用網(wǎng)絡(luò)的連續(xù)或規(guī)則性的內(nèi)存訪問(wèn)特點(diǎn),PConv選取前段或后段連續(xù)CP個(gè)通道來(lái)代表整個(gè)特征圖,不需要對(duì)所有被選擇的通道都進(jìn)行獨(dú)立計(jì)算,在不喪失一般性的情況下,假設(shè)輸入和輸出特征圖具有相同數(shù)量的通道。如式(2)所示,當(dāng)部分比例(partialratio) 時(shí),由于卷積過(guò)程占用內(nèi)存較少,F(xiàn)LOPs僅為普通卷積的1/16,如式(1)所示。內(nèi)存訪問(wèn)量MAC僅為普通卷積的1/4,如式(3)所示。
通過(guò)以上對(duì)C2f模塊的改進(jìn),能夠有效減少網(wǎng)絡(luò)的參數(shù)量和計(jì)算量,提高檢測(cè)效率。因此將原模型中頸部的C2f模塊全部替換為PConv-C2f模塊來(lái)達(dá)到輕量化的目的。
1.2.2 PConv-C2f-EMA模塊
為了增強(qiáng)模型表征能力,通常采用增加卷積層數(shù)的方法,卷積層數(shù)的增加,往往會(huì)造成模型計(jì)算資源的消耗。添加注意力機(jī)制是增強(qiáng)模型表征能力的一種方式,它可以讓模型著重關(guān)注輸入序列中的關(guān)鍵信息,提高模型精度。因此考慮采用高效多尺度注意力機(jī)制(EfficientMulti-ScaleAttention,EMA),EMA與其他注意力方法相比,在參數(shù)量上優(yōu)勢(shì)顯著。EMA采用并行子結(jié)構(gòu)減少網(wǎng)絡(luò)深度,在不進(jìn)行通道降維的情況下,擴(kuò)展網(wǎng)絡(luò)的全局感受野、保留通道的精準(zhǔn)信息,同時(shí)降低計(jì)算需求。EMA針對(duì)輸入特征 X ∈ ,在通道維度將其劃分成 G 個(gè)子特征
,
, ? s ,
,
,取 G ? C ,針對(duì)每個(gè)子特征,EMA通過(guò)3條并行分支提取分組特征圖的注意力權(quán)重,其中對(duì)不同空間維度方向的信息進(jìn)行了聚合,再將此權(quán)重用于每組的特征增強(qiáng)。
將EMA注意力機(jī)制融入FasterBlock中,并添加到PConv-C2f模塊中,形成PConv-C2f-EMA模塊,如圖3所示。在原網(wǎng)絡(luò)的主干部分替換C2f模塊,以提高模塊提取小目標(biāo)以及模糊特征的能力。
1.3 改進(jìn)特征融合層
紅外目標(biāo)樣本通常尺寸較小、像素較低且容易發(fā)生重疊,這些特性嚴(yán)重影響了檢測(cè)效果。另一方面,原模型較大的下采樣倍數(shù)也對(duì)小目標(biāo)檢測(cè)造成了困難,因?yàn)樯顚哟翁卣鲌D經(jīng)過(guò)了多層網(wǎng)絡(luò)的處理,具有更大的感受野,很難捕捉到小目標(biāo)的特征信息。因此本模型在頸部引入了ASF-YOLO中的尺度序列特征融合模塊(Scale SequenceFeature Fusion, SSFF)和三重特征編碼器(TripleFeatureEncoder,TFE)模塊,融合P2小目標(biāo)檢測(cè)層,構(gòu)建了SSFF-P2-TFE網(wǎng)絡(luò)結(jié)構(gòu),將四尺度特征送入檢測(cè)頭對(duì)目標(biāo)進(jìn)行推理預(yù)測(cè)。
1.3.1 小目標(biāo)檢測(cè)層
原始模型中包含三個(gè)檢測(cè)頭,它將主干網(wǎng)絡(luò)的P3、P4、P5輸入到PAN-FPN中進(jìn)行特征融合,由于使用了相較于原圖 6 4 0 × 6 4 0 較大的下采樣倍率,這三個(gè)特征層的尺寸分別為 8 0 × 8 0 、 4 0 × 4 0 和2 0 × 2 0 。這讓其預(yù)測(cè)一些尺度較大的目標(biāo)更容易,對(duì)小目標(biāo)的檢測(cè)在大感受野的影響下很難精準(zhǔn)定位。因此本文提出增加一個(gè)小目標(biāo)檢測(cè)層。其原理是從網(wǎng)絡(luò)主干的P2層特征圖引出,添加一個(gè) 1 6 0 × 1 6 0 圖像的檢測(cè)層。
1.3.2 SSFF模塊
SSFF模塊旨在增強(qiáng)網(wǎng)絡(luò)的多尺度信息提取能力,就是將深層特征圖的高級(jí)語(yǔ)義信息與淺層特征圖的詳細(xì)空間信息相結(jié)合,使網(wǎng)絡(luò)能夠更好地理解圖像中的細(xì)微細(xì)節(jié)和尺度變化,其結(jié)構(gòu)如圖4所示[15]。在本模型中,首先將主干網(wǎng)絡(luò)中的P3、P4和P5特征映射歸一化到P3級(jí)別尺寸,并使用3D卷積來(lái)提取它們的尺度序列特征。之后對(duì)網(wǎng)絡(luò)主干的P2層、上一步處理融合后的P3層,以及模型頸部的P4層送入SSFF模塊進(jìn)行融合,來(lái)獲取更小感受野的淺層次局部特征。這使網(wǎng)絡(luò)對(duì)小目標(biāo)的特征信息能進(jìn)行更好傳遞與融合,可以更好地檢測(cè)無(wú)人機(jī)拍攝的微小目標(biāo),顯著降低漏檢和誤檢的概率。
1.4 損失函數(shù)改進(jìn)
YOLOv8為配合其新改進(jìn)的Anchor-Free形式,增加了DFL(DistributionalFeatureLoss)損失。DFL使用交叉熵的形式計(jì)算邊界框和標(biāo)簽的損失概率,讓網(wǎng)絡(luò)更快的聚焦到目標(biāo)位置及鄰近區(qū)域的分布。之后將邊界框分布概率還原為預(yù)測(cè)框,通過(guò)CIoU對(duì)預(yù)測(cè)框的損失和標(biāo)簽的真實(shí)框進(jìn)行損失計(jì)算,以達(dá)到對(duì)預(yù)測(cè)框整體優(yōu)化的結(jié)果。CIoU的計(jì)算式為:
式(4)中,IoU表示預(yù)測(cè)框與真實(shí)框的交集比, 表示預(yù)測(cè)框與真實(shí)框之間的歐氏距離; h 和w 分別表示高度和預(yù)測(cè)框;
和
分別表示真實(shí)框的高度和寬度;
和
分別表示由預(yù)測(cè)框和真實(shí)框組成的最小包圍框的高度和寬度。
CIoU在小目標(biāo)的位置有偏差時(shí)非常敏感,對(duì)其值的計(jì)算也相對(duì)復(fù)雜,這會(huì)導(dǎo)致訓(xùn)練的計(jì)算量較大。為解決這個(gè)問(wèn)題,引入了一種基于歸一化的Wasserstein 距離NWD (Normalized GaussianWassersteinDistance)位置回歸損失函數(shù)。NWD使用二維高斯分布計(jì)算預(yù)測(cè)框與標(biāo)記框之間的相似度,根據(jù)式(6)計(jì)算它們之間歸一化的Wasserstein距離,其中 和
表示由 A 和 B 建模的高斯分布:
該方法一致地反映了模型檢測(cè)到的物體分布之間的距離,非常適合用來(lái)衡量小目標(biāo)預(yù)測(cè)框和實(shí)際的相似度。
其中,公式(5)中 C 表示數(shù)據(jù)集中的類別數(shù), 表示一個(gè)距離度量。由于CIoU比較關(guān)注目標(biāo)的長(zhǎng)寬比差異,可以更好地衡量邊界框之間的相似度。因此考慮將CIoU與NWD結(jié)合使用,如式(7)所示,其中 α 表示CIoU的權(quán)重, β 表示NWD的權(quán)重。α 與 β 以式(8)的線性關(guān)系來(lái)組合使用,經(jīng)過(guò)實(shí)驗(yàn)得出(表2),此處 β 值為0.5時(shí)效果最好。
L o s s= α ? C I o U+ β ? N W D
β = 1 - α
1.5 設(shè)計(jì)檢測(cè)頭Group-Detect
原模型的檢測(cè)頭包含兩個(gè)分支,每個(gè)分支都需要先分別通過(guò)兩個(gè) 3 × 3 的卷積和一個(gè)普通卷積。這致使通道數(shù)多的情況下,參數(shù)量就會(huì)非常高。為了讓模型更加輕量化,設(shè)計(jì)Group-Detect檢測(cè)頭,其結(jié)構(gòu)如圖5所示。此檢測(cè)頭采用參數(shù)共享的思想,將前面的3 × 3 的卷積分支合并,減少多余的計(jì)算開銷。
我們還在此檢測(cè)頭中添加了分組卷積(GroupConv)[17],即分組卷積。在傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)中,卷積層通常會(huì)對(duì)輸入的所有通道進(jìn)行全連接的卷積運(yùn)算。而在分組卷積中,輸入通道被分成若干組,每一組內(nèi)的通道只與該組內(nèi)的卷積核相卷積,不同組的通道不相互作用。假設(shè)輸入特征圖有 個(gè)通道,設(shè)定分組數(shù)量為 g ,則每組包含
個(gè)通道。每組通道分別與對(duì)應(yīng)的卷積核進(jìn)行卷積操作。每個(gè)卷積核只處理一組內(nèi)的通道,所以卷積核的數(shù)量通常是輸出通道數(shù)
的 1 / g 。將所有組的卷積結(jié)果按組順序拼接起來(lái),就形成了最終的輸出特征圖。因此分組卷積通過(guò)減少每次卷積的通道數(shù),顯著降低了參數(shù)數(shù)量和計(jì)算復(fù)雜度。在特征圖輸入檢測(cè)頭后首先經(jīng)過(guò)兩個(gè)3 × 3 的GroupConv,之后分成兩個(gè)分支進(jìn)行普通卷積,以解耦思想執(zhí)行目標(biāo)框定位和類別的預(yù)測(cè)。
2 數(shù)據(jù)集
為了評(píng)估YOLO-IRLight模型在無(wú)人機(jī)應(yīng)用中檢測(cè)紅外小目標(biāo)的效果,選用了公開數(shù)據(jù)集HIT-UAV來(lái)進(jìn)行實(shí)驗(yàn)。該數(shù)據(jù)集是一個(gè)高空無(wú)人機(jī)紅外數(shù)據(jù)集,由2898張紅外圖像組成,包含了Person、Car、Bicycle、OtherVehicle、DontCare共5個(gè)類別。為了簡(jiǎn)化數(shù)據(jù)集,我們刪除了DontCare類,并將Car和OtherVehicle類別合并為單個(gè)Vehicle類別,得到3個(gè)類別:Person、Vehicle、Bicycle。最后將數(shù)據(jù)集按照7:2:1的比例劃分為訓(xùn)練集、測(cè)試集和驗(yàn)證集。圖6是訓(xùn)練集的標(biāo)簽尺寸的分布圖,坐標(biāo)數(shù)據(jù)分別是標(biāo)簽框的長(zhǎng)和寬在原圖像的占比,從圖中可以看出小尺寸標(biāo)簽占絕大多數(shù)。
3 實(shí)驗(yàn)分析
3.1實(shí)驗(yàn)平臺(tái)和參數(shù)設(shè)置
實(shí)驗(yàn)使用NVIDIAGPU和PyTorch、Python等,具體參數(shù)如表1所示。實(shí)驗(yàn)中沒(méi)有使用任何初始權(quán)重,輸入圖像大小為 6 4 0 × 6 4 0 。訓(xùn)練數(shù)據(jù)的batchsize為16,訓(xùn)練過(guò)程持續(xù)200個(gè)epoch,且所有實(shí)驗(yàn)使用一
致的超參數(shù)進(jìn)行訓(xùn)練驗(yàn)證。
3.2 評(píng)估指標(biāo)
使用目標(biāo)檢測(cè)中常用的評(píng)價(jià)指標(biāo)對(duì)模型性能進(jìn)行全面評(píng)估。這些指標(biāo)包括:F1分?jǐn)?shù)、平均精度均值( m A P@ 0 . 5 ) 、模型參數(shù)量(Parameters)。F1分?jǐn)?shù)是評(píng)估模型在檢測(cè)任務(wù)中精確度和召回率的一個(gè)綜合指標(biāo),如式(9)所示:
其中Precision為精確度,即模型在預(yù)測(cè)為正例的樣本中的準(zhǔn)確程度;Recall為召回率,它評(píng)估模型對(duì)正例的預(yù)測(cè)能力。mAP中的AP為P-R曲線下的面積。mAP是所有類面積的平均值, 是指使用IoU閾值為0.5,再計(jì)算每類圖片的AP,最后取平均值,如式(10),其中 K 為類別數(shù)。
3.3損失函數(shù)比例系數(shù)
NWD損失函數(shù)非常適用于小目標(biāo)的檢測(cè),但考慮到數(shù)據(jù)集中仍然存在少量的中大尺寸目標(biāo),只使用NWD損失函數(shù)會(huì)導(dǎo)致部分目標(biāo)漏檢和誤檢。因此嘗試將CIoU與NWD線性組合使用,具體比例分配可見表2數(shù)據(jù)。實(shí)驗(yàn)得出 β 值(NWD損失比例)為0.5時(shí),F(xiàn)1分?jǐn)?shù)和檢測(cè)精度 達(dá)到最優(yōu)效果。
3.4 消融實(shí)驗(yàn)
為說(shuō)明以上所提幾項(xiàng)改進(jìn)方法對(duì)基準(zhǔn)模型的影響,在HIT-UAV數(shù)據(jù)集中進(jìn)行如下消融實(shí)驗(yàn),表3中展示了將各改進(jìn)點(diǎn)分別添加到Y(jié)OLOv8s模型中的結(jié)果。
從表3可以看出,對(duì)于紅外拍攝的小尺寸目標(biāo)檢測(cè),改進(jìn)后的算法在每個(gè)階段都有一定的提升。雖然在加入SSFF-P2-TFE模塊時(shí),參數(shù)量有一定的增長(zhǎng),但是精度也得到了提高,且其他模塊都做了輕量化處理,總體參數(shù)量和計(jì)算量都相較于原模型有所減少。實(shí)驗(yàn)結(jié)果表明,每個(gè)階段的網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化,都取得了較好的效果。
3.5 比較實(shí)驗(yàn)
表4給出了YOLO-IRLight模型與其他5種主流目標(biāo)檢測(cè)模型的對(duì)比結(jié)果,我們可以著出在檢測(cè)精度? m A P@ 0 . 5 ? 方面我們的模型較其他模型高出至少24 % ,F(xiàn)1精度也位居首位,超出其他模型最好表現(xiàn)的21 % 以上。數(shù)據(jù)量雖然略高于EfficientDet模型,但是以15GFLOPs的數(shù)據(jù)量獲取了兩倍于EfficientDet的檢測(cè)精度,是非??捎^的。
表5在YOLO系列的檢測(cè)模型中橫向?qū)Ρ取7治隹芍?,我們的模型在紅外小目標(biāo)檢測(cè)數(shù)據(jù)上優(yōu)于最新發(fā)布的YOLO11。與前幾代YOLO模型相比,也均在保持低計(jì)算復(fù)雜度、參數(shù)量的同時(shí),取得了較好的小目標(biāo)檢測(cè)精度,實(shí)現(xiàn)了輕量又精準(zhǔn)的目標(biāo)。
3.6 可視化對(duì)比
為了更直觀地展示和比較模型的性能,我們選取幾組圖像進(jìn)行預(yù)測(cè)。
如圖7所示,我們挑選了多種類目標(biāo)同時(shí)出現(xiàn)的情況。原始模型在(a)組中對(duì)person類誤檢,在(b)組中將person目標(biāo)誤檢為Bicycle類??梢钥闯鲈P驮谀繕?biāo)種類繁多時(shí)有一定的誤檢率,我們的模型對(duì)目標(biāo)分類較為準(zhǔn)確。
圖8選取的三組圖片各有特點(diǎn),可以看到(c)組圖像中小范圍內(nèi)存在不同尺度的目標(biāo),(d)組圖像的背景非常模糊復(fù)雜,(e)組圖像有大量目標(biāo)重疊。在這三種情況中,對(duì)比可以看出,原始模型YOLOv8s常出現(xiàn)漏檢情況,而我們的模型在多尺度、背景復(fù)雜、小目標(biāo)密集的條件下檢測(cè)效果依舊良好。
4結(jié)論
本文提出了一種基于無(wú)人機(jī)航拍的紅外小目標(biāo)檢測(cè)模型YOLO-IRLight。針對(duì)航拍目標(biāo)的低像素、信息匱乏,無(wú)人機(jī)載模型臃腫、計(jì)算不夠輕量等問(wèn)題,使用部分卷積PConv和EMA注意力機(jī)制,引入SSFF和小目標(biāo)檢測(cè)層重塑網(wǎng)絡(luò)結(jié)構(gòu),設(shè)計(jì)輕量化檢測(cè)頭改進(jìn)網(wǎng)絡(luò)模型。新模型的參數(shù)量和計(jì)算量相較于基準(zhǔn)模型都有所下降,平均精度 也提升到了 9 5 . 2 % 。我們?cè)贖IT-UAV數(shù)據(jù)集上進(jìn)行測(cè)試和比較,證明了本文中模塊改進(jìn)的可行性。通過(guò)對(duì)比試驗(yàn),可以得出YOLO-IRLight在準(zhǔn)確率和模型復(fù)雜度方面優(yōu)于主流網(wǎng)絡(luò)模型,對(duì)于紅外模糊小目標(biāo)的識(shí)別效果良好,存在一定的實(shí)用價(jià)值。
參考文獻(xiàn):
[1]李文博,王琦,高尚.基于深度學(xué)習(xí)的紅外小目標(biāo)檢測(cè)算法綜述[J].激光與紅外,2023,53(10):1476-1484.
[2]宋婉妮,楊本臣,金海波.基于改進(jìn)加權(quán)局部對(duì)比度的紅外小目標(biāo)檢測(cè)[J].激光與紅外,2023,53(6):963-969.
[3]YOUNSIM,DIAFM,SIARRYP.AutomaticMultipleMoving Humans Detection and Tracking in Image SequencesTaken from a Stationary Thermal Infrared Camera [J/OL].ExpertSystems with Applications,2020,146:113171[2024-10-05].https://doi.org/10.1016/j.eswa.2019.113171.
[4]QI M,LIUL,ZHUANGS,etal.FTC-Net:Fusion ofTransformerandCNNFeaturesforInfrared SmallTargetDetection[J].IEEE Journal of Selected Topics in Applied Earth Observationsand Remote Sensing,2022,15:8613-8623.
[5] JIANG CC,REN H Z,YANG H,et al. M2FNet:Multi-ModalFusionNetworkforObjectDetectionfromVisibleand Thermal Infrared Images [J/OL].International Journal ofApplied Earth Observation and Geoinformation,2024,130:103918[2024-10-23].https://doi.org/10.1016/j.jag.2024.103918.
[6]LIANG M,JI T.Research on Unmanned InfraredNight Vision System Based on Improved Faster R-CNN TargetDetection Algorithm[C]//2022 IEEE 5th Advanced InformationManagement,Communicates,Electronic and Automation ControlConference (IMCEC).Chongqing:IEEE,2022:863-869.
[7]WANGK,WANGY,ZHANGS,etal.SLMS-SSD:Improving the Balance of Semantic and Spatial Information inObject Detection [J/OL].Expert Systems with Applications,2022,206: 117682[2024-10-11]. https: //doi.org/10.1016/j.eswa.2022.117682.
[8]LUJ,HUANGT,ZHANGQ,etal.ALightweightVehicle Detection Network Fusing Feature Pyramid and ChannelAttention[J/OL].Internet of Things,2024,26:101116[2024-10-18].https://doi.org/10.1016/j.iot.2024.101166.
[9] WANG H,MO H,LU S,et al.Electrolytic CapacitorSurface Defect Detection Based on Deep Convolution NeuralNetwork [J/OL].Journal ofKing Saud University-Computer andInformation Sciences,2024,36 (2):101935[2024-10-23].https://doi.org/10.1016/j.jksuci.2024.101935.
[10] ZHENG H,SUN Y,LIU X,et al. Infrared ImageDetection of Substation Insulators Using an Improved FusionSingle Shot Multibox Detector [J].IEEE Transactions on PowerDelivery,2020,36(6):3351-3359.
[11] XINGANG M, SHUAI L,XIAO Z. YOLO-FR: AYOLOv5 Infrared Small Target Detection Algorithm Based onFeature Reassembly Sampling Method[J].Sensors,2023,23(5):2710-2710.
[12] ZHU JX,QIN C,CHOI D M. YOLO-SDLUWD:YOLOv7-based Small Target Detection Network for InfraredImages in Complex Backgrounds [J/OL].Digital Communicationsand Networks,2023[2024-10-27].https://doi.org/10.1016/j.dcan.2023.11.001.
[13] SUN S,MO B,XU J,et al. Multi-YOLOv8:An Infrared Moving Small Object Detection Model Basedon YOLOv8 for Air Vehicle [J/OL].Neurocomputing,2024,588:127685[2024-11-05].https://oi.0rg/10.1016/j.neucom.2024.127685.
[14] CHEN J,KAO S,HE H,et al. Run,Don't Walk:Chasing Higher FLOPS for Faster Neural Networks [C]//Proceedings of the IEEE/CVF Conference on Computer Vision andPatterm Recognition.Vancouver: IEEE,2023:12021-12031.
[15] KANG M,TING CM,TINGFF,et al. ASF-YOLO:A Novel YOLO Model with Atentional Scale Sequence Fusion forCellInstance Segmentation [J/OLJ.Image and Vision Computing,2024,147: 105057[2024-11-06].https://oi.org/10.1016/j.imavis.2024.105057.
[16] WANGJ,XUC,YANG W,et al.A NormalizedGaussian Wasserstein Distance for Tiny Object Detection [J/OL].arXiv:2110.13389 [cs.CV].[2024-10-23].2021.https://arxiv.org/abs/2110.13389v1.
[17] HE S, GIRSHICK R,DOLLAR P, et al. AggregatedResidual Transformations for Deep Neural Networks [C]//Proceedings of the IEEE Conference on Computer Vision andPattem Recognition.Honolulu:IEEE,2017:1492-1500.
[18] TANMX,PANGRM,LEQV.EfficientDet: Scalableand Efficient Object Detection [C]//Proceedings of the IEEE/CVFConference on Computer Vision and Pattern Recognition.Seattle :IEEE,2020:10781-10790.
[19] LIU W,ANGUELOV D,ERHAN D,et al. SSD:Single Shot Multibox Detector [C]//Computer Vision-ECCV 2016:14th European Conference,Amsterdam,The Netherlands,October 11-14,2016,Proceedings,Part I.Amsterdam:Springer International Publishing,2016:21-37.
[20] REN S,HEK,GIRSHICK R,et al.Faster R-CNN:Towards Real-Time Object Detection with Region ProposalNetworks [J].IEEE Transactions on Pattern Analysis and MachineIntelligence,2016,39(6):1137-1149.
[21] LINTY,GOYALP,GIRSHICKR,et al.Focal LossforDense ObjectDetection[C]//Proceedings of the IEEE IntemationalConference onComputerVision.Venice:IEEE,2017:2980-2988.
[22] ZHOU X,WANG D,KRAHENBUHL P. Objects asPoints[J/OL].arXiv:1904.07850[cs.CV]. (2019-04-16) [2024-10-05].https://arxiv.org/abs/1904.07850v1.
[23]Ultralytics.Comprehensive Guide to UltralyticsYOLOv5[EB/OL]. (2022-11-22) [2024-10-07].https://docs.ultralytics.com/yolov5/.
[24]WANGCY,BOCHKOVSKIYA,LIAOHYM.YOLOv7:Trainable Bag-of-Freebies Sets New State-of-the-ArtforReal-Time ObjectDetectors[C]//Proceedings of the IEEE/CVFConference on Computer Vision and Pattern Recognition.Vancouver:IEEE,2023:7464-7475.
[25]Ultralytics.Ultralytics YOLOv8[EB/OL].(2023-01-10)[2024-10-09].https://github.com/ultralytics/ultralytics.[26]Ultralytics.Ultralytics Solutions:Harness YOLO11 toSolve Real-World Problems [EB/OL]. (2024-09-30) [2024-10-15].https://docs.ultralytics.com/zh.
作者簡(jiǎn)介:倪夢(mèng)琪(1999—),女,漢族,河南洛陽(yáng)人,碩士研究生在讀,研究方向:計(jì)算機(jī)目標(biāo)識(shí)別與跟蹤;陳凱源(2000一),女,漢族,河南鄭州人,碩士研究生在讀,研究方向:缺陷檢測(cè)和自然語(yǔ)言處理。