劉夢(mèng)菲,毛建華,陸小鋒,2
(1.上海大學(xué) 通信與信息工程學(xué)院,上海 200444;2.上海大學(xué) 溫州研究院,浙江 溫州 325000)
中國(guó)擁有廣闊的領(lǐng)海以及綿長(zhǎng)的海岸線(xiàn),這是天然財(cái)富。改革開(kāi)放以來(lái)國(guó)內(nèi)經(jīng)濟(jì)發(fā)展迅速,一些漁民為了利益鋌而走險(xiǎn),使用違禁的工具非法捕撈,不但危及到捕魚(yú)和食用者的人身安全,而且破壞了海洋生態(tài)平衡和漁業(yè)的可持續(xù)發(fā)展。除了“電、毒、炸”魚(yú),“絕戶(hù)網(wǎng)”等非法捕撈行為之外,執(zhí)法人員在巡航中還發(fā)現(xiàn)采用桿狀物攔網(wǎng)圍漁的行為,然而由于木樁體積小且在海面分布稀疏,其執(zhí)法取證的效率低、難度大。
漁樁的絕對(duì)大小為5 pixel×20 pixel左右,相對(duì)原圖尺寸占比約0.005%,目標(biāo)分辨率低、特征少,主干網(wǎng)絡(luò)能夠提取到的特征有限,因此導(dǎo)致模型誤檢率高、檢測(cè)效果差;其次漁樁在每幅圖中占比少,樣本稀缺,致使前景背景分布不均衡,模型漏檢率高?,F(xiàn)有的通用目標(biāo)檢測(cè)算法,無(wú)論是一階段還是兩階段模型,小目標(biāo)與中尺度和大尺度目標(biāo)在檢測(cè)性能上存在著十分顯著的差距。
針對(duì)小目標(biāo)檢測(cè)存在的難點(diǎn),國(guó)內(nèi)外學(xué)者從多方面入手,在主流目標(biāo)檢測(cè)器的基礎(chǔ)上進(jìn)行改進(jìn),研究小目標(biāo)檢測(cè)算法的技巧與改進(jìn)[1]。
SNIP[2]對(duì)Anchor進(jìn)行篩選,只將落在給定的候選區(qū)域的真實(shí)框判定為有效框,同時(shí)引入多尺度圖像金字塔,并且在訓(xùn)練過(guò)程中挑選大小合適的目標(biāo),以此提高小目標(biāo)的檢測(cè)效果。Stitcher[3]提出了一種拼接圖像的方法,將四張圖像以相同尺寸拼接為原圖大小,并且使用損失指導(dǎo)拼接圖在訓(xùn)練過(guò)程中的使用,使小目標(biāo)得到充分的訓(xùn)練。TridentNet[4]同時(shí)結(jié)合了圖像金字塔和特征金字塔結(jié)構(gòu)的特點(diǎn),通過(guò)改變空洞卷積的參數(shù)來(lái)控制感受野的大小,分別用以檢測(cè)不同尺度的目標(biāo)。
針對(duì)海面漁樁小目標(biāo)檢測(cè)中存在的難點(diǎn),該文在YOLOv5模型的基礎(chǔ)上進(jìn)行改進(jìn),利用標(biāo)簽上下文信息輔助小目標(biāo)的訓(xùn)練;設(shè)計(jì)了注意力增強(qiáng)的亞像素上采樣結(jié)構(gòu),使得上采樣過(guò)程可以獲得更多的細(xì)節(jié)特征;采用高效解耦頭,加快網(wǎng)絡(luò)收斂速度,提高訓(xùn)練過(guò)程穩(wěn)定性;同時(shí),改進(jìn)原先CIoU[5]損失函數(shù)的位置度量, 使預(yù)測(cè)結(jié)果更加貼近真實(shí)場(chǎng)景。實(shí)驗(yàn)證明,改進(jìn)后的AECA-YOLO模型在準(zhǔn)確率及召回率上都優(yōu)于目前主流的目標(biāo)檢測(cè)算法。
YOLOv5是一種典型的一階段目標(biāo)檢測(cè)算法,與大多數(shù)經(jīng)典的目標(biāo)檢測(cè)框架相比,它兼具檢測(cè)精度高和識(shí)別速度快的優(yōu)勢(shì)。YOLOv5網(wǎng)絡(luò)主要由三個(gè)部分組成:主干網(wǎng)絡(luò)(Backbone)、頸部網(wǎng)絡(luò)(Neck)和頭部網(wǎng)絡(luò)(Head)。
主干網(wǎng)絡(luò)的主要作用為提取圖像的特征,YOLOv5的主干網(wǎng)絡(luò)采用CSPDarknet53,通過(guò)拼接和過(guò)渡等操作,實(shí)現(xiàn)更豐富的梯度組合信息。在CSPDarknet53結(jié)構(gòu)的后面,YOLOv5還添加了SPPF模塊,不僅解決了目標(biāo)框和特征圖的對(duì)齊問(wèn)題,還增大了預(yù)測(cè)框的感受野。主干網(wǎng)絡(luò)是模型檢測(cè)精度高和推理速度快的保證。
頸部網(wǎng)絡(luò)由特征金字塔(Feature Pyramid Networks,FPN)[6]和路徑聚合網(wǎng)絡(luò)(Path Aggregation Networks,PAN)[7]組成,其主要作用為增強(qiáng)網(wǎng)絡(luò)模型對(duì)不同尺度對(duì)象的檢測(cè)能力。FPN把深層的語(yǔ)義信息傳遞到淺層,在多個(gè)尺度上提高了語(yǔ)義表達(dá),從而提升了目標(biāo)檢測(cè)的效果,尤其是小尺度目標(biāo)的檢測(cè)效果。而PAN則相反,將淺層的位置信息傳遞到深層,從而在多個(gè)尺度上提高了定位能力。
頭部網(wǎng)絡(luò)主要用于模型最終的推理與檢測(cè),采用多尺度檢測(cè)的方法,通過(guò)下采樣將特征圖分為三種尺度,不同大小的感受野依次負(fù)責(zé)不同尺度物體的檢測(cè),即大輸出特征圖用以檢測(cè)小物體[8],小輸出特征圖用以檢測(cè)大物體,克服了單一特征圖對(duì)于多尺度目標(biāo)檢測(cè)的局限性。
由于海面漁樁目標(biāo)分辨率低,且易受背景噪聲干擾,面臨著漏檢率較高的情況。針對(duì)以上問(wèn)題,基于YOLOv5模型進(jìn)行改進(jìn),最終得到AECA-YOLO漁樁小目標(biāo)檢測(cè)模型,其網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
圖1 AECA-YOLO網(wǎng)絡(luò)結(jié)構(gòu)
在骨干網(wǎng)絡(luò)的SPPF模塊前加入坐標(biāo)注意力機(jī)制,使特征提取過(guò)程更加關(guān)注小目標(biāo)的位置信息;為了保證在特征融合過(guò)程中獲取更多的小目標(biāo)信息,在頸部網(wǎng)絡(luò)采用融合注意力機(jī)制和上下文信息的上采樣結(jié)構(gòu)(FAC-UpSample);頭部網(wǎng)絡(luò)采用解耦結(jié)構(gòu),分別利用紋理內(nèi)容與邊緣信息預(yù)測(cè)類(lèi)別和定位目標(biāo),加快網(wǎng)絡(luò)收斂速度;最后對(duì)模型的損失函數(shù)進(jìn)行優(yōu)化,減小位置偏移對(duì)小目標(biāo)的劇烈影響。
位置信息對(duì)于小目標(biāo)至關(guān)重要[9],針對(duì)海面漁樁小目標(biāo)像素分辨率低、缺乏通道信息等難點(diǎn),加入坐標(biāo)注意力機(jī)制,加強(qiáng)網(wǎng)絡(luò)捕獲通道間特征的能力,從而提高漁樁識(shí)別的準(zhǔn)確率。坐標(biāo)注意力(CoordAttention,CA)[10]是一種適用于移動(dòng)網(wǎng)絡(luò)的新型注意力機(jī)制,在通道注意力的基礎(chǔ)上嵌入位置信息,使網(wǎng)絡(luò)能夠在避免引入過(guò)大開(kāi)銷(xiāo)的情況下獲取更大的感受野,坐標(biāo)注意力的結(jié)構(gòu)如圖2所示。
圖2 坐標(biāo)注意力模塊
為了捕捉精確的位置信息,坐標(biāo)注意力模塊將通道注意力分解為水平和豎直兩個(gè)方向,首先分別對(duì)這兩個(gè)方向的特征采用平均池化,進(jìn)行一維特征編碼,計(jì)算過(guò)程如公式(1)和(2)。設(shè)輸入特征圖為x,高度為h的第c通道的輸出可以表示為:
(1)
同樣,寬度為w的第c通道的輸出可以表示為:
(2)
接著在空間維度上采用拼接和卷積操作壓縮通道,通過(guò)批歸一化和非線(xiàn)性回歸來(lái)編碼水平和垂直方向的空間信息,得到同時(shí)具備空間和通道維度特征的注意力圖f,其中δ是非線(xiàn)性激活函數(shù),F表示1×1的卷積函數(shù):
f=δ(F([zh,zw]))
(3)
然后再將fh,fw進(jìn)行分離,各自通過(guò)1×1的卷積變換通道數(shù),得到一組方向感知和位置敏感的注意力圖gh,gw,最后把空間信息通過(guò)在通道上加權(quán)的方式融合,其中σ為sigmoid函數(shù):
gh=σ(F(fh))
(4)
gw=σ(F(fw))
(5)
(6)
通過(guò)這種方式,坐標(biāo)注意力機(jī)制沿一個(gè)空間方向捕獲通道依賴(lài)關(guān)系,同時(shí)沿另一個(gè)空間方向保留位置信息,兩者互補(bǔ)以用于增強(qiáng)目標(biāo)特征的表達(dá)。在SPPF模塊前加入坐標(biāo)注意力機(jī)制,使得局部特征和全局特征融合的過(guò)程更加關(guān)注漁樁。
上下文信息對(duì)于檢測(cè)小目標(biāo)非常重要[11]。針對(duì)漁樁小目標(biāo)信息有限的難點(diǎn),該文提出一種聚合上下文信息和注意力的上采樣模塊,采用亞像素卷積對(duì)注意力增強(qiáng)的通道特征進(jìn)行重組,從而得到細(xì)節(jié)更豐富的高分辨率特征圖。
常用的上采樣方法包括最近鄰上采樣和雙線(xiàn)性上采樣,它們僅僅利用像素的空間位置關(guān)系來(lái)生成新的像素,感受野通常非常小。亞像素上采樣則是將原來(lái)低分辨的特征圖均勻劃分為N個(gè)小格,利用相對(duì)應(yīng)的N個(gè)特征圖按規(guī)則填充這些小格,在這一過(guò)程中模型可以通過(guò)調(diào)整通道的權(quán)重來(lái)不斷優(yōu)化生成的結(jié)果。為了提高頸部網(wǎng)絡(luò)對(duì)于小目標(biāo)的檢測(cè)精度,該文在FPN中引入融合注意力機(jī)制和上下文信息的上采樣結(jié)構(gòu)(FAC-UpSample),如圖3所示。
圖3 FAC-UpSample模塊結(jié)構(gòu)
圖4 解耦檢測(cè)頭結(jié)構(gòu)
FAC-UpSample上采樣模塊由兩部分組成,第一部分為注意力模塊,對(duì)于形狀為H×W×C的深層特征圖x,經(jīng)過(guò)坐標(biāo)注意力模塊融合空間信息,得到形狀相同的特征圖x'。
最后對(duì)原特征圖x上以點(diǎn)l為中心的kup×kup大小的鄰域,與預(yù)測(cè)得到的上采樣核ωl'作點(diǎn)積,得到最終輸出的高分辨率特征圖x'',其中r=?kup」,同一位置l的不同通道共享同一個(gè)上采樣核:
(7)
由此,輸出特征圖的每個(gè)像素點(diǎn)都充分利用了周?chē)鷧^(qū)域的信息,通過(guò)這樣的特征重組并加入通道增強(qiáng),相比網(wǎng)絡(luò)原來(lái)采用的最鄰近上采樣,FAC-UpSample使得特征圖具有更大的感受野,語(yǔ)義信息也更加豐富。
漁樁小目標(biāo)在圖像中覆蓋面積小,其邊界框的定位相對(duì)更加困難,像素點(diǎn)的偏移對(duì)小目標(biāo)的影響也遠(yuǎn)大于大尺度目標(biāo)。并且大多數(shù)的目標(biāo)檢測(cè)器在訓(xùn)練過(guò)程中采用錨框來(lái)匹配目標(biāo),而小目標(biāo)匹配到的錨框數(shù)量遠(yuǎn)低于其他尺度目標(biāo),導(dǎo)致模型對(duì)小目標(biāo)的關(guān)注度低。
實(shí)際上目標(biāo)檢測(cè)網(wǎng)絡(luò)分類(lèi)和定位任務(wù)的關(guān)注點(diǎn)并不相同,分類(lèi)更加關(guān)注所提取的紋理內(nèi)容,而定位更加關(guān)注邊緣信息。該文在頭部網(wǎng)絡(luò)(Head)采用解耦檢測(cè)頭(Decoupled Head)代替耦合頭部(Coupled Head),提高小目標(biāo)的定位準(zhǔn)確度。
DecoupledHead會(huì)先通過(guò)1×1的CBL模塊將頸部網(wǎng)絡(luò)輸出特征圖的通道數(shù)降為256,以降低計(jì)算量,隨后再使用兩個(gè)并行的分支,每個(gè)分支分別經(jīng)過(guò)2個(gè)CBL卷積層,形成分類(lèi)檢測(cè)頭和回歸檢測(cè)頭。解耦檢測(cè)頭將檢測(cè)任務(wù)解耦合從而避免了兩個(gè)任務(wù)之間的沖突,提高了網(wǎng)絡(luò)定位小目標(biāo)邊界框的能力。
除了學(xué)習(xí)目標(biāo)本身可判別的特征外,訓(xùn)練過(guò)程中定位損失函數(shù)對(duì)小目標(biāo)檢測(cè)任務(wù)來(lái)說(shuō)也很重要。然而位置準(zhǔn)確度指標(biāo)對(duì)于像素少的小目標(biāo)十分敏感,輕微的位置偏移就會(huì)導(dǎo)致其預(yù)測(cè)框與標(biāo)定框之間的誤差急劇增大。因此提出R-CIoU損失函數(shù),緩解位置偏移對(duì)小目標(biāo)的劇烈影響。
CIoU[12]全稱(chēng)全局交并比(Complete Intersection over Union),是用來(lái)評(píng)價(jià)目標(biāo)檢測(cè)算法邊界框準(zhǔn)確度的標(biāo)準(zhǔn),如圖5,CIoU在IoU的基礎(chǔ)上充分考慮了框的重疊面積、中心點(diǎn)之間的距離以及長(zhǎng)寬比,加快了網(wǎng)絡(luò)的收斂速度,提升了模型的精度。該文提出的R-CIoU在此基礎(chǔ)上針對(duì)小目標(biāo)的位置敏感性改進(jìn)中心點(diǎn)間距的表示方式,其計(jì)算公式如下:
圖5 CIoU示意圖
(8)
其中,ρ(b,bgt)為預(yù)測(cè)框與真實(shí)框中心點(diǎn)之間的歐氏距離的開(kāi)方,c為預(yù)測(cè)框與真實(shí)框的最小閉包區(qū)域的對(duì)角線(xiàn)距離。
(9)
(10)
(w,h)(wgt,hgt)分別為預(yù)測(cè)框和真實(shí)框的寬和高;v為衡量長(zhǎng)寬比一致性的懲罰項(xiàng),使得預(yù)測(cè)框快速接近目標(biāo)框的同時(shí),預(yù)測(cè)框的長(zhǎng)寬比也快速接近目標(biāo)框,提高模型預(yù)測(cè)位置的準(zhǔn)確度。
該文主要針對(duì)海面違法漁樁進(jìn)行無(wú)人機(jī)視頻采集,對(duì)采集到的視頻數(shù)據(jù)進(jìn)行初步篩選和劃分,等間隔抽取視頻幀得到數(shù)據(jù)集,共計(jì)380張圖像,分辨率為640×640,其中訓(xùn)練集和驗(yàn)證集的數(shù)量為8∶2。將數(shù)據(jù)集按照模型讀取數(shù)據(jù)的要求,使用LabelImg軟件進(jìn)行標(biāo)注,如圖6(a)。漁樁目標(biāo)像素少且長(zhǎng)寬比跨度大,模型漏檢率高,因此通過(guò)輪廓檢測(cè)和調(diào)整長(zhǎng)寬比,連接小目標(biāo)的特征和上下文的特征增加小目標(biāo)的信息,改善標(biāo)簽質(zhì)量,使模型能夠更好地檢測(cè)目標(biāo),新的標(biāo)簽如圖6(b),將其稱(chēng)為IFPS數(shù)據(jù)集。
圖6 標(biāo)簽添加上下文信息
實(shí)驗(yàn)操作系統(tǒng)為Windows 10,CPU為AMD Ryzen7 5800X,GPU為Nvidia GeForce GTX 3080,采用的集成開(kāi)發(fā)環(huán)境是Anaconda3,深度學(xué)習(xí)框架為Windows 10系統(tǒng)下的PyTorch深度學(xué)習(xí)框架,開(kāi)發(fā)環(huán)境為Python 3.8,PyTorch 1.8.0,CUDA 11.1。為了保證訓(xùn)練結(jié)果的有效性,算法的消融實(shí)驗(yàn)均在同一訓(xùn)練參數(shù)下進(jìn)行,模型的具體參數(shù)值設(shè)置如表1所示。
表1 消融實(shí)驗(yàn)訓(xùn)練參數(shù)
為了準(zhǔn)確分析模型的性能,采用平均精度(Average Precision,AP)、平均召回率(Average Recall,AR)、平均精度均值(mean Average Precision,mAP)以及每秒識(shí)別的圖像幀數(shù)(Frame Per Second,FPS)作為評(píng)價(jià)指標(biāo)。計(jì)算公式分別如下:
(11)
(12)
(13)
(14)
其中,TP、FP、FN分別表示測(cè)試正樣本被預(yù)測(cè)為正樣本、負(fù)樣本被預(yù)測(cè)為負(fù)樣本以及正樣本被預(yù)測(cè)為負(fù)樣本的目標(biāo)數(shù)量,APi表示單類(lèi)別精確率,N表示類(lèi)別的數(shù)量。
3.4.1 對(duì)比分析實(shí)驗(yàn)
該文將AECA-YOLO模型與現(xiàn)有的主流目標(biāo)檢測(cè)模型Faster-RCNN[13]、SSD[14]、Centernet[15]、YOLOv3[16]和YOLOv5在數(shù)據(jù)集IFPS上進(jìn)行對(duì)比分析,對(duì)比不同模型的mAP、AR指標(biāo)以及FPS,驗(yàn)證AECA-YOLO的高效性。對(duì)比實(shí)驗(yàn)結(jié)果如表2所示,其中為了對(duì)比YOLO系列模型性能,統(tǒng)一采用最淺的網(wǎng)絡(luò)主干深度與寬度,名稱(chēng)后以s作為標(biāo)記。Faster-RCNN是最重要的兩階段檢測(cè)算法之一,包括深度全卷積和Fast-RCNN檢測(cè)器兩個(gè)模塊,分別用以選擇性搜索生成候選框和計(jì)算分類(lèi)與回歸,雖精度較高但算法最為復(fù)雜,檢測(cè)速度較慢;SSD作為一階段檢測(cè)器,綜合了Faster RCNN和YOLO的優(yōu)缺點(diǎn),加入特征金字塔,精度和速度都有明顯的優(yōu)勢(shì);Centernet是一種Anchor-free的目標(biāo)檢測(cè)算法,去除了錨框和后處理操作,然而對(duì)于下采樣后中心點(diǎn)重疊的目標(biāo)則無(wú)法區(qū)分,因此效果較差;YOLOv1是一種只用一個(gè)CNN網(wǎng)絡(luò)實(shí)現(xiàn)的端到端目標(biāo)檢測(cè)算法,YOLOv2在YOLOv1的基礎(chǔ)上提升了定位精度和召回率,YOLOv3是在YOLOv2的基礎(chǔ)上對(duì)骨干網(wǎng)絡(luò)和分類(lèi)方法進(jìn)行改進(jìn),YOLOv5則進(jìn)一步通過(guò)數(shù)據(jù)增強(qiáng)、采用Focus和CSP結(jié)構(gòu)、引入FPN+PAN等方法提升性能,雖然在精度和召回率上有不同提升,但仍然達(dá)不到應(yīng)用需求。由表2可以看出,該文提出的算法在檢測(cè)精度、召回率以及識(shí)別速度三個(gè)方面均優(yōu)于主流的目標(biāo)檢測(cè)算法。
表2 主流目標(biāo)檢測(cè)模型在IFPS上的表現(xiàn)
3.4.2 消融實(shí)驗(yàn)
為了進(jìn)一步證實(shí)AECA-YOLO算法中各個(gè)改進(jìn)對(duì)檢測(cè)模型的優(yōu)化效果,在YOLOv5基礎(chǔ)上逐步添加改進(jìn)措施進(jìn)行消融實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果的數(shù)據(jù)對(duì)比如表3,訓(xùn)練過(guò)程中精度和召回率的變化趨勢(shì)如圖7所示。
圖7 消融實(shí)驗(yàn)過(guò)程中性能變化折線(xiàn)圖
分析表3和圖7得,在漁樁標(biāo)簽中添加上下文信息后,模型的漏檢率有了明顯的下降,召回率提升了16.22百分點(diǎn),mAP也得到了27.64百分點(diǎn)的提升;在骨干網(wǎng)絡(luò)末端添加坐標(biāo)注意力機(jī)制加強(qiáng)了網(wǎng)絡(luò)的提取通道特征的能力,有效減少背景噪聲的干擾,使得精度和召回率都有小幅提升;采用新的解耦檢測(cè)頭后,網(wǎng)絡(luò)的定位回歸能力有了明顯的提升,召回率提高了2.4%,并且網(wǎng)絡(luò)收斂速度加快、訓(xùn)練過(guò)程更加穩(wěn)定,但精度略有下降;在頸部網(wǎng)絡(luò)的金字塔結(jié)構(gòu)引入融合注意力的亞像素上采樣模塊后,精度提升至91.11%;最后對(duì)損失函數(shù)進(jìn)行優(yōu)化,改善漁樁目標(biāo)的位置敏感性,模型的精度和召回率都達(dá)到了最高值。圖8依次為消融實(shí)驗(yàn)得到的后六種模型的最后一次迭代檢測(cè)框的分布,可以直觀看出模型減輕了背景噪聲的干擾,更加關(guān)注于漁樁目標(biāo),極大地降低了誤檢率和漏檢率。綜合上述五種改進(jìn)后,相對(duì)于原始的YOLO模型,提出的優(yōu)化模型AECA-YOLO在基本保持原有檢測(cè)速度的基礎(chǔ)上,有效地將平均檢測(cè)精度提高了29.7百分點(diǎn),召回率提高了18.9百分點(diǎn),FPS為52.37,滿(mǎn)足實(shí)時(shí)檢測(cè)幀率大于25的要求,說(shuō)明改進(jìn)算法AECA-YOLO更具實(shí)用性。
圖8 消融實(shí)驗(yàn)?zāi)P皖A(yù)測(cè)框分布
將目標(biāo)檢測(cè)技術(shù)應(yīng)用于海面漁樁的識(shí)別與定位,是漁政執(zhí)法智能化的迫切需求。為實(shí)現(xiàn)漁樁小目標(biāo)的快速識(shí)別和準(zhǔn)確定位,將坐標(biāo)注意力和上下文信息融入YOLOv5目標(biāo)檢測(cè)算法中,提高模型對(duì)漁樁目標(biāo)的關(guān)注度以及位置敏感性,增強(qiáng)模型的檢測(cè)性能。改進(jìn)的方法平均精度達(dá)到94.50%,召回率達(dá)到97.30%,速度為52.37 FPS,滿(mǎn)足了實(shí)際應(yīng)用場(chǎng)景中高效率和高精度的要求。但是該方法給網(wǎng)絡(luò)增加了冗余,導(dǎo)致訓(xùn)練模型較大,推理速度較慢,在未來(lái)工作中,在增強(qiáng)算法魯棒性的同時(shí),優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu),對(duì)網(wǎng)絡(luò)進(jìn)行輕量化改造,使其可以部署于移動(dòng)終端。