收稿日期:2024-04-03
基金項(xiàng)目:國家自然科學(xué)基金項(xiàng)目(41776142)
作者簡(jiǎn)介:王德興(1971-),男,河北保定人,博士,副教授,研究方向?yàn)槿斯ぶ悄堋⒛J阶R(shí)別和數(shù)據(jù)挖掘等。(E-mail)dxwang@shou.edu.cn
通訊作者:何勇,(E-mail)2850035542@qq.com
摘要:水下目標(biāo)檢測(cè)技術(shù)對(duì)于自動(dòng)化水下捕撈至關(guān)重要,可有效推動(dòng)漁業(yè)的智能化發(fā)展。針對(duì)水下圖像質(zhì)量較差和小目標(biāo)水下生物聚集導(dǎo)致漏檢、誤檢等問題,本研究提出了一種基于改進(jìn)YOLOv8m模型的水下生物目標(biāo)檢測(cè)模型——YOLOv8-BAN。該模型首先在骨干網(wǎng)絡(luò)中嵌入雙向路由自注意力機(jī)制,以增強(qiáng)網(wǎng)絡(luò)的特征提取能力;其次在頸部結(jié)合自適應(yīng)特征融合模塊,優(yōu)化特征融合效果,增強(qiáng)了模型對(duì)多尺度目標(biāo)的檢測(cè)能力;最后設(shè)計(jì)了一種小目標(biāo)損失函數(shù),通過精確標(biāo)簽分配進(jìn)一步提升了水下生物小目標(biāo)的檢測(cè)精度。在URPC2018和Brackish數(shù)據(jù)集上的測(cè)試結(jié)果顯示,YOLOv8-BAN模型的平均檢測(cè)精度分別達(dá)到86.9%和98.6%,較YOLOv8m分別提高了3.5個(gè)百分點(diǎn)和3.3個(gè)百分點(diǎn);與其他6種模型相比,YOLOv8-BAN模型具有更高的檢測(cè)精度和較快的檢測(cè)速度。本研究結(jié)果可為水下機(jī)器人進(jìn)行水產(chǎn)捕撈作業(yè)提供了技術(shù)支持。
關(guān)鍵詞:水下生物;YOLOv8m;深度學(xué)習(xí);小目標(biāo)檢測(cè)
中圖分類號(hào):TP391文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1000-4440(2025)01-0101-11
UnderwaterbiologicaltargetdetectionmethodbasedonYOLOv8-BANmodel
WANGDexing,HEYong,YUANHongchun
(CollegeofInformationTechnology,ShanghaiOceanUniversity,Shanghai201306,China)
Abstract:Underwatertargetdetectiontechnologyiscrucialfortheautomationofunderwaterfishing,whichcaneffectivelypromotetheintelligentdevelopmentofthefishingindustry.Aimingattheproblemsofpoorunderwaterimagequalityandmissedand1detectionscausedbytheaggregationofsmalltargetunderwaterorganisms,thisstudyproposedanunderwaterbiologicaltargetdetectionmethodbasedonimprovedYOLOv8mmodel,namelyYOLOv8-BAN.Themodelfirstembeddedabidirectionalroutingself-attentionmechanisminthebackbonenetworktoenhancethenetwork’sfeatureextractioncapability.Secondly,theadaptivefeaturefusionmodulewascombinedinthenecktooptimizefeaturefusioneffects,enhancingthemodel’sdetectioncapabilityformulti-scaletargets.Finally,asmalltargetlossfunctionwasdesignedtofurtherimprovethedetectionaccuracyofsmalltargetsthroughpreciselabelassignment.ExperimentalresultsontheURPC2018andBrackishdatasetsshowedthattheaveragedetectionaccuracyofYOLOv8-BANmodelreached86.9%and98.6%respectively,whichwas3.5percentagepointsand3.3percentagepointshigherthanthatofYOLOv8mmodel.Comparedwiththeothersixmodels,theYOLOv8-BANmodelhadhigherdetectionaccuracyandfasterdetectionspeed.Theresultsofthisstudycanprovidetechnicalsupportforunderwaterrobotstocarryoutaquaculturefishingoperations.
Keywords:underwaterorganisms;YOLOv8m;deeplearning;smalltargetdetection
水下生物目標(biāo)檢測(cè)技術(shù)是水產(chǎn)養(yǎng)殖智能化戰(zhàn)略的核心組成部分,對(duì)于實(shí)現(xiàn)水下機(jī)器人自動(dòng)化捕撈具有重要意義[1]。水下機(jī)器人在自動(dòng)化捕撈中的應(yīng)用依賴于高效的水下生物目標(biāo)檢測(cè)技術(shù)[2]。然而,受水下環(huán)境和光照條件的影響,光學(xué)圖像存在紋理特征信息不足、對(duì)比度低等問題[3],同時(shí)小目標(biāo)生物的聚集也增加了檢測(cè)的難度。因此,亟需設(shè)計(jì)一種高精度的、魯棒性強(qiáng)的水下生物目標(biāo)檢測(cè)模型。
近年來,隨著計(jì)算機(jī)視覺技術(shù)的發(fā)展,基于深度學(xué)習(xí)的檢測(cè)方法被廣泛應(yīng)用于水下生物目標(biāo)檢測(cè)。深度學(xué)習(xí)目標(biāo)檢測(cè)方法分為兩大類,即雙階段方法和單階段方法。雙階段方法需要先生成候選區(qū)域,然后經(jīng)過分類和回歸得到檢測(cè)結(jié)果。當(dāng)前,在水下生物目標(biāo)檢測(cè)領(lǐng)域,許多研究者選擇基于雙階段檢測(cè)算法進(jìn)行研究,尤其是針對(duì)經(jīng)典的FasterR-CNN算法[4]進(jìn)行改進(jìn)和優(yōu)化。袁紅春等[5]提出了一種基于FasterR-CNN二次遷移學(xué)習(xí)和帶色彩恢復(fù)的多尺度視網(wǎng)膜增強(qiáng)算法,該方法在水下小規(guī)模魚類數(shù)據(jù)集上表現(xiàn)出較高的準(zhǔn)確率。Liu等[6]對(duì)FasterR-CNN進(jìn)行了改進(jìn),將骨干網(wǎng)絡(luò)替換為Transformer結(jié)構(gòu),并添加了聚合路徑網(wǎng)絡(luò)以增強(qiáng)特征提取能力,但該方法檢測(cè)速度較慢。Lin等[7]提出了一種基于FasterR-CNN的數(shù)據(jù)增強(qiáng)方法RoIMix,將多張圖片中感興趣的區(qū)域進(jìn)行融合,模擬水下生物的重疊和遮擋。Shi等[8]將FasterR-CNN骨干網(wǎng)絡(luò)進(jìn)行改進(jìn),使用ResNet并引入BI-FPN特征金字塔結(jié)構(gòu)以加強(qiáng)模型的特征提取能力。相比雙階段方法,單階段方法速度優(yōu)勢(shì)明顯,而且隨著單階段算法的不斷迭代,其精度也能達(dá)到很高。目前研究人員主要基于YOLO系列模型[9-12]開展單階段算法的研究。Guo等[13]針對(duì)水下圖像模糊、對(duì)比度低的問題,提出了一種改進(jìn)自適應(yīng)算法的MSRP圖像增強(qiáng)算法,并和YOLOv3模型結(jié)合進(jìn)行檢測(cè),但該模型骨干網(wǎng)絡(luò)的特征提取能力較弱。Chen等[14]在YOLOv4模型的基礎(chǔ)上進(jìn)行改進(jìn),通過增加殘差塊與通道注意力機(jī)制結(jié)合,增強(qiáng)骨干網(wǎng)絡(luò)特征提取能力。Lei等[15]基于YOLOv5模型進(jìn)行改進(jìn),將SwimTransformer作為基本骨干網(wǎng)絡(luò)并改進(jìn)路徑聚合網(wǎng)絡(luò)PANet,讓網(wǎng)絡(luò)更適用于模糊的水下圖像。翟先一等[16]使用帶色彩恢復(fù)的多尺度視網(wǎng)膜增強(qiáng)算法對(duì)圖像進(jìn)行預(yù)處理,并使用卷積注意力機(jī)制對(duì)海參進(jìn)行檢測(cè),但該方法使用的數(shù)據(jù)集類別較少,僅對(duì)海參有較好的檢測(cè)效果。Sun等[17]使用MobileT作為YOLOX模型的骨干網(wǎng)絡(luò),提高算法的全局特征提取能力,減少了參數(shù)量,但該方法對(duì)小目標(biāo)檢測(cè)效果不佳。Yi等[18]針對(duì)小目標(biāo)檢測(cè)漏檢率高的問題,提出了一種基于YOLOv7模型改進(jìn)的檢測(cè)算法,該方法通過整合SENet注意力機(jī)制,增強(qiáng)FPN金字塔結(jié)構(gòu),合并EIOU損失函數(shù),集中了小目標(biāo)的更多關(guān)鍵特征信息,提高了小目標(biāo)的檢測(cè)精度。
盡管基于深度學(xué)習(xí)方法在水下生物目標(biāo)檢測(cè)任務(wù)上已經(jīng)獲得了顯著的精度和速度提升,但仍然存在一些問題。首先,現(xiàn)有方法使用的數(shù)據(jù)集數(shù)量較少或者種類單一,導(dǎo)致模型泛化性不足。其次,現(xiàn)有方法對(duì)于水下目標(biāo)尤其是小目標(biāo)檢測(cè)精度不足,這主要是因?yàn)樗聢D像質(zhì)量不佳,導(dǎo)致目標(biāo)特征難以提取。同時(shí),大部分網(wǎng)絡(luò)在多尺度融合過程中主要使用簡(jiǎn)單的元素相加,容易攜帶不同特征層的矛盾信息。此外,基于交并比(IntersectionoverUnion,IOU)改進(jìn)的損失函數(shù)對(duì)于小目標(biāo)位置偏差較為敏感,難以對(duì)小目標(biāo)進(jìn)行精準(zhǔn)定位。針對(duì)以上問題,本研究提出了一種基于改進(jìn)YOLOv8m模型的水下生物目標(biāo)檢測(cè)模型YOLOv8-BAN模型。該模型首先在骨干網(wǎng)絡(luò)中嵌入雙向路由自注意力機(jī)制(Bi-LevelRoutingAttention,BRA),用于提高網(wǎng)絡(luò)特征提取能力。其次在頸部結(jié)合自適應(yīng)特征融合網(wǎng)絡(luò)(AdaptiveFeatureFusion,AFF),提高不同尺度目標(biāo)尤其是小目標(biāo)的檢測(cè)精度。最后設(shè)計(jì)了NWD-CIOU損失函數(shù),替換原始的完全交并比(Complete-IOU,CIOU)損失函數(shù),對(duì)小目標(biāo)進(jìn)行更準(zhǔn)確的標(biāo)簽分配,進(jìn)一步提高小目標(biāo)的定位精度。為了讓模型具有較強(qiáng)的泛化性,本研究在兩個(gè)公共數(shù)據(jù)集上進(jìn)行消融試驗(yàn)和對(duì)比試驗(yàn),以驗(yàn)證改進(jìn)模型的有效性。
1材料與方法
1.1YOLOv8-BAN模型的網(wǎng)絡(luò)結(jié)構(gòu)
為了保證檢測(cè)的實(shí)時(shí)性,本研究使用YOLOv8m模型作為基礎(chǔ)模型,并根據(jù)所提出的改進(jìn)方法,將其命名為YOLOv8-BAN模型。YOLOv8-BAN模型網(wǎng)絡(luò)架構(gòu)由3個(gè)主要部分組成,分別是骨干網(wǎng)絡(luò)(Backbone)、頸部網(wǎng)絡(luò)(Neck)以及檢測(cè)頭(Head),網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。Backbone采用了一系列卷積和反卷積來提取特征,同時(shí)使用殘差連接和瓶頸結(jié)構(gòu)來縮減網(wǎng)絡(luò)大小并提高性能。Backbone部分采用了C2F模塊作為基本的構(gòu)成單元,與YOLOv5s模型的C3模塊相比,C2F模塊具有更少的參數(shù)和更優(yōu)秀的特征提取能力。同時(shí)為了增強(qiáng)在水下環(huán)境的特征提取能力,嵌入了BRA雙向路由自注意力機(jī)制。Neck部分增加一個(gè)4倍下采樣的淺層特征層,使用4個(gè)特征層結(jié)合AFF網(wǎng)絡(luò)進(jìn)行自適應(yīng)特征空間融合,將融合后的4個(gè)特征作為檢測(cè)頭進(jìn)行檢測(cè)。Head負(fù)責(zé)最終的目標(biāo)檢測(cè)和分類任務(wù),包括一個(gè)檢測(cè)頭和一個(gè)分類頭,檢測(cè)頭包括一系列的反卷積層和池化層,用于生成檢測(cè)結(jié)果;分類頭采用全局池化對(duì)每個(gè)特征層進(jìn)行分類。YOLOv8模型使用CIOU作為邊界框定位損失函數(shù),由于該函數(shù)不利于小目標(biāo)的檢測(cè),因此本研究使用一種邊界框距離度量標(biāo)準(zhǔn)NWD,與CIOU結(jié)合設(shè)計(jì)了NWD-CIOU損失函數(shù),用來提高小目標(biāo)在底層標(biāo)簽分配中的準(zhǔn)確性。
1.1.1雙向路由自注意力機(jī)制針對(duì)水下環(huán)境中圖像對(duì)比度低、模糊和失真等問題,本研究在骨干網(wǎng)絡(luò)中嵌入了BRA[19]自注意力機(jī)制,以增強(qiáng)骨干網(wǎng)絡(luò)的特征提取能力。這種機(jī)制使得模型能夠更有效地捕捉并利用有限的目標(biāo)特征,從而在復(fù)雜的水下環(huán)境中提高檢測(cè)效果。BRA本質(zhì)是一種自注意力機(jī)制的變體(圖2),它將多頭自注意力的計(jì)算分為兩個(gè)階段,第一階段進(jìn)行粗粒度的注意力計(jì)算,該模塊基于稀疏采樣而非下采樣,可以保留細(xì)粒度的細(xì)節(jié)。第二階段基于第一階段的稀疏注意力結(jié)果進(jìn)行細(xì)粒度的注意力計(jì)算。在第一階段中將給定的H×W維圖像劃分為S×S個(gè)非重疊區(qū)域,然后對(duì)每個(gè)非重疊區(qū)域進(jìn)行自注意力計(jì)算,得到查詢Q、鍵K和值V。然后構(gòu)建有向圖來找到關(guān)注關(guān)系,即每個(gè)給定區(qū)域應(yīng)該關(guān)注的區(qū)域。具體來說,通過對(duì)Q和K應(yīng)用每個(gè)區(qū)域的平均值來得到區(qū)域查詢Qr和鍵Kr,然后通過Qr和轉(zhuǎn)置Kr之間的矩陣乘法,得到區(qū)域到區(qū)域親和圖像的鄰接矩陣Ar,其中鄰接矩陣中的每個(gè)數(shù)值表示兩個(gè)區(qū)域之間的語義關(guān)聯(lián)程度,其計(jì)算公式為:
Ar=Qr(Kr)T(1)
公式(1)中r表示計(jì)算的區(qū)域(region),T表示轉(zhuǎn)置符號(hào)。
為了更加高效地定位有價(jià)值的鍵值對(duì)進(jìn)行全局參與,在粗粒度的區(qū)域級(jí)別中過濾掉不相關(guān)的鍵值對(duì),只需要保留對(duì)每個(gè)區(qū)域關(guān)聯(lián)程度最大的鍵值對(duì),從而得到了一個(gè)路由索引矩陣Ir,其公式為:
Ir=topkIndex(Ar)(2)
在第二階段中,根據(jù)第一階段得到的鄰接矩陣Ir進(jìn)行細(xì)粒度的自注意力計(jì)算。對(duì)于第i個(gè)區(qū)域中的每個(gè)查詢,讓它僅僅關(guān)注Ir中第i行的前k個(gè)區(qū)域的并集中所有的鍵值對(duì),為了方便操作首先需要收集所有的K和V,公式為:
Kg=gather(K,Ir)(3)
Vg=gather(V,Ir)(4)
公式(3)中Kg和公式(4)中Vg是Ir中所有區(qū)域收集到的鍵值張量。
最后將注意力集中在收集的鍵值對(duì)上,其計(jì)算公式為:
O=Attention(Q,Kg,Vg)+LEC(V)(5)
公式(5)中引入了一個(gè)局部上下文增強(qiáng)術(shù)語LCE(V)[20],可以增強(qiáng)V中相鄰像素之間的聯(lián)系。其中,函數(shù)LCE(·)使用深度可分離卷積進(jìn)行參數(shù)化,卷積核大小設(shè)置為5。
1.1.2自適應(yīng)特征融合網(wǎng)絡(luò)YOLOv8頸部網(wǎng)絡(luò)使用3種尺度不同的特征層進(jìn)行融合,分別是20×20、40×40和80×80,然而在水下場(chǎng)景中,圖像比較模糊且存在不同尺度的密集目標(biāo),這些目標(biāo)的語義信息和位置信息更多集中在更淺的特征層,僅使用3個(gè)較深的特征層容易出現(xiàn)漏檢或者誤檢。為此本研究在頸部特征融合過程中增加了一個(gè)160×160的淺層特征層,以獲得更多的特征信息,然后設(shè)計(jì)了AFF網(wǎng)絡(luò),將4個(gè)不同尺度大小的特征層進(jìn)行自適應(yīng)特征融合。該方法是訓(xùn)練過程中學(xué)習(xí)不同層次特征的最佳融合方法,融合過程中可以過濾掉攜帶矛盾的其他層的特征信息,從而緩解學(xué)習(xí)目標(biāo)不一致的問題。
AFF結(jié)構(gòu)如圖3所示,其核心思想是自適應(yīng)學(xué)習(xí)每個(gè)尺度上特征圖的融合空間權(quán)重,主要分為兩個(gè)步驟,即特征縮放和自適應(yīng)融合。先將特征圖進(jìn)行縮放,其中第l層將其他特征層通過上采樣或者下采樣的方式調(diào)整到和該層特征圖大小。對(duì)于上采樣使用1×1的卷積層將特征圖像通道壓縮到和第l層相同,然后使用插值法提高分辨率;對(duì)于下采樣則使用步長(zhǎng)為2的3×3卷積層修改通道數(shù)量和分辨率,最后進(jìn)行特征融合,以第l層輸出特征圖像為例,其融合公式如下:
ylij=αlij·x1→lij+βlij·x2→lij+γlij·x3→lij+ηlij·x4→lij
(6)
在公式(6)中,l表示融合的層數(shù),xk→lij表示第k個(gè)輸入特征層(k=1,2,3,4)在第l層融合后在(i,j)位置上輸出的特征結(jié)果,αlij、βlij、γlij和ηlij分別代表對(duì)于不同層的權(quán)重系數(shù),并且對(duì)于權(quán)重參數(shù)滿足αlij+βlij+γlij+ηlij=1,αlij、βlij、γlij和ηlij∈[0,1],其中權(quán)重參數(shù)αlij定義為:
αlij=eλlαijeλlαij+eλlβij+eλlγij+eλlηij(7)
公式(7)中eλlαij、eλlβij、eλlγij、eλlηij都是控制參數(shù),通過1×1的卷積核與x1→l、x2→l、x3→l、x4→l分別學(xué)習(xí)得到,其他權(quán)重參數(shù)以此類推。通過該方式進(jìn)行自適應(yīng)特征融合后得到4個(gè)輸出特征層,后續(xù)使這4個(gè)特征層作為檢測(cè)頭進(jìn)行檢測(cè)。
1.1.3小目標(biāo)損失函數(shù)(NWD-CIOU)YOLOv8中的損失函數(shù)包括3個(gè)部分,即邊界框定位損失、置信度損失和分類損失。其中邊界框定位損失默認(rèn)使用完全交并比CIOU[21]為度量標(biāo)準(zhǔn),CIOU是對(duì)IOU的改進(jìn),然而這兩種度量標(biāo)準(zhǔn)對(duì)于小目標(biāo)的位置偏差都較為敏感,導(dǎo)致小目標(biāo)在標(biāo)簽分配中可能無法匹配到正樣本或者正樣本數(shù)量太少,降低模型的性能??紤]到CIOU在衡量小目標(biāo)邊界框距離時(shí)可能不是最佳選擇,本研究提出了一種改進(jìn)的CIOU損失函數(shù),命名為NWD-CIOU。這種新的損失函數(shù)旨在更準(zhǔn)確地評(píng)估并優(yōu)化小目標(biāo)的邊界框預(yù)測(cè),提升小目標(biāo)檢測(cè)的精度。
應(yīng)用NWD-CIOU首先需要對(duì)邊界框進(jìn)行高斯分布建模。對(duì)于較小物體的邊界框,由于物體不是嚴(yán)格意義的矩形,所以存在一些前景像素和背景像素,各自分布在邊界框的中間和邊界[22]。為了描述邊界框中不同像素的權(quán)重,對(duì)邊界框進(jìn)行二維高斯分布建模,其中最中間的像素有最高權(quán)重,權(quán)值大小從中心到邊界逐漸降低。對(duì)于邊界框R(cx,cy,ω,h),其中(cx,cy)、ω和h分別表示為邊界框的中心坐標(biāo)、寬度和高度。其內(nèi)接圓的方程式為:
(x-μx)2σx2+(y-μy)2σy2=1(8)
公式(8)中μx和μy是橢圓的中心坐標(biāo),σx和σy表示x軸和y軸的半軸長(zhǎng)度。因此μx=cx,μy=cy,σx=ω/2,σy=h/2。二維高斯分布的概率密度函數(shù)為:
f(X|μ,)=exp-12(X-μ)T-1(X-μ)2π||12(9)
公式(9)中exp表示以e為底的指數(shù)函數(shù),X、μ和∑分別表示高斯分布的坐標(biāo)、平均向量和協(xié)方差矩陣。
進(jìn)行二維高斯分布建模后,使用最優(yōu)運(yùn)輸理論中的Wasserstein距離[23]來衡量?jī)蓚€(gè)邊界框的距離。對(duì)于μ1=N(m1,∑1)和μ2=N(m2,∑2)兩個(gè)二維高斯,兩者之間的二階Wasserstein距離定義為:
W22(μ1,μ2)=‖m1-m2‖22+‖∑1/21-∑1/22‖(10)
公式(10)中m1和m2表示高斯分布的均值向量,‖·‖F(xiàn)表示Frobenius范數(shù)。
對(duì)于兩個(gè)邊界框,距離度量又可以表示為:
W22(Na,Nb)=‖[(cxa,cya,ωa2,ha2)T,(cxb,cyb,ωb2,hb2)T]‖22
(11)
公式(11)中a和b代表兩個(gè)邊界框。然而,這個(gè)距離度量并不能直接用于相似度的計(jì)算,需要對(duì)其進(jìn)行歸一化,獲得歸一化的Wasserstein距離(NormalizedWassersteindistance,NWD),將其作為邊界框的度量標(biāo)準(zhǔn),其公式如下:
NWD(Na,Nb)=exp-W22(Na,Nb)C(12)
公式(12)中a和b代表兩個(gè)邊界框,C是一個(gè)和數(shù)據(jù)集相關(guān)的常數(shù)(數(shù)據(jù)集的平均大?。?。如果僅以NWD度量方式作為模型的定位損失函數(shù),對(duì)于包含不同尺度大小的數(shù)據(jù)集可能達(dá)不到更好的檢測(cè)效果,為此本研究將NWD和CIOU兩種度量標(biāo)準(zhǔn)進(jìn)行結(jié)合,引入一個(gè)比例因子,設(shè)計(jì)了新的NWD-CIOU損失函數(shù),即:
LOSSNWD-CIOU=(1-μ)LOSSNWD+μLOSSCIOU(13)
公式(13)中μ值為超參數(shù),經(jīng)過多次試驗(yàn)后該值取0.2達(dá)到最佳。和CIOU相比,NWD-CIOU考慮到了小目標(biāo)由于位置偏差過于敏感導(dǎo)致標(biāo)簽分配失敗的問題,提升了模型對(duì)小目標(biāo)的檢測(cè)效果。和僅使用NWD度量標(biāo)準(zhǔn)相比,在包含不同尺度大小的數(shù)據(jù)集上,NWD-CIOU能獲得更高的精度,并且可以加快模型訓(xùn)練的收斂速度。
1.2試驗(yàn)數(shù)據(jù)集
本試驗(yàn)所用到的數(shù)據(jù)集來自公開的URPC2018數(shù)據(jù)集和Brackish數(shù)據(jù)集。其中URPC2018數(shù)據(jù)集有3701張圖片,包含海星、海參等4種海洋生物,部分?jǐn)?shù)據(jù)集圖片如圖4所示。Brackish數(shù)據(jù)集總共有14518張圖片,包含魚類、螃蟹等6種海洋生物,部分?jǐn)?shù)據(jù)集圖片如圖5所示。本研究將兩個(gè)數(shù)據(jù)集均按照8∶1∶1的比例劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集進(jìn)行后續(xù)試驗(yàn)。
1.3試驗(yàn)設(shè)置
本研究的模型構(gòu)建在PyTorch深度學(xué)習(xí)框架之上,并在Ubuntu20.04操作系統(tǒng)環(huán)境下進(jìn)行試驗(yàn)。具體而言,PyTorch版本為1.8,搭配的Python版本是3.8。模型訓(xùn)練任務(wù)在配備NVIDIAGeForceRTX3090(24GB顯存)的GPU上執(zhí)行。為了確保模型訓(xùn)練的一致性和可重復(fù)性,輸入圖像被標(biāo)準(zhǔn)化為640×640像素。在訓(xùn)練過程中,Batch-Size設(shè)置為16,總共進(jìn)行300個(gè)epoch訓(xùn)練。初始學(xué)習(xí)率設(shè)定為0.01,并采用余弦退火策略對(duì)學(xué)習(xí)率進(jìn)行調(diào)整。優(yōu)化過程中,動(dòng)量參數(shù)設(shè)置為0.937,選用SGD(隨機(jī)梯度下降)作為優(yōu)化器。
1.4評(píng)價(jià)指標(biāo)
為了評(píng)價(jià)模型的檢測(cè)精度,本研究采用平均精確率(mAP)、精準(zhǔn)率(P)和召回率(R)作為評(píng)價(jià)指標(biāo)。其中AP表示單類標(biāo)簽的平均精確率,mAP表示所有類別標(biāo)簽的平均精確率,IOU取值為0.5。精準(zhǔn)率表示在預(yù)測(cè)的所有正樣本中實(shí)際也是正樣本的概率。召回率表示實(shí)際為正樣本被預(yù)測(cè)為正樣本的概率。為了評(píng)價(jià)模型的檢測(cè)速度,選取每1s檢測(cè)幀數(shù)(FPS)作為檢測(cè)速度的評(píng)價(jià)標(biāo)準(zhǔn)。上述指標(biāo)的計(jì)算公式分別為:
P=TPTP+FP(14)
R=TPTP+FN(15)
AP=∫10PdR(16)
mAP=NnAPnN(17)
FPS=FTTC(18)
公式(14)和(15)中TP表示被預(yù)測(cè)為正樣本的數(shù)量,F(xiàn)P表示預(yù)測(cè)為負(fù)樣本的數(shù)量,F(xiàn)N表示實(shí)際為正樣本被預(yù)測(cè)為負(fù)樣本的數(shù)量;公式(17)中N表示類別數(shù)量;公式(18)中FT表示總幀數(shù);TC表示檢測(cè)時(shí)間。
2結(jié)果與分析
2.1消融試驗(yàn)結(jié)果
為了驗(yàn)證改進(jìn)模塊的有效性,對(duì)本研究方法使用的BRA、AFF和NWD-CIOU3個(gè)模塊進(jìn)行消融試驗(yàn),在URPC2018和Brackish兩個(gè)數(shù)據(jù)集上的試驗(yàn)結(jié)果如表1和表2所示??梢钥吹?,當(dāng)網(wǎng)絡(luò)中添加BRA自注意力模塊后,與YOLOv8m模型相比mAP分別提升1.4個(gè)百分點(diǎn)和1.5個(gè)百分點(diǎn),這說明BRA使用了細(xì)粒度的自注意力機(jī)制,建立遠(yuǎn)程的上下文特征依賴,捕獲最顯著特征,從而增強(qiáng)了網(wǎng)絡(luò)的特征提取效果。當(dāng)加入AFF之后,與YOLOv8m模型相比mAP均提升1.2個(gè)百分點(diǎn),這說明AFF通過增加淺層特征層進(jìn)行自適應(yīng)特征融合,更加充分地利用不同尺度特征層的位置信息和語義信息,提高不同尺度目標(biāo)的檢測(cè)效果。將NWD與CIOU結(jié)合作為邊界框損失函數(shù)后,與YOLOv8m模型相比mAP分別提升了1.8個(gè)百分點(diǎn)和1.5個(gè)百分點(diǎn),這一改進(jìn)在兩個(gè)不同的數(shù)據(jù)集上都得到了驗(yàn)證。圖6中的邊界框損失曲線圖直觀展示了改進(jìn)措施的效果。在訓(xùn)練過程中,使用NWD的模型與使用CIOU的模型相比,顯示出更明顯的訓(xùn)練損失下降。這一結(jié)果表明,NWD在處理小目標(biāo)時(shí)性能更佳,能夠?qū)崿F(xiàn)更精確的標(biāo)簽分配,從而提高對(duì)小目標(biāo)的檢測(cè)精度。當(dāng)NWD與CIOU結(jié)合使用時(shí),模型的損失下降最為顯著。由此可見,將NWD與CIOU結(jié)合能夠充分利用兩種度量標(biāo)準(zhǔn)的優(yōu)勢(shì),平衡對(duì)不同尺度目標(biāo)的檢測(cè)性能,提升模型的整體檢測(cè)效果。從表1和表2還可以發(fā)現(xiàn),將全部模塊添加之后,模型在兩個(gè)數(shù)據(jù)集上的mAP達(dá)到最高,分別為86.9%和98.6%,與YOLOv8m模型相比分別提高了3.5個(gè)百分點(diǎn)和3.3個(gè)百分點(diǎn)。
為了更直觀地展示模型各模塊對(duì)檢測(cè)效果的影響,通過逐一添加BRA自注意力模塊、AFF模塊和NWD-CIOU損失函數(shù)來進(jìn)行試驗(yàn)。在URPC2018和Brackish兩個(gè)數(shù)據(jù)集中分別隨機(jī)抽取一張圖片,并生成了相關(guān)的熱力圖,結(jié)果如圖7和圖8所示??梢钥闯觯褂肶OLOv8m基礎(chǔ)模型時(shí),熱力圖上檢測(cè)到的目標(biāo)數(shù)量較少,且覆蓋的區(qū)域較小,表明有些目標(biāo)沒有被模型準(zhǔn)確識(shí)別。這一結(jié)果說明YOLOv8m骨干網(wǎng)絡(luò)對(duì)于水下復(fù)雜場(chǎng)景下的特征提取能力不足。加入BRA模塊后,熱力圖中檢測(cè)到的目標(biāo)區(qū)域擴(kuò)大且更集中在目標(biāo)周圍,同時(shí)檢測(cè)到的目標(biāo)數(shù)量增加,這表明BRA通過其細(xì)粒度的自注意力機(jī)制,建立了遠(yuǎn)程的上下文連接,讓網(wǎng)絡(luò)更容易關(guān)注到目標(biāo)的最顯著特征。在增加BRA模塊的基礎(chǔ)上增加AFF模塊后熱力圖中檢測(cè)到的目標(biāo)數(shù)量增多,且檢測(cè)到的區(qū)域更集中于實(shí)際目標(biāo)上,但是仍然存在較小目標(biāo)沒有被關(guān)注。這說明AFF模塊通過自適應(yīng)特征融合增強(qiáng)了對(duì)不同尺度目標(biāo)的識(shí)別能力,且增加的淺層特征層包含了更多的位置信息和語義信息,擴(kuò)大了檢測(cè)范圍,從而對(duì)不同尺度目標(biāo)識(shí)別更為精準(zhǔn)。在增加BRA模塊和AFF模塊基礎(chǔ)上再使用NWD-CIOU損失函數(shù)后,熱力圖中檢測(cè)到的目標(biāo)數(shù)量繼續(xù)增加,且檢測(cè)到的區(qū)域更加精確地集中在目標(biāo)的中心位置。這表明NWD-CIOU損失函數(shù)在小目標(biāo)的定位上更為精確,提高了小目標(biāo)標(biāo)簽分配的準(zhǔn)確性,從而提高了模型對(duì)小目標(biāo)的檢測(cè)精度。
2.2對(duì)比試驗(yàn)結(jié)果
為了客觀評(píng)估本研究方法的性能,應(yīng)用YOLOv8-BAN模型和一些經(jīng)典的目標(biāo)檢測(cè)模型在URPC2018和Brackish兩個(gè)數(shù)據(jù)集上進(jìn)行定量和定性對(duì)比試驗(yàn),對(duì)比的經(jīng)典目標(biāo)檢測(cè)模型有FasterR-CNN[4]、YOLOV5s[24]、YOLOX[25]、ViTDet[26]和YOLOv7[27]等模型。
定量對(duì)比試驗(yàn)結(jié)果如表3、表4所示。FasterR-CNN模型由于采用了兩階段檢測(cè)設(shè)計(jì),導(dǎo)致其檢測(cè)速度較慢;同時(shí),由于未能利用多尺度特征層進(jìn)行特征融合,其檢測(cè)平均精度也最低,分別只有73.5%和84.4%。YOLOv5s模型雖然因其輕量化設(shè)計(jì),在兩個(gè)數(shù)據(jù)集上的檢測(cè)速度最高,分別為1s124.6幀和118.6幀,但網(wǎng)絡(luò)深度和復(fù)雜度的不足限制了其特征提取能力,因此其平均檢測(cè)精度與YOLOv8-BAN模型相比分別低5.8個(gè)百分點(diǎn)和5.2個(gè)百分點(diǎn)。YOLOX模型的平均檢測(cè)精度與YOLOv8-BAN模型相比也有3.7個(gè)百分點(diǎn)和3.0個(gè)百分點(diǎn)的差距;檢測(cè)速度雖然高于FasterR-CNN模型和ViTDet模型,但實(shí)時(shí)性表現(xiàn)一般。ViTDet模型基于ViT模型進(jìn)行了改進(jìn),增強(qiáng)了網(wǎng)絡(luò)特征提取能力,但在小目標(biāo)的標(biāo)簽分配上仍有誤差,平均檢測(cè)精度比YOLOv8-BAN模型低1.7個(gè)百分點(diǎn)和1.0個(gè)百分點(diǎn);同時(shí)因?yàn)槟P蛥?shù)量和計(jì)算量較大,導(dǎo)致其檢測(cè)速度較慢,難以滿足實(shí)時(shí)性要求。YOLOv7模型在檢測(cè)精度和實(shí)時(shí)性方面表現(xiàn)尚可,平均檢測(cè)精度分別為82.6%和94.6%,但YOLOv7模型使用CIOU邊界框定位損失函數(shù),導(dǎo)致其對(duì)小目標(biāo)檢測(cè)效果一般。YOLOv8-BAN模型與另外6個(gè)模型相比平均檢測(cè)精度最高,分別達(dá)到86.9%和98.6%,相比YOLOv8m模型分別提升3.5個(gè)百分點(diǎn)和3.3個(gè)百分點(diǎn)。這一顯著提升歸功于本研究提出的3個(gè)改進(jìn)模塊,其中BRA自注意力機(jī)制增強(qiáng)了其網(wǎng)絡(luò)特征提取能力,讓網(wǎng)絡(luò)更加關(guān)注目標(biāo)的最顯著區(qū)域;AFF模塊使用自適應(yīng)特征融合的方式,減少了不同特征層融合產(chǎn)生的矛盾信息,提高了融合效果,讓網(wǎng)絡(luò)對(duì)不同尺度目標(biāo)檢測(cè)精度提升;NWD-CIOU損失函數(shù)提高了小目標(biāo)在底層標(biāo)簽分配過程中的準(zhǔn)確性,讓小目標(biāo)瞄框可以分配到更多的正樣本目標(biāo),從而提高對(duì)小目標(biāo)的檢測(cè)精度。
為了定性評(píng)價(jià)和比較不同檢測(cè)模型在實(shí)際水下環(huán)境中對(duì)水生生物的檢測(cè)效果,本研究選擇了3張具有代表性的水下圖片進(jìn)行測(cè)試。在URPC2018數(shù)據(jù)集中選取了2張圖片,即圖9(1)和圖9(2);在Brackish數(shù)據(jù)集中選取了1張圖片,即圖9(3)。其中圖9(1)受背景干擾,目標(biāo)特征不明顯;圖9(2)包含不同尺度的目標(biāo);圖9(3)則存在密集小目標(biāo)。測(cè)試結(jié)果顯示,YOLOv8-BAN模型檢測(cè)到了圖9(1)中所有目標(biāo),并且置信度超過另外6種模型,其他模型則產(chǎn)生了漏檢或者誤檢。這一結(jié)果突出了YOLOv8-BAN模型在特征提取方面的超強(qiáng)能力,尤其是加入的BRA自注意力機(jī)制能夠有效建立遠(yuǎn)程特征之間的聯(lián)結(jié),使網(wǎng)絡(luò)更加關(guān)注目標(biāo)的關(guān)鍵特征。YOLOv8-BAN模型也能夠檢測(cè)到圖9(2)中所有目標(biāo),而且置信度比其他模型都高,這進(jìn)一步驗(yàn)證了AFF模塊的有效性,該模塊能夠在多尺度特征融合過程中增加目標(biāo)的特征信息,并過濾掉攜帶矛盾信息的特征,從而解決學(xué)習(xí)目標(biāo)不一致的問題,提高了不同尺度目標(biāo)的檢測(cè)效果。針對(duì)圖9(3),YOLOv8-BAN模型檢測(cè)到了所有的小目標(biāo),其他6種模型都產(chǎn)生了漏檢的現(xiàn)象。這一結(jié)果再次驗(yàn)證了NWD-CIOU損失函數(shù)在提高小目標(biāo)檢測(cè)精度方面的作用,該損失函數(shù)提高了小目標(biāo)標(biāo)簽分配的準(zhǔn)確性,可以對(duì)小目標(biāo)進(jìn)行精準(zhǔn)定位。
綜上所述,經(jīng)過定量和定性的對(duì)比試驗(yàn),充分驗(yàn)證了本研究提出的模型對(duì)于水下生物目標(biāo)檢測(cè)任務(wù)的適用性,對(duì)于水下密集目標(biāo)和小目標(biāo)都具有良好的檢測(cè)效果。
3結(jié)論
水下生物目標(biāo)檢測(cè)技術(shù)賦予水下機(jī)器人精確捕撈的能力,并輔助進(jìn)行水生生物的統(tǒng)計(jì)監(jiān)測(cè),為水產(chǎn)養(yǎng)殖的智能化轉(zhuǎn)型提供了堅(jiān)實(shí)的技術(shù)支持。為了應(yīng)對(duì)水下圖像質(zhì)量差和小目標(biāo)生物聚集所帶來的檢測(cè)精度低的挑戰(zhàn),本研究通過改進(jìn)YOLOv8m模型,獲得YOLOv8-BAN模型。該模型首先在骨干網(wǎng)絡(luò)中集成了BRA自注意力機(jī)制,以捕獲目標(biāo)間的長(zhǎng)距離特征關(guān)聯(lián),使網(wǎng)絡(luò)更加聚焦于目標(biāo)的關(guān)鍵特征;其次,通過在頸部網(wǎng)絡(luò)中結(jié)合AFF模塊進(jìn)行自適應(yīng)特征融合,有效降低了特征融合過程中的矛盾信息,提升了對(duì)不同尺寸目標(biāo)的檢測(cè)效果;此外,本研究將NWD和CIOU兩種邊界框距離度量標(biāo)準(zhǔn)相結(jié)合,設(shè)計(jì)了NWD-CIOU損失函數(shù),完成了對(duì)小目標(biāo)更精準(zhǔn)的標(biāo)簽分配。在URPC2018和Brackish兩個(gè)水下公共數(shù)據(jù)集上的測(cè)試結(jié)果表明,YOLOv8-BAN模型取得了良好的檢測(cè)效果,能夠?yàn)樗律锬繕?biāo)檢測(cè)的自動(dòng)化和智能化提供技術(shù)支撐。
參考文獻(xiàn):
[1]FAYAZS,PARAHSA,QURESHIGJ,etal.Underwaterobjectdetection:architecturesandalgorithms-acomprehensivereview[J].MultimediaToolsandApplications,2022,81(1):20871-20916.
[2]許裕良,杜江輝,雷澤宇,等.水下機(jī)器人在漁業(yè)中的應(yīng)用現(xiàn)狀與關(guān)鍵技術(shù)綜述[J].機(jī)器人,2023,45(1):110-128.
[3]XUSB,ZHANGMH,SONGW,etal.Asystematicreviewandanalysisofdeeplearning-basedunderwaterobjectdetection[J].Neurocomputing,2023,527:204-232.
[4]RENSQ,HEKM,GIRSHICKR,etal.FasterR-CNN:towardsreal-timeobjectdetectionwithregionproposalnetworks[J].IEEETransactionsonPatternAnalysisandMachineIntelligence,2017,39(6):1137-1149.
[5]袁紅春,張碩.基于FasterR-CNN和圖像增強(qiáng)的水下魚類目標(biāo)檢測(cè)方法[J].大連海洋大學(xué)學(xué)報(bào),2020,35(4):612-619.
[6]LIUJ,LIUS,XUSJ,etal.Two-stageunderwaterobjectdetectionnetworkusingswintransformer[J].IEEEAccess,2022,10:117235-117247.
[7]LINWH,ZHONGJX,LIUS,etal.Roimix:proposal-fusionamongmultipleimagesforunderwaterobjectdetection[C].Barcelona:ICASSP,2020.
[8]SHIP,XUX,NIJ,etal.Underwaterbiologicaldetectionalgorithmbasedonimprovedfaster-RCNN[J].Water,2021,13(17):2420.
[9]REDMONJ,DIVVALAS,GIRSHICKR,etal.Youonlylookonce:unified,real-timeobjectdetection[C].LasVegas:IEEE,2016.
[10]REDMONJ,F(xiàn)ARHADIA.YOLO9000:better,faster,stronger[C].Honolulu:IEEE,2017.
[11]REDMONJ,F(xiàn)ARHADIA.Yolov3:anincrementalimprovement[C].SaltLakeCity:CVPR,2018.
[12]BOCHKOVSKIYA,WANGCY,LIAOHYM,etal.Yolov4:optimalspeedandaccuracyofobjectdetection[C].Seattle:CVPR,2020.
[13]GUOT,WEIY,SHAOH,etal.ResearchonunderwatertargetdetectionmethodbasedonimprovedMSRCPandYOLOv3[C].Nashville:IEEE,2021.
[14]CHENLY,ZHENGMC,DUANSQ,etal.UnderwatertargetrecognitionbasedonimprovedYOLOv4neuralnetwork[J].Electronics,2021,10(14):1634.
[15]LEIF,TANGF,LIS.UnderwatertargetdetectionalgorithmbasedonimprovedYOLOv5[J].JournalofMarineScienceandEngineering,2022,10(3):310.
[16]翟先一,魏鴻磊,韓美奇,等.基于改進(jìn)YOLO卷積神經(jīng)網(wǎng)絡(luò)的水下海參檢測(cè)[J].江蘇農(nóng)業(yè)學(xué)報(bào),2023,39(7):1543-1553.
[17]SUNY,ZHENGWX,DUX,etal.UnderwatersmalltargetdetectionbasedonYOLOXcombinedwithmobileViTanddoublecoordinateattention[J].JournalofMarineScienceandEngineering,2023,11(6):1178.
[18]YIWG,WANGB.ResearchonunderwatersmalltargetdetectionalgorithmbasedonimprovedYOLOv7[J].IEEEAccess,2023,11:66818-66827.
[19]ZHUL,WANGX,KEZ,etal.BiFormer:visiontransformerwithBi-levelroutingattention[C].Vancouver:IEEE,2023.
[20]RENS,ZHOUD,HES,etal.Shuntedself-attentionviamulti-scaletokenaggregation[C].NewOrleans:IEEE,2022.
[21]ZHENGZ,WANGP,LIUW,etal.Distance-IoUloss:fasterandbetterlearningforboundingboxregression[C].NewYork:AAAI,2020.
[22]XUC,WANGJW,YANGW,etal.Detectingtinyobjectsinaerialimages:anormalizedWassersteindistanceandanewbenchmark[J].ISPRSJournalofPhotogrammetryandRemoteSensing,2022,190:79-93.
[23]ARJOVSKYM,CHINTALAS,BOTTOUL.Wassersteingenerativeadversarialnetworks[C].Sydney:ICML,2017.
[24]WANGDD,HEDJ.ChannelprunedYOLOV5s-baseddeeplearningapproachforrapidandaccurateapplefruitletdetectionbeforefruitthinning[J].BiosystemsEngineering,2021,210:271-281.
[25]HEQ,XUA,YEZ,etal.ObjectdetectionbasedonlightweightYOLOXforautonomousdriving[J].Sensors,2023,23(17):7596.
[26]LIYH,MAOHZ,GIRSHICKR,etal.Exploringplainvisiontransformerbackbonesforobjectdetection[C].TelAviv:ECCV,2022.
[27]WANGCY,BOCHKOVSKIYA,LIAOHYM.YOLOv7:trainablebag-of-freebiessetsnewstate-of-the-artforreal-timeobjectdetectors[C].Vancouver:IEEE,2023.
(責(zé)任編輯:黃克玲)