王 哲,田生偉?,王 博,周鐵軍
(1. 新疆大學(xué)軟件學(xué)院,新疆烏魯木齊 830091;2. 國家計(jì)算機(jī)網(wǎng)絡(luò)與信息安全管理中心新疆分中心,新疆烏魯木齊 830000)
地球上超過70%的面積被海洋覆蓋,海洋對全人類起著至關(guān)重要的作用.但飛機(jī)殘骸、船舶漏油、工業(yè)廢水甚至核廢水排放入海,都對海洋及海洋生物造成了嚴(yán)重污染,甚至引起海洋生物變異,對海洋生態(tài)系統(tǒng)和漁業(yè)發(fā)展帶來了極大威脅.因此,進(jìn)行水下海洋生物目標(biāo)檢測十分必要.
傳統(tǒng)的目標(biāo)檢測模型[1]主要使用基于梯度直方圖(HOG)和支持向量機(jī)(SVM)的機(jī)器學(xué)習(xí)方法進(jìn)行目標(biāo)檢測.自從AlexNet被提出之后[2],卷積神經(jīng)網(wǎng)絡(luò)被應(yīng)用于目標(biāo)檢測領(lǐng)域.目標(biāo)檢測模型通常包含三個(gè)部分:骨干網(wǎng)絡(luò)、收集骨干網(wǎng)絡(luò)不同階段特征圖的頸部以及預(yù)測種類和邊界框的頭部.最流行的骨干網(wǎng)絡(luò)是ResNet[3]及其變種(Res2Net[4]和ResNeXt[5]等),而YOLO[6]系列使用DarkNet.通常來說,頸部由數(shù)個(gè)由上到下和由下到上的卷積層構(gòu)成,其中特征金字塔網(wǎng)絡(luò)(FPN)[7]是最先提出也是最常用的頸部.頭部分為單階段和二階段兩種不同的類型.R-CNN系列(Fast R-CNN[8]、Faster R-CNN[9]、Libra R-CNN[10]等)首先將深度卷積網(wǎng)絡(luò)應(yīng)用于目標(biāo)檢測,是最具影響力的二階段目標(biāo)檢測模型.單階段目標(biāo)檢測模型由YOLO系列最先提出.
隨著圖形處理器(GPU)的高速發(fā)展,計(jì)算機(jī)計(jì)算能力得到了極大提升,使得基于深度學(xué)習(xí)的目標(biāo)檢測模型在各個(gè)領(lǐng)域得到了廣泛應(yīng)用.在目標(biāo)檢測領(lǐng)域中,孟欣欣[11]等人使用遷移學(xué)習(xí)進(jìn)行自然環(huán)境下的香梨檢測和分割;韓文軒[12]等人使用深度可分離卷積進(jìn)行遙感影像小目標(biāo)快速檢測.在海洋生物目標(biāo)檢測領(lǐng)域中,Villon[13]等人使用微調(diào)后的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行珊瑚礁魚類檢測和分類;Siddiqui[14]等人使用深度卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行水下魚類目標(biāo)檢測;Rasmussen[15]等人使用YOLOV2進(jìn)行扇貝檢測;Pedersen[16]等人使用YOLOV3進(jìn)行水下海洋生物目標(biāo)檢測.
對于MS COCO[17]和PASCAL VOC[18]等大型數(shù)據(jù)集,SOTA算法能夠在準(zhǔn)確率和速度間取得良好的平衡.但面對水下海洋生物等小型數(shù)據(jù)集時(shí),SOTA算法的速度表現(xiàn)不如人意.針對這一問題,本文提出了一種快速輕量化的目標(biāo)檢測模型FL-Net.首先,對ResNet18進(jìn)行修改:使用空洞卷積替換普通卷積、使用動態(tài)激活函數(shù)替換ReLU[19],使模型在輕量化的同時(shí)確保準(zhǔn)確度、更適合本文使用的水下海洋生物數(shù)據(jù)集.其次,使用單階段的GFL模塊,提高推理速度.最后,使用Soft-NMS[20]去除冗余的檢測框,提高準(zhǔn)確度.
為了減少訓(xùn)練時(shí)間、提高推理速度和準(zhǔn)確率,提出FL-Net單階段目標(biāo)檢測模型.輸入圖像在骨干網(wǎng)絡(luò)經(jīng)過五次下采樣操作得到C1、C2、C3、C4、C5五個(gè)特征圖.FPN接收C3、C4、C5,經(jīng)過1×1卷積、上采樣、加(add)操作得到P3、P4、P5三個(gè)特征圖.GFLHead由分類和檢測兩個(gè)分支組成,各特征圖在兩個(gè)分支進(jìn)行權(quán)重共享.Soft-NMS對兩個(gè)分支輸出的特征圖進(jìn)行處理,得到帶有標(biāo)簽的檢測框.FL-Net的結(jié)構(gòu)如圖1所示.
圖 1 FL-Net結(jié)構(gòu)
RepPoints[21]、ATSS[22]等SOTA算法通常使用ResNet50或ResNet101作為骨干網(wǎng)絡(luò)在MS COCO和PASCAL VOC等數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn).MS COCO和PASCAL VOC等數(shù)據(jù)集擁有豐富的物體種類和各式各樣的背景,數(shù)據(jù)量龐大且分辨率不一;而FL-Net使用的Brackish[16]數(shù)據(jù)集僅包含魚、小魚、螃蟹、蝦、水母和海星六個(gè)物體種類,背景為相對單一的水下環(huán)境,分辨率統(tǒng)一為960×540.?dāng)?shù)據(jù)集間的差別如圖2所示.考慮到卷積層數(shù)更多的ResNet50和ResNet101會增加訓(xùn)練負(fù)擔(dān)、影響訓(xùn)練速度,F(xiàn)L-Net選擇ResNet18作為基礎(chǔ)骨干網(wǎng)絡(luò).
圖 2 Brackish與MS COCO、PASCAL VOC的區(qū)別
ResNet18由一個(gè)7×7卷積、一個(gè)3×3最大池化層和八個(gè)標(biāo)準(zhǔn)殘差模塊組成.一個(gè)標(biāo)準(zhǔn)殘差模塊包含兩個(gè)卷積模塊,每個(gè)卷積模塊由3×3卷積、批量歸一化(BN)[23]和ReLU組成.FL-Net替換第一個(gè)卷積模塊的ReLU為Meta Acon[24],替換第二個(gè)卷積模塊的普通卷積為空洞卷積,從而提升骨干網(wǎng)絡(luò)的特征提取能力.標(biāo)準(zhǔn)殘差模塊結(jié)構(gòu)如圖3所示.
圖 3 標(biāo)準(zhǔn)殘差模塊
1.2.1 空洞卷積
空洞卷積通過擴(kuò)大卷積核的間距來提高感受野,是計(jì)算機(jī)視覺領(lǐng)域常用的卷積方式之一.如公式(1)所示,k為原始卷積核大小,r為空洞率.當(dāng)r=1時(shí),為普通卷積;當(dāng)r>1時(shí),為空洞卷積.空洞卷積可以在不改變分辨率和卷積核大小的情況下獲得更多的上下文信息,且不需要增加額外的計(jì)算負(fù)擔(dān),如圖4所示.
圖 4 普通卷積與空洞卷積
1.2.2 動態(tài)激活函數(shù)MetaAcon
ReLU激活函數(shù)會統(tǒng)一激活神經(jīng)元,而ACON提出的MetaAcon激活函數(shù)可以通過學(xué)習(xí)自適應(yīng)選擇是否激活神經(jīng)元,如圖5所示.MetaAcon已經(jīng)被證明可以在圖像分類中在僅增加少量參數(shù)的情況下提高網(wǎng)絡(luò)提取特征的能力.MetaAcon可以用公式(2)表示,其中:x為特征圖,p1、p2為兩組可學(xué)習(xí)參數(shù),β為自適應(yīng)函數(shù).MetaAcon通過β控制神經(jīng)元是否激活,當(dāng)β=0時(shí),不進(jìn)行激活.β的結(jié)構(gòu)可以是逐層的、逐通道的或者逐像素的,經(jīng)過多組實(shí)驗(yàn),F(xiàn)L-Net選擇逐像素的結(jié)構(gòu),如公式(3)所示.
圖 5 ReLU與MetaAcon
傳統(tǒng)單階段目標(biāo)檢測模型的頭部末端輸出一般包含三個(gè)部分:分類評分(classification score)、檢測框回歸(bbox regression)和檢測框質(zhì)量評分(IoU/centerness score).在訓(xùn)練階段,分類評分和檢測框質(zhì)量評分單獨(dú)進(jìn)行訓(xùn)練;在測試階段,分類評分和檢測框質(zhì)量評分相乘作為非極大值抑制(NMS)的排序依據(jù),如圖6所示.Focal Loss[25]方法在解決正負(fù)樣本不平衡問題的同時(shí)引入了一個(gè)新問題:部分分類評分較低的負(fù)樣本的檢測框質(zhì)量評分在訓(xùn)練過程中沒有受到監(jiān)督.這就可能出現(xiàn)一種情況:一個(gè)真正的負(fù)樣本(分類評分低但擁有一個(gè)不可信的極高的檢測框質(zhì)量評分)排在一個(gè)真正的正樣本(分類評分不夠高且檢測框質(zhì)量評分較低)前面.為了解決這一問題,F(xiàn)L-Net使用GFL[26?27]作為網(wǎng)絡(luò)頭部.GFL由Quality Focal Loss(QFL)、Distribution Focal Loss(DFL)和Distribution-Guided Quality Predictor(DGQP)三部分組成.
圖 6 NMS流程
1.3.1 QFL模塊
QFL通過替換對應(yīng)類別置信度的類別標(biāo)簽(0或1)為質(zhì)量標(biāo)簽(0~1)將分類評分和檢測框質(zhì)量評分聯(lián)合起來,如圖7所示.QFL可以用公式(4)表示,其中:y為質(zhì)量標(biāo)簽,σ為采用Sigmoid函數(shù)的多重二元分類,β參數(shù)用來控制降權(quán)率,這里取β=2.
圖 7 類別置信度
1.3.2 DFL模塊
DFL使用回歸分布對邊界框進(jìn)行建模.為了使網(wǎng)絡(luò)快速聚焦到標(biāo)簽y附近區(qū)域,DFL使用交叉熵函數(shù)優(yōu)化離標(biāo)注最近的兩個(gè)位置的概率,可以用公式(5)表示,其中Si由i+1個(gè)Softmax函數(shù)組成.
1.3.3 DGQP模塊
DGQP使用學(xué)習(xí)到的邊框分布的統(tǒng)計(jì)特征指導(dǎo)分類質(zhì)量評估.選取DFL中學(xué)習(xí)到的K個(gè)最大分布離散概率和平均概率作為輸入特征,依次經(jīng)過全連接層、ReLU激活、全連接層、Sigmoid激活,最后與QFL中的分類表征相乘.DGQP可以用公式(6)表示,其中:W1、W2是兩個(gè)全連接層,F(xiàn)為輸入特征.
Brackish數(shù)據(jù)集由89個(gè)視頻文件組成,逐幀切割每個(gè)視頻文件以便進(jìn)行訓(xùn)練,共得到14 518幅圖片.根據(jù)Brackish提供的標(biāo)注信息,將14 518幅圖片按照8︰1︰1分割成訓(xùn)練集、測試集和驗(yàn)證集.Brackish共包含六個(gè)物體種類,各物體種類所包含的標(biāo)注數(shù)量如表1所示.
表 1 各物體種類對應(yīng)標(biāo)注數(shù)量
實(shí)驗(yàn)在Manjaro Linux系統(tǒng)下搭建的PyTorch[28]和MMDetection[29]環(huán)境下進(jìn)行,各項(xiàng)參數(shù)如表2所示.
表 2 實(shí)驗(yàn)平臺各項(xiàng)參數(shù)
采用MS COCO數(shù)據(jù)集的評價(jià)指標(biāo)評估模型的有效性,采用每秒內(nèi)識別的幀數(shù)(FPS)評估算法的推理速度.目標(biāo)檢測的通用指標(biāo)為準(zhǔn)確率Precision(見公式(7))和召回率Recall(見公式(8)),其中:TP為True Positive,TN 為True Negative,F(xiàn)P為False Positive,F(xiàn)N 為False Negative.
MS COCO數(shù)據(jù)集以平均準(zhǔn)確率(AP)作為評價(jià)指標(biāo),各指標(biāo)含義見表3.其中Intersection over Union(IoU)為交并比,即產(chǎn)生的候選框與原標(biāo)記框交集與并集的比值(見公式(9)).
表 3 MS COCO評價(jià)指標(biāo)及其含義
優(yōu)化器使用Adam[30],學(xué)習(xí)率衰減使用余弦退火函數(shù)(CosineAnnealing)并在第一個(gè)epoch使用線性warmup策略,相關(guān)參數(shù)設(shè)置見表4.在骨干網(wǎng)絡(luò),凍結(jié)第一個(gè)階段(stage);在頸部,僅獲取骨干網(wǎng)絡(luò)最后三個(gè)階段的特征信息;在頭部,使用Soft-NMS去除冗余的檢測框.
為了驗(yàn)證空洞卷積、MetaAcon和Soft-NMS的有效性,進(jìn)行消融實(shí)驗(yàn)研究各模塊對水下海洋生物目標(biāo)檢測的影響.將空洞卷積、MetaAcon和Soft-NMS逐一插入檢測器中,并使用MS COCO評價(jià)指標(biāo)評估其性能,實(shí)驗(yàn)細(xì)節(jié)與第3.3節(jié)說明一致.實(shí)驗(yàn)結(jié)果表明:添加三個(gè)模塊使得AP指標(biāo)提升1.1%,達(dá)到了預(yù)期目標(biāo),如表5所示.
表 4 模型相關(guān)參數(shù)
表 5 消融實(shí)驗(yàn)結(jié)果
3.4.1 ResNet消融實(shí)驗(yàn)
為了驗(yàn)證ResNet18在水下海洋生物目標(biāo)檢測上相較于ResNet50具有快速輕量化的優(yōu)點(diǎn),選擇Faster R-CNN、RepPoints、ATSS等算法進(jìn)行實(shí)驗(yàn),每組實(shí)驗(yàn)除了骨干網(wǎng)絡(luò)不同外其余參數(shù)均相同.實(shí)驗(yàn)結(jié)果表明:對于大部分算法,ResNet18的AP比ResNet50低0.7%~1.4%,但訓(xùn)練時(shí)間縮短24%~41%,F(xiàn)PS提高31%~58%;對于Grid RCNN,ResNet18的AP比ResNet50高0.7%;對于FL-Net,結(jié)合動態(tài)激活函數(shù)和空洞卷積的ResNet18的AP和ResNet 50相當(dāng),但訓(xùn)練時(shí)間縮短32%,F(xiàn)PS提高21%.綜上所述,相較于更深層的殘差網(wǎng)絡(luò),ResNet18在水下海洋生物目標(biāo)檢測上具有快速輕量化的優(yōu)點(diǎn).實(shí)驗(yàn)數(shù)據(jù)如表6所示.
3.4.2 空洞卷積消融實(shí)驗(yàn)
空洞率是空洞卷積中最重要的參數(shù),控制卷積核的間隔數(shù)量.為了確定合適的空洞率大小,對空洞率等于2、3、4、5進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明空洞率等于2在本實(shí)驗(yàn)中效果最好,如表7所示.需要注意的是,空洞率等于1即為普通卷積,實(shí)驗(yàn)結(jié)果見表5.
表 6 ResNet消融實(shí)驗(yàn)結(jié)果
表 7 空洞卷積消融實(shí)驗(yàn)結(jié)果
3.4.3 MetaAcon消融實(shí)驗(yàn)
MetaAcon的β參數(shù)具有逐層、逐通道和逐像素三種不同的結(jié)構(gòu),為了驗(yàn)證各種結(jié)構(gòu)的有效性,分別對三種結(jié)構(gòu)進(jìn)行了實(shí)驗(yàn).需要注意的是,這里的實(shí)驗(yàn)細(xì)節(jié)與第3.3節(jié)存在差異,頭部使用NMS.實(shí)驗(yàn)結(jié)果表明:逐像素的結(jié)構(gòu)對本實(shí)驗(yàn)的提升最大,如表8所示.
表 8 MetaAcon消融實(shí)驗(yàn)結(jié)果
3.4.4 Soft-NMS消融實(shí)驗(yàn)
Soft-NMS通過閾值對權(quán)重進(jìn)行控制,IoU小于閾值將會被降權(quán).為了驗(yàn)證不同閾值對實(shí)驗(yàn)結(jié)果的影響,分別進(jìn)行閾值為0.5、0.6、0.7的實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明:0.5是本實(shí)驗(yàn)適合的閾值,如表9所示.
表 9 Soft-NMS消融實(shí)驗(yàn)結(jié)果
為了驗(yàn)證FL-Net在水下海洋生物目標(biāo)檢測的有效性,選擇了一些最經(jīng)典、最先進(jìn)的研究,包含F(xiàn)aster R-CNN、RepPoints、FreeAnchor[33]、PAA、FCOS等,使用默認(rèn)參數(shù)和MS COCO評價(jià)指標(biāo)在Brackish數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn).其中:FL-Net使用ResNet18作為骨干網(wǎng)絡(luò),其余模型使用ResNet50.實(shí)驗(yàn)結(jié)果如表10所示.
表 10 對比實(shí)驗(yàn)結(jié)果
PAA的AP比FL-Net高0.6%,但所需訓(xùn)練時(shí)間是FL-Net的2.6倍,推理速度僅為FL-Net的1/4;YOLOF的訓(xùn)練時(shí)間和推理速度與FL-Net相當(dāng),但其AP比FL-Net低18%;Cascade R-CNN的APM和APL取得了最優(yōu),但綜合性能卻不如FL-Net,說明該模型更適合大目標(biāo)檢測,而Brackish數(shù)據(jù)集中小目標(biāo)居多.FL-Net、PAA、YOLOF和FSAF的可視化目標(biāo)檢測結(jié)果如圖8所示.實(shí)驗(yàn)結(jié)果表明:FL-Net在保證準(zhǔn)確率的同時(shí)降低了訓(xùn)練時(shí)間、提高了推理速度,在三者間取得了良好的平衡,達(dá)到了預(yù)期目標(biāo).
圖 8 可視化檢測結(jié)果
本文針對面向水下環(huán)境的海洋生物目標(biāo)檢測進(jìn)行了研究,提出了一種快速輕量化目標(biāo)檢測模型FL-Net.FLNet使用結(jié)合MetaAcon和空洞卷積的ResNet18作為骨干網(wǎng)絡(luò),降低訓(xùn)練時(shí)間、提高特征提取能力;使用單階段GFL方法作為頭部,提高推理速度;使用Soft-NMS去除冗余的檢測框,提高準(zhǔn)確率.實(shí)驗(yàn)證明:與傳統(tǒng)模型相比,F(xiàn)L-Net在背景簡單、物體種類較少的數(shù)據(jù)集上具有一定優(yōu)勢,后續(xù)考慮推廣到口罩佩戴檢測、電梯間電動車檢測等實(shí)際應(yīng)用中.