宋云博,陳冬艷,郝 赟,付先平
大連海事大學(xué) 信息科學(xué)技術(shù)學(xué)院,遼寧 大連116026
深度學(xué)習(xí)作為機(jī)器學(xué)習(xí)的一個(gè)重要分支,在自然語(yǔ)言處理、語(yǔ)音識(shí)別、計(jì)算機(jī)視覺(jué)等方面的應(yīng)用越來(lái)越廣,這給人們的工作和生活帶來(lái)極大的便捷。目標(biāo)檢測(cè)作為計(jì)算視覺(jué)的一個(gè)研究領(lǐng)域,在人臉識(shí)別、無(wú)人駕駛等領(lǐng)域有著非常重要的作用。傳統(tǒng)的目標(biāo)檢測(cè)算法依賴(lài)人工提取特征并受環(huán)境和背景的影響,使得特征提取網(wǎng)絡(luò)的位置信息模糊,獲取的特征可移植性差導(dǎo)致目標(biāo)檢測(cè)的準(zhǔn)確率和精度過(guò)低。目前的目標(biāo)檢測(cè)算法主要分為兩大類(lèi):一種是基于回歸的目標(biāo)檢測(cè)算法,該算法直接產(chǎn)生物體分類(lèi)的概率和邊界框坐標(biāo)完成對(duì)圖片中目標(biāo)的檢測(cè)任務(wù);另一種是基于候選區(qū)域的目標(biāo)檢測(cè)算法,該算法將檢測(cè)分為兩步,首先生成候選區(qū)域,然后對(duì)候選區(qū)域進(jìn)行分類(lèi)和位置的回歸,以達(dá)到較高精度的檢測(cè)。這兩種算法都是根據(jù)交并比(IOU)的大小判斷正負(fù)樣本,但一般設(shè)置比較低的IOU閾值會(huì)得到過(guò)多的噪聲樣本,使訓(xùn)練的檢測(cè)器識(shí)別能力偏低,從而影響整個(gè)網(wǎng)絡(luò)的檢測(cè)精度;設(shè)置高的IOU閾值又會(huì)過(guò)濾掉過(guò)多中等質(zhì)量的樣本,只保留少量的高質(zhì)量樣本,從而產(chǎn)生過(guò)擬合現(xiàn)象;并且,推薦區(qū)域IOU閾值和檢測(cè)器使用的IOU閾值相差較大會(huì)造成質(zhì)量不匹配的問(wèn)題。在此背景下提出高精度的目標(biāo)檢測(cè)算法進(jìn)而提升無(wú)人駕駛等設(shè)備的可靠性迫在眉睫。因此,本文提出了一種基于平行級(jí)聯(lián)網(wǎng)絡(luò)的目標(biāo)檢測(cè)算法,該算法利用平行級(jí)聯(lián)架構(gòu)的網(wǎng)絡(luò)解決了檢測(cè)器和推薦區(qū)域IOU閾值不同導(dǎo)致質(zhì)量失配的問(wèn)題,以及過(guò)擬合的問(wèn)題。
目標(biāo)檢測(cè)[1-2]旨在給定圖片中精確地找到物體所在位置,并識(shí)別出物體的類(lèi)別。目標(biāo)檢測(cè)要解決的就是物體在哪里、是什么的問(wèn)題,然而物體的尺寸變化、擺放角度、姿態(tài)不一及出現(xiàn)在圖片中的位置不同,使得高精度的目標(biāo)檢測(cè)極具挑戰(zhàn)性。
傳統(tǒng)的目標(biāo)檢測(cè)算法首先采用不同尺寸的滑動(dòng)窗口在給定圖像的不同位置上選取候選區(qū)域,然后進(jìn)行特征提取,最后把這些從圖片中提取到的特征送到分類(lèi)器中進(jìn)行識(shí)別與分類(lèi)。特征提取是目標(biāo)檢測(cè)的重點(diǎn),在這個(gè)階段,研究人員致力于研究更好的特征提取算法[3-4]。傳統(tǒng)的特征提取方法可分為基于局部圖像、特征點(diǎn)檢測(cè)和多特征融合三種方法。基于局部區(qū)域圖像的方法主要是針對(duì)局部圖像進(jìn)行特征提取,在目標(biāo)物被遮擋的實(shí)際問(wèn)題中具有一定的優(yōu)勢(shì);基于特征點(diǎn)檢測(cè)的方法主要是由算法設(shè)計(jì)人員定義符合特征定義的像素點(diǎn),然后根據(jù)這些特征描述目標(biāo),它在檢測(cè)速度上具有明顯的優(yōu)勢(shì)。基于多特征融合的方法主要是融合多種不同的特征,起到優(yōu)勢(shì)互補(bǔ)的作用;最后把這些從圖片中提取到的特征送到分類(lèi)器中進(jìn)行識(shí)別與分類(lèi)。針對(duì)不同的目標(biāo)需要設(shè)計(jì)不同的特征提取和分類(lèi)方法[5],這些需要人工獲取特征信息方法的可移植性差,且不同的目標(biāo)需要不同的特征提取,其中特征的提取和分類(lèi)訓(xùn)練分離容易造成特征的遺漏,進(jìn)而影響檢測(cè)的結(jié)果,另外滑動(dòng)窗口的遍歷搜索把圖片分成不同大小的塊,計(jì)算復(fù)雜度高且冗余信息多,實(shí)時(shí)運(yùn)行速度慢。
經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)由若干卷積層和池化層交替構(gòu)成,對(duì)輸入的圖片進(jìn)行特征提取,并通過(guò)全連接層構(gòu)成的分類(lèi)器進(jìn)行分類(lèi)[6]?;诰矸e神經(jīng)網(wǎng)絡(luò)(CNN)的深度學(xué)習(xí)算法在圖像處理領(lǐng)域的應(yīng)用尤為重要。與傳統(tǒng)的目標(biāo)檢測(cè)方法相比,基于深層卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測(cè)模型在效率與精度方面有較好的提升[7-8]。深度學(xué)習(xí)的目標(biāo)檢測(cè)算法主要分為兩大類(lèi):一種是基于回歸的目標(biāo)檢測(cè)方法,例如YOLO、SSD等[9-11];另一種是基于候選區(qū)域的目標(biāo)檢測(cè)方法,例如Faster-RCNN[12]、Cascade R-CNN[13]、Mask-RCNN[14]等。本文采用基于候選區(qū)域的目標(biāo)檢測(cè)算法。
Faster R-CNN是將R-CNN[15]和Fast R-CNN等目標(biāo)檢測(cè)算法經(jīng)過(guò)改進(jìn)后提出的新的目標(biāo)檢測(cè)算法。Faster R-CNN由兩個(gè)模塊組成:一個(gè)模塊是推薦區(qū)域的深度全卷積網(wǎng)絡(luò);另一個(gè)模塊是使用推薦區(qū)域的Fast R-CNN檢測(cè)器。整個(gè)系統(tǒng)是一個(gè)單個(gè)的、統(tǒng)一的目標(biāo)檢測(cè)網(wǎng)絡(luò)。其中,F(xiàn)aster R-CNN中提出的區(qū)域推薦網(wǎng)絡(luò)[16](RPN)以任意大小的圖像作為輸入,輸出一組矩形的目標(biāo)推薦候選框,每個(gè)候選框都有一個(gè)目標(biāo)得分,然后利用全卷積網(wǎng)絡(luò)[17]對(duì)這個(gè)過(guò)程進(jìn)行建模。由于SPP-Net[18]和Fast R-CNN等研究已經(jīng)減少了這些檢測(cè)網(wǎng)絡(luò)的運(yùn)行時(shí)間,在Faster R-CNN中為了縮短區(qū)域推薦的計(jì)算時(shí)間,引入了一個(gè)區(qū)域提議網(wǎng)絡(luò)(RPN)。該網(wǎng)絡(luò)與檢測(cè)網(wǎng)絡(luò)共享全圖像的卷積特征,從而使近乎零時(shí)間成本的區(qū)域推薦成為可能。
Cascade R-CNN網(wǎng)絡(luò)的核心是利用不斷提高的閾值,使得在保證樣本數(shù)不減少的情況下訓(xùn)練出高質(zhì)量的檢測(cè)器,通過(guò)級(jí)聯(lián)檢測(cè)網(wǎng)絡(luò)來(lái)達(dá)到提高檢測(cè)的精確度,該網(wǎng)絡(luò)通過(guò)產(chǎn)生更高精度的回歸框。從而提高生成正樣本的IOU閾值,使得檢測(cè)器接收到的推薦候選框精度就更高,自然能產(chǎn)生高精度的回歸框。但是這樣就會(huì)產(chǎn)生兩個(gè)問(wèn)題:其一是過(guò)擬合問(wèn)題,如果提高IOU閾值,滿(mǎn)足這個(gè)閾值條件的推薦候選區(qū)框必然比之前減小,那么就會(huì)導(dǎo)致過(guò)擬合。另一個(gè)是更嚴(yán)重的質(zhì)量不匹配問(wèn)題。由于R-CNN結(jié)構(gòu)本身就存在質(zhì)量不匹配問(wèn)題,IOU閾值的提高,會(huì)使問(wèn)題變得更加嚴(yán)峻。
Mask R-CNN本質(zhì)是在Faster R-CNN的基礎(chǔ)上加了一個(gè)預(yù)測(cè)每個(gè)二值掩膜Mask分支,相當(dāng)于在之前Faster R-CNN的基礎(chǔ)上,F(xiàn)aster R-CNN將目標(biāo)框出,Mask R-CNN在目標(biāo)框內(nèi)對(duì)目標(biāo)做一個(gè)實(shí)例分割。Mask R-CNN采用跟Faster R-CNN相同的兩級(jí)結(jié)構(gòu),首先是找出RPN,然后對(duì)RPN找到的每個(gè)感興趣區(qū)域進(jìn)行分類(lèi)和定位,Mask R-CNN還會(huì)為每一個(gè)感興趣區(qū)域輸出一個(gè)二進(jìn)制掩模。這與最近的其他網(wǎng)絡(luò)相反,其分類(lèi)取決于掩模預(yù)測(cè)[19-21]。該方法遵循于Fast R-CNN邊框分類(lèi)和回歸的并行,這在很大程度上簡(jiǎn)化了R-CNN的多級(jí)流水線(xiàn)。Mask R-CNN提出了一個(gè)區(qū)域特征聚集方式,很好地解決了感興趣區(qū)域的池化操作中造成區(qū)域不匹配的問(wèn)題。在網(wǎng)絡(luò)結(jié)構(gòu)上,對(duì)于上層網(wǎng)絡(luò),Mask R-CNN基本遵循了以前論文中提出的架構(gòu),在此基礎(chǔ)上添加了一個(gè)全卷積的掩模預(yù)測(cè)分支,因此可以使上層網(wǎng)絡(luò)包含更少的卷積核使網(wǎng)絡(luò)變得更加高效。
目前,基于區(qū)域推薦的目標(biāo)檢測(cè)算法首先需要生成可能包含目標(biāo)的推薦區(qū)域,推薦區(qū)域的質(zhì)量參差不齊,通常以某個(gè)設(shè)定的IOU閾值來(lái)篩選正樣本和負(fù)樣本。IOU是衡量目標(biāo)與被檢測(cè)物體重疊程度的指標(biāo),可以通過(guò)以下公式進(jìn)行目標(biāo)屬性類(lèi)別的判斷:
其中,cy表示類(lèi)別,x表示推薦區(qū)域的坐標(biāo)取值,gt表示標(biāo)注的真實(shí)邊框Ground Truth,u表示設(shè)定的IOU閾值。檢測(cè)器根據(jù)計(jì)算得到的IOU是否高于u值來(lái)判定正樣本和負(fù)樣本,設(shè)定的IOU閾值越高檢測(cè)器得到的樣本質(zhì)量越高。目標(biāo)檢測(cè)算法通常設(shè)定的閾值是0.5,同時(shí)也意味著檢測(cè)器會(huì)收到較多的低質(zhì)量的正樣本(包含較多背景),最后的檢測(cè)結(jié)果就會(huì)包含較多誤檢,使用0.7的閾值可以減少誤檢,但是高的閾值會(huì)篩選出較少的正樣本,因此容易造成過(guò)擬合。
圖1 、圖2表明單個(gè)檢測(cè)器只對(duì)一個(gè)質(zhì)量等級(jí)的推薦區(qū)域是最優(yōu)的,對(duì)某個(gè)閾值訓(xùn)練的檢測(cè)網(wǎng)絡(luò)產(chǎn)生的邊界框回歸器,在對(duì)應(yīng)閾值附近的樣本效果最好。對(duì)于低質(zhì)量的樣本,使用閾值較低的檢測(cè)器比閾值高的檢測(cè)器效果好。
由于高閾值會(huì)造成過(guò)擬合,只有推薦區(qū)域自身的閾值和檢測(cè)器訓(xùn)練用的閾值較為接近時(shí),檢測(cè)器的性能表現(xiàn)得最好,故本文的平行級(jí)聯(lián)網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示,圖中I是輸入的圖片,conv表示用來(lái)提取特征的主干卷積神經(jīng)網(wǎng)絡(luò),pool是進(jìn)行區(qū)域特征提取的池化操作,H是網(wǎng)絡(luò)頭,B是邊界回歸框,C是分類(lèi)。
圖1 不同質(zhì)量的檢測(cè)器對(duì)應(yīng)的最佳樣本質(zhì)量
圖2 隨著檢測(cè)器閾值的升高單檢測(cè)器性能下降
圖3 平行級(jí)聯(lián)網(wǎng)絡(luò)結(jié)構(gòu)圖
平行級(jí)聯(lián)網(wǎng)絡(luò)由四層級(jí)聯(lián)的檢測(cè)器組成,其目的是在確保樣本數(shù)不減少的情況下,通過(guò)搭建級(jí)聯(lián)結(jié)構(gòu)訓(xùn)練出高質(zhì)量的檢測(cè)器。由圖2可知,使用一個(gè)指定的IOU閾值訓(xùn)練得到的檢測(cè)模型對(duì)輸入IOU閾值跨度較大的樣本檢測(cè)效果較差。由圖1可知,圖中當(dāng)u的取值分別為0.5、0.6、0.7時(shí),三條曲線(xiàn)均在對(duì)角線(xiàn)之上,說(shuō)明輸入檢測(cè)器的IOU閾值經(jīng)過(guò)網(wǎng)絡(luò)輸出后都有一定的提升,并且三條曲線(xiàn)都在自己閾值周?chē)膬?yōu)化效果較好,所以可以通過(guò)設(shè)計(jì)逐級(jí)遞增的IOU閾值,使上一級(jí)檢測(cè)器的輸出作為后一級(jí)的輸入,來(lái)提升網(wǎng)絡(luò)輸出的效果。因此本文采用平行級(jí)聯(lián)檢測(cè)網(wǎng)絡(luò),逐級(jí)進(jìn)行IOU閾值提升,設(shè)置第5級(jí)檢測(cè)器使得樣本數(shù)量減少導(dǎo)致過(guò)擬合現(xiàn)象的發(fā)生,進(jìn)而使檢測(cè)精度降低,所以文中平行級(jí)聯(lián)檢測(cè)網(wǎng)絡(luò)采用四級(jí)網(wǎng)絡(luò)結(jié)構(gòu)。第一級(jí)對(duì)樣本進(jìn)行初篩,去掉質(zhì)量過(guò)低的樣本,設(shè)定IOU閾值為0.5;第二級(jí)設(shè)定兩個(gè)平行的檢測(cè)器,閾值分別取0.58和0.60,兩個(gè)平行的檢測(cè)器同時(shí)對(duì)推薦候選框進(jìn)行邊框回歸,第二級(jí)的結(jié)果取兩個(gè)檢測(cè)器的均值;第三級(jí)選取閾值為0.64、0.66和0.68三個(gè)檢測(cè)器進(jìn)行平行組合,第三級(jí)輸出的結(jié)果取它的三個(gè)檢測(cè)器的均值;第四級(jí)則選取4個(gè)不同的閾值,分別為0.69、0.71、0.73和0.75,第四級(jí)的輸出取均值即為模型的輸出。值得注意的是平行級(jí)聯(lián)檢測(cè)網(wǎng)絡(luò)四級(jí)的各個(gè)閾值,是根據(jù)圖1的檢測(cè)器輸出質(zhì)量在輸入的IOU閾值附近提升效果好的基礎(chǔ)上,而且需要采用逐級(jí)遞增的IOU閾值來(lái)匹配逐級(jí)提升的樣本質(zhì)量,并結(jié)合圖4的樣本質(zhì)量的初始分布和經(jīng)過(guò)每一級(jí)后的樣本質(zhì)量提升后的分布設(shè)定相適配的IOU閾值,最后通過(guò)實(shí)驗(yàn)的參數(shù)調(diào)優(yōu)確定的每級(jí)的最佳閾值。相比于其他兩種結(jié)構(gòu),Iterative Bbox at inference結(jié)構(gòu)是級(jí)聯(lián)的分類(lèi)器和回歸器,但它的這些分類(lèi)器和回歸器還是對(duì)初始的候選區(qū)域進(jìn)行訓(xùn)練,并且從圖2可以看出,高的IOU閾值的樣本經(jīng)過(guò)低質(zhì)量的檢測(cè)器后反而會(huì)降低檢測(cè)精度。Intergral Loss結(jié)構(gòu)在池化后根據(jù)IOU閾值將樣本分成不同的集合,不同IOU閾值的樣本進(jìn)入不同的分類(lèi)器,但回歸框只有一個(gè),這種結(jié)構(gòu)雖然提高了分類(lèi)的精度,但使得高IOU閾值的樣本較少,導(dǎo)致高閾值的檢測(cè)器訓(xùn)練容易發(fā)生過(guò)擬合現(xiàn)象,并且一個(gè)回歸框也無(wú)法對(duì)所有輸入進(jìn)行良好的回歸。平行級(jí)聯(lián)的結(jié)構(gòu)利用多個(gè)回歸器和分類(lèi)器級(jí)聯(lián),將上一級(jí)回歸器的輸出輸入到下一級(jí),圖1可以看出,由于回歸器對(duì)輸入的樣本的IOU閾值均有一定程度的提升,這樣每一級(jí)提升后的樣本輸入到下一級(jí),使得不同級(jí)別的分類(lèi)器和回歸器在越來(lái)越高的樣本質(zhì)量上進(jìn)行訓(xùn)練,并通過(guò)重采樣保證足夠多的高質(zhì)量樣本防止過(guò)擬合問(wèn)題的發(fā)生,進(jìn)而提升檢測(cè)精度。
圖4 級(jí)聯(lián)網(wǎng)絡(luò)和平行級(jí)聯(lián)網(wǎng)絡(luò)各級(jí)的樣本質(zhì)量分布對(duì)比
平行級(jí)聯(lián)網(wǎng)絡(luò)由多級(jí)級(jí)聯(lián)而成,每一級(jí)由不同的一個(gè)或多個(gè)單獨(dú)的檢測(cè)器構(gòu)成,并將它們的結(jié)果融合作為下一級(jí)的輸入,最后一級(jí)多個(gè)檢測(cè)器的結(jié)果融合后,得到最終結(jié)果。滿(mǎn)足上述網(wǎng)絡(luò)結(jié)構(gòu)要求的損失函數(shù)是由回歸損失函數(shù)和分類(lèi)損失函數(shù)組合而成的?;貧w損失指邊界框的回歸損失,邊界框包括4個(gè)坐標(biāo)及其包圍的區(qū)域,用表示,bx、by為中心點(diǎn)坐標(biāo),bw、bh為邊界框的寬和高,通過(guò)回歸函數(shù)F(b,g)使得邊界框與真實(shí)邊界框的IOU盡可能大,其中g(shù)=代表真正的回歸框?yàn)橹行狞c(diǎn)坐標(biāo),gw、gh為邊界框的寬和高,最小化邊界框損失函數(shù)如式(2)所示:
其中:
檢測(cè)網(wǎng)絡(luò)分類(lèi)部分損失函數(shù)定義如公式(5)所示:其中,函數(shù)Lcls是經(jīng)典的交叉熵?fù)p失函數(shù)。其中T代表第幾層級(jí),每層包括一個(gè)或多個(gè)分類(lèi)器和回歸器。邊界框通過(guò)加權(quán)平均計(jì)算類(lèi)別的標(biāo)簽值。
故第T級(jí)最終的損失函數(shù)表示為:
其中,hT代表第T級(jí)的分類(lèi)器輸出的分類(lèi)結(jié)果,F(xiàn)T代表第T級(jí)回歸器輸出的回歸結(jié)果的均值,g代表真實(shí)邊框。r是平衡因子,平衡分類(lèi)損失和邊界框回歸損失的歸一化權(quán)重。
本文的實(shí)驗(yàn)配置為帶有4塊NVIDIA GTX 1080Ti顯卡的服務(wù)器,內(nèi)存大小為64 GB。實(shí)驗(yàn)的數(shù)據(jù)集為Microsoft COCO 2017(MS-COCO 2017)[22],它由訓(xùn)練集、驗(yàn)證集、測(cè)試集三部分組成。網(wǎng)絡(luò)模型的訓(xùn)練集數(shù)據(jù)大約120 000張圖片,用來(lái)評(píng)估模型的驗(yàn)證集包括5 000張圖片,模型的測(cè)試集圖片約20 000張。
平行級(jí)聯(lián)網(wǎng)絡(luò)由四層級(jí)聯(lián)的檢測(cè)器組成,在確保樣本數(shù)不減少的情況下,通過(guò)搭建級(jí)聯(lián)結(jié)構(gòu)訓(xùn)練出高質(zhì)量的檢測(cè)器,在每一級(jí)上,對(duì)平行級(jí)聯(lián)檢測(cè)網(wǎng)絡(luò)與級(jí)聯(lián)檢測(cè)網(wǎng)絡(luò)的樣本質(zhì)量進(jìn)行對(duì)比,然后選出各級(jí)相對(duì)較優(yōu)的IOU值。其質(zhì)量分布對(duì)比如圖4所示。第一級(jí)對(duì)樣本進(jìn)行初篩,去掉質(zhì)量過(guò)低的樣本,設(shè)定IOU閾值為0.5;第二級(jí)設(shè)定兩個(gè)平行的檢測(cè)器,閾值分別取0.58和0.60,兩個(gè)平行的檢測(cè)器同時(shí)對(duì)推薦候選框進(jìn)行邊框回歸,第二級(jí)的結(jié)果取兩個(gè)檢測(cè)器的均值;第三級(jí)選取閾值為0.64、0.66和0.68三個(gè)檢測(cè)器進(jìn)行平行組合,第三級(jí)輸出的結(jié)果取它的三個(gè)檢測(cè)器的均值;第四級(jí)則選取4個(gè)不同的閾值,分別為0.69、0.71、0.73和0.75,第四級(jí)的輸出取均值即為模型的輸出。通過(guò)此平行級(jí)聯(lián)網(wǎng)絡(luò)樣本的質(zhì)量逐漸升高,檢測(cè)器整體的檢測(cè)精度也得到了提升。
平行級(jí)聯(lián)檢測(cè)網(wǎng)絡(luò)由多級(jí)檢測(cè)組成,通過(guò)分析網(wǎng)絡(luò)每級(jí)的檢測(cè)結(jié)果來(lái)分析設(shè)計(jì)的合理性。模型的評(píng)估指標(biāo)AP是以0.05為間隔從0.50至0.95這10個(gè)IOU閾值平均準(zhǔn)確率的均值。其中AP50、AP70和AP90分別是IOU閾值為0.50、0.70和0.90時(shí)的平均準(zhǔn)確率均值,各級(jí)的檢測(cè)結(jié)果如表1、表2所示。
表1 級(jí)聯(lián)檢測(cè)網(wǎng)絡(luò)和平行級(jí)聯(lián)檢測(cè)網(wǎng)絡(luò)每一級(jí)檢測(cè)結(jié)果%
表2 級(jí)聯(lián)檢測(cè)網(wǎng)絡(luò)和平行級(jí)聯(lián)檢測(cè)網(wǎng)絡(luò)多級(jí)檢測(cè)結(jié)果%
由表1可知,平行級(jí)聯(lián)檢測(cè)網(wǎng)絡(luò)的單檢測(cè)器在AP90指標(biāo)上略低于級(jí)聯(lián)檢測(cè)網(wǎng)絡(luò),其余大多數(shù)AP要高于級(jí)聯(lián)檢測(cè)網(wǎng)絡(luò),而且級(jí)聯(lián)檢測(cè)網(wǎng)絡(luò)在第四級(jí)檢測(cè)結(jié)果中AP指標(biāo)下降的原因是高質(zhì)量樣本過(guò)多、樣本多樣性低,導(dǎo)致出現(xiàn)過(guò)擬合現(xiàn)象。平行級(jí)聯(lián)檢測(cè)網(wǎng)絡(luò)設(shè)置4級(jí)檢測(cè)器,每級(jí)檢測(cè)器設(shè)置遞增的IOU閾值,樣本經(jīng)過(guò)多級(jí)檢測(cè)器的重采樣,質(zhì)量逐步得到提升,從而提高了整體樣本的質(zhì)量。由圖4可以看出,樣本的質(zhì)量分布逐漸向高質(zhì)量遞增,在提高檢測(cè)器精度的基礎(chǔ)下,同時(shí)使得級(jí)聯(lián)檢測(cè)器的IOU閾值增加,與逐級(jí)提高的樣本質(zhì)量相匹配,解決質(zhì)量不匹配的問(wèn)題。所以平行級(jí)聯(lián)檢測(cè)網(wǎng)絡(luò)可以在穩(wěn)定提升樣本質(zhì)量的同時(shí)保持樣本的多樣性,降低了過(guò)擬合風(fēng)險(xiǎn),從而使整體檢測(cè)精度得到提升。
由表2可知,平行級(jí)聯(lián)檢測(cè)網(wǎng)絡(luò)和級(jí)聯(lián)檢測(cè)網(wǎng)絡(luò)的前兩級(jí)的質(zhì)量檢測(cè)效果指標(biāo)都有提升,平行級(jí)聯(lián)檢測(cè)網(wǎng)絡(luò)的第一級(jí)與級(jí)聯(lián)檢測(cè)網(wǎng)絡(luò)的第一級(jí)結(jié)果相近,這是因?yàn)閮煞N網(wǎng)絡(luò)的檢測(cè)器均使用了0.5的IOU閾值進(jìn)行初級(jí)樣本的篩選,后面隨著檢測(cè)器的多級(jí)連接,平行級(jí)聯(lián)檢測(cè)網(wǎng)絡(luò)的評(píng)價(jià)指標(biāo)AP50和AP70都高于級(jí)聯(lián)檢測(cè)網(wǎng)絡(luò),評(píng)價(jià)指標(biāo)AP90低于級(jí)聯(lián)檢測(cè)網(wǎng)絡(luò),說(shuō)明級(jí)聯(lián)檢測(cè)網(wǎng)絡(luò)的高質(zhì)量樣本數(shù)量較多,同時(shí)從兩個(gè)網(wǎng)絡(luò)的總體的評(píng)價(jià)指標(biāo)AP可以看出,級(jí)聯(lián)檢測(cè)網(wǎng)絡(luò)在1~4級(jí)時(shí)AP有所下降,說(shuō)明高質(zhì)量樣本占大多數(shù),產(chǎn)生了過(guò)擬合現(xiàn)象。而平行級(jí)聯(lián)檢測(cè)網(wǎng)絡(luò)在加入第五級(jí)時(shí)出現(xiàn)了AP下降的情況,所以本文采用了四級(jí)的平行級(jí)聯(lián)檢測(cè)網(wǎng)絡(luò),它的總體評(píng)價(jià)指標(biāo)AP均要高于其他級(jí)聯(lián)檢測(cè)網(wǎng)絡(luò),并且隨著級(jí)數(shù)的增加而上升,說(shuō)明平行級(jí)聯(lián)檢測(cè)網(wǎng)絡(luò)減少了過(guò)擬合現(xiàn)象,提高了檢測(cè)精度。
表4 平行級(jí)聯(lián)檢測(cè)網(wǎng)絡(luò)與區(qū)域推薦的檢測(cè)網(wǎng)絡(luò)的對(duì)比%
本文的平行級(jí)聯(lián)檢測(cè)網(wǎng)絡(luò)使用Resnet101+FPN作為基礎(chǔ)網(wǎng)絡(luò),并與多個(gè)目前主流的檢測(cè)網(wǎng)絡(luò)進(jìn)行比較,其余網(wǎng)絡(luò)均用IOU閾值為0.5的檢測(cè)器進(jìn)行訓(xùn)練,表3、表4中AP75為IOU閾值0.75時(shí)的平均準(zhǔn)確率。APS、APM和APL分別是小、中和大三種不同尺寸目標(biāo)的平均準(zhǔn)確率均值。
表3 平行級(jí)聯(lián)檢測(cè)網(wǎng)絡(luò)與回歸的檢測(cè)網(wǎng)絡(luò)的對(duì)比%
從表3可以看出,基于回歸的目標(biāo)檢測(cè)網(wǎng)絡(luò)YOLOv3、SSD513、RetinaNet在檢測(cè)精度上,均要低于平行級(jí)聯(lián)檢測(cè)網(wǎng)絡(luò)。其中RetinaNet在不同尺寸目標(biāo)準(zhǔn)確率均值上,平行級(jí)聯(lián)檢測(cè)網(wǎng)絡(luò)提高了5.0個(gè)百分點(diǎn)。平行級(jí)聯(lián)監(jiān)測(cè)網(wǎng)絡(luò)在0.50到0.95閾值區(qū)間的平均準(zhǔn)確率提高更加顯著,為5.3個(gè)百分點(diǎn),這也是基于推薦區(qū)域的目標(biāo)檢測(cè)算法的優(yōu)勢(shì)。
從表4可以得出,對(duì)于不同尺寸物體的檢測(cè),平行級(jí)聯(lián)網(wǎng)絡(luò)相比于Cascade R-CNN提高了1.6個(gè)百分點(diǎn),總體精度均高于Faster R-CNN+++、Faster R-CNN+FPN、Faster R-CNN by G-RMI、Deformable R-FCN、Mask R-CNN和Cascade R-CNN網(wǎng)絡(luò)1.5個(gè)百分點(diǎn)以上。與目前主流的基于候選區(qū)域的目標(biāo)檢測(cè)網(wǎng)絡(luò)和基于回歸的目標(biāo)監(jiān)測(cè)網(wǎng)絡(luò)網(wǎng)絡(luò)相比,平行級(jí)聯(lián)檢測(cè)網(wǎng)絡(luò)的AP可以提升1.5個(gè)百分點(diǎn)以上。
為了進(jìn)一步驗(yàn)證平行級(jí)聯(lián)網(wǎng)絡(luò)的性能,將平行級(jí)聯(lián)檢測(cè)網(wǎng)絡(luò)和多個(gè)常用的目標(biāo)檢測(cè)網(wǎng)絡(luò)進(jìn)行了速度上的比較,實(shí)驗(yàn)中的訓(xùn)練時(shí)間為一張圖片在一塊GTX1080Ti GPU上的訓(xùn)練時(shí)間消耗,測(cè)試時(shí)間為每張圖片的測(cè)試時(shí)間消耗。由表5可以看出平行級(jí)聯(lián)檢測(cè)網(wǎng)絡(luò)的速度比Faster R-CNN、R-FCN[23]、Cascade R-CNN要慢,但比FPN+要快。平行級(jí)聯(lián)網(wǎng)絡(luò)模型的參數(shù)比其他網(wǎng)絡(luò)均要高,主要原因是相比于其他網(wǎng)絡(luò)結(jié)構(gòu),平行級(jí)聯(lián)網(wǎng)絡(luò)采用了4級(jí)結(jié)構(gòu)級(jí)數(shù)較多,而模型參數(shù)的大小是隨著級(jí)聯(lián)數(shù)的增加而增加的;但速度上的影響并不是很大,平行級(jí)聯(lián)網(wǎng)絡(luò)的每張圖片的訓(xùn)練時(shí)間比Cascade R-CNN慢0.03 s,在測(cè)試時(shí)間上僅比Cascade R-CNN慢0.008 s,相比于其他網(wǎng)絡(luò)也不高,主要因素是對(duì)于目前的檢測(cè)網(wǎng)絡(luò)來(lái)說(shuō),檢測(cè)頭的計(jì)算時(shí)間成本要比特征提取的時(shí)間少很多,所以多級(jí)檢測(cè)器網(wǎng)絡(luò)在運(yùn)算復(fù)雜度上相比于其他網(wǎng)絡(luò)并不高。
表5 平行級(jí)聯(lián)檢測(cè)網(wǎng)絡(luò)與其他檢測(cè)網(wǎng)絡(luò)的速度對(duì)比
本文針對(duì)單一閾值檢測(cè)器在提高樣本質(zhì)量時(shí)出現(xiàn)的過(guò)擬合問(wèn)題,以及推薦區(qū)域與檢測(cè)器使用相差較多的IOU閾值導(dǎo)致質(zhì)量失配的問(wèn)題,提出了一種平行級(jí)聯(lián)檢測(cè)網(wǎng)絡(luò)用于高精度的目標(biāo)檢測(cè)。通過(guò)設(shè)置四級(jí)不同閾值的檢測(cè)器,每級(jí)由一個(gè)或多個(gè)單檢測(cè)器組成,結(jié)果取每一級(jí)內(nèi)多個(gè)檢測(cè)器的均值,低級(jí)過(guò)濾掉質(zhì)量低的樣本,高級(jí)逐步重采樣用高質(zhì)量樣本訓(xùn)練檢測(cè)器,使得平行級(jí)聯(lián)檢測(cè)網(wǎng)絡(luò)可以在提升樣本質(zhì)量的同時(shí)保持樣本的多樣性,進(jìn)而防止過(guò)擬合,達(dá)到提升檢測(cè)精度的目的。