張詩文,鄧春華*,張俊雯
各向異性非極大值抑制在工業(yè)目標(biāo)檢測中的應(yīng)用
張詩文1,2,3,鄧春華1,2,3*,張俊雯1,2,3
(1.武漢科技大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,武漢 430065; 2.武漢科技大學(xué) 大數(shù)據(jù)科學(xué)與工程研究院,武漢 430065; 3.智能信息處理與實時工業(yè)系統(tǒng)湖北省重點實驗室(武漢科技大學(xué)),武漢 430065)( ? 通信作者電子郵箱dchzx@wust.edu.cn)
在某些固定的工業(yè)應(yīng)用場景中,對目標(biāo)檢測算法的漏檢容忍性非常低。然而,提升召回率的同時,目標(biāo)周圍容易規(guī)律性地產(chǎn)生一些無重疊的虛景框。傳統(tǒng)的非極大值抑制(NMS)策略主要作用是抑制同一目標(biāo)的多個重復(fù)檢測框,無法解決上述問題。為此設(shè)計了一種各向異性NMS方法來對目標(biāo)周圍不同方向采取不同的抑制策略,從而有效消除規(guī)律性的虛景框。固定的工業(yè)場景中的目標(biāo)形狀和規(guī)律的虛景框往往具有一定關(guān)聯(lián)性。為了促進各向異性NMS在不同方向的精確執(zhí)行,設(shè)計了一種比例交并比(IoU)損失函數(shù)用來引導(dǎo)模型擬合目標(biāo)的形狀。此外,針對規(guī)則目標(biāo)使用了一種自動標(biāo)注的數(shù)據(jù)集增廣方法,在降低人工標(biāo)注工作量的同時擴大了數(shù)據(jù)集規(guī)模。實驗結(jié)果表明,所提方法在軋輥凹槽檢測數(shù)據(jù)集上的效果顯著,應(yīng)用于YOLO系列算法時在不降低速度的同時提升了檢測精度。目前該算法已成功應(yīng)用于某冷軋廠軋輥自動抓取的生產(chǎn)線。
各向異性;非極大值抑制;交并比;目標(biāo)檢測;YOLO
隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展,目標(biāo)檢測技術(shù)日趨成熟,在工業(yè)中的應(yīng)用也越來越廣泛。目前主流的基于深度學(xué)習(xí)的目標(biāo)檢測算法可以分為兩大類:一階段檢測器算法(SSD(Single Shot multi-box Detector)[1]、YOLO(You Only Look Once)[2]、YOLO9000[3]以及YOLOv3[4]等)和二階段檢測器算法(RCNN(Region-Conventional Neural Network)[5]、Fast-RCNN[6]、Faster-RCNN[7]以及Mask R-CNN[8]等)。二階段檢測算法將目標(biāo)框回歸任務(wù)和分類任務(wù)分成兩個階段進行[9-10],精度比較高。相比之下,一階段檢測器直接回歸目標(biāo)框和類別信息[1,11],精度稍微偏低,但是速度快,容易訓(xùn)練,方便移植,很受工業(yè)界的青睞。
工業(yè)界目標(biāo)檢測的場景一般比較固定,但是實時環(huán)境比較復(fù)雜(容易受到光線、運動畸變、衍射變換、相機狀態(tài)等影響)[12],同時對召回率和精確率要求較高。在某些工業(yè)場景中,甚至將召回率擺在第一位,對漏檢幾乎是零容忍[13]。如何在提升召回率的基礎(chǔ)上同時保持較高的精確率是工業(yè)目標(biāo)檢測的一個難以平衡的科學(xué)問題[14],因此,抑制虛景目標(biāo)是工業(yè)目標(biāo)檢測的重要技術(shù)環(huán)節(jié)之一?,F(xiàn)有的目標(biāo)檢測算法在模型參數(shù)確定后只能通過非極大值抑制(Non-Maximum Suppression, NMS)算法抑制同一個目標(biāo)的重疊率較高的檢測框,而對于目標(biāo)周圍存在的重疊率較低或無重疊的虛景框無能為力[15]。本研究針對工業(yè)場景下目標(biāo)框周圍的虛景框規(guī)律出現(xiàn)的情況,提出一種各向異性NMS方法。該方法可以針對不同方向?qū)嵤┎煌瑥姸群蛥^(qū)域范圍的抑制策略,在保持較高召回率的同時還能提升檢測的精確率。
工業(yè)場景中,虛景目標(biāo)主要來源于目標(biāo)的周邊設(shè)備或者零件外觀形態(tài)[16]。在某些工業(yè)應(yīng)用中,為了提升召回率,不得不將置信度閾值調(diào)得很低[17]。在低置信度前提之下,目標(biāo)周邊的重復(fù)模式出現(xiàn)的概率大增。然而,這些重復(fù)模式往往來源于固定的周邊設(shè)備或者零件,且規(guī)律分布在目標(biāo)的周圍[16]。當(dāng)目標(biāo)發(fā)生尺度或者旋轉(zhuǎn)變化時,目標(biāo)周圍的虛景框也會同時發(fā)生相應(yīng)的變化。因此,利用目標(biāo)外觀形狀與虛景目標(biāo)之間的語義關(guān)聯(lián)信息能夠更好地執(zhí)行各向異性NMS。本研究提出了一種比例交并比(Intersection over Union, IoU)回歸損失函數(shù),通過對預(yù)測目標(biāo)矩形框的長寬比例進行懲罰,擬合更符合目標(biāo)形態(tài)的預(yù)測框。
此外,在工業(yè)目標(biāo)檢測中,樣本數(shù)據(jù)集的制作也非常重要[18]。直接使用相機拍攝照片不能滿足工業(yè)場景需求。首先,拍攝的場景比較單一,訓(xùn)練得到的模型魯棒性較差;其次,拍攝的數(shù)據(jù)在光照、角度等不同環(huán)境下的數(shù)量可能不均衡[19];再次,手工標(biāo)注工作量過大,不同人員標(biāo)注容易受主觀影響[20]。因此,本文采用模擬仿真(在包含各種模式和場景的公共數(shù)據(jù)集的基礎(chǔ)上進行擬合)生成的數(shù)據(jù)集。訓(xùn)練(訓(xùn)練樣本不包含真實拍攝的圖片數(shù)據(jù))得到的模型直接在真實拍攝數(shù)據(jù)集上進行測試驗證。目前,本研究提出的算法已成功應(yīng)用于某冷軋廠軋輥自動抓取的生產(chǎn)線,并在實際場景中持續(xù)運行。
本文的主要貢獻如下:
1) 設(shè)計了一種各向異性NMS方法,對不同方向的目標(biāo)采取不同的抑制策略,去除重復(fù)框的同時有效地抑制了目標(biāo)周圍規(guī)則出現(xiàn)的虛景框,在保持較高召回率的同時還能提升檢測的精確率。
2) 提出了一種比例IoU回歸損失函數(shù),提升模型對規(guī)則形狀的敏感性,提高檢測器的準(zhǔn)確率和目標(biāo)邊界框的定位精度,促進了各向異性NMS策略的執(zhí)行。
3) 針對單類規(guī)則目標(biāo),提出了一種自動標(biāo)注的數(shù)據(jù)集增廣方法,僅需要少量人工標(biāo)注便可將數(shù)據(jù)集擴大幾個數(shù)量級,并制作了一個冷軋廠軋輥凹槽數(shù)據(jù)集,豐富了工業(yè)場景數(shù)據(jù)集的多樣性。
本章主要介紹近年來該領(lǐng)域相關(guān)研究的進展情況,分別說明了NMS和交并比損失(IoU loss)的發(fā)展情況。
非極大值抑制(NMS),即抑制不是極大值的元素,應(yīng)用于目標(biāo)檢測中,就是僅保留置信度(conf)最高的候選框。在近50年的時間里,NMS已成為計算機視覺中許多檢測算法不可或缺的一部分。首先它被用于邊緣檢測技術(shù)[21],隨后其應(yīng)用范圍擴展至特征點檢測[22]、人臉檢測[23]以及目標(biāo)檢測[24]等多個任務(wù)中。
在邊緣檢測中,NMS通過邊緣細化以去除虛假響應(yīng)[21]。在特征點檢測器[22]中,NMS可以有效地進行局部閾值化以檢測唯一的特征點。在人臉檢測[23]中,通過使用重疊準(zhǔn)則將邊界框劃分為不相交的子集來執(zhí)行NMS,對集合中檢測框的坐標(biāo)進行平均得到最終的檢測結(jié)果。對于人體檢測,Dalal等[25]提出了一種貪婪的NMS(greedy NMS),該方法選擇檢測得分最高的邊界框,并使用預(yù)定義的重疊閾值抑制其相鄰框,從而提高了人臉檢測的性能。從那時起,greedy NMS便被廣泛應(yīng)用于目標(biāo)檢測任務(wù)[26]。為了解決兩個目標(biāo)相近只會保留一個的問題,Bodla等[27]提出了一種加權(quán)的NMS(soft-NMS)。對于相近的兩個同類別目標(biāo)框,soft-NMS并不是去除其中一個,而是降低其置信度,通過這種加權(quán)的方式可以避免相距很近的兩個同類別目標(biāo)丟失。
盡管前述幾種NMS能夠顯著提高目標(biāo)檢測的性能,但也存在一些弊端。其依靠重疊面積的性質(zhì)決定了在NMS之前需要為所有類設(shè)定一個閾值。然而不同的閾值可能適用于不同的目標(biāo),如圖1所示,因此并不適用于類間差異較大的目標(biāo)檢測任務(wù)。在工業(yè)場景實際應(yīng)用中,為了提升目標(biāo)檢測結(jié)果的召回率,通常將置信度閾值設(shè)得較低,因此會出現(xiàn)大量與目標(biāo)框相近且規(guī)律出現(xiàn)的不重疊虛景框。此時現(xiàn)有NMS便無法有效抑制虛景框。
圖1 不同置信度下的NMS結(jié)果
Yu等[28]和Rezatofighi等[29]已經(jīng)證明了IoU loss作為損失函數(shù)對于二維軸對稱的邊界框(bounding box, bbox)回歸任務(wù)的有效性。Song等[30]首先提出利用中軸線進行行人檢測。CornerNet[31]則用一對角點預(yù)測來代替矩形框定位目標(biāo)。在RepPoints[32]中,通過預(yù)測多個點形成一個最小外接矩形框。隨后Zhu等[33]提出了無錨框分支來解決在線特征選擇中的非最優(yōu)性問題。還有幾種用于目標(biāo)檢測的損失函數(shù),如focal loss[34]、類平衡損失(class-balanced loss)[35]、用于分類和邊界框回歸的平衡損失以及梯度流平衡損失(gradient flow balancing loss)[36]。然而,在最新的目標(biāo)檢測算法中矩形框的回歸仍然是主流[35,37]。
在邊界框回歸中,通常采用n范數(shù)作為損失函數(shù),但其對不同的尺度比較敏感。YOLOv1[2]和YOLOv3[4]通過引入寬高來緩解這一問題。從UnitBox[28]開始,對比例不敏感的IoU損失(IoU loss)開始被廣泛使用。隨后,GIoU(Generalized IoU) loss[29]被提出用于解決非重疊情況下的梯度消失問題。最近提出的DIoU(Distance IoU) loss[38]彌補了文獻[29]未考慮距離因素的缺陷,以更快的收斂速度和更高的回歸精度被YOLOv5等最新檢測算法所采用。DIoU在IoU Loss的基礎(chǔ)上引入了一個懲罰項,其計算式如式(1):
其中:、gt分別表示候選框和真實框的中心點;函數(shù)用于計算兩個中心點之間的歐氏距離;表示能夠同時包含候選框和真實框的最小外接矩形的對角線距離。故DIoU對候選框和真實框之間的歸一化距離進行建模,通過直接最小化兩個目標(biāo)框的距離,當(dāng)候選框與目標(biāo)框不重疊時可以為候選框提供移動方向,從而加速模型的收斂。DIoU充分利用了bbox的重疊信息和位置信息,卻沒有涉及長寬比信息。為此文獻[38]同時還提出了CIoU來擬合候選框與真實框的長寬比例,其計算式如式(2)~(4)所示。其中用于平衡比例,用于衡量候選框與真實框的長寬比的一致性。
CIoU作為最新的IoU loss也存在不足之處。當(dāng)長寬在[0,1]區(qū)間時,式(4)中反正切函數(shù)的導(dǎo)數(shù)項1/(2+2)的值通常很小,因此會導(dǎo)致梯度爆炸,無法正常收斂。因此當(dāng)檢測目標(biāo)具有固定規(guī)則形狀(如長邊與短邊比例很大的小目標(biāo))的特點時,CIoU反而表現(xiàn)不佳。這種問題在工業(yè)場景目標(biāo)檢測任務(wù)中尤其突出。
本章針對前述NMS抑制策略以及IoU loss的不足之處,闡述了本文所提方法的原理及實現(xiàn),包括各向異性NMS策略以及比例IoU loss。
基于錨框(Anchor)的檢測器在提取候選框時,會根據(jù)Anchor的數(shù)量并依靠分類器生成大量的區(qū)域候選框,同時計算對應(yīng)候選框?qū)儆谀骋活悇e的概率值[39]。原始NMS旨在消除同一目標(biāo)周圍大量重復(fù)的候選框,為每個目標(biāo)僅保留一個置信度最高的框。當(dāng)兩個候選框沒有重疊或者重疊區(qū)域小于固定閾值(N),即<N時,NMS認為這是兩個不同的目標(biāo),均不做抑制處理。然而針對工業(yè)場景目標(biāo)檢測任務(wù),為了提升檢測結(jié)果的召回率其置信度閾值通常被設(shè)計得很小,因此會產(chǎn)生大量誤檢框且規(guī)律分布于目標(biāo)周圍。對于這種與真實框重疊區(qū)域小于N的誤檢框,原始NMS便無法區(qū)分。
在工業(yè)場景目標(biāo)檢測任務(wù)中,虛景目標(biāo)主要來源于目標(biāo)本身外觀形態(tài)及周邊設(shè)備的干擾,因此虛景框會遍布目標(biāo)周圍以及與目標(biāo)相似的背景區(qū)域。對于目標(biāo)本身是長條狀背景物體的一部分的檢測任務(wù)(如軋輥凹槽檢測、管道連接點及焊接位置檢測以及道路缺陷檢測等),其背景物體所在區(qū)域及邊緣區(qū)域是虛景框的主要分布區(qū)域。目標(biāo)周圍大量的重復(fù)模式使得檢測框的分布呈現(xiàn)出特定的規(guī)律。如圖2(a)真實場景所示,虛景框密集分布于目標(biāo)周圍,對于所有檢測框,橢圓是最能緊密包含所有檢測框的規(guī)則圖形,即大量虛景框密集分布于目標(biāo)四周橢圓范圍(虛線框)內(nèi)。由此可以總結(jié)客觀規(guī)律擬合出圖2(b)中所示泛化模型,其中緊貼目標(biāo)的候選框為真實目標(biāo)框,其他候選框為模擬模型檢測的虛景框。
圖2 工業(yè)場景目標(biāo)檢測框分布
對于此類目標(biāo)本身是長條狀背景物體的一部分的檢測任務(wù),都存在一個特定大小、方向的橢圓能將所有虛景框包含在內(nèi)??紤]到有些工業(yè)場景目標(biāo)之間間隙較大,本文提出了一種各向異性NMS,可以有效地抑制目標(biāo)周圍規(guī)律出現(xiàn)的虛景框。首先通過常規(guī)NMS過濾掉重疊區(qū)域大于閾值的檢測框,然后對剩下的不同朝向的檢測框設(shè)置一個不同大小的橢圓抑制區(qū)域,針對該區(qū)域進行非極大值抑制。
該傾斜橢圓的方程定義如式(5)(6):
其中:(0,0)表示基準(zhǔn)檢測框中心點位置,(,)表示其他檢測框中心點位置。若某檢測框位于基準(zhǔn)檢測框周圍橢圓區(qū)域內(nèi),則認為該檢測框為虛景框,否則為其他目標(biāo)。、用于表示橢圓區(qū)域大小,這里橢圓的大小不能固定,太大了會導(dǎo)致相鄰目標(biāo)丟失,太小則達不到抑制效果。通過對典型工業(yè)場景物體長寬比例進行對比總結(jié),本文采取的橢圓大小參數(shù)如式(6)所示,、分別表示目標(biāo)框的像素高和寬??梢钥闯瞿繕?biāo)物體的長寬比越接近1,橢圓便越圓,反之則橢圓越扁,這也與橢圓的數(shù)學(xué)特性相符合。
式(5)中表示旋轉(zhuǎn)角度,其值由目標(biāo)邊緣梯度確定。對于一個二維函數(shù)(,),其偏微分公式如下:
由于圖像是一個按像素離散的二維函數(shù),因此(,)表示(,)這一點的像素值且最小的值為1像素。于是上式變?yōu)槿缦滦问剑?1):
式(9)(10)中、即為圖像某像素在和軸方向上的變化率(與相鄰像素比較),即該方向上的梯度。式(11)中便是該像素的聯(lián)合梯度。對檢測框中所有像素的聯(lián)合梯度求平均可得框中圖像的朝向,即式(5)中橢圓的旋轉(zhuǎn)角度。如圖3所示,點為圖像上任意一點,,即為像素點在軸和軸方向上的梯度,表示該點的聯(lián)合梯度。通過對檢測框內(nèi)所有像素求聯(lián)合梯度的平均,便可得該檢測框?qū)?yīng)橢圓抑制區(qū)域的旋轉(zhuǎn)角度。
通過上述方法求得檢測框中像素梯度均值,并將其作為該框中圖像的旋轉(zhuǎn)角度,從而對于任意方向的圖像(包括目標(biāo))都能找到對應(yīng)大小的橢圓區(qū)域。通過對每個橢圓區(qū)域內(nèi)進行非極大值抑制,最終在目標(biāo)周圍區(qū)域內(nèi)只保留置信度最高的框,從而有效地抑制了與目標(biāo)框重疊區(qū)域小于閾值(IoU<N)的虛景框。如圖4為軋輥上的模擬效果。
圖3 橢圓旋轉(zhuǎn)角度示意圖
圖4 限定區(qū)域的NMS抑制結(jié)果
一階段檢測算法的損失函數(shù)大多由式(12)所示三部分組成,obj、box、cls分別表示置信度損失、邊界框回歸損失和類別損失,其中邊界框回歸損失采用IoU loss。
DIoU loss作為一階段檢測器最常用的邊界框回歸損失,存在對長寬比信息不敏感的缺陷。最新的CIoU loss雖然加入了長寬比懲罰因子,但是當(dāng)目標(biāo)長或?qū)捫∮?時會出現(xiàn)因梯度爆炸而導(dǎo)致無法正常收斂的問題。工業(yè)場景目標(biāo)大部分呈現(xiàn)出類別單一、形狀固定的特點,因此可以從目標(biāo)邊長比例分布的角度分析上述問題。如圖5展示的是真實場景凹槽目標(biāo)數(shù)據(jù)集的分布情況,其中K為長邊與短邊的比例??梢钥闯鲈撃繕?biāo)邊長比例較大且分布在[2.5,4.0]區(qū)間。
通過統(tǒng)計分析目標(biāo)的長寬,計算出長邊與短邊的比值均值(μ)與方差(σ)。當(dāng)候選框的長邊與短邊比值與均值相差很大時,便加大其損失,鼓勵檢測器提取長寬比與目標(biāo)相近的候選框。函數(shù)νR的曲線圖像如圖6所示,當(dāng)候選框的長寬比與μ一致時損失最小。
上述方法對于本文提出的各向異性NMS也有一定促進作用。候選框與真實框形狀比例越相近,其分布區(qū)域就越接近各向異性NMS定義的抑制區(qū)域,從而進一步增強各向異性NMS的有效性。
比例IoU loss在DIoU loss的基礎(chǔ)上添加了形狀比例懲罰項。相較于CIoU loss,本文采用的高斯函數(shù)導(dǎo)數(shù)曲線更平滑,不會出現(xiàn)梯度消失或者梯度爆炸的情況,使模型保持平穩(wěn)快速收斂的同時提高了檢測結(jié)果的精確度。具體實驗效果將在后續(xù)章節(jié)進行討論。
本章主要介紹本文的網(wǎng)絡(luò)訓(xùn)練方法,包括數(shù)據(jù)集的制作與劃分、主干網(wǎng)絡(luò)(backbone)的選取以及模型訓(xùn)練時超參數(shù)的設(shè)定。
為驗證本文所提方法的正確性與有效性,本文選取了冷軋廠軋輥凹槽作為檢測對象。為了制作一個公開的軋輥凹槽數(shù)據(jù)集,豐富工業(yè)場景數(shù)據(jù)集的多樣性,本文在不同時間段于冷軋廠現(xiàn)場采集了不同角度、不同型號以及不同尺寸的軋輥圖片??紤]到COCO(Common Objects in COntext) 作為近年來目標(biāo)檢測任務(wù)最常用的公共數(shù)據(jù)集,包含了各種各樣的背景語義信息,將其作為背景能夠很大程度上增強模型的魯棒性。本文采取將真實軋輥區(qū)域圖片(前景)與COCO數(shù)據(jù)集圖片(背景)進行拼接來擴充數(shù)據(jù)集以模擬不同冷軋廠復(fù)雜的背景,如圖7所示。其中a區(qū)域表示從真實軋輥照片中摳取軋輥凹槽目標(biāo)作為前景,b區(qū)域表示將COCO圖片作為背景。此處對背景圖進行了正方形的填充處理,避免圖片送入網(wǎng)絡(luò)后進行縮放時導(dǎo)致目標(biāo)產(chǎn)生畸變。不同的填充方式會產(chǎn)生不同的效果,如圖8所示。為避免引入不必要的噪聲,本文采取的是邊界元素鏡像填充的方式。
圖7 數(shù)據(jù)集的生成過程
圖8 不同填充方式對比
為了增強模型的泛化能力,本文還對生成的樣本進行了鏡像翻轉(zhuǎn)、高斯模糊以及更改亮度和對比度等預(yù)處理,將樣本數(shù)量擴充到123 287。訓(xùn)練過程中劃分訓(xùn)練集和驗證集的比例為9∶1且全部為合成圖片,分別為110 959張和12 328張。圖9展示了樣本中的部分樣例,其中圖9(a)(b)為高亮度與低亮度的樣例;圖9(c)為高斯模糊后的樣例;圖9(d)為高對比度的樣例;圖9(e)~(h)為樣本不同尺度、不同數(shù)量的樣例。
特別地,由于本文制作的數(shù)據(jù)集基數(shù)較大,如若采取傳統(tǒng)人工標(biāo)注的方式,將耗費大量人力物力。為此,本文設(shè)計了一種圖片自動標(biāo)注方法,在前景目標(biāo)與背景圖片拼接的過程中自動完成目標(biāo)的標(biāo)注任務(wù)。首先選取少量具有代表性特征的目標(biāo)圖片,扣選出目標(biāo)區(qū)域并保存為一張新圖片,如圖7中虛線框a所示;然后對扣選的前景圖片進行人工標(biāo)注處理,記錄目標(biāo)框的左上角坐標(biāo)和右下角坐標(biāo);最后實現(xiàn)前景目標(biāo)與背景圖片的拼接過程,當(dāng)前景圖片發(fā)生大小、位置改變時,目標(biāo)框(坐標(biāo))也隨之改變。
圖9 部分樣例展示
自從YOLO算法的原始作者約瑟夫·雷德蒙(Joseph Redmon)宣布停止計算機視覺領(lǐng)域的所有研究后,YOLO系列一直沒有什么進展。直到Alexey Bochkovskiy發(fā)表文章提出了YOLOv4,并得到了YOLO原作者的認可,YOLO系列再次火熱起來。緊接著,Ultralytics LLC團隊發(fā)布了YOLOv5,盡管還未得到原作者的官方認可,但并不影響其實用性。無論從大小還是從速度上與其他YOLO系列相比,最新的YOLOv5都擁有絕對的優(yōu)勢,同時還能保持精度在同一水準(zhǔn)。因此本文采取YOLOv5作為backbone并在其基礎(chǔ)上進行實驗。
值得一提的是,相較于YOLOv4的網(wǎng)絡(luò)結(jié)構(gòu),YOLOv5新增了聚焦(Focus)結(jié)構(gòu),可以將其簡單地理解為亞像素卷積的逆過程。首先將輸入圖片切分為4份,每一份數(shù)據(jù)都類似于2倍下采樣得到的結(jié)果;然后在通道維度上進行拼接,如圖10所示;最后再經(jīng)過卷積組合模塊得到輸出。通過將原始圖片直接切分,可以將,維度信息聚焦到通道空間,提高每個點的感受野;同時在下采樣過程中可以最大限度地減少原始信息損失,從而增強模型對小目標(biāo)的檢測識別能力,使之更適合工業(yè)場景的檢測任務(wù)。
圖10 Focus結(jié)構(gòu)中的slice操作
經(jīng)過大量實驗分析證明,先驗框?qū)τ诩铀倌P褪諗恳约疤岣吣P蜋z測準(zhǔn)確率有著很大的影響[40-42]。YOLOv5算法在檢測層使用了3種先驗框。本文基于自制的軋輥凹槽數(shù)據(jù)集,采用-means機器學(xué)習(xí)聚類方法進行聚類分析,得到了最能體現(xiàn)本數(shù)據(jù)集目標(biāo)特征的9組先驗框尺寸并分別應(yīng)用于小尺度、中尺度以及大尺度的特征圖上。表1給出了YOLOv5默認以及本文通過聚類得到的9組先驗框在模型中不同尺度特征檢測層上的分配情況。
表1 先驗框在不同尺度檢測層的分配
YOLOv5包含4種模型,分別是YOLOv5s、YOLOv5l、YOLOv5m和YOLOv5x。4種模型的網(wǎng)絡(luò)寬度深度不同,準(zhǔn)確度和檢測速度也不一樣。為了滿足工業(yè)場景實時性的要求,本文選擇檢測速度最快的YOLOv5s作為基礎(chǔ)模型;操作系統(tǒng)為Ubuntu 16.04.6 LTS;訓(xùn)練平臺為Pytorch 1.7.0,CPU為Intel Xeon CPU E5-2683 v3 @2.00 GHz;GPU為GTX-2080TI,其顯存為12 GB。采用隨機梯度下降(SGD)優(yōu)化器,其學(xué)習(xí)率為0.01,動量因子為0.937;批次大?。╞atch size)為56。置信度和類別損失均采用交叉熵損失函數(shù)。具體實驗結(jié)果將在后續(xù)章節(jié)討論。
本章通過圖表的形式展示了本文方法在真實軋輥凹槽測試集上的結(jié)果。測試集中所有圖片均為未處理過的原始圖像,數(shù)量為1 800。評價指標(biāo)包括平均精確度(mean Average Precision, mAP)以及反映檢測速度的幀率(Frames Per Second, FPS)。特別地,mAP@.5表示IoU在0.5以上的mAP值,mAP@.5:.95表示在不同IoU(從0.5到0.95,步長為0.05)設(shè)置下的mAP值。
圖11展示了分別采用原始NMS以及各向異性NMS進行候選框抑制的結(jié)果??梢灾庇^地看出,本文方法有效抑制了單一目標(biāo)周圍成規(guī)律出現(xiàn)的虛景框,提升了模型檢測的精確度。
圖12展示了分別采用DIoU loss以及比例IoU loss后模型的檢測結(jié)果??梢钥闯觯疚姆椒▽δ繕?biāo)的形狀比例更為敏感,使模型檢測結(jié)果更加擬合真實框的形狀比例,提升了檢測框的定位精度與模型收斂速度。
圖11 原始NMS與各向異性NMS對比
圖12 DIoU與比例IoU loss對比
為了驗證本文所提出的各部分模塊是否有效以及探究其貢獻度,本文設(shè)計了相同實驗平臺下的消融實驗。表2詳細列出了YOLOv5s與本文方法的不同組合與原始模型在性能與速度上的對比。
表2 本文方法與原始模型的不同組合的效果
可以看出,在維持檢測速度基本不變的情況下,本文所提出的各向異性NMS(NMS_l)以及引入高斯分布的比例IoU(RIoU) loss均是有效的。其中各向異性NMS的貢獻度最大,mAP相較于backbone提升了5個百分點。兩種方法均不同程度優(yōu)于原始算法,驗證了本文關(guān)于目標(biāo)周圍的虛景框成規(guī)律出現(xiàn)以及高斯分布作為損失函數(shù)對規(guī)則形狀比例的目標(biāo)擬合的有效性。
為驗證本文所提出的方法對于軋輥凹槽目標(biāo)檢測的有效性,除了與YOLOv5s算法進行對比之外,本文還與YOLO系列其他主流檢測算法在同一測試集上進行了對比。統(tǒng)計了各算法對軋輥凹槽目標(biāo)的平均精確度以及檢測速度,結(jié)果如表3所示。
從表3中可以看出,本文所提出的方法在軋輥凹槽目標(biāo)上的檢測平均精確度明顯優(yōu)于原始算法,其中本文所關(guān)注的主要評價指標(biāo)mAP@.5:.95達到了79.2%,相較于原始算法在未犧牲檢測速度的前提下大幅提升了精確度??偟膩碚f,本文所提出的方法在速度相近下達到了更高的精度,使模型能更好地應(yīng)用于工業(yè)場景目標(biāo)檢測任務(wù)。
表3 本文方法加入的與原始YOLO系列算法的對比
本文針對原始NMS無法有效抑制工業(yè)場景目標(biāo)周圍成規(guī)律出現(xiàn)的虛景框以及現(xiàn)有IoU loss無法準(zhǔn)確擬合規(guī)則形狀目標(biāo)的問題,提出了各向異性NMS抑制策略以及比例IoU loss,并成功應(yīng)用于某冷軋廠軋輥凹槽目標(biāo)檢測任務(wù)中,實現(xiàn)了速度與精度的完美結(jié)合。實驗結(jié)果表明,通過對NMS抑制策略進行范圍限定以及將高斯函數(shù)引入IoU回歸損失函數(shù),可以有效地改善模型對目標(biāo)周圍規(guī)律出現(xiàn)的虛景框的識別以及增強模型對規(guī)則目標(biāo)形狀比例的敏感性,提高了軋輥凹槽目標(biāo)的檢測識別精度,從而提高了冷軋廠軋鋼生產(chǎn)的效率。
本文所提出的各向異性NMS抑制策略、比例IoU回歸損失函數(shù)以及單類目標(biāo)數(shù)據(jù)集自動標(biāo)注方法是否適用于其他非固定工業(yè)場景的目標(biāo)檢測與識別任務(wù)還有待考證,且本文方法的結(jié)果仍有提高的空間。未來將對如何調(diào)整網(wǎng)絡(luò)結(jié)構(gòu)加強模型對小目標(biāo)的識別能力以及在保證算法檢測準(zhǔn)確率的前提下如何進一步提高檢測效率進行更深入的研究。
[1] LIU W, ANGUELOV D, ERHAN D, et al. SSD: single shot multibox detector[C]// Proceedings of the 2016 European Conference on Computer Vision, LNCS 9905. Cham: Springer, 2016: 21-37.
[2] REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: unified, real-time object detection[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 779-788.
[3] REDMON J, FARHADI A. YOLO9000: better, faster, stronger[C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017: 6517-6525.
[4] REDMON J, FARHADI A. YOLOv3: an incremental improvement[EB/OL]. (2018-04-08) [2021-01-08].https://arxiv.org/pdf/1804.02767.pdf.
[5] GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]// Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2014: 580-587.
[6] GIRSHICK R. Fast R-CNN[C]// Proceedings of the 2015 IEEE International Conference on Computer Vision. Piscataway: IEEE, 2015: 1440-1448.
[7] REN S Q, HE K M, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149.
[8] HE K M, GKIOXARI G, DOLLáR P, et al. Mask R-CNN[C]// Proceedings of the 2017 IEEE International Conference on Computer Vision. Piscataway: IEEE, 2017: 2980-2988.
[9] LI Z M, PENG C, YU G, et al. Light-head R-CNN: in defense of two-stage object detector[EB/OL]. (2017-11-23) [2021-01-08].https://arxiv.org/pdf/1711.07264.pdf.
[10] CAI Z W, VASCONCELOS N. Cascade R-CNN: delving into high quality object detection[C]// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 6154-6162.
[11] FU C Y, LIU W, RANGA A, et al. DSSD: deconvolutional single shot detector[EB/OL]. (2017-01-23) [2021-01-08].https://arxiv.org/pdf/1701.06659.pdf.
[12] PENG J, SU Y. An improved algorithm for detection and pose estimation of texture-less objects[J]. Journal of Advanced Computational Intelligence and Intelligent Informatics, 2021, 25(2): 204-212.
[13] LAVIE A, SAGAE K, JAYARAMAN S. The significance of recall in automatic metrics for MT evaluation[C]// Proceedings of the 2004 Conference of the Association for Machine Translation in the Americas, LNCS 3265/LNAI 3265. Berlin: Springer, 2004: 134-143.
[14] JUBA B, LE H S. Precision-recall versus accuracy and the role of large data sets[C]// Proceedings of the 33rd AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2019: 4039-4048.
[15] MUKHERJEE S. Object detection[M]// ML.NET Revealed. Berkeley: Apress, 2021: 159-170.
[16] RAZAKARIVONY S, JURIE F. Vehicle detection in aerial imagery: a small target detection benchmark[J]. Journal of Visual Communication and Image Representation, 2016, 34: 187-203.
[17] GUO Y L, BENNAMOUN M, SOHEL F, et al. An integrated framework for 3-D modeling, object detection, and pose estimation from point-clouds[J]. IEEE Transactions on Instrumentation and Measurement, 2015, 64(3): 683-693.
[18] ZHUANG J F, YANG L J, LI J. An improved segmentation algorithm based on super pixel for typical industrial applications[C]// Proceedings of the 11th International Symposium on Computational Intelligence and Design. Piscataway: IEEE, 2018: 366-370.
[19] CATENI S, COLLA V, VANNUCCI M. A method for resampling imbalanced datasets in binary classification tasks for real-world problems[J]. Neurocomputing, 2014, 135: 32-41.
[20] JACQUES J C S, Jr, LAPEDRIZA A, PALMERO C, et al. Person perception biases exposed: revisiting the first impressions dataset [C]// Proceedings of the 2021 IEEE Winter Conference on Applications of Computer Vision Workshops. Piscataway: IEEE, 2020: 13-21.
[21] ROSENFELD A, THURSTON M. Edge and curve detection for visual scene analysis[J]. IEEE Transactions on Computers, 1971, C-20(5): 562-569.
[22] HARRIS C, STEPHENS M. A combined corner and edge detector[C]// Proceedings of the 1988 Alvey Vision Conference. [S.l.]: Alvety Vision Club, 1988: No.23.
[23] VIOLA P, JONES M. Rapid object detection using a boosted cascade of simple features[C]// Proceedings of the 2001 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2001: Ⅰ-511-Ⅰ-518.
[24] FELZENSZWALB P F, GIRSHICK R B, McALLESTER D, et al. Object detection with discriminatively trained part-based models[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2010, 32(9): 1627-1645.
[25] DALAL N, TRIGGS B. Histograms of oriented gradients for human detection[C]// Proceedings of the 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2005: 886-893.
[26] GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]// Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2014: 580-587.
[27] BODLA N, SINGH B, CHELLAPPA R, et al. Soft-NMS — improving object detection with one line of code[C]// Proceedings of the 2017 IEEE International Conference on Computer Vision. Piscataway: IEEE, 2017: 5562-5570.
[28] YU J H, JIANG Y N, WANG Z Y, et al. UnitBox: an advanced object detection network[C]// Proceedings of the 24th ACM International Conference on Multimedia. New York: ACM, 2016: 516-520.
[29] REZATOFIGHI H, TSOI N, GWAK J, et al. Generalized intersection over union: a metric and a loss for bounding box regression[C]// Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2019: 658-666.
[30] SONG T, SUN L Y, XIE D, et al. Small-scale pedestrian detection based on topological line localization and temporal feature aggregation[C]// Proceedings of the 2018 European Conference on Computer Vision, LNCS 11211/LNIP 11211. Cham: Springer, 2018: 554-569.
[31] LAW H, DENG J. CornerNet: detecting objects as paired keypoints[C]// Proceedings of the 2018 European Conference on Computer Vision, LNCS 11218/LNIP 11218. Cham: Springer, 2018: 765-781.
[32] YANG Z, LIU S H, HU H, et al. RepPoints: point set representation for object detection[C]// Proceedings of the 2019 IEEE/CVF International Conference on Computer Vision. Piscataway: IEEE, 2019: 9656-9665.
[33] ZHU C C, HE Y H, SAVVIDES M. Feature selective anchor-free module for single-shot object detection[C]// Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2019: 840-849.
[34] LIN T Y, GOYAL P, GIRSHICK R, et al. Focal loss for dense object detection[C]// Proceedings of the 2017 IEEE International Conference on Computer Vision. Piscataway: IEEE, 2017: 2999-3007.
[35] CUI Y, JIA M L, LIN T Y, et al. Class-balanced loss based on effective number of samples[C]// Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2019: 9260-9269.
[36] LI B Y, LIU Y, WANG X G. Gradient harmonized single-stage detector[C]// Proceedings of the 33rd AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2019: 8577-8584.
[37] TIAN Z, SHEN C H, CHEN H, et al. FCOS: fully convolutional one-stage object detection[C]// Proceedings of the 2019 IEEE/CVF International Conference on Computer Vision. Piscataway: IEEE, 2019: 9626-9635.
[38] ZHENG Z H, WANG P, LIU W, et al. Distance-IoU loss: faster and better learning for bounding box regression[C]// Proceedings of the 34th AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2020: 12993-13000.
[39] YANG T, ZHANG X Y, LI Z M, et al. MetaAnchor: learning to detect objects with customized anchors[C]// Proceedings of the 32nd International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2018: 318-328.
[40] 趙媛媛,朱軍,謝亞坤,等. 改進Yolo-v3的視頻圖像火焰實時檢測算法[J]. 武漢大學(xué)學(xué)報(信息科學(xué)版), 2021, 46(3): 326-334.(ZHAO Y Y, ZHU J, XIE Y K, et al. A real-time video flame detection algorithm based on improved Yolo-v3[J]. Geomatics and Information Science of Wuhan University, 2021, 46(3): 326-334.)
[41] 陳靜,毛鶯池,陳豪,等. 基于改進單點多盒檢測器的大壩缺陷目標(biāo)檢測方法[J]. 計算機應(yīng)用, 2021, 41(8): 2366-2372.(CHEN J, MAO Y C, CHEN H, et al. Dam defect object detection method based on improved single shot multibox detector[J]. Journal of Computer Applications, 2021, 41(8): 2366-2372.)
[42] 盧官有,顧正弘. 改進的YOLOv3安檢包裹中危險品檢測算法[J].計算機應(yīng)用與軟件, 2021, 38(1): 197-204.(LU G Y, GU Z H. A Dangerous goods detection algorithm based on improved YOLOv3[J]. Computer Applications and Software, 2021, 38(1): 197-204.)
[43] BOCHKOVSKIY A, WANG C Y, LIAO H Y M. YOLOv4: optimal speed and accuracy of object detection[EB/OL]. (2020-04-23) [2021-01-28].https://arxiv.org/pdf/2004.10934.pdf.
ZHANG Shiwen, born in 1997, M. S. candidate. His research interests include computer vision, machine learning.
DENG Chunhua, born in 1984, Ph. D., associate professor. His research interests include computer vision, machine learning.
ZHANG Junwen, born in 1997, M. S. candidate. Her research interests include computer vision, machine learning.
Application of anisotropic non-maximum suppression in industrial target detection
ZHANG Shiwen1,2,3, DENG Chunhua1,2,3*, ZHANG Junwen1,2,3
(1,,430065,;2,,430065,;3-(),430065,)
In certain fixed industrial application scenarios, the tolerance of the target detection algorithms to miss detection is very low. However, while increasing the recall, some non-overlapping virtual frames are likely to be regularly generated around the target. The traditional Non-Maximum Suppression (NMS) strategy has the main function to suppress multiple repeated detection frames of the same target, and cannot solve the above problem. To this end, an anisotropic NMS method was designed by adopting different suppression strategies for different directions around the target, and was able to effectively eliminate the regular virtual frames. The target shape and the regular virtual frame in a fixed industrial scene often have a certain relevance. In order to promote the accurate execution of anisotropic NMS in different directions, a ratio Intersection over Union (IoU) loss function was designed to guide the model to fit the shape of the target. In addition, an automatic labeling dataset augmentation method was used for the regular target, which reduced the workload of manual labeling and enlarged the scale of the dataset. Experimental results show that the proposed method has significant effects on the roll groove detection dataset, and when it is applied to the YOLO (You Only Look Once) series of algorithms, the detection precision is improved without reducing the speed. At present, the algorithm has been successfully applied to the production line of a cold rolling mill that automatically grabs rolls.
anisotropic; Non-Maximum Suppression (NMS); Intersection over Union (IoU); target detection; YOLO (You Only Look Once)
This work is partially supported by National Natural Science Foundation of China (61806150).
1001-9081(2022)07-2210-09
10.11772/j.issn.1001-9081.2021040648
2021?04?25;
2021?06?25;
2021?07?09。
國家自然科學(xué)基金資助項目(61806150)。
TP391.41
A
張詩文(1997—),男,湖北建始人,碩士研究生,主要研究方向:計算機視覺、機器學(xué)習(xí); 鄧春華(1984—),男,湖南郴州人,副教授,博士,主要研究方向:計算機視覺、機器學(xué)習(xí); 張俊雯(1997—),女,湖北荊門人,碩士研究生,主要研究方向:計算機視覺、機器學(xué)習(xí)。