華北計算機系統(tǒng)工程研究所 周升和 邵武長 王強
在CV中,檢測小目標一直是一個困難且具有挑戰(zhàn)性的問題。在本文中,我們對基于深度學習的小目標檢測算法進行較為全面的調(diào)查。首先介紹了小目標以及目標檢測的含義,然后從小目標檢測存在的難點以及解決方法闡述了小目標檢測算法的研究進展,并總結了各個方法的優(yōu)缺點。
目標檢測是CV中的一項基本任務。當給定圖像時,目標檢測的目的是找到每個對象實例的位置和內(nèi)容。從應用角度來看,目標檢測可分為兩種類型:通用目標檢測和專用目標檢測。前者旨在在統(tǒng)一框架下檢測不同類型的視覺對象,而后者目的是針對特定應用場景下的檢測。
本文主要對近年來基于深度學習的小目標檢測方法進行了調(diào)查,首先介紹了小目標以及目標檢測的含義,然后系統(tǒng)性地介紹了小目標檢測算法,最后對小目標檢測的未來發(fā)展進行了討論。
小目標的定義是用來表示在一幅畫中該目標占據(jù)了多少的像素或是其規(guī)模/尺寸大小。小目標的定義有兩種主要方法:一個是相對大小,另一個是絕對尺寸??傊瑸楸阌谏钊肓私庑∧繕藱z測,需要根據(jù)不同的應用場景對小目標進行不同的定義。目標檢測的應用,如圖1所示。
圖1 目標檢測的應用Fig.1 Application of object detection
小目標檢測的定義是指確定圖像中是否存在來自給定類別的小目標實例,如果存在,則返回每個小目標實例的空間位置和范圍。簡而言之,小目標檢測需要完成兩個步驟:定位和分類。它需要檢測圖像中的目標對象并將其與多元背景區(qū)分開來。多對象像素掩碼和邊界框用于每個對象實例、相關標簽及其置信度分數(shù)的精確定位。
與大中型目標相比,小目標更難準確檢測。這是因為小目標檢測有4個困難。(1)小目標分辨率低且特征不足;(2)目標尺度跨度大,多尺度并存[1];(3)小目標的例子很少;(4)小目標的類別是不平衡的。下面基于難點分析小目標檢測技術并總結優(yōu)缺點。
解決上述4個難點的方法總體上如下:具體來說,由于從小目標中提取的有效特征非常有限,因此需要捕獲更多的附加上下文信息作為小目標的補充。多尺度表示學習不僅可以為小目標提供更有效的信息,而且在一定程度上緩解了目標尺度跨度大的問題。此外,訓練策略也用于處理對象尺度問題。數(shù)據(jù)增強是另一種有效的策略,它不僅可以緩解小目標的樣本不足,還可以改善小目標的類別不平衡。此外,損失函數(shù)的使用還有助于平衡小目標的類別。
基于以上對小目標檢測的概述,我們將從6個方面分析小目標檢測技術:超分辨率技術、基于上下文的信息、多尺度表示學習、訓練策略、數(shù)據(jù)增強和基于損失函數(shù)的方法,然后我們總結了各個方法的優(yōu)缺點。
超分辨率技術旨在從相應的低分辨率特征中恢復高分辨率。高分辨率圖像可以應用于小目標檢測,因為它提供了關于原始場景的更精細的細節(jié)。
Li等人首次將GAN方法用于小目標檢測任務[2]。所提出的Perceptual GAN模型通過生成小對象的超分辨表示來縮小小目標與大目標的表示差異,從而改進了小交通標志檢測。
通過分析小目標檢測所依賴的因素以及性能和效率之間的權衡,Liu等人[3]提出了一種高分辨率檢測網(wǎng)絡(HRDNet)。HRDNet的主要思想是采用淺層骨干處理高分辨率圖像,同時采用深層骨干處理低分辨率圖像。
這些方法有效地增強了圖像的細節(jié)信息,在某種程度上,它促進了小目標檢測;然而,與一般CNN相比,基于GAN的方法難以訓練。
由于小目標本身包含的信息有限,上下文信息在小目標檢測中起著至關重要的作用。以下描述了一些基于上下文信息的檢測方法。
Xi等人[4]試圖利用每個圖像中所有預測對象之間的語義相似性來推廣當前的小人臉檢測器。為此,他們提出了一個新的框架,將語義相似性建模為度量學習策略中的成對約束,然后使用圖切割技術改進語義相似性預測。
Yan等人[5]提出了一種稱為LocalNet的單級檢測器,該檢測器更加關注詳細的信息建模。LocalNet的目的是在早期階段保留更詳細的信息,以增強小目標的表示。此外,他們還設計了一個局部細節(jié)上下文模塊,以提高檢測層的安全性,該模塊重新引入網(wǎng)絡中丟失的細節(jié),并在有限的接收域范圍內(nèi)利用局部上下文。
這些方法充分利用了圖像中與小目標相關的信息,有效地提高了檢測小目標的性能。然而冗余的上下文信息會導致信息噪聲,這會影響小目標檢測的性能。
Liu等人[3]分析了小目標檢測所依賴的因素以及效率和性能之間的權衡,并提出了高分辨率檢測網(wǎng)絡(HRDNet)。它包括一個重要部分,即多深度圖像金字塔網(wǎng)絡(MDIPN)。MD-IPN利用多深度背部骨骼保持多位置信息,通過從高分辨率到低分辨率提取各種特征,可以提高小目標檢測性能,同時主要保持中大目標的檢測性能。為了減少這些特征之間的信息不平衡,還提出了多尺度特征金字塔網(wǎng)絡來對齊和融合MD-IPN產(chǎn)生的多尺度特征組。
基于特征化圖像金字塔的改進方法雖然可以平等地變換所有尺度的對象,但是效率較低。由于特征金字塔產(chǎn)生多級特征,因此犧牲了不同尺度上的特征一致性,這將導致有效訓練數(shù)據(jù)的增加,以及每個尺度的過度擬合風險。
如今,雖然針對大目標的訓練檢測器正在向前推進,但關鍵的挑戰(zhàn)仍然是針對小目標的訓練探測器。
Zhou等人[6]提出蒙太奇預訓練。蒙太奇預訓練只需要目標檢測數(shù)據(jù)集,而只占用四分之一的計算資源。他們通過從原始圖像中仔細提取有用的樣本、以蒙太奇方式組裝樣本作為輸入以及利用ERF自適應密集分類方案進行模型預訓練來減少潛在的冗余。在很大程度上考慮了網(wǎng)絡利用率,提高了學習效率和最終性能。
Kim等人開發(fā)了一種稱為SAN的尺度感知網(wǎng)絡[7],并引入了一種新的學習方案,該方案只考慮信道之間的關系,而不考慮空間信息。為了使基于CNN的檢測器對尺度變化更具魯棒性,SAN將從不同尺度獲得的卷積特征映射到尺度不變子空間。它首先從尺度歸一化補丁中提取卷積特征,然后通過使用這些提取的特征同時訓練SAN和檢測網(wǎng)絡。
通過多尺度訓練的模型可以匹配多尺度測試進一步提高檢測性能。此外,蒙太奇預訓練方案和動態(tài)尺度訓練策略有助于小目標檢測,但是訓練過程會影響推測速度。
數(shù)據(jù)是任何深度學習模型的核心。數(shù)據(jù)增強是一種技術,可用于擴展深度學習模型所需的數(shù)據(jù)集大小,通過人工生成數(shù)據(jù)集中現(xiàn)有實際圖像的變化進行訓練。
Feng等人[8]開發(fā)了一套策略來進一步提高檢測器的性能,包括基于SM的數(shù)據(jù)增強,該SM將現(xiàn)有大規(guī)模數(shù)據(jù)集和Tinyperson數(shù)據(jù)集之間的對象尺寸對齊,該策略可以獲得良好的小目標表示。
Jiang等人[9]全面分析了TinyPerson數(shù)據(jù)集的尺度信息,并提出了一種新的細化尺寸匹配方案,即SM+。與只考慮整體形象的SM不同,SM+專注于每個姿態(tài)。該方法有效地提高了預訓練和目標數(shù)據(jù)集之間的相似性,大大提高了現(xiàn)有檢測器的檢測性能。
為任何領域捕獲大量新圖像是非常麻煩的,從這個角度來看,數(shù)據(jù)增強方法節(jié)省了時間和成本。但是,更改模型架構的代價是增加推理的復雜性,使得模型速度變慢。
He等人[10]引入了一種新的邊界框回歸損失,用于同時學習邊界框變換和局部化方差,這種損失大大提高了定位精度,幾乎不需要額外計算。
Yu等人[11]提出了一種用于邊界框預測的新的并集損失交集(IoU損失)函數(shù),該函數(shù)將預測框的4個邊界作為一個整體單元進行回歸。通過利用IoU損耗和深度全卷積網(wǎng)絡的優(yōu)點,引入了UnitBox,它可以精確和高效地定位,對不同形狀和尺寸的目標具有魯棒性[12]。
這些基于損失函數(shù)的方法有助于目標定位和快速檢測,在某種程度上,可以提高小目標檢測。雖然這些方法的準確性在一定程度上得到了提高,但它們的操作步驟變得更加復雜,如果目標框和預測框不相交,則損失為零。
本文首先總結了小目標物體研究的難點;其次從超分辨率技術、基于上下文的信息、多尺度表示學習、訓練策略、數(shù)據(jù)增強和基于損失函數(shù)等幾個方面詳細地總結了優(yōu)化小目標檢測的方法;最后分析總結了各個方法的優(yōu)勢與局限性。雖然目前小目標檢測在精度上得到了很好地提升,但總的來說仍未達到理想的效果,希望這篇綜述能夠為研究人員提供一點幫助。
引用
[1]劉曉雪.基于非固定錨框的小目標定位及檢測算法改進[D].北京:北京交通大學,2021.
[2]潘富城.基于深度學習的小目標檢測方法研究[D].上海:華東師范大學,2021.
[3]LIU Z,GAO G,SUN L,et al.HRDNet:High-resolution Detection Network for Small Objects[C]//IEEE International Conference on Multimedia and Expo,2021.
[4]XI Y,ZHENG J B,HE X J,et al.HeBeyond Context:Exploring Semantic Similarity for Tiny Face Detection[C]//IEEE International Conference on Image Processing,2018:1907-1911.
[5]YAN Z W,ZHENG H C, LI Y,et al.Detection-oriented Backbone Trained from Near Scratch and Local Feature Refinement for Small Object Detection[J].Neural processing letters,2021,53(3):1921-1943.
[6]ZHOU D Z,ZHOU X C,ZHANG H W,et al.Cheaper Pretraining Lunch:An Efficient Paradigm for Object Detection[C]//European Conference on Computer Vision,2020:258-274.
[7]KIM Y H,KANG B N,KIM D.SAN:Learning Relationship Between Convolutional Features for Multi-scale Object Detection[C]//European Conference on Computer Vision,2018:328-343.
[8]FENG Y,WANG X D,XIN Y,et al.Effective Feature Enhancement and Model Ensemble Strategies in Tiny Object Detection[C]//European Conference on Computer Vision,2020:324-330.
[9]JIANG N,YU X H,PENG X K,et al.SM+:Refined Scale Match for Tiny Person Detection[C]//IEEE International Conference on Acoustics,Speech and Signal Processing,2021:1815-1819.
[10]HE Y H,ZHU C C,WANG J R,et al.Bounding Box Regression With Uncertainty for Accurate Object Detection[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).IEEE,2019.
[11]YU J H,JIANG Y N,WANG Z Y,et al.UnitBox:An Advanced Object Detection Network[C]//ACM Conference on Multimedia Conference,2016.
[12]王旭.低分辨率和有遮擋人臉檢測研究[D].哈爾濱:哈爾濱工業(yè)大學,2020.