李美玲 張俊陽
【摘要】近年來,深度學習技術(shù)的快速發(fā)展使得計算機視覺在工業(yè)、零售、交通等多個行業(yè)中的應(yīng)用更為成熟,而實現(xiàn)計算機視覺中自動化檢測定位并識別目標具有重要的實際意義。本文分析了小目標檢測的定義,指出深度學習技術(shù)用于小目標檢測所存在的難點,并對當前深度學習中小目標檢測方法所取得的進展進行總結(jié),同時,分析相應(yīng)的優(yōu)勢和不足。
【關(guān)鍵詞】深度學習;計算機視覺;小目標檢測;
目標檢測為計算機視覺領(lǐng)域重要研究方向之一, 在工業(yè)自動化、新零售、交通等多個方面具有巨大的應(yīng)用價值。國內(nèi)外專家學者在近些年開展了深入研究,以卷積神經(jīng)網(wǎng)絡(luò)為代表的深度學習算法被證明在目標檢測方面具有優(yōu)越的性能,并取得了一系列成果。
相較于大分辨率目標,小目標的檢測更具挑戰(zhàn)性和現(xiàn)實意義。本文分析了小目標的定義以及檢測小目標存在的難點,總結(jié)了深度學習算法在小目標檢測方向取得的研究進展,并分析算法相應(yīng)的優(yōu)勢和不足。
1. 小目標檢測定義及難點
在實際應(yīng)用中,小目標檢測非常重要,例如自動駕駛檢測攝像頭需在獲得的高分辨率圖像中檢測較小的物體或者較遠的物體、早期的腫塊或腫瘤在醫(yī)學影像中也顯得較小、工業(yè)自動化也需要對材料上的小缺陷做檢測。在計算機視覺理論中,目前尚未明確限定當目標的分辨率尺度或整體像素數(shù)量小于具體閾值時,其為小目標。通常是根據(jù)研究目標或?qū)嶋H應(yīng)用,根據(jù)需要定義小目標。
歷年國際級MS COCO目標檢測競賽的結(jié)果表明當前目標檢測算法的平均精確度有了較大的提升,但同一算法在小、中、大三種目標的實驗結(jié)果表明算法性能隨著目標分辨率變小降低,三種目標的分辨率為0×0-32×32、32×32-96×96、96×96-∞×∞。同一檢測算法,應(yīng)用于小目標檢測得到的性能度量值僅為大目標檢測的2至3倍,該實驗結(jié)果為小目標的分辨率限定提供了學術(shù)參考。故當前提出的主流目標檢測算法在應(yīng)用于小目標檢測時,需在算法模型、參數(shù)、數(shù)據(jù)集等多個方面需根據(jù)實際情況做出相應(yīng)的調(diào)整。由于目標尺度變小,獲得的信息也較少;另一方面,小目標未能很好地出現(xiàn)在圖像中的各個位置,且小目標占比低,數(shù)據(jù)集缺乏多樣性,由此訓(xùn)練集訓(xùn)練得到的參數(shù)更偏向于擬合大目標,原算法的模型、參數(shù)將不再適用。
2. 小目標檢測方法
針對小目標檢測的難點,目前已有一系列有效的改進方法被提出。
2.1 針對小目標尺度提出改進
小目標因為分辨率低,圖像模糊,表觀信息少,故而所能提取的特征也較少。故通過放大小目標獲得更多特征是直接有效的方法,代表算法有FPN、Feature-Fused SSD、SNIP。
FPN是利用常規(guī)CNN模型高效提取圖片中各維度特征的方法。2017年提出的用于目標檢測的特征金字塔網(wǎng)絡(luò),作者主要是將頂層特征通過上采樣和低層特征做融合,而且融合后的每層都是獨立做檢測的,這將增加整體算法耗時,但是融合了低層的特征對于檢測小物體是很有幫助的。
圖1是使用FPN生成一張圖片多維度特征組合的四種方法。
圖1(a)是通過對圖片進行壓縮或放大所形成不同維度的圖片作為模型輸入進行處理,所得到的特征再組合,從而得到可反映多維度信息的特征集。圖1(b)僅采用網(wǎng)絡(luò)的最后一層的特征。圖1(c)是從網(wǎng)絡(luò)不同層抽取不同尺度的特征做預(yù)測。圖1(d)每層都是獨立預(yù)測的,頂層特征通過上采樣和低層特征做融合。
Feature-Fused SSD 是一種對SSD優(yōu)化小目標檢測的算法,其主要也是將不通尺度的特征圖信息融合起來,這里的特征圖有別于FPN算法所選擇的頂層特征,選擇融合的特征圖需要經(jīng)過試驗確定,所采用的融合方法有疊加特征圖和對特征圖元素作求和。缺點為作融合的特征圖需要經(jīng)過試驗確定,具有一定的偶然性。
2018年提出的SNIP算法作者認為目前目標檢測算法的難點在于數(shù)據(jù)集中目標物體的尺寸分布較大,尤其對于小目標的檢測效果也有待提高,因此提出Scale Normalization for Image Pyramids (SNIP)算法來解決這個問題,SNIP相當于開了三個pipe-line(流水線),其劃分了三個尺度,其中包括了三個并行的特征提取,對應(yīng)三種不同分辨率的圖像,每個pipe-line的RPN(區(qū)域提名網(wǎng)絡(luò))只負責一個尺度范圍的候選框生成,每個分辨率下的RoI(候選框和基準框的交疊比例)都有其指定范圍,如果基準框的大小在這個范圍內(nèi),就被標記做有效,否則就被標記為無效。每個尺度只學習最容易學的區(qū)域候選框,故SNIP對小目標檢測準確率有顯著提升,但速度慢。
2.2 針對錨框生成提出改進
錨框是當前基于深度學習目標檢測算法中的重要技術(shù)之一,計算機視覺中有錨點或錨框,目標檢測中常出現(xiàn)的anchor box是錨框,表示固定的參考框,也可稱為錨候選框。錨框的出現(xiàn),取代了遍歷滑窗尋找目標的方法[3]。
在設(shè)置方面錨框需要考慮三個因素,密度、范圍、形狀數(shù)量;密度與基準框和錨框的交疊比閾值有關(guān),因為通常交疊比閾值設(shè)置越高,則有效的錨框數(shù)量越少。范圍則需要根據(jù)任務(wù)檢測目標的范圍確定。形狀數(shù)量則通常會選取多比例多尺度,可適當增加錨框的密度,諸如三個尺度三個比例就有九個形狀的錨框。
2.3 針對ROI池化提出改進
現(xiàn)有的ROI池化破壞了小目標的結(jié)構(gòu),提出了一個基于周邊信息的RoI池化來維護小目標的周邊信息和原始結(jié)構(gòu)。這也是改進小目標檢測的研究方向之一。
2.4 針對訓(xùn)練數(shù)據(jù)集提出改進
針對訓(xùn)練數(shù)據(jù)集提出改進,一方面可直接對訓(xùn)練數(shù)據(jù)集中的小目標圖像做放大之后再進行裁剪,相當于將目標變大,讓神經(jīng)網(wǎng)絡(luò)學習更多的信息;另一方面,可將小物體在圖片中復(fù)制多份,在保證不影響其他物體的基礎(chǔ)上,增加小物體在圖片中出現(xiàn)的次數(shù)(把小目標扣下來貼到原圖中去),提升被錨框包含的概率。但只單對訓(xùn)練數(shù)據(jù)集改進,性能提升較小。
3. 總結(jié)
本文分析了小目標檢測的定義以及存在的難點,總結(jié)了當前深度學習中小目標檢測方法的發(fā)展,通過目前所提出的一系列改進方法,能夠有效提升深度學習中小目標檢測的性能。
參考文獻:
[1] 萬維.基于深度學習的目標檢測算法研究及應(yīng)用[D].
[2] 李名波.基于機器學習的目標檢測算法綜述[J].計算機產(chǎn)品與流通(06):156-157.
作者簡介:李美玲(1988—),女,廣東廉江人,大學本科,主要從事通信工程設(shè)計與管理和樓宇智能化工程技術(shù)的教學工作。張俊陽(1991—),男,廣東揭陽人,碩士研究生,主要從事通信工程、模式識別的研究工作。