黃 丹,陳 志,馮 欣,楊 武
(1.中國兵器科學(xué)研究院, 北京 100089;2.重慶理工大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院, 重慶 400054)
近年來,基于卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)算法在目標(biāo)檢測(cè)領(lǐng)域取得了顯著的成績(jī)[1-2],而這種成功很大一部分依賴于大量帶有完整、精確邊框注釋的目標(biāo)檢測(cè)數(shù)據(jù)集。在一些實(shí)際應(yīng)用領(lǐng)域,諸如醫(yī)學(xué)圖像、瀕危動(dòng)物等,大量的數(shù)據(jù)難以獲取,且數(shù)據(jù)標(biāo)注需要花費(fèi)很大代價(jià)[3]。但在基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法中,當(dāng)數(shù)據(jù)量較小時(shí),卷積神經(jīng)網(wǎng)絡(luò)會(huì)由于過擬合而不能很好地對(duì)未知數(shù)據(jù)泛化,即檢測(cè)器的預(yù)測(cè)能力有限。然而,人類在這項(xiàng)任務(wù)上能夠展現(xiàn)強(qiáng)大的感知能力,例如,兒童可以在極少的幾張圖片中學(xué)習(xí)識(shí)別新的類別。因此,對(duì)這類少樣本數(shù)據(jù)構(gòu)造具有較強(qiáng)泛化能力的目標(biāo)檢測(cè)算法是極具挑戰(zhàn)的。
當(dāng)前,對(duì)少樣本學(xué)習(xí)的研究已經(jīng)取得了一定的進(jìn)展,但這些方法都聚焦于圖像分類,很少涉及到目標(biāo)檢測(cè)問題[1-2]。對(duì)于有限樣本下的目標(biāo)檢測(cè),其核心問題是如何通過少量樣本學(xué)習(xí)在雜亂背景中定位目標(biāo)物體[3-4]。如圖1所示的少樣本目標(biāo)檢測(cè)問題設(shè)置。其中的基類和新類是2種可供訓(xùn)練的數(shù)據(jù),基類中有大量的注釋數(shù)據(jù)可用,而新類則只包含了少數(shù)帶標(biāo)記的樣本。在這2種數(shù)據(jù)中,給定帶有目標(biāo)對(duì)象的支撐圖像集S和可能包含目標(biāo)對(duì)象的查詢圖像集Q,少樣本目標(biāo)檢測(cè)任務(wù)就是在查詢圖像集Q中找到屬于支撐類別的所有目標(biāo)對(duì)象,并用緊致的邊框?qū)⑺鼈儤?biāo)記出來。如果支撐集包含N個(gè)類別,每個(gè)類別包含K個(gè)樣本,這樣的檢測(cè)任務(wù)被稱為N-way K-shot目標(biāo)檢測(cè)。本文旨在基類和新類同時(shí)存在的情況下,提出一種利用基類中的知識(shí)來學(xué)習(xí)檢測(cè)新類目標(biāo)對(duì)象的方法。
圖1 有限樣本下的目標(biāo)檢測(cè)示例圖
少樣本目標(biāo)檢測(cè)的一種解決方案是首先在大規(guī)模數(shù)據(jù)集上預(yù)訓(xùn)練一個(gè)目標(biāo)檢測(cè)模型,然后將模型遷移到少樣本數(shù)據(jù)上微調(diào)訓(xùn)練。但是,與現(xiàn)實(shí)世界中龐大的目標(biāo)類別相比[5],大量數(shù)據(jù)集中包含的目標(biāo)對(duì)象類別的數(shù)量仍然是有限的,因此,預(yù)訓(xùn)練的模型算法無法直接應(yīng)用在一些新的未知類別上,而由于訓(xùn)練數(shù)據(jù)的缺乏,基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法也無法學(xué)習(xí)到大小、形狀、紋理、光線等各異對(duì)象的精確邊界框[6]。除此之外,當(dāng)前通用的目標(biāo)檢測(cè)算法對(duì)于候選區(qū)域的分類只考慮每個(gè)候選區(qū)域的表觀特征,而沒有考慮其他候選區(qū)域、候選區(qū)域在圖中的位置信息以及候選區(qū)域之間的關(guān)系,這些對(duì)于僅有少量標(biāo)注樣本的目標(biāo)檢測(cè)問題是極其重要的。
針對(duì)有限樣本的特性以及現(xiàn)有通用目標(biāo)檢測(cè)算法的問題,提出一個(gè)新的有限樣本下的目標(biāo)檢測(cè)框架。該框架主要由多層卷積神經(jīng)網(wǎng)絡(luò)組成的區(qū)域提案網(wǎng)絡(luò)以及基于圖卷積的候選區(qū)域分類網(wǎng)絡(luò)構(gòu)成。具體來說,該框架首先采用多個(gè)N-way K-shot任務(wù)組成的批次來模擬元學(xué)習(xí),并通過多個(gè)卷積層構(gòu)成的區(qū)域提案網(wǎng)絡(luò)實(shí)現(xiàn)對(duì)目標(biāo)對(duì)象的精確區(qū)域定位。這種區(qū)域提案網(wǎng)絡(luò)的設(shè)計(jì)能夠在有限的樣本下對(duì)大小不同的目標(biāo)物體進(jìn)行定位,且其在各個(gè)類別上的定位方法是通用的,因此能夠很快適應(yīng)新的類別。其次,依據(jù)區(qū)域提案網(wǎng)絡(luò)獲得的候選區(qū)域之間的位置關(guān)系構(gòu)成一幅完全圖,并運(yùn)用圖卷積神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)目標(biāo)自身的語義特征,以及每個(gè)候選區(qū)域的鄰域關(guān)系和相對(duì)位置信息。經(jīng)過訓(xùn)練過程中節(jié)點(diǎn)和邊緣特征的不斷更新,最終獲得圖結(jié)構(gòu)的邊標(biāo)簽預(yù)測(cè)結(jié)果,即目標(biāo)的類別預(yù)測(cè)結(jié)果。本文中提出的方法在少樣本領(lǐng)域是通用的,具有廣泛的應(yīng)用前景。
目標(biāo)檢測(cè)是計(jì)算機(jī)視覺中的經(jīng)典問題?;谏疃染矸e神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測(cè)可分為兩階段和一階段目標(biāo)檢測(cè)方法。
RCNN[7]系列目標(biāo)檢測(cè)方法是典型的兩階段目標(biāo)檢測(cè)算法。RCNN使用預(yù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)對(duì)通過選擇性搜索生成的區(qū)域提案進(jìn)行分類。Fast-RCNN[8]則通過感興趣區(qū)域(ROI)池化層改進(jìn)了RCNN,其直接從卷積特征圖中提取區(qū)域特征。Faster-RCNN[9]通過引入?yún)^(qū)域提案網(wǎng)絡(luò)(RPN)實(shí)現(xiàn)了端到端的目標(biāo)檢測(cè)。
SSD[10]是典型的一階段的多目標(biāo)檢測(cè)器,其在不同尺度大小的特征圖上使用固定的默認(rèn)邊界框直接預(yù)測(cè)類別分?jǐn)?shù)以及邊界框偏移量。默認(rèn)的邊界框有不同的大小比例和橫縱比。在不同大小的特征圖上,默認(rèn)邊界框的大小通過在最高層和最低層之間按一定規(guī)律計(jì)算得到,而每個(gè)特定層的特征圖則學(xué)習(xí)如何響應(yīng)目標(biāo)對(duì)象的特定尺度[11]。
少樣本學(xué)習(xí)是指每個(gè)類別僅從幾個(gè)訓(xùn)練樣本中學(xué)習(xí)。近年來,基于大量數(shù)據(jù)的有監(jiān)督深度學(xué)習(xí)方法在各個(gè)應(yīng)用領(lǐng)域取得極大成功。然而,大量數(shù)據(jù)的采集和標(biāo)注在現(xiàn)實(shí)世界往往是需要極大代價(jià)的,特別是對(duì)于某些數(shù)據(jù)稀缺的應(yīng)用場(chǎng)景,如瀕危物種的檢測(cè)與識(shí)別等。因此,少樣本學(xué)習(xí)的研究近年來獲得了極大的關(guān)注。
最近一種流行的少樣本學(xué)習(xí)解決方案是元學(xué)習(xí)方法,它可以進(jìn)一步分為3類。第一類基于度量學(xué)習(xí)的方法。如基于孿生網(wǎng)絡(luò)[12]的方法首次被提出。該網(wǎng)絡(luò)由共享權(quán)重的雙分支網(wǎng)絡(luò)組成,其中每個(gè)網(wǎng)絡(luò)分別接受一個(gè)支撐圖像和一個(gè)查詢圖像作為輸入,查詢及其支撐之間的距離通過邏輯回歸學(xué)習(xí)。這種匹配策略可以捕獲支撐與查詢數(shù)據(jù)之間的相似性特征[13]。第二類為優(yōu)化的快速適應(yīng)方法。Ravi等[14]提出了一種基于長短時(shí)記憶網(wǎng)絡(luò)LSTM的元學(xué)習(xí)器。該方法能夠在新的少樣本分類任務(wù)中快速收斂。模型不可知元學(xué)習(xí)(model agnostic meta learning)[15]優(yōu)化了一個(gè)任務(wù)不可知網(wǎng)絡(luò),因此其在新的少樣本分類任務(wù)中的參數(shù)更新可以獲得良好的性能。第三類為參數(shù)預(yù)測(cè)的方法。Learnet基于每個(gè)類的單個(gè)實(shí)例,動(dòng)態(tài)學(xué)習(xí)分解后的權(quán)重參數(shù),從而實(shí)現(xiàn)單樣本學(xué)習(xí)。
目前的少樣本學(xué)習(xí)工作主要集中在分類問題上,關(guān)于少樣本的檢測(cè)問題的研究則相對(duì)較少。Chen等[1]提出將一個(gè)預(yù)先訓(xùn)練過的檢測(cè)器遷移到少樣本任務(wù)中,而Karlinsky等[3]則探索了利用距離度量學(xué)習(xí)對(duì)每個(gè)目標(biāo)類的多模態(tài)分布進(jìn)行建模。最近,Wang等[16]提出了專門的元策略來學(xué)習(xí)區(qū)分檢測(cè)模型中與類無關(guān)和類特定的部分。其他基于元學(xué)習(xí)的方法為每個(gè)類學(xué)習(xí)一個(gè)類注意力向量,并使用這些向量重新加權(quán)全圖像特征[2]或ROI特征[4]。大多有限樣本下的目標(biāo)檢測(cè)方法也是通過針對(duì)弱監(jiān)督和零樣本學(xué)習(xí)的方法來解決的。
圖神經(jīng)網(wǎng)絡(luò)主要使用圖結(jié)構(gòu)和神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)方法來學(xué)習(xí)圖中結(jié)點(diǎn)及結(jié)點(diǎn)之間的關(guān)系表征。Gorli等[17]和Scarselli等[18]首先提出以圖神經(jīng)網(wǎng)絡(luò)作為循環(huán)神經(jīng)網(wǎng)絡(luò)的一種形式學(xué)習(xí)圖結(jié)構(gòu)數(shù)據(jù)表證。Defferrard等[19]將基于廣義卷積的傳播規(guī)則直接應(yīng)用于圖神經(jīng)網(wǎng)絡(luò)。王健宗等[20]將圖卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于非規(guī)則結(jié)構(gòu)數(shù)據(jù)的半監(jiān)督學(xué)習(xí)問題上。目前基于圖神經(jīng)網(wǎng)絡(luò)的方法主要探索了基于結(jié)點(diǎn)標(biāo)記框架的少樣本分類任務(wù),還沒有涉及有限樣本下的目標(biāo)檢測(cè)任務(wù)的方法。結(jié)合圖卷積神經(jīng)網(wǎng)絡(luò)在少樣本分類任務(wù)上應(yīng)用,本文提出一種基于圖卷積網(wǎng)絡(luò)的目標(biāo)檢測(cè)方法來解決有限樣本下的目標(biāo)檢測(cè)問題。
少樣本目標(biāo)檢測(cè)是在有大量的注釋數(shù)據(jù)可用的基類和少量樣本標(biāo)注的新類同時(shí)存在的情況下,利用基類中的知識(shí)來學(xué)習(xí)和檢測(cè)新類中目標(biāo)對(duì)象的一種計(jì)算機(jī)視覺任務(wù)。
針對(duì)有限樣本下的目標(biāo)檢測(cè)問題,提出一種結(jié)合區(qū)域提案網(wǎng)絡(luò)和圖卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測(cè)方法。其中,區(qū)域提案網(wǎng)絡(luò)采用基于SSD[10]的邊框回歸來得到目標(biāo)的候選框,而圖卷積神經(jīng)網(wǎng)絡(luò)通過目標(biāo)對(duì)象圖的訓(xùn)練來學(xué)習(xí)目標(biāo)本身的表觀特征、目標(biāo)間的相對(duì)位置關(guān)系及目標(biāo)間特征的相似性關(guān)系,并對(duì)新類查詢目標(biāo)類別進(jìn)行預(yù)測(cè)??傮w框架如圖2所示,首先查詢圖像會(huì)經(jīng)過區(qū)域提案網(wǎng)絡(luò),獲得潛在目標(biāo)對(duì)象的邊界框,接著將支撐集目標(biāo)對(duì)象及查詢圖像上的候選區(qū)域構(gòu)成一幅目標(biāo)對(duì)象圖,通過基于圖卷積的候選區(qū)域分類網(wǎng)絡(luò)進(jìn)行圖更新,得到最終的結(jié)果。
圖2 總體框架圖
在本文構(gòu)造的基于區(qū)域候選框的目標(biāo)對(duì)象完全圖G中,使用vi和eij表示結(jié)點(diǎn)集合中第i個(gè)結(jié)點(diǎn)的特征及邊集合中第i個(gè)結(jié)點(diǎn)與第j個(gè)結(jié)點(diǎn)之間的邊特征。每一個(gè)邊標(biāo)簽的真實(shí)值yij由結(jié)點(diǎn)標(biāo)簽的真實(shí)值按式(1)所示定義:
(1)
其中,每一條邊都是一個(gè)二維的特征向量eij∈[0,1]2。結(jié)點(diǎn)特征由卷積神經(jīng)網(wǎng)絡(luò)提取的特征進(jìn)行初始化,每一個(gè)邊特征由邊標(biāo)簽按以下式(2)所示進(jìn)行初始化:
(2)
參考SSD[10]網(wǎng)絡(luò)結(jié)構(gòu),設(shè)計(jì)了一個(gè)基于多層卷積神經(jīng)網(wǎng)絡(luò)的區(qū)域提案網(wǎng)絡(luò)用于候選框的提取和邊界框回歸,如圖3所示。骨干網(wǎng)絡(luò)采用VGG16來提取目標(biāo)特征。具體來說,對(duì)于每個(gè)卷積層,在卷積特征圖的每個(gè)空間位置都設(shè)置多個(gè)候選框,即包含不同的尺度和比例。對(duì)于和真實(shí)目標(biāo)匹配的任何候選框,將使用回歸損失(平滑L1損失)來懲罰預(yù)測(cè)和真實(shí)邊界框之間的偏移(框中心,寬度和高度)誤差。這種融合不同卷積層、不同特征圖上回歸結(jié)果的設(shè)計(jì)適合于定位各種大小的目標(biāo)對(duì)象,因此對(duì)于少樣本檢測(cè)尤其重要。此外,該區(qū)域提案網(wǎng)絡(luò)的回歸參數(shù)在所有目標(biāo)類別之間共享,而不是像Faster RCNN[9]中特定于每個(gè)類別。
該區(qū)域提案網(wǎng)絡(luò)可以采用在大規(guī)模數(shù)據(jù)中預(yù)先訓(xùn)練的模型參數(shù)對(duì)不同少樣本目標(biāo)域進(jìn)行參數(shù)初始化,這避免了對(duì)該網(wǎng)絡(luò)進(jìn)行隨機(jī)初始化,從而減少了目標(biāo)域中只有幾張圖像的微調(diào)負(fù)擔(dān)。本文采用在ImageNet數(shù)據(jù)集上預(yù)訓(xùn)練并去除全連接層的VGG16模型對(duì)區(qū)域提案網(wǎng)絡(luò)進(jìn)行初始化。
對(duì)于卷積特征圖上的大量默認(rèn)候選框,同時(shí)執(zhí)行是否包含目標(biāo)的二分類和邊框回歸多任務(wù)訓(xùn)練,以進(jìn)一步檢查候選邊界框中是否包含目標(biāo)對(duì)象。將經(jīng)過區(qū)域提案網(wǎng)絡(luò)得到的候選區(qū)域根據(jù)二分類任務(wù)的分類分?jǐn)?shù)進(jìn)行排序,并選取二分類預(yù)測(cè)概率較高的候選區(qū)域作為區(qū)域提案網(wǎng)絡(luò)的結(jié)果。
對(duì)于區(qū)域提案網(wǎng)絡(luò)得到的候選區(qū)域,通過構(gòu)造圖結(jié)構(gòu)并采用圖卷積網(wǎng)絡(luò)來學(xué)習(xí)目標(biāo)特征之間的相異性關(guān)系。其中,將查詢圖像中的候選區(qū)域經(jīng)過主干網(wǎng)絡(luò)提取的卷積特征(128維向量)作為查詢結(jié)點(diǎn),將每個(gè)類別支撐圖像上的目標(biāo)對(duì)象經(jīng)過同樣的主干網(wǎng)絡(luò)提取的卷積特征表示(128維向量)作為支撐結(jié)點(diǎn)。然后將支撐結(jié)點(diǎn)與查詢結(jié)點(diǎn)構(gòu)成一個(gè)全連接圖。圖中的每個(gè)結(jié)點(diǎn)代表其對(duì)應(yīng)目標(biāo)對(duì)象的128維特征向量。每個(gè)邊代表2個(gè)相連結(jié)點(diǎn)之間的關(guān)系類型,即兩個(gè)連接的結(jié)點(diǎn)之間經(jīng)過規(guī)范化的類內(nèi)和類間關(guān)系的強(qiáng)度,以充分利用類內(nèi)相似性和類間不相似性表達(dá)來對(duì)少樣本目標(biāo)的類別進(jìn)行泛化。
(3)
通過卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,類內(nèi)的相似性結(jié)點(diǎn)得以充分聚合,而類間的結(jié)點(diǎn)差異也得到充分的區(qū)分。
邊特征基于已更新的結(jié)點(diǎn)特征進(jìn)行更新,如式(4)和式(5)所示。首先,重新計(jì)算每一對(duì)結(jié)點(diǎn)之間的相似度或距離,接著通過融合上一次更新的邊特征值和更新后的相似度或距離來更新每個(gè)邊的特征。對(duì)于第l層連接結(jié)點(diǎn)i與j的邊特征e定義如下:
(4)
(5)
(6)
(7)
(8)
在訓(xùn)練階段,使用兩階段的訓(xùn)練策略,即對(duì)區(qū)域提案網(wǎng)絡(luò)和基于圖卷積網(wǎng)絡(luò)的候選區(qū)域分類網(wǎng)絡(luò)分別進(jìn)行訓(xùn)練。該策略首先將2個(gè)模塊在具有大量標(biāo)注數(shù)據(jù)的基類數(shù)據(jù)集上進(jìn)行訓(xùn)練,再在帶有少量標(biāo)注數(shù)據(jù)的新類數(shù)據(jù)集上進(jìn)行微調(diào)訓(xùn)練。通過將多個(gè)N-way K-shot任務(wù)構(gòu)建成一個(gè)訓(xùn)練批次來模擬少樣本學(xué)習(xí)任務(wù),以此降低微調(diào)訓(xùn)練的難度,提高在有限樣本場(chǎng)景下的學(xué)習(xí)能力。
在區(qū)域提案網(wǎng)絡(luò)訓(xùn)練階段,損失函數(shù)主要包括2個(gè)部分,一部分為目標(biāo)邊界框的回歸損失Lreg,另一部分為判斷是否包含目標(biāo)的二分類損失Lcls,如式(9)所示:
Lrp=Lreg+Lcls
(9)
其中:Lreg采用平滑L1損失,而Lcls為交叉熵?fù)p失;兩部分損失采用1∶1加和以得到區(qū)域提案網(wǎng)絡(luò)訓(xùn)練階段的損失函數(shù)。
在基于圖卷積的候選區(qū)域分類網(wǎng)絡(luò)(圖4)的訓(xùn)練中,模塊的參數(shù)通過最小化式(10)中的損失函數(shù)來訓(xùn)練獲得:
圖4 基于圖卷積的候選區(qū)域分類網(wǎng)絡(luò)
(10)
實(shí)驗(yàn)數(shù)據(jù)集采用當(dāng)前通用目標(biāo)檢測(cè)廣泛使用的數(shù)據(jù)集:VOC 2007、VOC 2012,來評(píng)估有限樣本下的目標(biāo)檢測(cè)模型。遵循少樣本目標(biāo)檢測(cè)的通常做法,使用VOC 2007和VOC 2012的訓(xùn)練/驗(yàn)證集進(jìn)行訓(xùn)練,并使用VOC 2007測(cè)試集進(jìn)行測(cè)試。在VOC2007/2012數(shù)據(jù)集的20個(gè)目標(biāo)類別中,隨機(jī)選擇5個(gè)類別作為新類別,而剩下的15個(gè)類別作為基類。在基類訓(xùn)練期間,僅給出基類的邊框及類別標(biāo)簽。在有限樣本的微調(diào)階段,每組訓(xùn)練圖像設(shè)置較少樣本來確保每個(gè)類別的目標(biāo)對(duì)象僅包含K個(gè)帶注釋邊界框的樣本,其中K取1、2、3、5。
在邊界框回歸的部分,首先對(duì)產(chǎn)生的推薦區(qū)域進(jìn)行非極大值抑制(實(shí)驗(yàn)中閾值為0.65),然后選擇存在目標(biāo)對(duì)象概率大于0.5的候選區(qū)域作為分類網(wǎng)絡(luò)的輸入。
新類和基類的優(yōu)化策略都采用Adam,其中初始學(xué)習(xí)率為0.000 2(衰減為0.1),動(dòng)量為0.9,權(quán)重衰減為0.000 1。若無特殊說明,新類上的參數(shù)設(shè)置與基類上一樣。
為了保證送入基于圖卷積的候選區(qū)域分類器的正負(fù)樣本以及各類別樣本數(shù)量的平衡,本文采用對(duì)該模塊進(jìn)行單獨(dú)訓(xùn)練的方式,以最大程度優(yōu)化分類器的性能。此外,結(jié)點(diǎn)相似性度量網(wǎng)絡(luò)結(jié)構(gòu)如表1所示,在訓(xùn)練中同樣使用Adam優(yōu)化器,初始學(xué)習(xí)率設(shè)置為0.000 5,權(quán)重衰減10-6。
表1 節(jié)點(diǎn)相似性度量網(wǎng)絡(luò)設(shè)置
采用YOLOv3和SSD[10]作為Baseline進(jìn)行比較,并采用同樣的訓(xùn)練策略,先在基類上進(jìn)行訓(xùn)練,再用基類上訓(xùn)練獲得的參數(shù)來初始化微調(diào)過程。由于新類上可供訓(xùn)練的數(shù)據(jù)數(shù)量較少,為防止過擬合,在進(jìn)行微調(diào)時(shí)降低迭代次數(shù)。
訓(xùn)練過程中,采取5-way K-shot的方式進(jìn)行訓(xùn)練,其中K=1、2、3、5;在基類上進(jìn)行訓(xùn)練時(shí),在基類的15個(gè)類上隨機(jī)采樣5個(gè)類的樣本組成一個(gè)任務(wù),模擬在新類上的這種有限樣本的情況。
評(píng)估方法:通過采用不同大小的K值,在測(cè)試集上的測(cè)試結(jié)果如表2所示。實(shí)驗(yàn)過程中,在每個(gè)類別的樣本數(shù)量分別為1、2、3、5的情況下進(jìn)行訓(xùn)練和測(cè)試??梢园l(fā)現(xiàn),隨著每個(gè)類別提供的樣本數(shù)量的增加,本文提出的方法的性能相較于baseline方法有一定提升。且整體上,本文提出的在有限樣本下的目標(biāo)檢測(cè)方法在VOC測(cè)試集上的檢測(cè)能力較穩(wěn)定。
表2 VOC2007測(cè)試集上不同shot的mAP結(jié)果
在新類上采用不同K值時(shí)各類別的實(shí)驗(yàn)結(jié)果如表3所示。可以看出,本文提出的模型算法對(duì)較難檢測(cè)的目標(biāo)類別(如類別:pottedplant)檢測(cè)能力相對(duì)較弱,但對(duì)較容易檢測(cè)的類別本文方法具有較好的檢測(cè)準(zhǔn)確率。對(duì)于sheep和sofa這2個(gè)類,在K=5的情況下本文方法取得了14.35和7.51的準(zhǔn)確率;在K=1的情況下也能夠分別達(dá)到10.60和5.31。
表3 本文方法在新類各類別對(duì)應(yīng)不同shot的AP
在K分別為1、2、3、5情況下,Baseline方法和本文方法的實(shí)驗(yàn)結(jié)果如表4—7所示。在這4種情況下,本文所提出方法在測(cè)試集上的mAP均高于Baseline方法。具體來看,在1-shot、2-shot、3-shot的情況下,本文提出的方法能夠在較難的類別上實(shí)現(xiàn)與YOLOv3具有競(jìng)爭(zhēng)力的結(jié)果,而在1-shot的情況表現(xiàn)更好。
從表5可以看出,SSD在第一個(gè)類別(即類別:pottedplant)上的檢測(cè)準(zhǔn)確率要高于本文方法;在第5個(gè)類別上,本文方法能夠?qū)崿F(xiàn)較好的檢測(cè)結(jié)果。對(duì)于第2個(gè)類別及第3個(gè)類別,即類別sheep和sofa,本文方法的結(jié)果遠(yuǎn)高于Baseline。整體上看,本文所提出方法對(duì)新類的檢測(cè)性能要優(yōu)于Baseline方法。
表6 Baseline在3-shot情況下的實(shí)驗(yàn)結(jié)果
表7 Baseline在5-shot情況下的實(shí)驗(yàn)結(jié)果
進(jìn)一步對(duì)提出的方法在VOC測(cè)試集上的檢測(cè)結(jié)果進(jìn)行了可視化,如圖5所示??梢钥闯霰疚姆椒ㄔ谟邢迾颖厩闆r下對(duì)新的類別具有較好的目標(biāo)檢測(cè)能力,即能夠正確的定位目標(biāo)物體在圖中的位置,并給出正確的類別標(biāo)簽。
圖5 VOC測(cè)試集上目標(biāo)檢測(cè)結(jié)果示例
為解決有限樣本情況下的目標(biāo)檢測(cè)問題,提出了一種新的有限樣本下基于圖卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測(cè)方法。利用多層卷積區(qū)域提案網(wǎng)絡(luò)得到目標(biāo)的候選區(qū)域;提取出候選區(qū)域特征,并將其作為圖結(jié)點(diǎn)構(gòu)建完全圖;通過圖卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)有標(biāo)注目標(biāo)和無標(biāo)注新類目標(biāo)的特征及類內(nèi)、類間關(guān)系表征得到最終新類上的目標(biāo)檢測(cè)結(jié)果。在之后的工作中將嘗試實(shí)現(xiàn)端到端有限樣本的目標(biāo)檢測(cè),從而進(jìn)一步提升算法在有限樣本下的檢測(cè)性能。