周雪茗,黃定江
(華東師范大學 數(shù)據(jù)科學與工程學院,上海 200062)
目標檢測和語義分割都是計算機視覺的基本任務.目標檢測是屬于目標級別的任務,它關注物體級別的低層特征,檢測目標的定位和類別.語義分割是屬于像素級別的任務,它關注包含物體類別信息的高層特征,實現(xiàn)對目標的像素級分類.實例分割可以看作是目標檢測和語義分割的結合,它同樣屬于像素級別的任務,不僅需要對圖像中的所有目標進行定位,還需要給出像素級別的分類.實例分割廣泛應用于自動駕駛、機器人抓取控制、醫(yī)療影像分割、工業(yè)質(zhì)檢和遙感圖像分析等領域.實例分割的難點包括: 處理不規(guī)則形狀分割、小物體分割、多物體遮擋重疊、高成本標注等問題.對于標注成本過高或者樣本采集難度過高的目標,很難使用經(jīng)典方法實現(xiàn)有效的實例分割,因此,有研究[1]提出了基于小樣本學習的小樣本實例分割,并逐漸引起了廣大學者的關注.
小樣本學習(Few-Shot Learning,FSL)[2]可以從非常有限的訓練數(shù)據(jù)(通常每個類只有少量的訓練樣本)中學習預測模型.小樣本學習很快便應用到計算機視覺的圖像分類任務中[3-4],隨后又拓展到語義分割[5-7]和目標檢測任務[8-9]上.由于目標檢測不僅需要對圖像目標進行分類,還需要確定目標的位置,這使得小樣本目標檢測在檢測的實時性、多尺度性和泛化性上充滿挑戰(zhàn).作為目標檢測和語義分割結合的實例分割,在與小樣本學習的融合下,將實例分割的研究推上了一個新的臺階.本文對小樣本實例分割的相關概念進行陳述,從現(xiàn)有小樣本實例分割算法的分類和概述出發(fā),分析比較了算法性能和優(yōu)缺點,介紹了小樣本實例分割實驗常用的基本設置、數(shù)據(jù)集和評價指標.通過對研究現(xiàn)狀的整理歸納和對未來發(fā)展的展望,為后續(xù)研究提供了有價值的參考.
實例分割是兩大計算機視覺基礎任務即目標檢測和語義分割的結合.實例分割的主要目標是對圖像實現(xiàn)像素級別的分類和定位,并分割所有目標,實例分割對圖像分辨率的要求較高,需要更多的細節(jié)信息.通常實例分割的輸出包含每個目標對應的類別、邊界框和掩碼.當前圖像實例分割的研究已經(jīng)頗為成熟,實例分割的算法通常分為兩類: 兩階段算法和一階段算法.兩階段實例分割是按照對檢測任務和分割任務的處理順序劃分的.其中,自下而上的方法是先進行分割再實現(xiàn)檢測,它通過聚類的方法實現(xiàn)實例分割,即將圖像中屬于同一個物體的像素聚類再對其進行分類,它的代表方法有SGN (Sequential Grouping Networks)[10]和SSAP (Single-Shot Instance Segmentation with Affinity Pyramid)[11].自上而下的方法是先進行檢測再實現(xiàn)分割,它先檢測出圖像中所有實例的位置,然后再對實例進行像素級別的分類,其代表方法包括DeepMask[12]和Mask R-CNN (Mask Region-Convolutional Neural Network)[13].上述兩類方法中,自上而下的方法嚴重依賴目標檢測效果,自下而上的方法雖然彌補了基于候選框的缺陷,但是聚類的方法對算法性能產(chǎn)生很大影響,造成了一定的局限性.一階段實例分割受到一階段目標檢測方法的啟發(fā),現(xiàn)有方法將實例分割統(tǒng)一到FCN (Fully Convolutional Networks)[14]框架下,如以全卷積一階段目標檢測(Fully Convolutional One-Stage Object Detection,FCOD)[15]為框架衍生出的一系列一階段實例分割算法,該算法難點在于沒有候選框的輔助下如何直接區(qū)分不同物體.
單樣本學習[16]是指從一個訓練樣本中學習目標類別.單樣本目標檢測和實例分割的目標是設計出能夠在提供單一可視實例的情況下對任意類別中的對象進行定位和分割的模型.單樣本檢測和分割定義為: 給定一個展示了新對象類別的特定樣本的參考圖像,在另一張查詢圖像中查找并分割屬于該類別的所有目標實例,該查詢圖像展示了一個包含許多目標的整個視覺場景.此任務與通常的目標檢測設置上的主要區(qū)別是從基于類別變?yōu)榛谑纠?基于示例的任務不需要對來自多個固定類別的目標進行定位,而是需要檢測來自單個類別的目標,該類別由參考圖像定義.參考圖像展示了要檢測的類別的單個目標實例,它被裁剪到邊界框中,該實例沒有提供掩碼標注.
在小樣本學習中,將整體數(shù)據(jù)集C分成互不相交的兩個集合: 第一類稱為基礎類Cbase,它包含大量訓練數(shù)據(jù);第二類稱為新類Cnovel,它只包含少量訓練數(shù)據(jù),且與基礎類交集為空集.小樣本的學習目標是訓練一個模型,能夠在新類Ctest=Cnovel或者整個數(shù)據(jù)集Ctest=Cbase∪Cnovel上表現(xiàn)良好.情景訓練是小樣本圖像分類任務中一種常用的訓練方法[10],情景訓練設置了一系列情景Ei=(Iq,Si),其中每個情景中的訓練集稱為支持集,測試集稱為查詢集.Si是包含Ctrain=Cnovel∪Cbase中N個類且每類均有K個樣本的支持集(N-wayK-shot),在小樣本學習中K通常為很小的數(shù).小樣本圖像分類(Few-Shot Image Classification,FSIC)的任務是將圖像Iq(查詢圖)從Si的類別中分類出來.通過每次訓練不同的分類任務來提升在新類上的分類結果.該方法也擴展到了小樣本語義分割(Few-Shot Object Detection,FSOD)和小樣本實例分割(Few-Shot Instance Segmentation,FSIS)上,區(qū)別在于FSOD 和FSIS 將整張圖像中的所有目標視為查詢集,即每張圖片對應一個支持集,而不是圖像分類中每張查詢圖對應一個支持集.FSIS 的挑戰(zhàn)不僅在于對查詢目標進行分類,而且在于對目標進行定位和分割.給定一個查詢圖像Iq,FSIS 會生成Iq中屬于Ctest的所有目標的類別標簽yi、邊界框bi和分割掩碼Mi.
在訓練階段中,給定許多對展示相同目標類別的支持圖和查詢圖,目標類別下的每個實例都有像素級別的標注.在測試階段,給定K張支持圖和對應的K個實例分割掩碼,實例所屬類別是訓練中沒有出現(xiàn)過的新類,目標是對具有相同目標類別實例的查詢圖進行正確的實例分割,并預測出相應的掩碼.這樣的問題稱為1-wayK-shot 實例分割問題,將1-wayK-shot 問題拓展至N-wayK-shot 問題的方法通常是在同一張查詢圖上運行N個支持類,對每個類別獨立檢測.
小樣本學習是一種在訓練過程中使用少量未知類樣本的適應性方法,小樣本學習相關的算法通??梢苑譃榛诙攘康姆椒ê突谀P蛢?yōu)化的方法,小樣本學習與度量學習和模型微調(diào)的結合使它在計算機視覺任務中發(fā)揮了顯著作用.隨著小樣本學習在簡單圖像分類、語義分割、目標檢測等任務中的應用,將小樣本學習拓展到實例分割任務中是意義重大的.小樣本實例分割通常出現(xiàn)在對所有目標實例人工分割標注的代價過于昂貴的應用場景下,關鍵難點是如何在小數(shù)據(jù)量上實現(xiàn)有效訓練.近年來僅有少量面向小樣本實例分割的研究.自從2018 年單樣本實例分割算法Siamese Mask R-CNN[17]首次被提出,小樣本實例分割相關的研究層出不窮.2019 年Yan 等[1]提出了實例級別的少樣本分割算法Meta R-CNN,在上述兩項開拓性工作的基礎上,Fan 等[18]于2020 年提出了小樣本實例分割方法,它設計了全引導網(wǎng)絡FGN (Fully Guided Network)在Mask R-CNN 的基礎上實現(xiàn)了小樣本實例分割.2021 年,Ganea 等[19]首次提出了增量式小樣本實例分割方法iMTFA (increamental Mask Two-Stage Fine-Tuning Approach),Nguyen 等[20]設計了基于目標區(qū)域的無錨框小樣本實例分割FAPIS(Few-Shot Anchor-Free Part-Based Instance Segmentation).在當前最新研究中,初次用弱監(jiān)督代替全監(jiān)督實現(xiàn)小樣本實例分割[21].本文將現(xiàn)有小樣本實例分割方法分為兩類: 基于錨框(Anchor-based)的小樣本實例分割和無錨框(Anchor-free)的小樣本實例分割.現(xiàn)有小樣本實例分割方法的關系架構見圖1.
圖1 現(xiàn)有小樣本實例分割方法架構Fig.1 Framework of existing few-shot instance segmentation approaches
2.1.1 添加引導機制
文獻[17]是小樣本學習在實例分割領域的初次嘗試,首次提出了單樣本實例分割的概念,并將度量學習的思想與Mask R-CNN 融合,提出了單樣本實例分割網(wǎng)絡Siamese Mask R-CNN.度量學習是指定義一種度量形式,將圖像通過神經(jīng)網(wǎng)絡映射到低維特征嵌入空間,在此嵌入空間中,同類目標間的距離很近,異類目標間的距離很遠,通過判斷目標間的度量大小進行分類學習.Mask R-CNN[13]是實例分割中極具代表性的兩階段網(wǎng)絡,第一階段首先通過特征提取網(wǎng)絡FPN (Feature Pyramid Network)提取多層次特征,然后由區(qū)域候選框網(wǎng)絡(Region Proposal Network,RPN)生成類無關的目標候選框,經(jīng)過RoI (Region of Interest)對齊后,進入第二階段分別計算得到目標類別得分、邊界框回歸定位和目標掩碼.
Siamese Mask R-CNN 通過對參考圖像和場景進行Siamese 骨干編碼擴展了Mask R-CNN,允許其對參考類別進行目標檢測和分割.Siamese Mask-RCNN 使用一種經(jīng)典的度量學習方法,即Siamese 網(wǎng)絡[3],來計算相似性距離.為了將參考信息整合到Mask R-CNN 中,使用相同的骨干(Mask R-CNN 的特征提取器),并共享權值,從參考和場景中提取特征,最后通過L1 范數(shù)度量查詢圖中不同區(qū)域與參考的相似度來實現(xiàn)特征匹配,從而得到后續(xù)的分類、目標候選框和實例掩碼.Siamese Mask R-CNN 能夠有效地實現(xiàn)獨立目標的精確分割,但是在檢測參考類別上還有待提升.Siamese Mask R-CNN 與Mask R-CNN 架構的對比如圖2 所示,Siamese Mask R-CNN 與Mask R-CNN 的主要區(qū)別包含兩部分 (見圖2 紅色標記處) : ①Siamese Mask R-CNN 使用孿生骨干網(wǎng)絡對參考圖像和輸入圖像進行聯(lián)合編碼;②根據(jù)參考圖像的類別將參考圖特征與輸入圖特征互相匹配,進行后續(xù)的區(qū)域候選框生成和分類.
圖2 Mask R-CNN 和Siamese Mask R-CNN 的對比Fig.2 Comparison of Mask R-CNN and Siamese Mask R-CNN
Meta R-CNN 同樣對Mask R-CNN 進行了拓展,它通過在RoI (感興趣區(qū)域)特征上應用元學習實現(xiàn)了少樣本實例分割.Meta R-CNN 的主要貢獻在于預測重構網(wǎng)絡(PRN),PRN 是全卷積的且與Mask R-CNN 共享主干網(wǎng)絡,它接受包含少樣本目標邊界框或掩碼的圖像來推斷它們的類注意力向量.該向量對RoI 特征進行通道級別軟注意,對R-CNN 的預測部分進行重構,以檢測或分割包含這些向量所代表的類的目標.從RPN 中產(chǎn)生的候選框與PRN 中的類注意向量結合,起到引導網(wǎng)絡檢測或分割新類對象的作用.Meta R-CNN 補齊了之前元學習算法無法處理多目標語義信息的短板,在不同骨干網(wǎng)絡(Faster/Mask R-CNN)下有較好的泛化性,且采用輕量級網(wǎng)絡PRN 使得網(wǎng)絡架構比較簡潔,通過對類注意力向量的預處理提升了推理的效率,并能夠有效地實現(xiàn)少樣本實例分割.
Meta-RCNN 和Siamese Mask R-CNN 使用相同的基于錨框的網(wǎng)絡架構.但不同的是,Meta-RCNN 在RPN 之后執(zhí)行特征關聯(lián),而Siamese Mask R-CNN 在RPN 之前執(zhí)行這一操作.
Fan 等[18]為FSIS 提出了一種全引導網(wǎng)絡FGN.與Siamese Mask R-CNN、Meta R-CNN 相同,FGN 同樣將小樣本學習范式與Mask R-CNN 相結合.但是Siamese Mask R-CNN 將第一階段的網(wǎng)絡連接以引導對支持集的編碼.因此,不同任務下的所有后續(xù)部分必須共享相同的引導機制.Meta R-CNN 通過從支持集中提取的類注意向量對權重圖進行加權,從而在第二階段的起始部分將引導注入Mask R-CNN 中,強制所有第二階段模塊共享相同的引導機制并完全忽略了第一階段的RPN.FGN 的創(chuàng)新點在于對Mask R-CNN 中不同模塊的任務采用不同的引導機制,從而實現(xiàn)全引導.FGN 的整體架構如圖3 所示,FGN 在Mask R-CNN 中添加了3 種引導機制,分別是: 注意力引導RPN (Attention Guided RPN,AG-RPN)、關系引導檢測器(Relation Guided Detector,RG-DET)、注意力引導FCN (Attention Guided FCN,AG-FCN).AG-RPN 通過對特征圖進行全局平均池化(Global Average Pooling,GAP)和均值計算得到類感知注意力向量,用此對支持集編碼,然后利用它引導RPN 專注于新類別并生成類感知候選框.RG-DET 利用多層感知機(Multilayer Perceptron,MLP),通過顯式對比方案來引導Mask R-CNN 中的檢測分支,以適應FSIS 中的類間泛化.AGFCN 結構與AG-RPN 類似,同樣從支持集中獲取注意力信息來引導掩碼分割部分.FGN 提出的全引導網(wǎng)絡通過對支持集編碼并利用它引導基礎網(wǎng)絡實現(xiàn)實例分割,在小樣本實例分割的表現(xiàn)上取得了重大突破,為后續(xù)研究奠定基礎.
圖3 全引導網(wǎng)絡FGN[18]的概述Fig.3 Overview of fully guided network (FGN)
2.1.2 模型微調(diào)優(yōu)化
由于Siamese Mask R-CNN 和FGN 在測試時需要處理每個類的樣本,在測試類別數(shù)較多時內(nèi)存占用過大,而Meta R-CNN 雖然通過預先計算每個類別的注意力向量來避免內(nèi)存占用,但是在類別數(shù)改變時需要重新訓練,這些都造成了時間和空間冗余.為此,Ganea 等[19]設計了首個增量式小樣本實例分割方法,利用增量學習的思想,添加新類別時無須進一步訓練或者訪問現(xiàn)有訓練數(shù)據(jù).首先提出了FSIS 基礎方法MTFA (Mask Two-stage Fine-tuning Approach),然后在此基礎上引出了增量式方法: iMTFA.MTFA 是對兩階段微調(diào)目標檢測方法TFA (Two-stage Fine-tuning Approach)[22]的拓展,TFA 是在Faster R-CNN[23]的基礎上,對RoI 分類器和邊界框回歸部分進行微調(diào)實現(xiàn)的.與Mask RCNN 將Faster R-CNN 拓展至實例分割領域的方法相同,MTFA 在TFA 的RoI 層添加了掩碼預測分支,并使用余弦相似度作為目標分類器,采取兩階段微調(diào)方法: 先在基礎類上訓練網(wǎng)絡,然后在每個類均有K個樣本的均衡數(shù)據(jù)集上對所有預測模塊(分類、邊界框回歸和掩碼)進行微調(diào).
MTFA 的主要缺陷在于添加新類的過程.第二個微調(diào)階段固定了可以識別的新類數(shù)量,因此添加新類需要再次運行這個階段,特定類別的掩碼和候選框回歸部分也需要以通過微調(diào)學習到的權重來適應新的類.iMTFA 和MTFA 在架構上大致相同,如圖4 所示,主要區(qū)別在于訓練部分,iMTFA 對RoI 層特征提取器進行了微調(diào),且對掩碼預測部分進行了凍結.iMTFA 將特征提取部分合并成實例特征提取器(Instance Feature Extractor,IFE),使模型類不可知性并能夠在特征提取器層面學習判別嵌入.這些嵌入用于分類部分的新類別表達,無須重復訓練.iMTFA 還對掩碼預測器進行了優(yōu)化,不需要特定類別的權重用于邊界框回歸和掩碼預測,而是在這些部分使用類無關變量,通過簡單的嵌入取平均并放入分類器權值矩陣中來添加新類,這也表示無須提供實例掩碼便可在新類上訓練.iMTFA 重新利用Mask R-CNN 的特征提取器來生成有區(qū)別的實例嵌入.這些嵌入的均值被用作余弦相似分類器中的類表達,由于目標定位和分割部分是類無關的,因此這些嵌入能夠有效地實現(xiàn)新類別添加.但是iMTFA 在生成新特征嵌入時,對現(xiàn)有基礎類的特征適應性較差,且對于新類別位置和分割精度低于MTFA,將引導機制與iMTFA 結合可以有效地彌補上述缺陷.
圖4 MTFA 和iMTFA 的架構對比Fig.4 Comparison of MTFA and iMTFA
2.2.1 關注局部輪廓
傳統(tǒng)的基于錨框的小樣本實例分割方法雖然能夠以較好的性能實現(xiàn)實例分割,但是由于對候選框的依賴可能會限制模型對測試集中新類別的適應性,并且傳統(tǒng)方法學習的特征主要捕捉目標整體輪廓,對于新類別目標的泛化性也比較低.針對上述問題,Nguyen 等[20]提出了首個無錨框基于局部的小樣本實例分割方法FAPIS,與通常方法中對目標整體的關注不同,該方法的關鍵創(chuàng)新點在于對訓練目標類間共享的潛在局部區(qū)域進行顯式建模,促進在測試中對新類別的小樣本學習.FAPIS 首先檢測支持圖定義的目標對象類的邊界框和分割掩碼,對潛在局部區(qū)域勾勒輪廓和加權,然后通過訓練中所有目標類共享的潛在目標集合的定位對每個邊界框進行分割,最后在每個檢測到的邊界框中實現(xiàn)實例分割.
FAPIS 的主要貢獻包括無錨框的目標檢測器(Anchor-Free object Detector,AFD)和基于局部區(qū)域的實例分割器(Part-based Instance Segmenter,PIS).AFD 主要針對查詢特征圖每個位置上的3 個任務: 前景邊界框的密集評分、前景邊界框的定位回歸以及密集估計潛在局部區(qū)域在分割中的相對重要性.分類得分通過包含一個全連接層塊和單一卷積層的SimNet 計算得到,而相對重要性通過潛在區(qū)域在實例中的尺寸和形狀衡量.AFD 的輸出將通過NMS (Non-Maximum Suppression)選出得分最高的一組邊界框.PIS 旨在對潛在區(qū)域進行定位和整合,包括兩部分: PartNet 和局部裝配模塊PAM(Part Assembling Module).PartNet 預測潛在區(qū)域的激活圖,也稱為局部圖.對于每個NMS 選出的邊界框,這些局部圖通過PAM 整合,用于預測局部對該框的相對重要性.最后,所有實例分割形成了輸出的查詢分割掩碼.
2.2.2 弱監(jiān)督學習
最新研究提出了首個弱監(jiān)督小樣本實例分割任務[21],并采用了十分簡單但實用的基本模型FoxInst.FoxInst 與先前研究的最大區(qū)別在于在所有訓練階段均采取弱標注(如類標注和框標注),這進一步提高了數(shù)據(jù)效率和實用性.FoxInst 的架構圖見圖5,FoxInst 與FAPIS 相同,采用無錨框架構以避免候選框帶來的過擬合或偏向特定目標尺寸等限制.FoxInst 采取在基礎網(wǎng)絡上訓練后在新類別上對網(wǎng)絡微調(diào)的訓練方式,采用BoxInst[24]的架構.BoxInst 由基于ResNet 的特征金字塔FPN 骨干、掩碼生成分支、動態(tài)掩碼模塊和預測模塊構成.FoxInst 遵循FCOS[15]中預測分支的設計,它由分類、回歸和中心點3 個模塊組成,所有模塊都用卷積層代替全連接層實現(xiàn)逐像素無錨框預測.在訓練階段將骨干和掩碼分支凍結,并對預測部分微調(diào).FoxInst 在各種數(shù)據(jù)設置上優(yōu)于全監(jiān)督的FSIS 方法.此外,FoxInst 在跨數(shù)據(jù)集設置COCO2VOC 方面的性能甚至超過了當前最先進的全監(jiān)督FSIS 方法.
圖5 FoxInst[20]的架構Fig.5 Architecture of FoxInst
3.1.1 數(shù)據(jù)集
小樣本實例分割主要使用兩個數(shù)據(jù)集: Microsoft COCO (Common Objects in Context) 2017[25]和PASCOL VOC (Visual Object Classes) 2012[26](下述將分別簡稱為COCO 和VOC).COCO 數(shù)據(jù)集是微軟構建的一個數(shù)據(jù)集,它在目標檢測領域被廣泛使用,主要包含圖像檢測、分割、關鍵點匹配等任務.COCO 共包含80 個目標類別,涵蓋了自然界圖片以及日常生活中常見的圖片,其中訓練集包含118 287 張圖片,驗證集包含4 952 張圖片.VOC 數(shù)據(jù)集共含有20 個類別,分為四大類: 交通工具、家居用品、動物和人類.VOC 包含的類別是COCO 的子集,VOC 主要關注圖像分類和檢測任務.VOC 用于分類和檢測的數(shù)據(jù)以及用于分割的測試數(shù)據(jù)包含2008—2011 年的所有數(shù)據(jù),其中訓練集有1 464 張圖片,驗證集有1 449 張圖片.
ImageNet[27]數(shù)據(jù)集也是在計算機視覺中常用的數(shù)據(jù)集之一,該數(shù)據(jù)集包合 14 197 122 張圖片和21 841 個索引.ImageNet 數(shù)據(jù)集中的圖片涵蓋了大部分生活中會看到的圖片類別.ImageNet 數(shù)據(jù)集通常作為評估圖像分類算法性能的基準.雖然COCO 的類別總數(shù)小于ImageNet,但是COCO 中的圖片背景復雜,且同一類別下的實例目標數(shù)量較多,目標尺寸較小.因此,對于檢測分割任務來說,衡量一個模型好壞的標注通常取決于模型在COCO 數(shù)據(jù)集上的表現(xiàn).
3.1.2 評價指標
VOC 的評價指標是mAP (mean Average Precision).mAP 是多標簽圖像分類任務中的評價標準,AP 的定義表示IOU (Intersection Over Union)即兩個實例掩碼的交并比,mAP 則為所有類別AP 的平均值.VOC 在計算mAP 時取IOU=0.5.COCO 的測試標準比VOC 更加嚴格,COCO 的AP 涵蓋了80 個類別下10 個不同IOU 的平均值.IOU 的取值范圍為0.5~ 0.95,每隔0.05 測試一次AP,并對10 次結果取平均得到最終的AP 值.COCO 的評價指標主要有6 個,涵蓋了不同IOU 和不同目標尺寸下的AP 值,如表1 所示.COCO 將目標尺寸分為大中小3 類,其中大目標表示目標區(qū)域area>962,中目標表示322<area≤962,小目標表示area≤322.
表1 COCO 的評價指標Tab.1 Evaluation indices of COCO
3.2.1 實驗設置
小樣本實例分割實驗中通常設定基礎類Cbase和新類Cnovel,以及對應的訓練集Dbase和查詢集Dnovel(測試集Dtest).本文主要采用文獻[18]提出的交叉數(shù)據(jù)集設置,能夠更好地比較各種模型的泛化能力.具體做法是將COCO 和VOC 共有的20 個類別作為新類Cnovel,剩余60 個類別作為基礎類Cbase.進一步,從COCO 的訓練集中取出類別屬于基礎類Cbase的子集作為基礎訓練集Dbase,并取VOC 的驗證集(屬于20 個新類集合)作為測試集Dnovel.通過上述方法設定的實驗設置稱為COCO2VOC.用同樣的方法還可以構建VOC2VOC 等類似實驗設置.
3.2.2 性能分析
本文在COCO2VOC 設置下針對1-way 1-shot 的情形對現(xiàn)有小樣本實例分割算法的性能進行了比較,選擇mAP 和mAP50作為共同評價指標,見表2.表格中列舉出了每個算法的發(fā)表年份、類別、使用的骨干網(wǎng)絡以及分別在檢測階段和分割階段的mAP 和mAP50.從整體上看,每一個新算法與先前研究相比,檢測和分割的性能都有所提升,最新的無錨框弱監(jiān)督FSIS 方法在檢測和分割上性能都是最優(yōu)的,甚至超過了全監(jiān)督學習中的最優(yōu)算法.從類別上看,可以看出基于錨框的算法在分割上表現(xiàn)平平,無錨框的算法能夠展現(xiàn)出更好的分割能力,這是由于基于錨框的算法受到候選框的限制,在對新類別輪廓學習上產(chǎn)生了局限性.從視覺任務上分析,在檢測部分有著顯著優(yōu)勢的是全引導網(wǎng)絡FGN 和弱監(jiān)督網(wǎng)絡FoxInst,FGN 作為基于錨框的全監(jiān)督學習算法,在檢測任務上的優(yōu)勢主要來自它對Mask R-CNN 中檢測分支施加的引導機制,以及采用更深的骨干網(wǎng)絡ResNet-101 進行特征提取,這使得FGN 的類間泛化性較好.在分割任務上各算法的性能都在逐步提升,但是FoxInst 的進步最為明顯,它與往年最優(yōu)的分割相比,將mAP50提升了近40%.FoxInst 在檢測和分割上的雙重優(yōu)秀表現(xiàn)源于它不受錨框限制,能夠更好地實現(xiàn)新類學習,同時在訓練階段采取弱標注和模型微調(diào)優(yōu)化方法,降低了標注成本和網(wǎng)絡復雜度.
表2 現(xiàn)有小樣本實例分割算法性能對比Tab.2 Performance comparison of existing few-shot instance segmentation algorithms
本文對現(xiàn)有小樣本實例分割算法的優(yōu)缺點進行了對比分析,見表3.本文將現(xiàn)有算法分為基于錨框和無錨框兩類.基于錨框的算法通常選擇以經(jīng)典兩階段實例分割算法Mask R-CNN 為基礎,對其添加引導機制(Siamese Mask R-CNN,Meta R-CNN,FGN)或者通過模型微調(diào)(MTFA,iMTFA)來實現(xiàn)小樣本實例分割任務,加入類注意力向量等引導機制能夠提升網(wǎng)絡對新類別的關注度,從而提高模型類間泛化能力,較好地實現(xiàn)新類目標分割,但是引導機制造成的內(nèi)存占用較大,導致了拓展類別數(shù)的局限性.與此相反,模型微調(diào)具有訓練成本低、內(nèi)存消耗少的優(yōu)勢.基于錨框的算法現(xiàn)有技術較成熟,且檢測性能較好,但是受到候選框的限制,易對訓練樣本產(chǎn)生過擬合,或者受訓練樣本整體輪廓信息影響,使模型對類未知目標的分割和定位表現(xiàn)欠佳.由此,最新研究傾向于提出無錨框小樣本實例分割的方法.
表3 現(xiàn)有小樣本實例分割算法分析Tab.3 Analysis of existing few-shot instance segmentation algorithms
無錨框的小樣本實例分割方法根據(jù)中心點和關鍵點生成邊界框,沒有候選框的影響,具有更好的模型泛化性,適用于多尺度目標和小目標的實例分割場景,分割的性能得到了極大的提升.但是無錨框小樣本實例分割方法通用性較差,且在目標檢測的性能上略遜于基于錨框的方法.FAPIS 作為首個無錨框的小樣本實例分割方法,它重點關注多目標共享的潛在局部信息,提升了對新類別的學習性能,但是該方法分割出的邊緣信息不夠清晰.FoxInst 首次提出了弱監(jiān)督無錨框小樣本實例分割方法,該方法不僅通過弱標注降低了小樣本分割中的高標注成本,且采取對輕量級基礎網(wǎng)絡的微調(diào)訓練,算法的表現(xiàn)性能甚至超過了現(xiàn)有最佳全監(jiān)督小樣本實例分割算法,但是該方法在弱監(jiān)督下的圖像分類精度依然有很大的提升空間.
本文對小樣本實例分割的相關概念和現(xiàn)有研究進行了系統(tǒng)性的梳理分析,將現(xiàn)有小樣本實例分割算法分為基于錨框的方法和無錨框方法兩類.針對不同類型的算法,本文對算法的整體框架和主要方法進行了概述.通過在COCO2VOC 數(shù)據(jù)集設置下,利用評價指標AP50 對算法在檢測和分割兩部分任務上的性能做了對比分析,并總結了各算法的優(yōu)勢和缺陷.基于錨框的算法將度量學習與小樣本學習結合,通過引導機制或者模型微調(diào)方法在Mask R-CNN 的框架上進行拓展,其在檢測上具有較高的精度,但是由于受到候選框的限制,容易產(chǎn)生過擬合,在新類別分割上有一定的局限性.現(xiàn)有無錨框的算法關注局部輪廓信息,采用弱監(jiān)督的方式,在分割上取得了顯著的進展.目前,小樣本實例分割面臨的最大瓶頸是目標分類,特別是在涉及復雜特征和背景抑制的場景下,對現(xiàn)有算法來說是十分困難的.小樣本實例分割的研究還有很大的發(fā)展空間,本文認為小樣本實例分割未來的發(fā)展重點是解決分類問題.同時,FGN 提出的引導機制、FAPIS 提出的關注局部信息、FoxInst 基于弱監(jiān)督弱標注的學習方法都為小樣本實例分割打開了不同創(chuàng)新思路,如何將這些方法融合成性能更優(yōu)的算法也具有很高的研究價值.