畢 鑫,譚錦鋼,張廣慧
1.中國(guó)科學(xué)院 上海微系統(tǒng)與信息技術(shù)研究所 仿生視覺(jué)系統(tǒng)實(shí)驗(yàn)室,上海 200050
2.中國(guó)科學(xué)院大學(xué),北京 100049
視頻目標(biāo)跟蹤是計(jì)算機(jī)視覺(jué)領(lǐng)域的一個(gè)重要研究任務(wù),在視頻監(jiān)控、人機(jī)交互、自動(dòng)駕駛等領(lǐng)域有著廣泛應(yīng)用。目前絕大多數(shù)基于深度學(xué)習(xí)的目標(biāo)跟蹤算法[1-14]都是聯(lián)合目標(biāo)檢測(cè)與數(shù)據(jù)關(guān)聯(lián)算法來(lái)跟蹤目標(biāo),利用目標(biāo)檢測(cè)得到的邊界框識(shí)別對(duì)象,并估計(jì)邊界框在后續(xù)幀中的位置,將后續(xù)幀通過(guò)關(guān)聯(lián)算法加入到之前幀的運(yùn)動(dòng)軌跡中,實(shí)現(xiàn)跟蹤的目的,這類(lèi)算法稱(chēng)為檢測(cè)-跟蹤(tracking-by-detection,TBD)算法。然而,當(dāng)同一幀里目標(biāo)過(guò)多發(fā)生遮擋時(shí),目標(biāo)之間的邊界框很容易產(chǎn)生重疊,很可能包含來(lái)自其他目標(biāo)的信息多于來(lái)自其自身的信息,極大地影響了跟蹤的結(jié)果(見(jiàn)圖1)。
圖1 分割掩碼vs.邊界框Fig.1 Segmentations vs. bounding boxes
為了解決這個(gè)問(wèn)題,近兩年有研究[15-18]探索了一項(xiàng)新的任務(wù),該任務(wù)被稱(chēng)為多目標(biāo)跟蹤與分割(multi-object tracking and segmentation,MOTS),目的是分類(lèi)、定位、分割、跟蹤整個(gè)視頻序列中出現(xiàn)的特定類(lèi)別的所有實(shí)例。這些工作提出了一種新的跟蹤范式,即分割-跟蹤(tracking-by-segmentation,TBS)模式。它改變了以往工作基于邊界框的跟蹤模式,將其細(xì)化為基于實(shí)例分割掩碼的跟蹤,從對(duì)象級(jí)到像素級(jí)的過(guò)渡極大地提高了跟蹤精度。此外,實(shí)例分割掩碼精確地描繪了可見(jiàn)對(duì)象的邊界,并自然地分隔了相鄰區(qū)域,相比于基于邊界框的方法,MOTS 通過(guò)像素級(jí)分割,激勵(lì)網(wǎng)絡(luò)學(xué)習(xí)更具區(qū)分性的實(shí)例特征,實(shí)現(xiàn)了更魯棒的相似性度量。
TrackR-CNN[15]首次提出MOTS 任務(wù),并設(shè)計(jì)了一個(gè)新穎的基準(zhǔn)網(wǎng)絡(luò)架構(gòu)和一套完整的評(píng)估體系。TrackR-CNN 將3D 卷積集成到MaskR-CNN[19]中,以利用時(shí)間上下文信息增強(qiáng)主干網(wǎng)絡(luò)特征。因此TrackRCNN需要同時(shí)輸入至少3幀的連續(xù)幀,網(wǎng)絡(luò)難免存在延遲,其速度僅有2 frame/s。同樣,MaskTrackR-CNN[16]在MaskR-CNN基礎(chǔ)上引入了一個(gè)新的跟蹤分支,以共同執(zhí)行檢測(cè),分割和跟蹤任務(wù)。TrackR-CNN和MaskTrackRCNN證明了將MaskR-CNN與跟蹤網(wǎng)絡(luò)及關(guān)聯(lián)算法聯(lián)合具有重要的研究意義。但是,這些方法均假定MaskRCNN可以有效的生成定位良好的邊界框和準(zhǔn)確的分割結(jié)果。然而,在高度多樣化和非結(jié)構(gòu)化的視頻中,一方面,跟蹤目標(biāo)通常會(huì)遭受部分甚至完全的遮擋、變形以及姿勢(shì)變化;另一方面,在許多情況下目標(biāo)的外觀(guān)相似且難以與凌亂的背景分隔開(kāi)來(lái)。因此,目標(biāo)檢測(cè)很可能沒(méi)有正確初始化,從而降低了后續(xù)邊界框內(nèi)預(yù)測(cè)的分割掩碼的精確度以及鏈接掩碼產(chǎn)生的跟蹤結(jié)果的準(zhǔn)確性。PointTrack[17]在無(wú)候選框的實(shí)例分割網(wǎng)絡(luò)SpatialEmbedding[20]的基礎(chǔ)上,提出逐點(diǎn)跟蹤的模式,很好地解決了上述問(wèn)題。然而它只能跟蹤單個(gè)語(yǔ)義類(lèi)別,比如車(chē)或者人,這在諸如自動(dòng)駕駛的實(shí)際應(yīng)用中非常受限。
為了實(shí)現(xiàn)快速的多類(lèi)別多目標(biāo)跟蹤與分割,本文提出了一種能夠以近實(shí)時(shí)的速度同時(shí)跟蹤多個(gè)類(lèi)別的跟蹤與分割方法。本文的貢獻(xiàn)點(diǎn)總結(jié)為:(1)針對(duì)MOTS任務(wù),提出了一種新的在線(xiàn)多類(lèi)別逐點(diǎn)式多目標(biāo)跟蹤與分割算法(category-free point-wise multi-object tracking and segmentation,CPMOTS),該算法能夠在不影響速度的情況下并行處理多個(gè)語(yǔ)義類(lèi)別,比如人和車(chē),在實(shí)際場(chǎng)景中更加實(shí)用;(2)引入了一個(gè)直觀(guān)且有效的注意力模塊來(lái)顯式建模通道間的相互依賴(lài)關(guān)系,進(jìn)行基于通道的特征重標(biāo)定,來(lái)促進(jìn)神經(jīng)網(wǎng)絡(luò)自適應(yīng)地選擇最顯著的特征進(jìn)行跟蹤;(3)在KITTI MOTS 數(shù)據(jù)集上的定性和定量實(shí)驗(yàn)表明,所提出的CPMOTS 優(yōu)于現(xiàn)有的許多相關(guān)算法。
現(xiàn)有的大部分基于TBD 的算法[1-14,21-22]基本都采用以下四個(gè)步驟:(1)目標(biāo)檢測(cè);(2)特征提取和運(yùn)動(dòng)預(yù)測(cè);(3)相似度計(jì)算;(4)數(shù)據(jù)關(guān)聯(lián)。算法性能在很大程度上受限于目標(biāo)檢測(cè)的結(jié)果。很多基于圖的方法使用運(yùn)動(dòng)信息[5]、多重切割[6]、邊緣提升[7]或可訓(xùn)練圖神經(jīng)網(wǎng)絡(luò)[8]等來(lái)提升網(wǎng)絡(luò)性能,這些方法需要昂貴的資源和時(shí)間開(kāi)銷(xiāo),限制了在線(xiàn)跟蹤的實(shí)際應(yīng)用范圍。還有一類(lèi)基于外觀(guān)驅(qū)動(dòng)的方法,這類(lèi)方法最常用的是孿生網(wǎng)絡(luò)架構(gòu)[23],它具有先天的相似度計(jì)算優(yōu)勢(shì)??蓪W(xué)習(xí)的重識(shí)別特征[13]、親和度估計(jì)[14]等算法也經(jīng)常用來(lái)提升跟蹤精度。但基于外觀(guān)驅(qū)動(dòng)的方法在許多物體互相遮擋的擁擠場(chǎng)景中進(jìn)行重識(shí)別較為困難。
最近,少量研究開(kāi)始嘗試用TBS 方法來(lái)做跟蹤,TBS方法利用像素級(jí)的分割結(jié)果能更精確地定位目標(biāo),極大地緩解了擁擠場(chǎng)景和模糊背景區(qū)域引起的常見(jiàn)外觀(guān)問(wèn)題。文獻(xiàn)[18]提出了一種無(wú)模型的多目標(biāo)跟蹤方法,該方法使用與類(lèi)別無(wú)關(guān)的圖像分割方法來(lái)跟蹤目標(biāo)。TrackR-CNN在MaskR-CNN的基礎(chǔ)上添加3D卷積來(lái)關(guān)聯(lián)不同時(shí)間的對(duì)象身份(ID)。MOTSFusion[24]提出了一種融合2D邊界框檢測(cè)、3D邊界框檢測(cè)和實(shí)例分割結(jié)果的MOTS 方法。Ruiz 等人[25]聯(lián)合弱監(jiān)督實(shí)例分割與多目標(biāo)跟蹤,在不需要掩碼標(biāo)注的情況下實(shí)現(xiàn)多目標(biāo)跟蹤與分割?;贛askR-CNN,MOTSNet[26]添加了一個(gè)掩碼池化層,以提升對(duì)象關(guān)聯(lián)算法的準(zhǔn)確度。GMPHD[27]利用分層數(shù)據(jù)關(guān)聯(lián)算法和一個(gè)簡(jiǎn)單的親和度融合模型擴(kuò)展了高斯混合概率假設(shè)密度濾波器。Lin等人[28]提出了一種基于MaskR-CNN的改進(jìn)變分自編碼器(VAE)結(jié)構(gòu),一個(gè)共享編碼器和三個(gè)并行解碼器,產(chǎn)生三個(gè)獨(dú)立的分支,分別用于預(yù)測(cè)未來(lái)幀、目標(biāo)檢測(cè)框和實(shí)例分割掩碼。PointTrack建立了一個(gè)新的MOTS數(shù)據(jù)集,并提出了一個(gè)新的跟蹤框架。與先前的工作不同,該方法的實(shí)例分割部分使用一階段的SpatialEmbedding方法,避免了常規(guī)兩階段方式實(shí)現(xiàn)的邊界框預(yù)測(cè)不準(zhǔn)帶來(lái)的分割精度低的問(wèn)題,并且速度上顯著優(yōu)于MaskRCNN。
CPMOTS 算法的整體框架如圖2 所示,受Point-Track[8]啟發(fā)也采用逐點(diǎn)跟蹤的范式,但與之不同的是,CPMOTS可以并行跟蹤與分割多個(gè)語(yǔ)義類(lèi)別,且保持近實(shí)時(shí)的速度。此外,CPMOTS采用通道注意力機(jī)制實(shí)現(xiàn)特征重定向,使網(wǎng)絡(luò)能學(xué)習(xí)到更顯著的特征,提升算法的性能。具體地,CPMOTS首先將單幀圖片輸入到實(shí)例分割網(wǎng)絡(luò)(spatial embedding)[8]中得到實(shí)例分割掩碼。然后,從平面的實(shí)例分割掩碼中采樣得到無(wú)序的2D 點(diǎn)集合及其初始特征。接著通過(guò)多層感知機(jī)得到實(shí)例嵌入向量,嵌入向量經(jīng)過(guò)通道注意力模塊獲取更具辨別性的特征。最后,通過(guò)關(guān)聯(lián)實(shí)例嵌入向量生成MOTS結(jié)果。
圖2 CPMOTS網(wǎng)絡(luò)架構(gòu)Fig.2 Network architect of CPMOTS
CPMOTS是一個(gè)不限類(lèi)別的跟蹤網(wǎng)絡(luò),從圖3的多類(lèi)別分割網(wǎng)絡(luò)可以看到,整體網(wǎng)絡(luò)結(jié)構(gòu)是多分支并行結(jié)構(gòu),可以同時(shí)分割與跟蹤多個(gè)類(lèi)別的目標(biāo)。每一個(gè)類(lèi)別分支在分割與跟蹤網(wǎng)絡(luò)的編碼階段特征共享,在解碼階段拆分成類(lèi)別獨(dú)立的并行分支,因此網(wǎng)絡(luò)整體速度很快。在本文中,由于當(dāng)前數(shù)據(jù)集只提供車(chē)和人兩個(gè)語(yǔ)義類(lèi)別的標(biāo)注,因此CPMOTS 只能同時(shí)跟蹤車(chē)和人兩個(gè)語(yǔ)義類(lèi)別。
圖3 CPMOTS的多類(lèi)別實(shí)例分割網(wǎng)絡(luò)Fig.3 Multi-category instance segmentation network of CPMOTS
為了使目標(biāo)定位更加準(zhǔn)確,在跟蹤階段,CPMOTS不僅考慮前景特征,也會(huì)考慮背景特征。對(duì)于一個(gè)實(shí)例I,它的分割掩碼為Is,最小外切矩形框?yàn)镮r。將這個(gè)矩形框從上下左右4 個(gè)方向用一個(gè)尺度縮放參數(shù)α(α=0.2) 擴(kuò)展得到I?r,如圖2 中左下角分割掩碼外側(cè)的紅色和綠色矩形框所示。從Is中采樣得到的點(diǎn)集合看作是前景,定義為F。從擴(kuò)展矩形框I?r中除Is以外的區(qū)域采樣得到的點(diǎn)集合看作是背景,定義為B。
中包含背景信息及周?chē)鷮?shí)例的信息,更有助于網(wǎng)絡(luò)辨別假陽(yáng)性實(shí)例,精準(zhǔn)跟蹤當(dāng)前實(shí)例。因?yàn)橛星熬氨尘爸郑珻PMOTS 在訓(xùn)練分割網(wǎng)絡(luò)時(shí)對(duì)前景賦予權(quán)重wf來(lái)提升前景特征提取的能力,并且針對(duì)不同的語(yǔ)義類(lèi)別wf有不同的取值。點(diǎn)集合F和B中每一個(gè)點(diǎn)都由6個(gè)數(shù)據(jù)維度組成(x,y,C,R,G,B),其中(x,y)表示該點(diǎn)在二維圖像中的位置。C指該點(diǎn)所屬的語(yǔ)義類(lèi)別,本文用獨(dú)熱編碼來(lái)處理語(yǔ)義類(lèi)別標(biāo)簽。(R,G,B)表示該點(diǎn)的顏色信息。
對(duì)于每個(gè)實(shí)例I,CPMOTS 分別從前景點(diǎn)集合F和背景點(diǎn)集合B中隨機(jī)均勻地采樣NF(NF=1 500)和NB(NB=750 )個(gè)點(diǎn)。通過(guò)對(duì)圖像平面中NF個(gè)點(diǎn)的坐標(biāo)求平均值可以得到一個(gè)實(shí)例中心點(diǎn)Q(xcF,ycF),進(jìn)而可以計(jì)算出每個(gè)點(diǎn)相對(duì)于Q的偏移量。網(wǎng)絡(luò)通過(guò)對(duì)這些點(diǎn)的位置、類(lèi)別、顏色以及偏移量四種數(shù)據(jù)特征進(jìn)行編碼,生成實(shí)例嵌入向量。
如圖2上半部分所示,當(dāng)采樣點(diǎn)的各個(gè)初始特征分別進(jìn)行編碼后,為了促使神經(jīng)網(wǎng)絡(luò)自適應(yīng)地選擇最顯著的特征進(jìn)行跟蹤,本文使用一個(gè)簡(jiǎn)單卻高效的注意力模塊來(lái)顯式建模特征通道間的依賴(lài)關(guān)系。與其他大部分在圖像層面操作的注意力模塊不同,本文采用的注意力模塊是對(duì)點(diǎn)特征進(jìn)行操作。考慮到通道層面的信息足以提取顯著性特征以滿(mǎn)足后續(xù)的跟蹤,同時(shí)鑒于跟蹤任務(wù)對(duì)于網(wǎng)絡(luò)運(yùn)行效率的要求更高,本文和需要用到空間依賴(lài)關(guān)系的注意力模塊也不一樣,僅利用通道信息,采用特征重標(biāo)定的策略,用學(xué)習(xí)的方式來(lái)自動(dòng)獲取每個(gè)特征通道的重要程度,以達(dá)到強(qiáng)化有用特征的目的。
具體來(lái)說(shuō),對(duì)于NF個(gè)采樣點(diǎn),特征為P=[p1,p2,…,pNF],P∈?NF×c。為了獲得一個(gè)全局接收域,注意力模塊首先使用沿空間維度的全局平均池化來(lái)生成通道統(tǒng)計(jì)信息,此時(shí)輸出為oc∈?1×c:
該過(guò)程能夠強(qiáng)化重要程度較高的特征通道,抑制重要程度較低的特征通道。這個(gè)過(guò)程被稱(chēng)為通道層面的原始特征重標(biāo)定。
CPMOTS 的目標(biāo)輸出包含實(shí)例分割掩碼和相應(yīng)的跟蹤ID。本文對(duì)于每一個(gè)待跟蹤的實(shí)例,不是像其他方法一樣都是從連續(xù)幀中選擇,而是從其軌跡中隨機(jī)選擇一幀作為中間幀,然后從其前后10 幀的范圍內(nèi)各隨機(jī)選擇一幀作為前后幀。這樣引入隨機(jī)的方法可以增加每個(gè)實(shí)例軌跡內(nèi)的差異性,得到更泛化的跟蹤結(jié)果。本文通過(guò)基于距離閾值δ的Triplet Loss[29]來(lái)訓(xùn)練跟蹤網(wǎng)絡(luò),跟蹤的損失函數(shù)定義為:
其中,Ei表示第i個(gè)實(shí)例的嵌入向量集合(一共三幀),ei、e′i分別表示其中任意不同兩幀的嵌入向量;I表示當(dāng)前批次訓(xùn)練數(shù)據(jù)中待跟蹤的所有實(shí)例;δ是為了防止過(guò)擬合而引入的閾值,默認(rèn)值為0.2。從上式可以看出,該損失函數(shù)的目標(biāo)是最小化相同實(shí)例對(duì)應(yīng)的嵌入向量間的距離,同時(shí)最大化不同實(shí)例的嵌入向量之間的距離。最終,在嵌入空間中同一實(shí)例的嵌入向量會(huì)更相似,在后續(xù)實(shí)例關(guān)聯(lián)時(shí)的匹配度更高。而不同實(shí)例的嵌入向量會(huì)更不同,在實(shí)例關(guān)聯(lián)時(shí)可以降低匹配錯(cuò)誤率。CPMOTS采用常用的匈牙利算法[30]做實(shí)例匹配,基于相似度做關(guān)聯(lián)輸出最終的跟蹤結(jié)果。
KITTI MOTS 是最常用的用于多目標(biāo)跟蹤與分割的基準(zhǔn)數(shù)據(jù)集。該數(shù)據(jù)集中的視頻均來(lái)自于車(chē)載相機(jī),訓(xùn)練集總共包含21 個(gè)視頻序列,對(duì)應(yīng)21 個(gè)不同的真實(shí)場(chǎng)景,分為12個(gè)訓(xùn)練序列和9個(gè)驗(yàn)證序列,一共有8 008幀圖像,其中標(biāo)注了26 899 輛車(chē)和11 420 個(gè)行人,目標(biāo)在幀間有一致的ID和實(shí)例標(biāo)簽。測(cè)試集一共包含29個(gè)視頻序列,對(duì)應(yīng)29 個(gè)不同的真實(shí)場(chǎng)景。本文在KITTI MOTS[8]數(shù)據(jù)集上對(duì)提出的CPMOTS算法進(jìn)行了大量的實(shí)驗(yàn)來(lái)驗(yàn)證算法的有效性。
MOTS的評(píng)價(jià)標(biāo)準(zhǔn)是由TrackR-CNN基于多目標(biāo)跟蹤系統(tǒng)的標(biāo)準(zhǔn)評(píng)價(jià)措施CLEAR MOT[31]擴(kuò)展得到的,主要是用多目標(biāo)跟蹤與分割準(zhǔn)確度(multi-object tracking and segmentation accuracy,MOTSA)及其soft 版本(soft multi-object tracking and segmentation accuracy,sMOTSA),以及多目標(biāo)跟蹤與分割精度(multi-object tracking and segmentation precision,MOTSP)來(lái)評(píng)估。
形式上,具有T個(gè)時(shí)間幀,高度h和寬度w的視頻的標(biāo)注真值由N個(gè)標(biāo)注的分割掩碼M={m1,m2,…,mN}組成,其中mi∈{0,1}h×w,每個(gè)掩碼對(duì)應(yīng)一個(gè)唯一的實(shí)例ID,但每個(gè)實(shí)例ID可能對(duì)應(yīng)多個(gè)掩碼。對(duì)應(yīng)地,網(wǎng)絡(luò)的輸出結(jié)果是K個(gè)預(yù)測(cè)掩碼H={h1,h2,…,hK} ,其中hi∈{0,1}h×w,每個(gè)預(yù)測(cè)掩碼也分配給一個(gè)實(shí)例ID。每個(gè)前景像素被唯一地分配給標(biāo)注掩碼中某一個(gè)實(shí)例,而在預(yù)測(cè)掩碼中至多分配給一個(gè)實(shí)例。因此,對(duì)于給定的標(biāo)注掩碼,至多存在一個(gè)預(yù)測(cè)掩碼與之交并比(intersection-over-union,IoU)大于0.5。于是,從預(yù)測(cè)掩碼到標(biāo)注掩碼的映射c:H→M∪{? } 可以簡(jiǎn)單地使用基于掩碼的IoU定義為:
sMOTSA 累計(jì)的是TP?(正確預(yù)測(cè)的掩碼的IoU 值之和),而不是TP(正確預(yù)測(cè)的掩碼數(shù)量),因此它能同時(shí)衡量分割檢測(cè)和跟蹤的質(zhì)量。
本文算法使用Python語(yǔ)言在Ubuntu16.04系統(tǒng)上用Pytorch框架進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)環(huán)境如表1所示。盡管本實(shí)驗(yàn)所用設(shè)備顯存為24 GB,但在推理時(shí)分割階段只需要0.9 GB,跟蹤階段只需要1.5 GB 的顯存大小,對(duì)硬件的要求不高。
表1 實(shí)驗(yàn)環(huán)境Table 1 Experimental environment
和之前的工作[15,17]一樣,由于KITTI MOTS 中訓(xùn)練數(shù)據(jù)集有限,CPMOTS 先在KINS 數(shù)據(jù)集上預(yù)訓(xùn)練實(shí)例分割網(wǎng)絡(luò),一共訓(xùn)練180 輪,此時(shí)的輸入是被裁剪之后的圖,車(chē)和人的前景權(quán)重wf分別設(shè)置為10 和20。隨后,分割網(wǎng)絡(luò)在KITTIMOTS 上微調(diào),以5×10-6的學(xué)習(xí)率再訓(xùn)練100 輪,由于此時(shí)輸入的是未被裁剪的原圖,車(chē)和人的前景權(quán)重wf分別設(shè)置為230和250,跟蹤階段以2×10-3的學(xué)習(xí)率訓(xùn)練50 輪,損失函數(shù)中距離閾值δ設(shè)置為0.2。
如表2 所示,本文在KITTI MOTS 驗(yàn)證集上與MOTS 之前的一些相關(guān)工作進(jìn)行了對(duì)比:TrackRCNN[15]、MaskTrack R-CNN[16]、CAMOT[18]、MOTSNet[26]、GMPHD[27]、VAE[28]、CIWT[32]、BePixels[33]以及根據(jù)作者提供的代碼和方法訓(xùn)練的PointTrack[17](表中PointTrack-U)。本文著重關(guān)注sMOTSA 和IDS 兩個(gè)指標(biāo),因?yàn)樗鼈兡苤苯臃从吵龈櫤头指畹木扰c算法的魯棒性。表2數(shù)據(jù)顯示,本文提出的CPMOTS算法性能優(yōu)于之前發(fā)表的工作中同時(shí)跟蹤人和車(chē)的大多數(shù)算法,比如TrackR-CNN 和MOTSNet。從表中可以發(fā)現(xiàn),GMPHD和PointTrack 等算法在性能上優(yōu)于本文方法,究其原因是因?yàn)檫@些方法只同時(shí)跟蹤一個(gè)語(yǔ)義類(lèi)別,可以使得網(wǎng)絡(luò)聚焦于學(xué)習(xí)該類(lèi)別的專(zhuān)屬特征,因此其性能理論上會(huì)優(yōu)于本文提出的多類(lèi)別算法CPMOTS。
表2 KITTI MOTS驗(yàn)證集不同網(wǎng)絡(luò)對(duì)比結(jié)果Table 2 Comparison results of different networks in KITTI MOTS validation set
如表3 是CPMOTS 上傳到KITTI MOTS 測(cè)試集上得到的結(jié)果,驗(yàn)證集中大部分方法沒(méi)有上傳到測(cè)試集,但與TrackR-CNN和MOTSNet結(jié)果對(duì)比可以看到,本文提出的CPMOTS 算法在各項(xiàng)指標(biāo)上都有明顯的提升,尤其是sMOTSA 和IDS 兩個(gè)最重要的指標(biāo)。相對(duì)于TrackR-CNN 算法,sMOTSA 在車(chē)和人上分別提升了5.8%和11.2%,而IDS則分別大幅減少了289和272。對(duì)比MOTSNet算法,sMOTSA在車(chē)和人上分別提升了1.8%和9.8%,而IDS則分別減少了25和64。此外,CPMOTS保持了16 frame/s 的在線(xiàn)速度,充分證明了CPMOTS 算法的魯棒性和實(shí)用性。
表3 KITTI MOTS測(cè)試集不同網(wǎng)絡(luò)對(duì)比結(jié)果Table 3 Comparison results of different networks in KITTI MOTS test set
圖4 可視化了CPMOTS 和其他兩種典型方法在KITTI MOTS數(shù)據(jù)集上的效果,圖中選取了3種不同的問(wèn)題場(chǎng)景,箭頭標(biāo)注了重點(diǎn)目標(biāo),不同方法用不同顏色標(biāo)出。在光照變化、完全遮擋、尺度變化等不利因素下,對(duì)比其他方法,CPMOTS依然可以準(zhǔn)確定位目標(biāo)并保持ID不變,證明了算法的魯棒性。由于PointTrack是單類(lèi)別算法,因此每種場(chǎng)景有兩行圖像:第一行是車(chē),第二行是人。第一個(gè)場(chǎng)景顯示在數(shù)次完全被遮擋的情況下,CPMOTS不僅依然能識(shí)別目標(biāo),而且全程保持ID不變,而TrackRCNN 在第三幀出現(xiàn)了ID 變換。盡管Point-Track可以準(zhǔn)確地跟蹤車(chē)并保持ID不變,可是從第四行可以看出,它全程將交通指示牌誤檢成人,誤檢率較高。第二個(gè)場(chǎng)景展示了在光照變化、尺度變化等不利因素下,CPMOTS 依然能準(zhǔn)確的跟蹤目標(biāo),其他兩種方法都出現(xiàn)了丟包現(xiàn)象。第三個(gè)場(chǎng)景表明在多個(gè)語(yǔ)義類(lèi)別同時(shí)存在的擁擠場(chǎng)景中,即使存在完全遮擋、尺度變化、光照變化等不利條件,CPMOTS 依然可以準(zhǔn)確跟蹤與分割每一個(gè)目標(biāo),并始終保持ID 不變,而TrackRCNN和PointTrack 不僅無(wú)法識(shí)別出騎自行車(chē)的人,在多次行人遮擋之后,4 輛車(chē)的ID 也發(fā)生了改變。在KITTI MOTS 數(shù)據(jù)集上的定性和定量實(shí)驗(yàn)充分證明了本文提出的CPMOTS算法具有良好的性能以及對(duì)不同場(chǎng)景的適應(yīng)能力。
圖4 不同方法在KITTI MOTS上的可視化結(jié)果Fig.4 Visualization results on KITTI MOTS of different methods
為了驗(yàn)證通道注意力模塊和各個(gè)超參數(shù)設(shè)置對(duì)于CPMOTS 算法性能的影響,本文進(jìn)行了大量的消融實(shí)驗(yàn),如表4所示。依次修改注意力模塊(Attention)、損失函數(shù)中的距離參數(shù)δ(Margin)以及分割網(wǎng)絡(luò)微調(diào)時(shí)的前景權(quán)重(Weight,第一列項(xiàng)是車(chē)第二列項(xiàng)是人),在實(shí)驗(yàn)中發(fā)現(xiàn)此時(shí)的前景權(quán)重對(duì)于結(jié)果的影響比其他時(shí)刻大很多。當(dāng)修改其中一項(xiàng)時(shí),另外兩項(xiàng)保持不變。從表4 可以看到,CPMOTS 在搭載注意力模塊的基礎(chǔ)上,損失函數(shù)的距離參數(shù)設(shè)為0.2,分割網(wǎng)絡(luò)微調(diào)時(shí)車(chē)和人的前景權(quán)重分別設(shè)為230 和250 時(shí),性能最佳。當(dāng)未搭載注意力模塊時(shí),算法性能出現(xiàn)大幅度的下降,說(shuō)明注意力模塊對(duì)于CPMOTS算法性能的提升有很大作用。
表4 不同參數(shù)對(duì)性能的影響Table 4 Impact of different parameters on performance
從圖5的可視化結(jié)果也可看出,本文的注意力模塊能夠?qū)Σ煌耐ǖ捞卣鬟M(jìn)行選擇,去強(qiáng)化重要程度較高的特征,抑制重要程度較低的特征。圖中越重要的特征通道顏色越亮,越不重要的特征通道顏色越暗,證明了注意力模塊的有效性。當(dāng)選取不同距離參數(shù)時(shí),算法表現(xiàn)差異略有下降。相比之下,當(dāng)改變前景權(quán)重時(shí),算法會(huì)出現(xiàn)較大的性能下降。這種表現(xiàn)差異表明,CPMOTS更多地關(guān)注目標(biāo)的外觀(guān)特征和環(huán)境特征,對(duì)于損失函數(shù)中距離邊距的依賴(lài)較小。
圖5 經(jīng)過(guò)注意力模塊的通道特征可視化結(jié)果Fig.5 Visualization result of channel feature through attention module
為了計(jì)算背景特征所需的運(yùn)算復(fù)雜度,本文還做了一個(gè)對(duì)比實(shí)驗(yàn),對(duì)比去掉背景特征前后所需的時(shí)間以及顯存大小。實(shí)驗(yàn)結(jié)果表明,去掉背景特征之后,跟蹤時(shí)每張圖片處理速度提升0.006 8 s,而顯存僅釋放6兆,說(shuō)明背景特征所需的運(yùn)算復(fù)雜度不太高。
本文針對(duì)多目標(biāo)跟蹤與分割任務(wù),提出了一個(gè)快速的基于注意力模塊的多類(lèi)別逐點(diǎn)式跟蹤與分割算法CPMOTS。在KITTI MOTS 數(shù)據(jù)集的評(píng)估結(jié)果表明,CPMOTS 算法在速度與精度的綜合對(duì)比中優(yōu)于之前的許多算法。盡管本文的算法在部分性能上略低于一些單類(lèi)別算法,但相對(duì)于單類(lèi)別算法,CPMOTS 能夠并行地跟蹤與分割多個(gè)語(yǔ)義類(lèi)別,且在1 242×375 的圖像上達(dá)到近實(shí)時(shí)(16 frame/s)的速度,更適用于真實(shí)場(chǎng)景。未來(lái)的研究方向?qū)?cè)重于提高CPMOTS 的速度,使其達(dá)到實(shí)時(shí),進(jìn)而可以應(yīng)用在更多的實(shí)際場(chǎng)景。
計(jì)算機(jī)工程與應(yīng)用2022年19期