車滿強,李 銘,李圣京
(廣州海格通信集團股份有限公司無人系統(tǒng)技術(shù)創(chuàng)新中心, 廣東 廣州 510700)
多目標(biāo)跟蹤(Multiple Object Tracking, MOT)的主要任務(wù)是在給定的一段視頻序列中,對多個感興趣目標(biāo)進(jìn)行識別定位,同時關(guān)聯(lián)不同幀的相同目標(biāo),生成目標(biāo)的運動軌跡,是機器視覺領(lǐng)域的一個重要研究課題。現(xiàn)有多目標(biāo)跟蹤任務(wù)可分為離線跟蹤和在線跟蹤兩種模式[1],離線跟蹤需要根據(jù)視頻序列全部檢測結(jié)果推理目標(biāo)的運動軌跡,而在線跟蹤根據(jù)當(dāng)前的檢測結(jié)果與歷史軌跡按時間順序逐步生成新的軌跡,被廣泛應(yīng)用到無人駕駛、監(jiān)控系統(tǒng)[2-3]、軍事[4]等多個領(lǐng)域。
傳統(tǒng)的多目標(biāo)跟蹤算法通常提取目標(biāo)的概率密度和邊緣特征,從概率梯度上升的方向搜索目標(biāo),這類方法算力需求低,易部署,但由于特征表征能力的局限性,無法應(yīng)對復(fù)雜場景下的目標(biāo)跟蹤。近年來深度學(xué)習(xí)飛速發(fā)展,所提取的卷積特征包含目標(biāo)更深層次的語義特征,被廣泛應(yīng)用到目標(biāo)跟蹤領(lǐng)域,其中,基于檢測的跟蹤[5](Tracking-By-Detection)是目前研究較多,使用最為廣泛的跟蹤算法之一。
行人/車輛重識別(Person re-identification, ReID)可依據(jù)行人/車輛的表觀特征,計算目標(biāo)的相似程度,實現(xiàn)跨攝像頭無重疊視域下的目標(biāo)行人/車輛的檢索,常被視為圖像檢索領(lǐng)域的子問題之一,近年來常與檢測/跟蹤技術(shù)相結(jié)合,提升多目標(biāo)跟蹤的準(zhǔn)確度,并廣泛應(yīng)用于安防任務(wù)中。
現(xiàn)有基于檢測的跟蹤主要通過兩種方式實現(xiàn),第一種是將檢測和跟蹤分為兩個模塊訓(xùn)練,在實際應(yīng)用時首先通過檢測模型獲取目標(biāo)位置框,然后再通過跟蹤模塊實現(xiàn)目標(biāo)的關(guān)聯(lián),如Bewley 等人提出SORT 算法,通過通用的檢測算法識別待跟蹤目標(biāo),然后利用卡爾曼濾波(Kalman Filter)和匈牙利算法(Hungarian Algorithm)對相鄰幀檢測到的目標(biāo)進(jìn)行關(guān)聯(lián),實現(xiàn)目標(biāo)的連續(xù)跟蹤,該算法框架簡單,運行速度快,但對于遮擋的魯邦性較差;Wojke 等人提出DeepSORT 算法,將行人重識別技術(shù)引入到多目標(biāo)跟蹤,在檢測的基礎(chǔ)上,進(jìn)行目標(biāo)關(guān)聯(lián)時通過重識別模型提升目標(biāo)的辨別力,同時提出級聯(lián)匹配策略提升目標(biāo)在遮擋等干擾下的魯邦性;ZHANG 等人提出ByteTrack[5]算法,將目標(biāo)檢測的結(jié)果劃分為高置信度和低置信度兩類,再進(jìn)行多級匹配關(guān)聯(lián),由于目標(biāo)檢測的高準(zhǔn)確度和目標(biāo)關(guān)聯(lián)的合理性,該算法在各類跟蹤數(shù)據(jù)集上取得較高的準(zhǔn)確度。第二種是將檢測模塊和跟蹤模型集成在同一網(wǎng)絡(luò)中進(jìn)行訓(xùn)練,同時進(jìn)行目標(biāo)檢測和跟蹤,實現(xiàn)同一網(wǎng)絡(luò)的多任務(wù)學(xué)習(xí),如Wang 等人提出JDE 算法,在同一網(wǎng)絡(luò)中融合一階段檢測與行人重識別,同時輸出檢測和ReID 信息, 實現(xiàn)快速模型推理;Zhang 等人提出FairMOT 算法,采用一階段檢測算法CenterNet 作為檢測分支,同時在檢測分支基礎(chǔ)上增加一個平行分支輸出ReID 特征區(qū)分不同目標(biāo),將檢測、行人重識別任務(wù)進(jìn)行融合實現(xiàn)高效的多目標(biāo)跟蹤。近年來,Transformer 在圖像識別以及視頻分析領(lǐng)域發(fā)展迅速,得到廣泛的應(yīng)用,也逐漸使用到多目標(biāo)跟蹤中。Cai J 等人設(shè)計了一種基于Transformer 多目標(biāo)跟蹤框架,根據(jù)跟蹤需求自適應(yīng)地提取和聚合內(nèi)存中儲存的跟蹤對象的有用信息,從而實現(xiàn)目標(biāo)與軌跡之間的關(guān)聯(lián)。Zhou X 等人首次提出了一種基于Transformer 的全局多目標(biāo)跟蹤網(wǎng)絡(luò)結(jié)構(gòu),利用Transformer 結(jié)構(gòu)對輸入視頻序列中的所有目標(biāo)特征進(jìn)行編碼, 通過軌跡查詢實現(xiàn)相同目標(biāo)之間的關(guān)聯(lián)。
綜上所述,“Tracking-By-Detection”的兩階段多目標(biāo)跟蹤方法具有高效準(zhǔn)確的特點,而車輛/行人重識別技術(shù)提取的有效特征,可以為目標(biāo)跟蹤任務(wù)中目標(biāo)的相似度計算、匹配提供有力的支撐。因此本文提出一種基于YOLOv5 和重識別的多目標(biāo)多級匹配跟蹤方法,結(jié)合目標(biāo)檢測、卡爾曼濾波、匈牙利算法、車輛/行人重識別實現(xiàn)多目標(biāo)的多級匹配跟蹤,解決目標(biāo)在遮擋等復(fù)雜環(huán)境下的非連續(xù)跟蹤。
為解決之前多目標(biāo)方法丟棄低分檢測框的不合理性,以及在目標(biāo)發(fā)生短暫遮擋后的連續(xù)跟蹤,本文提出多級匹配機制,改善多目標(biāo)跟蹤的性能。選用文獻(xiàn)[5] 中的ByteTrack 為基礎(chǔ)算法,首先使用Glenn Jocher 發(fā)布的YOLOv5s 模型為基礎(chǔ)的目標(biāo)檢測算法替換ByteTrack 中的檢測模塊,然后在ByteTrack 中的兩級匹配,即高、低置信度檢測結(jié)果匹配的基礎(chǔ)上,對未匹配到的目標(biāo)通過行人重識別的方法進(jìn)行第三次關(guān)聯(lián),進(jìn)而提升目標(biāo)短暫消失下的連續(xù)跟蹤,其中行人重識別網(wǎng)絡(luò)選用文獻(xiàn)中的快速特征提取網(wǎng)絡(luò)OSNet。具體實現(xiàn)過程如下:
將目標(biāo)檢測模塊的高分框和低分框分開處理,利用低分檢測框和跟蹤軌跡之間的相似性,從低分框中挖掘出真正的物體,過濾掉背景。整個流程如表1 所示,核心步驟包括:
表1 多級匹配流程表
(1) 將每個檢測框根據(jù)得分分成兩類,即高分框和低分框,總共進(jìn)行三次匹配。
(2) 第一次使用高分框和之前的跟蹤軌跡進(jìn)行匹配。
(3) 第二次使用低分框和第一次沒有匹配上高分框的跟蹤軌跡(例如在當(dāng)前幀受到嚴(yán)重遮擋導(dǎo)致得分下降的物體)進(jìn)行匹配。
(4) 第三使用行人重識別的方法將未匹配到跟蹤器和目標(biāo)檢測的結(jié)果進(jìn)行行人重識別匹配(重識別閾值設(shè)置相對較高)。
(5) 對于沒有匹配上跟蹤軌跡,得分又足夠高的檢測框,對其新建一個跟蹤軌跡。對于沒有匹配上檢測框的跟蹤軌跡,保留3*FPS 幀,即保存3 秒,在其再次出現(xiàn)時再進(jìn)行匹配,見表1。
上述方法有效的原因主要是直接將目標(biāo)檢測的低分框和高分框放在一起與軌跡關(guān)聯(lián)顯然是不可取的,會帶來很多的背景(false positive),遮擋往往伴隨著檢測得分由高到低的緩慢降低:被遮擋物體在被遮擋之前是可視物體,檢測分?jǐn)?shù)較高,建立軌跡;當(dāng)物體被遮擋時,通過檢測框與軌跡的位置重合度就能把遮擋的物體從低分框中挖掘出來,保持軌跡的連貫性。而在目標(biāo)完全遮擋后再次出現(xiàn)時,如果目標(biāo)移動量較大,會導(dǎo)致匹配失敗,此時通過行人重識別的方法可對目標(biāo)進(jìn)行再次關(guān)聯(lián)。
本文選用MOT17 驗證集作為驗證數(shù)據(jù)集驗證算法的性能,實驗環(huán)境為ubuntu16.04 操作系統(tǒng),配置為Intel Core i7-7800XCPU, GTX3090 GPU, 內(nèi)存為16 GB 的臺式電腦。
為更加客觀評價算法改進(jìn)的性能,本文采用多目標(biāo)跟蹤領(lǐng)域通用的評價指標(biāo)進(jìn)行評估,即多目標(biāo)跟蹤準(zhǔn)確度(Multi-object Tracking Precision,MOTP)、多目標(biāo)跟蹤器ID 維持能力(Identification F1 Score,IDF1)、行人ID 切換次數(shù)(ID Switch,IDs)。
其中:
其中t 表示幀號GT 表示目標(biāo)真值的數(shù)量,F(xiàn)N 為漏檢率,F(xiàn)P 為誤檢率,IDS 為目標(biāo)身份變更次數(shù)。
IDF1 為:
其中IDTP 和IDFP 分別為真正ID 數(shù)和假正ID數(shù),IDFN為假負(fù)ID 數(shù)。
對于多目標(biāo)跟蹤,本文選擇MOT17 數(shù)據(jù)集進(jìn)行實驗,與基礎(chǔ)的多目標(biāo)跟蹤算法ByteTrack 結(jié)果進(jìn)行對比。對比結(jié)果如表2 所示,從表可以看出IDF 和IDs有明顯的改善,表明本文引入的多級匹配機制有效的降低了目標(biāo)ID 的轉(zhuǎn)換,明顯改善了在目標(biāo)發(fā)生遮擋時的連續(xù)跟蹤,見表2。
表2 本文改進(jìn)方法與原方法對比表
為提升基于檢測的多目標(biāo)跟蹤方法在檢測精度不足、目標(biāo)出現(xiàn)短暫遮擋時的跟蹤連續(xù)性,本文提出一種引入多級匹配機制的多目標(biāo)連續(xù)跟蹤方法。首先將檢測框根據(jù)置信度分為高分框和低分框兩類,第一次匹配使用高分框和之前的跟蹤軌跡進(jìn)行匹配,第二次匹配使用低分框和第一次沒有匹配上高分框的跟蹤軌跡進(jìn)行匹配,第三匹配使用行人重識別的方法將未匹配到跟蹤器和目標(biāo)檢測的結(jié)果進(jìn)行行人重識別匹配,最終實現(xiàn)短暫遮擋下的連續(xù)跟蹤。在MOT17 數(shù)據(jù)集上對本文方法進(jìn)行驗證,實驗結(jié)果表明,所提方法與原ByteTrack 方法相比,MOTA、IDF1、IDs 三個指標(biāo)均有提升,驗證了所提方法可有效降低多目標(biāo)跟蹤ID 切換,提升跟蹤的連續(xù)性。