梁貴 滕廣華 羅傳 文進(jìn) 戴維
關(guān)鍵詞:跨攝像頭多目標(biāo)跟蹤;加權(quán)圖;最小費(fèi)用最大流算法;深度學(xué)習(xí)
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2023)14-0029-04
0 引言
基于攝像頭的目標(biāo)追蹤技術(shù)得到了廣泛的應(yīng)用[1-4]。如應(yīng)用于逃逸犯罪分子追蹤、突發(fā)自然災(zāi)害記錄、交通違章記錄留存等提供影視信息和資料具有重大意義[5-6]。隨著人工智能和深度學(xué)習(xí)研究成果的發(fā)展與更新,基于攝像頭的目標(biāo)追蹤技術(shù)研究得到了進(jìn)一步發(fā)展,尤其在跨攝像頭多目標(biāo)監(jiān)測(cè)跟蹤的研究和應(yīng)用方面。
跨攝像頭多目標(biāo)跟蹤(Multi-Target Multi-Cam?era Tracking,又稱MTMCT)問題致力于從多個(gè)攝像頭的視頻流中提取所有人的行動(dòng)軌跡。因此,結(jié)合人工智能和深度學(xué)習(xí)的方法,解決跨攝像頭多目標(biāo)跟蹤問題具有極大研究?jī)r(jià)值和研究意義。
跨攝像頭多目標(biāo)跟蹤存在不足。如存在光線等環(huán)境條件不同以及目標(biāo)的姿態(tài)變換。同時(shí),無法事先得知目標(biāo)區(qū)域同一時(shí)間內(nèi)經(jīng)過的目標(biāo)的數(shù)量[7] 。因此,跨攝像頭的多目標(biāo)跟蹤問題相當(dāng)復(fù)雜。
跨攝像頭多目標(biāo)跟蹤問題的解決方案是先提取每個(gè)攝像頭的目標(biāo)軌跡,即單攝像頭多目標(biāo)跟蹤任務(wù)(single-camera Multi-Object Tracking,簡(jiǎn)稱MOT),然后再用多個(gè)攝像頭的行為軌跡匹配出對(duì)應(yīng)目標(biāo)的完整軌跡。主要完成目標(biāo)檢測(cè)和再識(shí)別(re-identifica?tion,簡(jiǎn)稱re-ID)的工作,兩種工作不共享特征,且模型不同。在傳統(tǒng)的跨攝像頭多目標(biāo)跟蹤研究[8-9]中,這兩個(gè)工作獨(dú)立進(jìn)行。然而,檢測(cè)追蹤過程中,目標(biāo)區(qū)域存在連續(xù)多人行走和行走速度快因素,會(huì)造成系統(tǒng)難以負(fù)荷存儲(chǔ)的數(shù)據(jù)量而出現(xiàn)數(shù)據(jù)丟失。
因此為了解決上述問題,本文采用一種基于圖算法的多攝像機(jī)追蹤的方法,該方法首先利用DeepSort 算法和OsNet行人重識(shí)別模型得到各個(gè)單一攝像頭的軌跡后,將這些軌跡根據(jù)特定的方式組合成為圖,并為圖邊賦予一定的權(quán)重,然后通過迭代最小費(fèi)用最大流算法進(jìn)行解決,將各個(gè)攝像機(jī)的軌跡連接起來得到最終軌跡,該方法能夠在非重疊多攝像頭視覺目標(biāo)跟蹤中取得較好的成果。
本文的貢獻(xiàn)如下:
1)給出行人重識(shí)別算法。利用OsNet輕量級(jí)網(wǎng)絡(luò)進(jìn)行行人重識(shí)別,提升了行人重識(shí)別的能力。
2)建立行人追蹤模型。結(jié)合DeepSort算法,構(gòu)建全局圖追蹤模型,利用最小費(fèi)用最大流算法提高跨攝像頭追蹤的能力。
1 相關(guān)工作
迄今為止,大多數(shù)的跨攝像頭多目標(biāo)追蹤(MT?MCT)都是由兩個(gè)階段組成,一是單攝像頭內(nèi)的多目標(biāo)追蹤,并生成其軌跡,二是所有攝像頭內(nèi)的目標(biāo)軌跡進(jìn)行匹配,生成目標(biāo)的完整軌跡。在過去幾十年內(nèi),已經(jīng)有無數(shù)的學(xué)者進(jìn)行研究,所以本文將分兩個(gè)部分介紹MTMCT的相關(guān)工作,分別是單攝像頭多目標(biāo)追蹤以及跨攝像頭多目標(biāo)追蹤。
1.1單攝像頭多目標(biāo)追蹤
文獻(xiàn)[10] 提出使用雙線性LSTM 的神經(jīng)門控多目標(biāo)跟蹤,能有效地訓(xùn)練在外觀和運(yùn)動(dòng)上對(duì)對(duì)象軌跡進(jìn)行評(píng)分的循環(huán)模型,并在MOT 2016和MOT 2017基準(zhǔn)測(cè)試中實(shí)現(xiàn)了近在線多目標(biāo)跟蹤的最先進(jìn)性能。文獻(xiàn)[11]提出一種簡(jiǎn)單在線和實(shí)時(shí)跟蹤(SORT)方案,對(duì)圖像進(jìn)行卡爾曼濾波和逐幀數(shù)據(jù)關(guān)聯(lián),在高幀速率下實(shí)現(xiàn)了良好的性能。在MOT 挑戰(zhàn)數(shù)據(jù)集[12] 上,使用最先進(jìn)的人員檢測(cè)器[13] 的SORT在標(biāo)準(zhǔn)檢測(cè)上的平均排名高于MHT。文獻(xiàn)[14]利用對(duì)象檢測(cè)器的邊界框回歸來預(yù)測(cè)下一幀中對(duì)象的位置,復(fù)雜的跟蹤場(chǎng)景,實(shí)現(xiàn)對(duì)檢測(cè)目標(biāo)實(shí)施跟蹤。文獻(xiàn)[15]將多目標(biāo)跟蹤的流行任務(wù)擴(kuò)展到多目標(biāo)跟蹤和分割(MOTS)。
1.2跨攝像頭多目標(biāo)追蹤
文獻(xiàn)[16]利用行人重識(shí)別(Re-ID)特征技術(shù),提出跨攝像頭多目標(biāo)追蹤模型。文獻(xiàn)[18]提出TRACkletto-Target Assignment(TRACTA)方案解決了跨相機(jī)的軌跡匹配問題,方案具有一定的實(shí)用性。文獻(xiàn)[19] 提出了一種基于時(shí)空提升多切割公式的數(shù)學(xué)上優(yōu)雅的多相機(jī)多目標(biāo)跟蹤方法,該方法利用單相機(jī)跟蹤器產(chǎn)生的最先進(jìn)的軌跡。
2 多目標(biāo)追蹤技術(shù)模型
2.1模型架構(gòu)
依據(jù)跨攝像頭視頻中所形成的完整軌跡,對(duì)輸入的視頻進(jìn)行逐幀處理,實(shí)現(xiàn)行人檢測(cè)和追蹤。所提出的跨攝像頭多目標(biāo)追蹤技術(shù)模型包括兩個(gè)模塊:?jiǎn)螖z像頭目標(biāo)跟蹤模塊和跨攝像頭目標(biāo)跟蹤聚合模塊。在單鏡頭追蹤階段利用DeepSort算法[20] 和Osnet[21] 行人重識(shí)別網(wǎng)絡(luò)模型來實(shí)現(xiàn)對(duì)行人的追蹤,形成單鏡頭的追蹤軌跡;而在多鏡頭追蹤階段,則是通過參考文獻(xiàn)[22]中提出的最小成本流網(wǎng)絡(luò)圖進(jìn)行對(duì)全局軌跡數(shù)據(jù)的關(guān)聯(lián),以形成多個(gè)攝像機(jī)之間的軌跡。下面將對(duì)本方案的各個(gè)部分進(jìn)行詳細(xì)介紹。
2.2行人檢測(cè)和行人重識(shí)別特征提取
本節(jié)主要完成行人檢測(cè)和行人重識(shí)別特征提取模型構(gòu)建。在模型構(gòu)建過程中,本節(jié)主要采用OSNe網(wǎng)絡(luò)來實(shí)現(xiàn)對(duì)行人的重新識(shí)別。OSNet 全稱為Omni-ScaleNetwork(全方位網(wǎng)絡(luò))。其引入了一種新穎的統(tǒng)一匯聚門,以動(dòng)態(tài)融合多尺度特征和與輸入有關(guān)的通道權(quán)重,有效地實(shí)現(xiàn)學(xué)習(xí)空間通道相關(guān)性并避免過度擬合,在構(gòu)件塊同時(shí)使用了點(diǎn)向和深度卷積。
2.3單攝像頭多目標(biāo)追蹤
本節(jié)中,在單攝像頭目標(biāo)追蹤算法設(shè)計(jì)需要考慮數(shù)據(jù)濾波和圖像幀的關(guān)聯(lián)性,結(jié)合DeepSort算法實(shí)現(xiàn)單一攝像頭多目標(biāo)追蹤算法。具體算法實(shí)現(xiàn)如下所示:
2.4多攝像頭多目標(biāo)追蹤
本節(jié)算法的目標(biāo)是將各個(gè)攝像頭中行人的運(yùn)動(dòng)軌跡結(jié)果中出現(xiàn)的同一個(gè)人的軌跡進(jìn)行拼接連接,設(shè)計(jì)成為一個(gè)相似度量的全局圖模型,然后通過迭代最小費(fèi)用最大流算法進(jìn)行求解,得到了包含單鏡頭追蹤階段和多鏡頭追蹤階段的全局軌跡。具體算法如下所示。
3 實(shí)驗(yàn)結(jié)果及分析
3.1數(shù)據(jù)集
本次實(shí)驗(yàn)采用的數(shù)據(jù)集是NLPR_MCT 數(shù)據(jù)集,NLPR_MCT數(shù)據(jù)集由四個(gè)子數(shù)據(jù)集組成,每個(gè)子數(shù)據(jù)集包括3~5個(gè)不重疊場(chǎng)景的攝像機(jī),根據(jù)人數(shù)(從14 到255)和照明變化和遮擋程度有不同的情況。采集的視頻既有真實(shí)場(chǎng)景,也有模擬環(huán)境。所有視頻(數(shù)據(jù)集3除外)都在20分鐘左右,速率為25fps,并且是在日常時(shí)間的非重疊視圖下錄制的,這使得數(shù)據(jù)集很好地代表了日常生活中的不同情況。NLPR_MCT數(shù)據(jù)集的子數(shù)據(jù)集1的部分情況的展示圖像如圖2所示:
3.3實(shí)驗(yàn)結(jié)果及分析
本次實(shí)驗(yàn)采用的數(shù)據(jù)集為NLPR_MCT中的三個(gè)子數(shù)據(jù)集,分別是第一、第二以及第四個(gè)子數(shù)據(jù)集,第三個(gè)子數(shù)據(jù)集由于和現(xiàn)實(shí)情況相差較遠(yuǎn),參考意義較低,因此在本文中不使用,其中訓(xùn)練的硬件環(huán)境如表1 所示:
通過對(duì)NLPR_MCT數(shù)據(jù)集的三個(gè)子數(shù)據(jù)集進(jìn)行訓(xùn)練后結(jié)果如表2所示:
由表2的結(jié)果可知,本文提出的非重疊區(qū)域跨攝像機(jī)多目標(biāo)追蹤在NLPR_MCT數(shù)據(jù)集中的子數(shù)據(jù)集一和子數(shù)據(jù)集三中得到的MTCA值分別為87.12%以及85.11%,均超過了文獻(xiàn)[22]的表現(xiàn)結(jié)果,即85.25% 以及73.7%;并且本文提出的方法在三個(gè)子數(shù)據(jù)集上的平均MTCA 值為67.41%,同樣超過了文獻(xiàn)[22]的65.58%。因此可以表明本方案在解決非重疊區(qū)域的跨攝像頭多目標(biāo)追蹤的問題時(shí)是有效的。
4 總結(jié)
本文針對(duì)利用圖算法解決跨攝像多目標(biāo)追蹤領(lǐng)域目前存在的問題,提出基于圖算法的跨攝像頭多目標(biāo)追蹤技術(shù)模型,實(shí)現(xiàn)了跨攝像頭多目標(biāo)追蹤功能。