李方用
(中國電子科技集團公司第五十四研究所,河北 石家莊 050081)
目標跟蹤技術(shù)現(xiàn)有方法大多基于深度學(xué)習(xí)技術(shù),行人目標跟蹤技術(shù)主要包括兩類:單目標跟蹤、多目標跟蹤。單目標跟蹤算法主要通過構(gòu)建復(fù)雜的外觀模型來跟蹤連續(xù)幀的單個目標,多目標跟蹤并不僅僅依賴外觀模型,因為在高度擁擠或目標間存在相似外觀的多目標跟蹤場景中,僅依賴外觀模型可能降低算法的效率和準確率。
基于孿生網(wǎng)絡(luò)算法的目標跟蹤技術(shù)是通過卷積神經(jīng)網(wǎng)絡(luò)對目標與搜索區(qū)域的特征進行提取,并分析所提取的目標與搜索區(qū)域的特征之間的相關(guān)性,在目標相關(guān)性響應(yīng)圖中,響應(yīng)值最大則說明與目標相關(guān)性最強,相關(guān)性最強的位置即為目標所在位置。Bertinetto 等人[1]提出全卷積孿生網(wǎng)絡(luò)(Siamese fully-convolutional networks,Siam FC)算法,該算法使用全卷積層的輸出作為模板分支與搜索分支的特征。在訓(xùn)練階段對兩個分支提取的特征進行相關(guān)性計算得到響應(yīng)圖,生成相關(guān)性強度分布圖,并將相關(guān)性強度圖與標簽進行對比,將得到的誤差回傳至卷積層。在跟蹤階段,卷積層的參數(shù)固定不變,在一幀目標位置附近裁剪得到多尺度搜索區(qū)域,根據(jù)計算得到響應(yīng)圖中最大響應(yīng)值的位置即得到目標位置。Siam FC類算法能達到80FPS的跟蹤速度,但是此算法存在的問題在于其不對模板進行更新,因此不能有效的利用視頻中的目標物的特征與信息追蹤特征變化的物體。針對上述問題,Bertinetto等人[2]將相關(guān)濾波算法處理成可微網(wǎng)絡(luò)層嵌入到模板分支,提出端到端的相關(guān)濾波網(wǎng)絡(luò)算法(Correlation Filters Network,CFNet),該算法能夠與卷積神經(jīng)網(wǎng)絡(luò)一起得到訓(xùn)練,實現(xiàn)在線學(xué)習(xí),使得模板分支能夠?qū)ψ兓繕颂崛¤b別能力強的特征。Bertinetto 等人[3]采用相關(guān)濾波層對模板分支與搜索域分支特征進行判別,訓(xùn)練階段利用模型輸出的響應(yīng)圖與響應(yīng)圖標簽之間的誤差進行反向傳遞,形成輕量級的卷積神經(jīng)網(wǎng)絡(luò)(Discriminative Correlation Filters Network,DCFNet)算法。DCFNet 算法在跟蹤階段,根據(jù)相關(guān)濾波層的響應(yīng)圖確定目標位置。相比于Siam FC 與CFNet 算法,由兩層卷積層和一層相關(guān)濾波層組成的DCFNet 算法網(wǎng)絡(luò)結(jié)構(gòu)更加簡單,在線更新并進行跟蹤速度能夠達到70 幀每秒的運行速度 。但是DCFNet 算法由于結(jié)構(gòu)過于簡單,其提取的特征難以應(yīng)對復(fù)雜背景環(huán)境,其適用性在一定程度上受到了限制。因此訓(xùn)練抗干擾能力強的目標特征提取神經(jīng)網(wǎng)絡(luò)是亟待解決的問題。LeCun 等人提出LeNet[4],模仿了視覺神經(jīng)網(wǎng)絡(luò)的工作方式,并將其命名為卷積神經(jīng)網(wǎng)絡(luò)。但由于當時硬件條件的限制,神經(jīng)網(wǎng)絡(luò)算法并沒有得到較為廣泛的應(yīng)用。到2012 年,AlexNet 在 ImageNet 競賽[5]中達到了80%以上的精度,自此卷積神經(jīng)網(wǎng)絡(luò)成為研究熱點。如今,隨著硬件條件的提高以及標記數(shù)據(jù)處理能力的增強,促進了卷積神經(jīng)網(wǎng)絡(luò)的快速發(fā)展,深度學(xué)習(xí)理論在計算機視覺的眾多領(lǐng)域大放異彩。
運動模型主要目的是捕獲目標的運動行為,學(xué)習(xí)目標運動的方式。在多目標跟蹤算法中引入運動模型,可以預(yù)估目標在后續(xù)幀中可能存在的位置,減少了網(wǎng)絡(luò)對圖像的搜索空間,相比于僅使用外觀模型的跟蹤算法,基于運動模型與外觀模型的跟蹤算法能夠大幅度提升目標跟蹤算法的準確度。一般情況下,我們把多目標跟蹤按照對數(shù)據(jù)的處理方式分類為在線跟蹤(online)和離線跟蹤(batch/offline)。在線和離線的主要區(qū)別在于,離線跟蹤的方式允許使用未來幀的信息,而在線跟蹤只能使用當前和時間序列之前的幀。雖然實時跟蹤算法是以在線方式運行,但由于計算性能瓶頸的限制,并不是所有在線跟蹤算法都在實時的環(huán)境中使用,尤其是在使用深度學(xué)習(xí)算法的時候。盡管多目標跟蹤有各種各樣的方法,但大多數(shù)算法還是包含以下的步驟:首先是檢測階段,目標檢測算法會分析每一個輸入幀,并識別屬于特定類別的對象,給出分類和坐標。第二是特征提取/運動軌跡預(yù)測階段,這個階段采用一種或者多種特征提取算法用來提取表觀特征,運動或者交互特征。此外,還可以使用軌跡預(yù)測器預(yù)測該目標的未來可能在的位置。接下來是相似度計算階段,在此階段表觀特征和運動特征可以被用于計算目標之間的相似性。最后是關(guān)聯(lián)階段,此階段使用計算得到的相似性作為依據(jù),將屬于同一目標的檢測對象和軌跡關(guān)聯(lián)起來,并給檢測對象分配和軌跡相同的ID。
實驗步驟說明
首先在實際采集的13 個場景中測試行人跟蹤方法的效果。除了場景的變化因素之外,尺度因素、遮擋因素以及人數(shù)密集等問題都會對跟蹤效果產(chǎn)生影響,因此我們需要在不同場景、不同變化因素下對檢測器進行測試。測試步驟如表1 所示:
表1 行人目標跟蹤算法測試步驟
實驗結(jié)果介紹說明
將不同場景的典型案例測試結(jié)果進行展示,如圖3、圖4 所示:
圖3 場景1 的行人跟蹤效果:(a)、(b)、(c)、(d)分別表示同一視頻中的不同幀,數(shù)字表示行人的身份編號,跟蹤任務(wù)旨在判斷出各個行人的運動軌跡。
圖4 場景2 的行人跟蹤效果:(a)、(b)、(c)、(d)分別表示同一視頻中的不同幀,數(shù)字表示行人的身份編號,跟蹤任務(wù)旨在判斷出各個行人的運動軌跡。
結(jié)語:本文設(shè)計的基于無人機圖像的行人目標跟蹤技術(shù)基于優(yōu)化設(shè)計的卷積網(wǎng)絡(luò),對行人特征進行了較好的表達,并利用了外觀相似度、軌跡吻合度對不同時刻物體的關(guān)聯(lián)性進行評估。本文算法在無人機視角下的圖像中,克服了行人存在尺度、視角及圖像質(zhì)量的變化,獲得了較好的行人目標跟蹤效果。