◆李娜 白雪松 黃凌霄
行人檢測跟蹤技術的系統(tǒng)研究與實現(xiàn)
◆李娜 白雪松 黃凌霄通訊作者
(寧夏大學信息工程學院 寧夏 750021)
隨著城市化進程的日益加速,人口膨脹所帶來的種種問題諸如交通擁堵、駕駛安全、監(jiān)控管理、犯罪識別等也在日益凸顯。行人檢測和跟蹤技術恰恰可以彌補這方面的缺陷,減少人力投入的同時,還可以提高檢測的準確性。本文所講主要利用Matlab作為開發(fā)環(huán)境,選用幀間差分法和三幀差分法對定點視頻中的行人進行檢測,將檢測的行人使用基于動態(tài)輪廓的跟蹤方法進行跟蹤,從而從一段視頻中檢測跟蹤運動的行人,并對比得出兩種檢測方法的優(yōu)缺點。
行人檢測跟蹤;幀間差分法;三幀差分法;動態(tài)輪廓
在移動互聯(lián)網(wǎng)時代,視頻已成為記錄、傳輸信息的主要方法之一,并廣泛應用于智能交通系統(tǒng)和無人駕駛系統(tǒng)等各個熱點領域。獲取豐富、高精度的目標信息是進一步處理后續(xù)問題的關鍵和基礎。例如,是否可以從Intelligent Trasport System準確獲取目標信息是我們進行交通分析、預測未知情況和交通事故控制的重要前提。在許多信息來源中,視頻數(shù)據(jù)是不間斷的、直觀且可靠的。使用機器視覺分析交通視頻數(shù)據(jù)是從交通領域收集動態(tài)信息的重要手段。
在視頻中對運動的行人一系列的處理時,對運動目標的檢測與跟蹤非常關鍵。通常一個視頻監(jiān)控系統(tǒng)大體可劃分為四個不同的主要單元,即對目標的檢測:搜索并檢測系統(tǒng)中我們感興趣的目標區(qū)域;目標跟蹤:對感興趣區(qū)域檢測并描述其運動軌跡;目標分類:將檢測出來的目標進行分類;最后是目標識別:目標檢測是為后續(xù)更高層次的視頻處理做基礎的。目前國內外都己有多種較為成熟的目標檢測算法。而目標跟蹤作為視頻監(jiān)控最基本的功能,在視覺處理中處于中層位置,是視頻監(jiān)控系統(tǒng)性能的主要約束條件之一[1]。
幀間差分法(Frame Difference Method)主要考慮背景相對于檢測目標是固定的,而運動目標的位置信息是變化的情況。在該前提下,讓相鄰兩個視頻幀進行相減,背景部分差值在理想狀態(tài)下為0,而運動區(qū)域的差值不為零。這時候選取一個合適的閾值把視頻幀的背景給過濾掉,從而提取到運動目標[1]。其數(shù)學模型如下:
二幀幀間差分法的優(yōu)點是計算簡單、實時性強,缺點是檢測的目標輪廓不完整,檢測到含有“空洞”的目標,在運動方向上目標被拉伸等情況。為了改進二幀幀間差分法的不足,提出了三幀幀間差分法,三幀幀間差分法的原理是對兩次相鄰的幀間差分圖進行“與”操作。
背景減除法(Background Subtraction Method)是用當前幀與背景圖像或背景模型相減,對結果進行閾值轉換后得到運動目標區(qū)域[2]。其數(shù)學模型如下:
通過上述可知,要想得到很好的目標檢測效果,就要求背景是靜止的。但是,背景很有可能隨著環(huán)境、拍攝設備的抖動而變化。為了解決這個問題,研究者們提出了大量背景建模方法,如均值濾波、中值濾波、非參數(shù)模型、線性濾波、基于碼本的模型、隱馬爾科夫模型、混合高斯模型(Gaussian Mixture Model,GMM)等。其中,GMM得到了普遍的應用。為了解決復雜場景中的檢測難題,如去除“鬼影”和“重影”等,研究者們對該方法從以下兩個方面進行了改進:一是優(yōu)化檢測算法,比如多種算法結合并利用各自優(yōu)勢進行優(yōu)化,從而優(yōu)化檢測模型;二是先用算法得到運動目標之后再優(yōu)化檢測結果。
移動對象的屬性總是與其他屬性不同,例如形狀、輪廓和子空間屬性。這些功能包括可靠性、稀有性和差異因素,可以用作目標跟蹤的基礎。特征點提取是算法的核心。當前的特征提取算法包括SIFT算法、KLT(Kanade Lucas Tomasi)算法、Harris算法、SURF算法。這里介紹一下SIFT算法。
尺度不變特征變換(Scale-Invariant Feature Transform,SIFT),該算法可以檢測出圖像中的關鍵點,是基于一些局部外觀上的興趣點,與影像的形狀和動作特征無關。該算法的另一個優(yōu)點是對光線及小視角的改變、噪聲的魯棒性非常好,是圖像領域用來描述局部特征的描述子,自從該算法發(fā)表完善之后,引用次數(shù)非常高。
SIFT特征匹配主要分兩部分:
第一部分:SIFT特征的生成,即從圖像中獲取特征向量。包括以下步驟:
(1)構建尺度空間,檢測極值點,獲得尺度不變性;
(2)特征點過濾,留下對目標精確定位后的特征點;
(3)將特征點矢量化,即分配方向值;
(4)生成特征描述子。取以特征點為中心的領域窗口,然后通過高斯加權將采樣特征點的相對方向歸入包含8個bin的方向直方圖,最后獲得特征描述子。
第二部分:SIFT特征匹配。當兩幅圖生成特征向量以后,用兩幅圖的關鍵點特征向量的歐氏距離進行判定,即在兩個關鍵點中,如果最近距離除以次近距離,結果小于某個閾值,則它們就是一對匹配點。
動態(tài)輪廓跟蹤方法的原理是先檢測運動物體,通過檢測運動物體的屬性勾勒出運動物體的輪廓,然后連續(xù)遍歷后續(xù)幀更新輪廓,以達到跟蹤的目的。該方法是基于區(qū)域的方法的一種變體,比區(qū)域跟蹤更具體,更有效,但其缺點是它對動態(tài)輪廓跟蹤方法的初始值敏感[1]。
在文獻中,二階AR模型用于跟蹤目標的運動,而一階AR模型用于跟蹤目標的尺度變化。理論推導和仿真實驗表明,一階和二階方法相結合具有很好的跟蹤效果。在貝葉斯跟蹤方法中,最早的成熟應用方法是卡爾曼濾波器(Kalman Filter,KF)。它在移動物體跟蹤中具有成熟的應用,因為它可以準確地預測固定移動目標的下一個位置。但是,KF的缺點是它只能處理線性高斯模型。KF有許多改進的模型,但不能處理非高斯非線性模型[2]。
KF的基本思想可以用一個例子來說明,假設我們要測量室內的濕度,我們用濕度傳感器得到了一個室內濕度值,但是我們還知道室內濕度的變化規(guī)律,因此我們還能得到一個濕度的預測值,那我們用這兩個值加權得到一個最終的估計值。所以,卡爾曼濾波的過程就是利用預測值和測量值進行加權從而得到估計值,值得一提的是,該過程中預測值和測量值是有權重的,而且這個權重是動態(tài)更新的,用來使估計值更準確。
定位跟蹤時,首先需要得到一個觀測位置,也可以由某種規(guī)律來預測當前的位置,把這兩個結果加權平均作為最終定位結果,其中權重取決于具體情況。
該系統(tǒng)界面主要包括四個模塊。第一個模塊是系統(tǒng)功能模塊,用來實現(xiàn)系統(tǒng)功能,一共有七個功能,分別是打開視頻、播放視頻、灰度化、差分圖、差分二值圖像、檢測跟蹤、暫停;第二個功能模塊是狀態(tài)展示模塊,分別展示視頻處理過程中的一些信息,一共包含四個功能,分別是視頻路徑、幀數(shù)、寬度、高度;第三個模塊是算法選擇模塊,選擇兩個檢測方法;第四個模塊用來展示原視頻、中間處理結果和最終處理結果,圖1展示了前3個模塊。
要實現(xiàn)行人檢測跟蹤技術的系統(tǒng),主要抓住兩個關鍵點,分別是“檢測”和“跟蹤”。通過了解目標檢測的現(xiàn)狀,發(fā)現(xiàn)在目標檢測時主要使用卷積神經網(wǎng)絡,且了解到幀差法也是主流的目標檢測的算法,遂采用幀間差分法作為本系統(tǒng)的行人檢測算法;接下來對目標進行跟蹤,其原理是對每一幀檢測出來的行人進行框畫,采用基于動態(tài)輪廓的跟蹤算法,描繪每一幀圖像框的中心坐標,形成行人的運動軌跡。
通過檢測并跟蹤行人,從而為實現(xiàn)合理調整人流并重新分配車流量、實時掌握行人位置從而進行輔助駕駛,跟蹤人像位置從而進行罪犯的識別與抓捕提供技術支持,這些將極大提升無人駕駛系統(tǒng)的安全性,提高監(jiān)控系統(tǒng)的運行效率,并實現(xiàn)實時監(jiān)控人流量,從而推進城市智能化的發(fā)展。
從行人檢測遇到的難題來看,未來的行人檢測技術的研究方向需要從以下幾個方面著手:
(1)多視角和遮擋問題。當前大多數(shù)關于行人檢測的研究都是單目的。這意味著只有一臺攝像機用于完成行人位置固定工作。對于單目視覺,難以解決多個視角和遮擋的問題。要解決此問題,可以使用多個攝像機或利用深度信息來檢測行人。同時,在多個攝像機和多個視角下捕獲人體的不同姿勢相對容易,可用來探討多目視覺中基于姿態(tài)的行人檢測方法。
(2)設計自適應的檢測器。如今大多數(shù)研究者都希望開發(fā)自適應探測器,這些探測器在特殊情況下,尤其是在攝像機靜止的監(jiān)視情況下,可以使用增量學習、在線學習和其他算法實現(xiàn)一般步態(tài),將通用行人檢測器應用于特殊場景,使得檢測器在檢測過程中進行主動學習來提高行人檢測器的性能,這是未來研究的關鍵。簡而言之,行人檢測是當今計算機視覺領域的一個中心且具有挑戰(zhàn)性的問題。該問題的解決方案具有重要的意義和良好的應用前景,因此吸引了許多研究人員進入該領域。盡管到目前為止已經取得了重大進展,但是有效解決實際復雜場景中的行人檢測問題仍然是一個難題,需要進一步研究。
圖1 GUI結構圖
[1]鄭嘉,趙潤.視頻中目標檢測與跟蹤算法綜述[J].物聯(lián)網(wǎng)技術,2017,7(4):30-32.
[2]張明軍,俞文靜,袁志,等.視頻中目標檢測算法研究[J].軟件,2016(37):40-45.