韓廷卯
(中國海洋大學 山東 青島 266100)
商場、車站、機場等地,人群密集,存在諸多安全隱患,雖然這些領(lǐng)域已廣泛采用視覺傳感器監(jiān)控場景,但大部分還停留在人工監(jiān)控的模式下,浪費人力物力,且容易因為人為的疏忽出現(xiàn)紕漏。因此,實現(xiàn)監(jiān)控視頻的人群自動計數(shù),具有十分重要的意義。
近年來,隨著計算機視覺技術(shù)的不斷發(fā)展,各國研究者提出了許多人群計數(shù)的方法,但由于互相遮擋,人體行為復雜等原因,一直未能取得滿意的效果。這些方法,在檢測少量目標時,準確度較高,一旦人群密集,檢測效果急劇下降。目前,人群計數(shù)的方法主要分為基于人體表觀模型的方法[1]和基于人體運動模型的方法[2-4]。在某些特定環(huán)境下,二者均有各自的優(yōu)勢。
二者結(jié)合的方法,效果更好,但計算費時。受文獻[2-3]的啟示,在人數(shù)較多的情境下,本文給出了一個僅僅使用人體的獨立運動信息進行人體計數(shù)的框架,取得了較滿意的效果。
一個二維圖像的特征,在時間軸上對其進行追蹤,會得到關(guān)于它的一條運動軌跡。檢測當前圖像中所有可靠的特征點,追蹤得到它們的運動軌跡,并分別計算任意兩條軌跡之間的相似度 Z(Xi,Yj),得到特征軌跡的相似度矩陣 Z(X1:N)。假設(shè)場景中每個人都包含幾條特征軌跡,我們的任務(wù)就是在所有的特征軌跡中找出最可能的聚類,這樣得到的每個特征群都可能代表了一個運動人體。
可靠而準確的聚類是關(guān)鍵,但是如果枚舉所有可能的聚類,計算量非常大,不易實現(xiàn)。我們使用運動的基本信息來限制可能聚類的數(shù)量,使聚類變得可行。根據(jù)這個思想,提出了本文的人群計數(shù)的方法,圖1是文中算法的整個流程。
可靠的特征,是進行準確人群計數(shù)的基礎(chǔ),因此,選取好的特征十分重要。而可靠的特征,必須能夠以高可靠性在連續(xù)圖像中被追蹤到,Tomasi-Kanade[5]和Harris角點特征均滿足這個條件。我們使用的是Tomasi-Kanade[5]特征,并用分層的光流法進行追蹤[6]。而為了在所有檢測到的特征中選取能穩(wěn)定追蹤的特征,我們假設(shè)獨立檢測得到的特征在后續(xù)的圖像中匹配誤差不超過一個像素。函數(shù)W(Df,n)表示對圖像f中得到的特征進行追蹤,返回在第幅圖像的位置。因此有以下判別式:
圖1 人群計數(shù)整體過程Fig.1 The whole process of counting crowds
凡是滿足上式的特征,選為有用特征。式中Df表示在第f幀圖像檢測到的所有的特征點。檢測特征時,勢必會將復雜背景中滿足條件點檢測為特征點,而這些特征點又完全符合式(1),所以這些點會被作為有用的特征參與后續(xù)的處理。但這些點實際是噪聲,會在后續(xù)的人群計數(shù)中影響結(jié)果的準確性。因此在特征檢測之前,我們通過背景減除法得到前景圖像,并以此圖像作為特征檢測時的掩膜,這樣獲得的特征點基本都是前景物體上的特征,消除了背景噪聲的影響。
對當前圖像進行特征檢測,并通過式(1)得到滿足要求的特征點,然后分別向前、向后的連續(xù)30幀圖像進行特征追蹤。追蹤使用的是分層光流法。對于待追蹤的特征點,如果在某幀圖像中沒有追蹤到可靠的位置,則使用已知的可靠速度,通過線性插值得到在該幀的位置,然后繼續(xù)進行追蹤。將各個特征點在每幀圖像的位置記錄下來,得到各個特征的軌跡{X1,X2,…,Xn}。
通過實驗發(fā)現(xiàn),距離比較近的特征點,更有可能來自于同一個人體,而距離非常遠的點肯定不是來自同一個人體。因此為了限制計算最終聚類時的類(群)數(shù)量,我們使用特征點的空間距離信息,進行初次聚類,我們稱之為空間聚類。而兩個特征點的歐氏距離,是表示空間距離的最直觀最可靠的信息。同時,為了加強此次聚類的可靠性,我們使用的是兩條特征軌跡的最大距離,即分別求出兩個特征點在每一幀的歐氏距離,然后選取最大的一個代表兩個特征軌跡的空間距離:
聚類的方法,采用的是最大樹聚類法:先將特征點之間的最大距離按升序排列,然后將特征點對逐個放入樹中,直至樹中剛好包含了所有的特征點。再將樹中最長的c-1條邊切斷,就將整個樹分成了c類(群)。其中c值是手動設(shè)置的,一般為場景中可能出現(xiàn)的人數(shù)的最大值的3-5倍,但是不超過特征點數(shù)的1/2。
空間聚類是根據(jù)本節(jié)開頭的假設(shè),只考慮特征點之間的空間距離,進行的比較粗糙的聚類,包含了一些噪聲。其中比較嚴重的情況是:當特征點中噪點比較多時,例如未消除的背景噪點,而且這些噪點之間的距離較大時,它們會占據(jù)c類(群)中比較多的部分,從而將運動軌跡完全不同,但是空間距離不是很遠的真實特征點歸為一類(群)。因此在進行最終聚類之前,要對c類(群)進行分裂處理,即將類(群)中孤立的特征點(點群)從類中分離出去形成一個新類。判斷特征點(群)孤立的標準是:與群內(nèi)其他特征軌跡之間的相似度(下文式3)均小于0.2。0.2是經(jīng)實驗獲得,可以根據(jù)不同的應用場景,選取不同的值。
該階段的聚類,是對空間聚類的結(jié)果,根據(jù)類(群)之間特征軌跡的運動信息,通過挖掘類(群)之間的相似性,決定是否將兩個類(群)融合成一個類。理想情況下,來自同一個人體上的特征點的運動軌跡應該是一致的。因此準確地定義軌跡之間的相似度,是本節(jié)的關(guān)鍵。
假設(shè):兩個獨立的特征,當它們軌跡之間的距離的變化更小時,則二者更可能來自于同一個人體。因此我們定義軌跡之間的相似度
其中,Var(Xu,Xv)=Var(dist(Xu,Xv))。 當 2 個特征軌跡來自同一個剛體,而且追蹤可靠時,二者的Q值應該是1。實際情況下,由于運動人體不是完全的平行于圖像平面,二者的距離不可能完全不變,但是對于非快速運動的人體來說,連續(xù)的61幀圖像中,在畫面中的視覺尺度變化很小,所以這個定義是可靠的。同樣,任意兩個類(群)之間的相似度,可以用特征軌跡之間的相似度來求得。
2個類Ci,Cj,定義二者之間的相似度為:
二者融合的可靠性:
只有當相似度大于閾值T0,我們才認為兩類有融合的可能。然后判斷 V(Ci,Cj),只有當它小于閾值 T1時,我們才認為兩類的融合是可靠的。T0越大,T1越小,最終的分類噪聲越少,但是魯棒性比較差,所以尋找合適的T0,T1很重要,在我們的實驗中,選取T0=0.3,T1=0.12,取得了不錯的效果。注意,上述類間相似度的定義,必須是在兩類鄰近的前提下,當兩類距離很遠時,計算它們的相似度是沒有意義的。我們判斷兩類鄰近的方法是:將兩類中心的距離與估計的人體在圖像中的視覺尺度做比較,如果大于這個尺度的1.5倍,則認為不臨近。
得到了所有類對的相似度之后,還要選擇融合類(群)的方法。這里,可以使用任何貪婪算法或者由粗到細的融合算法,但是該算法必須滿足下面的3個條件:1)能夠?qū)崟r決定從哪一個類對開始融合;2)停止融合的標準要可靠,且不重復計算;3)對于兩人之間,邊緣共享的特征點,做出合理且準確的分類。 在實驗中,我們使用符合條件(P(Ci,Cj)>T0,V(Ci,Cj)<T1)的類對來構(gòu)造最小生成樹,單個類也算是一棵樹。當一棵樹中包含的特征點的數(shù)量不少于3個,且不共線時,則認為它是一個人體。
文中實驗選取了CAVIAR數(shù)據(jù)庫中的兩段視頻,判斷鄰近時使用的橫縱方向的距離閾值為,X方向50 pixel,Y方向80 pixel;T0為 0.3,T1為 0.12。
圖2 實驗結(jié)果圖,左側(cè)為Q陣,右側(cè)為計數(shù)結(jié)果Fig.2 Result of experiments, left is the Q matrix,right is the counting result
結(jié)果顯示,通過本文算法進行人體計數(shù),基本達到了區(qū)分獨立運動人體的要求。需要注意的是,有幾個關(guān)鍵點對最終的結(jié)果有較大的影響:1)前景特征點的檢測要準確,盡量減少背景噪點的影響;2)人體存在相對運動,相對運動變化較大的部分可能被識別為不同的人體,通過選擇視頻拍攝的角度,盡量獲取頭肩部位的特征點;3)運動軌跡相同且鄰近的人體,被識別為一個人體,可以通過人體表觀特征加以區(qū)分。
文中利用物體的獨立運動信息,提出了用兩次聚類進行人體計數(shù)的框架。檢測運動物體上可靠的特征點,進行追蹤,獲得特征的運動軌跡。先對這些特征做空間聚類,然后定義軌跡相似度和類間相似度,并進行運動一致性聚類。實驗發(fā)現(xiàn),該方法在識別獨立運動時,取得了較好的效果。對消除背景噪點以及處理人體各部分相對運動的情況,該算法的處理結(jié)果還需要進一步提高,這也是下一步工作的目標。
[1]Zhao T,Nevatia.Tracking multiple humans in crowded environment[C]//CVPR,2004:406-413.
[2]Rabaud V,Belongie S.Counting Crowded Moving Objects[C]//CVPR,2006:705-711.
[3]Gabriel J B,Roberto C.Unsupervised bayesian detection of independent motion in crowds[C]//CVPR,2006:594-601.
[4]Chan A B,Vasconcelos N.Counting people with low-level features and bayesian regression[J].IEEE Transactions on Image Processing,April 2012:2160-2177.
[5]Tomasi C,Kanade T.Detection and tracking of point features[R].TechnicalReport CMU-CS-91-132.Carnegie Mellon University,1991.
[6]Bradski G.Opencv:Examples of use and new applications in stereo,recognition and tracking [C]//Proceedings of the International Conference on Vision Interface,2002:347.
[7]梁博淵.基于離散小波多分辨率分析的電網(wǎng)諧波檢測法[J].陜西電力,2010(8):53-56.LIANG Bo-yuan.Power system harmonic detection based on discrete wavelet Multi-resolution analysis[J].Shaanxi Electric Power,2010(8):53-56.