陳炳文 ,王文偉 ,秦前清
(1.武漢大學 電子信息學院,湖北 武漢 430079;2.武漢大學 測繪遙感信息工程國家重點實驗室,湖北 武漢 430079)
視頻監(jiān)控是計算機視覺領域的熱點研究對象之一。它采用圖像處理、模式識別和計算機視覺等技術,抽取并分析視頻源中的關鍵信息,及時發(fā)現(xiàn)并處理監(jiān)控場景下的異常情況。視頻監(jiān)控系統(tǒng)在民用和軍事領域中都有極大的應用前景。
由于單攝像機的視野域有限,因此在實際的目標跟蹤系統(tǒng)中,更多采用多攝像機系統(tǒng)。多攝像機的使用有利于解決遮擋、場景混亂、環(huán)境光照突變情況下的運動目標跟蹤等問題,但它同時也帶來了一些新難題,包括多攝像機之間的目標匹配、攝像機協(xié)作、攝像機之間的自動切換和數(shù)據(jù)融合等。
在集中式系統(tǒng)結構[1]中,各個攝像機采集的視頻數(shù)據(jù)直接被送到融合中心,在那里進行數(shù)據(jù)對準、數(shù)據(jù)相關、航跡記錄、預測與綜合跟蹤等,而相機無自主處理能力。這種結構的特點是信息損失小、精度高,但其對系統(tǒng)通信要求較高,融合中心計算負荷重,系統(tǒng)效率低,實時性差。因此該結構的實用性差,生存能力低。
基于攝像機的系統(tǒng)構架[2-4]主要分為傳感器處理單元SPU(Sensor Processing Unit)、中央處理單元 CPU(Central Processing Unit)和用戶接口GUI(Graphics User Interface)三部分。系統(tǒng)構架如圖1所示。
圖1 基于攝像機的系統(tǒng)構架
(1)傳感器處理單元。由單個攝像機和處理機組成,攝像機可以是紅外的或全方位的攝像機。該模塊有自主處理能力,能夠自動獲取視頻數(shù)據(jù),并進行單攝像機內(nèi)目標的檢測、分類、跟蹤等。然后把檢測結果數(shù)據(jù),如目標類型、位置、速度、時間戳、攝像機參數(shù)(位移、旋轉、放大倍數(shù)等)等傳遞給CPU。
(2)中央處理單元。主要完成SPU間的信息融合,建立SPU間的通信,并進行相關信息的數(shù)據(jù)庫操作。攝像機的分配調(diào)度是CPU的關鍵功能,根據(jù)任務的優(yōu)先級、SPU的負擔、攝像機的可視度因素進行分配。
(3)用戶接口。用戶通過GUI可以獲取目標在三維場景和目前地圖中的信息,也可以對檢測跟蹤過程進行一定的約束,如通過設置感興趣區(qū)域(ROI)對特定的區(qū)域進行嚴密監(jiān)控。
[5]提出了一種面向對象的多攝像機結構。系統(tǒng)主要分為檢測代理SDA(Specialized Detection Agency)、處理組單元 PRC(Processing Cluster)、群組管理單元CM(Cluster Manager)和用戶接口GUI等。系統(tǒng)構架如圖2所示。
圖2 面向對象的系統(tǒng)構架
(1)檢測代理。該模塊與基于攝像機結構的傳感器處理單元一樣,也是完成單攝像機下的處理工作,但是增加了與PRC間的接口。
(2)處理組單元。系統(tǒng)為每個跟蹤目標分配一個處理組單元。每個PRC根據(jù)指定目標對象的情況動態(tài)控制多個SDA。動態(tài)攝像機管理單元(DSM)根據(jù)目標、SDA的參數(shù)和所估計的觀測質量動態(tài)挑選SDA。全部PRC組成SDA和CM間的動態(tài)層,是最復雜的處理單元層。PRC的內(nèi)部結構如圖3所示。
圖3 處理組單元的內(nèi)部結構
(3)群組管理單元。負責管理動態(tài)層的PRC,為每個目標分配最優(yōu)的PRC。用戶可通過CM設置PRC的參數(shù)。
(4)用戶接口。該模塊的功能與基于攝像機結構的GUI一樣,不再重復。
基于攝像機的結構與集中式結構的區(qū)別在于:前者的每個攝像機單元有自主處理能力,送往融合中心的數(shù)據(jù)是經(jīng)過加工的精煉數(shù)據(jù)。相對于集中式系統(tǒng),此類系統(tǒng)的可靠性高,可以減小通信量,減小帶寬需求,有利于大范圍的目標跟蹤作業(yè)。面向對象的系統(tǒng)構架與基于攝像機的構架的不同之處在于它為每個目標對象單獨設置一個處理單元,將多目標處理化為多個單目標處理,可擴展性強,通信量也較小。集中式的系統(tǒng)構架因其效率低、實時性差、生存能力低,實時跟蹤系統(tǒng)一般不予采用。目前多攝像機目標跟蹤系統(tǒng)架構應用較多的是分布式結構。
視頻運動目標檢測就是從視頻序列中檢測出運動區(qū)域,并對運動區(qū)域進行分類,找到感興趣目標,如人、車等。
2.1.1 研究現(xiàn)狀
目前提出的運動檢測算法比較多,根據(jù)不同的用途和不同的環(huán)境,每種算法都有其優(yōu)缺點。參考國內(nèi)外文獻,本文將檢測算法分為四大類。
(1)基于運動場的檢測。其基本思想是:用光流矢量場[6-7]估計出每幀的運動場,然后根據(jù)每點的運動矢量分割出運動區(qū)域。該類方法可得到較好的目標邊緣,局部性能好。但該方法要求目標的幀間運動量不能太大,需要很高的采樣率,而實際的采集系統(tǒng)并不能滿足此要求,且該算法復雜,計算量大,很難滿足實時性要求。
(2)基于變化的檢測。其基本思想是:對視頻幀差圖像進行檢測,幀差可以是相鄰幀的幀差或幾幀間的幀差。該方法具有較強的場景變化適應能力,抗光照變化和抗噪聲能力強,但容易產(chǎn)生空洞現(xiàn)象,目標不完整。VSAM項目提出了一種自適應背景減除與三幀差分相結合的混合算法,能解決空洞現(xiàn)象。
(3)基于概率的檢測。其基本思想是:為像素建立概率模型,并可根據(jù)場景設定概率模型的類型和數(shù)目,從概率論的角度進行檢測。該方法的理論基礎扎實,可以加入先驗知識,檢測效果好?;旌细咚狗ā⒎菂?shù)法、隱馬爾科夫模型法等是其典型代表。
(4)基于模板的檢測。其基本思想是:預先建立對象模板,采用模板匹配的思想實現(xiàn)目標檢測。該類方法由于加入了對象的先驗知識,對于復雜的對象檢測效果更好。對象模板可以通過學習的方法建立,也可以由人機交互產(chǎn)生。該類方法需預先對目標進行建模,對象模板的優(yōu)劣會直接影響到檢測結果,所以該類算法一般適用于特定對象的檢測。
2.1.2 存在的問題及發(fā)展趨勢
視頻檢測的困難性體現(xiàn)在以下方面:抗光照變化(快或慢)、抗抖動、抗背景擾動(樹木擺動、背景物體消失或出現(xiàn))、抗陰影、抗顏色相似等。雖然人們研究了各種各樣的檢測方法來解決這些問題,并在某個方面取得了一定的效果,但目前還沒有一種通用的算法。
有人結合了概率模型和預測器如卡爾曼濾波器[12]來檢測目標;有的人融合了時域、空域(特別是梯度域),如封春升提出時域和梯度域相結合的視頻對象提取算法[10],該方法結合了背景差分法、幀差分法和梯度域。
視頻檢測的研究重點仍是以下幾個方面:優(yōu)良(如自適應)的模型或模板、高效的算法、較好的預處理和后處理等。就檢測的發(fā)展來看,研究較多的還是變化檢測法和概率模型法,一些預測技術、時空融合技術的結合也是研究熱點。
目標跟蹤就是對檢測出來的感興趣目標進行持續(xù)的尾隨觀測,獲得目標的狀態(tài)參數(shù)如位置和速度等,以便進行下一步的處理分析,如行為分析等。
2.2.1 研究現(xiàn)狀
從20世紀80年代到現(xiàn)在,出現(xiàn)了眾多的跟蹤算法,文獻[11]將視頻跟蹤算法分為四類,分別是基于區(qū)域的跟蹤、基于特征點的跟蹤、基于變形模板的跟蹤和基于模型的跟蹤。本文考慮多攝像機的條件,參考相關文獻將實用的跟蹤算法主要分為兩種:基于特征的跟蹤和基于模型的跟蹤。
(1)基于特征的跟蹤。其基本思想是:提取目標的特征,使用匹配算法、代價準則進行匹配跟蹤。針對多相機條件下,同一目標在不同視野內(nèi)的觀測值相差較大,故提取的特征應與視點無關。如VSAM項目組采用物體的3D軌跡、歸一化色度直方圖作為特征。
該類方法由于采用不變量性質的特征,故可以將特征信息傳遞給后續(xù)相機以實現(xiàn)持續(xù)跟蹤,而不用考慮攝像機間的視野交叉與否,因此更符合實際情況。該類方法的核心是特征的提取,而大部分工作是單視野內(nèi)的目標跟蹤,故可以在單視野內(nèi)使用其他更有效的算法(如區(qū)域相關法、Snake模板法等)來提高精度。
(2)基于模型的跟蹤。其基本思想是:利用多相機的交叉視野建立3D模型(汽車、人)來進行跟蹤。文獻[12]結合多源數(shù)據(jù)進行3D定位,并利用3D卡爾曼濾波器進行預測跟蹤。該方法先利用先驗知識建立目標的結構模型,再根據(jù)實際觀測值得到模型參數(shù)值。
該類方法可得到精確的3D軌跡,跟蹤可靠性高,但其模型的建立較難,特別是像人這樣的非剛性物體,且因在3D空間上進行跟蹤,運算量也較大。
2.2.2 存在的問題及發(fā)展趨勢
上述的兩類方法都或多或少存在缺點。顯然,特征的有效提取是基于特征方法的一大難點,且該類方法在單視野內(nèi)有時還要解決遮擋問題。相對而言,基于模型的方法一般無遮擋問題,但很難建立一個通用的模板(如變形模板)。另外如何定義匹配的量度來使跟蹤更精確又是一大難題。
無論哪種方法,魯棒性、準確性、快速性都是當前跟蹤技術的努力方向[11]。融合兩類方法,在建立模型的基礎上提取其不變量是跟蹤算法的發(fā)展趨勢。
數(shù)據(jù)融合就是根據(jù)給定的融合算法對各個相機給出的信息完成數(shù)據(jù)配準,做出決策并進行狀態(tài)更新。數(shù)據(jù)融合可分成三個部分:數(shù)據(jù)配準、數(shù)據(jù)關聯(lián)和決策處理。數(shù)據(jù)配準就是將不同時間、不同視角、不同設備獲得的數(shù)據(jù)變換到同一個參考框架中,使之具有可比性。大多數(shù)的數(shù)據(jù)配準方法都由四個步驟組成:特征點的提取、特征匹配、變換模型估計和數(shù)據(jù)轉換。數(shù)據(jù)關聯(lián)就是將配準后的信息和目標建立對應關系。決策處理就是針對每個目標的信息更新狀態(tài),調(diào)整調(diào)度策略,并給出下一階段的預測信息。
2.3.1 研究現(xiàn)狀
由于目標跟蹤中處理的數(shù)據(jù)一般是圖像,參考文獻[1],本文把數(shù)據(jù)融合分為3類:像素級融合、特征級融合和決策級融合。
(1)像素級融合。該方法融合各個相機的信息,再從中提取特征進行判斷識別,屬于較低層的數(shù)據(jù)處理。該方法的優(yōu)點是信息量損失最小,決策可信度高,但該方法計算復雜度高,抗干擾性差,不靈活。文獻[15]結合多源數(shù)據(jù)進行3D定位、預測處理的方法就是屬于該類方法。
(2)特征級融合。該類方法是由每個相機自己抽取特征信息,融合中心再進行特征分析處理。該方法的數(shù)據(jù)量有了一定的壓縮,有利于實時處理,其性能處于像素級和決策級之間。
(3)決策級融合。該類方法先由各相機自主做出決策,然后在融合中心完成決策的融合。該類方法的抗干擾性強,靈活性好,但信息損失量最大、精度最低,一般不宜采用。
2.3.2 存在的問題及發(fā)展趨勢
上述三類方法各有優(yōu)缺點,像素級融合要解決數(shù)據(jù)的標定問題,特征級融合要解決特征的有效提取,而決策級融合要提高精度就要提高各個相機決策的可信度。目前用的最多的是特征級融合和像素級融合,而決策級融合因信息損失太大而很少被采用。
本文詳細介紹了基于多攝像機的目標跟蹤系統(tǒng),對國內(nèi)外的研究現(xiàn)狀進行了總結。描述了多攝像機目標跟蹤系統(tǒng)的系統(tǒng)構架并進行了對比;詳細闡述了各模塊的功能,分別就算法研究現(xiàn)狀、存在的問題及發(fā)展趨勢進行了分析和總結。
隨著硬件技術的逐漸成熟,多攝像機目標跟蹤將是監(jiān)控業(yè)未來的重要技術應用,不同的研究方向也有相應的研究重點:(1)研究多源數(shù)據(jù)融合。采用光學傳感器、紅外傳感器等同時進行數(shù)據(jù)的采集,或使用多分辨率的數(shù)據(jù)進行跟蹤。這有助于擴展時空的覆蓋范圍,提高系統(tǒng)的魯棒性。(2)研究客觀的評價標準。系統(tǒng)的性能好壞需要用通用的標準進行評定,就目前而言,較多的還是使用主觀的評價標準,客觀的評價標準還有待研究。
參考文獻
[1]韓崇昭,朱洪艷,段戰(zhàn)勝,等.多源信息融合[M].北京:清華大學出版社,2006.
[2]ELLIS T.Multi-cameravideosurveillance[C].Secaritg Technology,2002.Proceedings.36th Annual 2002 International Carnahan Conterence on 2002:228-233.
[3]Nakazawa atsushi, Kato hirokazu, Hiura shinsaku, et al.Tracking multiple people using distributed vision systems[C].IEEE international conference on robotics and automation.Washington.DC, IEEE,2002:2974-2981.
[4]CHANG TH,GONG S.Tracking multiple people with a multi-camera system[C].IEEE Workshop on Multi-Object Tracking,2001:19-26.
[5]MONARI E, VOTH S, KROSCHEL K.An object-and task-oriented architecture for automated video surveillance[C].AVSS’08.IEEE Fifth InternationalConcerence on 2008:339-346.
[6]LUCAS B D,KANADE T.An iterative image-registration technique with an application to stereo vision[C].Proceedings of the International Joint Conference on Artificial Intelligence.Vancouver, BC, Canada:William Kaufmann,1981,674-679.
[7]Horn Berthold K P,Schunck Brain G.Determining optical flow[J].Artificial Intelligence, 1981,17(123):185-203.
[8]錢淵,張曉燕,夏靖波.視頻對象分割技術綜述[J].探測與控制學報,2008,30(2):64-67.
[9]WREN C, AZABAYEJANI A, DARREL T, et a1.Pfinder:Real-time tracking of the human body[J].IEEE Transactions on Pattern Analysis and Machine Intelligence, 1997,19(7):780-785.
[10]封春升,郝愛民,何兵,等.一種時域和梯度域相結合的視頻對象提取算法[J].中國圖象圖形學報,2008,13(3):494-498.
[11]侯志強,韓崇昭.視覺跟蹤技術綜述[J].自動化學報,2006,32(4):603-616.
[12]JIN H,QIAN G, RAJKO S.Real-time multi-view 3D object tracking in cluttered scenes[M].Springer Berlin/Heidelberg,2006:647-656.