崔智高 李艾華 姜 柯 周 杰
①(清華大學(xué)自動(dòng)化系 北京 100084)
②(第二炮兵工程大學(xué)502教研室 西安 710025)
隨著世界范圍內(nèi)對公共安全以及軍事安全的迫切需要,視覺監(jiān)控成為計(jì)算機(jī)視覺領(lǐng)域的重要研究課題。一般來說視覺監(jiān)控包括以下幾個(gè)方面的研究內(nèi)容:感興趣目標(biāo)檢測、目標(biāo)分割與跟蹤、行為分析與理解等[1-3]。由于目標(biāo)跟蹤是其中的中心環(huán)節(jié),因此得到了國內(nèi)外學(xué)者的廣泛關(guān)注。傳統(tǒng)的跟蹤系統(tǒng)[4]多采用靜止相機(jī),由于相機(jī)視場固定,分辨率單一,無法獲得跟蹤目標(biāo)的高分辨率圖像,為日后的查詢、舉證等工作帶來困難;隨著硬件水平的提高,基于單目 PTZ(Pan-Tilt-Zoom)相機(jī)的主動(dòng)跟蹤系統(tǒng)得到了廣泛研究與應(yīng)用[5],這些系統(tǒng)可使目標(biāo)以較大尺度出現(xiàn)在圖像中心,但由于視場狹小丟失了全景信息,難以直觀獲得目標(biāo)在場景中的位置。
針對上述缺陷,包含PTZ相機(jī)的多目視覺系統(tǒng)成為視覺監(jiān)控中的研究熱點(diǎn),這些系統(tǒng)一般工作在主從模式下,主相機(jī)實(shí)現(xiàn)目標(biāo)在全景下的跟蹤,并控制PTZ相機(jī)對目標(biāo)進(jìn)行主動(dòng)跟蹤。如文獻(xiàn)[6,7]提出了一個(gè)靜止相機(jī)與一個(gè) PTZ相機(jī)相結(jié)合的系統(tǒng)構(gòu)架,該系統(tǒng)主要問題在于監(jiān)控視場有限,僅局限于靜止攝像機(jī)的監(jiān)控視場,無法適應(yīng)于大場景下的監(jiān)控;為了擴(kuò)大系統(tǒng)的監(jiān)控范圍,文獻(xiàn)[8]提出了多靜止相機(jī)與PTZ相機(jī)相結(jié)合的系統(tǒng)配置,這無疑增大了系統(tǒng)的硬件開銷;此外,文獻(xiàn)[9,10]提出了全向相機(jī)與PTZ相機(jī)相結(jié)合的跟蹤系統(tǒng)配置,但該系統(tǒng)一般應(yīng)用于室內(nèi)場景,且由于全向相機(jī)分辨率低,較難實(shí)現(xiàn)兩相機(jī)之間的信息融合。
受變色龍視覺系統(tǒng)的啟發(fā),本文提出一種基于雙PTZ相機(jī)的主從跟蹤方法。由于雙目PTZ相機(jī)的對稱性和參數(shù)的可變性、可控性,相比于傳統(tǒng)主從跟蹤系統(tǒng),具有靈活性強(qiáng)、監(jiān)控范圍廣、便于信息融合等優(yōu)勢。針對傳統(tǒng)主從控制方法的局限性,本文設(shè)計(jì)了一種基于球面坐標(biāo)模型的主從控制方法,統(tǒng)一了兩相機(jī)不同參數(shù)下的情況,可以實(shí)現(xiàn)兩攝像機(jī)任意pan-tilt-zoom參數(shù)下的主從模式跟蹤,適應(yīng)于大范圍場景下的監(jiān)控。實(shí)際監(jiān)控場景中的多組實(shí)驗(yàn)結(jié)果驗(yàn)證了本文方法的有效性。
系統(tǒng)總體結(jié)構(gòu)如圖1所示。可分為圖像捕獲模塊,兩個(gè)攝像機(jī)的控制模塊以及兩個(gè)攝像機(jī)的跟蹤模塊。攝像機(jī)控制模塊一方面的用途是改變攝像機(jī)pan-tilt-zoom參數(shù)以切換監(jiān)控視場,另一方面的用途是主動(dòng)跟蹤時(shí)受另一相機(jī)(主相機(jī))控制,從而獲得目標(biāo)的高分辨率圖像。兩攝像機(jī)的跟蹤模塊具有對稱的結(jié)構(gòu),某一相機(jī)發(fā)現(xiàn)目標(biāo)后即成為主相機(jī),另一相機(jī)為從相機(jī),主相機(jī)在每一幀圖像中將跟蹤目標(biāo)的預(yù)測值傳送給從相機(jī),從相機(jī)根據(jù)預(yù)測值以及主相機(jī)pan-tilt-zoom參數(shù)利用球面坐標(biāo)模型計(jì)算其pan-tilt-zoom參數(shù)。
視覺巡視過程中,發(fā)現(xiàn)感興趣目標(biāo)的相機(jī)為主相機(jī),記為 Cam-M,另一相機(jī)為從相機(jī),記為Cam-S。本質(zhì)上,本文問題可描述為主從跟蹤過程中的從相機(jī)參數(shù)估計(jì)問題,即主相機(jī) Cam-M 在任意pan-tilt-zoom參數(shù)(PM,TM,ZM)下,由跟蹤目標(biāo)在 Cam-M 觀測圖像IM上的運(yùn)動(dòng)軌跡(t=1,…,n),估計(jì)從相機(jī) pan-tilt-zoom參數(shù)(t=1,…,n),使得跟蹤目標(biāo)始終處于Cam-S圖像中心位置。本文之所以強(qiáng)調(diào) Cam-M 在任意 pan-tiltzoom參數(shù)下,是因?yàn)閷?shí)際應(yīng)用中不同的監(jiān)控場景或監(jiān)控任務(wù)對應(yīng)的pan-tilt-zoom參數(shù)不同,實(shí)現(xiàn)任意參數(shù)下的主從模式跟蹤,具有更大的實(shí)際應(yīng)用價(jià)值。
圖1 系統(tǒng)結(jié)構(gòu)圖
傳統(tǒng)靜止相機(jī)加PTZ相機(jī)的系統(tǒng)配置中[6,7],兩攝像機(jī)的協(xié)同控制采用離散采樣的標(biāo)定方法。設(shè)[xs,ys,1]T為靜止攝像機(jī)圖像中目標(biāo)的齊次坐標(biāo),[p,t]T為使該圖像坐標(biāo)位于PTZ相機(jī)圖像中心的參數(shù),通過手動(dòng)采集一系列圖像點(diǎn)及其對應(yīng)的參數(shù),可獲得兩者之間的匹配函數(shù)F。
針對本文系統(tǒng),如果采用上文提到的離散采樣映射的標(biāo)定方法,當(dāng) Cam-M 參數(shù)變化時(shí),需要重新建立Cam-M圖像坐標(biāo)與Cam-S的pan-tilt-zoom參數(shù)之間的映射關(guān)系,這無疑會(huì)影響系統(tǒng)的應(yīng)用。本文設(shè)計(jì)了一種基于球面坐標(biāo)模型的主從控制方法,只要兩個(gè)相機(jī)安裝固定,不受 Cam-M 參數(shù)改變的影響,可實(shí)現(xiàn)任意pan-tilt-zoom參數(shù)下的主從模式跟蹤。
3.2.1主相機(jī)目標(biāo)跟蹤主相機(jī) Cam-M 發(fā)現(xiàn)目標(biāo)后,采用靜止相機(jī)下的跟蹤方法逐幀跟蹤目標(biāo)?;谙到y(tǒng)的實(shí)時(shí)性要求,本文采用基于顏色直方圖的Mean Shift跟蹤算法[16]。顏色模型選用受光照影響較小的H分量作為目標(biāo)的顏色特征向量,并把H分量量化為16個(gè)色度空間,利用該分量核函數(shù)加權(quán)直方圖作為目標(biāo)模型,通過Mean Shift的迭代運(yùn)算,可在當(dāng)前幀中搜索與目標(biāo)模型最相似的潛在目標(biāo),目標(biāo)模型與候選模型的相似度用巴氏系數(shù)度量。
在2008年,針對英語專業(yè)課程改革,文秋芳以 Swain 的“輸出假設(shè)”作為理論基礎(chǔ),首次提出了基于“學(xué)用一體”理念的“輸出驅(qū)動(dòng)假設(shè)”。2013 年文秋芳將該假設(shè)拓展應(yīng)用到大學(xué)英語教學(xué),2014年該假設(shè)被修訂為“輸出驅(qū)動(dòng)-輸入促成假設(shè)”,并將其正式命名為“產(chǎn)出導(dǎo)向法”(如圖1所示)。
Mean Shift跟蹤算法一般采用前一幀目標(biāo)的中心作為當(dāng)前幀跟蹤窗口的初值進(jìn)行迭代,當(dāng)目標(biāo)運(yùn)動(dòng)速度較快時(shí),有可能丟失跟蹤目標(biāo),為此,本文引入Kalman濾波器。本文中Kalman濾波器有兩個(gè)作用:一是通過先前幀的觀測預(yù)測目標(biāo)在當(dāng)前幀的中心位置,并在當(dāng)前幀的預(yù)測鄰域內(nèi)進(jìn)行目標(biāo)搜索與匹配,這樣既可提高迭代收斂速度,又可以減小目標(biāo)丟失的可能性;二是將跟蹤目標(biāo)中心位置的預(yù)測值傳送給從相機(jī),從而可以抵消圖像處理和從相機(jī)機(jī)械運(yùn)動(dòng)的延時(shí)誤差,保證目標(biāo)處于從相機(jī)中心位置。如圖2所示。
3.2.2 從相機(jī)參數(shù)估計(jì)主相機(jī)能夠及時(shí)捕捉目標(biāo)運(yùn)動(dòng)的全景信息,但分辨率較低,目標(biāo)的精確定位與跟蹤需要由從相機(jī)完成,從相機(jī)需要不斷調(diào)整自身參數(shù)以適應(yīng)目標(biāo)位置的變化。本文設(shè)計(jì)了基于球面坐標(biāo)模型的從相機(jī)參數(shù)估計(jì)方法,其基本思想是對兩個(gè)攝像機(jī)坐標(biāo)系分別求取一個(gè)變換矩陣RM和RS,建立球面坐標(biāo)系,并使兩攝像機(jī)坐標(biāo)系上對應(yīng)點(diǎn)在球面坐標(biāo)系上的經(jīng)度值保持一致,緯度差可用來表達(dá)視角差異。這樣以兩個(gè)攝像機(jī)的球面坐標(biāo)系為橋梁,通過一系列坐標(biāo)變換,可準(zhǔn)確地估計(jì)從相機(jī)參數(shù)。
圖2 目標(biāo)跟蹤與目標(biāo)預(yù)測示意圖
為了估計(jì)變換矩陣RM和RS,采用文獻(xiàn)[11,13]的方法:手動(dòng)采集監(jiān)控場景中的N對圖像,并使每對圖像的視場基本保持一致以獲得更多的匹配特征點(diǎn)對,然后采用多組基礎(chǔ)矩陣的方法計(jì)算變換矩陣RM和RS,由于此方法是基于統(tǒng)計(jì)意義上的,理論上講N越大,RM和RS估計(jì)越準(zhǔn)確,本文中取N=2 0。當(dāng)攝像機(jī)安裝固定后,即使兩攝像機(jī)pantilt-zoom參數(shù)變化,RM和RS也不會(huì)改變,因此可以方便處理相機(jī)參數(shù)變化的情形。
從相機(jī)參數(shù)估計(jì)過程具體可以分為4個(gè)步驟,如圖3所示。
圖3 從相機(jī)參數(shù)估計(jì)流程
本文采用匹配特征點(diǎn)[17]的方法對 PTZ相機(jī)進(jìn)行標(biāo)定,攝像機(jī)參數(shù)矩陣R和K可直接通過攝像機(jī)pan-tilt-zoom參數(shù)進(jìn)行計(jì)算。
步驟 2 Cam-M 攝像機(jī)坐標(biāo)到球面坐標(biāo)的變換。將變換到Cam-M對應(yīng)的球面坐標(biāo)系,并計(jì)算經(jīng)度和緯度,計(jì)算公式如式(2)所示。
因此
事實(shí)上場景中目標(biāo)的深度Dt是未知的,系統(tǒng)無法準(zhǔn)確估計(jì)目標(biāo)在Cam-S球面坐標(biāo)系下的緯度。本質(zhì)上,計(jì)算目標(biāo)深度Dt和計(jì)算目標(biāo)在 Cam-S球面坐標(biāo)系下的緯度是基本等價(jià)的,它們可看作chicken-and-egg問題。
圖4 根據(jù)深度范圍確定從相機(jī)緯度范圍
其中λ和γ為加權(quán)系數(shù),滿足λ+γ=1 。
3.2.3 從相機(jī)控制估計(jì)出從相機(jī)pan-tilt-zoom 參數(shù)后,即可通過串口發(fā)送命令控制相機(jī)運(yùn)動(dòng)到指定參數(shù)。PTZ控制包括參數(shù)控制和速度控制兩部分。對于參數(shù)控制,由于本文在主相機(jī)目標(biāo)跟蹤環(huán)節(jié)引入了預(yù)測機(jī)制,因此可以部分抵消指令發(fā)出的通訊延遲以及相機(jī)機(jī)械運(yùn)動(dòng)的延時(shí)誤差,保證目標(biāo)處于從相機(jī)中心位置。此外,相機(jī) pan-tilt運(yùn)動(dòng)的速度應(yīng)與目標(biāo)運(yùn)動(dòng)的速度成正比,因此本文在主相機(jī)中度量前一幀目標(biāo)中心位置和當(dāng)前幀目標(biāo)預(yù)測位置的差異,如果某個(gè)方向坐標(biāo)偏移較大,則給定一較大速度,反之,則給定一較小速度(x方向坐標(biāo)差異對應(yīng)pan控制速度,y方向坐標(biāo)差異對應(yīng)tilt控制速度),這樣可保證跟蹤的平滑性,并可降低相機(jī)運(yùn)動(dòng)帶來的圖像模糊。
3.2.4高分辨率結(jié)果圖跟蹤結(jié)束后,系統(tǒng)以高分辨率全景形式輸出,其作用在于可以提高可視化效果,并且有利于后期進(jìn)行行為分析、犯罪取證等應(yīng)用。
首先,采用基于特征點(diǎn)和直接像素相結(jié)合的方法[14]對兩相機(jī)的同步幀圖像進(jìn)行配準(zhǔn),由于基線長度相對于監(jiān)控場景深度可忽略不計(jì),本文采用仿射配準(zhǔn)模型。采用running average[18]方法估計(jì)主相機(jī)背景區(qū)域并分離前景,通過兩相機(jī)同步幀不同分辨率圖像間的配準(zhǔn)模型,估計(jì)出從相機(jī)對應(yīng)幀圖像中的前景區(qū)域和背景區(qū)域。
依次將從相機(jī)每一幀高分辨率圖像的背景區(qū)域映射到IH中,并采用running average[18]的方法進(jìn)行更新。
最后,依次將從相機(jī)每一幀高分辨率圖像的前景區(qū)域映射到IH中,生成每一幀的高分辨率全景圖。
本文系統(tǒng)使用SONY EVI D70系列PTZ相機(jī),兩個(gè) PTZ相機(jī)固定在室內(nèi)屋頂用來監(jiān)控室外大場景。兩個(gè)PTZ相機(jī)通過RS232串口總線控制,捕獲圖像的大小為320×240,整個(gè)系統(tǒng)在C++環(huán)境執(zhí)行,運(yùn)行環(huán)境為3.0 G CPU和1 G內(nèi)存的PC機(jī)。
實(shí)驗(yàn)中給定場景深度范圍為 50~200 m,兩相機(jī)基線長度為0.78 m,由于監(jiān)控場景較大,跟蹤目標(biāo)尺度變化較小,本文對從相機(jī)給定固定的 zoom值,令zoom=18。加權(quán)系數(shù)λ和γ取0.5,生成的高分辨率全景圖大小為1600×1200,即k=5。在室外場景中進(jìn)行了多組實(shí)驗(yàn),驗(yàn)證了方法的有效性,實(shí)驗(yàn)結(jié)果可從http://ivg.au.tsinghua.edu.cn/index.php?n=Main.Data下載。下文中給出了其中的兩個(gè)實(shí)驗(yàn)結(jié)果。
實(shí)驗(yàn)1Cam-L發(fā)現(xiàn)感興趣目標(biāo)成為主相機(jī)(Cam-M),對應(yīng)的pan-tilt-zoom參數(shù)為p=-63.52,t=-1 1.32,z=1 1.50。實(shí)驗(yàn)結(jié)果如圖5所示。圖5(a)給出了其中幾幀的跟蹤結(jié)果,在第 1幀圖像中Cam-L發(fā)現(xiàn)目標(biāo)并開始跟蹤,Cam-R從初始位置開始調(diào)整PTZ參數(shù),在第48幀獲得目標(biāo)的高分辨率圖像,中間圖像為第195幀、310幀以及460幀的跟蹤結(jié)果,第565幀為目標(biāo)離開Cam-L視場,跟蹤結(jié)束,兩相機(jī)恢復(fù)到預(yù)先設(shè)定位置。圖 5(b)為高分辨率全景拼接結(jié)果(為了可視效果及節(jié)省空間,本文將48幀、195幀、310幀以及460幀的前景映射到一張圖像中)。
實(shí)驗(yàn)2Cam-R發(fā)現(xiàn)感興趣目標(biāo)成為主相機(jī)(Cam-M),對應(yīng)的pan-tilt-zoom參數(shù)為p=-90.66,t=-1 3.50,z=10.00。實(shí)驗(yàn)結(jié)果如圖6所示(說明可參照實(shí)驗(yàn)1)。
為了驗(yàn)證從相機(jī)主動(dòng)跟蹤過程中參數(shù)估計(jì)的準(zhǔn)確性,本文以實(shí)驗(yàn)1為例,根據(jù)目標(biāo)在主相機(jī)的運(yùn)動(dòng)軌跡,手動(dòng)調(diào)整從相機(jī)參數(shù),使目標(biāo)在主相機(jī)每一幀圖像上軌跡點(diǎn)坐標(biāo)處于從相機(jī)中心位置,并記錄從相機(jī) pan-tilt參數(shù),該參數(shù)可以看作真實(shí)值,將其與本文從相機(jī)參數(shù)估計(jì)結(jié)果進(jìn)行比較,如圖 7所示??梢钥闯?,本文方法能夠比較精確地估計(jì)從相機(jī)參數(shù),其中pan參數(shù)的平均估計(jì)誤差為0.243°,tilt參數(shù)的平均估計(jì)誤差為0.299°。
本文借鑒變色龍視覺系統(tǒng)的機(jī)制,利用兩個(gè)PTZ相機(jī)構(gòu)建了能夠?qū)崿F(xiàn)大場景下廣域監(jiān)視和高分辨率精確關(guān)注的主從跟蹤系統(tǒng)。該系統(tǒng)相對于其它系統(tǒng)具有靈活性強(qiáng)、監(jiān)控范圍廣、便于信息融合等優(yōu)勢。針對傳統(tǒng)主從控制方法的局限性,我們設(shè)計(jì)了一種基于球面坐標(biāo)模型的主從控制策略,可方便處理兩相機(jī)參數(shù)變化的情形,能夠?qū)崿F(xiàn)兩攝像機(jī)在任意參數(shù)下的主從模式跟蹤。此外,為了直觀獲得目標(biāo)運(yùn)動(dòng)的高分辨率信息,系統(tǒng)以高分辨率全景作為結(jié)果輸出,增強(qiáng)了系統(tǒng)的可視性和實(shí)用性。在室外場景中進(jìn)行了多組實(shí)驗(yàn),驗(yàn)證了方法的有效性,為大場景下可變視角監(jiān)控以及多分辨率視覺跟蹤提供了一條有價(jià)值的途徑。
圖5 主從跟蹤與高分辨率全景拼接結(jié)果(Cam-L為主相機(jī))
圖6 主從跟蹤與高分辨率全景拼接結(jié)果(Cam-R為主相機(jī))
圖7 pan參數(shù)和tilt參數(shù)估計(jì)結(jié)果
本文下一步將構(gòu)建準(zhǔn)確的場景深度模型以實(shí)現(xiàn)對從相機(jī)的精確控制,此外,考慮到一般監(jiān)控場景下,地平面總是可見的,研究如何利用地平面約束實(shí)現(xiàn)主從模式跟蹤也是本文下一步的研究內(nèi)容。
[1]Salti S, Cavallaro A, and Stefano L D. Adaptive appearance modeling for video tracking: survey and evaluation[J].IEEE Transactions on Image Processing, 2012, 21(10): 4334-4348.
[2]李擁軍, 曾標(biāo), 徐克付, 等. 復(fù)雜背景下基于貝葉斯-全概率聯(lián)合估計(jì)的前景檢測[J]. 電子與信息學(xué)報(bào), 2012, 34(2): 388-392.
Li Yong-jun, Zeng Biao, Xu Ke-fu,et al.. Foreground object detection in complex background based on Bayes-total probability joint estimation[J].Journal of Electronics&Information Technology, 2012, 34(2): 388-392.
[3]Jiang F, Yuan J S, Tsaftaris S,et al..Anomalous video event detection using spatiotemporal context[J].Computer Vision and Image Understanding, 2011, 115(3): 323-333.
[4]趙高鵬, 薄煜明, 尹明鋒. 一種紅外和可見光雙通道視頻目標(biāo)跟蹤方法[J]. 電子與信息學(xué)報(bào), 2012, 34(3): 529-534.
Zhao Gao-peng, Bo Yu-ming, and Yin Ming-feng. An object tracking method based on infrared and visible dual-channel video[J].Journal of Electronics&Information Technology,2012, 34(3): 529-534.
[5]Varcheie P D Z and Bilodeau G A. People tracking using a network-based PTZ camera[J].Machine Vision and Application, 2011, 22(4): 671-690.
[6]Zhou X H, Collins R T, Kanade T,et al.. A master-slave system to acquire biometric imagery of humans at a distance[C]. ACM SIGMM International Workshop on Video Surveillance, Berkeley, USA, Nov. 7, 2003: 113-120.
[7]Choi H C, Park U, and Jain A K. PTZ camera assisted face acquisition, tracking & recognition[C]. IEEE International Conference on Biometrics: Theory, Application and Systems,Washington, USA, Sept. 27-29, 2010: 1-6.
[8]Krahnstoever N O, Yu T, Lim S N,et al..Collaborative real-time control of active cameras in large-scale surveillance systems[C]. Workshop on Multi-camera and Multi-modal Sensor Fusion Algorithms and Applications, Marseille,France, Oct. 18, 2008: 1-12.
[9]Chen C H, Yao Y, Page D,et al..Heterogeneous fusion of omnidirectional and PTZ cameras for multiple object tracking[J].IEEE Transactions on Circuits and Systems for Video Technology, 2008, 18(8): 1052-1063.
[10]毛曉波, 陳鐵軍. 基于人類視覺特性的機(jī)器視覺系統(tǒng)[J]. 儀器儀表學(xué)報(bào), 2010, 31(4): 832-836.
Mao Xiao-bo and Chen Tie-jun. Machine vision system based on human vision features[J].Chinese Journal of Scientific Instrument, 2010, 31(4): 832-836.
[11]Wan D R and Zhou J. Stereo vision using two PTZ cameras[J].Computer Vision and Image Understanding, 2008,112(2): 184-194.
[12]Wan D R and Zhou J. Multi-resolution and wide-scope depth estimation using a dual-PTZ-camera system[J].IEEE Transactions on Image Processing, 2009, 18(3): 677-682.
[13]Wan D R and Zhou J. Self-calibration of spherical rectification for a PTZ-stereo system[J].Image and VisionComputing, 2010, 28(3): 367-375.
[14]Zhou J, Hu H, and Wan D R. Video stabilization and completion using two cameras[J].IEEE Transactions on Circuits and Systems for Video Technology, 2011, 21(12):1879-1889.
[15]Zhou J, Wan D R, and Wu Y. The chameleon-like vision system[J].IEEE Signal Processing Magazine, 2010, 27(5):91-101.
[16]Comaniciu D, Ramesh V, and Meer P. Kernel-based object tracking[J].IEEE Transactionson Pattern Analysis and Machine Intelligence, 2003, 25(5): 564-577.
[17]Sinha S N and Pollefeys M. Pan-tilt-zoom camera calibration and high-resolution mosaic generation[J].Computer Vision and ImageUnderstanding, 2006, 103(3): 170-183.
[18]Cucchiara R, Grana C, Piccardi M,et al..Detecting moving objects, ghosts, and shadows in video streams[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2003, 25(10): 1337-1342.