宋 戈,胡 偉,肖碧波
(北京化工大學(xué) 北京 100029)
在社會(huì)公共安全領(lǐng)域,視頻監(jiān)控系統(tǒng)已經(jīng)成為維護(hù)社會(huì)治安,加強(qiáng)社會(huì)管理的一個(gè)重要組成部分。然而視頻錄像存在存儲(chǔ)數(shù)據(jù)量大,存儲(chǔ)時(shí)間長的特點(diǎn),通過錄像尋找線索,獲取信息的傳統(tǒng)做法需要耗費(fèi)大量的人力、物力以及時(shí)間,效率極低。因此,如果在視頻監(jiān)控系統(tǒng)中,對(duì)原始視頻進(jìn)行濃縮即視頻摘要,就可以快速瀏覽,鎖定檢索對(duì)象,提高工作效率,滿足各種監(jiān)控方面的需求及應(yīng)用。但是由于單個(gè)攝像機(jī)所能獲取到的場(chǎng)景信息有限,而高清廣角攝像機(jī)因其價(jià)格較高在一般的場(chǎng)合無法廣泛使用,因而,在對(duì)將要進(jìn)行視頻摘要的視頻流進(jìn)行獲取時(shí),運(yùn)用技術(shù)對(duì)多攝像頭進(jìn)行拼接具有重要的實(shí)用價(jià)值。基于多攝像頭拼接的視頻摘要就是利用圖像拼接技術(shù)將多個(gè)有公共視野的攝像頭拼接為視野范圍更廣的攝像頭,并對(duì)此拼接而成的攝像頭所捕獲的視頻流進(jìn)行視頻摘要處理。
攝像頭拼接的基礎(chǔ)是圖像拼接,國內(nèi)外對(duì)圖像拼接方面的研究,早從上世紀(jì)七八十年代就已經(jīng)開始,并且在多年的研究中取得了較多的成果,產(chǎn)生了多種不同的圖像拼接算法和溶合方法。
在當(dāng)前已經(jīng)出現(xiàn)的多種圖像拼接方法中,David Lowe于1999年提出并于2004年進(jìn)行更深入發(fā)展和完善的以局部特征描述子SIFT為核心的算法因其對(duì)平移、旋轉(zhuǎn)、光照、尺度等具有較好的魯棒性而得到廣泛應(yīng)用[1-2],該算法能實(shí)現(xiàn)較好的拼接效果,但是也存在算法復(fù)雜、計(jì)算量龐大的缺點(diǎn),計(jì)算的復(fù)雜度過高就難以滿足實(shí)時(shí)性需求,而攝像頭的拼接恰恰需要的就是一定的實(shí)時(shí)性,因此,如何在取得較好拼接效果的前提下實(shí)現(xiàn)多攝像頭拼接的實(shí)時(shí)性,是本文第一部分的研究重點(diǎn)。多攝像頭拼接的流程圖如圖1所示。
攝像頭的基本組成是幀圖像。所以多攝像頭拼接的本質(zhì)是攝像頭捕獲的幀圖像的拼接。幀圖像的拼接則主要有匹配和融合這兩步組成。
圖1 多攝像頭拼接流程圖Fig.1 The flowchart of multi-camera stitching
幀圖像拼接的質(zhì)量主要依賴于圖像匹配的精確度,因此幀圖像匹配算法是本實(shí)驗(yàn)的核心和關(guān)鍵。選擇的匹配算法要同時(shí)兼顧匹配精度和計(jì)算復(fù)雜度。特征匹配的重點(diǎn)是特征點(diǎn)檢測(cè),常用的特征點(diǎn)檢測(cè)算法有Canny算法[3]、Harris算法[4]等。本文采用比較經(jīng)典的基于sift變換的幀圖像拼接技術(shù)[1-2]。 SIFT特征匹配算法包括兩個(gè)階段,第一階段是SIFT特征的生成;第二階段是SIFT特征向量的匹配。當(dāng)兩幅幀圖像的SIFT特征向量生成完成后,我們用關(guān)鍵點(diǎn)特征向量的歐式距離(如公式(1)所示)來作為兩幅幀圖像中關(guān)鍵點(diǎn)的相似性的判定度量。
由于自動(dòng)提取和匹配得到的偽匹配特征點(diǎn)集合中難免存在誤配點(diǎn)使幀圖像拼接不準(zhǔn)確,因此,通過一種糾錯(cuò)能力很強(qiáng)的算法即RANSAC算法[5]來提純匹配點(diǎn)集合。
幀圖像融合算法有很多種,本實(shí)驗(yàn)參考Szeliski提出的一種圖像平滑過渡算法[6]:設(shè)融合區(qū)域的漸變因子為d,imagel和image2分別代表前后兩幅圖像在重疊區(qū)域的對(duì)應(yīng)像素值,image3代表融合區(qū)域的對(duì)應(yīng)像素值,則image3的值如公式(2)所示,d與幀圖像之間水平方向重疊距離有關(guān)(0 通過這樣的幀圖像融合,幀圖像之間就能慢慢過渡平滑拼接。 由于曝光程度等原因,在幀圖像融合的過程中極容易產(chǎn)生拼接縫,拼接縫對(duì)于整幅圖像來說可以理解為幀圖像的噪聲,因此消除拼接縫可以采用圖像去噪的方法。傳統(tǒng)去噪的方法有很多[7],中值濾波法速度快,但質(zhì)量一般。小波變換法算法比較復(fù)雜[8-9],實(shí)用性低。因此,我們最終采用對(duì)重疊區(qū)域進(jìn)行加權(quán)平滑的方法。這種方法的思路是:圖像重疊區(qū)域中像素點(diǎn)的灰度值由兩幅圖像中對(duì)應(yīng)點(diǎn)的灰度值加權(quán)平均得到。當(dāng)一組幀圖像匹配完成后,它們匹配過程中產(chǎn)生的變換矩陣及剪切模板也隨之被記錄下來。 攝像頭一組幀圖像拼接過程中,幀圖像匹配,幀圖像融合這兩個(gè)是最主要且耗時(shí)最多的步驟,如果能在后續(xù)的幀圖像拼接中把這兩步簡化,對(duì)于實(shí)現(xiàn)多攝像頭拼接的實(shí)時(shí)性將起到至關(guān)重要的作用。 由于攝像頭位置相對(duì)固定,當(dāng)再次從多個(gè)攝像頭提取幀圖像時(shí),我們將每組對(duì)應(yīng)幀按照首幀圖像匹配時(shí)產(chǎn)生的變換矩陣進(jìn)行變形;將變形后的幀圖像用之前首幀圖像配準(zhǔn)后產(chǎn)生的剪切模板進(jìn)行裁剪及融合;將每幀融合好的新鏡頭循環(huán)顯示,如此,便使之達(dá)到多攝像頭融合成一個(gè)攝像頭的效果。使用公用變換和剪切模板加速前后攝像頭單幀拼接時(shí)間的對(duì)比如圖2所示。 圖2 攝像頭單幀拼接時(shí)間對(duì)比圖Fig.2 Time comparison chart of camera single-frame splicing 我們知道,攝像頭被普遍用于監(jiān)控領(lǐng)域,多個(gè)攝像頭拼接成一個(gè)攝像頭之后,監(jiān)控方的捕捉視野在變寬的同時(shí),也存在著單個(gè)攝像頭錄制視頻后同樣的問題,即視頻信息量巨大,其中無用的信息占大多數(shù)[10],為了更高效的獲得所需的信息,我們需要運(yùn)用近年來被廣泛使用于刑偵監(jiān)控領(lǐng)域的視頻摘要[11]。視頻摘要是對(duì)視頻內(nèi)容的一個(gè)簡單概括,它先通過運(yùn)動(dòng)目標(biāo)分析與檢測(cè),提取運(yùn)動(dòng)目標(biāo)及背景,然后對(duì)各個(gè)目標(biāo)的運(yùn)動(dòng)軌跡進(jìn)行分析,將不同的目標(biāo)放到一個(gè)共同的背景場(chǎng)景中,并將它們以某種方式進(jìn)行組合。我們要做的,就是將拼接而成的攝像頭所捕獲的視頻進(jìn)行視頻摘要處理,實(shí)現(xiàn)攝像頭拼接更高效的實(shí)際應(yīng)用。 視頻摘要的形式多種多樣[11],兩種最基本的摘要形式為關(guān)鍵幀序列和縮略視頻。 對(duì)于多攝像頭拼接而成的新攝像頭,本文采用的視頻摘要方法參考來自于Yael Pritch提出的亂序視頻摘要法[12],基本步驟如下:首先產(chǎn)生背景視頻;一旦背景視頻提取確定,在可能的時(shí)間內(nèi)每個(gè)對(duì)象的一致性損耗將被計(jì)算;上一步即能量最小化步驟確定哪些時(shí)空對(duì)象出現(xiàn)在摘要中以及出現(xiàn)的時(shí)間點(diǎn);最后將所選擇的時(shí)空對(duì)象與時(shí)間推移后的背景相結(jié)合。 摘要視頻的背景是一個(gè)延時(shí)的背景視頻,用于延時(shí)的背景視頻的背景幀是按照內(nèi)插的時(shí)間直方圖選擇的,這個(gè)選擇的完成,使得每兩個(gè)被選擇為背景的幀之間的直方圖面積是相等的。雖然我們不能實(shí)現(xiàn)運(yùn)動(dòng)物體的精確分割,但我們可以將運(yùn)動(dòng)對(duì)象縫合于具有相似外觀的背景圖像上。這種運(yùn)動(dòng)對(duì)象與背景的一致性由此能量函數(shù)(如公式(3)確定[12]。 2.2.1 運(yùn)動(dòng)目標(biāo)的檢測(cè)與分割 為了產(chǎn)生有用的摘要,動(dòng)態(tài)對(duì)象需要被識(shí)別。我們使用一種簡化方法即計(jì)算時(shí)空管來代表動(dòng)態(tài)對(duì)象[12],同時(shí)將背景減法與最小化切割結(jié)合在一起,用以得到光滑的前景對(duì)象的分割,在此過程中,與背景梯度相吻合的圖像梯度需進(jìn)行衰減。動(dòng)態(tài)對(duì)象集的生成依賴于標(biāo)記函數(shù),通過標(biāo)記函數(shù)f可以標(biāo)記作為前景或背景圖像的每個(gè)像素r。一個(gè)理想的標(biāo)記函數(shù)f通常能夠最小化吉布斯自由能(如公式(4)所示)[13]。 標(biāo)記完成后,我們?cè)跁r(shí)空體中構(gòu)建一個(gè)包含所有的前景像素的掩模,并在此掩模上應(yīng)用一個(gè)三維形態(tài)的擴(kuò)張。其結(jié)果是,每一個(gè)對(duì)象被來自背景幾個(gè)像素包圍。最后,三維掩膜被分組為連接部件,表示為活動(dòng)對(duì)象時(shí)空管。每個(gè)活動(dòng)對(duì)象時(shí)空管b用特征函數(shù)(如公式(5)所示)表示[14]。 摘要視頻是基于時(shí)間映射M而生成,M將輸入視頻的原始時(shí)間在時(shí)間上移動(dòng)對(duì)象b映射到摘要視頻的時(shí)間片段中。這個(gè)映射過程中需滿足能量最小化,能量約束如公式(6)所示: 2.2.2 運(yùn)動(dòng)對(duì)象序列 所有檢測(cè)到的運(yùn)動(dòng)對(duì)象,必須表示為時(shí)空?qǐng)鲋械倪\(yùn)動(dòng)對(duì)象活動(dòng)集[15]并在隊(duì)列中等待用戶排列。當(dāng)一個(gè)對(duì)象時(shí)空管被插入到隊(duì)列中時(shí),其活動(dòng)損耗將被計(jì)算用以加速摘要視頻的生成。由于空間有限,在分配的空間將被耗盡的時(shí)候,部分對(duì)象時(shí)空管必須從隊(duì)列中刪除。刪除與否是通過3個(gè)條件判定:“時(shí)長”,“重要性”,“潛在的碰撞”[12]。 其中,判定物體重要性是通過計(jì)算它的特征函數(shù)和。 把所有對(duì)象時(shí)空管縫合在一起可能導(dǎo)致來自不同對(duì)象的顏色混和,因此,在消除了對(duì)象和背景之間唯一的接縫的同時(shí)需要在不同對(duì)象之間保持尖銳躍遷。對(duì)所有對(duì)象使用相似的背景并且獨(dú)立的拼接每一個(gè)運(yùn)動(dòng)對(duì)象到延時(shí)背景中。在融合階段,使用修改版本的泊松校對(duì)法(如公式(7)所示)[11]。 在將各活動(dòng)對(duì)象集縫合到背景上之后,通過計(jì)算每一個(gè)象素相應(yīng)的像素的加權(quán)平均值,得到每一個(gè)像素的值,與此同時(shí),重疊的對(duì)象被融合在一起。 如圖3~圖5所示,在幾個(gè)不同的地點(diǎn),將多攝像頭拼接成一個(gè)攝像頭使觀察者視野拓寬。 圖3 帶綠地的校園一角Fig.3 Corner of the campus with green 圖4 教學(xué)樓大門口Fig.4 At the gate of the building 圖5 一條小路的入口Fig.5 Entrance to an alley 在常用于監(jiān)控的教學(xué)樓大門口處,進(jìn)行了攝像頭拼接后新攝像頭所捕獲的視頻進(jìn)行視頻摘要處理,結(jié)果如下。 圖6(a)中畫面里的4個(gè)人分別來自于3個(gè)時(shí)間段,左邊的對(duì)象A和B第一個(gè)時(shí)段,中間的對(duì)象C第二個(gè)時(shí)段,右邊的對(duì)象D第三個(gè)時(shí)段(如圖6(b)、圖6(c)及圖6(d)所示),這些運(yùn)動(dòng)物體通過視頻摘要組合在一起,使攝像頭視頻中的有用信息能最快的被獲得。 圖6 原視頻及摘要視頻中的4個(gè)對(duì)象A,B,C,DFig.6 The four object A,B,C and D in source video and abstract video 通過視頻摘要處理后,拼接的新攝像頭拍攝的幾十分鐘視頻,在不失去重要信息的情況下就可以通過這種方式濃縮成幾分鐘,給工作效率帶來了極大的提高。 由于價(jià)格優(yōu)勢(shì)和便攜程度,攝像頭在諸如一般小型監(jiān)控等方面具有極大的應(yīng)用前景,而提取有用信息和拓寬捕獲區(qū)域又是這類應(yīng)用所追求的重點(diǎn),文中把多攝像頭拼接與視頻摘要相結(jié)合,實(shí)現(xiàn)了基于多攝像頭拼接的視頻摘要,使得這兩方面的優(yōu)勢(shì)得到充分發(fā)揮并具有更高的實(shí)用價(jià)值。但是由于視頻摘要在處理時(shí)所需工作量較大,雖然最終效果很好,但是處理的時(shí)長卻有時(shí)遠(yuǎn)大于視頻本身的時(shí)長,精確性和速度很難兩全,因此,如何在保證精確性的同時(shí)提高速度,是今后繼續(xù)研究的重點(diǎn)。 [1]David G.L.Distinctive Image Features from Scale-Invariant Keypoints.[J].international journal of computer vision 2004,39-46. [2]Lowe,D.G.Object recognition from local scale-invariant features [J].The Proceedings ofthe Seventh IEEE International Conference on 1999,1150-1157. [3]Canny.J.A Computational Approach to Edge Detection[J].IEEE Trans Pattern Analysis and Machine Intelligence,1 986(8):679?698. [4]Harris.C.and Stephens.M.A Combined Comerand Edge Detector [C]//In:Proceedings ofthe 4th Alvey Vision Conference,1988:147—151. [5]David A.Forsyth,等.計(jì)算機(jī)視覺——一種現(xiàn)代方法[M].林學(xué)閣,譯.北京:電子工業(yè)出版社,2004. [6]Szeliski.R.Video mosaics for virtual environments[J].IEEE Computer Graphics and Applications,1996,16(2):22—30. [7]丁迎,洪繼光.圖像拼接中偽匹配的判別和消解[J].中國圖象圖形學(xué)報(bào),1999,4(10):886-890.DING ying,HONG Ji-guang.Thediscriminationand digestion of pseudo-match in image stitching [J].Journal of Image and Graphics,1999,4(10):886-890. [8]Jane.Y,Parbir Bhattacharya.A Wavelet—Based Coarse-to-Fine Image Matching Scheme in A Parallel Virtual Machine Enviroment[J].IEEE Transactions on Image Processing.2000,9(9):1547-1559. [9]晃銳,張科,李言?。环N基于小波變換的圖像融合算法[J].電子學(xué)報(bào),2004,32(5):750-753.HUANG Rui,ZHANG Ke,LI Yan-jun.An image fusion algorithm based on wavelet transform [J].chinese journal of electronics,2004,32(5):750-753. [10]LI Ying.An OverView of Video Abstraction Technique[R].Image Systems Laboralory,HP Laboralory Palo Alto,HPL-2001-191,2001. [11]歐陽健全,李錦濤,張勇東.視頻摘要技術(shù)綜述[J].計(jì)算機(jī)工程,2005,30(10):7-9.OUYANG Jian-quan,LI Jin-tao,ZHANG Yong-dong.The summary ofvideo abstract [J].Computerengineering,2005,30(10):7-9. [12]Yael P,Alex R,Shmuel P.Nonchronological video synopsis and indexing[J].IEEE Transactions on Pattern Analysis And Machine Intelligence.2008(11):1971-1984. [13]Boykov Y,Kolmogorov V.An experimental comparison of Min-Cut/Max-flow algorithms for energy minimization in vision [J].IEEE Trans on Pattern Analysis and Machine Intelligence 2004(9),1124-1137. [14]Irani M,Anandan P,Bergen J,et al.Efficient representations of video sequences and their applications[J].Signal Processing on Image Comm,1996(4):327-351. [15]王成,劉桂清,老松場(chǎng),等.面向事件影片摘要生成辦法[J].中國圖象圖形學(xué)報(bào),2005,10(5):642-649.WANG Chen,LIU Gui-qing,LAO Song-yang,et al.The generation approach of event-oriented movie summary[J].Journal of Image and Graphics,2005,10(5):642-649.1.4 消除接縫并產(chǎn)生公用模板
1.5 多攝像頭實(shí)時(shí)拼接成一個(gè)攝像頭
2 新攝像頭的視頻摘要
2.1 創(chuàng)建背景視頻
2.2 基于對(duì)象的摘要
2.3 縫合成摘要視頻
3 實(shí)驗(yàn)結(jié)果
3.1 多攝像頭拼接成果
3.2 多攝像頭拼接后視頻摘要處理
4 結(jié)束語