焦蓬蓬,郭依正
(南京師范大學 泰州學院 信息科學與技術系,江蘇 泰州 225300)
隨著網(wǎng)絡和多媒體技術的發(fā)展,通信數(shù)據(jù)量越來越大,特別是在視頻會議、視頻電話等圖像通信中,其通信數(shù)據(jù)量大得驚人。而目前通信網(wǎng)絡的帶寬有限,不能很好地支持高質量的圖像通信業(yè)務。為了解決這些問題,國際電信聯(lián)盟先后提出了MPEG-2、MPEG-4標準。MPEG-4的初衷是針對于視頻會議、視頻電話的超低比特率編碼,但在以后的發(fā)展中,MPEG對該標準又進行了修改。MPEG-4標準引入了視頻對象VO(Video Object)的概念,編碼是基于對象(Object)的[1]。所謂對象是指一個場景中可以操作和控制的實體,而傳統(tǒng)壓縮方法是基于幀的,已無法對對象進行操作。MPEG-4中對比特率控制可以是基于對象的,即使在帶寬有限的情況下,可以利用碼率分配方法,對于用戶感興趣的對象可以多分配一些比特率,而對于用戶不感興趣的對象可以少分配一些比特率,這樣圖像質量可以得到保證。所以在MPEG-4標準中,視頻對象分割算法顯得十分重要。
視頻對象分割算法與圖像分割技術聯(lián)系緊密,圖像分割算法被廣泛地應用在視頻對象分割中。目前的視頻對象分割算法有很多,如檢測變化區(qū)域的分割方法[2],其主要是通過檢測序列圖像幀的變化區(qū)域與不變區(qū)域,從而分割出運動物體與靜止背景。該算法的關鍵是閾值的選取,分割后的圖像中沒有變化的部分表示背景圖像,變化的部分代表運動區(qū)域。這類算法的優(yōu)點是計算簡單,特別適用于室內場景(如視頻電話、網(wǎng)絡會議等)。其缺點是對噪聲敏感,在背景場景變化復雜的室外情況下,分割的效果不好?;趯ΨQ差分的視頻分割算法[3]是將數(shù)學的“與或”操作運用在圖像分割中,通過連續(xù)幀的差減、“與或”運算,可以提取出中間視頻幀的圖像運動對象。近年來,自適應閾值的方法[4]也廣泛運用在運動目標的提取上,它結合了形態(tài)學中的開啟和閉合方法來對圖像進行處理。此外還有基于時空信息的視頻對象分割算法[5]。綜上所述,視頻對象分割算法還處于發(fā)展之中,一種優(yōu)秀的分割算法不僅要與圖像分割相結合,而且還需要人工智能和運動分析等方面知識。
MPEG-4算法中對象的提取是關鍵技術之一,提取的效果直接關系到圖像壓縮的效率。對稱差分方法[3]簡單有效,但這類算法也存在一些不足。首先,由于是連續(xù)的操作,視頻圖像的背景部分和運動部分都要進行差減運算,而實際上背景是靜止不變的,只會受到噪聲的一些小影響。所以在用該算法時,背景的運算是沒有必要的,特別是在硬件實現(xiàn)上,浪費了大量CPU時間。其次,圖像的播放是30幀/s,如果在每秒都用對稱差分算法,顯然很不實際。所以一般采用的方法是每隔Δt后,采樣一幀圖像,再用該算法進行提取視頻對象。此外,每秒的視頻序列很多,而視頻運動對象的運動范圍相對固定,所以可以認為視頻對象只在一定的范圍內變化,提取視頻對象時,只要提取視頻圖像中該范圍內的視頻對象信息即可。
根據(jù)視頻對象運動的特點和MPEG-4對視頻對象的要求,以及對對稱差分分割算法的理解分析,本文提出了一種基于背景提取的視頻對象分割算法。這種分割算法適合應用在室內環(huán)境或者是視頻會議等背景變化不大、視頻對象的運動范圍變化也不大的情況下。該算法思想是:首先通過對多幀視頻序列的比較,提取出背景圖像信息,同時得到視頻對象的運動區(qū)域。對于以后的視頻序列,只要提取運動區(qū)域內的相關圖像信息即可,避免了以后視頻序列間的運算,節(jié)約了時間,減少了運算量。該算法的主要步驟如下:
(1)初始化圖像的參考對象,如第一幀圖像。
(2)求兩幀圖像之間的差,并選取一定的閾值,將圖像二值化。由于視頻對象的運動,所以運動區(qū)域的像素點值相對于背景區(qū)域的像素點值變化較大,很容易找出視頻對象。同時也可以根據(jù)Surendra原理,將背景圖像更新。背景更新的算法根據(jù)公式(1)來計算。通過多幀視頻序列的迭代,得到的背景效果會更好,然后再二值化。
式中,Di(x,y)=1為視頻對象區(qū)域,Di(x,y)=0為背景區(qū)域,Bi為第i幀圖像,α為比例系數(shù)。
(3)對二值圖像分別從 x軸、y軸進行自左向右、自上而下掃描,記錄下 Di(x,y)=1的點數(shù)和 Di(x,y)=0的點數(shù),并設置一個閾值,記錄下超過該閾值的行列值。
(4)對這些相鄰的行列值分別求差,并選取各個方向最大的兩個值作為視頻對象運動區(qū)域的上下左右4個點。因為視頻對象邊緣的像素點變化最大,通過求差分的方式可以表現(xiàn)出來。
(5)對于以后的視頻序列,可以只讀取該區(qū)域的圖像信息作為視頻對象。其中,這個矩形區(qū)域可以適當調整。步驟(4)得到的矩形是視頻對象運動最劇烈的部分,經(jīng)調整可以將視頻對象提取得更完整一些。
實驗環(huán)境:Dell公司的PC機,CPU為Intel Pentium4,主頻 1.5 GHz,內存 512 MB,操作系統(tǒng) Windows 2000。程序在Matlab 7.0下,采用foreman視頻序列來完成測試。foreman視頻序列如圖1所示,提取foreman序列時采用1幀/s的速率進行提取。從圖中可以看到,人物的運動基本是在一個相對固定的區(qū)域。提取時首先提取視頻圖像的背景,后面的視頻序列只要讀取背景以外的部分就可以了。
圖2是提取的視頻圖像的背景,圖3是從第7幀、第17幀和第22幀中提取的視頻對象。程序運行時從第7幀、第17幀和第22幀中采用任意兩幀用來提取視頻對象,運行結果為“Elapsed time is 3.561000 seconds”,即總共運行了3.561 s,少于其他算法的運行時間。
由實驗結果可以看到,該算法較準確地分割出了視頻對象,且在計算上比其他算法要簡單得多。但該算法分割出的對象區(qū)域是視頻對象運動最大的區(qū)域,導致在加矩形框時,可能存在過分割的現(xiàn)象,即將多余的圖像信息也包含了進去。因此,對于該算法中的矩形框的大小確定問題仍然需要深入研究。
本文考慮到實時性和計算量等因素,在一種對稱差分方法的基礎上,從視頻序列的背景入手,先找出視頻序列的背景信息,對以后的各幀圖像只要讀取背景以外的信息,就可以方便地提取出視頻對象。實驗仿真表明,這種方法可以快速提取出視頻對象。但是,該算法只適合于視頻會議、視頻電話等背景區(qū)域變化不大的場合。如何實現(xiàn)在室外環(huán)境和背景不斷轉換的情況下的視頻對象的有效分割需要繼續(xù)深入研究。
[1]錢淵,張曉燕,夏靖波.視頻對象分割技術綜述[J].探測與控制學報,2008,30(2):64-67.
[2]印勇,張影.基于變化檢測的視頻對象分割算法研究[J].計算機工程與設計,2008,44(13):161-163.
[3]賀貴明,李凌娟,賈振堂.一種快速的基于對稱差分的視頻分割算法 [J].小型微型計算機系統(tǒng),2003,24(6):966-968.
[4]姚軍,蔣曉瑜,黃應清.一種基于自適應閾值與邊緣跟蹤的目標提取方法 [J].裝甲兵工程學院學報,2004(4):56-57.
[5]張曉波,劉文耀,呂大偉.基于時空信息的自動視頻對象分割算法[J].光電子·激光,2008,19(3):384-387.