韓延玲,趙遼英
(杭州電子科技大學(xué)計(jì)算機(jī)應(yīng)用研究所,浙江杭州310018)
視頻檢測(cè)就是從視頻序列中將運(yùn)動(dòng)目標(biāo)從背景圖像中提取出來(lái),處于視覺(jué)監(jiān)視系統(tǒng)的最底層,是后續(xù)高級(jí)處理如視頻分析、視頻編碼、視頻檢索及視頻監(jiān)控等應(yīng)用的基礎(chǔ)。在實(shí)時(shí)的視頻檢測(cè)系統(tǒng)中,背景模型的可靠性和目標(biāo)定位的準(zhǔn)確性,直接關(guān)系到下一步視頻處理的效果。目前常用的背景建模方法包括自適應(yīng)建模方法、Kalman濾波器方法、單高斯方法及混合高斯方法等。自適應(yīng)建模方法利用時(shí)間平均法獲取自適應(yīng)模型[1],但當(dāng)檢測(cè)區(qū)內(nèi)存在大量連續(xù)的運(yùn)動(dòng)物體或運(yùn)動(dòng)目標(biāo)長(zhǎng)時(shí)間靜止時(shí),該方法失效;Kalman濾波器方法利用Kalman濾波器跟蹤每個(gè)象素抽取背景模型[2],該方法能夠克服光線變化帶來(lái)的影響,但要求象素級(jí)閾值,同時(shí)背景恢復(fù)較慢且無(wú)法處理象素的雙峰或多峰分布;單高斯方法[3],對(duì)于復(fù)雜環(huán)境(如樹(shù)枝搖動(dòng)、水面晃動(dòng)等)很難建立有效的背景模型;利用混合高斯方法來(lái)抽取背景[4,5],能夠魯棒地克服由光線、樹(shù)枝搖動(dòng)等造成的影響,但存在運(yùn)行速度慢的問(wèn)題。目前常用的運(yùn)動(dòng)目標(biāo)定位方法:基于區(qū)域生長(zhǎng)的定位方法、基于投影的定位方法以及基于聚類(lèi)的定位方法。而在這些方法中,基于區(qū)域生長(zhǎng)的定位方法最為常用,然而,常規(guī)的區(qū)域生長(zhǎng)法對(duì)于空域連通性較差的目標(biāo),容易導(dǎo)致誤定位的問(wèn)題。本文針對(duì)混合高斯背景建模和常規(guī)區(qū)域生長(zhǎng)目標(biāo)定位存在的問(wèn)題,提出了相應(yīng)的改進(jìn)方法。
依次讀入N幀視頻圖像,視頻圖像It的每個(gè)象素在整個(gè)時(shí)間上的值可看作一個(gè)時(shí)間序列,在任意時(shí)刻 t,象素點(diǎn)(x0,y0)的值為:{X1,…,Xt}={I(x0,y0,i):1≤i≤t}。
對(duì)于時(shí)間序列{X1,…,Xt}可看作由K個(gè)高斯模型迭代而成,即:
式中,K表示每個(gè)象素所允許的最大高斯模型個(gè)數(shù),通常K為3~5,ωi,t表示第i個(gè)高斯模型的權(quán)重系數(shù),η(Xt,μi,t,∑i,t)表示第i個(gè)高斯模型μi,t,∑i,t分別表示第i個(gè)高斯模型均值和協(xié)方差。
為了減小環(huán)境光線變化造成的影響,本文將得到的視頻圖像從RGB色彩空間轉(zhuǎn)換到Y(jié)CrCb色彩空間;為了降低計(jì)算復(fù)雜度,假設(shè)Y,Cr,Cb是相互獨(dú)立的,協(xié)方差矩陣可以簡(jiǎn)化為:∑=σ2I。
在室內(nèi)外場(chǎng)景中,隨著時(shí)間的變化,背景也是不斷地發(fā)生變化,如光照變化、樹(shù)葉晃動(dòng)、水面波動(dòng)等,因此,背景模型需實(shí)時(shí)更新以適應(yīng)這些變化。當(dāng)讀入一幀圖像時(shí),對(duì)于每個(gè)象素,如果其象素值與該象素的某個(gè)高斯模型的均值差d小于3σ,那么認(rèn)為此象素與該模型匹配,用此象素值更新該高斯模型的均值、方差和權(quán)值;若不匹配,則只更新模型的權(quán)值。本文采用文獻(xiàn)5中給出的更新公式進(jìn)行背景更新。通常情況下,背景在時(shí)間序列中相對(duì)穩(wěn)定,即混合背景模型中權(quán)重較大且方差變化較小的模型可認(rèn)為背景,否則作為前景。以ω/σ進(jìn)行排序,構(gòu)成β分布,則背景模型較大可能性的排在頂端,可能性最小的暫時(shí)性的背景模型將傾向于低端,將會(huì)被新的模型所代替。因此,前B個(gè)模型屬于背景模型:
式中,T是確定背景模型的閾值參數(shù),一般取T=0.6。
由于場(chǎng)景中有些部分變化不大,所以這些部分的象素的模型個(gè)數(shù)達(dá)不到最大模型數(shù)K,而在初始時(shí)仍然建立K個(gè)模型,背景更新時(shí)對(duì)其全部處理,會(huì)影響處理速度。因此,本文為每個(gè)象素動(dòng)態(tài)選取高斯模型個(gè)數(shù),首先在初始化背景模型時(shí),為每個(gè)象素建立一個(gè)高斯模型,在后續(xù)處理中增加新的模型同時(shí)更新已有模型的權(quán)值,當(dāng)模型的權(quán)值變?yōu)樨?fù)數(shù)時(shí),則舍棄該模型,以確保每個(gè)模型的權(quán)重為正數(shù),歸一化所有模型的權(quán)值。這樣針對(duì)每個(gè)象素建立不同的模型數(shù),在背景更新時(shí),減少了循環(huán)次數(shù),縮短了運(yùn)行時(shí)間,提高了處理效率。
當(dāng)前幀減去背景圖像閾值化后,得到前景二值圖。考慮到噪聲采集以及攝像機(jī)的輕微震動(dòng)的存在,需要運(yùn)用形態(tài)學(xué)的膨脹、腐蝕算法,來(lái)消除前景二值圖F(i,j)中的孤立點(diǎn),達(dá)到改善視頻對(duì)象平面的空域連通性的目的。為了后續(xù)工作的準(zhǔn)確性,需要在得到視頻運(yùn)動(dòng)區(qū)域后,進(jìn)一步定位視頻運(yùn)動(dòng)目標(biāo),即獲取視頻運(yùn)動(dòng)目標(biāo)的空間位置信息。
針對(duì)普通的區(qū)域生長(zhǎng)法對(duì)于空域連通性較差的目標(biāo),容易導(dǎo)致誤定位的問(wèn)題,本文提出了一種擴(kuò)展的區(qū)域生長(zhǎng)算法,將象素種子點(diǎn)和其鄰域擴(kuò)展為寬為W高為H的超象素,設(shè)定超象素內(nèi)前景點(diǎn)個(gè)數(shù)的閾值Tf,將象素個(gè)數(shù)超過(guò)Tf的超象素作為種子點(diǎn)或者將其合并到種子點(diǎn)的連通區(qū)域中。采用兩步擴(kuò)展區(qū)域生長(zhǎng)法的迭代思想,實(shí)現(xiàn)視頻運(yùn)動(dòng)目標(biāo)的連通區(qū)域標(biāo)記,其基本步驟如下:
(1)初始化標(biāo)記矩陣M(x,y,tk),設(shè)定超象素的寬W和高H;(2)掃描閾值化后的前景二值圖像,若超象素內(nèi)前景象素個(gè)數(shù)超過(guò)Tf,則設(shè)該超象素為種子點(diǎn),記錄下超象素左上角的坐標(biāo)f(x0,y0);(3)以f(x0,y0)為中心檢查以超象素為單位的鄰域,將滿足合并條件的鄰域超象素壓入堆棧,并置其內(nèi)所有的象素為背景點(diǎn);(4)根據(jù)步驟(3)前景點(diǎn)的坐標(biāo)找到目標(biāo)矩形框位置坐標(biāo),將矩形框坐標(biāo)壓入堆棧,返回步驟(2);(5)逐個(gè)取出矩形框位置坐標(biāo),將M(x,y,tk)對(duì)應(yīng)的矩形區(qū)域內(nèi)的象素均置為前景點(diǎn);(6)第二步擴(kuò)展的區(qū)域生長(zhǎng)標(biāo)記,重復(fù)步驟(2)~(4),步驟(5)時(shí)逐個(gè)取出矩形框位置坐標(biāo),對(duì)目標(biāo)連通區(qū)域進(jìn)行標(biāo)記,得到M(x,y,tk)。
為測(cè)試本文改進(jìn)算法的實(shí)際效果,采用VC++6.0開(kāi)發(fā)環(huán)境,在WindowsXP SP3,CPU Intel Core22.66GHz,內(nèi)存為2G的PC機(jī)上分別對(duì)自拍的實(shí)際車(chē)輛運(yùn)動(dòng)視頻序列(分辨率為352×240,幀率為15幀/s,共1 381幀)和Highway視頻序列(http://cvrr.ucsd.edu/aton/shadow/)進(jìn)行測(cè)試。其中,背景建模的學(xué)習(xí)率取0.001,最大高斯模型數(shù)M 取5,確定背景模型的閾值為0.75,均方差取3.0,取0.05,擴(kuò)展區(qū)域大小取3×5,Tf取5。自拍的實(shí)際車(chē)輛運(yùn)動(dòng)視頻序列的第137、300、500幀,如圖1所示。采用本文改進(jìn)的GMM算法比差異積累方法提取的背景更加干凈可靠,如圖2(a、b)所示。
圖1 自拍視頻序列的第137、300、500幀
圖2 自拍視頻序列的第137、300、500幀的實(shí)驗(yàn)效果圖
由圖2(c)的對(duì)比效果可見(jiàn),本文提取的前景目標(biāo)(左)不會(huì)像文獻(xiàn)6(右)那樣出現(xiàn)拖尾現(xiàn)象。圖2(d)表明,本文擴(kuò)展的區(qū)域生長(zhǎng)法(左)對(duì)目標(biāo)的定位更加準(zhǔn)確,這將有利于進(jìn)一步的運(yùn)動(dòng)目標(biāo)的跟蹤。Highway視頻序列的實(shí)驗(yàn)效果如圖3所示,Highway視頻序列背景簡(jiǎn)潔,但是視頻運(yùn)動(dòng)目標(biāo)較多,且存在某些視頻運(yùn)動(dòng)目標(biāo)區(qū)域重疊的情況,但應(yīng)用本文的算法可以很準(zhǔn)確的定位到目標(biāo)。對(duì)于自拍序列分別應(yīng)用文獻(xiàn)1和本文的改進(jìn)GMM算法,得到的運(yùn)行時(shí)間分別為156s和103s,表明本文的算法提高了處理效率。
圖3 Highway視頻序列第137、180、233幀的實(shí)驗(yàn)效果圖
本文主要在背景建模和運(yùn)動(dòng)目標(biāo)定位兩方面做了改進(jìn),自拍的實(shí)際車(chē)輛運(yùn)動(dòng)視頻序列和Highway視頻序列的實(shí)驗(yàn)結(jié)果表明,為每個(gè)象素動(dòng)態(tài)選取模型數(shù)提高了混合高斯的處理速度,擴(kuò)展的兩步區(qū)域生長(zhǎng)算法消除了視頻平面連通性差造成的目標(biāo)誤定位的問(wèn)題,改進(jìn)算法具有較好的實(shí)時(shí)性、自適應(yīng)性和魯棒性。
[1] Stauffer Chris,GrimsonW E L.Adaptive backgroundmixture models for real-time tracking[C].Cambridge:Proceeding IEEE Conference on Computer Vision and Pattern Recognition,1999:245-251.
[2] 嚴(yán)勇,黃席樾,劉愛(ài)君.Kalman濾波在運(yùn)動(dòng)圖像背景提取及更新中的應(yīng)用[J].自化與儀器儀表,2006,(2):28-30.
[3] Wren Christoper Richard,Azarbayejani Alli,Darrell Trevor.Pfinder:Real-Time Tracking of the HumanBody[J].IEEE Transactions on Pattern Analysis and Machine,1997,19(7):780-785.
[4] Power P Wayne,Schoonees Johann A.Understanding Background Mixture Models for Foreground Segmentation[C].New Zealand:Proceedings Image and Vision Computing New Zealand,2002:267-271.
[5] Zivkovic Zoran.Improved Adaptive GaussianMixtureModel for Background Subtraction[C].Cambridge:Proceedings of the 17th International Conference on Pattern Recognition,2004:28-31.
[6] 孫志海,朱善安.基于差異積累的視頻運(yùn)動(dòng)對(duì)象自動(dòng)分割[J].光電工程,2007,34(12):97-103.