任克強,張盼華,謝 斌
(江西理工大學 信息工程學院,江西 贛州341000)
在計算機視覺和圖像處理領域中,智能視頻監(jiān)控技術是一個重要的研究課題,已被廣泛的應用在智能交通、智能安防以及智能建筑等領域。如何從一組連續(xù)的視頻序列中提取出運動目標是其首要解決的問題之一。常見的運動目標檢測方法有:光流法[1]、幀間差分法[2]和背景差分法[3]。光流法是通過計算光流場而得到運動目標,不需要預先知道有關場景信息,但計算量較大,目前沒有較好通用的硬件支持。幀間差分法是將相鄰的兩幀圖像對應像素點進行相減而得到運動目標,能夠適應光照突變,具有較小的計算量,但抗噪聲性能較差、易出現(xiàn)空洞現(xiàn)象。背景差分法是將當前視頻圖像幀和建立的背景模型進行相減而得到運動目標,該算法復雜度不高、實用性較好,能夠滿足實時性要求。
混合高斯模型 (Gaussian mixture model,GMM)是背景差分法中一種常見背景建模方法[4],其關鍵是建立符合場景的背景模型與模型的有效自適應維護更新。文獻 [5]將混合高斯模型應用于場景的背景建模與前景分割中,由于其良好的背景擬合能力和較強的適應性而得到廣泛關注。文獻 [6]提出了一種融合背景減除法的改進混合高斯算法能夠快速檢測出運動目標,有效地抑制反光物體帶來的頻繁閃動。文獻 [7]采用自適應高斯模型數(shù)目的方法同像素點的空間位置相結合改進了混合高斯模型,但是該方法并沒有自適應學習率。文獻 [8]根據(jù)背景演變過程進行劃分的自適應學習率方法,但其學習速率仍是設定有限的幾種固定的學習速率,沒能實現(xiàn)真正的自適應非跳變的學習。文獻 [9]通過統(tǒng)計像素點到t時刻匹配的總次數(shù)的倒數(shù)作為學習速率,在較短的有限時間內(nèi)是可行的,但背景模型經(jīng)過較長時間后學習速率進行了一定的惡性積累,學習速率會衰減為一個很小的值,若背景像素被前景像素長期覆蓋,則需要更長的時間才能學習到真實的新背景。
針對上述的不足,提出了一種改進的混合高斯模型。將背景模型學習過程劃分兩個大的階段:背景初始形成階段和背景維護更新階段,針對不同的階段采用不同的更新策略,自適應實現(xiàn)對背景模型的更新,實現(xiàn)自適應擬合真實背景分布。
混合高斯模型是一種無監(jiān)督學習的參數(shù)化模型,是單高斯概率密度函數(shù)的延伸,能夠平滑近似任意形狀的概率密度分布。由于其良好的對真實場景背景分布擬合逼近能力,被廣泛應用在運動目標檢測中。
在時間軸上,將視頻序列中同一位置像素點的xt值變化視為一種隨機過程并且認為服從高斯分布,像素點在t時間的狀態(tài)可以用K 個高斯模型表示,由這多個高斯分布構造出來的背景模型實現(xiàn)對真實背景分布逼近,其概率函數(shù)模型為
式中:Xt——t 時刻樣本像素觀察值;K——模態(tài)總數(shù);i——模態(tài)序號;ui,t——模態(tài)的均值;wi,t——模態(tài)的權重;∑i,t——協(xié)方差矩陣;η(Xt,ui,t,∑i,t)——概率密度函數(shù);P(Xt)——Xt的概率函數(shù)。
模型匹配準則是將當前觀測到的像素點I(x,y)與已有的K 個高斯分布進行比較,若滿足式 (3),則認為當前像素點I(x,y)與高斯分布模型匹配,否則認為不匹配
式中:D 為置信參數(shù),一般取2.5;ui,t-1和σi,t-1分別為第i個高斯分布在t-1時刻的均值和標準差。
(1)若匹配,則將匹配的高斯分布參數(shù)按如下規(guī)則進行更新
式中:α為學習速率,一般取0.005;Mi,t為偏置,匹配時取1,不匹配時取0;ρ=α×η(Xt,ui,t,∑i,t)為期望與方差的學習速率。
(2)若不匹配,則用當前幀的均值,初始化一個較大方差、較小權重的高斯模型,并將新的高斯模型取代排序最后一個背景模型;權重更新只需將式 (4)中的Mi,t值取0;對于其他高斯模型,其均值和方差取值不變。
背景估計與前景分割的本質(zhì)屬于分類器的設計,首先將高斯分布優(yōu)先級按wi,t/σi,t的值從大到小排列,然后從排列在最前的第一個模型開始,取B 個高斯分布作為混合高斯分布的背景模型
式中:T 為閾值,一般取0.7-0.8。
進行前景檢測時,選取B 個高斯模型作為背景模型后,將當前幀的像素值I(x,y)與B 個高斯背景模型分別進行比較,若I(x,y)與背景模型中任何一個模態(tài)匹配,則該像素點為背景點,否則為前景點。
圖像中像素點I(x,y)處的像素變化可視為一種隨機過程,在t時刻的觀察值可以用Xt來表示,其中Xt=[xRxGxB]T為像素點的RGB 彩色向量。圖像場景中內(nèi)容的變化對于彩色監(jiān)控攝像機而言,表現(xiàn)為RGB彩色分量的變化,即同一坐標位置像素點的RGB 值由新的值代替。如圖1所示,本文以Campus_1和highway監(jiān)控視頻序列作為分析樣本。如表1所示,分別選取4種不同的觀測樣本點,分析了場景中無目標 (A 點,靜止路面)、少量運動目標 (B點,緩慢行人;D 點,搖擺樹枝)、多運動目標(C點,行駛車輛)等像素點變化情況,其像素點RGB分量變化圖、灰度分布圖、RGB 三維分布圖如圖2、圖3和圖4所示。從圖中可以看出,像素變化主要有以下特性:
(1)無任何目標出現(xiàn)的情況
當場景像素點無任何目標出現(xiàn)時,如圖2 (a)所示,像素RGB彩色分量變化較為平穩(wěn);如圖3 (a)所示,模型呈現(xiàn)較為集中單峰模態(tài);如圖4 (a)所示,像素RGB三維空間分布呈現(xiàn)密集的橢球形。此時對于模型而言應當采用較小的學習速率,保持模型的相對穩(wěn)定。
圖1 測試樣本圖像序列
(2)少量目標與多目標出現(xiàn)的情況
當場景中出現(xiàn)運動目標時,如圖2 (b)、圖2 (c)所示,運動目標經(jīng)過的地方像素RGB 彩色分量值產(chǎn)生突變。背景像素RGB彩色分量值變化可能是短時的突變,即經(jīng)過有限幀數(shù)變化圖像像素RGB彩色分量值又恢復到原來的背景RGB彩色分量值中心周圍。若短時突變,如圖3 (b)所示,模態(tài)呈現(xiàn)集中的單峰情況;如圖3 (c)所示,目標像素點分布遠離模型分布中心像素;如圖4 (b)所示,RGB三維空間分布仍呈現(xiàn)密集的橢球形。此時對于模型而言應采用較小的學習速率,減小對場景的誤學習,保持背景模型的相對穩(wěn)定。
(3)場景中目標由靜止到運動或者由運動到靜止的情況
背景像素RGB彩色分量值變化也有可能是長時間的突變,如運動目標停止將原始背景遮蓋或靜止目標運動使得原始背景的裸露。這種變化表現(xiàn)為原始背景像素消退,形成新特性背景,如圖2 (d)所示,背景像素變化表現(xiàn)為RGB彩色分量值的整體搬移;如圖3 (d)所示,模態(tài)呈現(xiàn)單峰與多峰并存;如圖4 (d)所示,新特性像素點分布遠離模態(tài)分布中心,形成一個新的模態(tài)中心。此時應加大權重的學習速率,加速模型收斂速度。
由此可見,混合高斯模型中的學習速率α值大小顯得非常重要,α取值過小,則模型更新速度減慢,模型對真實場景的學習產(chǎn)生滯后,這樣會把某些已經(jīng)不是前景的物體誤判為運動目標,造成目標的誤檢;α取值過大,則模型的更新速度過快,這樣容易使目標溶入背景,造成目標的漏檢。因此,混合高斯模型在對真實場景學習時,學習速率選取不當,則模型的有效更新會產(chǎn)生滯后,容易造成模型中存在 “模態(tài)殘留”和 “有效模態(tài)丟失”情況,使得模型的有效估計滯后于真實背景的變化,在前景檢測與目標分割時出現(xiàn) “拖影”現(xiàn)象。
(4)像素變化 (目標,背景)均值、方差和標準差之間的特性分析,相關統(tǒng)計見表1。
表1 像素樣本點的均值、方差和標準差
圖2 Campus_1與Highway的像素RGB變化
圖3 Campus_1與Highway的像素灰度分布
圖4 Campus_1與Highway的像素RGB分布
由表1可以看出,目標出現(xiàn)位置像素點的方差和標準差值較大;無目標出現(xiàn)的位置像素點的方差與標準差都是很小的值。傳統(tǒng)混合高斯模型方差學習速率ρ=α×η(Xt,ui,t,∑i,t),可以看出ρ遠小于α,要使多個高斯分量的協(xié)方差矩陣∑i,t能夠得到準確估計,則相對應的樣本觀察時間近似長度要求ρ >α。正由于方差學習速率的觀察時間偏小,導致方差收斂速率較慢,不符合真實場景的方差變化情況。因此,在背景模型穩(wěn)定后,應當加速其方差的收斂。
從上述分析的像素點變化特性可以看出,場景的變化是復雜和多變的,對于混合高斯模型而言,背景模型建立與有效維護更新伴隨著運動目標檢測的整個過程,而背景模型建立與維護更新又依賴于模型的控制參數(shù)。
(1)模態(tài)權重反映出某一模態(tài)出現(xiàn)的可能性,而學習速率又是模態(tài)權重的重要控制參數(shù)。從第2節(jié)分析可以看出,時域中RGB 彩色分量變化呈現(xiàn):漸進變化、瞬時變化、周期變化、非周期隨機變化等特征,當對新的場景采樣值進行學習時,由于傳統(tǒng)混合高斯模型權重學習速率是一個固定值,不能較好的適應場景中不同情況的變化,導致對模態(tài)參數(shù)的估計值嚴重滯后于采樣樣本的變化,算法正確有效更新速度較慢,不能及時適應場景的變化。因此隨著采樣時間的增大,權重學習速率應當為某種動態(tài)的值,才能夠適應這種變化,即對不同的像素點采用不同的學習速率來進行學習。
(2)混合高斯模型的本質(zhì)是在線聚類,模型中的協(xié)方差矩陣體現(xiàn)了各高斯分量對應的聚類形態(tài),模態(tài)方差決定聚類的可塑性。較大的方差則使得聚類的可塑性減弱,導致模型不能及時從新的觀測樣本中學習到背景模型變化成分,從而造成背景模型的嚴重污染;較小的方差則使得聚類的可塑性過強,導致背景模型的結構不穩(wěn)定,易出現(xiàn)聚類波動情況。方差的估計過大或者過小,都會導致前景分割的失敗,因此當運動目標學習成背景之后,應當加速模型方差的收斂,加強其可塑性。
(3)模態(tài)期望決定聚類中最具有代表性的值,反映出屬于哪一類的特征,代表著從歷史像素值中學習到的背景模型結構,故模態(tài)要保持相對穩(wěn)定。
由此可見,混合高斯模型在對場景的學習過程中,其學習速率的選取、期望和方差有效估計影響著模型學習、模態(tài)排序和模態(tài)匹配,模型參數(shù)的正確估計最終影響模型結構穩(wěn)定、適應能力和目標分割效果。
根據(jù)上述對視頻序列像素點變化特性以及模型控制參數(shù)的分析,本文將模型的學習過程分為兩個階段,分別對模型的權重學習速率和期望方差的學習速率提出了改進。
(1)背景的初始形成階段 (n<N),學習速率的更新策略如式 (8)所示。
由于模型初始化的第一幀常常是非清空場景,模態(tài)中非背景像素模態(tài)權重較大,應采用較大的學習速率來加快淘汰那些偽背景像素模型,加速真實背景模型的收斂。但此時背景尚未完全形成,方差和期望不易收斂過快,隨著背景的逐步形成,學習速率逐漸遞減,保證有效背景模型的穩(wěn)定
式中:λ1為衰減系數(shù),取1.5;n為當前流過的幀數(shù);N 為階段閾值幀數(shù);
(2)背景的維護更新階段 (n≥N),學習速率的更新策略如式 (9)所示。
經(jīng)初始階段的學習,背景模型已基本形成,但場景信息常常是復雜多變的,因此需要對背景進行實時維護更新。背景的維護更新階段根據(jù)模態(tài)像素變化的匹配次數(shù)與不匹配次數(shù)作為反饋量來修正模型的學習速率。當不匹配時,反饋量為正值,來增大學習速率,加大對場景的學習;當匹配時,反饋量為一個負值,來減小學習速率,減弱對場景的誤學習,保證模型的穩(wěn)定。模型的兩種反饋在起始時反饋量都是一個很小的值,隨著迭代次數(shù)的增加,反饋量則會逐漸增大。改進后的學習速率,給了模型對場景觀測學習迭代時間長度,一個動態(tài)的學習空間,減小了對噪聲、快速運動目標和較慢運動目標的誤學習,又很好的根據(jù)場景情況,實現(xiàn)學習速率的自適應調(diào)節(jié),實現(xiàn)模型的有效收斂
式中:λ2為學習率基準系數(shù),取0.004;ΔF =(2f-t)×10-2為反饋量,f 為不匹配次數(shù)、t為匹配次數(shù)。為了避免在模型維護更新過程中,學習速率出現(xiàn)惡性增長或減小,對改進學習速率的學習準則做如下約定:防止學習后期中學習步長過大或者過小,設置學習速率空間α2∈(d1,d2),當學習速率動態(tài)調(diào)整超出學習速率空間的左右端點時,則將學習速率用d1,d2代替。防止出現(xiàn)數(shù)據(jù)溢出,當f、t大于τ時,則將其置零,重新計數(shù);防止對前一目標、背景的學習誤積累,若計數(shù)出現(xiàn)一次中斷,則將f 和t置零。
為了測試本文方法的有效性,對GMM 方法和本文方法進行比較實驗,實驗平臺為VC++6.0和OpenCV,測試序列為Highway(500幀,320×240)、Cityway(222幀,320×240)、Campus_1 (1179幀,352×288)、Campus_2(2687幀,384×288)。實驗參數(shù)為:K=3,N=200,T=0.75,τ=20,λ1=1.5,λ2=0.004,d1=0.0028,d2=0.0168。實驗結果如圖5~圖8所示。
圖5 Highway序列的檢測結果
圖6 Cityway序列的檢測結果
圖7 Campus_1 序列的檢測結果
圖8 Campus_2 序列的檢測結果
圖5 為檢測序列Highway的第15 幀檢測結果,圖6為檢測序列Cityway第20幀的檢測結果,主要是比較兩種方法在初始階段檢測的效果。GMM 方法采用固定的學習速率,在起始階段由某些運動目標構成的背景元素權重過大,導致背景的更新滯后當前的真實情況,出現(xiàn)孤立點和“鬼影”現(xiàn)象。改進后的算法在初始階段采用較大的學習速率,通過流過的采樣序列幀數(shù)的情況作為當前幀的學習速率控制參數(shù),較快的實現(xiàn)初始化中非背景模型的權重衰退,較好的解決了模態(tài)殘留,檢測出的目標結構較為完整。
圖7為檢測序列Campus_1的第390幀檢測結果,圖8為檢測序列Campus_2的第990幀的檢測結果,主要是驗證兩種方法在維護更新階段的檢測效果,其中包括:對目標由運動到靜止成為背景和緩慢運動目標 (行人、車輛)等情況檢測。圖7中的道閘已是合上,經(jīng)過一定時間學習后,GMM 方法檢測分割出來的仍為前景目標,而改進后的算法則已經(jīng)將其學習為背景,檢測結果更符合真實的情況。圖8中的車輛已經(jīng)停靠到車位中,GMM 方法檢測出來的仍為前景目標,而改進后的算法已經(jīng)將其學習為背景,主要原因在于改進算法通過統(tǒng)計模態(tài)匹配次數(shù)與不匹配次數(shù)作為反饋控制量,加速模態(tài)的收斂,檢測的結果更為理想。并且從圖中可以看出,對于緩慢運動目標 (如行人、緩慢行駛車輛)檢測效果較好,并沒有過快的將其學習為背景,其原因就是,模型學習在起始一段時間內(nèi),反饋量是一個較小的值并隨著變化持續(xù)時間而逐漸增長,從而避免了對緩慢運動目標的誤學習。
算法有效性評估是算法改進效果的重要體現(xiàn),目前運動目標檢測算法評估標準包括:基于目標界別評估、基于像素級別評估、以及基于目標和像素綜合評估。為了檢測本文方法的性能,將本文方法與傳統(tǒng)的方法進行比較,針對上述實驗檢測結果,本文采用基于像素級別的估計,使用檢出率 (DR)和誤檢率 (FAR)兩個指標進行客觀評價[10],DR 和FAR 的計算公式如式 (10)和式 (11)所示
式中:FP——錯誤檢測出來的虛假像素數(shù),TP——正確檢測出來的目標像素數(shù),F(xiàn)N 為未被檢測出來的目標像素。本文對上述相關實驗數(shù)據(jù)見表2。
表2 GMM 算法與改進算法比較
從表2可以看出,改進后的算法檢測效果優(yōu)于GMM算法。主要原因在于,初始階段采用較大的學習速率,那些非真正背景模型得到快速衰退,加快了背景模型的快速建立;維護更新階段,根據(jù)像素點的匹配與不匹配次數(shù)情況作反饋量,加速或者減緩自適應的對場景的學習,使得檢測結果更加符合真實的場景。
本文分別對像素變化特性、混合高斯模型控制參數(shù)進行了分析,將背景學習分為兩個大的階段,引入反饋控制機制進行背景建模,提出了一種自適應學習速率的混合高斯模型算法。改進的高斯混合模型算法,對真實場景背景的擬合能力更佳,能夠實現(xiàn)自適應擬合真實背景分布,并且合理的解決了場景中模型收斂速度慢而產(chǎn)生的模態(tài)殘留和拖影問題,有效地檢測出運動目標,改進后的算法優(yōu)于傳統(tǒng)混合高斯模型算法。
[1]ZHANG Shuifa,ZHANG Wensheng,DING Huan,et al.Background modeling and object detecting based on optical flow velocity field[J].Journal of Image and Graphics,2011,16(2):236-243(in Chinese).[張水發(fā),張文生,丁歡,等.融合光流速度與背景建模的目標檢測方法 [J].中國圖象圖形學報學,2011,16 (2):236-243.]
[2]XU Jing,ZHANG He,ZHANG Xiangjin.IR motive detection using image subtraction and optical flow[J].Computer Simulation,2012,29 (6):248-252(in Chinese). [許敬,張合,張祥金.基于幀間差分和光流法的紅外圖像運動檢測 [J].計算機仿真,2012,29 (6):248-252.]
[3]SI Hongwei,QUAN Lei,ZHANG Jie.Motion detection algorithm based on background estimated[J].Computer Engineering and Design,2011,21 (1):262-265(in Chinese). [司紅偉,全蕾,張杰.基于背景估計的運動檢測算法 [J].計算機工程與設計,2011,21 (1):262-265.]
[4]XUE Ru,SONG Huansheng,ZHANG Huan.Overview of background modeling method based on pixel[J].Video Engineering,2012,36 (13):39-43(in Chinese). [薛茹,宋煥生,張環(huán).基于像素的背景建模方法綜述 [J].電視技術,2012,36 (13):39-43.]
[5]Stauffer C,Grimson W E L.Adaptive background mixture models for real-time tracking [C]//Proceedings of IEEE International Conference on Computer Vision and Pattern Recognition,1999:246-252.
[6]HUANG Wenli,F(xiàn)AN Yong,LI Huizhuo,et al.Improved mixture Gaussian algorithm [J].Computer Engineering and Design,2011,32 (2):592-595 (in Chinese).[黃文麗,范勇,李繪卓,等.改進的高斯混合算法 [J].計算機工程與設計,2011,32 (2):592-595.]
[7]WANG Yongzhong,LIANG Yan,PAN Quan,et al.Spatiotemporal background modeling based on adaptive mixture of Gaussians[J].Acta Automatica Sinica,2009,35 (4):371-378(in Chinese).[王永中,梁顏,潘泉,等.基于自適應混合高斯模型的時空背景建模[J].自動化學報,2009,35 (4):371-378.]
[8]ZHU Qidan,LI Ke,ZHANG Zhi,et al.An improved gaussian mixture model for an adaptive background model[J].Journal of Harbin Engineering University,2010,31 (1):1348-1353(in Chinese).[朱齊丹,李科,張智,等.改進的混合高斯自適應背景模型 [J].哈爾濱工程大學學報,2010,31 (1):1348-1353.]
[9]LI Wei,CHEN Linqiang,YIN Weiliang.Background modeling approach based on self-adaptive learning rate[J].Computer Engineering,2011,37 (15):187-189(in Chinese).[李偉,陳臨強,殷偉良.基于自適應學習率的背景建模方法 [J].計算機工程,2011,37 (15):187-189.]
[10]LI Pengfei,CHEN Chaowu,LI Xiaofeng.An overview for performance evaluation of intelligent video algorithms [J].Journal of Computer-Aided Design & Computer Graphics,2010,22 (2):354-360(in Chinese).[李鵬飛,陳朝武,李曉峰.智能視頻算法評估綜述 [J].計算機輔助設計與圖形學學報,2010,22 (2):354-360.]