郭厚焜,吳 峰,黃 萍
(華東交通大學信息工程學院,江西南昌,330013)
智能視頻監(jiān)控技術已被廣泛應用到國民經濟的各領域,在軍事、工業(yè)、智能人機交互、智能交通等方面具有重要的意義。運動目標的檢測是智能視頻監(jiān)控系統(tǒng)中一個重要組成部分,如何實現(xiàn)對運動目標的檢測,是一個需要關注和研究的重要問題。
目前運動目標檢測通常采用的方法有光流場法[1-2]、幀間差分法[3]和背景差分法[4]。光流場法運算復雜,不便實時實現(xiàn)。幀間差分法數(shù)據(jù)計算量大,并且?guī)c幀之間運動目標存在相對運動,會造成被檢測處的運動目標位置與大小不準確。背景差分法運算簡單,容易實現(xiàn),但是容易受樹葉的擺動、水面的波動和外界光線的突變等自然環(huán)境的影響,這就要求不斷自適應更新背景模型。為此,各國學者已經提出了各種各樣的新算法來力圖解決現(xiàn)有算法出現(xiàn)的問題。如文獻[5-6]提出的背景建模算法,以每一幀圖像為一整體,發(fā)掘變化區(qū)域的內部結構特征,缺點在于不能較好地排除偽前景的干擾。文獻[7-8]提出的數(shù)據(jù)字典學習算法,當輸入的背景圖像中還有運動目標時,不能很好地建立背景模型。
針對這一問題,在背景差分法的基礎上,使用壓縮感知原理,用一組數(shù)據(jù)字典線性稀疏表示背景區(qū)域[9-10],建立背景模型。根據(jù)分割算法,排除偽前景的干擾,得到正確的運動目標區(qū)域。最后,采用數(shù)據(jù)字典更新算法,建立實時更新的背景模型。
背景差分法由于其算法實現(xiàn)簡單被廣泛應用,一般適合在靜態(tài)場景中(攝像頭固定)。背景差分法的基本算法是利用當前幀灰度值與背景幀灰度值的差分值的差異來實現(xiàn)運動目標檢測。具體步驟如下:
1)讀取一段視頻序列,根據(jù)統(tǒng)計平均法獲得背景模型B(x,y)。
2)利用當前幀I(x,y)與背景模型B(x,y)做差分運算得到F,然后利用Ostu局部二值化算法對得到的絕對差分圖像進行二值化,公式如下
式中:F為前景圖像的表現(xiàn)形式;T為閥值。
3)采用數(shù)學形態(tài)學開、閉運算,排除背景區(qū)域抖動與噪聲的影響,平滑運動目標區(qū)域的輪廓,去掉圖像內部小孔、微小噪聲及小面積非運動目標部分。
4)背景更新,返回第2步。
該文提出了一種改進的背景差分法,用一組通過學習得到的基向量對背景模型進行特征表示,利用前景圖像、背景圖像的稀疏性和數(shù)據(jù)字典的學習,可以準確檢測出運動目標,并且自動排除前景的干擾。該方法主要內容有背景模型的建立、前景檢測、運動目標的確定和背景模型的更新。算法過程如下:首先輸入一段時間的視頻流作為訓練樣本,通過數(shù)據(jù)字典學習得到背景的特征表示矩陣D,然后根據(jù)前景與背景的稀疏性得到背景模型與前景區(qū)域,最后采用分割算法準確檢測出前景中的運動目標。算法流程圖見圖1。
圖1 本文算法流程圖Fig.1 Algorithm flow chart
對于一幅圖像X,可以看成由背景區(qū)域Xb和前景區(qū)域Xf組成
式中:Xb,Xf和X都是列向量。
讀入一個有C張圖像的視頻序列,假設每一張圖像的背景區(qū)域Xb可由一組基向量Di特征化表示,就說背景區(qū)域Xb中第i張圖像的線性表達式為Xb=Diαi,其中αi是系數(shù)矩陣。定義一個新矩陣D為圖像序列的基向量集合D=(D1,D2,…,Dc)。因此,可以把Xb寫成
由上可知,Xb和Xf都是稀疏的,因此,可以把背景差分問題分解成一個數(shù)學問題:已知某一幀圖像X,求其背景稀疏編碼Xb=Dα和前景稀疏矩陣Xf=X-Dα:
油田檔案信息化管理工作的開展,離不開一支高素質的管理隊伍。油田企業(yè)的檔案管理部門,既要做好人才引進工作,例如適當提高招聘門檻,要求應聘人員兼具理論知識和實踐經驗,從而在入職后能夠盡快投入到檔案信息化管理工作中。此外,又要建立起人才培養(yǎng)機制,對在職的檔案管理人員,定期進行專業(yè)培訓,特別是要掌握信息化數(shù)據(jù)運行管理技術,更好地為本職工作而服務。新形勢下,油田企業(yè)對檔案管理提出了更高要求,一支高素質的管理隊伍,可以切實為檔案管理效率的提升以及檔案資料自身的安全提供人力支持。
式中:E為單位矩陣。選用l1范數(shù)代替l0范數(shù)形式的好處[14]:在背景差分法中的數(shù)據(jù)元素個數(shù)要遠遠小于背景圖像的數(shù)據(jù)元素個數(shù),因此,在實際程序運行過程中,計算量也會大大降低。
線性方程組
是由多個參數(shù)組成,如果直接求解α,則無法解答此問題。但式(7)滿足文獻[11]提出的情況,所以有最優(yōu)解。因此,能從某一幀圖像X中分割出背景圖像Xb和前景圖像Xf。
前景圖像的像素值是當前幀與背景圖像的差值,理想情況下前景區(qū)域的像素值非零,其余值均為零。但是在現(xiàn)實中,非零值的產生不止因為運動目標的出現(xiàn),還有背景的變化、背景模型的誤差和噪聲等的影響。這時就要對分割出來的Xf進行后處理,從候選目標中提取出運動目標。算法的關鍵在于,由于運動目標區(qū)域不僅稀疏而且還具有一定大小的連通區(qū)域,這就意味著,運動目標區(qū)域的像素是空間相關的。背景的變化和背景模型的誤差相對而言是分散的和無結構聯(lián)系的。受文獻[7-8]的啟發(fā),該文提出了一種用于目標分割的算法,它判斷前景區(qū)域Xf屬于運動目標的可能性,不但考慮了運動目標區(qū)域的密集度,還考慮了其鄰域區(qū)域的密集度
式中:S(i)為運動目標區(qū)域的可能值;N(i)為某像素點的鄰域。
為了使數(shù)據(jù)字典學習算法既能分割運動目標,同時又能建立正確的背景模型,找到一個D的最優(yōu)解并滿足下列條件:它能以最小的誤差代表所有訓練的樣本,同時產生一個最稀疏的特征矩陣。
在實際應用中,被用來背景建模的圖像可能存在以下情況:受到硬件的高斯噪聲干擾,偽前景被誤判為前景,自然環(huán)境中光強的變化和運動目標的漸變與突變。這些都直接或間接的影響背景模型的準確建立。通過式(9),可以有效解決上述現(xiàn)象。
式中:x是訓練樣本的列向量集合;A是系數(shù)矩陣;是矩陣A的l1范數(shù),在這里求對其輸入值的絕對值求和。由于式(10)含有兩個未知數(shù),不能直接求解,但依據(jù)文獻[9-12]中提出的方法,反復交替優(yōu)化D和A,可以求解D和A。
當建立數(shù)據(jù)字典后,A可以可視為常量,忽略式(10)的第二項進行對D的自動更新
式(11)中D中元素是線性無關的,因此可把D寫成獨立形式
式中:dk是D的第k個元素;αk是A的第k行元素(數(shù)據(jù)矩陣和稀疏矩陣式對應的元素)。
在式(12)中,提取x的列對應的系數(shù)值αk在一個小門限值之上。這是因為αk的元素值只是接近零而不是真正等于零,門限操作只保留那些相關的元素而不必處理所有像素,這樣大大加速了dk的運算速度。
把式(12)進一步分解成一系列的l1范式問題(13),可以通過迭代重加權最小二乘思想得到一個closed-form的解決方案[13]。通過實驗發(fā)現(xiàn),如果同時使用式(14),這樣迭代的次數(shù)會更少,同時還能更新αk??傊磸褪褂檬剑?3)與(14)直到dk收斂。
該文實驗所采用的計算機硬件為CPU C2Q 2.5 GHz,內存8 G,在Matlab 2010b環(huán)境下,對算法進行了具體實現(xiàn),驗證了其可行性。
如圖2(a)~(c)所示,讀入一個視頻序列前30幀圖像作為訓練樣本。傳統(tǒng)的背景差分法的背景是通過一段時間內的圖像均值來獲得的,由于圖像中的前景像素值和背景像素值相差較大,得到的背景在這種情況下將有誤差,會產生圖2(d)所示的錯誤背景。圖2(e)是采用該文算法得到的背景模型,排除了偽前景和運動目標對背景的干擾。如果用傳統(tǒng)的背景差分法進行處理,由于該方法是基于顏色的亮度特性,即RGB 3個分量,它對亮度的變化很敏感。這里,運動目標圖像與背景圖像時間相差2小時,汽車表面金屬反射光強變化明顯,反映在圖像上為汽車位置的像素灰度值發(fā)生突變,經過傳統(tǒng)的背景差分法,靜止的汽車會被檢測出來,誤認為是運動目標,如圖2(f)所示。圖2(g)所示本文提出的背景差分法,有效解決了亮度變化問題,并且排除了偽前景的干擾,提高了目標檢測的準確性。
圖2 數(shù)據(jù)字典的學習即更新Fig.2 Update of data dictionary
提出了一種基于稀疏表示和字典學習的背景差分法,該方法利用字典學習來建立背景模型,通過優(yōu)化l1正則化問題來分割前景區(qū)域。實驗結果表明,與現(xiàn)有背景差分法相比,該算法能較好處理背景的突變和高頻變化,有效消除了數(shù)據(jù)在學習階段的離群值,減少噪聲干擾,建立正確的背景模型。
[1]HORN B K P,SCHUNCK B G.Determining optical flow[J].Artificial Intelligence,1981,17(1):185-203.
[2]ALI S,SHAH M.Human action recognition in videos using kinematic features and multiple instance learning[J].IEEE Transactions on PatternAnalysis and Machine Intelligence,2010,32(2):288-303.
[3]HUI K C,SIU W C.Extended analysis of motion-compensated frame difference for block-based motion prediction error[J].IEEE Transactions on Imaging Processing,2007,16(5):1232-1245.
[4]TSAI D M,LAI S C.Independent component analysis-based background subtraction for indoor surveillance[J].IEEE Transactions on Imaging Processing,2009,18(1):158-167.
[5]OLIVER N M,ROSARIO B,PENTLAND A P.A bayesian computer vision system for modeling human interactions[J].IEEE Transactions on PatternAnalysis and Machine Intelligence,2000,22(8):831-843.
[6]MONNET A,MITTALA,PARAGIOS N.Scene modeling and change detection in dynamic scenes:a subspace approach[J].Computer Vision and Image Understanding,2009,113(1):63-79.
[7]AHARON M,ELAD M,BRUCKSTEIN A.K-SVD:an algorithm for designing over complete dictionaries for sparse representation[J].IEEE Transactions on Signal Processing,2006,54(11):4311-4322.
[8]MAIRAL J,BACH F,PONCE J,et al.Online learning for matrix factorization and sparse coding[J].Journal of Machine Learning Research,2010,11(3):19-60.
[9]JI S H,YA X,CARIN L.Bayesian compressive sensing[J].IEEE Transactions on Signal Processing,2008,56(6):2346-2356.
[10]DO T T,GAN L,NGUYEN N,et al.Fast and efficient compressive sensing using structurally random matrices[J].IEEE Transactions on Signal Processing,2012,60(1):139-154.
[11]CANDES E J,TAO T.Decoding by linear programming[J].IEEE Transactions on Information Theory,2005,51(12):4203-4215.
[12]RUBINSTEIN R,BRUCKSTEIN A M,ELAD M.Dictionaries for sparse representation modeling[J].Proceedings of the IEEE,2010,98(6):1045-1057.
[13]CABRIEL K R,ZAMIR S.Lower rank approximation of matrices by least squares with any choices of weights[J].Technometrics,1979,21(4):489-498.
[14]WRIGHT J,YANG A Y,GANESH A,et al.Robust face recognition via sparse representation[J].IEEE Transactions on PatternAnalysis and Machine Intelligence,2009,31(2):210-227.