亢 潔, 李曉靜
(陜西科技大學 電氣與信息工程學院, 陜西 西安 710021)
近年來,國際上一些惡性的恐怖事件,如美國 911 事件、倫敦地鐵爆炸事件和俄羅斯地鐵爆炸事件等,已經(jīng)使得人們充分認識到傳統(tǒng)人力視頻監(jiān)控系統(tǒng)的不足,人們迫切希望提高視頻監(jiān)控系統(tǒng)的智能化水平,希望視頻圖像不再只作為事故發(fā)生后處理的證據(jù),而是在異常事件發(fā)生前就能做出隱患預警,因此監(jiān)控視頻中的人體異常行為檢測成為了許多學者的研究熱點[1].運動目標檢測作為人體異常行為分析的首要工作近年來也受到了廣泛關注.準確且完整的運動目標檢測結果對人體異常行為分析具有很大的影響,因此對監(jiān)控視頻中的運動目標檢測研究具有重要意義[2].
運動目標檢測是指在序列圖像中檢測出變化區(qū)域并將運動目標從背景圖像中提取出來.傳統(tǒng)的運動目標檢測方法包括幀差法、背景減除法和光流法.幀差法是在連續(xù)的圖像序列中兩個或三個相鄰幀間采用基于像素的時間差分并且閾值化來提取出圖像中的運動目標.幀差法的優(yōu)點是算法簡單,速度快,易于硬件實現(xiàn)[3],能夠較好的適應環(huán)境變化大的情況,但對于圖像序列中運動緩慢的目標,難以有效檢測出完整前景,運動實體內部容易產(chǎn)生較大“空洞”[4].光流法是通過建立目標運動矢量場,用圖像序列中像素在時間域上的變化以及相鄰幀之間的相關性來找到上一幀跟當前幀之間存在的對應關系,從而計算出相鄰幀之間物體的運動信息的一種方法[5].光流法在運動背景環(huán)境中也可以對運動目標進行檢測,但其最大的缺點是計算量過大,難以做到實時檢測.背景減除法的關鍵就在于背景模型的建立[6],而背景圖像容易受到外界環(huán)境的影響,對光照和場景變化非常敏感,因此背景準確的自適應更新是背景減除法的關鍵[7-9].
三幀差分法是一種快速而且簡單的運動目標檢測算法,但是其檢測結果經(jīng)常出現(xiàn)"空洞"現(xiàn)象.針對傳統(tǒng)的三幀差分法在運動目標檢測過程中容易出現(xiàn)的"空洞"問題,本文在三幀差分法的基礎上提出了一種將均值背景建模與三幀差分相結合的運動目標檢測算法.通過將視頻幀的背景加入到幀間差分中從而消除了背景像素點對于前景檢測效果的影響,能夠解決傳統(tǒng)三幀差分法在運動目標檢測過程中所存在的“空洞”問題,并且可以實現(xiàn)對運動目標的快速提取.本文所提到的監(jiān)控視頻場景為室外公共區(qū)域,例如校園、公園等公共場所,考慮到監(jiān)控視頻中攝像頭大多為靜止的,因此將本文算法與傳統(tǒng)的三幀差分法、混合高斯背景減除法(Gaussian Mixture Model,GMM)、視覺背景提取法(Visual Background Extractor,VIBE)[10]以及平均背景法進行了比較.
幀間差分法是一種通過對視頻圖像序列中相鄰兩幀作差分運算來獲得運動目標輪廓的方法[11],它可以很好地適用于存在多個運動目標和攝像機移動的情況.當監(jiān)控場景中出現(xiàn)異常物體運動時,幀與幀之間會出現(xiàn)較為明顯的差別,兩幀相減,得到兩幀圖像亮度差的絕對值,判斷它是否大于閾值來分析視頻或圖像序列的運動特性,確定圖像序列中有無物體運動.但是它提取的運動目標往往比實際的目標要大,通常會出現(xiàn)“鬼影”現(xiàn)象.另外,由于檢測出來的目標是前后兩幀相對變化的部分,無法檢測到重疊部分導致檢測到的目標發(fā)生“空洞”現(xiàn)象.三幀差分法是在兩幀差分的基礎上進行改進,將相鄰的三幀圖像作為一組進行差分.
三幀差分法的原理如下:
選取圖像序列中連續(xù)的三幀圖像Ik-1(x,y),Ik(x,y),Ik+1(x,y).計算相鄰兩幀圖像的差值:
(1)
對得到的差值圖像通過選擇合適的閾值T進行二值化:
(2)
再對所得的差分圖像進行邏輯"與"操作:
(3)
三幀差分法的原理圖如圖1所示.三幀差分法雖然可以消除幀間差分帶來的“虛影”現(xiàn)象,但是當運動目標速度較慢時運動前景內部依然會產(chǎn)生較大“空洞”.
圖1 三幀差分法原理圖
在傳統(tǒng)的背景減除運動目標檢測方法中,背景建模是完成目標檢測的首要工作.目前主要的背景建模方法包括單高斯模型、混合高斯背景建模、滑動高斯平均模型、碼本模型和VIBE等方法.混合高斯背景建模算法的缺點是計算量相對比較大,速度偏慢,對光照敏感[12];VIBE方法在背景建模過程中容易產(chǎn)生“鬼影”,且算法耗時比較多[13].這些新的背景建模方法的提出提高了前景檢測的準確性和完整性,但同時隨著算法復雜度的提升,算法的快速性則受到了影響.為了能夠快速地檢測出監(jiān)控視頻中的運動目標,因此本文考慮選用簡單且快速的背景建模方法——均值法背景建模.
當實際的監(jiān)控場景不是太復雜時,可以采用均值法建立背景模型.均值法實質上是一種統(tǒng)計濾波的思想.在一段時間內,將采集到的多幀圖像相加,求其平均值,這個平均值就作為參考的背景模型.具體計算式如下:
(4)
其中,Avgk為采集到第k幀圖像時系統(tǒng)建立的背景模型;N為平均的幀數(shù);fk,fk-1,…,fk-N+1為包含當前幀在內的系統(tǒng)所保存的連續(xù)N幀圖像.
本文算法的應用場景為室外的監(jiān)控視頻的背景,認為視頻中的背景不會發(fā)生突變,因此本文在應用均值法對視頻第k幀進行背景建模時不事先給定平均的幀數(shù)N,而是采用視頻的前k幀進行求平均,如式(5)所示:
(5)
其中,Avgk為第k幀視頻背景模型;fk,fk-1,…,f1為視頻序列中連續(xù)的前k幀圖像.即本文若對第k幀視頻背景建模時,采用前k幀視頻圖像的平均值作為第k幀視頻的背景.本文通過均值法背景建模的原理圖如圖2所示.
平均背景法進行運動目標檢測的原理非常簡單,就是從視頻或者攝像頭中獲得一系列的幀,然后取這些幀中的平均像素值來表征背景.通過給這些平均像素值加上一定的閾值范圍就構成了背景模型,在新加入的圖像中如果對應位置的像素超出了這個背景模型中對應位置像素的閾值范圍,則將該像素點歸為前景點.
圖2 均值背景建模原理圖
基于均值背景建模的運動目標檢測也存在一些缺點,例如在檢測過程中背景圖像中可能會存在前景的虛影而導致的前景檢測中出現(xiàn)誤檢以及“空洞”的問題,因此本文考慮將均值建模所得的背景加入到三幀差分中,通過幀間差分避免了背景中的前景虛影對于前景檢測效果的影響,同時也減少了背景像素點對于前景檢測導致的誤檢.
傳統(tǒng)的三幀差分法選取視頻中相鄰的三幀圖像進行鄰間差分,直接對包含前景與背景的圖像進行差分,對于背景較復雜或是灰度化后背景與前景像素相近的情況很容易出現(xiàn)漏檢或是誤檢.因此本文考慮將背景圖像引入到三幀差分中,通過前景與背景的差分來消除背景像素對于前景檢測的影響.
均值背景建模即采用視頻中多幀連續(xù)的圖像均值來作為視頻幀的背景,此法不僅適用于處理灰度圖像也適用于彩色圖像的處理.其特點是算法簡單,處理速度快,能夠快速得到視頻的背景且用于求均值的視頻連續(xù)幀數(shù)越多時所得背景模型越接近于真實背景.
在一段監(jiān)控視頻中,一般認為連續(xù)的兩幀之間背景圖像不發(fā)生變化[14].因此本文對視頻當前幀的背景進行了提取,通過當前幀與背景圖像的差分可以得到當前幀運動人體的檢測結果;視頻當前幀的下一幀與背景圖像進行差分時則可以得到視頻下一幀的運動人體檢測結果,那么在兩幀連續(xù)的視頻圖像中人體的大部分像素位置基本沒有發(fā)生變化,此時本文就將兩次運動人體的檢測結果進行邏輯“與”之后的結果作為視頻當前幀的運動目標檢測結果.
為了實現(xiàn)對監(jiān)控視頻中的運動目標的快速提取,因此本文提出了基于均值背景與三幀差分的運動目標檢測算法.通過將視頻的背景加入到三幀差分中從而避免了背景像素點對于前景檢測的影響,再利用連續(xù)兩幀之間運動人體的相似性[15]從而得到運動前景.采用一種簡單快速的背景建模方法使得算法能夠在滿足準確性和完整性的同時算法的快速性不會受到影響,能夠實現(xiàn)對監(jiān)控視頻中運動目標的快速提取.
本文算法的基本思想為:將三幀差分法的中間幀用經(jīng)均值背景建模所得的背景進行代替,視頻當前幀做為三幀差分的前一幀,視頻當前幀的后一幀作為三幀差分的后一幀,再利用三幀差分的思想進行鄰間差分并將差分所得結果進行邏輯“與”,最后對邏輯運算后的結果進行數(shù)學形態(tài)學膨脹處理得到最終的運動目標檢測結果.
算法的步驟如下:
Step1讀入視頻段中的所有幀并進行保存,記為I1,I2,…,IM∈Nm*n,其中M為視頻段中的總幀數(shù),m,n為每幀圖片的大小;
Step2對于視頻第k幀的運動目標檢測,本文選取I1,I2,I3,…,Ik,Ik+1幀的圖像(k+1≤M),并對其進行灰度化處理;
Step3通過均值背景建模提取視頻第k幀的背景,得到背景圖像灰度圖Avgk:
(6)
Step4求解差分圖像A1,A2:
(7)
Step5對所得差分圖像進行閾值化處理,其中閾值T由多次仿真實驗所得:
(8)
Step6對閾值化后的二值圖像進行邏輯“與”
(9)
Step7對最終所得的二值圖像D(x,y)進行數(shù)學形態(tài)學膨脹處理得到最終的運動目標檢測結果.
本文算法的原理圖如圖3所示.
圖3 結合均值背景的改進三幀差分原理圖
為了對本文算法的性能進行分析,本文選取walking視頻,CASIA視頻集中的fight視頻和change detection視頻庫中的pedestrians視頻.walking視頻總共有289幀,每幀圖片的大小為384*288,幀速率為25幀/秒;fight視頻總共有299幀,幀速率為25幀/秒,每幀的大小為320*240;pedestrians總共有165幀,每一幀的大小為240*240.本仿真實驗在普通的筆記本電腦(intel(R) Core(TM) i5-3337U CPU,1.8 GHz,內存為4 GB)上通過MATLABR2011a仿真軟件完成.
在對所得差分圖像進行閾值化處理時其閾值通過實驗得到.在仿真過程中發(fā)現(xiàn)閾值T大于20時,運動前景檢測結果不完整;當所取閾值T小于20時,大部分背景像素被誤檢為運動前景.因此本文將閾值T取為20.
在仿真過程中本文在三組視頻上對傳統(tǒng)三幀差分法、混合高斯背景減除法、VIBE、平均背景法以及本文算法進行了比較,五種檢測方法在三組視頻中的檢測前景效果圖如圖4~6所示.
(a) 第30幀原圖 (b) 第150幀原圖 (c) 第250幀原圖
(d) 手工標注圖(30) (e) 手工標注圖(150) (f)手工標注圖(250)
(g) 三幀差分(30) (h) 三幀差分(150) (i) 三幀差分(250)
(j) GMM(30) (k) GMM(150) (l) GMM(250)
(m) VIBE(30) (n) VIBE(150) (o) VIBE(250)
(p) 平均背景法(30) (q)平均背景法(150) (r)平均背景法(250)
(s) 本文算法(30) (t) 本文算法(150) (u) 本文算法(250)圖4 walking視頻上的運動前景檢測效果圖
(a) 第50幀原圖 (b) 第150幀原圖 (c) 第250幀原圖
(d)手工標注圖(50) (e)手工標注圖(150) (f)手工標注圖(250)
(g) 三幀差分(50) (h) 三幀差分(150) (i) 三幀差分(250)
(j) GMM(50) (k) GMM(150) (l) GMM(250)
(m) VIBE(50) (n) VIBE(150) (o) VIBE(250)
(p) 平均背景法(50) (q) 平均背景法(150) (r) 平均背景法(250)
(s) 本文算法(50) (t) 本文算法(150) (u) 本文算法(250)圖5 fight視頻上的運動前景檢測效果圖
(a) 第100幀原圖 (b) 第330幀原圖 (c) 第450幀原圖
(d) 手工標注圖(100) (e)手工標注圖(330) (f)手工標注圖(450)
(g) 三幀差分(100) (h) 三幀差分(330) (i) 三幀差分(450)
(j) GMM(100) (k) GMM(330) (l) GMM(450)
(m) VIBE(100) (n) VIBE(330) (o) VIBE(450)
(p) 平均背景法(100) (q)平均背景法(330) (r)平均背景(450)
(s) 本文算法(100) (t) 本文算法(330) (u) 本文算法(450)圖6 pedestrians視頻上的運動前景檢測效果圖
通過對比五種運動目標檢測算法在三組監(jiān)控視頻中的前景檢測效果圖可以發(fā)現(xiàn),三幀差分法在三組視頻上的前景檢測過程中都出現(xiàn)了大量“空洞”而導致檢測結果不完整,并且由圖4中的(i)可以發(fā)現(xiàn),在walking視頻中當運動目標距離鏡頭較遠時還會存在檢測不到的情況;混合高斯背景減除法在背景比較復雜或是光照強度較強的環(huán)境中會出現(xiàn)大量背景點被誤檢為前景點的情況;VIBE算法基本可以實現(xiàn)完整準確地運動目標檢測,但是當運動目標位于強光照下時會出現(xiàn)漏檢的情況,例如圖4中的(n),(o);在圖4中平均背景法只檢測出少部分的運動前景,且有大量誤檢像素點;在圖5中最終檢測到的前景不完整;在圖6中平均背景法出現(xiàn)了大量的誤檢點.本文算法在準確性和完整性方面略優(yōu)于VIBE算法,但有時也會出現(xiàn)少量背景像素被誤檢為前景的情況,例如圖4中的(t),(u).
為了定量地分析仿真結果,仿真結果采用通用的評估指標查準率(Precision,Pre)和查全率(Recall,Re)進行比較.其中查全率是檢測的正確數(shù)與手工標注總數(shù)的比值;查準率是檢測的正確數(shù)和檢測總數(shù)的比值.兩個指標的值同時較高時說明前景檢測的效果更好.五種方法在不同視頻集上的查全率和查準率如表1所示.
表1 查全率(Re)和查準率(Pre)比較
從表1可以看出,混合高斯背景減除法的查全率比較高但是查準率卻非常的低,這是因為混合高斯背景減除法在運動目標檢測過程中將大量背景點誤檢為前景點;本文算法的查全率比三幀差分法高出60%,查準率高出38%;平均背景法的查準率與查全率跟三幀差分法大致相同;與VIBE算法相比本文算法的查全率與查準率均略高于VIBE算法.因此,綜合來看本文算法在背景較復雜的環(huán)境中準確性和完整性要優(yōu)于其他四種運動目標檢測算法.
為了分析本文算法的快速性,本文以時間復雜度為評價指標對五種運動目標檢測算法在三組視頻上進行了比較,比較結果如表2所示.
表2 五種方法在不同視頻上的平均檢測時間(t)
通過對比可以發(fā)現(xiàn)三幀差分法、混合高斯背景減除法、平均背景法和本文算法都可以很快地檢測出運動目標,VIBE算法則需要較長時間才能檢測出運動目標.由此看來,本文算法能夠滿足快速檢測出運動目標的要求,且本文算法比較簡單易于硬件實現(xiàn).
本文通過將經(jīng)均值背景建模所得的背景加入到三幀差分中,避免了背景像素點對于前景檢測的影響,消除了傳統(tǒng)的三幀差分法在檢測過程中存在的“空洞”問題,能夠準確完整的提取運動目標,并且本文算法比較簡單能夠快速的檢測到運動目標,易于硬件實現(xiàn).本文算法的不足在于當運動目標處于光照較強的環(huán)境中時會出現(xiàn)誤檢,因此后續(xù)的工作將對算法進行改進使得算法具有更優(yōu)的性能.
[1] 黃凱奇,陳曉棠,康運鋒.智能視頻監(jiān)控技術綜述[J].計算機學報,2015,38(6):1 093-1 118.
[2] 凌志剛,趙春暉,梁 彥,等.基于視覺的人行為理解綜述[J].計算機應用研究,2008,25(9):2 570-2 578.
[3] 邱光能,全惠敏.基于對稱差分和背景減的運動目標檢測[J].計算機工程與應用,2014,50(13):158-162.
[4] 謝 紅,袁 博,解 武.LK光流法和三幀差分法的運動目標檢測[J].應用科技,2016,43(3):23-33.
[5] 袁國武,陳志強,龔 健,等.一種結合光流法與三幀差分法的運動目標檢測算法[J].小型微型計算機系統(tǒng),2013,34(3):668-671.
[6] 邵奇可,周 宇,李 路,等.復雜場景下自適應背景減除算法[J].中國圖象圖形學報,2015,20(6):756-763.
[7] 王占鳳,郭 星,徐秋月.基于改進的混合高斯模型背景減除算法[J].河南工程學院學報(自然科學版),2013,25(3):65-68.
[8] 周 曉,方玖琳,鄭定超,等.基于三幀差分和滑動平均背景的運動目標檢測[J].計算機測量與控制,2016,24(5):32-38.
[9] 孫明玉,丁 瑩,李文輝.一種自適應閾值的運動目標提取算法[J].計算機應用研究,2010,27(6):2 380-2 383.
[10] 魏洪濤,李 瑾,吳細秀.融合幀差和VIBE的運動目標檢測算法[J].計算機應用研究,2016,33(5):60-65.
[11] Sandeep Singh Sengari,Susanta Mukhopadhyal.A novel method for moving object detection based on block based frame differencing[C]// 3rd Int'l Conf.on Recent Advances in Information Technology.Dhanbad: Department of Computer Science and Engineering Indian School of Mines,2016:50-56.
[12] 魏 瑋,吳 琪.三幀差結合改進高斯建模的運動目標檢測算法[J].計算機工程與設計,2014,35(3):949-952.
[13] 趙光明,韓 光,李曉飛,等.基于融合幀間差的改進vibe方法[J].計算機技術與發(fā)展,2015,25(3):76-80.
[14] 陳俊超,張俊豪,劉詩佳.基于背景建模與幀間差分的目標檢測改進算法[J].計算機工程,2011,37(S):171-173.
[15] 楊國亮,魯海榮,豐義琴.基于幀間相似性約束魯棒主成分分析模型的運動目標檢測[J].計算機應用與軟件,2016,33(1):142-146.