楊大偉,宋程程
YANG Dawei,SONG Chengcheng
哈爾濱工程大學 信息與通信工程學院,哈爾濱150001
College of Information and Communication Engineering,Harbin Engineering University,Harbin 150001,China
視頻圖像跟蹤算法中初始定位的準確性直接影響后續(xù)的跟蹤精度。人為劃定目標需在每次跟蹤前進行校準,花費大量的人力并且耗時較長。隨著目標跟蹤算法在自動識別、智能安全監(jiān)控、障礙物檢測等領域的廣泛應用,自動檢測人眼感興趣目標并對其進行初始定位成為人們研究的重要課題。文獻[1]中提出一種基于背景建模的目標檢測方法,需對場景有一定的先驗知識,且適用于背景變化小的視頻序列;Viola 等人利用聚類分析方法將目標與復雜背景分離,在得到較高精度的同時增加了運算復雜性,在場景變換后需重新學習進行更新[2];文獻[3]提出基于圖像分割的檢測技術,不需場景的先驗知識,但要人為指定檢測目標的區(qū)域;同時,有學者提出基于運動矢量、分形、上下文等信息的檢測技術[4-6]。目前跟蹤算法中普遍應用幀間差分法,該方法計算簡單、速度快,但精確性一般,在一定程度上會引入噪聲[7]。
本文提出一種感知視頻圖像運動目標并自動獲取初始位置的定位方法。通過二值化人眼視覺顯著圖將目標與背景分離,并據(jù)此計算顯著目標中心位置及其尺寸。該方法能夠自動提取視頻中運動目標,并消除運動背景帶來的干擾,為后續(xù)跟蹤算法提供所需參數(shù)。
人類具有能夠快速理解復雜場景的能力,是源于在進一步處理信息之前,中級和高級視覺神經(jīng)選擇可用的信息子集,最有可能地減少場景分析的復雜度。這種選擇表現(xiàn)為視野內的局部區(qū)域,即人們關注的焦點也稱顯著區(qū)域[8]。本文利用基于人眼視覺顯著性分析得到顯著圖像,對其提取可用于跟蹤算法的視頻運動目標初始定位參數(shù)。顯著目標初始定位方法框圖如圖1 所示。
圖1 顯著目標初始定位方法
顯著圖像表征人眼對圖像不同位置的關注程度[9]。準確地提取顯著圖像將有助于快速并有效地處理后續(xù)圖像信息。Itti 等人提出一種基于視覺注意的神經(jīng)生物學模型計算顯著圖[10],該方法通過不同尺度下的高斯金字塔提取圖像或者視頻序列的底層視覺特征,如:亮度、顏色、方向等,并通過模擬感受野的中心-環(huán)繞結構模型得到每個特征下的顯著圖像,最終通過歸一化求和運算,得到整體顯著圖像。文獻[11]中提出一種基于頻域的顯著圖像提取方法,該方法基于有效編碼理論,將圖像信息經(jīng)傅里葉變換至頻域,去除大量圖像共有的先驗知識,保留圖像中特有的顯著信息并反變換至空間域,得到顯著圖像。基于全局對比度的方法在文獻[12]被提出,該方法通過計算整幅圖像各像素點的對比度值,將顯著目標與背景分離,進而得到顯著圖像。利用圖像灰度、顏色、頻域等特征信息提取顯著圖像的方法也被提出[13-15]。
本文針對視頻圖像中運動的顯著目標提取其初始定位參數(shù),應用于粒子濾波器等視頻跟蹤算法中。除采用包含單幀圖像信息的亮度特征外,同時增加包含視頻圖像運動信息的運動特征來獲得顯著圖像。其中,亮度表征連續(xù)兩幀之間的亮度差異;運動特征為Gabor 濾波后的當前幀與濾波后的前一幀之間的運動信息。運動信息的引入使得提取結果適用于視頻中的顯著目標提取。
圖2 顯著圖像提取過程
當前幀n的亮度Ln=(Rn+Gn+Bn)/3。亮度特征L=Ln-Ln-1。
將各尺度下的特征通過中心環(huán)繞模型,即將特征圖與中心環(huán)繞模型算子進行卷積,本文采用高斯差分函數(shù)(DOG)實現(xiàn)中線環(huán)繞模型的作用。
針對視頻中顯著圖像提取結果如圖3 所示。
圖3 視頻中顯著圖像提取結果
目標的初始定位即獲得其中心點位置并計算尺寸。針對不同的跟蹤算法,目標初始位置的輸入?yún)?shù)不同,本質均為對目標的表述,可以相互轉化。本文以粒子濾波器的初始參數(shù)為例進行說明,參數(shù)為目標中心點位置、橢圓長軸、短軸以及角度,目標標記方法如圖4 所示。具體實現(xiàn)步驟如下:
步驟1利用Itti 算法得到顯著圖像I,如圖4(b)所示。
圖4 目標標記方法
步驟2計算圖像的前景與背景的最大類間差閾值Totsu,使顯著圖像以差別最大、錯分概率最小分割為兩部分[11]。以閾值T對I進行二值化處理,其中T=1.5Totsu。得到二值化圖像Ib,如圖5 所示。
圖5 顯著目標提取效果圖
步驟3提取顯著目標骨架。為保證顯著目標的定位尺寸符合人眼對目標主體區(qū)域的認定,提取目標的核心區(qū)域,得到骨架IG,骨架提取方法見文獻[16]。
步驟4計算骨架IG的最小外接矩形RE。外接矩形四個頂點坐標分別為(x1,y1),(x2,y2),(x3,y3),(x4,y4),矩形中心點為顯著目標的中心點(X,Y)。其中,X=(x1+x2+x3+x4)/4,Y=(y1+y2+y3+y4)/4。
步驟5求取外接矩形R的任意兩個連續(xù)頂點之間的距離,可得外接矩形長L=max(dis1,dis2),寬W=min(dis1,dis2),橢圓長軸2a=L,短軸2b=W,橢圓角度
圖5 中顯著目標中心位置為(119°,87°),橢圓長軸a=52,短軸b=36,橢圓角度θ=-1.8°。將得到的顯著目標中心位置及長軸、短軸、角度信息輸入粒子濾波器跟蹤算法中,可完成顯著目標的跟蹤。其中,目標尺寸由二值化的顯著圖像確定,目標形態(tài)變化時,尺寸也會隨之改變。
為測試本文方法的有效性,分別將人為劃定結果與本文方法及Itti 方法及SR 方法進行ROC 曲線下面積比較,ROC 曲線下面積為某一種方法準確性評價的指標,通過對同一需求的多種實驗進行分析比較,做出最佳方案決策。所得ROC 曲線下的面積值越大表示該方法越優(yōu),即所得到顯著區(qū)域越符合人為劃定區(qū)域。
本文仿真以輸入圖像尺寸128×128,通過對58幅自然圖像進行仿真實驗[11],平均ROC曲線下面積如表1所示。
表1 ROC 曲線下面積結果比較
對視頻序列進行仿真測試。以輸入White_Lady視頻序列第一幀至第四幀為例,每一幀圖像尺寸為384×288,左上角記為像素原點坐標,顯著目標定位結果如圖6。
圖6 White_Lady 仿真結果
圖6(a)~(d)分別為針第一幀至第四幀的顯著目標提取結果,中心點及尺寸如表2 所示。
通過仿真結果可以看出,該方法能夠有效地獲得視頻序列顯著目標的初始位置及其尺寸,根據(jù)連續(xù)視頻序列中目標形態(tài)的變化可自適應調節(jié)尺寸參數(shù),適用于目標與背景均運動的情況,經(jīng)過連續(xù)幾幀圖像序列后可自動消除運動背景帶來的干擾。在目標與背景相互混疊或差別較小時,適當增加二值化閾值T能更加準確地描述顯著目標區(qū)域范圍。運動特征的引入使該方法適用于顯著運動目標初始定位,目標靜止時需減少或去除運動特征的使用以改善仿真結果。
表2 顯著目標初始定位結果
本文提出一種基于人眼視覺的視頻顯著運動目標初始定位方法,利用圖像亮度和運動特征通過人眼視覺注意機制得到顯著圖像,經(jīng)過二值化處理分離顯著目標與背景,從而獲取計算目標的中心位置及尺寸。在不需要場景先驗知識及人為參與的情況下,該方法能夠準確地提取視頻圖像中顯著運動目標初始位置及區(qū)域范圍,自適應調節(jié)人眼敏感運動目標尺寸,為后續(xù)跟蹤算法提供初始參數(shù)。
[1] Saleemi I,Shafique K,Shah M.Probabilistic modeling of scene dynamics for applications in visual surveillance[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2009,31(8):1472-1485.
[2] Viola P,Jones M J,Snow D.Detecting pedestrians using patterns of motion and appearance[J].International Journal of Computer Vision,2005,63(2):153-161.
[3] Shi J,Malik J.Normalized cuts and image segmentation[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2000,22(8):888-905.
[4] Kaplan L M.Extended fractal analysis for texture classification and segmentation[J].IEEE Transactions on Image Processing,1999,8(11):1572-1585.
[5] 高常鑫.基于上下文的目標檢測與識別方法研究[D].武漢:華中科技大學,2010.
[6] 劉龍,劉貴忠,劉潔瑜,等.一種基于MPEG 壓縮域的運動對象分割算法[J].西安交通大學學報,2004,38(12):1264-1267.
[7] Lee S U,Yoon Chung S,Park R H.A comparative performance study of several global thresholding techniques for segmentation[J].Computer Vision,Graphics,and Image Processing,1990,52(2):171-190.
[8] Henderson J M.Human gaze control during real-world scene perception[J].Trends in Cognitive Sciences,2003,7(11):498-504.
[9] Itti L,Koch C,Niebur E.A model of saliency-based visual attention for rapid scene analysis[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1998,20(11):1254-1259.
[10] Itti L,Dhavale N,Pighin F.Realistic avatar eye and head animation using a neurobiological model of visual attention[C]//Optical Science and Technology,SPIE’s 48th Annual Meeting,International Society for Optics and Photonics,2004:64-78.
[11] Hou Xiaodi,Zhang Liqing.Saliency detection:A spectral residual approach[C]//2007 CVPR’07 IEEE Conference on Computer Vision and Pattern Recognition.IEEE,2007:1-8.
[12] Cheng Mingming,Zhang Guoxin,Mitra Niloy J,et al.Global contrast based salient region detection[C]//2011 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).IEEE,2011:409-416.
[13] Martins P,Carvalho P,Gatta C.Stable salient shapes[C]//2012 International Conference on Digital Image Computing Techniques and Applications(DICTA).IEEE,2012:1-8.
[14] Federico P,Philipp K,Yael P,et al.Saliency filters:Contrast based filtering for salient region detection[C]//2012 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).IEEE,2012:733-740.
[15] Sun Xiaoliang,Liu Xiaolin.Learning based saliency weighted structural similarity[C]//2012 International Workshop on Image Processing and Optical Engineering,International Society for Optics and Photonics,83351H-83351H-83357,2012.
[16] Gonzalez R C,Woods R E.Digital image processing[M].Upper Saddle River:Prentice Hall,2002:672-674.