阮若林,伍聃文,伍連啟
(湖北科技學(xué)院 電子與信息工程學(xué)院,湖北 咸寧 437100)
視覺(jué)關(guān)注度是計(jì)算機(jī)圖像分析領(lǐng)域中的一個(gè)熱門研究領(lǐng)域。在視頻圖像關(guān)注度提取研究中,圖像的亮度、顏色和方向等特征是圖像自身所具有的基本屬性,通常通過(guò)濾波等技術(shù)手段進(jìn)行分離;然而對(duì)于視頻圖像序列,由于其存在著時(shí)間上的連續(xù)性,因此除了可以利用濾波等技術(shù)手段提取其在空間上的亮度、顏色和方向等底層特性外,還可以利用連續(xù)圖像序列之間的時(shí)間相關(guān)性提取其閃爍和運(yùn)動(dòng)特征[1]。提取圖像或視頻序列的基本特征之后,利用Anne Treisman教授提出的圖像特征融合理論,將這些單個(gè)的圖像特征進(jìn)行融合,就可以得到圖像的關(guān)注度,進(jìn)而可以獲得其關(guān)注度圖(灰度圖),這個(gè)關(guān)注度圖(Saliency Map,SM)所在區(qū)域通常就是最容易引起人眼視覺(jué)注意的區(qū)域[2]。因此,關(guān)注度的提取在感興趣區(qū)域提取、運(yùn)動(dòng)目標(biāo)檢測(cè)、視覺(jué)編碼、智能監(jiān)控等諸多領(lǐng)域具有重要的應(yīng)用價(jià)值。
1980年,美國(guó)普林斯頓大學(xué)心理學(xué)教授Anne Treisman[3]通過(guò)對(duì)人眼視覺(jué)系統(tǒng)進(jìn)行實(shí)驗(yàn)得出顏色、方向和亮度是人類視覺(jué)系統(tǒng)最關(guān)注的特征,并在此基礎(chǔ)上提出了特征融合的理論,它是人類視覺(jué)系統(tǒng)的一個(gè)重要的理論基礎(chǔ)。近年來(lái),對(duì)于視頻信號(hào)關(guān)注度模型的研究也逐步開展。1998年,Itti等人[4]對(duì)視覺(jué)注意中的選擇和轉(zhuǎn)移工作機(jī)制進(jìn)行了開創(chuàng)性的研究,提出了可計(jì)算的視覺(jué)注意模型框架,采用特征融合的方式計(jì)算關(guān)注度圖,并將其用于圖像的關(guān)注度提取。2010年,He等人[5]改進(jìn)Itti模型,針對(duì)不同特征子圖融合時(shí),根據(jù)特征子圖的關(guān)注點(diǎn)數(shù)目不同給予不同的權(quán)重,獲得了較好的關(guān)注度圖,可以提高準(zhǔn)確率15-20%,但是,它也僅僅只是用來(lái)提取圖像的關(guān)注度。
2003年,Itti等人[6]通過(guò)考慮前后兩幀視頻信號(hào)的運(yùn)動(dòng)特征和閃爍特征,提出視頻信號(hào)的關(guān)注度模型。2004年,在Itti模型的框架上,Hu等人[7]采取動(dòng)態(tài)融合的策略來(lái)決定每個(gè)特征子圖的權(quán)重,再將其融合成一幅關(guān)注度圖;而Simone等人[8]則通過(guò)統(tǒng)計(jì)每個(gè)特征子圖的關(guān)注點(diǎn)數(shù),調(diào)整特征子圖權(quán)重進(jìn)行編碼。2005年,Wen-Huang Cheng等人[9]針對(duì)Itti模型對(duì)緩慢運(yùn)動(dòng)處理不佳的缺點(diǎn),將視頻序列分段,利用中值濾波得到時(shí)間分段的關(guān)注度圖,但這種方法對(duì)于運(yùn)動(dòng)劇烈的序列效果不好。2006年,Zhai等人[10]根據(jù)圖像的活動(dòng)亮度動(dòng)態(tài)地改變時(shí)域關(guān)注度子圖和空域關(guān)注度子圖的權(quán)值,提升關(guān)注度模型的準(zhǔn)確性。2007年,Junyong You等[11]通過(guò)綜合考慮運(yùn)動(dòng)關(guān)注度、對(duì)比關(guān)注度、人臉識(shí)別、聲音識(shí)別及攝像機(jī)運(yùn)動(dòng)等多種高層語(yǔ)義要素,計(jì)算視頻序列的關(guān)注度。2008年,Chang Liu等人[12]利用基于信息熵的時(shí)空域關(guān)注度融合來(lái)彌補(bǔ)時(shí)域關(guān)注度模型對(duì)于緩慢運(yùn)動(dòng)處理不佳的缺陷,但其對(duì)于時(shí)域關(guān)注度本身沒(méi)有改進(jìn)。2010年,Xia Yang等人[13]針對(duì)現(xiàn)有的關(guān)注度模型不能同時(shí)在快速運(yùn)動(dòng)場(chǎng)景和慢速運(yùn)動(dòng)場(chǎng)景下均取得令人滿意的效果,并且其計(jì)算復(fù)雜度很高,不能滿足實(shí)時(shí)應(yīng)用的需求的問(wèn)題,提出了基于場(chǎng)景分析的關(guān)注度模型,將視頻場(chǎng)景的運(yùn)動(dòng)特征參數(shù)引入到關(guān)注度的提取模型中,提升其關(guān)注度模型的精確性,運(yùn)動(dòng)關(guān)注度提取的準(zhǔn)確率達(dá)到了90%左右。同時(shí),目前的視頻關(guān)注度模型是圖像關(guān)注度模型的時(shí)域擴(kuò)展,需要逐幀計(jì)算關(guān)注度,其計(jì)算復(fù)雜度也較高。
視覺(jué)關(guān)注度模型是為了從視頻場(chǎng)景中提取人眼重點(diǎn)關(guān)注的區(qū)域,為后續(xù)基于區(qū)域的編碼奠定基礎(chǔ)?,F(xiàn)有的視覺(jué)關(guān)注度模型不能同時(shí)在快速運(yùn)動(dòng)場(chǎng)景和慢速運(yùn)動(dòng)場(chǎng)景下均取得令人滿意的提取效果,并且需要逐幀計(jì)算每幀的關(guān)注度,其計(jì)算復(fù)雜度高,不能滿足實(shí)時(shí)應(yīng)用的需求。為此本文研究了視頻圖像特性對(duì)關(guān)注度提取的影響,提出了基于視頻場(chǎng)景運(yùn)動(dòng)特征的關(guān)注度提取模型,提升了關(guān)注度提取模型的精確性;同時(shí),利用多參考幀的提取視頻圖像的運(yùn)動(dòng)特性,以降低關(guān)注度提取的計(jì)算復(fù)雜度。該成果應(yīng)用于視覺(jué)關(guān)注度圖的提取及預(yù)測(cè),可以有效解決視頻幀關(guān)注度區(qū)域提取準(zhǔn)確性低和提取復(fù)雜度過(guò)高的問(wèn)題。
關(guān)注度模型是為了從視頻場(chǎng)景中提取人眼重點(diǎn)關(guān)注區(qū)域,為后續(xù)的基于區(qū)域的編碼奠定基礎(chǔ)。如何獲得一個(gè)精確度高而復(fù)雜度低的關(guān)注度模型,是人眼關(guān)注區(qū)域?qū)崟r(shí)提取以及實(shí)時(shí)高質(zhì)量視頻編碼的關(guān)鍵。現(xiàn)有的關(guān)注度模型不能同時(shí)在快速運(yùn)動(dòng)場(chǎng)景和慢速運(yùn)動(dòng)場(chǎng)景下均取得令人滿意的效果,并且其計(jì)算復(fù)雜度很高,不能滿足實(shí)時(shí)應(yīng)用的需求。在本文研究基于場(chǎng)景分析的關(guān)注度模型,將視頻場(chǎng)景的運(yùn)動(dòng)特征參數(shù)引入到關(guān)注度的提取模型中,提升其關(guān)注度模型的精確性,考慮到人眼視覺(jué)系統(tǒng)具有的短時(shí)記憶效應(yīng)的特性,可以利用雙向預(yù)測(cè)技術(shù)來(lái)計(jì)算當(dāng)前幀的關(guān)注度圖,以降低計(jì)算復(fù)雜度。
本文對(duì)Itti等人提出的視覺(jué)關(guān)注度圖模型進(jìn)行修正,利用修正模型計(jì)算得到視頻圖像的關(guān)注度圖。在幀級(jí)的關(guān)注度計(jì)算中(單幀圖像關(guān)注度的提取),將研究基于視頻場(chǎng)景分析的關(guān)注度模型,將視頻場(chǎng)景的運(yùn)動(dòng)特征參數(shù)引入到關(guān)注度的提取模型中,提升其關(guān)注度模型的精確性。在序列級(jí)的關(guān)注度計(jì)算中(利用參考幀的已知關(guān)注度預(yù)測(cè)當(dāng)前幀的關(guān)注度),將研究基于場(chǎng)景分析和時(shí)域預(yù)測(cè)的關(guān)注度計(jì)算模型,以降低計(jì)算復(fù)雜度[13,14]。關(guān)注度建模主要步驟包括視頻圖像特征提取、關(guān)注度子圖生成、關(guān)注度子圖處理及融合成最終的關(guān)注度圖,如圖1所示。
圖1 視覺(jué)關(guān)注度建??驁D
與傳統(tǒng)方法不同,本文在運(yùn)動(dòng)特征提取和運(yùn)動(dòng)關(guān)注度子圖處理都做了改進(jìn)。Itti模型僅用了前后2幀進(jìn)行運(yùn)動(dòng)參數(shù)的提取,能夠捕獲的物體速度范圍有限,容易造成漏判,本文利用基于多幀參考的運(yùn)動(dòng)特征提取方案(原理如圖2所示),解決以上問(wèn)題[15]。另外,基于幀差法的運(yùn)動(dòng)特征檢測(cè),容易將活動(dòng)物體的內(nèi)部標(biāo)識(shí)成低關(guān)注度區(qū)域,從而造成誤判;本文利用基于空域信息的運(yùn)動(dòng)關(guān)注度增強(qiáng)方法,解決以上問(wèn)題。并主要通過(guò)視頻特征提取、關(guān)注度子圖生成、關(guān)注度子圖處理及融合成最終的關(guān)注度圖,并計(jì)算得到視頻圖像相對(duì)應(yīng)的關(guān)注度值,視頻圖像關(guān)注度區(qū)域提取過(guò)程如圖3所示,一般先計(jì)算得到關(guān)注度圖,然后確定關(guān)注度區(qū)域的邊界(為了簡(jiǎn)化起見,通常把關(guān)注度區(qū)域確定為矩形),最后通過(guò)邊界確定關(guān)注度區(qū)域及其大小。
圖2 基于多參考幀的關(guān)注度預(yù)測(cè)及關(guān)注度提取方法示意圖
圖3 視覺(jué)關(guān)注度區(qū)域的提取過(guò)程示意圖
對(duì)于YCbCr視頻流中的第i幀,分別提取底層特征亮度I、顏色C、方向O、閃爍F、運(yùn)動(dòng)M五類特征量。
亮度特征值I可直接對(duì)應(yīng)YCbCr顏色空間的Y分量,方向特征分量O由第i幀和第i-1幀中亮度特征值ci在0°,45°,90°,135°四個(gè)方向進(jìn)行Gabor濾波得到,閃爍特征值F由第i幀和第i-1幀對(duì)應(yīng)位置像素點(diǎn)的亮度值ci相減得到。
本文在運(yùn)動(dòng)特征提取上,對(duì)Itti的模型做了擴(kuò)展,利用對(duì)整個(gè)時(shí)間序列進(jìn)行運(yùn)動(dòng)參數(shù)的提取,從而能夠適應(yīng)更多的運(yùn)動(dòng)情況。Itti模型的運(yùn)動(dòng)特征M由第i幀和第i-1幀中的方向特征值co進(jìn)行一個(gè)像素大小的偏移S(θ)計(jì)算得到。
Itti模型利用高斯金字塔分解可以捕獲不同速率的運(yùn)動(dòng),其可以捕獲物體的運(yùn)動(dòng)速率為:
其中,v是物體的運(yùn)動(dòng)捕獲速度,Level是高斯金字塔分解層數(shù),dx、dy是提取運(yùn)動(dòng)特征時(shí)水平和垂直方向上的偏移量,f是幀率。
在視頻序列上,假定物體在短時(shí)間內(nèi)視為連續(xù)運(yùn)動(dòng),利用高斯金字塔分解可以捕獲不同速率的運(yùn)動(dòng),其可以捕獲物體的運(yùn)動(dòng)速率為:
其中,cur是當(dāng)前幀的幀號(hào),prei是參考幀幀號(hào),這意味著運(yùn)動(dòng)特征提取時(shí),其可以有多個(gè)參考幀。
因此,運(yùn)動(dòng)特征參數(shù)M的提取方法為:
其中,cic(σ,θ)是當(dāng)前幀的亮度特征I在尺度σ上用方向θ的Gabor函數(shù)濾波的特征圖,Sc(σ,θ)是cic(σ,θ)在方向θ上的偏移。cip(σ,θ)是參考幀的亮度特征I在尺度σ上用方向 θ的Gabor函數(shù)濾波的特征圖,Sp(σ,θ)是cip(σ,θ)在方向θ上的偏移。
在得到了視頻信號(hào)的底層特征信息之后,利用空域關(guān)注度子圖對(duì)運(yùn)動(dòng)關(guān)注度子圖進(jìn)行增強(qiáng)處理,使得物體內(nèi)部的關(guān)注度值得以提升。具體過(guò)程如下:
(1)得到當(dāng)前幀的空域關(guān)注度圖SMspatial:
其中,SMI是亮度關(guān)注度子圖,SMC是顏色關(guān)注度子圖,SMO是方向關(guān)注度子圖,w1、w2和w3是加權(quán)系數(shù);
(2)根據(jù)一定的閾值T1,將運(yùn)動(dòng)關(guān)注度高的點(diǎn)標(biāo)明出來(lái),設(shè)該高運(yùn)動(dòng)關(guān)注度值的點(diǎn)集為{ni},同理,根據(jù)一定的閾值T2,將空域關(guān)注度高的點(diǎn)標(biāo)明出來(lái),設(shè)此高空域關(guān)注度值的點(diǎn)集為{mi};
(3)找到運(yùn)動(dòng)前景物體的點(diǎn)集{qi}={ni}∩{mi};
(4)對(duì)每一個(gè)qi,設(shè)其鄰域?yàn)長(zhǎng),在其鄰域內(nèi)進(jìn)行搜索,并將屬于同一前景物體的點(diǎn)設(shè)為關(guān)注點(diǎn):
(5)得到關(guān)注點(diǎn)的集合:{t|f(t)=1};
(6)得到運(yùn)動(dòng)關(guān)注點(diǎn)集:{TSi}={ti}∪{ni};
(7)將{TSi}-{ni}中點(diǎn)的關(guān)注度值設(shè)置為{ni}中關(guān)注度的平均值;
(8)最后,將得到空域關(guān)注度、運(yùn)動(dòng)關(guān)注度及閃爍關(guān)注度進(jìn)行加權(quán)合并,得到視頻底層特征關(guān)注度子圖:
其中,λ1、λ2和λ3是加權(quán)系數(shù),SMspaital是空域關(guān)注度子圖,SMM是運(yùn)動(dòng)關(guān)注度子圖,SMF是閃爍關(guān)注度子圖。由于監(jiān)控視頻中人眼對(duì)運(yùn)動(dòng)及閃爍特征較為敏感,運(yùn)動(dòng)的物體較能吸引監(jiān)控人員的注意,因此在該式中,λ2>λ3>λ1。
視頻圖像底層特征提取的方法不同,得到的提取結(jié)果就會(huì)不一樣,導(dǎo)致融合后得到的顯著度差異很大,因此,本文后續(xù)將通過(guò)大量實(shí)驗(yàn)來(lái)檢驗(yàn)該方法的實(shí)際效果,并進(jìn)一步完善本文提出的方法。
本文主要介紹了視覺(jué)關(guān)注度的基本概念及對(duì)人眼視覺(jué)關(guān)注度模型的研究現(xiàn)狀,并對(duì)Itti提出的關(guān)注度模型進(jìn)行詳細(xì)分析,根據(jù)當(dāng)前關(guān)注度模型在提取視頻圖像關(guān)注度中存在的問(wèn)題,提出了改進(jìn)的關(guān)注度模型,進(jìn)一步提高視頻圖像關(guān)注度提取的精確性。該模型應(yīng)用于視覺(jué)關(guān)注度圖的提取及預(yù)測(cè),可以有效解決視頻幀關(guān)注度區(qū)域提取準(zhǔn)確性低和提取復(fù)雜度過(guò)高的問(wèn)題。因此,在感興趣區(qū)域提取、運(yùn)動(dòng)目標(biāo)檢測(cè)、視覺(jué)編碼、智能監(jiān)控等諸多領(lǐng)域具有重要的應(yīng)用價(jià)值。
[1]桑農(nóng),李正龍,張?zhí)煨?人類視覺(jué)注意機(jī)制在目標(biāo)檢測(cè)中的應(yīng)用[J].紅外與激光工程,2004,33(1):38~42.
[2]賀俊.基于視覺(jué)注意機(jī)制的物體關(guān)注性研究[D].上海:上海交通大學(xué),2009.
[3]Treisman,A.M.and Gelade,G..A Feature-Integration Theory of Attention[J].Cognitive Psychology,1980,12(1):97~136.
[4]L.Itti,C.Koch and E.Niebur.A Model of Saliency -Based Visual Attention for Rapid Scene Analysis[J].IEEE Trans.Pattern Anal.Machine Intell.,1998,20(11):1254~1259.
[5]Dongjian He,Yongmei Zhang,Huaibo Song.A Novel Saliency Map Extraction Method Based on Improved Itti's Model[A].CCTAE2010[C].2010,pp:323 ~327.
[6]L.Itti,N.Dhavale,F(xiàn).Pighin.Realistic Avatar Eye and Head Animation Using a Neurobiological Model of Visual Attention[A].Proceedings of SPIE 48th Annual International Symposium on Optical Science and Technology[C].2003,5200:64~78.
[7]Yiqun Hu,Xing Xia,Wei- Ying Ma,et al.Salient Region Detection Using Weighted Feature Maps Based on the Human Visual Attention Model[A].In Proceedings of the Fifth IEEE Pacific- Rim Conference on Multimedia[C].Tokyo Waterfront City,Japan,November 2004.
[8]Simone Frintrop,Andreas Nuchter,et al.Saliency -Based Object Recognition in 3D Data[A].IEEE/RSJ International Conference on Intelligent Robots and System[C].Sendai,Japan.2004.
[9]Wen-Huang Cheng,Wei-Ta Chu and Ja-Ling Wu.A Visual Attention Based Region of Interest Determination Framework for Video Sequences[J].IEICE Trans.Inf.&Syst,2005,E88 -D(7):1578 ~1586.
[10]Yun Zhai,Mubarak Shah.Visual Attention Detection in Video Sequences Using Spatiotemporal Cues[A].Proceedings of the 14th annual ACM international conference on Multimedia[C].2006,pp:815 ~824.
[11]Junyong You,Guizhong Liu,Li Sun,et al.A Multiple Visual Models Based Perceptive Analysis Framework for Multilevel Video Summarization[J].IEEE Transactions on Circuits and Systems for Video Technology,2007,17(3):273~285.
[12]Chang Liua,Pong C.Yuena and Guoping Qiu.Object Motion Detection Using Information Theoretic Spatio-temporal Saliency[J].Pattern Recognition,2009,42(11):2897~2906.
[13]阮若林.基于視覺(jué)感知特性的無(wú)線視頻容錯(cuò)編碼技術(shù)研究[D].武漢:武漢大學(xué),2011.
[14]Yang Xia,Ruimin Hu,Zhenkun Huang,Yin Su.A Novel Method for Generation of Motion Saliency[A].Proceedings of 2010 IEEE 17th ICIP[C].2010,pp:4685~4688.
[15]Ruan Ruolin,Hu Ruimin,Li Zhongming,Yin Liming.Rate Control Algorithm of Wireless Video Based on Saliency Map Model[J].China Communications,2011,8(7):110~115.
[16]Ruan Ruolin,Xia Yang,Yin Liming.Research on Binocular Stereo Video Attention Model Based on Human Visual System[A].ICCSE2013[C].Colombo Sri Lanka,2013,4.