譚晶晶,殷海兵
(中國計量學(xué)院 信息工程學(xué)院,浙江 杭州 310018)
隨著視頻的廣泛應(yīng)用,人們對視頻質(zhì)量的要求越來越高.原始視頻經(jīng)過壓縮,傳輸,解碼以后會受到各種噪聲的影響,產(chǎn)生一定的失真.視頻的感知質(zhì)量與這些失真密切相關(guān).基于人眼視覺系統(tǒng)(HVS)的視頻感知質(zhì)量的評價是目前研究的重點.在對人眼視覺系統(tǒng)的研究中,中心凹特性的應(yīng)用是視覺感知質(zhì)量研究的一部分.我們知道對圖片中心凹的研究中,在圖片的不同位置,人眼對其敏感性不同.在明亮條件下,中央2°的敏感性最高,而在中心5°的時候,敏感性相當(dāng)于2°下降了50%;超過中心5°,敏感性急劇下降[1].基于此,我們需要知道在視頻播放過程中,人眼的關(guān)注點,確定了視頻幀中的關(guān)注點,才能進(jìn)一步優(yōu)化最終的視覺感知質(zhì)量.
視頻中運(yùn)動物體的軌跡一直是人們研究的興趣點.在評價視頻序列時,一般把每幀圖像分為感興趣區(qū)域和非感興趣區(qū)域.視頻中,運(yùn)動物體區(qū)域更容易被人眼跟蹤.目前算法中存在很多基于物體運(yùn)動特性的區(qū)域搜索[2-5].為了提取視頻中物體的運(yùn)動區(qū)域,一般會從空域特征和運(yùn)動物體的時域特性兩個方面進(jìn)行探索.
空域方面,人們會區(qū)分圖像的前景與背景,而運(yùn)動的物體一般會作為視覺觀察的前景,它更能引起人們的興趣.
時域方面,通過建模得到視頻序列的時域濾波器處理空域信息,最終得到感興趣區(qū)域.視覺興趣性不僅與運(yùn)動有關(guān),還與對比度、目標(biāo)物大小、顏色等有關(guān).在視頻質(zhì)量評價過程中,考慮到人眼的非對稱行為特性(也就是說人眼更能記住不好的瞬間)[6],對于失真序列,播放時出現(xiàn)的失真大的區(qū)域同樣會受到人眼的關(guān)注.因此,本文將基于時域的感知失真查找感興趣區(qū)域.
考慮到人眼對運(yùn)動和失真的興趣性,同時有效的評價視頻序列,需要對視頻的特性和視覺的興趣性進(jìn)行分析.
基于此,本文將從視覺特性和時域感知失真出發(fā),搜索人眼可能的感興趣區(qū)域.
視頻播放過程中,人眼總是追逐運(yùn)動的物體,并關(guān)注突然出現(xiàn)的人眼無法忍受的失真.人眼關(guān)注視頻中某一點的持續(xù)時間大約為200~600ms[7],平均每秒鐘有2~4個興趣點[8].視覺興趣點的選擇一般是由人們經(jīng)驗獲得,用于模擬人眼在觀測視頻時的眼球運(yùn)動狀態(tài).
我們在文獻(xiàn)[9]中采用全參考的視頻質(zhì)量評價方法,根據(jù)HVS特性分析LIVE數(shù)據(jù)庫中[10]的sf1_25fps.yuv序列,計算測試序列的時域感知失真.文獻(xiàn)[9]中,通過研究時域失真波動對視頻質(zhì)量評價的影響,發(fā)現(xiàn)時域失真波動比較大的地方同時也是運(yùn)動存在的區(qū)域,如圖1.因此時域失真波動程度在一定程度上可以反映出運(yùn)動物體的區(qū)域.圖2中分析了bs2_25fps.yuv測試序列的失真圖像和其計算的時域失真圖,可以看出,在失真比較大的區(qū)域,其時域失真波動也更明顯.基于此,本文的主要內(nèi)容是根據(jù)時域失真波動值fltt和時域感知失真值θt搜索失真明顯或者存在容易引起人眼關(guān)注的運(yùn)動物體.
考慮到紋理掩蔽效應(yīng)的影響,我們將紋理掩蔽效應(yīng)并入到時域感知失真中.因此,本文將分兩部分介紹感興趣區(qū)域搜索的主要內(nèi)容.
1)紋理掩蔽效應(yīng)
根據(jù)以往的研究發(fā)現(xiàn),人們對圖像中的邊緣信息比較敏感.因此在對圖像質(zhì)量和視頻的空域質(zhì)量研究時,人們往往會把圖片內(nèi)容分為三個部分,即是邊緣、紋理、平坦區(qū)域.考慮到視覺感知的影響,紋理信息對圖片內(nèi)容的掩蔽效應(yīng)最好.
為了探索紋理掩蔽的影響,通過分析邊緣強(qiáng)度的分布,提取出每一像素點在視覺感知計算時的重要程度.
常見的邊緣檢測算子有Roberts,Prewitt,Log等,考慮到邊緣檢測的準(zhǔn)確度和算法的復(fù)雜度,本文計算邊緣強(qiáng)度信息時采用Sobel算子計算原始圖像的梯度場,并計算每一像素點的幅度場.Sobel算子的兩個卷積模板顯示如下:
計算時,分別從水平方向和垂直方向?qū)υ紙D像進(jìn)行卷積得到每幀圖像的邊緣強(qiáng)度值:
At為原始幀數(shù)據(jù).邊緣強(qiáng)度值可以體現(xiàn)出每幀圖像每一像素點的邊緣信息強(qiáng)度值.由于紋理具有很強(qiáng)的掩蔽效應(yīng),因此通過判斷局部區(qū)域的邊緣變化強(qiáng)度值來判斷該區(qū)域的紋理變化強(qiáng)度.
本文考慮到局部區(qū)域的掩蔽作用,通過把每一幀圖像劃分為8×8塊大小的區(qū)域,計算每一區(qū)域的強(qiáng)度值的分布情況.通過計算每一8×8區(qū)域數(shù)據(jù)的標(biāo)準(zhǔn)差值表示紋理強(qiáng)度local_tt(m,n).圖3表示sf1_25fps.yuv序列第62幀的紋理強(qiáng)度值.原始圖為圖1中左圖.
圖3 sf2_25fps.yuv局部紋理強(qiáng)度圖Figure 3 Texture strength map of sf2_25fps.yuv
從圖3可以看出,蜜蜂右側(cè)是圖像中邊緣紋理比較復(fù)雜的區(qū)域,同時其左側(cè)的圖像區(qū)域紋理相對簡單.由于紋理區(qū)域的掩蔽效應(yīng)相對于平坦區(qū)域的掩蔽效應(yīng)較強(qiáng),因此,考慮每一區(qū)域的數(shù)據(jù)特征根據(jù)公式(3)對局部紋理強(qiáng)度調(diào)整并歸一化到[0,1],表示每一像素點的掩蔽效應(yīng)的強(qiáng)弱.使其權(quán)值的分布更符合人眼的感知分布.
weight_texture表示掩蔽效應(yīng)權(quán)值,local_tt表示局部紋理強(qiáng)度值.圖4表示了計算得到的weight_texture值.
圖4 weight_texture顯示圖Figure 4 Map of weight_texture
根據(jù)文獻(xiàn)[7]得到的時域感知失真θt,調(diào)整后的時域感知失真值為:
t為幀序號.
2)感興趣區(qū)域搜索
本文對感興趣區(qū)域搜索主要是基于紋理掩蔽調(diào)整后的時域感知失真θ′t和時域失真波動fltt.
在計算時域失真波動時,我們考慮到當(dāng)前計算幀和其前后各10幀的關(guān)系.通過基于預(yù)測運(yùn)動矢量的全搜索運(yùn)動估計的算法得到前后各10幀的運(yùn)動矢量.根據(jù)每一幀的運(yùn)動矢量得到每一幀對應(yīng)的運(yùn)動補(bǔ)償圖像.在20幀范圍內(nèi),變化比較大的區(qū)域,我們認(rèn)為是運(yùn)動物體區(qū)域和失真較大的區(qū)域.時域感知失真的計算考慮到時域失真波動和視覺暫留等效應(yīng)對感知失真的影響,也可以從一定程度上反映出時域分布上的失真較大的區(qū)域.因此在搜索感興趣區(qū)域時,本文將這兩個因素作為搜索的主要因子.
本次算法將對每幀圖像進(jìn)行自適應(yīng)搜索.搜索結(jié)構(gòu)描述如圖5.
從圖1和圖2中可以看出,運(yùn)動部分和失真大的部分,其時域失真的波動值都是比較強(qiáng).但是失真波動較大區(qū)域不僅局限于運(yùn)動區(qū)域或者人眼不能忍受的較大失真的區(qū)域.本算法初步設(shè)定閾值,提取出圖片幀中fltt(x,y)>ε1的像素點,將其標(biāo)定為1,得到標(biāo)定區(qū)域Ω1.同時考慮到圖片幀每一像素點的時域感知失真值,同樣找出θ′t(x,y)>ε2的像素點,標(biāo)定為1,得到標(biāo)定區(qū)域Ω2.確定初始標(biāo)定圖Ω=Ω1∪Ω2如圖6(b).圖6(b)中顯示出當(dāng)前圖片幀中存在很多失真波動或者感知失真值比較大的區(qū)域,人眼視覺系統(tǒng)對面積小的區(qū)域不如面積大的區(qū)域敏感.我們根據(jù)8連通區(qū)域的特征,根據(jù)某一像素點8連通區(qū)域內(nèi)標(biāo)定為1的像素點所占的比例大小,對初始標(biāo)簽圖進(jìn)行重新確認(rèn),得到初始連通區(qū)域,如圖6(c)所示.根據(jù)人類知覺的選擇性,刪除小面積區(qū)域后,如圖6(d).此時已經(jīng)得到初步的連通區(qū)域,即人眼可能的感興趣點.根據(jù)人眼視覺的整體性,需要對圖6(d)進(jìn)行聚類分析.即將選定的區(qū)域和θ′t關(guān)系重新搜索,確定新的搜索區(qū)域,得到圖6(e).再次根據(jù)圖6(e)得到的標(biāo)簽圖,判斷每一點8連通區(qū)域內(nèi)顯示為1的點所占的比例情況,再一次確定感興趣區(qū)域的范圍如圖6(f).
圖5 感興趣區(qū)域搜索結(jié)構(gòu)圖Figure 5 Structure map of searching of interesting regions
圖6 感興趣區(qū)域搜索圖Figure 6 Process map of searching of interesting regions
圖7 結(jié)果圖Figure 7 Text map of bs,mc,sf,tr
從圖6可以看出該算法可以提取出可能的人眼感興趣區(qū)域.
在這一部分,主要介紹感興趣區(qū)域搜索的在不同類型測試序列上的測試結(jié)果.本次算法在LIVE數(shù)據(jù)庫[8]中 bs,mc,sf,tr等四種測試序列進(jìn)行測試,bs序列的主要內(nèi)容是藍(lán)色天空和一些樹,鏡頭是移動的,在這個失真序列中會在紋理區(qū)域和平坦區(qū)域突然出現(xiàn)比較大的、人眼不能忍受的失真.考慮到人眼的非對稱行為特性,這一部分的失真會嚴(yán)重影響到人眼對整體序列的評分.因此,測試結(jié)果如圖7(a),左側(cè)圖為原始失真序列,右側(cè)圖為選定的感興趣區(qū)域.mc序列是一個玩具火車水平移動,同時作為背景的掛歷垂直移動,本次測試隨機(jī)選取了其中一幀,通過測試結(jié)果顯示如圖7(b),可以看出選出的區(qū)域同樣是時域上變化比較大的區(qū)域.在圖7(c)sf序列中,蜜蜂的移動是人眼關(guān)注的重點,因此,結(jié)果圖很好地顯示了搜索的準(zhǔn)確性.在tr序列中存在比較大的移動物體,人眼會比較關(guān)注拖拉機(jī)的區(qū)域,但是在測試序列中,拖拉機(jī)的移動會伴隨著比較大的失真,因此搜索到拖拉機(jī)區(qū)域失真大的位置能表示人眼的感興趣區(qū)域.圖7(d)的結(jié)果圖很好的表示了感興趣區(qū)域的位置信息.
通過4個序列的測試結(jié)果顯示,該算法能很好地確定時域序列每幀的感興趣區(qū)域部分,而不僅限于傳統(tǒng)的運(yùn)動區(qū)域的搜索.本文算法與傳統(tǒng)的運(yùn)動區(qū)域搜索算法不同的是,本算法的設(shè)計是服務(wù)于基于人眼視覺特性的視頻質(zhì)量評價模型的構(gòu)建.從人眼的非對稱行為、眼球的追蹤,和觀察的興趣性等特性分析,搜索視頻序列中可能的感興趣區(qū)域,從而應(yīng)用于視頻質(zhì)量評價算法,使客觀的視頻質(zhì)量算法達(dá)到與主觀評價算法較高的一致性.
本文主要是從視頻序列失真角度出發(fā),分析可能存在的感興趣區(qū)域.通過分析測試序列幀的時域失真波動和時域感知失真搜索視覺感興趣區(qū)域.從搜索區(qū)域結(jié)果圖中可以看出該算法的可行性.該算法的提出是為了應(yīng)用于視頻質(zhì)量評價.
[1]Duchowski A T.Eye tracking methodology:theory and practice[M].2nd ed.London Springer:2007:15-40.
[2]Huang S C.An advanced motion detection algorithm with video quality analysis for video surveillance system [J].IEEE Transactions on Circuits and System for Video Technology,2011,21(1):1-14.
[3]Kim T K,Im J H,Paik J K.Video object segmentation and its salient motion detection using adaptive background generation[J].Electronics Letters,2009,45(11):542-543.
[4]C'ulibek D,Mirkovic'M,Zlokolica V.Salient motion features for video quality assessment[J].IEEE Transactions on Image Processing,2011,20(4):948-958.
[5]Tian Y L,Hampapur A.Robust salient motion detection with complex background for real-time video surveillance[J].Application of Computer Vision,2005,2:30-35.
[6]Tan K T,Ghanbari M,Pearson D.An objective measurement tool for mpeg video quality[J].Signal Process,1998,70(3):279-294.
[7]Ware C.Information visualization:perception for design[M].2nd ed.CA:Morgan Kaufmann,2004:1-11.
[8]Meur O L,Callet P L,Barba D.Predicting visual fixations on video based on low-level visual features[J].Vision Research,2007,47(19):2483-2498.
[9]Tan Jingjing,Yin Haibing.Temporal distortion measure for visual quality assessment[J].Video Engineering(unpublished).
[10]Seshadrinathan K.,Soundararajan R.Study of subjective and objective quality assessment of video[J].IEEE Trans Image Processing,2010,19(6):1427-1441.