應(yīng)宏微 蔣剛毅 郁 梅 彭宗舉 邵 楓(寧波大學(xué)信息科學(xué)與工程學(xué)院 寧波 315211)(寧波工程學(xué)院電子與信息工程學(xué)院 寧波 315211)(南京大學(xué)計(jì)算機(jī)軟件新技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室 南京 210093)
?
基于場(chǎng)景模式的立體圖像舒適度客觀評(píng)價(jià)模型
應(yīng)宏微①②蔣剛毅*①③郁梅①③彭宗舉①邵楓①
①(寧波大學(xué)信息科學(xué)與工程學(xué)院寧波315211)
②(寧波工程學(xué)院電子與信息工程學(xué)院寧波315211)
③(南京大學(xué)計(jì)算機(jī)軟件新技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室南京210093)
摘要:為了預(yù)測(cè)雙目立體圖像內(nèi)容對(duì)視覺健康可能產(chǎn)生的危害,該文提出一種基于場(chǎng)景模式的立體圖像舒適度客觀評(píng)價(jià)模型。根據(jù)場(chǎng)景中前景目標(biāo)和后景區(qū)域相對(duì)于顯示屏幕的凹凸性以及是否處于舒適觀看區(qū),將自然場(chǎng)景抽象為多種場(chǎng)景模式。在模式選擇階段,從視差圖中自適應(yīng)分割出前景目標(biāo)和后景區(qū)域,根據(jù)前、后景的視差角特征確定場(chǎng)景所屬的模式;在建模階段,采用前、后景的視差角特征結(jié)合前景的寬度角和曲折度特征對(duì)各個(gè)場(chǎng)景模式分別進(jìn)行建模,并量化了前、后景視差因素對(duì)視覺舒適度的影響。在IVY數(shù)據(jù)庫(kù)上的實(shí)驗(yàn)結(jié)果表明,所提出的模型與主觀感知存在較好的一致性,Pearson相關(guān)系數(shù)高于0.91,Spearman相關(guān)系數(shù)高于0.90,Kendall相關(guān)系數(shù)高于0.74,平均絕對(duì)值誤差低于0.24,均方根誤差低于0.32,與現(xiàn)有的方法相比,該文所提出的模型的評(píng)價(jià)效果更好,更接近于主觀測(cè)試結(jié)果。
關(guān)鍵詞:立體圖像;舒適度評(píng)價(jià);場(chǎng)景模式;雙目視覺
近幾年來,以3D電影、3D游戲?yàn)榇淼?D文化產(chǎn)業(yè)所產(chǎn)生的巨大需求,帶動(dòng)了立體視覺相關(guān)產(chǎn)品的飛速發(fā)展,使用戶得到了全新的視覺體驗(yàn)[1,2]。但由于人眼視覺機(jī)制、3D內(nèi)容、顯示器參數(shù)、觀看條件等原因,人們?cè)谟^看3D節(jié)目后會(huì)產(chǎn)生諸如眼疲勞、頭痛、惡心等生理上的不舒適感[3],從而限制了3D圖像/視頻系統(tǒng)的廣泛應(yīng)用。為了改善這個(gè)問題,3D產(chǎn)業(yè)發(fā)展需要舒適度評(píng)價(jià)體系以指導(dǎo)3D內(nèi)容制作、后期處理等方面的工作,此時(shí)視覺舒適度評(píng)價(jià)(Visual Comfort Assessment,VCA)就引起人們的關(guān)注[4]。
立體圖像引起不舒適的原因有許多,從人的生理線索來說,視差是產(chǎn)生深度感知的主要途徑[5],但由于人眼觀看立體景物時(shí)存在的“調(diào)節(jié)”(accommodation)與“會(huì)聚”(輻輳,vergence)的矛盾機(jī)制,過大的視差也是引起雙目無法融合,導(dǎo)致視覺疲勞的主要因素[6]。寬度因素也是一種對(duì)舒適度影響較大的特征,文獻(xiàn)[7,8]發(fā)現(xiàn),在視差因素固定的情況下,雙目融合限制和目標(biāo)寬度因素呈現(xiàn)為一種線性關(guān)系,寬度越小,融合限制越強(qiáng),越容易引起不舒適感。此外,圖像的空間頻率特征會(huì)對(duì)雙目融合產(chǎn)生影響[9,10],隨著頻率下降、雙目融合限制會(huì)放松。文獻(xiàn)[11]發(fā)現(xiàn)對(duì)圖像進(jìn)行模糊或者銳化會(huì)影響視覺舒適度,當(dāng)視差超過雙目融合限制時(shí),如果空間頻率較低,主觀實(shí)驗(yàn)受試者中感到不舒適的人數(shù)相對(duì)較少。文獻(xiàn)[12]的主觀實(shí)驗(yàn)表明,立體圖像低空間頻率所致的模糊可以增加觀看舒適度。
就立體圖像舒適度的客觀評(píng)價(jià),文獻(xiàn)[13]提出了基于加權(quán)最大視差、相對(duì)視差和目標(biāo)寬度特征(WMX+RD+OT)的立體圖像舒適度評(píng)價(jià)方法,使用M5P回歸樹算法建立客觀評(píng)價(jià)模型,文獻(xiàn)[8]設(shè)計(jì)了主觀實(shí)驗(yàn)研究了前景目標(biāo)的視差因素及寬度因素與舒適度的關(guān)系,提出了基于前景目標(biāo)視差角和寬度角特征的舒適度客觀評(píng)價(jià)模型(D+W)。文獻(xiàn)[14]提出一種基于視覺重要區(qū)域的立體圖像舒適度客觀評(píng)價(jià)模型,首先利用2維圖像顯著圖和視差圖像得到立體圖像視覺重要區(qū)域,然后提取視覺重要區(qū)域的視差幅度特征、視差梯度邊緣特征以及空間頻率特征,并建立特征信息與平均主觀評(píng)分值的關(guān)系。以上模型在韓國(guó)先進(jìn)科學(xué)技術(shù)院(Korea Advanced Institute of Science and Technology)的圖像和視頻系統(tǒng)實(shí)驗(yàn)室提供的立體圖像數(shù)據(jù)庫(kù)[15](IVY)上進(jìn)行測(cè)試,都取得了較好的性能。其中文獻(xiàn)[13]所使用的相對(duì)視差特征和文獻(xiàn)[12]所使用的視差梯度邊緣特征隱含了立體圖像局部區(qū)域的前、后景視差信息,所得到模型的性能較文獻(xiàn)[8]更好。
本文根據(jù)場(chǎng)景中前景目標(biāo)和后景區(qū)域的深度設(shè)計(jì)了多種場(chǎng)景模式,在每種場(chǎng)景模式下分別建立舒適度客觀評(píng)價(jià)模型,所提出的模型組能更精確地反映視差對(duì)視覺舒適度感知的影響,實(shí)驗(yàn)結(jié)果顯示提高了自然立體圖像視覺舒適度的評(píng)價(jià)性能。
在文獻(xiàn)[8]主觀實(shí)驗(yàn)所布置的場(chǎng)景僅為一種模式:前景目標(biāo)凸出于屏幕,視差類型為交叉視差;后景區(qū)域?yàn)槠聊?,視差?。所提出的D+W模型反映了前景目標(biāo)的視差和寬度對(duì)視覺舒適度的影響,若該模型以5分制表示,則如式(1)所示:
但在IVY數(shù)據(jù)庫(kù)中,許多自然立體圖像的前景目標(biāo)超過了式(1)的視差限制,背景區(qū)域也并非固定于屏幕。用均方根誤差(Root Mean Squared Error,RMSE)和平均絕對(duì)值誤差(Mean Absolute Error,MAE)來度量該模型的誤差,如果僅測(cè)試滿足D∈的立體圖像,得到RMSE=0.347,MAE =0.266;如果測(cè)試IVY數(shù)據(jù)庫(kù)中所有的立體圖像,得到RMSE=0.450,MAE=0.332,即誤差上升。這說明當(dāng)D+W模型面對(duì)更復(fù)雜的場(chǎng)景時(shí),評(píng)價(jià)性能會(huì)有所下降。
真實(shí)的場(chǎng)景中通常存在多個(gè)目標(biāo)物體,由于深度位置上的差異,它們對(duì)視覺舒適度的影響并不相同。為了簡(jiǎn)化研究,根據(jù)立體顯示器場(chǎng)景中各立體內(nèi)容的深度,可將它們抽象為前景目標(biāo)、后景區(qū)域和顯示器屏幕3部分。人眼對(duì)場(chǎng)景中不同深度目標(biāo)的關(guān)注度是不相同的,一般而言,距觀看者較近的前景目標(biāo)所獲得的關(guān)注度較高,對(duì)舒適度感知的影響較大[16],后景區(qū)域則相對(duì)較小。同時(shí),若前景目標(biāo)離人眼太近或后景區(qū)域離人眼太遠(yuǎn),超過了雙目的潘諾融合限制(Panum’s fusion limit),都會(huì)引起不舒適感。因此為得到性能較佳的舒適度模型,須分析不同深度位置的立體內(nèi)容對(duì)人眼舒適度感知的影響程度。本文提出根據(jù)前、后景相對(duì)于屏幕的凹凸性以及是否處于舒適區(qū)(Zone of Comfortable Viewing,ZCV)[17],將立體顯示器所顯示的自然場(chǎng)景分為10種模式,如圖1所示。
圖1 立體顯示器所顯示的自然場(chǎng)景的分類
雙目調(diào)節(jié)和會(huì)聚矛盾是影響立體圖像舒適度的生理機(jī)制。調(diào)節(jié)雙目的實(shí)際對(duì)焦距離即為“調(diào)節(jié)”,當(dāng)雙目觀看某一景物時(shí),睫狀肌會(huì)自動(dòng)的調(diào)節(jié)晶狀體的屈光力,使景物發(fā)出的光線能落于視網(wǎng)膜的中央凹處,確保成像清晰。與此同時(shí),雙目的視軸也要轉(zhuǎn)向內(nèi)側(cè),使視軸均朝向被注視的景物,這種現(xiàn)象稱為“會(huì)聚”。在觀看自然世界時(shí),人眼的調(diào)節(jié)和會(huì)聚是相互協(xié)作聯(lián)合運(yùn)動(dòng)的,焦點(diǎn)的調(diào)節(jié)始終跟隨著會(huì)聚的變化,二者是一致的。然而在觀看人工制作的立體影像時(shí),由于調(diào)節(jié)的距離即是眼睛到立體顯示屏的距離,而會(huì)聚的距離則是人眼到顯示于屏幕前方或后方的景物的距離,兩者距離不一致,就會(huì)產(chǎn)生沖突。
視差角體現(xiàn)了雙目調(diào)節(jié)和會(huì)聚的矛盾,根據(jù)文獻(xiàn)[18]定義的視差角特征,定義k為調(diào)節(jié)角,f和b分別是前景和背景的會(huì)聚角,則前景目標(biāo)的視差角fa為
后景區(qū)域的視差角ba為
當(dāng)視差角絕對(duì)值大于1°時(shí),通常雙目將無法融合,會(huì)產(chǎn)生“復(fù)視”等不舒適感,因此將視差角絕對(duì)值小于1°的區(qū)域稱為舒適區(qū)域,如圖1中兩條虛線內(nèi)的區(qū)域所示,虛線外的則為非舒適區(qū)域[17]。
采用IVY數(shù)據(jù)庫(kù)作為立體圖像樣本數(shù)據(jù)集合。由于該數(shù)據(jù)庫(kù)中所有立體圖像的后景視差角絕對(duì)值均小于1°,即都處于舒適區(qū)內(nèi),而場(chǎng)景模式10僅有1幅圖像,因此本文僅對(duì)4,5,8,9這4類模式展開研究。
為得到性能更優(yōu)的視覺舒適度評(píng)價(jià)方法,本文對(duì)4類場(chǎng)景模式分別建立了視覺舒適度模型。首先提取影響視覺舒適度的特征,然后對(duì)文獻(xiàn)[8]的D+W模型進(jìn)行擴(kuò)展,添加前景目標(biāo)的曲折度衰減系數(shù),建立了各場(chǎng)景模式下的模型,還得到了每種場(chǎng)景下前、后景對(duì)視覺舒適度影響力的量化結(jié)果。本文提出的視覺舒適度評(píng)價(jià)方法的框架如圖2所示。
圖 2 所提出的視覺舒適度評(píng)價(jià)方法框架
3.1 模型的特征提取
IVY數(shù)據(jù)庫(kù)使用深度估計(jì)軟件(Depth Estimation Reference Software,DERS)[19]獲得右視點(diǎn)的視差圖像。統(tǒng)計(jì)視差圖像的灰度直方圖,使用最大類間方差法(OTSU)對(duì)視差直方圖進(jìn)行自適應(yīng)分割,得到前景區(qū)域和后景區(qū)域,視前景區(qū)域中各連通域?yàn)榍熬澳繕?biāo)。計(jì)算出各前景目標(biāo)的平均視差幅值F、后景區(qū)域的平均視差幅值B,結(jié)合人眼到顯示器的距離h、瞳距p、顯示器寬度L、水平分辨率N等先驗(yàn)知識(shí),以圖3所示的視差角幾何示意圖為例,可得以式(4)~式(6)所示的前景會(huì)聚角f,后景會(huì)聚角b,調(diào)節(jié)角k。
圖3 視差角幾何示意圖
然后根據(jù)式(2),式(3),可確定前景視差角fa和后景視差角ba。
通過行掃描得到各前景目標(biāo)的平均寬度W,然后將其轉(zhuǎn)化為前景目標(biāo)的寬度角Wa,以圖4所示的寬度角幾何示意圖為例,則
圖 4 寬度角幾何示意圖
根據(jù)研究,當(dāng)前景目標(biāo)處于非舒適區(qū)時(shí),立體圖像中樹枝形態(tài)的曲折度較大的前景目標(biāo)會(huì)顯著降低視覺舒適度,以數(shù)據(jù)庫(kù)中的51號(hào)立體圖像為例,如圖5所示,前景目標(biāo)為兩串樹枝,其形態(tài)表現(xiàn)出高頻特征,是引起人眼不舒適的重要原因。
在前景目標(biāo)分割結(jié)果的二值圖中,設(shè)前景目標(biāo)像素值為“1”,后景區(qū)域像素值為“0”,對(duì)前景目標(biāo)行掃描,得到每一行由“1”構(gòu)成的線段數(shù),然后計(jì)算所有含有“1”線段的行的平均線段數(shù)Sr;同理可得所有含有“1”線段的列的平均線段數(shù)Sc。Sr和Sc值越大,則說明前景目標(biāo)的曲折度越大。用前景視差角fa,Sr和Sc來度量曲折度,當(dāng),同時(shí)滿足時(shí)(Tf,Tr,Tc是經(jīng)驗(yàn)閾值,將在下文的實(shí)驗(yàn)中確定),認(rèn)為該前景目標(biāo)的曲折度將引起視覺舒適度的顯著衰減。
圖5 前景目標(biāo)曲折度示例(數(shù)據(jù)庫(kù)中的編號(hào)51圖像)
3.2 本文模型
式(1)所示的D+W模型由 4項(xiàng)組成,第1項(xiàng)是常數(shù)項(xiàng),第2~4項(xiàng)體現(xiàn)了前景視差、前景目標(biāo)寬度這兩個(gè)因素對(duì)視覺舒適度的影響。固定式(1)中的W,可知舒適度和視差D存在一個(gè)線性關(guān)系。但該模型在視差因素上僅考慮前景目標(biāo)對(duì)舒適度的影響,而在不同的場(chǎng)景模式下,人眼對(duì)前后景的關(guān)注程度也會(huì)有所不同,因此本文將D+W模型進(jìn)行擴(kuò)展,綜合了前、后景視差對(duì)視覺舒適度的共同影響。保持式(1)中與寬度因素相關(guān)的項(xiàng),定義場(chǎng)景模式n的全局視差角:
式(8)和式(9)中的系數(shù)qn,Un,Vn,P需要通過定量的實(shí)驗(yàn)分析加以確定。
下面通過實(shí)驗(yàn)分析對(duì)所提出的舒適度客觀評(píng)價(jià)模型,確定其中未知系數(shù)的最優(yōu)值。所采用的IVY立體圖像庫(kù)由120幅分辨率為1920×1080的立體圖像組成,包含了各種室內(nèi)場(chǎng)景和室外場(chǎng)景圖像。該立體圖像庫(kù)的主觀實(shí)驗(yàn)按照ITU-R BT.500-11和ITU-R BT.1438規(guī)定的標(biāo)準(zhǔn)進(jìn)行,對(duì)立體圖像按照5個(gè)等級(jí)(5表示非常舒適,4表示舒適,3表示一般舒適,2表示比較不舒適,1表示非常不舒適)進(jìn)行主觀評(píng)分,最終得到每幅立體圖像的平均主觀評(píng)分值(Mean Opinion Score,MOS)。
4.1 各場(chǎng)景模式的建模
對(duì)4類場(chǎng)景模式(4,5,8,9)分別進(jìn)行定量分析,以確定式(8)和式(9)中的系數(shù)。暫不考慮曲折度衰減系數(shù)P,先求系數(shù)qn,Un,Vn,定義:
式(10)中已屏蔽P。令式(1)的第2項(xiàng)為0,即先屏蔽舒適度與視差角的線性關(guān)系項(xiàng),保留常數(shù)項(xiàng)和與寬度因素相關(guān)的項(xiàng),得到
在不同的場(chǎng)景模式下,人眼對(duì)于前景和后景的關(guān)注程度有所不同,各場(chǎng)景模式下q的取值需通過以下的實(shí)驗(yàn)分析確定。
以場(chǎng)景模式4為例,在該場(chǎng)景中q取不同值時(shí),ERR與Da的線性擬合情況如圖6所示。從圖6(a)中可以看出,當(dāng)q =0.1,即前景和后景視差角權(quán)重分別為0.1和0.9時(shí),圖中的散點(diǎn)較為散亂;圖6(c)中當(dāng)q =1.0,即前景和后景視差角權(quán)重分別為1和0時(shí),圖中的散點(diǎn)也較為散亂。說明q取0.1或1.0時(shí)的全局視差角不能很好地體現(xiàn)與視覺舒適的線性關(guān)系。當(dāng)q =0.7時(shí),,此時(shí)散點(diǎn)的擬合程度最好,擬合直線方程為ERR =,如圖6(b)所示,得到的SMMO4為
場(chǎng)景模式5,8,9中ERR與Da的線性擬合情況分別如圖7,圖8和圖9所示。
圖10中的菱形線表示場(chǎng)景模式4中,q取不同值時(shí)所得到的SMMO4與主觀MOS值的平均絕對(duì)值誤差(MAE)。可以看到q =0.7時(shí)MAE最小,此時(shí)模型最精確。
同理可得場(chǎng)景模式5中,當(dāng)q =0.6時(shí),Da=與主觀MOS的MAE最小,模型最精確。該場(chǎng)景中ERR與Da的擬合直線方程為,如圖7所示,q取值與SMMO5的MAE的關(guān)系如圖10中方形線所示。得到的SMMO5為
場(chǎng)景模式10的特點(diǎn)是前景和后景都凹于屏幕,且都處于舒適區(qū)。但I(xiàn)VY數(shù)據(jù)庫(kù)中僅14號(hào)圖像位于該場(chǎng)景模式中,根據(jù)文獻(xiàn)[8]所述,寬度因素對(duì)視覺舒適度的影響和視差類型(交叉或非交叉)無關(guān),文獻(xiàn)[20]認(rèn)為在交叉和非交叉視差兩種情況下,寬度因素對(duì)雙目融合限制的影響是相似的。因此前后景的凹凸性不影響寬度因素對(duì)舒適度所起的作用;同時(shí),當(dāng)前后景都處于舒適區(qū)時(shí),雙目可以融合,視差因素(包括視差大小,視差類型)對(duì)舒適度所起的影響較小。由于該場(chǎng)景模式前后景的凹凸性相同,且都處于舒適區(qū),可近似視為場(chǎng)景模式9的對(duì)稱模式,因此,使用場(chǎng)景模式9的式(16)模型計(jì)算該立體圖像的客觀評(píng)價(jià)值。
圖6 場(chǎng)景模式4中ERR和Da的線性擬合圖
圖7 場(chǎng)景模式5中ERR和Da的線性擬合圖
圖8 場(chǎng)景模式8中ERR和Da的線性擬合圖
圖9 場(chǎng)景模式9中ERR和Da的線性擬合圖
根據(jù)式(13)~式(16)的計(jì)算,可得到暫不考慮前景曲折度時(shí)的模型性能指標(biāo),如表1中的SMMO所示。
4.2 基于前景曲折度的模型調(diào)整
進(jìn)一步考慮前景目標(biāo)曲折度對(duì)舒適度的影響,根據(jù)文獻(xiàn)[6]所述,當(dāng)前景視差角大于2°時(shí),雙目出現(xiàn)了不舒適的“復(fù)視”現(xiàn)象。本文在實(shí)驗(yàn)中也發(fā)現(xiàn),此時(shí)若前景目標(biāo)呈較為曲折的形態(tài)時(shí),舒適度將急劇地衰減。設(shè)前景角視差閾值Tf=2°,行與列的平均前景線段數(shù)閾值Tr=2,Tc=1.5,當(dāng)前景角視差絕對(duì)值,且同時(shí)滿足行平均前景線段數(shù)Sr> Tr、列平均前景線段數(shù)Sc> Tc時(shí),定義視覺舒適度衰減系數(shù)P對(duì)SMMO模型進(jìn)行調(diào)整。滿足上述條件的有場(chǎng)景模式4中的29,51,52,102號(hào)以及模式5中的49,50號(hào)共6幅立體圖像,它們的前景目標(biāo)形態(tài)均表現(xiàn)出較大的曲折度。
圖11中的橫坐標(biāo)表示需要調(diào)整客觀評(píng)價(jià)值的立體圖像編號(hào),菱形點(diǎn)表示主觀MOS值,矩形點(diǎn)表示調(diào)整前的客觀評(píng)價(jià)分SMMO。從圖中可以看到,SMMO比主觀MOS值明顯要高,而折線的形態(tài)基本一致,因此可認(rèn)為當(dāng)前景目標(biāo)曲折度大于曲折閾值時(shí),視覺舒適感會(huì)進(jìn)一步衰減。根據(jù)實(shí)驗(yàn)測(cè)試,取衰減系數(shù)P =1.6以修正SMMO,調(diào)整后的客觀評(píng)價(jià)分如圖11的圓形點(diǎn)所示。最終的模型SMM表示為
4.3 系數(shù)q的取值分析
圖12顯示了SMM舒適度評(píng)價(jià)模型中,各場(chǎng)景的前后景視差角的權(quán)重系數(shù)q。圖中,a表示前景區(qū)域,b表示后景區(qū)域,a和b旁邊所標(biāo)注的權(quán)重系數(shù)值,反映了前后景視差因素對(duì)視覺舒適度的影響力。
根據(jù)前后景的凹凸性,可將模式4、模式8歸為一類,模式5、模式9歸為另一類,兩類的區(qū)別在于后景的凹凸性,從圖12中可總結(jié)出,后景凸比后景凹對(duì)視覺舒適度的影響更大。
根據(jù)前景是否處于舒適區(qū),可將模式4、模式5歸為前景超出舒適區(qū)一類,模式8、模式9歸為前景處于舒適區(qū)內(nèi)一類,從圖12中可總結(jié)出,超出舒適區(qū)的前景比舒適區(qū)內(nèi)的前景對(duì)視覺舒適度的影響越大
綜合以上的觀察,可以得出“越凸出的區(qū)域,對(duì)視覺影響越大”的結(jié)論,這和人傾向于關(guān)注離自己更近的物體的視覺特性是相一致的。q值的確定,量化了前后景對(duì)視覺舒適度的影響程度。
圖 10 q取值與SMMO模型的平均絕對(duì)值誤差(MAE)的關(guān)系
圖 11 主觀MOS值、調(diào)整前后的客觀評(píng)價(jià)值的對(duì)比
圖12 各場(chǎng)景模式的前后景視差因素權(quán)重
4.4 模型的性能及對(duì)比
由于在主觀質(zhì)量評(píng)價(jià)實(shí)驗(yàn)中會(huì)引入一系列非線性因素,為避免非線性因素對(duì)客觀評(píng)價(jià)模型性能的影響,需要將模型的客觀評(píng)價(jià)分值x做非線性擬合,本文采用5參數(shù)Logistic函數(shù)進(jìn)行非線性擬合,如式(18)所示,從而預(yù)測(cè)得到客觀模型預(yù)測(cè)值y。
其中,參數(shù)β1,β2,β3,β4和β5通過訓(xùn)練得到。然后計(jì)算y與平均主觀評(píng)分值MOS的相關(guān)性來度量客觀模型的性能,在本文中采用Pearson相關(guān)系數(shù)(Pearson Linear Correlation Coefficient,PLCC),Spearman 相關(guān)系數(shù)(Spearman Rank-Order Correlation Coefficient,SROCC)、Kendall相關(guān)系數(shù)(Kendall Rank-Order Correlation Coefficient,KROCC)、平均絕對(duì)值誤差(Mean Absolute Error,MAE)和均方根誤差(Root Mean Squared Error,RMSE)5組客觀參量,其中,PLCC,SROCC和KROCC反映客觀評(píng)價(jià)模型預(yù)測(cè)值的相關(guān)性、單調(diào)性和一致性,MAE和RMSE反映客觀評(píng)價(jià)模型預(yù)測(cè)值的準(zhǔn)確性。PLCC,SRCC,KRCC越大,MAE,RMSE越小說明客觀評(píng)價(jià)預(yù)測(cè)值與平均主觀評(píng)分值MOS的相關(guān)性越好。
表1給出了本文提出SMMO和SMM模型與文獻(xiàn)[8,13,14]所提出的模型在IVY數(shù)據(jù)庫(kù)上的各項(xiàng)性能指標(biāo)對(duì)比,由表中數(shù)據(jù)可以看出,SMMO模型與文獻(xiàn)[14]所提出的模型性能相近,SMM模型的性能則優(yōu)于其他模型。
隨著3維視頻圖像技術(shù)的迅猛發(fā)展,研究影響舒適度的各種因素,建立舒適度客觀評(píng)價(jià)模型是當(dāng)前亟需解決的問題,它對(duì)3維內(nèi)容制作,促進(jìn)顯示器設(shè)計(jì)與制造等相關(guān)技術(shù)的發(fā)展進(jìn)步具有指導(dǎo)作用。
本文研究了立體圖像中影響舒適性的因素和對(duì)應(yīng)的圖像特征,包括前后景的會(huì)聚角、屏幕調(diào)節(jié)角、視差角、寬度角,以及度量前景目標(biāo)曲折度的各特征,在各類立體圖像場(chǎng)景模式的基礎(chǔ)上,提出了一個(gè)立體圖像舒適度的客觀評(píng)價(jià)模型SMM。在公開的IVY立體圖像數(shù)據(jù)庫(kù)上,用5種性能指標(biāo)對(duì)提出的客觀評(píng)價(jià)模型進(jìn)行評(píng)價(jià),實(shí)驗(yàn)顯示,模型的相關(guān)性、單調(diào)性、一致性、準(zhǔn)確性與現(xiàn)有的方法相比,性能更好。
表1 舒適度客觀模型的性能指標(biāo)及對(duì)比
參考文獻(xiàn)
[1]HEWAGE C T E R and MARINI M G.Quality of experience for 3D video streaming[J].IEEE Communications Magazine,2013,51(5):101-107.
[2]蔣驍辰,李國(guó)平,王國(guó)中,等.基于AVS+實(shí)時(shí)編碼的多核并行視頻編碼算法[J].電子與信息學(xué)報(bào),2014,36(4):810-816.doi:103724/SP.J.1146.2013.00845.JIANG Xiaochen,LI Guoping,WANG Guozhong,et al.Multi-core parallel video coding algorithm based on AVS+ real-time encoding[J].Journal of Electronics & Information Technology,2014,36(4):810-816.doi:103724/SP.J.1146.2013.00845.
[3]KIM D and SOHN K.Visual fatigue prediction for stereoscopic image[J].IEEE Transactions on Circuits and Systems for Video Technology,2011,21(2):231-236.
[4]LI J,BARKOWSKY M,and CALLET P L.Visual discomfort of stereoscopic 3D videos:Influence of 3D motion[J].Displays,2014,35(1):49-57.
[5]UKAI K and HOWARTH P A.Visual fatigue caused by viewing stereoscopic motion images:Background,theories and observations[J].Displays,2008,29(2):106-116.
[6]PARK J,LEE S,and BOVIK A C.3D visual discomfort prediction:Vergence,foveation,and the physiological optics of accommodation[J].IEEE Journal of Selected Topics in Signal Processing,2014,8(3):415-427.
[7]RICHARDS W and KAYE M G.Local versus global stereopsis:two mechanisms[J].Visual Research,1974,14(12):1345-1347.
[8]LEE S,JUNG Y J,SOHN H,et al.Effect of stimulus width on the perceived visual discomfort in viewing stereoscopic 3-D-TV[J].IEEE Transactions on Broadcasting,2013,59(4):580-590.
[9]SCHOR C,WOOD I,and OGAWA J.Binocular sensory fusion is limited by spatial resolution[J].Visual Research,1984,24(7):661-665.
[10]SCHOR C,HECKMANN T,and TYLER C W.Binocular fusion limits are independent of contrast,luminance gradient and component phases[J].Visual Research,1989,29(7):821-835.
[11]WOPKING M.Viewing comfort with stereoscopic pictures:an experimental study on the subjective effects of disparity magnitude and depth of focus[J].Journal of the Society for Information Display,1995,3(3):101-103.
[12]王勤,王瓊?cè)A,劉春玲.視差與空間頻率對(duì)自由立體顯示器觀看舒適度的影響[J].光電子 · 激光,2012,23(8):1604-1608.WANG Qin,WANG Qionghua,and LIU Chunling.Effects of parallax and spatial frequency on visual comfort in autostereoscopic display[J].Journal of Optoelectronics ·Laser,2012,23(8):1604-1608.
[13]SOHN H,JUNG Y J,LEE S,et al.Predicting visual discomfort using object size and disparity information in stereoscopic images[J].IEEE Transactions on Broadcasting,2013,59(1):28-37.
[14]姜求平,邵楓,蔣剛毅,等.基于視覺重要區(qū)域的立體圖像視覺舒適度客觀評(píng)價(jià)方法[J].電子與信息學(xué)報(bào),2014,36(4):875-881.doi:103724/SP.J.1146.2013.00946.JIANG Qiuping,SHAO Feng,JIANG Gangyi,et al.An objective stereoscopic image visual comfort assessment metric based on visual important regions[J].Journal of Electronics & Information Technology,2014,36(4):875-881.doi:103724/SP.J.1146.2013.00946.
[15]KAIST Image and Video System Lab.IVY LAB Stereoscopic 3D image database for visual discomfort prediction[OL].http://ivylab.kaist.ac.kr/demo/3DVCA/3DVCA.htm.2013.
[16]KIM H,LEE S,and BOVIK A C.Saliency prediction on stereoscopic videos[J].IEEE Transactions on Image Processing,2014,23(4):1476-1490.
[17]LAMBOOIJ M,IJSSELSTEIJN W,F(xiàn)ORTUIN M,et al.Visual discomfort and visual fatigue of stereoscopic displays:a review[J].Journal of Imaging Science and Technology,2009,53(4):030201.
[18]HOLLIMAN N.3D Display Systems[M].London:UK,IOP Press,2004:7-8.
[19]ISO/IEC JTC1/SC29/WG11 M16923.Depth Estimation Reference Software(DERS)5.0[R].Xian,China,2009.
[20]WILCOX L M and HESS R F.Dmax for stereopsis depends on size,not spatial frequency content[J].Visual Research,1995,35(9):1061-1069.
應(yīng)宏微:男,1979年生,博士生,研究方向?yàn)榱Ⅲw圖像/視頻的視覺舒適度評(píng)價(jià).
蔣剛毅:男,1964年生,教授,研究方向?yàn)槎嗝襟w信息通信、圖像處理與視頻編碼.
郁梅:女,1968年生,教授,研究方向?yàn)槎嗝襟w信息通信、圖像處理與視頻編碼.
彭宗舉:男,1973年生,副教授,研究方向?yàn)閳D像信號(hào)處理、3維視頻編碼.
邵楓:男,1980年生,副教授,研究方向?yàn)槎嗝襟w信息通信、圖像處理與視頻編碼.
Objective Visual Comfort Assessment Model of Stereo Image Based on Scene Mode
YING Hongwei①②JIANG Gangyi①③YU Mei①③PENG Zongju①SHAO Feng①
①(Faculty of Information Science and Engineering,Ningbo University,Ningbo 315211,China)
②(School of Electronic and Information Engineering,Ningbo University of Technology,Ningbo 315211,China)
③(State Key Laboratory for Novel Software Technology at Nanjing University,Nanjing 210093,China)
Abstract:To predict the effects induced by stereo image content on visual health,a new objective Visual Comfort Assessment(VCA)method of stereo image is proposed based on scene modes.Natural scene is abstracted as multiple scene modes according to two position states of foreground object and background region.One is the convex-concave to screen,and the other is the whether locate on zone of comfortable viewing.In the process of mode selection,disparity map is utilized to segment scene into foreground object and background region adaptively.Then,the scene’s mode can be determined by disparity angle features of both foreground object and background region.In the modeling stage,disparity angle features of foreground object and background region,width angle and sinuosity features of foreground object are utilized to build objective VCA models in various scene modes.The experimental results tested on IVY database show that high consistency exists between the proposed model and subjective perception that Pearson linear correlation coefficient is higher than 0.91,Spearman rank-order correlation coefficient is higher than 0.90,Kendall rank-order correlation coefficient is higher than 0.74,Mean Absolute Error(MAE)is lower than 0.24 and Root Mean Squared Error(RMSE)is lower than 0.32.Compared with other existing methods,the proposed model has the better assessment performance and is much closer to the subjective assessment scores.
Key words:Stereo image; Visual comfort assessment; Scene mode; Binocular vision
基金項(xiàng)目:國(guó)家自然科學(xué)基金(U1301257,61171163,61271270,61271021,61311140262),寧波市自然科學(xué)基金(2013A610113)
*通信作者:蔣剛毅jianggangyi@126.com
收稿日期:2015-03-04;改回日期:2015-11-18;網(wǎng)絡(luò)出版:2016-01-04
DOI:10.11999/JEIT150267
中圖分類號(hào):TN919.81
文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-5896(2016)02-0294-09
Foundation Items:The National Natural Science Foundation of China(U1301257,61171163,61271270,61271021,61311140262),Natural Science Foundation of Ningbo(2013A610113)