邢亞芬,殷海兵,王鴻奎,2,駱瓊?cè)A
研究與開發(fā)
基于視頻時域感知特性的恰可察覺失真模型
邢亞芬1,殷海兵1,王鴻奎1,2,駱瓊?cè)A1
(1.杭州電子科技大學(xué)通信工程學(xué)院,浙江 杭州 310018;2.華中科技大學(xué)電子信息與通信學(xué)院,湖北 武漢 430074)
現(xiàn)有的時域恰可察覺失真(just noticeable distortion,JND)模型對時域特征參量的作用刻畫尚不夠充分,導(dǎo)致空時域JND模型精度不夠理想。針對此問題,提出能準(zhǔn)確刻畫視頻時域特性的特征參量以及異質(zhì)特征參量同質(zhì)化融合方法,并基于此改進(jìn)時域JND模型。關(guān)注前景/背景運(yùn)動、時域持續(xù)時間、時域預(yù)測殘差波動強(qiáng)度、幀間預(yù)測殘差等特征參量,用來刻畫視頻內(nèi)容的時域特征;基于人眼視覺系統(tǒng)(human visual system,HVS)特性探索感知概率密度函數(shù),將異質(zhì)特征參量統(tǒng)一映射到自信息和信息熵尺度上,實(shí)現(xiàn)同質(zhì)化融合度量;從能量分配的角度探究視覺注意與掩蔽的耦合方法,并據(jù)此構(gòu)建時域JND權(quán)重模型。在空域JND閾值的基礎(chǔ)上,融合時域權(quán)重以得到更加準(zhǔn)確的空時域JND模型。為了評估空時域JND模型的性能,進(jìn)行了主觀質(zhì)量評估實(shí)驗(yàn),與現(xiàn)有的JND模型相比,在感知質(zhì)量接近的情況下,提出的空時域JND模型能夠容忍更多失真,具有更強(qiáng)的掩藏噪聲的能力。
恰可察覺失真;人眼視覺特性;視覺掩蔽;視覺注意;自信息;信息熵
人眼視覺系統(tǒng)(human visual system,HVS)的敏感度有限,只能察覺圖像大于某一閾值的失真,這個閾值被稱為恰可察覺失真(just noticeable distortion,JND)閾值。由于JND描述了HVS在視覺內(nèi)容上的可見性,因此在圖像和視頻處理領(lǐng)域,如果可以充分利用HVS特性進(jìn)行壓縮,能夠在保證視頻主觀質(zhì)量的情況下顯著減少視頻傳輸?shù)拇a率。因此,基于HVS特性建模的JND閾值被廣泛用于優(yōu)化量化、運(yùn)動估計(jì)以及視頻目標(biāo)質(zhì)量評價等[1]。
視頻中的特征參量對人眼視覺感知有重要影響。Korhonen[2]提取視頻中74個特征參量用于視頻質(zhì)量評價。傳統(tǒng)JND建模實(shí)驗(yàn)根據(jù)不同視頻內(nèi)容,如空域的亮度、邊緣、紋理、顏色等,時域視頻特征如目標(biāo)運(yùn)動、時域頻率等,考慮了一些主要的HVS特性,如亮度自適應(yīng)(luminance adaption,LA)、對比掩蔽(contrast masking,CM)效應(yīng)、中心凹掩蔽(foveated masking,F(xiàn)M)效應(yīng)、空時域?qū)Ρ让舾泻瘮?shù)(contrast sensitivity function,CSF)、時域掩蔽(temporal masking,TM)效應(yīng)、視覺注意特性等?,F(xiàn)有的JND模型根據(jù)計(jì)算域不同一般可以分為兩類:像素域JND模型和基于子帶(DCT或小波變換)的JND模型。像素域JND模型可以直接計(jì)算,因此時域JND建模在像素域主要利用相鄰幀間亮度差,如Chou等人[3]和Yang等人[4]依據(jù)相鄰幀的平均亮度差作為時域的不連續(xù)性構(gòu)建時域JND模型,Chin等人[5]利用連續(xù)幀的運(yùn)動變化估計(jì)JND閾值。時域基于子帶的JND建模主要考慮CSF和人眼運(yùn)動特性:Kelly等人[6]依據(jù)收集的視網(wǎng)膜穩(wěn)定行波刺激實(shí)驗(yàn)的數(shù)據(jù),首次提出了空時域CSF模型。之后,Daly等人[7]加入人眼運(yùn)動特性對Kelly的模型做了補(bǔ)充。Jia等人[8]在他們的基礎(chǔ)上將空時域CSF和人眼的運(yùn)動特性相結(jié)合。此外,Wei等人[9]考慮人眼對不同運(yùn)動方向的敏感程度,構(gòu)建了適合于單通道灰度視頻的變換域JND模型。Bae等人[10]將時域掩蔽效應(yīng)和中心凹掩蔽效應(yīng)結(jié)合起來,提出一種時域中心凹掩蔽(temporal-foveated masking,TFM)模型,估計(jì)運(yùn)動目標(biāo)的JND閾值。此外,由于機(jī)器學(xué)習(xí)在感知領(lǐng)域的廣泛應(yīng)用,Wang等人[11-12]構(gòu)建了兩個基于JND壓縮視頻質(zhì)量的大規(guī)模數(shù)據(jù)集:MCL-JCV和VideoSet。Ki等人[13]提出基于線性回歸的LR-JNQD模型和基于卷積神經(jīng)網(wǎng)絡(luò)的CNN-JNQD模型。Liu等人[14]提出圖像的PW-JND預(yù)測模型,基于深度學(xué)習(xí)的二元分類器能夠根據(jù)圖像感知質(zhì)量是否有損來決定圖像的JND值。Zhang等人[15]提出基于深度學(xué)習(xí)的視頻感知質(zhì)量預(yù)測模型,它能夠預(yù)測不同分辨率和編碼參數(shù)的壓縮視頻的感知質(zhì)量,從而計(jì)算JND的閾值。
然而,由于視頻時域場景的復(fù)雜和多樣性,傳統(tǒng)方法對時域視覺特征參量的提取并不充分,導(dǎo)致時域仍有大量冗余信息。因此,若需要準(zhǔn)確估計(jì)視頻時域JND閾值,就需要分析時域不同特征參量對人眼視覺感知的影響。Wang等人[16]研究了視頻中普遍存在的3種運(yùn)動——絕對運(yùn)動、相對運(yùn)動和背景運(yùn)動,并分析由這3種運(yùn)動引起的視覺注意和掩蔽效應(yīng),提出了基于運(yùn)動感知的視頻質(zhì)量評價方法?;谶@個啟發(fā),分析視頻中影響人眼視覺感知特性的5個特征參量,考慮利用相對運(yùn)動和運(yùn)動軌跡上的持續(xù)時間度量視覺顯著度,由背景運(yùn)動、幀間殘差波動強(qiáng)度和相鄰幀間預(yù)測殘差度量不確定度,時域感知特征參量提取方法如圖1所示。這些特征參量在一定程度上會對人眼感知失真造成影響。一方面,部分激勵源會影響人眼關(guān)注的定睛點(diǎn),另一方面,有些特征參量會降低視覺感知靈敏度,消耗人眼感知能量。這些不同激勵之間的相互作用或相互干擾就造成了視覺掩蔽效應(yīng)[17]。探究這些激勵的耦合作用一直以來是JND建模重要的研究內(nèi)容之一[16]。例如像素域建模時普遍采用非線性相加模型(nonlinear additivity model for masking,NAMM),能夠消除掩蔽效應(yīng)的重疊部分,而DCT域JND一般建模為多個掩蔽因子的乘積。但這些模型或HVS特性考慮不全面導(dǎo)致計(jì)算精度不足,或者計(jì)算方式復(fù)雜導(dǎo)致難以融合,以致JND閾值估計(jì)不準(zhǔn)確。因此,提出一種統(tǒng)一有效的感知特征參量度量方法以對異質(zhì)感知特征參量進(jìn)行同化是JND建模過程中需要解決的重要問題,若能以相同的標(biāo)準(zhǔn)去度量這些特征參量,有利于更準(zhǔn)確地分析不同視覺特征之間的相互耦合作用。
一般來說,視覺感知可以建模為信息交互過程,而HVS相應(yīng)地被視為一個高效的編碼器或信息提取器,由此可以推導(dǎo):視覺場景中包含更多信息的區(qū)域更有可能吸引視覺注意[16],如果有關(guān)于信源的統(tǒng)計(jì)概率模型,那么可以使用信息論對視頻內(nèi)容進(jìn)行量化。此外,以往的實(shí)驗(yàn)表明,HVS并不能以相同的確定程度感知所有的信息內(nèi)容,例如:當(dāng)視頻存在大量隨機(jī)背景運(yùn)動時,HVS無法以感知靜態(tài)圖像相同的精度感知視頻內(nèi)容,即這種視頻信號被感知時有更高的不確定度,這相當(dāng)于在信息傳輸過程中產(chǎn)生了信道失真,若能將這種信道失真過程建立為與感知參量相關(guān)的模型,那么這種不確定性也能使用信息論來量化[18]?;谶@個啟發(fā),依據(jù)提出的5個感知特征參量,提出了相應(yīng)的統(tǒng)計(jì)概率模型,并使用信息論來量化由這些參量導(dǎo)致的視覺感知顯著度和不確定度,并將映射到相同量綱的5個感知特征參量進(jìn)行融合,得到時域JND權(quán)重模型,在空域JND閾值的基礎(chǔ)上,融合時域權(quán)重得到基于空時域感知特性結(jié)合的JND模型。
異質(zhì)感知特征參量需要尋求統(tǒng)一的度量方法,以有效融合其相互作用關(guān)系。從能量分配的角度探究異質(zhì)感知特征參量的融合方法,基于HVS感知特性,提出特征參量的概率密度函數(shù),利用感知信息論原理定量度量感知顯著性和感知不確定性,實(shí)現(xiàn)異質(zhì)感知特征參量的同質(zhì)化度量。
一般地,運(yùn)動的目標(biāo)相對運(yùn)動越大,運(yùn)動面積越大,越能吸引人眼的注意,相應(yīng)地有越大的視覺感知顯著度。統(tǒng)計(jì)分析的結(jié)果給出了相對運(yùn)動的先驗(yàn)概率分布,大致可以用一個冪函數(shù)來表示[17]:
此外,由于人眼視覺敏感具有方向性,人眼對水平和垂直分量比較敏感,而對對角線方向不敏感,即具有傾斜效應(yīng)[19]?;诖朔治?,考慮運(yùn)動方向?qū)σ曈X顯著性的影響,提出基于運(yùn)動方向的顯著度調(diào)節(jié)因子:
相對運(yùn)動的視覺感知顯著度隨著運(yùn)動速度和運(yùn)動目標(biāo)面積的增大而增大,運(yùn)動矢量方向角越接近水平和垂直方向,視覺顯著度越大,這符合人眼視覺特性。
大范圍隨機(jī)的背景運(yùn)動會消耗人眼感知能量,降低人眼對視頻細(xì)微失真的分辨能力,這種抑制效應(yīng)可以認(rèn)為是背景運(yùn)動導(dǎo)致的視覺感知不確定性,等效于人眼在觀察視頻細(xì)節(jié)時加入了噪聲??梢允褂盟迫缓瘮?shù)來表示這個等效噪聲,參考以前的工作,這個似然函數(shù)為對數(shù)正態(tài)分布,計(jì)算式如下[17]:
式(9)計(jì)算的視覺感知顯著度在一定時間閾值內(nèi)隨持續(xù)時間增加而增加,超過這個閾值后會趨于飽和。此外,絕對運(yùn)動矢量越大,且單位時間內(nèi)時域運(yùn)動方向的不規(guī)則度越大,人眼視覺顯著度越小,式(9)符合HVS特性。
運(yùn)動軌跡上像素值隨時間的頻繁變化,表現(xiàn)為閃爍、蚊式噪聲等,會吸引人眼關(guān)注,并使觀眾產(chǎn)生厭煩感,這相當(dāng)于視頻播放過程中的時域不確定度源。這種不確定性相當(dāng)于在觀看視頻時加入了等效噪聲,可以使用似然函數(shù)來表示這個等效噪聲??紤]時域HVS特性,將概率密度函數(shù)建模為對數(shù)正態(tài)分布形式,計(jì)算式表示為:
因此,加入時域運(yùn)動矢量大小不規(guī)則度調(diào)節(jié)殘差波動強(qiáng)度導(dǎo)致的視覺感知不確定度,使用信息熵度量計(jì)算式如下:
貝葉斯腦理論表明,對于當(dāng)前輸入的圖像,人腦會自動預(yù)測后續(xù)視頻幀,以實(shí)現(xiàn)對輸入場景的感知。輸入圖像與人腦中的預(yù)測圖像之間的誤差是不可預(yù)測部分,即時域分量的不確定性。這種不確定性相當(dāng)于在觀看視頻時加入了等效噪聲,可以使用似然函數(shù)來表示這個等效噪聲,考慮時域HVS特性,將概率密度函數(shù)建模為對數(shù)正態(tài)分布形式,計(jì)算式表示為:
其中,為刺激源,即相鄰幀間預(yù)測殘差,計(jì)算式為[22]:
以上計(jì)算式中常量的取值參考文獻(xiàn)[16]中的方法,均為根據(jù)主觀實(shí)驗(yàn)手動選取,常量的小范圍波動對最終結(jié)果影響不大。圖2(a)為“BasketBallDrill”序列的第5幀的原始圖像,圖2(b)和圖2(c)分別為相對運(yùn)動和時域持續(xù)時間產(chǎn)生的感知顯著度圖,越亮的區(qū)域表示有更大的視覺感知顯著度;圖2(d)、圖2(e)和圖2(f)分別為背景運(yùn)動、運(yùn)動軌跡上殘差波動強(qiáng)度和相鄰幀間預(yù)測誤差產(chǎn)生的感知不確定度圖,越亮的區(qū)域?qū)?yīng)更大的視覺感知不確定度。
由于已經(jīng)計(jì)算了相對運(yùn)動、時域持續(xù)時間等特征參量引起的視覺感知顯著度,背景運(yùn)動、時域軌跡上的殘差波動強(qiáng)度、相鄰幀間預(yù)測殘差引起的感知不確定度?;谧孕畔⒑托畔㈧氐睦碚?,將5個異質(zhì)感知特征參量同質(zhì)化到統(tǒng)一尺度,并考慮視覺顯著性的影響,加入顯著性調(diào)節(jié)因子,對JND進(jìn)行時域和空域調(diào)節(jié),空時域JND模型框圖如圖3所示。
圖3 空時域JND模型框架
為了驗(yàn)證JND模型的有效性,分別進(jìn)行了客觀和主觀視頻質(zhì)量評價實(shí)驗(yàn)。選取HEVC測試序列中的9個視頻進(jìn)行測試。其中有5個視頻分辨率為1 920 dpi×1 080 dpi的全高清分辨率的視頻,分別為BasketballDrive(Ba)、BQTerrance(BT)、Cactus(CT)、Kimonol(Ki)和ParkScence(Pa),另外4個視頻BasketballDrill(BD)、BQMall(BM)、PartyScence(PS)和RaceHorse(RH)為分辨率832 dpi×480 dpi的視頻。根據(jù)計(jì)算式:
圖5為不同JND模型處理結(jié)果,表示“BasketballDrill”序列第5幀根據(jù)不同JND模型加入噪聲后的圖像,圖5中被放大的細(xì)節(jié)部分為人眼更易注意的區(qū)域。4個JND模型分別為Bae[10]的模型、Wei[9]的模型、Zeng[25]的模型,以及所提出的JND模型,相應(yīng)的PSNR分別為23.93 dB、23.80 dB、28.28 dB以及23.03 dB。由于放大的區(qū)域?qū)τ谡鶊D像來說是顯著的,因此,這個區(qū)域JND閾值較低,能加入的噪聲較少。而從圖5可以看出,圖5(c)和圖5(d)中運(yùn)動員身上都有明顯可見的噪聲,且圖5(b)球衣上的數(shù)字模糊了,而提出的模型考慮了這一特性,計(jì)算所得這部分區(qū)域的JND閾值更小,從圖5中可以看出圖5(e)與其余3張圖像相比有更好的感知質(zhì)量,且PSNR值最低,為23.03 dB。因此,以上客觀和主觀評估都證明了提出的調(diào)節(jié)因子是有效的,能夠防止JND閾值被過高估計(jì)。
圖6為分別利用Bae[10]、Wei[9]、Zeng[25]和提出的JND模型向Basketball序列加入噪聲后每一幀的PSNR曲線。由圖6(b)可以看出Wei提出的模型的相鄰幀PSNR變化波動較小,JND閾值受時域影響不大。此外,雖然Wei提出的模型的時域調(diào)節(jié)因子考慮了運(yùn)動的方向性,但其假設(shè)所有的運(yùn)動目標(biāo)都被人眼跟蹤,導(dǎo)致不被跟蹤的目標(biāo)JND閾值被高估。Bae充分考慮了人眼的運(yùn)動的特性,并結(jié)合了中心凹掩蔽效應(yīng),有較好的效果,但忽略了運(yùn)動的視頻連續(xù)幀之間殘差導(dǎo)致的掩蔽效應(yīng),這會影響時域JND閾值的估計(jì)。圖6(c)中Zeng主要基于區(qū)域方向?qū)y理掩蔽效果進(jìn)行了改善,而沒有考慮時域掩蔽效應(yīng),相鄰幀間JND閾值不受時域變化的影響,因此PSNR波動較小。圖6(d)充分考慮了視頻時域特征參量對HVS特性的影響,并在信息論的基礎(chǔ)上將異質(zhì)感知特征參量進(jìn)行融合,保證了更好的融合效果。由于時域掩蔽的加入,會影響相鄰幀之間加入噪聲的總量,圖6中的PSNR曲線間接表明,JND閾值有了顯著調(diào)整。
圖4 空時域JND結(jié)果
圖5 不同JND模型處理結(jié)果
由于視頻的最終接收者為人眼,僅僅依賴PSNR值無法衡量視頻質(zhì)量的好壞,因此采用視頻多方法評估融合(video multimethod assessment fusion,VMAF)得分和平均主觀得分差(differential mean opinion score,DMOS)來評價視頻的主觀質(zhì)量。利用雙刺激連續(xù)質(zhì)量標(biāo)度方法(double stimulus continuous quality scale,DSCQS)進(jìn)行主觀質(zhì)量評估實(shí)驗(yàn),實(shí)驗(yàn)過程中邀請了14位視力正?;蚺宕饕暳ΤC正器的評估者,顯示器的分辨率為1 920 dpi×1 080 dpi,并將觀看距離設(shè)置為顯示屏高度的3倍。圖7展示了DSCQS的使用方法,失真視頻A和原始視頻B隨機(jī)呈現(xiàn)在觀察者眼前,在交替顯示兩次或多次后,觀看者對兩個視頻分別進(jìn)行評分,用DMOS值來衡量失真視頻與原始視頻的主觀質(zhì)量接近程度,計(jì)算式如下:
表1對比了由4個JND模型向不同分辨率大小的視頻加入噪聲后的PSNR、VMAF得分和相應(yīng)的DMOS值。基于Wei、Bae、Zeng以及所提出的JND模型加入噪聲后的平均PSNR分別為27.68 dB、28.16 dB、32.27 dB以及26.93 dB,相應(yīng)的平均VMAF值為98.71、97.88、97.16、99.23,平均DMOS值分別為14.34、16.04、19.62、11.66。PSNR越小表示加入噪聲越多,DOMS值越小表示加入噪聲的視頻主觀感知質(zhì)量越接近于原始視頻,有相對更小的感知失真。由此可見,在加入噪聲更多的情況下,提出的JND模型與其他模型相比有更好的感知質(zhì)量,另外VMAF指標(biāo)分?jǐn)?shù)可以看出,由提出的JND模型加入噪聲后的視頻質(zhì)量更好的情況下,PSNR至少降低了0.75 dB。因此可以得出結(jié)論:與其他模型相比,所提出的JND模型能夠隱藏更多的噪聲,同時使視頻擁有更好的感知質(zhì)量。此外,實(shí)驗(yàn)過程中4個模型的值分別為0.9、0.6、0.8和1,進(jìn)一步證明提出的模型估計(jì)JND閾值更加準(zhǔn)確。
圖6 根據(jù)不同JND模型向Basketball序列加入噪聲后PSNR曲線
圖7 DSCQS主觀評價方法
表1 不同JND模型性能對比
本文通過探索時域HVS特性,分析視頻目標(biāo)時域的運(yùn)動特征,提出了一個新的時域JND權(quán)重模型。將相對運(yùn)動、運(yùn)動軌跡上的持續(xù)時間等注意力激勵源,背景運(yùn)動、運(yùn)動軌跡上殘差波動強(qiáng)度、相鄰幀間預(yù)測殘差等注意力不確定源,利用統(tǒng)計(jì)信息論原理映射到信息量度量的特征空間,采用自信息度量視覺感知顯著度,信息熵度量感知不確定度。最后,將映射到統(tǒng)一尺度上的5個感知特征參量進(jìn)行融合,得到時域權(quán)重因子,并考慮空域視覺顯著性的影響,在空域JND閾值的基礎(chǔ)上加入顯著性調(diào)節(jié)因子和時域權(quán)重因子,以此構(gòu)建了適用于視頻的空時域JND模型。實(shí)驗(yàn)結(jié)果證明,提出的模型性能優(yōu)于現(xiàn)有JND模型。
[1] YUAN D, ZHAO T S, XU Y W, et al. Visual JND: a perceptual measurement in video coding[J]. IEEE Access, 2019(7): 29014-29022.
[2] KORHONEN J. Two-level approach for no-reference consumer video quality assessment[J]. IEEE Transactions on Image Processing: a Publication of the IEEE Signal Processing Society, 2019, 28(12): 5923-5938.
[3] CHOU C H, LI Y C. A perceptually tuned subband image coder based on the measure of just-noticeable-distortion profile[J]. IEEE Transactions on Circuits and Systems for Video Technology, 1995, 5(6): 467-476.
[4] YANG X K, LING W S, LU Z K, et al. Just noticeable distortion model and its applications in video coding[J]. Signal Processing: Image Communication, 2005, 20(7): 662-680.
[5] CHIN Y J, BERGER T. A software-only videocodec using pixelwise conditional differential replenishment and perceptual enhancements[J]. IEEE Transactions on Circuits and Systems for Video Technology, 1999, 9(3): 438-450.
[6] KELLY D H. Motion and vision. II. Stabilized spatio-temporal threshold surface[J]. Journal of the Optical Society of America, 1979, 69(10): 1340-1349.
[7] DALY S. Engineering observations from spatiovelocity and spatiotemporal visual models [M]. Vision Models and Applications to Image and Video Processing. Heidelberg: Springer, 2001: 179-200.
[8] JIA Y, LIN W, KASSIM A A. Estimating just-noticeable distortion for video[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2006, 16(7): 820-829.
[9] WEI Z Y, NGAN K N. Spatio-temporal just noticeable distortion profile for grey scale image/video in DCT domain[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2009, 19(3): 337-346.
[10] BAE S H, KIM M. A DCT-based total JND profile for spatiotemporal and foveated masking effects[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2017, 27(6): 1196-1207.
[11] WANG H Q, GAN W H, HU S D, et al. MCL-JCV: a JND-based H.264/AVC video quality assessment dataset[C]//Proceedings of 2016 IEEE International Conference on Image Processing. Piscataway: IEEE Press, 2016:1509-1513.
[12] WANG H Q, KATSAVOUNIDIS I, ZHOU J T, et al. VideoSet: a large-scale compressed video quality dataset based on JND measurement[J]. Journal of Visual Communication and Image Representation, 2017, 46: 292-302.
[13] KI S, BAE S H, KIM M, et al. Learning-based just-noticeable-quantization- distortion modeling for perceptual video coding[J]. IEEE Transactions on Image Processing, 2018, 27(7): 3178-3193.
[14] LIU H H, ZHANG Y, ZHANG H, et al. Deep learning-based picture-wise just noticeable distortion prediction model for image compression[J]. IEEE Transactions on Image Processing, 2020, 29: 641-656.
[15] ZHANG Y, LIU H H, YANG Y, et al. Deep learning based just noticeable difference and perceptual quality prediction models for compressed video[J]. IEEE Transactions on Circuits and Systems for Video Technology, 6224(99): 1.
[16] WANG Z, LI Q. Video quality assessment using a statistical model of human visual speed perception[J]. Journal of the Optical Society of America A, Optics, Image Science, and Vision, 2007, 24(12): B61-B69.
[17] MACKNIK S L, LIVINGSTONE M S. Neuronal correlates of visibility and invisibility in the primate visual system[J]. Nature Neuroscience, 1998, 1(2): 144-149.
[18] STOCKER A A, SIMONCELLI E P. Noise characteristics and prior expectations in human visual speed perception[J]. Nature Neuroscience, 2006, 9(4): 578-585.
[19] PETERSON H A, AHUMADA A J J, WATSON A B. Improved detection model for DCT coefficient quantization[C]// Proceedings of the Human Vision, Visual Processing, and Digital Dis play IV, F, 1993. [S.l.:s.n.], 1993: 191-201.
[20] BARKOWSKY M, BIALKOWSKI J, ESKOFIER B, et al. Temporal trajectory aware video quality measure[J]. IEEE Journal of Selected Topics in Signal Processing, 2009, 3(2): 266-279.
[21] HU S D, JIN L N, WANG H L, et al. Objective video quality assessment based on perceptually weighted mean squared error[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2017, 27(9): 1844-1855.
[22] CHEN Z, GUILLEMOT C. Perceptually-friendly H.264/AVC video coding based on foveated just-noticeable-distortion model[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2010, 20(6): 806-819.
[23] WU J, QI F, SHI G, et al. Non-local spatial redundancy reduction for bottom-up saliency estimation [J]. Journal of Visual Communication and Image Representation, 2012, 23(7): 1158-1166.
[24] 崔帥南, 彭宗舉, 鄒文輝, 等. 多特征融合的合成視點(diǎn)立體圖像質(zhì)量評價[J]. 電信科學(xué), 2019, 35(5): 104-112.
CUI S N, PENG Z J, ZOU W H, et al. Quality assessment of synthetic viewpoint stereo image with multi-feature fusion[J]. Telecommunications Science, 2019, 35(5): 104-112.
[25] ZENG Z P, ZENG H Q, CHEN J, et al. Visual attention guide dpixel-wise just noticeable difference model[J]. IEEE Access, 2019, 7: 132111-132119.
Video temporal perception characteristics based just noticeable difference model
XING Yafen1, YIN Haibing1, WANG Hongkui2, LUO Qionghua1
1.College of Communication Engineering, Hangzhou Dianzi University, Hangzhou 310018, China 2.College of Electronic Information and Communications, Huazhong University of Science and Technology, Wuhan 430074, China
The existing temporal domain JND(just noticeable distortion) models are not sufficient to depict the interaction between temporal parameters and HVS characteristics, leading to insufficient accuracy of the spatial-temporal JND model. To solve this problem, feature parameters that can accurately describe the temporal characteristics of the video were explored and extracted, as well as a homogenization method for fusing heterogeneous feature parameters, and the temporal domain JND model based on this was improved. The feature parameters were investigated including foreground and background motion, temporal duration along the motion trajectory, residual fluctuation intensity along motion trajectory and adjacent inter-frame prediction residual, etc., which were used to characterize the temporal characteristics. Probability density functions for these feature parameters in the perception sense according to the HVS(human visual system) characteristics were proposed, and uniformly mapping the heterogeneous feature parameters to the scales of self-information and information entropy to achieve a homogeneous fusion measurement. The coupling method of visual attention and masking was explored from the perspective of energy distribution, and the temporal-domain JND weight model was constructed accordingly. On the basis of the spatial JND threshold, the temporal domain weights was integrated to develop a more accurate spatial-temporal JND model. In order to evaluate the performance of the spatiotemporal JND model, a subjective quality evaluation experiment was conducted. Experimental results justify the effectiveness of the proposed model.
JND, HVS characteristics, visual masking, visual attention, self-information, information entropy
TN919
A
10.11959/j.issn.1000?0801.2022030
2021?07?16;
2021?12?22
國家自然科學(xué)基金資助項(xiàng)目(No.61972123, No.61931008, No.62031009);浙江省“尖兵”研發(fā)攻關(guān)計(jì)劃項(xiàng)目(No.2022C01068);
The National Natural Science Foundation of China (No.61972123, No.61931008, No.62031009), Zhejiang Provincial Vanguard Research and Development Project (No.2022C01068)
邢亞芬(1997? ),女,杭州電子科技大學(xué)碩士生,主要研究方向?yàn)楦兄曨l編碼。
殷海兵(1974? ),男,博士,杭州電子科技大學(xué)教授,主要研究方向?yàn)閿?shù)字視頻編解碼。
王鴻奎(1990? ),男,華中科技大學(xué)博士生,主要研究方向?yàn)楦兄曨l編碼。
駱瓊?cè)A(1998? ),女,杭州電子科技大學(xué)碩士生,主要研究方向?yàn)楦兄曨l編碼。