1.中國電子設(shè)備系統(tǒng)工程公司,北京 100141
2.重慶通信學院 軍事網(wǎng)格實驗室,重慶 400035
3.解放軍理工大學 指揮自動化學院,南京 210007
1.中國電子設(shè)備系統(tǒng)工程公司,北京 100141
2.重慶通信學院 軍事網(wǎng)格實驗室,重慶 400035
3.解放軍理工大學 指揮自動化學院,南京 210007
通常來說,人是視頻應用的最終消費者,因此評價視頻質(zhì)量最準確的辦法是主觀質(zhì)量評價。但是根據(jù)ITU-T BT500所規(guī)定的方法進行主觀質(zhì)量評價,不但要花費大量的人力和物力,而且無法嵌入到視頻應用系統(tǒng)中。因此,如何獲得高效的客觀視頻質(zhì)量評價算法已經(jīng)成為目前亟待解決的問題。
根據(jù)參考視頻的可用程度可將目前的客觀視頻質(zhì)量評價算法分為三類。第一類是全參考算法,參考視頻完全可用,將失真視頻和參考視頻進行比對,以與參考視頻的接近程度來衡量失真視頻的質(zhì)量;第二類是半?yún)⒖妓惴ǎ瑑H僅知道參考視頻的某些圖像特性,將失真視頻和參考視頻中已知的圖像特性進行對比,以這些特性的接近程度來衡量失真視頻的質(zhì)量;第三種是無參考算法,不需要參考視頻,根據(jù)人類視覺特性直接對失真視頻進行質(zhì)量評價。由于后兩種算法沒有完整的參考視頻作為比較基準,而僅僅以某些圖像特性和人類視覺特性作為算法的基礎(chǔ),評價準確性難以保證。因此,目前研究的重點仍是全參考算法。
由于計算簡單,峰值信噪比PSNR在相當長的時期內(nèi)都是評價視頻質(zhì)量的重要方法,但大量事實表明其評價結(jié)果在很多情況下與人的真實感受不一致,比如,PSNR值很高但視頻的質(zhì)量卻很差。為了解決這個問題,許多能反映人真實感受的客觀視頻質(zhì)量評價算法先后被提出。Zhou Wang等根據(jù)人類視覺系統(tǒng)對自然圖像的結(jié)構(gòu)敏感性原理提出了基于結(jié)構(gòu)相似性的SSIM[1]算法。之后,在此基礎(chǔ)上,Zhou Wang又通過對圖像的反復低通過濾和降采樣將原來的算法擴展為MSSIM[2],使其在性能上有了較大的提高。VSNR[3]利用小波進行圖像分析,將可觀察到的自然圖像失真通過兩個闕值進行量化并擴展到視頻質(zhì)量評價中去,取得了較好的效果。由美國國家電信管理中心開發(fā)的VQM[4]算法因其在VQEG Phase 2視頻測試序列庫上的良好效果,已被美國國家標準研究院制定為國家標準。V-VIF[5]通過時間延伸的方法來度量失真視頻的信息保真度,在時間域上反映了視頻的失真程度。
但是,人類在觀看視頻時對不同區(qū)域的敏感程度是不同的,而目前的算法在設(shè)計時并沒有引入這種思想。基于這一點,本文在結(jié)構(gòu)相似性的基礎(chǔ)上先對圖像進行分割,再對不同的分割區(qū)域分別進行質(zhì)量評價。最后,采用運動估計幀加權(quán)的方式將其擴展為視頻質(zhì)量評價。
研究指出自然圖像是高度結(jié)構(gòu)化的,而且人類視覺系統(tǒng)對自然圖像的結(jié)構(gòu)失真是高度敏感的,結(jié)構(gòu)失真會造成圖像質(zhì)量的大幅下降?;谏鲜鍪聦?,SSIM算法在經(jīng)過空間校準后的參考圖像x和失真圖像 y之間定義了如下三個比較函數(shù):
其中 l(x,y),c(x,y),s(x,y)分別是亮度,對比度和結(jié)構(gòu)比較函數(shù);μx和 μy分別是 x和 y的樣本平均值;σx和σy分別是 x和 y的樣本標準差;σxy是 x和 y的樣本相關(guān)系數(shù);C1、C2和C3是足夠小的正常數(shù),用來保證以上3個函數(shù)的分母趨近于0時的計算穩(wěn)定性。聯(lián)合以上3個方程,兩個圖像的結(jié)構(gòu)相似度SSIM(x,y)由以下公式給出:
其中,α,β和γ是調(diào)整三個部分的權(quán)重系數(shù)。一般取C2= 2C3,α=β=γ=1,那么結(jié)構(gòu)相似度的一種普通形式為:
一般情況下,SSIM在一個11×11的滑動窗口內(nèi)計算,滑動窗口逐像素地在整個圖像空間內(nèi)滑動。最后,對所有窗口的SSIM值取平均得到整幅圖像的SSIM值。同時,相應的SSIM映射圖可以直觀地看出圖像的結(jié)構(gòu)失真部分。
傳統(tǒng)的SSIM算法從結(jié)構(gòu)失真的角度考慮失真圖像的質(zhì)量,雖然在一定程度上反映了人類視覺系統(tǒng)的真實感受,但是并沒有考慮到具體的圖像內(nèi)容,例如,邊緣區(qū)域必然包含了極其重要的圖像信息[6],而且人類視覺系統(tǒng)對其失真也是相當敏感的,如果將它和圖像中的平坦光滑區(qū)域賦予同樣的權(quán)值,顯然是不合理的。因此,根據(jù)實際的內(nèi)容將圖像劃分為不同的區(qū)域?qū)ζ溥M行更細致的分析,并根據(jù)人對不同區(qū)域失真的敏感程度賦予不同的權(quán)值,則能更真實地反映人的視覺感受。
基于人類視覺系統(tǒng)對圖像不同區(qū)域敏感程度不同的思想,在SSIM算法的基礎(chǔ)上采用內(nèi)容劃分的方法將圖像分為4部分,并賦予不同的權(quán)值,得到了基于內(nèi)容劃分的4-SSIM算法。
3.1 4-SSIM算法的整體流程
4-SSIM算法的整體流程如圖1所示,共分為4個步驟:
(1)計算失真圖像的SSIM映射圖。
(2)在不考慮SSIM計算結(jié)果的情況下,跟據(jù)變化率將參考圖像和失真圖像劃分成4個區(qū)域。
(3)依據(jù)人類視覺系統(tǒng)的敏感程度賦予不同區(qū)域不同的權(quán)值。
(4)對所有區(qū)域進行加權(quán)求和。
3.2 4-SSIM算法的內(nèi)容劃分方法
圖1 4-SSIM算法流程圖
在4-SSIM算法中,將圖像劃分為4個部分:(1)改變的邊緣區(qū)域:在參考(或失真)圖像中存在,而在失真(或參考)圖像中的不存在的邊緣區(qū)域;(2)保留的邊緣區(qū)域:在參考和失真圖像中相同的邊緣區(qū)域;(3)紋理區(qū)域:圖像細節(jié)密集而人類視覺系統(tǒng)無法分辨的區(qū)域;(4)光滑區(qū)域:圖像光滑,細節(jié)較少的區(qū)域。文獻[7]給出了將圖像劃分為3個區(qū)域的方法,本文在此基礎(chǔ)上進行了修改,將圖像劃分為4個部分,并根據(jù)實驗結(jié)果對闕值進行了適當調(diào)整。具體的劃分步驟如下:
(1)在參考和失真圖像上的滑動窗口中通過Sobel算子計算圖像的變化率。
(2)確定闕值:T1=a·gmax,T2=b·gmax,其中 gmax參考圖像中的最大變化率;一般取a=0.1,b=0.05,并且圖像中邊緣區(qū)域較多時,a的取值應當適當減??;光滑區(qū)域較多,b的取值應當適當增大。
(3)令 pr(i,j)表示參考圖像在點(i,j)處的變化率,pd(i,j)表示失真圖像在點(i,j)處的變化率,根據(jù)如下規(guī)則確定每個像素點具體屬于哪個區(qū)域:
①如果 pr(i,j)> T1且 pd(i,j)> T1,則此像素點屬于保留的邊緣區(qū)域。
②如 果 pr(i,j)>T1且 pd(i,j)≤T1, 或 pd(i,j)>T1且pr(i,j)≤T1,則此像素點屬于改變的邊緣區(qū)域。
③如果 pr(i,j)< T2且 pd(i,j)>T1,則此點屬于光滑區(qū)域。
④否則,該點屬于紋理區(qū)域。
3.3 確定各個區(qū)域的權(quán)值
邊緣在圖像感知中起著非常重要的作用,邊緣的失真會對圖像質(zhì)量產(chǎn)生非常重要的影響,因此,給邊緣區(qū)域賦予較高的權(quán)值。在本文中,分別賦予兩個邊緣區(qū)域0.4的權(quán)值。根據(jù)人類視覺系統(tǒng)的失真遮蔽效應,紋理區(qū)域的失真基本被掩蓋了,幾乎無法覺察。在光滑區(qū)域中,人類視覺系統(tǒng)除了對假輪廓,塊效應和高頻噪聲等個別失真類型有細微覺察,其他類型的失真也不易被覺察,因此給光滑和紋理區(qū)域賦予較小的權(quán)值。在本文中,對紋理和光滑區(qū)域,分別賦予0.1的權(quán)值。
視頻是由連續(xù)的幀序列組成的,每一幀又是一張靜態(tài)圖片,所以圖像質(zhì)量評價可以作為視頻質(zhì)量評價的基礎(chǔ)。但是,由于在視頻中幀一般是以每秒25~30張的速度連續(xù)播放的,人在觀看時能明顯感覺到視頻中物體的運動具有連續(xù)性,并能判斷出運動的大小和方向。而在靜態(tài)圖片中,物體運動的大小和方向是無法準確獲取的,如果簡單地將每一幀的質(zhì)量進行求和平均作為整個視頻的質(zhì)量顯然是不合理的。因此,充分考慮視頻中物體的運動特性,對視頻中物體的運動情況進行判斷,才能更好地反映出人觀看視頻時的真實感受。在本文中,利用運動向量進行運動估計,提出了基于運動的幀加權(quán)求和方法。
4.1 基于4-SSIM的視頻質(zhì)量評價
在局部區(qū)域級,幀級,和序列級分別對視頻進行分析,度量失真視頻的質(zhì)量,具體的算法流程如圖2所示。
圖2 視頻質(zhì)量評價流程圖
首先,分析局部區(qū)域。從參考和失真視頻中對應幀的對應空間位置上隨機地提取一些11×11圖像塊。與圖像質(zhì)量評價算法中的方法不同的是,在這里僅僅提取一部分樣本區(qū)域,而不是使用滑動窗口逐個像素的滑動。令Rs表示樣本密度,代表每個幀中提取的樣本窗口的個數(shù)。在實驗中發(fā)現(xiàn),一個合適的Rs的取值能夠在保證算法質(zhì)量幾乎不受影響的情況下大大降低算法的復雜度。在YUV視頻的Y,Cr和Cb三個部分上分別使用4-SSIM算法。根據(jù)人類視覺系統(tǒng)的亮度敏感性原理,亮度Y對視頻質(zhì)量影響很大,而色度Cr和Cb影響較小,分別賦予它們0.8,0.1和0.1的權(quán)值。最后,進行加權(quán)求和得到該圖像塊的質(zhì)量。令4-SSIMij代表第i幀中的第 j個選中的樣本窗口的質(zhì)量,分別代表4-SSIM在Y, Cr和Cb三個部分上的計算結(jié)果,那么:
然后,求幀的質(zhì)量。令Qi代表視頻中第i幀的質(zhì)量,ωij代表第i幀中的第 j個選中的樣本窗口的權(quán)值,那么:
根據(jù)亮度敏感性原理,黑暗的區(qū)域通常不會引起觀察者的注意,應當賦予較小的權(quán)值,而較亮的區(qū)域應當賦予較大權(quán)值。通過當前幀的樣本均值μi根據(jù)公式(8)來調(diào)節(jié)其權(quán)值:
最后,求整個視頻序列的質(zhì)量。令Qv代表整個視頻序列的質(zhì)量,F(xiàn)代表視頻序列中所含的幀數(shù),Wi代表第i幀的權(quán)值,那么:
4.2 基于運動估計的幀加權(quán)方法
在實驗中發(fā)現(xiàn),當有視頻非常大的整體運動情況發(fā)生時,算法的結(jié)果并不穩(wěn)定。因此,給予那些運動較大的幀較小的權(quán)值來保證整個算法的穩(wěn)定性。令mij代表第i幀中第 j個被選中的窗口的運動向量長度,Mi代表第i幀的運動強度,Km是反映運動強度的常數(shù),那么:
然后根據(jù)第i幀的運動情況賦予其權(quán)值,具體方法由下式給出:
圖3 引言中各算法與本文算法的散點比較圖
實驗采用美國德克薩斯大學LIVE實驗室的視頻測試序列庫。序列庫中包含了10個典型的自然場景,每個場景用MPEG-2壓縮、H.264壓縮、模擬IP傳輸和模擬無線傳輸4種視頻失真方式進行失真處理,生成了15個失真序列,并進行了主觀質(zhì)量測試,給出了每個失真序列的差異主觀意見分值DMOS(Difference Mean Opinion Score)。
本實驗中,將Km的值設(shè)置為16,并采用目前被普遍認可的兩個指標來度量算法的性能。一個是算法結(jié)果和DMOS之間的秩相關(guān)系數(shù)SROCC(Spearman Rank Order Correlation Coefficient),用來度量算法結(jié)果和人的主觀感受之間的單調(diào)性;另一個是經(jīng)過非線性回歸處理后的算法結(jié)果和DMOS之間的線性相關(guān)系數(shù)LCC(Linear Correlation Coefficient),用來度量算法的準確性。在進行非線性回歸處理時,采用VQEG的報告[8]中提供的方程:
其中Q代表算法結(jié)果,Q′代表經(jīng)過處理后的算法結(jié)果。為了獲得以上方程中能使算法結(jié)果和預測值方差最小的(β1,β2,β3,β4), 采用 Matlab 中的“nlinfit”函數(shù)進行非線性最小二乘法優(yōu)化。為了便于數(shù)據(jù)收斂,在進行優(yōu)化之前用線性重調(diào)節(jié)的方法對算法的結(jié)果進行處理。最后,SROCC和LCC在Q'和DMOS之間計算。圖3給出了本文算法和引言中其他算法的散點比較圖,同時也畫出了每個圖中所有散點的最佳擬合曲線。表1給出了本文算法和引言中其他算法的SROCC和LCC值的比較??梢钥闯?,與其他算法相比,本文算法在單調(diào)性和準確性上都有明顯提高。
表1 引言中各算法與本文算法的SROCC和LCC比較
本文在圖像結(jié)構(gòu)相似性的基礎(chǔ)上,考慮到圖像中不同區(qū)域有著不同感知重要性,通過對變化率進行分析將圖像劃分為不同的區(qū)域,提出了基于內(nèi)容劃分的圖像質(zhì)量評價算法,并通過運動估計幀加權(quán)的方式將其擴展到了視頻質(zhì)量評價中。在今后的工作中,從許多方面可以進一步提升算法的準確性。如果改變區(qū)域劃分的方式,對圖像區(qū)域進行更細致的劃分,相信算法的效果會更加理想。另外,本文中的權(quán)值主要是根據(jù)實驗結(jié)果不斷調(diào)整得到的,并沒有經(jīng)過專業(yè)的優(yōu)化處理。在充分考慮人類視覺特性的基礎(chǔ)上,怎樣選取合適的優(yōu)化算法對各個權(quán)值進行訓練和優(yōu)化也是今后努力的方向。
[1]Wang Z,Lu L,Bovik A C.Video quality assessment based on structural distortion measurement[J].Signal Process:Image Communication,2004,19(2):121-132.
[2]Wang Z,Simoncelli E,Bovik A C,et al.Multiscale structural similarity for imagequality assessment[C]//IEEE Asilomar Conference on Signals,System and Computers,2003.
[3]Chandler D M,Hemami S S.VSNR:a wavelet-based visual signal-to-noise ratio for natural images[J].IEEE Transactions on Image Process,2007,16(19):2284-2298.
[4]Pinson M H,Wolf S.A new standardized method for objectively measuring video quality[J].IEEE Transactions on Broadcast,2004,50(3):312-322.
[5]Sheikh H R,Bovik A C.Image information and visual quality[J]. IEEE Transactions on Image Process,2006,15(2):430-444.
[6]Le Meur O,Ninassi A.Overt visual attention for free-viewing and quality assessment tasks[J].Signal Processing:Image Communication,2010.
[7]Li J L,Chen G,Chi Z R.Image coding quality assessment using fuzzy integrals with a three-component image model[J]. IEEE Transactions on Fuzzy Systems,2004,12(1):99-106.
[8]Final report from the video quality experts group on the validation of objective quality metrics for video quality assessment[EB/OL].[2011-05-11].http://www.its.bldrdoc.gov/vqeg/projects/frtv_phaseI.
采用內(nèi)容劃分方法的視頻質(zhì)量評價
姚 杰1,2,謝永強1,譚建明2,李 東1,3,唐 超2,王伏華2
YAO Jie1,2,XIE Yongqiang1,TAN Jianming2,LI Dong1,3,TANG Chao2,WANG Fuhua2
1.China Electronic Equipment System Engineering Company,Beijing 100141,China
2.Military Grid Laboratory,Chongqing Communication Institute,Chongqing 400035,China
3.Institute of Command Automation,PLA University of Science and Technology,Nanjing 210007,China
Current structural similarity based image quality assessment algorithm is generally the overall image quality analysis. However,different regions in image have different structural characteristics and visual perceptions,and the overall quality analysis can not reflect these differences effectively.In this view,a content-partitioned structural similarity image quality assessment algorithm is presented,which partitions an image into four regions according to their different gradient magnitudes and assesses the qualities of these regions respectively.A frame motion estimation weighted approach is used to extend this approach to video quality assessment.The experiments show that the proposed is more accurate than several modern popular algorithms.
image quality assessment;video quality assessment;structural similarity
目前基于結(jié)構(gòu)相似性的圖像質(zhì)量評價算法均是對圖像進行整體質(zhì)量分析,但圖像中不同的區(qū)域存在著不同的結(jié)構(gòu)特性和視覺感知特性,而對圖像進行整體質(zhì)量分析無法有效反應出這些差異。鑒于此,提出了一種基于內(nèi)容劃分的結(jié)構(gòu)相似性圖像質(zhì)量評價算法,根據(jù)圖像不同區(qū)域的變化率將圖像分為4個部分,分別進行質(zhì)量評價。采用運動估計的幀加權(quán)的方式將該方法擴展到視頻質(zhì)量評價中。實驗證明了該算法與目前比較流行的幾個算法相比具有較高的評價準確性。
圖像質(zhì)量評價;視頻質(zhì)量評價;結(jié)構(gòu)相似性
A
TP391
10.3778/j.issn.1002-8331.1110-0081
YAO Jie,XIE Yongqiang,TAN Jianming,et al.Video quality assessment using content-partitioned approach.Computer Engineering and Applications,2013,49(11):158-161.
國家創(chuàng)新基金(No.11c26215115768);重慶市重點攻關(guān)基金項目(No.cstc2011ab2064)。
姚杰(1986—),男,碩士研究生,主要研究領(lǐng)域為視頻質(zhì)量評價;譚建明,男,教授;李東,碩士研究生;唐超,碩士研究生;王伏華,碩士研究生。
2011-10-09
2011-11-25
1002-8331(2013)11-0158-04
CNKI出版日期:2012-03-08 http://www.cnki.net/kcms/detail/11.2127.TP.20120308.1520.007.html