盧銘勝,唐振華,2*
(1.廣西大學(xué) 計(jì)算機(jī)與電子信息學(xué)院,廣西 南寧 530004;2.廣西多媒體通信與網(wǎng)絡(luò)技術(shù)重點(diǎn)實(shí)驗(yàn)室,廣西 南寧 530004)
隨著電子顯示技術(shù)的發(fā)展,顯示設(shè)備的尺寸變得多種多樣,當(dāng)視頻的分辨率和尺寸與顯示設(shè)備不相符時(shí),有可能會(huì)造成屏幕資源的浪費(fèi),甚至?xí)?yán)重影響用戶(hù)的觀看體驗(yàn)。視頻重定向(Video Retargeting)技術(shù)會(huì)將視頻的分辨率和尺寸調(diào)整到與顯示設(shè)備的尺寸一致,同時(shí)盡可能地保持視頻的重要信息和時(shí)間連續(xù)性。目前主流的視頻重定向方法是基于內(nèi)容感知的方法,主要有4種[1-2]:變形(Warping)[3-5]、細(xì)縫裁剪(Seam-Carving,SC)[6-8]、智能裁剪(Smart Cropping)[9-11]和多操作符(Multi-operator)[12-14],這些方法能很好地保持某一方面的特征。但是在重定向過(guò)程中,不可避免地會(huì)擠壓或刪除部分像素點(diǎn),導(dǎo)致空間和時(shí)間失真??臻g失真主要是個(gè)別幀中的線(xiàn)條、形狀或紋理失真和信息丟失,時(shí)間失真主要表現(xiàn)為時(shí)間上的不一致偽影、播放時(shí)的抖動(dòng)?,F(xiàn)有的視頻重定向質(zhì)量評(píng)價(jià)(Video Retargeting Quality Assessment,VRQA)方法主要分為主觀評(píng)價(jià)和客觀評(píng)價(jià)。
主觀評(píng)價(jià)需要組織一批測(cè)試者觀看重定向視頻,并根據(jù)既定的測(cè)試原則和流程對(duì)重定向視頻的質(zhì)量做出評(píng)價(jià),測(cè)試者根據(jù)主觀感知對(duì)測(cè)試視頻進(jìn)行排序。主觀評(píng)價(jià)存在著固有的缺陷:① 無(wú)法對(duì)重定向視頻的失真進(jìn)行量化,難以為改進(jìn)視頻重定向算法性提供指導(dǎo)意見(jiàn);② 評(píng)價(jià)結(jié)果有個(gè)人傾向性和隨機(jī)性;③ 過(guò)程費(fèi)時(shí)費(fèi)力,難以實(shí)現(xiàn)實(shí)時(shí)評(píng)價(jià)。
視頻重定向質(zhì)量客觀評(píng)價(jià)是利用算法自動(dòng)地對(duì)重定向視頻的空間和時(shí)間失真進(jìn)行衡量,自動(dòng)地生成重定向視頻質(zhì)量評(píng)價(jià)結(jié)果,不需要人為參與;可以通過(guò)評(píng)價(jià)過(guò)程及結(jié)果分析重定向算法的不足。如今,視頻重定向質(zhì)量客觀評(píng)價(jià)仍處于起步階段。Li等[15]提出一種評(píng)估視頻時(shí)間連續(xù)性的指標(biāo),通過(guò)測(cè)量視覺(jué)相鄰幀之間映射像素點(diǎn)的坐標(biāo)差來(lái)評(píng)估重定向視頻的視覺(jué)質(zhì)量,該方法只適用于目標(biāo)快速運(yùn)動(dòng)的視頻的時(shí)間失真,并且沒(méi)有提出空間失真的評(píng)估。Yan等[16]提出一種針對(duì)視頻時(shí)間抖動(dòng)的評(píng)價(jià)方法,主要是利用相鄰幀之間對(duì)應(yīng)網(wǎng)格的高度差或?qū)挾炔顏?lái)評(píng)估視頻的時(shí)間抖動(dòng),該方法只適用對(duì)Warping處理的重定向視頻的時(shí)間失真進(jìn)行評(píng)估。
Hsu等[17]提出一種基于時(shí)空質(zhì)量分析的視頻重定向質(zhì)量的客觀評(píng)價(jià)方法,該方法提出在空間和時(shí)間域中進(jìn)行尺度不變特征變換(Scale Invariant Feature Transform, SIFT),解決視頻尺度不一致的問(wèn)題。雖然該方法可以評(píng)估重定向視頻的整體質(zhì)量,但無(wú)法對(duì)目標(biāo)靜止的視頻的時(shí)間失真評(píng)估。董偉鑫[18]提出基于逆向重建網(wǎng)格的視頻重定向質(zhì)量客觀評(píng)價(jià)算法,對(duì)Niu等[19]提出的視頻重定向方法反向應(yīng)用,但其性能依賴(lài)于SIFT-flow[20]稠密匹配的精準(zhǔn)度。趙祖翌[21]在董偉鑫[18]的基礎(chǔ)上提出了一種基于匹配校驗(yàn)的網(wǎng)格重建的視頻重定向質(zhì)量客觀評(píng)價(jià)算法方法,該算法對(duì)SIFT-flow稠密匹配進(jìn)行校驗(yàn),對(duì)匹配錯(cuò)誤的幀進(jìn)行放大處理,并計(jì)算原始幀與重定向幀中對(duì)應(yīng)網(wǎng)格塊的感知哈希衡量時(shí)間失真。放大處理雖然減少了錯(cuò)誤匹配,但是改變了重定向視頻的信息量,使得評(píng)價(jià)結(jié)果與原重定向視頻不一致。
現(xiàn)存的視頻重定向質(zhì)量客觀評(píng)價(jià)算法均以SIFT-flow稠密匹配為基礎(chǔ)。由于原始幀與重定向幀尺寸不一致,SIFT-flow稠密匹配會(huì)產(chǎn)生錯(cuò)誤,客觀評(píng)價(jià)算法性能下降。為了減少錯(cuò)誤匹配,提高客觀評(píng)價(jià)算法的性能,本文修改SIFT-Flow公式中平滑項(xiàng)的權(quán)重,并設(shè)計(jì)一種檢測(cè)刪除黑邊的算法,提高了SIFT-flow稠密匹配的準(zhǔn)確性。在董偉鑫[18]的基礎(chǔ)上,本文提出使用網(wǎng)格損失率(Grid Loss Ratio,GLR),增加對(duì)重建網(wǎng)格未匹配區(qū)域失真的衡量,實(shí)現(xiàn)全面評(píng)估重定向視頻的質(zhì)量。本文還提出利用追蹤算法追蹤網(wǎng)格的運(yùn)動(dòng)軌跡,計(jì)算原始視頻與重定向視頻對(duì)應(yīng)相鄰網(wǎng)格運(yùn)動(dòng)軌跡偏移量的變化來(lái)衡量時(shí)間連續(xù)性失真,減少對(duì)SIFT-flow的依賴(lài)。
SIFT-flow的錯(cuò)誤匹配會(huì)對(duì)空間失真衡量產(chǎn)生誤差,如圖1所示,其中①~⑥行分別是對(duì)均勻縮放(Uniform-Scaling,US)、黑邊填充(Letterbox)、裁剪(Cropping)、Warping[19]、SC[22]和精確均勻(Refined Homogeneous,RH)[23]6種重定向視頻的SIFT-flow匹配關(guān)系的說(shuō)明。圖1(b)是在重定向幀劃分的均勻網(wǎng)格,圖1(c)是在原始幀中的逆向重建網(wǎng)格,圖1(d)中無(wú)內(nèi)容區(qū)域是原始幀中未匹配的部分,圖1(e)是根據(jù)映射關(guān)系和原始幀中像素值得到的重構(gòu)圖,假設(shè)SIFT-flow匹配正確,則重構(gòu)圖應(yīng)與重定向幀保持一致。如圖1①、④、⑤行的(e)和(f)列所示,重構(gòu)圖在方框中均出現(xiàn)了空間內(nèi)容丟失的情況,這表明SIFT-flow存在錯(cuò)誤匹配的情況,會(huì)引入不屬于重定向操作引起的空間失真,并主要存在Letterbox、Warping和SC方法的重定向視頻中。
圖1 匹配錯(cuò)誤引起空間失真誤差說(shuō)明Fig.1 Illustration of spatial distortion error caused by matching error
SIFT-flow稠密匹配錯(cuò)誤還會(huì)引入額外的時(shí)間失真,如圖2所示。圖中相鄰的重定向幀內(nèi)容沒(méi)有明顯變化,重定向幀也沒(méi)有抖動(dòng),但相鄰2幀的逆向重建網(wǎng)格卻有著很大的差別,這說(shuō)明相鄰2幀之間的稠密匹配關(guān)系也存在錯(cuò)誤匹配的情況。使用相鄰2幀逆向重建網(wǎng)格頂點(diǎn)位置來(lái)衡量時(shí)間連續(xù)性失真[18]時(shí),其評(píng)價(jià)結(jié)果會(huì)存在較大誤差。
圖2 匹配錯(cuò)誤引起時(shí)間失真誤差說(shuō)明Fig.2 Illustration of temporal distortion error caused by matching error
通過(guò)對(duì)SIFT-flow稠密匹配和相關(guān)稠密匹配算法[24-26]的研究,了解到SIFT-flow稠密匹配錯(cuò)誤的原因。根據(jù)文獻(xiàn)[20]給出SIFT-flow的目標(biāo)函數(shù)表達(dá)式定義如式(1)所示:
(1)
視頻重定向過(guò)程會(huì)刪除像素點(diǎn)或擠壓視頻內(nèi)容,使得重定向幀的像素點(diǎn)位置和尺度改變,因此流向量的位移較大;由于刪除和擠壓像素點(diǎn),在重定向幀中相鄰的像素點(diǎn),在原始幀中不再相鄰,并且位置可能存在較大的距離。使用較大的權(quán)重α約束相鄰像素的流向量具有相似位移,在建立稠密匹配的時(shí)候,會(huì)限制匹配范圍,使得形變較大區(qū)域以及像素嚴(yán)重丟失區(qū)域出現(xiàn)匹配點(diǎn)聚合,導(dǎo)致錯(cuò)誤匹配。
對(duì)于Cropping和RH,由于都使用裁剪操作,裁剪的內(nèi)容完全保留了原始視頻的內(nèi)容,匹配幾乎完全正確;RH是裁剪和變形組合方法,裁剪掉一部分視頻內(nèi)容然后變形,形變程度較低,因此這2種方法匹配正確率較高,如圖1③、⑥行所示。逆向重建網(wǎng)格無(wú)法覆蓋被裁剪掉的內(nèi)容,所以無(wú)法衡量這部分內(nèi)容丟失帶來(lái)的空間失真,也會(huì)影響最終的評(píng)價(jià)結(jié)果。
為了解決上述問(wèn)題,提高客觀評(píng)價(jià)算法性能,本文提出一種基于逆向重建和運(yùn)動(dòng)軌跡偏移的VRQA算法,具體如下:
① 本文通過(guò)修改平滑項(xiàng)權(quán)重和檢測(cè)刪除黑邊盡進(jìn)行預(yù)處理,減少了SIFT-Flow的錯(cuò)誤匹配。
② 對(duì)于逆向重建網(wǎng)格出現(xiàn)的未匹配區(qū)域,提出使用GLR來(lái)衡量其空間失真。對(duì)于匹配區(qū)域的空間失真,仍沿用文獻(xiàn)[18]的空間幾何失真(Spatial Geometric Distortion,SGD)、空間結(jié)構(gòu)失真(Spatial Structure Distortion,SSD)和局部信息丟失(Local Information Loss,LIL)指標(biāo)衡量。
③ 提出使用原始幀與重定向幀中相鄰網(wǎng)格運(yùn)動(dòng)軌跡偏移量的誤差來(lái)衡量重定向視頻的時(shí)間連續(xù)性失真。
本文算法框架如圖3所示,具體步驟如下:
圖3 算法框架Fig.3 Algorithm framework
① 檢測(cè)重定向視頻是否為L(zhǎng)etterbox重定向得到的,如果是則對(duì)重定向視頻進(jìn)行刪除黑邊的處理,否則直接進(jìn)入步驟②。
② 對(duì)每張重定向視頻幀劃分尺寸為10×10的均勻規(guī)則網(wǎng)格,接著使用SIFT-flow稠密匹配,此處對(duì)SIFT-flow的目標(biāo)函數(shù)表達(dá)式中的平滑項(xiàng)權(quán)重修改為α=0.2,根據(jù)稠密匹配關(guān)系生成逆向重建網(wǎng)格。
③ 使用SGD、SSD和LIL指標(biāo)衡量空間失真;
④ 為了衡量逆向重建網(wǎng)格未匹配區(qū)域,在SIFT-flow匹配圖中劃分均勻規(guī)則網(wǎng)格,若網(wǎng)格內(nèi)容被刪除超過(guò)90%,則認(rèn)為過(guò)度刪除,記錄網(wǎng)格個(gè)數(shù)并計(jì)算占比,使用網(wǎng)格的重要度值作為每個(gè)網(wǎng)格的權(quán)重值。
⑤ 對(duì)重定向視頻幀劃分較大的均勻網(wǎng)格,使用SIFT-flow稠密匹配在原始幀生成對(duì)應(yīng)網(wǎng)格。接著使用文獻(xiàn)[27]中的方法進(jìn)行每個(gè)網(wǎng)格進(jìn)行跟蹤,得到每個(gè)網(wǎng)格的運(yùn)動(dòng)軌跡,分別計(jì)算原始幀與重定向幀對(duì)應(yīng)相鄰網(wǎng)格運(yùn)動(dòng)軌跡的偏移量,對(duì)比二者偏移量,根據(jù)運(yùn)動(dòng)軌跡偏移量的變化來(lái)衡量時(shí)間連續(xù)性失真。
⑥ 將所有指標(biāo)分配權(quán)重進(jìn)行融合,得到最終的客觀評(píng)價(jià)分?jǐn)?shù)。
對(duì)平滑項(xiàng)的權(quán)重α減小,觀察逆向重建網(wǎng)格的變化。圖4是減小α對(duì)逆向重建網(wǎng)格的影響,其中①~⑥行分別是對(duì)US、Letterbox、Cropping、Warping、SC和RH這6種重定向方法。對(duì)于Letterbox、Warping和SC,隨著α的減小,逆向重建網(wǎng)格的覆蓋區(qū)域增大,如圖4②、④、⑤行所示。當(dāng)α=0.2時(shí),逆向重建網(wǎng)格幾乎完全覆蓋了原始視頻幀;當(dāng)α=0.1時(shí),網(wǎng)格的覆蓋區(qū)域與α=0.2幾乎一致,但是出現(xiàn)了部分網(wǎng)格交叉翻轉(zhuǎn),根據(jù)視頻重定向方法的原理,重定向幀的像素點(diǎn)不會(huì)出現(xiàn)交叉的情況,網(wǎng)格翻轉(zhuǎn)是由于匹配錯(cuò)誤導(dǎo)致的,因此把α減小到0.1也會(huì)導(dǎo)致匹配錯(cuò)誤。通過(guò)對(duì)比圖4①、③、⑥行,將α減小到0.2對(duì)US、Cropping和RH的逆向重建網(wǎng)格影響較小,SIFT-flow稠密匹配仍然正確,因此,接下來(lái)僅對(duì)Letterbox、Warping和SC進(jìn)行分析。
圖4 α減小對(duì)逆向重建網(wǎng)格的影響Fig.4 Effect of α decrease on reverse reconstructed grid
對(duì)重構(gòu)圖與原始幀進(jìn)行比較,如圖5所示,第一、二行分別是SC和Warping在不同權(quán)重下的重構(gòu)圖。當(dāng)權(quán)重取2、1、0.5和0.1時(shí),重構(gòu)圖或多或少都會(huì)存在部分失真,如圖中方框部分。當(dāng)α=0.2時(shí),重構(gòu)圖幾乎與重定向幀相同。
圖5 α減小對(duì)重構(gòu)圖的影響Fig.5 Effect of α decrease on reconstructed figure
雖然減小平滑項(xiàng)的權(quán)重能較好地解決SC和Warping匹配不準(zhǔn)確的問(wèn)題,但對(duì)于Letterbox仍然無(wú)法解決黑邊匹配的問(wèn)題,如圖6所示。從圖6可以看出,逆向重建網(wǎng)格覆蓋區(qū)域變大,在重構(gòu)圖中,中間部分內(nèi)容基本上能較好地還原,但是黑邊部分仍然無(wú)法正確匹配。
圖6 減小α對(duì)Letterbox的影響Fig.6 Effect of α decrease on Letterbox
為了解決Letterbox無(wú)法準(zhǔn)確匹配的問(wèn)題,本文研究了Letterbox重定向方法的原理。其原理是對(duì)原始幀進(jìn)行等比例縮放,保持原始幀的寬高比,當(dāng)某一邊縮放到目標(biāo)尺寸后,在另一邊填充黑色像素點(diǎn),使其達(dá)到與原始幀一樣的長(zhǎng)度。例如,要將視頻的寬度縮放到原來(lái)的50%,Letterbox首先將視頻的寬度和高度都縮放到原來(lái)的50%,接著在縮放視頻的上下兩部分填充黑色像素點(diǎn),使其達(dá)到原來(lái)的高度,對(duì)高度縮放同理。黑色像素點(diǎn)在原始視頻中是不存在的,所以無(wú)法在原始幀當(dāng)中找到相匹配的點(diǎn)。因此,相對(duì)于其他刪除或者擠壓像素點(diǎn)的重定向方法,Letterbox即使在α=0.2的情況下,黑邊部分仍無(wú)法匹配。
在進(jìn)行Letterbox時(shí),填充部分像素的RGB分量均為0,對(duì)于寬度縮小的視頻,Letterbox在上下兩邊,對(duì)于高度縮小的視頻,Letterbox在左右兩側(cè)。因此,只要檢測(cè)重定向視頻存在整行或者整列像素的RGB分量為0,就能檢測(cè)出黑邊。由于Letterbox在上下或者左右兩側(cè),視頻內(nèi)容在中間,可以將識(shí)別的黑邊直接裁剪,保留視頻原有的內(nèi)容。對(duì)于Letterbox的重定向視頻,首先刪除黑邊,再進(jìn)行SIFT-flow稠密匹配,建立逆向重建網(wǎng)格和重定向幀的重構(gòu)圖,結(jié)果如圖7所示。圖7(b)是檢測(cè)并刪除黑邊之后的重定向幀,可以看到黑邊被完全刪除,完整地保留了中間的視頻內(nèi)容,并且網(wǎng)格覆蓋全面。通過(guò)對(duì)比圖7(b)和圖7(c),重構(gòu)圖與刪除黑邊后的重定向幀的還原度高,因此,Letterbox刪除黑邊再進(jìn)行匹配,能得到較好的匹配結(jié)果。
圖7 刪除黑邊對(duì)Letterbox的影響Fig.7 Effect of remove blackedges on Letterbox
2.3.1 SGD
如果網(wǎng)格內(nèi)容發(fā)生幾何變形,則重建網(wǎng)格與原始均勻網(wǎng)格的寬高比就會(huì)變化,因此通過(guò)計(jì)算均勻網(wǎng)格與逆向重建網(wǎng)格的寬高相似度的變化得到SGD,并使用網(wǎng)格的重要度值作為權(quán)重。計(jì)算均勻網(wǎng)格與逆向重建網(wǎng)格的寬高相似度:
(2)
(3)
(4)
2.3.2 SSD
在重定向過(guò)程中,SSD主要表現(xiàn)為直線(xiàn)發(fā)生彎曲,線(xiàn)條斷續(xù),本文通過(guò)計(jì)算逆向重建網(wǎng)格的邊在水平和垂直方向的形變來(lái)衡量SSD:
(5)
(6)
2.3.3 LIL
在重定向過(guò)程中,信息丟失會(huì)隨著內(nèi)容刪除或擠壓而產(chǎn)生,因此信息丟失可以通過(guò)計(jì)算重建網(wǎng)格的面積變化進(jìn)行衡量。LIL通過(guò)計(jì)算,逆向重建網(wǎng)格與原始均勻網(wǎng)格的面積變換來(lái)衡量,如式(7)所示,其中N表示均勻網(wǎng)格的尺寸,本文中N=10。
(7)
2.3.4 GLR
為了衡量逆向重建網(wǎng)格無(wú)法匹配區(qū)域的失真,本文提出了GLR。首先根據(jù)SIFT-flow得到匹配關(guān)系,在SIFT-flow匹配圖上劃分均勻網(wǎng)格,大小與重定向幀中的一致,大小為10×10。如果網(wǎng)格的損失達(dá)到90%以上時(shí),就認(rèn)為部分視頻內(nèi)容被過(guò)度刪減,局部刪除的區(qū)域越大,內(nèi)容丟失就越明顯,重定向的效果就越差。第t幀的GLR定義如下:
(8)
式中:n是損失達(dá)到90%以上的網(wǎng)格數(shù),N是網(wǎng)格的大小,wt是n個(gè)網(wǎng)格重要度值占整個(gè)原始幀重要度值的比例,H和W分別是原始幀的高和寬。
雖然將平滑項(xiàng)權(quán)重減小能夠獲得較為準(zhǔn)確的匹配,重構(gòu)圖的內(nèi)容與重定向幀的內(nèi)容幾乎保持一致,但是對(duì)于內(nèi)容的細(xì)節(jié)仍有部分差異,因此通過(guò)相鄰2幀之間逆向重建網(wǎng)格的頂點(diǎn)坐標(biāo)的變化來(lái)衡量時(shí)間失真可能會(huì)引入較大的誤差,從而影響重定向視頻的整體質(zhì)量分?jǐn)?shù)。保持時(shí)間連續(xù)性就是保持原始視頻與重定向視頻內(nèi)容運(yùn)動(dòng)的一致性,避免抖動(dòng)等時(shí)間偽影。如果能保持較好的時(shí)間連續(xù)性,原始視頻與重定向視頻對(duì)應(yīng)內(nèi)容的運(yùn)動(dòng)軌跡應(yīng)該是相似的,相鄰軌跡的偏移量變化也應(yīng)該是一致的,如果2條軌跡之間的偏移隨時(shí)間改變,這將產(chǎn)生運(yùn)動(dòng)偽影和不連貫性,因此使用運(yùn)動(dòng)軌跡失真(Motion Trajectory Distortion,MTD)衡量時(shí)間失真。為了減少SIFT-flow匹配引入的誤差,本文使用目標(biāo)跟蹤算法追蹤原始視頻和重定向視頻對(duì)應(yīng)網(wǎng)格的運(yùn)動(dòng)軌跡,并通過(guò)計(jì)算相鄰網(wǎng)格的運(yùn)動(dòng)軌跡的偏移量來(lái)衡量重定向視頻的時(shí)間失真,稱(chēng)為MTD。網(wǎng)格跟蹤如圖8所示。
圖8 網(wǎng)格跟蹤Fig.8 Grid tracking
具體操作步驟如下:
① 首先在重定向視頻的第一幀劃分規(guī)則的均勻網(wǎng)格,并使用SIFT-flow匹配生成原始視頻第一幀的跟蹤網(wǎng)格。在Multimedia Lab(ML)數(shù)據(jù)庫(kù)中,包含3種尺寸的視頻,對(duì)不同尺寸的視頻使用不同大小的網(wǎng)格進(jìn)行劃分,對(duì)CIF視頻劃分網(wǎng)格的大小為20×20,對(duì)720P視頻劃分網(wǎng)格的大小為50×50,對(duì)1080P視頻劃分網(wǎng)格的大小為100×100。
③ 得到跟蹤網(wǎng)格的運(yùn)動(dòng)軌跡之后,分別計(jì)算原始幀和重定向幀中對(duì)應(yīng)網(wǎng)格與其四鄰域網(wǎng)格運(yùn)動(dòng)軌跡的偏移量,最后計(jì)算原始幀與重定向幀網(wǎng)格偏移量的誤差,如式(9)所示:
(9)
空間失真SSD由SGD、SSD、LIL和GLR線(xiàn)性加權(quán)得到,如式(10)所示:
SSD=α·SSGD+β·SSSD+χ·SLIL+δ·SGLR,
(10)
式中:SSGD、SSSD、SLIL和SGLR是所有視頻幀的SGD、SSD、LIL和GLR的平均值,4個(gè)權(quán)重分別設(shè)置為α=0.2、β=0.2、χ=0.5和δ=0.1。SSD越小,重定向視頻的空間質(zhì)量就越好。
重定向視頻的整體質(zhì)量分?jǐn)?shù)通過(guò)融合空間失真分?jǐn)?shù)和時(shí)間失真分?jǐn)?shù)得到,根據(jù)人眼視覺(jué)特性,人們通常更關(guān)注視頻的抖動(dòng)和偽影,即更注重時(shí)間連續(xù)性,因此本文將空間和時(shí)間失真的權(quán)重分別設(shè)置為μ=0.3,λ=0.7,最后融合得到重定向視頻的整體質(zhì)量分?jǐn)?shù)SRVT,如式(11)所示:
SRVT=μ·SSD+λ·SMTD。
(11)
本文算法在Matlab平臺(tái)實(shí)現(xiàn),在Windows 10系統(tǒng)、Intel Core i5、12 GB RAM的環(huán)境下運(yùn)行,所有實(shí)驗(yàn)均在公開(kāi)的ML主觀數(shù)據(jù)庫(kù)[18]中進(jìn)行。
ML數(shù)據(jù)庫(kù)共有28個(gè)經(jīng)過(guò)公認(rèn)的源視頻,這些視頻包含了各種各樣的場(chǎng)景、內(nèi)容,其中20個(gè)視頻分辨率為352 pixel×288 pixel,4個(gè)視頻分辨率為1 280 pixel×720 pixel,4個(gè)視頻分辨率為1 920 pixel×1 080 pixel。數(shù)據(jù)庫(kù)中的視頻重定向算法包括3種傳統(tǒng)重定向方法和3種流行的方法,分別是US、Letterbox、Cropping、Warping[19]、SC[22]和RH[23]。使用上述6種重定向算法對(duì)源視頻進(jìn)行高度不變,寬度分別縮放50%和75%的重定向操作,得到336個(gè)重定向視頻,該數(shù)據(jù)庫(kù)中共包含392個(gè)視頻。文獻(xiàn)[18]隨機(jī)邀請(qǐng)43名受試者參加實(shí)驗(yàn),通過(guò)雙刺激法,每次展示源視頻和2種不同的重定向視頻受試者根據(jù)自己的主觀感受和觀看感受選擇視覺(jué)質(zhì)量更好的結(jié)果,收集所有受試者的評(píng)價(jià)數(shù)據(jù),進(jìn)行統(tǒng)計(jì)分析,得到一個(gè)重定向視頻質(zhì)量的主觀評(píng)價(jià)數(shù)據(jù)庫(kù)。
重定向視頻的受眾是人類(lèi)用戶(hù),其質(zhì)量的好壞由用戶(hù)評(píng)判,因此主觀評(píng)價(jià)是客觀評(píng)價(jià)的基準(zhǔn),視頻重定向質(zhì)量客觀評(píng)價(jià)結(jié)果與主觀評(píng)價(jià)結(jié)果越接近,客觀評(píng)價(jià)算法性能越好。本文采用肯德?tīng)栂嚓P(guān)系數(shù)(Kendall Rank Correlation Coefficient, KRCC)[18]來(lái)衡量主觀評(píng)價(jià)與客觀評(píng)價(jià)之間的一致性,計(jì)算如式(12)所示:
(12)
現(xiàn)有完整的重定向視頻客觀評(píng)價(jià)算法主要有:Hsu等[17]提出的基于時(shí)空質(zhì)量分析評(píng)價(jià)方法、董偉鑫[18]提出的基于逆向重建網(wǎng)格的評(píng)價(jià)算法和趙祖翌[21]提出的基于匹配校驗(yàn)的網(wǎng)格重建評(píng)價(jià)方法。因?yàn)長(zhǎng)i等[15]和Yan等[16]提出的方法只能衡量時(shí)間失真,所以不做比較,本文實(shí)驗(yàn)結(jié)果主要與Hsu等[17]、董偉鑫[18]和趙祖翌[21]的算法進(jìn)行對(duì)比。在ML數(shù)據(jù)庫(kù)中,將視頻分為大顯著區(qū)域、小顯著區(qū)域、無(wú)顯著區(qū)域、目標(biāo)靜止和背景靜止5類(lèi),分別對(duì)這5類(lèi)視頻進(jìn)行性能比較,對(duì)比結(jié)果如表1所示。其中,整體性能是數(shù)據(jù)庫(kù)中所有視頻的平均KRCC和KRCC的標(biāo)準(zhǔn)差。
表1 客觀質(zhì)量評(píng)價(jià)算法性能對(duì)比
由表1可以看出,本文方法在ML數(shù)據(jù)庫(kù)中,相較于Hsu等[17]和董偉鑫[18]的算法有較大幅度的提升,特別是無(wú)顯著區(qū)域;與趙祖翌[21]的算法相比,本文方法在大顯著區(qū)域、無(wú)顯著區(qū)域和目標(biāo)靜止類(lèi)型的視頻都高于趙祖翌[21]的算法,小顯著區(qū)域類(lèi)視頻稍低,但是差距不大;相機(jī)靜止類(lèi)視頻與趙祖翌[21]持平。本文算法對(duì)數(shù)據(jù)庫(kù)中所有視頻的平均KRCC最高,整體性能和穩(wěn)定性最好;KRCC的標(biāo)準(zhǔn)差也最小,穩(wěn)定性較好,與主觀評(píng)價(jià)結(jié)果的一致性更高。
為了證明本文提出的預(yù)處理、GLR指標(biāo)和運(yùn)動(dòng)軌跡偏移量的有效性,對(duì)其進(jìn)行了消融實(shí)驗(yàn),結(jié)果如表2所示。其中,直接匹配(Direct Matching)是在平滑項(xiàng)權(quán)重α=2情況下進(jìn)行SIFT-flow稠密匹配,并計(jì)算2.3節(jié)中的SGD、SSD和LIL;預(yù)處理(Pre-processing)是修改平滑項(xiàng)權(quán)重和刪除黑邊操作,并求出SGD、SSD和LIL;GLR是2.3節(jié)提出的GLR指標(biāo),MTD是2.4節(jié)提出的時(shí)間失真衡量指標(biāo)。在消融實(shí)驗(yàn)中設(shè)置的權(quán)重與2.5節(jié)一致。
表2 消融實(shí)驗(yàn)
在消融實(shí)驗(yàn)中共進(jìn)行了6組實(shí)驗(yàn):直接匹配+運(yùn)動(dòng)軌跡偏移量、直接匹配+GLR、直接匹配+GLR +運(yùn)動(dòng)軌跡偏移量、預(yù)處理+運(yùn)動(dòng)軌跡偏移量、預(yù)處理+GLR和預(yù)處理+GLR +運(yùn)動(dòng)軌跡偏移量。實(shí)驗(yàn)在相同的運(yùn)行環(huán)境中進(jìn)行。
為了證明本文提出的預(yù)處理的有效性,本文將第一組和第四組、第二組和第五組,第三組和第六組進(jìn)行對(duì)比,從表2中可以看出,無(wú)論從視頻類(lèi)別還是整體性能的角度,預(yù)處理的結(jié)果均比直接匹配的結(jié)果好,這充分表明減小平滑項(xiàng)權(quán)重值和刪除黑邊有著明顯的效果,減小了SIFT-flow稠密匹配錯(cuò)誤,逆向重建網(wǎng)格能更好地衡量重定向視頻的時(shí)空失真。
為了證明GLR的有效性,本文將第一組和第三組、第四組和第六組進(jìn)行比較,第三組的整體平均KRCC比第一組高0.019,第六組的整體平均KRCC比第四組高0.06,這是因?yàn)樵谥苯悠ヅ鋾r(shí),稠密匹配錯(cuò)誤較大,導(dǎo)致得到的GLR不準(zhǔn)確。當(dāng)進(jìn)行預(yù)處理之后,減小了稠密匹配錯(cuò)誤,加入GLR對(duì)整體性能有著較大提升。
為了證明本文提出使用運(yùn)動(dòng)軌跡偏移量衡量時(shí)間連續(xù)性失真的有效性,本文將第二組和第三組、第五組和第六組進(jìn)行比較。通過(guò)表2可以看出,第三組的整體KRCC比第二組高0.091,第六組的整體KRCC比第五組高0.124,并且第三和第六組不同視頻類(lèi)別均明顯高于第二和第五組。
綜上所述,本文提出的算法能有效地評(píng)估重定向視頻的空間和時(shí)間失真,可以為選擇重定向方法提供科學(xué)參考。
本文提出一種基于逆向重建和運(yùn)動(dòng)軌跡偏移的VRQA算法,對(duì)文獻(xiàn)[18]存在的問(wèn)題進(jìn)行了改進(jìn)。首先,本文將平滑項(xiàng)權(quán)重修改為0.2并刪除重定向視頻的黑邊,改善了SIFT-flow的匹配準(zhǔn)確性;接著,提出了GLR指標(biāo),解決了無(wú)法衡量逆向重建網(wǎng)格未匹配區(qū)域失真的問(wèn)題;最后,提出使用原始幀與重定向幀中相鄰網(wǎng)格運(yùn)動(dòng)軌跡偏移量的誤差來(lái)衡量時(shí)間失真,進(jìn)一步減少錯(cuò)誤匹配對(duì)算法性能的影響。實(shí)驗(yàn)結(jié)果表明,本文算法與ML主觀數(shù)據(jù)庫(kù)的相關(guān)性達(dá)到了0.593,與其他算法相比,該算法的性能有了較大提升,能夠更加全面準(zhǔn)確地衡量重定向視頻的客觀質(zhì)量。
本文提出的算法與主觀結(jié)果的相關(guān)性較高,但也存在一些問(wèn)題,如該算法均在局部上衡量時(shí)空失真,忽略了內(nèi)容全局失真對(duì)主觀感受的影響。接下來(lái)可對(duì)重定向視頻的全局時(shí)空失真做進(jìn)一步研究。