曾煥強 丁瑞 黃海靚 陳婧 朱建清
(1.華僑大學工學院,福建泉州 362021;2.華僑大學信息科學與工程學院,福建廈門 361021)
隨著視覺媒體技術的快速發(fā)展,人們在學習、工作和休閑等各個方面都渴望更加真實的視覺體驗,沉浸式視頻(Immersive video)獲得了越來越多的關注。沉浸式的概念早期出現于電影領域,通過覆蓋人眼至少120°(水平)×70°(垂直)視場角的巨幕,與音頻及特效系統(tǒng)相輔助,能讓觀眾完全沉浸在視聽環(huán)境中并有身臨其境的感覺[1]。目前,沉浸式視頻通過人機交互、虛擬現實(Virtual Reality,VR)等技術,可將現實環(huán)境營造成兼具畫面包圍感和沉浸式音響的場景,并通過頭戴式顯示器(Head-Mounted Display,HMD)、傳感器及手柄等設備實現沉浸式體驗。
伴隨著數字時代技術的更新,沉浸式視頻也在不斷更新迭代,高分辨率、高幀率、高色深、廣色域、高動態(tài)的視頻能提供更為豐富的畫面層次,保持更為精致的畫面細節(jié),進一步強化沉浸式視頻的空間表現力和臨場感,更好地提升沉浸式視聽效果。與此同時,通過HMD 觀察的沉浸式視頻格式也不斷在變化,MPEG 會議上針對沉浸式媒體的標準化工作制定了MPEG-I標準[2],其根據視頻格式將沉浸式視頻分為了三個階段:3 個自由度(3DoF)、3DoF+(3 Degrees of Freedom Plus)和6DoF[3-5]。
與傳統(tǒng)視覺信號相同,沉浸式視頻在采集、處理、傳輸和展示等過程中,不可避免地受到外界干擾而導致視頻質量下降。所以如何量化沉浸式視頻的質量損耗并進行質量評價,對于沉浸式視頻處理研究領域的發(fā)展具有學術研究意義和現實應用價值。近年來,基于3DoF 的沉浸式視頻質量評價研究已引起學術界的廣泛關注,并取得了初步進展[6-10],關于6DoF 沉浸式視頻的相關研究也在逐步探索中。沉浸式視頻質量評價的研究目標是設計符合人眼視覺主觀感知的算法模型,用以準確高效地評估視頻質量。研究內容主要包括:主觀質量評價數據庫和客觀質量評價方法。
本文其余部分的安排如下:第2 節(jié)介紹基于3DoF 的沉浸式視頻質量評價數據庫和質量評價算法,第3節(jié)介紹涉及6DoF 沉浸式視頻質量評價的主要技術,第4節(jié)給出總結和未來的展望。
如圖1 所示,3DoF 沉浸式視頻指觀察者在固定位置上于三個旋轉度(偏航角(Yaw)、俯仰角(Pitch)、滾轉角(Roll))上自由活動,即在一個固定的觀看位置上環(huán)顧四周,如360°視頻[11],即具有360°寬廣視野感知范圍的視頻,用戶可視作球體的中心點,與球體表面的不同視頻信息具有相同距離,并可通過改變方向來選擇觀看內容。3DoF+沉浸式視頻是對3DoF 的有限修改,即添加了三個位置維度(X,Y,Z)上頭部的有限范圍活動(腳步固定,不允許走動),其更加符合用戶感知事物的真實過程,并能兼容混合現實(Mixed Reality,MR)和增強現實(Augmented Reality,AR)。6DoF 沉浸式視頻是3DoF+的進一步改進,在3DoF視頻的基礎上額外提供3 個平動自由度,即視頻內容可根據觀眾位置的移動而改變,支持用戶更大范圍的觀察行動。
圖1 關于3DoF(左)、3DoF+(中)、6DoF(右)的劃分[3]Fig.1 About the classification of 3DoF(left),3DoF+(middle),6DoF(right)[3]
在3DoF 的概念提出之前,通過HMD 實現的沉浸式體驗通?;谧匀?屏幕視頻和360°視頻,而現有的3DoF 沉浸式視頻一般都指代360°視頻(或稱為全向視頻、全景視頻)。用戶可通過改變方向來選擇觀看內容。
沉浸式視頻主觀評價方法一般遵照國際標準ITU-R BT.500-13[12]中所規(guī)定的實驗設置搭建主觀質量評價平臺,在特定環(huán)境內觀看測試序列并基于各項規(guī)定方法進行打分,再對評分進行處理分析得到主觀平均得分(Mean Opinion Score,MOS)或主觀差異平均得分(Differential Mean Opinion Score,DMOS),以此反映失真沉浸式視頻的感知質量退化?,F有的主觀評價方法主要分為以下幾種:
(1)雙刺激損傷尺度法(Double Stimulus Impairment Scale,DSIS):將參考視頻和失真視頻以“視頻對”的形式展示給受試者,觀看順序為參考視頻在前,失真視頻在后,即對參考視頻有主觀印象后再進行失真視頻的評分,通常采用表1 所示的5 分制評分表。
表1 DSIS的5分制失真測度Tab.1 Distortion measures on the 5-point scale for DSIS
(2)雙刺激連續(xù)質量尺度法(Double Stimulus Continuous Quality Scale,DSCQS):與DSIS 觀看方式大致相同,區(qū)別是參考和失真視頻的播放順序隨機,且二者都需要評分,通常采用圖2 所示的5 分制失真測度。
圖2 DSCQS的評分測度Fig.2 Scoring measures of DSCQS
(3)單刺激法(Single Stimulus Methods,SSM):在不觀看參考視頻的前提下,以隨機方式顯示測試視頻并進行主觀評分,具體實現時根據播放次數分為兩種方式:不重復播放視頻序列(Single Stimulus,SS)和重復播放測試序列(Single Stimulus with Multiple Repetition,SSMR)。除了常用的5 分制評分,還可以通過采用圖3 所示9 分制或11 分制提高精度[12]。
圖3 SSM評分測度Fig.3 Scoring measures of SSM
(4)單刺激連續(xù)質量評估方法(Single Stimulus Continuous Quality Evaluation,SSCQE):在不觀看參考視頻的前提下,選擇序列的時間較長,分值取平均,對序列評分時不僅考慮分值大小,還需關注評分時長。
(5)同時雙激勵連續(xù)質量評估方法(Simultaneously Double Stimulus Continuous Evaluation,SDSCE):該方法以SSCQE 為基準條件而制定,用以衡量較長序列的視頻質量。
(6)多媒體視頻質量主觀評估方法(Subjective Assessment Method for Video Quality evaluation,SAMVIQ)[13]:1)訓練測試人員,播放一組參考視頻及相應的測試序列(質量從高到低排列),給定測試人員以基本的預期得分;2)進行預測試,播放一組包含參考視頻和三個失真視頻的視頻集合,當測試人員的評分結果與預期得分相匹配時可正式測試;3)測試人員觀看多類視頻序列,每組包含一個原始視頻和三個隨機的失真序列,并基于連續(xù)評分測度進行打分,即在0 到100 之間的連續(xù)尺度(分5 個等級分別表示很好、好、一般、差、很差)上對視頻序列進行打分。
沉浸式視頻質量評價數據庫反映了人類視覺系統(tǒng)對于沉浸式視頻的主觀質量感知,是設計和評判沉浸式視頻客觀質量評價方法的重要依據。目前,基于3DoF 沉浸式視頻的主觀質量評價數據庫已經較為成熟,考慮到數據庫的多樣性和實用性,本文具體介紹幾種常用的數據庫,如表2所示。
表2 幾種常用沉浸式視頻數據庫Tab.2 Several common immersive video databases
1)NAMA3DS1-COSPAD1 數據庫[14]:由10 個原始參考視頻、100個失真視頻及對應主觀評分組成,失真類型包括H.264/AVC壓縮失真、JPEG2000壓縮失真、圖像銳化和下采樣銳化等。
2)QI-SVQA 數據庫[15]:包括9 個原始視頻和450個失真視頻,失真類型包括高斯模糊和H.264壓縮失真。
3)IVQAD 2017 數據庫[16]:由Insta 360 4K 球形VR 攝像機拍攝的10個不同場景構成,涵蓋了人物、草坪、建筑物等室內外場景,通過設置不同的幀率、分辨率和碼率模擬失真情況。
4)VR-VQA48 數據集[17]:采集了12 個參考視頻,并通過設置4種QP值模擬壓縮失真。
5)VQA-ODV[18]數據庫:參考視頻涉及60 個不同的場景,包括真實場景與CG 合成場景。該數據庫的失真視頻構建考慮了沉浸式視頻在傳輸、重建以及顯示過程中可能引入的失真效應,即3 種不同量化參數(QP=27、37、42)下的H.265 壓縮失真與3 種不同投影格式(ERP、RCMP、TSP)的組合失真,每個視頻序列對應9種質量損失程度。
6)IIP-IVQD數據集[19]:在10個參考場景下通過HEVC壓縮失真模擬獲取50個失真視頻。
7)VRQ-TJU 數據集[20]:包含13 個VR 原始視頻,并基于H.264和JPEG2000壓縮失真構建失真視頻數據集,其中包含104 個對稱視頻和260 個非對稱視頻。
8)VOD-VQA 數據庫[21]:選擇18 個360°視頻序列作為參考視頻,通過設置不同的幀大小、幀率和QP值得到774個失真視頻。
主觀實驗的觀看設備通常為HMD,后續(xù)再采用不同的主觀評分標準進行打分。值得注意的是,現有的主觀實驗僅能實現HMD 觀看者的口述評分與手動記錄數據,主觀質量評價實驗所需的大量數據處理工作仍然是亟待解決的一個問題。
沉浸式視頻的客觀質量評價方法是通過數學統(tǒng)計方法預測失真視頻的質量損耗,可以有效彌補主觀質量評價方法適用范圍的局限,主觀實驗物力及人力耗費過高,做不到實時性,同時結果易受觀察者和觀測環(huán)境的影響??陀^質量評價方法計算簡便,實用性強。根據對參考視頻的依賴程度可分為全參考、半參考和無參考方法[22]?,F有的沉浸式視頻客觀評價方法主要是針對3DoF 沉浸式視頻,包括全參考質量評價和無參考質量評價兩種類型。
關于全參考質量評價方法,Sun等[22]提出了一種基于球形均勻加權的方法來準確評估失真360°視頻的客觀質量,通過對投影平面上每個像素點的誤差引入對應的權重值,避免了由重采樣表示空間轉換到觀察空間時產生的誤差傳播。Azevedo等[23]提出了一種基于視口的多度量融合方法,通過組合從360°視頻的視口中提取的多種時空客觀質量指標(特征)來實現失真360°視頻的質量評估。Gao等[24]考慮到失真空間特征和對應時間變化對人眼視覺的影響,提出了一種時空建模方法,并將三種現有的VQA指標(S-PSNR、CPP-PSNR、WS-PSNR)集成進該方法,提高了失真360°視頻的質量評估準確性。
關于無參考沉浸式視頻質量評價方法,Zhang等[25]通過整合代表不同失真因素的質量因子,構建了一種VR 環(huán)境下的視聽質量評估框架。Li等[26]同時考慮于視口方案(viewport proposal)和視口顯著性預測,提出了基于視口方案的CNN 方法來預測失真360°視頻的質量評分。Zhang等[27]基于球域提取360°視頻的空間和時間特征,并通過多核學習(Multiple Kernel Learning,MKL)回歸計算失真視頻質量分數。Yang等[28]設計了一種端到端的神經網絡模型來實現360°視頻質量評價,該算法通過結合球形CNN 和非局部神經網絡,有效地提取360°視頻的復雜時空特征。
然而,360°視頻不支持人眼的運動視差,觀看360°視頻時,物體的相對位置信息無法根據觀看者與物體的相對位置變化而更新,這與用戶在現實世界中的體驗背道而馳,會導致感知的不適應。3DoF+沉浸式視頻作為3DoF 至6DoF 階段的過渡產物,除了提供三個旋轉度上的體驗之外,還允許一定范圍的頭部活動,而6DoF視頻較3DoF+視頻進一步增加了用戶自由度,即視頻內容可以根據用戶觀看位置的移動而改變。因此,6DoF 沉浸式視頻較3DoF視頻可提供正確的運動視差,帶來與真實世界更為相似的觀看體驗,并可進一步滿足沉浸式視頻的相關需求。
因此,觀測自由度及視差信息的增加使得基于3DoF 沉浸式視頻所設計的客觀質量評價方法不適用于6DoF 視頻,如何探索出針對人類視覺系統(tǒng)和6DoF 沉浸式視頻特征的高效客觀質量評價算法模型是當前視頻處理領域的研究熱點。
MPEG-Ⅰ制定了沉浸式視頻標準,具體涉及3DoF、3DoF+視頻及6DoF 視頻等等[29]。其中提及6DoF 視頻具有圖4 所示的三種類型:窗口式6DoF[30]、全向6DoF[31]以及6DoF。其中,窗口式6DoF需要借助顯示器的幫助,在窗口受限的情況下觀看視頻場景,窗口式6DoF 內容是由普通2D 相機拍攝。全向6DoF 指提供不受限制的自由旋轉角度(Yaw、Pitch、Roll)和有限體積內的小幅度身體平移活動,是一種受限制的6DoF形式,與3DoF+相似,但允許更大的視角范圍,全向6DoF 內容是由全向(360°視頻)攝像機拍攝。
圖4 窗口式6DoF(左)、全向6DoF(中)和6DoF(右)[3]Fig.4 Windowed 6DoF(left)、Omnidirectional 6DoF(middle)和6DoF(right)[3]
MPEG-I 定義了6DoF 沉浸式視頻的源視頻格式,主要分為多視圖視頻加深度(Multiview Video Plus Depth,MVD)、多平面圖像(Multiplane Image,MPI)和多球 形圖像(Multi Sphere Image,MSI)。6DoF 視頻主要采用MVD 格式,如圖5 所示,具有每幀相關聯(lián)的多視圖紋理視頻和深度視頻,視頻子集為具有多個視圖的立體視頻格式,通常由多相機系統(tǒng)采集[32-35]。圖5(b)顯示的深度視頻序列場景與圖5(a)中的紋理視頻相對應,并可通過深度估計算法從后者提取。MVD 格式源自單視圖視頻加深度(Single-View Video Plus Depth,VPD),可利用深度圖來渲染虛擬視圖。由于MVD 格式表示的視圖合成基于多個紋理視圖和深度視圖,其合成視圖的質量通常優(yōu)于VPD格式的質量。MPI格式或MSI格式主要應用于沉浸式光場視頻。將視頻的每一層像素固定為某一深度,MPI 視頻可近似為一疊排列在不同的深度的半透明彩色層,如圖6(a)所示,其是由二維規(guī)則網格圖像組成的單一矩形視頻。這些紋理視圖的分辨率相同,是由多個相機(如微透鏡陣列光場相機)拍攝得到的[36-37]。將來自相機陣列的視頻流編碼為一組具有RGBA 紋理的同心球體,得到如圖6(b)所示的MSI視頻。但由于MSI格式所占空間過大,存儲數據過多不易壓縮,不利于傳輸與展示,通常將其轉換為MPI格式以作后續(xù)處理。
圖5 6DoF沉浸式視頻的MVD視頻源格式Fig.5 MVD video source format for 6DoF immersive video
圖6 沉浸式光場視頻的MPI視頻和MSI視頻源格式Fig.6 MPI video and MSI video source formats for immersive light field video
MPEG-Ⅰ標準除了對沉浸式視頻做出的規(guī)劃和技術支持,其還提供部分可下載的測試參考序列(Common Test Conditions,CTC)[38],其中包含了紋理信息和深度信息。這些序列涵蓋了18 種不同場景,分別以普通視口的自然視圖或ERP 投影格式下的球面虛擬視圖呈現。目前,MPEG-Ⅰ標準架構下已提出了許多關于6DoF 視頻的算法模型,如視頻的編碼和解碼技術,用于提取紋理視頻中深度信息的深度估計技術,以及對針對場景中某一目標視點的虛擬視圖合成技術等??紤]到深度估計技術和虛擬視圖合成技術對沉浸式視覺感知的影響,二者已受到計算機圖形學領域的廣泛關注,并有望應用于沉浸式質量評價研究工作中。接下來我們分別介紹影響人眼視覺感知的6DoF 關鍵技術:深度估計技術和虛擬視圖合成技術。
針對6DoF 沉浸式視頻的特征提取方案無法僅依靠紋理圖像來表征場景的全部信息,而深度信息表征了拍攝對象與相機之間的空間距離,可通過計算各點之間的相對距離對場景信息進行額外補充。具體來說,相機與拍攝場景中某個像素點的相對距離可由深度信息推斷,而深度信息一般以歸一化視差的形式來適應人眼視覺系統(tǒng),即目標像素點的灰度值反映了該點與攝像機的距離,因此更亮的區(qū)域對應更高的視差(更小的相機拍攝距離)。然而,自然場景信息采集時可能無法直接獲取深度信息,深度估計技術應運而生,即利用紋理信息來計算出場景深度信息[39-40]。
目前,獲取深度信息的方式主要分為主動方式和被動方式兩種。其中,主動方式需要采集設備自身發(fā)射能量,常用設備包括結構光相機[41]、TOF 相機和激光雷達等。以TOF 相機[42]為例,其通過比較發(fā)射脈沖和反射脈沖的相位差來推算傳輸過程中的傳輸延遲,進而計算場景中拍攝對象與相機的距離。然而TOF 相機仍存在一些缺陷,比如相機的造價較高、采集過程易受噪聲的干擾、相機獲取的深度圖像分辨率不及紋理圖像的分辨率大,以及物體的邊緣深度信息不準確等。此外,在被動獲取深度信息的方式中,雙目立體視覺[43-44]是比較通用的方法,即對同時獲得的兩張同一場景圖像使用匹配算法,找尋二者間相適配的像素點,再應用三角原理得出視差,針對多張圖像進行相同運算得到場景深度信息。類似的,該算法同樣適用于同一場景下不同角度的圖像深度信息獲取。但基于雙目立體視覺獲取視差信息的過程易受像素點匹配精度的影響,其生成的視圖仍然存在一定誤差。除此之外,深度信息也能通過間接估算圖像的光度特征[45]、明暗特征[46]等特征獲取。以上方法主要都針對3DoF視頻設計,對于6DoF 視頻具有局限性,不能完全滿足其深度估計的相關需求。
為此,MPEG-Ⅰ標準提出一種高質量的深度估計軟件(Depth Estimation Reference Software,DERS),目前已經更新到DERS 8.0[47-49]。DERS 主要由表3所示的三個部分組成,即匹配成本、時間增強和圖像切割。首先,基于所有可能的標簽(如深度信息)為參考圖像的每個像素計算一個誤差成本;其次,將每個像素和標簽的最終誤差設定為圖像對的最小誤差;最后,將其進行圖形切割優(yōu)化,以找到每個像素的最佳深度估計。
表3 DERS算法框架[39]Tab.3 Basic framework of DERS[39]
6DoF 沉浸式視頻支持雙目立體視差、運動視差,提供了與現實世界更相似的觀看體驗。但是由于采集和存儲條件的限制,任意視點間的視覺信息不能完全獲取,即在位移、遮擋等情況下導致采集時的信息丟失?,F有情況下,如何有效利用已知視點預測目標視點是6DoF 視頻重建及展示階段亟須解決的一項重要問題。
基于圖像的視圖合成算法通過參考已知視點的信息,利用3D-Warping 投影、插值等手段直接合成虛擬視圖,高效生成符合需求的虛擬視圖,因此基于圖像的虛擬視圖合成算法得到了廣泛應用。此外,目前基于深度圖像探索算法模型對已知場景進行虛擬視圖合成的研究領域具有一定的熱點?;谏疃葓D像目標視點的虛擬視圖合成方法(Depth Image Based Rendering,DIBR)[50-52]通過一組視頻序列(紋理視頻和深度視頻)和相應的信息來生成非獲取視點的圖像,其算法框架如圖7所示,主要分為三步:3D-Warping 投影、融合和圖像修復。首先,對輸入紋理視圖及深度視圖進行變換,各自生成一個虛擬的目標視圖;其次,融合兩幅生成的虛擬視圖;最后,對融合后產生的空洞進行填充修復。然而,DIBR 方法存在缺陷,其主要針對傳統(tǒng)2D場景。由于高自由度沉浸式視頻的映射方式區(qū)別于2D 視頻,滿足高自由度沉浸式視頻的虛擬視圖合成模型亟待探索。
圖7 DIBR算法基本框架Fig.7 Basic framework of DIBR
針對6DoF沉浸式視頻,MPEG-I標準提出兩種參考視圖合成工具RVS(Reference View Synthesizer)及VSRS(View Synthesis Reference Software)[53-55],克服了低數量參考視圖合成虛擬視圖的限制,支持任意數量的輸入視圖進行視圖合成,采用自然、逼真的渲染且無需事先進行3D 建模。值得注意的是,與RVS 相比,VSRS 在非平面相機對準和步進方面的結果較差,然而這兩種軟件工具都顯示出較好的發(fā)展趨勢,即有助于在未來工作中推斷最佳輸入的相機位置及數量,滿足高自由度沉浸式視頻的采集和渲染需求。
深度估計技術和虛擬視圖合成技術對沉浸式視覺感知尤為重要,6DoF 沉浸式視頻相比于3DoF沉浸式視頻,表征的信息更多,因此更能帶來沉浸式的視覺感知體驗。對于沉浸式視頻的質量評價而言,除了常用的紋理信息、邊緣信息和色度信息等,也需要考慮深度信息,用于模擬主觀感知場景過程中對景深信息的感知,因此深度估計技術對6DoF 視頻主觀評價過程具有重要意義。而虛擬視圖合成技術能夠對任意已知視圖間的虛擬視圖進行合成,視圖能夠進行任意切換滿足了6DoF 視頻觀看時更高的沉浸式視覺感知體驗。在6DoF 沉浸式視頻質量評價研究工作中,除了利用多數經典算法所考慮的紋理信息、色度信息等信息,如何利用這兩種技術設計出性能優(yōu)越、魯棒性好的算法模擬視覺感知,以此滿足6DoF 沉浸式視頻身臨其境的體驗需求,仍有待探索。
本文首先概述沉浸式視頻的概念和研究背景,然后就3DoF 沉浸式視頻的主觀質量評價數據庫和客觀質量評價算法展開介紹,最后分析影響6DoF沉浸式視頻質量評價的相關技術,并簡要介紹了最新成果。隨著人們在學習、工作和休閑等各個方面對視覺媒體不斷增強的視覺體驗需求,不同應用場景下的視頻質量評估和質量感知優(yōu)化工作需求日益遞增。未來的研究工作中,端到端的沉浸式視頻處理系統(tǒng)在拍攝、制作、編轉碼、傳輸分發(fā)和呈現設備中仍存在很大的發(fā)展空間,高自由度沉浸式視頻也將在醫(yī)療、教育、虛擬游戲等領域得到廣泛應用。因此,針對沉浸式視頻的質量評價研究同時具有學術研究意義和現實應用意義,其主觀和客觀研究方向有望深入探索并應用于更多具體場景。