尹芹 呂達
摘要:提出虛擬現(xiàn)實(VR)面臨的2種技術(shù)發(fā)展挑戰(zhàn):高帶寬、低時延。圍繞VR的發(fā)展,中興通訊創(chuàng)新性地提出端到端VR系統(tǒng)方案的技術(shù)理念,研發(fā)出一系列創(chuàng)新技術(shù)用于實現(xiàn)VR業(yè)務(wù),例如:低碼高清技術(shù)、基于視野(FOV)的自適應(yīng)傳輸技術(shù)、VR電子節(jié)目指南(EPG)、VR機頂盒、VR播放器,并基于網(wǎng)絡(luò)功能虛擬化(NFV)技術(shù)構(gòu)建出云化VR網(wǎng)絡(luò)架構(gòu)。這些技術(shù)和方案進一步地促進了VR的發(fā)展。
低碼高清;FOV;基于FOV的自適應(yīng)傳輸
In this paper, two kinds of technical development challenges faced by virtual reality (VR) are proposed: high bandwidth and low delay. Focusing on the development of VR, ZTE innovatively proposed the technical concept of an end-to-end VR system solution. A series of innovative technologies were developed to implement VR services, such as low-code high-definition technology and angle of view (FOV)-based adaptation transmission technology, VR electronic program guide (EPG), VR set-top box, VR player, and cloud-based VR network architecture based on network function virtualization (NFV) technology. These technologies and solutions further promote the development of VR.
low-code high-definition; FOV; FOV-based adaptive transmission
1 VR的概念
1.1 VR的作用
1965年,虛擬現(xiàn)實(VR)的概念被首次提出。2016年,Oculus、HTC VIVE、PS VR等各種VR硬件層出不窮地面世,該年也被稱為VR元年。受限于制作精良、吸引用戶眼球并可持續(xù)使用的VR內(nèi)容,受限于帶寬以及更高清分辨率的顯示技術(shù),VR仍然處在爆發(fā)前夜。
VR可用于視頻直播、視頻點播、視頻游戲,以及垂直行業(yè)的多個應(yīng)用場景,拉近人與人、人與物之間的距離,帶給用戶沉浸、互動的感受。
2017年,中興通訊推出端到端的VR直播解決方案,并成功應(yīng)用于南藝520直播。
1.2 VR的挑戰(zhàn)
(1)帶寬挑戰(zhàn)。運營商開展VR視頻業(yè)務(wù)之后,對帶寬的需求約為300 Mbit/s~1.2 Gbit/s,最高可能將會超過1 Gbit/s,因此千兆帶寬及至5G網(wǎng)絡(luò)將會給用戶帶來更佳服務(wù)體驗,內(nèi)容分發(fā)網(wǎng)絡(luò)(CDN)也將為運營商節(jié)約更多帶寬消耗。
(2)時延和丟包挑戰(zhàn)。VR要求運動到圖像的最大時延在20 ms,運動到聲音的最大時延在20 ms,并要求音視頻保持同步。
(3)完美拼接。通常需要在一組攝像機設(shè)備上進行采集,然后再進行拼接處理,將來自不同攝像機的視圖合并到一個視圖中。為保障完美的VR體驗,不應(yīng)引入任何拼接錯誤,不應(yīng)看到任何拼接線。
1.3 VR的演進過程
動態(tài)圖像專家組(MPEG)、第3代合作伙伴項目(3GPP)、數(shù)字音視頻編解碼技術(shù)標(biāo)準(zhǔn)(AVS)、中國通信標(biāo)準(zhǔn)化協(xié)會(CCSA)等多個全球標(biāo)準(zhǔn)組織正在積極推進和制訂VR相關(guān)標(biāo)準(zhǔn)。其中,MPEG國際標(biāo)準(zhǔn)組在2015年10月啟動全向媒體應(yīng)用格式(OMAF)項目,主要針對360視頻以及對應(yīng)的音頻,研究相應(yīng)的文件封裝格式,以及在基于HTTP的動態(tài)自適應(yīng)流(DASH)方式下的傳輸,同時還包括編碼的配置、視點的投射等。MPEG OMAF之后,MPEG標(biāo)準(zhǔn)組織認(rèn)為有必要成立MPEG-I,并包含OMAF。MPEG-I標(biāo)準(zhǔn)的工作時間軸如圖1所示。
MPEG-I的標(biāo)準(zhǔn)制定,又分為3個階段[1]:階段1a、階段1b、階段2,具體如表1所示。
階段1a(3自由度):在特定觀察位置,當(dāng)頭部左右旋轉(zhuǎn)、俯仰旋轉(zhuǎn)、搖擺旋轉(zhuǎn)時,VR頭顯能正確顯示相應(yīng)VR內(nèi)容,需要VR內(nèi)容、VR采集和VR顯示設(shè)備的支持。
階段2(全向6自由度):在特定觀察位置,當(dāng)頭部左右旋轉(zhuǎn)、俯仰旋轉(zhuǎn)、搖擺旋轉(zhuǎn),以及一定范圍內(nèi)向前后、左右、上下3個方向平移時,VR頭顯能正確顯示相應(yīng)VR內(nèi)容,需要VR內(nèi)容、VR采集和VR顯示設(shè)備的支持。
階段2(6自由度):典型的使用案例是用戶自由穿過頭戴式顯示器(HMD)上顯示的3D 360 VR內(nèi)容(物理地或通過專用的用戶輸入裝置)。
1.4 VR端到端架構(gòu)
3GPP定義的VR視頻架構(gòu)[2]由采集、球面拼接(可選)、投影(可選)、封包(可選)、編碼、封裝、傳輸、解封裝、解碼、渲染、顯示各環(huán)節(jié)組成,如圖2所示。
各細(xì)分環(huán)節(jié)的詳細(xì)描述,參見如下各章節(jié)。
1.4.1 采集
取決于采集系統(tǒng)的功能,VR內(nèi)容以不同的格式表示,例如:全景圖或球體。許多系統(tǒng)采集覆蓋整個360°×180°球體的球形視頻。通常需要配置多個相機來采集這樣的內(nèi)容。配置的各種相機可用于記錄2D和3D內(nèi)容。采集環(huán)節(jié)可以使用立體相機組、魚眼、廣角鏡頭、相機陣列、光場相機陣列,產(chǎn)生立體效果或光場渲染效果的VR內(nèi)容。
(1)立體效果
(a)分片立體效果:立體相機組采集3D內(nèi)容,并以相對較小的重疊排列成星形配置;但這樣的照相機系統(tǒng)一方面可能會有視差錯誤,另一方面基于鏡像的系統(tǒng)可以使用減少視差錯誤的相機組采集3D圖像。
(b)極度重疊的立體效果:立體內(nèi)容由魚眼或廣角鏡頭、相機陣列采集的重疊圖像創(chuàng)建。在處理過程中,每個圖像傳感器分成左右2部分,并拼接成左右全景圖。
(2)光場渲染
(a)基于深度的光場渲染:是創(chuàng)建3D內(nèi)容的有前途的方法;但是,光場渲染需要密集的相機陣列。
(b)使用基于深度的渲染來生成中間相機視圖:這是現(xiàn)有方法,可以減少所需相機的數(shù)量;但該方法需要非常精確的深度圖和復(fù)雜的基于深度的處理流程,增加了所需算力。
1.4.2 球面拼接
球面拼接分為3種:基于鏡像的系統(tǒng)直接拼接、深度感知的拼接(分片立體效果,極度重疊的立體效果)、深度使能的光場渲染。
1.4.3 投影
最常用的VR投影方法包括2種:經(jīng)緯度展開投影(ERP)、立方體投影(CMP)。
(1)ERP:水平、垂直坐標(biāo)分別對應(yīng)經(jīng)度、緯度,不變換、不縮放。該方法的特點是:赤道上的像素拉伸最?。ɑ蛞稽c都沒有拉伸),而越向兩極拉伸越嚴(yán)重,因此失真越嚴(yán)重。這就產(chǎn)生了大量冗余信息,不適合使用高效視頻編碼(HEVC即H.265)對其進行壓縮。
(2)CMP:將球面全景圖像映射到了立方體的6個面上,中間的4個面為前后左右的圖像,上下3個面為頂部和底部的圖像,每個面都有90°×90°的視野(FOV)。在立方體投影中,直線保持筆直,便于對圖像進行處理,相比于圓柱映射,失真要小很多。好處在于:減少了兩極的冗余,減少了數(shù)據(jù)量;立方體投影中直線保持筆直,沒有發(fā)生彎曲失真(這對于視頻編碼來說十分重要,因為運動矢量是直線);立方體投影對像素進行了分配,兩極和側(cè)面都是一樣的;立方體投影的映射更加簡單,只要將每一個面貼到對應(yīng)的立方體面上即可。
投影方法除了以上這2種以外,根據(jù)用于渲染的幾何類型,還有一些其他投影類型,如:球、壓扁的球、圓柱體、柏拉圖固體(正多面體)、立方體(6面)、八面體(8面)、二十面體(20面)、截斷的金字塔、分段球體、直接魚眼(用于視頻監(jiān)測控制等)。
1.4.4 區(qū)域映射(封裝)
在投影之后,所獲得的二維矩形圖像可被分割成可重新排列以產(chǎn)生“封裝”幀的區(qū)域。從投影幀產(chǎn)生封裝幀的操作(表示為“封裝”或“區(qū)域映射”)可能包括平移、縮放、旋轉(zhuǎn)、填充、仿射變換等。執(zhí)行區(qū)域映射的原因包括:提高編碼效率或依賴視點的流管理(詳見多流方法)。
區(qū)域映射是可選過程,如果未使用區(qū)域映射,則封裝的VR幀與投影幀相同。
1.4.5 編碼&解碼
目前的360視頻服務(wù)提供了非常有限的用戶體驗,因為用戶視點的分辨率、視覺質(zhì)量與傳統(tǒng)視頻服務(wù)差不多。需要多倍于現(xiàn)有超高清(UHD)分辨率的分辨率,才能以足夠清晰的分辨率覆蓋完整的360°環(huán)境。這對現(xiàn)有已建立的視頻處理流程鏈、現(xiàn)有的終端設(shè)備都構(gòu)成了重大挑戰(zhàn)。360視頻傳輸主要考慮3種解決方案:單流方式、多流方式、分片式流方法。
1.4.6 文件/DASH封裝/解封裝
如果DASH用于傳送360視頻,則可能需要額外的信令,例如:投影和映射格式可能需要在媒體呈現(xiàn)描述(MPD)信令上體現(xiàn),以便用戶可以請求合適的不同碼率、不同碼率的碼流,然后根據(jù)考慮的解決方案類型(單流、多流、分片式流)執(zhí)行不同的文件/DASH封裝。
接收器可以根據(jù)當(dāng)前的視點位置、設(shè)備能力(例如:視頻解碼器能力),選擇僅解封裝所接收的視頻流的子集。
2 VR行業(yè)應(yīng)用
為解決用戶體驗、VR成本等問題,Cloud VR通過云端渲染為VR發(fā)展提供更佳的解決方案。
Cloud VR場景[3]發(fā)展分為近、中、遠期3個階段,Cloud VR巨幕影院、Cloud VR直播、Cloud VR 360視頻、Cloud VR游戲4個場景處于近期階段;Cloud VR教育、醫(yī)療、營銷、大空間競技、健身、音樂、K歌場景處于中期階段;Cloud VR旅游、社交、購物、軍事、工程、房地產(chǎn)等場景處于遠期階段。十七大場景的商業(yè)潛力空間巨大,但離不開運營商的牽頭。電信運營商具備規(guī)模發(fā)展Cloud VR業(yè)務(wù)的必需條件,通過大管道、平臺基礎(chǔ)、用戶、接入光纖資源等優(yōu)勢吸引優(yōu)質(zhì)的VR服務(wù)提供商、終端廠商、內(nèi)容商等加入生態(tài)鏈,不僅可以贏得VR行業(yè)浪潮的商業(yè)先機,還可以帶動整個VR產(chǎn)業(yè)的發(fā)展。運營商可以先發(fā)展Cloud VR 2C市場,再聚合行業(yè)應(yīng)用,擴展到2B市場。
3 中興通訊VR技術(shù)創(chuàng)新
3.1 低碼高清技術(shù)創(chuàng)新
中興通訊創(chuàng)新地提出低碼高清、低碼超高清技術(shù),對H.264和H.265核心算法提出了5個方面的改進,在保證主觀質(zhì)量的情況下編碼碼率降為原來的40%左右,為高清和4K超高清視頻業(yè)務(wù)的發(fā)展掃清了接入帶寬方面的障礙,具體包括:
·提出幀級碼率控制方法,有效控制瞬時碼率過高;
·提出基于宏塊距離的空間濾波方法,提高圖像質(zhì)量;
·提出恰可察覺失真(JND)和人類視覺的感興趣區(qū)域(ROI)相結(jié)合的分級量化編碼方法,對在相同或降低碼率的情況下,大幅提升視頻編碼的主觀質(zhì)量;
·提出色度分量策略性編碼方法,有效提升視頻壓縮效率,且視頻主觀質(zhì)量不會有明顯下降;
·提出非ROI宏塊采用變換域JND進行預(yù)測殘差自適應(yīng)調(diào)整編碼方法,從而既保證了編碼的主觀質(zhì)量,又降低了編碼碼率。
低碼高清、低碼超高清算法是一種復(fù)雜的綜合算法,經(jīng)過不同片源的綜合評測,成為有效的圖像算法,既可以應(yīng)用在H.264的框架下,也可以融合在H.265編碼標(biāo)準(zhǔn)下。
3.2 基于視點FOV自適應(yīng)傳輸技術(shù)
創(chuàng)新
中興通訊融合CDN支持基于視點FOV自適應(yīng)傳輸技術(shù)。
該技術(shù)的原理為:人眼視野范圍內(nèi)不同區(qū)域的敏感度不同,35°范圍外不敏感;而FOV顯示模式可以針對不同區(qū)域給予不同分辨率的圖像。當(dāng)視點發(fā)生變動時及時切換到對應(yīng)的內(nèi)容頻道。
中興通訊融合CDN能支持對各種自適應(yīng)碼率格式,擴展偏航角、俯仰角、主視場的水平視角,主視場的垂直視角等信息,根據(jù)用戶頭部運動,傳輸用戶感興趣的、基于視點的內(nèi)容,有效降低帶寬,縮短時延。
3.3 多場景的VR視頻播放技術(shù)創(chuàng)新
(1)機頂盒+頭盔
機頂盒作為計算中心,提供圖形計算、渲染等能力;頭顯提供VR呈現(xiàn),具備九軸傳感器,提供位置等信息給機頂盒;機頂盒和頭顯之間通過高清晰多媒體接口線(HDMI)和USB連接,HDMI傳輸VR視頻,USB傳輸傳感器信號。
(2)手機+頭盔
手機作為計算中心,提供圖形計算、渲染等能力;手機屏幕提供VR呈現(xiàn),提供位置、角度等信息給手機;通過VR眼鏡的自帶觸控板或遙控器,便捷用戶操作。中興通訊提供VR頁面、VR EPG能力、VR播放器能力支持VR點播業(yè)務(wù)。
(3)裸眼收看VR業(yè)務(wù)
手機作為計算中心,提供圖形計算、渲染等能力;手機屏幕提供VR呈現(xiàn),提供位置、角度等信息給手機;通過VR眼鏡的自帶的觸控板或遙控器,便捷用戶操作。
4 結(jié)束語
VR的發(fā)展過程是視頻領(lǐng)域的一個技術(shù)創(chuàng)新的過程,中興通訊創(chuàng)新地提出端到端的VR架構(gòu)理念,形成了FOV視點自適應(yīng)傳輸、低碼高清、VR EPG、VR機頂盒、VR播放器等一批新技術(shù)并成功應(yīng)用在VR系統(tǒng)中,從而推動VR的全面發(fā)展。
參考文獻
[1] MPEG.MPEG-I Part 1 Technical Report on Architectures for Immersive Media[S].2017
[2] 3GPP.Virtual Reality (VR) Media Services over 3GPP: 3GPP TR26.918[S].2018
[3] 中國信息通信研究院. “Cloud VR+”場景白皮書[R].2018