張 瑩,沈希辰
(1. 上海大學 上海電影學院,上海 200072; 2. SounDoer.com,上海 200233)
自2012年虛擬現(xiàn)實(Virtual Reality, VR)電影首次在圣丹斯電影節(jié)亮相以來[1],其新穎的觀影模式和精彩紛呈的感官體驗,使之無論在技術(shù)實現(xiàn)還是藝術(shù)展現(xiàn)方面都獲得了廣泛的關(guān)注.之后短短幾年間, 隨著VR設(shè)備產(chǎn)品、內(nèi)容產(chǎn)業(yè)和技術(shù)支撐日漸成熟,整個VR行業(yè)都進入了爆發(fā)成長期[2],因此2016年被稱為VR元年[3].
VR時代的到來使人們看到了電影世界更多的可能,同時也對其實現(xiàn)方式,尤其對視覺影像的實現(xiàn)方式投入了大量的研究,包括以O(shè)culus、Sony和HTC為代表的呈現(xiàn)設(shè)備的開發(fā),以及在VR電影拍攝設(shè)備、技術(shù)和流程等方面的研究[4].而在VR電影聲音技術(shù)方面,雖有廣泛的探討,卻始終沒有形成一個明確的方案.主要原因在于,作為VR電影最重要的特征之一——空間化,聲音在這方面早就超前于影像發(fā)展起來了,在過去的幾十年間形成了種類繁多、特點各異的錄音、處理和還音技術(shù)與方式,而這些方式如何同當下VR電影相融合,尚未有清晰的梳理.基于以上現(xiàn)狀,本文從VR電影的聽感理念出發(fā),結(jié)合目前主流的觀影方式和未來可能的發(fā)展方向,提出了一種從Ambisonics到雙耳聽覺的VR電影聲音制作方案.
VR 作為一種新興的數(shù)字媒體技術(shù),同諸多領(lǐng)域發(fā)生了結(jié)合,催生了大量與VR相關(guān)的內(nèi)容.這些內(nèi)容在呈現(xiàn)技術(shù)和手段上有相似之處,但是在核心內(nèi)涵上又有所不同.VR技術(shù)對于電影的意義,正如Penrose Studios公司出品的VR電影《火柴》(Allumette)的編劇兼導演Eugene Chung所提到的: “VR是一種新生代的敘事手段”[5].由此可見,作為電影的VR內(nèi)容的核心內(nèi)涵是敘事,雖然在呈現(xiàn)過程中有交互的部分,但是這種交互仍然是為故事劇情線索服務(wù)的.這也是VR電影同其他VR相關(guān)內(nèi)容(比如以娛樂為核心內(nèi)涵的VR游戲)的區(qū)別所在.因此,VR電影是以虛擬現(xiàn)實技術(shù)為手段,以敘事為核心,追求沉浸式體驗的電影形式.
基于以上對VR電影的界定,以及VR技術(shù)所能實現(xiàn)的虛擬世界對感官世界的重構(gòu),VR電影中的聲音特征主要體現(xiàn)在空間化、沉浸感和臨場感,即通過聲音的手段形成一個逼真的“外在世界的幻象”[6],使觀眾能夠真正地置身于電影故事之中.
從傳統(tǒng)的“觀看”電影到通過VR技術(shù)“進入”電影,電影聲音內(nèi)容從原來的矩形空間擴展到了一個以觀眾為中心的球形空間中,并且觀眾能夠自主地選擇觀看的方向(即視線方向),由此帶來的聲畫體驗的變化是非常明顯的.觀眾可以聽到來自各個方向的聲音,并且聲音能實時地跟隨視線方向而變化,這就和現(xiàn)實世界中人們對聲音的感知一樣,能夠動態(tài)地判斷聲音的方位、強弱和移動等特征和行為.
以5.1、7.1為代表的基于音箱/聲道(channel-based)的多聲道環(huán)繞聲技術(shù)是傳統(tǒng)電影實現(xiàn)空間聲的主流技術(shù).其在數(shù)十年的發(fā)展過程中,一直致力于通過不斷增加聲道數(shù)的方式,追求與理想聲場近似的空間感知.但是這種空間聲技術(shù)在VR電影中的局限性也是非常明顯的.首先,使用揚聲器組進行聲場重現(xiàn)的方法對原始聲場只能近似還原,無法精確重構(gòu),存在著最佳的聽音區(qū),即“甜點區(qū)”或“皇帝位”,而在此區(qū)域外的聽音感受會有所下降.其次,由于傳統(tǒng)電影是有固定觀看方向的,因此觀眾前后的音箱設(shè)置是有主次之分的,這種設(shè)置對于沒有所謂的“正前方”的VR電影而言顯然不太適用.最后,在還音方式上,無法實現(xiàn)頭部追蹤,無法將人耳對于聲源空間的主觀感覺進行量化處理.
關(guān)于空間聲技術(shù)的其他研究,雖然基于揚聲器陣列的聲場重現(xiàn)技術(shù)(如波場合成技術(shù)(Wave Field Synthesis, WFS))能夠產(chǎn)生真實、自然的空間聽覺效果,聆聽區(qū)域也比較寬,但重放系統(tǒng)非常復雜[7],考慮其聲學建設(shè)投入、重放環(huán)境和制式兼容、實現(xiàn)難度等因素,在VR技術(shù)發(fā)展的現(xiàn)階段,無法很快地適用于VR電影聲音的實現(xiàn).
從上述對傳統(tǒng)電影聲音技術(shù)局限性的分析中可以看到,VR電影聲音的實現(xiàn)需要考慮幾方面的問題: 一是對原始物理聲場較為精確的還原以及對聆聽區(qū)域的優(yōu)化;二是在確保整體空間一致性的前提下,能夠?qū)τ^眾個體進行頭部追蹤,使每個觀眾個體聽到的內(nèi)容能夠根據(jù)觀眾視線的變化實現(xiàn)自適應;三是還音方式能夠被迅速移植到當前的VR技術(shù)中,適應當前以VR眼鏡或頭盔為主流的觀影方式,同時在VR技術(shù)發(fā)展到新階段后,有相當?shù)耐卣剐裕谶@些考慮,從Ambisonics到雙耳聽覺的VR電影聲音制作方案是一個可探索的方向.
Ambisonics技術(shù)開發(fā)于20世紀70年代,它是一種基于空間諧波展開而逐級逼近水平面或空間聲場的方法[8].該技術(shù)能夠記錄下以聽者/話筒為中心的整個球形空間的聲場信息,將信息以Ambisonics B-Format的音頻文件格式進行保存,并且能夠基本實現(xiàn)精確重放.與5.1、7.1等多聲道環(huán)繞聲系統(tǒng)不同的是,Ambisonics 格式中的音軌并非對應到實際的揚聲器通道,而是包含了聲場方向信息的獨立編碼信號[9],它可以通過解碼轉(zhuǎn)換,以雙聲道立體聲、5.1、7.1,甚至是更多數(shù)量的揚聲器陣列形式來輸出重放.
正是基于這樣的特點,Ambisonics 在VR電影聲音制作中就有了自身的優(yōu)勢: 一是在聲音的拾取和重放上能夠包含來自各個方向的聲音信息,在聲場還原方面更為精確;二是能夠以一種確定的音頻文件格式保存和交換這些聲音信息;三是能夠根據(jù)實際情況,通過對音頻文件的進一步計算處理,實現(xiàn)多種形式的輸出重放.
在VR技術(shù)發(fā)展的現(xiàn)階段,以雙耳聽覺為基礎(chǔ)的立體聲耳機輸出仍然是主流.那么如何使Ambisonics聲音適應雙耳耳機輸出,并且能夠?qū)崿F(xiàn)頭部追蹤,對聲源空間進行主觀化處理,基于頭相關(guān)傳輸函數(shù)(Head Related Transfer Functions, HRTF)的虛擬聲技術(shù)是一個可利用的方案.HRTF表述了頭部及耳廓等對聲波的散射作用以及由此產(chǎn)生的雙耳差[10],它相當于一個濾波器,通過對來自某個方向的聲音進行頻段上的處理來模擬聲音從該方向傳來的效果,并且使用普通的立體聲耳機就能聽到這種效果.
由此可見,將使用Ambisonics技術(shù)獲取的音頻文件,通過實時的HRTF處理,實現(xiàn)雙耳重放,是一種既可滿足現(xiàn)行VR電影聲音要求,又具有相當拓展性的方案.以下將詳細論述其制作流程.
圖1是基于Ambisonics和雙耳聽覺技術(shù)來實現(xiàn)的VR電影聲音制作的流程,大致分為Ambisonics音頻文件的制作、Ambisonics音頻同VR視頻整合、VR頭顯設(shè)備方位數(shù)據(jù)的接收、Ambisonics虛擬揚聲器、HRTF 處理和雙耳音頻輸出等步驟.
圖1 VR電影聲音制作流程Fig.1 Work flow of VR film sound
首先要獲取和制作 Ambisonics 音頻文件,這是VR電影聲音設(shè)計中非常重要的一步工作.基于目前已有的工具,大致有以下3種途徑: 使用 Ambisonics 話筒拾取同期聲;使用數(shù)字音頻工作站(digital audio workstation)制作;使用游戲引擎(game engine)和音頻中間件(audio middleware)制作.
3.2.1 使用 Ambisonics 話筒拾取同期聲
與傳統(tǒng)電影不同的是,VR電影拍攝需要使用特制的攝像機陣列或全景攝像機來采集以攝像機為中心的、各個方向的影像,并通過后期拼接來合成360°空間的影像.針對這樣的拍攝方式,最直接的同期聲錄制方法是,將 Ambisonics話筒與攝像機放置在同一位置,利用 Ambisonics 的特性直接記錄下以攝像機/話筒為中心的所涉空間的聲場信息.
這種拾音方式的優(yōu)點在于,錄制得到的音頻文件可以直接與視頻文件在時間線和空間位置上相匹配,一步到位,簡單快捷.而缺點在于,無法進一步對錄音素材中的各個聲音元素做單獨的處理.該拾音方式對拍攝現(xiàn)場的聲音環(huán)境有較高的要求,更適合于以VR方式拍攝的新聞紀錄和直播等無需對聲音做藝術(shù)加工處理的場合.
圖2 Ambisonics話筒Fig.2 Ambisonics microphones
當然,這并不是說 Ambisonics 話筒拾音在VR電影聲音制作中就毫無用武之地了.作為一種拾音方式,使用 Ambisonics 話筒拾取獲得的環(huán)境聲素材,可以被更直接地運用到VR電影聲音制作中去.
目前在技術(shù)上比較成熟的Ambisonics話筒有: CoreSound的TetraMic、TSL的SoundField SPS200,以及可進行高階Ambisonics(High Order Ambisonics,HOA)錄制的Eigenmike Microphone球形話筒,如圖2所示[11-13].
3.2.2 使用數(shù)字音頻工作站制作
對于VR電影來說,對對白、音效和音樂等各個聲音元素做單獨的技術(shù)處理和藝術(shù)加工是必不可少的.因此,一種較為成熟的制作方式是,在數(shù)字音頻工作站中對聲音素材進行剪輯和混音,然后導出 Ambisonics 格式的音頻文件.
與傳統(tǒng)電影聲音制作稍有不同的是,用于VR電影聲音制作的數(shù)字音頻工作站必須支持至少4聲道的多聲道音軌(multichannel),需要使用插件工具對聲音進行空間定位(spatialization/panning),能夠?qū)崿F(xiàn)實時的立體聲耳機回放監(jiān)聽(binaural playback),以及能夠同VR視頻同步播放.
以數(shù)字音頻工作站 Reaper 和插件工具 FB360 Spatial Workstation 為例,其制作界面如圖3所示.Reaper 支持創(chuàng)建最多64個聲道的音軌,而且相較于其他支持多聲道音軌的工作站軟件來說,價格優(yōu)勢也非常明顯.FB360 Spatial Workstation 是一套支持多種音頻工作站、功能齊全的插件工具,其中包括了對每一軌聲音進行空間定位的空間化(spatialiser)插件、設(shè)定房間模型參數(shù)和控制雙耳監(jiān)聽的控制(control)插件、VR視頻播放器、將從音頻工作站中生成的音頻文件轉(zhuǎn)換成適配各個平臺的 Ambisonics 編碼器等.利用上述這些工具,聲音設(shè)計師可以像以往做傳統(tǒng)線性媒體那樣,在音頻工作站軟件中完成聲音后期制作并導出音頻文件.
3.2.3 使用游戲引擎和音頻中間件制作
除了實景拍攝之外,現(xiàn)在越來越多的電影開始使用CG技術(shù)來構(gòu)建虛擬角色和場景.對于聲音而言,同樣可以借助游戲引擎搭建一個虛擬的三維空間來模擬VR影片中的聲場環(huán)境.
在游戲引擎中,具有空間坐標信息的聲源可以被放置在三維空間的各個位置,引擎中的攝像機(camera)就相當于實際拍攝時的攝像機.我們可以根據(jù)影片中的內(nèi)容來繪制引擎中相對應的聲源的方位、運動軌跡等行為,以及鏡頭的行為.這樣就相當于把VR電影中與聲音相關(guān)的信息和鏡頭同聲源之間的相對關(guān)系,以一種更為可控的方式還原到了游戲引擎中.然后可以借助引擎或者音頻中間件中的功能來生成得到 Ambisonics 文件,用于與視頻文件合成.
以音頻中間件 Audiokinetic Wwise 為例,其制作界面如圖4所示.Wwise在2016.1版本中更新了 Ambisonics管線(pipeline),支持最高至三階的Ambisonics音頻素材導入和播放,支持將 Ambisonics 轉(zhuǎn)換至雙耳監(jiān)聽,支持多種插件效果處理,以及可以利用內(nèi)置的錄音機(recorder)工具來錄制出 Ambisonics 格式的音頻文件[14].
圖4 Wwise制作界面Fig.4 Interface of Wwise
另外,對于主要依靠CG技術(shù)制作的動畫片來說,采用基于游戲引擎的聲音制作方式會更為可控和快捷.以O(shè)culus Story Studio出品的VR動畫短片《亨利》(Henry)為例,影片的聲音制作除了使用 ProTools、Reaper等數(shù)字音頻工作站之外,還用到了音頻中間件 Wwise 來與引擎 Unreal 配合,短片最終的渲染也是在引擎Unreal中完成的.由此可見,在VR技術(shù)普及之后,電影和游戲兩大媒體之間所謂的界限變得越來越模糊了.
3.2.4 Ambisonics音頻同VR視頻整合
在Ambisonics 音頻文件的拾取和制作過程中,可以得到以 Ambisonics 方式編碼的多聲道WAV文件,所以直接在視頻剪輯軟件中將該音頻文件與VR視頻在時間軸上對齊并導出即可.至此,聲音設(shè)計師的工作就告一段落了.
需要注意的是,目前有兩種主要的Ambisonics B-Format格式: FuMa[15]和ambiX[16],其技術(shù)參數(shù)稍有不同,不同的設(shè)備或平臺可能會采用不同的格式.因此,在制作和導出 Ambisonics 音頻文件時需要針對不同設(shè)備或平臺做出相應的調(diào)整.
3.3.1 頭顯設(shè)備方位數(shù)據(jù)的接收
合成出包含了Ambisonics音頻的VR視頻文件之后,就可以在支持VR視頻播放的VR頭顯等設(shè)備或者視頻平臺上觀看了.VR視頻播放器會對視頻文件進行解碼,并實時地接受來自檢測觀眾頭部運動的傳感器的數(shù)據(jù).
3.3.2 虛擬揚聲器
在播放過程中,Ambisonics 音頻文件經(jīng)過解碼之后再次還原成一個空間聲場,其中包含的聲音相當于是從球形空間中各個方位的虛擬揚聲器(virtual speakers)上發(fā)出來的,如圖5所示[17].
圖5 Ambisonics 虛擬揚聲器Fig.5 Ambisonics virtual speakers
3.3.3 HRTF處理
在上述 Ambisonics 虛擬揚聲器的基礎(chǔ)上,當觀眾轉(zhuǎn)動頭部變換視角時,虛擬揚聲器與人耳之間的相對關(guān)系也會隨之發(fā)生變化,同時相對應的HRTF也會實時地對來自各個虛擬揚聲器的聲音做處理,來模擬從該方位發(fā)出的聲音效果.各個虛擬揚聲器處理之后的聲音會被合并成雙聲道立體聲信號來輸出.整個Ambisonics到雙耳實時信號的過程如圖6所示.
圖6 Ambisonics到雙耳信號的實時處理Fig.6 Ambisonics to binaural real time processing
通過雙耳音頻輸出的信號,直接用雙聲道立體聲的耳機就可以聆聽效果.值得一提的是,雙耳音頻的聽感效果對聲音的音質(zhì)有一定要求,所以建議佩戴頻率響應和隔音性能較好的封閉式耳機,而不是小型的入耳式耳塞.
正如上文所提到的,Ambisonics 是一種與聲音重放系統(tǒng)設(shè)置相獨立的空間聲技術(shù),因此它可以通過進一步的編解碼,同目前常用的多聲道環(huán)繞聲系統(tǒng)的揚聲器設(shè)置相兼容,也可以通過揚聲器陣列形式實現(xiàn)更精確的重放,如圖7所示.
圖7 VR電影聲音制作系統(tǒng)拓展Fig.7 Development of VR film sound production system
通過對VR電影聲音制作方案的研究可以看到,運用Ambisonics和雙耳聽覺技術(shù),可以基本滿足VR電影對聲音聽感的要求,實現(xiàn)聲音的空間化、沉浸感和臨場感.同時,該方案能夠運用現(xiàn)有的相關(guān)軟/硬件設(shè)備進行聲音的前/后期處理,能夠通過目前主流的VR設(shè)備實現(xiàn)重放.并且,隨著VR技術(shù)的不斷發(fā)展,該方案也能夠適用于各類非耳機的揚聲器重放格式,無論在以多聲道環(huán)繞聲為主的傳統(tǒng)電影院,還是在可實現(xiàn)理想空間聲場的VR電影院,都具有相當大的適應性和拓展性.
致謝: 本論文為2016年度上海大學電影學高峰學科成果!
[1] 王巖明.試論VR電影還音制式的未來發(fā)展趨勢——從電影聲音的空間定位方式談起 [J].現(xiàn)代電影技術(shù),2016(5): 29.
[2] 艾瑞咨詢.2016年中國虛擬現(xiàn)實(VR)行業(yè)研究報告 [R/OL].(2016-03-04).http:∥www.iresearch.com.cn/report/reportlist.aspx?searchkey=%D0%E9%C4%E2#s.
[3] 孫 略.VR、AR與電影 [J].北京電影學院學報,2016(3): 13.
[4] 李金輝.隱蔽在現(xiàn)實中的虛擬——虛擬現(xiàn)實VR視覺影像創(chuàng)作談 [J].北京電影學院學報,2016(3): 22-27.
[5] Penrose Studios. Introducing allumette [EB/OL].(2016-06-21).http:∥ivr.baidu.com/original/s576905786a06.html.
[6] 安德烈·巴贊.電影是什么?[M].崔君衍譯.北京: 文化藝術(shù)出版社,2008: 17.
[7] 謝菠蓀,管善群.空間聲的研究與應用——歷史、發(fā)展與現(xiàn)狀 [J].應用聲學,2012,31(1): 19.
[8] GERZON M A. Ambisonics in multichannel broadcasting and video [J].JournaloftheAudioEngineeringSociety, 1985,33(11): 859-871.
[9] 劉 陽,謝菠蓀.Ambisonics聲撿拾與重放音色的雙耳聽覺模型分析與實驗 [J].聲學學報,2015,40(5): 718.
[10] 謝菠蓀,管善群.虛擬聲技術(shù)及其應用(上) [J].應用聲學,2004,23(4): 44.
[11] TetraMic官網(wǎng). Introduction: TetraMic single point stereo & surround sound microphone [EB/OL].[2016-09-29].http:∥www.core-sound.com/TetraMic/1.php.
[12] SoundField官網(wǎng). Freedman electronics group breaks ground into ambisonic audio-purchases 360-degree surround microphone market leader, SoundField, from TSL products [EB/OL].[2016-10-05].http:∥www.tslproducts.com/soundfield/soundfield-sps200-software-controlled-microphone/.
[13] Eigenmike官網(wǎng). Digital signal processing,acoustics and product design [EB/OL].[2016-10-05].https:∥mhacoustics.com/products.
[14] Wwise官網(wǎng). Ambisonics in Wwise: Overview [EB/OL].[2016-10-05]. http:∥info.audiokinetic.com/ambisonics-in-wwise-overview.
[15] MALHAM D. Higher order Ambisonic systems [D].UK: University of York,2003.
[16] NACHAR C, ZOTTER F, DELEFLIE E,etal. Ambix—Suggesting an Ambisonics format [C]∥3rd International Symposium on Ambisonics and Spherical Acoustics.Lexington,KY: ISASA, 2011.
[17] Google VR. Spatial audio: Overview [EB/OL].[2016-10-05]. https:∥developers.google.com/vr/concepts/spatial-audio.