王 櫻,張茂勝,姜 林
(武漢大學(xué) 計(jì)算機(jī)學(xué)院 國(guó)家多媒體軟件工程技術(shù)研究中心,湖北 武漢430070)
現(xiàn)有的3D (three diminutions)視頻技術(shù)雖然已經(jīng)能為觀眾提供較好的視覺(jué)體驗(yàn),但3D 音頻技術(shù)相對(duì)滯后,目前市面銷售的產(chǎn)品主要是沿用原有的立體聲或環(huán)繞聲技術(shù)。用戶若想達(dá)到身臨其境的視聽(tīng)感受,必須要有與3D 視頻內(nèi)容同步的3D 聲場(chǎng)聽(tīng)覺(jué)效果,這使得3D 音頻技術(shù)迎來(lái)了前所未有的發(fā)展機(jī)遇。法國(guó)電信在動(dòng)態(tài)圖像專家 (moving pictures experts group,MPEG)會(huì) 議 上 對(duì)3D 音 頻 給 出 了明確的定義[1],根據(jù)法國(guó)電信對(duì)3D 音頻的定義,與傳統(tǒng)立體聲或環(huán)繞聲相比,3D 音頻技術(shù)更注重為聽(tīng)音者提供更好的聲源方向感和距離感。目前基于耳機(jī)回放的3D 音頻實(shí)現(xiàn)技術(shù)主要有德國(guó)波鴻大學(xué)Jens Blauert提出的頭相關(guān)傳輸函數(shù)(head related transfer function,HRTF),該函數(shù)真實(shí)地模擬出聲波從聲源傳輸?shù)诫p耳的整個(gè)過(guò)程,是一個(gè)與個(gè)體體征相關(guān)的物理量。HRTF 通常在消音室中通過(guò)測(cè)量人工頭或者真人雙耳內(nèi)接收到的沖激信號(hào)獲得[2]。國(guó)內(nèi)外的相關(guān)機(jī)構(gòu)紛紛對(duì)HRTF進(jìn)行了實(shí)際測(cè)量:Algazi對(duì)45個(gè)真人進(jìn)行測(cè)量,得到了CIPIC的HRTF庫(kù),該庫(kù)包含了25個(gè)不同水平角和50個(gè)不同高度角的1250個(gè)位置的HRTF;謝菠蓀等通過(guò)對(duì)52名受試者進(jìn)行測(cè)量,建立了中國(guó)人樣本的高空間分辨率的HRTF以及受試者生理尺寸的數(shù)據(jù)庫(kù),上述工作主要是針對(duì)遠(yuǎn)場(chǎng) (聲源距離大于1 m)固定距離條件下對(duì)HRTF進(jìn)行測(cè)量;龔枚等采用人工頭對(duì)多個(gè)距離的HRTF進(jìn)行了測(cè)量,建立了高空間分辨率的近場(chǎng)頭相關(guān)傳輸函數(shù)數(shù)據(jù)庫(kù)。實(shí)驗(yàn)測(cè)量方法獲得的HRTF 數(shù)據(jù)距離恢復(fù)的效果雖然精確,但是實(shí)驗(yàn)過(guò)程十分繁瑣,人力和時(shí)間成本很高[3]。針對(duì)HRTF存在的不足,本文在HRTF恢復(fù)方向的前提下,提出了一種空間距離恢復(fù)模型,在該模型中,采用人工混響的方法模擬3D 視頻中聲源所在環(huán)境的混響,結(jié)合人耳距離感知機(jī)理控制音頻信號(hào)對(duì)聲源進(jìn)行距離恢復(fù),得到與3D 視頻空間信息相匹配的3D 音頻,然后通過(guò)耳機(jī)進(jìn)行回放。實(shí)驗(yàn)結(jié)果表明,該方法可以實(shí)現(xiàn)聲源距離的恢復(fù),恢復(fù)效果與采用最新的多距離HRTF 庫(kù)時(shí)相當(dāng),且存儲(chǔ)需求更低,實(shí)現(xiàn)起來(lái)更簡(jiǎn)單,實(shí)用性更強(qiáng)。
基于人工混響的空間距離恢復(fù)模型結(jié)構(gòu)框架如圖1所示。
圖1 基于人工混響的空間距離恢復(fù)模型結(jié)構(gòu)框架
該模型主要由距離感知模塊,最佳混響時(shí)間模塊,人工混響模塊3個(gè)模塊構(gòu)成。首先,將3D 視頻場(chǎng)景中已知聲源所在空間體積V 和聲源類型輸入到最佳混響時(shí)間模塊,通過(guò)體積V 和聲源類型確定模擬房間的最佳混響時(shí)間T60,將得到的最佳混響時(shí)T60間分別輸入到距離感知模塊和人工混響模塊中;然后,距離感知模塊根據(jù)輸入的聲源距離信息和最佳混響時(shí)間T60,計(jì)算得到恢復(fù)距離時(shí)所需的直混能量比 (direct-to-reverberation ratio,DRR),將DRR 輸入到人工混響模塊中;最后,人工混響模塊根據(jù)輸入的DRR 和T60對(duì)輸入的立體聲信號(hào)SDirect分別對(duì)左右聲道進(jìn)行處理,最終將攜帶聲源距離信息的3D 音頻信號(hào)SOut輸出,輸出的信號(hào)通過(guò)耳機(jī)進(jìn)行回放。每個(gè)模塊具體介紹如下所示。
杜倫大學(xué)的Jonathan S.Berry指出[4],影響距離感知的因素主要有聲音的強(qiáng)度、DRR、頻譜和雙耳差異 (時(shí)間差和強(qiáng)度差)。從人耳感知角度來(lái)說(shuō),房間反射在人耳對(duì)距離的感知中起著至關(guān)重要的作用。在現(xiàn)實(shí)真實(shí)房間中,當(dāng)聲源與聽(tīng)音者之間的距離增加時(shí),聲音的強(qiáng)度和DRR 會(huì)隨之減小,當(dāng)聲源距離增加一倍時(shí),人耳接收到的強(qiáng)度會(huì)減少6dB,但聲音的強(qiáng)度線索主要應(yīng)用于無(wú)混響無(wú)反射的理想環(huán)境中,此外,頻譜和雙耳線索容易受到墻面、空氣等的影響。因此,包含強(qiáng)度信息的DRR 相較于其它距離感知線索,能為聽(tīng)音者提供更準(zhǔn)確的聲源距離信息。
赫爾辛基理工大學(xué)的Sampo于2009年提出了DRR 與聲源距離關(guān)系模型[5]
令
則式 (1)簡(jiǎn)化為
其中,r為人耳感知聲源的距離,rc為臨界距離 (或稱為混響半徑,V 為房間體積,T60為混響時(shí)間,在rc處直達(dá)聲與混響聲的能量相等),臨界距離是房間的屬性,與聲源無(wú)關(guān)。DRR 表示聽(tīng)音點(diǎn)處直達(dá)聲與混響聲的能量比,EDirect表示直達(dá)聲的能量,EReverb表示混響聲的能量,對(duì)于固定的聲源,混響聲的能量基本保持不變,當(dāng)距離增加一倍時(shí),DRR 減少6db,減少的能量主要來(lái)自直達(dá)聲能量的減少[6]。由式 (1)、式 (2)、式 (3)、式 (4)可 以 看 出,DRR 決定了聽(tīng)音者所感知到的聲源距離。因此,在對(duì)模擬的環(huán)境和信號(hào)類型有一定的先驗(yàn)知識(shí)的情況下,通過(guò)控制DRR 可以恢復(fù)聲源的距離。
混響時(shí)間是聲學(xué)設(shè)計(jì)中聲能定量估算的重要評(píng)價(jià)指標(biāo)[7]。通常用 “T60”來(lái)表示,單位是秒 (s),菲茨羅伊公式是專門(mén)為家庭環(huán)境而設(shè)定的混響時(shí)間計(jì)算公式
式中:V——房間容積,S——房間表面積的總和,X、Y、Z——三對(duì)墻面 (6 個(gè)墻面)各自的面積,λx、λy、λz——每面墻對(duì)應(yīng)的吸聲系數(shù),該公式考慮了矩形房間內(nèi)三對(duì)墻面吸聲能力不同時(shí)的情況。當(dāng)三面墻的吸聲能量相同時(shí),式 (5)可簡(jiǎn)化為賽賓公式
式中:λ——房間六面墻的平均吸聲系數(shù)。
混響時(shí)間的長(zhǎng)短直接影響著聽(tīng)音者感知聲音的效果,混響時(shí)間太短,聲音發(fā)干,聲音聽(tīng)起來(lái)不自然;混響時(shí)間太長(zhǎng),聲音聽(tīng)起來(lái)混濁不清。不同類型的音頻信號(hào)對(duì)混響時(shí)間的要求各不相同。一般來(lái)說(shuō),為了保證有足夠的清晰度,語(yǔ)音信號(hào)相對(duì)于音樂(lè)信號(hào)要求混響時(shí)間要短一些。然而,要對(duì)混響時(shí)間進(jìn)行有效的控制,就需要了解不同環(huán)境下的最佳混響時(shí)間范圍。最佳混響時(shí)間范圍是反映房間聲學(xué)特性的基本參數(shù),經(jīng)過(guò)長(zhǎng)時(shí)間對(duì)各種不同環(huán)境的混響進(jìn)行大量的調(diào)查與分析,眾多聲學(xué)專家總結(jié)了它們的最佳范圍,可在房間體積對(duì)應(yīng)的混響時(shí)間正負(fù)10%的浮動(dòng)區(qū)間選擇最佳混響時(shí)間[8],如圖2所示。因此,在已知模擬環(huán)境的體積V 和音頻信號(hào)類型的情況下,可以得到模擬房間的最佳混響時(shí)間T60。
圖2 不同房間體積下的最佳混響時(shí)間
在室內(nèi)聲場(chǎng)中,人們聽(tīng)到的聲音主要由直達(dá)聲、近次反射聲和混響聲3部分組成,如圖3所示。
圖3 室內(nèi)聲場(chǎng)的組成
其中,直達(dá)聲SDirect,是指由聲源發(fā)出后未經(jīng)過(guò)反射而直接到達(dá)聽(tīng)音者的聲音。近次反射聲SE-Reverb,是聲源發(fā)出的聲音經(jīng)周圍界面單次或少數(shù)次反射后,比直達(dá)聲到達(dá)聽(tīng)者晚50ms以內(nèi)的全部反射聲。由于人耳聽(tīng)覺(jué)的延遲效應(yīng),人耳不能將直達(dá)聲和近次反射聲區(qū)分開(kāi)來(lái)。比直達(dá)聲晚到50ms以上的多次反射聲都稱為后期混響聲SL-Reverb,其脈沖序列幅度隨時(shí)間成指數(shù)衰減,回聲密度與時(shí)間的平方成正比[9]。
目前人工混響主要有兩種實(shí)現(xiàn)方法,一種是用房間脈沖響應(yīng)法 (room impulse response,RIR),一種是延時(shí)反饋網(wǎng)絡(luò)法 (delay feedback network,DFN)。采用RIR 需要提前獲取模擬房間的脈沖響應(yīng),并且在模擬混響時(shí)不能調(diào)整混響參數(shù),只能模擬某一房間固定位置的聽(tīng)音效果;相反,采用DFN 模擬混響時(shí)可以通過(guò)對(duì)濾波器的某些系數(shù)進(jìn)行設(shè)置而方便地調(diào)整混響參數(shù),具有更強(qiáng)的靈活性和實(shí)用性[10]。其中,Moorer混響模型是目前應(yīng)用最廣泛的一種延時(shí)反饋網(wǎng)絡(luò)混響模型,其原理如圖4所示。
圖4 Moorer混響模型
由圖4可知,在Moorer混響模型中主要由兩部分構(gòu)成,一部分由19 階FIR 濾波器構(gòu)成,它主要模擬40—50 ms內(nèi)聲音的衰減,包含直達(dá)聲和早期反射聲。第二部分由6個(gè)并聯(lián)的梳妝濾波器c1—c6和一個(gè)串聯(lián)的全通濾波器A1以及一個(gè)延時(shí)模kz-d。6個(gè)并聯(lián)的梳狀濾波器為混響效果提供了延遲較長(zhǎng)的回聲,在每個(gè)梳狀濾波器的反饋支路上加入一個(gè)單極點(diǎn)的低通濾波器,該濾波器可以降低高頻成分的混響時(shí)間;全通濾波器用來(lái)增加反射聲波密度.通過(guò)調(diào)整各個(gè)濾波器中的延時(shí)可以增大回聲密度。梳妝濾波器和全通濾波器的延時(shí)選擇參照文獻(xiàn) [11]中標(biāo)準(zhǔn),梳狀濾波器的反饋增益系數(shù)a可由式計(jì)算得到
式中:t——延遲時(shí)間,T60——混響時(shí)間,由我們自己設(shè)定。在Moorer模型中,通過(guò)調(diào)整直達(dá)聲SDirect增益因子g即可實(shí)現(xiàn)對(duì)DRR 的控制。
為了驗(yàn)證本文所提方法的有效性,分別對(duì)待測(cè)信號(hào)2個(gè)方位角對(duì)應(yīng)的6個(gè)固定距離進(jìn)行恢復(fù),測(cè)試序列的方位角 (水平角,高度角)分別為 (0°,0°)和 (90°,0°),恢復(fù)的距離為0.3 m,0.5 m,0.75 m,1.0 m,1.3 m,1.6 m,測(cè)試所用的序列均選自國(guó)際標(biāo)準(zhǔn)組織MPEG 的標(biāo)準(zhǔn)測(cè)試序列,包括語(yǔ)音和音樂(lè)序列。實(shí)驗(yàn)中模擬的環(huán)境體積為50m2,由圖2可知,對(duì)于語(yǔ)音信號(hào),模擬的最佳混響時(shí)間為0.3s;對(duì)于音樂(lè)信號(hào),模擬的最佳混響時(shí)間為0.5s。
在仿真實(shí)驗(yàn)中,用matlab軟件對(duì)語(yǔ)音信號(hào)進(jìn)行了模擬仿真,給出了原始語(yǔ)音與加了混響后的語(yǔ)音的時(shí)域?qū)Ρ炔ㄐ螆D,如圖5所示;通過(guò)模擬距離感知模塊,繪出了語(yǔ)音信號(hào)和音樂(lè)信號(hào)恢復(fù)各距離時(shí)對(duì)應(yīng)的DRR,如圖6所示。
圖5為人工混響仿真,通過(guò)將原始語(yǔ)音和加混響后的語(yǔ)音圖進(jìn)行對(duì)比,由于模擬了聲源所在環(huán)境的反射聲,加了混響后的語(yǔ)音聲音強(qiáng)度大于原始語(yǔ)音的強(qiáng)度;圖6為語(yǔ)音信號(hào)和音樂(lè)信號(hào)DRR 與恢復(fù)距離間關(guān)系,從圖中可以看出隨著聲源距離的增加,DRR 減小,由于對(duì)于固定的聲源混響聲的能量不變,DRR 的減小主要是由直達(dá)聲的能量減小造成。
圖5 人工混響仿真 (語(yǔ)音信號(hào))
圖6 距離感知關(guān)系仿真 (語(yǔ)音信號(hào)和音樂(lè)信號(hào))
在主觀測(cè)試實(shí)驗(yàn)中,參與主觀測(cè)試的聽(tīng)音者由具有聽(tīng)音測(cè)試經(jīng)驗(yàn)的8名人員構(gòu)成,每名測(cè)試人員進(jìn)行四組聽(tīng)音測(cè)試,每組12 個(gè)樣本 (對(duì))。模擬的結(jié)果通過(guò)與采用HRTF恢復(fù)的距離進(jìn)行對(duì)比,其中,采用HRTF方法模擬的距離對(duì)應(yīng)的HRTF均來(lái)自于北京大學(xué)的HRTF庫(kù),打分標(biāo)準(zhǔn)如表1所示,其中,A 代表采用本文方法恢復(fù)的距離,B代表HRTF方法恢復(fù)的距離。為防止聽(tīng)音者聽(tīng)覺(jué)疲勞,在所有實(shí)驗(yàn)中,每播放完12個(gè)樣本 (對(duì))休息5 min。每聽(tīng)完一條樣本 (對(duì)),聽(tīng)音者有5s的時(shí)間根據(jù)表1的打分標(biāo)準(zhǔn)進(jìn)行打分。主觀測(cè)試結(jié)果如圖7所示。
表1 距離感知差異
圖7 主觀測(cè)試實(shí)驗(yàn)結(jié)果
圖7為主觀測(cè)試實(shí)驗(yàn)結(jié)果,其中圖7 (a)、(b)為語(yǔ)音信號(hào)測(cè)試結(jié)果,圖7 (c)、(d)為音樂(lè)信號(hào)測(cè)試結(jié)果。從測(cè)試結(jié)果可以看出,整體上通過(guò)人工混響方法控制DRR 恢復(fù)的距離效果和HRTF恢復(fù)控制的效果相當(dāng),測(cè)試人員總體打分分值處于-1到1之間,平均值接近0;其次,對(duì)于體積大小相同的房間,由于語(yǔ)音信號(hào)要求的清晰度高于音樂(lè)信號(hào),使得語(yǔ)音信號(hào)所在房間的混響時(shí)間小于音樂(lè)信號(hào)所在房間的混響時(shí)間,在該種條件下,人耳對(duì)于語(yǔ)音信號(hào)的整體距離感知效果稍好于音樂(lè)信號(hào)。
針對(duì)采用HRTF方法恢復(fù)距離時(shí)需要大量的測(cè)試樣本且恢復(fù)效果與個(gè)體特征相關(guān),本文在采用HRTF 恢復(fù)方向的前提下提出了一種基于人工混響的聲源空間距離恢復(fù)模型,通過(guò)已知3D 視頻場(chǎng)景中的聲源空間距離信息,采用人工混響方法模擬聲源所在環(huán)境的混響,結(jié)合人耳距離感知的機(jī)理控制音頻信號(hào)的直達(dá)聲和混響聲的能量比,對(duì)聲源距離進(jìn)行恢復(fù)。通過(guò)仿真結(jié)果及主觀測(cè)試實(shí)驗(yàn)可以看到,本文提出的方法在不需要大量數(shù)據(jù)采集處理獲取多距離HRTF的情況下,距離恢復(fù)效果和采用最新的多距離HRTF時(shí)相當(dāng),存儲(chǔ)需求更低,且提出的模型更簡(jiǎn)單,實(shí)現(xiàn)起來(lái)更容易,實(shí)用性更強(qiáng),能夠給聽(tīng)音者提供更加逼真的空間感距離感,實(shí)現(xiàn)從傳統(tǒng)音頻到3D 音頻的轉(zhuǎn)換。下一步工作將著重于通過(guò)與3D 視頻結(jié)合,通過(guò)實(shí)時(shí)地提取聲源在3D 視頻中的空間位置信息實(shí)現(xiàn)對(duì)整個(gè)三維空間的距離進(jìn)行恢復(fù),使觀眾能夠同時(shí)享受視覺(jué)和聽(tīng)覺(jué)上的盛宴。
[1]San-Jose,ISO/IECJTCI/SC29/WG11 (MPEG),DocumentM23748,Use cases and possible material for 3D Audio [C]//99th MPEG Meeting,2012.
[2]YIN Fuliang,WANG Lin,CHEN Zhe.Review on 3Daudio technology [J].Journal on Conmunications,2011,32 (2):130-138 (in Chinese).[殷福亮,汪林,陳喆.三維音頻技術(shù)綜述 [J].通信學(xué)報(bào),2011,32 (2):130-138].
[3]YU Guangzheng,XIE Bosun,RAO Dan.Near-field headralated transfer functions of a artificial head and its characteristics[J].Acta Acustica,2012,37 (4):378-385 (in Chinese).[余光正,謝菠蓀,饒丹.人工頭近場(chǎng)頭相關(guān)傳輸函數(shù)及其特性 [J].聲學(xué)學(xué)報(bào),2012,37 (4):378-385].
[4]Jonathan S.Berry,David AT Roberts,Nicolas S Holliman.3Dsound and 3Dimage interactions:A review of audio-visual depth perception [J].Proc.SPIE 9014,Human Vision and Electronic Imaging XIX,2014,3 (1):1-16.
[5]Sampo Vesa.Binaural sound source distance learning in rooms[J].IEEE Transactions on Audio,Speech & Language Processing,2009,17 (8):1498-1507.
[6]Yan-Chen Lu,Martin Cooke.Binaural estimation of sound source distance via the direct-to-reverberant energy ratio for static and moving sources [J].IEEE Transactions on Audio,Speech &Language Processing,2010,18 (7):1793-1805.
[7]Sklevik,Magne.Reverberation time-the mother of all room acoustic parameters [J].20th International Congress on Acoustics,2010,3 (2):2508-2512.
[8]MENG Zihou.Research on the acoustical psychology of reverberation perception [J].Applied Acoustics,2013,32 (2):81-90 (in Chinese).[孟子厚.混響感知的聽(tīng)覺(jué)心理 [J].應(yīng)用聲學(xué),2013,32 (2):81-90.]
[9]Vesa Vlimki,Julian D Parker,Lauri Savioja.Fifty years of artificial reverberation [J].IEEE Transactions on Audio,Speech&LanguageProcessing,2012,20 (5):1421-1448.
[10]ZHANG Lei.The research and implementation of digital reverberator [D].Dalian:Dalian University of Technology,2010:28-32 (in Chinese).[張磊.數(shù)字效果器的研究與實(shí)現(xiàn)[D].大連:大連理工大學(xué),2010:28-32.]
[11]Udo Zolzer,Xavier,DAFX-Digital Audio Effects[M].England:Wiley,2011:170-180.