• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于生理參數(shù)與角度的個(gè)性化HRTF 深度學(xué)習(xí)重建方法

    2022-06-15 02:33:10趙曼琳
    電聲技術(shù) 2022年4期
    關(guān)鍵詞:子網(wǎng)全局頭部

    趙曼琳,方 勇

    (上海大學(xué) 通信與信息工程學(xué)院,上海 200444)

    0 引言

    近年來(lái),虛擬現(xiàn)實(shí)(Virtual Reality,VR)和增強(qiáng)現(xiàn)實(shí)(Augmented Reality,AR)技術(shù)發(fā)展迅速。虛擬立體聲作為虛擬現(xiàn)實(shí)的重要組成部分,已廣泛應(yīng)用于游戲、視頻會(huì)議以及助聽(tīng)器等領(lǐng)域[1]??臻g聲音的質(zhì)量對(duì)于在虛擬環(huán)境中實(shí)現(xiàn)高保真沉浸式體驗(yàn)尤為重要。

    目前,空間音頻技術(shù)已經(jīng)支持在多種設(shè)備上播放,其中頭部相關(guān)的傳輸功能對(duì)于耳機(jī)再現(xiàn)虛擬音頻非常重要。時(shí)域形式的頭部相關(guān)傳遞函數(shù)(Head Related Transfer Function,HRTF)或頭部相關(guān)脈沖響應(yīng)(Head Related Impulse Response,HRIR)描述了在自由場(chǎng)環(huán)境下從聲源到聽(tīng)者耳膜的過(guò)程中頭部、軀干及耳廓的聲音過(guò)濾效果。HRTF 取決于聽(tīng)者的形態(tài)特征。用戶擁有不同的生理參數(shù),他們的HRTF 也不同。在使用不匹配數(shù)據(jù)時(shí),用戶容易出現(xiàn)頭中心效應(yīng)、前后位置混淆、上下混淆等問(wèn)題[2]。

    為了獲得更符合聽(tīng)覺(jué)感知的空間音頻,需要單獨(dú)設(shè)計(jì)每個(gè)聽(tīng)者的HRTF。為此,研究人員提出了多種HRTF 個(gè)性化方法,包括測(cè)量方法[3]、數(shù)據(jù)庫(kù)匹配方法[4]、數(shù)值建模方法[5]以及人體測(cè)量參數(shù)回歸方法。其中,測(cè)量方法最為準(zhǔn)確,但需要專門的設(shè)備,耗時(shí)很長(zhǎng)。因此,人體參數(shù)回歸方法被廣泛研究,因?yàn)轭A(yù)測(cè)模型一旦確定就可以重復(fù)使用。

    本文提出了一個(gè)深度神經(jīng)網(wǎng)絡(luò)模型,根據(jù)人體測(cè)量學(xué)參數(shù)和角度信息重建個(gè)性化頭相關(guān)函數(shù)(HRTF)。所提出的方法由三個(gè)子網(wǎng)組成,包括將人體測(cè)量參數(shù)作為輸入特征的深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks,DNN),將角度信息作為輸入的展開(kāi)層(Flatten),最后將其合并送入深度神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)個(gè)性化HRTF 的預(yù)測(cè),并在實(shí)驗(yàn)結(jié)果處對(duì)所提出方法的整體性能進(jìn)行了客觀評(píng)價(jià)。

    1 模型設(shè)計(jì)

    本文提出了一種使用人體測(cè)量參數(shù)和角度信息來(lái)估計(jì)個(gè)性化HRTF 的方法。模型的神經(jīng)網(wǎng)絡(luò)由三個(gè)子網(wǎng)絡(luò)組成。所提出的神經(jīng)網(wǎng)絡(luò)的第一個(gè)子網(wǎng)絡(luò)是DNN,使用人體測(cè)量參數(shù)(頭部、軀干、耳廓參數(shù)等)作為輸入特征來(lái)表示人體測(cè)量值和HRTFs 之間的關(guān)系,被稱為“子網(wǎng)A”。第二個(gè)子網(wǎng)絡(luò)用于將二維的方位角信息(仰角及方位角)一維化,被稱為“子網(wǎng)B”。使用另一個(gè)DNN 網(wǎng)絡(luò)將兩個(gè)子網(wǎng)組合在一起,以估計(jì)個(gè)性化HRTF,稱為“子網(wǎng)C”。模型框架如圖1 所示。

    圖1 模型框架

    2 數(shù)據(jù)庫(kù)介紹

    在設(shè)計(jì)和實(shí)現(xiàn)個(gè)性化HRTF 的過(guò)程中,使用了加州大學(xué)戴維斯分校圖像處理與集成計(jì)算中心(CIPIC)公開(kāi)提供的HRTF 數(shù)據(jù)庫(kù)[6]。該數(shù)據(jù)庫(kù)包含45 名受試者在25 個(gè)不同方位角和50 個(gè)不同仰角、1 250 個(gè)空間方位角的頭部相關(guān)脈沖響應(yīng)(HRIR),采樣長(zhǎng)度為200,采樣率為44.1 kHz。空間采樣大致均勻分布在半徑為1 m 的球面上。水平方位角范圍為-80~+80,高度角范圍為-45~230.625。采樣點(diǎn)如圖2 所示,可以看出,采樣點(diǎn)分布在整個(gè)球面上。

    圖2 采樣點(diǎn)位置

    該數(shù)據(jù)庫(kù)還提供了每個(gè)受試者的人體測(cè)量參數(shù)和耳朵圖像,包括17 個(gè)頭部和軀干參數(shù)以及10個(gè)耳廓參數(shù)。具體測(cè)量參數(shù)如圖3 所示。

    圖3 人體測(cè)量參數(shù)

    由于不同人體測(cè)量參數(shù)的尺寸范圍不同,小尺寸測(cè)量參數(shù)對(duì)學(xué)習(xí)過(guò)程的影響可能會(huì)被忽略,因此首先使用文獻(xiàn)[7]提出的sigmoid 函數(shù)對(duì)輸入的27個(gè)生理參數(shù)進(jìn)行歸一化處理,處理方式為:

    式中:xi是耳朵、頭部或軀干測(cè)量參數(shù)的第i個(gè)測(cè)量值,ui和σi分別是所有訓(xùn)練對(duì)象的平均值和標(biāo)準(zhǔn)差。

    3 網(wǎng)絡(luò)架構(gòu)

    子網(wǎng)A 首先對(duì)27 個(gè)人體測(cè)量參數(shù)(左耳耳廓及頭部、軀干參數(shù))進(jìn)行標(biāo)準(zhǔn)化,然后通過(guò)2 層32個(gè)節(jié)點(diǎn)的隱藏層提取特征,最后輸出32 個(gè)節(jié)點(diǎn)。子網(wǎng)B 是一個(gè)Flatten 層,用于將二維的角度數(shù)據(jù)展平,成為子網(wǎng)C 的一部分。子網(wǎng)C 同樣是一個(gè)DNN 網(wǎng)絡(luò),包括34 個(gè)節(jié)點(diǎn)的輸入層和2 層64 個(gè)節(jié)點(diǎn)的隱藏層,最后輸出200 個(gè)節(jié)點(diǎn),對(duì)應(yīng)CIPIC 數(shù)據(jù)庫(kù)中HRTF 的長(zhǎng)度。其中,為了避免梯度消失的問(wèn)題,除輸出層外,每一層激活函數(shù)均使用線性校正單元(ReLU)。

    4 監(jiān)督學(xué)習(xí)

    良好權(quán)重的初始化可以降低成本并加快收斂速度,因此在訓(xùn)練階段使用Xavier 技術(shù)將所有偏差初始化為零。算法的成本函數(shù)為參考HRTF 和估計(jì)HRTF 之間的均方誤差(Mean Square Error,MSE),同時(shí)采用梯度下降的反向傳播方法最小化成本函數(shù)來(lái)進(jìn)一步更新權(quán)重。在這個(gè)過(guò)程中,采用梯度自適應(yīng)Adam 方法對(duì)算法進(jìn)行進(jìn)一步優(yōu)化,一階衰減率設(shè)為0.9,二階衰減率設(shè)為0.999,學(xué)習(xí)率設(shè)為0.001。同時(shí)使用Dropout 技術(shù)(保留概率設(shè)為0.9)進(jìn)一步提高收斂速度,防止過(guò)擬合問(wèn)題。

    5 實(shí)驗(yàn)結(jié)果

    實(shí)驗(yàn)結(jié)果部分,將基于客觀測(cè)試來(lái)評(píng)估所提出的個(gè)性化HRTF 估計(jì)方法的性能。同時(shí)將該方法的性能與其他幾種HRTF 估計(jì)方法進(jìn)行比較。對(duì)比涉及的方法有:

    (1)平均HRTF 的方法,使用35 名受試者的HRTF 平均值;

    (2)DNN37[7]的方法,使用了左右耳廓及頭部軀干的37 個(gè)生理參數(shù);

    (3)本文提出的方法,稱為“Proposed HRTF”。

    5.1 評(píng)價(jià)指標(biāo)

    為了進(jìn)一步衡量所提出的個(gè)性化方法的估計(jì)性能,使用均方根誤差(Root Mean Square Error,RMSE)和光譜距離(Spectral Distance,SD)作為客觀評(píng)價(jià)指標(biāo)。

    均方根誤差通常是用來(lái)評(píng)估兩者之間距離的指標(biāo),定義如下:

    式中:y(n)是數(shù)據(jù)庫(kù)測(cè)量給出的參考HRTF,是該方法估計(jì)HRTF,N=200,是HRTF 的總長(zhǎng)度。

    光譜距離通常用于評(píng)估預(yù)測(cè)HRTF 的性能,定義如下:

    式中:H(d)(n)為參考HRTF 在方向d的幅度響應(yīng),為方法估計(jì)HRTF 在方向d的幅度響應(yīng),k是頻率倉(cāng)的索引,K=129,是頻率倉(cāng)的總數(shù)。

    計(jì)算SD 在多個(gè)方向上的平均值,即全局SD:

    式中:D=1 250,是方向的總數(shù)。

    5.2 性能評(píng)估

    為驗(yàn)證所提出方法的有效性,圖4(a)、圖4(b)分別顯示了受試者subject009 在(θ,φ)=(-80°,-45°)和(-45°,0°)方向預(yù)測(cè)HRTF 與真實(shí)HRTF 的結(jié)果(HRIR 是HRTF 相對(duì)應(yīng)的時(shí)域表示)??梢钥吹阶罡唿c(diǎn)的幅值、包括整體曲線的走勢(shì),所提出的方法的預(yù)測(cè)效果都較好。

    圖4 subject009 在不同方向下預(yù)測(cè)及真實(shí)HRTF 對(duì)比

    所提出的個(gè)性化方法通過(guò)一次訓(xùn)練即可得到全部1 250 個(gè)方向下(25 個(gè)方位角和50 個(gè)仰角)的HRTF 預(yù)測(cè)結(jié)果,因此給出的客觀評(píng)價(jià)結(jié)果均為全局平均均方誤差和光譜距離。

    表1 給出了所提出方法在所有受試者的全局平均RMSE 和SD 值。此外,圖5、圖6 分別給出了所提出方法在不同個(gè)體受試者的全局RMSE 和全局SD 值。

    表1 所提出方法的全局RMSE 和SD 值(單位:dB)

    圖5 不同個(gè)體受試者的全局RMSE 值

    圖6 不同個(gè)體受試者的全局SD 值

    5.3 性能比較

    為了進(jìn)一步評(píng)估所提出方法的性能,與其他三種HRTF 估計(jì)方法進(jìn)行比較,分別計(jì)算了參考HRTF 與估計(jì)HRTF 之間的RMSE和SD。結(jié)果如表2 所示。

    表2 不同估計(jì)方法的平均RMSE 比較(單位:dB)

    從表2 和表3 可以看到,所提出的方法的RMSE值分別比平均HRTF 和DNN37 HRTF 低1.65 dB 和3.56 dB,方法的SD值比平均HRTF 低3.54 dB,比DNN37 HRTF 高0.38 dB。對(duì)于DNN37方法,它的每個(gè)模型都是針對(duì)一個(gè)方向建立的,因此,要獲得所有聲源位置的HRTFs,需要構(gòu)建1 250 個(gè)DNN 模型。因此,就需訓(xùn)練的模型數(shù)量而言,所提出的方法需要更少的模型和更少的參數(shù)。

    表3 不同估計(jì)方法的平均SD 比較(單位:dB)

    6 結(jié)語(yǔ)

    本文提出了一個(gè)生成個(gè)性化HRTF 的深度神經(jīng)網(wǎng)絡(luò)模型,通過(guò)人體生理參數(shù)及角度信息重建全局的HRTFs。在算法中,通過(guò)加入角度信息作為輸入特征,僅需一次訓(xùn)練就可獲得所有聲源位置的HRTFs,使得需訓(xùn)練的模型數(shù)量大幅度下降。實(shí)驗(yàn)部分對(duì)算法的性能進(jìn)行了評(píng)估,給出了算法在不同方向時(shí)預(yù)測(cè)HRTF 和真實(shí)HRTF 的結(jié)果對(duì)比圖。實(shí)驗(yàn)結(jié)果表明,該算法具有良好的性能,與其他幾種估計(jì)HRTF 方法相比,具有較好的定位性能。

    猜你喜歡
    子網(wǎng)全局頭部
    一種簡(jiǎn)單子網(wǎng)劃分方法及教學(xué)案例*
    Cahn-Hilliard-Brinkman系統(tǒng)的全局吸引子
    量子Navier-Stokes方程弱解的全局存在性
    頭部按摩治療老伴失憶
    火箭的頭部為什么是圓鈍形?
    軍事文摘(2020年22期)2021-01-04 02:16:38
    子網(wǎng)劃分問(wèn)題研究及應(yīng)用
    落子山東,意在全局
    金橋(2018年4期)2018-09-26 02:24:54
    子網(wǎng)劃分的簡(jiǎn)易方法
    自適應(yīng)統(tǒng)計(jì)迭代重建算法在頭部低劑量CT掃描中的應(yīng)用
    新思路:牽一發(fā)動(dòng)全局
    杭州市| 菏泽市| 嘉兴市| 元谋县| 杭锦后旗| 翼城县| 井陉县| 丰宁| 井冈山市| 信丰县| 扎兰屯市| 海南省| 光山县| 上栗县| 视频| 仙居县| 八宿县| 神池县| 揭西县| 万安县| 澄江县| 定结县| 伽师县| 云林县| 疏勒县| 福泉市| 崇左市| 磐安县| 瓦房店市| 大名县| 新丰县| 辉县市| 平湖市| 醴陵市| 兰考县| 永顺县| 洛阳市| 罗定市| 神农架林区| 阳朔县| 江华|