楊玲玲
關(guān)鍵詞:語音增強;聯(lián)合損失函數(shù);聽覺;語音失真
DNN 根據(jù)獲取的語音特征對學習目標參數(shù)進行準確估計,目前已被廣泛應(yīng)用于語音增強的研究中[1-2]。各類聲學特征也對語音增強方面存在差異。根據(jù)傳統(tǒng)語音特征進行分析并不能充分反饋語音內(nèi)部信息,也不能獲得音幀和幀快速轉(zhuǎn)換的結(jié)果,因此該模型并不能準確預(yù)測時頻掩蔽結(jié)果,導致實際語音增強性能較差[3-4]。在背景噪聲濾除方面,時頻掩模值發(fā)揮著關(guān)鍵作用,以常規(guī)時頻掩模值進行處理時并未針對語音相位進行分析,語音相位譜則對改善語音可懂性具有關(guān)鍵作用[5]。
根據(jù)上述研究結(jié)果,本文優(yōu)化了以語音增強實現(xiàn)的網(wǎng)絡(luò)模型與損失函數(shù)[6]。為確保代價函數(shù)能夠根據(jù)人耳感知特點開展分析過程,在上述基礎(chǔ)上設(shè)計了一種聯(lián)合損失函數(shù)。針對損失函數(shù)計算過程加入關(guān)于人耳聽覺的數(shù)據(jù)。
1 聯(lián)合損失函數(shù)
進行深度學習時,需要利用均方誤差損失函數(shù)(MSE)對神經(jīng)網(wǎng)絡(luò)實施優(yōu)化處理,而MSE 只對增強語音與純凈語音誤差進行簡單數(shù)據(jù)分析,并未考慮誤差正負因素的影響,也未加入人耳感知的信號。此時只以MSE 構(gòu)建損失函數(shù)不能確保增強語音達到理想的算法處理效果[7]。
采用頻域加權(quán)分段的信噪分析方法可以對語音可懂度進行預(yù)測。以下為頻域加權(quán)分段信噪比表達式:
上述系數(shù)與時頻單元信噪比存在直接關(guān)聯(lián),SNR(l,k) 表示第l 幀第k 個頻帶對應(yīng)的信噪比數(shù)據(jù),同時根據(jù)各時頻單元信噪比獲得相應(yīng)的動態(tài)系數(shù),處于較高信噪比條件下時,動態(tài)系數(shù)接近1。
在聯(lián)合代價函數(shù)中融合了人耳心理聲學感知的內(nèi)容[8],以此訓練網(wǎng)絡(luò)來實現(xiàn)性能優(yōu)化的目標,在確保提升話音質(zhì)量的前提下使增強話音具備更高可懂度。
2基于聯(lián)合損失函數(shù)的語音增強算法
以聯(lián)合損失函數(shù)建立語音增強算法經(jīng)多次重復(fù)訓練后,能夠從含噪語音幅度譜內(nèi)獲得估計增強語音幅度譜。圖1給出了系統(tǒng)框圖。
時頻掩蔽因素是對神經(jīng)網(wǎng)絡(luò)產(chǎn)生影響而引起語音增強性能差異的重要條件,采用傳統(tǒng)學習方法進行處理時只需對語音幅度進行分析。確定混合特征參數(shù)與學習目標后,再對神經(jīng)網(wǎng)絡(luò)開展輸入、輸出訓練,同時利用最小均方誤差優(yōu)化網(wǎng)絡(luò)算法。再以BP算法反向傳遞方式完成網(wǎng)絡(luò)參數(shù)的修正。從每次訓練的結(jié)果中選擇最優(yōu)性能的網(wǎng)絡(luò)模型進行記錄后建立測試網(wǎng)絡(luò)模型。
本文選擇聯(lián)合損失函數(shù)對兩者差異進行評價,記錄最優(yōu)性能的網(wǎng)絡(luò)模型參數(shù)。進行測試時,先將含噪語音幅度譜加入經(jīng)過訓練的模型內(nèi),之后通過模型對增強語音幅度譜進行預(yù)測,最后以語音相位參數(shù)完成信號重構(gòu)。
3實驗結(jié)果分析
3.1實驗數(shù)據(jù)的選取
以上語音數(shù)據(jù)都是由IEEE語音數(shù)據(jù)庫提供,之后從NOISEX-92噪聲庫內(nèi)提取Pink、Factory與White三種噪聲信號,這些信號保持一致頻率。按照同樣信噪比把剩余50條純凈語音與噪聲后半段進行混合后建立測試集。
本文設(shè)定語音頻率為16 kHz,并以語音幅度譜作為輸入語音特征。各項網(wǎng)絡(luò)參數(shù)見表1。
3.2對比實驗分析
為了對本文建立的聯(lián)合損失函數(shù)與自注意力機制進行有效性驗證,構(gòu)建得到表2的對比算法。
從表3~5中可以看到各噪聲條件下的PESQ值。其中,表3顯示,信噪比等于-5dB的情況下,根據(jù)算法1與2測試結(jié)果可以發(fā)現(xiàn),在各類噪聲條件下,PESQ值提升均值達到0.13,同時STOI值提升了0.01的均值水平。比較算法2與3可以發(fā)現(xiàn),PESQ值提升了0.07,STOI提升了0.01。
表4顯示,帶噪語音信噪比等于0 dB的條件下,根據(jù)算法1 與2 可以發(fā)現(xiàn),各噪聲下的PESQ 值都提升了0.11,此時STOI 值提升0.02。比較算法2 與3 可以發(fā)現(xiàn),PESQ 值提升0.09,STOI 提升0.01。
表5 顯示,帶噪語音信噪比等于5 dB 的情況下,比較算法1 與2 可以發(fā)現(xiàn),各噪聲下的PESQ 值提升達到0.13 的均值,STOI 值提升了0.01。根據(jù)算法2 與3的比較結(jié)果可知,PESQ 值提升0.07,STOI 提升0.01。
綜合分析表3~5 得到下述結(jié)果:
1)通過對比算法1 與2 測試結(jié)果得到:當噪聲與信噪比都不同的情況下,以聯(lián)合損失函數(shù)實現(xiàn)的增強語音PESQ 值提高0.12,STOI 提高0.01。根據(jù)算法1 與2 可知,本文設(shè)計的混合損失函數(shù)實現(xiàn)增強語音質(zhì)量的明顯優(yōu)化。
2)對比算法2 與3 結(jié)果可以發(fā)現(xiàn),為神經(jīng)網(wǎng)絡(luò)模型設(shè)置注意力機制后,可以使增強語音PESQ 值提高0.08,STOI 提高0.01。同時根據(jù)算法2 與3 結(jié)果可以推斷,加入注意力機制后能夠促進背景噪音的進一步減弱,從而獲得更高可懂度。
3)比較算法1 與3 結(jié)果可知:以聯(lián)合損失函數(shù)對神經(jīng)網(wǎng)絡(luò)開展訓練時,同時加入自注意力機制來分析理神經(jīng)網(wǎng)絡(luò)特征的情況下能夠?qū)崿F(xiàn)增強語音質(zhì)量的顯著改善,此時PESQ 值提升0.2,STOI 提升0.03。
4 結(jié)束語
1)本文設(shè)計的混合損失函數(shù)實現(xiàn)增強語音質(zhì)量的明顯優(yōu)化。加入注意力機制后能夠促進背景噪音的進一步減弱,從而獲得更高可懂度。
2)綜合運用聯(lián)合損失函數(shù)并融合注意力機制后,可以使神經(jīng)網(wǎng)絡(luò)獲得更優(yōu)質(zhì)量增強語音。利用注意力機制提取特征參數(shù)以及結(jié)合聯(lián)合損失函數(shù)進行神經(jīng)網(wǎng)絡(luò)優(yōu)化能夠促進增強語音質(zhì)量的提升并達到更高的可懂度。