張玥 張雄偉 孫蒙
(中國人民解放軍陸軍工程大學(xué)指揮控制工程學(xué)院,江蘇南京 210007)
環(huán)境噪聲常常對人們的語音交流帶來不便,語音增強(qiáng)是減少噪聲對語音通信干擾的重要技術(shù)手段。目前,語音增強(qiáng)技術(shù)已取得很大發(fā)展,傳統(tǒng)增強(qiáng)方法[1-3]、基于深度學(xué)習(xí)的增強(qiáng)方法[4-7]層出不窮,在處理平穩(wěn)噪聲時(shí)能夠取得較好的增強(qiáng)效果。然而,當(dāng)語音信噪比低、噪聲環(huán)境復(fù)雜時(shí),現(xiàn)有語音增強(qiáng)方法效果將大幅下降。骨導(dǎo)語音是骨導(dǎo)麥克風(fēng)直接通過與說話者聲帶、頭骨等的接觸拾取振動(dòng)而產(chǎn)生的語音信號,因此能從聲源處屏蔽環(huán)境噪聲,得到較為純凈的語音信號,在復(fù)雜噪聲環(huán)境下具有重要的應(yīng)用價(jià)值。然而,由于人體發(fā)聲的機(jī)理以及目前傳感器等設(shè)備制作水平的限制,骨導(dǎo)語音高頻信息丟失、部分清音音節(jié)缺失、聽感沉悶、不夠清晰,因而語音可懂度較低,難以直接應(yīng)用于正常通信[8]。研究骨導(dǎo)語音增強(qiáng)算法,對提高低信噪比環(huán)境下的語音通信質(zhì)量,促進(jìn)骨導(dǎo)語音應(yīng)用的推廣具有重要意義。
目前,骨導(dǎo)語音增強(qiáng)方法有傳統(tǒng)方法與基于深度學(xué)習(xí)的方法。傳統(tǒng)的骨導(dǎo)語音增強(qiáng)方法有譜減法、維納濾波法等頻域法以及基于高斯混合模型、基于最小均方誤差法等統(tǒng)計(jì)方法。傳統(tǒng)骨導(dǎo)語音盲增強(qiáng)方法從多方面較好的分析了骨導(dǎo)語音的頻譜特征,找到骨、氣導(dǎo)語音的相關(guān)性,為后續(xù)工作打下了良好基礎(chǔ)。近年來,深度學(xué)習(xí)迅速發(fā)展并在各領(lǐng)域均得到廣泛應(yīng)用?;谏疃葘W(xué)習(xí)的方法較于傳統(tǒng)方法能夠更好的學(xué)習(xí)骨導(dǎo)語音與氣導(dǎo)語音的語譜特征,能夠獲得更好的增強(qiáng)效果[9-12]。Liu[9]等提出了一種深度去噪自編碼器方法,利用深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks,DNN)增強(qiáng)骨導(dǎo)語音高維頻譜特征,以提高語音質(zhì)量和可懂度。鄭[11]等提出了一種基于長短時(shí)記憶網(wǎng)絡(luò)-循環(huán)神經(jīng)網(wǎng)絡(luò)(Long Short-Term Memory-Recurrent Neural Network,LSTM-RNN)的骨導(dǎo)語音盲增強(qiáng)方法,利用LSTMRNN 結(jié)構(gòu)對骨、氣導(dǎo)語音高維對數(shù)譜之間的轉(zhuǎn)換關(guān)系進(jìn)行建模,有效地捕捉了上下文信息重構(gòu)骨導(dǎo)語音高維幅度譜?;谏疃葘W(xué)習(xí)的骨導(dǎo)語音增強(qiáng)方法通過分析骨導(dǎo)語音低頻頻譜成分推測出高頻信息,重構(gòu)出全頻帶的語音,生成語音在質(zhì)量及可懂度方面均有較大提升。然而目前應(yīng)用于骨導(dǎo)語音增強(qiáng)方法的深度神經(jīng)網(wǎng)絡(luò)在骨導(dǎo)語音樣本有限的情況下難以充分學(xué)習(xí)骨導(dǎo)語音特性,對于未知說話人的語音集魯棒性不強(qiáng)。
2015 年,Olaf[13]等首次提出了U-Net 結(jié)構(gòu)并將其應(yīng)用于生物醫(yī)學(xué)圖像分割中。U-Net 為對稱的“編-解碼結(jié)構(gòu)”,利用卷積層與池化提取特征與上下文信息,同時(shí)利用跳躍連接對同一層編碼、解碼層的語音譜信息進(jìn)行拼接,實(shí)現(xiàn)多尺度的特征融合。Olaf等的實(shí)驗(yàn)表明,U-Net結(jié)構(gòu)對于生物醫(yī)學(xué)圖像類小樣本數(shù)據(jù)集能夠從極少的訓(xùn)練圖像中充分學(xué)習(xí)數(shù)據(jù)特征,相比于滑動(dòng)窗口卷積網(wǎng)絡(luò)取得了更高的性能指標(biāo)。近年來,U-Net 被大量應(yīng)用于語音增強(qiáng)領(lǐng)域中,體現(xiàn)出了較好的降噪能力以及泛化能力[14-17]。目前骨導(dǎo)語音數(shù)據(jù)集未有公開數(shù)據(jù)集,使用數(shù)據(jù)集為實(shí)驗(yàn)室聲暗室錄制,可用訓(xùn)練樣本較少,因而相對于氣導(dǎo)語音增強(qiáng)的數(shù)據(jù)集,骨導(dǎo)語音是小樣本數(shù)據(jù)集。因此,我們采用U-Net 結(jié)構(gòu)作為增強(qiáng)模型的主干網(wǎng)絡(luò)。然而,骨導(dǎo)語音在高頻部分缺失嚴(yán)重,與氣導(dǎo)語音在高維頻譜差異較大,需要從低頻部分提取語音信息重構(gòu)高頻部分。為使UNet 結(jié)構(gòu)在訓(xùn)練過程中能夠更加關(guān)注骨導(dǎo)語音的低頻信息以及時(shí)域上的能量分布,在U-Net 結(jié)構(gòu)的基礎(chǔ)上引入了時(shí)頻注意力機(jī)制。
注意力機(jī)制可以使神經(jīng)網(wǎng)絡(luò)專注于某些重要輸入信息或特征。在語音增強(qiáng)中,注意力機(jī)制可以為輸入的語義信息分配不同的權(quán)重,因此可以引導(dǎo)模型關(guān)注學(xué)習(xí)重要語義成分,而較少關(guān)注噪音或干擾信息,從而提高生成增強(qiáng)語音的純凈度[18-22]。Zhang[18]等將頻率注意力機(jī)制引入到時(shí)間卷積網(wǎng)絡(luò)(Temporal Convolutional Network,TCN)中,引導(dǎo)TCN有選擇地強(qiáng)調(diào)具有重要語音信息的頻率特征,提高了網(wǎng)絡(luò)的表示能力,增強(qiáng)語音的語音質(zhì)量與可懂度指標(biāo)均得到了提升。Bahareh[19]等在U-Net 中引入了通道注意力機(jī)制,在U-Net 結(jié)構(gòu)的每一層均加入注意力,引導(dǎo)網(wǎng)絡(luò)在每一層上均決定最關(guān)注哪些特征,該方法在CHiME-3 數(shù)據(jù)集上展示了當(dāng)時(shí)最優(yōu)性能。Hao[20]等在LSTM 結(jié)構(gòu)基礎(chǔ)上采用了注意力機(jī)制,當(dāng)模型在預(yù)測增強(qiáng)語音時(shí),注意力機(jī)制計(jì)算輸入和當(dāng)前語音幀之間的相關(guān)性,并為輸入提供權(quán)重。實(shí)驗(yàn)表明,與LSTM 基線相比,該模型在語音質(zhì)量和可懂度方面均能取得更好的性能,并對不可見的噪聲條件具有更好的泛化能力。以上工作表明,注意力機(jī)制可以引導(dǎo)神經(jīng)網(wǎng)絡(luò)模型充分學(xué)習(xí)語音重要特征信息,提升增強(qiáng)語音的質(zhì)量以及模型的泛化能力。對于骨導(dǎo)語音,低頻信息與時(shí)域成分較為豐富,因此可以利用時(shí)頻注意力機(jī)制引導(dǎo)模型學(xué)習(xí)骨導(dǎo)語音的有效時(shí)頻成分。
為了充分關(guān)注骨導(dǎo)語音的時(shí)頻信息,在訓(xùn)練數(shù)據(jù)較少的情況下充分利用現(xiàn)有特征,我們將時(shí)頻注意力機(jī)制引入U(xiǎn)-Net 結(jié)構(gòu)中,引導(dǎo)模型充分學(xué)習(xí)骨導(dǎo)語音譜的低頻信息,重構(gòu)高頻成分。論文的剩余部分結(jié)構(gòu)組織如下:第2 節(jié)介紹骨導(dǎo)語音增強(qiáng)方法的模型結(jié)構(gòu),第3 節(jié)進(jìn)行仿真實(shí)驗(yàn)和結(jié)果分析,第4節(jié)對全文工作進(jìn)行總結(jié)。
假定語音激勵(lì)信號為e(t),如圖1 所示,骨導(dǎo)語音x(t)與氣導(dǎo)語音y(t)聲源為同一激勵(lì)信號。骨導(dǎo)語音為激勵(lì)信號通過人體頭骨、頜骨、喉骨等路徑傳輸而形成的語音信號,設(shè)傳播路徑函數(shù)為hB(Ct)。氣導(dǎo)語音為激勵(lì)信號通過聲道、口腔、鼻腔等傳輸而形成的語音信號,設(shè)其傳播路徑函數(shù)為hAC(t)。則骨、氣導(dǎo)語音產(chǎn)生可用公式(1)、公式(2)表示:
圖1 骨導(dǎo)語音與氣導(dǎo)語音傳輸路徑圖[8]Fig.1 Transmission channels for bone-conducted speech and air-conducted speech[8]
由于實(shí)際骨導(dǎo)語音采集的過程中其傳播路徑函數(shù)hBC(t)不僅與骨導(dǎo)傳感器放置位置有關(guān),還與說話人骨骼特性、發(fā)聲音節(jié)等密切相關(guān),因而hB(Ct)為一復(fù)雜非線性函數(shù),目前仍無法進(jìn)行數(shù)學(xué)建模。
骨導(dǎo)語音增強(qiáng)方法的總體架構(gòu)如圖2所示。數(shù)據(jù)預(yù)處理階段,將骨導(dǎo)語音與對應(yīng)的氣導(dǎo)語音分幀、加窗,進(jìn)行短時(shí)傅里葉變換(Short-Term Fourier Transform,STFT)得到對應(yīng)的骨導(dǎo)、氣導(dǎo)語音幅度譜。而后對幅度譜進(jìn)行取對數(shù)操作,得到對數(shù)幅度譜。計(jì)算出對數(shù)幅度譜頻率方向每一維的均值和方差后進(jìn)行歸一化,得到歸一化后的骨導(dǎo)語音譜與氣導(dǎo)語音譜。
圖2 增強(qiáng)方法總體架構(gòu)Fig.2 Overall architecture of the enhancement method
訓(xùn)練階段,將骨導(dǎo)語音譜作為輸入,對應(yīng)的氣導(dǎo)語音譜作為目標(biāo)對結(jié)合時(shí)頻注意力機(jī)制與U-Net的增強(qiáng)模型進(jìn)行訓(xùn)練,學(xué)習(xí)骨、氣導(dǎo)語音的譜映射關(guān)系。訓(xùn)練損失函數(shù)選擇均方誤差(Mean Squared Error,MSE),在最小化增強(qiáng)語音與對應(yīng)氣導(dǎo)語音MSE的目標(biāo)下優(yōu)化模型參數(shù)。
增強(qiáng)階段,將測試集中的骨導(dǎo)語音經(jīng)過STFT、取對數(shù)、歸一化后得到對數(shù)幅度譜。將歸一化后的幅度譜經(jīng)過訓(xùn)練好的增強(qiáng)模型得到增強(qiáng)語音的幅度譜。對生成的幅度譜進(jìn)行反歸一化及指數(shù)運(yùn)算,最后經(jīng)過逆短時(shí)傅里葉變換(ISTFT,Inverse STFT)生成增強(qiáng)語音。
語音在時(shí)域與頻率方向的能量分布對于預(yù)測語音頻譜同樣重要。為引導(dǎo)模型有選擇性地學(xué)習(xí)骨導(dǎo)語音中具有重要信息的時(shí)頻特征,本文提出了一種時(shí)頻注意力機(jī)制(Time-Frequency Domain Attention,TFDA),在時(shí)域與頻率方向?yàn)檩斎胝Z音分配相應(yīng)的權(quán)重。
注意力機(jī)制結(jié)構(gòu)如圖3所示。首先將輸入信息經(jīng)過平均池化訪問全局信息提取特征,而后通過全連接層將特征連接,最后通過激活函數(shù)Sigmoid 根據(jù)已獲取的特征信息生成相應(yīng)的權(quán)重,將所得與原輸入相乘后輸出得到預(yù)測語音譜。
圖3 注意力機(jī)制結(jié)構(gòu)圖Fig.3 Attention mechanism structure diagram
在此基礎(chǔ)上,在時(shí)間與頻率維度上均引入了注意力機(jī)制,并設(shè)置可學(xué)習(xí)的權(quán)重將分別經(jīng)過時(shí)間、頻率維度注意力機(jī)制的語譜以及原語譜連接,得到預(yù)測語譜輸出。時(shí)頻注意力機(jī)制結(jié)構(gòu)圖如圖4 所示。假定輸入語譜X∈R1×T×F,沿時(shí)間方向?qū)進(jìn)行全局平均池化后生成特征模型Yt∈R1×F,其公式為:
圖4 時(shí)頻注意力機(jī)制結(jié)構(gòu)圖Fig.4 TFDA mechanism structure diagram
同理,沿頻率方向?qū)進(jìn)行全局平均池化后生成特征模型Yf∈R1×T,其公式為:
經(jīng)特征模型Yt、Yf經(jīng)過全連接層連接特征信息并經(jīng)過激活函數(shù)生成語音譜沿時(shí)間、頻率方向的權(quán)重Wt、Wf,公式為:
其中,f1、f2為兩層全連接層,λ、μ分別為ReLU 和Sigmoid 激活函數(shù)。將獲得的時(shí)間、頻率方向的權(quán)重Wt、Wf權(quán)重與原輸入相乘獲得估計(jì)語音譜XT'、XF',公式為:
其中?為向量乘法。最后設(shè)置可學(xué)習(xí)的權(quán)重α、β、γ將時(shí)間、頻率方向的估計(jì)語音譜XT'、XF'和原輸入語譜X連接,其中α+β+γ=1,得到最終估計(jì)語譜X',其公式為:
我們選擇U-Net結(jié)構(gòu)作為骨導(dǎo)語音增強(qiáng)方法的主干網(wǎng)絡(luò)。U-Net 結(jié)構(gòu)最早被提出應(yīng)用于醫(yī)學(xué)圖像分割,能夠從極少的訓(xùn)練圖像中充分學(xué)習(xí)數(shù)據(jù)特征。U-Net 結(jié)構(gòu)近年來也被廣泛應(yīng)用于語音增強(qiáng)中,并得到了較好的增強(qiáng)效果。目前骨導(dǎo)語音集訓(xùn)練數(shù)據(jù)較少,因此我們利用U-Net多尺度特征融合、高效提取特征的優(yōu)勢學(xué)習(xí)骨導(dǎo)語音頻譜特征,建立骨、氣導(dǎo)語音的頻譜映射關(guān)系。
圖5 為結(jié)合時(shí)頻注意力機(jī)制與U-Net 的網(wǎng)絡(luò)架構(gòu)。輸入骨導(dǎo)語音譜首先經(jīng)過2.2節(jié)中時(shí)頻注意力機(jī)制,生成權(quán)重與原輸入相乘得到估計(jì)語譜后,經(jīng)過包含5 層卷積層的U-Net 結(jié)構(gòu)中。U-Net 結(jié)構(gòu)為“編-解碼結(jié)構(gòu)”,編碼階段包含5 次卷積和4 次下采樣操作。輸入語譜首先經(jīng)過3×3的卷積操作提取特征,通過線性校正單元ReLU 后進(jìn)行下采樣,下采樣操作通過2×2的最大池化完成數(shù)據(jù)降維。每次卷積操作后,特征圖通道數(shù)增加一倍(第一層有所不同),每次下采樣操作后,特征圖長寬減半,最終得到了通道數(shù)為256,大小為T/16×8 的特征圖。而后對特征圖進(jìn)行解碼,解碼階段首先進(jìn)行上采樣,上采樣操作通過2×2的核進(jìn)行特征映射。經(jīng)過上采樣的特征圖通道數(shù)減半,長寬加倍。為了避免出現(xiàn)梯度消失和梯度爆炸問題,每層上采樣后將編碼階段對應(yīng)的特征通過跳躍連接與上采樣后的特征圖串聯(lián)拼接。拼接后的特征圖通過3×3的反卷積進(jìn)行解碼,解碼后的特征圖通道數(shù)減半,最后一層得到通道數(shù)為16,大小為T×129 的特征圖后經(jīng)過1×1 的反卷積得到全頻帶的估計(jì)語譜圖。
圖5 結(jié)合時(shí)頻注意力機(jī)制與U-Net的網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.5 U-Net combined with TFDA mechanism structure diagram
3.1.1 數(shù)據(jù)集
目前,國際沒有公開的骨導(dǎo)語音數(shù)據(jù)集,實(shí)驗(yàn)數(shù)據(jù)集利用實(shí)驗(yàn)室喉振式骨導(dǎo)麥克風(fēng)與高保真麥克風(fēng)錄制。數(shù)據(jù)集中共包含20 名男生、40 名女生,每人共200 條語音,語音長度平均在3~4 s,原采樣頻率為32 kHz。實(shí)驗(yàn)中將數(shù)據(jù)集做降采樣,生成采樣頻率為16 kHz的語音。
單說話人骨導(dǎo)語音增強(qiáng)中訓(xùn)練、驗(yàn)證與測試集為同一說話人的全部語音。選取其中兩名男生、兩名女生的語音集進(jìn)行對比實(shí)驗(yàn),每人均為200 條語句。隨機(jī)選擇其中140 條語句作為訓(xùn)練集,20 條語句為驗(yàn)證集,40條語句為測試集進(jìn)行實(shí)驗(yàn)。
未知說話人骨導(dǎo)語音增強(qiáng)中訓(xùn)練、驗(yàn)證、測試集中均包含多個(gè)不同說話人的全部語音,且說話人未有重合。未知說話人骨導(dǎo)語音增強(qiáng)利用全部20 名男生與40 名女生語音集進(jìn)行對比實(shí)驗(yàn),每人均為200 條語句。隨機(jī)選取其中14 名男生、28 名女生的全部語句作為訓(xùn)練集,2 名男生、4 名女生的全部語句作為驗(yàn)證集,剩余4 名男生、8 名女生的全部語句為測試集進(jìn)行實(shí)驗(yàn)。
3.1.2 網(wǎng)絡(luò)參數(shù)設(shè)置
(1)U-Net
基于U-Net 的骨導(dǎo)語音增強(qiáng)包含5 層卷積層,其中通道數(shù)為[1,16,32,64,128],輸出通道數(shù)為[16,32,64,128,256],卷積核大小為3×3,步長為3,填充數(shù)為1;4 層池化層,池化層大小為2×2;5 層反卷積層,前4 層通道數(shù)為[256,128,64,32],輸出通道數(shù)為[128,64,32,16],卷積核大小為3×3,步長為3,填充數(shù)為1,最后一層輸入通道數(shù)為16,輸出為1,卷積核大小為3×3,步長、填充數(shù)為1。
(2)時(shí)頻注意力機(jī)制
本文所采用注意力機(jī)制首先經(jīng)過池化層提取特征,而后經(jīng)過兩層全連接層將特征連接,全連接層輸入通道數(shù)為129,輸出通道數(shù)為129,激活函數(shù)分別采用ReLU 與Sigmoid。設(shè)置參數(shù)α為可學(xué)習(xí)的三維向量,將α各維權(quán)重經(jīng)過Softmax歸一化后與經(jīng)時(shí)域、頻域注意力機(jī)制的語譜以及原輸入語譜相乘,求和得到估計(jì)語譜。
(3)對比實(shí)驗(yàn)設(shè)置
我們選取了語音增強(qiáng)領(lǐng)域中獲得較好效果的三種注意力機(jī)制進(jìn)行對比實(shí)驗(yàn)。文獻(xiàn)[18]中FAA參數(shù)設(shè)置與本文頻域注意力參數(shù)相同。文獻(xiàn)[21]中Attention 經(jīng)過三層全連接層,輸入節(jié)點(diǎn)數(shù)分別為129、40、40,輸出節(jié)點(diǎn)數(shù)分別為40、40、129;第一層全連接層后連接一層LSTM 用于連接前后文語音信息,節(jié)點(diǎn)數(shù)為40,而后經(jīng)過Softmax 進(jìn)行歸一化;Attention 采用激活函數(shù)Tanh 與Sigmoid。文獻(xiàn)[22]中AttNet 首先經(jīng)過兩層LSTM 層,節(jié)點(diǎn)數(shù)均為256,而后經(jīng)過兩層全連接,輸入節(jié)點(diǎn)數(shù)為256、300,輸出節(jié)點(diǎn)數(shù)分別為300、300,采用激活函數(shù)ReLU。
模型訓(xùn)練時(shí),設(shè)置batch_size 為8,采用Adam 優(yōu)化器,為了防止網(wǎng)絡(luò)出現(xiàn)過擬合,初始學(xué)習(xí)率為0.00001,最高學(xué)習(xí)率為0.001,設(shè)置dropout 為0.2。由于注意力機(jī)制模型相較于U-Net 結(jié)構(gòu)參數(shù)量小、結(jié)構(gòu)簡單,為了避免出現(xiàn)參數(shù)更新速度不匹配的問題,設(shè)置U-Net參數(shù)每訓(xùn)練3輪更新一次參數(shù)。
3.1.3 評價(jià)指標(biāo)
實(shí)驗(yàn)采用感知語音質(zhì)量評估(Perceptual Evaluation of Speech Quality,PESQ)與短時(shí)客觀可懂度(Short-Time Objective Intelligibility,STOI)作為衡量生成語音質(zhì)量的客觀評價(jià)指標(biāo)。
PESQ 是將參考語音與待測語音進(jìn)行預(yù)處理,在時(shí)間上進(jìn)行對準(zhǔn)后進(jìn)行濾波,分析兩個(gè)信號時(shí)頻上的差值得到的評估分?jǐn)?shù)。PESQ 得分范圍在-0.5~4.5之間,得分越高,語音質(zhì)量越好。
STOI的計(jì)算首先需要移除語音信號的靜音區(qū),而后將語音經(jīng)STFT 變換得到時(shí)頻域特征,再對時(shí)頻點(diǎn)進(jìn)行三分之一倍頻分析,最后進(jìn)行歸一化和裁剪計(jì)算待測試語音和干凈語音之間短時(shí)譜向量的相關(guān)系數(shù)。STOI 的結(jié)果范圍在0~1 之間,代表單詞被正確理解的百分比,值越大,表示語音可懂度越高。
3.2.1 單說話人骨導(dǎo)語音增強(qiáng)效果
表1、表2 為結(jié)合不同注意力機(jī)制與U-Net 結(jié)構(gòu)對于單說話人骨導(dǎo)語音增強(qiáng)得到的PESQ 與STOI效果。由表中數(shù)據(jù)計(jì)算可得,基于時(shí)頻注意力機(jī)制與U-Net 的骨導(dǎo)語音增強(qiáng)方法較基于U-Net 的增強(qiáng)方法相比,對于4名單說話人的增強(qiáng)PESQ指標(biāo)平均提升了5.8%,STOI 指標(biāo)平均提升了2.7%,在與其他注意力機(jī)制的對比中也取得了較好的結(jié)果。實(shí)驗(yàn)結(jié)果表明,時(shí)頻注意力機(jī)制對于單說話人的骨導(dǎo)語音集具有較好的增強(qiáng)效果,增強(qiáng)后的語音質(zhì)量得到了較好的提升,語音更加清晰。
表1 不同網(wǎng)絡(luò)結(jié)構(gòu)對于4人骨導(dǎo)語音增強(qiáng)所得PESQ結(jié)果對比Tab.1 PESQ results of BC speech enhancement for four speakers with different networks
表2 不同網(wǎng)絡(luò)結(jié)構(gòu)對于4人骨導(dǎo)語音增強(qiáng)所得STOI結(jié)果對比Tab.2 STOI results of BC speech enhancement for four speakers with different networks
從表1、表2 可以看出,提出的時(shí)頻注意力機(jī)制在四種注意力機(jī)制中對于不同說話人的預(yù)測語音PESQ 指標(biāo)提升最大,STOI 平均提升最多,語音質(zhì)量和可懂度都取得了較好的效果。對比4 名說話人結(jié)果發(fā)現(xiàn),模型對于女2 取得的效果相對較低,提升較少。我們對比原骨導(dǎo)語音集后發(fā)現(xiàn),女2 的骨導(dǎo)語音聲音較輕,且在采集過程中摻雜了較多骨導(dǎo)麥克風(fēng)與衣物摩擦而產(chǎn)生的噪聲,因而增強(qiáng)后的語音中也摻雜了噪音的成分,語音質(zhì)量相對較差。
圖6 為男2 的骨、氣導(dǎo)語音以及經(jīng)過各網(wǎng)絡(luò)結(jié)構(gòu)增強(qiáng)后的語音語譜圖對比。由圖6(a)~(f)對比可以發(fā)現(xiàn),經(jīng)過時(shí)頻注意力機(jī)制與U-Net 結(jié)構(gòu)重構(gòu)的語音高頻部分頻譜結(jié)構(gòu)更加清晰,能量更強(qiáng)。
與文獻(xiàn)[10]相比,對男1、男2、女1、女2的數(shù)據(jù),PESQ 分別提高了13.1%、13.9%、14.3%與11.7%,平均提高了13.25%,證明了所提方法的有效性。
3.2.2 未知說話人骨導(dǎo)語音增強(qiáng)效果
結(jié)合不同注意力機(jī)制與U-Net結(jié)構(gòu)對于未知說話人骨導(dǎo)語音增強(qiáng)所得PESQ 與STOI效果如表3 所示。由表中數(shù)據(jù)計(jì)算可得,基于時(shí)頻注意力機(jī)制與U-Net 的骨導(dǎo)語音增強(qiáng)方法較基于U-Net 的增強(qiáng)方法相比,對于未知說話人的骨導(dǎo)語音增強(qiáng)PESQ 指標(biāo)提升了4.4%,STOI 指標(biāo)提升了1.3%,在與其他注意力機(jī)制的對比中也取得了最好的結(jié)果。
表3 不同網(wǎng)絡(luò)結(jié)構(gòu)對于未知說話人骨導(dǎo)語音增強(qiáng)所得PESQ、STOI結(jié)果對比Tab.3 PESQ and STOI results of BC speech enhancement for unknown speakers with different networks
測試集相對應(yīng)的骨、氣導(dǎo)語音以及經(jīng)過各網(wǎng)絡(luò)結(jié)構(gòu)增強(qiáng)后的語音語譜圖如圖7所示。對比圖7(a)~(f)可以發(fā)現(xiàn),經(jīng)TFDA+U-Net 獲得的增強(qiáng)語音對于骨導(dǎo)語音缺失的清音音節(jié)也實(shí)現(xiàn)了較好的恢復(fù)。實(shí)驗(yàn)結(jié)果表明,時(shí)頻注意力機(jī)制對于未知說話人的骨導(dǎo)語音數(shù)據(jù)集同樣具有較好的增強(qiáng)效果,模型魯棒性較強(qiáng)。
圖7 未知說話人經(jīng)不同網(wǎng)絡(luò)結(jié)構(gòu)增強(qiáng)預(yù)測語音語譜圖Fig.7 Predicted spectrograms of unknown speakers enhanced by different networks
3.2.3 時(shí)頻注意力機(jī)制可視化分析
為探尋時(shí)頻注意力機(jī)制對U-Net結(jié)構(gòu)學(xué)習(xí)骨導(dǎo)語音時(shí)頻信息的引導(dǎo)作用,實(shí)驗(yàn)將進(jìn)入注意力機(jī)制前后的語音譜以及注意力機(jī)制做了可視化分析,結(jié)果如圖8、圖9所示。圖8為經(jīng)時(shí)頻注意力機(jī)制前后語音波形圖對比,圖8(a)為輸入骨導(dǎo)語音波形圖,圖8(c)為經(jīng)過所提時(shí)頻注意力機(jī)制的骨導(dǎo)語音波形圖,圖8(b)暗色為原波形,亮色為經(jīng)注意機(jī)制后的波形。從圖8(b)可以看出,注意力機(jī)制引導(dǎo)模型在時(shí)域上對于語音有聲段部分波形進(jìn)行了增強(qiáng),語音幅度值增加。
圖8 經(jīng)時(shí)頻注意力機(jī)制前后語音波形圖對比Fig.8 Comparison of speech waveforms before and after TFDA
如圖9所示為經(jīng)時(shí)頻注意力機(jī)制前后語音語譜圖對比,其中圖9(a)為輸入骨導(dǎo)語音語譜圖,圖9(c)為經(jīng)過所提時(shí)頻注意力機(jī)制后的骨導(dǎo)語音語譜圖,圖9(b)為注意力機(jī)制熱力圖,顏色越亮,注意力系數(shù)越大。經(jīng)圖9 對比可見,在骨導(dǎo)語音低頻部分系數(shù)注意力系數(shù)較大,說明本文時(shí)頻注意力機(jī)制引導(dǎo)模型在頻域上較好地學(xué)習(xí)了骨導(dǎo)語音的低頻語音信息與諧波結(jié)構(gòu)。
圖9 經(jīng)時(shí)頻注意力機(jī)制前后語音語譜圖對比Fig.9 Comparison of speech spectrograms before and after TFDA
為充分利用骨導(dǎo)語音小樣本數(shù)據(jù)集的時(shí)頻特征,我們將時(shí)頻注意力機(jī)制引入U(xiǎn)-Net結(jié)構(gòu)中,提出了結(jié)合時(shí)頻注意力機(jī)制和U-Net結(jié)構(gòu)的骨導(dǎo)語音魯棒增強(qiáng)方法。該方法首先對骨導(dǎo)語音譜沿時(shí)間、頻率方向按信息重要程度分配權(quán)重,對原輸入標(biāo)準(zhǔn)化后以對應(yīng)的氣導(dǎo)語音譜為目標(biāo)建立譜映射關(guān)系訓(xùn)練模型。仿真實(shí)驗(yàn)與注意力機(jī)制可視化分析結(jié)果表明與U-Net 基線以及結(jié)合其他注意力機(jī)制相比,所提出的結(jié)合時(shí)頻注意力機(jī)制的方法對于單說話人與未知說話人的骨導(dǎo)語音增強(qiáng)均獲得了最優(yōu)效果,體現(xiàn)了模型的魯棒性。