• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于注意力機制的時頻域語音增強模型

      2024-02-21 06:00:14何儒漢
      軟件導(dǎo)刊 2024年1期
      關(guān)鍵詞:掩碼頻域時域

      林 攀,何儒漢

      (1.武漢紡織大學(xué) 計算機與人工智能學(xué)院;2.湖北省服裝信息化工程技術(shù)研究中心,湖北 武漢 430200)

      0 引言

      各種類型的環(huán)境噪聲會極大地降低通信、自動語音識別以及助聽器的效果[1-2]。語音增強的目的是提升語音質(zhì)量和清晰度,從部分被噪聲污染的混合語音中恢復(fù)干凈語音。隨著深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks,DNN)的發(fā)展,研究人員提出大量基于DNN 的方法以提升語音增強效果。在低信噪比(Signal-to-Noise Ratio,SNR)條件下,基于DNN 的方法相較于基于統(tǒng)計信號處理的傳統(tǒng)方法,能夠更好地抑制非平穩(wěn)噪聲[4-5]。

      基于深度學(xué)習(xí)的單通道語音增強方法按照其工作的信號域可分為頻域、時域方法。頻域方法對頻譜圖進行研究,認(rèn)為經(jīng)過短時傅里葉變換后的頻譜圖能更精確地分離背景噪聲和干凈語音[6]。在通常情況下,頻域方法的訓(xùn)練目標(biāo)包括理想二進制掩模(Ideal Binary Mask,IBM)[7]、理想比率掩碼(Ideal Ratio Mask,IRM)[8]與最優(yōu)比掩模(Optimal ratio mask,ORM)[9]。但所有上述掩膜都僅考慮了幅度譜而忽視了相位信息,只是簡單地將估計的幅度譜與帶噪語音相位相結(jié)合來重新合成增強語音[10]。文獻(xiàn)[11]指出相位與語音的質(zhì)量及清晰度有很強的關(guān)系。為解決相位失配問題,時域方法可以對語音原始波形進行處理。時域方法可以分為直接回歸方法和自適應(yīng)前端方法兩類。直接回歸方法從帶噪語音波形直接學(xué)習(xí)到目標(biāo)語音的回歸函數(shù),其通常采用某種形式的一維卷積神經(jīng)網(wǎng)絡(luò)。自適應(yīng)前端方法在編解碼框架中插入語音增強網(wǎng)絡(luò),如時間卷積網(wǎng)絡(luò)(Temporal Convolutional Network,TCN)[12]和長短期記憶網(wǎng)絡(luò)(Long Short-term Memory Networks,LSTM)[13]等具有時間建模能力的網(wǎng)絡(luò)。文獻(xiàn)[14]指出采用長短期記憶(LSTM)層的遞歸神經(jīng)網(wǎng)絡(luò)進行語音增強,效果明顯優(yōu)于多層感知器。遞歸網(wǎng)絡(luò)要對所有頻率的串聯(lián)特征向量序列進行建模,具有相對較高的狀態(tài)向量維度,因而會產(chǎn)生大量參數(shù),嚴(yán)重限制了其適用范圍。殘差時間卷積網(wǎng)絡(luò)(Residual Network-Temporal Convolutional Network,ResTCN)利用膨脹卷積和殘差跳躍連接,在建模長期相關(guān)性方面表現(xiàn)出令人印象深刻的性能,并在語音增強方面取得了巨大成功。然而,語音和噪聲在頻譜表示上更容易區(qū)分,時域方法無法有效利用頻譜表示中的聲學(xué)信息。

      現(xiàn)有模型主要關(guān)注如何有效地對長期依賴關(guān)系進行建模,而通常忽略了語音在T-F 表示中的能量分布特征,這對于語音增強同樣重要。受注意力概念的啟發(fā)[15-16],本文提出一種新的架構(gòu)單元,稱為時頻注意力模塊,用于模擬語音的能量分布。具體而言,注意力模塊由兩個平行的注意力分支組成,即時間維度注意力和頻率維度注意力。其生成兩個一維注意力圖,引導(dǎo)模型分別關(guān)注“哪里”(哪些時間幀)和“什么”(哪些頻率信道),使得模型能夠捕獲語音分布。

      針對時域、頻域方法的不足,本文在文獻(xiàn)[17]基礎(chǔ)上作出以下貢獻(xiàn):

      (1)為了實現(xiàn)時域、頻域兩個領(lǐng)域的優(yōu)勢互補,進一步提取來自兩個不同領(lǐng)域特征之間共享的信息,本文通過連接時域與頻域的特征來構(gòu)建時間和頻率特征圖。

      (2)提出時頻注意力模塊,使得模型能夠捕獲時頻域特征中的語音分布情況。

      (3)聯(lián)合時域、頻域損失函數(shù),提升語音增強模型的性能。

      1 相關(guān)工作

      1.1 基于深度學(xué)習(xí)的語音增強算法

      在單通道語音增強中,帶噪語音信號可由公式(1)表示。其中,x(t)為干凈語音,n(t)為背景噪聲,語音增強從帶噪語音y(t)中估計增強語音信號x(t),使得x(t)與x(t)的差異盡可能小。干凈語音中疊加了不同類型的噪聲和各種信噪比變化,因此需要提高增強模型的泛化性,并提高其去除不同類型噪聲的能力。

      基于深度學(xué)習(xí)的語音增強模型如圖1 所示,神經(jīng)網(wǎng)絡(luò)從已知的帶噪語音數(shù)據(jù)中學(xué)習(xí)到干凈語音特征空間的函數(shù)映射。網(wǎng)絡(luò)的輸入可以是音頻原始波形,也可以是頻譜特征。網(wǎng)絡(luò)的輸出是時頻掩碼估計值,利用得到的掩碼與輸入進行掩膜操作,得到增強語音的估計。

      Fig.1 Voice enhancement flow圖1 語音增強流程

      為了提升模型在不同信噪比條件下的去噪性能,研究人員提出了大量改進算法。語音信號作為一種時序信號,具有很強的上下文關(guān)聯(lián)性。卷積神經(jīng)網(wǎng)絡(luò)不具備直接利用上下文的能力,常常通過拼接相鄰幀的方法擴大上下文窗口。循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Netural Network,RNN)按照順序處理時序信號,不能大規(guī)模并行處理時間序列。上述方法通常會引入大量無關(guān)信息或存在不能充分關(guān)聯(lián)上下文信息的弊端。因此,可使用時間卷積神經(jīng)網(wǎng)絡(luò)(TCN)維護語音信號中的時間信息。TCN 具有大規(guī)模并行處理的能力,降低了空間復(fù)雜度,提升了學(xué)習(xí)效率,其結(jié)合了因果層和膨脹卷積層來加強因果約束。與傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)不同,因果卷積是一種只看到歷史信息的單向模型,但其時間建模長度受到卷積核大小限制。為了解決該問題,膨脹的卷積可通過間隔采樣來增加接受野。此外,TCN 使用殘差學(xué)習(xí)以避免深度網(wǎng)絡(luò)中的梯度消失或爆炸問題。

      1.2 注意力模塊在語音增強中的應(yīng)用

      基于Transformer 的語音增強模型可以有效對語音上下文信息進行編碼,學(xué)習(xí)語音序列中的相互依賴關(guān)系。TST-NN 模型[18]在編碼器、解碼器中使用雙路徑Transformer 以擴大網(wǎng)絡(luò)注意范圍,可用于語音信息聚合。TU-NET在Transformer 基礎(chǔ)上結(jié)合UNET 多尺度特征融合,以提升語音增強性能。然而,現(xiàn)有模型更多關(guān)注對長時間依賴關(guān)系的建模,忽視了語音在頻域中的能量分布特征,而能量分布特征對預(yù)測掩膜具有重要意義。本文使用時頻注意力模塊對特征圖進行加權(quán)處理,利用兩個并行分支得到語音能量分布的兩個描述符,用來突出相關(guān)特征,弱化噪聲特征。

      2 系統(tǒng)描述

      本文提出一種新穎的單通道語音增強模型,對應(yīng)的框架如圖2 所示。其由混合域編碼器、掩碼估計網(wǎng)絡(luò)和解碼器組成。該框架可以同時利用語音信號的時、頻域特征來協(xié)同提高語音序列的性能。因為噪聲在頻域上更具有區(qū)分性,而時域可以避免頻域方法相位失配的問題。為了有效捕獲時間信息并考慮輸入信號中的長期依賴關(guān)系,使用殘差時間卷積(ResTCNs)來創(chuàng)建掩碼估計網(wǎng)絡(luò)。同時使用時頻注意力模塊模擬語音的能量分布,其由兩個平行的注意力分支組成,即時間注意力維度和頻率注意力維度,使得模型能夠捕獲長程時間和頻率相關(guān)性。下面將詳細(xì)介紹相關(guān)工作。

      Fig.2 Model structure圖2 模型結(jié)構(gòu)

      2.1 編碼器

      如圖2 左側(cè)所示,編碼器結(jié)構(gòu)由兩個并行過程組成:一維卷積和短時傅里葉變換。將輸入的噪聲語音信號分別轉(zhuǎn)換為時域和頻域特征,時域特征要經(jīng)過如圖3 所示的分割操作后與頻譜特征進行拼接,時域特征分割與雙路徑遞歸神經(jīng)網(wǎng)絡(luò)(DUAL-PATH RNN,DPRNN)[19]中的操作相似。將長度為T、寬度為N 的時域特征分割出S 個長度為2P、寬度為N 的數(shù)據(jù)塊,片段間的重疊率為50%。為了正確地集成來自不同域的兩個特征,本文為兩個域設(shè)置了相同的窗口大小和跨距。將頻譜特征與分割后的數(shù)據(jù)塊時間幀對齊進行拼接。

      Fig.3 Speech sequence segmentation圖3 語音序列分割

      2.2 掩碼估計網(wǎng)絡(luò)

      掩碼估計網(wǎng)絡(luò)輸出權(quán)重掩膜,以實現(xiàn)去除噪聲、提取干凈語音的目的。為了有效地捕獲時間信息,并考慮語音信號中幀的長期依賴性,可以通過堆疊BiLSTM[20]或膨脹卷積層(如時間卷積網(wǎng)絡(luò)TCN)來創(chuàng)建掩碼估計網(wǎng)絡(luò)。膨脹卷積通過間隔采樣來擴大感受野,能看到的輸入層信息更多。圖4 展示了膨脹因果卷積結(jié)構(gòu),圖中輸出層可以看到輸入層前15 結(jié)點的信息。伴隨著膨脹因子d 的增大,輸出層的感受野也越來越大。本文在TCN 的基礎(chǔ)上嵌入一維殘差網(wǎng)絡(luò),以增強模型對局部語音特征的學(xué)習(xí)能力。

      Fig.4 Expanded causal convolution structure圖4 膨脹因果卷積結(jié)構(gòu)

      2.3 時頻注意力模塊

      本文提出新的注意力模塊用來捕獲時間和頻率相關(guān)性,如圖5所示。

      該模塊由兩個注意力分支組成,即時間維度和頻率維度。每個注意力分支通過兩個步驟生成注意力圖:全局信息聚合和注意力生成。注意力圖能準(zhǔn)確反映語音在時間維度和頻率維度上的能量分布。對給定的輸入Y∈RM×N沿著時間幀維度和頻率維度進行全局平均池化,生成頻率統(tǒng)計信息ZF∈R1×N和時間幀上的統(tǒng)計信息ZT∈R1×M。具體公式為:

      由此得到時間幀與頻率維度上語音能量分布的兩個描述符ZT和ZF,同時使用兩個堆疊的一維卷積層作為非線性變換函數(shù)來準(zhǔn)確地生成注意力權(quán)重。其計算公式如下:

      將得到的分支注意力圖相乘,得到時頻注意力圖:

      2.4 解碼器

      將混合域特征映射乘以掩碼之后,本文將掩蔽的編碼特征分解為其原始分量:卷積特征圖和頻域譜圖。本文從每個單獨的域重構(gòu)原始信號波形,時域特征通過一個反卷積層,然后采用重疊相加的方法來重構(gòu)信號。頻域特征用傅立葉逆變換導(dǎo)出,將具有權(quán)重參數(shù)α 的兩個分量加權(quán)和作為估計的增強信號。

      2.5 損失函數(shù)

      為了提高語音的清晰度和感知質(zhì)量,本文的損失函數(shù)結(jié)合了時域和頻域信息,可以監(jiān)督模型學(xué)習(xí)時頻域中的更多信息。其中,頻譜圖的損失函數(shù)定義為:

      式中,X、分別代表干凈語音和增強語音的頻譜圖,r、i 分別代表STFT 變換后的實部和虛部,T、F 分別代表時間幀和頻率段數(shù)量。時域損失可定義為去噪語音與干凈語音之間的均方誤差(Mean Squared Error,MSE)。具體公式為:

      式中,Xi分別表示干凈語音和增強語音,N 表示語音序列長度。本文采取的損失函數(shù)結(jié)合了時域和頻域信息,公式如下:

      式中,α是一個可調(diào)參數(shù),本文將其設(shè)置為0.2。

      2.6 數(shù)據(jù)增強

      研究表明,在訓(xùn)練階段增加數(shù)據(jù)的多樣性可以增強模型學(xué)習(xí)不同特征的能力。因此,本文采用3 種數(shù)據(jù)增強方案:

      (1)改變速度。針對原始輸入語音波形,通過速度函數(shù)SOX 改變其輸入信號的速度,并改變語音的音調(diào)。其是一種簡單、有效的聲學(xué)建模技術(shù),被廣泛應(yīng)用于語音增強中。

      (2)時移。時移是一種簡單的音頻數(shù)據(jù)增強方法,其將音頻數(shù)據(jù)向左或向右移動f 秒。本文實驗統(tǒng)一選擇向右移隨機移動0~0.625 s。

      (3)樣本掩蔽。將語音樣本的掩碼部分置零,從而使得被掩蔽的語音保持靜音。該方法鼓勵模型通過考慮上下文信息來預(yù)測干凈的波形。樣本掩蔽中有兩個超參數(shù):每個掩碼的長度(t)和最大掩碼數(shù)量(m)。通過實驗,本文將t設(shè)置為固定值10,m 的取值區(qū)間為[0,150]。

      3 實驗與分析

      3.1 數(shù)據(jù)集

      為驗證本文語音增強系統(tǒng)的有效性,采用公開、標(biāo)準(zhǔn)的語音語料庫。干凈語音從VoiceBank[21]中選取,根據(jù)說話者數(shù)量建立了兩個子數(shù)據(jù)庫:一個包含28 名說話者(14名男性,14 名女性),具有相同的英式口音;另一個包含56名說話者(28 名男性,28 名女性),具有不同口音(英式,美式)。從DEMAND[22]語料庫中選取10 種不同噪聲類型合成帶噪語音,噪聲包括8 種真實噪聲和2 種人工產(chǎn)生的噪聲。具體而言,8 種真實噪聲類型包括家庭廚房噪聲、會議室噪聲,以及3 種公共空間噪聲(包括食堂、餐廳和地鐵站)、2 種交通工具噪聲(包括汽車和地鐵)與繁忙的交通十字路口噪聲。2 種人工產(chǎn)生的噪聲分別是通過增加白噪聲產(chǎn)生的語音型噪聲和通過增加語音產(chǎn)生的干擾噪聲。在訓(xùn)練集中選取每位說話者10 條干凈語音,將信噪比(SNR)值分別設(shè)置為15 dB、10 dB、5 dB 和0 dB。因此,每位說話者能產(chǎn)生400 條噪聲語音。每一個干凈的語音波形都會被歸一化,當(dāng)無聲片段在開始和結(jié)束時超過200 ms 時,將被修剪掉。測試集選取兩位說話者(一名男性,一名女性),從DEMAND 數(shù)據(jù)庫中選擇了另外5 種噪聲類型,包括1 種家庭客廳的噪聲、1 種辦公室噪聲、1 種公共汽車的交通噪聲和2 種街道噪聲。信噪比分別為2.5 dB、7.5 dB、12.5 dB 和17.5 dB。

      3.2 實驗設(shè)置

      本實驗中語音采樣率均為16 kHz,編碼器中使用短時傅里葉變換時,利用漢寧窗函數(shù),設(shè)置FFT 大小為512,幀大小與幀移位分別為64 和32。對于增強網(wǎng)絡(luò),混合特征圖首先經(jīng)過具有256 個濾波器的一維卷積塊,然后是8 個殘差一維卷積模塊(膨脹率為1,2,…,128),重復(fù)3 次。在訓(xùn)練過程中,設(shè)置模型學(xué)習(xí)率為0.000 5,Epoch 總數(shù)為100,選取Adam 作為參數(shù)更新的優(yōu)化器。在評估方面,采用的指標(biāo)為語音質(zhì)量感知(PESQ)[23]、信號失真比(SISDR)[24]、擴展短時目標(biāo)可懂度(ESTOI)[25]與噪聲失真測度(CBAK)[26],上述指標(biāo)數(shù)值越大,效果越好。

      3.3 實驗結(jié)果分析

      表1、表2 展現(xiàn)了不同SNR 條件下STOI、PESQ 的得分情況。實驗結(jié)果表明,本文采用的ResTCN+時頻注意力的方法性能最好,證實了注意力模塊的有效性。在3 種基線模型中,多頭自注意力網(wǎng)絡(luò)(MHANet)的性能最好。同時,ResTCN+頻域注意力和ResTCN+時域注意力相比ResTCN也有了實質(zhì)性改進。

      Table 1 Average ESTOI scores under different SNRs表1 不同信噪比下的STOI平均得分

      Table 2 Average PESQ scores under differenent SNRs表2 不同信噪比下的PESQ平均得分

      圖6 可進一步驗證上述結(jié)果,圖中紅圈標(biāo)記表明,使用時頻注意力模塊后的局部去噪效果更好。本文提出的方法去除了大部分低頻噪聲,增強后的語音十分接近干凈語音。

      Fig.6 Spectrogram of noise reduction results圖6 降噪結(jié)果頻譜圖

      為驗證數(shù)據(jù)增強對實驗性能的影響,消融實驗結(jié)果如表3 所示。結(jié)果表明,樣本掩蔽方法對結(jié)果的影響最大,對實驗性能的提升最為顯著。

      Table 3 Results of ablation experiment表3 消融實驗結(jié)果

      為進一步驗證本文方法的有效性,與SEGAN[27]、ConvTasNet[28]、PHASE[29]、TCN 方法進行比較,結(jié)果如表4 所示。其中,SEGAN、ConvTasNet 是時域方法,編碼器用一維卷積提取時域特征;PHASE、TCN 是頻域方法,編碼器用短時傅里葉變換提取頻譜圖。結(jié)果表明,本文方法在PESQ、SI-SDR、CBAK 上的得分優(yōu)于上述方法,表明在編碼器中融合特征能提高語音增強效果。

      Table 4 Comparison of experimental results of different methods表4 不同方法實驗結(jié)果比較

      4 結(jié)語

      本文將時域與頻域特征相結(jié)合,利用兩個領(lǐng)域的不同優(yōu)勢提升語音增強性能,同時提出一種輕量級時頻注意力模塊,可在T-F 表示中模擬語音的能量分布。在基線模型上進行了廣泛實驗,結(jié)果表明,本文提出的ResTCN+時頻注意力方法始終表現(xiàn)最佳。未來還可以研究不同訓(xùn)練目標(biāo)和損失函數(shù)對語音增強任務(wù)的影響,將語音增強技術(shù)擴展到真實語音噪聲環(huán)境中,如去混響、多目標(biāo)語音自動識別等任務(wù)上。

      猜你喜歡
      掩碼頻域時域
      低面積復(fù)雜度AES低熵掩碼方案的研究
      基于時域信號的三電平逆變器復(fù)合故障診斷
      頻域稀疏毫米波人體安檢成像處理和快速成像稀疏陣列設(shè)計
      基于布爾異或掩碼轉(zhuǎn)算術(shù)加法掩碼的安全設(shè)計*
      基于極大似然準(zhǔn)則與滾動時域估計的自適應(yīng)UKF算法
      基于改進Radon-Wigner變換的目標(biāo)和拖曳式誘餌頻域分離
      基于時域逆濾波的寬帶脈沖聲生成技術(shù)
      一種基于頻域的QPSK窄帶干擾抑制算法
      基于頻域伸縮的改進DFT算法
      電測與儀表(2015年3期)2015-04-09 11:37:24
      基于時域波形特征的輸電線雷擊識別
      電測與儀表(2015年2期)2015-04-09 11:28:50
      舒兰市| 靖安县| 鄢陵县| 吉隆县| 吉木萨尔县| 承德县| 尉犁县| 常山县| 嘉荫县| 德阳市| 泸水县| 龙游县| 二手房| 思南县| 剑川县| 东光县| 丰县| 江口县| 积石山| 夏邑县| 白沙| 通河县| 大足县| 阜阳市| 南宁市| 巴彦县| 高邮市| 永康市| 灵石县| 开鲁县| 紫金县| 肥城市| 雷山县| 汨罗市| 绥江县| 中西区| 双牌县| 勐海县| 柘城县| 内江市| 玉门市|