摘 要:針對(duì)語(yǔ)音增強(qiáng)網(wǎng)絡(luò)對(duì)全局語(yǔ)音相關(guān)特征提取困難、對(duì)語(yǔ)音局部上下文信息的捕捉效果不佳的問(wèn)題,提出了一種基于雙分支注意力U-Net的時(shí)域語(yǔ)音增強(qiáng)方法,該方法使用U-Net編碼器-解碼器結(jié)構(gòu),將單通道帶噪語(yǔ)音經(jīng)過(guò)一維卷積后得到的高維時(shí)域特征作為輸入。首先利用殘差連接設(shè)計(jì)了基于Conformer的殘差卷積來(lái)增強(qiáng)網(wǎng)絡(luò)降噪的能力。其次設(shè)計(jì)了雙分支注意力機(jī)制結(jié)構(gòu),利用全局和局部注意力獲取帶噪語(yǔ)音中更豐富的上下文信息,同時(shí)有效表示長(zhǎng)序列特征,提取更多樣的特征信息。最后結(jié)合時(shí)域頻域損失函數(shù)構(gòu)建了加權(quán)損失函數(shù)對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,提高網(wǎng)絡(luò)的語(yǔ)音增強(qiáng)性能。使用了多個(gè)指標(biāo)對(duì)增強(qiáng)語(yǔ)音的質(zhì)量和可懂度等進(jìn)行評(píng)價(jià),在公開(kāi)數(shù)據(jù)集Voice Bank+DEMAND上的增強(qiáng)后的語(yǔ)音感知質(zhì)量(PESQ)為3.11,短時(shí)可懂度(STOI)為95%,信號(hào)失真度(CSIG)為4.44,噪聲失真測(cè)(CBAK)為3.60,綜合質(zhì)量測(cè)度(COVL)為3.81,其中PESQ相較于SE-Conformer提高了7.6%,相較于TSTNN提高了5.1%。實(shí)驗(yàn)結(jié)果表明,所提方法在語(yǔ)音降噪的各個(gè)指標(biāo)都表現(xiàn)出更優(yōu)的實(shí)驗(yàn)結(jié)果,能夠完成語(yǔ)音增強(qiáng)任務(wù)的相關(guān)要求。
關(guān)鍵詞:語(yǔ)音增強(qiáng); 雙分支注意力機(jī)制; 時(shí)域; 單通道
中圖分類號(hào):TN912.35文獻(xiàn)標(biāo)志碼: A文章編號(hào):1001-3695(2024)04-022-1112-05
doi:10.19734/j.issn.1001-3695.2023.09.0374
Speech enhancement method based on two-branch attention and U-Net
Cao Jie Wang Chenzhang Liang Haopeng Wang Qiao Li Xiaoxu1
Abstract:Aiming at the problem that speech enhancement networks have difficulty in extracting global speech-related features and are ineffective in capturing local contextual information of speech. This paper proposed a two-branch attention and U-Net-based time-domain speech enhancement method, which used a U-Net encoder-decoder structure and took the high-dimensional time-domain features obtained from a single-channel noisy speech after one-dimensional convolution as input. Firstly, this paper designed Conformer-based residual convolution to enhance the noise reduction ability of network by utilizing residual connection. Secondly, this paper designed a two-branch attention mechanism structure, which utilized global and local attention to obtain richer contextual information in the noisy speech, and at the same time, to effectively represent the long sequence features and extract more diverse feature information. Finally, this paper constructed a weighted loss function by combining the loss function in the time domain and frequency domain to train the network and improve the performance in speech enhancement. This paper used several metrics to evaluate the quality and intelligibility of the enhanced speech, the enhanced speech perceptual evaluation of speech quality(PESQ) on the public datasets Voice Bank+DEMAND is 3.1 the short-time objective intelligibility(STOI) is 95%, the composite measure for predicting signal rating(CSIG) is 4.44, the composite measure for predicting background noise(CBAK) is 3.60, and the composite measure for predicting overall processed speech quality(COVL) is 3.8 in which the PESQ is improved by 7.6% compared to SE-Conformer, and improved by 5.1% compared to TSTNN improved by 5.1%. Experimental results show that the proposed method achieves better results in various metrics of speech denoising and meets the requirements for speech enhancement tasks.
Key words:speech enhancement; two-branch attention; time domain; single channel
0 引言
環(huán)境噪聲常常阻礙人類之間正常有效的語(yǔ)音交流,因此語(yǔ)音增強(qiáng)技術(shù)應(yīng)運(yùn)而生。語(yǔ)音增強(qiáng)的主要目的是利用技術(shù)手段抑制背景噪聲的干擾,從而提高帶噪聲語(yǔ)音信號(hào)的質(zhì)量和清晰度[1]。在語(yǔ)音相關(guān)領(lǐng)域,語(yǔ)音增強(qiáng)技術(shù)扮演著非常重要的角色,主要被應(yīng)用于自動(dòng)語(yǔ)音識(shí)別、助聽(tīng)器和移動(dòng)通信等場(chǎng)景。
目前,常見(jiàn)的語(yǔ)音增強(qiáng)分為傳統(tǒng)語(yǔ)音增強(qiáng)方法和基于深度學(xué)習(xí)的增強(qiáng)方法。傳統(tǒng)語(yǔ)音增強(qiáng)方法包括譜減法[2]、子空間法 [3]、維納濾波法[4]等。傳統(tǒng)語(yǔ)音增強(qiáng)方法通?;谔囟ǖ臄?shù)學(xué)或物理?xiàng)l件,在處理平穩(wěn)噪聲時(shí)可以取得較好的效果,但當(dāng)面臨非平穩(wěn)噪聲和低信噪比情況,以及真實(shí)環(huán)境下的復(fù)雜噪聲時(shí),此類方法往往不能有效地區(qū)分噪聲和純凈語(yǔ)音信號(hào),也不能對(duì)噪聲進(jìn)行準(zhǔn)確的建模和估計(jì),最終導(dǎo)致語(yǔ)音失真和音樂(lè)噪聲等問(wèn)題。隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展,基于深度學(xué)習(xí)的語(yǔ)音增強(qiáng)方法得到廣泛研究。與傳統(tǒng)方法相比,基于深度學(xué)習(xí)的語(yǔ)音增強(qiáng)方法不需要對(duì)信號(hào)作出額外的條件假設(shè),并且在非平穩(wěn)噪聲環(huán)境下具有更好的魯棒性,因此可以有效處理低信噪比的帶噪語(yǔ)音信號(hào)。而根據(jù)信號(hào)域處理方式的不同,基于深度學(xué)習(xí)的語(yǔ)音增強(qiáng)方法分為頻域方法和時(shí)域方法。
在頻域方法中,原始信號(hào)首先通過(guò)短時(shí)傅里葉變換(short time Fourier transform,STFT)生成頻譜圖,然后利用基于深度學(xué)習(xí)的技術(shù)對(duì)頻譜圖進(jìn)行處理和估計(jì),以重建純凈語(yǔ)音。然而,頻域方法需要同時(shí)處理幅度和相位信息,導(dǎo)致模型的復(fù)雜性增加。因此,頻域方法需要更多的訓(xùn)練數(shù)據(jù)和更高的計(jì)算能力來(lái)支持其訓(xùn)練和推理。時(shí)域方法直接從帶噪語(yǔ)音信號(hào)中估計(jì)純凈語(yǔ)音信號(hào),避免了頻域方法中的短時(shí)傅里葉變換過(guò)程,降低了模型的復(fù)雜度和計(jì)算復(fù)雜度。此外,基于時(shí)域的方法能夠更好地處理語(yǔ)音信號(hào)中的時(shí)序信息,提高語(yǔ)音增強(qiáng)的穩(wěn)定性。但是,基于時(shí)域的方法也存在著挑戰(zhàn),例如需要解決信號(hào)的相位問(wèn)題和語(yǔ)音中的非線性失真問(wèn)題。
由于語(yǔ)音信號(hào)與時(shí)間序列直接相關(guān),所以建模時(shí)需要考慮上下文信息。獲取原始信號(hào)的全局依賴關(guān)系和局部信息建模是語(yǔ)音增強(qiáng)的重要環(huán)節(jié)。為此,循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)[5]通常被用于長(zhǎng)距離語(yǔ)音序列的建模。RNN包括長(zhǎng)短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)[6]和門(mén)控循環(huán)單元網(wǎng)絡(luò)(gated recurrent unit,GRU)等模型。Le等人[7]提出了具有頻帶分割的RNN,可以縮放網(wǎng)絡(luò)中的子帶特征。這些模型可以有效地學(xué)習(xí)上下文信息,但存在不能并行處理的缺點(diǎn),導(dǎo)致處理速度較慢,在面對(duì)語(yǔ)音這種較長(zhǎng)時(shí)間相關(guān)的序列時(shí),容易忘記之前提取的信息,因此對(duì)特征提取能力仍然有限。另一方面,基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)[8]的模型可以并行處理時(shí)間信息,但需要更多的卷積層來(lái)擴(kuò)大感受野,增加了模型訓(xùn)練的困難和時(shí)間成本,并且這種基于卷積的語(yǔ)音增強(qiáng)模型會(huì)對(duì)特征圖進(jìn)行縮小放大,很容易造成數(shù)據(jù)的丟失,且對(duì)語(yǔ)音的強(qiáng)時(shí)間序列相關(guān)性建模能力仍然有所欠缺,對(duì)局部信息的提取不充分。此外,CAUNet[9]提出了雙階段Transformer網(wǎng)絡(luò),應(yīng)用在傳輸層來(lái)獲取語(yǔ)音的上下文信息;Zheng等人[10]提出了具有動(dòng)態(tài)注意力跨度的語(yǔ)音增強(qiáng)模型,可以自適應(yīng)地改變感受野;Hu等人[11]提出了對(duì)輸入噪聲進(jìn)行全局依賴性建模的wav2code以實(shí)現(xiàn)更多的特征提?。桓吒甑热耍?2]提出了基于映射的聲紋嵌入方法,避免了掩膜方案帶來(lái)的語(yǔ)音失真問(wèn)題;U-Former[13]則是在傳輸層和跳躍連接應(yīng)用了多頭注意力來(lái)提高網(wǎng)絡(luò)的語(yǔ)音增強(qiáng)效果。雖然上述方法取得了一定的效果,但仍存在一些問(wèn)題:a)使用大量擴(kuò)張密集塊和多頭注意力等方法,使得網(wǎng)絡(luò)參數(shù)量大且網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜,對(duì)語(yǔ)音長(zhǎng)序列輸入的全局和局部特征的提取能力有限;b)大部分語(yǔ)音增強(qiáng)模型僅關(guān)注全局依賴關(guān)系,忽略了局部信息的重要性,無(wú)法充分利用局部信息,降低了語(yǔ)音增強(qiáng)模型的效果;c)僅使用時(shí)域或者頻域的損失函數(shù),無(wú)法同時(shí)學(xué)習(xí)語(yǔ)音的時(shí)域頻域特征,影響了模型在不同信噪比下的魯棒性。
為了解決上述問(wèn)題,本文提出了一種包含全局和局部注意力機(jī)制的雙分支注意力機(jī)制(two-branch attention,TBA),并結(jié)合了U-Net[14]結(jié)構(gòu)構(gòu)建了單通道語(yǔ)音增強(qiáng)模型TBAU-Net。TBAU-Net采用編碼器-解碼器結(jié)構(gòu),其中編碼器端用于提取語(yǔ)音信號(hào)的特征,解碼器端用于重建增強(qiáng)語(yǔ)音。TBAU-Net內(nèi)部的雙分支注意力模塊包含全局和局部注意力,其中全局注意力負(fù)責(zé)捕獲全局語(yǔ)境信息,局部注意力負(fù)責(zé)提取局部語(yǔ)境信息,從而使網(wǎng)絡(luò)更好地適應(yīng)不同的語(yǔ)音場(chǎng)景。本文的主要貢獻(xiàn)如下:a)提出一種雙分支注意力機(jī)制,將全局注意力、局部注意力結(jié)合,同時(shí)關(guān)注輸入語(yǔ)音信號(hào)的全局特征和局部特征之間的差異與聯(lián)系;b)提出了具有殘差連接的殘差卷積塊,利用逐點(diǎn)卷積進(jìn)行殘差連接,防止重要特征丟失,進(jìn)一步提升網(wǎng)絡(luò)的特征提取能力;c)引入了一種聯(lián)合了時(shí)域和頻域的加權(quán)損失函數(shù),幫助網(wǎng)絡(luò)在訓(xùn)練過(guò)程中同時(shí)學(xué)習(xí)語(yǔ)音的時(shí)域和頻域特征,以取得更好的訓(xùn)練效果;d)設(shè)計(jì)了具有跳躍連接的U型編碼解碼器的雙分支注意力時(shí)域語(yǔ)音增強(qiáng)網(wǎng)絡(luò)TBAU-Net,顯著提高了增強(qiáng)語(yǔ)音的語(yǔ)音質(zhì)量感知評(píng)估指標(biāo)。
1 本文方法
1.1 TBAU-Net模型結(jié)構(gòu)
本文提出了一種具有雙分支的注意力機(jī)制,并結(jié)合 U-Net結(jié)構(gòu)設(shè)計(jì)了 TBAU-Net模型,結(jié)構(gòu)如圖1所示。TBAU-Net采用編碼器-解碼器結(jié)構(gòu),模型包含了卷積層、編碼器層、解碼器層、基于Conformer的殘差卷積模塊、雙分支注意力模塊和掩碼門(mén)。其中,卷積層用于提取輸入信號(hào)特征,編碼器層提取輸入語(yǔ)音的時(shí)域特征,解碼器層重建時(shí)域信號(hào),基于Conformer的殘差卷積模塊將多個(gè)卷積組合起來(lái)提取更復(fù)雜的特征表示,雙分支注意力模塊用于提取上下文信息,掩碼門(mén)用來(lái)處理解碼器層的輸出,將掩碼門(mén)作用在最后一個(gè)解碼器的輸出得到掩碼。
基于TBAU-Net模型的數(shù)據(jù)增強(qiáng)方法流程介紹如下:含噪語(yǔ)音首先經(jīng)過(guò)上采樣等預(yù)處理之后,作為時(shí)域波形的方式輸入增強(qiáng)網(wǎng)絡(luò),并經(jīng)過(guò)1D卷積進(jìn)行處理,轉(zhuǎn)換為高維的時(shí)域特征。然后輸入到網(wǎng)絡(luò)主干TBAU-Net,通過(guò)在L層的編解碼器中的殘差Conformer卷積塊和雙分支注意力的處理,對(duì)輸入的特征進(jìn)行全局和局部維度的充分關(guān)注,之后經(jīng)過(guò)掩碼門(mén)過(guò)濾掉不相關(guān)的特征,與輸入的帶噪信號(hào)的時(shí)域特征相乘得到增強(qiáng)的語(yǔ)音,最后經(jīng)過(guò)1D反卷積還原純凈的語(yǔ)音信號(hào)。
1.2 編碼器層
編碼器層的作用是提取帶噪語(yǔ)音的時(shí)域特征。在編碼器層之前,模型使用一維卷積對(duì)輸入的帶噪語(yǔ)音進(jìn)行處理。一維卷積的輸入通道大小是1,并且會(huì)根據(jù)輸入信號(hào)自動(dòng)調(diào)整輸出通道大小,將時(shí)域信號(hào)轉(zhuǎn)換為高維的時(shí)域特征。在卷積操作之后,模型會(huì)對(duì)輸出進(jìn)行批量歸一化來(lái)加速模型訓(xùn)練,并使用ReLU激活函數(shù)緩解潛在的梯度消失問(wèn)題。
如圖1所示,編碼器由下采樣層和卷積模塊構(gòu)成,下采樣層用來(lái)縮減信號(hào)長(zhǎng)度。該層由一個(gè)卷積層、批量歸一化和ReLU激活函數(shù)組成。編碼器與解碼器之間的瓶頸層使用線性連接來(lái)傳遞編碼器的輸出,并且每個(gè)編碼器的輸出都通過(guò)殘差連接和對(duì)應(yīng)的解碼器輸入相連,以便在解碼器層更好地重建原始信號(hào)。為了減少顯存使用,加速模型訓(xùn)練,模型只在最后一個(gè)編碼器層加入了雙分支注意力模塊。
1.3 解碼器層
解碼器是編碼器的對(duì)稱表示,與編碼器層一一對(duì)應(yīng)。解碼器層的作用是重建時(shí)域信號(hào)。每個(gè)解碼器層包含與編碼器層相同的卷積模塊,不同的是下采樣層被替換為上采樣層,并且每個(gè)解碼器都包含了雙分支注意力模型。對(duì)于從傳輸層傳輸?shù)臄?shù)據(jù),首先與相同層數(shù)的解碼器的輸出進(jìn)行殘差連接再進(jìn)行處理。該操作可以有效地避免過(guò)擬合并降低模型復(fù)雜度。上采樣層使用轉(zhuǎn)置卷積而不是卷積,可以將壓縮特征擴(kuò)大到原始輸入信號(hào)的尺寸,以便將信號(hào)恢復(fù)成原始長(zhǎng)度。
1.4 基于Conformer的殘差卷積模塊盡
管Transformer[15]在自動(dòng)語(yǔ)音識(shí)別領(lǐng)域取得了良好的效果,但是其仍有難以抽取細(xì)粒度的局部特征的局限性,而CNN可以對(duì)局部特征進(jìn)行有效建模,Conformer[16]將兩者結(jié)合起來(lái)執(zhí)行自動(dòng)語(yǔ)音識(shí)別,取得了更好的效果。為了防止丟失重要信息,獲取豐富的信號(hào)表示,進(jìn)一步提升網(wǎng)絡(luò)提取特征的能力,本文在Conformer的基礎(chǔ)上,使用卷積層進(jìn)行殘差連接。如圖2所示,逐點(diǎn)卷積和深度卷積之后分別是GLU激活函數(shù)、批歸一化和swish激活函數(shù),再經(jīng)過(guò)dropout處理,最后使用卷積進(jìn)行殘差連接,結(jié)果經(jīng)過(guò)ReLU激活函數(shù)輸出。
綜上,帶有殘差連接的Conformer卷積塊可以在提取特征的時(shí)候保證重要特征的傳遞,提取輸入語(yǔ)音信號(hào)的細(xì)粒度局部特征,避免卷積操作帶來(lái)的因特征圖的縮放導(dǎo)致的數(shù)據(jù)丟失問(wèn)題,進(jìn)一步優(yōu)化網(wǎng)絡(luò)提取局部特征的能力。
1.5 雙分支注意力
基于Transformer的語(yǔ)音增強(qiáng)模型大部分僅關(guān)注全局依賴,忽略了局部特征對(duì)語(yǔ)音增強(qiáng)的重要性。因此,為了充分挖掘語(yǔ)音特征的長(zhǎng)短時(shí)相關(guān)性,充分提取輸入信號(hào)的上下文信息,本文提出了雙分支注意力。如圖3所示,輸入通過(guò)卷積層組成的兩個(gè)路徑,一維卷積的核大小均為3×1,步長(zhǎng)為1。一維卷積將通道大小由N調(diào)整為N/2。雙分支注意力模塊將輸入分割成兩個(gè)路徑,分別使用了全局注意力和局部注意力對(duì)全局信息和局部信息進(jìn)行特征提取,可以更有效地對(duì)語(yǔ)音信息進(jìn)行建模。模型采用重疊率為50%的分塊方法拆分每個(gè)分支的輸入信號(hào),其中P表示塊數(shù),C表示塊的大小。
1.6 掩碼門(mén)
掩碼門(mén)作用于解碼器的輸出得到掩碼m。如圖4所示,掩碼門(mén)由sigmoid、tanh和ReLU激活函數(shù)組成。解碼器層的輸出經(jīng)過(guò)sigmoid和tanh激活函數(shù)相乘來(lái)獲得估計(jì)的掩碼,然后再經(jīng)過(guò)ReLU激活,公式如下:
掩碼與帶噪語(yǔ)音經(jīng)過(guò)一維卷積之后,結(jié)果的每個(gè)元素相乘得到降噪后的語(yǔ)音信號(hào)。模型最后通過(guò)一維卷積將通道數(shù)從N減少至1。掩碼門(mén)過(guò)濾掉無(wú)關(guān)特征,使模型更精準(zhǔn)地學(xué)習(xí)到任務(wù)所需要的特征。
1.7 加權(quán)損失函數(shù)
語(yǔ)音增強(qiáng)的深度神經(jīng)網(wǎng)絡(luò)模型的輸入輸出特征和損失函數(shù)一般選擇相同的時(shí)域或頻域。但是時(shí)域語(yǔ)音增強(qiáng)的效果往往受限于均方誤差(mean square error,MSE)和平均絕對(duì)誤差(mean absolute error,MAE)的性能。并且頻域的語(yǔ)音增強(qiáng)建立的頻譜映射在最終轉(zhuǎn)換為時(shí)域波形時(shí)并不受學(xué)習(xí)過(guò)程的約束。因此為了讓損失函數(shù)在優(yōu)化網(wǎng)絡(luò)訓(xùn)練的過(guò)程中同時(shí)學(xué)習(xí)語(yǔ)音的時(shí)域頻域特征,提升增強(qiáng)語(yǔ)音的各項(xiàng)客觀主觀指標(biāo),本文提出結(jié)合L1(時(shí)域)損失和STFT損失(頻域)[17]來(lái)優(yōu)化模型。假設(shè)n是噪聲,輸入的信號(hào)定義為x=y+n。純凈語(yǔ)音和估計(jì)語(yǔ)音的損失是L1和STFT加權(quán)相加得到的。公式如下:
其中:α是可調(diào)參數(shù),用來(lái)平衡純凈語(yǔ)音與噪聲語(yǔ)音之間的比例,本文將其設(shè)置為0.7。綜上,結(jié)合了時(shí)域損失與頻域損失的聯(lián)合損失函數(shù)同時(shí)考慮了語(yǔ)音的時(shí)域和頻域信息,使模型可以更好地學(xué)習(xí)時(shí)域和頻域的特征,優(yōu)化了模型的訓(xùn)練,提高在面對(duì)不同信噪比時(shí)模型的魯棒性。
2 實(shí)驗(yàn)與結(jié)果分析
本文實(shí)驗(yàn)環(huán)境為14 vCPU Intel Xeon Gold 6330 CPU @ 2.00 GHz,GPU采用RTX 3090顯存24 GB,內(nèi)存80 GB。在此基礎(chǔ)上,服務(wù)器使用Ubuntu 20.04系統(tǒng),Python 3.8,CUDA11.3,PyTorch1.11.0的開(kāi)發(fā)環(huán)境。
2.1 數(shù)據(jù)集
本文的數(shù)據(jù)集采用合成語(yǔ)音,數(shù)據(jù)集的純凈語(yǔ)音來(lái)自Voice Bank數(shù)據(jù)集[19],噪聲來(lái)自DEMAND數(shù)據(jù)集[20]。
該訓(xùn)練集包含11 572條話語(yǔ),分別來(lái)自14名男性說(shuō)話人和14名女性說(shuō)話人。噪聲是從DEMAND數(shù)據(jù)集中隨機(jī)挑選10種噪聲,將純凈語(yǔ)音與噪聲混合生成帶噪語(yǔ)音。其中,訓(xùn)練集帶噪語(yǔ)音的信噪比包含15 dB、10 dB、5 dB和0 dB。測(cè)試集包含來(lái)自一名男性說(shuō)話人和一名女性說(shuō)話人的824個(gè)純凈語(yǔ)音,將其和從DEMAND數(shù)據(jù)庫(kù)中抽取的不同于訓(xùn)練集的噪聲混合作為帶噪語(yǔ)音。其中,測(cè)試集的信噪比包含17.5 dB、12.5 dB、7.5 dB和2.5 dB。模型使用訓(xùn)練集中的兩個(gè)說(shuō)話人作為驗(yàn)證集。
2.2 實(shí)驗(yàn)設(shè)置
實(shí)驗(yàn)中,對(duì)所有的輸入音頻信號(hào)降采樣至16 kHz。在訓(xùn)練過(guò)程中,本文將信號(hào)分割為4 s,重疊部分為1 s,并設(shè)置batchsize為8。Epoch的總數(shù)設(shè)置為300。本文選取Adam作為優(yōu)化器來(lái)優(yōu)化模型,Adam的學(xué)習(xí)率設(shè)置為0.000 01。本文將保存在驗(yàn)證集表現(xiàn)最好的權(quán)重作為模型訓(xùn)練的結(jié)果,并在測(cè)試集上進(jìn)行評(píng)估。
2.3 評(píng)估指標(biāo)
為了全面評(píng)估TBAU-Net和其他模型,本文采用的語(yǔ)音增強(qiáng)的性能評(píng)價(jià)指標(biāo)主要有客觀質(zhì)量指標(biāo)和主觀測(cè)試指標(biāo)兩大類。這些常用的評(píng)價(jià)指標(biāo),對(duì)語(yǔ)音恢復(fù)質(zhì)量、噪聲去除程度和語(yǔ)音可懂度等方面各有側(cè)重。采用客觀質(zhì)量指標(biāo)進(jìn)行評(píng)價(jià)可以量化算法的表現(xiàn),但是客觀質(zhì)量指標(biāo)并不能完全反映人耳的主觀感受。因此還需要采用主觀測(cè)試指標(biāo)來(lái)對(duì)語(yǔ)音增強(qiáng)算法的性能進(jìn)行評(píng)價(jià)。本文采用的客觀評(píng)價(jià)指標(biāo)包含語(yǔ)音質(zhì)量感知評(píng)估(percepyual evaluation of speech quality,PESQ) [21],用于評(píng)估語(yǔ)音質(zhì)量,計(jì)算過(guò)程包括了預(yù)處理、時(shí)間對(duì)齊、感知濾波、掩蔽效果等,其評(píng)分為-0.5~4.5,PESQ值越高則表明被測(cè)試的語(yǔ)音具有越好的聽(tīng)覺(jué)語(yǔ)音質(zhì)量;短時(shí)客觀可懂度(short-time objective intelligibility,STOI)[22],是衡量語(yǔ)音可懂度的重要指標(biāo)。對(duì)于語(yǔ)音信號(hào)中的一個(gè)單詞,只有能被聽(tīng)懂和不能被聽(tīng)懂兩種情況,從這個(gè)角度可以認(rèn)為可懂度是二值的,所以STOI的取值被量化在了0~1中,代表單詞被正確理解的百分比,其分?jǐn)?shù)為0~100%,用于描述語(yǔ)音清晰度數(shù)值,取值為1時(shí)表示語(yǔ)音能夠被充分理解。本文采用的主觀測(cè)試指標(biāo)包含預(yù)測(cè)語(yǔ)音信號(hào)失真的復(fù)合度量(composite measure for predicting signal rating,CSIG)[23],即語(yǔ)音信號(hào)的平均意見(jiàn)分;預(yù)測(cè)背景噪聲影響的復(fù)合度量(composite measure for predicting background noise,CBAK)[23],即背景噪聲影響的平均意見(jiàn)分;預(yù)測(cè)整體語(yǔ)音質(zhì)量的復(fù)合度量(composite measure for predicting overall processed speech quality,COVL)[23],即整體語(yǔ)音質(zhì)量的平均意見(jiàn)分。上述指標(biāo)均是數(shù)值越大,代表語(yǔ)音增強(qiáng)效果越好。
2.4 消融實(shí)驗(yàn)
為了驗(yàn)證算法及雙分支注意力模塊和加權(quán)損失函數(shù)對(duì)模型的有效性,本文還對(duì)這兩個(gè)部分做了消融實(shí)驗(yàn)。
從表1可以得知,加權(quán)損失函數(shù)使PESQ指標(biāo)提升了0.08,表明了同時(shí)學(xué)習(xí)時(shí)域和頻域信息對(duì)提高語(yǔ)音增強(qiáng)結(jié)果的有效性;在加入局部注意力模塊后,PESQ得分相較于僅使用加權(quán)損失函數(shù)提升了0.07,表明了學(xué)習(xí)語(yǔ)音的局部特征的有效性;在加入全局注意力后,PESQ得分略高于只加入局部注意力,提升了0.03,比僅加入加權(quán)損失提高了0.1,表明了學(xué)習(xí)語(yǔ)音全局特征的有效性,并且全局注意力在TBAU-Net中的作用略高于局部注意力;在同時(shí)加入全局注意力和局部注意力后,所得PESQ分?jǐn)?shù)最高,相較于僅使用加權(quán)損失提高了0.16,證明了同時(shí)學(xué)習(xí)語(yǔ)音的局部和全局特征,對(duì)提高語(yǔ)音增強(qiáng)效果起著重要作用。
2.5 結(jié)果分析
為了進(jìn)一步說(shuō)明本文所提出的語(yǔ)音增強(qiáng)算法的有效性,與近年來(lái)的其他語(yǔ)音增強(qiáng)模型進(jìn)行比較。基線模型包括SEGAN[24]、Wave U-Net[25]、PHASEN[26]、TSTNN[27]、CAU-Net[8]、MetricGAN[28]、MetricGAN+[29]、DEMUCS(large)[17]和SE-Conformer[30]。為了客觀地評(píng)估本文模型的語(yǔ)音增強(qiáng)性能,在voice bank加demand數(shù)據(jù)集上與現(xiàn)有語(yǔ)音增強(qiáng)模型進(jìn)行對(duì)比,結(jié)果如表2所示,其中T代表模型基于時(shí)域,T-F表示模型基于時(shí)頻域。
由表2可知,相較于經(jīng)典和近幾年來(lái)的語(yǔ)音增強(qiáng)模型,本文模型在若干評(píng)價(jià)指標(biāo)上都取得了富有競(jìng)爭(zhēng)力的結(jié)果。例如,SE-Conformer模型同時(shí)關(guān)注整個(gè)語(yǔ)音序列, 并在潛在空間中使用自我關(guān)注和CNN進(jìn)行序列建模,取得了良好的降噪效果。相較于SE-Conformer,本文模型在CSIG和COVL雖略低,但是在PESQ指標(biāo)上取得了7.6%的提升,在CBAK指標(biāo)取得了1.4%的提升。相較于優(yōu)化了損失并在模型中添加可學(xué)習(xí)的sigmoid函數(shù),對(duì)不同頻率段有更強(qiáng)適應(yīng)性的MetricGAN+, CSIG、CBAK、COVL分別提升了7.2%、13.9%、4.7%。與DEMUCS(large)和Wave U-Net相比,TBAU-Net的參數(shù)量分別減少了105.2 MB和16.8 MB,表明本文方法在實(shí)現(xiàn)較好的語(yǔ)音增強(qiáng)性能的同時(shí)參數(shù)較少。PESQ作為衡量語(yǔ)音增強(qiáng)結(jié)果的常用重要客觀指標(biāo),可以體現(xiàn)增強(qiáng)后的語(yǔ)音質(zhì)量的優(yōu)劣,本文模型取得了3.11的PESQ分?jǐn)?shù),高于現(xiàn)有的時(shí)域語(yǔ)音增強(qiáng)模型,表明本文模型可以完成語(yǔ)音增強(qiáng)的任務(wù)。
圖5為本文模型與時(shí)域方法DEMUCS(large)、TSTNN和Wave U-Net在輸入信號(hào)長(zhǎng)度為1~10 s的條件下對(duì)運(yùn)行速度進(jìn)行的比較結(jié)果。結(jié)果表明,得益于較少的堆疊注意力層,TBAU-Net具有較快的運(yùn)行速度。
綜上,本文模型無(wú)論在客觀評(píng)價(jià)指標(biāo),還是在主觀測(cè)試指標(biāo)上均取得了較大的提升。這些結(jié)果可以說(shuō)明本文模型在有著較好的語(yǔ)音降噪效果的情況下,還實(shí)現(xiàn)了較少的參數(shù)和較快的運(yùn)行速度。
圖6為本文對(duì)測(cè)試集結(jié)果的可視化,抽取了其中的一條語(yǔ)音,展示了混合噪聲之前的純凈語(yǔ)音、輸入的帶噪語(yǔ)音和增強(qiáng)后語(yǔ)音的波形圖和語(yǔ)譜圖。從圖6的波形圖結(jié)果可以看出,TBAU-Net模型增強(qiáng)的語(yǔ)音能有效去除噪聲信息,很大程度上接近純凈語(yǔ)音的波形圖。從圖6的語(yǔ)譜圖部分紅框標(biāo)注區(qū)域可以看出,經(jīng)過(guò)TBAU-Net模型增強(qiáng)的語(yǔ)音語(yǔ)譜圖很接近純凈語(yǔ)音的語(yǔ)譜圖,表明了TBAU-Net可以有效去除噪聲信息,達(dá)到語(yǔ)音增強(qiáng)的目的。這進(jìn)一步驗(yàn)證了所提出的雙分支注意力和時(shí)頻域聯(lián)合損失函數(shù),通過(guò)對(duì)語(yǔ)音全局和局部特征的學(xué)習(xí),以及結(jié)合時(shí)域和頻域的同時(shí)優(yōu)化訓(xùn)練的方法,有效還原了目標(biāo)語(yǔ)音。
3 結(jié)束語(yǔ)
針對(duì)目前深層神經(jīng)網(wǎng)絡(luò)面對(duì)語(yǔ)音增強(qiáng)任務(wù)中無(wú)法充分利用語(yǔ)音的全局相關(guān)性,以及對(duì)語(yǔ)音局部上下文信息的特征被忽略問(wèn)題,本文提出了雙分支注意力,有效地獲得了語(yǔ)音的全局和局部特征,建立得到具有殘差連接的卷積塊,利用了被忽略的殘差特征,增強(qiáng)了網(wǎng)絡(luò)的性能,最后利用以上模塊構(gòu)建了TBAU-Net模型實(shí)現(xiàn)語(yǔ)音增強(qiáng)。此外,引入了加權(quán)損失函數(shù)提高了網(wǎng)絡(luò)在訓(xùn)練過(guò)程中的魯棒性。實(shí)驗(yàn)結(jié)果表明,與其他時(shí)域、頻域方法相比,本文模型取得了較好的降噪效果。
在今后的工作中,將針對(duì)模型降噪的性能、內(nèi)存利用率和實(shí)時(shí)性進(jìn)行研究,盡可能在不同維度優(yōu)化算法。并且本文使用的數(shù)據(jù)集和測(cè)試集均是合成語(yǔ)音,現(xiàn)實(shí)世界的聲音還包含混響、回聲等噪聲,實(shí)現(xiàn)真實(shí)場(chǎng)景的語(yǔ)音增強(qiáng)還需進(jìn)一步研究。
參考文獻(xiàn):
[1]Benesty J, Makino S, Chen J. Speech enhancement[M].[s.l.]: Springer Science amp; Business Medi 2006.
[2]Boll S. Suppression of acoustic noise in speech using spectral subtraction[J].IEEE Trans on Acoustics, Speech, and Signal Processing , 1979, 27 (2): 113-20.
[3]Ephraim Y, Van Tress H L. A signal subspace approach for speech enhancement[J].IEEE Trans on Speech and Audio Proces-sing , 1995, 3 (4): 251-66.
[4]Zalevsky Z, Mendlovic D. Fractional Wiener filter[J].Applied Optics , 1996,35 (20): 3930-6.
[5]Choi H S, Park S, Lee J H,et al . Real-time denoising and dereverberation with tiny recurrent U-Net[C]//Proc of IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway,NJ: IEEE Press, 2021: 5789-5793.
[6]Westhausen N L, Meyer B T. Dual-signal transformation LSTM network for real-time noise suppression[EB/OL]. (2020). https://arxiv.org/abs/2005.07551.
[7]Le Xiaohui, Chen Li, He Chao,et al . Personalized speech enhancement combining band-split RNN and speaker attentive module[C]//Proc of IEEE International Conference on Acoustics,Speech and Signal Processing. Piscataway,NJ:IEEE Press, 2023: 1-2.
[8]Kishore V, Tiwari N, Paramasivam P. Improved speech enhancement using TCN with multiple encoder-decoder layers[C]//Proc of InterSpeech. 2020: 4531-4535.
[9]Wang Kai, He Bengbeng, Zhu Weiping. CAUNet: context-aware U-Net for speech enhancement in time domain[C]// Proc of IEEE International Symposium on Circuits and Systems. Piscataway,NJ:IEEE Press, 2021: 1-5.
[10]Zheng Chengyu, Zhou Yuan, Peng Xiulian,et al . Real-time speech enhancement with dynamic attention span[C]//Proc of IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway,NJ:IEEE Press, 2023: 1-5.
[11]Hu Yuchen, Chen Chen, Zhu Qiushi,et al . wav2code: restore clean speech representations via codebook lookup for noise-robust ASR[J].IEEE/ACM Trans on Audio, Speech,and Language Proces-sing , 2024, 32 :1145-1156.
[12]高戈,曾邦,王霄,等. 基于聲紋嵌入的語(yǔ)音增強(qiáng)算法[J].計(jì)算機(jī)應(yīng)用研究, 2022, 39 (3):688-692. (Gao Ge,Zeng Bang,Wang Xiao, et al . Speech enhancement based on speaker embedding[J].Application Research of Computers , 2022, 39 (3):688-692.)
[13]Xu Xinmeng, Hao Jianjun. U-Former: improving monaural speech enhancement with multi-h(huán)ead self and cross attention[C]//Proc of International Conference on Pattern Recognition. Piscataway,NJ:IEEE Press, 2022: 663-369.
[14]Ronneberger O, Fischer P, Brox T. U-Net: convolutional networks for biomedical image segmentation[C]//Proc of Medical Image Computing and Computer-Assisted Intervention.Berlin:Springer International Press,2015: 234-241.
[15]Vaswani Shazeer N, Parmar N,et al . Attention is all you need[C]// Advances in Neural Information Processing Systems. Red Hook,NY:Curran Associate Inc., 2017:6000-6010.
[16]Gulati Qin J, Chiu C-C,et al . Conformer: convolution-augmented transformer for speech recognition[EB/OL]. (2020-05-06). https://arxiv.org/abs/2005.08100.
[17]Defossez Synnaeve G, Adi Y. Real time speech enhancement in the waveform domain[EB/OL]. (2020-06-03). https://arxiv.org/abs/2006.12847.
[18]Choi H S, Kim J H, Huh J,et al . Phase-aware speech enhancement with deep complex U-Net[C]//Proc of International Conference on Learning Representations. 2019.
[19]Veaux C, Yamagishi J, King S. The voice bank corpus: design, collection and data analysis of a large regional accent speech database[C]//Proc of International Conference Oriental COCOSDA Held Jointly with 2013 Conference on Asian Spoken Language Research and Evaluation. Piscataway,NJ:IEEE Press, 2013: 1-4.
[20]Thiemann J,Ito N,Vincent E. The diverse environments multi-channel acoustic noise database (demand): a database of multichannel environmental noise recordings[C]//Proc of Meetings on Acoustics.[S.l.]:AIP Press, 2013.
[21]Rix A W, Beerends J G, Hollier M P,et al . Perceptual evaluation of speech quality (PESQ)—a new method for speech quality assessment of telephone networks and codecs[C]//Proc of IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway,NJ:IEEE Press, 2001: 749-752.
[22]Taal C H, Hendriks R C, Heusdens R,et al . An algorithm for intelligibility prediction of time-frequency weighted noisy speech[J].IEEE Trans on Audio, Speech, and Language Processing , 201 19 (7): 2125-36.
[23]Hu Yi, Loizou P C. Evaluation of objective quality measures for speech enhancement[J].IEEE Trans on Audio, Speech, and Language Processing , 2007, 16 (1): 229-38.
[24]Pascual S, Bonafonte Serra J. SEGAN: speech enhancement gene-rative adversarial network[EB/OL]. (2017-06-09). https://arxiv.org/abs/1703.09452.
[25]Macartney C, Weyde T. Improved speech enhancement with the wave U-Net[EB/OL]. (2018-11-27). https://arxiv.org/abs/ 1811.11307.
[26]Yin Dacheng, Luo Chong, Xiong Zhiwei,et al . PHASEN: a phase-and-h(huán)armonics-aware speech enhancement network[C]//Proc of AAAI Conference on Artificial Intelligence. 2020: 9458-9465.
[27]Wang Kai, He Bengeng, Zhu Weiping. TSTNN: two-stage Transformer based neural network for speech enhancement in the time domain[C]//Proc of IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway,NJ:IEEE Press, 2021: 7098-7102.
[28]Fu S W, Liao C F, Tsao Y,et al . MetricGAN: generative adversarial networks based black-box metric scores optimization for speech enhancement[C]//Proc of International Conference on Machine Lear-ning. [S.l.]:PMLR, 2019: 2031-2041.
[29]Fu S W, Yu C, Hsieh T A,et al . MetricGAN+: an improved version of metricgan for speech enhancement[EB/OL]. (2021-06-04). https://arxiv.org/abs/ 2104.03538.
[30]Kim E, Seo H. SE-Conformer: time-domain speech enhancement using conformer[C]// Proc of InterSpeech. 2021: 2736-2740.
收稿日期:2023-09-11;修回日期:2023-10-31基金項(xiàng)目:甘肅省重點(diǎn)研發(fā)計(jì)劃資助項(xiàng)目(22YF7GA130)
作者簡(jiǎn)介:曹潔(1966—),女,安徽宿州人,教授,博導(dǎo),博士,主要研究方向?yàn)闄C(jī)器學(xué)習(xí)、模式識(shí)別、語(yǔ)音和說(shuō)話人識(shí)別(haop1115@163.com);王宸章(1999—),男,江蘇徐州人,碩士研究生,主要研究方向?yàn)檎Z(yǔ)音增強(qiáng);梁浩鵬(1995—),男,河南周口人,博士研究生,主要研究方向?yàn)樯疃葘W(xué)習(xí);王喬(1996—),女,甘肅民勤人,碩士研究生,主要研究方向?yàn)檎Z(yǔ)音處理;李曉旭(1982—),女,吉林白城人,教授,博導(dǎo),博士,主要研究方向?yàn)闄C(jī)器學(xué)習(xí)、圖像和視頻理解的應(yīng)用.