余本年,詹永照*,毛啟容,2,董文龍,劉洪麟
面向語音增強的雙復數卷積注意聚合遞歸網絡
余本年1,詹永照1*,毛啟容1,2,董文龍1,劉洪麟1
(1.江蘇大學 計算機科學與通信工程學院,江蘇 鎮(zhèn)江 212013; 2.江蘇省大數據泛在感知與智能農業(yè)應用工程研究中心,江蘇 鎮(zhèn)江 212013)( ? 通信作者電子郵箱yzzhan@ujs.edu.cn)
針對現有的語音增強方法對語譜圖特征關聯信息表達有限和去噪效果不理想的問題,提出一種雙復數卷積注意聚合遞歸網絡(DCCARN)的語音增強方法。首先,建立雙復數卷積網絡,對短時傅里葉變換后的語譜圖特征進行兩分支信息編碼;其次,將兩分支中編碼分別使用特征塊間和特征塊內注意力機制對不同的語音特征信息進行重標注;再次,使用長短期記憶(LSTM)網絡處理長時間序列信息,并用兩解碼器還原語譜圖特征并聚合這些特征;最后,經短時逆傅里葉變換生成目標語音波形,以達到抑制噪聲的目的。在公開數據集VBD(Voice Bank+DMAND)和加噪的TIMIT數據集上進行的實驗的結果表明,與相位感知的深度復數卷積遞歸網絡(DCCRN)相比,DCCARN在客觀語音感知質量指標(PESQ)上分別提升了0.150和0.077~0.087。這驗證了所提方法能更準確地捕獲語譜圖特征的關聯信息,更有效地抑制噪聲,并提高語音的清晰度。
語音增強;注意力機制;復數卷積網絡;編碼;長短期記憶網絡
語音增強是一種從有噪聲的語音信號中提取盡可能純凈的語音信號的技術,該技術可以提高語音的客觀感知質量和可懂度。語音增強在移動通信、語音助聽和語音識別預處理等方面都有廣泛的應用前景。根據收錄語音時使用的麥克風數量的不同,語音增強可以分為單通道語音增強和多通道語音增強。多通道語音增強可以更有效利用聲音的空間信息,增強目標方向的聲音信息,抑制非目標方向的干擾源,但多通道語音對硬件設備要求高,應用范圍受限。與多通道語音相比,單通道語音具有硬件成本低、能耗小的優(yōu)勢,應用范圍廣,但由于聲源信息和噪聲的空間信息少,因此研究單通道語音增強更具有現實意義和富有挑戰(zhàn)性。
目前常見的語音增強算法主要有兩種:一種是傳統的語音增強算法,另一種是基于深度學習的語音增強算法。
傳統的單通道語音增強算法主要包括譜減法、維納濾波法、基于統計模型和信號子空間語音增強算法。傳統的方法在處理平穩(wěn)噪聲時具有較好的語音增強效果,但是這些方法都是基于噪聲是平穩(wěn)的這一假設,而現實中的語音信號還存在非平穩(wěn)噪聲,限制了語音增強性能的進一步提升。
隨著深度學習方法的興起,研究者提出了眾多基于深度學習的單通道語音增強方法[1],這些方法不需要對數據進行額外的條件假設,而是通過挖掘語音數據的內在聯系,更準確地實現目標語音和噪聲的估計。多種單通道語音增強的神經網絡結構模型被提出,如深度神經網絡[2]、卷積神經網絡(Convolutional Neural Network, CNN)[3]、生成對抗網絡(Generative Adversarial Network, GAN)[4]、長短期記憶(Long Short-Term Memory, LSTM)網絡[5]和基于注意力機制的網絡[6]等,這些模型能夠較好地挖掘語音特征之間的關聯,提升了語音增強效果,但是這些模型對語音相位信息學習表達還不充分。
目前基于深度學習的單通道語音增強方法在提取高維特征時通常忽略或破壞了語譜圖的相位信息,導致出現目標語音細節(jié)部分丟失的問題。針對語譜圖中相位信息的表達不充分影響目標語音估計的問題,Hu等[7]提出了模擬復數運算的深度復數卷積遞歸網絡(Deep Complex Convolution Recurrent Network, DCCRN),并用于單通道語音增強,通過復數運算結構保留更多的目標語音相位信息,實現了相位信息的有效捕獲,提升了語音增強任務的性能。然而該方法未考慮注意力機制的運用,以及更合理地表達學習幅度與相位信息并加以利用,從而限制了語音增強效果的進一步提升。
本文針對單通道語音增強問題,在DCCRN模型的基礎上提出了一種雙復數卷積注意聚合遞歸網絡(Double Complex Convolution and Attention aggregating Recurrent Network,DCCARN)的語音增強方法。受視覺特征學習的通道注意力和空間注意力機制[8]的啟發(fā),可以將語譜圖的卷積編碼信息分為多種特征層面的時頻范圍的特征塊信息,并進行雙注意力驅動的特征學習:1)塊間注意力機制,不同特征塊之間整體時頻信息的注意力學習;2)塊內注意力機制,相關特征塊內局部時頻信息的注意力學習。所提方法不同于現有的注意力機制方法,引入了兩個注意力機制結構,通過雙分支網絡注意力機制從特征塊間和特征塊內兩個維度注意力提高語音特征的表達質量。首先,利用短時傅里葉變換對輸入波形進行頻譜分析,考慮在頻譜圖上分別進行兩個維度信息的特征學習,利用兩個復數編碼器提取信息的高維特征,并利用跳連方式連接編碼器中各層卷積塊的輸出與解碼器中相應的反卷積塊,以避免梯度消失;其次,將兩個分支編碼器最后一層卷積塊的輸出分別作為特征塊間和特征塊內注意力模塊的輸入,實現對特征塊間和塊內相關性信息的重標記,使目標特征學習更加豐富;最后,經復數LSTM、解碼器、特征融合、短時逆傅里葉變換和掩碼得到增強后的語音。
本文的主要工作如下:
1)提出了雙復數卷積遞歸網絡語音信息編碼,分別進行不同信息編碼,以增加目標語音的底層信息,通過時序關聯信息分析后進行語音特征解碼和特征信息融合,有利于更真實還原目標語譜圖特征。
2)提出了特征塊間和特征塊內注意力機制網絡,對不同的語音特征信息重標注,聚合兩個注意力重標注、時序關聯和解碼預測的特征,有效增強目標語音信號并抑制噪聲信號,提高目標語音的清晰度。
3)將雙復數卷積遞歸網絡注意聚合方法用于語音增強,在兩個公共數據集上進行了實驗,實驗結果顯示在典型的評價指標上所提方法均優(yōu)于目前先進的方法。
注意力機制也稱為神經網絡注意力,能夠將注意力集中在輸入或特征的子集上。通過引入注意力可以減少處理的信息量,減少所需的計算資源,研究結果顯示,在語音增強領域,注意力機制可以有效地提高語音增強性能。Yu等[6]提出了一種新的自適應注意循環(huán)生成對抗網絡(Attention-In-Attention CycleGAN, AIA-CycleGAN)用于語音增強。Koizumi等[9]采用語音增強和說話人識別的多任務學習,利用多頭自注意力捕獲語音和噪聲中的長期依賴性。Zhang等[10]提出了一個簡單且有效的時頻注意(Time-Frequency Attention, TFA)模塊,該模塊生成一個二維注意圖,為時頻表示的譜分量提供不同的權重,該算法在不可見的噪聲條件下具有更好的泛化能力。目前已有的基于注意力機制的語音增強算法均提升了語音增強的效果,但是都是從單個維度分析注意力機制,沒有充分考慮各個維度之間的關聯性信息。
基于深度學習的語音增強模型可以有效提升語音可懂度和質量,已成為研究熱點,本文在此基礎上進行了深入的研究和探討。最早提出的基于全連接網絡的語音增強主要是利用卷積、全卷積或者遞歸神經網絡預測時頻掩碼或語音頻譜,很多研究者在此基礎上優(yōu)化網絡的結構和損失函數[11]。Pascual等[12]將波形直接輸入訓練模型,并將GAN應用于語音增強,提出SEGAN(Speech Enhancement GAN);卷積遞歸神經網絡(Convolutional Recurrent neural Network, CRN)[3]是一種典型的算法,它采用了類似時域方法的編碼結構,利用二維卷積從語譜圖中提取高維特征,以達到更好的分離語音效果;DCCRN[7]對CRN進行了實質性的修改,在編碼器中加入復數運算結構的二維卷積,解碼器中加入復數的二維轉置卷積,并且還考慮了復數的LSTM替代傳統的LSTM。實際上語音和噪聲對語音增強任務的重要程度是不同的,但這些模型都沒有充分考慮底層信息的丟失問題,對噪聲和純凈語音做無差別處理。因此,本文采用雙復數卷積注意聚合遞歸網絡進一步充分挖掘目標信息,以進一步提升語音增強的性能。
由于語音頻譜圖上的信息比較豐富,充分捕獲利用語譜圖特征是語音增強的有效方法。針對語譜圖中不同維度特征存在關聯性,本文在DCCRN的基礎上,構建了一種雙復數卷積注意聚合遞歸網絡(DCCARN)的語音增強方法,整體網絡框架如圖1所示。首先,利用短時傅里葉變換將輸入的帶噪時域波形轉為頻域的語譜圖,復制語譜圖,分別建立具有特征塊間注意力和特征塊內注意力的兩個編解碼器;其次,隨機初始化參數,經兩個編碼器學習不同的高維特征,將兩個編碼器的最后一層輸出分別送入特征塊間注意力和特征塊內注意力模塊,對不同的語音特征信息重標注;再次,分別經LSTM時序建模和解碼,形成特征塊間注意力和特征塊內注意力的預測語音特征;最后,融合這兩種語音特征,由短時逆傅里葉變換生成增強的目標語音波形。
圖1 DCCARN方法架構
編碼層主要由5層卷積塊組成,每個卷積塊中包括二維卷積層、批標準化(Batch Normalization, BN)層和激活函數,其中BN的作用是保證卷積層的輸出數據在網絡訓練過程中滿足獨立分布假設。編碼器和解碼器中第0層到第3層卷積塊的輸出都進行跳躍連接處理,可以有效解決梯度流動問題。
中間層是編碼層和解碼層之間的過渡層,每條分支的中間層由一個注意力模塊和兩層LSTM組成。通過在網絡中加入雙分支注意力機制模塊,能夠充分利用特征塊間和特征塊內的相關信息,給不同重要程度的語音特征賦予不同的權重,實現對有用特征信息的學習。具體地,LSTM進行復數運算,復數模塊通過復數乘法模擬幅度和相位之間的關系。
解碼層主要由5層反卷積塊組成,反卷積塊包括轉置卷積層、BN和激活函數。解碼層的反卷積模塊跟編碼層每一層的卷積模塊相對應,有相同的卷積核數和卷積核大小,使對應編解碼層的維度大小保持一致。
人類的聽覺系統在頻譜分析中的作用是緊密聯系在一起的。因此,對語音信號頻譜分析是識別和處理語音信號的一種重要方法。語音的時頻分解如圖1所示,它的具體流程如圖2所示。從總體看,語音信號整體上是一個非平穩(wěn)過程,因此需要對輸入的帶噪語音數據先進行采樣和量化處理,將連續(xù)的語音信號幅值離散化。由于不穩(wěn)定信號的波形特征無規(guī)律性,不存在瞬時頻率,也就無法直接采用傅里葉變換處理。短時傅里葉變換是一種常見的時頻分解方法,它主要分析不穩(wěn)定信號。基于語音的短時平穩(wěn)特性,可以將語音切分成若干小片處理。在分幀時,將信號設置為每30 ms一幀的信號,每一幀近似是平穩(wěn)信號,從而確保了幀內語音的基本特性相對穩(wěn)定,但分幀時很難保證截斷后的信號為周期信號。為了減小這種誤差,對分幀后的信號使用特殊的加權函數,即窗函數。窗函數可以使時域信號更好地滿足周期性要求,減少頻譜泄漏的情況。本文所使用的窗函數是漢明窗(Hamming Window)(語音幀長為),公式表示為:
其中為語音信號的時頻表示。
在語音增強任務中,語譜圖重構依賴的上下文信息越豐富,增強的效果越好。現有的語音增強網絡主要通過局部卷積實現,只能獲得有限的局部信息,不能有效利用頻譜圖的整體信息。本文引入特征塊間注意力機制和特征塊內注意力機制,使網絡更好地捕獲頻譜圖的上下文信息,建模各個特征塊間和塊內的重要程度,自適應調整不同塊間和塊內的權重,從而更好地優(yōu)化特征,最終得到更優(yōu)良的增強效果。注意力機制模塊如圖1中“注意力模塊”所示。
2.2.1特征塊間注意力機制
2.2.2特征塊內注意力機制
2.3.1復數編解碼器
雙分支復數卷積解碼是雙分支復數卷積編碼的逆過程,融合最后一層的編碼與經LSTM網絡建模后的語音復數編碼信息作為解碼層的第一層輸入,其他各層均是將上一層的解碼輸出與對應層的編碼融合進行解碼。
2.3.2復數長短期記憶
經LSTM網絡建模后的特征塊間和特征塊內雙分支的語音復數編碼信息作為各分支解碼器第一層的輸入之一。
2.3.3雙分支解碼輸出融合
沿用文獻[7]方法,選用復數理想比率掩碼(complex Ideal Ratio Mask, cIRM)作為訓練目標,掩碼層從復數譜的實部和虛部分量得出,最后返回復數譜,公式如下:
對于第1條塊間分支采用SI-SNR損失函數約束第1分支預測,公式如下:
對于第1條塊內分支采用SI-SNR損失函數表示如下:
對于兩個解碼器融合后的整體輸出損失函數約束為:
結合塊間、塊內分支的重構損失和兩個解碼器融合后的輸出損失,可得到整個語音增強模型損失函數,表示如下:
為了驗證所提方法的有效性,選取語音增強中應用最為廣泛的Voice Bank[13]+DMAND(VBD)[14]和TIMIT[15]作為實驗數據集進行相關實驗。
VBD數據集主要由訓練集和測試集兩部分組成。該訓練集中有11 572組音頻文件,測試集中有824組文件,每組音頻文件包括一段帶噪語音和一段純凈語音。
TIMIT數據集包含寬帶錄音有630人說美國的8種主要方言,每個人讀10條語音豐富的句子。噪聲數據集選擇noise-92[16]。將TIMIT數據集隨機分成兩部分,400名發(fā)言者作為訓練集的發(fā)言者,其余62名作為驗證集。測試集是462名發(fā)言者以外的168名說話者。由于在低信噪比條件下語音難以估計,在高信噪比條件下噪聲難以估計,故對TIMIT數據集的語音噪聲混合過程是從演講中隨機地選擇話語生成。
實驗服務器配置為Inter Core TM i9-9720K CPU@2.90 GHz,GPU采用 GeForce RTX2080Ti顯存11 GB,內存64 GB。在此基礎上,服務器采用Ubuntu 18.04系統,Python 3.7.11,CUDA10.2,PyTorch1.7.1的開發(fā)環(huán)境。
實驗參照文獻[7],對所有的輸入音頻信號降采樣到16 kHz,短時傅里葉變換的窗口長度為256 ms,幀移動為64 ms,短時傅里葉變換的特征長度為512。編碼器中每層的輸出特征類型塊數設置為{32,64,128,256,256},解碼器中每層的輸出特征類型塊數設置為{256,256,128,64,32},卷積核大小為(5,2),步長為(2,1)。通過采用變化步長測試,選定合適的其他相關參數,具體為:初始學習率設為0.000 2,網絡的批處理大小設置為8,網絡訓練周期設置為100。
語音增強的性能評價指標主要有兩大類:一類是客觀質量指標,一類是主觀測試指標。這些常用的評價指標在語音恢復質量、噪聲去除程度和語音可懂度等方面各有側重。在本文結果評估中,使用了多種測試指標評估模型的估計語音,包括:語音感知質量指標(Perceptual Evaluation of Speech Quality, PESQ);預測語音信號失真的復合度量(Composite measure for predicting SIGnal rating, CSIG),即語音信號失真的平均意見分;預測背景噪聲影響的復合度量(Composite measure for predicting BAcKground noise, CBAK),即背景噪聲影響的平均意見分;預測整體語音質量的復合度量(Composite measure for predicting Overall processed speech quality, COVL),即整體語音質量的平均意見分。
3.4.1雙分支融合權重分析
3.4.2損失權重分析
圖4 在VBD數據集上的a、b取值分析
3.5.1在VBD上比較分析
針對提升語音增強性能任務,選用以下具有代表性的方法作為對比方法:Wavenet[17]、SEGAN[12]、基于CNN的GAN(Convolutional Neural Network-based Generative Adversarial Network, CNN-GAN)[18]、Wave-U-Net[19]、基于最小均方誤差GAN(Minimum Mean Square Error based GAN,MMSE-GAN)[20]、CRN[3]、多域混合去噪(Multi-Domain Processing via Hybrid Denoising, MDPHD)網絡[21]、DCCRN[7]、時頻和時域網絡(Time-Frequency and Time Domain Network, TFT-Net)[22]、感知引導GAN(Perception-Guided GAN, PGGAN)[4]和融合Conformer和GAN的全時間尺度語音增強模型(Full-Time Scale speech enhancement model that incorporates Conformer and GAN, FTSC-GAN)[23]。表1給出了相關對比方法在VBD數據集上的4種評價指標的測評結果。
表1 不同方法在VBD數據集上的語音評價得分
注:NOISY表示未經增強處理的帶噪語音評估。
從表1可以看出,SEGAN和Wave-U-Net的結果不理想,主要原因是,采用時域上的波形處理,相較于時頻域方法在一定程度上捕獲的目標信息不夠豐富。在采用時頻域處理的方法上,Wavenet的PESQ相較于CRN、CNN-GAN和MMSE-GAN更優(yōu)。DCCARN是在DCCRN基礎上引入雙分支語譜圖塊間和塊內注意力編碼機制,在PESQ、CSIG、CBAK和COVL上均超越了DCCRN,分別提升了0.150、0.180、1.140和0.240。同時,DCCARN的PESQ、CBAK和COVL比TFT-Net分別提升了0.080、0.160和0.090,比PGGAN分別提升了0.020、0.010和0.070,比FTSC-GAN分別提升了0.080、0.250和0.040。實驗結果表明,通過雙分支編碼器注意聚合遞歸網絡考慮特征塊內和塊間注意力信息,能提高目標信息的關注度,更符合語音增強任務,可有效提高語音增強性能。
3.5.2TIMIT數據集上模型性能評估
表2給出了在信噪比為5 dB、0 dB和-5 dB條件下DCCARN和基線方法DCCRN在TIMIT數據集上的4種評價指標結果??梢钥闯觯谛旁氡葹? dB、0 dB和-5 dB時,DCCARN相較于DCCRN在PESQ、CSIG、CBAK和COVL上都得到了提升:當信噪比為5 dB時,分別提升了0.077、0.106、0.235和0.092;當信噪比為0 dB時,分別提升了0.087、0.139、0.216和0.115;當信噪比為-5 dB時,分別提升了0.079、0.165、0.186和0.125。說明DCCARN在低信噪比條件下也可以表現出很好的性能,對語音增強任務有所提升。同時,信噪比為5 dB時的評估結果要明顯優(yōu)于信噪比為-5 dB、0 dB的結果,也進一步說明了在高信噪比下的去噪性能都明顯優(yōu)于低信噪比情況下的去噪性能。實驗結果表明,通過不同的加噪處理,DCCARN在語音的低頻和高頻部分去噪均有優(yōu)化作用;針對不同的信噪比混合比率,DCCARN均能有對應的優(yōu)化提升,體現了DCCARN方法相較于DCCRN在抗噪性上的優(yōu)越性能。
表2 不同方法在TIMIT數據集上的語音評價得分
為了驗證DCCARN對語音增強性能的改善效果。用深度復數卷積遞歸網絡(DCCRN)作為主干網絡,在VBD數據集上進行了相關消融實驗,實驗結果如表3所示??梢钥闯觯崮K均是有效的。除DCCARN的損失函數為(式(23))外,其他實驗均采用SI-SNR直接作為模型的損失函數。
1)特征塊間注意力模塊的有效性。在基準模型DCCRN中僅加入特征塊間注意力模塊,PESQ和CBAK有所提升,表明特征塊間注意力模塊可以提高語音感知質量和噪聲影響的指標值。
2)特征塊內注意力模塊的有效性。在DCCRN中僅加入特征塊內注意力模塊,PESQ、CBAK和COVL上都有所提升,表明特征塊內注意力模塊可以提高語音感知質量和噪聲影響的指標和整體評價指標,同時特征塊內注意力機制比特征塊間注意力機制的作用更加顯著。
3)雙分支結構的有效性。在DCCRN中僅加入雙分支結構,PESQ、CBAK和COVL上都有明顯提升,表明雙分支結構可以提高語音感知質量和噪聲影響的指標和整體評價指標,驗證了雙分支注意力機制的有效性。通過在DCCRN中加入特征塊間、塊內和雙分支結構,在4個評價指標上都比單獨添加模塊得到了顯著的提升,表明雙分支注意力機制對提升4個評價指標都有著顯著的作用。
表3 在VBD數據集上的消融實驗結構
為了更加直觀地驗證所提方法對語音增強的效果,使用本文方法在VBD數據集中處理2個帶噪語音波形信息。對p232_021.wav進行波形可視化,對比圖5(a)~(c)可以看出,經DCCARN方法增強的語音能有效去除噪聲信息,較為接近純凈語音的波形圖。對p232_160.wav進行語譜圖可視化,對比圖5(d)~(f)可以看出,經DCCARN增強的語音的語譜圖很接近純凈語音的語譜圖,也表明了DCCARN能有效去除噪聲信息,達到了語音增強目的。這也進一步驗證了所提出的雙復數卷積遞歸網絡語音信息編碼,通過信息聚合和時序關聯信息分析進行語音特征解碼,有利于目標語譜圖的特征更真實還原;所提出的特征塊間和特征塊內注意力機制,能對不同的語音特征信息進行有效的重標注,可有效增強目標語音信息而抑制語音噪聲,提高目標語音的清晰度。
圖5 語音質量對比
本文針對帶噪語音中特征塊間和特征塊內的內在關聯性問題,對特征的塊間和塊內分別構建了兩條分支關注塊間和塊內信息,并將雙分支解碼輸出的高維特征進行加權融合,形成一種用于學習目標語音特征的注意聚合網絡,提出了一種基于雙分支復數卷積注意聚合遞歸網絡單通道語音增強方法,在VBD和TIMIT這兩個典型的數據集上進行了充分的實驗。實驗結果表明,所提出的方法能有效提高語音增強的客觀語音質量和相關語音評價指標,可有效去除語音噪聲信息,提高了語音增強效果??紤]到Transformer模型對信號特征表達更有優(yōu)勢,在后續(xù)工作中,本文可進一步研究結合復數卷積和輕量級Transformer的語音增強技術,獲得較快速和更好的語音增強效果。
[1] CHOI H S, KIM J H, HUH J, et al. Phase-aware speech enhancement with deep complex U-Net[EB/OL]. (2023-08-06) [2023-08-08].https://openreview.net/pdf?id=SkeRTsAcYm.
[2] HASANNEZHAD M, YU H, ZHU W P, et al. PACDNN: a phase-aware composite deep neural network for speech enhancement[J]. Speech Communication, 2022, 136: 1-13.
[3] TAN K, WANG D. A convolutional recurrent neural network for real-time speech enhancement[C]// Proceedings of the INTERSPEECH 2018. [S.l.]: International Speech Communication Association, 2018: 3229-3233.
[4] LI Y, SUN M, ZHANG X. Perception-guided generative adversarial network for end-to-end speech enhancement[J]. Applied Soft Computing, 2022, 128: No.109446.
[5] WANG Z, ZHANG T, SHAO Y, et al. LSTM-convolutional-BLSTM encoder-decoder network for minimum mean-square error approach to speech enhancement[J]. Applied Acoustics, 2021, 172: No.107647.
[6] YU G, WANG Y, ZHENG C, et al. CycleGAN-based non-parallel speech enhancement with an adaptive attention-in-attention mechanism[C]// Proceedings of the 2021 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference. Piscataway: IEEE, 2021: 523-529.
[7] HU Y, LIU Y, LV S, et al. DCCRN: deep complex convolution recurrent network for phase-aware speech enhancement[C]// Proceedings of the INTERSPEECH 2020. [S.l.]: International Speech Communication Association, 2020: 2472-2476.
[8] WOO S, PARK J, LEE J Y, et al. CBAM: convolutional block attention module[C]// Proceedings of the 2018 European Conference on Computer Vision, LNCS 11211. Cham: Springer, 2018: 3-19.
[9] KOIZUMI Y, YATABE K, DELCROIX M, et al. Speech enhancement using self-adaptation and multi-head self-attention[C]// Proceedings of the 2020 IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway: IEEE, 2020: 181-185.
[10] ZHANG Q, SONG Q, NI Z, et al. Time-frequency attention for monaural speech enhancement[C]// Proceedings of the 2022 IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway: IEEE, 2022: 7852-7856.
[11] 高戈,王霄,曾邦,等. 基于時頻聯合損失函數的語音增強算法[J]. 計算機應用, 2022, 42(S1):316-320.(GAO G, WANG X, ZENG B, et al. Speech enhancement algorithm based on time-frequency joint loss function[J]. Journal of Computer Applications, 2022, 42(S1):316-320.)
[12] PASCUAL S, BONAFONTE A, SERRà J. SEGAN: speech enhancement generative adversarial network[C]// Proceedings of the INTERSPEECH 2017. [S.l.]: International Speech Communication Association, 2017: 3642-3646.
[13] VEAUX C, YAMAGISHI J, KING S. The voice bank corpus: design, collection and data analysis of a large regional accent speech database[C]// Proceedings of the 2013 International Conference Oriental COCOSDA Held Jointly with Conference on Asian Spoken Language Research and Evaluation. Piscataway: IEEE, 2013: 1-4.
[14] THIEMANN J, ITO N, VINCENT E. The Diverse Environments Multi-channel Acoustic Noise Database (DEMAND): a database of multichannel environmental noise recordings[J]. Proceedings of Meetings on Acoustics, 2013, 19(1): No.035081.
[15] GAROFOLO J S, LAMEL L F, FISHER W M. TIMIT acoustic phonetic continuous speech corpus[DS/OL]. [2022-12-15].https://catalog.ldc.upenn.edu/LDC93S1.
[16] VARGA A, STEENEKEN H J M. Assessment for automatic speech recognition: Ⅱ. NOISEX-92: a database and an experiment to study the effect of additive noise on speech recognition systems[J]. Speech Communication, 1993, 12(3): 247-251.
[17] RETHAGE D, PONS J, SERRA X. A Wavenet for speech denoising[C]// Proceedings of the 2018 IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway: IEEE, 2018: 5069-5073.
[18] SHAH N, PATIL H A, SONI M H. Time-frequency mask-based speech enhancement using convolutional generative adversarial network[C]// Proceedings of the 2018 AP sia-Pacific Signal and Information Processing Association Annual Summit and Conference. Piscataway: IEEE, 2018:1246-1251.
[19] MACARTNEY C, WEYDE T. Improved speech enhancement with the Wave-U-Net[EB/OL]. (2018-11-27) [2022-12-15].https://arxiv.org/pdf/1811.11307.pdf.
[20] SONI M H, SHAH N, PATIL H A. Time-frequency masking-based speech enhancement using generative adversarial network[C]// Proceedings of the 2018 IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway: IEEE, 2018: 5039-5043.
[21] KIM J H, YOO J, CHUN S, et al. Multi-domain processing via hybrid denoising networks for speech enhancement[EB/OL]. (2018-12-21) [2022-12-15].https://arxiv.org/pdf/1812.08914.pdf.
[22] TANG C, LUO C, ZHAO Z, et al. Joint time-frequency and time domain learning for speech enhancement[C]// Proceedings of the 29th International Joint Conferences on Artificial Intelligence. California: ijcai.org, 2020: 3816-3822.
[23] 沈夢強,于文年,易黎,等. 基于GAN的全時間尺度語音增強方法[J].計算機工程, 2023, 49(6):115-122, 130.(SHEN M Q, YU W N, YI L, et al. Full-time scale speech enhancement method based on GAN[J]. Computer Engineering, 2023, 49(6):115-122, 130.)
Double complex convolution and attention aggregating recurrent network for speech enhancement
YU Bennian1, ZHAN Yongzhao1*, MAO Qirong1,2, DONG Wenlong1, LIU Honglin1
(1,,212013,;2,212013,)
Aiming at the problems of limited representation of spectrogram feature correlation information and unsatisfactory denoising effect in the existing speech enhancement methods, a speech enhancement method of Double Complex Convolution and Attention Aggregating Recurrent Network (DCCARN) was proposed. Firstly, a double complex convolutional network was established to encode the two-branch information of the spectrogram features after the short-time Fourier transform. Secondly, the codes in the two branches were used in the inter- and and intra-feature-block attention mechanisms respectively, and different speech feature information was re-labeled. Secondly, the long-term sequence information was processed by Long Short-Term Memory (LSTM) network, and the spectrogram features were restored and aggregated by two decoders. Finally, the target speech waveform was generated by short-time inverse Fourier transform to achieve the purpose of suppressing noise. Experiments were carried out on the public dataset VBD (Voice Bank+DMAND) and the noise added dataset TIMIT. The results show that compared with the phase-aware Deep Complex Convolution Recurrent Network (DCCRN), DCCARN has the Perceptual Evaluation of Speech Quality (PESQ) increased by 0.150 and 0.077 to 0.087 respectively. It is verified that the proposed method can capture the correlation information of spectrogram features more accurately, suppress noise more effectively, and improve speech intelligibility.
speech enhancement; attention mechanism; complex convolutional network; coding; Long Short-Term Memory (LSTM) network
This work is partially supported by Key Research and Development Program of Jiangsu Province (BE2020036).
YU Bennian, born in 1996, M. S. candidate. Her research interests include speech enhancement.
ZHAN Yongzhao, born in 1962, Ph. D., professor. His research interests include pattern recognition, multimedia analysis.
MAO Qirong, born in 1975, Ph. D., professor. Her research interests include pattern recognition, multimedia analysis.
DONG Wenlong, born in 1997, Ph. D. candidate. His research interests include multimedia computing.
LIU Honglin, born in 1992, Ph. D. candidate. His research interests include image classification of pests and diseases.
1001-9081(2023)10-3217-08
10.11772/j.issn.1001-9081.2022101533
2022?10?12;
2022?12?24;
江蘇省重點研發(fā)計劃項目(BE2020036)。
余本年(1996—),女,安徽池州人,碩士研究生,主要研究方向:語音增強; 詹永照(1962—),男,福建尤溪人,教授,博士,CCF會員,主要研究方向:模式識別、多媒體分析; 毛啟容(1975—),女,四川瀘州人,教授,博士,CCF會員,主要研究方向:模式識別、多媒體分析; 董文龍(1997—),男,江蘇徐州人,博士研究生,主要研究方向:多媒體計算; 劉洪麟(1992—),男,江蘇宿遷人,博士研究生,主要研究方向:病蟲害圖像分類。
TN912.34
A
2022?12?28。