摘" 要 :語音增強(qiáng)是語音信號(hào)處理的重要分支,在語音識(shí)別、語音通信等領(lǐng)域具有重要應(yīng)用。傳統(tǒng)數(shù)字信號(hào)處理(DSP)方法下的單通道語音增強(qiáng)計(jì)算量小,但效果不佳。近年來,深度學(xué)習(xí)算法大幅提升了單通道語音增強(qiáng)的效果,但往往計(jì)算量大,對(duì)硬件要求高,難以應(yīng)用于移動(dòng)設(shè)備或可穿戴設(shè)備。針對(duì)性能和計(jì)算量難以平衡的現(xiàn)狀,文章實(shí)現(xiàn)了一種低復(fù)雜度的基于深度學(xué)習(xí)的語音增強(qiáng)算法,并在樹莓派上進(jìn)行了實(shí)現(xiàn)。該算法采用具有四個(gè)隱藏層的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),用于估計(jì)理想的臨界頻帶增益,而音高諧波之間的噪聲則采用傳統(tǒng)音高濾波器處理。實(shí)驗(yàn)結(jié)果顯示,該系統(tǒng)能夠有效實(shí)現(xiàn)降噪功能,并且性能優(yōu)于傳統(tǒng)的維納濾波算法。
關(guān)鍵詞:語音增強(qiáng);RNNoise;實(shí)時(shí);單通道;樹莓派
中圖分類號(hào):TN912 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-4706(2025)03-0183-06
Research and Implementation of Smart Speech Noise Reduction Algorithm Based on Raspberry Pi
TAO Ran, ZHU Runqian, QIN Yitong, LING Haidong
(School of Communication and Artificial Intelligence, School of Integrated Circuits, Nanjing Institute of Technology, Nanjing" 211167, China)
Abstract: Speech enhancement is an important branch of speech signal processing and has significant applications in fields such as speech recognition and speech communication. The single-channel speech enhancement under traditional Digital Signal Processing (DSP) method has a small amount of computation, but the effect is not satisfactory. In recent years, Deep Learning algorithms have significantly improved the effect of single-channel speech enhancement. However, they usually have a large amount of computation and high hardware requirements, making it difficult to apply them to mobile or wearable devices. In view of the current situation where it is difficult to balance performance and computation, this paper implements a low-complexity Deep Learning-based speech enhancement algorithm and realizes it on a Raspberry Pi. This algorithm adopts a Recurrent Neural Network (RNN) with four hidden layers to estimate the ideal critical band gain, while the noise between pitch harmonics is processed using traditional pitch filters. Experimental results show that this system can effectively achieve the noise reduction function and outperforms the traditional Wiener filtering algorithm.
Keywords: speech enhancement; RNNoise; real-time; single-channel; Raspberry Pi
0" 引" 言
語音增強(qiáng)是語音信號(hào)處理的重要分支,目的是從含噪語音信號(hào)中分離出帶有信息的語音信號(hào)。隨著科技發(fā)展,出現(xiàn)了越來越多的語音場景,如移動(dòng)通信、語音控制系統(tǒng)、聽力輔助等場景,往往會(huì)受到環(huán)境噪聲的干擾,顯著降低語音的可懂程度,從而降低人與人之間的交流效率,或是影響系統(tǒng)的識(shí)別和控制。并且,數(shù)量龐大的聽障人群更容易受到信號(hào)中噪聲的干擾,此時(shí)就需要語音增強(qiáng)來提升信號(hào)中語音的質(zhì)量與可懂度。同時(shí),隨著語音技術(shù)的進(jìn)步,自動(dòng)語音識(shí)別(Automatic Speech Recognition, ASR)的使用也越來越廣,無論是百度等搜索引擎,還是智能家居等交互設(shè)備,在復(fù)雜環(huán)境下的識(shí)別率都會(huì)大打折扣。因此,有效的語音增強(qiáng)技術(shù)對(duì)語音技術(shù)的發(fā)展而言極為重要。
語音增強(qiáng)技術(shù)相關(guān)的研究已經(jīng)有了50多年的歷史,早期的語音增強(qiáng)算法主要是對(duì)帶噪語音估計(jì)其噪聲譜。對(duì)于單通道語音增強(qiáng)算法,如譜減法[1]、維納濾波法[2],對(duì)數(shù)最小均方誤差法[3]等。這些早期的算法具有計(jì)算簡單、實(shí)時(shí)性高的優(yōu)勢。然而,考慮到背景噪聲的復(fù)雜統(tǒng)計(jì)特性,噪聲譜的估計(jì)往往會(huì)遇到很多問題。噪聲的復(fù)雜特性促使人們?nèi)ソ梃b人類的神經(jīng)推導(dǎo)能力,因而早期有學(xué)者提出利用淺層神經(jīng)網(wǎng)絡(luò)的非線性模型來學(xué)習(xí)帶噪語音信號(hào)在時(shí)域以及變換域上到目標(biāo)語音信號(hào)的映射。然而早期的淺層神經(jīng)網(wǎng)絡(luò)算法的規(guī)模較為有限,其對(duì)于具有復(fù)雜統(tǒng)計(jì)特性的語音信號(hào)的擬合能力有限,無法準(zhǔn)確表示帶噪語音到干凈語音之間的映射。并且由于早期缺少合理的訓(xùn)練優(yōu)化方案,這種有監(jiān)督學(xué)習(xí)很容易陷入局部最優(yōu)解。而當(dāng)參數(shù)繼續(xù)增加的時(shí)候,這一問題會(huì)更加嚴(yán)重。
隨著深度學(xué)習(xí)的不斷發(fā)展與進(jìn)步,如今流行將深度神經(jīng)網(wǎng)絡(luò)應(yīng)用于整個(gè)問題,即端到端的方法[4-7],已經(jīng)應(yīng)用于語音識(shí)別等方面。雖然許多端到端的系統(tǒng)已經(jīng)證明了深度神經(jīng)網(wǎng)絡(luò)應(yīng)用于語音信號(hào)處理的成功,但這些系統(tǒng)可能不是最優(yōu)的,存在對(duì)系統(tǒng)資源的浪費(fèi),在一些降噪算法中,往往要用到幾千個(gè)神經(jīng)元和幾千萬個(gè)權(quán)值,僅僅為了構(gòu)成一層神經(jīng)網(wǎng)絡(luò),降噪效果的代價(jià)是計(jì)算成本和模型本身大小的龐大,硬件的實(shí)現(xiàn)必然需要高性能的GPU,難以用于小型設(shè)備。小型移動(dòng)設(shè)備如助聽器等無法搭載GPU,采用深度學(xué)習(xí)的降噪算法即使質(zhì)量高也無法使用,將深度神經(jīng)網(wǎng)絡(luò)應(yīng)用于整個(gè)問題,需要非常多的神經(jīng)元和權(quán)值進(jìn)行模擬,在這里我們需要減少神經(jīng)網(wǎng)絡(luò)模擬的部分,從而降低所需的神經(jīng)元數(shù)量,降低算法對(duì)硬件算力的要求,因此我們選擇RNNoise作為系統(tǒng)的核心算法,在此基礎(chǔ)上設(shè)計(jì)實(shí)時(shí)單通道語音增強(qiáng)系統(tǒng)。在48 kHz采樣率下,不需要GPU,在CPU低功耗狀態(tài)下也能實(shí)現(xiàn)語音增強(qiáng)效果。實(shí)驗(yàn)中,該系統(tǒng)對(duì)硬件要求低于端到端的語音增強(qiáng)方法,效果明顯優(yōu)于傳統(tǒng)維納濾波法,在樹莓派上也可以輕松實(shí)現(xiàn)高質(zhì)量語音增強(qiáng)。
1" 基于RNN的單通道語音增強(qiáng)算法
1.1" RNNoise算法原理
循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)是一種仿照人類記憶體系創(chuàng)造出的具有短期記憶能力的神經(jīng)網(wǎng)絡(luò),由Elman[8]提出。在RNN中,神經(jīng)元可以接受其他神經(jīng)元的信息,也可以接受自身信息,形成環(huán)路。同時(shí)RNN的記憶特性使其同時(shí)被當(dāng)前時(shí)刻的輸入與歷史輸入影響,這使得RNN適合學(xué)習(xí)數(shù)據(jù)在時(shí)間上的依賴關(guān)系,天然適合在時(shí)序數(shù)據(jù)上建模。語音信號(hào)數(shù)據(jù)往往在時(shí)間上相關(guān)性高,且屬于變長序列,因此選擇RNN來處理。但是,由于通過隨時(shí)間反向傳播算法來學(xué)習(xí),當(dāng)輸入序列較長時(shí),會(huì)帶來梯度爆炸和消失的問題,LSTM[9-10]通過引入門機(jī)制來解決這些問題,像GRU等LSTM變體,可以基本解決RNN的長程依賴問題。
RNNoise算法由Valin[11]提出,按照傳統(tǒng)的噪聲抑制結(jié)果設(shè)計(jì),如圖1所示。傳統(tǒng)結(jié)構(gòu)分為三個(gè)部分:語音活動(dòng)檢測(VAD)、噪聲頻譜估計(jì)、譜減。因此RNNoise中涉及三個(gè)循環(huán)層,分別負(fù)責(zé)這三個(gè)模塊。除此之外,該網(wǎng)絡(luò)還包含一個(gè)VAD輸出模塊,用來保證相應(yīng)的GRU能夠區(qū)分噪聲和語音,提升訓(xùn)練精度。
Valin假設(shè)信號(hào)中噪聲和語音的頻譜包絡(luò)足夠平坦,從而在較低分辨率的頻帶結(jié)構(gòu)上進(jìn)行降噪處理。RNNoise可通過較低的復(fù)雜度來實(shí)現(xiàn)高質(zhì)量的語音增強(qiáng)。
大多數(shù)方法直接用神經(jīng)網(wǎng)絡(luò)估計(jì)frequency bins,而大量的輸出需要設(shè)計(jì)大量的神經(jīng)元,從而增加系統(tǒng)的復(fù)雜程度,因此需要調(diào)整方法。人耳對(duì)聲音的感知是非線性的,對(duì)低頻段更加敏感,基于Opus頻帶,使用Bark頻率標(biāo)度進(jìn)行劃分,在48 kHz采樣率下劃分出22個(gè)子帶。由此提取出22維的BFCCs和前六個(gè)BFCCs的一階和二階時(shí)間導(dǎo)數(shù),基音周期和頻譜非平穩(wěn)性度量參數(shù),以及基音相關(guān)系數(shù)的DCT的前六個(gè)系數(shù),一共包括了42個(gè)維度特征。
同時(shí),計(jì)算理想臨界頻帶增益作為網(wǎng)絡(luò)的學(xué)習(xí)目標(biāo)??蓪⑵淇闯梢环N頻帶上IRM的形式:
(1)
其中,Es(a)為a內(nèi)干凈語音的能量,Ev(a)為噪聲的能量。
根據(jù)頻帶劃分,可將原先復(fù)雜的降噪任務(wù)看作一個(gè)長度為22的頻率均衡器,通過改變子帶上的值使噪聲衰減,實(shí)現(xiàn)語音增強(qiáng)。
1.2" 語音增強(qiáng)系統(tǒng)工作流程
語音增強(qiáng)系統(tǒng)流程示意圖如圖2所示。主要處理循環(huán)基于10毫秒的窗口,重疊50%(偏移5毫秒)。分析和綜合都使用相同的Vorbis窗口,滿足PrincenBradley準(zhǔn)則[12]。窗口定義為:
(2)
其中,N = 480為窗長。
在低分辨率的音頻包絡(luò)上使用RNN計(jì)算增益,完成大部分噪聲抑制,同時(shí)使用音高梳濾波器衰減音高諧波之間的噪聲來完成更精細(xì)的調(diào)整。
2" 基于樹莓派的語音增強(qiáng)系統(tǒng)實(shí)現(xiàn)
2.1" 硬件整體構(gòu)成
服務(wù)器端硬件的主要目的是為了實(shí)時(shí)采集語音,將語音增強(qiáng)后的音頻提供給用戶。軟件中設(shè)計(jì)了調(diào)用硬件的可視化交互界面。我們選擇用樹莓派搭載USB麥克風(fēng)和3.5 mm耳機(jī)當(dāng)作服務(wù)器,完成對(duì)聲音的收集,再通過樹莓派處理,進(jìn)行語音增強(qiáng),最后播放給用戶。硬件組成框圖如圖3所示。
其中樹莓派作為處理核心,我們選擇的是Raspberry Pi 4B版本,操作系統(tǒng)為官方提供的Raspberry Pi鏡像系統(tǒng),SD卡大小為16 GB。
2.2" 軟件實(shí)現(xiàn)
我們通過USB麥克風(fēng)采集音頻數(shù)據(jù),在樹莓派中完成語音增強(qiáng)任務(wù),在屏幕上顯示可視化界面,如圖4所示是樹莓派軟件界面圖,程序使用Python 3編寫,調(diào)用訓(xùn)練后的RNNoise算法處理音頻。因此軟件分為底層運(yùn)行程序與可視化界面程序兩個(gè)部分。
如圖5所示,可視化界面我們選擇Python中tkinter庫,交互界面分為四個(gè)部分:上部為菜單欄,根據(jù)用戶不同的需求有不同的按鍵;在命令設(shè)置部分,通過用戶點(diǎn)擊產(chǎn)生不同的指令,樹莓派后臺(tái)得到指令并進(jìn)行對(duì)應(yīng)的處理;開始錄音后彈窗顯示實(shí)時(shí)波形圖;并且開始實(shí)時(shí)語音增強(qiáng)處理,停止錄音后在輸入波形標(biāo)簽右側(cè)顯示輸入音頻波形和語音增強(qiáng)后對(duì)應(yīng)輸出波形; 通過打開文件夾方式可以直接顯示出保存的輸入和輸出音頻文件。
如圖6所示,通過觸摸屏可以獨(dú)立顯示并操作樹莓派界面采用USB麥克風(fēng)實(shí)現(xiàn)對(duì)聲音的輸入,通過3.5 mm耳機(jī)實(shí)現(xiàn)音頻輸出。原理圖如下:
3" 實(shí)驗(yàn)與討論
3.1" 實(shí)驗(yàn)設(shè)置
3.1.1" 測試數(shù)據(jù)構(gòu)成
本實(shí)驗(yàn)使用到的干凈語音數(shù)據(jù)集數(shù)據(jù)來自LibriSpeech,是一個(gè)閱讀語音語料庫,基于 LibriVox 的公共領(lǐng)域有聲讀物其中包含11 350名志愿者用多種語言閱讀的10 000余條公共有聲讀物,并且從中篩選了65 000余條語音,得到的干凈語音集總時(shí)長為560 h。
噪聲數(shù)據(jù)我們選擇使用NoiseX-92 噪聲庫,該噪聲庫包15種噪聲,如汽車、人聲、街道等常見的生活場景。
我們使用代碼將每條干凈語音與每種噪聲,在-5 dB、0 dB、5 dB、10 dB、15 dB范圍中的每一個(gè)SNR結(jié)合,生成在15種噪聲下,各5種SNR的含噪語音庫,使用Keras深度學(xué)習(xí)庫在Python中完成。
3.1.2" 性能評(píng)價(jià)指標(biāo)
為了更好展示語音增強(qiáng)后的效果,我們選擇以下幾種客觀指標(biāo)評(píng)價(jià)樹莓派的語音增強(qiáng)性能:
1)客觀語音質(zhì)量評(píng)估 (Perceptual Evaluation of Speech Quality, PESQ)[13-14]。范圍為1.0~4.5,在語言質(zhì)量極差的情況下指標(biāo)數(shù)值會(huì)小于1.0。
2)短時(shí)客觀可懂度(Short-Time Objective Intelligibility, STOI)[15]。指標(biāo)范圍在0~1之間。
3)尺度不變信噪比(Scale-Invariant Signal-to-Noise Ratio, SISNR)[16]。其定義如下:
(3)
其中和s分別為增強(qiáng)語音和干凈語音在時(shí)域的信號(hào),為保證尺度不變性,和s均被標(biāo)準(zhǔn)化為零均值。
3.2" 實(shí)驗(yàn)結(jié)果及分析
本實(shí)驗(yàn)將NOISEX-92噪聲庫中的Speech babble噪聲作為噪音,使用信噪比設(shè)置為15 dB的含噪語音文件實(shí)驗(yàn)語音增強(qiáng)效果,如圖7所示,從上至下分別為純凈語音、含噪語音和樹莓派處理后的語譜圖和時(shí)域頻譜圖,可看出,即便在強(qiáng)人聲背景噪音下,本語音增強(qiáng)系統(tǒng)仍然可以有效濾除背景噪音,因?yàn)槭菍?shí)時(shí)以480個(gè)樣本處理,所以在文件開頭以及結(jié)尾處無語音部分,無法完全去除強(qiáng)烈的人聲背景噪音,而在包含信息的語音部分,以及中間無語音段,均能實(shí)現(xiàn)良好的語音增強(qiáng)效果。
本實(shí)驗(yàn)選擇使用維納濾波法與搭載本系統(tǒng)的樹莓派處理含噪語音文件進(jìn)行對(duì)比,實(shí)驗(yàn)選擇NOISEX-92噪聲庫中的Speech babble噪聲作為背景,信噪比設(shè)置為15 dB的含噪語音文件進(jìn)行實(shí)驗(yàn)。結(jié)果如圖8所示,可以看出,面對(duì)以人聲為背景的語音信號(hào)中,傳統(tǒng)方法的降噪效果非常差,尤其在噪聲的能量大于語音的能量時(shí),幾乎無法有效恢復(fù)語音,并且由于傳統(tǒng)算法存在許多假設(shè),在實(shí)時(shí)處理過程中難以解決瞬態(tài)噪聲,因此留下大量底噪,語音增強(qiáng)效果并不好,經(jīng)計(jì)算本實(shí)驗(yàn)中維納濾波處理音頻后PESQ為1.941,STOI為0.869。而本語音增強(qiáng)系統(tǒng)在噪聲抑制方面得益于RNN的模擬,能夠更好地消除人聲噪聲,有效的恢復(fù)語音,并且瞬態(tài)噪聲的影響更小,處理后的音頻PESQ為2.415,STOI為0.876。相比之下本系統(tǒng)能夠更出色地完成語音增強(qiáng)任務(wù)。
我們使用訓(xùn)練集中未使用的語音和噪聲數(shù)據(jù)來測試維納濾波與本文方法處理的性能,并計(jì)算平均指標(biāo)如表1所示,其中因?yàn)镻ESQ對(duì)音頻的限制,我們將音頻從48 kHz重采樣至16 kHz后進(jìn)行檢驗(yàn),本文方法處理后的音頻與維納濾波法相比,平均PESQ高0.203,平均STOI高0.011,平均SISNR高1.981,各項(xiàng)指標(biāo)均高于維納濾波法。
3.3" 算法復(fù)雜度分析
為了降低系統(tǒng)對(duì)硬件的要求,需要保持算法大小和復(fù)雜度低。我們假設(shè)語音和噪聲的頻譜包絡(luò)足夠平坦,不直接估計(jì)頻譜幅度,而是估計(jì)理想的臨界波段增益,這具有在0到1之間有界地顯著優(yōu)勢,并且基于Opus頻帶,使用Bark頻率標(biāo)度進(jìn)行劃分,總共有22個(gè)子帶。因此,我們的網(wǎng)絡(luò)只需要[0,1]范圍內(nèi)的22個(gè)輸出值,本算法包括總共215個(gè)單元、4個(gè)隱藏層,最大層96個(gè)單元。
可執(zhí)行文件的大小主要由神經(jīng)網(wǎng)絡(luò)中215個(gè)單元所需的87 503個(gè)權(quán)重決定。為了盡可能小,選擇將權(quán)重量化為8位。這使得在CPU的L2緩存中擬合所有權(quán)重成為可能。IFFT和每幀兩個(gè)FFT需要大約7.5MFLOPs,音高搜索(以12 kHz運(yùn)行)需要大約10 MFLOPs。同時(shí)由于在乘法加法操作中每幀僅使用每個(gè)權(quán)重一次,因此神經(jīng)網(wǎng)絡(luò)每幀需要175 000次浮點(diǎn)運(yùn)算(我們將乘加視作兩次運(yùn)算),因此實(shí)時(shí)使用17.5 MFLOPs。該算法的總復(fù)雜度約為40 MFLOPs,與全頻帶語音編碼器相當(dāng)。
實(shí)際運(yùn)行中,該系統(tǒng)在1.5 GHz ARMv7 Processor rev 3(v7l)(Raspberry Pi 4)單個(gè)核心上執(zhí)行實(shí)時(shí)單通道48 kHz語音增強(qiáng)的占用率為14.8%,內(nèi)存使用率為3.1%。可見本系統(tǒng)可以在樹莓派CPU上低功耗運(yùn)行。
4" 結(jié)" 論
本文設(shè)計(jì)的語音增強(qiáng)系統(tǒng),整體設(shè)計(jì)仍采用傳統(tǒng)信號(hào)處理框架設(shè)計(jì),但在難以調(diào)諧的噪聲抑制方面引入RNNoise實(shí)現(xiàn)實(shí)時(shí)單通道語音增強(qiáng)算法,將問題簡化為僅計(jì)算22個(gè)理想的臨界頻帶增益,再通過使用簡單的音高濾波器處理頻帶的粗分辨率,由此實(shí)現(xiàn)低復(fù)雜性的智能語音增強(qiáng)系統(tǒng),在消耗更低硬件性能的條件下仍能取得高質(zhì)量的語音增強(qiáng)效果,在樹莓派上也能輕松運(yùn)行,具有較低的延遲性,并且質(zhì)量明顯高于純信號(hào)處理的方法,有更廣闊的應(yīng)用場景以及更好的實(shí)際性能。
參考文獻(xiàn):
[1] BOLL S. Suppression of Acoustic Noise in Speech Using Spectral Subtraction [J].IEEE Transactions on Acoustics, Speech, and Signal Processing,1979,27(2):113-120.
[2] GRIFFIN D,LIM J. Signal Estimation from Modified Short-Time Fourier Transform [C]//ICASSP '83. IEEE International Conference on Acoustics, Speech, and Signal Processing.Boston:IEEE,1983:804-807.
[3] SELTZER M L,TASHEV I. A LOG-MMSE Adaptive Beamformer Using a Nonlinear Spatial Filter [C]//Proceedings of the 11th International Workshop on Acoustic Echo and Noise Control.Seattle:IWANEC,2008:1-4.
[4] MAAS A L,LE Q V,O'NEIL T M,et al. Recurrent Neural Networks for Noise Reduction in Robust ASR [C]//INTERSPEECH 2012 ISCA's 13th Annual Conference.Portland:ISCA,2012:22-25.
[5] LIU D,SMARAGDIS P,KIM M. Experiments on Deep Learning for Speech Denoising [C]//INTERSPEECH 2014 Fifteenth Annual Conference of the International Speech Communication Association.Singapore:ISCA,2014:2685-2689.
[6] XU Y,DU J,DAI L R,et al. A Regression Approach to Speech Enhancement based on Deep Neural Networks [J].IEEE Transactions on Acoustics, Speech, and Signal Processing,2015,23(1):7–19.
[7] NARAYANAN A,WANG D L. Ideal Ratio Mask Estimation Using Deep Neural Networks for Robust Speech Recognition [C]//2013 IEEE International Conference on Acoustics,Speech and Signal Processing.Vancouver:IEEE,2013:7092–7096.
[8] ELMAN J L. Finding Structure in Time [J].Cognitive Science,1990,14(2):179-211.
[9] HOCHREITER S,SCHMIDHUBER J. Long Short-Term Memory [J].Neural Computation,1997,9(8):1735-1780.
[10] GERS F,SCHMIDHUBER J,CUMMINS F. Learning to Forget: Continual Prediction with LSTM [J].Neural Computation,2000,12(10):2451–2471.
[11] VALIN J M. A Hybrid DSP/Deep Learning Approach to Real-Time Full-Band Speech Enhancement [C]//2018 IEEE 20th International Workshop on Multimedia Signal Processing (MMSP).Vancouver:IEEE,2018:1-5.
[12] MONTGOMERY C. Vorbis I Specification [EB/OL].(2020-07-04).https://www.xiph.org/vorbis/doc/Vorbis_I_spec.html.
[13] ITU-T. Perceptual Evaluation of Speech Quality (PESQ): An Objective Method Forend-to-End Speech Quality Assessment of Narrow-Band Telephone Networks and Speech Codecs [S/OL].(2001-02-23).https://www.itu.int/rec/T-REC-P.862/.
[14] RIX A W,BEERENDS J G,HOLLIER M P,et al. Perceptual Evaluation of Speech Quality(PESQ)-A New Method for Speech Quality Assessment of Telephone Networks and Codecs [C]//2001 IEEE International Conference on Acoustics, Speech,and Signal Processing.Salt Lake City:IEEE,2001:749-752.
[15] TAAL C H,HENDRIKS R C,HEUSDENS R,et al. An Algorithm for Intelligibility Prediction of Time-Frequency Weighted Noisy Speech [J].IEEE Transactions on Acoustics, Speech, and Signal Processing,2011,19(7):2125–2136.
[16] ISIK Y,ROUX J L,CHEN Z,et al. Single-Channel Multi-Speaker Separation Using Deep Clustering [C]//Interspeech 2016. San Francisco:ISCA,2016:545-549.
[17] PRINCEN J,BRADLEY A. Analysis/Synthesis Filter Bank Design Based on Time Domain Aliasing Cancellation [J].IEEE Transactions on Acoustics, Speech, and Signal Processing,1986,34(5):1153-1161.
[18] 孔凡留.基于深度學(xué)習(xí)的語音增強(qiáng)算法研究 [D].南京:東南大學(xué),2021.
作者簡介:陶然(2004—),男,漢族,江蘇南京人,本科在讀,研究方向:語音信號(hào)處理;朱潤乾(2004—),男,漢族,江蘇泰州人,本科在讀,研究方向:語音信號(hào)處理;秦怡童(2004—),女,漢族,河南洛陽人,本科在讀,研究方向:深度學(xué)習(xí);凌海東(2004—),男,漢族,安徽合肥人,本科在讀,研究方向:語音信號(hào)處理。