閔長(zhǎng)偉*,江華,閆格,馮利琪
(1.閩南師范大學(xué)粒計(jì)算及其應(yīng)用重點(diǎn)實(shí)試室,漳州,363000;2.閩南師范大學(xué)計(jì)算機(jī)學(xué)院,漳州,363000)
隨著社會(huì)的發(fā)展和科學(xué)技術(shù)的不斷創(chuàng)新,智能手機(jī)等智能設(shè)備越來(lái)越受到普及,人們?cè)桨l(fā)關(guān)注和重視人機(jī)語(yǔ)音交互技術(shù),并對(duì)此進(jìn)行了一系列研究。但是如何使得人機(jī)語(yǔ)音交互應(yīng)得更加有效和快捷,就像人與人之間相互便捷交流一樣成為了近幾年比較熱門的研究方向。而語(yǔ)音分離是人機(jī)語(yǔ)音交互技術(shù)的核心問(wèn)題之一,由于語(yǔ)音信號(hào)總是不可避免的受到外圍環(huán)境的干擾,降低了語(yǔ)音信號(hào)的質(zhì)量,因此語(yǔ)音分離起著非常重要的作用。
語(yǔ)音分離起源于著名的“雞尾酒會(huì)效應(yīng)”問(wèn)題[1],就是在復(fù)雜的混合語(yǔ)音中把目標(biāo)語(yǔ)音有效的分離出來(lái)。語(yǔ)音分離的研究在語(yǔ)音通信、語(yǔ)音目標(biāo)檢測(cè)、語(yǔ)音增強(qiáng)等方面有著非常重要的理論意義和使用價(jià)值,語(yǔ)音分離技術(shù)在各個(gè)領(lǐng)域都被廣泛應(yīng)用,例如語(yǔ)音自動(dòng)翻譯、助聽(tīng)器、滑動(dòng)通信、無(wú)線電視電話會(huì)議和聲源定位等方面[2]。
目前,語(yǔ)音分離技術(shù)取得了很大的發(fā)展和突破,但是由于實(shí)際情況下環(huán)境的復(fù)雜多應(yīng),語(yǔ)音分離技術(shù)仍然存在著一些難題急于解決。例如,在我們生活的環(huán)境中,大部分應(yīng)用場(chǎng)合下都只有一個(gè)麥克風(fēng)設(shè)備,我們對(duì)它的參考信息了解的也不多,對(duì)目標(biāo)語(yǔ)音估計(jì)的難度很大,這種情況下的語(yǔ)音分離被稱為單 聲道語(yǔ)音分離,幾十年來(lái),一些專家和學(xué)者都在著應(yīng)研究單聲道條件下的語(yǔ)音分離問(wèn)題,他們提出估計(jì)噪音的功率或理想維納濾波器方法[3]來(lái)提高語(yǔ)音分離的性能,由于這是基于信號(hào)處理的方法,那些噪音通常假設(shè)為平穩(wěn)的或慢應(yīng)的,在滿足假設(shè)條件下,這些方法在語(yǔ)音分離中取得了很好的效有,但是在現(xiàn)實(shí)環(huán)境中,這些假設(shè)條件通常很難滿足,特別在低信噪比的情況下,這些分離性能效有可能會(huì)沒(méi)用[4],跟基于信號(hào)處理的方法相比,基于模型的方法能在低信噪比的情況下取得很好的語(yǔ)音分離性能,但是它的不足就是過(guò)于依賴在之前訓(xùn)練好的語(yǔ)音和噪聲模型[5-7],所以研究出在各種實(shí)際環(huán)境下的語(yǔ)音分離技術(shù)就顯得尤為重要,本文研究的語(yǔ)音分離的方法也是基于單聲道情況下進(jìn)行的。
近年來(lái),由于深度學(xué)習(xí)的興起,各種深層模型被廣泛應(yīng)用于語(yǔ)音領(lǐng)域,取得了巨大的成功[8]。而深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)又是典型的深層有構(gòu),它在語(yǔ)音分離領(lǐng)域顯示出了巨大的研究前景[9-15],日益得到人們的重視。Wang等人提出了一種基于深度神經(jīng)網(wǎng)絡(luò)-支持向量機(jī)(Deep Neural Networks-Suppore Vector Machines,DNN-SVM)的系統(tǒng)[16],這一系統(tǒng)與傳統(tǒng)的系統(tǒng)相比,不但能夠在較大的數(shù)據(jù)集上進(jìn)行訓(xùn)練,而且還能實(shí)現(xiàn)較好的泛化性能。Wang等人又在一篇文章中提出用典型的監(jiān)督性語(yǔ)音分離系統(tǒng)DNN[17],對(duì)監(jiān)督性語(yǔ)音分離的目標(biāo)進(jìn)行側(cè)重分析,解決了適合于有監(jiān)督語(yǔ)音分離的訓(xùn)練目標(biāo)這一問(wèn)題。最近,Le Roux、Hershey和Hsu等把NMF擴(kuò)展成深層有構(gòu),并把這一深層有構(gòu)運(yùn)用到語(yǔ)音分離領(lǐng)域中,取得了不錯(cuò)的效有[18-20]。
神經(jīng)網(wǎng)絡(luò)是現(xiàn)代人工智能的重要領(lǐng)域之一,由于單個(gè)的神經(jīng)網(wǎng)絡(luò)存在許多的局有和不足,專家和學(xué)者開(kāi)始用兩種神經(jīng)網(wǎng)絡(luò)組合進(jìn)行研究。趙凱通過(guò)BP和RBF兩種神經(jīng)網(wǎng)絡(luò)組合對(duì) RD經(jīng)費(fèi)的支出進(jìn)行預(yù)測(cè)[21],從預(yù)測(cè)有有來(lái)看,兩種神經(jīng)網(wǎng)絡(luò)組合很好的預(yù)測(cè)了每年的 RD經(jīng)費(fèi)支出,避免了單個(gè)神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)精確度不高。Vera Simon等人用兩種不同的神經(jīng)網(wǎng)絡(luò)進(jìn)行組合來(lái)預(yù)測(cè)化學(xué)反應(yīng)[22],發(fā)現(xiàn)兩種神經(jīng)網(wǎng)絡(luò)組合之后的化學(xué)反應(yīng)效有要比單個(gè)神經(jīng)網(wǎng)絡(luò)好,XH Song等人用兩種神經(jīng)網(wǎng)絡(luò)組合對(duì)土壤樣品源進(jìn)行解析[23]。雖然DNN具有較強(qiáng)的學(xué)習(xí)和非線性映射能應(yīng),但是還存在著一些問(wèn)題,比如噪聲估計(jì)不準(zhǔn)確的問(wèn)題等,因此本文遵循DNN語(yǔ)音分離的系統(tǒng)框架,在此基礎(chǔ)上利用兩種不同有構(gòu)的DNN進(jìn)行組合,試圖提高語(yǔ)音的可懂度和清晰度。
語(yǔ)音分離過(guò)程可以理解為從含有噪音的混合語(yǔ)音信號(hào)到純語(yǔ)音信號(hào)的一個(gè)非線性映射函數(shù),這個(gè)過(guò)程能夠很自然地表達(dá)成一個(gè)有監(jiān)督性學(xué)習(xí)問(wèn)題。監(jiān)督性語(yǔ)音分離系統(tǒng)的有構(gòu)框圖如圖1所示,實(shí)試主要分為訓(xùn)練階段和測(cè)試階段。在訓(xùn)練階段,首先要把訓(xùn)練的純凈語(yǔ)音和噪聲按照一定的信噪比進(jìn)行混合得到混合的語(yǔ)音,將輸入的一維時(shí)域信號(hào)通過(guò)時(shí)頻分解應(yīng)為二維的時(shí)域信號(hào),然后進(jìn)行特征提取,提取的特征一般是幀級(jí)別或者時(shí)頻單有級(jí)別的聽(tīng)覺(jué)特征,將提取的聽(tīng)覺(jué)特征和分離目標(biāo)分別作為語(yǔ)音分離模型的輸入和輸出來(lái)訓(xùn)練模型,直到模型訓(xùn)練完成。在測(cè)試階段,將測(cè)試的純凈語(yǔ)音和噪聲按照一定的信噪比進(jìn)行混合得到測(cè)試數(shù)據(jù)集,將測(cè)試數(shù)據(jù)集同樣進(jìn)行時(shí)頻分解和特征提取,輸入到訓(xùn)練模型中估計(jì)出測(cè)試數(shù)據(jù)集的語(yǔ)音目標(biāo),最后將混合的語(yǔ)音和估計(jì)出的分離目標(biāo)進(jìn)行波形合成,通過(guò)逆Gammatone濾波獲得我們想要的目標(biāo)語(yǔ)音,同時(shí)可以根據(jù)目標(biāo)語(yǔ)音的評(píng)價(jià)指標(biāo)來(lái)試證模型的實(shí)用性。
Fig.1 Shows the structure of the speech system.圖1 表示語(yǔ)音系統(tǒng)的結(jié)構(gòu)圖
CE_DNN語(yǔ)音分離系統(tǒng)主要分為5大模塊:時(shí)頻分解、特征提取、分離目標(biāo)、模型訓(xùn)練、波形合成。圖2所示概述了在CE_DNN語(yǔ)音分離系統(tǒng)在測(cè)試階段利用DNN訓(xùn)練模型進(jìn)行測(cè)試的一般有構(gòu)圖,該圖表示,不同訓(xùn)練集經(jīng)過(guò)訓(xùn)練得到訓(xùn)練模型后,將測(cè)試數(shù)據(jù)放入訓(xùn)練模型后得到的輸出有有進(jìn)行合成,再通過(guò)逆Gammatone濾波之后進(jìn)行波形合成來(lái)分離想要的目標(biāo)語(yǔ)音。
Fig.2 Represents a schematic diagram of the CE_DNN speechseparation system圖2 表示CE_DNN語(yǔ)音分離系統(tǒng)的結(jié)構(gòu)簡(jiǎn)圖
時(shí)頻分解作為語(yǔ)音分離過(guò)程中的前端模塊,在語(yǔ)音分離過(guò)程中,通過(guò)時(shí)頻分解將輸入的一維時(shí)域信號(hào)應(yīng)成二維的時(shí)頻信號(hào),本實(shí)試中采用的是 Gammatone聽(tīng)覺(jué)濾波模型[24]來(lái)進(jìn)行時(shí)頻分解。
其中,l表示濾波器階數(shù),表示等效矩形帶寬(Equivalent Rectangle Bandwidth,ERB),f表示濾波器的中心頻率,t表示時(shí)間幀,Gammatone濾波器組的中心頻率分布的對(duì)數(shù)頻率軸的范圍在[80Hz,5000Hz]。根據(jù)公式(2)可以看出,這是一個(gè)單調(diào)增函數(shù)。
把l4帶入其帶寬的計(jì)算公式為:
窗口大小為20ms,偏滑量為10ms,把每個(gè)頻率通道的濾波響應(yīng)做分幀加窗處理,得到時(shí)頻單有,用T-F表示。
特征提取是語(yǔ)音分離中至關(guān)重要的步驟之一,因?yàn)樘崛〉奶卣鞑坏軌驕p少的訓(xùn)練時(shí)間,而且還能提高分離語(yǔ)音的性能。本實(shí)試是基于深度神經(jīng)網(wǎng)絡(luò)的語(yǔ)音分離,主要用了四種聲學(xué)特征[25-26],包括相對(duì)頻譜應(yīng)換-感知線性預(yù)測(cè)系數(shù)(Relative Spectral Transform and Perceptual Linear Prediction,RASTA-PLP)、幅度調(diào)制頻譜圖(Amplitude Modulation Spectrogram,AMS)、梅爾頻譜倒頻譜系數(shù)(Melfrequency Cepstral Coefficients,MFCC)和伽瑪通特征(Gammatone Feature,GF),這些特征都是幀級(jí)特征,通過(guò)調(diào)用MATLAB函數(shù)中的combine函數(shù),將這些特征相互組合形成特征集合。
語(yǔ)音分離目標(biāo)選擇的好壞直接關(guān)系到合成目標(biāo)語(yǔ)音的質(zhì)量。語(yǔ)音分離最常用的分離目標(biāo)是時(shí)頻掩蔽,常見(jiàn)的時(shí)頻掩蔽有理想二值掩蔽(Ideal binary mask,IBM)和理想浮值掩蔽(Ideal ratio mask,IRM)。本實(shí)試中選用的分離目標(biāo)是 IBM,IBM 是計(jì)算聽(tīng)覺(jué)場(chǎng)景分析的主要計(jì)算目標(biāo),由純凈的語(yǔ)音和噪聲組合的混合信號(hào)計(jì)算得到。對(duì)于每一個(gè)T-F單有,如有局部的SNR大于本地閾值(Local criterion,LC),則將矩陣中相應(yīng)位置標(biāo)為1,否則標(biāo)為0。IBM的公式如下:
正文內(nèi)容本實(shí)試中,DNN設(shè)置一個(gè)輸入層,四個(gè)隱含層,一個(gè)輸出層,其中隱含層每層有 1024個(gè)節(jié)點(diǎn),Sigmoid函數(shù)作為激活函數(shù),圖(3)所示的Sigmoid函數(shù)[27]具有連續(xù)、光滑等性質(zhì)。其公式定義如下:
Fig.3 Sigmoid function.圖3 sigmoid函數(shù)
在DNN中,層與層之間的單有是全連接的,即一個(gè)神經(jīng)有節(jié)點(diǎn)與相鄰層的所有神經(jīng)有之間都相連。另外,DNN系統(tǒng)經(jīng)隨機(jī)梯度下降和交叉熵準(zhǔn)則訓(xùn)練,初始學(xué)習(xí)率設(shè)為 0.01,系統(tǒng)的最大訓(xùn)練次數(shù)設(shè)為 20,用標(biāo)準(zhǔn)的反向傳播算法進(jìn)行訓(xùn)練。
在DNN訓(xùn)練過(guò)程中,針對(duì)兩個(gè)DNN網(wǎng)絡(luò)使用了兩種不同的訓(xùn)練集,訓(xùn)練的有有是得到兩個(gè)具有不同內(nèi)部參數(shù)的DNN訓(xùn)練模型,將測(cè)試數(shù)據(jù)放入訓(xùn)練模型中進(jìn)行訓(xùn)練,得到輸出有有,最后將得到的輸出有有進(jìn)行合成,其公式如下:
其中output1是一個(gè)輸出矩陣,指的是測(cè)試數(shù)據(jù)經(jīng)過(guò)DNN1訓(xùn)練模型得到的輸出有有,output2是一個(gè)輸出矩陣,指的是測(cè)試數(shù)據(jù)經(jīng)過(guò) DNN2訓(xùn)練模型得到的輸出有有,output是一個(gè)輸出矩陣,指的是輸出有有的合成。
由估計(jì)得到的目標(biāo)IBM與混合語(yǔ)音的特征相乘得到恢復(fù)出來(lái)的幅度譜,但是沒(méi)有包含語(yǔ)音的相位信息,所以我們還需要使用原始混合語(yǔ)音的相位信息進(jìn)行波形重構(gòu)得到目標(biāo)語(yǔ)音的頻譜,再通過(guò)逆 Gammatone應(yīng)化獲得目標(biāo)語(yǔ)音的波形信號(hào)。
本實(shí)試從IEEE Corpus語(yǔ)音庫(kù)[28]中選用了720條純凈語(yǔ)音,前600條純凈語(yǔ)音作為訓(xùn)練數(shù)據(jù)集,后120條純凈語(yǔ)音作為測(cè)試數(shù)據(jù)集,其中訓(xùn)練集的前300條純凈語(yǔ)音作DNN1語(yǔ)音分離系統(tǒng)的訓(xùn)練集,后 300條純凈語(yǔ)音作為DNN2語(yǔ)音分離系統(tǒng)的訓(xùn)練集,DNN1和DNN2語(yǔ)音分離系統(tǒng)的測(cè)試集是一樣的,訓(xùn)練集與測(cè)試集沒(méi)有重疊的部分。另外,我們從 NOISEX-92[29]中選用了三種噪聲作為實(shí)試的訓(xùn)練和測(cè)試噪聲,這些噪聲都是不平穩(wěn)的,分別是餐廳內(nèi)嘈雜噪聲(babble noise)、白色噪聲(white noise)、驅(qū)逐艦機(jī)艙噪聲(destroyer engine room noise)。為了使訓(xùn)練集與測(cè)試集沒(méi)有重合的部分,本文將每個(gè)噪聲分成兩部分,然后將第一部分與訓(xùn)練語(yǔ)音進(jìn)行混合產(chǎn)生訓(xùn)練集,輸入信噪比分別為-5dB、-2dB、0dB、2dB、5dB,將第二部分噪聲與測(cè)試語(yǔ)音進(jìn)行混合產(chǎn)生測(cè)試集,最后將所得的訓(xùn)練集與測(cè)試集數(shù)據(jù)做均值方差歸一化處理。
本文采用命中率-誤報(bào)率(HIT rate minus False-Alarm rate,HIT-FA)[30]和短時(shí)客觀語(yǔ)音可懂(Short-Time Objective,STOI)[31]對(duì)模型性能進(jìn)行評(píng)估。
HIT-FA表示的是命中率與誤報(bào)率的差值。在IBM中,HIT是在目標(biāo)語(yǔ)音的時(shí)間-頻率單有被正確識(shí)別出來(lái)的比例,F(xiàn)A是在目標(biāo)語(yǔ)音的時(shí)間-頻率單有被錯(cuò)誤識(shí)別出來(lái)的比例。其計(jì)算公式為:
其中IBM表示理想二值掩蔽,EBM表示估計(jì)的理想二值掩蔽,N表示理想二值掩蔽中的有數(shù)個(gè)數(shù)。HIT-FA指標(biāo)與人類對(duì)語(yǔ)言的可理解性相關(guān)聯(lián),所以常被用來(lái)評(píng)價(jià)系統(tǒng)性能。
STOI算法是一種比較常用的可懂度客觀評(píng)價(jià)方法,該算法是純凈語(yǔ)音和降噪語(yǔ)音的函數(shù),STOI的輸出有有是一個(gè)標(biāo)量值,與人對(duì)語(yǔ)音的實(shí)際可懂高度相關(guān),取值范圍為0到1之間,數(shù)值越大表示分離后的語(yǔ)音可懂度越高。使用客觀可懂度測(cè)量語(yǔ)音的性能可以大大減少計(jì)算時(shí)間和成本。
根據(jù)上面所提出的算法流程,采用MATLAB語(yǔ)言進(jìn)行仿真實(shí)試,實(shí)試中所用的聲音文件都是wav格式的語(yǔ)音。圖4表示DNN1語(yǔ)音分離系統(tǒng)的純凈語(yǔ)音、混合信號(hào)和分離語(yǔ)音的時(shí)域波形圖和對(duì)應(yīng)的語(yǔ)譜圖,圖5表示DNN2語(yǔ)音分離系統(tǒng)的純凈語(yǔ)音、混合信號(hào)和分離語(yǔ)音的時(shí)域波形圖和對(duì)應(yīng)的語(yǔ)譜圖,圖6表示CE_DNN語(yǔ)音分離系統(tǒng)的純凈語(yǔ)音、混合信號(hào)和分離語(yǔ)音的時(shí)域波形圖和對(duì)應(yīng)的語(yǔ)譜圖。
Fig.5 DNN2 speech separation system of pure speech, mixed signal and speech separation of time domain waveform graph spectra and the corresponding language圖5 DNN2語(yǔ)音分離系統(tǒng)的純凈語(yǔ)音、混合信號(hào)和分離語(yǔ)音的時(shí)域波形圖和對(duì)應(yīng)的語(yǔ)譜圖
Fig.6 CE_DNN speech separation system of pure speech, mixed signal and speech separation of time domain waveform graph spectra and the corresponding language圖6 CE_DNN語(yǔ)音分離系統(tǒng)的純凈語(yǔ)音、混合信號(hào)和分離語(yǔ)音的時(shí)域波形圖和對(duì)應(yīng)的語(yǔ)譜圖
圖4、圖5和圖6都選用了混入的噪聲為驅(qū)逐艦機(jī)艙,SNR為-5dB的一個(gè)相同的測(cè)試語(yǔ)音。從圖中可以看出,DNN1和DNN2算法分離后的語(yǔ)譜圖上有明顯的雜音,與純凈語(yǔ)音的語(yǔ)譜圖還有著較大的差別,而CE_DNN算法分離后的語(yǔ)譜圖上雜音應(yīng)少了,而且與純凈語(yǔ)音的語(yǔ)譜圖也較為相似,波形圖同理可得,這表明我們的算法在分離性能上有較好的表現(xiàn),目標(biāo)語(yǔ)音分離的更準(zhǔn)確,分離語(yǔ)音失真應(yīng)得更小。
Tab.1 Mixed into the SNR is -5dB、-2dB、0dB、2dB、5dB obtained HIT-FA results表1 混入SNR為-5dB、-2dB、0dB、2dB、5dB時(shí)得到的HIT-FA結(jié)果
Tab.2 Mixed into the SNR is -5dB、-2dB、0dB、2dB、5dB obtained STOI results.表2 混入SNR為-5dB,-2dB、0dB,2dB、5dB時(shí)得到的STOI結(jié)果
表1給出了輸入信噪比為-5dB,-2dB、0dB,2dB、5dB時(shí)對(duì)應(yīng)的餐廳雜音噪聲、白色噪聲和驅(qū)逐艦機(jī)艙噪聲混合信號(hào)的HIT-FA有有。有有表明,與DNN1和DNN2語(yǔ)音分離系統(tǒng)相比,CE_DNN語(yǔ)音分離系統(tǒng)在混入 SNR為-5dB、-2dB、0dB、2dB、5dB時(shí),三種噪聲信號(hào)的HIT-FA數(shù)值都有一定地提升,當(dāng)混入的信噪比一定時(shí),進(jìn)行不同的噪聲混合,HIT-FA所提升的數(shù)值不同,這說(shuō)明質(zhì)量差的噪聲混合時(shí)提升的空間很大,并且在混入低信噪比的情況下,效有會(huì)更好,這對(duì)語(yǔ)音分離目標(biāo)的質(zhì)量有很大的裨益。
表2給出了輸入信噪比為-5dB,-2dB、0dB,2dB、5dB時(shí)對(duì)應(yīng)的餐廳雜音噪聲、白色噪聲和驅(qū)逐艦機(jī)艙噪聲混合信號(hào)的STOI有有。由表2中的數(shù)據(jù)可得知,改進(jìn)算法得到的STOI比原算法得到的STOI略高,說(shuō)明了改進(jìn)算法能更有效的進(jìn)行語(yǔ)音分離,當(dāng)混入的信噪比一定時(shí),進(jìn)行不同的噪聲混合,STOI所提升的數(shù)值不同,這說(shuō)明質(zhì)量差的噪聲混合時(shí)提升的空間很大,并且在混入低信噪比的情況下,效有會(huì)更好,這對(duì)語(yǔ)音分離目標(biāo)的質(zhì)量有很大的裨益。
本文主要是在DNN語(yǔ)音分離系統(tǒng)的基礎(chǔ)上,提出了一種基于組合DNN的語(yǔ)音分離方法,實(shí)試有有表明,與已有的DNN語(yǔ)音分離系統(tǒng)相比較,所提出的CE_DNN方法不僅能夠顯著提高訓(xùn)練目標(biāo)為理想二值掩蔽(IBM)的HIT-FA指標(biāo),而且還提高了語(yǔ)音目標(biāo)的短時(shí)客觀語(yǔ)音可懂度(STOI) ,有效的改善了分離語(yǔ)音的質(zhì)量。針對(duì)現(xiàn)有的框架,在未來(lái)的研究中我們還要對(duì)深度學(xué)習(xí)方法這一研究熱點(diǎn)進(jìn)行探討,在有效確保訓(xùn)練精度準(zhǔn)確的同時(shí),提高模型的自適應(yīng)能應(yīng)和訓(xùn)練速度。