孫林慧 張 蒙 梁文清
(南京郵電大學通信與信息工程學院,江蘇南京 210003)
近年來,深度學習技術(shù)廣泛地用于信號分離中,學者們提出多種基于深度學習的語音分離方法[1-2]。對單通道語音分離的研究包括說話人語音分離、語音和噪聲分離[3]、歌聲分離等,主要通過對目標語音和干擾語音進行時頻域分析,從混合信號中提取出目標語音。基于神經(jīng)網(wǎng)絡的語音分離根據(jù)訓練目標可分為基于映射的方法和基于掩碼的方法[4]?;谟成涞姆椒ㄖ苯訉⒓儍粽Z音頻譜作為輸出目標。目前語音分離大多使用基于掩碼的方法。Wang 等人使用理想二值掩碼(Ideal Binary Mask,IBM)和理想比率掩碼(Ideal Ratio Mask,IRM)作為深度神經(jīng)網(wǎng)絡(Deep Neural Network,DNN)的訓練目標時,發(fā)現(xiàn)IRM 的分離性能優(yōu)于IBM 的[5-6]。Zhang 等人提出一種深度集成神經(jīng)網(wǎng)絡的語音分離方法,該方法充分利用了上下文信息,使估計的IRM 更加準確[4]。為了同時增強幅度和相位譜,Williamson 等人提出采用復數(shù)IRM(Complex Ideal Ratio Mask,CIRM)作為訓練目標[7],用DNN 同時訓練CIRM 的實部和虛部來進一步提高語音分離的性能。
隨后學者們對網(wǎng)絡模型進行了各種優(yōu)化。Nie等人提出將DNN 和非負矩陣分解(Non-negative Ma?trix Factorization,NMF)結(jié)合在一個框架下,使用DNN 預測NMF 的權(quán)重矩陣,與字典矩陣相乘得到增強后的語音幅度譜,降低了計算誤差[8]。受卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network,CNN)在圖像識別大獲成功的啟發(fā),一些學者使用CNN 在時頻域建模進行語音分離。Fu 等人提出了一種感知信噪比的CNN 語音增強方法,并證實CNN 能夠有效提取語音信號的局部時頻特征,從而得到比DNN 更好的語音增強性能[9]。范存航等人提出一種基于編解碼器的卷積神經(jīng)網(wǎng)絡用于端到端的語音分離,在單輸出網(wǎng)絡的loss函數(shù)中引入干擾語音信息以優(yōu)化網(wǎng)絡模型[10]。之后又有學者提出各種復雜結(jié)構(gòu)的深度神經(jīng)網(wǎng)絡用于語音分離。Huang等人在循環(huán)神經(jīng)網(wǎng)絡(Recurrent Neural Network,RNN)中將比率掩碼融合到幅度譜的估計中[11],使估計語音的幅度譜更加準確。為了解決RNN 的梯度消失問題,一些學者提出應用長短時記憶網(wǎng)絡(Long Short-Term Memory,LSTM)建模,實現(xiàn)語音分離[12-14]。王志杰等人將雙路徑循環(huán)神經(jīng)網(wǎng)絡(Dual Path Recurrent Neu?ral Network,DPRNN )應用到單通道語音增強中,該復合網(wǎng)絡結(jié)構(gòu)由CNN 和LSTM 組成,更適合對長序列語音數(shù)據(jù)建模[15]。王濤等人提出了一種基于生成對抗網(wǎng)絡(Generative Adversarial Network,GAN)聯(lián)合訓練的語音分離方法,在訓練中同時考慮兩個說話人的語音信息,有利于GAN 得到豐富的語音信息[16]。這些研究工作都通過訓練各種深度神經(jīng)網(wǎng)絡得到輸入混合語音特征與目標語音特征之間的非線性映射關(guān)系來實現(xiàn)語音分離,相比淺層模型,深度學習方法解決單通道語音分離問題更具有優(yōu)越性。
針對兩個說話人混合語音分離問題時,通常按照說話人混合情況分別討論,說話人混合包括異性別混合(Male-Female,M-F)和同性別混合,同性別混合又包括男男混合(Male-Male,M-M)和女女混合(Female-Female,F(xiàn)-F)。以往的語音分離研究均是按照性別組合分別討論,即直接在匹配的模型上進行語音分離,但是現(xiàn)實語音分離時混合語音的性別組合是未知的。若先判斷出混合語音性別組合情況,再根據(jù)相應的模型進行語音分離,這樣更適用于實際的語音分離。Du 等人提出兩階段的DNN 語音分離系統(tǒng),通過聚類分析對性別組合進行劃分[17],對說話人組合檢測后根據(jù)匹配的DNN網(wǎng)絡進行語音分離。受其啟發(fā),本文首先通過建立更精確的模型解決混合語音性別組合分類問題,然后再進行語音分離。
判斷說話人性別組合屬于說話人識別領(lǐng)域的一個問題。近年來,說話人識別技術(shù)[18-21]已經(jīng)飛速發(fā)展,基于深度學習的說話人識別方法逐漸成為主流[22-23]。深度學習相對于傳統(tǒng)方法的主要優(yōu)勢是其強大的表征能力,能夠從話語中提取高度抽象的嵌入特征用于識別說話人。由于在大多數(shù)情況下,混合語音中兩個人的語音同時存在,訓練模型時異性別組合與兩種同性別組合中都有一種共同性別語音存在,這使得混合語音性別組合識別比傳統(tǒng)的純凈語音說話人識別要難得多,使用傳統(tǒng)單一聲學特征直接識別三種性別組合非常困難,很容易產(chǎn)生誤判。
針對未知性別組合混合語音的分離問題,本文提出深度特征融合的策略,應用CNN-SVM 的框架判斷未知混合語音的性別組合。使用CNN 的局部感知特性提取梅爾頻率倒譜系數(shù)和濾波器組特征的深度特征,融合兩種深度特征來彌補單一聲學特征區(qū)分能力不足的缺陷,該深度融合特征可以深度挖掘分類特征中性別組合類別信息。然后利用支持向量機(Support Vector Machine,SVM)分類器判別性別組合,最后根據(jù)分類結(jié)果選擇對應說話人性別組合的模型進行語音分離。與使用通用的語音分離網(wǎng)絡相比,針對不同的性別組合分別訓練相應的語音分離網(wǎng)絡,每種網(wǎng)絡的針對性更強,網(wǎng)絡需要學習的參數(shù)更少,可以進一步提升語音分離效果。
本文主要內(nèi)容如下:第2 節(jié)描述了本文提出的基于卷積神經(jīng)網(wǎng)絡-支持向量機的性別組合分類方法,第3 節(jié)描述本文所采用的基于深度神經(jīng)網(wǎng)絡的語音分離網(wǎng)絡。第4 節(jié)是本文的實驗部分,首先分析特征和分類器對識別性能的影響,再根據(jù)最佳的分類結(jié)果選擇對應性別組合的CNN/DNN 模型進行語音分離,并分析結(jié)果證實本文所提方法的有效性。第5節(jié)對全文進行總結(jié)。
實際語音分離時,由于混合語音的說話人性別組合相關(guān)信息往往未知,若直接在普適的模型上進行語音分離,其效果欠佳。針對未知性別組合混合語音的分離問題,本文提出基于CNN-SVM 性別組合分類的語音分離方法,其框圖如圖1所示,主要包括三個模塊。第一個模塊挖掘具有性別組合區(qū)分能力的深度特征,首先對混合信號進行預處理,計算梅爾頻率倒譜系數(shù)(Mel Frequency Cepstrum Coef?ficients,MFCC)和濾波器組特征(Filter bank,F(xiàn)bank)的特征參數(shù),然后通過2 個訓練好的卷積神經(jīng)網(wǎng)絡模型分別提取MFCC 特征和Fbank 特征的深度特征,并將這兩種深度特征進行融合,形成最終的分類特征。第二個模塊基于分類特征利用SVM 分類器對混合語音性別組合進行識別。第三個模塊選擇對應性別組合的分離模型進行語音分離。
圖1 基于CNN-SVM性別組合分類的語音分離框圖Fig.1 Block diagram of speech separation based on CNN-SVM gender combination classification
相比DNN,CNN 中具有的卷積層可以提取局部區(qū)域特征,能夠很好地保留特征的空間信息,因此本文采用CNN 構(gòu)建說話人性別組合的深度特征抽取模型。本文提出的基于CNN-SVM 的混合語音性別組合識別包括訓練階段和測試階段,如圖2所示。首先生成三種性別組合混合語音,在訓練階段,對訓練的混合語音進行預處理,并計算出相關(guān)聲學特征,訓練基于CNN 的深度特征提取模型,再基于深度特征訓練SVM 分類器。在測試階段,未知性別組合的測試樣本經(jīng)過預處理后,通過訓練好的卷積神經(jīng)網(wǎng)絡模型提取出深度特征,將測試語音深度特征基于SVM模型預測性別組合識別結(jié)果。
圖2 基于CNN-SVM的混合語音性別組合識別框圖Fig.2 Block diagram of mixted speech gender combination dectection based on CNN-SVM
本文所使用的卷積神經(jīng)網(wǎng)絡的具體結(jié)構(gòu)如圖3所示,整個網(wǎng)絡由輸入層、2 個卷積層、2 個池化層、2 個全連接層和輸出層構(gòu)成。卷積層、池化層和全連接層的數(shù)目可根據(jù)訓練數(shù)據(jù)量設定。
圖3 卷積神經(jīng)網(wǎng)絡基本結(jié)構(gòu)Fig.3 Architecture of convolutional neural network
卷積層是卷積神經(jīng)網(wǎng)絡的核心,通過輸入特征與卷積核加權(quán)求和計算出該層的輸出,如式(1)所示。
式(1)中:vl為第l層的特征,wl為第l層的卷積核權(quán)重系數(shù),‘*’為卷積操作,vl-1為第l-1 層的特征,bl為第l層的偏置系數(shù),本文分類模型中將原始輸出值通過Relu 激活函數(shù)增加網(wǎng)絡的非線性。卷積運算使輸出數(shù)據(jù)中的任何一個單元都只與輸入數(shù)據(jù)的一部分相關(guān),可以用來提取說話人的局部特征。而核的大小遠遠小于輸入的大小,所以卷積運算大大降低了網(wǎng)絡參數(shù)。
在卷積層后面設置一個池化層,進行特征選擇,一般包括均值池化和最大值池化方法。在說話人識別領(lǐng)域中,一般認為最大值池化性能更好[24]。本文選擇最大值池化方法,保留該區(qū)域最有效的信息。
本文所使用的第一層的卷積核的大小是3 × 3,卷積核個數(shù)為32,池化核的大小是2 × 2,步長是2。第二層的卷積核的大小是3 × 3,卷積核個數(shù)為48,池化核的大小是2 × 2 的,步長是1。由于卷積核、池化核數(shù)量較多,池化層后展平的輸出特征維數(shù)很大,通常在之后設置全連接層,將卷積、池化后的特征進行整合,具體過程如式(2)所示。
由于本文是三分類的任務,輸出層包含三個節(jié)點,分別表示男-男語音、男-女語音、女-女語音三種類別的概率,選擇Softmax 作為輸出層的激活函數(shù),如式(3):
其中,i∈{1,2,3},與式(2)類似,輸出層的原始輸出值oi根據(jù)權(quán)重系數(shù)與前一層的輸入向量相乘加上偏置計算得到,oi表示三個類別在(-∞,+∞)范圍內(nèi)的原始輸出分數(shù)值,exp(oi)表示通過e指數(shù)將oi映射到(0,+∞),表示exp(oi)歸一化后的輸出,是各個性別組合的分布概率,網(wǎng)絡的預測目標是具有最大概率值的神經(jīng)元。
訓練基于CNN 的深度特征提取模型,包括了前向傳播(Forward Propagation,F(xiàn)P)和反向傳播(Back?ward Propagation,BP)兩個階段。FP階段是對權(quán)重和偏置進行隨機初始化,從輸入層開始,根據(jù)式(1)~式(3),逐層計算,最終得出輸出層的預測結(jié)果。BP階段,根據(jù)式(4)計算交叉熵損失函數(shù)值,采用梯度下降算法約束損失函數(shù),逐步優(yōu)化模型各層的權(quán)重w和偏置b。
其中,yi表示第i種性別組合的正確類別,表示CNN 預測的第i種性別組合的標簽,此處M=3,代表一共有三種性別組合。
在進行分類之前,輸入到網(wǎng)絡模型中的語音特征要盡可能包含較多說話人信息。梅爾頻率倒譜系數(shù)、濾波器組特征參數(shù)是目前說話人識別中使用廣泛的特征參數(shù)[22]。兩種特征的計算方式如圖4 所示。梅爾頻率倒譜系數(shù)是為使語音特征與人耳的聽覺特性相吻合設計出的手工特征。通常使用39 維的MFCC 特征,包括靜態(tài)信息和動態(tài)信息,由13 維MFCC、13維一階差分譜、13維二階差分譜構(gòu)成。通常使用40維的Fbank特征。由于提取Fbank特征參數(shù)時缺少一步離散余弦變換(Discrete Cosine Trans?form,DCT),F(xiàn)bank 特征維數(shù)比MFCC 高,具有更多的局部特征和原始特征。在特征方面考慮了符合人耳特性和保留原始特性的特征。其他的相關(guān)聲學特征,例如線性預測系數(shù)(Linear Prediction Coeffi?cient,LPC)早在70 年代提出,易于實現(xiàn)但對誤差比較敏感。線性預測倒譜系數(shù)(Linear Prediction Cepstral Coefficient,LPCC)是LPC 特征的改進,對元音的描述能力強但對輔音描述能力弱,現(xiàn)階段MFCC、Fbank 描述語音發(fā)聲的特性更好。為了深度挖掘性別組合類別區(qū)分性的信息特征,利用2 個CNN 分別提取MFCC 和Fbank 特征的深度特征,并融合這兩種深度特征作為最終的性別組合分類特征。
圖4 MFCC和Fbank特征計算過程Fig.4 Calculation process of MFCC and Fbank feature
基于CNN-SVM 的混合語音性別組合識別的具體流程見表1,包括訓練和測試兩個階段。在訓練階段,首先生成三種性別組合混合語音,分為男-男混合、女-女混合、男-女混合,提取三種混合語音的39 維MFCC 特征和40 維Fbank 特征,將三種混合語音的MFCC 和Fbank 特征分別作為兩個CNN 的輸入,在式(4)損失函數(shù)的約束下訓練CNN。然后將混合語音的MFCC 和Fbank 特征分別輸入到訓練好的CNN,分別取出第一個全連接層的特征,即得到MFCC 特征和Fbank 特征對應的1024 維的深度特征,記為DMFCC 和DFbank。需要說明的是,第一個全連接層比第二個全連接層的特征維數(shù)更高,包含更多信息,將第二個全連接層作為與輸出層之間的過渡層,而池化層的輸出特征還未經(jīng)過整合,區(qū)分性比起全連接層較差,所以將第一個全連接層作為深度特征提取層。至此經(jīng)過多個卷積池化操作,整個網(wǎng)絡的特征維數(shù)變小,相比原始的MFCC 和Fbank 特征,此時的深度特征是一種更抽象、更凝練、更具區(qū)分性的特征表現(xiàn)形式??紤]不同特征之間的互補性,將兩種特征向量進行串行融合,即水平連接,得到2048 維的深度融合特征,記為DMFCC+DFbanktrain,該融合特征包含更多性別組合類別信息。最后基于該融合特征訓練SVM 分類模型。
表1 基于CNN-SVM的混合語音性別組合識別的具體流程Tab.1 Specific steps of mixted speech gender combination dectection based on CNN-SVM
t 分布-隨機鄰域嵌入(t-SNE)有助于分析各種特征對于分類檢測的有效性[25],本文利用t-SNE 分析MFCC、Fbank、DMFCC、DFbank 和DMFCC+DF?bank 特征對于混合語音性別組合檢測的有效性。圖5(a)、(b)是三種類別混合語音原始的MFCC 和Fbank 特征使用t-SNE 降維的特征分布圖,圖6(a)、(b)、(c)是三種類別混合語音的DMFCC 特征、DF?bank特征和DMFCC+DFbank 特征的分布圖,三種顏色代表三種類別。從圖5 可以看出原始的MFCC 特征和 Fbank 三種類別的特征分布比較雜亂,不易區(qū)分。從圖6(a)、(b)可以看出,經(jīng)過CNN 的多層卷積、池化得到的DMFCC 特征和 DFbank 特征,三種類別具有一定的區(qū)分度,證實了使用CNN 提取的DMFCC 特征和 DFbank 特征進行性別組合分類的可行性。將圖6(a)、(b)與圖6(c)比較,發(fā)現(xiàn)DMFCC+DFbank 特征在三種類別之間的區(qū)分性最大,表明深度融合特征最具有性別組合區(qū)分力。
圖5 原始MFCC和Fbank特征的t-SNE可視化結(jié)果Fig.5 T-SNE visualization of raw MFCC and Fbank
圖6 兩種深度特征和融合特征的t-SNE可視化結(jié)果Fig.6 T-SNE visualization of two deep features and fusion feature
為了更好地對性別組合信息進行分類,利用支持向量機分類器取代 CNN 的Softmax 分類器。使用的分類決策函數(shù)為[26]:
其中,sign(?)為符號函數(shù),yi是樣本的標簽,?i=aiyi為權(quán)值,x是訓練樣本的深度融合特征DMFCC+DF?banktrain,β為輸入數(shù)據(jù)的截距,K(xi,x)為核函數(shù),選擇使用最廣泛的徑向基核函數(shù)。N為訓練的樣本數(shù)目。
其中,ai,i=1,2,…,N通過下列優(yōu)化問題的解求得:
其中,β通過式(7)求得:
在測試階段,利用訓練階段訓練好的CNN 獲得未知性別組合混合語音的深度特征,融合得到深度融合特征DMFCC+DFbank,輸入到訓練好的SVM中,預測測試語音的性別組合,指導后續(xù)的語音分離模塊選擇匹配的分離模型。
本文考慮的信號模型為兩個時域信號相加,屬于單通道語音分離:
其中,s1(t)和s2(t)分別表示兩個說話人語音信號,y(t)表示混合語音信號?;谏疃葘W習的語音分離通常在頻域進行研究,通過短時傅里葉變換(Short Time Fourier Transform,STFT)將式(8)轉(zhuǎn)化到頻域分析:
其中,Y(k,f)、S1(k,f)、S2(k,f)代表時域信號y(t)、s1(t)、s2(t)在第k幀時的短時傅里葉變換。本文所采用的基于DNN/CNN 的語音分離模型的整體框圖,如圖7。在訓練時,網(wǎng)絡的輸入是混合語音的幅度譜,目標語音信號si(t)的IRM用式(10)計算:
圖7 基于DNN/CNN的語音分離模型Fig.7 DNN/CNN based speech separation model
在分母上加上了一個極小的正數(shù)ε,以避免分母為0。
采用最小均方誤差損失函數(shù)約束網(wǎng)絡的訓練,以最小化目標語音的IRM 與估計比率掩碼(Ratio Mask,RM)之間的誤差:
其中,K表示語音分幀的總數(shù)目,通過DNN/CNN 學習映射關(guān)系f(?)得到表示所估計的第k幀目標說話人的比率掩碼矩陣。最小均方誤差使用l2范數(shù)衡量。在語音分離階段,通過訓練好的網(wǎng)絡,輸入混合語音信號幅度譜特征矩陣Y,獲得目標語音信號的估計比率掩碼,并根據(jù)式(12)與混合信號幅度譜特征矩陣做哈達瑪乘積,從而獲得估計的目標語音信號幅度譜特征矩陣根據(jù)式(13),將與混合信號的相位φ結(jié)合寫為復數(shù)信號,利用逆短時傅里葉變換(Inverse Short-Time Fourier Trans?form,ISTFT)重構(gòu)估計的語音時域信號。
實驗使用GRID 英文語料庫對本文語音分離方法的性能進行驗證。該語料庫共包含34 名說話人(18 位男性和16 位女性),每位說話人有1000 句語音,每條語音為1~2 秒左右。本文語音分離模型的訓練數(shù)據(jù)隨機選擇兩個說話人,從語料庫中隨機抽取兩位男性說話人(M1、M2)和兩位女性說話人(F1、F2)兩兩組合用于訓練和測試。訓練語句由前500條語句組成,剩余語句作為驗證集和測試集,選擇100 條語句作為驗證集,60 條語句作為測試集。隨后生成混合語音,男-男性別組合表示為M-M,女-女性別組合表示為F-F,男-女性別組合由兩位男性說話人和兩位女性說話人語音組合生成,表示為M-F。
在混合語音性別組合判別階段的卷積神經(jīng)網(wǎng)絡采用TensorFlow 深度學習框架構(gòu)建,網(wǎng)絡的結(jié)構(gòu)2.1 節(jié)已經(jīng)描述過,語音的采樣率為16 kHz,F(xiàn)FT 點數(shù)為512,加漢明窗,窗長也是512,幀移長度是窗長的1/2。計算出39 維MFCC 和40 維Fbank 兩種特征參數(shù),并對特征都進行了歸一化。使用隨機梯度下降算法(Stochastic Gradient Descent,SGD)訓練網(wǎng)絡,學習率設置為0.01,訓練時批次大小為16,迭代周期為200。采用的性能評價指標為識別率。MFCC 深度特征記為“DMFCC”,F(xiàn)bank 深度特征記為“DFbank”,淺層融合特征記為“MFCC+Fbank”,深層融合特征記為“DMFCC+DFbank”。
4.1.1 特征對識別性能的影響
為了驗證本文使用CNN 提取深度特征的有效性,使用直接計算出的特征與深度特征作為 SVM的輸入進行性別組合分類,分析特征對識別性能的影響?;贛FCC、Fbank、淺層融合特征MFCC+Fbank、DMFCC、DFbank 和深層融合特征 DMFCC+DFbank 的性別組合分類性能如表2 所示。DMFCC與MFCC 相比,性別組合分類平均識別率提升20.55%;DFbank 與Fbank 相比,平均識別率提升21.11%??梢钥闯鐾ㄟ^卷積神經(jīng)網(wǎng)絡提取的深度特征相比淺層特征,可以更好地表征性別組合信息。另外,DMFCC+DFbank 的性別組合分類效果最佳,比MFCC+Fbank 提升19.44%,比DMFCC 提升3.34%,比DFbank 提升1.67%??梢钥闯鲋苯訉⒂嬎愕玫降臏\層特征進行分類,識別效果很差,不利于后續(xù)的語音分離;而DMFCC+DFbank 包含更多深層次的性別組合信息,有助于后續(xù)進行準確的語音分離。同時還發(fā)現(xiàn)同性(M-M、F-F)說話人的識別率比異性說話人(M-F)的識別率要高,異性說話人語音中既包括男性語音又包括女性語音,更容易誤判為其他性別組合類別。
表2 不同特征在SVM下的識別率(%)Tab.2 Accuracy of different features using SVM(%)
4.1.2 分類器對識別性能的影響
為了驗證深度特征在不同分類器下的識別性能,將CNN-SVM 模型與CNN-Softmax 對混合語音性別組合分類效果進行比較。實驗結(jié)果如表3 所示,基于DMFCC、DFbank 和DMFCC+DFbank 特征,SVM比Softmax 的平均識別率分別提高0.58%、0.55%、2.78%。表明基于CNN 提取深度特征后使用SVM分類器要優(yōu)于傳統(tǒng)Softmax 分類的性能,CNN-SVM模型更適合性別組合分類。
表3 深度特征在不同分類器下的識別率(%)Tab.3 Accuracy of deep features using different classifiers(%)
4.1.3 噪聲對識別性能的影響
為驗證本文性別組合分類方法的魯棒性,在語音混合信號中加入加性噪聲干擾。噪聲使用NOISEX 數(shù)據(jù)集,實驗中采用了白噪聲(white)、戰(zhàn)斗機噪聲(F16)、車輛噪聲(volvo)三種噪聲,以-5 dB、0 dB、5 dB、10 dB、15 dB 的信噪比生成含噪混合語音。根據(jù)圖8可以看出,在信噪比為-5 dB、0 dB 時,所提方法性能對噪聲較為敏感。在信噪比為-5 dB的volvo噪聲下的平均識別率為85%,識別率相比無噪聲干擾時急劇下降。在信噪比為5 dB、10 dB、15 dB 時,識別率與無噪聲干擾時的識別率差距逐漸減小。在信噪比為5 dB 時,三種噪聲的識別率在91.11%以上。在信噪比為10 dB,三種噪聲的識別率在92.78%以上。在信噪比為15 dB,三種噪聲的識別率在93%以上,本文的混合語音性別組合分類方法對白噪聲的魯棒性最好,識別率為95.55%,可正確識別出大部分語句的性別組合。下一步的研究方向可考慮有背景噪聲時的語音分離,本文語音分離階段的實驗中不添加背景噪聲僅對干凈語音進行分離。
圖8 在不同噪聲和信噪比下的識別性能對比Fig.8 Performance comparison under different noise and SNR
4.1.4 與其他方法的對比實驗
為了更好的驗證本文所提CNN-SVM 的識別方法的性能,將本文識別方法與文獻[17]基于性別組合能量比判別的RDNN 方法進行性能對比。從表4可以看出,CNN-SVM 的識別率在F-F 組合中略低于RDNN,其他兩種性別組合和平均識別率均高于RDNN。從平均識別率來看,本文的CNN-SVM 優(yōu)于RDNN 方法,主要因為本文所提的深度融合特征區(qū)分力更強。
表4 不同方法的識別率(%)Tab.4 Accuracy of different methods(%)
語音分離階段,STFT 的點數(shù)為512,加漢明窗,窗長與點數(shù)一致為512,幀移長度是窗長的1/2。采用pytorch搭建深度神經(jīng)網(wǎng)絡,使用SGD算法訓練網(wǎng)絡,學習率設置為0.01。DNN 網(wǎng)絡的結(jié)構(gòu)為257-1024-1024-1024-257,各層數(shù)值分別是各層的神經(jīng)元個數(shù),前幾層的激活函數(shù)使用Relu,輸出層使用Sigmoid。在訓練時批次大小為128,迭代周期為200。一維CNN 網(wǎng)絡的第一個和第二個卷積層的卷積核大小都是1×3,步長分別是1 和2。第一個和第二個池化層的池化核大小為1×3,步長為1,使用均值池化。全連接網(wǎng)絡的結(jié)構(gòu)是1024-1024-257,同樣設置前幾層的激活函數(shù)使用Relu,輸出層使用Sig?moid。訓練好三種性別組合的語音分離網(wǎng)絡,將網(wǎng)絡模型的權(quán)重參數(shù)保存下來,在測試階段,依據(jù)性別組合分類結(jié)果選擇對應語音分離模型。采用的語音評價指標為PESQ、STOI 和SDR,數(shù)值都與語音分離的性能呈正相關(guān)。
本節(jié)對本文提出的語音分離方法與選用匹配的、不匹配分離模型和通用語音分離模型在 DNN和CNN 上進行實驗對比?;旌险Z音經(jīng)過本文提出的方法性別組合分類之后使用相應訓練好的網(wǎng)絡進行語音分離,記為“classify”。在性別組合正確對應的分離模型進行語音分離,記為“matched”。將分類結(jié)果在不匹配的語音分離網(wǎng)絡上進行分離,記為“交叉測試”,即:如果分類結(jié)果為男-男混合(M-M),則使用女-女(F-F)對應的語音分離模型;如果分類結(jié)果為女-女混合(F-F),則使用男-男說話人(M-M)對應的語音分離模型;如果分類結(jié)果為男-女混合(M-F),使用男性說話人組合(M-M)對應的語音分離模型。最后各種性別組合通用的語音分離模型,該模型訓練數(shù)據(jù)包括三種性別組合的語音,記為“baseline”。
4.2.1 男-女混合語音在不同分離模型下的分離性能比較
M-F 性別組合混合語音的分離實驗結(jié)果如圖9所示。classify-DNN與matched-DNN的PESQ、STOI、SDR 指標上只相差0.029、0.006、0.058 dB,classify-CNN 與matched-CNN 的PESQ、STOI、SDR 指標上只相差0.049、0.001、0.056 dB,表明分類后的語音分離效果和完全匹配的語音分離性能十分接近。classify-DNN 比交叉測試-DNN 的PESQ、STOI、SDR指標高0.584、0.262、4.163 dB,classify-CNN比交叉測試-CNN的PESQ、STOI、SDR指標高0.239、0.079、4.133 dB,表明classify 與交叉測試分離效果相比,優(yōu)勢較大。classify-DNN 比baseline-DNN 的PESQ、STOI、SDR指標提升0.279、0.002、0.980 dB,classify-CNN 比baseline-CNN 的PESQ、STOI、SDR 指標提升0.051、0.011、0.324 dB,表明本文的語音分離模型比通用的baseline網(wǎng)絡性能更好。
圖9 M-F性別組合在DNN和CNN分離網(wǎng)絡下的分離性能Fig.9 Performance of speech separation based on DNN/CNN for M-F mixtures
4.2.2 男-男混合語音在不同分離模型下的分離性能比較
M-M性別組合混合語音的分離實驗結(jié)果如圖10所示。classify-DNN與matched-DNN的PESQ、STOI、SDR 指標上只相差0.017、0.008、0.564 dB,classify-CNN 與matched-CNN 的PESQ、STOI、SDR 指標上只相差0.030、0.006、0.213 dB。classify-DNN 比交叉測 試-DNN 的PESQ、STOI、SDR指標高0.354、0.221、3.110 dB,classify-CNN 比交叉測試-CNN 的PESQ、STOI、SDR 指標高0.227、0.150、4.877 dB。classify-DNN 比baseline-DNN 的PESQ、STOI、SDR指標提升0.278、0.160、0.500 dB,classify-CNN 比baseline-CNN 的PESQ、STOI、SDR 指標提升 0.074、0.054、2.003 dB。在基于matched、classify、交叉測試以及baseline 的語音分離方法中,本文提出的classify 方法性能與matched 方法接近,優(yōu)于交叉測試和baseline 方法,不過整體語音分離性能比M-F組合略有下降。
圖10 M-M性別組合在DNN和CNN分離網(wǎng)絡下的分離性能Fig.10 Performance of speech separation based on DNN/CNN M-M mixtures
4.2.3 女-女混合語音在不同分離模型下的分離性能比較
F-F性別組合混合語音的分離實驗結(jié)果如圖11所示。classify-DNN與matched-DNN的PESQ、STOI、SDR 指標上只相差0.115、0.015、0.126 dB,classify-CNN 與matched-CNN 的PESQ、STOI、SDR 指標上只相差0.053、0.010、0.282 dB。classify-DNN 比交叉測試-DNN 的PESQ、STOI、SDR 指標高0.213、0.144、2.719 dB,classify-CNN 比交叉測試-CNN 的PESQ、STOI、SDR 指標高0.235、0.168、3.707 dB。classify-DNN 比baseline-DNN 的PESQ、STOI、SDR 指標提升0.202、0.126、0.191 dB,classify-CNN 比baseline-CNN 的PESQ、STOI、SDR 指標提升0.148、0.053、1.661 dB。雖然F-F 性別組合的整體分離性能比起M-F 和M-M 要差,但仍然可以看出,本文提出的classify 方法優(yōu)于交叉測試以及baseline 方法,與matched方法性能接近。
圖11 F-F性別組合在DNN和CNN分離網(wǎng)絡下的分離性能Fig.11 Performance of speech separation based on DNN/CNN for F-F mixtures
本文針對直接在普適分離模型上進行語音分離效果欠佳的問題,提出了一種 CNN-SVM 模型,對混合語音的性別組合進行判別,確定混合語音的兩個說話人是男-男、男-女還是女-女組合,以便選用相應性別組合的模型進行語音分離。為了彌補傳統(tǒng)單一特征在性別組合分類中區(qū)分力不足的缺陷,該模型提出了一種深度特征融合策略,使用卷積神經(jīng)網(wǎng)絡提取梅爾頻率倒譜系數(shù)和濾波器組特征的深度特征,融合這兩種深度特征作為最終的分類特征,通過深度挖掘使得分類特征中包含更多性別組合類別的信息。在未知混合語音性別組合的分類階段,基于深度融合特征和SVM 分類器實現(xiàn)了高準確率判別混合語音性別組合;在語音分離階段,基于卷積神經(jīng)網(wǎng)絡和深度神經(jīng)網(wǎng)絡這兩種模型進行了語音分離。三種性別組合下的語音分離實驗表明:本文所提方法與性別組合完全匹配情況下的分離性能非常接近。比通用的分離網(wǎng)絡性能有較大提升,遠高于交叉測試的實驗結(jié)果,驗證了對混合語音性別組合先判斷后針對每種性別組合訓練一種分離網(wǎng)絡的必要性以及本文分類方法的有效性。另外,為同性別混合信號設計更優(yōu)秀的語音分離網(wǎng)絡,使同性別組合的語音分離具有更好的性能,是下一步的研究方向。