羅春梅,張風(fēng)雷
(遼東學(xué)院化工與機(jī)械學(xué)院,遼寧丹東 118000)
說話人識(shí)別是通過分析語音的個(gè)性特征實(shí)現(xiàn)說話人辨識(shí)的技術(shù),已經(jīng)在安全領(lǐng)域、司法鑒定等應(yīng)用中廣泛使用[1]。但由于實(shí)際環(huán)境中各種干擾的存在,實(shí)際環(huán)境中說話人識(shí)別系統(tǒng)失配而性能下降,因此,如何提高系統(tǒng)對(duì)不同背景噪聲的適應(yīng)性,成為近年來該領(lǐng)域的研究熱點(diǎn)[2-3]。
為減小識(shí)別系統(tǒng)的環(huán)境失配,噪聲信息被融入到純凈語音模型中。牛曉可等[4]借鑒神經(jīng)元時(shí)空濾波機(jī)制對(duì)聽覺尺度-速率圖進(jìn)行二次提取,并與梅爾頻率倒譜系數(shù)(Mel Frequency Cepstrum Coefficient,MFCC)相結(jié)合,提高特征對(duì)環(huán)境噪聲的容忍性能;仲偉峰等[5]通過融合深、淺層級(jí)特征以實(shí)現(xiàn)不同層次特征表達(dá)信息的互補(bǔ),從而提高特征的魯棒性;Zhang等[6]受到干凈幀的啟發(fā),用高斯通用模型推導(dǎo)出基于總變化矩陣的通用加權(quán)背景模型,并進(jìn)行了聯(lián)合估計(jì)規(guī)則更新,有效提升了算法對(duì)背景噪聲的適應(yīng)性。
隨著深度學(xué)習(xí)技術(shù)的成熟,深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network, DNN)在說話人識(shí)別系統(tǒng)中逐漸展開研究,并取得較好的魯棒性[7]。陳湟康等[8]以深度學(xué)習(xí)的長短期記憶(Long and Short Term Memory, LSTM)網(wǎng)絡(luò)為基礎(chǔ)構(gòu)建多模態(tài)模型,并以深度門對(duì)各層單元進(jìn)行上下連接,以提高層特征聯(lián)系的緊密性和分類性能;Abdelmajid等[9]對(duì)多模態(tài)LSTM網(wǎng)絡(luò)在決策層進(jìn)行分類融合,提高了模型識(shí)別性能,但模型相關(guān)性約束需加強(qiáng);李煦等[10]將深度神經(jīng)網(wǎng)絡(luò)與非負(fù)矩陣分解相結(jié)合來估計(jì)權(quán)值分配,結(jié)合特征字典實(shí)現(xiàn)說話人語音增強(qiáng)和識(shí)別。
已有DNN算法難以描述語音段的深度信息[11],為此在已有研究基礎(chǔ)上,提出基于自適應(yīng)高斯均值矩陣特征和改進(jìn)深度卷積神經(jīng)網(wǎng)絡(luò)的說話人識(shí)別算法,通過均值矩陣增強(qiáng)信號(hào)的幀間關(guān)聯(lián)和特征,通過幀間信息對(duì)準(zhǔn)提高特征對(duì)背景噪聲環(huán)境的適應(yīng)性,實(shí)驗(yàn)結(jié)果驗(yàn)證了該算法的有效性。
說話人語音識(shí)別即為采用一定的方法提取帶有背景噪聲的語音的分類特征,然后根據(jù)分類特征進(jìn)行說話人特征匹配,從而確定說話人身份,文中基于改進(jìn)DNN網(wǎng)絡(luò)的說話人識(shí)別過程如圖1所示,算法結(jié)合了傳統(tǒng)特征提取方法和DNN網(wǎng)絡(luò)的優(yōu)點(diǎn),主要包括特征提取、高斯均值矩陣計(jì)算和DNN網(wǎng)絡(luò)三部分。
圖1 基于改進(jìn)深度神經(jīng)網(wǎng)絡(luò)的說話人識(shí)別過程Fig.1 Speaker recognition based on improved deep neural network
MFCC特征基于人耳聽覺感知特性,其不需要做出前提假設(shè),且其與說話人所說的語音內(nèi)容不相關(guān),能夠較好地反應(yīng)語音信號(hào)特征。
設(shè)原始含噪信號(hào)為s(n),對(duì)其進(jìn)行時(shí)域分幀,對(duì)幀信號(hào)x(n)進(jìn)行離散余弦變換(Discrete Cosine Transform, DCT)變換,得到頻譜X(k),提取其能量譜P(k)為[2]
式中:N為DCT變換點(diǎn)數(shù)。采用M階Mel頻率濾波器Hm(k)進(jìn)行濾波處理,得到
式中:m為濾波器序號(hào),0≤m≤M,對(duì)Pm(k)取對(duì)數(shù)并進(jìn)行離散余弦變換,可得MFCC,即[2]:
高斯混合模型(Gaussian Mixture Model, GMM)通過概率密度函數(shù)描述說話人的語音特征,并通過最大期望算法(Expectation Maximization,EM)提取描述語音特征的模型參數(shù)。GMM通過M個(gè)單高斯分布來擬合信號(hào)的不同分量特征,并通過線性組合擬合語音的特征分布,即[7]:
在計(jì)算高斯模型后,文中采用基于高斯模型的均值矩陣作為識(shí)別特征,其將GMM模型的特征向量分別送入通用背景模型(Universal Background Model, UBM)中,然后經(jīng)過MPA(Message Passing Algorithm)自適應(yīng)后,計(jì)算輸出特征的均值矩陣。
由于特征分量對(duì)最終的語音識(shí)別率的影響不同且對(duì)背景噪聲的抗噪性能也不同,文中補(bǔ)償算法采用半升正弦函數(shù)(Half Raised-Sine Function,HRSF)對(duì)特征進(jìn)行非線性提升,對(duì)特征的不同分量分配不同的權(quán)重,以削弱抗噪性能較差的低階分量對(duì)識(shí)別率的貢獻(xiàn)度[8],其補(bǔ)償過程為:
(1) 對(duì)噪聲及純凈語音信號(hào)的模型參數(shù)進(jìn)行頻譜域變換,得到對(duì)數(shù)譜域參數(shù)和線性頻譜,即:
式中:C為DCT變換矩陣、L為提升矩陣,其計(jì)算式為L(i) =1+ sin (π (i-1) /N)/2,參數(shù)ux,m和Σx,m為GMM模型的第m個(gè)高斯單元均值矩陣和協(xié)方差矩陣,下標(biāo)x表示純凈語音信號(hào),上標(biāo)ln和lin分別對(duì)數(shù)譜域和線性頻譜域。
(2) 將語音信號(hào)與噪聲的參數(shù)進(jìn)行非線性合并,得到含噪信號(hào)的GMM模型參數(shù),即:
式中:G為模型的補(bǔ)償增益因子,下標(biāo)n和y表示噪聲及含噪語音信號(hào)。
(3) 將式(9)得到的含噪GMM模型參數(shù)變換到對(duì)數(shù)譜域和倒譜域,并優(yōu)化協(xié)方差矩陣,去除非對(duì)角元素,提高運(yùn)算效率,即:
采用基于多層非線性變換的深度神經(jīng)網(wǎng)絡(luò)模型有助于描述語音特征的結(jié)構(gòu)信息與層次信號(hào),為此,文中設(shè)計(jì)了基于改進(jìn)深度卷積神經(jīng)網(wǎng)絡(luò)(Deep CNN, DCNN)的說話人語音識(shí)別算法,其網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
圖2 改進(jìn)的DCNN網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Improved DCNN network structure
網(wǎng)絡(luò)結(jié)構(gòu)改進(jìn)主要體現(xiàn)在最后的全連接層中用直接目標(biāo)向量計(jì)算替代Softmax層的設(shè)計(jì)上。盡管結(jié)構(gòu)加深、節(jié)點(diǎn)增多或?yàn)V波器增多能有效提高網(wǎng)絡(luò)模型的識(shí)別性能,但同時(shí)也帶來網(wǎng)絡(luò)模型的高復(fù)雜度和訓(xùn)練的不穩(wěn)定性。結(jié)合文中語音識(shí)別特點(diǎn)和數(shù)據(jù)規(guī)模,改進(jìn)模型結(jié)構(gòu)設(shè)計(jì)為3個(gè)卷積層的2個(gè)1024節(jié)點(diǎn)的全連接層,網(wǎng)絡(luò)輸入層為上文提取的特征矩陣,第一層卷積層包含64個(gè)尺寸為7×7的濾波器,第二層和第三層卷積層包含128個(gè)尺寸為3×3的濾波器,濾波器的步長統(tǒng)一設(shè)置為1×1;激活函數(shù)層后面為3個(gè)濾波器尺寸3×3、步長2×2的池化層;輸出層為一個(gè)129點(diǎn)全連接層。
深度的增加也帶來梯度弱化,反而不利于提高識(shí)別率,深度殘差網(wǎng)絡(luò)以網(wǎng)絡(luò)殘差獲得更穩(wěn)健的特征表達(dá),通過在網(wǎng)絡(luò)層間增加殘差連接避免梯度消失問題,從而提高網(wǎng)絡(luò)的識(shí)別準(zhǔn)確率,其網(wǎng)絡(luò)函數(shù)設(shè)計(jì)為理想映射H(x) =F(x) +x的形式,如圖3所示,其中,F(xiàn)(x)為殘差映射,對(duì)H(x)求偏導(dǎo)可得:
由圖3和式(11)可以看出,增加殘差連接后,解決了梯度隨網(wǎng)絡(luò)深度消失的問題。
圖3 殘差網(wǎng)絡(luò)模塊Fig.3 Residual network module
為驗(yàn)證文中基于改進(jìn)DCNN網(wǎng)絡(luò)的說話人識(shí)別模型的識(shí)別性能,實(shí)驗(yàn)從TIMIT數(shù)據(jù)庫[12]隨機(jī)選取180人共3 600條語音,以Noisex92噪聲庫作為實(shí)驗(yàn)用背景噪聲,所有數(shù)據(jù)采樣率調(diào)整為8 kHz,分幀長度為64 ms(512點(diǎn)),幀移為32 ms,將每一條語音數(shù)據(jù)的前80%作為訓(xùn)練數(shù)據(jù),而后20%作為測試數(shù)據(jù),采用39維MFCC頻譜系數(shù)作為識(shí)別特征,GMM混合度設(shè)置為32[13],特征補(bǔ)償因子初始值為G=0.5,當(dāng)背景噪聲較小或無噪聲時(shí),補(bǔ)償算法會(huì)調(diào)整增益因子G。
將NoiseX-92數(shù)據(jù)庫中的Factory、Babble及混合Mixed噪聲與純凈訓(xùn)練數(shù)據(jù)按一定的分段信噪比進(jìn)行混合,作為實(shí)驗(yàn)數(shù)據(jù),以文獻(xiàn)中已有的身份認(rèn)證向量(identity vector, i-vector)識(shí)別框架[14]加MFCC和Gammatone頻譜倒譜系數(shù)(Gammatone Frequency Cepstrum Coefficients, GFCC)特征(分別記為IPMFCC和IPGFCC)、GMM-UBM框架[15]加MFCC和補(bǔ)償MFCC特征(分別記為GUMFCC和GUGFCC)及文中改進(jìn)的DCNN識(shí)別網(wǎng)絡(luò)加MFCC和補(bǔ)償MFCC特征(分別記為IDMFCC和IDCMFCC),共6種說話人識(shí)別算法進(jìn)行實(shí)驗(yàn)比較,各算法的說話人識(shí)別正確率實(shí)驗(yàn)結(jié)果如圖4所示,圖中所示為多次實(shí)驗(yàn)結(jié)果的平均值[11]。
從圖4中的實(shí)驗(yàn)結(jié)果可以看出,隨著信噪比的提高,各算法的識(shí)別準(zhǔn)確率都大幅提高,但在低信噪比情況下,各個(gè)算法的識(shí)別率均不高,但文中模型在各個(gè)信噪比時(shí)均取得較優(yōu)的識(shí)別準(zhǔn)確率,尤其在低信噪比時(shí),優(yōu)勢更加明顯,這主要因?yàn)樽R(shí)別網(wǎng)絡(luò)的改進(jìn),在考慮了語音信號(hào)特征基礎(chǔ)上,兼顧了網(wǎng)絡(luò)性能和訓(xùn)練難度,并通過殘差網(wǎng)絡(luò)增強(qiáng)了層間梯度,而識(shí)別特征的補(bǔ)償,增強(qiáng)了特征對(duì)強(qiáng)背景噪聲的抗干擾能力,從而使算法整體上具有較好的抗背景噪聲干擾性能。
圖4 不同背景噪聲下各算法的識(shí)別率Fig.4 Recognition rate of each algorithm under different background noises
如圖5所示為三種識(shí)別框架在不同訓(xùn)練階段的均方誤差(Mean Squared Error, MSE)。從圖5可以看出,文中改進(jìn)DCNN網(wǎng)絡(luò)的均方誤差最小,進(jìn)一步說明該網(wǎng)絡(luò)的優(yōu)勢。
圖5 各算法訓(xùn)練階段的均方誤差Fig.5 The mean square error in training stage of each algorithm
傳統(tǒng)MFCC等聲學(xué)特征大多基于語音信號(hào)的短時(shí)譜信息,缺乏語音段深度信息,而深度神經(jīng)網(wǎng)絡(luò)缺乏直觀的物理聲學(xué)特征描述。為此,在已有研究基礎(chǔ)上,提出基于高斯增值矩陣特征和改進(jìn)DCNN網(wǎng)絡(luò)的說話人識(shí)別算法。算法通過自適應(yīng)高斯均值矩陣增強(qiáng)語音信號(hào)的幀間關(guān)聯(lián)和說話人特征信息,采用改進(jìn)的DCNN網(wǎng)絡(luò)進(jìn)一步提高說話人識(shí)別的特征學(xué)習(xí)和背景噪聲環(huán)境的適應(yīng)性。實(shí)驗(yàn)結(jié)果表明,相比于i-vector和GMM-UBM等識(shí)別框架及傳統(tǒng)MFCC特征,文中算法取得最優(yōu)的識(shí)別準(zhǔn)確率和識(shí)別均方誤差。