王韻琪 張微 楊博云
摘 要
本文提出運用具有自適應(yīng)擬合特點的高斯混合模型算法以提升系統(tǒng)在噪聲環(huán)境下的識別性能。通過實驗,結(jié)果顯示在噪聲環(huán)境下本文運用的自適應(yīng)高斯混合模型算法可以提高系統(tǒng)的識別率。
關(guān)鍵詞
說話人識別;自適應(yīng)高斯混合模型;模型擬合
中圖分類號: TN912.34 ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識碼: A
DOI:10.19694/j.cnki.issn2095-2457 . 2020 . 17 . 15
Abstract
This paper proposes to use a Gaussian mixture model algorithm with automatically adaptive fitting feature to improve the speaker recognition system in recognition performance under noisy environment. The recognition experiment results show that the automatically adaptive Gaussian mixture model algorithm used in this paper can effectively improve the recognition performance of the speaker recognition system under noisy environment.
Key words
Speaker Recognition; Adaptive Gaussian Mixture Model; Model Fitting
0 引言
說話人識別系統(tǒng)通常有如下三種提高系統(tǒng)的魯棒性方法:第一種是模型補償,即在說話人模型中引入噪聲模型,補償模型中的噪聲擬合,比如,并行模型合并;第二種是在說話人識別前利用降噪來減少語音中的噪聲,比如,前端處理即預(yù)處理中加入語音增強(qiáng)環(huán)節(jié);第三種是尋找具有魯棒性的特征參數(shù)。
1 雙線性頻率倒譜系數(shù)BFCC
基于人耳聽覺特性的美爾頻率倒譜系數(shù)MFCC,不需要依賴于全極點模型假設(shè),因此它與LPCC相比更具有噪聲魯棒性。對于說話人識別系統(tǒng)而言,基于人耳聽覺感知特性的MFCC雖然普遍使用且效果不錯,但它同時增強(qiáng)了語義信息和個性特征,這樣是不合理的。所以,辨別出哪些頻帶包含更多說話人個性特征,通過計算每個頻帶對識別性能貢獻(xiàn)水平獲得每個頻帶包含的說話人個性特征信息量[3]。計算過程介紹如下:
(1)對語音信號s(n)進(jìn)行預(yù)處理。
(2)通過DFT變換后獲得線性頻譜,再通過Bilinear變換獲得頻譜的邊界點。
(3)再放置等寬三角形濾波器組。
(4)經(jīng)過對數(shù)變換后再DCT變換,從而獲得新的Bilinear倒譜系數(shù)BFCC。
2 自適應(yīng)高斯混合模型AGMM
說話人語音分布用傳統(tǒng)GMM固定不變的高斯混合數(shù)是不準(zhǔn)確的[4],過擬合或者欠擬合現(xiàn)象仍然不可避免。在AGMM訓(xùn)練過程當(dāng)中,高斯分量依據(jù)吸收、合并和分裂動態(tài)地調(diào)整。假如高斯分量權(quán)重很小,就認(rèn)為這個分量沒有實際價值分量可以直接消除;假如兩個高斯分量間隔很近,就可以認(rèn)為它們具有相同的聲學(xué)特征分布,所以將這兩個高斯分量合并;假如某個分量包含了過多的樣本,可以采用分裂方式。
具體訓(xùn)練步驟如下:
步驟1:設(shè)置各類參數(shù):AGMM初始混合數(shù)K,EM訓(xùn)練次數(shù)H,以及閾值αt1,αt2,αt3,Dt,σt。
步驟2:訓(xùn)練模型由EM算法實現(xiàn)。
步驟3:對于步驟2獲得的模型,假如某一高斯分量(wi,μi,∑i)權(quán)重小于,即需要消除此分量,用最近分量(wj,μj,∑j)吸收這個分量,按照以下方式吸收:
3.2 AGMM實驗結(jié)果及分析
本節(jié)實驗環(huán)境與實驗條件與4.1節(jié)相同。當(dāng)使用BFCC參數(shù)時,噪聲為高斯白噪聲,在不同訓(xùn)練語音長度下AGMM和傳統(tǒng)GMM識別準(zhǔn)確率比傳統(tǒng)GMM都要高。
4 結(jié)論
本文結(jié)合BFCC,采用AGMM訓(xùn)練語音,在高斯白噪聲實驗環(huán)境下能夠提高說話人識別率,說明在其他條件一致下,提取表征說話人個性信息的特征參數(shù)BFCC和訓(xùn)練自適應(yīng)高斯混合模型AGMM,系統(tǒng)具有較高的魯棒性。目前只實驗了高斯白噪聲,今后會進(jìn)一步實驗其他噪聲環(huán)境下說話人識別率。
參考文獻(xiàn)
[1]芮賢義,俞一彪.噪聲環(huán)境下說話人識別的組合特征提取方法[J].信號處理,2006(10):673-677.
[2]曾春艷,馬超峰,等.深度學(xué)習(xí)框架下說話人識別研究綜述[J].計算機(jī)工程與應(yīng)用,2020(07):8-16.
[3]俞一彪,袁冬梅,薛峰.一種適于說話人識別的非線性頻率尺度變換[J].聲學(xué)學(xué)報,2008(09):450-455.
[4]徐利敏,唐振民,等.基于自適應(yīng)直方圖均衡化的魯棒性說話人辨認(rèn)研究[J].自動化學(xué)報,2008(07):752-759.