周 雷, 龍艷花, 魏浩然
(上海師范大學(xué) 信息與機(jī)電工程學(xué)院, 上海 200234)
一種新型的與文本相關(guān)的說話人識(shí)別方法研究
周 雷, 龍艷花*, 魏浩然
(上海師范大學(xué) 信息與機(jī)電工程學(xué)院, 上海 200234)
在與文本相關(guān)的說話人識(shí)別研究中,既要包含說話人身份的識(shí)別,又要包含語音文本內(nèi)容的識(shí)別.提出一種基于語音識(shí)別的與文本相關(guān)的說話人識(shí)別方法,從而建立說話人的聲紋模型和語音文本模型,與傳統(tǒng)的僅建立一種模型的方法相比,該方法能更精確地描述說話人身份信息和語音的文本信息,較好地解決了短時(shí)語音樣本識(shí)別效果不佳的問題.測(cè)試實(shí)驗(yàn)表明,和傳統(tǒng)與文本相關(guān)的說話人識(shí)別方法(如基于動(dòng)態(tài)時(shí)間規(guī)整、高斯混合-通用背景模型)相比,由本方法建立的系統(tǒng)虛警概率降低了8.9%,識(shí)別性能得到了提高.
文本相關(guān); 說話人識(shí)別; 語音識(shí)別
伴隨著網(wǎng)絡(luò)化、信息化時(shí)代的到來,傳統(tǒng)的以密碼為特征的身份認(rèn)證技術(shù)暴露出巨大的弊端,很難滿足高安全性和長(zhǎng)效安全性的要求.語音是人的自然屬性之一,不會(huì)丟失或遺忘.說話人發(fā)聲器官的生理以及后天形成的行為存在差異,每個(gè)人的語音都帶有強(qiáng)烈的個(gè)人色彩,故聲紋信息具有唯一性.此外語音信號(hào)容易采集,系統(tǒng)設(shè)備的成本低等優(yōu)勢(shì)都為說話人識(shí)別技術(shù)提供了廣闊的應(yīng)用前景.
根據(jù)說話人的訓(xùn)練和測(cè)試語音文本,說話人識(shí)別可分為與文本無關(guān)的和與文本相關(guān)兩類.前者識(shí)別過程中建立模型需要的語音數(shù)據(jù)量大,而且單純依靠說話人聲紋信息的方式識(shí)別率低,且存在說話人語音被竊取錄制,語音被模仿等風(fēng)險(xiǎn),在安全性能要求很高的情況下,很難單獨(dú)使用這項(xiàng)技術(shù)進(jìn)行識(shí)別.而與文本相關(guān)的說話人識(shí)別要求訓(xùn)練和識(shí)別的時(shí)候使用內(nèi)容相同的語音文本,僅采用較少的訓(xùn)練和測(cè)試語音數(shù)據(jù)就能達(dá)到較高的識(shí)別率;同時(shí)語音文本內(nèi)容也是識(shí)別過程中一項(xiàng)重要的判定信息,相同文本的語音幾乎是不可能被竊取錄制,在文本不知情況下,也不能被模仿,安全性能很高,具有很大的實(shí)際意義及研究?jī)r(jià)值[1],在說話人識(shí)別的多數(shù)應(yīng)用案例中,與文本相關(guān)說話人識(shí)別占了多數(shù)[1],比如微信近期推出的聲紋鎖.
現(xiàn)階段,與文本相關(guān)的說話人識(shí)別方法主要有基于動(dòng)態(tài)時(shí)間規(guī)整(DTW)[2-3]、高斯混合模型(GMM)[4]和高斯混合-通用背景模型等方法(GMM-UBM)[5].文獻(xiàn)[3]采用DTW算法實(shí)現(xiàn)了與文本相關(guān)的說話人識(shí)別,該算法雖然實(shí)現(xiàn)起來較簡(jiǎn)單,但它是基于非統(tǒng)計(jì)的匹配方法,穩(wěn)健性能差;文獻(xiàn)[4]在GMM-UBM系統(tǒng)的基礎(chǔ)上構(gòu)建了一個(gè)與文本相關(guān)的說話人識(shí)別系統(tǒng),并針對(duì)訓(xùn)練與測(cè)試語音的文本內(nèi)容固定的特點(diǎn)做出相應(yīng)調(diào)整,提出了內(nèi)容相關(guān)的通用背景模型概念,因?yàn)镚MM和GMM-UBM是一種統(tǒng)計(jì)概率模型,其模型的建立需要統(tǒng)計(jì)分析大量的特征樣本,因此對(duì)于短訓(xùn)練語音的情形容易出現(xiàn)統(tǒng)計(jì)失真,從而導(dǎo)致識(shí)別性能下降[6-7].針對(duì)以上問題,本文作者提出了一種基于語音識(shí)別的與文本相關(guān)的說話人識(shí)別方法,具體為一方面利用語音識(shí)別技術(shù)對(duì)語音的文本信息進(jìn)行判定,另一方面利用GMM-UBM方法對(duì)語音的說話人身份信息進(jìn)行判定,兩種判定智能結(jié)合,讓兩者的判定結(jié)果互相影響,互相制約,較好地解決了短時(shí)語音樣本的識(shí)別效果不佳和系統(tǒng)穩(wěn)健性差的問題.
GMM-UBM也稱為高斯混合-通用背景模型,最初由Reynolds[6]成功應(yīng)用在說話人確認(rèn)系統(tǒng)中.基于GMM-UBM說話人識(shí)別系統(tǒng)主要包括語音信號(hào)的前端處理和特征提取[8]、UBM模型的訓(xùn)練及說話人模型自適應(yīng)、測(cè)試階段的似然對(duì)數(shù)打分等.
1.1 訓(xùn)練階段
訓(xùn)練語音首先需要進(jìn)行前端處理和特征提取,前端處理主要包括去除靜音、 去除能量偏移以及消除信道影響等[9];采用的特征參數(shù)為13維的梅爾倒譜系數(shù)(MFCC)特征值及其一階和二階差分.然后,通過最大似然估計(jì)的方法訓(xùn)練獲得一個(gè)與說話人無關(guān)的通用背景模型(UBM).UBM其實(shí)是一個(gè)大型的GMM模型,它的訓(xùn)練數(shù)據(jù)是各個(gè)信道下的所有待識(shí)別說話人的語音,用來訓(xùn)練表示與所有說話人均無關(guān)的語音特征空間分布.最后,與傳統(tǒng)的直接基于最大期望(EM)算法訓(xùn)練GMM的方法不同,每個(gè)說話人的GMM是通過采用最大后驗(yàn)概率(MAP)的方法從UBM上自適應(yīng)得到,從而大大減少了訓(xùn)練時(shí)間[10].
每個(gè)說話人的GMM由均值向量、協(xié)方差矩陣和混合權(quán)重組成,表示為:
λ={ωi,ui,∑i},i=1,2,3,…,M.
(1)
M是GMM的混合高斯數(shù)目,一個(gè)混合度為M的GMM概率密度函數(shù)是由M個(gè)多維高斯分布加權(quán)疊加得到:
(2)
式中,X為D維語音特征矢量;pi(X)為高斯混合模型分量的密度函數(shù);wi為各高斯分量的加權(quán)系數(shù);M為高斯混合模型中分量的個(gè)數(shù).對(duì)于pi(X),它滿足以下式子
(3)
式中ui為均值向量,Σi為協(xié)方差矩陣.
將每個(gè)說話人語音特征參數(shù)通過MAP從UBM上自適應(yīng)得到的GMM參數(shù)權(quán)重、均值和方差更新:
(4)
1.2 測(cè)試階段
因?yàn)镚MM是從UBM自適應(yīng)得到的,所以它們可以共享UBM模型的高斯分量,因此可以采用topN的測(cè)試方法[11],N一般取5.
在測(cè)試階段,對(duì)于給定說話人的測(cè)試語音,經(jīng)過前期處理和特征提取之后,假定得到的測(cè)試語音的特征向量序列為X,每個(gè)訓(xùn)練模型的對(duì)數(shù)似然函數(shù)為:
(5)
式中λhyp代表訓(xùn)練時(shí)說話人的GMM模型,λubm表示UBM模型.
本節(jié)闡述一種新的基于語音識(shí)別的與文本相關(guān)的說話人識(shí)別方法,即先通過語音識(shí)別技術(shù)識(shí)別出說話人語音的文本內(nèi)容然后通過基于GMM-UBM的說話人識(shí)別技術(shù)識(shí)別出說話人的身份信息,然后將兩種信息進(jìn)行智能結(jié)合來給出最終的判決,完成與文本相關(guān)的說話人識(shí)別,該方法記為ASR-GMMUBM法.由該算法建立的系統(tǒng)基本框圖,分為訓(xùn)練階段聲學(xué)模型創(chuàng)建和測(cè)試階段的說話人識(shí)別如圖1所示.
圖1 基于ASR-GMMUBM與文本相關(guān)的說話人識(shí)別系統(tǒng)設(shè)計(jì)框圖
2.1 特征參數(shù)提取
本系統(tǒng)主要提取是12維MFCC、1維的能量特征及其13維的一階差分和13維的二階差分,總共39維的特征參數(shù).其中MFCC提取過程分為預(yù)加重、端點(diǎn)檢測(cè)、分幀、加窗、快速傅里葉變換(FFT)、梅爾頻率濾波和離散余弦變換(DCT)等主要步驟:
1) 預(yù)加重:預(yù)加重的目的是將更有用的高頻部分的頻譜進(jìn)行提升,使信號(hào)的頻譜變得平坦,保持在低頻到高頻的整個(gè)頻帶中,能用同樣的信噪比求頻譜,以便于進(jìn)行頻譜分析或聲道參數(shù)分析.
2) 端點(diǎn)檢測(cè):對(duì)輸入語音信號(hào)進(jìn)行判斷,從背景噪聲中準(zhǔn)確找出語音段的起始點(diǎn)和終止點(diǎn).
3) 分幀:由于語音信號(hào)的準(zhǔn)平穩(wěn)特性,只在短時(shí)段上才可看做是一個(gè)平穩(wěn)過程,若用對(duì)平穩(wěn)過程的分析方法來分析,必須將信號(hào)劃分為一個(gè)一個(gè)的短時(shí)段,每一短時(shí)段稱為1幀,每一幀的長(zhǎng)度大概為10~30 ms.分幀采用連續(xù)分段的方法,但為了使幀與幀之間平滑過渡,一般采用交疊分段的方法,即每一幀的幀尾與下一幀的幀頭是重疊的.
4) 加窗:為了減小語音幀的截?cái)嘈?yīng),降低幀兩端的坡度,使語音幀的兩端不引起急劇變化而平滑過渡到0,就要讓語音幀乘以一個(gè)窗函數(shù).使用的窗函數(shù)為:
w(n)=0.54-0.46cos[2πn/(N-1)],0≤n≤N-1.
(6)
式中N為一幀的采樣點(diǎn)數(shù).
5) FFT:由于離散傅立葉變換(DFT)的運(yùn)算量較大,可以采用高效的FFT來把語音幀由時(shí)域變換到頻域.
6) 梅爾頻率濾波:把5)步變換得到的離散頻譜用序列三角濾波器進(jìn)行濾波處理,得到一組系數(shù)m1,m2…….該濾波器組的個(gè)數(shù)p由信號(hào)的截止頻率決定,所有濾波器總體上覆蓋從0 Hz到奈奎斯特頻率,即采樣率的二分之一.
7) DCT:把上一步獲得的梅爾頻譜變換到時(shí)域,其結(jié)果就是MFCC系數(shù).因?yàn)槊窢栴l譜系數(shù)都是實(shí)數(shù),可以使用DCT把它們變換到時(shí)域.MFCC倒譜系數(shù)的計(jì)算公式如下:
(7)
式中p為濾波器組個(gè)數(shù),N為一幀的采樣點(diǎn)數(shù).
2.2 說話人模型和語音文本模型的構(gòu)建
與傳統(tǒng)建立單一說話人模型的方法相比,本系統(tǒng)提出了一種構(gòu)建雙重模型的方法,即分別建立說話人的聲紋模型及其對(duì)應(yīng)的語音文本模型.其中說話人聲紋模型建立的方法為1.2小節(jié)所述的GMM-UBM,為訓(xùn)練集合內(nèi)的每個(gè)說話人建立各自的聲紋模型,標(biāo)識(shí)著每個(gè)說話人的身份信息.而語音文本模型建立方法為使用訊飛開放平臺(tái)提供的語音聽寫服務(wù):首先搭建一個(gè)孤立詞的語音識(shí)別系統(tǒng),將待識(shí)別的語音通過該系統(tǒng),把識(shí)別出的文本信息保存,即為說話人語音的文本模型.
圖2 與文本相關(guān)的說話人模型生成過程
如圖2所示,對(duì)于訓(xùn)練集合內(nèi)的每個(gè)說話人的訓(xùn)練語音,先分別用來搭建說話人聲紋模型和語音文本模型,然后將兩個(gè)模型進(jìn)行綁定,實(shí)現(xiàn)孤立的說話人身份信息和孤立的語音文本信息結(jié)合,綜合構(gòu)建一個(gè)與文本相關(guān)的說話人模型.
2.3 智能判決
智能判決部分首先包含對(duì)測(cè)試語音中的身份信息和文本信息的分析和判定,最終綜合分析身份和文本信息,智能判決測(cè)試語音來自訓(xùn)練階段的哪個(gè)與文本相關(guān)的說話人模型.
測(cè)試語音的身份信息判定方法如1.2節(jié)所述得分最高者即為該測(cè)試語音對(duì)應(yīng)的目標(biāo)說話人.
在測(cè)試語音的文本信息的判定中,將測(cè)試語音通過已經(jīng)建立好的孤立詞的語音識(shí)別系統(tǒng),輸出測(cè)試語音的文本內(nèi)容,選擇內(nèi)容完全相同的語音文本模型,即為該測(cè)試語音的文本模型.
如圖3所示,在完成以上兩個(gè)步驟之后,將選擇出的說話人模型和語音文本模型綁定,分析是否能與訓(xùn)練階段構(gòu)建的某個(gè)綁定模型匹配,這個(gè)過程稱之為初次匹配,如圖3(a)所示,若初次匹配成功,直接判定測(cè)試語音來自該綜合綁定模型(與文本無關(guān)的說話人識(shí)別模型);如圖3(b)若初次匹配失敗,系統(tǒng)自動(dòng)開啟再次匹配模式,具體為先將選出的語音文本模型與訓(xùn)練階段構(gòu)建的綜合綁定模型語音文本部分匹配,成功后再將測(cè)試特征序列通過綜合綁定模型中的說話人聲紋模型打分,與先前的說話人模型最高得分做比較:
(8)
式中Sspeaker為說話人模型最高得分,Sspeech為綜合綁定模型中語音文本模型所對(duì)應(yīng)的聲紋模型的得分,R指差值比.
若R值很小,說明綁定模型中聲紋模型的打分接近最高得分,在文本匹配已經(jīng)成功前提下,聲紋信息非常接近,此時(shí)將該綜合綁定模型判為測(cè)試語音的模型;同理若R值很大,說明綁定模型中的聲紋模型與系統(tǒng)判定出來的聲紋模型差距很大,故不予匹配.a為R的閾值大小,是一個(gè)實(shí)驗(yàn)中的經(jīng)驗(yàn)值,本次實(shí)驗(yàn)中選取0.15.
如果R>a,則判定測(cè)試語音為集合外語音;如果R≤a,則判定測(cè)試語音來自先前選定的與文本相關(guān)的說話人模型.
圖3 測(cè)試語音與文本相關(guān)的說話人模型匹配流程
3.1 實(shí)驗(yàn)數(shù)據(jù)
實(shí)驗(yàn)采用了作者錄制的語音庫(kù),首先錄制100個(gè)說話人任意文本的語音,總長(zhǎng)度為300 min,用于訓(xùn)練背景模型.然后另外選擇10條不同文本短語,由10個(gè)說話人分別讀取所有短語并錄制,每條短語讀5遍,所有語音都是在實(shí)驗(yàn)室安靜環(huán)境下,由安卓手機(jī)上Skyro軟件錄制,普通話發(fā)音,語音信號(hào)的采樣率為8000 Hz,量化精度為16 bit.實(shí)驗(yàn)中,選取每個(gè)說話人的1條語音作為訓(xùn)練語音(不同說話人語音的文本各不相同),為每個(gè)說話人訓(xùn)練一個(gè)與文本相關(guān)的聲紋模型;從剩下語音中選取100條作為測(cè)試語音(每個(gè)說話人選10條文本不同語音),用測(cè)試語音對(duì)建立好的模型進(jìn)行測(cè)試.
3.2 系統(tǒng)描述
為了驗(yàn)證引入的構(gòu)建雙重綁定模型和智能判決機(jī)制等方法的ASR-GMMUBM系統(tǒng)在與文本相關(guān)的說話人識(shí)別領(lǐng)域的優(yōu)勢(shì),這里選擇采用了DTW系統(tǒng)、GMM系統(tǒng)和GMM-UBM系統(tǒng)做對(duì)比系統(tǒng).這四個(gè)系統(tǒng)都采用39維的MFCC特征.其中,ASR-GMMUBM、GMMUBM系統(tǒng)的背景模型取32個(gè)高斯分量,采用經(jīng)典的相關(guān) MAP 自適應(yīng)方式由 UBM 模型得到具體的每個(gè)人的 GMM 模型,相關(guān)因子為 16;GMM系統(tǒng)的每個(gè)人的GMM模型也取32個(gè)高斯分量.
3.3 實(shí)驗(yàn)結(jié)果與分析
4個(gè)系統(tǒng)都需要設(shè)置一個(gè)閾值Q,判定測(cè)試語音是否為集合外冒充者的語音,首先經(jīng)過多次實(shí)驗(yàn)研究,選擇出各個(gè)系統(tǒng)的最優(yōu)閾值,表1~4為不同閾值下各個(gè)系統(tǒng)的漏警概率和虛警概率的大小.
表1 ASR-GMMUBM系統(tǒng)在不同閾值下的虛警率和漏警率
表2 DTW系統(tǒng)在不同閾值下的虛警率和漏警率
表3 GMMUBM系統(tǒng)在不同閾值下的虛警率和漏警率
表4 GMM系統(tǒng)在不同閾值下的虛警率和漏警率
從表1~4中選擇出各個(gè)系統(tǒng)的最優(yōu)閾值,即虛警概率和漏警概率同時(shí)最小的情況下,閾值的大小選擇如表5所示.
表5 各個(gè)系統(tǒng)Q閾值的設(shè)定值
當(dāng)語音時(shí)長(zhǎng)較短且測(cè)試語音集合中存在著大量冒充語音時(shí),在各個(gè)系統(tǒng)選擇最優(yōu)閾值情況下,實(shí)驗(yàn)結(jié)果如表6所示.
表6 各系統(tǒng)在最優(yōu)閾值下的虛警率和漏警率
從表6中可以看出,ASR-GMMUBM系統(tǒng)虛警概率得到明顯的降低,虛警概率越低,說明系統(tǒng)錯(cuò)誤識(shí)別的個(gè)數(shù)越少,系統(tǒng)識(shí)別能力得到了提高.因?yàn)锳SR-GMMUBM系統(tǒng)一方面可以對(duì)測(cè)試語音的文本信息進(jìn)行判定,另一方面對(duì)測(cè)試語音包含的身份信息進(jìn)行判定,又通過智能判決模塊,對(duì)身份信息做二次判定,選擇最準(zhǔn)確的聲紋模型,防止某些測(cè)試語音對(duì)個(gè)別說話人聲紋模型打分過高因素的干擾,故該系統(tǒng)虛警率降低.
本文作者提出了一種結(jié)合語音識(shí)別的與文本相關(guān)的說話人識(shí)別方法,充分利用GMM-UBM說話人識(shí)別技術(shù)和語音識(shí)別技術(shù)各自的優(yōu)點(diǎn),先為每個(gè)說話人訓(xùn)練一個(gè)文本無關(guān)GMM模型,能更好地表征說話人的身份特性,然后通過語音識(shí)別技術(shù)更好的捕捉語音的文本信息,綜合綁定構(gòu)建更準(zhǔn)確表征語音身份和文本的模型.由實(shí)驗(yàn)結(jié)果可看出,在短時(shí)語音,訓(xùn)練數(shù)據(jù)不充分的情況下,由該方法建立的系統(tǒng)虛警率明顯下降,判別能力有了進(jìn)一步的提高,安全性能得到提升.
[1] Wu H L,Du C D,Mao H.Research and application of speaker recognition algorithm based on GMM [J].Modern Computer,2014,14(5):31-35.
[2] Tan R L.Research on speaker recognition technology based on DTW [J].Heilongjiang Science and Technology Information,2010(13):42.
[3] Shen Z S.Research on embedded system and key technology of text-dependent speaker recognition [D].Tianjing:Hebei University of Technology,2011.
[4] Li X M.Robust text dependent speaker identification and application [D].Xiamen:Xiamen University,2013.
[5] Jiang Y,Tang Z C.Research on GMM text-independent speaker recognition [J].Computer Engineering and Applications,2010(11):179-182.
[6] Reynolds D A,Quatieri T F,Dunn R B.Speaker verification using adapted gaussian mixture models [J].Digital Signal Processing,2000(10):19-41.
[7] Li Z P.Design and implementation of speaker recognition system for short speech text [D].Chengdu:Southwest Jiao Tong University,2009.
[8] Hui Z Q,Zeng S M,Zong Y.Improvement of MFCC parameters extraction in speaker recognition [J].Computer Engineering and Applications,2014(1):217-220.
[9] Wang Y Q,Yui Y B.Adaptive gaussian mixture model and Its application in speaker recognition [J].Communications Technology,2014(1):738-743.
[10] Zhao Y X,Gu X X,Zhang E H.Test-independent speaker recognition [J].Computer and Digital Engineering,2014(42):243-247.
[11] Jiang H C,Zheng L,Zhang S B.SDC Feature-based language identification using GMM-UBM [J].Journal of Chinese Information Processing,2007(1):49-53.
(責(zé)任編輯:包震宇)
A new study on text-related speaker recognition
Zhou Lei, Long Yanhua*, Wei Haoran
(College of Information,Mechanical and Electrical Engineering,Shanghai Normal University,Shanghai 200234,China)
In the study of text-related speaker recognition,it is to include the identity recognition as well as the speech text recognition.This paper proposes a new kind of text-related speaker recognition method based on the speech recognition.The model built by this method can describe both the identity information and the speech text information more accurately.Besides,it can also solve the problem that the short-term speech samples have poor recognition effect.The experiments show that compared with the traditional text-related speaker recognition system such as dynamic time warping(DTW) and Gaussian mixture model-universal background model(GMM-UBM),the false alarm probability of the system established by the present method is reduced by 8.9% and the recognition performance is improved.
text-related; speaker recognition; speech recognition
2015-10-16
上海高校青年教師培養(yǎng)計(jì)劃(zzshsfl14026)
周 雷(1990-),男,碩士研究生,從事說話人識(shí)別、語音識(shí)別等方面的研究.E-mail:348746330@qq.com
導(dǎo)師簡(jiǎn)介: 龍艷花(1983-),女,副研究員,從事說話人識(shí)別、語音識(shí)別等方面的研究.E-mail:Yanhua@shnu.edu.cn
TP 391.4
A
1000-5137(2017)02-0224-07
*通信作者