王 偉 韓紀(jì)慶 鄭鐵然 鄭貴濱 陶 耀(哈爾濱工業(yè)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 哈爾濱 150001)
?
基于Fisher判別字典學(xué)習(xí)的說(shuō)話人識(shí)別
王偉韓紀(jì)慶*鄭鐵然鄭貴濱陶耀
(哈爾濱工業(yè)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院哈爾濱150001)
摘要:稀疏表示已成功應(yīng)用于說(shuō)話人識(shí)別領(lǐng)域。在稀疏表示中,構(gòu)造好的字典起著重要的作用。該文將Fisher準(zhǔn)則的結(jié)構(gòu)化字典學(xué)習(xí)方法引入說(shuō)話人識(shí)別系統(tǒng)。在判別字典的學(xué)習(xí)過(guò)程中,每一個(gè)字典對(duì)應(yīng)一個(gè)類(lèi)標(biāo)簽,因此同類(lèi)別訓(xùn)練樣本的重構(gòu)誤差較小。同時(shí),保證訓(xùn)練樣本的稀疏編碼系數(shù)類(lèi)內(nèi)誤差最小,類(lèi)間誤差最大。在NIST SRE 2003數(shù)據(jù)庫(kù)上,實(shí)驗(yàn)結(jié)果表明該算法得到的等錯(cuò)誤率是7.62%,基于余弦距離打分的i-vector的等錯(cuò)誤率是6.7%。當(dāng)兩個(gè)系統(tǒng)融合后,得到的等錯(cuò)誤率是5.07%。
關(guān)鍵詞:說(shuō)話人識(shí)別;字典學(xué)習(xí);稀疏表示;Fisher判別
說(shuō)話人識(shí)別是語(yǔ)音識(shí)別領(lǐng)域的一個(gè)重要組成部分,其目的是從說(shuō)話人的語(yǔ)音中提取出說(shuō)話人的個(gè)性特征,對(duì)說(shuō)話人進(jìn)行辨別的過(guò)程。該技術(shù)廣泛應(yīng)用于司法取證、聲控門(mén)鎖、銀行、電子商務(wù)和國(guó)防等領(lǐng)域。
在過(guò)去的幾年里,稀疏信號(hào)表示已廣泛應(yīng)用于數(shù)字信號(hào)處理領(lǐng)域[1-5],例如:壓縮感知和圖像恢復(fù)。近年來(lái),人們發(fā)現(xiàn)基于分類(lèi)的稀疏表示的實(shí)驗(yàn)結(jié)果比較好,因此被廣泛使用。稀疏編碼是通過(guò)構(gòu)建過(guò)完備字典[6]對(duì)任意一個(gè)信號(hào)進(jìn)行最緊湊的線性表示。構(gòu)建稀疏編碼字典的方法有兩種,分別是標(biāo)準(zhǔn)的數(shù)據(jù)模型法(例如:wavelets[7],curvelets[8]和Gabor函數(shù)[9])和數(shù)據(jù)驅(qū)動(dòng)方法(例如:k-SVD[10]和online dictionary[11])。在第1種方法中,選擇的標(biāo)準(zhǔn)字典原子通常不能足夠有效地表示信號(hào),而利用數(shù)據(jù)驅(qū)動(dòng)方法學(xué)習(xí)的字典卻能更準(zhǔn)確地代表信號(hào),因此第2種方法得到了成功的使用[12-14]。例如,由所有類(lèi)別的訓(xùn)練樣本構(gòu)成一個(gè)案例字典,通過(guò)比較未知話者和目標(biāo)話者稀疏系數(shù)的范數(shù)值或者殘差值進(jìn)行分類(lèi)[10]。但是,直接把訓(xùn)練樣本作為字典是數(shù)據(jù)冗余的,如果訓(xùn)練樣本數(shù)太多,大量的計(jì)算也會(huì)成
為棘手的問(wèn)題。因此,在訓(xùn)練樣本中學(xué)習(xí)得到一個(gè)
更簡(jiǎn)潔或魯棒的字典,不僅優(yōu)于案例字典,而且具
有更好的數(shù)據(jù)獨(dú)立性[10]。目前,已有人提出基于分
類(lèi)的判別字典學(xué)習(xí)方法[15-21],例如,利用判別重構(gòu)約束的字典學(xué)習(xí)方法[15]和利用判別K-SVD算法(Discriminative K-means Singular Value Decomposition,DKSVD)得到一個(gè)所有類(lèi)別的公共字典的方法[16]等。但是,一個(gè)公共字典的原子和類(lèi)別之間的關(guān)系是模糊的。為了克服這個(gè)弱點(diǎn),需要從每類(lèi)訓(xùn)練樣本中學(xué)習(xí)同類(lèi)別的子字典,通過(guò)使用較少的字典原子獲得更個(gè)性化的信息,例如:文獻(xiàn)[17]使用結(jié)構(gòu)化不連貫的信息學(xué)習(xí)字典。然而,這種字典的學(xué)習(xí)方法沒(méi)有考慮稀疏編碼系數(shù)的判別能力。為了克服這個(gè)缺點(diǎn),文獻(xiàn)[18]使用一個(gè)標(biāo)簽連續(xù)地正則化實(shí)現(xiàn)稀疏編碼系數(shù)的判別性,文獻(xiàn)[19]通過(guò)使用邏輯損失函數(shù)學(xué)習(xí)一個(gè)監(jiān)督的字典,文獻(xiàn)[20]通過(guò)使用鉸鏈損失函數(shù)去學(xué)習(xí)一個(gè)監(jiān)督的字典。不同于上面的方法,文獻(xiàn)[21]提出了一種Fisher準(zhǔn)則的判別字典學(xué)習(xí)算法(Fisher Discrimination Dictionary Learning,F(xiàn)DDL),將其應(yīng)用在圖像分類(lèi)上,得到了較好的性能。
針對(duì)以往基于字典學(xué)習(xí)的說(shuō)話人識(shí)別方法中,既沒(méi)有考慮字典中原子所對(duì)應(yīng)的類(lèi)別標(biāo)簽,也沒(méi)有綜合考慮稀疏編碼系數(shù)的類(lèi)內(nèi)和類(lèi)間誤差。本文嘗試將基于Fisher準(zhǔn)則的判別字典學(xué)習(xí)方法引入到說(shuō)話人識(shí)別中,通過(guò)利用字典中原子所對(duì)應(yīng)類(lèi)別標(biāo)簽來(lái)減少同類(lèi)對(duì)應(yīng)的重構(gòu)誤差,同時(shí)綜合考慮稀疏編碼系數(shù)類(lèi)內(nèi)和類(lèi)間誤差,以使類(lèi)內(nèi)誤差最小、類(lèi)間誤差最大。此外,通過(guò)采用L2范數(shù)來(lái)求解稀疏編碼系數(shù)以提高識(shí)別速度。
本節(jié)詳細(xì)描述所提出的基于Fisher準(zhǔn)則判別字典學(xué)習(xí)的說(shuō)話人識(shí)別方法。2.1節(jié)介紹特征提取方法。2.2節(jié)詳細(xì)解析基于Fisher準(zhǔn)則的判別字典學(xué)習(xí)框架。最后一節(jié)介紹使用基于Fisher準(zhǔn)則的判別字典學(xué)習(xí)方法在說(shuō)話人識(shí)別上的應(yīng)用。
2.1 I-vector特征提取
目前,在說(shuō)話人識(shí)別中最具有挑戰(zhàn)的問(wèn)題是訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)之間的信道不一致[22,23]。經(jīng)典的聯(lián)合因子分析(Joint Factor Analysis,JFA)是基于說(shuō)話人和信道因素分開(kāi)的,但是信道空間還是會(huì)包含有說(shuō)話人信息。文獻(xiàn)[24]提出了i-vector特征提取方法,其基本思想是假設(shè)說(shuō)話人信息以及信道信息同時(shí)處于高斯混合模型高維均值超矢量空間中的一個(gè)低維線性子空間結(jié)構(gòu)中,使用式(1)表示。
其中,M表示高斯混合模型均值超矢量,m表示與特定說(shuō)話人和信道都無(wú)關(guān)的超矢量。 而表示總體變化子空間矩陣,是低秩的矩形矩陣,其完成從高維空間到低維空間的映射。因此,將說(shuō)話人信息和信道信息的GMM均值超向量投影到低秩空間T,同時(shí)得到i-vector低維度的向量,其中ω是一種具有標(biāo)準(zhǔn)正態(tài)分布的隨機(jī)向量。
由于總體變化子空間包含說(shuō)話人信息和信道的信息,在提取i-vector后,需在總體變化子空間上進(jìn)行會(huì)話的補(bǔ)償。信道補(bǔ)償通?;陬?lèi)內(nèi)協(xié)方差歸一化(Within Class Covariance Normalization,WCCN)[25]和線性判別分析(Linear Discriminate Analysis,LDA)[24]兩種方法。其中,WCCN用來(lái)規(guī)范化余弦函數(shù)補(bǔ)償會(huì)話間的變化,LDA用來(lái)尋找新的正交軸,即通過(guò)最大化類(lèi)間方差和最小化類(lèi)內(nèi)方差來(lái)區(qū)分不同類(lèi)別。
2.2 Fisher判別字典學(xué)習(xí)
假設(shè)有C類(lèi)訓(xùn)練樣本,從訓(xùn)練樣本中提取M維度的i-vectors特征矩陣,用表示第i類(lèi)訓(xùn)練樣本提取的i-vectors特征,同時(shí),表示在訓(xùn)練集中提取的i-vectors特征的總個(gè)數(shù)。用表示的判別字典中包含C類(lèi)子字典,其中為第i類(lèi)字典矩陣,并用表示字典中原子的總數(shù)。用表示訓(xùn)練樣本X在字典D上分解得到的稀疏編碼系數(shù),即表示第i類(lèi)訓(xùn)練樣本Xi在字典D上分解后得到的稀疏編碼系數(shù)。為了使學(xué)習(xí)的字典D既具有較好的重構(gòu)能力,又具有很好的判別能力,我們采用了Fisher準(zhǔn)則的判別字典學(xué)習(xí)(FDDL)方法。本文的目標(biāo)函數(shù)定義為
其中定義保真項(xiàng)為
定義判別約束項(xiàng)f(A)為其中,f(A)保證訓(xùn)練樣本的稀疏編碼系數(shù)A的類(lèi)內(nèi)誤差SW(A)最小,而類(lèi)間誤差SB(A)最大,σ表示常量。
定義類(lèi)內(nèi)誤差SW(A)為
定義類(lèi)間誤差SB(A)為
關(guān)于(D,A)目標(biāo)函數(shù)J是非聯(lián)合凸函數(shù),為了解決這個(gè)問(wèn)題,我們可以固定D,優(yōu)化A,或者固定A,優(yōu)化D。將采用現(xiàn)有的解決方案[26,27],求解最優(yōu)化問(wèn)題的步驟如表1所示。
表1 基于Fisher準(zhǔn)則的判別字典學(xué)習(xí)算法
2.3 基于FDDL的說(shuō)話人識(shí)別
因?yàn)榕袆e字典的學(xué)習(xí)使用了重構(gòu)誤差和稀疏編碼系數(shù)的判別信息,所以同時(shí)使用重構(gòu)誤差和稀疏編碼系數(shù)進(jìn)行分類(lèi),從而測(cè)評(píng)子字典是否能很好地重構(gòu)測(cè)試樣本。使用子字典Di表示測(cè)試樣本的稀疏編碼系數(shù),定義目標(biāo)函數(shù)為
因?yàn)閷W(xué)習(xí)的字典Di不僅可以很好地線性表示y,而且稀疏編碼系數(shù)向量a與相似,定義分類(lèi)的評(píng)分為
本文中,訓(xùn)練集和測(cè)試集都使用i-vector作為特征。通過(guò)使用FDDL方法學(xué)習(xí)一個(gè)判別的字典,而判別字典的線性加權(quán)表示一個(gè)測(cè)試語(yǔ)音的i-vector特征。利用L2范數(shù)最小化計(jì)算訓(xùn)練樣本的稀疏編碼系數(shù)。如果測(cè)試結(jié)果與說(shuō)話人相關(guān)的ei最小,就對(duì)應(yīng)此說(shuō)話人。圖1給出本文系統(tǒng)的詳細(xì)結(jié)構(gòu)圖。
為了評(píng)估本文方法的性能,我們?cè)贜IST SRE 2003的女生數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)測(cè)試[28]。NIST SRE 2003數(shù)據(jù)集上包括女生數(shù)據(jù)集、男生數(shù)據(jù)集和男女混合數(shù)據(jù)集。每個(gè)數(shù)據(jù)集都有獨(dú)立的測(cè)試計(jì)劃。許多文章的實(shí)驗(yàn)結(jié)果都是在一個(gè)數(shù)據(jù)集上進(jìn)行的[14,29-31]。因此,我們僅在NIST SRE 2003的女生數(shù)據(jù)集上進(jìn)行測(cè)試。在NIST SRE 2003的女生數(shù)據(jù)集中,訓(xùn)練集由207個(gè)目標(biāo)說(shuō)話人語(yǔ)音組成,語(yǔ)音大約2 min時(shí)長(zhǎng);測(cè)試集由1759個(gè)正確的說(shuō)話人語(yǔ)音和17590個(gè)錯(cuò)誤的說(shuō)話人語(yǔ)音組成。所有的語(yǔ)音文件都是wav格式,采用了8 kHz采樣和16位量化。提取每一幀的短時(shí)能量,窗長(zhǎng)20 ms,幀移10 ms。在采用34維MFCC(16+log(energy+△))的特征提取后,為了削弱語(yǔ)音內(nèi)部的差異,又采用了歸一化的倒譜均值減(CMS)和特征彎折(FW)[32]處理。
3.1 基于i-CDS的說(shuō)話人識(shí)別系統(tǒng)
圖1 本文系統(tǒng)的結(jié)構(gòu)圖
基線系統(tǒng)是基于余弦距離打分(Cosine Distance Scoring,CDS)的身份驗(yàn)證矢量i-vector系統(tǒng)[33]。在i-vector系統(tǒng)中,訓(xùn)練了1024個(gè)高斯的UBM,UBM的參數(shù)估計(jì)采用最大似然準(zhǔn)則。在OGI語(yǔ)料和NIST SRE 2003語(yǔ)料上訓(xùn)練由200個(gè)總體因子構(gòu)成的總體變化子空間矩陣。每個(gè)i-vector的維度是200,每個(gè)完備的字典包含100個(gè)原子?;趇-CDS的說(shuō)話人識(shí)別基線系統(tǒng),通過(guò)余弦距離打分來(lái)評(píng)測(cè)i-vector間的相似性。根據(jù)等錯(cuò)誤率(Equal Error Rate,EER)度量系統(tǒng)的性能,等錯(cuò)誤率表示錯(cuò)誤接受率和錯(cuò)誤拒絕率相符時(shí)的錯(cuò)誤率。當(dāng)系統(tǒng)的等錯(cuò)誤率越低,代表系統(tǒng)的性能會(huì)更好。圖2(虛線圖)表示基線系i-CDS相關(guān)結(jié)果,其等錯(cuò)誤率(EER)是6.7%。
3.2 基于FDDL的說(shuō)話人識(shí)別系統(tǒng)
NIST SRE 2003中的每個(gè)測(cè)試語(yǔ)音都有11類(lèi)說(shuō)話人訓(xùn)練樣本,訓(xùn)練樣本的每類(lèi)200維度的i-vectors構(gòu)成初始化字典。圖2表示基于FDDL的說(shuō)話人識(shí)別系統(tǒng),其中和。FDDL的等錯(cuò)誤率(EER)是7.62%。
本文所提出的基于FDDL的說(shuō)話人識(shí)別系統(tǒng),其字典的學(xué)習(xí)兼顧了兩方面的判別性信息,一是字典的原子與類(lèi)別標(biāo)簽相對(duì)應(yīng),使同類(lèi)別訓(xùn)練樣本的重構(gòu)誤差最??;另一方面利用了訓(xùn)練樣本稀疏編碼系數(shù)的類(lèi)內(nèi)誤差最小、類(lèi)間誤差最大的判別性信息。在字典學(xué)習(xí)中,將訓(xùn)練樣本隨機(jī)分成了10等份,每一等份生成一個(gè)i-vector,即為一個(gè)原子,這里生成的i-vector信息量明顯少于一個(gè)整體訓(xùn)練樣本生成的一個(gè)i-vector的i-CDS,所以,本文方法FDDL(EER=7.62%)性能略低于i-CDS(EER=6.7%)性能。
圖2 在NIST SRE 2003數(shù)據(jù)庫(kù)上的基線系統(tǒng)、FDDL系統(tǒng)、融合系統(tǒng)的DETs
3.3 基于FDDL和i-CDS融合的說(shuō)話人識(shí)別系統(tǒng)
圖3表示融合系統(tǒng)的結(jié)構(gòu)圖。調(diào)節(jié)不同融合系數(shù)β值,對(duì)說(shuō)話人系統(tǒng)的性能進(jìn)行評(píng)估,其結(jié)果如圖4所示。當(dāng)β=0.7時(shí),等錯(cuò)誤率(EER)是5.07%,融合系統(tǒng)得到最好的測(cè)試結(jié)果,如圖2所示(實(shí)線圖)。圖2中(實(shí)線)結(jié)果表明,上述兩種系統(tǒng)融合得到的新系統(tǒng)識(shí)別效果更好。分析其中的原因在于,本文提出的FDDL說(shuō)話人識(shí)別系統(tǒng)和i-CDS說(shuō)話人識(shí)別系統(tǒng)是基于兩種不同的方法,F(xiàn)DDL說(shuō)話人識(shí)別系統(tǒng)利用了一種新的分類(lèi)方法——稀疏表示分類(lèi)法,在過(guò)完備的字典中用盡可能少的原子來(lái)表示信號(hào),從而更容易獲取信號(hào)中所蘊(yùn)含的信息,因此,稀疏表示對(duì)信號(hào)有著更有效和更出色的建模能力。而i-CDS說(shuō)話人識(shí)別系統(tǒng)是基于高斯混合模型-通用背景模型(Gaussian Mixture Model-Universal Bsckground Model,GMM-UBM)為基礎(chǔ)的說(shuō)話人建模方法,其有重要的降維作用。降維的目的是分離所有說(shuō)話人語(yǔ)音的共性特征,保留不同說(shuō)話人間獨(dú)特的語(yǔ)音特征,如果分離得當(dāng),區(qū)分性特征信息將保留在i-vector中。因此,融合系統(tǒng)具有兩種方法在說(shuō)話人識(shí)別上的優(yōu)點(diǎn),可以得到更好的識(shí)別效果。
3.4 不同字典學(xué)習(xí)方法的比較
圖3 說(shuō)話人識(shí)別融合系統(tǒng)的結(jié)構(gòu)圖
為了說(shuō)明本文方法的優(yōu)勢(shì),我們將FDDL與其它兩種常用的判別字典(DKSVD,LC-KSVD)學(xué)習(xí)方法進(jìn)行了實(shí)驗(yàn)結(jié)果比較,如圖5所示,其中短劃線、虛線和實(shí)線分別表示FDDL,DKSVD和LC-KSVD的結(jié)果,其中,DKSVD的等錯(cuò)誤率是10.57%和LC-KSVD的等錯(cuò)誤率是7.98%,而FDDL等錯(cuò)誤率是7.62%。從圖5中的結(jié)果可以看出,F(xiàn)DDL優(yōu)于其它兩種方法。這是由于在字典學(xué)習(xí)的時(shí)候,DKSVD只考慮了稀疏編碼系數(shù)的判別性;LC-KSVD沒(méi)有同時(shí)考慮殘差的重構(gòu)性和稀疏編碼系數(shù)的判別性。
本文提出了基于Fisher準(zhǔn)則的判別字典學(xué)習(xí)的說(shuō)話人識(shí)別方法。判別字典的學(xué)習(xí)考慮了兩方面因素,一是字典原子和類(lèi)別相對(duì)應(yīng),使同類(lèi)的重構(gòu)誤差最??;另一方面使稀疏編碼系數(shù)的類(lèi)內(nèi)誤差最小、類(lèi)間誤差最大。在測(cè)評(píng)時(shí),重構(gòu)誤差和稀疏編碼系數(shù)判別信息同時(shí)用于分類(lèi)。在NIST SRE 2003數(shù)據(jù)庫(kù)上,實(shí)驗(yàn)結(jié)果驗(yàn)證了本文方法具有良好的性能。同時(shí)發(fā)現(xiàn)與基線系統(tǒng)融合得到的新系統(tǒng),可以得到更好的識(shí)別效果。
圖4 在不同融合系數(shù)β下,等錯(cuò)誤率性能的對(duì)比
圖5 在NIST SRE 2003中,不同判別字典學(xué)習(xí)方法得到的DETs
參考文獻(xiàn)
[1]CANDèS E.Compressive sampling[C].Proceedings of the 2nd International Congress of Mathematicians,Spain,2006:1433-1452.
[2]CANDèS E J,ROMBERG J,and TAO T.Robust uncertainty principles:Exact signal reconstruction from highly incomplete frequency information[J].IEEE Transactions on Information Theory,2004,52(2):489-509.
[3]BARANIUK R.Compressive sensing[J].IEEE Signal Processing Magazine,2008,56(4):4-5.
[4]丁軍,劉宏偉,王英華.基于非負(fù)稀疏表示的SAR圖像目標(biāo)識(shí)別方法[J].電子與信息學(xué)報(bào),2014,36(9):2194-2200.doi:10.3724/SP.J.1146.2013.01451.DING Jun,LIU Hongwei,and WANG Yinghua.SAR image target recognition based on non-negative sparse representation[J].Journal of Electronics & Information Technology,2004,36(9):2194-2200.doi:10.3724/SP.J.1146.2013.01451.
[5]蘇伍各,王宏強(qiáng),鄧彬,等.基于稀疏貝葉斯方法的脈間捷變頻ISAR成像技術(shù)研究[J].電子與信息學(xué)報(bào),2015,37(1):1-8.doi:10.11999/JEIT.140315.SU Wuge,WANG Hongqiang,DENG Bin,et al.The interpulse frequency agility ISAR imaging technology based on sparse bayesian method[J].Journal of Electronics &Information Technology,2015,37(1):1-8.doi:10.11999/ JEIT.140315.
[6]HUANG K and AVIYENTE S.Sparse Representation for Signal Classification[M].New York,MIT Press,2006:609-616.
[7]MALLAT S.A Wavelet Tour of Signal Processing[M].Second Edition.New York,Academic Press,1999:506-513.
[8]CANDèS E J and GUO F.New multiscale transforms,minimum total variation synthesis:Applications to edge-preserving image reconstruction[J].Signal Processing,2002,82(2):1519-1543.
[9]GABOR D.Theory of communication.Part 1:the analysis of information[J].Journal of the Institution of Electrical Engineers-Part III:Radio and Communication Engineering,1946,93(26):429-441.
[10]AHARON M,ELAD M,and BRUCKSTEIN A.The K-SVD:An algorithm for designing overcomplete dictionaries for sparse representation[J].IEEE Transactions on SignalProcessing,2006,54(11):4311-4322.
[11]MAIRAL J,BACH F,and PONCE J.Online dictionary learning for sparse coding[C].Proceedings of the 26th Annual International Conference on Machine Learning,Canada,2009:689-696.
[12]WANG J,LU C,WANG M,et al.Robust face recognition via adaptive sparse representation[J].IEEE Transactions on Cybernetics,2014,44(12):2368-2378.
[13]KUA J M K,AMBIKAIRAJAH E,and EPPS J.Speaker verification using sparse representation classification[C].IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP),Czech Republic,2011:4548-4551.
[14]LI M,ZHANG X,and YAN Y.Speaker verification using sparse representations on total variability i-vectors[C].12th Annual Conference of the International Speech Communication Association(Interspeech),Italy,2011:2729-2732.
[15]MAIRAL J,BACH F,and PONCE J.Discriminative learned dictionaries for local image analysis[C].IEEE Conference on Computer Vision and Pattern Recognition(CVPR),Anchorage,2008:1-8.
[16]ZHANG Q and LI B.Discriminative K-SVD for dictionary learning in face recognition[C].IEEE Conference on Computer Vision and Pattern Recognition(CVPR),San Francisco,2010:2691-2698.
[17]RAMIREZ I,SPRECHMANN P,and SAPIRO G.Classification and clustering via dictionary learning with structured incoherence and shared features[C].IEEE Conference on Computer Vision and Pattern Recognition(CVPR),San Francisco,2010:3501-3508.
[18]JIANG Z,LIN Z,and DAVIS L S.Label consistent K-SVD:learning a discriminative dictionary for recognition[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,35(11):2651-2664.
[19]MAIRAL J,PONCE J,and SAPIRO G.Supervised Dictionary Learning[M].New York,MIT Press,2009:1033-1040.
[20]WANG Z,YANG J,NASRABADI N,et al.Look into sparse representation based classification:A margin-based perspective[C].IEEE International Conference on Computer Vision(ICCV),Sydney,2013:759-769.
[21]YANG M,ZHANG L,F(xiàn)ENG X C,et al.Sparse representation based fisher discrimination dictionary learning for image classification[J].International Journal of Computer Vision,2014,109(3):209-232.
[22]RAO W andMAK M W.Boosting the performance of i-vector based speaker verification via utterance partitioning[J].IEEE Transactions on Audio,Speech,and Language Processing,2013,21(5):1012-1022.
[23]LIU T T,KANG Kai,and GUAN S X.I-vector based text-independent speaker identification[C].11th World Congress on Intelligent Control and Automation(WCICA),Shenyang,2014:5420-5425.
[24]DEHAK N,KENNY P,and DEHAK R.Front-end factor analysis for speaker verification[J].IEEE Transactions on Audio,Speech,and Language Processing,2011,19(4):788-798.
[25]DEHAK N,KENNY P,and DEHAK R.Support vector machines and joint factor analysis for speaker verification[C].IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP),Taiwan,2009:4237-4240.
[26]ROSASCO L,VERRI A,and SANTORO M.Iterative projection methods for structured sparsity regularization[R].MIT Technical Reports,MIT-CSAIL-TR-2009-050,CBCL-282,2009.
[27]GU S,ZHANG L,and ZUO W.Projective Dictionary Pair Learning for Pattern Classification[M].New York,MIT Press,2014:793-801.
[28]PRZYBOCKI M and MARTIN A.The NIST year 2003 speaker recognition evaluation plan[OL].http://www.nist.gov/tests/spk/2003/index.htm,2003.
[29]KENNY P,STAFYLAKIS T,and OUELLET P.PLDA for speaker verification with utterances of arbitrary duration[C].IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP),Vancouver,2013:7649-7653.
[30]HARIS B C and SINHA R.Sparse representation over learned and discriminatively learned dictionaries for speaker verification[C].IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP),Kyoto,2012:4785-4788.
[31]STAFYLAKIS T,KENNY P,and SENOUSSAOUI M.PLDA using gaussian restricted boltzmann machines with application to speaker verification[C].13th Annual Conference of the International Speech Communication Association(Interspeech),Portland,2012:1692-1695.
[32]KINNUNEN T and LI H.An overview of text-independent speaker recognition:from features to supervectors[J].Speech Communication,2010,52(1):12-40.
[33]KANAGASUNDARAM A,DEAN D,SRIDHARAN S,et al.I-vector based speaker recognition using advanced channel compensation techniques[J].Computer Speech & Language,2014,28(1):121-140.
王偉:女,1977年生,講師,研究方向?yàn)檎Z(yǔ)音信號(hào)處理和音頻信息處理.
韓紀(jì)慶:男,1964年生,教授,研究方向?yàn)檎Z(yǔ)音信號(hào)處理和音頻信息處理.
鄭鐵然:男,1974年生,副教授,研究方向?yàn)檎Z(yǔ)音信號(hào)處理和音頻信息處理.
Speaker Recognition Based on Fisher Discrimination Dictionary Learning
WANG WeiHAN JiqingZHENG TieranZHENG GuibinTAO Yao
(School of Computer Science and Technology,Harbin Institute of Technology,Harbin 150001,China)
Abstract:Motivated by the success of sparse representation in speaker recognition,a good dictionary plays an important role in sparse representation.In this paper,the structured dictionary learning is introduced to speaker recognition based on the Fisher criterion.In the process of learning the discrimination dictionary,each sub-dictionary of the learned dictionary corresponds to a class label,so the reconstruction error of the same training samples is small.Meanwhile,the sparse coding coefficients have small with-class scatter and big between-class scatter.On the NIST SRE 2003 database,the experimental results indicate that the proposed method achieves an Equal Error Rate(EER)of 7.62%,and the i-vector system based on cosine distance scoring gives an EER of 6.7%.Moreover,an EER of 5.07% is obtained by combining two systems.
Key words:Speaker recognition; Dictionary learning; Sparse representation; Fisher Discrimination(FD)
基金項(xiàng)目:國(guó)家自然科學(xué)基金(61071181,61471145),國(guó)家自然科學(xué)基金重大研究計(jì)劃(91120303)
*通信作者:韓紀(jì)慶jqhan@hit.edu.cn
收稿日期:2015-05-13;改回日期:2015-09-06;網(wǎng)絡(luò)出版:2015-11-19
DOI:10.11999/JEIT150566
中圖分類(lèi)號(hào):TP391.42
文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-5896(2016)02-0367-06
Foundation Items:The National Natural Science Foundation of China(61071181,61471145),The Major Research Plan of the National Natural Science Foundation of China(91120303)