李 聰 葛洪偉
(1. 江南大學(xué)輕工過程先進(jìn)控制教育部重點(diǎn)實(shí)驗(yàn)室,江蘇無錫 214122;2. 江南大學(xué)物聯(lián)網(wǎng)工程學(xué)院,江蘇無錫 214122)
語音身份識別也稱為說話人識別,是通過對說話人的一段語音中所提取出的個性特征進(jìn)行分析和識別,達(dá)到對說話人身份辨認(rèn)和確認(rèn)的技術(shù)。語音身份識別有著廣泛的應(yīng)用前景,可用于需要進(jìn)行身份認(rèn)證的安全領(lǐng)域,也可在智能家居、車載系統(tǒng)等小容量嵌入式系統(tǒng)中運(yùn)用。目前說話人識別技術(shù)已經(jīng)有了很大突破,在安靜環(huán)境下表現(xiàn)出了較高的識別率。但是,現(xiàn)有的語音身份識別系統(tǒng)仍存在一些困難,最突出的便是噪聲環(huán)境下系統(tǒng)的魯棒性問題。實(shí)際應(yīng)用中,由于現(xiàn)實(shí)環(huán)境下難免出現(xiàn)的背景噪音的影響,語音識別相關(guān)系統(tǒng)的應(yīng)用環(huán)境往往不能很好的和純凈訓(xùn)練模型的環(huán)境相匹配,從而出現(xiàn)了由于環(huán)境失配所導(dǎo)致的系統(tǒng)識別性能下降的問題[1]。目前針對減小環(huán)境失配問題提出的方法主要分為兩類[2]。一類是特征域方法,主要是尋求穩(wěn)健的聲學(xué)特性來提取魯棒性語音特征。近年來,許多魯棒性的語音特征被提出,在噪聲環(huán)境下能夠提升一定的識別率,但僅僅通過魯棒特征來提升語音識別的效率還是無法滿足實(shí)際應(yīng)用的需要;另一類稱為模型域方法,通過調(diào)整聲學(xué)模型參數(shù),將噪聲信息融合到純凈訓(xùn)練模型的語音狀態(tài)中,使之能夠匹配當(dāng)前測試中的噪聲環(huán)境,克服環(huán)境失配所帶來的影響。模型域中較為經(jīng)典的方法是并行模型組合(Parallel Model Combination,PMC)算法[3-5]。傳統(tǒng)PMC算法需要噪聲信息已知,即通過已知的噪聲信息對原始語音進(jìn)行相應(yīng)變換和調(diào)整后提高模型的抗噪能力,這樣的做法雖然能夠更充分的利用噪聲信息改善原有模型,但缺乏一定的自適應(yīng)性。本文結(jié)合PMC算法的原理和高斯混合模型-通用背景模型(Gaussian Mixture Model-Universal Background Model,GMM-UBM)[6-7]特點(diǎn),提出了自適應(yīng)并行模型組合APMC(Adaptive Parallel Model Combination)算法。通過從環(huán)境中估計(jì)出噪聲信息來調(diào)整訓(xùn)練GMM各高斯單元的均值向量和協(xié)方差矩陣,估計(jì)出符合當(dāng)前環(huán)境的GMM參數(shù),減少因環(huán)境差異而導(dǎo)致的識別率不理想的問題。實(shí)驗(yàn)表明,結(jié)合了APMC補(bǔ)償算法的說話人識別系統(tǒng)的抗噪性能較未補(bǔ)償?shù)南到y(tǒng)有明顯提升。
PMC是一種有效的噪聲補(bǔ)償技術(shù),其核心思想是通過已有的純凈語音聲學(xué)模型和噪聲模型,經(jīng)相應(yīng)的變換后估計(jì)出含噪語音的模型,從而達(dá)到對聲學(xué)模型的參數(shù)調(diào)整。該算法的原理是分別對處于時域的純凈語音信號和單純的噪聲信號進(jìn)行模型訓(xùn)練,得出相對應(yīng)的純凈語音模型和噪聲模型,接著將兩個模型變換到能夠進(jìn)行加性計(jì)算的對數(shù)譜域進(jìn)行合并,得到含噪語音模型,再經(jīng)過一系列的反變換后便得出處于時域的含噪語音信號。
為了更有針對性地解決噪聲魯棒性問題,PMC算法假設(shè)語音信號和噪聲信號之間是相互獨(dú)立的,在時域中是可加的關(guān)系[1],且噪聲相對平穩(wěn)。對于加噪語音y(n)表現(xiàn)為純凈語音x(t)和加性噪聲n(t)在對數(shù)譜域特征矢量的非線性函數(shù)[4,8]:
yln(t)=ln(exp(xln(t))+exp(nln(t)))
(1)
PMC算法原理如圖1所示。
圖1 PMC算法原理Fig.1 Principle of PMC algorithm
為了提高模型的自適應(yīng)性,相較于原始PMC算法而言,本算法不需要當(dāng)前噪聲模型已知,而是在含噪語音中估計(jì)出一小段噪聲信息,通過該噪聲信息得到噪聲參數(shù)。由于噪聲只影響純凈語音GMM中高斯單元的均值與方差[8],用APMC方法對每個說話人GMM各高斯成分的均值與方差進(jìn)行相應(yīng)調(diào)整,使之與測試中的噪聲環(huán)境相匹配,來提高模型的抗噪性能以及自適應(yīng)能力。
算法首先經(jīng)過自適應(yīng)的噪聲估計(jì)得出倒譜域噪聲參數(shù),包括均值向量和協(xié)方差矩陣,然后利用PMC算法原理,對純凈語音倒譜系數(shù)訓(xùn)練成的GMM參數(shù)同噪聲參數(shù)經(jīng)倒譜提升逆變換和離散余弦反變換一同變換到對數(shù)譜域,接著通過指數(shù)變換變換到線性譜域,在線性譜域,對原始GMM模型參數(shù)和噪聲參數(shù)進(jìn)行非線性相加,再經(jīng)過對數(shù)變換將參數(shù)變換到對數(shù)譜域,進(jìn)而再通過離散余弦變換和倒譜系數(shù)提升變換到倒譜域,便得到了補(bǔ)償后的GMM模型參數(shù)。
APMC算法流程如圖2所示。
圖2 APMC算法流程Fig.2 Process of APMC algorithm
對于短時語音數(shù)據(jù)而言,背景噪聲一般認(rèn)為是平穩(wěn)的,因此,可以通過自適應(yīng)噪聲估計(jì)算法對當(dāng)前語音數(shù)據(jù)提取噪聲信息并獲取噪聲特征,通過利用該噪聲特征對純凈語音訓(xùn)練模型GMM參數(shù)進(jìn)行特征補(bǔ)償,可以提高系統(tǒng)自適應(yīng)的抗噪能力。具體過程如下:
Step 1 對于輸入的語音信號X,先進(jìn)行分幀處理,并對每一幀求取幀能量[6]E(i):
(2)
其中i表示幀序號,dim表示特征矢量維度。
Step 2 通過多次實(shí)驗(yàn)驗(yàn)證,取前五幀能量平均值的1.2倍作為基準(zhǔn)門限值H可以有較好的效果:
(3)
Step 3 對幀能量進(jìn)行平滑處理,利用寬度為5的移動平均濾波器對幀能量序列進(jìn)行平滑處理,得到平滑后的幀能量E′(i),然后從第一幀開始,對每一幀平滑后的幀能量與門限值H進(jìn)行比較,若E′(i)≤H,則認(rèn)為該幀為噪聲幀,若E′(i)>H,則認(rèn)為語音幀開始,進(jìn)而對該幀的前一幀進(jìn)行位置標(biāo)記,記為T′,取該幀及之前的幀作為噪聲段進(jìn)行參數(shù)估計(jì)。
(4)
特征補(bǔ)償是根據(jù)測試環(huán)境下提取的信息,通過非線性失配函數(shù)對模型參數(shù)進(jìn)行調(diào)整,提高模型的魯棒性。由于語音特征系數(shù)各個分量對識別率的影響有所不同,相對于低階特征分量來說,高階特征分量具有較好的魯棒性,不易受到噪聲的干擾。針對這種狀況,在補(bǔ)償?shù)倪^程中采用了一種半升正弦函數(shù)(Half Raise-Sine Function,HRSF)[9-10]的系數(shù)提升策略對倒譜系數(shù)進(jìn)行非線性的提升。倒譜提升相當(dāng)于對倒譜系數(shù){Xi}賦予權(quán)值{Wi},用正弦波來分配權(quán)重,可以降低易受噪聲干擾的低階分量值,同時又提高了數(shù)值相對較小的中高階分量值[9]。由于突出了語音魯棒性較好的高階系數(shù)值,可以在抗噪能力方面提供更好的性能。
引入了倒譜系數(shù)提升的特征補(bǔ)償過程如下:
(5)
(6)
Step 2 將對數(shù)譜域均值和方差通過指數(shù)變換的方式將其參數(shù)變換到線性譜域,此時變量服從對數(shù)正態(tài)分布[8,11]:
(7)
(8)
Step 3 將純凈語音和噪聲的線性譜域參數(shù)非線性相加,得到處于線性譜域的含噪語音GMM的均值及方差:
(9)
Step 4 將含噪語音線性譜域均值和方差變換到對數(shù)譜域,得到對數(shù)譜域參數(shù)[11]:
(10)
Step 5 將得到的對數(shù)譜域均值與方差通過離散余弦變換和倒譜系數(shù)提升變換到倒譜域:
(11)
Step 6 為了提高運(yùn)算效率,去掉冗余元素,對得到的倒譜域協(xié)方差矩陣只保留對角元素:
(12)
N維離散余弦變換矩陣第m行n列的定義是:
(13)
N維離散余弦反變換矩陣為:
C-1=CT
(14)
N維倒譜系數(shù)提升矩陣定義為:
(15)
N維倒譜系數(shù)提升逆矩陣定義為:
(16)
語音身份識別模型較為常用的模型是高斯混合模型-通用背景模型,將本文提出的自適應(yīng)特征補(bǔ)償方法應(yīng)用于GMM-UBM,通過對原始訓(xùn)練GMM參數(shù)進(jìn)行適當(dāng)調(diào)整,以提高整個模型的抗噪能力和魯棒性。APMC語音身份識別的過程如下:
1)對所有的純凈訓(xùn)練語音數(shù)據(jù)提取倒譜特征,訓(xùn)練通用背景模型UBM,利用提取的語音特征通過自適應(yīng)得到每個說話人的GMM[6,12],其中第q個說話人模型對應(yīng)的高斯混合模型參數(shù)
自適應(yīng)并行模型組APMC語音身份識別過程如圖3所示。
圖3 APMC語音身份識別流程Fig.3 APMC speaker recognition process
影響識別誤差的問題與含噪語音模型均值與估計(jì)含噪語音模型均值之間的距離有關(guān),距離越小,說明相似度越高,擬合效果越好,相應(yīng)的識別率也會隨之提高[10]。本實(shí)驗(yàn)通過對同一段純凈語音加噪前和加噪后,以及對原始純凈語音補(bǔ)償后的GMM高斯單元均值分布進(jìn)行了比較,以此來突出本方法對聲學(xué)模型的重構(gòu)是有效的。
實(shí)驗(yàn)選取12維的MFCC倒譜系數(shù)作為語音特征,在TIMIT語音庫中選取了一段語音,結(jié)合NoiseX-92數(shù)據(jù)庫中的Babble噪聲和Mixed噪聲。其中Mixed噪聲是利用NoiseX-92數(shù)據(jù)庫中較具代表性的Babble噪聲、Factory噪聲以及Cafe噪聲三種加性混合產(chǎn)生的噪聲。對原始語音進(jìn)行加噪處理,信噪比SNR=0 dB。用32分量的高斯混合模型進(jìn)行訓(xùn)練,得出不同狀態(tài)下的GMM高斯單元均值分布。
圖4、圖5分別給出了在Babble噪聲和Mixed噪聲環(huán)境下不同狀態(tài)語音GMM各高斯單元均值的分布情況。其中,圖4(a)顯示的是原始純凈語音12維MFCC特征的GMM均值分布情況,圖4(b)是純凈語音混入信噪比為0 dB加性Babble噪聲后得到的含噪語音的GMM均值分布,圖4(c)是通過對含噪語音估計(jì)出的噪聲參數(shù),經(jīng)APMC算法對原始純凈語音的GMM均值分布的重構(gòu)結(jié)果。
圖4 Babble噪聲下語音GMM均值分布Fig.4 The GMM mean distribution of speech in Babble noise
圖5 Mixed噪聲下不同狀態(tài)語音GMM均值分布Fig.5 The GMM mean distribution of speech in Mixed noise
通過對GMM均值的補(bǔ)償可以看出,補(bǔ)償前未調(diào)整的參數(shù)與含噪語音均值參數(shù)差距較大,通過自適應(yīng)的并行模型組合算法補(bǔ)償后,兩者之間的距離差距有明顯的降低,也就是相較于圖4(a),圖4(c)的均值分布更加接近圖4(b)的均值分布,圖5的均值分布亦是如此。這說明補(bǔ)償后的純凈語音能夠更加接近含噪語音的GMM均值分布,從而可以減少噪聲污染所帶來的誤差問題,提供更好的識別性能。
本文采取的加噪方法是根據(jù)信噪比的大小,通過噪聲能量與信號能量的比值來確定比例因子調(diào)整噪聲信號的幅值,進(jìn)而將噪聲與語音信號加性混合作為含噪語音。如圖6所示,上部分顯示的是一段純凈語音的時間波形圖,下半部分是同一語音混入信噪比SNR=0 dB的Mixed噪聲后的信號波形圖。
圖6 純凈語音和含噪語音Fig.6 Clean speech and noisy speech
本實(shí)驗(yàn)數(shù)據(jù)來自TIMIT語音庫,選取其中50人的發(fā)音數(shù)據(jù)進(jìn)行文本無關(guān)說話人識別實(shí)驗(yàn)。語音采樣頻率為16 kHz,其中男性和女性各25人,每人10段語音數(shù)據(jù),每段語音長度約為3~5 s,用每個說話人發(fā)音數(shù)據(jù)中的5段語音作為訓(xùn)練數(shù)據(jù),另外5段語音單獨(dú)在不同信噪比下混合噪聲后作為測試數(shù)據(jù),共250組測試樣本。噪聲語音數(shù)據(jù)來自NoiseX-92數(shù)據(jù)庫,選用了其中生活中常出現(xiàn)的幾種噪聲,包括工廠噪聲Factory噪聲、嘈雜話語噪聲Babble噪聲、咖啡廳噪聲Cafe噪聲和混合Mixed噪聲。噪聲混合信噪比SNR分別取-5 dB、0 dB、5 dB、10 dB、15 dB、20 dB進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)中設(shè)定GMM的混合度為32,語音分幀長度為20 ms,幀移為幀長的一半。特征補(bǔ)償?shù)脑鲆嬉蜃映跏贾礕設(shè)為0.5。當(dāng)無噪聲或噪聲較小時,為了防止補(bǔ)償造成的失配問題,算法會根據(jù)噪聲能量的閾值判斷自動調(diào)整G的值為1,G=1意味著不再進(jìn)行特征補(bǔ)償。
為了突出本算法的有效性,在同樣條件下,分別選取較為經(jīng)典的12維靜態(tài)MFCC特征和近幾年提出的抗噪性能較好基于Gammatone濾波器組[13]的26維GFCC[14]特征進(jìn)行對比實(shí)驗(yàn),并且將基于ivector+PLDA系統(tǒng)的39維差分MFCC和26維GFCC特征的識別正確率作為基線對比數(shù)據(jù)。通過與結(jié)合APMC算法的兩種特征進(jìn)行實(shí)驗(yàn)對比,得出了不同噪聲環(huán)境下算法識別率的對比結(jié)果。
其中ivector+DMFCC和ivector+GFCC分別表示在ivector+PLDA架構(gòu)下采用差分MFCC特征和GFCC特征算法的實(shí)驗(yàn)結(jié)果,MFCC、GFCC分別代表在GMM-UBM框架下使用兩種特征的實(shí)驗(yàn)結(jié)果,MFCC+APMC和GFCC+APMC則分別表示結(jié)合了APMC補(bǔ)償算法的實(shí)驗(yàn)結(jié)果。
圖7 不同加性噪聲環(huán)境下的識別率Fig.7 Recognition accuracy in various types of additive noise
如圖7的實(shí)驗(yàn)結(jié)果表明,在信噪比較大,也就是噪聲污染較小時,所有算法都能給出較好的識別結(jié)果,在信噪比較小的情況下,MFCC和差分MFCC特征都對噪聲較為敏感,識別性能會隨著信噪比的降低而迅速下降, GFCC特征的魯棒性較MFCC有一定改善,但在信噪比較低時,識別效果仍然不理想。在結(jié)合了自適應(yīng)特征補(bǔ)償APMC算法后,這兩種特征說話人身份識別系統(tǒng)在抗噪能力上較未補(bǔ)償?shù)腗FCC和GFCC特征有較為明顯的改善,尤其是在信噪比較低時,該算法的優(yōu)勢就比較明顯,與ivector+PLDA算法的基線系統(tǒng)相比,對噪聲的魯棒性同樣有較大的提升。并且APMC算法在各種噪聲和不同強(qiáng)度下都展現(xiàn)出了較好的魯棒性和穩(wěn)定性,證明了該算法在抗噪方面的有效性。
表1 無噪聲環(huán)境下不同算法的識別正確率
表1給出了幾種算法在未添加噪聲的純凈環(huán)境下的平均識別率,從結(jié)果來看,幾種算法的整體識別率都達(dá)到了較高的水平,尤其是在UBM下結(jié)合MFCC特征,幾乎達(dá)到了全部識別正確的識別率。本文算法為了防止低噪或無噪環(huán)境下的由于補(bǔ)償所導(dǎo)致的失配現(xiàn)象,特在噪聲估計(jì)時根據(jù)閾值對補(bǔ)償因子進(jìn)行一定的調(diào)整,所以識別率并沒有因?yàn)檠a(bǔ)償?shù)木壒识陆?,算法的有效性在無噪聲環(huán)境下也得到了充分的體現(xiàn)。
現(xiàn)實(shí)環(huán)境中背景噪聲對語音信號的影響是制約語音識別相關(guān)系統(tǒng)發(fā)展的一大難題。本文深入研究了針對噪聲環(huán)境下的魯棒性語音身份識別方法,提出了基于高斯混合模型下的自適應(yīng)并行模型組合特征補(bǔ)償算法。該算法通過利用含噪測試語音估計(jì)得到噪聲參數(shù),將該參數(shù)結(jié)合到原始GMM訓(xùn)練模型參數(shù)中,既降低了實(shí)際測試環(huán)境與訓(xùn)練環(huán)境之間的失配現(xiàn)象,同時又提高了模型的抗噪性和自適應(yīng)能力,使整個語音身份識別系統(tǒng)在噪聲環(huán)境下具有較好的識別率和魯棒性。