孟 慧,梅鐵民,朱向榮
(1.沈陽理工大學 信息科學與工程學院,遼寧 沈陽 110159;2.淄博民通熱力有限公司,山東 淄博 255400)
一種小波包變換的聲紋參數提取方法研究
孟 慧1,梅鐵民1,朱向榮2
(1.沈陽理工大學 信息科學與工程學院,遼寧 沈陽 110159;2.淄博民通熱力有限公司,山東 淄博 255400)
在聲紋識別系統(tǒng)中,對聲紋參數的提取很重要。傳統(tǒng)的MFCC參數忽略了語音信號的動態(tài)特性,因此提出了一種基于小波包變換的聲紋參數提取方法。為了更突出說話人的聲紋特征,克服說話內容不同對提取聲紋參數的影響,在分幀階段采用幀長為2560點,增長有效語音段。再結合基于矢量量化(VQ)系統(tǒng)進行說話人識別實驗,并通過比較常用的db3、db4、db6、coif3小波函數選取最優(yōu)基。實驗證明,相對于常用的256點幀長,幀長為2560點的識別率較高且提高了運算速率。coif3小波函數為聲紋參數提取的最優(yōu)基。新的WPT參數的識別率優(yōu)于傳統(tǒng)的MFCC參數。
聲紋參數;小波包變換;能量;矢量量化;語音信號
隨著計算機技術和網絡通信的迅猛發(fā)展,人們的生活方式也發(fā)生了巨大變化。身份鑒別作為信息安全的重要組成部分已成為全球最熱門的研究領域之一,在日常生活的每個領域都起著至關重要的作用[1]。傳統(tǒng)的密碼識別在實際應用中具有很多缺陷,而且隨著手機等移動設備的普及,密碼丟失導致隱私泄露和被犯罪分子盜取的數量越來越多。在這種情況下,進行聲紋識別有重要的意義。因此,研究可靠的聲紋識別系統(tǒng),提高聲紋識別的準確率,具有良好的應用前景[2]。聲紋識別是一項難度較高的技術,它包括代表說話人特征的聲紋的提取和識別兩個方面。從聲音中提取一組反映說話人特征的聲學參數構成一個人的聲紋,這是一個復雜的過程,但它也是聲紋識別的關鍵所在。根據語音信號的聲學特殊性,已經提出一些有效的聲學特征提取方法,如能夠充分反映人耳聽覺系統(tǒng)的非線性特性的MFCC(Mel-Frequency Cepstral Coefficients)參數[3]。它是將語音信號的頻譜通過非線性變換轉換為Mel頻率,然后再轉換到倒譜域上,從而獲得MFCC參數。雖然在識別性能和抗噪能力上MFCC參數都具有很好的性能,也是目前應用比較廣泛的聲紋特征參數,但是MFCC參數并不能很好地反映人耳的聽覺特性,此外,該算法需對語音信號進行多步復雜計算,計算量較大,不利于快速語音識別[4]。本文提出了一種基于小波包變換的聲紋特征參數(WPT參數)。它既能較好地反映語音信號的動態(tài)特性,又能反映人耳的聽覺特性。仿真研究表明,相對于MFCC參數,具有較好的抗噪聲能力,而且在減少了運算量的同時提高了識別率。
小波包變換將信號頻帶進行多層次劃分,即對小波變換沒有細分的高頻部分進一步分解,并能夠根據被分析信號的特征,自適應地選擇相應的頻帶,使之與信號頻譜相匹配,從而提高了時頻分辨率[5-6]。
(1)
式中,gk=(-1)kh1-k,即兩系數也具有正交關系。當n=0時,式(1)直接給出:
(2)
與在多分辨分析中,φ(t)和ψ(t)滿足雙尺度方程:
(3)
(4)
(5)
(6)
為便于比較,首先簡單介紹一下MFCC參數提取方法,然后給出基于小波包變換的WPT(Wavelet Packet Transform)聲紋參數提取方法。
2.1 MFCC參數提取方法
人類的聽覺系統(tǒng)是一個比較特殊的非線性系統(tǒng),對于不同頻率信號響應的靈敏度是不同的。Mel倒譜參數(MFCC)就是一個能夠較好反映人耳感知特性的參數。這里的Mel倒譜參數是人耳所感知到的音調的度量單位[7]。Mel頻率是對人耳所聽到的漢語音調的度量。
Mel頻率與線性頻率的轉換關系如下所示:
fMel=2595lg[1+f/700]
(7)
Mel倒譜參數特征是按照幀計算出來的,提取的過程可以用以下過程來表示:
1)首先確定每一幀語音采樣序列的點數,一般取N=256點。對每一幀序列s(n)進行預加重、分幀加窗預處理后,x(n)再經過離散FFT變換,取其模的平方得到離散功率譜X(k)為
(8)
2)將上述頻譜通過一組三角帶通濾波器組成的Mel濾波器,計算X(k)通過M個Mel濾波器后得到的M個能量Pm(m=0,1,…,M-1)。
3)計算Pm的自然對數能量,得到Lm(m=0,1,…,M-1)。
(9)
4)將,L0,L1,…,LM-1通過離散余弦變換求得Dm,m=0,1,…,M-1。去掉表示直流分量的D0,取D1,D2,…,DL即為MFCC參數
(10)
式中,L為MFCC參數的維數,M為Mel濾波器的個數。
由于在實際聲紋識別應用中并不需要取全部維數的MFCC參數,因為最前面幾維以及最后面幾維的參數對語音的區(qū)分性能不大,通常取前16維的MFCC參數即可。
2.2 WPT參數提取方法
2.2.1 語音信號的分幀加窗
語音信號為一種典型的非平穩(wěn)信號,為了便于分析,語音信號被視為短時間內是平穩(wěn)的。根據人類的發(fā)聲機理,語音信號的頻譜特性以及某些物理特征參數在10ms至30ms時間內是近似穩(wěn)定不變的。所以就可以把一段語音信號分成若干穩(wěn)定小段,每個短時段被稱為一幀,相鄰兩幀之間會有重疊部分,重疊部分被稱為幀移,幀移與幀長通常保持0至0.5的比值[8]。通過滑動一個窗函數對語音信號進行加權處理。對語音s(n)加窗,窗函數w(n)乘以s(n)形成加窗語音sw(n),sw(n)=s(n)·w(n)。在聲紋識別系統(tǒng)中,漢明窗因其具有較低的旁瓣高度和低通特性被廣泛用應用以避免短時語音段的影響,所以本文在分幀加窗步驟采用漢明窗,如下式所示:
(11)
式中N為窗口長度。為更突出說話人的聲紋特征,克服說話內容不同對提取聲紋參數的影響,在分幀階段采用幀長為2560點,即N=2560,增長有效語音段。
2.2.2 WPT參數的提取過程
基于小波包變換對聲紋特征參數(WPT)的提取過程如下。
1)首先對語音信號在給定尺度上進行小波包分解。如前所述,選取合適的分解尺度和小波包基函數。設一幀語音信號為x(n),幀長為2560。對x(n)進行三層小波包分解,用(i,j)表示第i層的第j+1個結點(i=0,1,2,3;j=0,1,…,15)。比如:代表原始語音信號x(n)的為(0,0)結點,(3,2)結點代表第三層第3個結點的小波包系數。
3)取對數。
S(j)=log(EWPCj)
(12)
4)對S(j)進行離散余變換(DCT),求得WPT參數:
C(j)=DCT(S(j))
(13)
傳統(tǒng)的基于小波包的聲紋參數提取的分幀通常幀長取為256點,幀移取100點,即是把語音信號假設在短時間內看作是平穩(wěn)的。這種短幀長的聲紋提取比較適合文本識別。對于說話人識別,希望盡量消除文本對所提取聲紋的影響。解決這一問題的辦法是增加語音幀的長度,從而只突出說話人的特征。在語音活動段,本文將幀長取為2560。這樣提取的聲紋參數可以更好地克服由于說話內容不同而對聲紋參數提取造成的影響。
2.3 選取最優(yōu)基
在小波包變換中,可以選取不同的小波函數。不同的小波函數會對分析結構產生不同結果,因此涉及到最優(yōu)小波函數的選取問題。但是,在語音識別中,哪一種小波函數最優(yōu)并無定論。通??紤]小波函數變換的有效性、通用性和系數的唯一性。為了找到更適合說話人識別聲紋參數提取的小波,本文將對常用的db3、db4、db6和coif3小波函數進行實驗驗證,以便比較這些小波函數在說話人識別中的優(yōu)劣。
矢量量化模型在聲紋識別系統(tǒng)中的識別過程:
1)從測試語音信號中得到特征矢量;
2)用每個模板依次分別對特征矢量序列進行矢量量化,計算各自的平均量化誤差,采用如下公式:
(14)
3)把平均量化誤差最小的碼本所對應的說話人作為系統(tǒng)的識別結果[9]。
聲紋特征參數提取之前,首先要對語音信號預加重,所用預加重濾波器為H(z)=1-αz-1,其中α取值為0.97。其次采用雙門限端點檢測算法進行端點檢測,目的是找出語音段和無音段并去除無音段。找到語音段之后要對語音信號進行預處理,即進行分幀、加窗處理,本實驗采用幀長為2560點的Hamming窗。最后再對每個人的聲音文件進行特征參數提取并進行矢量量化。
由上文介紹的WPT參數提取方法可知,提取的WPT參數是經過三層小波包對語音信號分解的,那么得到的是16維度的聲紋參數,而在實際的三維空間內,不能夠表示出16維的仿真結果圖,所以本實驗取到第5維度和第6維度的聲紋參數進行仿真實驗,來表示二維的不同說話人的聲紋數據點分布圖,如圖1所示。其中橫軸代表第五維度,縱軸代表第6維度。
圖1 不同說話人的聲學矢量圖
對提取出的聲紋參數要進行矢量量化,對于有16個人的聲紋識別系統(tǒng),歐幾里德特征空間被這16人的特征碼本分成16個有重疊但是有良好的辨別度或者完全不重疊的空間區(qū)域,而每一個區(qū)域有一個碼本,這些碼本分別包含這16個人的不同聲紋參數。語音信號數據落入的區(qū)域會相應生成碼字,即語音信號的VQ碼本由表示人類聲道特征的若干個碼字矢量組成。那么將圖1所示的語音數據點訓練生成相應的VQ碼字如圖2所示。同樣橫軸代表第5維度,縱軸代表第6維度。
圖2 不同說話人訓練后的VQ碼字
本文采用自己錄制的語音數據,每人被要求在相同的環(huán)境下錄制10次語音數據,每次朗讀不同的漢語句子,前9次用于訓練,最后一次用于識別。實驗中,共采集16個不同人的聲音文件,男女各半,本實驗是與文本無關的說話人辨別,所以每人在環(huán)境相同的情況下隨意錄音3s。將所獲得的聲音文件按順序編號放到一個文件夾中,并依次對其訓練,建立一個簡單的語音庫。
實驗中由統(tǒng)計和應用兩部分組成。應用部分建立一個完整的聲紋識別系統(tǒng),可以實現(xiàn)提取上述MFCC參數和WPT參數,進行實時訓練和識別。統(tǒng)計部分利用完整的聲紋識別系統(tǒng)中已有的訓練好的聲音文件的特征參數的碼本,對所有測試語音文件相對應的某種參數的幀矢量集數據文件做統(tǒng)計,計算出識別率。即隨機抽取8個待測語音文件分別進行識別測試,每個聲音文件進行8次測試,按照式(15)算出識別率,再由式(16)求平均,求得識別率,得到的各情況的識別結果如表1所示。
(15)
(16)
表1 不同聲紋參數的識別率
表1給出了兩種不同幀長情況下,基于WPT參數的說話人識別結果。說明增加幀長可以提高識別率。這與前述的判斷一致,即增加幀長可以有效地消除說話內容對說話人聲紋的影響。同時表明,不同小波函數對聲紋參數識別率是有影響的。在選用的四個不同小波系中,db3小波的識別率相對最差,coif3小波的識別率最好。因此,在基于小波包變化的說話人識別中,小波系的選擇也是關鍵的一環(huán)。恰當地選擇小波系有助于提高識別率。
一幀語音信號的WPT參數與MFCC參數的對比圖如圖3所示??梢?6個參數中,只有前面約七、八個值比較明顯外,后面的值都非常小,趨于零,不利于刻畫說話人的特征。相反,16個WPT參數變化比較大,更有利于描述不同說話人的特征??梢奧PT參數特征相比于MFCC參數特征較好地表征了語音特征參量隨時間的變化動態(tài)特性,從而有利于提高識別率。
圖3 一幀語音信號的WPT參數與MFCC參數仿真對比圖
為更進一步驗證WPT參數的性能,再分別進行16維MFCC和參數WPT參數前10幀仿真實驗,如圖4所示。其中橫軸代表不同維參數,縱軸代表不同維參數所對應的值。由圖4可知,前10幀的MFCC參數第5、6、13維處等比較相似。眾所周知,特征參數越相似,聲紋識別系統(tǒng)在訓練與識別時,不同類別的特征參數的分類效率越高,有助于提高系統(tǒng)的識別率。相反,第2、3、7、9維參數的特征曲線有明顯的差異,那么這樣的MFCC參數不利于改善訓練與識別的效果。
明顯地發(fā)現(xiàn),通過與MFCC參數仿真圖對比,各幀之間WPT參數的形狀更相似,即表示的特征更接近。因此WPT參數,再結合表1所給出的統(tǒng)計結果驗證了上述結論,WPT參數用于說話人識別時要優(yōu)于MFCC參數。
(a)MFCC參數
(b)WPT參數
通過對傳統(tǒng)的聲紋特征參數MFCC的提取過程的分析研究再結合人類語音的動態(tài)特性,將小波包變換引入到聲紋參數提取中,即提取語音信號的新的特征參數WPT參數。對于文本無關的聲紋識別系統(tǒng),為了更突出說話人的聲紋特征,克服說話內容不同對提取聲紋參數的影響,在分幀階段采用加長幀。且對常用的幾種小波函數的識別率進行比較以選擇最優(yōu)基。在驗證識別率性能時將所提取到的參數分別應用到基于VQ矢量量化的聲紋識別系統(tǒng)中進行實驗。實驗結果表明,相對于常用的256點幀長,幀長為2560點的識別率較高且提高了運算速率。coif3小波函數為聲紋參數提取的最優(yōu)基。相對于傳統(tǒng)的MFCC參數,新聲紋參數WPT的識別率優(yōu)于傳統(tǒng)的MFCC參數。
[1]Glembek O,Burget L,Dehak N,et al.Comparison of scoring methods used in speakerrecongn-ition with joint factor analysis[C].In Proc.ICASSP,2009.
[2]D.Avic. An expert system for speaker identification using adaptive wavelet sure entropy[J].Expert System with Applications,2009,36(10):6295-6300.
[3]張萬里,劉橋.Mel頻率倒譜系數提取及其在聲紋識別中的作用[J].貴州大學學報,2005,22(2):207-210.
[4]Kajarekar. Phone-based cepstral polynomial SVM system for speakerrecognitiom[C].Procee-dings of Interspeech,2008.
[5]梁學章,何甲興,王新民,等.小波分析[M].北京:國防工業(yè)出版社,2004.
[6]劉雅琴,裘雪紅.應用小波包變換提取說話,人識別的特征參數[J].計算機工程與應用,2006,28(9):67-69.
[7]Azzam Sleit,Sami Serhan,Loai Nemir.A histogram based speaker identification technique[C].International Conference on ICADIWT,2008:384-388.
[8]Dehak R,Dehak N,Kenny P,et al.Kernel Combination for SVM Speaker Verification[C].In Odyssey Speaker and Language Recognition Workshop, 2008.
[9]邊肇祺,張學工.模式識別[M].北京:清華大學出版社,2000:305-314.
(責任編輯:馬金發(fā))
Voiceprint Parameters Extraction Based on Wavelet Packet Transform
MENG Hui1,MEI Tiemin1,ZHU Xiangrong2
(1.Shenyang Ligong University,Shenyang 110159,China;2.Zibo Mintong Heating Co.,Ltd,Zibo 255400,China)
In speaker recognition system,the voice parameters extraction is very important.The traditional MFCC parameter ignores the dynamic characteristics of speech signal,so a method is presented for extracting voice parameters based on wavelet packet transform.Text independent voice recognition system is to voice a more prominent feature of the speaker and overcomes the different speech content effects on the voiceprint parameters extraction.The frame length is adopted to increase effective voice for 2560 points in framing stage.And vector quantization (VQ) is combined with the speaker recognition experiment system,through the comparison of db3、db4、db6、coif3 wavelet function to choose the best basis.Experimental results show that frame length within 2560 points is higher and improves computing speed in comparison with common 256 point of the frame length.The optimal base coif3 wavelet function is taken as voiceprint parameter extraction.The MFCC parameter identification of the WPT parameters of the new rate is better than tradition one.
voiceprint parameter;wavelet transform;energy;vector quantization;speech signal
2014-11-05
孟慧(1989—),女,碩士研究生;通訊作者:梅鐵民(1964—),男,教授,研究方向:自適應信號處理.
1003-1251(2015)06-0077-06
TN911
A