云南機電職業(yè)技術(shù)學(xué)院 陳瑤玲
語音信號不僅可以傳遞語義信息,還可以傳遞語種信息,說明語音信號中包含了語種信息特征,語種識別的特征參數(shù)提取就是利用數(shù)字信號處理的方法,從語音信號中把這些特征參數(shù)提取出來,以實現(xiàn)語種識別。在語種識別中對特征參數(shù)的要求是:(l)能有效地代表各語種特征,具有很好的區(qū)分性;(2)各階參數(shù)之間具有良好的獨立性和魯棒性;(3)特征參數(shù)的計算要簡單方便,要可以擁有高效的計算方法,用以保證語種識別算法的快速實現(xiàn)。在本文中,主要介紹美爾頻率倒譜系數(shù)(Mel Frequency Cepstral Coefficients,MFCC)、線性預(yù)測倒譜系數(shù)(LPCC)、第一共振峰(F1)、基音頻率(F0)、短時能量(En)、韻律節(jié)奏等6種聲學(xué)特征參數(shù)及其派生參數(shù)。
美爾頻率倒譜系數(shù)(Mel Frequency Cepstral Coefficients,MFCC)[1]考慮了人耳的感知頻率以及音強時具有的非線性特性,被認為具有良好的語音識別性能和抗噪聲能力,現(xiàn)在已被廣泛的應(yīng)用于語種識別和說話人識別中。
線性預(yù)測倒譜參數(shù)(LPCC)已被廣泛地應(yīng)用在語音識別上[2]。由于倒頻譜(Cepstrum)具有將頻譜上的高低頻分開的優(yōu)點,所以只要取前面幾項參數(shù),就可以代表語音信號的特性,使得識別率提高,線性預(yù)測倒譜參數(shù)就是屬于倒頻域上的語音特征。
第一共振峰代表了發(fā)音信息的直接來源,是反映聲道特性的重要參數(shù),人在語音感知中也利用了共振峰信息。一般認為共振峰信息包含在語音頻譜包絡(luò)中,譜包絡(luò)中的最大值就是共振峰。
線性預(yù)測分析可以導(dǎo)出聲道濾波器,根據(jù)聲道濾波器就可以找出共振峰。一般來說,共振峰采用基于線性預(yù)測的方法估計頻譜包絡(luò)。
用來反映語音激勵源參數(shù)的叫基音頻率,對于像漢語這樣有聲調(diào)的語言,基音頻率是語音信號中非常重要的參數(shù)。發(fā)濁音時聲帶振動的周期性稱為基音周期,基音頻率就是基音周期的倒數(shù)。因為基音周期的準周期性,可以采用基音檢測 (Pitch detection)的方法來計算基音周期,而實際上這就是一種進行短時平均的方法,基音頻率就是這個參數(shù)的倒數(shù)?;纛l率是重要的超音段特征。
要計算基音頻率,基音檢測是一個需要重點研究的課題?;魴z測主要分為預(yù)處理、自相關(guān)基音檢測、基音檢測后處理等部分。然而迄今為止,雖然提出了許多種基音檢測的方法,但這些方法都存在它們的局限性,至今尚未找到一個可以適用于不同語種、不同環(huán)境的基音檢測方法。
短時能量首先可以用來區(qū)分清音和濁音,語音信號中濁音部分的能量要遠遠大于清音部分的能量,在語音信號中進行短時能量分析,主要是用來描述語音幅度及能量的變化。處理語音信號時,短時能量一般采用一維參數(shù)來描述語音信號能量的大小以及超音段的信息。
在自然語音中,人們利用重音,節(jié)奏和語調(diào)等方式來表達情感和意義,這些特征是自然語音的重要組成部分。
重音,節(jié)奏和語調(diào)這些特征是通過特征頻率,音強,音高,音長的變化而表現(xiàn)出來的,因此韻律節(jié)奏參數(shù)的提取是把每個語種識別的語句音節(jié)數(shù)與語句發(fā)音時間的比值作為語速特征參數(shù),統(tǒng)計每個語句中有聲段和無聲段的比例,得到2維的韻律特征參數(shù)集。
根據(jù)以往實驗結(jié)果可以看出,基音頻率應(yīng)用在語種識別中的一個較優(yōu)越的特征。這也和以往的很多相關(guān)的研究是吻合的[3][4],基音頻率(F0)是語種識別中區(qū)分效果最好的一類特征,它在不同語種之間的差異性最好。實驗結(jié)果也表明,MFCC參數(shù)的識別效果也不錯,這也是因為MFCC參數(shù)表現(xiàn)的是語音的頻譜信息,而頻譜信息的變化對語種識別的貢獻比較大。短時能量(En)和第一共振峰(F1)在實驗中也有不錯的表現(xiàn),它們的識別效果相近,也可以選作進行語種識別的特征。韻律節(jié)奏的識別率最低,說明韻律節(jié)奏是所采用的特征中用于語種識別最不適合的特征參數(shù)。
[1]徐翔俊,畢福昆,楊鑒.基于支持向量機的民族語口音識別[J].計算機工程與應(yīng)用,2008,44(13),pp.71-73.
[2]M Sugiyama. Automatic Language Recognition Using Acoustic Features. International Conference on Acousti[C].Speech and Signal Proeessing.Toronto,1991,pp.423-430.
[3]徐永華,楊鑒,陳江,陳瑤玲.一個面向少數(shù)民族語種識別的電話語音數(shù)據(jù)庫[J].第十屆全國人機語音通訊學(xué)術(shù)會議,蘭州,2009,pp.54-57.
[4]S Yildirimeral,An acoustic study of emotions expressed in speech[C].ICSLP-2004,2004,pp.2193-2196.