韓志艷,王 健
(渤海大學(xué) 工學(xué)院,遼寧 錦州 121000)
基于共振峰曲線的語(yǔ)音信號(hào)動(dòng)態(tài)特征提取方法
韓志艷,王 健
(渤海大學(xué) 工學(xué)院,遼寧 錦州 121000)
為了提高噪音環(huán)境下語(yǔ)音識(shí)別的魯棒性,提出了一種基于共振峰曲線的語(yǔ)音信號(hào)動(dòng)態(tài)特征提取方法。采用基于Hilbert-Huang變換的方法來(lái)估算預(yù)處理后的語(yǔ)音信號(hào)共振峰頻率特征,然后按照從第一幀到最后一幀的幀序,將預(yù)處理后的每幀語(yǔ)音信號(hào)的第一共振峰頻率特征值進(jìn)行組合獲得第一共振峰曲線,依此類推,獲得第二共振峰曲線、第三共振峰曲線及第四共振峰曲線。對(duì)獲得的每條共振峰曲線進(jìn)行快速傅里葉變換獲得線性頻譜,然后再求取能量譜,計(jì)算對(duì)數(shù)能量和離散余弦變換。與MFCC方法相比,提取的語(yǔ)音信號(hào)動(dòng)態(tài)特征具有時(shí)間相關(guān)性,揭示了語(yǔ)音信號(hào)前后以及相鄰之間存在的密切關(guān)聯(lián),提高了語(yǔ)音識(shí)別的性能。
語(yǔ)音信號(hào);動(dòng)態(tài)特征;語(yǔ)音識(shí)別;特征提??;共振峰曲線
語(yǔ)音識(shí)別最基礎(chǔ)最重要的開(kāi)發(fā)環(huán)節(jié)是語(yǔ)音信號(hào)特征參數(shù)的提取。語(yǔ)音信號(hào)特征參數(shù)提取,即利用數(shù)學(xué)理論提取語(yǔ)音信號(hào)中所攜帶的有用信息,獲得一個(gè)矢量序列。R.K.Potter等[1]早在二十世紀(jì)四十年代就提出了“可視語(yǔ)音”的概念,指出語(yǔ)譜圖對(duì)語(yǔ)音信號(hào)有很強(qiáng)的描述能力,而且用語(yǔ)譜圖進(jìn)行了語(yǔ)音識(shí)別,即形成了最早的語(yǔ)音特征。到了五十年代,人們發(fā)現(xiàn)要想減少模板數(shù)目、運(yùn)算量、存儲(chǔ)量及提高識(shí)別率,就必須提取語(yǔ)音信號(hào)中能夠反映語(yǔ)音特性的某些參數(shù),濾除語(yǔ)音信號(hào)中的冗余信息,于是就出現(xiàn)了幅度特征、短時(shí)幀平均能量特征、短時(shí)幀過(guò)零率特征、短時(shí)自相關(guān)系數(shù)特征、平均幅度差函數(shù)特征等。但隨著語(yǔ)音識(shí)別技術(shù)的發(fā)展,發(fā)現(xiàn)無(wú)論從穩(wěn)定性還是區(qū)分能力,上述時(shí)域特征參數(shù)的表現(xiàn)都不是很好,于是開(kāi)始利用頻域特征參數(shù)進(jìn)行識(shí)別,比如基音周期[2]、共振峰頻率特征[3]、線性預(yù)測(cè)系數(shù)(LPC)特征[4]、線譜對(duì)(LSP)特征[5-6]、倒譜系數(shù)特征等[7]。目前基于全聲道全極點(diǎn)模型的線性預(yù)測(cè)倒譜系數(shù)(LPCC)[8-10]和基于人耳聽(tīng)覺(jué)模型的梅爾倒譜系數(shù)(MFCC)[11-14]應(yīng)用最為廣泛。
但上面所述的特征參數(shù)反映的都是語(yǔ)音信號(hào)的靜態(tài)特征,要使提取出的特征參數(shù)能更好地表達(dá)語(yǔ)音信號(hào),就必須提取動(dòng)態(tài)特征參數(shù),語(yǔ)音信號(hào)的動(dòng)態(tài)特性即為從連續(xù)幾幀語(yǔ)音信號(hào)中提取的特征參數(shù)。動(dòng)態(tài)特性是語(yǔ)音多樣性的一部分,它不同于平穩(wěn)的隨機(jī)過(guò)程,具有時(shí)間相關(guān)性,比如可以通過(guò)靜態(tài)特征的差分參數(shù)和加速度參數(shù)來(lái)獲取。但它們并不能將動(dòng)態(tài)信息挖掘得很充分,所以尚不能很好地反映語(yǔ)音信號(hào)的動(dòng)態(tài)特性。
因此,提出了一種基于共振峰曲線的語(yǔ)音信號(hào)動(dòng)態(tài)特征提取方法,構(gòu)成的共振峰曲線具有時(shí)間相關(guān)性,揭示了語(yǔ)音信號(hào)前后以及相鄰之間存在的密切關(guān)聯(lián)。其中采用基于Hibert-Huang變換方法來(lái)估算預(yù)處理后的語(yǔ)音信號(hào)共振峰頻率特征,其中用經(jīng)驗(yàn)?zāi)B(tài)分解法(EMD)將信號(hào)分解成一組含有不同尺度的固有模態(tài)函數(shù)(IMF)分量,經(jīng)分解得到的每一個(gè)IMF分量都代表了一個(gè)頻率成分,這些頻率成分可以有效突出信號(hào)的局部特性和細(xì)節(jié)變化,有助于快速有效地掌握信號(hào)的動(dòng)態(tài)特征。
因此,語(yǔ)音特征的動(dòng)態(tài)變化,可以通過(guò)動(dòng)態(tài)特性來(lái)描述,而研究語(yǔ)音信號(hào)的動(dòng)態(tài)特性,也是匹配新的語(yǔ)音動(dòng)態(tài)模型、提高語(yǔ)音輔助工程性能的必然趨勢(shì)。
在語(yǔ)音識(shí)別技術(shù)應(yīng)用領(lǐng)域,共振峰特征參數(shù)是重要的聲學(xué)特征參數(shù)之一。長(zhǎng)期以來(lái)該參數(shù)的提取都是基于人的發(fā)聲系統(tǒng)是線性的和語(yǔ)音信號(hào)是短時(shí)平穩(wěn)的兩個(gè)基本假設(shè)。隨著對(duì)語(yǔ)音發(fā)聲機(jī)理的深入研究,發(fā)現(xiàn)在語(yǔ)音產(chǎn)生過(guò)程中存在著非線性,因此傳統(tǒng)的線性共振峰特征參數(shù)估計(jì)方法的準(zhǔn)確性就會(huì)受到影響[15]。另一方面,由于傳統(tǒng)分析方法建立在短時(shí)平穩(wěn)的假設(shè)上,對(duì)快速變化的共振峰特征參數(shù)的提取無(wú)能為力。所以研究者們?cè)絹?lái)越重視對(duì)隨時(shí)間快速變化的動(dòng)態(tài)信息的提取。
近年來(lái),盡管也提出了一些新的參數(shù)提取方法,如逆濾波器法[16]和頻域線性預(yù)測(cè)算法等[17],但這些方法都只是在算法和處理方法上進(jìn)行改進(jìn),本質(zhì)上仍屬于線性分析方法的范疇,而且分析計(jì)算過(guò)程復(fù)雜,需要根據(jù)主觀經(jīng)驗(yàn)來(lái)調(diào)整參數(shù)。文中采用一種基于Hilbert-Huang變換(Hilbert-Huang Transform,HHT)的適用于非平穩(wěn)、非線性信號(hào)處理,具有自適應(yīng)特性的時(shí)間-頻率分析新方法。
HHT包括2個(gè)基本步驟:第一步是經(jīng)驗(yàn)?zāi)B(tài)分解(Empirical Mode Decomposition,EMD),它的核心是“篩選”,即從被分析信號(hào)中提取一族固有模態(tài)函數(shù)(Intrinsic Mode Function,IMF);第二步是計(jì)算信號(hào)的Hilbert譜(Hilbert Spectrum),將每個(gè)IMF與它的Hilbert變換構(gòu)成一個(gè)復(fù)解析函數(shù),并由此導(dǎo)出作為時(shí)域函數(shù)的瞬時(shí)幅值(能量)和瞬時(shí)頻率。
通過(guò)EMD得到的每個(gè)IMF滿足兩個(gè)條件:
(1)在整個(gè)序列上,極值點(diǎn)個(gè)數(shù)和過(guò)零點(diǎn)個(gè)數(shù)相等或至多相差一個(gè);
(2)分別連接其各局部極大值和局部極小值所形成的上、下2條包絡(luò)線的均值在任一點(diǎn)處為零。
分解后得到信號(hào)x(t)的n個(gè)IMF分量c1(t),c2(t),…,cn(t)和剩余項(xiàng)rn(t),即有:
(1)
對(duì)每個(gè)ci(t),i=1,2,…,n,求其Hilbert變換di(t),然后計(jì)算相應(yīng)的瞬時(shí)頻率ωi(t)和幅值ai(t):
ωi(t)=dθi(t)/dt
(2)
(3)
其中,θi(t)為瞬時(shí)相位。
θi(t)=arctan[di(t)/ci(t)]
(4)
根據(jù)每個(gè)IMF的瞬時(shí)頻率和幅值,可將信號(hào)表示為:
(5)
由于rn(t)不是一個(gè)常數(shù)就是一個(gè)單調(diào)函數(shù),對(duì)信號(hào)分析和信息提取沒(méi)有實(shí)質(zhì)性的影響,所以式(5)中略去了式(1)中的剩余項(xiàng)。在時(shí)間-頻率面上畫出每個(gè)IMF以其幅值加權(quán)的瞬時(shí)頻率曲線,這個(gè)時(shí)間-頻率分布譜圖就是Hilbert譜,記為H(ω,t)。
當(dāng)采用HHT方法估計(jì)語(yǔ)音信號(hào)的共振峰頻率時(shí),為了避免和抑制各個(gè)共振峰分量在EMD過(guò)程中產(chǎn)生互相干擾,需要事先對(duì)各個(gè)共振峰分量進(jìn)行分離,對(duì)分離后的各個(gè)共振峰分量作EMD,最后求出相應(yīng)的共振峰頻率及其隨時(shí)間的變化曲線。
動(dòng)態(tài)特征提取流程如圖1所示。
其具體步驟如下:
步驟1:利用麥克風(fēng)輸入語(yǔ)音數(shù)據(jù),然后以11.025 kHz的采樣頻率、16 bit的量化精度進(jìn)行采樣量化,獲得相應(yīng)的語(yǔ)音信號(hào)。然后利用一階數(shù)字預(yù)加重濾波器對(duì)獲取的語(yǔ)音信號(hào)進(jìn)行預(yù)加重處理,其中預(yù)加重濾波器的系數(shù)取值范圍為0.93~0.97。接下來(lái)以幀長(zhǎng)256點(diǎn)的標(biāo)準(zhǔn)進(jìn)行分幀處理,并對(duì)分幀后的語(yǔ)音信號(hào)加漢明窗,再利用短時(shí)能零積法進(jìn)行端點(diǎn)檢測(cè)。短時(shí)能零積方法如下:
短時(shí)能量與相應(yīng)的短時(shí)過(guò)零率之積稱為短時(shí)能零積,每一幀的短時(shí)能量En和短時(shí)過(guò)零率Zn以及短時(shí)能零積EZn的定義分別為:
(6)
(7)
EZn=En*Zn
(8)
其中,n為語(yǔ)音信號(hào)的第n幀;N為每一幀的長(zhǎng)度;sw(k)為加窗語(yǔ)音信號(hào)。
用短時(shí)能零積法進(jìn)行語(yǔ)音端點(diǎn)檢測(cè)的步驟如下:
(1)確定噪聲的門限閾值。
無(wú)音片段主要包括的是背景噪聲,由于錄音開(kāi)始階段往往有一段無(wú)音區(qū),所以在實(shí)驗(yàn)室環(huán)境下通常取最開(kāi)始的5幀信號(hào)作為背景噪聲的分析,對(duì)這5幀信號(hào)按式(6)和式(7)分別按幀計(jì)算En和Zn,并按式(8)計(jì)算EZn,通過(guò)多幀平均,就得到了平均短時(shí)能零積EZ,并按照式(9)確定噪聲的門限閾值TH。
TH=k×EZ
(9)
其中,k為經(jīng)驗(yàn)值,通常取1.2。
圖1 動(dòng)態(tài)特征提取流程圖
(2)利用短時(shí)能零積進(jìn)行語(yǔ)音端點(diǎn)檢測(cè)。
計(jì)算每幀錄音信號(hào)的短時(shí)能零積EZn,與噪聲的門限閾值TH做比較。EZn大于TH,就以該幀的幀號(hào)作為有音片段的起點(diǎn)N1,表明進(jìn)入了有音片段。如果由過(guò)去幀已經(jīng)得到了N1,那么當(dāng)EZn小于TH時(shí),就以該幀的幀號(hào)作為有音片段的終點(diǎn)N1。相反,如果N1還未得到,那么當(dāng)EZn小于TH時(shí),表明當(dāng)前幀仍處于無(wú)音片段。
步驟2:計(jì)算共振峰頻率特征參數(shù),其中獲得的每幀語(yǔ)音信號(hào)的第一共振峰特征值為F1、第二共振峰特征值為F2、第三共振峰特征值為F3和第四共振峰特征值為F4。
步驟3:構(gòu)成共振峰曲線。具體為:
(1)按照從第一幀到最后一幀的幀序,將預(yù)處理后的每幀語(yǔ)音信號(hào)的第一共振峰頻率特征值F1進(jìn)行組合,獲得第一共振峰曲線x1(n),n=0,1,…,N-1,N為語(yǔ)音信號(hào)的幀數(shù);
(2)按照從第一幀到最后一幀的幀序,將預(yù)處理后的每幀語(yǔ)音信號(hào)的第二共振峰頻率特征值F2進(jìn)行組合,獲得第二共振峰曲線x2(n);
(3)按照從第一幀到最后一幀的幀序,將預(yù)處理后的每幀語(yǔ)音信號(hào)的第三共振峰頻率特征值F3進(jìn)行組合,獲得第三共振峰曲線x3(n);
(4)按照從第一幀到最后一幀的幀序,將預(yù)處理后的每幀語(yǔ)音信號(hào)的第四共振峰頻率特征值F4進(jìn)行組合,獲得第四共振峰曲線x4(n)。
步驟4:對(duì)獲得的第一、第二、第三和第四共振峰曲線進(jìn)行快速傅里葉變換,獲得每條共振峰曲線的線性頻譜。
(10)
其中,Xi(k)表示第i條共振峰曲線進(jìn)行快速傅里葉變換后得到的線性頻譜,i=1,2,3,4,k=0,1,…,N-1,N為語(yǔ)音信號(hào)的幀數(shù);xi(n)表示第i條共振峰曲線。
步驟5:根據(jù)線性頻譜獲得每條共振峰曲線的能量譜。即取上述線性頻譜Xi(k)模的平方來(lái)獲得相應(yīng)的能量譜Si(k):
(11)
步驟6:根據(jù)能量譜獲得每條共振峰曲線的對(duì)數(shù)能量。即為了使結(jié)果對(duì)噪聲有更好的魯棒性,將獲得的能量譜Si(k)取對(duì)數(shù),即可獲得對(duì)數(shù)能量Li(k):
Li(k)=log(Si(k))
(12)
步驟7:對(duì)上述對(duì)數(shù)能量進(jìn)行離散余弦變換,獲得倒頻譜域,即獲得語(yǔ)音信號(hào)動(dòng)態(tài)特征參數(shù):
(13)
其中,Ci(t)表示第i條共振峰曲線的動(dòng)態(tài)特征參數(shù),i=1,2,3,4;t=1,2,…,T,T表示設(shè)定的倒譜系數(shù)個(gè)數(shù),取值范圍為12~16。
采用50個(gè)典型的漢語(yǔ)詞匯進(jìn)行實(shí)驗(yàn)。由于考慮識(shí)別系統(tǒng)容易受環(huán)境噪聲、信道變化和說(shuō)話人變化等因素的影響,因此,訓(xùn)練集采用安靜環(huán)境下的語(yǔ)音數(shù)據(jù),而測(cè)試集采用含有噪聲的數(shù)據(jù)。
為了驗(yàn)證該特征參數(shù)對(duì)不同說(shuō)話人變化的魯棒性,訓(xùn)練集數(shù)據(jù)由前后兩次錄成,共50人,每人每詞發(fā)音一遍,共獲得5 000個(gè)數(shù)據(jù),測(cè)試集數(shù)據(jù)也是分兩次錄成,共30人,每人每詞發(fā)音一遍,共3 000個(gè)數(shù)據(jù);為了驗(yàn)證該特征參數(shù)對(duì)不同信道變化的魯棒性,每次使用不同的麥克風(fēng)來(lái)錄音;為了驗(yàn)證該特征參數(shù)對(duì)不同環(huán)境噪聲變化的魯棒性,在測(cè)試集的每個(gè)語(yǔ)音中手工加入四種噪聲,包括:白噪聲、粉噪聲、街道噪聲、坦克噪聲,構(gòu)成信噪比為15 dB,10 dB,5 dB,0 dB,-5 dB的含噪語(yǔ)音信號(hào)。采用基于遺傳算法改進(jìn)的小波神經(jīng)網(wǎng)絡(luò)作為分類器[18-19]。圖2~5為采用與文中算法相同條件的MFCC方法和文中方法分別在白噪聲、粉噪聲、街道噪聲和坦克噪聲干擾下的系統(tǒng)識(shí)別性能曲線。
圖2 白噪聲環(huán)境下的系統(tǒng)識(shí)別性能曲線
圖3 粉噪聲環(huán)境下的系統(tǒng)識(shí)別性能曲線
圖4 街道噪聲環(huán)境下的系統(tǒng)識(shí)別性能曲線
圖5 坦克噪聲環(huán)境下的系統(tǒng)識(shí)別性能曲線
從圖中可以看出,在信噪比較低時(shí),文中方法與MFCC方法相比識(shí)別率提高了很多。這是因?yàn)槲闹蟹椒?gòu)成的共振峰曲線具有時(shí)間相關(guān)性,揭示了語(yǔ)音信號(hào)前后以及相鄰之間存在著密切關(guān)聯(lián),這一特性,使得在強(qiáng)噪聲環(huán)境下應(yīng)用語(yǔ)音識(shí)別技術(shù)成為了可能。
文中提取的語(yǔ)音信號(hào)動(dòng)態(tài)特征,采用基于Hibert-Huang變換的方法來(lái)估算預(yù)處理后的語(yǔ)音信號(hào)共振峰頻率特征,其中用EMD將信號(hào)分解成一組含有不同尺度的IMF分量,經(jīng)分解得到的每一個(gè)IMF分量都代表了一個(gè)頻率成分,這些頻率成分可以有效突出信號(hào)的局部特性和細(xì)節(jié)變化,有助于快速有效地掌握信號(hào)的動(dòng)態(tài)特征。相比于傳統(tǒng)的MFCC方法,大大提高了語(yǔ)音識(shí)別的性能。但是語(yǔ)音信號(hào)的某一特征中一般只包含部分語(yǔ)音信息,所以采用動(dòng)靜態(tài)特征參數(shù)的組合,這樣動(dòng)態(tài)信息和靜態(tài)信息形成了互補(bǔ),當(dāng)各組合參數(shù)間相關(guān)性不大時(shí),會(huì)有很好的效果。
[1] Potter R K,Kopp G A,Green H C.Visible speech[M].New York:Van Nostrand,1947.
[2] 趙瑞珍,宋國(guó)鄉(xiāng).基音檢測(cè)的小波快速算法[J].電子科技,1998,43(1):16-19.
[3] 黃 海,陳祥獻(xiàn).基于Hilbert-Huang變換的語(yǔ)音信號(hào)共振峰頻率估計(jì)[J].浙江大學(xué)學(xué)報(bào):工學(xué)版,2006,40(11):1926-1930.
[4] Christensen R L,Sreong W J,Palmer E P.A comparison of three methods of extracting resonance information from predictor coefficient coded speech[J].IEEE Transactions on Acoustics,Speech and Signal Processing,1976,24(1):8-14.
[5] Girin L. Joint matrix quantization of face parameters and LPC coefficients for low bit rate audiovisual speech[J].IEEE Transactions on Speech and Audio Processing,2004,12(3):265-276.
[6] Trentin E, Gori M. Robust combination of neural networks and hidden Markov models for speech recognition[J].IEEE Transactions on Neural Networks,2003,14(6):1519-1531.
[7] Hong K K,Rose R C.Cepstrum-domain model combination based on decomposition of speech and noise for noisy speech recognition[C]//IEEE international conference on acoustics,speech,and signal processing.[s.l.]:IEEE,2002:209-212.
[8] Songhita M,Tusharkanti D,Partha S,et al.Comparison of MFCC and LPCC for a fixed phrase speaker verification system,time complexity and failure analysis[C]//International conference on circuit,power and computing technologies.[s.l.]:[s.n.],2015:1-4.
[9] Yuan Y J,Zhao P H,Zhou Q.Research of speaker recognition based on combination of LPCC and MFCC[C]//International conference on intelligent computing and intelligent system.[s.l.]:[s.n.],2010:765-767.
[10] Zhu J C,Liu Z L.Analysis of hybrid feature research based on extraction LPCC and MFCC[C]//10th international conference on computational intelligence and security.[s.l.]:[s.n.],2014:732-735.
[11] Kopparapu S K,Laxminarayana M.Choice of Mel filter bank in computing MFCC of a resampled speech[C]//10th international conference on information sciences signal processing and their applications.[s.l.]:[s.n.],2010:121-124.
[12] 周 萍,李曉盼,李 杰,等.混合MFCC特征參數(shù)應(yīng)用于語(yǔ)音情感識(shí)別[J].計(jì)算機(jī)測(cè)量與控制,2013,21(7):1966-1968.
[13] 龐 程,李曉飛,劉 宏.基于MFCC與基頻特征貢獻(xiàn)度識(shí)別說(shuō)話人性別[J].華中科技大學(xué)學(xué)報(bào):自然科學(xué)版,2013(S1):108-111.
[14] 沈 燕,肖仲喆,李冰潔,等.采用GW-MFCC模型空間參數(shù)的語(yǔ)音情感識(shí)別[J].計(jì)算機(jī)工程與應(yīng)用,2015,51(10):219-222.
[15] 張家騄.論語(yǔ)音技術(shù)的發(fā)展[J].聲學(xué)學(xué)報(bào),2004,29(3):193-199.
[16] Watanabe A.Formant estimation method using inverse-filter control[J].IEEE Transactions on Audio Processing,2001,9(4):317-326.
[17] Rao P,Barman A D.Speech formant frequency estimation: evaluating a nonstationary analysis method[J].Signal Processing,2000,80(8):1655-1667.
[18] 韓志艷,倫淑嫻,王 健.基于遺傳小波神經(jīng)網(wǎng)絡(luò)的語(yǔ)音情感識(shí)別[J].計(jì)算機(jī)技術(shù)與發(fā)展,2013,23(1):75-78.
[19] 韓志艷,倫淑嫻,王 健.語(yǔ)音信號(hào)魯棒特征提取及可視化技術(shù)研究[M].沈陽(yáng):東北大學(xué)出版社,2012.
Dynamic Feature Extraction for Speech Signal Based on Formant Curve
HAN Zhi-yan,WANG Jian
(College of Engineering,Bohai University,Jinzhou 121000,China)
In order to improve the robustness of speech recognition in noise environment,a dynamic feature extraction for speech signal based on formant curve is put forward.It uses Hilbert-Huang transform to estimate speech signal formant frequency characteristics after preprocessing,and then gets the first formant curve by combining the first formant frequency characteristics of each frame from the first frame to the last frame,and so forth,gets the second,the third and the fourth formant curve.And then takes Fast Fourier Transform for each formant curve to obtain linear spectrum,and calculates the energy spectrum,logarithmic energy and discrete cosine transform.Compared with the method of MFCC,the proposed dynamic feature of speech signal has the time correlation,revealing the close correlation between the speech signal frames,improving the performance of speech recognition.
speech signal;dynamic feature;speech recognition;feature extraction;formant curve
2016-07-29
2016-11-03 網(wǎng)絡(luò)出版時(shí)間:2017-04-28
國(guó)家自然科學(xué)基金資助項(xiàng)目(61403042,61503038);遼寧省教育科研項(xiàng)目(L2013423)
韓志艷(1982-),女,博士,副教授,研究方向?yàn)檎Z(yǔ)音識(shí)別、情感識(shí)別。
http://kns.cnki.net/kcms/detail/61.1450.TP.20170428.1704.084.html
TP391.4
A
1673-629X(2017)06-0072-04
10.3969/j.issn.1673-629X.2017.06.015