• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于HMM和匹配追蹤的多參數(shù)語(yǔ)音識(shí)別

    2013-01-26 03:20:40無(wú)錫機(jī)電高等職業(yè)技術(shù)學(xué)校自動(dòng)化工程系
    電子世界 2013年19期
    關(guān)鍵詞:余弦時(shí)頻特征參數(shù)

    無(wú)錫機(jī)電高等職業(yè)技術(shù)學(xué)校自動(dòng)化工程系 郭 昕

    1.引言

    語(yǔ)音識(shí)別的研究工作始于20世紀(jì)50年代,1952年Bell實(shí)驗(yàn)室開(kāi)發(fā)的Audry系統(tǒng)是第一個(gè)可以識(shí)別10個(gè)英文數(shù)字的語(yǔ)音識(shí)別系統(tǒng)。隱馬爾可夫模型是20世紀(jì)70年代引入語(yǔ)音識(shí)別理論的,它的出現(xiàn)使得自然語(yǔ)音識(shí)別系統(tǒng)取得了實(shí)質(zhì)性的突破。目前大多數(shù)連續(xù)語(yǔ)音的非特定人語(yǔ)音識(shí)別系統(tǒng)都是基于HMM模型的。[1]

    一般來(lái)說(shuō),語(yǔ)音識(shí)別的方法有三種:基于聲道模型和語(yǔ)音知識(shí)的方法、模板匹配的方法以及利用人工神經(jīng)網(wǎng)絡(luò)的方法。語(yǔ)音識(shí)別一個(gè)根本的問(wèn)題是合理的選用特征。特征參數(shù)提取的目的是對(duì)語(yǔ)音信號(hào)進(jìn)行分析處理,去掉與語(yǔ)音識(shí)別無(wú)關(guān)的冗余信息,獲得影響語(yǔ)音識(shí)別的重要信息,同時(shí)對(duì)語(yǔ)音信號(hào)進(jìn)行壓縮。非特定人語(yǔ)音識(shí)別系統(tǒng)一般側(cè)重提取反映語(yǔ)義的特征參數(shù),盡量去除說(shuō)話人的個(gè)人信息;而特定人語(yǔ)音識(shí)別系統(tǒng)則希望在提取反映語(yǔ)義的特征參數(shù)的同時(shí),盡量也包含說(shuō)話人的個(gè)人信息。

    而隨著時(shí)頻技術(shù)的研究發(fā)展,使人們?cè)谶M(jìn)行信號(hào)處理時(shí),可以將語(yǔ)音信號(hào)分解在一組完備的正交基上。從而,語(yǔ)音信號(hào)的能量在分解以后將分散分布在不同的基上。但是,語(yǔ)音信號(hào)是一種典型的非平穩(wěn)信號(hào),其性質(zhì)隨時(shí)間快速變化,在兩個(gè)不同的時(shí)間瞬間,在同一個(gè)頻率鄰域內(nèi),信號(hào)可以有完全不同的能量分布。因此,有必要找到一種精確表示語(yǔ)音信號(hào)時(shí)頻結(jié)構(gòu),便于特征提取的方法。[2]

    立足于此,本文提出,通過(guò)平移窗口,用余弦基乘以窗口函數(shù),構(gòu)造出局部余弦基,分離不同時(shí)間區(qū)間,很適合于逼近語(yǔ)音信號(hào)。本文使用這種具有活動(dòng)窗口特性的局部余弦基表示語(yǔ)音信號(hào)。為了減少計(jì)算量,并進(jìn)一步提高局部余弦基原子時(shí)頻分布的分辨率,采用匹配追蹤(MP)算法分解信號(hào),并結(jié)合時(shí)頻分析技術(shù)得到最優(yōu)局部余弦基原子的魏格納-維利分布(WVD)[2],從而得到信號(hào)精確的時(shí)頻結(jié)構(gòu)[3],進(jìn)行特征提取。此外,結(jié)合語(yǔ)音信號(hào)的美爾頻率倒譜系數(shù)(MFCC)一起作為該信號(hào)的特征向量,通過(guò)隱馬爾科夫(HMM)模型進(jìn)行識(shí)別。實(shí)驗(yàn)證明。這種多參數(shù)語(yǔ)音識(shí)別算法提高了識(shí)別的準(zhǔn)確度和速度。

    2.局部余弦基建模

    通過(guò)光滑地劃分時(shí)間序列為任意長(zhǎng)度的子區(qū)間 [a p,ap+1](如圖1),可使每一個(gè)時(shí)間段分別由重疊正交基表示,而整個(gè)時(shí)間序列的基函數(shù)又構(gòu)成時(shí)頻平面的正交鋪疊,因此局部余弦變換對(duì)在不同時(shí)間段有不同的波形的語(yǔ)音信號(hào)有很強(qiáng)的針對(duì)性。

    圖1 重疊窗口劃分時(shí)間軸Figure1 lapped window divides time axis

    圖1中g(shù) p(t)為重疊窗口函數(shù)[3]:

    式中β為單調(diào)遞增的輪廓函數(shù),定義為[3]:

    局部余弦函數(shù)族構(gòu)成了實(shí)數(shù)軸上平方可積函數(shù)空間的規(guī)范正交基:

    式中l(wèi)p為窗口支集伸縮參數(shù);ap為第P段時(shí)間起點(diǎn);n(0 ≤n≤lp)表示正交基序列號(hào)。

    語(yǔ)音信號(hào)可表示為:

    gγn(t)是余弦基原子,γ=(a p,lp,η)。其中ap是窗口支集邊界參數(shù),lp為窗口支集伸縮參數(shù),η是輪廓函數(shù)β的尺度參數(shù),這保證了窗口支集只與相鄰的具有適當(dāng)對(duì)稱(chēng)性的窗口重合,達(dá)到局部余弦基精確覆蓋整個(gè)時(shí)頻平面的目的。

    3.匹配追蹤法選取最佳基

    由Mallat和Zhang引入的匹配追蹤算法運(yùn)用貪婪技巧減少了計(jì)算的復(fù)雜性。它從局部余弦基構(gòu)成的冗余字典中一個(gè)一個(gè)挑選向量,每一步都使信號(hào)的逼近更為優(yōu)化。

    MP算法將信號(hào)分解成一簇時(shí)頻原子的線性表達(dá),這些原子選自高冗余度的函數(shù)字典中,且最好地符合f(t) 內(nèi)在結(jié)構(gòu)。假設(shè)函數(shù)集是Hilbert空間中一個(gè)完備字典滿(mǎn)足,最優(yōu)的M階近似為:

    設(shè)由M個(gè)時(shí)頻函數(shù)近似的信號(hào)與f(t) 的誤差ε最小,ε表達(dá)式如下:

    其中{γi}i=0...M代表所選函數(shù)gγi的索引。

    首先按照某個(gè)選擇函數(shù)(與f(t) 的內(nèi)積最大)逐個(gè)挑選出時(shí)頻函數(shù)g0γ,f(t) 分解為:,設(shè)初始輸入信號(hào)f(t)為初始?xì)埐钚盘?hào)R0f,Rf表示f(t)在gγ0方向上近似后的冗余部分。

    假設(shè)已有M

    R f表示經(jīng)過(guò)前M-1次迭代后,f(t)中未表達(dá)部分:選定為最匹配R Mf的時(shí)頻函數(shù),R Mf按如下公式分解為:

    由于每步中R M+1f與gri正交,如果字典是完備的,則迭代收斂于f,滿(mǎn)足:

    這樣,可估算出(4)式中局部余弦基原子的參數(shù)bn=<R Mf,gγi>。

    文獻(xiàn)[4]中提出,選出最匹配信號(hào)的基,對(duì)每一個(gè)基求出其WVD分布,信號(hào)f(t) 的WVD分布就表示其最優(yōu)基的WVD的線性組合,這樣就消除了交叉項(xiàng)的影響。由此得到f(t) 的WVD分布:

    WVDgγn(t,w)是局部余弦基字典中被選中的最優(yōu)基的WVD分布。將等式左邊第二項(xiàng)交叉項(xiàng)組合去除,這樣在時(shí)頻面上就得到了干凈的時(shí)頻表示:

    在語(yǔ)音信號(hào)稀疏分解過(guò)程中,每步分解都要從過(guò)完備原子庫(kù)中選出與待分解語(yǔ)音信號(hào)f(t)或語(yǔ)音信號(hào)分解殘余R Mf最為匹配的原子gγi,原子是由參數(shù)γ=(a p,lp,η)公式(4)決定的。因此語(yǔ)音信號(hào)稀疏分解所得原子的 參數(shù)γ=(a p,lp,η)可作為語(yǔ) 音信 號(hào)的 特征。此外,根據(jù)公式(10),使用匹配追蹤法選取的最佳基的WVD分布Es,含有該語(yǔ)音信號(hào)重要且獨(dú)特的信息,也可作為該語(yǔ)音信號(hào)的特征。

    4.基于HMM的語(yǔ)音識(shí)別算法

    特征提取基于語(yǔ)音幀,即將語(yǔ)音信號(hào)分為有重疊的若干幀,對(duì)每一幀提取一次語(yǔ)音特片。由于語(yǔ)音特征的短時(shí)平穩(wěn)性,幀長(zhǎng)一般選取20ms左右。在分幀時(shí),前一幀和后一幀的一部分是重疊的,用來(lái)體現(xiàn)相鄰兩幀數(shù)據(jù)之間的相關(guān)性,通常幀移為幀長(zhǎng)1/2。本文為了方便做MP,采用的幀長(zhǎng)為512點(diǎn)(32ms),幀移為256點(diǎn)(16ms)。特征的選擇需要綜合考慮存儲(chǔ)量的限制和識(shí)別性能的要求。通常的語(yǔ)音識(shí)別系統(tǒng)使用24維特征矢量,包括12維MFCC和12維一階差分MFCC。本文提出的多參數(shù)語(yǔ)音識(shí)別算法,在此基礎(chǔ)上增加了原子參數(shù)γ=(a p,lp,η)公式(4)和最佳基的WVD分布Es公式(10),這兩維特征,構(gòu)成26維特征矢量。對(duì)MFCC和語(yǔ)音信號(hào)能量的WVD分布Es分別使用了倒譜均值減CMS(Cepstrum Mean Subtraction)和能量歸一化ENM(Energy Normalization)的處理方法提高特征的穩(wěn)健性[5]。

    在HMM模型中,首先定義了一系列有限的狀態(tài)S1,…,SN,系統(tǒng)在每一個(gè)離散時(shí)刻n只能處在這些狀態(tài)當(dāng)中的某一個(gè)Xn。在時(shí)間起點(diǎn)n=0時(shí)刻,系統(tǒng)依初始概率矢量π處在某一個(gè)狀態(tài)中,即:

    以后的每一個(gè)時(shí)刻n,系統(tǒng)所處的狀態(tài)Xn僅與前一時(shí)刻系統(tǒng)的狀態(tài)有關(guān),并且依轉(zhuǎn)移概率矩陣A跳轉(zhuǎn),即:

    系統(tǒng)在任何時(shí)刻n所處的狀態(tài)Xn隱藏在系統(tǒng)內(nèi)部,并不為外界所見(jiàn),外界只能得到系統(tǒng)在該狀態(tài)下提供的一個(gè)Rq空間隨機(jī)觀察矢量On。On的分布P稱(chēng)為輸出概率矩陣,只取決于On所處狀態(tài):

    因?yàn)樵撓到y(tǒng)的狀態(tài)不為外界所見(jiàn),因此稱(chēng)之為“隱含馬爾科夫模型”,簡(jiǎn)稱(chēng)HMM。在識(shí)別中使用的隨機(jī)觀察矢量就是從信號(hào)中提取的特征矢量。按照隨機(jī)矢量Qn的概率分布形時(shí),其概率密度函數(shù)一般使用混合高斯分布擬合。

    其中,M為使用的混合高斯分布的階數(shù);Cm為各階高斯分布的加權(quán)系數(shù)。此時(shí)的HMM模型為連續(xù)HMM模型(Continuous density HMM),簡(jiǎn)稱(chēng)CHMM模型[6]。在本識(shí)別系統(tǒng)中,采用孤立詞模型,每個(gè)詞條7個(gè)狀態(tài),同時(shí)包括首尾各一個(gè)靜音狀態(tài);每個(gè)狀態(tài)使用3階混合高斯分布擬合。

    5.仿真實(shí)驗(yàn)

    5.1 提取最佳基的WVD分布特征矢量

    構(gòu)建局部余弦基字典,使用MP算法選取語(yǔ)音信號(hào)“A”的最佳基。如圖2所示。得到的E s(t,w)時(shí)頻圖既保留了余弦基原子高時(shí)頻聚集性的優(yōu)點(diǎn),又削弱了WVD作為二次型時(shí)頻表示所固有的交叉項(xiàng)的影響,得到了干凈的時(shí)頻面。其結(jié)果更精確的反映出語(yǔ)音信號(hào)在頻率、音強(qiáng)方面的特征,具有良好的時(shí)頻聚集性。

    圖2 “A“信號(hào)的WVD分布Figure2 WVD of“A”

    5.2 孤立詞識(shí)別

    在語(yǔ)音識(shí)別實(shí)驗(yàn)中,采用信號(hào)長(zhǎng)度為1024的200個(gè)實(shí)際語(yǔ)音信號(hào)樣本,其中100個(gè)用于訓(xùn)練,100個(gè)用于測(cè)試。該實(shí)驗(yàn)用以識(shí)別出語(yǔ)音信號(hào)”A”。實(shí)驗(yàn)利用WaveCN2.0錄音系統(tǒng)進(jìn)行樣本采集,采樣率為8kHz。得到語(yǔ)音信號(hào)的有效部分后,提取樣本信號(hào)的MFCC參數(shù)作為語(yǔ)音信號(hào)的特征參數(shù)之一。Mel濾波器的階數(shù)為24,fft變換的長(zhǎng)度為256,采樣頻率為8kHz。MFCC的相關(guān)波形見(jiàn)圖3。

    圖3 “A“信號(hào)的MFCC波形Figure3 MFCC Waveform of“A”

    然后利用MP算法將樣本信號(hào)分解為300個(gè)原子,將所得原子的參數(shù)γ=(a p,lp,η)和最佳基的WVD分布Es,作為該語(yǔ)音信號(hào)的特征參數(shù)之二。見(jiàn)圖2。通過(guò)HMM進(jìn)行識(shí)別。

    在實(shí)驗(yàn)中,設(shè)語(yǔ)音”A”類(lèi)值為1,其他的語(yǔ)音類(lèi)值為-1。HMM模型的狀態(tài)數(shù)為7,高斯混合數(shù)為3。由第4節(jié)HMM訓(xùn)練的定義可知,重估過(guò)程中的輸出概率是隨著重估次數(shù)的遞增而增加的,圖4列出了“A”模型訓(xùn)練期間重估次數(shù)與總和輸出概率的log值之間的關(guān)系。由圖可以看出,“A”模型重估20次算法收斂,并且,輸出概率與重估次數(shù)成正比趨勢(shì)。

    圖4 重估次數(shù)與總和輸出概率Figure4 Iterations of EM and output like lihood

    對(duì)語(yǔ)音進(jìn)行上述HMM訓(xùn)練之后,將其模型參數(shù)存貯,獲得了識(shí)別的HMM模型庫(kù)。在識(shí)別階段,對(duì)100個(gè)測(cè)試用數(shù)據(jù)進(jìn)行語(yǔ)音識(shí)別,以檢驗(yàn)本文系統(tǒng)的識(shí)別效果。如表1所示識(shí)別精度為89%,平均識(shí)別時(shí)間約為1.313秒,實(shí)驗(yàn)結(jié)果表明,系統(tǒng)識(shí)別率和運(yùn)算速度都比較理想。

    表1 識(shí)別結(jié)果

    增加了局部余弦基原子的參數(shù)γ=(a p,lp,η)和最佳基的WVD分布Es作為特征參數(shù),較單純的使用MFCC作為特征參數(shù)進(jìn)行HMM模型訓(xùn)練,識(shí)別率有一定提高,見(jiàn)表2。

    表2 結(jié)果比較

    6.結(jié)語(yǔ)

    本文在傳統(tǒng)基于HMM模型的語(yǔ)音識(shí)別基礎(chǔ)上,通過(guò)匹配追蹤算法,提取出最佳基的原子參數(shù)γ=(a p,lp,η)和WVD分布Es。二者與MFCC一起,作為本文提出的多參數(shù)語(yǔ)音識(shí)別算法的特征向量。然后選擇了大量孤立詞樣本進(jìn)行仿真實(shí)驗(yàn),針對(duì)非特定人孤立詞進(jìn)行語(yǔ)音識(shí)別。結(jié)果表明,基于HMM和匹配追蹤的多參數(shù)語(yǔ)音識(shí)別算法,可提高語(yǔ)音識(shí)別的速度和準(zhǔn)確度,有一定的實(shí)用性。但是,由于算法的復(fù)雜性增加,運(yùn)算量相應(yīng)增大,簡(jiǎn)化算法運(yùn)算量仍是需要深入研究的課題。

    [1]何方偉,青木由直.DP動(dòng)態(tài)匹配算法實(shí)現(xiàn)語(yǔ)音的實(shí)時(shí)識(shí)別[J].數(shù)據(jù)采集與處理,vol.4,no.1,Mar,1989.

    [2]R.R.Coifman,M.V.Wickerhauser.Entropy-based algorithms for best basis selection[J].IEEE Trans.Info.Theory,38(2):713-718,March 1992.

    [3]S Mallat,Z Zhang.Matching Pursuit with Time-Frequency Dictionaries[J].IEEE Trans.Signal Processi ng,1993,41(12):3397-3415.

    [4]R Gribonval.Fast matching pursuit with a multiscale dictionary of Gaussian Chirps[J].IEEE Trans.Signal Processing,2001,49(5):994-1001.

    [5]于建潮,張瑞林.基于MFCC 和LPCC的說(shuō)話人識(shí)別[J].計(jì)算機(jī)工程與設(shè)計(jì),2009,30(5):1189-1191.

    [6]王作英,肖熙.基于段長(zhǎng)分布的HMM語(yǔ)音識(shí)別模型[J].電子學(xué)報(bào),2004,vol.32,no.1:46-49.

    猜你喜歡
    余弦時(shí)頻特征參數(shù)
    故障診斷中信號(hào)特征參數(shù)擇取方法
    基于特征參數(shù)化的木工CAD/CAM系統(tǒng)
    基于PSO-VMD的齒輪特征參數(shù)提取方法研究
    兩個(gè)含余弦函數(shù)的三角母不等式及其推論
    分?jǐn)?shù)階余弦變換的卷積定理
    圖像壓縮感知在分?jǐn)?shù)階Fourier域、分?jǐn)?shù)階余弦域的性能比較
    統(tǒng)計(jì)特征參數(shù)及多分類(lèi)SVM的局部放電類(lèi)型識(shí)別
    基于時(shí)頻分析的逆合成孔徑雷達(dá)成像技術(shù)
    離散余弦小波包變換及語(yǔ)音信號(hào)壓縮感知
    對(duì)采樣數(shù)據(jù)序列進(jìn)行時(shí)頻分解法的改進(jìn)
    天津市| 石楼县| 嘉义县| 吉木乃县| 江口县| 威信县| 义乌市| 临西县| 鄄城县| 永康市| 广灵县| 夏邑县| 定边县| 乌兰察布市| 凤山市| 宿迁市| 湘阴县| 若尔盖县| 景泰县| 巢湖市| 绥阳县| 临泽县| 婺源县| 东明县| 沙雅县| 小金县| 楚雄市| 当雄县| 万州区| 连州市| 临澧县| 武胜县| 东明县| 阳春市| 华安县| 大兴区| 乌审旗| 哈巴河县| 蛟河市| 安康市| 蓬莱市|