鐘穎
摘要:本文介紹了基于DSP TMS320VC5509A的語音識(shí)別系統(tǒng),主要通過采用DTW算法,初步研究和探討在MATLAB軟件環(huán)境下實(shí)現(xiàn)孤立詞語的語音識(shí)別。系統(tǒng)由 TMS320VC5509A 芯片控制和TLV320AD50對(duì)原始語音進(jìn)行采樣和A/D轉(zhuǎn)換,內(nèi)部存儲(chǔ)器用來存放程序數(shù)據(jù),外部存儲(chǔ)器用來存放各種語音數(shù)據(jù)。
關(guān)鍵詞:語音識(shí)別;DSP;Mel頻率倒譜系數(shù)(MFCC);動(dòng)態(tài)時(shí)間規(guī)整(DTW)
中圖分類號(hào):TN912.34 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2017)05-0048-02
1 概述
伴隨科技進(jìn)步,語音識(shí)別系統(tǒng)在越來越多的領(lǐng)域得到了廣泛的應(yīng)用。本文主要是研究基于DSP的特定人、小詞匯量語音識(shí)別系統(tǒng),提出更為優(yōu)化和快速計(jì)算的算法,采用DSP芯片TMS320VC5509A 控制和TLV320AD50對(duì)原始語音進(jìn)行采樣和A/D轉(zhuǎn)換,目的是研究出能識(shí)別人話的機(jī)器,通過接受人話口呼命令,掌握人發(fā)出的指令,從而做出指令要求的反映。
2 語音識(shí)別的實(shí)現(xiàn)流程
語音識(shí)別主要包括五個(gè)步驟。首先人口命令的模擬的語音信號(hào)輸入,通過A/D轉(zhuǎn)換后變成數(shù)字信號(hào),但這時(shí)信號(hào)很難被直接識(shí)別,需要對(duì)信號(hào)進(jìn)行特征提取,端點(diǎn)檢測(cè)在分析處理之前把要分析的部分從語音信號(hào)中找出來,提取了指定的語音信號(hào)特征參數(shù)后進(jìn)行模式匹配,最后進(jìn)行后處理,也就是對(duì)匹配節(jié)后的響應(yīng)。一個(gè)典型語音識(shí)別系統(tǒng)[1]的實(shí)現(xiàn)過程如圖1所示。
3 系統(tǒng)的硬件設(shè)計(jì)
本語音識(shí)別系統(tǒng)以TI公司TMS320VC5509A DSP為核心用來處理各種數(shù)據(jù)和程序,對(duì)原始語音進(jìn)行采樣和A/D轉(zhuǎn)換,程序寄存在內(nèi)部存儲(chǔ)器,語音數(shù)據(jù)寄存在外部存儲(chǔ)器。這種基于DSP的語音識(shí)別系統(tǒng)比傳統(tǒng)的語音實(shí)時(shí)性強(qiáng),功能好,而重要的是可以移植到手機(jī)手持設(shè)備中,這也是本系統(tǒng)設(shè)計(jì)開始就選用DSP開發(fā)板的原因。
4 系統(tǒng)的軟件實(shí)現(xiàn)
程序設(shè)計(jì)流圖如圖2所示。
4.1 端點(diǎn)檢測(cè)
本語音系統(tǒng)采用雙門限法來檢測(cè)端點(diǎn),清音過零率檢測(cè),濁音用短時(shí)能量。首先分別確定一個(gè)較低的、數(shù)值小的門限,和另一個(gè)較高的、數(shù)值大的門限。靜音段,如果連續(xù)幾個(gè)幀的過零率超過低門限,表示信號(hào)進(jìn)入過渡區(qū),信號(hào)開始。當(dāng)兩個(gè)參數(shù)值低于低門限以下,則表示信號(hào)進(jìn)入靜音區(qū),信號(hào)結(jié)束。當(dāng)兩個(gè)參數(shù)值高于高門限,則進(jìn)入到語音段。當(dāng)降低到門限以下,則認(rèn)為是噪音,繼續(xù)掃描,標(biāo)記好結(jié)束端點(diǎn)。
(1)短時(shí)平均能量和幅度。分別比較矩形窗和hamming窗長(zhǎng)的短時(shí)能量函數(shù),得出如下結(jié)論:不同的窗函數(shù)以及相應(yīng)窗的長(zhǎng)短均有影響。矩形窗的效果比hamming窗要差一些。如圖3圖4所示。
(2)短時(shí)平均過零率。實(shí)驗(yàn)中用某一語音在矩形窗條件下求得的短時(shí)能量和短時(shí)平均過零率。由此看出:清音的短時(shí)能量較低,過零率高,濁音的短時(shí)能量較高,過零率低。如圖5所示。
4.2 特征提取
本系統(tǒng)選擇MFCC(Mel倒譜參)作為基本識(shí)別參數(shù)。Mel刻度根據(jù)主觀音高均勻劃分,與線性頻率關(guān)系[2]為:
(4-1)
在實(shí)際語音信號(hào)處理中,MFCC的計(jì)算過程較復(fù)雜,具體的計(jì)算過程:
(1)首先確定一幀語音信號(hào)的樣點(diǎn)數(shù)N,本系統(tǒng)N=212點(diǎn)。
(2)計(jì)算S(n)通過每一個(gè)三角形濾波器的輸出,得到M個(gè)參數(shù)h(m)。
m=1,2......M (4-2)
(3)對(duì)所有濾波器輸出進(jìn)行對(duì)數(shù)運(yùn)算,再進(jìn)一步進(jìn)行離散余弦變換(DCT)。i=1……16。
(4-3)
5 結(jié)語
系統(tǒng)最終在編程上實(shí)現(xiàn)了個(gè)別個(gè)體的特定語音的識(shí)別,基本上達(dá)到了預(yù)定的目標(biāo),識(shí)別所用各種算法經(jīng)過驗(yàn)證并且得到預(yù)想的結(jié)果。整個(gè)語音系統(tǒng)在硬件平臺(tái)DSP上實(shí)現(xiàn),由此可以根據(jù)各個(gè)硬件的特點(diǎn)和社會(huì)的需要,設(shè)計(jì)出多種多樣的語音識(shí)別設(shè)備。
參考文獻(xiàn)
[1]蔡蓮紅,黃德智,蔡銳編著.現(xiàn)代語音技術(shù)基礎(chǔ)與應(yīng)用[M].北京:清華大學(xué)出版社,2003.
[2]林坤輝,息曉靜,周昌樂.基于HMM與神經(jīng)網(wǎng)絡(luò)的聲學(xué)模型研究[M].廈門:廈門大學(xué)學(xué)報(bào)(自然科學(xué)版),2006.
[3]陳立萬.基于語音識(shí)別系統(tǒng)中DTW算法改進(jìn)技術(shù)研究[D].微計(jì)算機(jī)信息,2006.
[4]安鎮(zhèn)宙,楊鑒,王紅,余映.一種新的基于并行分段剪裁的DTW算法[C].計(jì)算機(jī)工程與應(yīng)用,2007.endprint