吳 進, 張 青
(西安郵電大學 電子工程學院, 陜西 西安 710121)
一種改進的孤立詞語音識別系統(tǒng)設(shè)計
吳進, 張青
(西安郵電大學 電子工程學院, 陜西 西安 710121)
摘要:針對孤立詞語音識別系統(tǒng)設(shè)計一個改進的系統(tǒng)。該系統(tǒng)通過維納濾波濾除噪聲得到估計語音,對該語音進行雙門限端點檢測和特征提取得到端點范圍內(nèi)的特征向量,采用改進動態(tài)時間規(guī)劃算法計算該特征向量與模板特征向量之間的歐式距離得到識別結(jié)果。仿真對比實驗結(jié)果表明,改進系統(tǒng)在識別效果和識別效率方面有提高。
關(guān)鍵詞:語音識別;雙門限端點檢測;特征提??;維納濾波;改進的動態(tài)時間規(guī)劃
語音識別技術(shù)把人類語言轉(zhuǎn)化為機器可讀語言[1],應(yīng)用于移動通信,工業(yè)控制及醫(yī)療等領(lǐng)域。
語音信號在傳輸過程中會受到來自外界環(huán)境和通訊設(shè)備內(nèi)部噪聲的干擾,很多場合需要對語音信號減噪,提高語音質(zhì)量,達到好的識別效果。目前,減噪的方法有小波和子空間[2]、子帶能量規(guī)整的感知線性預測系數(shù)[3]、多頻帶譜減法[4]、最小均方誤差估計[5]、維納濾波[6],以及卡爾曼濾波[7]等,這些方法均可以提高語音識別系統(tǒng)的噪聲魯棒性,但系統(tǒng)存在計算量大,復雜度高等問題。
本文設(shè)計一個改進孤立詞語音識別系統(tǒng)。擬采用維納濾波提高系統(tǒng)識別效果,利用改進的動態(tài)時間規(guī)劃算法(Dynamic Time Warping,DTW)降低復雜度和運算量。
1基本原理
1.1維納濾波原理
維納濾波器是一種線性濾波器。輸入帶噪語音
y(n)=s(n)+d(n)(n=0,1,2,…,N)。
其中s(n)為純語音,d(n)為噪聲,經(jīng)過系統(tǒng)函數(shù)為h(n)的維納濾波,輸出估計語音[8]
(1)
根據(jù)正交性原理,系統(tǒng)函數(shù)h(n)對每個m滿足[8]
(2)
將式(1)代入式(2),并取傅里葉變換,可以得到維納濾波器的譜估計器[8]
(3)
式中Py(k)為y(n)的功率譜密度;Psy(k)為s(n)和y(n)的互功率譜密度。因信號和噪聲互不相關(guān),則有
Py(k)=Ps(k)+Pd(k)。
(4)
式中Ps(k)為語音功率譜密度,Pd(k)為噪聲功率譜密度,將式(4)代入式(3)可得
(5)
對式(1)進行傅里葉變換得到估計信號的頻域表達式
(6)
1.2雙門限端點檢測及特征提取
1.2.1雙門限端點檢測
(7)
第i幀語音的短時過零率為
(8)
通過短時能量和短時過零率的取值設(shè)置門限,判決語音信號的起始端點。
1.2.2特征提取
梅爾倒譜系數(shù)[10](Mel-scale Frequency Cepstral Coefficients,MFCC)特征提取原理如圖1所示。
圖1 MFCC特征提取原理
MFCC特征提取步驟描述如下。
步驟1對濾波后的信號做預處理與離散傅里葉變換。
設(shè)語音信號的離散傅里葉變換為
其中輸入語音信號為x(n),傅里葉變換次數(shù)為N。
步驟2計算功率譜,并用三角濾波器組對功率譜進行帶通濾波。
步驟3計算濾波器組輸出的對數(shù)能量
式中Hm(k)為三角濾波器的頻率響應(yīng),m為三角濾波器的個數(shù)。
步驟4對數(shù)功率譜經(jīng)離散余弦變換[10]得MFCC系數(shù)。
1.3DTW算法及其改進
動態(tài)規(guī)劃算法[11]是在網(wǎng)格中找到一條經(jīng)過若干格點的路徑。路徑通過的格點,需計算幀的匹配距離。路徑從(1,1)開始到(N,M)結(jié)束,其原理如圖2所示。
圖2 DTW算法原理
DTW算法運算量大,采用改進的DTW算法[12]不必全部保存幀匹配距離矩陣和累計距離矩陣,只需計算平行四邊形之內(nèi)格點對應(yīng)幀的匹配距離即可,其原理如圖3所示。
圖3 改進的DTW原理
X軸上的各個幀無需與Y軸上的各個幀進行匹配,只需匹配與Y軸相鄰的部分幀,累計距離為
D(x,y)=d(x,y)+min[D(x-1,y),
D(x-1,y-1),D(x-1,y-2)],
由X軸上后一列用到前一列的累計距離,故整個距離矩陣由矢量D和d分別保存。
2改進系統(tǒng)設(shè)計
改進系統(tǒng)與基于維納濾波的孤立詞識別系統(tǒng)的區(qū)別在于應(yīng)用改進的DTW算法,而與卡爾曼濾波的區(qū)別在于應(yīng)用維納濾波和改進的DTW算法。其原理如圖4所示。
圖4 改進系統(tǒng)原理
改進系統(tǒng)關(guān)鍵步驟如下。
步驟1帶噪語音信號y(n)傅里葉變換到頻域。
步驟2利用最小均方誤差準則使均方誤差ε最小,結(jié)合式(1)與式(2)以及純凈語音和噪聲互不相關(guān),可以得到維納濾波估計器的系統(tǒng)函數(shù)式(5)。
步驟4計算短時能量式(7)和短時過零率式(8),并根據(jù)其值設(shè)置門限,進行雙門限端點檢測得到語音信號的起始端點。
步驟5利用梅爾倒譜系數(shù)提取特征向量,并截取起始端點范圍內(nèi)特征向量。
步驟6利用改進的DTW計算參考模板與測試模板特征向量間的累計距離,得到孤立詞0~9的識別結(jié)果。
3仿真實驗與結(jié)果分析
實驗中所用語音文件均是在安靜的環(huán)境下錄制,噪聲文件取自Noisex數(shù)據(jù)庫中的高斯白噪聲,并在Matlab R2011b平臺上實現(xiàn)。先將基于維納濾波的孤立詞語音識別系統(tǒng)與基于卡爾曼濾波的孤立詞語音識別系統(tǒng)進行識別效果對比,然后將基于維納濾波的孤立詞語音識別系統(tǒng)和改進的系統(tǒng)進行識別效率對比。
3.1識別效果對比
選取DTW模式匹配過程中的歐式距離作為對比參數(shù),對比基于維納濾波的孤立詞語音識別系統(tǒng)與基于卡爾曼濾波的孤立詞語音識別系統(tǒng)的識別效果,結(jié)果如表1、表2和圖5所示。其中表1為基于卡爾曼濾波系統(tǒng)測試語音與模板語音之間的歐式距離,表2為基于維納濾波系統(tǒng)測試語音與模板語音之間的歐式距離,圖5為兩種系統(tǒng)歐式距離對比折線圖(注:表1和表2的橫向代表模板語音0~9,縱向代表測試語音0~9,中間數(shù)據(jù)為識別過程中兩個模板間的歐式距離)。
表1 基于卡爾曼濾波系統(tǒng)測試語音與模板語音的歐式距離
表2 基于維納濾波系統(tǒng)測試語音與模板語音歐式距離
圖5 基于維納濾波與卡爾曼濾波識別的歐式距離
對比表1和表2可以看出,表1中對孤立詞0和3的識別,其匹配距離不是所在行列中最小的,表2中孤立詞0~9的匹配距離小于其所在的行列,故基于卡爾曼的系統(tǒng)識別效果相對不好,而基于維納濾波的系統(tǒng)識別效果好。由圖5可見,采用維納濾波的孤立詞語音識別系統(tǒng)的識別效果較好,系統(tǒng)具有魯棒性。
3.2識別效率對比
選取DTW模式匹配過程中的歐式距離作為對比參數(shù),對比改進系統(tǒng)與基于維納濾波的孤立詞語音識別系統(tǒng)的識別效率,結(jié)果如表2、表3和圖6所示。其中表3為改進系統(tǒng)測試語音與模板語音之間的歐式距離,圖6為兩種系統(tǒng)歐式距離對比折線圖(注:表3的橫向代表模板語音0~9,縱向代表測試語音0~9,中間數(shù)據(jù)為識別過程中兩個模板間的歐式距離) 。
表3 改進系統(tǒng)測試語音與模板語音歐式距離
圖6改進系統(tǒng)與基于維納濾波系統(tǒng)歐式距離
對比表2和表3可以看出,表3中對孤立詞0與3的識別,其匹配距離不是所在行列中最小的,說明改進系統(tǒng)在識別效果方面較好,系統(tǒng)具有噪聲魯棒性。對比圖5和圖6可以看出,歐式距離最小的是改進系統(tǒng),說明改進系統(tǒng)降低了運算量及復雜度,提高了系統(tǒng)識別效率。
4結(jié)束語
設(shè)計了一種改進的孤立詞語音識別系統(tǒng),實現(xiàn)了系統(tǒng)的噪聲魯棒性,且提高了系統(tǒng)識別效率。通過仿真實驗對比基于卡爾曼濾波的孤立詞語音識別系統(tǒng),基于維納濾波的孤立詞語音識別系統(tǒng)與改進系統(tǒng),結(jié)果表明,改進系統(tǒng)在噪聲魯棒性和系統(tǒng)性能方面有提高。
參考文獻
[1] 李曉霞,王東木,李雪耀.語音識別技術(shù)評述[J].計算機應(yīng)用研究,1999,10(1):1-3.
[2] 吳昊,魯周迅.Symlets小波和子空間聯(lián)合增強下的語音識別[J].計算機工程與應(yīng)用,2011,47(5):141-145.
[3] 蔡尚,金鑫,高圣翔,等.用于噪聲魯棒性語音識別的子帶能量規(guī)整感知線性預測系數(shù)[J].聲學學報,2012,37(6):668-672.
[4] 萬義龍,張?zhí)扃?,王志朝,?基于多頻帶譜減法的抗噪聲語音識別研究[J].電視技術(shù),2013,37(23):183-187.
[5] 容強,肖漢.基于MMSE維納濾波語音增強方法研究與matlab實現(xiàn)[J].計算機應(yīng)用與軟件,2015,32(1):153-156.
[6] 白文雅,黃建群,陳智憐.基于維納濾波語音增強算法的改進實現(xiàn)[J].語音技術(shù),2007,31(1): 44-46,50.
[7]SUMITHRA M G., RAMYA M S, THANUSKODI K. Noise Robust Isolated Word Recognition[C]//International Conference on Communication and Computational intelligence, Erode:IEEE, 2010:362-367.
[8] 宋知用.MATLAB在語音信號分析與合成中的應(yīng)用[M].北京:北京航空航天大學出版社,2013:195-197.
[9] 韋國剛,周萍,楊青.一種簡單的噪聲魯棒性語音端點檢測方法[J].測控技術(shù),2015,34(2):31-34.
[10]俸云,景新幸,葉懋.MFCC特征改進算法在語音識別中的應(yīng)用[J].計算機工程與科學,2009,31(12):146-148.
[11]朱淑琴,趙瑛.DTW語音識別算法研究與分析[J].微計算機信息,2012,8(5):150-151,163.
[12]胡金平,陳若珠,李戰(zhàn)明.語音識別中DTW改進算法的研究[J].微型機與應(yīng)用,2011,30(3):30-32.
[13]VIKRAMJIT M,HOSUNG N,ESPY-WILSONil C Y, et al. Articulatory Information for Noise Robust Speech Recognition[J]. IEEE Transactions on Audio, Speech & Language Processing-TASLP, 2011, 19(7):1913-1924. DOI: 10.1109/TASL.2010.2103058.
[14]FARDKHALEGHI P, SAVOJI M H. New approaches to speech enhancement using phase correction in Wiener filtering [C]//2010 5th International Symposium on Telecommunications(IST),Tehran:IEEE, 2010:895-899.DOI:10.1109/ISTEL.2010.5734149.
[15]IBRAHIM A, MILNER B.Visually Derived Wiener Filters for Speech Enhancement[J].IEEE Transactions on Audio, Speech & Language Processing-TASLP, 2011, 19(6):1642-1651. DOI: 10.1109/TAS L.2010.2096212.
[16]SHARON G, COHER I. Speech Enhancement Based on the General Transfer Function GCS and Postfiltering [J].IEEE transaction on speech and audio processing-IEEE SAP, 2004, 12(6):561-571. DOI: 10.1109/ T SA .2004.834599.
[責任編輯:祝劍]
The design of an improved isolated word speech recognition system
WU Jin,ZHANG Qing
(School of Electrical Engineering,Xi’an University of Posts and Telecommunications,Xi’an 710121,China)
Abstract:An improved system is proposed for the isolated word speech recognition system. In this improved system, wiener filtering is used to filter out noise effectively and to obtain estimation of speech. Double threshold endpoint detection and feature extraction are carried out on the speech to obtain feature vector within the scope of the endpoint. Recognition results can then be got by using the improved dynamic time programming algorithm to calculate the Euclidean distance between the vector and template feature vector. Simulation experiments show that the improved system is better in terms of recognition effect and the recognition efficiency.
Keywords:speech recognition, double threshold endpoint detection, feature extraction, wiener filtering, modified dynamic time programming
doi:10.13682/j.issn.2095-6533.2016.01.015
收稿日期:2015-08-14
基金項目:國家自然科學基金資助項目(61272120)
作者簡介:吳進(1975-),女,教授,從事信號與信息處理方向的研究。E-mil:huatao2000@126.com 張青(1990-),女,碩士,研究方向為電路與系統(tǒng)。E-mil:984676981@qq.com
中圖分類號:TP391
文獻標識碼:A
文章編號:2095-6533(2016)01-0076-05