摘要:隨著計算機(jī)技術(shù)的不斷發(fā)展和信息技術(shù)的不斷進(jìn)步,各類智能機(jī)器也逐步進(jìn)入到人們的生活中。語音識別是一種前景廣闊、社會效益廣泛、經(jīng)濟(jì)效益明顯的技術(shù),在快速發(fā)展的同時也不可避免地產(chǎn)生了一些問題。本文主要針對基于HMM和神經(jīng)網(wǎng)絡(luò)的語音識別系統(tǒng)進(jìn)行了細(xì)致的分析,期待能對我國語音識別系統(tǒng)的研究和實踐提供有效的借鑒和參考。
關(guān)鍵詞:語音識別;神經(jīng)網(wǎng)絡(luò);隱馬爾可夫
中圖分類號:TN912.34 文獻(xiàn)標(biāo)識碼:A 文章編號:1007-9599 (2012) 24-0110-02
語音識別簡單來說,就是讓機(jī)器聽懂人類語言表達(dá)的意思。在人工智能的研究領(lǐng)域里,語音識別技術(shù)更是人機(jī)實現(xiàn)對話的的有效媒介?,F(xiàn)今的語音識別技術(shù)主在語音撥號、語音控制及語音導(dǎo)航等方面有著普遍的應(yīng)用。
1 基于HMM的語音識別研究
1.1 隱馬爾可夫模型定義
HMM就是Hidden Markov Model,即隱馬爾可夫模型。HMM是統(tǒng)計分析模型的中的一馬爾可夫鏈的一種,隱馬爾可夫模型和傳統(tǒng)的馬爾可夫模型相比,最明顯的不同是無法直接觀察到它的狀態(tài)。隨著計算機(jī)技術(shù)的時步,現(xiàn)今的隱馬爾可夫模型的應(yīng)用除了語音識別研究領(lǐng)域外,在機(jī)器翻譯、生物學(xué)及基因組學(xué)等相關(guān)領(lǐng)域也均有應(yīng)用。
1.2 基于隱馬爾可夫模型的語音識別
在開展基于HMM的語音識別系統(tǒng)研究之前,要先解決HMM模型的兩個基本問題。
(1)隱馬爾可夫模型型的兩個基本問題
在 HMM 模型 解決實際遇到的應(yīng)用問題中,其中模型識別、狀態(tài)轉(zhuǎn)移有模型訓(xùn)練等兩個基本問題一定要先行解決:
第一,模型識別問題。觀察序列 和模型 屬于已知,應(yīng)該怎樣計算由這個模型產(chǎn)生這個觀察序列的概率 ?這個問題的根本就是必須選取合適的方法從多個模型中挑出和觀察序列最為匹配的模型,針對該問題,可有用“前向”算法解決。
第二,狀態(tài)轉(zhuǎn)移問題觀察序列 和模型 屬于已知,怎樣選出一個符合要求的狀態(tài)序列,使之地產(chǎn)生 ,即選取合適的方法選出最佳的狀態(tài)序列 ?這個問題的根本就是估計出模型出現(xiàn)觀察序列時最可能的路徑。現(xiàn)在用,解決Viterbi 算法解決此問題。
(2)解決HMM模型問題的方案
問題 1:前向算法的具體計算過程如下:
初始化:
遞歸:
終結(jié):
其中, 為從狀態(tài) 到 的概率, 為從狀態(tài) 到 轉(zhuǎn)移時輸出 的概率。
問題2:Viterbi 算法,按照Viterbi 算法可以得到最佳準(zhǔn)則,則Viterbi 算法的計算過程如下:初始化:
遞歸:
終止:
最佳路徑為:
2 基于神經(jīng)網(wǎng)絡(luò)的語音識別
神經(jīng)網(wǎng)絡(luò)是模擬人類腦部結(jié)構(gòu)及腦部功能的信息數(shù)據(jù)處理系統(tǒng),它由無數(shù)的神經(jīng)元節(jié)點相互根據(jù)特定方式彼此聯(lián)結(jié),形成網(wǎng)絡(luò)。語音識別應(yīng)用神經(jīng)網(wǎng)絡(luò)是個連續(xù)的過程,這個過程主要包括有語音輸入、預(yù)處理、語音特征提取、時間規(guī)整網(wǎng)絡(luò)及神經(jīng)網(wǎng)絡(luò)進(jìn)行網(wǎng)絡(luò)訓(xùn)練分類和網(wǎng)絡(luò)識別后,最終給出識別結(jié)果。語音信號由預(yù)處理及特征提取處理之后,緊接著是由時間規(guī)整網(wǎng)絡(luò)對其進(jìn)行處理,把語音信號和數(shù)據(jù)提取至神經(jīng)網(wǎng)絡(luò)進(jìn)行輸入需要的特征矢量具有一致的維數(shù)。由于語音識別在實際應(yīng)用時,語音信號會因為人的發(fā)音速度、聲音高低及強(qiáng)度的不同而有所差別,即使同一個人的發(fā)音也不可能在任何時間內(nèi)都相同。所以基于神經(jīng)網(wǎng)絡(luò)模型的語音識別,因為神經(jīng)網(wǎng)絡(luò)對應(yīng)的輸入層一定要輸入矢量的維數(shù)一致,因此必須借助于時間規(guī)整網(wǎng)絡(luò),把規(guī)整與合并不同的時間內(nèi),不同的聲音產(chǎn)生的不同強(qiáng)度和語音信號的特征矢量,以便最后提取到的語音特征矢量序列與神經(jīng)網(wǎng)絡(luò)輸入層要求的矢量維數(shù)一致。
3 基于HMM模型和神經(jīng)網(wǎng)絡(luò)的語音識別實驗研究
(下轉(zhuǎn)第127頁)