范靖宇
摘要:語音識別最為人機交互的重要技術,成為人工智能領域研究的重點,具有重要的研究意義跟廣泛的應用前景。本文簡要闡述了語音識別的發(fā)展、原理、過程。
關鍵詞:人工交互;人工智能;語音識別
引言:
隨著信息技術的發(fā)展,人機交互成為新興課題。智能化研究的語音識別技術成為人機交互必不可少的話題。人工智能領域的深度學習使語音識別技術更加精準可靠。語音識別技術不僅可以應用到生活領域而且還可以用到軍事領域,從而提高人們對信息的處理能力和工作效率
1語音識別技術的發(fā)展
20世紀50年代,這段時期以實現(xiàn)10個英文數(shù)字的語音識別為代表,這是計算機語音識別的開端。
20世紀60年代,取得了階段性建站,解決了語音信號的提取問題。
20世紀70年代,語音識別領域取得突破,實現(xiàn)了基于線性預測倒譜和和DTW技術的語音識別系統(tǒng)。
20世紀80年代,語音識別實驗室階段取得巨大突破,從孤立詞匯到大量詞匯、非特定人、連續(xù)語音等的改變。同時,語音識別算法開始從模板匹配技術轉向基于統(tǒng)計模型技術,研究從微觀轉向宏觀,連理最優(yōu)的語音識別系統(tǒng)。
20世紀90年代后,人工智能技術開始應用于語音識別技術,人工智能具有自適應性、魯棒性、學習特性等,在參數(shù)優(yōu)化、系統(tǒng)自適應方面有了很大的進展。語音識別技術進一步發(fā)展,開始實現(xiàn)語音識別技術的產(chǎn)品化。
2語音識別概念及原理
2.1語音識別概念
語音識別簡單來說就是將聲音信號轉化為文字或者指令的過程。輸入語音輸出識別結果。語音識別設計技術包括:人工智能、數(shù)字信號處理、概率論和信息論、聲學、語言學、發(fā)聲機理和聽覺機理、認知科學等學科領域技術。
語音識別設計性能指標:
①詞匯表范圍:這是指機器能識別的單詞或詞組的范圍,如不作任何限制,則可認為詞匯表范圍是無限的。
②說話人限制:是僅能識別指定發(fā)話者的語音,還是對任何發(fā)話人的語音都能識別。
③訓練要求:使用前要不要訓練,即是否讓機器先“聽”一下給定的語音,以及訓練次數(shù)的多少。
④正確識別率:平均正確識別的百分數(shù),它與前面三個指標有關。
2.2語音識別原理
目前,主流的語音識別系統(tǒng)多采用統(tǒng)計模式識別技術。典型的基于統(tǒng)計模式識別方法的語音識別系統(tǒng)由以下幾個基本模塊所構成
①信號處理及特征提取模塊。該模塊的主要任務是從輸入信號中提取特征,供聲學模型處理。同時,它一般也包括了一些信號處理技術,以盡可能降低環(huán)境噪聲、信道、說話人等因素對特征造成的影響。
②統(tǒng)計聲學模型。典型系統(tǒng)多采用基于一階隱馬爾科夫模型進行建模。發(fā)音詞典。發(fā)音詞典包含系統(tǒng)所能處理的詞匯集及其發(fā)音。發(fā)音詞典實際提供了聲學模型建模單元與語言模型建模單元間的映射。
③語言模型。語言模型對系統(tǒng)所針對的語言進行建模。理論上,包括正則語言,上下文無關文法在內(nèi)的各種語言模型都可以作為語言模型,但目前各種系統(tǒng)普遍采用的還是基于統(tǒng)計的N元文法及其變體。
④解碼器。解碼器是語音識別系統(tǒng)的核心之一,其任務是對輸入的信號,根據(jù)聲學、語言模型及詞典,尋找能夠以最大概率輸出該信號的詞串。
3深度學習應用于語音識別
3.1語音識別流程
3.1.1語音信號采集
語音信號采集是語音信號處理的前提。語音通常通過話筒輸入計算機。話筒將聲波轉換為電壓信號,然后通過A/D裝置(如聲卡)進行采樣,從而將連續(xù)的電壓信號轉換為計算機能夠處理的數(shù)字信號。
3.1.2語音信號預處理
語音信號號在采集后首先要進行濾波、A/D變換,預加重(Preemphasis)和端點檢測等預處理,然后才能進入識別、合成、增強等實際應用。
3.1.3語音信號的特征參數(shù)提取
在語音識別中,常用線性預測編碼技術抽取語音特征。
線性預測編碼的基本思想是:語音信號采樣點之間存在相關性,可用過去的若干采樣點的線性組合預測當前和將來的采樣點值。線性預測系數(shù)埽以通過使預測信號和實際信號之間的均方誤差最小來唯一確定。
語音線性預測系數(shù)作為語音信號的一種特征參數(shù),已經(jīng)廣泛應用于語音處理各個領域。
3.1.4向置量化
向量量化(VectorQuantization,VQ)技術是一種數(shù)據(jù)壓縮和編碼技術。經(jīng)過向量量化的特征向量也可以作為后面隱馬爾可夫模型中的輸入觀察符號。
向量量化的基本原理是將若干個標量數(shù)據(jù)組成一個向量(或者是從一幀語音數(shù)據(jù)中提取的特征向量)在多維空間給予整體量化,從而可以在信息量損失較小的情況下壓縮數(shù)據(jù)量。
3.1.5語音識別
當提取聲音特征集合以后,就可以識別這些特征所代表的單詞。識別系統(tǒng)的輸入是從語音信號中提取出的特征參數(shù),如LPC預測編碼參數(shù),當然,單詞對應于字母序列。語音識別所采用的方法一般有模板匹配法、隨機模型法和概率語法分析法三種。這三種方法都是建立在最大似然決策貝葉斯(Bayes)判決的基礎上的。
(1)模板(template)匹配法
在訓練階段,用戶將詞匯表中的每一個詞依次說一遍,并且將其特征向量作為模板存入模板庫。在識別階段,將輸入語音的特征向量序列,依次與模板庫中的每個模板進行相似度比較,將相似度最高者作為識別結果輸出。
(2)隨機模型法
隨機模型法是目前語音識別研究的主流。其突出的代表是隱馬爾可夫模型。隱馬爾可夫模型則用概率統(tǒng)計的方法來描述這樣一種時變的過程。
(3)概率語法分析法
這種方法是用于大長度范圍的連續(xù)語音識別。將 “區(qū)別性特征”與來自構詞、句法、語義等語用約束相互結合,就可以構成一個“自底向上”或“自頂向下”的交互作用的知識系統(tǒng),不同層次的知識可以用若干規(guī)則來描述。
4結束語
隨著信息技術的發(fā)展和人們生活水平的提高,語音識別技術已經(jīng)成為趨勢。伴隨著計算機軟硬件的發(fā)展,語音識別技術將會有著質的飛躍。
參考文獻
[1]程建軍.關于深度學習的語音識別應用研究[J].產(chǎn)學理論與實踐,2019,27(12):189-190
[2]畢馨文.基于深度學習的語音識別[J].電子技術與軟件工程,2017,39(8):245-245
[3]禹琳琳.語音識別技術及綜述[J].現(xiàn)代電子技術,2013,36(13):43-46.