• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    語音識別技術(shù)的過程和應用

    2014-01-01 00:00:00張珠瑾王劍宇
    計算機光盤軟件與應用 2014年6期

    摘 要:利用語音傳遞信息是人類最常用,最方便,最快捷的一種方式。人類最常用的傳遞信息的方式就是聲音,隨著現(xiàn)代信息化時代的不斷發(fā)展,人們更加深入的研究語音信號的處理技術(shù),并且由于語音的特殊作用及其重要性,還有其對人們生活的不斷深入的影響,使得其十分受關(guān)注。語音識別技術(shù)就是將說話人的語言轉(zhuǎn)變?yōu)橛嬎銠C可以聽懂的語言,語音識別技術(shù)的涉及面極廣,它涉及到多個學術(shù)領域,如計算機科學、語言學、神經(jīng)生理學、信號處理以及人工智能等。

    關(guān)鍵詞:語音識別過程;動態(tài)時間規(guī)整;隱馬爾科夫模型;人工神經(jīng)網(wǎng)絡;語音識別的應用

    中圖分類號:TN912.34

    1 語音識別技術(shù)基本原理及過程介紹

    語音識別系統(tǒng)由語音信號預處理、特征提取、模式匹配三部分構(gòu)成。第一步預處理,主要有A/D變換、預加重和端點檢測部分。經(jīng)過預處理之后的語音信號,要進行第二步特征提取,該過程就是在原始語音信號中提取出所需要的特征參數(shù),從而得到特征矢量序列,特征提取完成后,接下來就是語音識別的核心,也就是第三步模式匹配,也就是模式識別。系統(tǒng)框圖如下[1]。

    圖1 一般語音識別系統(tǒng)框圖

    2 語音識別方法

    目前,主要的語音識別方法主要有特征參數(shù)匹配法、隱馬爾可夫法和人工神經(jīng)網(wǎng)絡法。

    2.1 動態(tài)時間規(guī)整

    動態(tài)時間規(guī)整(DTW)是早期的模式匹配方法。由于語音信號是一種隨機性非常大的信號,例如相同的字,不同人說時的發(fā)音會不同,時間長短也會不同,即便是同一個人說相同的語句,發(fā)音結(jié)果也會不同,于是,在模式匹配時,要識別字詞的時間軸將不斷扭曲,以測試模板與參考模板對齊。DTW是一個比較典型的優(yōu)化問題,它用滿足一定條件的時間規(guī)整函數(shù)W(n)描述測試模板和參考模板的時間對應關(guān)系,求解兩模板匹配時累計距離最小所對應的規(guī)整函數(shù)。動態(tài)時間規(guī)整也存在一些問題,它的計算量大,比較適合同一個人說話語音的識別,而且不能對樣本做動態(tài)訓練,語音信號的時序動態(tài)特性并沒有很好地利用,所以DTW多用于孤立字詞的識別。

    2.2 隱馬爾可夫模型

    隱馬爾可夫模型(HMM)是一種統(tǒng)計模型,用來描述隨機過程的統(tǒng)計特性。它是由馬爾可夫鏈演變來的。[2]

    HMM可用三元組表示:λ=(π,A,B)

    A:狀態(tài)轉(zhuǎn)移概率的集合。

    B:觀察概率的集合,表示每個狀態(tài)輸出相應觀察值的概率。

    π:系統(tǒng)初始狀態(tài)的集合。

    這三個元素π,A,B可以分為由π、A描述的Markov鏈和由B描述的隨機過程。

    HMM是一種理想的語音信號模型,如今,連續(xù)語音識別,非特定人識別系統(tǒng)大多是基于HMM模型的。HMM是對語音序列的時間序列結(jié)構(gòu)建立統(tǒng)計模型的,HMM是數(shù)學上的雙重隨機過程:一個是具有有限狀態(tài)數(shù)的Markov鏈來模擬語音信號統(tǒng)計特性變化的隱含的隨機過程,另一個是與Markov鏈的每一個狀態(tài)相關(guān)聯(lián)的觀測序列的隨機過程[3]。

    盡管馬爾可夫模型是一種理想的語音信號模型,但是它還有很多不足。HMM有三個不現(xiàn)實的重要假設,假設一“狀態(tài)轉(zhuǎn)移的Markov假設”:系統(tǒng)在當前時刻的狀態(tài)向下一時刻所處的狀態(tài)轉(zhuǎn)移的狀態(tài)轉(zhuǎn)移概率僅僅與當前時刻的狀態(tài)有關(guān),而與以前的狀態(tài)無關(guān)。假設二“不動性假設”:狀態(tài)與具體時間無關(guān)。假設三“輸出值的Markov假設”:輸出僅與當前狀態(tài)有關(guān)。這三個假設之所以不合理,是因為任一時刻出現(xiàn)的觀測值的概率不僅是依賴于系統(tǒng)當前所處的狀態(tài),也可能依賴于系統(tǒng)之前時刻所處的狀態(tài)[4]。

    2.3 人工神經(jīng)網(wǎng)絡

    人工神經(jīng)網(wǎng)絡(ANN)是在模擬人腦神經(jīng)組織的基礎上發(fā)展起來的全新計算機系統(tǒng)。ANN是模擬人類思維中“信息的處理是通過神經(jīng)元之間同時相互作用的動態(tài)過程來完成思維”。ANN是一種非線性動力學系統(tǒng),它的特點在于信息的分布式儲存和并行協(xié)同處理。單個神經(jīng)元的結(jié)構(gòu)簡單,但是大量的神經(jīng)元所構(gòu)成的神經(jīng)網(wǎng)絡卻是一種復雜的網(wǎng)絡。ANN更接近于人的認知過程。人工神經(jīng)網(wǎng)絡也存在一些不足,它的訓練、識別時間較長、動態(tài)時間規(guī)整能力較弱并且不容易實現(xiàn)。

    3 語音識別的應用和前景

    如今的科技領域,幾乎每天都有新的技術(shù),新的研究成果出現(xiàn),而語音識別也是這科技研究的一熱門領域,也應用到了人類生活的方方面面。

    語音識別的應用非常廣泛,語音輸入技術(shù)的出現(xiàn),可以使人們通過說話,而非手動輸入來作出正確的響應,這樣使輸入變的更加簡單,提高了工作學習的效率。語音識別技術(shù)可以應用于汽車,可以使駕駛員用語音指令操縱車載設備,提高汽車駕駛的安全性和舒適性。將語音識別、語言理解與大量的數(shù)據(jù)庫檢索和查詢技術(shù)相結(jié)合,就能夠?qū)崿F(xiàn)更輕松的信息查詢方式。比如,圖書館的資料信息將能夠?qū)碜杂脩舻恼Z音輸入進行理解,并將它轉(zhuǎn)化為相應的指令,從數(shù)據(jù)庫中獲取結(jié)果并返回給用戶。這種技術(shù)同樣可以運用于銀行服務、醫(yī)療服務等方面。語音識別技術(shù)還可以應用于口語翻譯,例如,可以讓與聾啞人對話的對方帶上一個智能語音識別的微型攝像裝置,或者給聾啞人帶上一種特制的手套,然后,就可以通過語音合成技術(shù)和語音識別技術(shù)將手語翻譯成聲音語言,同時,系統(tǒng)還能夠完成將正常人的語言翻譯成聾啞人的手語,這種口語翻譯一種語音輸入翻譯為另一種語言的語音輸出。除此之外,語音識別在軍事,航空等領域也有廣闊的應用空間。語音識別將不斷發(fā)展,不斷豐富人類的生活。

    參考文獻:

    [1]趙力.語音信號處理第2版[M].北京.機械工程出版社,2009(05).

    [2]何彥斌,楊志義,馬薈.一種基于HMM的場景識別方法[J].計算機科學,2011(04):254-256.

    [3]呂云芳,基于模板匹配法的語音識別系統(tǒng)研究與基本實現(xiàn)[D].天津:河北工業(yè)大學,2005.

    [4]劉云中,林亞平,陳治平.基于隱馬爾可夫模型的文本信息抽取[J].系統(tǒng)仿真學報,2004(03):507-510.

    作者簡介:張珠瑾(1994-),女,河南濮陽人,本科生,研究方向:計算機科學與技術(shù)。

    作者單位:鄭州大學,鄭州 450000

    太保市| 革吉县| 南木林县| 富源县| 陈巴尔虎旗| 河南省| 台安县| 奉贤区| 健康| 前郭尔| 永寿县| 蕉岭县| 大新县| 通山县| 松滋市| 永吉县| 黑山县| 怀安县| 子洲县| 贡觉县| 潼南县| 揭西县| 上杭县| 佛教| 楚雄市| 鄢陵县| 嫩江县| 三江| 赤壁市| 博客| 鹿邑县| 富川| 牙克石市| 隆安县| 阜城县| 伊宁市| 武夷山市| 新源县| 哈尔滨市| 镇远县| 巴里|