邵建勛 倪俊杰
編者按:語(yǔ)音識(shí)別技術(shù)在生活中的應(yīng)用已經(jīng)非常廣泛,如在車載導(dǎo)航、智能家居、日常辦公等領(lǐng)域都有涉及,給人們生活帶來(lái)了很多便利。由于語(yǔ)音交互是一種更便利、更自然、更高效的溝通形式,所以它必定成為未來(lái)最主要的人機(jī)交互接口之一。那么,你真的了解語(yǔ)音識(shí)別技術(shù)嗎?它的發(fā)展歷程和技術(shù)原理又是怎樣的?我們一起來(lái)了解。
語(yǔ)音識(shí)別技術(shù)又稱ASR技術(shù)(Automatic Speech Recognition),指機(jī)器自動(dòng)將語(yǔ)音轉(zhuǎn)成文字。語(yǔ)音識(shí)別技術(shù)屬于人工智能方向的一個(gè)重要分支,涉及許多學(xué)科,如信號(hào)處理、計(jì)算機(jī)科學(xué)、語(yǔ)言學(xué)、聲學(xué)、生理學(xué)、心理學(xué)等,是人機(jī)自然交互技術(shù)中的關(guān)鍵環(huán)節(jié)。
語(yǔ)音識(shí)別技術(shù)誕生半個(gè)多世紀(jì)以來(lái),由于缺乏突破性進(jìn)展,在技術(shù)上存在較大缺陷,一直處在實(shí)驗(yàn)室研究階段,沒(méi)有在實(shí)際應(yīng)用中得到認(rèn)可。2009年是一個(gè)轉(zhuǎn)折點(diǎn),深度學(xué)習(xí)和人工神經(jīng)網(wǎng)絡(luò)的興起,使得語(yǔ)音識(shí)別技術(shù)在常見(jiàn)詞匯場(chǎng)景下識(shí)別率超過(guò)了95%,這意味著語(yǔ)音識(shí)別技術(shù)具備了與人類相仿的語(yǔ)言識(shí)別能力。但不可否認(rèn)的是,即使到現(xiàn)在,語(yǔ)音識(shí)別技術(shù)還是存在著很多不足,如對(duì)強(qiáng)噪聲、超遠(yuǎn)場(chǎng)、強(qiáng)干擾、多語(yǔ)種、大詞匯等場(chǎng)景下的語(yǔ)音識(shí)別還有很大的提升空間。
國(guó)內(nèi)某機(jī)構(gòu)發(fā)布的《2018—2022年中國(guó)智能語(yǔ)音行業(yè)深度調(diào)研及投資前景預(yù)測(cè)報(bào)告》顯示,我國(guó)智能語(yǔ)音市場(chǎng)整體處于啟動(dòng)期,智能車載、智能家居、智能可穿戴等垂直領(lǐng)域處于爆發(fā)前夜。因此,我們有必要深入了解一下它的發(fā)展歷程和技術(shù)原理。
語(yǔ)音識(shí)別技術(shù)的發(fā)展歷程
最早在1952年,著名的貝爾實(shí)驗(yàn)室首次實(shí)現(xiàn)Aurdrey英文數(shù)字識(shí)別實(shí)驗(yàn)系統(tǒng)(6英尺高),該系統(tǒng)有兩個(gè)特點(diǎn):①可以識(shí)別0~9單個(gè)數(shù)字的發(fā)音;②對(duì)熟人的發(fā)音識(shí)別準(zhǔn)確度高達(dá)90%以上。同時(shí)期,美國(guó)麻省理工學(xué)院的林肯實(shí)驗(yàn)室開(kāi)發(fā)了針對(duì)十個(gè)元音的非特定人語(yǔ)音識(shí)別系統(tǒng),普林斯頓大學(xué)的RCA實(shí)驗(yàn)室也開(kāi)發(fā)了單音節(jié)識(shí)別系統(tǒng),能夠識(shí)別特定人的十個(gè)單音節(jié)詞中所包含的不同音節(jié)。
20世紀(jì)60年代,東京無(wú)線電實(shí)驗(yàn)室、京都大學(xué)和NEC實(shí)驗(yàn)室在語(yǔ)音識(shí)別領(lǐng)域取得了開(kāi)拓性的進(jìn)展,并且各自先后制作了能夠進(jìn)行語(yǔ)音識(shí)別的專用硬件。
1971年,美國(guó)國(guó)防部研究所贊助了五年期限的語(yǔ)音理解研究項(xiàng)目,推動(dòng)了語(yǔ)音識(shí)別的一次大發(fā)展。參與該項(xiàng)目的公司和學(xué)術(shù)機(jī)構(gòu)包括IBM、卡內(nèi)基梅隆大學(xué)、斯坦福研究院。Harpy系統(tǒng)也就在這樣的背景下誕生了,該系統(tǒng)能夠識(shí)別1011個(gè)單詞,在這個(gè)時(shí)期大詞匯量的孤立詞識(shí)別取得實(shí)質(zhì)性進(jìn)展。
到了80年代,研究思路發(fā)生了重大變化,語(yǔ)音識(shí)別技術(shù)已經(jīng)從孤立詞識(shí)別發(fā)展到連續(xù)詞識(shí)別,當(dāng)時(shí)出現(xiàn)了兩項(xiàng)非常重要的技術(shù),即隱馬爾科夫模型(HMM)、N-gram語(yǔ)言模型。1984年,IBM發(fā)布的語(yǔ)音識(shí)別系統(tǒng)在5000個(gè)詞匯量級(jí)上達(dá)到了95%的識(shí)別率。1987年12月,李開(kāi)復(fù)開(kāi)發(fā)出世界上第一個(gè)“非特定人連續(xù)語(yǔ)音識(shí)別系統(tǒng)”。
1990年,大詞匯量連續(xù)詞識(shí)別持續(xù)進(jìn)步,提出了區(qū)分性的模型訓(xùn)練方法MCE和MMI,使得語(yǔ)音識(shí)別的精確度日益提高,尤其適用于長(zhǎng)句子的情況。與此同時(shí),還提出了模型自適應(yīng)方法MAP和MLLR。
到了21世紀(jì),隨著深度學(xué)習(xí)的不斷發(fā)展,神經(jīng)網(wǎng)絡(luò)之父Hinton提出深度置信網(wǎng)絡(luò)(DBN)。2009年,Hinton和學(xué)生Mohamed將深度神經(jīng)網(wǎng)絡(luò)應(yīng)用于語(yǔ)音識(shí)別,在小詞匯量連續(xù)語(yǔ)音識(shí)別任務(wù)TIMIT上獲得成功。
2017年,微軟發(fā)布新的里程碑技術(shù)。通過(guò)改進(jìn)微軟語(yǔ)音識(shí)別系統(tǒng)中基于神經(jīng)網(wǎng)絡(luò)的聽(tīng)覺(jué)和語(yǔ)言模型,在Swichboard上達(dá)到詞錯(cuò)誤率僅為5.1%,比此前降低了大約12%,并聲稱已經(jīng)超過(guò)專業(yè)速記員(在特定環(huán)境下)。
由于中文語(yǔ)音識(shí)別的復(fù)雜性,我國(guó)在聲學(xué)模型方面的研究進(jìn)展相對(duì)更快一些,主流方向是更深更復(fù)雜的神經(jīng)網(wǎng)絡(luò)技術(shù)融合端到端技術(shù),也表現(xiàn)了強(qiáng)大的技術(shù)實(shí)力。
2018年,科大訊飛提出深度全序列卷積神經(jīng)網(wǎng)絡(luò)(DFCNN),使用大量的卷積直接對(duì)整句語(yǔ)音信號(hào)進(jìn)行建模。同年,阿里提出LFR-DFSMN模型,將低幀率算法和DFSMN算法進(jìn)行融合,語(yǔ)音識(shí)別錯(cuò)誤率相比上一代技術(shù)降低20%,解碼速度提升3倍。2019年,百度提出了流式多級(jí)的截?cái)嘧⒁饬δP蚐MLTA,該模型在LSTM和CTC的基礎(chǔ)上引入了注意力機(jī)制來(lái)獲取更大范圍和更有層次的上下文信息。在線語(yǔ)音識(shí)別率上,該模型比百度上一代Deep Peak2模型提升相對(duì)15%的性能。
語(yǔ)音識(shí)別的基本過(guò)程
首先是確定文件格式。常見(jiàn)的聲音格式MP3、WMA等都是壓縮格式,要進(jìn)行語(yǔ)音識(shí)別須采用WAV格式的聲音文件,也就是未經(jīng)壓縮的,里面存的是聲音波形的具體信息。聲音在數(shù)字化之后就是圖1所示的形狀。
在開(kāi)始語(yǔ)音識(shí)別之前,有時(shí)需要把首尾段的靜音切除,盡量降低對(duì)后續(xù)步驟的干擾。然后把聲音分幀,即把聲音分成一系列的小段,每小段稱為一幀,分幀的操作不是簡(jiǎn)單切割,而是通過(guò)移動(dòng)窗函數(shù)來(lái)實(shí)現(xiàn),幀與幀之間一般是有交疊的,如圖2所示。
接著,再進(jìn)行聲學(xué)特征提取。語(yǔ)音分成小段后,再做波形變換。常見(jiàn)的一種變換方法是提取MFCC(聲學(xué)特征有多種)特征,根據(jù)人耳的生理特性,把每一幀波形變成一個(gè)多維向量,可以簡(jiǎn)單地理解為這個(gè)向量包含了這幀語(yǔ)音的內(nèi)容信息。聲音就成了一個(gè)M行N列的矩陣,稱之為觀察序列,如下頁(yè)圖3所示。每一幀都用一個(gè)12維的向量表示,色塊的顏色深淺表示向量值的大小。
接著就是把矩陣變成文本的過(guò)程。把幀識(shí)別成狀態(tài),把狀態(tài)組合成音素,把音素組合成單詞?!耙羲亍笔菢?gòu)成單詞發(fā)音的基本單元,英語(yǔ)常用的音素集是由卡內(nèi)基梅隆大學(xué)設(shè)計(jì)的一套由39個(gè)音素構(gòu)成的音素集,漢語(yǔ)一般直接用全部聲母和韻母作為音素集,另外漢語(yǔ)識(shí)別還需分聲調(diào)?!盃顟B(tài)”可以理解為比音素更細(xì)分的語(yǔ)音單位,通常把一個(gè)音素劃分為3個(gè)“狀態(tài)”,如下頁(yè)圖4所示。圖中每個(gè)小豎條代表一幀,若干幀語(yǔ)音對(duì)應(yīng)一個(gè)狀態(tài),每三個(gè)狀態(tài)組合成一個(gè)音素,若干個(gè)音素組合成一個(gè)單詞。所以只要知道每幀語(yǔ)音對(duì)應(yīng)哪個(gè)狀態(tài),語(yǔ)音識(shí)別的工作就完成了。
幀對(duì)應(yīng)的狀態(tài)尋找是根據(jù)對(duì)應(yīng)狀態(tài)的概率大小來(lái)進(jìn)行的,概率大小的數(shù)據(jù)來(lái)源于“聲學(xué)模型”,這個(gè)模型里存了很多參數(shù),通過(guò)這些參數(shù)就可以知道幀和狀態(tài)對(duì)應(yīng)的概率。獲取這些參數(shù)的方法叫做“訓(xùn)練”,這就需要使用大量語(yǔ)音數(shù)據(jù)。因?yàn)槊繋紩?huì)得到一個(gè)狀態(tài)號(hào),所以結(jié)果會(huì)是非常多的雜亂無(wú)章的狀態(tài)號(hào)。實(shí)際上一段語(yǔ)音不會(huì)有太多的音素,最常用的方法是使用隱馬爾可夫模型(Hidden Markov Model,HMM)。這個(gè)模型通過(guò)構(gòu)建一個(gè)狀態(tài)網(wǎng)絡(luò),從中尋找與聲音最匹配的路徑??偟膩?lái)說(shuō),語(yǔ)音識(shí)別的過(guò)程其實(shí)就是在狀態(tài)網(wǎng)絡(luò)中搜索一條最佳路徑。
語(yǔ)音識(shí)別主流技術(shù)介紹
從語(yǔ)音識(shí)別算法的發(fā)展來(lái)看,語(yǔ)音識(shí)別技術(shù)主要分為三大類:第一類是模型匹配法,包括矢量量化(VQ)、動(dòng)態(tài)時(shí)間規(guī)整(DTW)等;第二類是概率統(tǒng)計(jì)方法,包括高斯混合模型(GMM)、隱馬爾科夫模型(HMM)等;第三類是辨別器分類方法,如支持向量機(jī)(SVM)、人工神經(jīng)網(wǎng)絡(luò)(ANN)和深度神經(jīng)網(wǎng)絡(luò)(DNN)等,以及多種組合方法。下面對(duì)主流的識(shí)別技術(shù)做簡(jiǎn)單介紹。
1.動(dòng)態(tài)時(shí)間規(guī)整(DTW)
Dynamic Time Warping(DTW)由日本學(xué)者Itakura提出,是一種衡量?jī)蓚€(gè)長(zhǎng)度不同的時(shí)間序列的相似度的方法。其應(yīng)用也比較廣,主要是用在模板匹配中,如用在孤立詞語(yǔ)音識(shí)別(識(shí)別兩段語(yǔ)音是否表示同一個(gè)單詞)、手勢(shì)識(shí)別、數(shù)據(jù)挖掘和信息檢索中等。
在語(yǔ)音識(shí)別中,由于語(yǔ)音信號(hào)的隨機(jī)性,如即使同一個(gè)人發(fā)的同一個(gè)音,只要說(shuō)話環(huán)境和情緒不同,時(shí)間長(zhǎng)度也不盡相同,因此時(shí)間規(guī)整是必不可少的。DTW是一種將時(shí)間規(guī)整與距離測(cè)度有機(jī)結(jié)合的非線性規(guī)整技術(shù),在語(yǔ)音識(shí)別時(shí),需要把測(cè)試模板與參考模板進(jìn)行實(shí)際比對(duì)和非線性伸縮,并依照某種距離測(cè)度選取距離最小的模板作為識(shí)別結(jié)果輸出。動(dòng)態(tài)時(shí)間規(guī)整技術(shù)的引入,將測(cè)試語(yǔ)音映射到標(biāo)準(zhǔn)語(yǔ)音時(shí)間軸上,使長(zhǎng)短不等的兩個(gè)信號(hào)最后通過(guò)時(shí)間軸彎折達(dá)到一樣的時(shí)間長(zhǎng)度,進(jìn)而使得匹配差別最小,結(jié)合距離測(cè)度,得到測(cè)試語(yǔ)音與標(biāo)準(zhǔn)語(yǔ)音之間的距離。在實(shí)現(xiàn)小詞匯表孤立詞識(shí)別系統(tǒng)時(shí),DTW識(shí)別率及其他指標(biāo)與HMM算法實(shí)現(xiàn)幾乎等同。又由于HMM算法復(fù)雜,在訓(xùn)練階段需要提供大量的語(yǔ)音數(shù)據(jù)通過(guò)反復(fù)計(jì)算才能得到模型參數(shù),而DTW算法本身既簡(jiǎn)單又有效,因此DTW算法在特定的場(chǎng)合下獲得了廣泛的應(yīng)用。
2.支持向量機(jī)(SVM)
SVM法即支持向量機(jī)法(Support Vector Machine),由俄羅斯統(tǒng)計(jì)學(xué)家、數(shù)學(xué)家Vapnik等人于1995年提出,具有相對(duì)優(yōu)良的性能指標(biāo)。該方法是建立在統(tǒng)計(jì)學(xué)習(xí)理論基礎(chǔ)上的機(jī)器學(xué)習(xí)方法。通過(guò)學(xué)習(xí)算法,SVM可以自動(dòng)尋找出那些對(duì)分類有較好區(qū)分能力的支持向量,由此構(gòu)造出的分類器可以最大化間隔類與類,因而有較好的適應(yīng)能力和較高的分準(zhǔn)率。該方法只需要由各類域的邊界樣本的類別來(lái)決定最后的分類結(jié)果。支持向量機(jī)算法的目的在于尋找一個(gè)超平面H(d),該超平面可以將訓(xùn)練集中的數(shù)據(jù)分開(kāi),且與類域邊界的沿垂直于該超平面方向的距離最大,故SVM法亦被稱為最大邊緣算法。待分樣本集中的大部分樣本不是支持向量,移去或者減少這些樣本對(duì)分類結(jié)果沒(méi)有影響,SVM法對(duì)小樣本情況下的自動(dòng)分類有著較好的分類結(jié)果。
SVM方法是通過(guò)一個(gè)非線性映射p,把樣本空間映射到一個(gè)高維乃至無(wú)窮維的特征空間中(Hilbert空間),使得在原來(lái)的樣本空間中非線性可分的問(wèn)題轉(zhuǎn)化為在特征空間中的線性可分的問(wèn)題。簡(jiǎn)單地說(shuō),就是升維和線性化。升維,就是把樣本向高維空間做映射,一般情況下會(huì)增加計(jì)算的復(fù)雜性,甚至?xí)稹熬S數(shù)災(zāi)難”,因而人們很少問(wèn)津。但是作為分類、回歸等問(wèn)題來(lái)說(shuō),很可能在低維樣本空間無(wú)法線性處理的樣本集,在高維特征空間中卻可以通過(guò)一個(gè)線性超平面實(shí)現(xiàn)線性劃分(或回歸)。一般的升維都會(huì)帶來(lái)計(jì)算的復(fù)雜化,而SVM方法巧妙地解決了這個(gè)難題:應(yīng)用核函數(shù)的展開(kāi)定理,就不需要知道非線性映射的顯式表達(dá)式;由于是在高維特征空間中建立線性學(xué)習(xí)機(jī),所以與線性模型相比,不但幾乎不增加計(jì)算的復(fù)雜性,而且在某種程度上避免了“維數(shù)災(zāi)難”。這一切要?dú)w功于核函數(shù)的展開(kāi)和計(jì)算理論。選擇不同的核函數(shù),可以生成不同的SVM,常用的核函數(shù)有以下4種:
①線性核函數(shù)K(x,y)=x·y;
②多項(xiàng)式核函數(shù)K(x,y)=[(x·y)+1]^d;
③徑向基函數(shù)K(x,y)=exp(-|x-y|^2/d^2);
④二層神經(jīng)網(wǎng)絡(luò)核函數(shù)K(x,y)=tanh(a(x·y)+b)。
3.矢量量化(VQ)
矢量量化VQ(Vector Quantization)是一種廣泛應(yīng)用于語(yǔ)音和圖像壓縮編碼等領(lǐng)域的重要信號(hào)壓縮技術(shù),其基本原理是把每幀特征矢量參數(shù)在多維空間中進(jìn)行整體量化,在信息量損失較小的情況下對(duì)數(shù)據(jù)進(jìn)行壓縮。模擬信號(hào)是連續(xù)的值,而計(jì)算機(jī)只能處理離散的數(shù)字信號(hào),所以在將模擬信號(hào)轉(zhuǎn)換為數(shù)字信號(hào)的時(shí)候,我們可以用區(qū)間內(nèi)的某一個(gè)值去代替這一個(gè)區(qū)間,如[0,1]上的所有值變?yōu)?,則[1,2]上的所有值變成1,以此類推。因此,它不僅可以減小數(shù)據(jù)存儲(chǔ),而且還能提高系統(tǒng)運(yùn)行速度,保證語(yǔ)音編碼質(zhì)量和壓縮效率,一般應(yīng)用于小詞匯量的孤立詞語(yǔ)音識(shí)別系統(tǒng)。
4.隱馬爾科夫模型(HMM)
隱馬爾科夫模型是一種統(tǒng)計(jì)模型,它用來(lái)描述一個(gè)含有隱含未知參數(shù)的馬爾可夫過(guò)程。其難點(diǎn)是從可觀察的參數(shù)中確定該過(guò)程的隱含參數(shù),然后利用這些參數(shù)來(lái)做進(jìn)一步的分析,目前多應(yīng)用于語(yǔ)音信號(hào)處理領(lǐng)域。在該模型中,馬爾科夫(Markov)鏈中的一個(gè)狀態(tài)是否轉(zhuǎn)移到另一個(gè)狀態(tài)取決于狀態(tài)轉(zhuǎn)移概率,而某一狀態(tài)產(chǎn)生的觀察值取決于狀態(tài)生成概率。在進(jìn)行語(yǔ)音識(shí)別時(shí),HMM首先為每個(gè)識(shí)別單元建立發(fā)聲模型,通過(guò)長(zhǎng)時(shí)間訓(xùn)練得到狀態(tài)轉(zhuǎn)移概率矩陣和輸出概率矩陣,在識(shí)別時(shí)根據(jù)狀態(tài)轉(zhuǎn)移過(guò)程中的最大概率進(jìn)行判決。
5.高斯混合模型(GMM)
高斯混合模型(Gaussian Mixed Model)指的是多個(gè)高斯分布函數(shù)的線性組合,理論上GMM可以擬合出任意類型的分布,通常用于解決同一集合下的數(shù)據(jù)包含多個(gè)不同的分布的情況。高斯混合模型種類有單高斯模型(Single Gaussian Model,SGM)和高斯混合模型(Gaussian Mixture Model,GMM)兩類。類似于聚類,根據(jù)高斯概率密度函數(shù)(Probability Density Function, PDF)參數(shù)不同,每一個(gè)高斯模型可以看作一種類別,輸入一個(gè)樣本x,即可通過(guò)PDF計(jì)算其值,然后通過(guò)一個(gè)閾值來(lái)判斷該樣本是否屬于高斯模型。
6.人工神經(jīng)網(wǎng)絡(luò)(ANN/BP)
人工神經(jīng)網(wǎng)絡(luò)于20世紀(jì)80年代末被提出,其本質(zhì)是一個(gè)基于生物神經(jīng)系統(tǒng)的自適應(yīng)非線性動(dòng)力學(xué)系統(tǒng),它旨在充分模擬神經(jīng)系統(tǒng)執(zhí)行任務(wù)的方式。如同人的大腦一樣,神經(jīng)網(wǎng)絡(luò)是由相互聯(lián)系、相互影響各自行為的神經(jīng)元構(gòu)成,這些神經(jīng)元也稱為節(jié)點(diǎn)或處理單元。神經(jīng)網(wǎng)絡(luò)通過(guò)大量節(jié)點(diǎn)來(lái)模仿人類神經(jīng)元活動(dòng),并將所有節(jié)點(diǎn)連接成信息處理系統(tǒng),以此來(lái)反映人腦功能的基本特性。人工神經(jīng)網(wǎng)絡(luò)已經(jīng)被廣泛地運(yùn)用到語(yǔ)音識(shí)別領(lǐng)域當(dāng)中。人工神經(jīng)網(wǎng)絡(luò)在語(yǔ)音識(shí)別中的應(yīng)用研究方向主要分為三個(gè)部分:①人工神經(jīng)網(wǎng)絡(luò)技術(shù)的提升;②實(shí)現(xiàn)人工神經(jīng)網(wǎng)絡(luò)與現(xiàn)有的科學(xué)技術(shù)結(jié)合,進(jìn)而形成全新的混合系統(tǒng),并對(duì)其進(jìn)行研究與應(yīng)用;③對(duì)具有創(chuàng)新性和具有較大發(fā)展?jié)摿Φ纳窠?jīng)元網(wǎng)絡(luò)進(jìn)行深入研究,并將其運(yùn)用到語(yǔ)音識(shí)別領(lǐng)域當(dāng)中,實(shí)現(xiàn)語(yǔ)音信號(hào)處理環(huán)節(jié)的升級(jí)和優(yōu)化。
7.深度神經(jīng)網(wǎng)絡(luò)/深信度網(wǎng)絡(luò)-隱馬爾科夫(DNN/DBN-HMM)
當(dāng)前,諸如ANN、BP等多數(shù)分類的學(xué)習(xí)方法都是淺層結(jié)構(gòu)算法,與深層算法相比存在局限。尤其當(dāng)樣本數(shù)據(jù)有限時(shí),它們表征復(fù)雜函數(shù)的能力明顯不足。深度學(xué)習(xí)可通過(guò)學(xué)習(xí)深層非線性網(wǎng)絡(luò)結(jié)構(gòu),實(shí)現(xiàn)復(fù)雜函數(shù)逼近,表征輸入數(shù)據(jù)分布式,并展現(xiàn)從少數(shù)樣本集中學(xué)習(xí)本質(zhì)特征的強(qiáng)大能力。在深度結(jié)構(gòu)非凸目標(biāo)代價(jià)函數(shù)中普遍存在的局部最小問(wèn)題是訓(xùn)練效果不理想的主要根源。為了解決以上問(wèn)題,我們提出了基于深度神經(jīng)網(wǎng)絡(luò)(DNN)的非監(jiān)督貪心逐層訓(xùn)練算法,它利用空間相對(duì)關(guān)系減少參數(shù)數(shù)目以提高神經(jīng)網(wǎng)絡(luò)的訓(xùn)練性能。相比傳統(tǒng)的基于GMM-HMM的語(yǔ)音識(shí)別系統(tǒng),其最大的改變是采用深度神經(jīng)網(wǎng)絡(luò)替換GMM模型對(duì)語(yǔ)音的觀察概率進(jìn)行建模。
語(yǔ)音識(shí)別技術(shù)應(yīng)用
一般地,我們將語(yǔ)音識(shí)別技術(shù)的應(yīng)用分為兩大類:一類是大詞匯量連續(xù)語(yǔ)音識(shí)別系統(tǒng),主要應(yīng)用于計(jì)算機(jī)的聽(tīng)寫機(jī),以及與電話網(wǎng)或者互聯(lián)網(wǎng)相結(jié)合的語(yǔ)音信息查詢服務(wù)系統(tǒng),這些系統(tǒng)都是在計(jì)算機(jī)平臺(tái)上實(shí)現(xiàn)的;另一類是小型化、便攜式語(yǔ)音產(chǎn)品的應(yīng)用,如手機(jī)語(yǔ)音撥號(hào)、汽車設(shè)備的語(yǔ)音控制等方面的應(yīng)用,這些應(yīng)用系統(tǒng)大都是使用專門的硬件系統(tǒng)實(shí)現(xiàn)的。
限于篇幅,有關(guān)語(yǔ)音識(shí)別技術(shù)的原理探究與應(yīng)用場(chǎng)景,我們將在下一講中繼續(xù)介紹。