劉豫軍 夏 聰
(珠海多玩信息技術(shù)有限公司 廣東 519000)
近期,語音識(shí)別在移動(dòng)終端上的應(yīng)用最為火熱,語音對(duì)話機(jī)器人、語音助手、互動(dòng)工具等層出不窮,許多互聯(lián)網(wǎng)公司紛紛投入人力、物力和財(cái)力展開此方面的研究和應(yīng)用,目的是通過語音交互的新穎和便利模式迅速占領(lǐng)客戶群。我國采用嵌入式芯片設(shè)計(jì)技術(shù)研發(fā)了語音識(shí)別專用芯片系統(tǒng),這是國內(nèi)研發(fā)的第一塊語音識(shí)別專用芯片。芯片中包括了語音識(shí)別、語音編碼、語音合成功能,可以識(shí)別30條特定人語音命令,識(shí)別率超過 95%[1]。這些系統(tǒng)的識(shí)別性能完全達(dá)到國際先進(jìn)水平。研發(fā)的成果已經(jīng)進(jìn)入實(shí)用領(lǐng)域,一些應(yīng)用型產(chǎn)品正在研發(fā)中,其商品化的過程也越來越快,而孤立詞識(shí)別憑借著識(shí)別憑借著識(shí)別準(zhǔn)確度高、具有較強(qiáng)使用價(jià)值等優(yōu)點(diǎn)打開了廣闊的應(yīng)用前景。
首先,實(shí)現(xiàn)小詞匯量語音識(shí)別系統(tǒng)最可靠的方法為孤立詞語音識(shí)別。雖然孤立詞語音識(shí)別較其他類型的語音識(shí)別成熟完善,基本可以達(dá)到使用要求,但在實(shí)際的具體系統(tǒng)應(yīng)用環(huán)境中,仍存在一些影響因素使其識(shí)別率降低,孤立詞語音識(shí)別存在的難點(diǎn)問題有:
(1)系統(tǒng)在面對(duì)環(huán)境變化時(shí)的穩(wěn)定性:環(huán)境噪聲廣泛存在易造成訓(xùn)練與測(cè)試環(huán)境不匹配,致使系統(tǒng)性能嚴(yán)重下降。
(2)系統(tǒng)詞匯的變化(增加):生活中,每天都會(huì)有大量新詞匯產(chǎn)生,這導(dǎo)致模型訓(xùn)練和識(shí)別難度加大,系統(tǒng)識(shí)別能力下降。
(3)選取識(shí)別基元:如何選擇識(shí)別基元,才能在穩(wěn)定性(大基元)和靈活性(小基元)間達(dá)到最佳的取舍,是研究難點(diǎn)。
孤立詞語音識(shí)別系統(tǒng)指人在發(fā)音時(shí),以單字的發(fā)音方式向語音識(shí)別系統(tǒng)輸入語音,詞語詞之間要有足夠的時(shí)間間隙,以便系統(tǒng)能夠檢測(cè)到始末點(diǎn)。采用這種方式的語音識(shí)別系統(tǒng)可以做到很高的識(shí)別率。語音識(shí)別系統(tǒng)本質(zhì)上是一種模式識(shí)別系統(tǒng),因此它的基本結(jié)構(gòu)與常規(guī)模式識(shí)別系統(tǒng)一樣,包含特征提取、預(yù)加重、分幀、端點(diǎn)檢測(cè)、模式匹配、參考模式庫等單元。圖1為孤立詞語音識(shí)別系統(tǒng)的原理框圖[3]。
圖1 孤立詞語音識(shí)別系統(tǒng)的原理框圖
孤立詞語音識(shí)別從本質(zhì)上來說是模式識(shí)別,語音識(shí)別過程就是根據(jù)模式匹配原則,按照一定的相似性度量法則,使待測(cè)語音的特征矢量與語音模式庫 中的某一個(gè)模板獲得最佳匹配的過程,如圖2所示。
圖2 孤立詞的語音識(shí)別過程
隱馬爾科夫模型(Hidden Markov Model,HMM):HMM是一種統(tǒng)計(jì)分析模型,是在馬爾可夫鏈的基礎(chǔ)上發(fā)展起來的。HMM 有算法成熟、效率高、易于訓(xùn)練等優(yōu)點(diǎn),被廣泛應(yīng)用于語音識(shí)別、行為識(shí)別、文字識(shí)別和故障診斷等多種領(lǐng)域,是目前語音識(shí)別的主流技術(shù)。對(duì)于非特定人連續(xù)識(shí)別,HMM 的表現(xiàn)性能良好。
HMM 的缺點(diǎn)在于統(tǒng)計(jì)模型的建立需要依賴一個(gè)較大的語音庫,這在實(shí)際工作中占有很大的工作量,且模型所需要的存儲(chǔ)量和匹配計(jì)算的運(yùn)算量相對(duì)較大[4]。
在已知系統(tǒng)目前的狀態(tài)(現(xiàn)在)的條件下,一個(gè)過程的“將來”僅依賴 “現(xiàn)在”而與“過去”無關(guān),這種過程稱為無記憶的單隨機(jī)過程(馬爾可夫過程)。時(shí)間和狀態(tài)都離散的馬爾可夫過程稱為馬爾可夫鏈。設(shè) S是一個(gè)由有限個(gè)狀態(tài)組成的集合,S={1,2,3,…,n-1,n},可以把馬爾可夫鏈看做小球隨時(shí)間在n種狀態(tài)跳動(dòng)的過程。
圖3 馬爾可夫鏈模型
圖4 幾種典型形狀的馬爾可夫鏈
預(yù)處理模塊,是對(duì)由用戶錄入的語音信號(hào)進(jìn)行初步處理,其目的是濾除與語音識(shí)別無關(guān)的較小的、會(huì)產(chǎn)生負(fù)面影響的信息等,并對(duì)語音進(jìn)行端點(diǎn)檢測(cè),需要有濾波器完成。
圖5 濾波后信號(hào)頻譜
預(yù)加重的目的是為了使語音信號(hào)的頻譜更加平坦,響應(yīng)函數(shù)為H(z)=μz-1
圖6 預(yù)加重前后語音信號(hào)對(duì)比圖
(1)語音分幀
語音分幀是為了獲得一個(gè)準(zhǔn)穩(wěn)態(tài)過程,以方便對(duì)語音信號(hào)進(jìn)行理論分析。加漢明窗可有效克服頻率泄漏現(xiàn)象。
圖7 加漢明窗前后語音信號(hào)對(duì)比圖
(2)特征提取[6]
通過話筒采集到的語音信號(hào)中含有很多冗余的信息,只有從語音信號(hào)中撮出的表示其特性關(guān)鍵參數(shù)來表征其特性,才可以為更語音模型庫的建立創(chuàng)造良好的前提條件。由于Mel 頻率濾波器組對(duì)人耳的擬合精確度較高,故相關(guān)研究人員將Mel頻率的倒譜系數(shù)(MFCC)視為一種理想的特征參數(shù),如圖 8所示。
圖8 MFCC提取過程框圖
(3)建立聲學(xué)模型庫
建立聲學(xué)模型庫最主要是,考慮兩方面的問題,即識(shí)別基元選擇問題和聲學(xué)模型的訓(xùn)練問題。語音識(shí)別的準(zhǔn)確度(識(shí)別性能)與以什么訓(xùn)練方式得到模板有很大關(guān)系
A偶然訓(xùn)練法(單一用戶、小詞匯量)
B多模板平均法(重復(fù)朗讀、特征矢量序列、動(dòng)態(tài)時(shí)間規(guī)整DTW平均)
C聚類訓(xùn)練法(用于非特定人的語音識(shí)別)
語音作為當(dāng)前通訊系統(tǒng)中最便捷的通信載體,隨著計(jì)算機(jī)和語音處理技術(shù)的發(fā)展,語音識(shí)別系統(tǒng)的實(shí)用性將進(jìn)一步提高。今后孤立詞語音識(shí)別技術(shù)的發(fā)展方向:
(1)不同語種之間的互譯——語音翻譯;
(2)非特定人、小詞匯、孤立詞、連續(xù)語音識(shí)別;
(3)人體語音口語與機(jī)器語音相結(jié)合的人機(jī)交互技術(shù);
(4)網(wǎng)絡(luò)語音和電話語音、面向通訊和互聯(lián)網(wǎng)的語音識(shí)別;
(5)逐步微型化發(fā)展,從PC機(jī)平臺(tái)到PDA堂上電腦,再到嵌入式的語音識(shí)別。
21世紀(jì)是信息和網(wǎng)絡(luò)的時(shí)代,Internet把全球各連接成一個(gè)地球村,海量的信息資源能夠通過互聯(lián)網(wǎng)在短暫的時(shí)間內(nèi)迅速傳播到全球各地,人與機(jī)器進(jìn)行信息互通的需求不斷增強(qiáng),迫切需要語音識(shí)別技術(shù)領(lǐng)域的技術(shù)成果,以滿足人們?cè)谌魏蔚胤?、任何時(shí)間、對(duì)任何事物都能夠通過語音交互的方式得以實(shí)現(xiàn)。從語音識(shí)別技術(shù)的發(fā)展可以看出,科學(xué)技術(shù)推動(dòng)了社會(huì)發(fā)展,滿足人們的需求,社會(huì)需求也反過來推動(dòng)科學(xué)技術(shù)發(fā)展,隨著語音識(shí)別技術(shù)的快速發(fā)展,我們將深切體會(huì)到語音識(shí)別帶來的種種便利。
語音識(shí)別技術(shù)發(fā)展到今天,特別是中小詞匯量非特定人語音識(shí)別系統(tǒng)識(shí)別精度已經(jīng)大于98%,對(duì)特定人語音識(shí)別系統(tǒng)的識(shí)別精度就更高。這些技術(shù)已經(jīng)能夠滿足通常應(yīng)用的要求。由于大規(guī)模集成電路技術(shù)的發(fā)展,這些復(fù)雜的語音識(shí)別系統(tǒng)也已經(jīng)完全可以制成專用芯片,大量生產(chǎn)。在西方經(jīng)濟(jì)發(fā)達(dá)國家,大量的語音識(shí)別產(chǎn)品已經(jīng)進(jìn)入市場(chǎng)和服務(wù)領(lǐng)域。一些用戶交機(jī)、電話機(jī)、手機(jī)已經(jīng)包含了語音識(shí)別撥號(hào)功能,還有語音記事本、語音智能玩具等產(chǎn)品也包括語音識(shí)別與語音合成功能。人們可以通過電話網(wǎng)絡(luò)用語音識(shí)別口語對(duì)話系統(tǒng)查詢有關(guān)的機(jī)票、旅游、銀行信息,并且取得很好的結(jié)果。調(diào)查統(tǒng)計(jì)表明多達(dá)85%以上的人對(duì)語音識(shí)別的信息查詢服務(wù)系統(tǒng)的性能表示滿意。
可以預(yù)測(cè)在近五到十年內(nèi),語音識(shí)別系統(tǒng)的應(yīng)用將更加廣泛。各種各樣的語音識(shí)別系統(tǒng)產(chǎn)品將出現(xiàn)在市場(chǎng)上,人們也將調(diào)整自己的說話方式以適應(yīng)各種各樣的識(shí)別系統(tǒng)。在短期內(nèi)還不可能造出具有和人相比擬的語音識(shí)別系統(tǒng),要建成這樣一個(gè)系統(tǒng)仍然是人類面臨的一個(gè)大的挑戰(zhàn),我們只能一步步朝著改進(jìn)語音識(shí)別系統(tǒng)的方向一步步地前進(jìn)。至于什么時(shí)候可以建立一個(gè)像人一樣完善的語音識(shí)別系統(tǒng)則是很難預(yù)測(cè)的。作為一項(xiàng)具有實(shí)用性的技術(shù),孤立詞語音識(shí)別的應(yīng)用越來越廣。為了滿足實(shí)際需求人們一直在致力于不斷完善孤立詞語音識(shí)別系統(tǒng),使語音識(shí)別具有更高的便捷性、高效性、隨機(jī)性、交互性等顯著特點(diǎn),從而進(jìn)一步推動(dòng)人類社會(huì)的信息化和自動(dòng)化進(jìn)程。
[1]劉鈺.語音識(shí)別技術(shù)概述[J].計(jì)算機(jī)光盤軟件與應(yīng)用.2010(14-17).
[2]倪崇嘉,劉文舉,徐波.漢語大詞匯量連續(xù)語音識(shí)別系統(tǒng)研究進(jìn)展[J].中文信息學(xué)報(bào).2009(01).
[3]王敏妲.語音識(shí)別技術(shù)的研究與發(fā)展[J].微型機(jī)與應(yīng)用.2009(55-58).
[4]李剛建.語音識(shí)別模式發(fā)展方向研究[J].吉林建筑工程學(xué)院學(xué)報(bào).2006(03).
[5]安鎮(zhèn)宙,楊鑒王,紅余映.范一種新的基于并行分段裁剪的DTW算法[J].計(jì)算機(jī)工程與應(yīng)用 2007(43)研究.
[6]田野.哭聲環(huán)境下語音檢測(cè)的穩(wěn)健性問題[M].西安電子科技大學(xué).2003.