許小春
聊城職業(yè)技術(shù)學(xué)院 山東聊城 252000
智能語音識別技術(shù)是語音信號處理領(lǐng)域的一項主要技術(shù),成為信息技術(shù)中人類與機器接口方面的關(guān)鍵技術(shù)之一。智能語音識別技術(shù)可以讓機器通過識別、理解,把聲音信號轉(zhuǎn)化為相應(yīng)的文本或命令,讓機器能夠聽懂人類的語言,從而做出正確的操作。智能語音識別技術(shù),涉及模式識別、物理聲學(xué)、信號處理、計算機科學(xué)、心理學(xué)和語言學(xué)等多個學(xué)科,不同的智能語音識別系統(tǒng)的具體實現(xiàn)程序不同,但它們采用的基本技術(shù)卻是相似的,主要包括特征提取技術(shù)、語音信號建模技術(shù)和模型訓(xùn)練技術(shù)三個基本技術(shù)。
近年來,現(xiàn)代科學(xué)技術(shù)呈現(xiàn)出高速發(fā)展的態(tài)勢,特別是人工智能技術(shù)得到了前所未有的發(fā)展,該技術(shù)讓人類充分體驗到了現(xiàn)代科學(xué)技術(shù)帶來的便利優(yōu)勢。隨著便利優(yōu)勢的體現(xiàn),人們開始了對更高生活質(zhì)量的追求,為了使生活和工作更加便利,智能語音識別技術(shù)得到了迅速發(fā)展。近年來,智能語音識別技術(shù)在人類生活和工作中已經(jīng)應(yīng)用得越來越廣泛,但是仍然存在許多不易解決的問題,比如計算效率問題、環(huán)境問題等。智能語音識別技術(shù)是人機交互研究的重要基礎(chǔ),對人工智能的發(fā)展有著重要的理論和應(yīng)用價值。
智能語音識別技術(shù)在未來將會是一個熱門的領(lǐng)域,國家和企業(yè)對智能語音識別技術(shù)給予大量資金支持。智能語音技術(shù)中的智能語音助手,核心在于人類通過語音信息來實現(xiàn)與機器的交互,讓智能語音助手幫忙完成人類指派的任務(wù)?;谥悄苷Z音識別的人機交互有著很大的發(fā)展?jié)摿?,所以很多企業(yè)都看好這個方向,對人類生活質(zhì)量的進一步提高有著很大的實用價值。
智能語音識別的理論技術(shù)主要包括如下三方面內(nèi)容:特征提取技術(shù)(語音信號的表示)、語音信號建模(語音識別單元的選取)及模型訓(xùn)練技術(shù)。人類語音的多變性和復(fù)雜性使得智能語音識別理論技術(shù)的研究面臨著巨大的挑戰(zhàn)。
圖1 智能語音識別流程圖
特征參數(shù)提取技術(shù)主要是從人類語音信號中提取出相關(guān)的參數(shù),來描述人類說話的目的。人類語音信號中含有各種信息,語音信號特征提取是語音信號處理的前提,可以提取出對智能語音識別有用的信息,它可以對語音信號進行分析和處理,去除無關(guān)緊要的語言信息,通過提取語音信號本質(zhì)特征的參數(shù)來識別語音信號的主要信息。
LPCC基于聲道模型,它是目前進行語音信號分析最流行的分析技術(shù)之一。線性預(yù)測技術(shù)LPC用線性預(yù)測法分析出語音信號相鄰樣值之間的關(guān)系,從而得到一組語音信號模型參數(shù)。這組語音信號模型參數(shù)可以較精確地表征出語音信號頻譜幅度。
在識別建模階段主要用的是模式匹配法。語音信號建模單元有單詞、音節(jié)和音素三種。音節(jié)單元主要應(yīng)用于中小詞匯的智能語音識別系統(tǒng),不適合大詞匯的智能語音識別系統(tǒng)。它主要應(yīng)用于漢語的智能語音識別,不適合英語的智能語音識別,主要原因在于漢語是單音節(jié)結(jié)構(gòu)的語言,而英語卻是多音節(jié)結(jié)構(gòu)的語言。對于中大詞匯量漢語智能語音識別系統(tǒng)來說,以音節(jié)為識別單元基本是可行的。音素是語音中最小的基本單位,是人類能區(qū)別每個單詞的基礎(chǔ)。在應(yīng)用中把聲母和韻母組合得不一樣而構(gòu)成細化聲母,這樣雖然增加了模型數(shù)目,卻可以提高易混淆音節(jié)的區(qū)分力。
模型訓(xùn)練是指按照一定的準(zhǔn)則,在大量已知的模式中獲取可以表征該模式的本質(zhì)特征模型參數(shù),使未知的模式與模型庫中的某一個模型獲得最佳的匹配,從而提高聲學(xué)模型的準(zhǔn)確率。智能語音識別所應(yīng)用的模型訓(xùn)練技術(shù)主要有基于GMM-HMM語音識別聲學(xué)模型訓(xùn)練方法和人工神經(jīng)元網(wǎng)絡(luò)(ANN)模型法。GMM-HMM訓(xùn)練法主要是針對GMM中均值與方差參數(shù)進行了調(diào)整,語音識別核心在于聲學(xué)模型,聲學(xué)模型核心在于GMM參數(shù)訓(xùn)練。人工神經(jīng)元網(wǎng)絡(luò)(ANN)模型法對應(yīng)狀態(tài)的發(fā)射概率也是同樣原理。
人類對智能語音識別的研究最早可追溯到20世紀(jì)50年代,Davis等人在1952年研制了世界上第一個能識別數(shù)字發(fā)音的實驗系統(tǒng),雖然只能識別固定的某個人說的英文數(shù)字,這次的研究卻正式開啟了智能語音識別的歷史進程。
從技術(shù)方向來看,智能語音識別發(fā)展至今可以大體分為三個發(fā)展階段。
圖2 發(fā)展歷程圖
20世紀(jì)50至70年代,智能語音識別主要集中在單個詞和小詞匯量識別方面,使用的方法主要有模式匹配方法、動態(tài)規(guī)劃算法和動態(tài)因素跟蹤法等。以上方法有很大的局限性,比如,模式匹配方法方法對解決單個詞識別是有效的,但對于大詞匯量的智能語音識別卻無能為力。Davis等人在1952年研制的能識別數(shù)字的智能語音識別系統(tǒng),主要依靠度量每個英文數(shù)字的元音音段的共振峰。英國的Denes等在1960年研究出了第一個計算機智能語音識別系統(tǒng),同樣也存在一定的局限性。
20世紀(jì)70年代后,小詞匯智能語音識別技術(shù)越來越成熟。到了80年代,人類就研制出了連續(xù)的智能語音識別系統(tǒng),并且還提出了將神經(jīng)網(wǎng)絡(luò)技術(shù)引入智能語音識別技術(shù)的想法,智能語音識別技術(shù)在這個時期得到很大的發(fā)展?;旌细咚鼓P捅粦?yīng)用到智能語音識別技術(shù)中,大大提升了智能語音識別的效果,但智能語音識別的準(zhǔn)確率還是很難達到90%以上。
20世紀(jì)90年代以后,人類對智能語音識別的研究得到了突飛猛進的發(fā)展。隨著深度學(xué)習(xí),智能語音識別的精度得到了大幅度的提升,準(zhǔn)確率達到90%以上。人機語音交互成為智能語音識別研究的焦點,包括口語的識別、口語對話和多語種的語音同聲翻譯等。技術(shù)取得了突破的同時,人類還依托智能語音識別系統(tǒng)生產(chǎn)出大量的與此相關(guān)的產(chǎn)品,如天貓精靈、語音遙控器等。
智能語音識別技術(shù)主要解決了讓機器聽懂人類說話的難題,它的應(yīng)用十分廣泛,目前主要應(yīng)用在工業(yè)、智能家居、車聯(lián)網(wǎng)、通信、醫(yī)療、電子產(chǎn)品等領(lǐng)域。智能語音識別技術(shù)在軍事、航空領(lǐng)域也得到了突破發(fā)展。
圖3 主要應(yīng)用領(lǐng)域
人機交互這種溝通方式應(yīng)用到家居中,能夠為居民帶來便利,特別是老人和小孩?,F(xiàn)在的智能家居系統(tǒng)大多都可以對接語音識別功能,如智能燈、空調(diào)、窗簾、電視、門窗、安防與監(jiān)控等都可以植入語音控制,智能語音識別技術(shù)還可應(yīng)用于智能微波爐、電飯煲、掃地機器人等其他領(lǐng)域。
傳統(tǒng)的控制電視交互方式有遙控器、手機APP、鍵盤鼠標(biāo)等,隨著用戶對電視操控越來越復(fù)雜,傳統(tǒng)的交互方式已經(jīng)不能滿足用戶的要求。但是隨著智能語音識別系統(tǒng)的加入,電視可以根據(jù)用戶的語音做出快速響應(yīng),這樣可以讓智能電視的操控性得到大大提高。智能電視主要是通過安裝適配的智能語音識別軟件,智能語音識別軟件連接到互聯(lián)網(wǎng)并向客戶端發(fā)送接收到的語音識別信號,通過客戶端返回對應(yīng)的指令,實現(xiàn)對智能電視的操作。智能電視操作系統(tǒng)能夠滿足用戶多樣化功能的需求,比如,用戶可以說“換臺”等直接找到自己想要看的電視節(jié)目。
傳統(tǒng)的車載終端系統(tǒng)需要駕駛員駕車的同時進行手動操作,增加了駕駛員分心的風(fēng)險。駕駛員在駕車的同時操作電子設(shè)備導(dǎo)致目光偏離了前方,這是造成交通事故的原因之一。隨著智能語音識別技術(shù)融入車聯(lián)網(wǎng)中,很大程度上減輕了駕駛?cè)藛T眼睛和手的操作壓力,特別是在駕駛員負荷駕駛環(huán)境下,減少了交通事故的發(fā)生,提高了駕駛的安全性。目前,我國已經(jīng)具備車載語音終端系統(tǒng)的開發(fā)技術(shù),特別是基于小詞匯量的智能語音識別技術(shù)已經(jīng)很成熟。該系統(tǒng)可以實現(xiàn)駕駛員車輛指令、語音撥號、語音導(dǎo)航目的地輸入、車載個人娛樂等功能。比如,在汽車上可以安裝聲控免提電話,當(dāng)駕駛員想要撥打電話時,駕駛員只需要說出相應(yīng)的電話號碼,智能語音識別系統(tǒng)就可以根據(jù)識別結(jié)果自動撥打出相應(yīng)的電話?;谲囕v內(nèi)部環(huán)境溫度,智能語音識別率相對較高,這種人機交互方式,不僅可以讓駕駛員的手和眼睛得到解放,還可以極大地提升駕駛員的駕駛體驗。
隨著醫(yī)院臨床業(yè)務(wù)總量不斷增長,醫(yī)務(wù)工作人員需要將大量精力用在書寫檢查報告、病程記錄、門診病歷等病人信息上面,這些必要的工作占用醫(yī)務(wù)人員大量的工作時間。智能語音識別技術(shù)引入醫(yī)療系統(tǒng)后,醫(yī)務(wù)人員可以用語音錄入代替手寫或者鍵盤輸入,極大地提高了醫(yī)務(wù)人員書寫病歷記錄等病人信息的效率,降低了醫(yī)務(wù)人員的工作強度,降低了醫(yī)療系統(tǒng)日常的運作成本,突破了傳統(tǒng)醫(yī)療信息記錄模式的局限。比如,在門診上,醫(yī)生可以將患者的病狀口述下來,錄制成語音檔案,智能語音識別系統(tǒng)可以將醫(yī)生口述的語音轉(zhuǎn)換成準(zhǔn)確度高的初步文件,通過電腦再進行快速的核對和編輯,不需要醫(yī)生將病人狀況逐字逐句地輸入電腦,就能輕松地把病人情況轉(zhuǎn)換成電子病例檔案。隨著智能語音識別技術(shù)在臨床上的應(yīng)用,醫(yī)務(wù)人員大大節(jié)約了寶貴時間,縮短病人無效的等待時間,間接地提高醫(yī)院救治病人的能力。
智能語音識別技術(shù)在軍事領(lǐng)域也有著極為重要的應(yīng)用價值。目前,部分智能語音識別技術(shù)專門針對軍事活動而進行研發(fā),并在識別精度、響應(yīng)時間、環(huán)境影響等方面進一步精細化。在軍事指揮和控制自動化方面,智能語音識別技術(shù)已經(jīng)得到廣泛應(yīng)用。在軍事指揮模擬訓(xùn)練中,為了增強模擬訓(xùn)練的實戰(zhàn)效果,語言是最自然、最符合實際的信息載體。將智能語音識別技術(shù)引入軍事模擬訓(xùn)練系統(tǒng),該技術(shù)可充分改善人機交互的通信界面,更真實地體現(xiàn)出軍人的協(xié)同訓(xùn)練。在控制自動化方面,工作人員將智能語音識別技術(shù)用于航空飛機的飛行控制,飛行員可以利用語音輸入來完成傳統(tǒng)的手動操作控制。這樣不僅提高了航空作戰(zhàn)效率,還減輕了航空飛行員的操作壓力。
智能語音識別技術(shù)雖然有了歷史性的進展,但依舊存在著一些技術(shù)上的不足。智能語音識別技術(shù)存在無法區(qū)分各地方言,無法對環(huán)境中的噪聲過濾等問題,這些導(dǎo)致智能語音識別技術(shù)進入了一個發(fā)展瓶頸期,在技術(shù)發(fā)展上受到了一定的限制性。
智能語音識別對人機之間的距離有一定的要求,超過一定的距離時,機器將很難識別出講話人的語言,甚至?xí)V构ぷ鞑辉龠M行智能語音識別工作。比如,用天貓精靈控制家電的時候,講話人和天貓精靈之間的距離超出5~8米時,天貓精靈將不做出反應(yīng)。
智能語音識別系統(tǒng)的適應(yīng)性比較差,有很強的環(huán)境依賴性。語言識別系統(tǒng)只能在比較安靜的環(huán)境下,才能得到高精準(zhǔn)度的語言識別。在嘈雜的環(huán)境中,人類會下意識地提高音量、變慢語速、改變音調(diào)等,這些變化會導(dǎo)致音調(diào)及共振峰的變化,智能語音識別系統(tǒng)將很難識別出講話人的語言。
人類的語音信號有著很大的抽象性、適應(yīng)性,由于講話人發(fā)音過程中音調(diào)、音量、重音和發(fā)音速度的不同,會導(dǎo)致講話人的意思不同。人類可以根據(jù)已有的語言背景來對說話者的意思進行分析,但是機器卻不具備這樣的能力。不同的說話人由于性別、情緒、環(huán)境、年齡等因素,相同內(nèi)容的發(fā)音存在著很大的差異,智能語音識別系統(tǒng)的適應(yīng)性遠不如人類,比如,一些智能語音識別系統(tǒng)不能對幼兒的語言進行識別。
不同的地方,總會有一些特殊的方言詞語或者奇異的發(fā)音,這對于人類來說并不是什么大問題,還會讓人類感受到異國風(fēng)情,但是對智能語音識別系統(tǒng)來說,這卻是大難題??谝羰歉鞯卣Z言中普遍存在的現(xiàn)象,人類發(fā)音極其不規(guī)則,比如,在一些方言中,不能很清楚地區(qū)分“z”和“zh”“c”和“ch”“s”和“sh”“n”和“l(fā)”、前鼻音和后鼻音等,同一個字,音調(diào)也不一樣。目前,這些問題是智能語音識別技術(shù)的一條難以跨越的鴻溝。
智能語音識別技術(shù)涉及多個專業(yè)領(lǐng)域,急需有一套標(biāo)準(zhǔn)化的工作系統(tǒng),從而實現(xiàn)各領(lǐng)域的分工和協(xié)作,促進社會經(jīng)濟的進一步發(fā)展。隨著互聯(lián)網(wǎng)的快速發(fā)展、企業(yè)資金的大量投入和國家政策的支持,作為人機交互最為重要的接口之一,智能語音識別技術(shù)將會吸引更多研究人員去研究,智能語音識別技術(shù)將會很快走出瓶頸期,得到一個質(zhì)的發(fā)展。