曾小會(huì) 廖婷婷 全趙婕 貴州大學(xué)
科學(xué)家們對語音識(shí)別的研究開始于二十世紀(jì)五十年代,在這個(gè)探索時(shí)期人們僅初步了解了語音特征。1952年第一個(gè)能識(shí)別10個(gè)英文數(shù)字的識(shí)別系統(tǒng)在Bell實(shí)驗(yàn)室得到實(shí)現(xiàn)。隨后科學(xué)家們又相繼研制出針對特定人的能夠識(shí)別單音節(jié)詞的識(shí)別系統(tǒng),直到1959年林肯實(shí)驗(yàn)室實(shí)現(xiàn)了識(shí)別十個(gè)元音單元的識(shí)別系統(tǒng),這是第一個(gè)針對非特定人的識(shí)別系統(tǒng)。
六十年代,計(jì)算機(jī)的發(fā)展給語音識(shí)別帶來了新的機(jī)遇和發(fā)展平臺(tái),各種計(jì)算機(jī)算法和理論運(yùn)營而生,極大地促進(jìn)了語音識(shí)別技術(shù)的發(fā)展,使其從模擬化逐漸轉(zhuǎn)向數(shù)字化研究。
七十年代,科學(xué)家們在小量詞匯和孤立詞識(shí)別上加大研究力度,在特定人、孤立詞、小量詞匯方面取得了一定成就。
八十年代是語音識(shí)別技術(shù)研究的一個(gè)重要轉(zhuǎn)折時(shí)期,多項(xiàng)研究取得了巨大的突破,首先,由小量詞匯、孤立詞進(jìn)步為大量詞匯、連接詞和連續(xù)語音,并且逐漸脫離特定人轉(zhuǎn)而針對非特定人。其次,語音識(shí)別算法從模板匹配轉(zhuǎn)移到了統(tǒng)計(jì)模型,實(shí)現(xiàn)了統(tǒng)計(jì)模型隱馬爾可夫模型和神經(jīng)網(wǎng)絡(luò)模型,這兩大統(tǒng)計(jì)模型在今天仍舊在語音識(shí)別技術(shù)上占據(jù)著重要地位。
九十年代以后,由于隱馬爾可夫模型的整體框架設(shè)計(jì)相對完善、模型的自適應(yīng)性問題得到解決,并且使其具有了并行性、魯棒性、容錯(cuò)性和學(xué)習(xí)特性,在參數(shù)提取和優(yōu)化方面也取得了重大進(jìn)展,語音識(shí)別技術(shù)開始被應(yīng)用于實(shí)際生活中,語音識(shí)別系統(tǒng)逐漸產(chǎn)品化。
進(jìn)入二十一世紀(jì)后,隨著移動(dòng)互聯(lián)網(wǎng)和手機(jī)應(yīng)用的普及,給語音識(shí)別技術(shù)帶來了更大的發(fā)展平臺(tái)并使其迅猛發(fā)展。2010年Google發(fā)布了支持語音操作與檢索的Voice Action;2011年微軟獲得在語音搜索技術(shù)上的成功;同年,蘋果公司的Siri首度出現(xiàn)在公眾視野,標(biāo)志著人機(jī)交互取得了巨大突破,人類進(jìn)入語音識(shí)別技術(shù)的新紀(jì)元。
雖然在九十年代語音識(shí)別技術(shù)在根本技術(shù)上取得了一個(gè)質(zhì)的飛躍,如上面提到的在容錯(cuò)性,及參數(shù)提取等方面的優(yōu)化和進(jìn)一步完善,語音識(shí)別技術(shù)已經(jīng)是逐漸走向成熟的階段,但是,日常生活中該技術(shù)并沒有得到廣泛的應(yīng)用,說明現(xiàn)階段仍存在一些問題,從而其在商業(yè)市場上的發(fā)展受到了限制。
(1)語種轉(zhuǎn)換方面的技術(shù)缺失:消費(fèi)者在韓國購買了一個(gè)具有語音控制功能的電飯煲,卻因?yàn)檎Z言障礙無法使用,語音識(shí)別中的語言模塊的相關(guān)技術(shù)沒有得到充分發(fā)展,無法實(shí)現(xiàn)如韓語到漢語相互間的切換,對比與在計(jì)算機(jī)領(lǐng)域成熟的文字切換技術(shù),就略低一籌。
(2)識(shí)別正確率底且速度慢:要打開語音識(shí)別技術(shù)在商業(yè)上的市場,必須保證其功能的完整性與達(dá)到消費(fèi)者的可接受度,如何在嘈雜的環(huán)境下精確捕捉有效的語音信號(hào),怎樣能在預(yù)設(shè)語言如普通話不標(biāo)準(zhǔn)的情況下提取關(guān)鍵的詞句指令,保證正確率的基礎(chǔ)上提升系統(tǒng)在相關(guān)階段的進(jìn)程速度,能夠靈敏快速地作出反應(yīng),則需要在技術(shù)層次上做更深一步的研究。
(3)功能過于單一,從而應(yīng)用領(lǐng)域受到限制:綜合市面上在語音識(shí)別技術(shù)上的應(yīng)用,如語音控制燈,軟件上的語音搜索功能等,因?yàn)槠湓诖ㄕZ音命令過于單一的缺陷下,不能實(shí)現(xiàn)較深程度的人機(jī)交互,功能局限,缺少技術(shù)支撐,顯然極大地限制了語音識(shí)別技術(shù)的應(yīng)用范圍,同時(shí),這也是現(xiàn)階段語音識(shí)別技術(shù)的主要發(fā)展方向。
我們應(yīng)多與國內(nèi)外在語音轉(zhuǎn)換方面有優(yōu)勢及成熟經(jīng)驗(yàn)的公司、機(jī)構(gòu)等交流,并在此基礎(chǔ)上加入一些創(chuàng)新元素,更加完美的彌補(bǔ)語音轉(zhuǎn)換方面技術(shù)的缺失。我國的語音識(shí)別的研究工作一直緊跟著國際腳步。在漢語語音識(shí)別技術(shù)上,我們還有自己的特色,并且已經(jīng)達(dá)到國際先進(jìn)水平。2017年4月,科大訊飛實(shí)現(xiàn)了從聽見、收音到翻譯,它只需要一到兩秒即反應(yīng)出結(jié)果?!奥犚姟毕到y(tǒng)還為外交部部長當(dāng)了一次現(xiàn)場的同聲翻譯,訊飛聽見系統(tǒng)除了中文語音的轉(zhuǎn)寫,也實(shí)現(xiàn)了對英、日、韓、藏、維等多種語種翻譯。
由于客觀因素及復(fù)雜因素等會(huì)對識(shí)別率造成影響,對語音識(shí)別是一大挑戰(zhàn)。相比較于智能語音識(shí)別軟件,使用者更趨向于敲擊鍵盤來表達(dá),這與人們對智能語音助手的傳統(tǒng)印象有關(guān)——錯(cuò)誤率識(shí)別速度慢。百度在識(shí)別錯(cuò)誤率高且速度慢這方面采取了應(yīng)用Deep CNN(深層卷積神經(jīng)網(wǎng)絡(luò)技術(shù))于語音識(shí)別的研究,使用了包含Residual連接的深層CNN,以及VGGnet等結(jié)構(gòu),將基于短時(shí)記憶單元和連接時(shí)序分類的端對端語音識(shí)別技術(shù)相結(jié)合,使得識(shí)別的錯(cuò)誤率下降了10%以上。
隨著語音識(shí)別技術(shù)準(zhǔn)確率的提高,它的功能不僅不再單一,而且它的應(yīng)用范圍也在不斷擴(kuò)大。對于搜索、購物和發(fā)現(xiàn)娛樂內(nèi)容,及對機(jī)器說話等將很快實(shí)現(xiàn)。語言交互過程包括語義分析、句子切斷、語音識(shí)別、算法處理及語言反饋等復(fù)雜的過程。要解決這個(gè)問題,需要擁有海量、優(yōu)質(zhì)的語言交流數(shù)據(jù)集。事實(shí)上,國內(nèi)外不少公司試圖探索語音聊天機(jī)器人在心理輔導(dǎo)、抑郁癥治療等項(xiàng)目上的潛力了,語音識(shí)別功能不再因?yàn)檫^于單一而受到限制,智能語音識(shí)別技術(shù)今后的發(fā)展趨勢值得期待。
[1]劉幺和 宋庭新.語音識(shí)別與控制護(hù)應(yīng)用技術(shù).科學(xué)出版社,2008
[2]趙力.語音信號(hào)處理.機(jī)械工業(yè)出版社,2003
[3]王炳錫 屈丹 彭煊.實(shí)用語音識(shí)別基礎(chǔ).國防工業(yè)出版社,2005
[4]盧瑞文.自動(dòng)識(shí)別技術(shù).化學(xué)工業(yè)出版社,2005