張賀飛
美國(guó)知名投資機(jī)構(gòu)Mangrove Capital Partners在《2019年語(yǔ)音技術(shù)報(bào)告》中,給語(yǔ)音下了一個(gè)宏大的定義——?dú)g迎下一代的顛覆者??扇绻褧r(shí)間倒退10年,大部分人還是會(huì)把“語(yǔ)音交互”定義為一場(chǎng)豪賭,都知道贏面比較大,卻遲遲不敢下注,因?yàn)楦拍畹穆涞剡€沒(méi)有一個(gè)明確的期限,當(dāng)正確的路徑被走通之前,永遠(yuǎn)都存在不確定性。不過(guò)在此前的80年里,人類(lèi)對(duì)語(yǔ)音技術(shù)的希望從未破滅,就像是在迷宮中找尋出口一般,一遍又一遍地試錯(cuò),最終找到了正確的路徑。
漫長(zhǎng)的孩提時(shí)代
“明天天氣怎么樣?”“我想聽(tīng)周杰倫的歌”,諸如這樣的指令每天有幾億次發(fā)生,哪怕是牙牙學(xué)語(yǔ)的孩子也可以和智能音箱進(jìn)行流暢的對(duì)話。但在50年前,就職于貝爾實(shí)驗(yàn)室的約翰·皮爾斯卻在一封公開(kāi)信中為語(yǔ)音識(shí)別下了“死亡診斷書(shū)”:就像是把水轉(zhuǎn)化為汽油、從海里提取金子、徹底治療癌癥,讓機(jī)器識(shí)別語(yǔ)音幾乎是不可能實(shí)現(xiàn)的事情。彼時(shí)距離首個(gè)能夠處理合成語(yǔ)音的機(jī)器出現(xiàn)已經(jīng)過(guò)去30年的時(shí)間,距離發(fā)明出能夠聽(tīng)懂從0到9語(yǔ)音數(shù)字的機(jī)器也過(guò)去了17個(gè)年頭。這兩項(xiàng)創(chuàng)造性的發(fā)明均出自貝爾實(shí)驗(yàn)室,但語(yǔ)音識(shí)別技術(shù)的緩慢進(jìn)展,幾乎消磨掉了所有人的耐心。
在20世紀(jì)的大部分時(shí)間里,語(yǔ)音識(shí)別技術(shù)就像一場(chǎng)不知方向的長(zhǎng)征,時(shí)間刻度被拉長(zhǎng)到了10年之久:20世紀(jì)60年代,時(shí)間規(guī)整機(jī)制、動(dòng)態(tài)時(shí)間規(guī)整和音素動(dòng)態(tài)跟蹤三個(gè)關(guān)鍵技術(shù)奠定了語(yǔ)音識(shí)別發(fā)展的基礎(chǔ);20世紀(jì)70年代,語(yǔ)音識(shí)別進(jìn)入了快速發(fā)展的階段,模式識(shí)別思想、動(dòng)態(tài)規(guī)劃算法、線性預(yù)測(cè)編碼等開(kāi)始應(yīng)用;20紀(jì)80年代,語(yǔ)音識(shí)別開(kāi)始從孤立詞識(shí)別系統(tǒng)向大詞匯量連續(xù)語(yǔ)音識(shí)別系統(tǒng)發(fā)展,基于GMM+MM的框架成為語(yǔ)音識(shí)別系統(tǒng)的主導(dǎo)框架;20紀(jì)90年代,出現(xiàn)了很多產(chǎn)品化的語(yǔ)音識(shí)別系統(tǒng),比如IBM的Via-vioce系統(tǒng)、微軟的Whisper系統(tǒng)、英國(guó)劍橋大學(xué)的HTK系統(tǒng);但在進(jìn)入21世紀(jì)后,語(yǔ)音識(shí)別系統(tǒng)的錯(cuò)誤率依然很高,再次陷到漫長(zhǎng)的瓶頸期。直到2006年Hiton提出用深度置信網(wǎng)絡(luò)初始化神經(jīng)網(wǎng)絡(luò),使得訓(xùn)練深層的神經(jīng)網(wǎng)絡(luò)變得容易,從而掀起了深度學(xué)習(xí)的浪潮。
只是在2009年之前70年左右的漫長(zhǎng)歲月里,中國(guó)在語(yǔ)音識(shí)別技術(shù)上大多處于邊緣角色,1958年中國(guó)科學(xué)院聲學(xué)所利用電子管電路識(shí)別10個(gè)元音,1973年中國(guó)科學(xué)院聲學(xué)所開(kāi)始了計(jì)算機(jī)語(yǔ)音識(shí)別,然后是863計(jì)劃開(kāi)始組織語(yǔ)音識(shí)別技術(shù)的研究,直到百度、科大訊飛等中國(guó)企業(yè)的崛起。
躍進(jìn)的少年時(shí)代
2010年注定是語(yǔ)音識(shí)別的轉(zhuǎn)折點(diǎn)。前一年Hinton和D.Mohamed將深度神經(jīng)網(wǎng)絡(luò)應(yīng)用于語(yǔ)音的聲學(xué)建模,在小詞匯量連續(xù)語(yǔ)音識(shí)別數(shù)據(jù)庫(kù)TIMIT上獲得成功。從2010年開(kāi)始,微軟的俞棟、鄧力等學(xué)者首先嘗試將深度學(xué)習(xí)技術(shù)引入到語(yǔ)音識(shí)別領(lǐng)域,并確立了三個(gè)維度的標(biāo)準(zhǔn):數(shù)據(jù)量的多少,取決于搜索量、使用量的規(guī)模;算法的優(yōu)劣,頂級(jí)人才扮演者至關(guān)重要的角色;計(jì)算力的水平,關(guān)鍵在于FPGA等硬件的發(fā)展。在這三個(gè)維度的比拼中,誰(shuí)擁有數(shù)據(jù)上的優(yōu)勢(shì),誰(shuí)聚集了頂級(jí)的人才,誰(shuí)掌握著強(qiáng)大的計(jì)算能力,多半會(huì)成為這場(chǎng)較量中的優(yōu)勝方。于是在語(yǔ)音識(shí)別的“少年時(shí)代”,終于開(kāi)始了躍進(jìn)式的發(fā)展,刷新紀(jì)錄的時(shí)間間隔從幾年被壓縮到幾個(gè)月。
2016年語(yǔ)音識(shí)別的準(zhǔn)確率達(dá)到90%,但在這年晚些時(shí)候,微軟公開(kāi)表示語(yǔ)音識(shí)別系統(tǒng)的詞錯(cuò)率達(dá)到了5.9%,等同于人類(lèi)速記同樣一段對(duì)話的水平,時(shí)任百度首席科學(xué)家吳恩達(dá)發(fā)聲稱(chēng)百度在2015年末即達(dá)到了同等水平;2017年6月,Google表示語(yǔ)音識(shí)別的準(zhǔn)確率達(dá)到95%,而早在10個(gè)月前的時(shí)候,李彥宏就在百度世界大會(huì)上宣布了百度語(yǔ)音識(shí)別準(zhǔn)確率達(dá)到97%的消息。
一個(gè)有些“奇怪”的現(xiàn)象,為何在語(yǔ)音識(shí)別領(lǐng)域缺少前期積累的中國(guó),可以在極短的時(shí)間內(nèi)實(shí)現(xiàn)從無(wú)到有,甚至有后發(fā)先至的趨勢(shì)?可以找到的原因有二:首先,傳統(tǒng)專(zhuān)利池被挑戰(zhàn),競(jìng)爭(zhēng)回歸技術(shù)。語(yǔ)音識(shí)別進(jìn)入深度學(xué)習(xí)時(shí)代,并沒(méi)有背負(fù)太多的專(zhuān)利包袱,國(guó)內(nèi)外玩家們有機(jī)會(huì)站在了同一起跑線上。比如2013年百度的語(yǔ)音識(shí)別技術(shù)還主要基于mel-bank的子帶CNN模型;2014年就獨(dú)立發(fā)展出了Sequence DiscriminativeTraining(區(qū)分度模型);2015年初推出基于LSTM-HMM的語(yǔ)音識(shí)別,年底發(fā)展出基于LSTM-CTC的端對(duì)端語(yǔ)音識(shí)別系統(tǒng);2016年和2017年將Deep CNN模型和LSTM、CTC結(jié)合起來(lái),2018年推出Deep Peak 2模型,2019年又發(fā)布了流式多級(jí)的截?cái)嘧⒁饬δP汀撕?,百度還推出了針對(duì)遠(yuǎn)場(chǎng)語(yǔ)音交互的鴻鵲芯片,可以實(shí)現(xiàn)遠(yuǎn)場(chǎng)陣列信號(hào)實(shí)時(shí)處理,高精度超低誤報(bào)語(yǔ)音喚醒以及離線語(yǔ)音識(shí)別。
其次,語(yǔ)音識(shí)別進(jìn)入到生態(tài)化、產(chǎn)業(yè)化的時(shí)代。在Google發(fā)布了語(yǔ)音開(kāi)放API后,對(duì)Nuance產(chǎn)生了致命的打擊,不僅僅是Google在產(chǎn)品和技術(shù)上的優(yōu)勢(shì),也來(lái)自于Google強(qiáng)大的人工智能技術(shù)生態(tài),例如以TensorFlow為代表的深度學(xué)習(xí)引擎。同樣的邏輯,百度在2015年就開(kāi)放了上百項(xiàng)智能語(yǔ)音專(zhuān)利,與海爾、京東、中興通訊、中國(guó)普天等組建了智能語(yǔ)音知識(shí)產(chǎn)權(quán)產(chǎn)業(yè)聯(lián)盟,同時(shí)PaddlePaddle、Warp-CTC、百度大腦的開(kāi)放和開(kāi)源,對(duì)中文語(yǔ)音識(shí)別有著潛移默化的影響,成了中國(guó)語(yǔ)音識(shí)別領(lǐng)域標(biāo)準(zhǔn)的制定者。
除此之外,2018年公布的第二十屆中國(guó)專(zhuān)利評(píng)審結(jié)果中,百度的語(yǔ)音、機(jī)器翻譯、無(wú)人車(chē)相關(guān)三項(xiàng)專(zhuān)利獲獎(jiǎng),成為人工智能領(lǐng)域至今為止在國(guó)內(nèi)專(zhuān)利界獲得的最高級(jí)別政府獎(jiǎng)項(xiàng)。其中“語(yǔ)音專(zhuān)利”涉及的新語(yǔ)音識(shí)別模型——采用深度學(xué)習(xí)算法在24時(shí)內(nèi)對(duì)數(shù)以百億級(jí)的大規(guī)模數(shù)據(jù)進(jìn)行實(shí)時(shí)分析,高性能計(jì)算,令語(yǔ)音識(shí)別技術(shù)的準(zhǔn)確率達(dá)97%,解決了語(yǔ)音識(shí)別領(lǐng)域關(guān)鍵性、共性的技術(shù)難題,被MIT評(píng)為“2016年全球十大突破技術(shù)”。
語(yǔ)音識(shí)別的話語(yǔ)權(quán),逐漸從大學(xué)和機(jī)構(gòu)的實(shí)驗(yàn)室轉(zhuǎn)移到了微軟、Google、百度等商業(yè)巨擘手中,并最終迎來(lái)了躍進(jìn)式發(fā)展的十年?;蛟S語(yǔ)音技術(shù)的“少年時(shí)代”還有很長(zhǎng)的路要走,但終究走出了漫漫黑夜,瞥見(jiàn)了黎明的曙光。