陳潤生
語音識別以其智能的接入方式改變著人們的上網(wǎng)習慣,未來,或許會全面顛覆移動互聯(lián)網(wǎng)的形態(tài)。科技界與工業(yè)界的共同進取,將促成科技成果不斷涌現(xiàn),讓語音識別從“聽到”變得“聽懂”
想象一下,當你駕駛一輛奧迪A8L行駛在路上,只需說出幾個簡單的詞語,便可獲得旅途所需的一切,車載MMI 人機交互系統(tǒng)可智能識別語音指令,輕松控制導(dǎo)航,語音通話,娛樂系統(tǒng)等各項功能,汽車也仿佛不再是冰冷的交通工具,而變得更有智慧。電子設(shè)備從過去的智能工具,開始成為與人交互的“伙伴”。
語音識別正以磅礴之勢占據(jù)著一個時代的智能高點。美國谷歌公司發(fā)布的一項調(diào)查報告顯示,13歲到18歲之間的青少年中,每天使用語音搜索的人數(shù)比率約55%;而在成年人中,約有56%的人表示使用語音搜索會令他們感覺自己很懂技術(shù)。谷歌傳統(tǒng)搜索副總裁斯科特·霍夫曼感言:對年輕人而言,使用語音搜索猶如應(yīng)用社交媒體一樣自然,并且會出現(xiàn)更多創(chuàng)新的使用方法。
隨著大數(shù)據(jù)、機器學習、云計算、人工智能等技術(shù)的發(fā)展,語音識別在一步步解放用戶的雙手,語音輸入框也大有取代鼠標、鍵盤之勢。伴隨著智能移動設(shè)備的普及,語音交互作為一種新型的人機交互方式,正越來越引起整個IT業(yè)界的重視。
業(yè)內(nèi)機構(gòu)預(yù)計,整個人工智能市場可在2018年達到1800億美元的水平,其中的語音識別市場將占到整個大蛋糕中極有分量的一大塊。
讓智能語音如何從“聽到”進化到“聽懂”,實現(xiàn)語音服務(wù)的通用化,更多服務(wù)于現(xiàn)實生活場景,更好地普惠于移動互聯(lián)網(wǎng)用戶,盡管仍有障礙亟待逾越,但這必將是規(guī)模工業(yè)化的重點突破方向。
在智能語音專家賈磊看來,剝離了服務(wù)、平臺與計算能力,僅集中于語音技術(shù)的時代已經(jīng)過去了,未來的規(guī)模工業(yè)化發(fā)展趨勢已然顯現(xiàn),下一階段的變革之旅正在開啟。
互聯(lián)網(wǎng)的“語音”入口
2016年初,美國麻省理工學院(MIT)主辦的知名科技期刊《麻省理工科技評論》,評選出了“2016年十大突破技術(shù)”,語音識別位列第三項,與其他技術(shù)一起“到達一個里程碑式的階段或即將到達這一階段”。
語音識別技術(shù),也被稱為自動語音識別,其目標是將人類語音中的詞匯內(nèi)容轉(zhuǎn)換為計算機可讀的輸入,例如按鍵、二進制編碼或者字符序列。
與計算機進行語音交流,并讓其明白用戶在說什么,這是人們長期以來夢寐以求的事情。深度學習、人工神經(jīng)網(wǎng)絡(luò)等技術(shù)的發(fā)展,讓這一夢想照進現(xiàn)實。百度語音前首席架構(gòu)師賈磊預(yù)測,語音識別技術(shù)將在語音搜索、O2O、傳媒信息等領(lǐng)域發(fā)揮巨大作用。
作為人工智能界的技術(shù)大咖,賈磊的“技術(shù)路線”著實是一條“語音路”。
1993年,賈磊被保送進入西北工業(yè)大學教育改革班學習,大學期間他就對數(shù)學、計算機和聲音信號處理技術(shù)產(chǎn)生了濃厚的興趣。此后的20多年,賈磊一路與“語音”結(jié)緣。
2003年,在中科院拿到博士學位的賈磊加入松下中國研究開發(fā)有限公司,從事語音技術(shù)相關(guān)的研究工作,成功研發(fā)出了手機上的英語、日語和漢語的人名數(shù)字撥號系統(tǒng);兩年后,賈磊離開松下,加入IBM中國研究院。在IBM期間,賈磊和IBM美國研究部門的同事一起構(gòu)建了漢語廣播識別系統(tǒng)。
2006年初,賈磊回到松下中國研究開發(fā)有限公司,擔任松下語音技術(shù)部的高級經(jīng)理,承擔整合松下內(nèi)部語音技術(shù)的工作,并領(lǐng)導(dǎo)松下中國部門,研發(fā)了日語汽車導(dǎo)航系統(tǒng)產(chǎn)品原型;四年后,賈磊回到中科院自動化研究所,主導(dǎo)了中科院自動化所第一版本的云計算條件下的機器翻譯系統(tǒng)構(gòu)建工作。
2011年6月,賈磊加入百度,擔任百度語音技術(shù)部負責人、首席研究員,負責百度語音技術(shù)的核心技術(shù)研發(fā)和互聯(lián)網(wǎng)產(chǎn)業(yè)化。短短的六個月內(nèi),賈磊帶領(lǐng)技術(shù)團隊,實現(xiàn)了百度完全自主研發(fā)的語音搜索系統(tǒng)上線。此后,賈磊的技術(shù)團隊相繼完成了手機語音輸入法系統(tǒng)、智能語音手機助手等系統(tǒng)的研發(fā)。
2015年底,伴隨著“大眾創(chuàng)業(yè)、萬眾創(chuàng)新”的熱潮,賈磊離開百度,投身到與人工智能相關(guān)的創(chuàng)業(yè)領(lǐng)域中。“高技術(shù)人才創(chuàng)業(yè)是為國家作貢獻的另一種方式,美國硅谷的很多公司都是從創(chuàng)業(yè)中誕生的,比如微軟、谷歌,都是從最初的創(chuàng)業(yè)公司最終成長為行業(yè)巨頭。”賈磊如此描述自己的創(chuàng)業(yè),“在以后的智能時代,人類的很多活動或許會被機器替代,但置身這個行業(yè)的工作人員,一定要精準掌握制造機器、提升機器的方法?!?/p>
語音識別可規(guī)模工業(yè)化的未來
過去的20多年,語音識別技術(shù)與賈磊們的“技術(shù)腦”共同進行著自我進化,而這種進化,也在潛移默化地改變著互聯(lián)網(wǎng)、尤其是移動互聯(lián)網(wǎng)的形態(tài)。
微軟研究院首席研究員俞棟認為,在很多應(yīng)用場合,語音識別成為一個入口,如果沒有這個入口,大家都會覺得智能機器不夠智能,或者用戶會覺得與智能機器交互有困難。
阿里云iDST技術(shù)總監(jiān)初敏認為,語音交互將會成為數(shù)據(jù)智能的第一個爆發(fā)點,“下一輪的入口之爭將再次出現(xiàn)”。
從互聯(lián)網(wǎng)誕生之日起,搜索框便成為人們進入互聯(lián)網(wǎng)的重要入口,但語音識別一經(jīng)出現(xiàn),搜索框的地位受到動搖,在未來或?qū)⒅鸩奖蝗〈?/p>
如今,這種“取代”已經(jīng)開始萌發(fā)。11月底,搜狗、百度和科大訊飛三家公司接連召開了三場發(fā)布會,向外界展示了自己在語音識別和機器翻譯等方面的最新進展,三家公司均宣布旗下語音識別系統(tǒng)正確率已達到97%左右。
此前,百度研發(fā)出了基于多層單向LSTM(長短時記憶模型)的漢語聲韻母整體建模技術(shù),并成功把連接時序分類(CTC)訓練技術(shù)嵌入到語音識別傳統(tǒng)技術(shù)建模框架中。該技術(shù)能夠使機器的語音識別相對錯誤率降低15%,使安靜環(huán)境下的普通話語音識別的準確率接近97%。
賈磊表示,上述語音識別技術(shù)特別適合于語音識別大規(guī)模工業(yè)化,“因為這個技術(shù)應(yīng)用點很多,它不但解碼速度快,而且對口音、對遠場都有一定的作用,有口音的人識別率會改善很多,距離較遠的時候識別率也會改善很多”。
業(yè)內(nèi)人士判斷,智能語音技術(shù)將在人工智能、移動互聯(lián)網(wǎng)、可穿戴設(shè)備等領(lǐng)域日益深入運用,并將向更多垂直行業(yè)深入發(fā)展。
語音識別技術(shù)在智能交通中的深入應(yīng)用,真正解放了用戶雙眼、雙手,提高了用戶駕駛安全等級,使用戶充分享受語音科技的無窮魅力?;谠摷夹g(shù),自主式導(dǎo)航可以通過語音進行諸多需要手動觸摸才能完成的操作。
比如,奧迪A8L自帶的MMI人機交互系統(tǒng),可識別簡單語音口令,駕駛員可用語音操作該系統(tǒng),省去手動操作。
駕駛者可以語音呼叫電話簿與地址簿中的電話號碼,只需發(fā)出“呼叫某某(姓名)”的指令即可;同樣,使用“導(dǎo)航到某某(地址名稱)”的指令即可導(dǎo)航前往一個已存儲的導(dǎo)航目的地。
一甲子打磨“語音”利劍
如今的語音識別有多聰明?百度首席科學家吳恩達認為,目前的語音識別已經(jīng)超過了正常人的語音識別能力。以情感合成為例,基于深度學習和大數(shù)據(jù)處理技術(shù)的語音識別,在數(shù)據(jù)采集、處理、建模等環(huán)節(jié)完成了一系列創(chuàng)新,可以實現(xiàn)更富有表現(xiàn)力的自然朗讀效果。
在普通公眾的眼里,語音識別似乎是一項橫空出世的新技術(shù)。但在科學家與工業(yè)界人士看來,語音識別并不是一個新興的行業(yè)。
早在1952年,美國貝爾實驗室的Davis等研制出了世界上第一個能識別10個英文數(shù)字發(fā)音的實驗系統(tǒng)。1960年,英國的Denes等人研制出了第一個計算機語音識別系統(tǒng)。發(fā)展至今,語音識別技術(shù)早已走過了一甲子的歷程。
20世紀50年代,科學家們認為要讓計算機實現(xiàn)語音識別只有人才能做的事情,必須先讓其理解自然語言。這使得人類探索語音識別的路線,局限在用電腦模擬人腦上,即讓計算機學習人類學習語言的方式。在這一思路的指引下,此后的20年,科學界在語音識別領(lǐng)域鮮有科研成果出現(xiàn)。
直到1970年后,統(tǒng)計語言學的出現(xiàn)讓語音識別重獲新生。推動這個技術(shù)路線轉(zhuǎn)變的關(guān)鍵人物是現(xiàn)代語音識別和自然語言處理研究的先驅(qū)、美國工程院院士德里克·賈里尼克和他領(lǐng)導(dǎo)的IBM華生實驗室。IBM采用統(tǒng)計的方法,將當時的語音識別率從70%提升到90%,同時語音識別的規(guī)模從幾百個單詞上升到幾萬個單詞。這使得語音識別有了從實驗室走向?qū)嶋H應(yīng)用的可能。
此后,隨著研究思路的變化,大規(guī)模的語音識別研究得以實現(xiàn),科學家們在小詞匯量、孤立詞的識別研究方面取得了實質(zhì)性的進展。20世紀80年代以后,語音識別研究的重點則逐漸轉(zhuǎn)向大詞匯量、非特定人連續(xù)語音識別。
20世紀90年代以后,科學界在語音識別的系統(tǒng)框架方面并沒有什么重大突破,但在語音識別技術(shù)的應(yīng)用及產(chǎn)品化方面出現(xiàn)了很大的進展。
在這個時期,英國劍橋大學的HTK系統(tǒng)對語音識別貢獻巨大,為很多從事語音識別的研究單位提供了結(jié)構(gòu)完整、全面的一套軟件基線系統(tǒng)。從此,語音識別研究的門檻大大降低,推動了語音識別技術(shù)的快速發(fā)展和相互交流。
20世紀90年代以后直到現(xiàn)在,計算機界對于語音識別的研究逐漸地由朗讀式語音轉(zhuǎn)移到了現(xiàn)實生活中“真實對話語音”。進入21世紀,互聯(lián)網(wǎng)得到普及,移動互聯(lián)網(wǎng)技術(shù)也快速發(fā)展,手機上網(wǎng)速度越來越快,這給語音識別技術(shù)的發(fā)展和應(yīng)用帶來了新的平臺;硬件設(shè)備越來越廉價以及云計算技術(shù)的出現(xiàn),也大大推動了語音識別的研究和應(yīng)用。
20世紀80年代以來,隨著計算機應(yīng)用技術(shù)在我國逐漸普及和應(yīng)用,以及數(shù)字信號技術(shù)的進一步發(fā)展,國內(nèi)許多單位具備了研究語音技術(shù)的基本條件,紛紛投入到這項研究中去。
2011年深度學習技術(shù)引入語音識別領(lǐng)域,推進整個工業(yè)界的人工智能技術(shù)應(yīng)用進入深度學習時代。隨后的幾年里,CNN(卷積神經(jīng)網(wǎng)絡(luò))、LSTM(長短時記憶模型)、CNN混合LSTM的建模技術(shù)在語音識別工業(yè)產(chǎn)品中不斷涌現(xiàn),并持續(xù)提升語音識別產(chǎn)品效果。
技術(shù)難關(guān)有待突破
2016年6月2日,被譽為“互聯(lián)網(wǎng)女王”的瑪麗·米克爾(Mary Meeker)發(fā)布了2016年《互聯(lián)網(wǎng)趨勢報告》。報告認為,語音是最有效的計算輸入形式,將成為人機交互的新范式。相比打字,語音交互的優(yōu)勢明顯,既簡單又方便,一個麥克風即可解決,尤其適合物聯(lián)網(wǎng)的場景。
然而,任何一項新技術(shù)的研發(fā),都避免不了需要逾越和突破更多的障礙。早在2008年,比爾·蓋茨就在多個場合預(yù)測“今后五年內(nèi),互聯(lián)網(wǎng)搜索將更多地通過語音來完成”。到如今,語音搜索方興未艾,但遠沒實現(xiàn)比爾·蓋茨的猜想?,旣悺っ卓藸栴A(yù)測,未來的計算界面將從鍵盤進化成麥克風及鍵盤,“不過現(xiàn)在才剛剛上路”。
賈磊認為,目前語音識別技術(shù)遇到的主要難度,是對口音、噪音、遠場的識別。其中基于深度學習的個性化識別,是未來語音識別技術(shù)全面普及與應(yīng)用的重大挑戰(zhàn)。
如今在多個大型科技會議現(xiàn)場,主辦方都會安排嘗試各家公司研發(fā)的語音速錄系統(tǒng),這大有取代傳統(tǒng)的實時速錄員之勢。起初,這一高效、吸引眼球的技術(shù)著實讓人們眼前一亮,但一旦會場中的演講者帶有口音,語音速錄系統(tǒng)便頻頻犯錯。
賈磊認為,人的口音千差萬別,不可能有一個語音識別器識別所有的聲音,一定要實現(xiàn)個性化。而這種基于深度學習的個性化識別,一定需要海量的存儲空間和很大的數(shù)據(jù)吞吐傳輸能力。
語音識別歷來是人工智能和機器學習中的十大經(jīng)典難題之一,該技術(shù)面臨著說話人、環(huán)境、設(shè)備三方面的不確定性難點。
說話人常常來自不同的方言區(qū)、有不同的口音,說話時又有不同的方式、運用不同的情感。此外,真實的語言環(huán)境是非常復(fù)雜的,會被各種各樣的噪聲環(huán)繞,包括汽車喇叭聲、飛機的噪聲、馬路上人的聲音等;而發(fā)言者使用的設(shè)備也是五花八門,除了自然發(fā)聲,人們可以配戴各式各樣的麥克風。
在真實的應(yīng)用場景下,說話人、環(huán)境、設(shè)備三個因素疊加在一起,使語音識別的應(yīng)用場景更加復(fù)雜。如何處理這些不確定性,成為擺在研發(fā)人員面前的一項重大挑戰(zhàn)。
口語化的識別需要訓練語料,口音的有利信息需要大量的口音的數(shù)據(jù)才能解決。“未來會出現(xiàn)更大規(guī)模的語料庫,要訓練更大規(guī)模的語音識別系統(tǒng)。”賈磊認為,多種數(shù)據(jù)源的混合訓練仍然是解決口音、噪音和遠場問題的必要手段。
目前的語音識別系統(tǒng),顯然還難堪完美。盡管各家科技公司根據(jù)實驗數(shù)據(jù)得出的語音識別準確率達到95%甚至更高,但在實際使用時并沒那么高。
阿里云智能語音技術(shù)總監(jiān)鄢志杰認為,“夸張”的準確率只可能在非常受限的場景下獲得,“如果在一個熱烈討論的會議室,掏出手機做會議記錄,別說97%,斷斷續(xù)續(xù)勉強看懂就不錯了”。
“語音識別的準確率遠沒有新聞標題上宣傳的那么高,脫離現(xiàn)實場景去談準確率統(tǒng)統(tǒng)都是耍流氓?!臂持窘苷J為。
在工業(yè)界,語音識別的準確率在探索中穩(wěn)步提升。其中,奧迪A8L自帶的MMI人機交互系統(tǒng)擁有語音訓練功能。如果車主有口音,該功能將訓練系統(tǒng)、來識別車主的發(fā)音習慣,從而精準地聽令行動。這體現(xiàn)了系統(tǒng)擁有自主學習、自主升級的特性,也是人工智能未來發(fā)展的大方向。
從“聽到”到“聽懂”的進化變革
語音識別、語音搜索,已然成為了移動互聯(lián)網(wǎng)時代的“剛需”。如今,智能客服與智能助理等已經(jīng)成為互聯(lián)網(wǎng)上的典型應(yīng)用場景。接電話的客服人員,可能要漸次被人工智能和機器人替代,不少科技公司已經(jīng)使用了語音自動轉(zhuǎn)接、情感識別與關(guān)鍵詞識別、語音識別和關(guān)鍵信息提取,還有自動化的全量檢驗;而智能助理則可以采用對話的聲控方式,幫助用戶找餐館、安排行程、點歌、導(dǎo)航、找菜譜等。
為了利用語音交互的新穎和便利模式迅速占領(lǐng)客戶群,互聯(lián)網(wǎng)公司紛紛投入人力、物力和財力展開語音識別的研究和應(yīng)用。
賈磊認為,想解決口音、噪音的問題,語音識別系統(tǒng)的訓練數(shù)據(jù)還會繼續(xù)加大,在不久的未來訓練數(shù)據(jù)一定能達到十幾萬小時。如果出現(xiàn)這么大的計算量,對計算能力的需求會更加強烈,“大數(shù)據(jù)和高性能計算,是語音識別發(fā)展到目前最明顯和清晰的趨勢”。
“語音識別正處于產(chǎn)業(yè)化爆發(fā)的邊緣,但機器計算成本是一個很大的瓶頸。如果線上50%的搜索都由語音完成,而計算成本還和過去一樣,那么沒有公司能承擔得起?!辟Z磊表示,語音服務(wù)要想大規(guī)模普及、服務(wù)大眾,必須降低后臺服務(wù)器開銷。
在賈磊看來,作為明顯的行業(yè)趨勢,語音識別技術(shù)會和語意理解、交互技術(shù)等形成一整套語音的解決方案。
讓人工智能系統(tǒng)根據(jù)自己被告知的內(nèi)容回答問題或采取行動,真正的難度在于語義識別。目前的語音識別技術(shù),只是把“聽到”的語音高正確率轉(zhuǎn)化成文字,這對于未來的需求還遠遠不夠。從“聽到”,到“聽懂”,盡管一字之差,卻考驗重重。
如果讓語音識別系統(tǒng)變得更加聰慧,其突破依賴于計算機硬件的進步。近幾年計算機飛速發(fā)展,特別是通用計算的發(fā)展,使人類有了強大的計算能力,使得一些過去不可能實現(xiàn)的人工智能算法成為可能,但如果要實現(xiàn)語音服務(wù)的通用化,計算能力還有提升空間。
更重要的是,人使用語音識別的目的,不只是把語音轉(zhuǎn)成文字,而是使用語音去進行交互,并獲得其所需的服務(wù)結(jié)果。賈磊認為,“這是未來的工業(yè)發(fā)展趨勢,單純地脫離了服務(wù)、脫離了平臺、脫離了計算能力去做語音技術(shù)的時代已經(jīng)過去了?!?/p>
語音識別雖然為現(xiàn)代生活帶來了各種便捷,但距離真正實現(xiàn)精確無誤,自主思考,顯然還有很長一段路要走,只有研究者們不斷執(zhí)著進取,突破藩籬,才能為語音識別技術(shù)的未來帶來真正的顛覆與改變。