今天,科大訊飛、百度等已經(jīng)成功讓電視機(jī)、汽車能“聽懂”你的話——
想象一下,你坐在車?yán)?,?duì)著空氣說,“我想在附近找個(gè)地方吃飯”。你的車會(huì)立即回應(yīng)說“已為您找到附近10個(gè)餐廳”。你接著說:“我想吃火鍋,還想看場(chǎng)電影?!逼嚂?huì)篩選出周邊有電影院的海底撈大鐘寺店。如果你說現(xiàn)在前往,導(dǎo)航就會(huì)立即開始線路規(guī)劃。
注意,整個(gè)過程,你不需要說類似“嘿,siri”這樣的喚醒詞,也不需要?jiǎng)邮诌M(jìn)行任何操作。對(duì)于開車過程中經(jīng)常冒險(xiǎn)調(diào)整導(dǎo)航線路的司機(jī)來說,這套名為“飛魚助手”的語音操作系統(tǒng)簡(jiǎn)直是夢(mèng)寐以求的行車神器。
現(xiàn)在,訊飛、百度等企業(yè)的人工智能已經(jīng)把科幻片一樣的黑科技變成了現(xiàn)實(shí)。不僅汽車、電視機(jī)、電冰箱、電燈,任何你能想到的電器都能跟你愉快地聊天,并按照語音指令完成各種操作。
所聽即所見
世界第一的智能語音是什么樣
計(jì)算機(jī)時(shí)代,輸入的主要工具是鍵盤。人工智能時(shí)代,語音輸入成為主流。而在這方面,中國(guó)走在了世界前列——科大訊飛公司已經(jīng)連續(xù)11年獲得全球語音合成大賽冠軍,百度語音也在今年被MIT科技評(píng)為2016年十大突破性技術(shù)之一。
目前,兩家公司對(duì)外公布的語音識(shí)別率都是97%。這意味著什么呢?
百度首席科學(xué)家吳恩達(dá)講一口軟糯的美式中文,筆者注意到,當(dāng)他說到“長(zhǎng)段語句”時(shí),最開始系統(tǒng)誤聽成了“長(zhǎng)男語句”。但是經(jīng)過兩三句話后,結(jié)合上下文的“音頻切分”“切成短的去識(shí)別”等內(nèi)容,系統(tǒng)自動(dòng)將“長(zhǎng)男語句”更正為“長(zhǎng)段語句”。
訊飛的語音識(shí)別同樣達(dá)到了高精度。當(dāng)訊飛集團(tuán)董事長(zhǎng)劉慶峰用帶著濃重口音的普通話快速演講時(shí),顯示屏不僅實(shí)時(shí)出現(xiàn)了中文,還能同步翻譯成英語、維吾爾語、日語、韓語等十幾個(gè)語種。
毫無疑問,新技術(shù)已經(jīng)為人工智能裝上了一對(duì)堪比真人的“耳朵”。不過機(jī)器能聽人說話只是第一步,要實(shí)現(xiàn)無障礙的語音交流,還需要系統(tǒng)會(huì)說話,而且要像真人一樣說話。
訊飛的普通話語音合成系統(tǒng)達(dá)到了4.5分。也就是說,訊飛語音合成的普通話,比大多數(shù)人都要標(biāo)準(zhǔn)、自然。公司在此基礎(chǔ)上發(fā)展了特殊音色,想讓機(jī)器給你模仿一段郭德綱的聲音或者模仿一段林志玲的聲音都沒有問題。
百度語音主要聚焦在為合成語音“加入情感”,目前可接近真人發(fā)聲效果?,F(xiàn)場(chǎng)測(cè)試表明,57%的用戶無法區(qū)分真人語音與合成語音,基本可代替真人講故事?!蹲x者》雜志使用百度的情感語音開發(fā)“聽書”功能,為農(nóng)村的留守兒童、老人以及不便閱讀的殘障人士提供近似真人朗讀的聽書體驗(yàn)。
可應(yīng)用在翻譯、
智能家居、車載系統(tǒng)等領(lǐng)域
人工智能能聽會(huì)說,能在各種語言之間無障礙切換,最直接的應(yīng)用領(lǐng)域就是翻譯和速記。
今年11月,上海高級(jí)法院招待了11個(gè)國(guó)家的法院大法官和高層管理。訊飛的翻譯轉(zhuǎn)寫平臺(tái)為會(huì)議提供多國(guó)語言的實(shí)時(shí)翻譯,得到了參會(huì)國(guó)際專家的高度評(píng)價(jià)。普通消費(fèi)者想要體驗(yàn),可以使用訊飛輸入法、百度輸入法的語音輸入,比打字快得多。
人工智能更大的“野心”是讓一切物體都有耳朵,都會(huì)說話,特別是智能家居領(lǐng)域,是任何一個(gè)企業(yè)都不想放過的入口。今年5月谷歌推出了谷歌家庭,蘋果更新的iOS10里加入了家庭板塊,亞馬遜的echo試圖用一只音箱操控家里的冰箱、洗衣機(jī)、空調(diào)等全部家電。訊飛則將自己的語音交互解決方案稱為aiui系統(tǒng),其核心依然是用語音連接全世界。
除了能夠跟汽車無障礙溝通的“飛魚助手”,訊飛的電視機(jī)操作系統(tǒng)也已經(jīng)廣泛應(yīng)用。操作者只要說出“安徽衛(wèi)視”“中央一臺(tái)”“錦繡未央第十集”等要求,電視就會(huì)自動(dòng)切換。如果說“我想學(xué)英語”“我想玩游戲”,電視也會(huì)自動(dòng)打開應(yīng)用程序。最令人驚訝的是,在欣賞《冰雪奇緣》中聽到好聽的歌曲,操作者問“這首歌是什么名字”,系統(tǒng)很快在后臺(tái)識(shí)別、搜索出了let it go。整個(gè)過程里,系統(tǒng)準(zhǔn)確無誤地完成了多輪對(duì)話和上下文理解,完全沒有其他系統(tǒng)例如蘋果siri對(duì)話時(shí)的斷續(xù)感。
免費(fèi)開放的系統(tǒng)
所有企業(yè)都可以使用
訊飛語音和百度語音的背后都有一個(gè)聰明的腦袋:訊飛超腦和百度大腦。簡(jiǎn)單地說,這是一種深度學(xué)習(xí)的云端計(jì)算機(jī)。訊飛超腦和百度大腦都是開放的系統(tǒng),通過軟件開發(fā)工具包(SDK),其他企業(yè)可以免費(fèi)應(yīng)用這一服務(wù)。
作為語音市場(chǎng)的老大哥,訊飛在這一領(lǐng)域深耕近20年,能提供從芯片到后臺(tái)的本地引擎,再到后面的云傳輸、語音服務(wù)的整套解決方案,占據(jù)了超過80%的市場(chǎng)份額。
青島海爾克路德機(jī)器人應(yīng)用了訊飛系統(tǒng)。公司市場(chǎng)部工作人員蘇青竹告訴筆者,訊飛進(jìn)入市場(chǎng)早,技術(shù)好,他們已經(jīng)合作多年。現(xiàn)在克勞德機(jī)器人可以擔(dān)任幼兒園老師,在青島流亭機(jī)場(chǎng)擔(dān)任人工客服,還為泰康人壽定制了保險(xiǎn)客服版本。
據(jù)介紹,訊飛語音和人工智能開放平臺(tái)已經(jīng)覆蓋8.9億終端用戶,20萬位開發(fā)伙伴,每日提供30億次的服務(wù),其中僅機(jī)器人領(lǐng)域全球3000多家機(jī)器人采用訊飛技術(shù)大腦。百度也在2013年對(duì)外開放了語音技術(shù)服務(wù),很快得到了市場(chǎng)認(rèn)可。自上線以來,每日在線語音識(shí)別要求從500萬次上升到1.4億次,在線語音合成每日請(qǐng)求達(dá)2億次,開發(fā)者數(shù)量超過14萬人。
愛奇藝公司就應(yīng)用了百度的語音模塊。公司技術(shù)總監(jiān)吳桂林問自己手機(jī)上的愛奇藝客戶端:“成龍兒子演的電影?”屏幕上立即出現(xiàn)了房祖名參演的電影。
“別看就一句話,但系統(tǒng)不僅要識(shí)別我說的話,還要懂成龍、兒子和房祖名的關(guān)系,并完成搜索,難度相當(dāng)大?!眳枪鹆直硎?,愛奇藝從2013年和百度合作,應(yīng)用了百度語音助手,并開發(fā)了語義分析技術(shù)和知識(shí)圖譜。目前,愛奇藝用戶每天使用語音搜索超過100萬次,而且呈現(xiàn)成倍增長(zhǎng)。
“識(shí)別準(zhǔn)確率高、軟件開發(fā)工具包(SDK)應(yīng)用方便、技術(shù)支持隨叫隨到。”吳桂林總結(jié)百度語音助手的好處時(shí),特別強(qiáng)調(diào)了免費(fèi),“我們和百度合作的時(shí)候,只有百度語音沒有真正的流量限制”。
“未來我們會(huì)有陪伴機(jī)器人、個(gè)性化私教、音樂作曲、機(jī)器人醫(yī)生等等。”吳恩達(dá)對(duì)人工智能的未來寄予厚望,但他認(rèn)為任何一家公司都無法獨(dú)占這么多領(lǐng)域和機(jī)會(huì),“所以我們的目標(biāo)就是把人工智能技術(shù)輸出給大家,近期百度語音開放平臺(tái)再開放四項(xiàng)免費(fèi)語音技術(shù):情感合成、遠(yuǎn)場(chǎng)方案、喚醒二期技術(shù)和長(zhǎng)語音方案,希望支持其他企業(yè)探索有潛力的項(xiàng)目”。