劉曉芳
網(wǎng)上流行一段視頻,一位來自德國柏林的牛人在他的車?yán)锇惭b了26個不同廠家的語音導(dǎo)航儀,掛滿了整個擋風(fēng)玻璃前面。每當(dāng)駛?cè)胍粋€新的路口時,26個導(dǎo)航儀播放道路信息的聲音此起彼伏,場面壯觀。車主似乎很享受這種狀態(tài),但是,看視頻的人們卻開始抓狂。
有人猜測這位牛人可能是位超級路癡,隨時隨刻害怕找不著北??扇绻媸锹钒V,26個語音導(dǎo)航儀同時播報,他怎能分辨孰對孰錯。語音導(dǎo)航才是問題所在。隨著人類語音識別技術(shù)取得重大進(jìn)展,人工智能的應(yīng)用不僅可以幫助“識別聲音”,還會根據(jù)上下文、人類歷史以及能夠理解一般人類語言地去分析,并在多數(shù)情況下領(lǐng)會你的意思。雖然如此,語義的識別,自然的會話,仍是目前為止語音導(dǎo)航尚未真正克服的一大硬傷。
人機(jī)交互經(jīng)歷了鍵盤、鼠標(biāo)、觸控感應(yīng)三個技術(shù)發(fā)展階段,三者均已成為成熟的應(yīng)用,而語音交互卻似乎仍然讓我們無可適從,語音導(dǎo)航到底要把我們帶向哪里?
人工智能不智能
陸凌濤的辦公桌上擺放著各式各樣的手機(jī),都是各個品牌最新款的,有的時候,鈴聲響起,他需翻弄一陣才能找出是哪個手機(jī)在響,如果幾個電話一起響,就更熱鬧了,僅從表面來看,與那位德國人懸掛26個導(dǎo)航儀的場景甚至不相上下。
陸凌濤所在的車音網(wǎng)是做語音導(dǎo)航行業(yè)的,語音技術(shù)的復(fù)雜以及行業(yè)環(huán)境的龐雜多變,使得他必須習(xí)慣同時應(yīng)付和處理多個任務(wù)和多種事態(tài)。他的煙癮極大,后來他開始在辦公室里熏藏香,經(jīng)常在煙霧繚繞中,他一個人會長時間地埋頭把玩桌上的這些手機(jī),反復(fù)地調(diào)出其中的各式語音應(yīng)用,仔細(xì)地對比和分析。
是“白天,鵝在洗澡”,還是“白天鵝在洗澡”,這樣的問題,在現(xiàn)實(shí)環(huán)境中,人們只需要根據(jù)上下語境,就能輕易分辨,然而,機(jī)器卻沒有這樣的能力。這也是絕大多數(shù)語音導(dǎo)航所必須要面臨的一道攻堅。
“今天北京的天氣如何?”,陸凌濤說,這樣的問題,當(dāng)前市面上大部分語音導(dǎo)航系統(tǒng)都能準(zhǔn)確回答,但是,如果再追問一句,“那上海呢?”,其中的絕大多數(shù)就會立即“傻眼”。因?yàn)閲鴥?nèi)所有的語音識別技術(shù)在做機(jī)器訓(xùn)練的時候,每句話一定要符合特定的語法,最好要有主謂賓,機(jī)器只有在捕捉到明確的“興趣點(diǎn)”時,才能激活系統(tǒng),然后按預(yù)設(shè)的程序進(jìn)入后臺語料庫的云端搜索。
“那上海呢?”,在機(jī)器現(xiàn)有的“思維”里,屬于沒頭沒腦的一句話,要依靠上下文才能識別具體語義,這根本不在它的“認(rèn)知”范圍之內(nèi)。可是這樣的對話,在人與人之間再自然不過。
目前,在全球商用的語音識別產(chǎn)品中,蘋果的Siri被認(rèn)為將來有可能最早觸摸到語音人工智能圣杯,你說的話,可以不包括會用到的應(yīng)用程序名稱,甚至可以和想表達(dá)的意思在字面上毫不相干,Siri仍然能夠理解。如果是Siri遇到“步行范圍內(nèi)有沒有什么頂尖的意大利餐館,那墨西哥的呢?”,這種情況下Siri會將問題連同上文的“頂尖的餐館”和“步行范圍”一道進(jìn)行理解。
事實(shí)上,在Siri推出中文版之前,福特汽車更早就已經(jīng)在其SYNC導(dǎo)航系統(tǒng)中應(yīng)用了中文語音識別技術(shù),巧合的是,Siri與SYNC的供應(yīng)商都來自于目前全球最大的語音技術(shù)公司Nuance??梢哉f,“在Siri之前,就已經(jīng)有了SYNC”,提到這點(diǎn),福特歐洲、亞太及非洲區(qū)連接總監(jiān)潘浦力難掩他的興奮。
與此同時,潘浦力一點(diǎn)也不避談中文語音識別所遇到的問題。中文語言環(huán)境相對其他語種更為復(fù)雜,首先幾十種方言就是一大難題。近幾年來,福特一直在跟Nuance密切合作,由福特在中國各個省市收錄盡可能多的方言,編輯和匯集成一個語庫,同時把這些信息傳送給Nuance,后者則負(fù)責(zé)對機(jī)器進(jìn)行語音訓(xùn)練。這項(xiàng)工作效果卓著,目前最新的一代SYNC系統(tǒng)已經(jīng)可以識別帶國內(nèi)多個地區(qū)口音的普通話,還可識別近150條語音指令,進(jìn)行關(guān)鍵詞語音搜索等。不過,中文語音導(dǎo)航真正的難點(diǎn)并不在方言識別,而在于中文里“一字多音”,“一字多義”及語法復(fù)雜,導(dǎo)致語詞和語境的變化更是層出不窮。
一些“果粉”普遍表示,Siri中文語句斷句比較生澀,對中文的多音字不能區(qū)分,另外很多語句沒有對接到英文版中的知識問答系統(tǒng)。 “Siri的語義判斷就像本科生自己寫的if else一樣”一位網(wǎng)友在試用過后這樣下的結(jié)語。
圍剿Siri
其實(shí)所有的軟件應(yīng)用最終都是由一組組命令行構(gòu)成的,但是,沒有一種應(yīng)用像語音交互那么復(fù)雜,尤其是當(dāng)它與汽車結(jié)合到一起,要考慮進(jìn)來的因素就更多。難怪很多用戶在使用了現(xiàn)有的語音導(dǎo)航產(chǎn)品后表示不感冒,甚至抓狂、火大。
雖然中文版Siri本身還存在各種各樣的問題,Siri在中文語言環(huán)境中表現(xiàn)得也不是那么“犀利”,但是,很多企業(yè)甚至還在它尚未面世之時,就已經(jīng)把它視作第一大競爭對手。
作為國內(nèi)語音技術(shù)中的佼佼者,科大訊飛認(rèn)為本土作戰(zhàn),可以直接逆轉(zhuǎn)語言優(yōu)勢。就在蘋果推出Siri中文版之前,科大訊飛巧妙抓住時機(jī)搶先三個月推出了“訊飛語點(diǎn)”,這被認(rèn)為是“中國版Siri”對 Siri形成的一次“點(diǎn)射”。隨后科大訊飛副總裁江濤在微博上發(fā)聲,“我們知道Siri的語音技術(shù)是誰提供的,目前訊飛在與這家公司的中文產(chǎn)品競爭中,基本上占有顯著優(yōu)勢。”
科大訊飛聲稱已經(jīng)采集大量的方言數(shù)據(jù),不僅可以將帶方言的普通話的一次性識別正確率提高到90%左右,而且可以支持四川話、河南話、湖南話、東北話等幾乎全部的主流方言。同時,也在致力于更開放性語音對話的研發(fā),使其更接近自然語言的表述方式,比如,“上海冷不冷”,“幫我查一查西直門附近有沒有好的火鍋店”等等??拼笥嶏w應(yīng)用于汽車領(lǐng)域最有名的就是榮威的InkarNet語音導(dǎo)航系統(tǒng)。
對于Siri與科大訊飛的強(qiáng)勢,車音網(wǎng)表現(xiàn)得要“默默無聞”一些。不過,身為車音網(wǎng)副總經(jīng)理的陸凌濤卻不這么看,“車音網(wǎng)也可以識別多種方言”,對帶方言的普通話識別率與科大訊飛不相上下,“車音網(wǎng)還整合了超過1600萬個興趣點(diǎn)信息”,只要會話里包含了某個興趣點(diǎn),不管如何表達(dá),機(jī)器都能識別,這也是車音網(wǎng)下一步正在重點(diǎn)推進(jìn)的語音搜索研發(fā)方向。
陸凌濤手中還有一張對陣Siri的關(guān)鍵王牌,就是在與運(yùn)營商及各大車企呼叫中心的云端語控市場,車音網(wǎng)占有絕對優(yōu)勢,他甚至放言,要很快搶占該市場80%以上的占有率。此前,蘋果曾宣布了未來會展開合作的9大國際車企,其中有多家承諾將在未來12個月內(nèi)整合Eyes Free Siri功能。陸凌濤認(rèn)為,至少從目前來看,這根本構(gòu)不成威脅,因?yàn)樘O果與車企在國外的合作模式“根本不可能照搬進(jìn)國內(nèi)”,因?yàn)檫@是兩個不同的環(huán)境,同時,衍生的產(chǎn)業(yè)鏈生態(tài)環(huán)境也大為不同。
而汽車企業(yè)這邊也確實(shí)表現(xiàn)的態(tài)度曖昧,主要因?yàn)榇蟛糠周嚻蠖家呀?jīng)在自有語音導(dǎo)航領(lǐng)域投入了相當(dāng)大的開發(fā)費(fèi)用,比如,寶馬的相關(guān)前期投入巨大,寶馬的“語音控制系統(tǒng)”最多可識別500個預(yù)設(shè)詞條,可操控電話、空調(diào)、導(dǎo)航和音響系統(tǒng)等功能。免提麥克風(fēng)既可收音,還可以過濾掉背景噪音,但是,這項(xiàng)技術(shù)只在寶馬少數(shù)幾款高端車上才能見到。另外,從今年開始,寶馬在中國真正大范圍推廣的是其人工呼叫中心的服務(wù),這又是一筆高投入,可見在有限的預(yù)期內(nèi),至少在中國還看不到寶馬要將SIR整合進(jìn)來的跡象。
即使沒有投入,人工語音呼叫中心臺的維護(hù)費(fèi)用也十分高昂,選擇與蘋果合作,就意味著很多方面的工作要“從頭再來”。通用的安吉星車載系統(tǒng)與豐田的G-BOOK智能副駕系統(tǒng)都可以進(jìn)行語音導(dǎo)航,但是,二者都是通過后臺的人工呼叫中心來完成。人工服務(wù)更能靈活識別用戶的語言,但服務(wù)成本高昂。也正是看到這點(diǎn),最近兩家企業(yè)呼叫中心都開始計劃在后臺引入云端的語控導(dǎo)航技術(shù)。不過,據(jù)內(nèi)部消息,他們的合作伙伴均為中國企業(yè)。
目前,只有福特主要還是以語音導(dǎo)航為主,但是,福特的殺手锏在于,服務(wù)免費(fèi),升級方便,可擴(kuò)展性強(qiáng),而且它本身所用的技術(shù),根本不需要與蘋果合作。
語音技術(shù)企業(yè)的本土路線,車企的實(shí)用主義,使得在中國整個汽車產(chǎn)業(yè)鏈對Siri形成一個隱形的包圍圈,Siri要突圍只能另辟蹊徑了。
“語音超市”
與此同時,語音導(dǎo)航領(lǐng)域的競爭,其實(shí)也已經(jīng)變成了產(chǎn)業(yè)鏈的競爭,在這個的鏈條當(dāng)中,語音技術(shù)、語義搜索、資源庫、運(yùn)營平臺、應(yīng)用開發(fā)者平臺和消費(fèi)者的粘性,一個都不能少。
Siri的終極優(yōu)勢有二,前端的語音識別以及語音合成技術(shù)是關(guān)鍵,而重點(diǎn)更在后臺,它集成了網(wǎng)頁搜索、知識計算、資料庫、問答推薦等各種技術(shù)和應(yīng)用。但是,要形成后臺的聚合力,有一個必須的前提條件,就是它所搜索的應(yīng)用網(wǎng)頁和社會化問答社區(qū)都能提供開放的API接口。在國外大部分網(wǎng)站接口是開放的,可在中國開放的很少,這就意味著蘋果Siri要想在國內(nèi)有大發(fā)展,必須一家一家網(wǎng)站去談,一個一個應(yīng)用商去打通關(guān)系,否則,Siri在中國就是一支折翼的鷹。
谷歌、微軟、IBM等公司也都有不俗的語音技術(shù)實(shí)力,卻始終在中國沒有取得突破性進(jìn)展,他們欠缺正是一個可以集合各種應(yīng)用與中國消費(fèi)者產(chǎn)生廣泛聯(lián)系的運(yùn)營平臺。
陸凌濤雖然進(jìn)入語音導(dǎo)航行業(yè)時間不長,但是,他日常大部分時間都花在與不同企業(yè)談合作商,深知這其中的平淡曲折。他做了一個形象的比喻,“國外的網(wǎng)站好比日本的地鐵,日本所有的地鐵下面都是通的,每一個站點(diǎn)都可以通向地下商場,而商場與商場之間也是互通的,四通八達(dá),下雨的時候,可以根本不用走地上?!倍谥袊?,網(wǎng)站與網(wǎng)站之間都是被堵著的。從這里到那里,經(jīng)常要繞過許多彎道。
比如,你要想知道某個地方怎么走,最好去問高德、凱立德等地圖服務(wù)提供商,而且兩家企業(yè)都已經(jīng)在開發(fā)自己的能結(jié)合LBS位置點(diǎn)查詢的聲控導(dǎo)航;而如果要聽在線音樂,就需要去豆瓣和百度談。也就是說,每一項(xiàng)具體應(yīng)用都要去找一個垂直領(lǐng)域的服務(wù)提供商,而且最好能把每個垂直領(lǐng)域的幾家行業(yè)老大同時搞定,否則,就有可能讓你的消費(fèi)者能聽到這首歌卻聽不到那首歌,或者能找到這個地方,卻找不到那個地方。
而在這些方面,無論是科大訊飛還是車音網(wǎng)都有優(yōu)勢。車音網(wǎng)目前國內(nèi)的合作伙伴數(shù)量正處在一個大幅攀升的時候,科大訊飛則更不用說,據(jù)其公開的數(shù)據(jù)稱,目前已經(jīng)有將近3000家合作伙伴,使用“語音云”的最終消費(fèi)者已經(jīng)超過了3300萬。
對于這種情況,雖然陸凌濤也認(rèn)為有很多不合理的地方,但是,這就是中國語音導(dǎo)航市場的現(xiàn)狀,“國內(nèi)產(chǎn)業(yè)鏈正在以自己的方式聚合和演變,它是一種新的利益鏈關(guān)系”,而Siri的加入會加劇行業(yè)的演變。
現(xiàn)在,語音系統(tǒng)實(shí)際還是作為一個獨(dú)立APP存在的,多數(shù)的語音系統(tǒng)頂多只能實(shí)現(xiàn)進(jìn)入某項(xiàng)功能,不能實(shí)現(xiàn)很多細(xì)微的操作,很難把語音和背后的整個系統(tǒng)高度整合在一起。未來真正的語音平臺就是一個操作界面,現(xiàn)在所有的獨(dú)立APP應(yīng)用都將向后退到后臺的云端,這才是真正的“語音超市”概念。
從鍵盤到鼠標(biāo),再從鼠標(biāo)到觸控技術(shù),人機(jī)交互技術(shù)的發(fā)展,讓我們不斷獲得新的應(yīng)用平臺。誰能盡可能多地接入與移動互聯(lián)網(wǎng)相關(guān)的開發(fā)商和服務(wù)商,誰就能打造一個消費(fèi)者的“語音超市”,而在語音超市的背后,實(shí)際上是未來“語音操作系統(tǒng)”或“語音門戶”之爭。語音導(dǎo)航的歸宿或許也就在此處。