你是否相信,未來(lái)你聽(tīng)到的話語(yǔ)越來(lái)越多地將由機(jī)器發(fā)出,而不是你熟悉的由人說(shuō)出來(lái)的?而你說(shuō)出的話也越來(lái)越多地是說(shuō)給機(jī)器,由它們接收、識(shí)別、解讀,并采取相應(yīng)的動(dòng)作,甚至回答你,與你對(duì)話。2005年~2009年的這一段時(shí)間里,人工語(yǔ)音技術(shù)發(fā)生了質(zhì)的飛躍。這個(gè)結(jié)論并不是來(lái)自技術(shù)進(jìn)步的考察,而是來(lái)自于應(yīng)用的普及。從2009年開(kāi)始,這種人工智能語(yǔ)音應(yīng)用就已經(jīng)大規(guī)模爆發(fā)了。
其實(shí),人工智能語(yǔ)音早在本世紀(jì)初就已經(jīng)進(jìn)入人類(lèi)的生活,并有了相當(dāng)規(guī)模的商業(yè)化應(yīng)用。語(yǔ)音合成在這方面普及得最早,由電子合成的語(yǔ)音報(bào)讀在公共交通報(bào)站、證券、通信等領(lǐng)域的信息查詢應(yīng)答獲得了成功,并且獲得了人們的接受和認(rèn)可。這標(biāo)志著人工智能語(yǔ)音已經(jīng)獲得進(jìn)入人類(lèi)生活的許可證和通行證。
人工智能語(yǔ)音的時(shí)代已經(jīng)開(kāi)始了,但它能走多遠(yuǎn),可能會(huì)超出我們的預(yù)料。人工語(yǔ)音技術(shù)的普及應(yīng)用是從人工語(yǔ)音合成后開(kāi)始的。最初的語(yǔ)音合成是將真人講的語(yǔ)句、語(yǔ)詞片段錄音存儲(chǔ),根據(jù)需要合成的語(yǔ)句疊加而成。目前還有許多場(chǎng)合使用這種技術(shù),比如公交報(bào)站、軌道交通自動(dòng)報(bào)站。如北京的公交車(chē)或者地鐵(如4號(hào)線、13號(hào)線)就在使用語(yǔ)音合成技術(shù),你會(huì)發(fā)現(xiàn),報(bào)出的每個(gè)站名(地名)都比較自然,但語(yǔ)詞連接語(yǔ)氣有點(diǎn)怪。日前,筆者到北京某醫(yī)院治病,在候診的時(shí)候聽(tīng)到“XX號(hào)XXX請(qǐng)到2號(hào)診室就診”。初聽(tīng)之下,以為是人工叫號(hào)分診,但仔細(xì)一聽(tīng)發(fā)現(xiàn)原來(lái)真是全人工合成的語(yǔ)音。若非仔細(xì)辨別,幾乎會(huì)把它當(dāng)作是真人講的。
語(yǔ)音識(shí)別:對(duì)搜索應(yīng)用的語(yǔ)音想象
2009年是一個(gè)不平常的年份,這一年全世界的人們都在茫然和期冀中躁動(dòng)不安。世界經(jīng)濟(jì)到底會(huì)呈現(xiàn)出什么樣的走勢(shì)?無(wú)論是悲觀論者,還是樂(lè)觀主義者,心中的期冀其實(shí)都是一樣的——人心向好。谷歌、微軟、英特爾、摩托羅拉這些信息技術(shù)巨頭們的選擇是堅(jiān)持不懈地推進(jìn)人機(jī)交互技術(shù)的進(jìn)步,這個(gè)選擇代表了他們對(duì)未來(lái)的態(tài)度。
在人機(jī)智能交互領(lǐng)域,與微軟和摩托羅拉依然看重書(shū)寫(xiě)不同的是,谷歌把交互重點(diǎn)放在了語(yǔ)音上。當(dāng)然,作為搜索技術(shù)的領(lǐng)袖企業(yè),谷歌的語(yǔ)音技術(shù)應(yīng)用重點(diǎn)也主要是在搜索上。不過(guò),我們依然看得很清楚,語(yǔ)音只是人機(jī)接口,不過(guò)智能交互性得到了極大的加強(qiáng)。
去年,谷歌在美國(guó)發(fā)布了英文語(yǔ)音搜索服務(wù)Voice Search,應(yīng)用于Android、諾基亞S60、黑莓、iPhone等多個(gè)系列的手機(jī)。不過(guò)它的競(jìng)爭(zhēng)對(duì)手微軟也沒(méi)有閑著,微軟的布局并非剛剛開(kāi)始,而是遠(yuǎn)遠(yuǎn)早于谷歌。
對(duì)于語(yǔ)音識(shí)別技術(shù)和人工語(yǔ)音技術(shù)市場(chǎng)而言,有一個(gè)場(chǎng)景應(yīng)當(dāng)被記住,那就是2009年11月27日的美國(guó)紐約時(shí)代廣場(chǎng)。這是感恩節(jié)后的第一個(gè)星期五,是通常所說(shuō)的“黑色星期五”。這一天,紐約時(shí)代廣場(chǎng)上的兩塊大型LED顯示屏上,并沒(méi)有像往常那樣播放路透社和納斯達(dá)克的標(biāo)識(shí)廣告,而是如同接收外太空信號(hào)一般,不停地滾動(dòng)著手機(jī)號(hào)碼和沒(méi)有任何邏輯聯(lián)系的詞句。神奇的是,這些是人們撥打888-376-4336后對(duì)著話筒任意說(shuō)出來(lái)的,經(jīng)過(guò)號(hào)碼背后的語(yǔ)音識(shí)別系統(tǒng)處理后同步顯示在屏幕上的詞句,每個(gè)詞句下面還有似曾相識(shí)的搜索結(jié)果網(wǎng)頁(yè)——這是谷歌為旗下的語(yǔ)音搜索進(jìn)行的一項(xiàng)推廣活動(dòng)。
谷歌將成為處在語(yǔ)音技術(shù)應(yīng)用“風(fēng)眼”上的企業(yè)?
別在意谷歌宣稱的退出中國(guó),它不會(huì)放棄中國(guó)這個(gè)市場(chǎng)。幾乎是在它“退出”中國(guó)的同時(shí),谷歌全球副總裁維克·甘多特拉(Vic Gundotra)也在北京向中國(guó)媒體展示該公司剛剛推出的中文版語(yǔ)音搜索。“紐約最好的意大利餐廳!”維克·甘多特拉拿出手機(jī)放在耳朵上,操著并不熟練的中文大聲說(shuō)道,然后笑瞇瞇地把手里的手機(jī)轉(zhuǎn)向大家。是的,不到一秒鐘的時(shí)間,屏幕上已經(jīng)顯示出了搜索結(jié)果。請(qǐng)記住,他講的是中文,機(jī)器上識(shí)別出來(lái)的也是漢字。
權(quán)威的IT經(jīng)理人雜志《IT經(jīng)理世界》對(duì)于語(yǔ)音識(shí)別給出了一個(gè)生動(dòng)的描繪:“不需要再噼里啪啦地敲擊鍵盤(pán)了,一個(gè)并不陌生的語(yǔ)音時(shí)代難道已經(jīng)來(lái)臨?”
也許這還不是一個(gè)肯定的結(jié)論,但手機(jī)這個(gè)精靈讓一切都變得清晰起來(lái)。手機(jī)將是這場(chǎng)語(yǔ)音化浪潮的中心?!霸谛⌒〉氖謾C(jī)鍵盤(pán)上輸入文字搜索信息并不容易,”谷歌中國(guó)產(chǎn)品經(jīng)理許裴說(shuō),“一些較長(zhǎng)的詞,鍵盤(pán)輸入不僅速度很慢也容易拼錯(cuò),而我們正在開(kāi)車(chē)的時(shí)候是沒(méi)有辦法停下來(lái)用手打字的?!?/p>
據(jù)微軟移動(dòng)高級(jí)總監(jiān)帕祖斯基(Dariusz Paczuski)統(tǒng)計(jì),使用智能手機(jī)搜索一個(gè)餐廳需要按鍵盤(pán)超過(guò)20次,發(fā)短信則需要按更多次鍵盤(pán)。而只需張嘴的語(yǔ)音搜索則能提供更方便、快速和簡(jiǎn)單的搜索服務(wù),大大降低人們使用手機(jī)搜索的門(mén)檻。
手機(jī)的演化也為語(yǔ)音搜索的實(shí)現(xiàn)提供了硬件基礎(chǔ)?,F(xiàn)在,幾乎所有的手機(jī)都擁有錄音、照相等功能,智能手機(jī)的出現(xiàn)則讓手機(jī)從一個(gè)單純的通話裝置變成一臺(tái)小型的計(jì)算設(shè)備。按維克的話說(shuō),麥克風(fēng)和攝像頭跟互聯(lián)網(wǎng)相連之后,變成了“云端的耳朵和眼睛”。
谷歌在成功地?fù)魯?duì)手微軟,以搜索框超越了操作系統(tǒng)占領(lǐng)了用戶的桌面之后,把重點(diǎn)放在了語(yǔ)音搜索上。這是谷歌又一次巨大的跨界戰(zhàn)爭(zhēng)。去年,谷歌在美國(guó)發(fā)布了英文語(yǔ)音搜索服務(wù)Voice Search,應(yīng)用于Android、諾基亞S60、黑莓、iPhone等多個(gè)系列的手機(jī)。
其競(jìng)爭(zhēng)對(duì)手微軟也在早些時(shí)候就進(jìn)行了語(yǔ)音技術(shù)的布局。比起谷歌的發(fā)展上市速度可以說(shuō)并不遜色多少。早在2007年,微軟就收購(gòu)了領(lǐng)先的手機(jī)語(yǔ)音識(shí)別服務(wù)廠商TellMe,組成了微軟現(xiàn)在的語(yǔ)音團(tuán)隊(duì)。TellMe一直在為包括411商務(wù)搜索、1-800-555的信息搜索以及美國(guó)航空在內(nèi)的企業(yè)提供語(yǔ)音服務(wù)平臺(tái)。微軟新的語(yǔ)音團(tuán)隊(duì)的首要任務(wù)就是把語(yǔ)音搜索技術(shù)與Windows Mobile整合起來(lái),移動(dòng)版Bing搜索在三星手機(jī)上已經(jīng)實(shí)現(xiàn)與谷歌類(lèi)似的語(yǔ)音搜索功能。
在桌面上,微軟早就通過(guò)輸入法提供語(yǔ)音識(shí)別功能了,包括中文語(yǔ)音識(shí)別,遺憾的是真正的使用者卻是寥寥無(wú)幾。如果分析原因的話,除了識(shí)別準(zhǔn)確率還有待提高之外,關(guān)鍵是使用場(chǎng)景問(wèn)題。在桌面上,使用鍵盤(pán)和手寫(xiě)輸入就很方便,而使用語(yǔ)音則顯得怪怪的,而且也不是很方便。如果把使用場(chǎng)景換做手機(jī)上,情況就大不相同了。這是谷歌的聰明之處,它選擇了手機(jī)。在可以預(yù)期的一段時(shí)間里,手機(jī)將會(huì)成為語(yǔ)音化浪潮的中心。谷歌將又是處在語(yǔ)音技術(shù)應(yīng)用“風(fēng)眼”上的企業(yè)。
語(yǔ)音技術(shù)將無(wú)處不在
自計(jì)算機(jī)誕生以來(lái),讓電腦認(rèn)識(shí)人們寫(xiě)的字,聽(tīng)懂人們的說(shuō)的話,就一直是人類(lèi)的一大心愿和預(yù)期。早在上個(gè)世紀(jì)的六七十年代,計(jì)算機(jī)語(yǔ)音識(shí)別技術(shù)就開(kāi)始了探索。IBM是最早進(jìn)行語(yǔ)音識(shí)別技術(shù)研究的企業(yè)之一,上個(gè)世紀(jì)90年代就推出可用于聲控打字和語(yǔ)音導(dǎo)航的語(yǔ)音識(shí)別輸入軟件IBM ViaVoice。不僅推出了漢語(yǔ)的標(biāo)準(zhǔn)普通話版本,還推出了四川等方言的普通話版本。用戶只要對(duì)著電腦講話即可輸入漢字,輸入速度能達(dá)到每分鐘150個(gè)漢字,幾乎是鍵盤(pán)輸入的2倍、普通手寫(xiě)輸入的6倍。盡管售價(jià)不菲,但這套軟件在全球已售出100多萬(wàn)套。漢王科技當(dāng)年正是基于這套軟件,開(kāi)發(fā)出了基于語(yǔ)音和手寫(xiě)識(shí)別的讀寫(xiě)聽(tīng)產(chǎn)品。實(shí)現(xiàn)了人和計(jì)算機(jī)信息交互的“你聽(tīng)我說(shuō),我寫(xiě)你認(rèn)”,從而也奠定了漢王科技今天在人機(jī)智能交互領(lǐng)域的領(lǐng)先地位。
微軟在Windows XP之前,就在操作系統(tǒng)中添加了語(yǔ)音識(shí)別功能,在新推出的Windows 7里這一功能更為完善。不用鍵盤(pán)鼠標(biāo),用戶可以通過(guò)語(yǔ)音對(duì)計(jì)算機(jī)進(jìn)行簡(jiǎn)單的控制,如說(shuō)一句“打開(kāi)瀏覽器”,就可以輕松地打開(kāi)IE。
剛剛上市的Exchange Server 2010中則有更加先進(jìn)的語(yǔ)音郵件預(yù)覽功能,可以自動(dòng)為語(yǔ)音郵件提供文本預(yù)覽。在不方便收聽(tīng)語(yǔ)音郵件的情況下,用戶可以先通過(guò)語(yǔ)音郵件預(yù)覽來(lái)了解郵件的大致內(nèi)容,也可以通過(guò)閱讀文本預(yù)覽來(lái)決定郵件的優(yōu)先順序。
谷歌則基于Web的云計(jì)算將這種語(yǔ)音識(shí)別技術(shù)帶入更廣泛的應(yīng)用領(lǐng)域,不僅實(shí)現(xiàn)了語(yǔ)音搜索,還為YouTube推出一項(xiàng)新的功能,讓用戶利用語(yǔ)音識(shí)別為YouTube視頻添加字幕,這將大大提升YouTube視頻的觀看體驗(yàn)。毫不夸張地說(shuō),語(yǔ)音技術(shù)在計(jì)算機(jī)桌面已經(jīng)遍地開(kāi)花了。
手機(jī)這款與人如影隨形的東西,將把語(yǔ)音技術(shù)帶到人類(lèi)活動(dòng)的任何角落。一個(gè)人如果對(duì)著機(jī)器說(shuō)話,大家一定感覺(jué)怪怪的。如果是對(duì)著手機(jī)說(shuō)呢?再正常不過(guò)了??赡芨杏X(jué)怪怪的人是說(shuō)話人自己,因?yàn)槟且欢说穆?tīng)話者不是人,是機(jī)器,是語(yǔ)音識(shí)別引擎。說(shuō)話者知道,他是說(shuō)給谷歌地圖聽(tīng)的,他想知道海淀婦產(chǎn)醫(yī)院怎么走。也許他正駕車(chē)行駛在大連的海邊公路上,他可能會(huì)對(duì)著車(chē)載導(dǎo)航念叨這樣的句子,“東軟信息學(xué)院到底在哪呢?”他得到的應(yīng)答可能是:“您正行駛在濱海公路X段,向前方1.5公里請(qǐng)出5號(hào)出口……”這是語(yǔ)音合成的,同時(shí)在導(dǎo)航屏幕上還會(huì)出現(xiàn)線路圖。