技術(shù)宅
微軟為Windows 10內(nèi)置了一款語(yǔ)音智能助手——Cortana(中文名:微軟小娜),同時(shí)在Windows 8.1 Phone也集成了該應(yīng)用。小娜能夠了解用戶的喜好和習(xí)慣,幫助用戶進(jìn)行日程安排、回答問題等,仿佛是一個(gè)實(shí)實(shí)在在的“人”,實(shí)際上“她”卻只是一個(gè)智能程序?,F(xiàn)在“她”又連續(xù)解鎖了多項(xiàng)智能功能,比如“關(guān)注學(xué)術(shù)動(dòng)態(tài)”、“附近美食團(tuán)購(gòu)”等等。那么小娜是怎么實(shí)現(xiàn)上述功能的?就讓我們來看看“她”的背后有什么樣的技術(shù)支撐。
解密小娜的前世今生
微軟小娜看上去非常神奇,其實(shí)“她”就是現(xiàn)在流行的智能語(yǔ)音人機(jī)交互技術(shù)的一種表現(xiàn)形式。說到語(yǔ)音交互,對(duì)于微軟來說,早在Windows Vista發(fā)布之初就內(nèi)置了“語(yǔ)音識(shí)別”組件,通過這個(gè)組件我們可以借助語(yǔ)音實(shí)現(xiàn)語(yǔ)音輸入、語(yǔ)音控制程序啟動(dòng)等交互功能,這功能現(xiàn)在通過小娜都可以輕松實(shí)現(xiàn)(圖1)。
不過隨著移動(dòng)設(shè)備的普及,以及Windows 10全平臺(tái)的需要,微軟將語(yǔ)音識(shí)別功能推廣到PC和移動(dòng)設(shè)備上,同時(shí)結(jié)合Bing搜索引擎,微軟使用功能更強(qiáng)大的小娜作為替代。當(dāng)然在移動(dòng)語(yǔ)音交互領(lǐng)域,各大IT巨頭也互不相讓,蘋果推出了Siri,谷歌則推出了Google Now,它們和小娜一樣都是智能語(yǔ)音人機(jī)交互技術(shù)的典型代表(圖2)。
為什么那么聰明——解密小娜背后的技術(shù)
使用過小娜的朋友都會(huì)被“她”的聰明勁折服,無論是語(yǔ)音搜索、輸入,或是語(yǔ)音命令,小娜都可以準(zhǔn)確無誤地執(zhí)行,而且經(jīng)過一段時(shí)間使用以后,小娜將越來越了解用戶的行為習(xí)慣,可以為大家做出更多智能的操作。那么小娜的這些本領(lǐng)是怎么掌握的?
首先要實(shí)現(xiàn)語(yǔ)音交互,小娜就必須實(shí)現(xiàn)對(duì)語(yǔ)音精準(zhǔn)識(shí)別和輸入。在語(yǔ)音輸入識(shí)別領(lǐng)域,這原來就是微軟亞洲研究院(現(xiàn)已更改為微軟亞洲互聯(lián)網(wǎng)工程院,小娜正是出自其手)的強(qiáng)項(xiàng)?,F(xiàn)在小娜支持多種語(yǔ)言,除了中文外還有英語(yǔ)、德語(yǔ)、西班牙語(yǔ)、法語(yǔ)、意大利語(yǔ)等。從支持語(yǔ)言方面就可以看到微軟在這方面的技術(shù)有多強(qiáng)大。當(dāng)然撇開其他外語(yǔ)不說,單就中文的支持而言,由于中國(guó)目前方言眾多,每個(gè)地方的人講普通話幾乎都會(huì)帶各自的口音,經(jīng)過實(shí)際測(cè)試可以看到,無論是南方口音,還是典型東北話,目前小娜幾乎都可以精準(zhǔn)識(shí)別,這是小娜語(yǔ)音智能交互的基礎(chǔ),其背后功臣正是微軟語(yǔ)音識(shí)別技術(shù)(圖3)。
其次小娜具備和設(shè)備智能交互的功能,比如可以基于手機(jī)設(shè)備進(jìn)行一些操作,包括打電話、設(shè)置提醒等,同時(shí)結(jié)合微軟的必應(yīng)搜索,小娜可以實(shí)現(xiàn)智能問答和推送。啟動(dòng)小娜后,我們只要對(duì)著手機(jī)語(yǔ)音輸入一些關(guān)鍵詞,小娜正確識(shí)別后就會(huì)根據(jù)關(guān)鍵詞的不同迅速給出反饋。
比如你輸入的是“呼叫XXX”,小娜識(shí)別后會(huì)智能判斷出你想執(zhí)行的操作是撥打電話,接著小娜就會(huì)遍歷手機(jī)通訊錄,找出符合語(yǔ)音輸入的聯(lián)系人后開啟電話撥號(hào),實(shí)現(xiàn)類似很多手機(jī)吹噓的語(yǔ)音撥號(hào)功能(圖4)。當(dāng)然這只是小娜一個(gè)簡(jiǎn)單的功能,我們還可以輸入類似“訂購(gòu)車票”、“啟動(dòng)計(jì)算器”、“明天買蛋糕”等自然語(yǔ)言,小娜就會(huì)根據(jù)你的關(guān)鍵詞,然后智能關(guān)聯(lián)到對(duì)應(yīng)的程序?yàn)槟惴?wù)(比如輸入買蛋糕,小娜則會(huì)自動(dòng)啟動(dòng)鬧鐘提醒服務(wù)為你買蛋糕增加語(yǔ)音提醒)。
如果你輸入的是和操作并不關(guān)聯(lián)的關(guān)鍵字,比如輸入“附近有什么餐館”,小娜則會(huì)結(jié)合必應(yīng)搜索功能,通過對(duì)你當(dāng)前位置的定位,然后將附近餐館的位置推送給你(圖5)。
當(dāng)然除了這些智能交互操作,如果你開放個(gè)人數(shù)據(jù)(可以在小娜中進(jìn)行設(shè)置),完全信任她,小娜就會(huì)根據(jù)你開放的權(quán)限提供更多智能的服務(wù)。比如你經(jīng)常在微信中訂閱某明星信息,那么小娜就會(huì)利用必應(yīng)強(qiáng)大的搜索功能實(shí)時(shí)將該明星的信息推送給你,讓你獲得更多個(gè)性化的服務(wù)(圖6)。
當(dāng)然,小娜這些看上去很神奇的功能,背后實(shí)際上依靠的是微軟的云計(jì)算、云服務(wù)和搜索引擎的大數(shù)據(jù)功能實(shí)現(xiàn)的。比如搜索引擎的大數(shù)據(jù)功能可以通過分析用戶輸入“北京”和“去北京”這兩個(gè)關(guān)鍵字的不同,然后為用戶呈現(xiàn)不同的反饋結(jié)果(如前者是進(jìn)行北京相關(guān)知識(shí)的查詢,后者則是反饋去北京的交通工具如訂購(gòu)火車、機(jī)票)。
生活可以更美好——小娜們給我們帶來的便利
從上面的內(nèi)容可以看到小娜的強(qiáng)大功能,一方面我們只要借助平時(shí)的自然語(yǔ)言輸入即可獲得很多便捷服務(wù),比如在開車時(shí)撥打電話,我們只要呼叫聯(lián)系人的名字即可撥打電話,這種語(yǔ)音操作可以解放我們的雙手。另一方面,小娜基于大數(shù)據(jù)技術(shù)可以為我們提供更多個(gè)性化服務(wù),比如對(duì)于現(xiàn)在的股民,開放我們的個(gè)人數(shù)據(jù)給小娜讀取后,小娜就會(huì)實(shí)時(shí)為我們推送股市信息,給我們獲取需要的資訊帶來更多的便利。
不過,對(duì)于語(yǔ)音助手未來的演變,我們還需要有一段適應(yīng)期,語(yǔ)音識(shí)別和交互技術(shù)仍然還有很大提升空間。語(yǔ)音并不會(huì)完全代替鼠標(biāo)、觸摸屏和手勢(shì),這些交互技術(shù)各有所長(zhǎng),未來會(huì)互相結(jié)合使用。隨著大數(shù)據(jù)、云計(jì)算技術(shù)的發(fā)展,類似小娜、Siri這種語(yǔ)音助手未來將會(huì)無處不在,必然會(huì)給我們的生活帶來更多的便利。