手機(jī)語(yǔ)音助手是集成語(yǔ)音識(shí)別、語(yǔ)義理解、語(yǔ)音合成等智能語(yǔ)音語(yǔ)義技術(shù)的手機(jī)應(yīng)用。以語(yǔ)音作為輸入,完成用戶相關(guān)請(qǐng)求,解放用戶雙手,實(shí)現(xiàn)更加便捷、優(yōu)質(zhì)的交互體驗(yàn)。
近年來(lái)語(yǔ)音交互技術(shù)的迅速發(fā)展,使其成為人工智能技術(shù)重點(diǎn)的落地方向,繼2011年蘋(píng)果推出Siri后,各大移動(dòng)智能手機(jī)廠商紛紛在產(chǎn)品中導(dǎo)入語(yǔ)音助手,例如三星Bixby、小米小愛(ài)同學(xué)、華為小E、vivo Jovi等,并進(jìn)一步推動(dòng)語(yǔ)音交互技術(shù)在移動(dòng)互聯(lián)網(wǎng)中的應(yīng)用。語(yǔ)音助手漸漸融入消費(fèi)者生活中,逐步改變?nèi)藱C(jī)交互方式。
根據(jù)中國(guó)電信終端研究測(cè)試中心調(diào)研,如圖1所示,用戶對(duì)語(yǔ)音助手的認(rèn)知率達(dá)95.6%,使用比例為58.6%,超過(guò)一半的智能手機(jī)用戶將語(yǔ)音助手作為其交互方式之一。
圖1 主流AI功能認(rèn)知率與使用情況
用戶首先通過(guò)喚醒設(shè)備進(jìn)入激活狀態(tài),然后通過(guò)語(yǔ)音進(jìn)行人機(jī)對(duì)話交流;手機(jī)進(jìn)行語(yǔ)音識(shí)別后,進(jìn)行一系列的處理獲得相應(yīng)的結(jié)果和服務(wù),并給予用戶反饋,其中語(yǔ)音助手VUI的反饋是通過(guò)語(yǔ)音合成實(shí)現(xiàn)。用戶在不斷的交互中獲得反饋,同時(shí)語(yǔ)音助手在不斷的交互中更新自己的知識(shí)使得系統(tǒng)更加智能。語(yǔ)音助手邏輯框架如圖2所示。
圖2 語(yǔ)音助手邏輯框架
對(duì)話式交互技術(shù)包括語(yǔ)音識(shí)別/合成、語(yǔ)義理解和對(duì)話管理3個(gè)部分。語(yǔ)音識(shí)別ASR(Automatic Speech Recognition),通過(guò)聲學(xué)模型和語(yǔ)言模型,將用戶的語(yǔ)音轉(zhuǎn)化文本。語(yǔ)義理解NLU(Natural Language Understand)將漢字序列切分成詞序列、詞性標(biāo)注、命名實(shí)體識(shí)別、文本分類、情感分析。對(duì)話管理DM(Dialog Management),是對(duì)話式交互系統(tǒng)的核心,負(fù)責(zé)控制整個(gè)對(duì)話過(guò)程,主要包括對(duì)話上下文、對(duì)話狀態(tài)跟蹤和對(duì)話策略幾部分。對(duì)話生成NLG(Natural Language Generation),即對(duì)話生成的技術(shù)。對(duì)于任務(wù)導(dǎo)向的對(duì)話來(lái)說(shuō),NLG 基本以模板形式來(lái)實(shí)現(xiàn),對(duì)話生成的原則是符合自然語(yǔ)言交互的習(xí)慣,易于用戶理解,最快完成對(duì)話。語(yǔ)音合成 TTS(Text To Speech)是指語(yǔ)音合成技術(shù)。對(duì)話系統(tǒng)的輸出是文本形式的NLG或者指令,當(dāng)對(duì)話返回的內(nèi)容是NLG時(shí),通過(guò)TTS技術(shù)能將這些文本轉(zhuǎn)換成流暢的語(yǔ)音,播放給用戶。語(yǔ)音助手整理技術(shù)流程如圖3所示。
圖3 語(yǔ)音助手技術(shù)流程
為準(zhǔn)確地評(píng)估當(dāng)前商用智能手機(jī)的語(yǔ)音助手的能力與功能豐富性,針對(duì)語(yǔ)音助手關(guān)鍵能力與功能設(shè)定量與定性相結(jié)合的測(cè)試方案。
3.1.1 語(yǔ)音喚醒
測(cè)試指標(biāo)包括喚醒率、誤闖率。語(yǔ)音喚醒是語(yǔ)音交互的第一步,這兩項(xiàng)指標(biāo)直接關(guān)系到到用戶的實(shí)際體驗(yàn)。
喚醒率指語(yǔ)音助手被本人(錄入喚醒詞用戶)成功喚醒的比率,主要通過(guò)多人多輪次喚醒,統(tǒng)計(jì)喚醒成功次數(shù)。
假設(shè)智能終端在喚醒時(shí)會(huì)出現(xiàn)兩種狀態(tài),概率圖模型如圖4所示。
(1)總共有P次類別為1的樣本,假設(shè)類別1為成功喚醒。
(2)總共有N次類別為0的樣本,假設(shè)類別0為喚醒失敗。
誤闖率指語(yǔ)音助手被他人成功喚醒的比率,用于評(píng)價(jià)帶聲紋語(yǔ)音喚醒的聲紋區(qū)分度的指標(biāo)。
圖4 概率圖模型
3.1.2 語(yǔ)音助手能力測(cè)試
包括基礎(chǔ)類功能測(cè)試、進(jìn)階類功能測(cè)試兩類。
基礎(chǔ)類功能測(cè)試指語(yǔ)音助手支持功能的豐富性,涵蓋端側(cè)能力、系統(tǒng)設(shè)置、原生應(yīng)用、影像、商務(wù)金融、工具助手、便捷生活、兒童和家庭。
如:端側(cè)能力測(cè)試主要包括在離線狀態(tài)下,通過(guò)語(yǔ)音助手實(shí)現(xiàn)“打電話”、“發(fā)短信”、“設(shè)置鬧鐘”等高頻簡(jiǎn)易操作。
進(jìn)階類功能測(cè)試指語(yǔ)音助手功能所實(shí)現(xiàn)深度,此類測(cè)試能多方位的體現(xiàn)各語(yǔ)音助手的差異。內(nèi)容包括三方應(yīng)用操作、智能水平、多輪對(duì)話。
例如“廣州天氣怎么樣”、“明天呢”、“那上海呢”;還包括中、英、數(shù)字混合類識(shí)別,如“美國(guó)10年期TIPS收益率創(chuàng)下歷史最低紀(jì)錄-0.87%”等。
廠商均優(yōu)先從高端產(chǎn)品導(dǎo)入語(yǔ)音助手新功能功能,本次測(cè)試主要選取主流廠商中高端產(chǎn)品。包括蘋(píng)果、華為、三星、小米、OPPO、vivo等品牌的12款機(jī)型,具體機(jī)型如表1所示。
表1 測(cè)試機(jī)型列表
測(cè)評(píng)方案結(jié)合定量、定性指標(biāo),定量指標(biāo)包括在不同背景噪音環(huán)境下的語(yǔ)音助手喚醒指標(biāo)。涵蓋安靜場(chǎng)景(不高于45 dB)、低噪場(chǎng)景(50~60 dB)、中噪(60~65 dB),測(cè)試距離包括短距(30 cm)、中距(80 cm)。測(cè)試不同環(huán)境交叉組合下的喚醒成功率與誤闖率,單場(chǎng)景測(cè)試次數(shù)共200次,通過(guò)人工嘴播放10人語(yǔ)音喚醒數(shù)據(jù),每人20次。具體測(cè)試場(chǎng)景如表2所示。
表2 語(yǔ)音喚醒指標(biāo)測(cè)試場(chǎng)景
定性評(píng)估參考google action 18個(gè)一級(jí)分類,主要測(cè)試語(yǔ)音助手的功能支持與語(yǔ)義理解。在語(yǔ)音助手處于激活狀態(tài),通過(guò)人工測(cè)試定性測(cè)試用例,內(nèi)容包括語(yǔ)音助手是否支持離線操作、調(diào)用原生應(yīng)用、打開(kāi)第三方APP、中/英/數(shù)字混合類識(shí)別、生活?yuàn)蕵?lè)類服務(wù)。主要目的測(cè)試語(yǔ)音助手是否能正確的識(shí)別用戶意圖,測(cè)試用例如表3所示。
表3 語(yǔ)音助手能力測(cè)試部分用例
華為、vivo、三星機(jī)型語(yǔ)音助手功能支持相對(duì)全面。3500元以上價(jià)格段,喚醒成功率TOP3機(jī)型是華為 P30 Pro、OPPO Reno、三星note10,三星note10 近場(chǎng)喚醒表現(xiàn)穩(wěn)定,OPPO Reno遠(yuǎn)場(chǎng)喚醒成功率表現(xiàn)優(yōu)異。語(yǔ)音助手喚醒成功率在遠(yuǎn)場(chǎng)、低信噪比條件下的語(yǔ)音識(shí)別性能亟需改進(jìn)。iPhone XR與中興天機(jī)10在遠(yuǎn)場(chǎng)(80 cm)喚醒成功率下降最為明顯,安靜環(huán)境下分別下降31.5pp與29.5 pp;低噪環(huán)境下,分別下降45.5 pp與43.5 pp。
誤闖率TOP3機(jī)型是三星note 10、OPPO Reno、華為P30 pro;在語(yǔ)音喚醒算法層面喚醒率與誤闖率強(qiáng)相關(guān),若一款終端喚醒率越高,則其越容易被誤喚醒,廠商的方案是通過(guò)平衡喚醒率與誤闖率來(lái)實(shí)現(xiàn)用戶的體驗(yàn)最佳。
語(yǔ)音助手能力測(cè)試以定性為主,廠商差異相對(duì)較小,在完成基礎(chǔ)的垂類功能覆蓋,根據(jù)產(chǎn)品特色進(jìn)行特定范圍功能與能力拓展?;A(chǔ)功能方面,華為P30 pro、榮耀20 pro在各自價(jià)格段表現(xiàn)更優(yōu);進(jìn)階功能方面,3 500元以上價(jià)格段,三星note 10在表現(xiàn)優(yōu)異,3 500元以下,小米9優(yōu)于其他競(jìng)品。
隨著主流廠商手機(jī)產(chǎn)品的普遍支持,語(yǔ)音助手的宣傳噱頭、炫技期結(jié)束,手機(jī)語(yǔ)音助手開(kāi)始進(jìn)入實(shí)打?qū)嵈蚰ゼ?xì)節(jié)的階段。
(1)語(yǔ)音識(shí)別將持續(xù)優(yōu)化。語(yǔ)音識(shí)別作為語(yǔ)音助手的底層技術(shù)核心,整個(gè)過(guò)程包含語(yǔ)音信號(hào)處理、靜音切除、聲學(xué)特征提取、模式匹配等多個(gè)環(huán)節(jié)。由于語(yǔ)音信號(hào)的多樣性和復(fù)雜性,系統(tǒng)只能在一定限制條件下才能獲得滿意效果,而在真實(shí)使用場(chǎng)景中,受遠(yuǎn)場(chǎng)、方言、噪音、斷句等問(wèn)題,準(zhǔn)確率下降。當(dāng)前廠商亟需在語(yǔ)音增強(qiáng)、麥克風(fēng)陣列以及多說(shuō)話人分離等多項(xiàng)技術(shù)上持續(xù)投入,并結(jié)合后端語(yǔ)義,促進(jìn)對(duì)上下文的理解,從而提升識(shí)別效果, 優(yōu)化語(yǔ)音識(shí)別魯棒性問(wèn)題。
(2)從聽(tīng)得懂向做得到進(jìn)階,做到真正幫用戶解放雙手。手機(jī)語(yǔ)音助手越來(lái)越需要具備復(fù)雜任務(wù)處理能力,從而滿足用戶實(shí)用性需求。由于很多高頻用戶需求功能是微信、淘寶、百度導(dǎo)航等“APP”應(yīng)用形式實(shí)現(xiàn)的,所以手機(jī)廠商需要聯(lián)合應(yīng)用提供商,包括常用的溝通、視頻、導(dǎo)航、音樂(lè)、出行、購(gòu)物等應(yīng)用主導(dǎo)廠商,共同打造語(yǔ)音服務(wù)生態(tài),通過(guò)語(yǔ)音助手操作應(yīng)用內(nèi)深層功能。
(3)從“被動(dòng)服務(wù)”向“主動(dòng)服務(wù)”轉(zhuǎn)變。
當(dāng)前的語(yǔ)音助手以應(yīng)答性為主,主要根據(jù)用戶的指令反饋相關(guān)信息或者提供服務(wù),與AI情節(jié)感知結(jié)合,如何前瞻性地主動(dòng)幫用戶解決問(wèn)題是其發(fā)展的重要方向。例如當(dāng)你遲到了,語(yǔ)音助手重新預(yù)約了一次午餐會(huì)議;督促你更多地進(jìn)行運(yùn)動(dòng)鍛煉,或者節(jié)省開(kāi)支。
為每一個(gè)手機(jī)用戶的語(yǔ)音助手配備有專屬的AI算法和AI資源,通過(guò)精準(zhǔn)理解用戶個(gè)體的需求,實(shí)現(xiàn)變共性滿足到個(gè)性滿足,使得手機(jī)語(yǔ)音助手真正成為更貼心、更個(gè)性、更快捷方便的私人助手,或是手機(jī)語(yǔ)音助手在較長(zhǎng)一段時(shí)期的發(fā)展趨勢(shì)。