手機語音助手是集成語音識別、語義理解、語音合成等智能語音語義技術(shù)的手機應(yīng)用。以語音作為輸入,完成用戶相關(guān)請求,解放用戶雙手,實現(xiàn)更加便捷、優(yōu)質(zhì)的交互體驗。
近年來語音交互技術(shù)的迅速發(fā)展,使其成為人工智能技術(shù)重點的落地方向,繼2011年蘋果推出Siri后,各大移動智能手機廠商紛紛在產(chǎn)品中導(dǎo)入語音助手,例如三星Bixby、小米小愛同學(xué)、華為小E、vivo Jovi等,并進(jìn)一步推動語音交互技術(shù)在移動互聯(lián)網(wǎng)中的應(yīng)用。語音助手漸漸融入消費者生活中,逐步改變?nèi)藱C交互方式。
根據(jù)中國電信終端研究測試中心調(diào)研,如圖1所示,用戶對語音助手的認(rèn)知率達(dá)95.6%,使用比例為58.6%,超過一半的智能手機用戶將語音助手作為其交互方式之一。
圖1 主流AI功能認(rèn)知率與使用情況
用戶首先通過喚醒設(shè)備進(jìn)入激活狀態(tài),然后通過語音進(jìn)行人機對話交流;手機進(jìn)行語音識別后,進(jìn)行一系列的處理獲得相應(yīng)的結(jié)果和服務(wù),并給予用戶反饋,其中語音助手VUI的反饋是通過語音合成實現(xiàn)。用戶在不斷的交互中獲得反饋,同時語音助手在不斷的交互中更新自己的知識使得系統(tǒng)更加智能。語音助手邏輯框架如圖2所示。
圖2 語音助手邏輯框架
對話式交互技術(shù)包括語音識別/合成、語義理解和對話管理3個部分。語音識別ASR(Automatic Speech Recognition),通過聲學(xué)模型和語言模型,將用戶的語音轉(zhuǎn)化文本。語義理解NLU(Natural Language Understand)將漢字序列切分成詞序列、詞性標(biāo)注、命名實體識別、文本分類、情感分析。對話管理DM(Dialog Management),是對話式交互系統(tǒng)的核心,負(fù)責(zé)控制整個對話過程,主要包括對話上下文、對話狀態(tài)跟蹤和對話策略幾部分。對話生成NLG(Natural Language Generation),即對話生成的技術(shù)。對于任務(wù)導(dǎo)向的對話來說,NLG 基本以模板形式來實現(xiàn),對話生成的原則是符合自然語言交互的習(xí)慣,易于用戶理解,最快完成對話。語音合成 TTS(Text To Speech)是指語音合成技術(shù)。對話系統(tǒng)的輸出是文本形式的NLG或者指令,當(dāng)對話返回的內(nèi)容是NLG時,通過TTS技術(shù)能將這些文本轉(zhuǎn)換成流暢的語音,播放給用戶。語音助手整理技術(shù)流程如圖3所示。
圖3 語音助手技術(shù)流程
為準(zhǔn)確地評估當(dāng)前商用智能手機的語音助手的能力與功能豐富性,針對語音助手關(guān)鍵能力與功能設(shè)定量與定性相結(jié)合的測試方案。
3.1.1 語音喚醒
測試指標(biāo)包括喚醒率、誤闖率。語音喚醒是語音交互的第一步,這兩項指標(biāo)直接關(guān)系到到用戶的實際體驗。
喚醒率指語音助手被本人(錄入喚醒詞用戶)成功喚醒的比率,主要通過多人多輪次喚醒,統(tǒng)計喚醒成功次數(shù)。
假設(shè)智能終端在喚醒時會出現(xiàn)兩種狀態(tài),概率圖模型如圖4所示。
(1)總共有P次類別為1的樣本,假設(shè)類別1為成功喚醒。
(2)總共有N次類別為0的樣本,假設(shè)類別0為喚醒失敗。
誤闖率指語音助手被他人成功喚醒的比率,用于評價帶聲紋語音喚醒的聲紋區(qū)分度的指標(biāo)。
圖4 概率圖模型
3.1.2 語音助手能力測試
包括基礎(chǔ)類功能測試、進(jìn)階類功能測試兩類。
基礎(chǔ)類功能測試指語音助手支持功能的豐富性,涵蓋端側(cè)能力、系統(tǒng)設(shè)置、原生應(yīng)用、影像、商務(wù)金融、工具助手、便捷生活、兒童和家庭。
如:端側(cè)能力測試主要包括在離線狀態(tài)下,通過語音助手實現(xiàn)“打電話”、“發(fā)短信”、“設(shè)置鬧鐘”等高頻簡易操作。
進(jìn)階類功能測試指語音助手功能所實現(xiàn)深度,此類測試能多方位的體現(xiàn)各語音助手的差異。內(nèi)容包括三方應(yīng)用操作、智能水平、多輪對話。
例如“廣州天氣怎么樣”、“明天呢”、“那上海呢”;還包括中、英、數(shù)字混合類識別,如“美國10年期TIPS收益率創(chuàng)下歷史最低紀(jì)錄-0.87%”等。
廠商均優(yōu)先從高端產(chǎn)品導(dǎo)入語音助手新功能功能,本次測試主要選取主流廠商中高端產(chǎn)品。包括蘋果、華為、三星、小米、OPPO、vivo等品牌的12款機型,具體機型如表1所示。
表1 測試機型列表
測評方案結(jié)合定量、定性指標(biāo),定量指標(biāo)包括在不同背景噪音環(huán)境下的語音助手喚醒指標(biāo)。涵蓋安靜場景(不高于45 dB)、低噪場景(50~60 dB)、中噪(60~65 dB),測試距離包括短距(30 cm)、中距(80 cm)。測試不同環(huán)境交叉組合下的喚醒成功率與誤闖率,單場景測試次數(shù)共200次,通過人工嘴播放10人語音喚醒數(shù)據(jù),每人20次。具體測試場景如表2所示。
表2 語音喚醒指標(biāo)測試場景
定性評估參考google action 18個一級分類,主要測試語音助手的功能支持與語義理解。在語音助手處于激活狀態(tài),通過人工測試定性測試用例,內(nèi)容包括語音助手是否支持離線操作、調(diào)用原生應(yīng)用、打開第三方APP、中/英/數(shù)字混合類識別、生活娛樂類服務(wù)。主要目的測試語音助手是否能正確的識別用戶意圖,測試用例如表3所示。
表3 語音助手能力測試部分用例
華為、vivo、三星機型語音助手功能支持相對全面。3500元以上價格段,喚醒成功率TOP3機型是華為 P30 Pro、OPPO Reno、三星note10,三星note10 近場喚醒表現(xiàn)穩(wěn)定,OPPO Reno遠(yuǎn)場喚醒成功率表現(xiàn)優(yōu)異。語音助手喚醒成功率在遠(yuǎn)場、低信噪比條件下的語音識別性能亟需改進(jìn)。iPhone XR與中興天機10在遠(yuǎn)場(80 cm)喚醒成功率下降最為明顯,安靜環(huán)境下分別下降31.5pp與29.5 pp;低噪環(huán)境下,分別下降45.5 pp與43.5 pp。
誤闖率TOP3機型是三星note 10、OPPO Reno、華為P30 pro;在語音喚醒算法層面喚醒率與誤闖率強相關(guān),若一款終端喚醒率越高,則其越容易被誤喚醒,廠商的方案是通過平衡喚醒率與誤闖率來實現(xiàn)用戶的體驗最佳。
語音助手能力測試以定性為主,廠商差異相對較小,在完成基礎(chǔ)的垂類功能覆蓋,根據(jù)產(chǎn)品特色進(jìn)行特定范圍功能與能力拓展?;A(chǔ)功能方面,華為P30 pro、榮耀20 pro在各自價格段表現(xiàn)更優(yōu);進(jìn)階功能方面,3 500元以上價格段,三星note 10在表現(xiàn)優(yōu)異,3 500元以下,小米9優(yōu)于其他競品。
隨著主流廠商手機產(chǎn)品的普遍支持,語音助手的宣傳噱頭、炫技期結(jié)束,手機語音助手開始進(jìn)入實打?qū)嵈蚰ゼ?xì)節(jié)的階段。
(1)語音識別將持續(xù)優(yōu)化。語音識別作為語音助手的底層技術(shù)核心,整個過程包含語音信號處理、靜音切除、聲學(xué)特征提取、模式匹配等多個環(huán)節(jié)。由于語音信號的多樣性和復(fù)雜性,系統(tǒng)只能在一定限制條件下才能獲得滿意效果,而在真實使用場景中,受遠(yuǎn)場、方言、噪音、斷句等問題,準(zhǔn)確率下降。當(dāng)前廠商亟需在語音增強、麥克風(fēng)陣列以及多說話人分離等多項技術(shù)上持續(xù)投入,并結(jié)合后端語義,促進(jìn)對上下文的理解,從而提升識別效果, 優(yōu)化語音識別魯棒性問題。
(2)從聽得懂向做得到進(jìn)階,做到真正幫用戶解放雙手。手機語音助手越來越需要具備復(fù)雜任務(wù)處理能力,從而滿足用戶實用性需求。由于很多高頻用戶需求功能是微信、淘寶、百度導(dǎo)航等“APP”應(yīng)用形式實現(xiàn)的,所以手機廠商需要聯(lián)合應(yīng)用提供商,包括常用的溝通、視頻、導(dǎo)航、音樂、出行、購物等應(yīng)用主導(dǎo)廠商,共同打造語音服務(wù)生態(tài),通過語音助手操作應(yīng)用內(nèi)深層功能。
(3)從“被動服務(wù)”向“主動服務(wù)”轉(zhuǎn)變。
當(dāng)前的語音助手以應(yīng)答性為主,主要根據(jù)用戶的指令反饋相關(guān)信息或者提供服務(wù),與AI情節(jié)感知結(jié)合,如何前瞻性地主動幫用戶解決問題是其發(fā)展的重要方向。例如當(dāng)你遲到了,語音助手重新預(yù)約了一次午餐會議;督促你更多地進(jìn)行運動鍛煉,或者節(jié)省開支。
為每一個手機用戶的語音助手配備有專屬的AI算法和AI資源,通過精準(zhǔn)理解用戶個體的需求,實現(xiàn)變共性滿足到個性滿足,使得手機語音助手真正成為更貼心、更個性、更快捷方便的私人助手,或是手機語音助手在較長一段時期的發(fā)展趨勢。