章金水
(中國(guó)移動(dòng)通信集團(tuán)福建有限公司,福州 350001)
人工智能作為新一輪產(chǎn)業(yè)革命的核心動(dòng)力,將引發(fā)技術(shù)、產(chǎn)品、產(chǎn)業(yè)以及經(jīng)濟(jì)結(jié)構(gòu)的重大變革,帶動(dòng)社會(huì)生產(chǎn)力的整體提升。從人工智能發(fā)展的技術(shù)視角看,語(yǔ)音、圖像、自然語(yǔ)言處理、機(jī)器人是當(dāng)前業(yè)界研究的熱點(diǎn)領(lǐng)域。其中,語(yǔ)音識(shí)別和自然語(yǔ)言處理是當(dāng)前發(fā)展最成熟及應(yīng)用最廣泛的人工智能技術(shù)。
在AI 語(yǔ)音交互的全球市場(chǎng)看,Amazon Echo 和Google Home 在該領(lǐng)域主導(dǎo)智能語(yǔ)音入口的發(fā)展。截止目前,谷歌已與220多個(gè)品牌的1500多種智能設(shè)備達(dá)成合作。與此同時(shí),亞馬遜也累計(jì)發(fā)布了15款Echo 家族智能硬件產(chǎn)品,覆蓋全球1億智能硬件和數(shù)千萬(wàn)用戶群體。智能語(yǔ)音入口作為最符合應(yīng)用場(chǎng)景的交互方式,將成為每個(gè)智能硬件的“標(biāo)配”,并使語(yǔ)音搜索成為了主流的AI 技術(shù)。
根據(jù)Strategy Analytics 的數(shù)據(jù)(圖1),全球智能家居市場(chǎng)2019年超千億美元,2016到2020年都保持年約20%的復(fù)合增長(zhǎng)。面對(duì)高速增長(zhǎng)的巨大市場(chǎng),國(guó)內(nèi)的終端廠家、互聯(lián)網(wǎng)企業(yè)及各運(yùn)營(yíng)商都積極布局該領(lǐng)域。小米、VIVO 等手機(jī)廠商為代表的終端類企業(yè),以終端為切入點(diǎn)構(gòu)建智慧家庭平臺(tái)與生態(tài)系統(tǒng)。阿里、騰訊等為代表的互聯(lián)網(wǎng)企業(yè)以平臺(tái)為突破口,積極做大智慧家庭生態(tài),變現(xiàn)后向服務(wù)。
圖1 全球智能家居市場(chǎng)規(guī)模數(shù)據(jù)來(lái)源:Strategy Analytics 2019
智慧家庭是人類社會(huì)發(fā)展的必然階段,現(xiàn)已從單品智能邁向全屋智能。福建移動(dòng)瞄準(zhǔn)當(dāng)前最為成熟的AI 語(yǔ)音技術(shù),通過(guò)AIUI 集成能力,打造AI 語(yǔ)音入口,為千家萬(wàn)戶提供語(yǔ)音智控、隨需接入、自動(dòng)響應(yīng)、逼真體驗(yàn)和高性價(jià)比的綜合智能信息服務(wù),大大降低客戶的使用門檻和智能應(yīng)用的接入門檻。
AI 語(yǔ)音入口是以具有語(yǔ)音交互能力的家庭智能硬件產(chǎn)品(如手機(jī)、智能電視、音箱等),向用戶提供基于智能語(yǔ)音控制的影視音、娛樂(lè)、智能家居控制等智慧家庭應(yīng)用及陪伴服務(wù)。
AI語(yǔ)音入口能力建設(shè)不是一蹴而就的,需要長(zhǎng)期的演化過(guò)程。按照語(yǔ)音識(shí)別、語(yǔ)義理解、語(yǔ)音合成和語(yǔ)音技能四個(gè)核心主體,對(duì)AI 語(yǔ)音成熟度劃分為五個(gè)等級(jí),具體定義詳見(jiàn)表1。
表1 AI語(yǔ)音能力成熟度模型
2.2.1 語(yǔ)音識(shí)別
語(yǔ)音識(shí)別是指將人類的語(yǔ)音中的詞匯內(nèi)容轉(zhuǎn)換為計(jì)算機(jī)可讀的輸入,如文本、音頻、二進(jìn)制編碼或者字符序列等格式,并支持多種方言識(shí)別。具體包括語(yǔ)音采集、語(yǔ)音識(shí)別及聲紋識(shí)別的過(guò)程。
2.2.2 語(yǔ)義理解
語(yǔ)義理解使功能單元理解說(shuō)話人的意圖。即將音頻轉(zhuǎn)化成的文本解析成合理的意圖及標(biāo)簽。基于語(yǔ)義理解的基礎(chǔ)上,可實(shí)現(xiàn)語(yǔ)音多輪交互和智能終端控制。
2.2.3 語(yǔ)音合成
通過(guò)機(jī)械的、電子的方法產(chǎn)生人造語(yǔ)音的技術(shù),如:TTS(文語(yǔ)轉(zhuǎn)換技術(shù))技術(shù)。具體分為四個(gè)等級(jí):語(yǔ)音播放、機(jī)器合成、自然合成、智能翻譯。
2.2.4 語(yǔ)音技能
作為AI 語(yǔ)音入口的核心能力,基于語(yǔ)音識(shí)別、語(yǔ)義理解和語(yǔ)音合成技術(shù),通過(guò)抽象、建模和分析,形成AI 客廳語(yǔ)音入口的用戶交互體系(即AIUI),具體包含以下技能:
(1)設(shè)備喚醒
利用特定的操控,實(shí)現(xiàn)主動(dòng)喚醒能力,如遙控器的主動(dòng)按鍵喚醒和設(shè)備的命令詞喚醒。
(2)應(yīng)用打開(kāi)
通過(guò)語(yǔ)音AI 能力,快速打開(kāi)設(shè)備中已經(jīng)安裝的應(yīng)用。
(3)欄目操控
實(shí)現(xiàn)內(nèi)部欄目的所見(jiàn)即所說(shuō)能力。如說(shuō):打開(kāi)綜藝欄目,實(shí)現(xiàn)應(yīng)用內(nèi)頁(yè)面的語(yǔ)音操控。
(4)內(nèi)容搜索
通過(guò)內(nèi)容歸一整合,搜索的邊界從傳統(tǒng)的影視內(nèi)容擴(kuò)大到了IPTV/OTT 上所有內(nèi)容。
(5)多級(jí)互動(dòng)
通過(guò)上述能力組合實(shí)現(xiàn)內(nèi)容語(yǔ)音深度交互。如:購(gòu)物查詢、下單、付款及教育產(chǎn)品的中英文識(shí)字、唱歌評(píng)測(cè)等。
2.3.1 語(yǔ)音模型管理
語(yǔ)音模型管理為了更好支持語(yǔ)音應(yīng)用場(chǎng)景,設(shè)定語(yǔ)音識(shí)別、語(yǔ)義理解和語(yǔ)音合成方面的基礎(chǔ)參數(shù)和模型,實(shí)現(xiàn)及時(shí)準(zhǔn)確的熱詞動(dòng)態(tài)擴(kuò)充、快速的流式識(shí)別、定制化的發(fā)音人合成以及多結(jié)果排序。
2.3.2 語(yǔ)音技能管理
語(yǔ)音技能管理實(shí)現(xiàn)對(duì)合作伙伴的開(kāi)發(fā)的語(yǔ)音技能進(jìn)行審核、發(fā)布上線的管理。包括以下流程:申請(qǐng)技能開(kāi)放、審核技能授權(quán)、技能開(kāi)發(fā)測(cè)試、技能審批上線。
2.3.3 媒資庫(kù)管理
內(nèi)容服務(wù)商將媒資信息同步至AI 語(yǔ)音能力平臺(tái),作為語(yǔ)音搜索素材。媒資信息包括影音、游戲、應(yīng)用及應(yīng)用內(nèi)視頻等,媒資庫(kù)管理對(duì)媒資信息進(jìn)行欄目管理、索引建立、內(nèi)容審核、發(fā)布功能。
2.4.1 平臺(tái)建設(shè)方案
福建移動(dòng)的AI 語(yǔ)音開(kāi)放能力平臺(tái),是基于智慧家庭業(yè)務(wù)平臺(tái)及智能終端開(kāi)發(fā)的智能語(yǔ)音系統(tǒng),配套智能遙控器及客戶端SDK,具備語(yǔ)音識(shí)別、語(yǔ)義理解、語(yǔ)音合成、語(yǔ)音技能等服務(wù),面向應(yīng)用、開(kāi)發(fā)者、合作伙伴提供統(tǒng)一的AI 語(yǔ)音能力接口,平臺(tái)創(chuàng)新地采用動(dòng)態(tài)語(yǔ)言偵測(cè)和混語(yǔ)識(shí)別技術(shù)。AI 語(yǔ)音能力平臺(tái)主要包括五大模塊,分別是應(yīng)用層、接口層、服務(wù)層、管理層和數(shù)據(jù)層,平臺(tái)總體架構(gòu)示意圖2所示。
圖2 智能語(yǔ)音能力平臺(tái)總體架構(gòu)示意圖
2.4.2 應(yīng)用層
應(yīng)用層提供面向客戶的語(yǔ)音應(yīng)用,具體包括互聯(lián)網(wǎng)電視應(yīng)用、手機(jī)終端應(yīng)用。其中,互聯(lián)網(wǎng)電視應(yīng)用運(yùn)行于IPTV 或OTT 機(jī)頂盒上,為客戶提供直播、點(diǎn)播、K 歌、購(gòu)物、系統(tǒng)控制等語(yǔ)音控制功能。手機(jī)終端應(yīng)用包括移動(dòng)自主研發(fā)的八閩家庭、八閩生活、和家親等APP 應(yīng)用。
2.4.3 接口層
接口層集成語(yǔ)音基礎(chǔ)處理能力入口,包括AIUI 的語(yǔ)音接口、業(yè)務(wù)接口、搜索接口,以及語(yǔ)音權(quán)限管理接口、安全認(rèn)證接口等。
2.4.4 服務(wù)層
服務(wù)層是語(yǔ)音平臺(tái)核心架構(gòu),提供語(yǔ)音識(shí)別、語(yǔ)義合成、語(yǔ)義理解和語(yǔ)音技能的關(guān)鍵服務(wù)能力。
2.4.5 管理層
管理層對(duì)支撐能力模塊進(jìn)行統(tǒng)一管理和調(diào)度,提供語(yǔ)音模型管理、語(yǔ)音技能管理、媒資庫(kù)管理、大數(shù)據(jù)分析及推薦、日志管理等管理功能。
2.4.6 數(shù)據(jù)層
數(shù)據(jù)層提供分布式文件存儲(chǔ)和關(guān)系型數(shù)據(jù)存儲(chǔ),包括語(yǔ)音數(shù)據(jù)、技能數(shù)據(jù)、媒資數(shù)據(jù)、日志數(shù)據(jù)以及各種數(shù)據(jù)間的對(duì)應(yīng)關(guān)系。
2.5.1 影視娛樂(lè)導(dǎo)航
通過(guò)語(yǔ)音AI 終端實(shí)現(xiàn)語(yǔ)音搜索、播放控制電視節(jié)目和影片。如說(shuō):我想看中央一套、我想看成龍電影,前進(jìn)到30分鐘等即可進(jìn)行直播、點(diǎn)播、播放控制操作。
通過(guò)語(yǔ)音AI 終端實(shí)現(xiàn)語(yǔ)音點(diǎn)歌和播控,如說(shuō):我想聽(tīng)周杰倫的歌、調(diào)大音量等即可實(shí)現(xiàn)啟動(dòng)音樂(lè)應(yīng)用、音樂(lè)搜索、控制音量、播放/暫停、快進(jìn)/快退等播放操控。
2.5.2 語(yǔ)音生活服務(wù)
通過(guò)語(yǔ)音AI 終端實(shí)現(xiàn)語(yǔ)音購(gòu)物、支付等,如說(shuō):我想買可樂(lè)、買同款、我要付款等即可實(shí)現(xiàn)搜索商品,以及在觀影過(guò)程中使用語(yǔ)音截屏購(gòu)買影片中出現(xiàn)的物品。
2.5.3 智能家居控制
通過(guò)語(yǔ)音AI 終端實(shí)現(xiàn)語(yǔ)音控制智能家居,如說(shuō):打開(kāi)空調(diào)或窗簾、關(guān)閉攝像頭等實(shí)現(xiàn)對(duì)智能設(shè)備進(jìn)行控制。
至2017年起,本人致力于智慧家庭軟硬件體系的規(guī)劃設(shè)計(jì)和探索實(shí)踐,以AI 入口作為核心智慧家庭標(biāo)準(zhǔn)化頂層設(shè)計(jì),推動(dòng)產(chǎn)業(yè)鏈各方參與智慧家庭開(kāi)放融合的標(biāo)準(zhǔn)化體系建設(shè)。依托AI 入口的前沿性探索,協(xié)同科大訊飛、奧比中光、華為、福諾、未來(lái)電視、易視騰等眾多合作伙伴開(kāi)展智慧家庭業(yè)務(wù)創(chuàng)新,實(shí)現(xiàn)AI 語(yǔ)音能力成熟度模型達(dá)到Level-4級(jí),通過(guò)培育AI 語(yǔ)音入口規(guī)模,構(gòu)建家庭業(yè)務(wù)生態(tài)圈。截止到2019年底,已深入對(duì)接25個(gè)生態(tài)應(yīng)用,AI 語(yǔ)音活躍用戶數(shù)突破70萬(wàn)戶,交換次數(shù)超過(guò)3600萬(wàn)次/月,通過(guò)語(yǔ)音入口點(diǎn)播大屏增值業(yè)務(wù)收入達(dá)到2.5億元。
回顧2019年AI 語(yǔ)音入口應(yīng)用的排行榜,福建移動(dòng)智慧家庭業(yè)務(wù)最熱門的使用場(chǎng)景是點(diǎn)播,最??吹念l道是中央一套,最喜愛(ài)的電影是《哪吒》。隨著用戶AI 入口使用習(xí)慣的逐步形成,我們非??上驳目吹剑怯耙晿I(yè)務(wù)應(yīng)用場(chǎng)景語(yǔ)音交互次數(shù)占比已經(jīng)從2019年初的1%增長(zhǎng)到年底的11%,增長(zhǎng)點(diǎn)主要集中在調(diào)取應(yīng)用、音樂(lè)以及計(jì)算等方面,未來(lái)這一比例還將持續(xù)增長(zhǎng)。
隨著5G+千兆帶寬的來(lái)臨,智慧家庭市場(chǎng)前景更加廣闊,福建移動(dòng)借助自身在5G+千兆帶寬網(wǎng)絡(luò)經(jīng)營(yíng)的獨(dú)特優(yōu)勢(shì),以AI 為核心目標(biāo)驅(qū)動(dòng),依托多屏互動(dòng)的AIUI 技術(shù),打造高忠誠(chéng)高頻次的家庭核心應(yīng)用場(chǎng)景,實(shí)現(xiàn)對(duì)客戶美好生活的全面覆蓋,形成運(yùn)營(yíng)商流量紅利之后的新收入來(lái)源和穩(wěn)定客戶的業(yè)務(wù)支撐點(diǎn)。