近年來(lái),云計(jì)算、大數(shù)據(jù)、移動(dòng)互聯(lián)、物聯(lián)網(wǎng)、深度學(xué)習(xí)等技術(shù)發(fā)展,智能語(yǔ)音在智能家居、可穿戴式設(shè)備、汽車(chē)電子、教育、醫(yī)療、金融等場(chǎng)景化應(yīng)用持續(xù)深化,推動(dòng)市場(chǎng)規(guī)模快速增長(zhǎng)。為此,賽迪顧問(wèn)圍繞智能語(yǔ)音市場(chǎng)進(jìn)行深入研究,針對(duì)重點(diǎn)行業(yè)的場(chǎng)景化應(yīng)用、市場(chǎng)競(jìng)爭(zhēng)格局及主要廠商的戰(zhàn)略布局進(jìn)行深刻剖析,并結(jié)合市場(chǎng)發(fā)展態(tài)勢(shì)和資本關(guān)注熱點(diǎn)領(lǐng)域進(jìn)行投資價(jià)值與投資機(jī)會(huì)挖掘,期望能通過(guò)此研究為促進(jìn)我國(guó)人工智能應(yīng)用發(fā)展提供有價(jià)值的參考。
賽迪顧問(wèn)
智能語(yǔ)音概念界定及發(fā)展演進(jìn)
智能語(yǔ)音概念界定
所謂智能語(yǔ)音,是一種以語(yǔ)音為載體,利用智能語(yǔ)音交互技術(shù),讓機(jī)器具有像人一樣“能聽(tīng)會(huì)說(shuō)、自然交互、有問(wèn)必答”的能力。智能語(yǔ)音市場(chǎng)則包含智能語(yǔ)音技術(shù)及產(chǎn)品的研發(fā)、生產(chǎn)、銷(xiāo)售及應(yīng)用服務(wù)等所有活動(dòng)。
智能語(yǔ)音發(fā)展演進(jìn)
技術(shù)演進(jìn):從1950年“人工智能之父”馬文·明斯基開(kāi)發(fā)出世界上第一臺(tái)神經(jīng)網(wǎng)絡(luò)計(jì)算機(jī)起,智能語(yǔ)音技術(shù)發(fā)展主要經(jīng)歷了四個(gè)發(fā)展階段:
萌芽期(20世紀(jì)50年代到70年代),主要以孤立詞和小詞匯量句子識(shí)別,并通過(guò)關(guān)鍵詞匹配實(shí)現(xiàn)簡(jiǎn)單命令操作為主要內(nèi)容。代表系統(tǒng)是1952年貝爾研究所Davis等人研制的世界上第一個(gè)能識(shí)別10個(gè)英文數(shù)字發(fā)音的實(shí)驗(yàn)系統(tǒng),以及1960年英國(guó)的Denes等人研制的第一個(gè)計(jì)算機(jī)語(yǔ)音識(shí)別系統(tǒng)。
培育期(20世紀(jì)80年代),計(jì)算機(jī)技術(shù)、信息技術(shù)、模式識(shí)別技術(shù)極大促進(jìn)智能語(yǔ)音技術(shù)發(fā)展,語(yǔ)音識(shí)別的研究開(kāi)始向非特定人、連續(xù)詞、大詞匯量方向擴(kuò)展,并且,智能語(yǔ)音技術(shù)研究由傳統(tǒng)的基于標(biāo)準(zhǔn)模板匹配的技術(shù)思路開(kāi)始轉(zhuǎn)向基于統(tǒng)計(jì)模型(HMM) 的技術(shù)思路,使語(yǔ)音識(shí)別和自然語(yǔ)言理解技術(shù)有了較大的進(jìn)展。1989年卡內(nèi)基梅隆大學(xué)的李開(kāi)復(fù)最終研制出第一個(gè)基于隱馬爾科夫模型的大詞匯量語(yǔ)音識(shí)別系統(tǒng)Sphinx。
成長(zhǎng)期(20世紀(jì)90年代到21世紀(jì)初),20世紀(jì)90年代語(yǔ)音識(shí)別的系統(tǒng)框架并沒(méi)有重大突破,但智能語(yǔ)音技術(shù)由研究走向?qū)嵱貌⑦M(jìn)入產(chǎn)業(yè)化,以1997年IBM推出ViaVoice為重要標(biāo)志。自此,智能語(yǔ)音產(chǎn)品開(kāi)始進(jìn)入呼叫中心、家電、汽車(chē)等領(lǐng)域。這一時(shí)期也涌現(xiàn)出了很多有代表性的系統(tǒng),如Nuance公司的NuanceVoicePlatform語(yǔ)音平臺(tái)、Microsoft的Whisper,Sun的VoiceTone。智能語(yǔ)音關(guān)鍵突破起始于2006年,這一年辛頓(Hinton)提出深度置信網(wǎng)絡(luò)(DBN),促使了深度神經(jīng)網(wǎng)絡(luò)(DNN)研究的復(fù)蘇。
高速發(fā)展期(2010年至今),從2011年到2015年,以深度神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)的語(yǔ)音識(shí)別建模技術(shù)發(fā)展迅速,人工神經(jīng)元網(wǎng)絡(luò)(ANN)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)技術(shù)等在語(yǔ)音識(shí)別中成功應(yīng)用。從此基于GMM-HMM的語(yǔ)音識(shí)別框架被打破,大量研究人員開(kāi)始轉(zhuǎn)向基于DNN-HMM的語(yǔ)音識(shí)別系統(tǒng)的研究,隨后也在此基礎(chǔ)上派生出各類(lèi)模型組合,使得語(yǔ)音識(shí)別準(zhǔn)確率大幅提升。
應(yīng)用場(chǎng)景:智能語(yǔ)音技術(shù)作為人工智能應(yīng)用最成熟的技術(shù)之一,其應(yīng)用領(lǐng)域非常廣泛,目前,智能語(yǔ)音應(yīng)用主要包括2C端應(yīng)用和2B端應(yīng)用兩大類(lèi),其中,2C端應(yīng)用有:智能家居、車(chē)載語(yǔ)音、虛擬助手、可穿戴式設(shè)備等領(lǐng)域應(yīng)用;2B端應(yīng)用包括呼叫中心/客服助理、教育、醫(yī)療、金融等領(lǐng)域應(yīng)用。隨著移動(dòng)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)應(yīng)用的快速發(fā)展,目前,智能語(yǔ)音在智能家居、智能車(chē)載、智能可穿戴領(lǐng)域發(fā)展特別迅猛。
智能家居。當(dāng)前,智能語(yǔ)音在智能家居控制系統(tǒng)中的應(yīng)用最為廣泛,智能語(yǔ)音交互技術(shù)重點(diǎn)圍繞電視、空調(diào)、窗簾等家居設(shè)備展開(kāi),不僅能實(shí)現(xiàn)電視語(yǔ)音播放節(jié)目、空調(diào)自動(dòng)溫度調(diào)節(jié)、窗簾自動(dòng)開(kāi)關(guān)等智能控制,還可根據(jù)聲紋識(shí)別技術(shù)確定主人身份,調(diào)取主人喜好自動(dòng)打開(kāi)電視影片或者播放音樂(lè),根據(jù)情感識(shí)別技術(shù)識(shí)別用戶(hù)情緒狀態(tài),制定擬人化情感交流模式。
國(guó)外巨頭已先后以智能家庭產(chǎn)品與語(yǔ)音相結(jié)合的方式進(jìn)入智能家居領(lǐng)域,如谷歌收購(gòu)NEST布局智能家庭,不斷強(qiáng)化Google Now的語(yǔ)音入口;蘋(píng)果HomeKit智能家居平臺(tái)與Siri也不斷加強(qiáng)融合;微軟也發(fā)布語(yǔ)音助手Cortana(小娜),開(kāi)始在智能家庭領(lǐng)域擴(kuò)展交互入口。在國(guó)內(nèi),智能語(yǔ)音龍頭企業(yè)科大訊飛早在2014年就進(jìn)軍智能家居領(lǐng)域,其研制的智能語(yǔ)音助手靈犀可操控智能家居設(shè)備,包括電視、咖啡機(jī)、電燈、空調(diào)、熱水器等。
智能助理。智能語(yǔ)音在智能助理的應(yīng)用主要有2C端的虛擬個(gè)人助理、2B端的智能客服應(yīng)用。其中,2B端的智能客服應(yīng)用又主要分布在兩大渠道上,一種是應(yīng)用在呼叫中心IVR系統(tǒng)的自動(dòng)語(yǔ)音導(dǎo)航,另一種則是分布在網(wǎng)站、微信、手機(jī)APP等電子渠道的客服應(yīng)用。智能客服已經(jīng)廣泛地應(yīng)用在金融、電信、交通、旅游等多個(gè)行業(yè),主要形式有:智能問(wèn)答、語(yǔ)音質(zhì)檢、語(yǔ)料挖掘等。相比傳統(tǒng)客服,智能語(yǔ)音的引入能夠發(fā)揮三大優(yōu)勢(shì):降低企業(yè)運(yùn)營(yíng)成本。智能客服能有效減少客服坐席,降低人力成本;提高營(yíng)銷(xiāo)能力。智能客服反應(yīng)快速,能為重點(diǎn)和熱點(diǎn)問(wèn)題提供快速統(tǒng)一答復(fù),確保服務(wù)標(biāo)準(zhǔn)化及24小時(shí)全天候在線(xiàn)服務(wù);輔助決策。利用自然語(yǔ)言處理技術(shù)分析文本,可挖掘客戶(hù)信息,輔助制定企業(yè)商業(yè)決策。隨著人口紅利的消失,企業(yè)對(duì)智能客服的需求將越來(lái)越強(qiáng)烈,智能語(yǔ)音在客服領(lǐng)域?qū)?huì)有較大的滲透空間。
智能語(yǔ)音市場(chǎng)發(fā)展
發(fā)展現(xiàn)狀
2017年中國(guó)智能語(yǔ)音應(yīng)用市場(chǎng)規(guī)模超過(guò)60億元。云計(jì)算、大數(shù)據(jù)、移動(dòng)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、深度學(xué)習(xí)等技術(shù)發(fā)展正加速語(yǔ)音場(chǎng)景化應(yīng)用進(jìn)程。智能家居、可穿戴式設(shè)備、汽車(chē)電子、教育、醫(yī)療、金融等智能語(yǔ)音場(chǎng)景化應(yīng)用持續(xù)深化,推動(dòng)智能語(yǔ)音市場(chǎng)快速增長(zhǎng)。賽迪顧問(wèn)數(shù)據(jù)顯示,2017年中國(guó)智能語(yǔ)音市場(chǎng)規(guī)模達(dá)到60.92億元,同比增長(zhǎng)36.9%。
智能語(yǔ)音在消費(fèi)電子行業(yè)應(yīng)用投資占比超過(guò)25%。從行業(yè)結(jié)構(gòu)分布來(lái)看,2017年智能語(yǔ)音在消費(fèi)電子滲透率最高,市場(chǎng)銷(xiāo)售額占比高達(dá)25.7%。語(yǔ)音、語(yǔ)義等相關(guān)技術(shù)的可用性不斷提高,帶來(lái)虛擬助手市場(chǎng)的快速發(fā)展,從應(yīng)用方向來(lái)看主要用于消費(fèi)級(jí)產(chǎn)品如手機(jī)、智能車(chē)載、智能家居、可穿戴式設(shè)備等。占比次之的市場(chǎng)是教育領(lǐng)域的智能語(yǔ)音應(yīng)用,智能語(yǔ)音越來(lái)越多的應(yīng)用在學(xué)生的口語(yǔ)訓(xùn)練與考試、互動(dòng)教學(xué)等方面。
競(jìng)爭(zhēng)格局
根據(jù)賽迪顧問(wèn)競(jìng)爭(zhēng)矩陣評(píng)估指標(biāo)體系數(shù)據(jù),當(dāng)前,在智能語(yǔ)音市場(chǎng)品牌競(jìng)爭(zhēng)中,技術(shù)型廠商占據(jù)市場(chǎng)主導(dǎo)地位,特別是隨著近年來(lái)深度神經(jīng)網(wǎng)絡(luò)、機(jī)器學(xué)習(xí)方法在語(yǔ)音識(shí)別領(lǐng)域的快速應(yīng)用,對(duì)智能化應(yīng)用需求日益凸顯,技術(shù)型廠商憑借在語(yǔ)音識(shí)別、自然語(yǔ)言處理、自然語(yǔ)言理解、深度學(xué)習(xí)等領(lǐng)域深厚的技術(shù)優(yōu)勢(shì)牢牢占據(jù)市場(chǎng)競(jìng)爭(zhēng)的第一梯隊(duì),這類(lèi)廠商有科大訊飛、百度。
其中,科大訊飛通過(guò)實(shí)施“平臺(tái)+賽道”的業(yè)務(wù)發(fā)展戰(zhàn)略,打造持續(xù)閉環(huán)迭代的生態(tài)體系,不斷在教育、司法、車(chē)載等重點(diǎn)領(lǐng)域通過(guò)“核心技術(shù)+應(yīng)用數(shù)據(jù)+領(lǐng)域”支持構(gòu)建垂直行業(yè)剛需及代差優(yōu)勢(shì)。百度則實(shí)施智能語(yǔ)音平臺(tái)免費(fèi)開(kāi)放戰(zhàn)略,迅速擴(kuò)大百度人工智能生態(tài)圈。
在挑戰(zhàn)者陣營(yíng)中,捷通華聲是最早成立智能語(yǔ)音的企業(yè)之一,憑借深厚的技術(shù)積淀,有全面的行業(yè)覆蓋,成為智能語(yǔ)音市場(chǎng)的中堅(jiān)力量。近年來(lái),開(kāi)始深入人工智能領(lǐng)域,以“云+端”的方式,通過(guò)構(gòu)建全方位的靈云平臺(tái),將語(yǔ)音交互、圖像識(shí)別、語(yǔ)義理解、生物特征識(shí)別等技術(shù)完美整合,為客戶(hù)提供全方位一體化的人工智能技術(shù)與服務(wù),成為市場(chǎng)重要挑戰(zhàn)者。另一個(gè)重要的挑戰(zhàn)者則是搜狗,由于NLP是搜索引擎的關(guān)鍵技術(shù)之一,因此搜狗自然而然成為重要玩家,他不僅打造了“知音OS”語(yǔ)音交互平臺(tái),還聯(lián)合四維圖新、飛歌等推出全語(yǔ)音交互的車(chē)載導(dǎo)航產(chǎn)品切入垂直行業(yè)市場(chǎng),以“任務(wù)+應(yīng)用”的形式在特定場(chǎng)景上發(fā)力,布局更多的終端入口,未來(lái)發(fā)展前景較為樂(lè)觀。
在可期待陣營(yíng)中,思必馳是少數(shù)擁有自主知識(shí)產(chǎn)權(quán)、中英文綜合語(yǔ)音技術(shù)的公司之一,自2016年以來(lái),致力于構(gòu)建智能的一站式對(duì)話(huà)定制平臺(tái),營(yíng)造人工智能良性生態(tài)圈,打造更加智能的人機(jī)交互體驗(yàn)。云知聲憑借自身的技術(shù)研發(fā)優(yōu)勢(shì)和物聯(lián)網(wǎng)戰(zhàn)略定位迅速占領(lǐng)智能語(yǔ)音市場(chǎng),并搭建面向物聯(lián)網(wǎng)的“云—端—芯”一體化智能語(yǔ)音交互解決方案,在智能家居、醫(yī)療、車(chē)載、教育等行業(yè)落地成效明顯。這兩家企業(yè)發(fā)展勢(shì)頭強(qiáng)勁,成為市場(chǎng)中極具競(jìng)爭(zhēng)力的挑戰(zhàn)者。
發(fā)展趨勢(shì)
未來(lái)發(fā)展趨勢(shì)
場(chǎng)景化應(yīng)用成為決勝關(guān)鍵。語(yǔ)音作為人類(lèi)獲取信息最自然、便捷的方式,正成為新一代信息流入口,伴隨著互聯(lián)網(wǎng)、智能家居市場(chǎng),以及汽車(chē)市場(chǎng)的高速擴(kuò)張,自然語(yǔ)言處理、語(yǔ)義分析、深度學(xué)習(xí)等技術(shù)不斷深化,智能語(yǔ)音將加速滲透垂直行業(yè),可穿戴式設(shè)備、智能家居、企業(yè)級(jí)服務(wù)、汽車(chē)智能化等都將成為智能語(yǔ)音的重要應(yīng)用場(chǎng)景。未來(lái),智能語(yǔ)音更強(qiáng)調(diào)人機(jī)多輪交互,更加重視垂直場(chǎng)景下的語(yǔ)義理解,以及后端服務(wù),深耕場(chǎng)景化應(yīng)用,充分利用更好的交互體驗(yàn)來(lái)創(chuàng)新產(chǎn)品與服務(wù),鎖定用戶(hù)真正剛性需求,或?qū)⒊蔀槲磥?lái)市場(chǎng)決勝關(guān)鍵所在。
更加注重語(yǔ)音生態(tài)建設(shè)。智能語(yǔ)音產(chǎn)品演進(jìn)路線(xiàn)主要有兩個(gè)方向,一是通過(guò)開(kāi)發(fā)平臺(tái)化占領(lǐng)一定場(chǎng)景下終端入口,如車(chē)載、智能家居;另一個(gè)則是為垂直服務(wù)領(lǐng)域提供智能語(yǔ)音服務(wù),如教育、醫(yī)療等。無(wú)論是產(chǎn)品還是技術(shù)服務(wù),想要獲得更大的發(fā)展都必須加強(qiáng)與外部企業(yè)合作,包括橫向與縱向行業(yè)企業(yè)合作,通過(guò)打造良性循環(huán)的生態(tài)體系,共同做大市場(chǎng)實(shí)現(xiàn)共同發(fā)展。當(dāng)前,無(wú)論是技術(shù)型廠商如科大訊飛、云知聲,還是互聯(lián)網(wǎng)廠商如百度、阿里,無(wú)一例外都在加速打造基于語(yǔ)音為入口的生態(tài)圈,集聚海量用戶(hù)與應(yīng)用數(shù)據(jù)資源,挖掘用戶(hù)需求,迭代產(chǎn)品與服務(wù),在產(chǎn)業(yè)中構(gòu)建不可或缺的地位,隨著產(chǎn)業(yè)的發(fā)展不斷壯大自身。
深度集成語(yǔ)音AI芯片將大行其道。隨著智能終端產(chǎn)品的廣泛普及,語(yǔ)音交互需求不斷提升,語(yǔ)音服務(wù)將逐漸向芯片集成方向過(guò)渡。與傳統(tǒng)智能語(yǔ)音解決方案相比,直接將語(yǔ)音交互集成在芯片上將大幅提升智能語(yǔ)音處理速度,提升語(yǔ)音交互的便利性,并很好地解決了智能終端設(shè)備存在著語(yǔ)音交互“時(shí)延”的問(wèn)題。人工智能產(chǎn)業(yè)的快速發(fā)展,驅(qū)動(dòng)以GPU、FPGA 、ASIC等為代表的AI芯片快速發(fā)展,語(yǔ)音芯片/語(yǔ)音AI芯片也成為最大機(jī)會(huì)市場(chǎng),其功能性、智能性的優(yōu)勢(shì),以及定制化、高能效、低成本等應(yīng)用特點(diǎn)使其更能實(shí)現(xiàn)產(chǎn)品市場(chǎng)快速部署,可以預(yù)見(jiàn),未來(lái)三年,隨著智能音箱、車(chē)載語(yǔ)音應(yīng)用的爆發(fā),會(huì)有更多語(yǔ)音芯片的誕生,語(yǔ)音AI芯片也將迎來(lái)爆發(fā)期。
投資機(jī)會(huì)分析
自然語(yǔ)言處理是智能語(yǔ)音重要甚至是不可替代的組成部分,未來(lái)市場(chǎng)前景廣闊。人工智能發(fā)展的三個(gè)階段是機(jī)器學(xué)習(xí)、機(jī)器智能、機(jī)器意識(shí);自然語(yǔ)言處理是計(jì)算機(jī)科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個(gè)重要方向。目前,機(jī)器對(duì)句子的理解還只能做到語(yǔ)義角色標(biāo)注層面,屬于淺層語(yǔ)義分析技術(shù)。未來(lái)要讓機(jī)器更好地理解人類(lèi)語(yǔ)言并實(shí)現(xiàn)自然交互,還是需要依賴(lài)深度學(xué)習(xí)技術(shù)。由于智能語(yǔ)音對(duì)自然語(yǔ)言理解技術(shù)依賴(lài)性極高,自然語(yǔ)言處理必定會(huì)成為重要甚至是不可替代的組成部分。
智能語(yǔ)音芯片將率先在汽車(chē)、家居、機(jī)器人等場(chǎng)景下呈現(xiàn)規(guī)?;瘧?yīng)用部署,有望迎來(lái)黃金發(fā)展期。未來(lái),隨著人工智能快速發(fā)展,弱人工智能將逐步向強(qiáng)人工智能轉(zhuǎn)化,芯片作為人工智能重要的底層支撐,重要性不言而喻,以芯片嵌入的形式,能夠?qū)⒅悄苷Z(yǔ)音實(shí)現(xiàn)快速而廣泛地應(yīng)用,未來(lái),隨著下游垂直應(yīng)用領(lǐng)域語(yǔ)音智能化需求的拉動(dòng),AI智能語(yǔ)音芯片有望迎來(lái)黃金發(fā)展期,AI智能語(yǔ)音芯片將率先在汽車(chē)、家居、機(jī)器人等場(chǎng)景下呈現(xiàn)規(guī)?;瘧?yīng)用部署,為深度學(xué)習(xí)量身定制的ASIC芯片有望在計(jì)算速度和功耗上超越GPU和FPGA,是值得投資的重點(diǎn)方向。
車(chē)載語(yǔ)音交互將在強(qiáng)人工智能時(shí)代使汽車(chē)真正無(wú)屏化、智能化。語(yǔ)音交互是輔助駕駛的最好交互方式,車(chē)載對(duì)于語(yǔ)音控制和對(duì)話(huà)是剛需。智能車(chē)載語(yǔ)音能釋放駕駛員的手和眼,使其更專(zhuān)注于前方的路況,引導(dǎo)更安全的駕駛習(xí)慣。語(yǔ)音交互指令集當(dāng)中涉及地圖、導(dǎo)航命令的解析和學(xué)習(xí),而智能語(yǔ)音車(chē)載系統(tǒng)可以語(yǔ)音操控接打電話(huà)、控制開(kāi)關(guān)車(chē)窗、播放廣播音樂(lè)、實(shí)現(xiàn)路線(xiàn)導(dǎo)航等,去屏化應(yīng)該是未來(lái)車(chē)載智能語(yǔ)音的發(fā)展方向與應(yīng)用模式,未來(lái),隨著無(wú)人駕駛技術(shù)的推廣,人為因素導(dǎo)致的安全問(wèn)題將不復(fù)存在,車(chē)載語(yǔ)音將在強(qiáng)人工智能時(shí)代使汽車(chē)真正無(wú)屏化、智能化。
未來(lái)市場(chǎng)預(yù)測(cè)
隨著移動(dòng)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、人工智能、大數(shù)據(jù)的發(fā)展,智能語(yǔ)音將加速垂直行業(yè)場(chǎng)景化應(yīng)用,巨大的移動(dòng)智能終端、車(chē)載語(yǔ)音、智能家居、智能客服等行業(yè)需求將拉動(dòng)智能語(yǔ)音市場(chǎng)的快速增長(zhǎng)。預(yù)計(jì)在未來(lái)三年里,智能語(yǔ)音市場(chǎng)將保持高于30%的增長(zhǎng)速度,到2020年,智能語(yǔ)音市場(chǎng)規(guī)模將達(dá)到134.93億元。