□郭全中 黃武鋒
虛擬主播從發(fā)軔到現(xiàn)在經(jīng)歷了虛擬主持人、虛擬主播到AI 合成主播三大階段,而背后的驅(qū)動力量則是AI 技術(shù)的發(fā)展和演進(jìn),不同階段的虛擬主播不斷拓展應(yīng)用場景。
2000年,互聯(lián)網(wǎng)泡沫開始破裂,互聯(lián)網(wǎng)遭遇了第一次重大挫折。而傳媒業(yè)為了更好地、更快地報道新聞,需要加快新聞生產(chǎn)速度、提升新聞生產(chǎn)數(shù)量,以及提高新聞報道的準(zhǔn)確性,虛擬主持人成為一項不錯的選項和探索。英國PA New Media 公司于2001年推出了阿娜諾娃(Ananova),并將其作為英國傳媒業(yè)與美聯(lián)社對抗的“秘密武器”。CNN 更是將其描述為“一個可播報新聞、體育、天氣預(yù)報等(節(jié)目)的虛擬播音員,堪比一個真實的有血有肉的主播”。當(dāng)時的阿娜諾娃,可以根據(jù)新聞腳本快速制作視頻,并可24 小時連續(xù)播報,即使其智能化水平很低,只是只有頭部動畫、表情也略顯僵硬的2D 虛擬人物,也引起了全世界傳媒業(yè)的借鑒和學(xué)習(xí)。中國推出了GoGirl、麗麗(Lili)、阿拉娜(Alana)、伊妹兒、妹妹(Meimei)、小龍、福老太等,韓國推出了露西雅(Lusia),日本推出了寺井有紀(jì)(Yuki),美國推出了薇薇安(Vivian)。而且虛擬主播的形象也在不斷完善,從2D虛擬人物到3D 虛擬人物,從只有頭部到擁有全部身體,從只有虛擬人物播報到擁有演播室進(jìn)行播報。
但是由于AI 能力水平的嚴(yán)重不足,誕生4年后的2004年,阿娜諾娃就徹底告別了歷史舞臺,很多媒體又重新回歸真人主持。虛擬主持人之所以遭遇滑鐵盧,深層次原因是AI 能力嚴(yán)重不足,具體表現(xiàn)為:一是由于AI 能力不足導(dǎo)致成本高昂,制作效率低下。AI 能力引入的目的是降本提效,但是由于AI 技術(shù)遠(yuǎn)未成熟,導(dǎo)致虛擬主持人的制作成本遠(yuǎn)超真實主持人,而效率卻遠(yuǎn)低于真實主持人。二是語音識別和自然語言處理能力難以達(dá)到對虛擬主持人的基本要求。對主持人來說口才要求極高,相應(yīng)的,對虛擬主持人語音、表情、肢體等要求也都很高,但是由于語音等AI 能力的嚴(yán)重不足,導(dǎo)致虛擬主持人的“音”“容”“笑”“貌”都不夠自然,且時效性不夠。
2016年是毫無疑問的人工智能元年,誕生于1956年的人工智能于這一年突破了全面商業(yè)化的臨界點,基于深度學(xué)習(xí)技術(shù)的AlphaGo 以4:1 打敗圍棋世界冠軍李世石,微軟人工智能的語言理解能力超過人類,科大訊飛、搜狗、百度先后召開發(fā)布會,對外公布語音識別準(zhǔn)確率均達(dá)到97%。
在語音識別等AI 能力得到本質(zhì)性突破的情況下,虛擬主播熱潮再起,而首先體現(xiàn)在虛擬偶像上。2016年,全球第一位虛擬主播(Virtual YouTuber)絆愛(Kizunaai)在YouTube 上線,注冊頻道名為A.I.Channel。角色形象由森倉圓設(shè)計,3D 模型由Tda 制作。絆愛由真人扮演而成,即在絆愛的3D 模型后,由真人穿上動捕設(shè)備,在背后控制絆愛的面部動態(tài)表情及動作,并由聲優(yōu)去配音及對口型,進(jìn)而進(jìn)行直播或錄制視頻。絆愛與早期的虛擬主持人存在的主要區(qū)別在于:一是絆愛背后有真人扮演,而虛擬主持人背后沒有;二是絆愛采取的二次元形象,而不是虛擬主持人的“像真人”形象;三是絆愛的智能化水平遠(yuǎn)遠(yuǎn)超越虛擬主持人,體現(xiàn)在3D 形象、語音、動作、表情上等;四是制作質(zhì)量、效率和體驗感得到了質(zhì)的提升,得到了市場的高度認(rèn)可,絆愛也成為全民偶像。
虛擬形象的生成與打造,尤其是語音技術(shù)的突破性進(jìn)展,為虛擬主播的大規(guī)模應(yīng)用奠定了堅實基礎(chǔ),虛擬主播如雨后春筍般出現(xiàn),截至2018年底,全球各大平臺上的虛擬主播已經(jīng)超過了6000 個。2018年,科大訊飛攜手相芯科技打造了虛擬主播 “康曉輝”,“康曉輝”有著與真人康輝相似的外貌,成功主持了相關(guān)節(jié)目并在現(xiàn)場進(jìn)行了實時互動。虛擬主播“康曉輝” 的最大優(yōu)勢是背后的虛擬形象生成技術(shù)(PTA),該技術(shù)只需普通攝像頭和一張自拍,就可實時生成與自己相似且更美觀的3D 虛擬形象,而不再需要3D 虛擬形象定制高昂成本。①
隨著大數(shù)據(jù)、人工智能技術(shù)的快速進(jìn)步,AI 能力得到了顯著提升。2018年,搜狗和新華社聯(lián)合推出了全球首個AI 合成主播;2019年央視網(wǎng)絡(luò)春晚推出AI 虛擬主播團(tuán)隊;2019年全國“兩會”期間,新華社推出AI 虛擬主播“新小萌”,《人民日報》推出AI 虛擬主播“小晴”,AI 合成主播呈遍地開花的狀況。
在電影《西蒙妮》中,人們理想中的AI 虛擬主播,是一個由計算機(jī)虛擬合成的、高度逼真的三維動畫人物。其不僅言行與真人無異,且可以完成所有的表演、播報等工作,她外形美麗、極具魅力但又沒有任何緋聞,并且能夠翻越“恐怖谷”,是徹徹底底的AI合成主播的“完美代言人”。2019年《阿麗塔:守護(hù)天使》中的阿麗塔就滿足了上述條件,并成為世界上第一個翻越“恐怖谷”的虛擬人物。當(dāng)然,阿麗塔的成本很高,而要真正實現(xiàn)AI 合成主播的大規(guī)模使用,必須低成本地實現(xiàn)CG(計算機(jī)動畫)技術(shù)從影視級到消費級的大幅度下降。
結(jié)合AI 合成主播的業(yè)界實踐,主要有三類模式。一是來源于影視業(yè)的“真人操作”模式。這種模式需要真人配合演繹,前期需要進(jìn)行大量的數(shù)據(jù)采集,中期需要動捕設(shè)備來配合播報,后期需要對視頻制作進(jìn)行再加工。這種模式的成本很高,僅限于一些大企業(yè)和大媒體,很難進(jìn)行大規(guī)模推廣。二是來源于全息投影的“AR+AI”模式。該模式嚴(yán)重依賴于增強(qiáng)現(xiàn)實技術(shù),需要提前設(shè)置好AI 虛擬主播的回答、動作、表情等,并通過其與真人主播的互動來制造真實感;并且AI 虛擬主播是后期做上去的,現(xiàn)場真人主持與其互動時就需要靠“演”,這種方式對真人主持和后期制作的要求都極高,也難以實現(xiàn)大范圍推廣。三是專注于AI 能力的全AI 化模式。該模式分為定制AI虛擬主播和使用視頻制作后臺兩個步驟,并專注于用AI 來替代人力,將虛擬主播的語音、情緒、動作,乃至后期視頻制作需要的圖片、視頻等都集成到后臺編輯系統(tǒng)中。②該模式的自動化程度高,制作成本較低,且效率能得到大幅度提升,未來的應(yīng)用前景廣闊。
從虛擬主播的三個發(fā)展階段來看,快速躍升的AI 能力至關(guān)重要,而核心是能夠改善人機(jī)交互的自然語言處理技術(shù)和讓虛擬主播更鮮活的語音動畫合成技術(shù)。
所謂虛擬主播尤其是AI 合成主播,是指存在于虛擬世界中,基于計算機(jī)圖形學(xué)、圖形渲染、動作捕捉、深度學(xué)習(xí)、語音合成等技術(shù)打造的,具有外貌特征、表演能力、交互能力等人類特征的主播。虛擬主播發(fā)展的關(guān)鍵是AI 能力,目前已經(jīng)處于初級發(fā)展階段的爆發(fā)期。
虛擬主播發(fā)展的關(guān)鍵是技術(shù)能力尤其是AI 能力,主要體現(xiàn)在兩個方面:一是各種先進(jìn)技術(shù)的技術(shù)集合體,集成了計算機(jī)圖形學(xué)、圖形渲染、動作捕捉、深度學(xué)習(xí)、語音合成等技術(shù);二是具有人類人設(shè)的數(shù)字化形象,即具有類似于人類特征以及人類的相關(guān)能力,而這需要極其強(qiáng)大的AI 能力。
虛擬主播及其產(chǎn)業(yè)發(fā)展的影響因素主要有技術(shù)、用戶、參與企業(yè)、政策、資本五大方面。
第一,技術(shù)是核心驅(qū)動力?;ヂ?lián)網(wǎng)及其相關(guān)產(chǎn)業(yè)的發(fā)展中,技術(shù)居于驅(qū)動性力量的基礎(chǔ)地位,虛擬主播作為新的技術(shù)集合體,技術(shù)在其中更是起著根本性作用。具體來說,虛擬主播的人物形象已經(jīng)從2D轉(zhuǎn)變?yōu)?D;人物表達(dá)、合成顯示、識別感知、分析決策的AI 能力都顯著提升。
第二,二次元用戶是堅實基礎(chǔ)。虛擬主播的前期用戶和忠誠用戶主要是二次元用戶,此后不斷破圈向其他圈層快速發(fā)展。艾瑞咨詢發(fā)布的《2021年中國二次元產(chǎn)業(yè)研究報告》 顯示,泛二次元用戶規(guī)模在2020年突破4 億,2023年有望突破5 億。
第三,數(shù)量眾多、類型豐富的參與企業(yè)促進(jìn)虛擬主播在更多的場景落地。騰訊、字節(jié)跳動、網(wǎng)易、科大訊飛等無疑是虛擬主播產(chǎn)業(yè)的主導(dǎo),而芒果超媒、藍(lán)色光標(biāo)、奧飛娛樂、天舟文化等上市公司也在各個領(lǐng)域廣泛布局。尤其隨著直播電商的高速發(fā)展以及企業(yè)品牌營銷的需要,虛擬主播在更多的場景、更多的企業(yè)、更大的范圍內(nèi)得到應(yīng)用。天眼查數(shù)據(jù)顯示,我國現(xiàn)有“虛擬人”“數(shù)字人”的相關(guān)企業(yè)28.8 萬余家。2016-2020年,5年新增注冊企業(yè)增速復(fù)合增長率近60%,行業(yè)進(jìn)入爆發(fā)期。[1]
第四,利好政策助推虛擬主播高速發(fā)展?;ヂ?lián)網(wǎng)產(chǎn)業(yè)尤其是我國的互聯(lián)網(wǎng)產(chǎn)業(yè)對政策高度敏感,利好政策將為相關(guān)產(chǎn)業(yè)提供良好的保障環(huán)境。2020年10月20日,國家廣電總局出臺的《廣播電視和網(wǎng)絡(luò)視聽“十四五”科技發(fā)展規(guī)劃》中明確指出,推動虛擬主播、動畫手語廣泛應(yīng)用于新聞播報、天氣預(yù)報、綜藝科教等節(jié)目生產(chǎn)。這不僅有利于虛擬主播在傳媒業(yè)的廣泛應(yīng)用,而且有利于虛擬主播向直播電商等領(lǐng)域的拓展。
第五,巨量資本融入極大地縮短成長周期。除了互聯(lián)網(wǎng)巨頭廣泛布局虛擬主播之外,各類基金也在大力投資虛擬主播賽道。根據(jù)天眼查數(shù)據(jù),2021年,虛擬數(shù)字人相關(guān)投資有16 筆,數(shù)量同比翻番,紅杉資本、GGV 紀(jì)源資本、峰瑞資本等知名投資機(jī)構(gòu)都名列其中。截至2022年4月20日,虛擬數(shù)字人領(lǐng)域投資已有9 起,投資總額超百億元。
虛擬主播屬于虛擬數(shù)字人的重要組成部分。虛擬數(shù)字人包括虛擬偶像(洛天依、柳夜熙、翎Ling、梅澀甜等,類似于真人偶像)、虛擬主播(央視網(wǎng)小C、新華社小諍、《人民日報》果果、湖南衛(wèi)視小漾等,除了新聞主播、視頻平臺主播外,還包括各種帶貨主播等)、虛擬員工(百信銀行AIYA、哈爾濱啤酒哈醬、OPPO 小布等,企業(yè)形象代言人、智能客服等)。發(fā)展到今天,虛擬主播處于高速成長期,但是依然處于初級發(fā)展階段。
第一,虛擬偶像(主播)市場需求大。艾媒咨詢發(fā)布的《2021 中國虛擬偶像行業(yè)發(fā)展及網(wǎng)民調(diào)查研究報告》 顯示,2020年中國虛擬偶像核心產(chǎn)業(yè)規(guī)模為34.6 億元,同比增長70.3%,預(yù)計從2021年到2023年將分別達(dá)到62.2 億元、120.8 億元、205.2 億元;虛擬偶像帶動產(chǎn)業(yè)規(guī)模2020年為645.6 億元,同比增長69.3%,預(yù)計從2021年到2023年分別為1074.9 億元、1866.1 億元、3334.7 億元。此外,超過八成網(wǎng)民有日常追星的習(xí)慣,其中63.6%的網(wǎng)民支持和關(guān)注虛擬偶像的相關(guān)動態(tài)。同時,有八成網(wǎng)民為虛擬偶像每月花費在1000 元以內(nèi),且37.6%的網(wǎng)民表示愿意花更多的錢支持虛擬偶像,手辦、唱片等周邊產(chǎn)品已經(jīng)成為虛擬偶像流量變現(xiàn)的重要渠道。有88.5%的偶像愛好者加入社群交流,并通常加入2-3 個社群。
第二,互聯(lián)網(wǎng)平臺企業(yè)積極拓展虛擬主播業(yè)務(wù)。B 站得益于二次元文化,很早布局虛擬主播業(yè)務(wù)并取得了顯著成績。B 站早在2018年就開通了虛擬主播板塊,同年還與日本游戲廠商GREE 合資成立bG Games 公司,共同開展面向中國和日本地區(qū)的手機(jī)游戲以及Vtuber(虛擬主播)業(yè)務(wù)。根據(jù)陳睿在B 站12周年慶上的演講,截至2021年6月,B 站有32412 名虛擬主播,同比增長40%。此外,騰訊、阿里巴巴等其他互聯(lián)網(wǎng)平臺也高度重視虛擬主播,并投入巨資開發(fā)和運營虛擬主播。
第三,企業(yè)紛紛開發(fā)虛擬主播進(jìn)行品牌營銷。隨著“Z 時代受眾”群體的崛起,以二次元用戶為核心用戶的虛擬主播迎來快速發(fā)展期。在虛擬主播1.0 時代,虛擬主播官方主動權(quán)更大,且由于互聯(lián)網(wǎng)發(fā)展所限,虛擬主播與粉絲關(guān)系多為粉絲單向崇拜;在虛擬主播2.0 時代,虛擬主播與粉絲的關(guān)系不再是單向崇拜,而是虛擬主播—粉絲群體的雙向建構(gòu);而在虛擬主播3.0 時代,隨著圖形渲染、圖像識別、動作捕捉、深度學(xué)習(xí)等技術(shù)的成熟,虛擬主播正不斷滲透和參與到現(xiàn)實生活中。[2]
媒體深度融合轉(zhuǎn)型面臨多重難題: 一是受制于內(nèi)容生產(chǎn)能力尤其是短視頻內(nèi)容生產(chǎn)能力不足,難以有充足的內(nèi)容吸引足夠規(guī)模的用戶;二是AI 能力的不足導(dǎo)致難以與用戶進(jìn)行有機(jī)交互,用戶體驗性不好。進(jìn)而導(dǎo)致難以建立起緊密的用戶連接,而虛擬主播可以在一定程度上解決上述難題。
1.虛擬主播是人工智能時代媒體轉(zhuǎn)型的必然選擇
在人工智能時代,傳媒業(yè)被徹底重構(gòu)和顛覆,大數(shù)據(jù)和人工智能技術(shù)進(jìn)入到傳媒業(yè)的每一個環(huán)節(jié)并徹底重構(gòu),從新聞內(nèi)容生產(chǎn)、發(fā)布,新聞內(nèi)容的數(shù)據(jù)化,到用戶畫像以及與用戶的互動、及時反饋。而虛擬主播在降低內(nèi)容生產(chǎn)成本、全天候服務(wù)和生產(chǎn)海量的短視頻方面都有突出作用。
第一,虛擬主播能夠大幅度降低新聞內(nèi)容生產(chǎn)成本。虛擬主播是在之前的新聞機(jī)器人基礎(chǔ)上迭代創(chuàng)新而成的,除了具備新聞機(jī)器人的海量、快速、高效的優(yōu)勢之外,且能夠大范圍覆蓋長尾市場和利基市場,極大地減少了人工成本和內(nèi)容生產(chǎn)成本。
第二,虛擬主播可以全天候服務(wù)并分身多個應(yīng)用場景。虛擬主播作為機(jī)器人,不僅可以不知疲倦地24 小時不間斷全天候服務(wù),而且可以同時分身服務(wù)到多個應(yīng)用場景,尤其是在重大突發(fā)事件主持人難以到場時。
第三,虛擬主播可以提供海量的短視頻內(nèi)容,彌補(bǔ)傳統(tǒng)媒體短視頻內(nèi)容生產(chǎn)能力的不足。海量的、多元化內(nèi)容是互聯(lián)網(wǎng)轉(zhuǎn)型的必要條件,否則難以吸引足夠數(shù)量的用戶。互聯(lián)網(wǎng)平臺媒體一方面通過平臺上的數(shù)量龐大的自媒體來提供海量的、多元化的內(nèi)容,另一方面利用人工智能技術(shù)生產(chǎn)大量的短視頻。傳統(tǒng)媒體囿于人才、技術(shù)、資金等各種制約,難以生產(chǎn)出海量的短視頻內(nèi)容,而基于人工智能技術(shù)的虛擬主播則提供了一種可能性,可以為傳統(tǒng)媒體的互聯(lián)網(wǎng)轉(zhuǎn)型提供海量的短視頻內(nèi)容,彌補(bǔ)傳統(tǒng)媒體創(chuàng)辦的互聯(lián)網(wǎng)媒體的內(nèi)容短板。
2.媒體轉(zhuǎn)型中的虛擬主播絕大多數(shù)尚未實現(xiàn)智能化、個性化
在媒體融合進(jìn)程中,傳統(tǒng)媒體高度重視大數(shù)據(jù)和人工智能技術(shù),一些技術(shù)較為領(lǐng)先的媒體推出自己的新聞機(jī)器人,如封面新聞的“小封”等。而在媒體深度融合的過程中,傳統(tǒng)媒體高度重視虛擬主播的作用,紛紛和互聯(lián)網(wǎng)公司或技術(shù)公司合作推出各種各樣的虛擬主播,但是從實踐應(yīng)用來看,虛擬主播基本上只是實現(xiàn)了“形似”,部分實現(xiàn)了“神似”,遠(yuǎn)遠(yuǎn)沒有達(dá)到智能化和個性化。
第一,部分虛擬主播實現(xiàn)了“神似”。媒體深度融合轉(zhuǎn)型過程中,傳統(tǒng)媒體推出了數(shù)量眾多的虛擬主播形象,基本上實現(xiàn)了“形似”,并且有部分已經(jīng)達(dá)到了“神似”水平,即除了外表及其細(xì)節(jié)相似之外,借助于自然語言處理技術(shù)和語音動畫合成技術(shù)等新技術(shù),實現(xiàn)了語言、聲音及其細(xì)節(jié)的逼真,虛擬主播的播報更為自然、鮮活。
第二,絕大多數(shù)虛擬主播尚未實現(xiàn)智能化和個性化。真正智能化的虛擬主播需要先進(jìn)的人工智能技術(shù)為支撐,以及規(guī)模不小的資金投入,并需要長時間的迭代進(jìn)化。例如,在2019年動畫電影《阿麗塔:守護(hù)天使》中虛擬卡通人物阿麗塔,就是世界電影史上首次CG 和真人結(jié)合的類人類角色,導(dǎo)演卡梅隆組建了800 人的特效團(tuán)隊,當(dāng)時用于渲染畫面的電腦多達(dá)3 萬臺,綜合運算時間長達(dá)4.32 億個小時。為了達(dá)到細(xì)節(jié)上的逼真,肢體動作、面部表情都屬于基本操作,單單是阿麗塔的皮膚,就做了1000 萬根頭發(fā)和500 萬個毛孔,還有毛孔里的絨毛。③但是囿于技術(shù)能力欠缺和投入不足等原因的制約,傳統(tǒng)媒體打造的絕大多數(shù)虛擬主播難以實現(xiàn)智能化和個性化。喻國明認(rèn)為,虛擬人的第一階段技術(shù)(形似階段)已經(jīng)比較成熟,目前已經(jīng)處在批量推出的階段,但是一個突出的問題是,虛擬人的個性化程度還遠(yuǎn)遠(yuǎn)不夠。也就是說,現(xiàn)在的虛擬主播還是“肉喇叭”,只是后臺內(nèi)容簡單的傳達(dá)者。[3]
虛擬主播能夠成為現(xiàn)實世界和虛擬世界之間溝通的有效橋梁,但發(fā)展中也面臨諸多難題,而短期引爆點除了傳媒業(yè)之外,面向B 端的各類服務(wù)將是主要引爆點。
目前,雖然虛擬主播及其產(chǎn)業(yè)已經(jīng)開始加速,但是要實現(xiàn)大規(guī)模商業(yè)化,仍面臨技術(shù)門檻高、周期長、成本高、人才稀缺等難題。正如前文所述,虛擬主播是先進(jìn)技術(shù)集合體,具有較高的技術(shù)門檻。真正智能化、個性化的虛擬主播更需要較長周期的迭代創(chuàng)新,尤其是打造一個高精度、高保真的非特異型虛擬主播,動輒就需要百萬元甚至上千萬元的資金投入,這不是一般的小企業(yè)或者小媒體能夠承受的。此外,我國虛擬主播產(chǎn)業(yè)的人才短缺現(xiàn)象極為明顯,不僅相關(guān)領(lǐng)域的軟硬件工程師極為熱門,而且與此相關(guān)的技術(shù)美術(shù)人才如動畫師、三維角色綁定師、特效設(shè)計師等也出現(xiàn)了巨大的缺口。
目前來看,虛擬主播主要應(yīng)用場景是面向B 端的媒體服務(wù)、品牌營銷服務(wù)。尤其在企業(yè)品牌營銷方面,虛擬主播有著巨大的潛力和發(fā)展空間,重點體現(xiàn)在直播帶貨領(lǐng)域。具體來說,一方面,基于文本共創(chuàng)模式,KOL 粉絲與虛擬主播形成切實利益共同體,更有助于抓住粉絲注意力;另一方面,與粉絲形成強(qiáng)關(guān)系鏈接,提升虛擬主播跨平臺牽引力和帶貨能力,大幅弱化直播帶貨領(lǐng)域?qū)φ嫒酥鞑サ囊蕾?。而未來則可以通過如下兩種方式來進(jìn)一步提升虛擬主播在品牌營銷中的應(yīng)用:一是粉絲共創(chuàng)+私域營銷,強(qiáng)化品牌認(rèn)知。與虛擬主播跨界聯(lián)合,為粉絲提供廣闊的文本生產(chǎn)空間,品牌將獲得大量曝光和UGC 內(nèi)容,強(qiáng)化其在Z 時代受眾中的認(rèn)知和知名度、好感度,為后續(xù)轉(zhuǎn)化進(jìn)行鋪墊。二是垂直領(lǐng)域主播+電商平臺,刺激消費轉(zhuǎn)化。虛擬主播在社交平臺上吸引因一致性趣緣而聚在一起的粉絲,并使之形成粉絲社群,這種模式天然具有分眾化趨勢,深耕垂直領(lǐng)域成為虛擬主播的不二之選。
注 釋:
①②③均參見相芯科技微信公眾號《AI 虛擬主播簡史,帶你走進(jìn)虛擬主播的前世今生》,2019-05-28。