本刊編輯部
2021年,元宇宙概念帶動了很多人對未來的無限遐想,與元宇宙緊密相關的數(shù)字人的熱度也在提升,多家科技企業(yè)發(fā)布了數(shù)字人相關產(chǎn)品。
2021年12月,百度公司發(fā)布國內(nèi)首個可在APP內(nèi)互動的超寫實數(shù)字人;此前,阿里巴巴集團開發(fā)的超寫實數(shù)字人AYAYI 正式入職阿里,成為天貓超級品牌日的數(shù)字主理人;OPPO 發(fā)布了基于虛擬人多模態(tài)交互的手機智能助手,能與用戶在多個場景生態(tài)下實時交互;Bilibili 網(wǎng)站專門為虛擬主播開設了分區(qū)。2 0 2 2年2月初,數(shù)字女孩李未可獲得字節(jié)跳動的獨家投資,這也是今年數(shù)字人領域的首筆融資……不知不覺間,數(shù)字人已經(jīng)開始走進我們的生活,隨著相關技術逐漸成熟,數(shù)字人作為我們與虛擬世界交互的重要載體,表現(xiàn)出廣闊的潛在市場。調(diào)研機構的數(shù)據(jù)顯示,到2030年,我國虛擬數(shù)字人整體市場規(guī)模將達到2700億元。
當然,伴隨著數(shù)字人一同出現(xiàn)的還有各種爭議。盡管概念的熱度很高,但目前產(chǎn)業(yè)仍處于較為初期的階段,發(fā)展還面臨政策、資金、技術、人才等層面的限制。作為新生事物,人們對數(shù)字人的認識還存在不少空白。在體系標準層面、安全倫理層面,不僅行業(yè)內(nèi)缺乏統(tǒng)一技術標準和要求,產(chǎn)品質(zhì)量良莠不齊,在法律法規(guī)、倫理規(guī)范方面也存在潛在風險,需要社會各方加緊研究各類數(shù)字人應用可能對人的心理帶來的影響,以及對人類社會造成的影響,并盡快出臺相關法律法規(guī)和倫理規(guī)范。
那么,數(shù)字人到底是什么,具有哪些特征,分為哪幾種類型,以及都應用在什么行業(yè)呢?
數(shù)字人的三方面特征
根據(jù)百度網(wǎng)“科普中國·科學百科”的解釋,狹義的數(shù)字人,是利用信息科學對人體進行虛擬仿真,是一種信息科學與生命科學融合的產(chǎn)物,最終目的是建立多學科、多層次的數(shù)字模型,達到對人體從微觀到宏觀的精確模擬。廣義的數(shù)字人,是指數(shù)字技術在人體解剖、物理、生理及智能的各個層次、各個階段的滲透。
那么,現(xiàn)在出現(xiàn)在我們身邊的虛擬人、虛擬數(shù)字人又是什么呢?按照目前較常見的定義,數(shù)字人的范疇中包含虛擬人,虛擬人的范疇中又包含虛擬數(shù)字人。虛擬數(shù)字人是具有數(shù)字化外形的虛擬人物。與具備實體的機器人不同,虛擬數(shù)字人只能依賴顯示設備存在。我們所知的很多虛擬人都要通過手機、電腦或者智慧大屏等設備才能顯示,目標是通過CG(Computer Graphics,即計算機圖形學,簡寫為CG)技術創(chuàng)造出與人類形象接近的數(shù)字化形象,并賦予其特定的人物身份設定,在視覺上拉近和人的心理距離,為人類帶來更加真實的情感互動。拋開交流互動能力不談,數(shù)字人、虛擬人、虛擬數(shù)字人在概念上可以是相同的。但在嚴格意義下,三者又有細微差別——虛擬人的身份是虛構的,現(xiàn)實世界中并不存在;數(shù)字人強調(diào)角色、數(shù)據(jù)等存在于數(shù)字世界;虛擬數(shù)字人強調(diào)虛擬身份和數(shù)字化制作的特性。
從最小的范疇說起,虛擬數(shù)字人具備三方面特征:一是擁有類人的外觀,具有特定的相貌、性別和性格;二是擁有類人的行為,能夠用語言、面部表情和肢體動作進行“自我”表達;三是擁有類人的思考方式,能夠識別外部環(huán)境,并與人交流互動。綜合來看,就是具備四方面的能力,即形象能力、感知能力、表達能力和娛樂互動能力。如果我們下次再看到有新的虛擬數(shù)字人,就可以結(jié)合這些特征和能力來判斷這個虛擬數(shù)字人的可信度。
數(shù)字人的運作原理
知道了什么是數(shù)字人,接下來就要搞清楚數(shù)字人到底是怎么說話、互動的,是背后有真人在操控,還是完全通過技術生成?
顯而易見,數(shù)字人能否走遠,核心在技術。數(shù)字人的誕生發(fā)展和AI 人工智能密不可分,想了解數(shù)字人的運作原理,首先要知道數(shù)字人的通用系統(tǒng)框架。數(shù)字人系統(tǒng)一般情況下由人物形象、語音生成、動畫生成、音視頻合成顯示、交互等5個模塊構成,其中交互模塊為擴展項,根據(jù)其有無,可將數(shù)字人分為交互型數(shù)字人和非交互型數(shù)字人。
非交互型數(shù)字人是系統(tǒng)依據(jù)目標文本生成對應的人物語音及動畫,并合成音視頻呈現(xiàn)給用戶。交互型數(shù)字人則根據(jù)驅(qū)動方式的不同,可分為智能驅(qū)動型、真人驅(qū)動型兩類:
智能驅(qū)動型數(shù)字人,通過智能系統(tǒng)自動讀取并解析識別外界的輸入信息,并根據(jù)解析結(jié)果決策數(shù)字人后續(xù)的輸出文本,驅(qū)動人物模型生成相應的語音與動作來使數(shù)字人跟用戶互動。這種人物模型是預先通過AI 技術訓練得到的,能夠通過文本驅(qū)動生成語音和對應動畫,業(yè)內(nèi)將這種模型稱為TTSA(Text to Speech & Animation,即文本轉(zhuǎn)語音和動畫,簡寫為TTSA)人物模型。
真人驅(qū)動型數(shù)字人,是真人根據(jù)視頻監(jiān)控系統(tǒng)傳來的用戶視頻,與用戶實時語音,同時通過動作捕捉采集系統(tǒng)將真人的表情、動作呈現(xiàn)在數(shù)字人形象上,從而與用戶進行交互。
目前,數(shù)字人的制作方式自動化程度還很低,生產(chǎn)門檻又很高,關鍵技術還不完全成熟。下一步,相關廠商和行業(yè)會繼續(xù)加大關鍵核心技術的創(chuàng)新,降低數(shù)字人的生產(chǎn)制作成本,提高對數(shù)字人面部和聲音的還原度,推進數(shù)字人開放平臺建設,增強技術可及性,最終實現(xiàn)更加自然、逼真的互動體驗。
數(shù)字人常見的類型和應用場景
調(diào)研分析當前市場上的數(shù)字人,從外形上,可以分為卡通、寫實等風格;根據(jù)人物圖形維度,可以分為二次元、3D卡通、3D高寫實和真人形象4種類型。這些種類繁多的數(shù)字人到底能否走遠,關鍵還是看應用場景。
目前,數(shù)字人市場正處于前期培育階段,替代真人的虛擬主播、虛擬偶像是目前的市場熱點,應用偏向娛樂化。按照應用場景或行業(yè)的不同,已經(jīng)出現(xiàn)了娛樂型數(shù)字人(如虛擬偶像、歌手、網(wǎng)紅,虛擬代言人)、教育型數(shù)字人(如虛擬教師)、助手型數(shù)字人(如虛擬客服、導游、智能助手)、主播型數(shù)字人(如虛擬主播)、影視數(shù)字人(如替身演員、虛擬演員)等。虛擬數(shù)字人技術結(jié)合實際應用場景,越來越多地進入影視、傳媒、游戲、金融、文旅等領域,根據(jù)需求為用戶提供定制化服務。