趙 宇
北京師范大學藝術與傳媒學院,北京 100875
20 世紀50 年代,人工智能(AI)開始了早期萌芽,之后經歷了不斷發(fā)展和沉淀積累,至2010年前后出現(xiàn)了突飛猛進的進步。人工智能在自然語言處理(NLP)和語音識別方面開始走向應用,通過深度學習(DL)和循環(huán)神經網(wǎng)絡(RNN),實現(xiàn)了語音識別、機器翻譯、文本生成等功能[1]。2022 年,隨著OpenAI 發(fā)布的ChatGPT 大模型面世,作為人工智能技術浪潮的一部分,深度學習算法不斷迭代,人工智能生成內容百花齊放。其中,人工智能在與影視的結合中,不斷創(chuàng)新探索、出奇出新。2023 年2 月,紐約舉辦了一場人工智能電影節(jié),藝術家們使用Midjourney 制作出了極具想象力的影像作品,以及使用神經輻射場(Neural Radiance Fields, NeRF)技術將2D 照片變成3D 虛擬影像。2023年2月,日本Netflix 也推出了全球首例使用AIGC 制作的動畫短片《犬與少年》,小冰日本分公司rinna 負責動畫場景部分的AI 制作,Production I.G 與WIT STUDIO 共同協(xié)力完成[2]。該動畫中的所有場景和人物都是通過人工智能自動生成,這也標志著人工智能與影視的結合不局限在實驗階段,而逐步推向了市場,影視的類型也漸漸多樣化。人工智能與虛擬現(xiàn)實(VR)、增強現(xiàn)實(AR)、混合現(xiàn)實(MR)等技術的結合也在探索和創(chuàng)新中。
虛擬現(xiàn)實作為一種計算機圖形模擬真實世界、創(chuàng)造想象世界的技術,為觀看者提供了一種新的全景互動體驗。它由沉浸式顯示和沉浸式交互組成,通過計算機圖形學(CG)和3D 成像來顯示圖像信號,通過動作捕捉采集交互動作并使用機器視覺系統(tǒng)進行交互的判斷決策,為體驗者提供沉浸式交互需求的3D 實時影像數(shù)據(jù)[3]。其中成像顯示與交互之間相互作用,圖像顯示交互反饋,交互數(shù)據(jù)輸入圖像之中。顯示系統(tǒng)一般為頭戴式顯示器,通過屏蔽現(xiàn)實世界,直接向用戶的眼睛顯示圖像,從而營造一種沉浸感。除了視覺的全部接管,也在聽覺方面增強了體驗者的沉浸感,使用空間設計讓體驗者從不同方向聽到聲音。觸覺方面則增加了反饋裝置,利用物理感覺來模擬觸摸,與虛擬世界中的物體互動來創(chuàng)造一種沉浸感。
人工智能涵蓋機器學習(ML)、深度學習(DL)等技術,能夠對問題做出連貫和智能的反應[4]。這項技術主要依賴于高級編程,旨在讓機器像人類一樣回答問題和做出決策。人工智能的發(fā)展起始于20世紀50 年代,但直到最近幾十年,由于計算能力的提升、大數(shù)據(jù)可用性以及深度學習算法的引入,人工智能取得了顯著的進步。人工智能在虛擬現(xiàn)實和增強現(xiàn)實中的應用也備受矚目,實現(xiàn)令人驚嘆的虛擬場景和角色的同時,還能進行情感建模,實現(xiàn)多種形式的交互體驗,且不僅限于簡單的觸碰和控制,而是多模態(tài)的沉浸式互動[5]。人工智能的介入使得虛擬現(xiàn)實和增強現(xiàn)實有了更加生動、逼真、個性化的環(huán)境,為用戶提供了前所未有的沉浸式互動體驗。
作為一種結合人工智能和圖形內容的技術,AIGC 旨在提升圖形設計、內容創(chuàng)作和視覺效果的質量與效率,以大數(shù)據(jù)、算法模型和算力為基本前提保障發(fā)揮巨大作用[6]。2022 年中國信息通信研究院和京東探索研究院在《人工智能生成內容(AIGC)白皮書》中將AIGC 定義為“既是一類內容,又是一種內容生產方式,還是用于內容自動化生成的一類技術集合”[7]。
AIGC 通過算法和數(shù)據(jù)驅動,利用計算機視覺(CV)、機器學習(ML)、自然語言處理(NLP)和生成式對抗網(wǎng)絡(GAN)等領域的技術,實現(xiàn)對圖形和內容的智能處理和生成。其核心目標是通過人工智能輔助,提供更快速、更精確、更創(chuàng)新的圖形和內容創(chuàng)作工具和方法。它可以應用于各種領域,包括動畫制作、電影特效、游戲開發(fā)、虛擬現(xiàn)實和增強現(xiàn)實等。借助AIGC 技術,創(chuàng)作者可以更高效地完成復雜的視覺效果和內容創(chuàng)作任務,同時也能夠拓展創(chuàng)作的想象力和創(chuàng)新性。
在虛擬現(xiàn)實和增強現(xiàn)實領域,通過算法和深度學習,AIGC 能夠從海量角色數(shù)據(jù)中提取出有用的信息和規(guī)律,進而自動生成虛擬人物的外觀、動作、語音和行為,并根據(jù)環(huán)境和用戶的交互進行實時調整和優(yōu)化。通過學習和迭代改進自己的行為與表現(xiàn),以便更加智能地適應用戶需求。這種自主學習和適應性能力使得虛擬角色能夠更好地滿足不同用戶和場景的需求,提供個性化、定制化的體驗。
在分析大量的圖形和內容數(shù)據(jù)后,AIGC 可以根據(jù)劇情需求自動生成場景,快速地創(chuàng)建逼真的視覺效果,包括虛擬場景、特殊效果和物理模擬等。從質感、紋理、光照等角度加強場景細節(jié)的構建,從而提高制作效率和質量,優(yōu)化場景布局和設計,以提供更具吸引力和沉浸感的虛擬體驗。
通過情感計算、情感識別和情感生成等技術,AIGC 能夠識別和理解用戶的情感,并表達出適當?shù)那楦蟹磻缦矏?、憤怒、悲傷等。此外,AIGC 能夠推斷出用戶的意圖、偏好和情感狀態(tài),從而建立起與用戶的虛擬關系。通過情感建模,人工智能可以模擬和表現(xiàn)虛擬人物的情感和認知能力,使其在虛擬現(xiàn)實場景中更加智能和逼真,通過與用戶的情感互動,產生情感共鳴。
通過分析用戶數(shù)據(jù)和行為模式,人工智能可以為用戶提供多樣化的虛擬現(xiàn)實體驗。通過機器學習和推薦算法等技術,根據(jù)用戶的偏好和興趣,定制虛擬場景、虛擬人物和虛擬關系,使用戶能夠享受到更加符合自己需求的虛擬現(xiàn)實體驗。
綜上,在AIGC 的幫助下,虛擬現(xiàn)實交互藝術家們在虛擬角色設計、感官體驗、用戶行為預判、交互生成、虛擬場景構建、編寫劇本和音樂等方面,將會更加精確和具有效率。隨著AIGC 技術的逐漸成熟,其在虛擬現(xiàn)實交互體驗領域的應用是大勢所趨。
在虛擬現(xiàn)實交互領域,人工智能主要在自然語言處理、機器視覺、虛擬現(xiàn)實應用程序接口和智能代理方面介入虛擬現(xiàn)實的構建[8]。論述人工智能與虛擬現(xiàn)實體驗的探索中,學者們已經總結出了人工智能的諸多應用:在人工智能對藝術創(chuàng)作的影響上,王嘉奇等[9]認為其作用體現(xiàn)在模仿學習以及創(chuàng)新工具等方面,它并不是完全代替人的創(chuàng)造力,而是為人類的創(chuàng)造提供了有效方式;在影像的美術風格創(chuàng)作中,薄一航[10]認為人工智能以及人機協(xié)同技術無疑會提升效率,計算機的海量存儲能力和計算能力將會為藝術家的創(chuàng)作提供靈感;高銳[11]詳細闡述了AIGC 技術如何協(xié)助創(chuàng)作者設計和繪制動畫短片中的角色和場景,并展示了AIGC 技術在劇本創(chuàng)作和音頻處理等方面的出色表現(xiàn)??偠灾?,AIGC 在跨模態(tài)生成能力、大型預訓練模型的發(fā)展逐步成熟。
虛擬現(xiàn)實兼具戲劇的舞臺空間、電影的敘事特點和游戲的交互特征。360°全景呈現(xiàn)是對全感官的最大調動,交互體驗將空間與敘事結合,視覺塑造與情感調動同時進行。虛擬現(xiàn)實影像通過呈現(xiàn)與真實世界維度一致的虛擬時空,消除了需要想象的環(huán)境、人物、位置、角度、運動、方向、關系等元素,制造出了與現(xiàn)實世界幾乎一致的視聽維度和存在感知,讓觀眾獲得了與現(xiàn)實世界相似的感知體驗。技術賦予虛擬現(xiàn)實空間以逼真感觀和體驗,甚至具有了比真實感官更真實的超真實性(Hyperreality)[12]。虛擬現(xiàn)實影像藝術家們通過視角轉換、角色代入等方式為體驗者提供一種進入虛擬故事空間的機會,在360°的虛擬空間包裹下,體驗者以身臨其境的方式參與到故事發(fā)生的時空中,跟隨著人物、情節(jié)的推進去體驗故事。沉浸感是虛擬現(xiàn)實體驗者的最大感受,依賴于逼真的場景和環(huán)境,置身于此的體驗者能夠迅速代入環(huán)境和角色中。場景的構建是虛擬現(xiàn)實世界的基礎,也是人工智能發(fā)揮能力代替人力的領域。
在場景的設置和優(yōu)化中,人工智能通過生成式對抗網(wǎng)絡(GAN)和深度學習,學習空間的不同物理組件,如紋理、照明等,實時創(chuàng)建更加逼真的環(huán)境。人工智能算法還在生物反饋應用中根據(jù)用戶的反饋和行為,實時調整場景以提供更符合用戶需求的體驗;實時修改和優(yōu)化虛擬現(xiàn)實環(huán)境中的場景,包括場景的自動化生成,在地形、建筑、天氣、動態(tài)物體的表現(xiàn)上更加細致、逼真。隨著大型預訓練模型的逐步成熟,文字生成圖像(Text-to-Image)、文字生成視頻(Text-to-Video)等跨模態(tài)生成能力逐步提高。如Runway 出品的AI 視頻編輯工具Gen-2,在前序版本“將實拍視頻進行動畫轉變”的基礎上,能夠輕易實現(xiàn)文字生成視頻(Text-to-Video),實現(xiàn)人物在不同時空、不同人種(物種)之間的瞬間穿越。
在創(chuàng)建場景的人工智能技術中,英偉達(NVIDIA)的GET3D 是2D 轉為3D 的代表工具。該軟件通過對2D 圖像進行訓練,生成具有高保真紋理和復雜幾何細節(jié)的三維圖形,同時允許將其形體導入3D 渲染器,這使得用戶能夠輕松地將對象導入游戲引擎、3D 建模軟件和電影渲染器并進行編輯。NVIDIA 近期推出的AI 模型Neuralangelo 則能夠將視頻片段轉化為細節(jié)層次豐富的高精3D 模型,并且可以準確呈現(xiàn)復雜材料的質地,例如屋頂瓦片、玻璃窗格和光滑的大理石。在虛擬現(xiàn)實影像的應用中,NVIDIA 又推出了GauGAN360 工具以實現(xiàn)3D 場景的360°呈現(xiàn)。此外,基于與NVIDIA 最初GauGAN AI 繪畫應用程序相同的技術,可讓用戶以景觀的整體形式進行繪畫,并讓GauGAN360 生成匹配的立方體貼圖或等距矩形圖像。
在虛擬現(xiàn)實的時空中,故事中的人物扮演著至關重要的角色,對用戶的體驗和情感聯(lián)結起著重要作用。人物一般在虛擬現(xiàn)實場景中充當著引導者或敘事者的角色,有助于用戶更好地理解和探索虛擬環(huán)境,讓體驗更有目的性和連貫性。同時,通過人物的表情、姿態(tài)和語言等傳遞情感和表達情緒,以增強用戶與虛擬環(huán)境之間的情感連接和情緒體驗。
由Epic Games 開發(fā)的MetaHuman Creator 是一款具有代表性的創(chuàng)建虛擬人物的智能工具。該工具利用高度逼真的數(shù)字人物技術,旨在提供一種快速、直觀的方式來創(chuàng)建高質量的虛擬人物模型[13]。Meta-Human Creator 允許用戶通過簡單的拖拽來創(chuàng)建虛擬人物的外觀和特征,包括面部特征、發(fā)型、服裝和身體比例等。以計算機圖形學(CG)和渲染技術為支撐,MetaHuman Creator 可以在短時間內生成逼真、高質量的虛擬人物模型,用戶能夠對虛擬人物的面部表情、眼睛、嘴唇、頭發(fā)、膚色等各個方面進行自定義。這種高效且直觀的方式,無疑為快速生成逼真的數(shù)字人物模型節(jié)省了大量時間和人力成本。
對于人物、場景、環(huán)境等的逼真描摹是為了增強“真實感”,但虛擬現(xiàn)實要實現(xiàn)的效果不止于此,其逼真效果還會調動體驗者的多感官系統(tǒng),最終達到一種“在場感”。虛擬現(xiàn)實通過充分調動用戶視覺、聽覺、味覺、嗅覺等多重感觀實現(xiàn)對事件的多重解構,在創(chuàng)造性空間中,帶領體驗者真正嵌入重塑的情境中,以體驗者的“在場”感知重新體會認知某一事件的“本真性”[14],在虛擬現(xiàn)實體驗設計中,多模態(tài)體驗設計是一項重要的任務之一。其中,最關鍵的是如何將不同感官的信息融合在一起,讓用戶感受到真實且統(tǒng)一的感覺[15],即組合多維度的感官信息輸入,進一步提高虛擬現(xiàn)實場景的逼真度和互動性,其中包括視覺、聽覺、觸覺、嗅覺等諸多認知刺激的整合與應用。同時,認知科學的引入為虛擬現(xiàn)實體驗設計提供了一種非??茖W化的設計者工具,可以指導設計者精細迭代,影響到虛擬現(xiàn)實體驗中人類行為模式的制定與修正。
除了通過各種感官體驗帶來“在場感”之外,與虛擬場景中的元素進行交互也會增加觀眾的“沉浸感”,這也是虛擬現(xiàn)實體驗與二維影像相比更具優(yōu)勢之處。交互性被稱為交互影像中最具顛覆性的特質,是虛擬場域中對多元對象的操作性和從適時環(huán)境中得到自然反饋程度的體現(xiàn)[16]。機器視覺技術的支持是眼動交互、手勢交互和姿勢交互等技術的基礎[17]。典型的機器視覺系統(tǒng)包含光源投射、圖像采集、圖像數(shù)字化、數(shù)字處理、判斷決策和信號反饋六大模塊[18]。通過對信息進行判斷決策,該系統(tǒng)將結果反饋到人機交互界面,生成相應的變化。機器通過對人類面部表情、手勢和體態(tài)的捕捉和識別,來觀察和學習用戶偏好,響應用戶的語音命令,更好地理解用戶的意圖和交互行為,幫助創(chuàng)造更加身臨其境的體驗。例如Omniverse 的云原生超級計算機(Avatar Cloud Engine,ACE)是一套基于生成式AI 技術的模型代工服務,它能夠為游戲中角色的語音、對話及動作交互提供AI 模型。ACE 支持下的NeMo 服務會根據(jù)預先輸入的角色背景知識,構建、定制并部署相應的語言模型;Riva 則用于識別體驗者的語音、實現(xiàn)文本和語音互轉化,讓AI 人物給出實時語音對話;Audio2Face 用于即時創(chuàng)建匹配語音的AI 人物的面部動作,并直接添加到Epic Games 的虛幻引擎5 或其他工具中[19]。
在現(xiàn)有的虛擬現(xiàn)實交互設計中,用戶往往只能依靠手柄等外接設備來控制角色的移動和行為,有些體驗甚至是完全靠視覺沉浸來實現(xiàn)。但是,通過人工智能生物反饋技術應用,體驗者可以通過呼吸、心跳等生理數(shù)據(jù)來為角色提供實時控制信號,從而增加虛擬現(xiàn)實中的身體體驗、情感和互動[20]。例如,在虛擬環(huán)境中進行武術對決,用戶可以通過呼吸來控制角色的招式和力度,增強用戶沉浸感,提高互動性。人體動作生成(Human Pose Generation)即為一項計算機視覺和機器學習技術,通過分析現(xiàn)實世界中的人體姿勢數(shù)據(jù),生成逼真的動畫角色姿勢,以此快速生成復雜的角色動作,并在影視制作中降本增效。
圖1 人工智能技術在虛擬現(xiàn)實交互影像生產中的應用
2017 年,當時的Facebook 公司把基于生成式對抗網(wǎng)絡(GAN)、風格遷移(Style Transfer)等方法的圖像生成和處理技術運用到了VR影像中。Facebook巴黎AI 研究院和電影制作公司OKIO 工作室、Saint George VFX 工作室以及導演Jér?me Blanquet 合作完成了VR影像作品《變動》(Alteration)。影片人工智能技術生成虛擬環(huán)境和虛擬人物,同時探討了虛擬現(xiàn)實和人工智能在塑造人類體驗和身份認同方面的潛力。人工智能在這部影片中的突出貢獻是風格遷移技術的使用[21]。以Julien Drevelle 作品衍生出來的風格為目標,巴黎AI 研究院的技術團隊選擇了17 種變體,以此為基礎來訓練一個神經網(wǎng)絡,并使其修改影像的每一幀。彼時,風格遷移在360°立體圖像上還是一個全新領域,F(xiàn)acebook 團隊用768×768 的圖像訓練了神經網(wǎng)絡[22],通過將每個目標樣式應用于單個幀來生成高分辨率測試圖像,最終實現(xiàn)了導演所希望的畫面風格,也保證了雙眼看到的立體效果。可以看到,人工智能在風格遷移的學習和制作中表現(xiàn)頗佳。它使用卷積神經網(wǎng)絡(CNN)和生成式對抗網(wǎng)絡(GAN),將一幅圖像的內容與另一幅圖像的風格進行分離,然后將內容圖像與風格圖像進行合成,從而實現(xiàn)風格的遷移。除了圖像風格遷移,它還可以應用于視頻、音頻等領域。例如,將電影的風格應用于個人視頻,或將藝術家的音樂風格應用于其他音頻作品[23]。
2019 年西南偏南電影節(jié)最佳VR 敘事獎作品——沉浸式VR 動畫電影《咕魯米的眼睛》(Gloomy Eyes)也是一部使用人工智能技術創(chuàng)作的VR 影片。AIGC 系統(tǒng)在學習了大量相關電影和視覺效果后,使用深度學習和計算機視覺技術生成了影片的場景和人物。故事場景包括了暗黑森林、水下世界、深海城市等,角色包括巨型生物、AI 機器人、機器怪獸、僵尸角色等。這些元素均由人工智能技術制作而成,雖然還存在著幀速率不高、清晰度不夠等問題,但已經顯示出了人工智能的作用。影片中涉及人工智能的制作包括虛擬角色的智能行為、根據(jù)觀影者的行為和互動作出的智能反應以及情感反饋等,例如回應觀影者的笑容或哭泣,通過人工智能語音識別技術將觀影者的語音指令轉化為指令。此前這種技術在《掌聲》(Clap)、《庫松達》(Kusunda)等VR 影片中也有使用,通過語音輸入進行交互,與劇中人物產生互動。除此之外,通過識別體驗者的動作產生對應效果的動作交互也有不少應用,如VR 交互影片《一瞥》(Glimpse)中,體驗者會自動代入主人公的角色,拿取和閱讀場景中的物品,甚至可以吹滅虛擬場景中的蠟燭,通過動作交互來參與劇情,體驗主人公的情感變化。
雖然人工智能技術已經在影視制作方面進行了一些探索,也取得了一定的進步,但也仍然存在沉浸感不強、交互性不夠自然等問題。針對這些問題,邵將等[24]提出可以借用機器學習技術中的典型算法來增強VR 電影體驗效果,“包括針對沉浸感缺失的基于卷積神經網(wǎng)絡學習技術的應對策略,以及針對真實感困境提出的決策樹、層次聚類算法下的優(yōu)化方案等”。
盡管AIGC 技術在圖形和內容創(chuàng)作方面取得了顯著進展,但仍存在一些技術上的限制。首先,AIGC技術的準確性和真實性仍需進一步提高。雖然機器學習和算法能夠通過大量的數(shù)據(jù)進行學習和訓練,但在某些情況下,AIGC 技術生成的圖形和內容可能仍然缺乏真實感和細節(jié),特別是在需要高度逼真和精確的視覺效果時,AIGC 技術可能無法完全滿足需求。其次,AIGC 技術的知識和數(shù)據(jù)依賴性也是一個挑戰(zhàn)。AIGC 技術需要大量的圖形和內容數(shù)據(jù)進行學習和訓練,以便生成高質量的結果。然而,獲取和處理這些數(shù)據(jù)可能會面臨困難,尤其是涉及人像生成、專有數(shù)據(jù)和知識產權的問題。AIGC 技術還需要領域專家的知識和經驗來指導和驗證其生成的結果。此外,一些藝術家和設計師更傾向于手工創(chuàng)作和表達,而AIGC 技術則可能限制了他們的創(chuàng)作自由度。確保AIGC 技術的合法性、道德性和隱私保護亦成為亟待解決的問題。
AIGC 在數(shù)字建模、虛擬人、場景合成和藝術創(chuàng)作等領域的迅速擴展,是隨著產業(yè)界虛擬現(xiàn)實、數(shù)字孿生和融合共生等場景的不斷豐富而實現(xiàn)的。未來,人工智能還將與其他技術如增強現(xiàn)實、混合現(xiàn)實等進行更深入的融合,創(chuàng)造更加綜合、交互性強的虛擬現(xiàn)實體驗。這種融合可以通過機器學習和計算機視覺等技術實現(xiàn)對真實世界的感知和理解,進一步提升虛擬現(xiàn)實的沉浸感。