摘要
文生視頻大模型 Sora的問世,意味著 AI正式叩響“影像制作”的大門,既有的傳媒業(yè)態(tài)、社會生態(tài)亦會由此迎接新的場景,強大的生產(chǎn)效率、持續(xù)的學(xué)習(xí)能力、復(fù)雜的數(shù)據(jù)來源將會對傳播的內(nèi)容、通道甚至模式產(chǎn)生深遠影響。由此,探討 Sora 的技術(shù)框架及其可能帶來的機遇與挑戰(zhàn)是目前學(xué)界亟待探索的熱門話題,本文旨在深入解析 Sora 的技術(shù)框架,探討其內(nèi)部邏輯如何實現(xiàn)對物理世界的模擬與再現(xiàn),并進一步分析其為傳播生態(tài)帶來的革新與危機。
關(guān)鍵詞
Sora 技術(shù)框架 傳播生態(tài)
一、從深度學(xué)習(xí)到技術(shù)融合:“視頻世界模擬器”創(chuàng)新影像技術(shù)
從技術(shù)的底層邏輯出發(fā),Sora程序的核心是一個經(jīng)過預(yù)先訓(xùn)練的擴散轉(zhuǎn)換器(Diffusion Transformer)[1]。具體拆解來看,這一程序可以被拆分為兩個核心板塊,其一為負責(zé)像素視頻編碼與解碼的生成板塊,其二為負責(zé)解析用戶需求的語義匹配板塊。因此,Sora的出現(xiàn)匯聚了目前關(guān)于圖像生成與語義解讀的多類深度學(xué)習(xí)模型的技術(shù)成果,其工程與邏輯方面的創(chuàng)新與兼容促使其能夠更好地完成從“理解”到“產(chǎn)出”的生產(chǎn)過程,而創(chuàng)造力的極大釋放也開始讓AI影像制作不再是簡單的“科技玩具”。
(一)人工智能影像的生成邏輯
在Sora程序正式發(fā)布之前,AGI(通用人工智能)領(lǐng)域經(jīng)歷了從生成式文本到生成式圖像的演進與發(fā)展,諸如 ChatGPT、DeepArt、Midjourney 等多種程序的陸續(xù)登場展示了 AI 在創(chuàng)作型文本與圖像方面的潛力。直觀來看,影像視頻就是對“圖像”的時空延伸與擴展,其基本原理更像是對前有理論與模型的一種集成和加強[2]。
從生成邏輯來看,Sora等AI影像生成程序需要以人類創(chuàng)作者的要求為描述性指令(prompt),通過自有的模型生成出多幀圖像,并將其通過時間邏輯串聯(lián)成為可播送的視頻。這樣的流程首先需要依托于生成對抗網(wǎng)絡(luò)(Generative Adversarial Networks)等常見的深度學(xué)習(xí)模型,保證AI能夠不斷通過自主學(xué)習(xí)來擴充其數(shù)據(jù)庫和完善“模仿”能力,從而提升其生成視頻對于現(xiàn)實世界的仿真度;其次,由于影像解析與生成的復(fù)雜性,為了提升 AI 的承載能力,程序還需要一個“降維空間”來對視頻素材進行編碼與解碼。而由于生成式程序服務(wù)于人類創(chuàng)作者的要求,程序也需要搭載大型語言模型(Large Language Model)以完成對自然語言的處理。
(二)人工智能影像的技術(shù)路徑
從逆向分析內(nèi)部結(jié)構(gòu)的角度來看,Sora程序通過三個具體的結(jié)構(gòu)串聯(lián)起了視頻生成與語義匹配兩個核心板塊,其中低維潛在空間與編碼解碼器共同組成了生成部分,而條件機制則單獨為語義部分服務(wù)。在運行過程中,Sora會預(yù)先經(jīng)過編碼的形式將原始的素材庫進行降維,將像素畫面以“潛在表示”的形式進入作為信息樞紐的低維空間,隨后在進行除噪后保留關(guān)鍵信息,以供模仿學(xué)習(xí)。而此時,如果人類創(chuàng)作者輸入了有關(guān)的指令,解碼器就會開始工作,進行語義匹配后通過“擴散”的形式逐步將潛在表示輸出為若干個視頻幀,并通過一定的邏輯排列后抵達創(chuàng)作者端。由此在生成板塊與語義板塊的配合之下,一個精準且具有邏輯的視頻即可完成產(chǎn)出。
Sora的運行模式集結(jié)了圖像處理與模仿以及語義匹配兩類不同的AIGC 技術(shù),具有一種“兼容”的天然優(yōu)勢。比如,在模仿與擴散階段,潛在空間能夠保證其更為高效地處理素材,避免由于視頻文件的復(fù)雜度而影響生存效率;同時,對抗網(wǎng)絡(luò)的存在也能夠不斷幫助AI更好地“欺騙”監(jiān)視器,從而讓其生成的內(nèi)容更具仿真度;語義匹配在語言模型的基礎(chǔ)上也能夠確保生成的內(nèi)容符合于創(chuàng)作者的需求,避免無效的冗余信息。因此,Sora對于視頻智能生成領(lǐng)域的技術(shù)革新是基于已有基礎(chǔ)模型的,亦是極其有效的。
二、從效率升級到智慧融通:“視頻世界模擬器”重塑傳播生態(tài)
任何新技術(shù)的出現(xiàn),除了代表一種可供使用的“新型工具”,還反映著技術(shù)演變的某些規(guī)律[4]。Sora的誕生讓AI生成的視頻時長擴充至1分鐘,為視頻內(nèi)容創(chuàng)作者們提供了一件更為趁手的工具,也必然在一定程度上對人類的傳播思維、模式、結(jié)構(gòu)產(chǎn)生重塑,并從不同的角度直接影響和改變著現(xiàn)有的傳播業(yè)態(tài)。而值得關(guān)注的是,Sora 的探索絕非獨立于使用者,也就是人類之外,它所產(chǎn)生的無限可能反而預(yù)示著人人可參與、智慧可融通的未來,它也為我們觀察人在智能機器時代的角色與定位提供了新的視角。
(一)超低門檻:產(chǎn)能釋放再造全新起點
Sora程序的出現(xiàn)極大縮減了微視頻影像的制作流程,讓曾經(jīng)的“腳本編寫、分鏡設(shè)計、拍攝布景、現(xiàn)場錄制、后期剪輯”等復(fù)雜龐大的團隊作業(yè)濃縮入了能夠通過模擬不斷學(xué)習(xí)的“黑箱”裝置之中,其化繁為簡的能力,以及生成式人工智能共有的“高效”優(yōu)勢成為其吸引更多人嘗試的關(guān)鍵因素。與此同時,流程簡化帶來的成本銳減更是AI生產(chǎn)的又一“刺點”,少則一天多則半月的時間成本也壓縮至了分鐘單位,傳統(tǒng)拍攝中需要累加的人力物力幾乎可以實現(xiàn)倍數(shù)級縮減,內(nèi)容創(chuàng)作者的試錯機會也隨之增多。可以說,在Sora的助力和加持之下,嘗試成為“視頻制作者”對于具備在聊天框輸入信息指令能力的龐大互聯(lián)網(wǎng)用戶群體而言,已經(jīng)變得仿若一場游戲,而游戲式的傳播與生產(chǎn)代表的正是對抗權(quán)利分層固化的“大眾力量”。
威廉·弗盧塞爾(Vilém Flusser)曾在《技術(shù)圖像的宇宙》中預(yù)言,借由技術(shù)生產(chǎn)的加持,人們會近乎狂熱地利用鍵盤制作出難以磨滅的信息,享受成為創(chuàng)作者的游戲[5]。一方面,AI技術(shù)在用戶操作層面的超低門檻抹去了繁瑣的條件限制,提供了一個相對更為平等與自由的生產(chǎn)空間,固有的話語權(quán)力分配體系在技術(shù)的賦能下再次松動,容許部分曾被拒之門外的“普通網(wǎng)民”參與其中,進而探索新的分配規(guī)則;另一方面,這種無需太多成本的創(chuàng)作模式也降低了嘗試的“心理準入閥”,游戲式輕松愉快的參與讓用戶們脫離了傳統(tǒng)評價標準的凝視與束縛,敢于進行一些“天馬行空”的創(chuàng)作,從而挑戰(zhàn)由專業(yè)者制定的審判規(guī)則,達成相對自由與無拘無束的創(chuàng)作氛圍??偟膩碚f,在AI帶來的對話式生產(chǎn)游戲中,大眾群體得到了抹去其技能虧欠與心理負擔(dān)的配平砝碼,視頻生產(chǎn)者被不同程度地拖拽到了新的起跑線上,期許更加公平、多元的話語空間,并由此促進傳播交往的繁榮。
(二)超大承載:持續(xù)模仿集結(jié)人類智慧
盡管視頻創(chuàng)作者通過輸入指令文本,并借助對抗式模擬的創(chuàng)作模式,似乎賦予了AI極大的創(chuàng)作空間與“自主權(quán)利”[6],但深入分析便可發(fā)現(xiàn),所有生成式作品的真實源頭始終是人類創(chuàng)作的已有成品集合。學(xué)界關(guān)于其版權(quán)爭端話題的討論,也恰恰揭示了優(yōu)質(zhì)生成式影像內(nèi)容的本質(zhì)——它們并非個體所有,而是代表了被納入數(shù)據(jù)庫和模仿庫中的所有人類作品的精粹。從群體智慧的角度來看,生成式AI已超越了單純物體的范疇,它成為人類在知識獲取、保留和分享過程中認知能力的重要延伸[7]。換言之,它是人類整體智慧的集結(jié)與再調(diào)配的載體。生成式人工智能技術(shù),作為集結(jié)人類智慧的新新媒介,利用其遠超普通人的學(xué)習(xí)能力,集納海量資源,并對這些原始智慧進行再理解和深度挖掘,從而實現(xiàn)傳承與提升。在此基礎(chǔ)上,視頻創(chuàng)作領(lǐng)域或?qū)⒂瓉砬八从械陌l(fā)展通路,實現(xiàn)嶄新的飛躍。
而將“內(nèi)容”元素置于傳播過程鏈中作為傳播的一個關(guān)鍵要素后,這種飛躍就不僅停留于內(nèi)容創(chuàng)作的水準和質(zhì)量之上,更是影響到了智慧的播撒與擴散進程。生成式AI在吸納人類的“智慧”的同時,也為加速“智”的傳播提供了強大的動力。同時,Sora程序?qū)ιa(chǎn)效率的提升除了客觀上能夠?qū)⒛Y(jié)“群體智慧”的產(chǎn)品推廣到更多更廣泛的受眾節(jié)點,幫助更多人接受智的“教育”之外,還足以利用自身強大的學(xué)習(xí)模擬能力實現(xiàn)對人類的反哺,從而延伸人的認知范疇。這種雙向互動的模式,使得“人類在機器的幫助下更加聰慧”的愿望在螺旋上升的循環(huán)中逐漸變?yōu)楝F(xiàn)實。特別是在跨文化交流領(lǐng)域,生成式AI的多語言能力和強接收模仿能力還能發(fā)揮出一些縮減文化折扣的作用,減輕由于文化語境、地理區(qū)隔、政治觀念等構(gòu)筑出的“智”的傳播壁壘,助力智慧的跨“邊界”擴散,亦提升人類智慧集合圈的包容性與囊括范圍。
三、從機器宰制到真實幻滅:“視頻世界模擬器”引發(fā)交往危機
縱觀技術(shù)的發(fā)展歷程不難發(fā)現(xiàn),智能技術(shù)的介入往往擁有“利于”人類的出發(fā)點,它們由人創(chuàng)造而來用以協(xié)助工作的工具?!耙曨l世界模擬器”的誕生從這種意義上說也是人在創(chuàng)造一個可以更好地用動態(tài)畫面存續(xù)和表達現(xiàn)實世界的工具,逐步接近于馬歇爾·麥克盧漢(Marshall Mcluhan)所說的“人類延伸的最后一環(huán)”[8],實現(xiàn)感知能力的無限延展。但是,這種“工具”也往往附帶著對人某種“缺點”的包容,并能夠利用它們逐步反客為主,侵襲傳播倫理甚至異化人與社會。就像智能分發(fā)在包容人的“選擇性心理”時引發(fā)“信息繭房”的猜想一樣,智能生成亦會在包容人的“惰性”的同時導(dǎo)向“媒介依賴”“單向度的人”等危機,提醒人們在為 Sora的技術(shù)突破喝彩的同時也不能不警惕可能伴隨而至的負面影響與異化效果。
(一)依賴與馴化:個體用戶服從機器思維
Sora 等生成式 AI 的運行邏輯讓作為用戶的創(chuàng)作者拿起了發(fā)布指令的“指揮棒”,成為AI的“命令者”,可以借由算力的支撐以極低的代價完成視頻作品的制作。這種低操作門檻極大地提升了創(chuàng)作的效率與便捷度,然而,與之相伴的卻是技術(shù)依賴的悄然滋生。在這種技術(shù)的縱容之下,過往需要從現(xiàn)實社會生活中汲取經(jīng)驗性材料,并通過“靈感”將其串聯(lián)出個性作品的創(chuàng)作模式被創(chuàng)作者們放棄,置換成一種拋卻“思考”、立等可取[9]的簡單途徑。但是,在看不見的裝置黑箱中,“人類創(chuàng)作者”的角色卻在逐漸邊緣化,成為長串流程中的一個初始環(huán)節(jié)。這種邊緣化不僅削弱了創(chuàng)作者的主體地位,更使得他們在享受快捷生成的同時面臨著“不思進取”的風(fēng)險,個人價值在機器的高效運作下被工具價值所取代, “創(chuàng)作”的靈韻在機械的復(fù)制中被消磨。
更為危險的是,使用機器、依賴機器的過程中還暗含著對機器思維上的迎合。人們?yōu)榱诉_成“讓AI理解指令從而生成出正確的作品”的目的,必須不斷學(xué)習(xí)與機器溝通的技巧,而由于人與工具的差異性,這一過程中不乏需要讓渡自身的思維觀念以達成與機器的精準配對。人們意愿上的配合開始潛移默化地讓機器加入以往由人與人組成的傳播與交往鏈條,而 AI 強大的工具屬性會逐步展現(xiàn)出將他人取而代之的能力,將“人-人”改寫為“人-機器”,形成一個新的閉環(huán)。在這樣的閉環(huán)之中,機器反而成為規(guī)則的制定者,人看似擁有發(fā)布號令的指揮權(quán),實際上卻遵從于AI程序的思維方式和交往條件,異化成了被機器宰制的“單向度的人”,甚至逐漸喪失保持自我思考的能力。
(二)仿真與篡改:擬態(tài)環(huán)境的再擬態(tài)化
多模態(tài)技術(shù)的發(fā)展以及對抗式學(xué)習(xí)模型的進步,讓Sora程序生成的作品不僅擁有復(fù)雜的元素堆疊和場景切換,還能夠極大程度上還原現(xiàn)實景觀,甚至讓虛構(gòu)出的環(huán)境與物逃過人類的常識性判斷,不斷貼近“世界模擬器”的構(gòu)想。高度的仿真能力持續(xù)吞噬著虛擬與真實的邊界,也讓人們對于真實的信任更加岌岌可危。20世紀 20 年代,美國著名新聞學(xué)者沃爾特·李普曼( WalterLippmann)曾提出“擬態(tài)環(huán)境”說,指出人們通過媒介認識的世界不等于現(xiàn)實,而只是敘事修飾過的“擬態(tài)”真實[10]。而在智能技術(shù)的發(fā)展之下,媒介建構(gòu)的擬態(tài)世界不僅在構(gòu)筑人們對世界的認知,也成了生成式 AI 抓取形成數(shù)據(jù)庫的素材。這意味著AI生成的所有內(nèi)容本質(zhì)上是對“媒介敘事”的再塑和模仿,它們僅僅能夠代表對人類觀念的表征而非對現(xiàn)實的表征[11],只是對媒介構(gòu)筑的“擬態(tài)環(huán)境”的再擬態(tài)化。
斯帕羅(Sparrow)等人在《科學(xué)》雜志上提出并論證“谷歌效應(yīng)”指出,人們對互聯(lián)網(wǎng)的記憶依賴能夠消除人與人之間分享記憶信息的需要,并瓦解將重要信息存入生物式記憶系統(tǒng)的沖動[12]。這意味著仿真的生成式內(nèi)容雖然無法成為“真實”,但能夠填充入人的記憶之中,且可能不會在與他人的交談中被證偽和甄別,乃至因其在網(wǎng)絡(luò)空間中的長期停駐而成為多年之后群體的集體記憶。而集體記憶除了在傳播的儀式觀中承擔(dān)“賦予儀式感”的角色之外,也會在時間的推移之下成為“歷史”的一部分感性記錄,那么,如果 AI 創(chuàng)作的虛構(gòu)內(nèi)容在無意之間攜帶了偏見與傾向,這些錯誤的訊息就可能形象被留駐在記憶之中,成為歷史中的共識。而就世界格局而言,先進的智能技術(shù)只會發(fā)源于發(fā)達的少數(shù)國家,這些模型也優(yōu)先被技術(shù)資源更強的數(shù)據(jù)與場景投喂,在高度仿真與強感染力的加持下,實現(xiàn)文化和意識形態(tài)入侵將變得簡單輕易,傳遞歧視與偏見也會變得更根深蒂固和難以察覺。
結(jié)語
人工智能介入到視頻影像內(nèi)容的生產(chǎn)領(lǐng)域,存在于過往科幻小說中的“虛擬世界”,擁有了一個更具光環(huán)的名字,“模擬現(xiàn)實”“虛擬生存”成為AI發(fā)展的重要方向。盡管在目前看來,元宇宙依然是遙不可及的想象,與之伴生的概念炒作也消耗了不少科技魅力,甚至被人評價為引人眼球的“商務(wù)噱頭”,但為這一構(gòu)想服務(wù)的通用人工智能技術(shù)卻始終在以迅猛的速度發(fā)展進步。從ChatGPT到DeepArt到Sora,從文本到靜態(tài)圖像再到活動影像,生成式人工智能僅用不到兩年時間已經(jīng)到達了足以讓部分人類無法識別其內(nèi)容生產(chǎn)的程度,并且持續(xù)引發(fā)著諸如“人是否會被AI替代”的討論。本文從技術(shù)框架的角度入手,通過分析Sora對傳播生態(tài)的影響,闡述其可能帶來的機遇與危機,回應(yīng)了這一問題。Sora的誕生是人類在技術(shù)領(lǐng)域豐碑式的成果,其初衷一定是用以提高生產(chǎn)效率、提高內(nèi)容真實度與質(zhì)量,從而服務(wù)于人類的視頻創(chuàng)作工作,從目的上而言是無意于“取代”人類的;而從結(jié)果上來講,即使強大的模仿能力和巧妙的降維能力已經(jīng)可以讓不少AI生成作品做到高度還原“以假亂真”,但其依然會出現(xiàn)思維邏輯方面的錯誤,讓AI在時空維度完全等同于人類在現(xiàn)階段并不可能,因此從結(jié)果論上直接判定其能夠取代傳統(tǒng)視頻生產(chǎn)亦是杞人憂天。人類不斷求證AI是否會取代自己更多展現(xiàn)的是一種居安思危式的心理訴求,就像筆者擔(dān)憂Sora的出現(xiàn)可能會異化人的思維、割裂人的交往,其本質(zhì)是期望應(yīng)用技術(shù)的人能夠不完全被“懶惰”操縱,不斷提醒自己動用主觀能動性避免成為技術(shù)的勞工,而非真的擔(dān)心人已經(jīng)完全淪為技術(shù)的奴仆。
在人與機器的和諧共生道路上,機器是高效的工具,亦是提醒人拔高“技術(shù)素養(yǎng)”與“媒介素養(yǎng)”的鐘鳴,聞其聲就會反復(fù)自省回歸理性,就不會完全為“智能”所替代。
參考文獻:
[1]W.Peebles and S.Xie,Scalable diffusion models"with transformers[C].IEEE/CVF International Conferenceon Computer Vision,2023:4195-4205.
[2]郭全中,張金熠.作為視頻世界模擬器的Sora:通向 AGI 的重要里程碑[J].新聞愛好者,2024(04):9-14.
[3]Yixin Liu,Kai Zhang,Yuan Li et al.Sora:A Review on Background,Technology,Limitations,and Opportunities"of Large Vision Models[EB/OL].(2024-02-27)[2024-03-10].https://arxiv.org/pdf/2402.17177v1.pdf
[4]彭蘭.從ChatGPT透視智能傳播與人機關(guān)系的全景及前景[J].新聞大學(xué),2023(4):1-16.
[5][巴西]威廉·弗盧塞爾.技術(shù)圖像的宇宙[M].李一君,譯.上海:復(fù)旦大學(xué)出版社,2021:73.
[6]高永杰,呂欣.生成式AI技術(shù)進化與圖像藝術(shù)生產(chǎn)范式革新[J].現(xiàn)代傳播,2023(9):159-168.
[7]喻國明,滕文強.生成式AI對短視頻的生態(tài)賦能與價值迭代[J].學(xué)術(shù)探索,2023(7):43-48.
[8][加]馬歇爾·麥克盧漢.理解媒介:論人的延伸[M].何道寬,譯.北京:商務(wù)印書館,2000:5.
[9]黃旦.作為人類文明進程動因的媒介[J].新聞記者,2023(6):3-10.
[10][美]沃爾特·李普曼.輿論學(xué)[M].林珊,譯.北京:華夏出版社,1989:240.
[11]陳露菡.作為技術(shù)圖像的AI繪圖:本質(zhì)與未來走向[J].青年記者,2023(11):89-91.
[12]Sparrow,B.,Liu,J.Wegner,D.M.(2011).Googleeffects on memory:Cognitive consequences ofhavinginformation at our fingertips[J].Science,333(6043):776-778..