基金項目:2023年教育部人文社會科學規(guī)劃基金項目“技術(shù)現(xiàn)象學視角下的城市空間感官生態(tài)變遷研究”(23YJAZH023);湖北科技學院科研創(chuàng)新團隊項目“元宇宙與傳媒發(fā)展研究”(2022T06)
作者信息:鄧志文(1972— ),男,湖北麻城人,博士,湖北科技學院人文與傳媒學院教授,主要研究方向:美學、技術(shù)哲學。
【摘要】近日,OpenAI推出了代表了目前文生視頻最高水平的模型Sora,成為生成式人工智能發(fā)展史上的里程碑。然而,Sora還是存在著一些技術(shù)上的缺陷和不足。從時間現(xiàn)象學角度看,Sora外在時間結(jié)構(gòu)“陣容”殘缺,只有客觀時間,沒有主觀時間和內(nèi)在時間意識,導致其無法描述人類的心理時間,不能解釋事件的因果關(guān)系和建構(gòu)復雜有意義的事件及情節(jié)。此外,滯留和前攝的缺席,導致其無法連接動作和結(jié)果;缺少內(nèi)在時間性動態(tài)生成結(jié)構(gòu)的介入,Sora亦難以展現(xiàn)隨著時間推移而發(fā)生的事件。因此,從技術(shù)層面增加數(shù)據(jù)模型的意向性實踐和提升意向性設計的算量、算法,完善內(nèi)外兩個時間性結(jié)構(gòu),成為提升Sora現(xiàn)實表現(xiàn)的關(guān)鍵。
【關(guān)鍵詞】文生視頻 Sora 時間性結(jié)構(gòu) 生成式人工智能 現(xiàn)象學 滯留與前攝
【中圖分類號】G206 【文獻標識碼】A 【文章編號】1003-6687(2024)6-046-07
【DOI】 10.13786/j.cnki.cn14-1066/g2.2024.6.006
從虛擬現(xiàn)實到元宇宙,從ChatGPT到文生視頻,生成式人工智能以摧枯拉朽的技術(shù)偉力不斷創(chuàng)造著一個又一個科學神話和熱門話題,并以其驚艷的表現(xiàn)“俘虜”了世人的目光,其迭代速度可謂日新月異。目前,文生視頻正被廣泛地應用于企業(yè)宣傳、數(shù)字化人、科普創(chuàng)作、線上社交等領(lǐng)域。[1]2024年伊始,OpenAI又隆重推出了新一代文生視頻大模型Sora。作為生成視頻領(lǐng)域的“王炸”,Sora再一次刷新了人們對人工智能技術(shù)的認知,該消息迅速登上熱搜并成為各大新聞網(wǎng)站的頭條。Sora突破了之前Runway、Pika、Meta等公司的AI文生視頻最多只能持續(xù)十幾秒且單鏡頭單生成的“天花板”,能根據(jù)用戶的文本指令生成長達1分鐘的高質(zhì)量視頻。逼真的視覺效果令Sora在一夜之間“爆紅”,其精湛的技術(shù)表現(xiàn)亦讓人們嘆為觀止,就連馬斯克也驚嘆地表示“人類愿賭服輸”。Sora強大的視頻生成能力,使其在社交、創(chuàng)意產(chǎn)業(yè)、視覺藝術(shù)、新媒體、影視制作、教育培訓、虛擬現(xiàn)實和增強現(xiàn)實、娛樂等領(lǐng)域有廣闊的用武之地。它標志著人工智能在理解現(xiàn)實世界并與之互動方面發(fā)生了質(zhì)的飛躍,這似乎昭示著通用人工智能“一統(tǒng)天下”的時代已經(jīng)近在眼前了。
就在人們對Sora頂禮膜拜和贊不絕口的浪潮中,一些理性的聲音也開始浮出水面。其實,在此之前,已有學者對生成式人工智能的潛在風險表達了關(guān)切,如倫理風險、信息失序風險、科技安全風險、價值導向風險,還包括系統(tǒng)性偏見、價值觀對抗、觀點霸權(quán)、刻板印象、虛假信息等問題。Sora作為熱點話題也自然進入了人們討論的視野。《環(huán)球日報》記者曾以Sora為話題采訪了劉偉、吳甘沙、楊靜等多名人工智能領(lǐng)域?qū)<液推髽I(yè)界人士。在喜憂參半中,他們都對Sora這個新生事物持較為辯證、客觀和理性的態(tài)度。任何技術(shù)產(chǎn)品都不是完美無缺的,我們應該對Sora的現(xiàn)實表現(xiàn)與應用前景秉持理性和謹慎的態(tài)度。一些人還對Sora可能帶來的各種風險憂心忡忡。他們認為,Sora強大的擬真能力使得人工經(jīng)驗和真實經(jīng)驗的邊界更加模糊,并對人們?nèi)粘=?jīng)驗產(chǎn)生負面影響,從而影響人們的實在觀。在人工經(jīng)驗與真實經(jīng)驗的雙重介入下,人們要形成對客觀世界的準確認知恐怕是比較難了。[2]“當生成式人工智能信息來源的真實性無法保障時,將嚴重影響用戶知情權(quán)和決策權(quán)的行使,從而演變?yōu)槿藱C對抗的不利局面,使得科技發(fā)展可能脫離人類可控范圍?!盵3]尤其對以真實性為生命的新聞業(yè)來說,在Sora的使用上更要慎之又慎。
盡管Sora的走紅有OpenAI公司營銷和眾多媒體背后推波助瀾的因素,但應當承認,作為生成式人工智能的一種,即通過大規(guī)模數(shù)據(jù)庫/集的學習和分析,進而生成與訓練數(shù)據(jù)相似的、具有一定邏輯性和連貫性的語言文本、音頻、 圖像、視頻等內(nèi)容,Sora也和ChatGPT一樣,是邁向通用人工智能時代的重要里程碑。截至目前,對文生視頻以及模型Sora的關(guān)注不在少數(shù),但多見于網(wǎng)絡新聞、發(fā)帖評論和對專業(yè)人士的采訪,以及《解放日報》《證券日報》《上海證券報》《聯(lián)合時報》《北京商報》《電腦報》《環(huán)球日報》上的12篇介紹性文章,①內(nèi)容多是介紹和普及文生視頻和Sora的技術(shù)特點、應用價值和應用領(lǐng)域,包括對相關(guān)專家的采訪,不具有嚴格意義上的學術(shù)性,真正關(guān)于文生視頻(遑論剛剛問世的Sora)的學術(shù)研究嚴重滯后。②筆者在這里要提出的問題是:Sora作為代表迄今最高水平的文生視頻模型,其現(xiàn)實表現(xiàn)有何不足之處?原因何在?
一、“能”與“不能”:文生視頻模型Sora的技術(shù)可供性與現(xiàn)實表現(xiàn)
只有從現(xiàn)象學的視角出發(fā),人們才能獲得正確的術(shù)語以談論作為事物表現(xiàn)語境的世界。這里要用到的第一個現(xiàn)象學術(shù)語叫意向相關(guān)項。在現(xiàn)象學理論中,意向相關(guān)項意指事物被體驗的方式或被賦予的意義。意向相關(guān)項類似于詹姆斯·吉布森提出的可供性,后者用于解釋有機體在環(huán)境的支持或限制下展開行動的可能性。[4]在技術(shù)哲學領(lǐng)域,可供性指的是技術(shù)為人們所能提供的服務資源及其限度。Sora是人工智能技術(shù)對現(xiàn)實世界的一種體驗方式,后者賦予它在現(xiàn)實中的表現(xiàn)和意義。如果人工智能技術(shù)能讓Sora的某種行動或表現(xiàn)成為可能,那么它就向Sora提供了一種可供性。智能技術(shù)的可供性決定了Sora實際上感知、理解世界和建構(gòu)視頻的方式和能力,也決定了Sora的可供性和現(xiàn)實表現(xiàn)。Sora的技術(shù)可供性主要體現(xiàn)為其技術(shù)上的進步及其價值和意義,這并不純粹源于它的客觀屬性,還依賴于技術(shù)主體的屬性,正是人類這個意識主體的認知資源即技術(shù)水平?jīng)Q定了Sora達到的高度。生成式人工智能的技術(shù)可供性為Sora的未來發(fā)展既提供了無限的可能,又在某種程度上限制它的現(xiàn)實表現(xiàn)。那么,生成式人工智能技術(shù)為Sora提供了哪些方面的可供性即意向相關(guān)項?Sora的現(xiàn)實表現(xiàn)又如何呢?
如果說以前的生成式人工智能如ChatGPT實現(xiàn)了從文字到文字、文字到圖片的靜態(tài)信息轉(zhuǎn)換和表達,文生視頻則實現(xiàn)了在連續(xù)的時間序列中保持場景的一致性,能描述物體的動態(tài)關(guān)系和光影變化,從而需要更強的時空建模能力和更高的算法技術(shù)。新一代文生視頻模型Sora則在此基礎(chǔ)上向前邁出了一大步,它不僅能將文字、圖片和視頻等數(shù)據(jù)轉(zhuǎn)換成高質(zhì)量的視頻,還突破了此前文生視頻受時長限制的瓶頸。Sora“按照預定的要求和規(guī)則,將用戶輸入的數(shù)據(jù)生成為特定的場景”,[5]通過復雜的深度學習模型,如生成對抗網(wǎng)絡和變分自編碼器,來捕捉動態(tài)變化和細節(jié)。無論是飄動的衣物還是水面倒影,Sora都能以接近真實物理世界的方式將其呈現(xiàn)出來。作為一款基于數(shù)據(jù)的物理模擬引擎,通過大規(guī)模的數(shù)據(jù)模型訓練和數(shù)據(jù)驅(qū)動,Sora體現(xiàn)出對真實世界中的人、動物和環(huán)境的不俗的模擬能力??傊苌啥鄠€角色、特定類型的運動、背景復雜細膩的場景、綜合多樣的鏡頭運動、逼真的人物和生動的角色表情等。借助世界模型,Sora理解真實世界的能力得到質(zhì)的提升,它可以描述簡單運動的物理規(guī)律,理解物體在物理世界中的存在方式,如演示視頻中真實的光影反射、運動方式、鏡頭移動等,世界模型是其重要標簽。Sora對語言有深入的理解,可以在單個生成的視頻中創(chuàng)建多個鏡頭,精準地保留角色和視覺風格。無論是視頻的長度、真實性、穩(wěn)定性、連貫性、一致性、分辨率,還是對文本的理解,Sora均代表了目前文生視頻的最高水平?!癝ora具有三維空間的連貫性、模擬數(shù)字世界、長期連續(xù)性和物體持久性、與世界互動的技術(shù)特點,是文生視頻領(lǐng)域取得的重大進步和突破?!盵6]
雖然OpenAI公司尚未發(fā)布Sora的公開使用版本,但人們可以通過其官方網(wǎng)站發(fā)布的48個演示視頻一睹Sora的技術(shù)魅力。其中有一個是根據(jù)文字“一位時尚女性自信且隨意地走在充滿溫暖霓虹燈和動畫城市標牌的東京街道上”生成的長達60秒穩(wěn)定輸出的多鏡頭高清視頻(見圖1、圖2)。舉凡細膩的人物表情、復雜的場景、完美的服裝搭配、炫目的燈光效果,抑或清晰可見的積水街道上的建筑和人物的倒影、晃動的耳環(huán)、飄動的裙擺、人物臉上的雀斑、街道兩邊的廣告招牌和商鋪、各色路人等,無一不更新著人們對生成式人工智能——文生視頻創(chuàng)作能力的認知。讓虛擬和現(xiàn)實融為一體的概念,真的不再是紙上談兵了。
盡管強大的智能技術(shù)讓Sora在理解人類語言和文字方面實現(xiàn)了質(zhì)的飛躍,并提供了理解、重建和模擬這個世界的可能性。但現(xiàn)象學的本質(zhì)還原告訴我們,技術(shù)不能擺脫其發(fā)展水平的限制,也無法等同于人的智力,Sora的可供性因此是有限的。艾倫·圖靈提出的具身智能指出,只有具備和人一樣的身體并與世界交互,才能完全理解物理世界的基本法則。意識一開始就是主體間性的,意向性來自人們互動的意向性實踐。通過與他人的實際互動而形成的意向性具有物理和社會的雙重屬性,恰如海德格爾所言,意向性意味著我們“在世界中存在”。人類生活在豐富多彩、變化萬千的生活世界中,那里是非科學的世界,充滿了偶然性、多變性和不可預測性。當Sora以理論的方式對待事物時,這種重要的或原始的在世界中存在的方式就被錯失了。建立在數(shù)據(jù)模型基礎(chǔ)上的Sora主要同理想化和精確的對象打交道,沒有與生活世界發(fā)生交集,意向性無法形成,生成的是刻板的、模式化的虛擬世界或數(shù)字世界,其視頻也只是生活世界的摹本或副本,與豐富而深刻的真實世界差之千里,其意向相關(guān)項(意義等)相當有限。例如,由于視頻包含了靜態(tài)圖像的空間信息和時間維度,要求文生視頻模型能夠理解和預測隨時間變化的動態(tài)場景和事件,但目前的智能技術(shù)尚不具備這個可供性。
筆者也從該演示視頻中發(fā)現(xiàn)了不少技術(shù)空洞的痕跡,如圖2中的時尚女性表情(即便有微笑)單一僵硬且無變化,嘴巴(口型)、眼睛(眨眼等)等具有豐富微表情表達能力的部位也始終未發(fā)生哪怕是極為細小的變化;圖1中街道上行人的步態(tài)及頻率節(jié)奏基本一致,無速度和肢體動作上的區(qū)別,顯示出虛擬數(shù)字人的同質(zhì)化痕跡。從整體上看,畫面上人物及其動作還留有較深的動漫印記??偟目磥?,正如開發(fā)Sora模型的OpenAI公司所言,Sora難以準確模擬復雜場景的物理原理(如玻璃破碎),無法完成對事件因果關(guān)系的呈現(xiàn)和解釋,混淆了空間細節(jié),不能精確描述隨著時間推移發(fā)生的事件等。那么,Sora現(xiàn)實表現(xiàn)的不足和缺陷背后的原因是什么?現(xiàn)象學的時間性理論或許能從哲學層面上指點迷津。
二、外在時間性結(jié)構(gòu)殘缺:Sora無法描述復雜事件和完成情節(jié)敘事
現(xiàn)象學研究的所有事物,包括意向?qū)ο蠡蛞庀蚧顒樱紳B透著時間。正是在時間性領(lǐng)域,現(xiàn)象學達到了被它考察的事物的第一原理的高度。時間性結(jié)構(gòu)也適用于所有的主觀和客觀的事物?,F(xiàn)象學認為,時間性包括世界時間(客觀時間)、內(nèi)時間(主觀時間)和內(nèi)在時間意識三個結(jié)構(gòu)層次。然而,生成式人工智能都是以數(shù)據(jù)為基礎(chǔ),“數(shù)據(jù)是智能成長的‘營養(yǎng)或技術(shù)推進的‘燃料”。[7]Sora也不例外,其技術(shù)原理是,先將大量的視頻數(shù)據(jù)集壓縮到一個低維潛在空間,然后將其分解為時空嵌入,從而將視頻轉(zhuǎn)化為一系列的編碼塊(視覺塊嵌入代碼),相當于小方塊的形式,最后,Sora再根據(jù)客戶提供的文字描述提取包含時間和空間信息的小方塊生成新的視頻。Sora內(nèi)容生產(chǎn)所依賴的技術(shù)主要是算量、算法和算力,在規(guī)則和技術(shù)理性中將現(xiàn)實世界簡化為模型,將抽象的問題變成可以量化、計算的對象。如此一來,作為沒有意識和意向性(依靠人類將意向性設計在模型中)的技術(shù)載體,Sora只具有客觀時間,而不能自主地運用主觀時間和內(nèi)在時間意識來呈現(xiàn)事件和組織事件。外在時間性結(jié)構(gòu)的殘缺,導致Sora在呈現(xiàn)事件和事件關(guān)系以及構(gòu)建情節(jié)方面無能為力。
(1)沒有主觀時間的參與,Sora難以呈現(xiàn)復雜的事件。主觀時間“屬于心靈活動和經(jīng)驗即意識生活事件的綿延和序列”,[8]主體的意向和感覺按照時間順序被安排的方式都發(fā)生在主觀時間中,它圍繞著知覺、感覺經(jīng)驗、回憶、想象等活動展開。作為一種現(xiàn)象,客觀時間依賴于主觀時間,事件或事物之所以能用鐘表來度量從而成為一個持續(xù)性的存在,是因為我們主觀經(jīng)驗到一連串心理活動。正是因為主體擁有主觀的內(nèi)時間,客觀時間的流動才得以對世界呈現(xiàn)。對于世界時間的顯現(xiàn)而言,我們意識經(jīng)驗的時間之流是顯現(xiàn)得以進行的前提。
其一,由于主觀時間的缺席,Sora無法模仿人類感覺經(jīng)驗生成回憶、夢境、心理活動、幻想、想象等內(nèi)容,難以完成對復雜而有意義的事件的敘述。如果Sora既不預期也不回憶,也就不可能把事件組織成時間性模式。事件的真相、結(jié)果、意義或發(fā)展趨勢依賴于主觀時間上的記憶、心理活動、想象等協(xié)同完成,以形成豐富的意義極。敘事不僅是對過去的回顧,還在前瞻的意向中形成,包含著對未來可能發(fā)生也可能不發(fā)生的一些行動的敘事。[9]即便這些事件可能發(fā)生在過去,抑或發(fā)生在將來,甚至從未發(fā)生過,它們都處于與敘事者的時間關(guān)系中。這正是Sora不能解釋事件因果關(guān)系和描述復雜物理事件的原因,演示視頻中也只能展現(xiàn)人物簡單的動作(漫步)。其二,Sora不能描述人物的心理體驗,人物形象塑造的方式單一。Sora對時間的體驗只有物理時間而沒有心理時間。作為心靈的體驗,心理時間依賴于主觀時間(正是Sora不具備的)的存在。在日常生活中,我們有時候埋怨時間漫長,有時候卻責怪時光倏忽,這不過是主觀時間帶給我們的一種心理感受而已。Sora無法像影視制作的編導們那樣,將事件實際發(fā)生的時間延長數(shù)倍表現(xiàn)劇中人物的煎熬或無聊,或?qū)嶋H時間進行壓縮表現(xiàn)時光易逝和某些人類用肉眼不易覺察的動作或細節(jié),或省略掉無敘事價值的時間等。因此,不能處理主觀時間數(shù)據(jù)模型的Sora無法通過生成相關(guān)場景和事件來描述或呈現(xiàn)人物的心理時間。演示視頻中的女性的自信和愜意可以從步態(tài)和輕松愉悅的表情中看出,但Sora卻無法通過主觀時間營造具體場景或鏡頭來展示她的內(nèi)心世界和情感。
(2)內(nèi)在時間意識的缺席導致Sora無法解釋事件之間的關(guān)系,難以完成復雜敘事并建構(gòu)有意義的情節(jié)。內(nèi)在時間意識是對主觀時間的內(nèi)在時間性的覺察或意識,是主觀時間顯現(xiàn)的條件,其建構(gòu)意識生活中所發(fā)生的各種行為的時間性,并使得這些內(nèi)在對象的顯現(xiàn)按照時間來排序。換言之,主觀時間事件需要內(nèi)在時間意識來組織和安排,后者被賦予一種形而上的優(yōu)先性,極具思辨色彩。只有時間性的三個層次同時在場并形成一個閉環(huán),才能形成主體的意向性并完成對復雜事件的完整敘述。敘事要求具有一種元認知能力,即與自身感覺體驗拉開一種反思的距離的能力。在拉開反思距離后,Sora要想塑造有意義的情節(jié),完成自身敘事,不單是機械地在保存有大量視頻數(shù)據(jù)的模型庫尋找和提取某些生活事件并簡單地拼接在一起,而是需要反思性、選擇性地提煉事件的意義,并決定如何將它們按照自身的意圖有序地組織在一起。事件的意義依賴于Sora用以展示這些事件之間關(guān)系的敘事結(jié)構(gòu),從好的敘事結(jié)構(gòu)中還可以獲得超越事件本身的意義。世界本身是以有序的時間方式被建構(gòu)的,但我們體驗這種秩序的方式卻取決于Sora的體驗建構(gòu)方式,而這需要Sora運用內(nèi)在時間意識才能完成。
Sora內(nèi)在時間意識的缺失,導致其在將事件組織成一個有意義的順序(情節(jié))方面束手無策,這就是它無法解釋事件的前因后果和來龍去脈的原因。在理想狀態(tài)下,Sora可以像影視片制作人一樣,先呈現(xiàn)某事件的當前狀態(tài),然后通過一個閃回去描述它過去的狀態(tài),從而解釋事件發(fā)展的原因和經(jīng)過,讓受眾收獲若有所思或恍然大悟的情緒體驗。影視劇情節(jié)的張弛有致、波瀾起伏、懸念迭起,依靠的就是非線性的敘事結(jié)構(gòu),這是Sora目前無法做到的。影視工作者大可不必自危,創(chuàng)意性的剪輯工作不是目前階段的智能技術(shù)所能取代的?!皬脑瓌?chuàng)意義上說,人工智能具有從屬的性質(zhì),是基于人的創(chuàng)造而形成和發(fā)展的。‘器屬于工具或手段的層面,而人工智能并未超出這一性質(zhì)?!盵10]如果將上面演示視頻的文本輸入變?yōu)椤耙晃粫r尚的女性因為要和情人約會自信而歡快地走在大街上,昨天與同事吵架的不愉快也隨之煙消云散”,情況就大不一樣了。對于單獨呈現(xiàn)“時尚女性走在大街上”“和情人約會”“與同事吵架”這三個事件來說,Sora可能沒有太大的困難,但要根據(jù)該女性目前的情緒表現(xiàn)來組織和安排三件事的時間順序的話,Sora就會捉襟見肘、窮于應付了,難以生成符合邏輯、能解釋事件原委的視頻。再加上生成視頻時長的限制,圓滿地完成這項工作還必須借助人工剪輯。因此,遵循智能敘事的Sora既無法形成對復雜時間性事件的完整敘述和情節(jié)建構(gòu),又無法達成對世界的實際把握和深度認知。
Sora時間性結(jié)構(gòu)“陣容”的殘缺導致其時間排序能力有限,只能描述客觀時間性事件,完成一個內(nèi)在于敘事本身的時間框架,即一個按照時間發(fā)生的事件的系列次序。這注定Sora只能停留在線性敘事的層面上,如描述具體的場景、人物、物體及其運動,生成簡單和具有連續(xù)性動作的畫面。在前述長達1分鐘的演示視頻里,盡管場景和細節(jié)逼真細膩,但也僅僅展示了時尚女性和行人漫步街頭的畫面,沒有生成任何有意義的事件。但在真正的敘事中,尤其是虛構(gòu)性敘事(影視、小說)中,為了營造各種戲劇性效果,人們往往在時間排序上采用多種手段,如文學中的倒敘、插敘、分敘,影視中的蒙太奇等主觀內(nèi)在意識手法。在這種外在敘事的時間框架中,Sora無法將一系列具有確定的客觀次序的事件無序地呈現(xiàn)出來,盡管這種無序呈現(xiàn)經(jīng)常以多種方式和原因被人們使用。
三、內(nèi)在時間性結(jié)構(gòu)殘缺:Sora難以呈現(xiàn)因果應答和動態(tài)生成的事件
知覺必須伴隨最近的記憶行為和預期行為,關(guān)于過去和未來的原始感覺必須從一開始就被給予。我們直接的時間經(jīng)驗包含一個內(nèi)在的時間性結(jié)構(gòu),它不只是擁有被給予的當下的畫面,還擁有直接被給予的關(guān)于過去和未來的感覺,既延伸到過去,也指向未來?,F(xiàn)象學用一個專門的術(shù)語“活的當下”意指我們在任何時刻擁有的對于時間性的充實體驗,它由原印象、滯留和前攝三個要素組成。因此,“活的當下”包含著對在先的、后繼的、當下的參照和容納,孤立地談論滯留、原印象、前攝中的任意一個要素,都會陷入一種抽象。例如,任何原印象都包含滯留和前攝的結(jié)果,三者相輔相成,共同構(gòu)成“活的當下”。但Sora模型設計的內(nèi)在時間性結(jié)構(gòu)不完整,即滯留和前攝兩個部分是缺席的,以至于它在表達內(nèi)在時間性方面心余力絀。
首先,僅具有原印象的Sora由于內(nèi)在時間性結(jié)構(gòu)殘缺,無法呈現(xiàn)因果應答。滯留指向過去的時間背景,提供了一種對持存對象剛剛消失階段的意識;前攝則指向?qū)淼臅r間背景,它以一種不確定的方式預期了某個或某些將被體驗的東西;至于原印象,胡塞爾認為,它具有“現(xiàn)在”一詞所指的內(nèi)容,[11]“現(xiàn)在”是“通過持留‘先前、預期‘后來看到運動本身”。[12]Sora將運動視為只局限于孤立的原印象的物理事件,因果關(guān)系問題便產(chǎn)生了。在Sora生成的視頻中,身體運動和行動沒有與生俱來的或內(nèi)在的時間性。亨利·希德在對身體圖式的定義中指出,身體圖式以這樣一種方式動態(tài)地組織感覺運動反饋,從而使得對位置的最終感覺“與之前發(fā)生的事情建立起了一種關(guān)聯(lián)”。[13]梅洛-龐蒂也認為,運動是一種將過去的時刻和現(xiàn)在的時刻進行整合的活動,“在運動的每個連續(xù)瞬間,都不能忽略前續(xù)的瞬間。就好像前續(xù)的瞬間融入了現(xiàn)在的瞬間”。[14]動作的發(fā)出和實現(xiàn)的結(jié)果在現(xiàn)象學上是融合在一起的。然而,在依靠視頻數(shù)據(jù)驅(qū)動的Sora的時間結(jié)構(gòu)中,只保留了原印象,失去了過去和將來的參與。這種當前的、殘缺的原印象既無對過去動作與事件的保留,也失去了刺激如何發(fā)揮作用的生成預期,導致視頻先前的畫面與后面將要生成的畫面失去了關(guān)聯(lián)。演示視頻中的事件與事件、動作與結(jié)果之間失去了邏輯聯(lián)系,這也是Sora無法呈現(xiàn)因果應答的原因,即只有前因沒有后果。
因此,在Sora生成的演示視頻中,不合邏輯的現(xiàn)象比比皆是:一位壽星吹生日蛋糕上點燃的蠟燭,燭焰紋絲不動;車輛高速駛過積水很深的街道,卻沒有任何水花濺起;被大咬一口的蘋果竟然完好無損……在這里,主體所預期的東西沒有被他當前正在執(zhí)行的動作所實現(xiàn)(動作沒有產(chǎn)生結(jié)果或反應),觀眾自然無法在畫面看到行動產(chǎn)生的結(jié)果或后果。一方面是滯留的缺席:先前的動作在消逝中沒有滯留而是被Sora的“意識”擁有,“每一個現(xiàn)時最直接的滯留不僅是對正好過去著的——過去之物的一同當下具有,而且也是對蘊含在其中的剛才——過去之物的滯留”,[15]從而導致Sora無法將過去的經(jīng)驗融入當下,吹、行駛、咬等動作的指向性中斷,與蠟燭、積水和蘋果失去了關(guān)聯(lián),燭焰、積水和蘋果也就沒有任何變化;還有的演示視頻中出現(xiàn)了奔跑的狼群數(shù)量隨著時間推移無緣無故地減少了的前后不一致的現(xiàn)象。另一方面是前攝的缺席:如果Sora擁有前攝功能,它不僅會幫助我們有意識地預期后續(xù)部分,還會預期我們對即將發(fā)生的事件的體驗。在喪失了前攝功能后,Sora不能作出預期判斷和發(fā)出指令,燭焰、積水和蘋果也自然無法產(chǎn)生程序上的呼應,故自巋然不動或毫發(fā)無損。演示視頻中還出現(xiàn)另一種不連貫的現(xiàn)象,即當那位時尚女性回首或側(cè)首看向別的地方時,鏡頭并沒有跟著其觀看方向進行轉(zhuǎn)動,畫面上也就沒有出現(xiàn)目光所及的相應區(qū)域(見下頁圖3、圖4)。這種不連續(xù)性也是Sora沒有解決技術(shù)上前攝的缺席所造成的,因而,Sora不能讓身體系統(tǒng)以時間的方式去組織其信息處理過程和行為,預期能力的喪失也使得它對即將發(fā)生的事情失去了實踐的定位能力。按常理,就在那位時尚女性看向左邊或右邊時,技術(shù)成熟的生成式人工智能應該給出預判,指示鏡頭轉(zhuǎn)向目光覆蓋的方向。正如我們彎腰去撿地面上的東西時,身體會預料到自身重心和角度即將發(fā)生變化,因而會適時作出調(diào)整,避免失去平衡。這就是具身行動與智能人的技術(shù)具身行動的區(qū)別所在。滯留和前攝同時缺席導致Sora分不清方位,混淆空間位置。遺憾的是,代表目前生成式人工智能最高水平的Sora還未能攻克這一技術(shù)難題。
其次,原印象、滯留和前攝的組合不是簡單的疊加,而是處在一種發(fā)生的關(guān)系中,其構(gòu)成模式也是一個動態(tài)的過程,三者處于一個不斷生成的結(jié)構(gòu)中。換言之,原印象、滯留和前攝對彼此都有一種構(gòu)造自身的影響。就如同人類理解他人不是通過采取一種觀察者的立場,也不是試圖根據(jù)其心理狀態(tài)對其行為作出解釋的方式,而是在與之工作、嬉戲或互動交流的共享情境中理解他人的。所以,在非人工智能生成的視頻中,能看到人物豐富而復雜的情感表現(xiàn)、多變的言行舉止等。影視劇中人物喜怒哀樂的情感變化,豐富的肢體語言和潛臺詞的運用,都是隨著情節(jié)進展、情境變化,原印象、前攝和滯留互動生成的結(jié)果。演員的價值就體現(xiàn)在這個生成的過程中,其必須根據(jù)劇情的推進不斷表演出相應的面部表情、做出合適的動作和說出應景的臺詞。
然而,從人生成內(nèi)容到人工智能生成內(nèi)容,文生視頻重構(gòu)了內(nèi)容生產(chǎn)的底層邏輯。如前所述,Sora是通過視頻、圖片等多模態(tài)數(shù)據(jù)來理解世界的。它根據(jù)文本指令,通過算法把由視頻轉(zhuǎn)換而來的編碼塊進行組合,這種僵硬機械地生成視頻的組合方式,不是生成性地與世界打交道。Sora創(chuàng)建的原印象是自給自足的,而不是在與滯留和前攝的動態(tài)關(guān)聯(lián)中發(fā)生的,沒有三者共同構(gòu)成與被體驗世界進行一種更廣泛的生成互動的可能性,它呈現(xiàn)的只是一個接一個的原印象,“這種單個感知所給予的范例性的個別之物是一種實象的現(xiàn)在的當下之物”,[16]沒有實際上的可供性。它的輸出可能是公式化的,可能會單調(diào)乏味、缺乏想象力。感知從來不是單純的瞬間擁有,而是過渡中或時間視域中的當下具有。沒有視頻數(shù)據(jù)動態(tài)生成的技術(shù)支撐,Sora自然無法精確描述隨著時間推移發(fā)生的事件,只有低級的重復,而沒有新的事件產(chǎn)生以及隨著事件進展而發(fā)生的表情和肢體動作變化。在前述1分鐘的演示視頻中,街道上的行人自始至終以同樣的速度、節(jié)奏和步態(tài)行走;因為沒有對即將發(fā)生的事件的預期體驗,時尚女性的表情單一,沒有任何情緒上的變化,智能人的真實面目原形畢露。在時間的流逝中,除了人物在漫無目的地行走外,沒有發(fā)生任何其他有意義的事件(情節(jié))。換在由原印象、滯留和前攝動態(tài)生成的環(huán)境中,情況則完全不同,里面的人物會隨著時間推移、周圍環(huán)境的變化,或者是新事件的發(fā)生,發(fā)生面部表情、步態(tài)、肢體動作乃至情緒等方面的變化,如表情可能經(jīng)歷微笑—嚴肅—驚訝—憤怒,步速由急趨緩,由緩到停,或是相反。在人工拍攝制作的影視劇中,具身演員在情感波動比較劇烈或情感張力比較大的戲份中表現(xiàn)出來的情感,是Sora模型塑造的數(shù)字人/智能人無法比擬和完成的。生成式人工智能模型Sora“并不能共享所有人類的藝術(shù)靈感或創(chuàng)作意圖,也無法復制人類的生活體驗”。[17]且觀眾對具身演員也有一定的情感投射,這種潛在的情感互動是數(shù)字人所不具備的。相反,觀眾會和Sora生成的表情刻板而缺少變化的虛擬人物保持一定的心理和審美距離,從而大大影響他們的情感投入和審美經(jīng)驗。文生視頻模型Sora很難呈現(xiàn)復雜和動態(tài)的情感表達,遑論引起觀眾共情了。盡管Sora能對提供的文字圖片進行理解,并根據(jù)相應的物理原理在時空上向過去或未來推演,但這種推演還是基于對視頻數(shù)據(jù)模型的刻板應用?!伴L期來看,需要用心制作的作品,依舊很難用芯完成。”[18]
四、思考與討論
以上主要從現(xiàn)象學角度分析了文生視頻模型Sora的現(xiàn)實表現(xiàn),重點是從時間性角度對Sora存在的缺陷與不足進行了哲學思考。由于外在時間性結(jié)構(gòu)和內(nèi)在時間性結(jié)構(gòu)的殘缺,Sora無法解釋和呈現(xiàn)因果關(guān)系的事件,不能用場景描述人類的心理時間,也難以精確地描述隨時間推移發(fā)生的事件。目前看來 ,Sora生成的視頻在長度、人物情感表達、事件解釋和呈現(xiàn)以及情節(jié)構(gòu)建方面與人工制作的視頻差距巨大。盡管生成式人工智能標榜將創(chuàng)造安全的通用人工智能使全人類受益,[19]但受限于數(shù)據(jù)庫的代表性偏差問題,解決文生視頻技術(shù)上的一系列問題尚需假以時日。由于現(xiàn)象學時間性涉及意識和意向性,不能僅僅依靠擴大視頻數(shù)據(jù)庫模型的數(shù)量(視覺塊嵌入代碼),還需要從技術(shù)上解決Sora數(shù)據(jù)模型的意向性實踐和意向性設計問題,進而完善其時間性結(jié)構(gòu)。相信隨著人工智能技術(shù)的發(fā)展,該問題有望逐步解決。所幸的是,OpenAI公司也非常注意評估Sora應用中的危害和風險,如社會責任和倫理問題,并開始通過向特定的用戶群體提供服務,以獲得反饋對模型進行持續(xù)改進,這也是普通大眾的殷殷期盼。
參考文獻:
[1] 肖偉. 文生視頻技術(shù)日趨成熟 短劇創(chuàng)作或?qū)⑹芤鎇N]. 證券日報,2023-11-20(A3).
[2] 黃锫堅,曾國屏,孫喜杰,等. 賽博空間的哲學探索[M]. 北京:清華大學出版社,2002:61.
[3] 孫那,鮑一鳴. 生成式人工智能的科技安全風險與防范[J]. 陜西師范大學學報(哲學社會科學版),2024(1):108-121.
[4] 孫凝翔,韓松. “可供性”:譯名之辯與范式 / 概念之變 [J].? 國際新聞界,2020(9):122-141.
[5] 何文英. 文生視頻軟件Pika火出圈,或推動AIGC加速融入多種業(yè)態(tài)[N]. 證券日報,2023-12-04(B3).
[6] 羅茂林. Sora出世 人工智能將引領(lǐng)新一輪行業(yè)變革[N]. 上海證券報,2024-02-19(6).
[7] 彭蘭. 從ChatGPT透視智能傳播與人機關(guān)系的全景及前景[J]. 新聞大學,2023(4): 1-16,119.
[8] 羅伯特·索科拉夫斯基. 現(xiàn)象學導論[M]. 張建華,高秉江,譯. 上海:上海文化出版社,2021:145.
[9] 肖恩·加拉格爾. 現(xiàn)象學導論[M]. 張浩軍,譯. 北京:中國人民大學出版社,2021:155.
[10] 楊國榮. “生成式人工智能”(AIGC)及其哲學意蘊[J]. 上海師范大學學報(哲學社會科學版),2024(1):110-115.
[11] Husserl E. On the Phenomenology of the Consciousness of Internal Time(1893—1917)[M]. Dordrecht: Kluwer Academic Publishers, 1991: 67.
[12] 馬丁·海德格爾. 現(xiàn)象學之基本問題[M]. 丁耘,譯. 北京:商務印書館,2022:319.
[13] Head H. Studies in Nuerology[M]. London:Oxford University Press, 1920: 606.
[14] Merleau-Ponty M. Phenomenology of Percetion[M]. London: Routledge and Kegan Paul, 1962: 140.
[15] 克勞斯·黑爾德. 活的當下[M]. 鮑克偉,肖德生,譯. 北京:商務印書館,2020:35.
[16] 埃德蒙德·胡塞爾. 現(xiàn)象學的觀念[M]. 倪梁康,譯. 北京:商務印書館,2017:80.
[17] 高永杰,呂欣. 生成式AI技術(shù)進化與圖像藝術(shù)生產(chǎn)范式革新[J]. 現(xiàn)代傳播,2023(9):159-168.
[18] 樊巍,劉揚,劉彩玉. “眼見為實”或成過去,AI“文生視頻”如何改變未來[N]. 環(huán)球時報,2024-02-18(4).
[19] 何祎金. 生成式人工智能技術(shù)治理的三重困境與應對[J]. 北京工業(yè)大學學報(社會科學版),2024(2):124-134.
The Temporal Structure of Text-to-Video Model Sora: A Phenomenological Reflection on Generative Artificial Intelligence
DENG Zhi-wen(School of Humanities and Media, Hubei University of Science and Technology, Xianning 437100, China)
Abstract: Recently, OpenAI launched Sora, a model that represents the current pinnacle of text-to-video technology, marking a milestone in the evolution of generative artificial intelligence. However, Sora still has some technical flaws and shortcomings. From a phenomenological perspective, Sora's external temporal structure is incomplete, featuring only objective time, lacking subjective time and inner time consciousness, which prevents it from depicting human psychological time, explaining causal relationships, and constructing complex, meaningful events and plots. Moreover, the absence of retention and fore-shoot hinders its ability to link actions with outcomes. Without the intervention of the internal temporal dynamic generation structure, Sora is also difficult to show the events that occur over time. Therefore, from a technical standpoint, addressing the model's intentional design issues and enhancing both the internal and external temporal structures become the key to improving Sora's performance in reality.
Key words: text-to-video; Sora; temporal structure; generative artificial intelligence; phenomenology; retention and fore-shoot