陳冰
龍年伊始,Sora橫空出世,震驚眾人。這個自稱是“世界模擬器”的新工具,作為OpenAI發(fā)布的首個AI文(圖)生視頻模型,帶給人們的感受真的只能用炸裂來形容——根據(jù)輸入的文字提示,就能生成效果逼真的60秒視頻,而且是可以一鏡到底的那種。
僅僅在一年前,人們還在嘲笑AI生成的威爾·史密斯(Will Smith)吃意大利面的視頻是人工智障。在那段視頻里,威爾·史密斯用一種詭異、尷尬的姿勢將意大利面鏟進一張抽搐、不似人類的嘴里。
可是現(xiàn)在,人們對著Sora輸入以下文字:
一位時尚的女士穿著黑色皮夾克、長紅裙和黑色靴子,手拿黑色手袋,在東京一條燈光溫暖、霓虹燈閃爍、帶有動感城市標志的街道上自信而隨意地行走。她戴著太陽鏡,涂著紅色口紅。街道潮濕而有反光效果,色彩繽紛的燈光仿佛在地面上創(chuàng)造了鏡面效果。許多行人在街上來往。
在這段刷屏的視頻中,提示詞中的全部細節(jié)都得到了體現(xiàn),而且無論是人物臉上的雀斑,還是水中的倒影都顯得極其逼真。以前人們會懷疑,這是假的吧?現(xiàn)在人們會驚嘆,這是實拍的吧?不像是AI生成。這種從文本到圖像再到視頻的進階之路實在走得太快,以至于一年之前大佬還在預言AGI(通用人工智能)來臨之前,還有很長的路要走,現(xiàn)在紛紛開始改口稱:AIG的實現(xiàn)將大大提速。360集團創(chuàng)始人、董事長周鴻祎近日就宣稱,AIG將在一到兩年內(nèi)實現(xiàn)。
Sora背后的技術架構是怎樣的,Sora到底有沒有理解物理世界的能力,它的出現(xiàn)是否意味著AGI將在一年內(nèi)實現(xiàn)?以ChatGPT、Sora為代表的AI技術將如何顛覆人類社會既有的種種規(guī)則?我們又將如何應對?
關于Sora,我們有太多的未解之問。
Sora不再是一個創(chuàng)意玩具,而是一個“數(shù)據(jù)驅動的物理引擎”,一個可學習的模擬器或“世界模型”,可以對真實或虛擬世界進行模擬。
過去一年多,以ChatGPT為代表的大模型現(xiàn)身江湖,引發(fā)科技界一片沸騰。2024年中國農(nóng)歷新年還沒過完,AI界又發(fā)生了三件大事:谷歌推出Gemini新版本,支持超過100萬個token的輸入窗口;英偉達推出ChatWithRTX,誓把每個人電腦都變成一個私有大模型;當然,最震撼的還是Sora華麗登場。
近年來,AI 生成文字、生成圖片的技術飛速發(fā)展。相比之下,AI生成視頻領域雖有Runway、Pika 、Meta、谷歌等多個明星公司入局,但因技術難度更大,發(fā)展仍處于早期。
2023年12月,谷歌團隊發(fā)布視頻生成模型VideoPoet,一次能生成10秒超長、連貫大動作的視頻,超過其他智能生成3~4秒的模型,已足以讓業(yè)內(nèi)振奮。誰能想到,2個月不到,Sora已經(jīng)可以一次生成60秒鐘的連貫視頻,并且包含高度細致的背景、復雜的多角度鏡頭,以及富有情感的多個角色。
OpenAI首席執(zhí)行官奧特曼在X平臺上發(fā)布了一系列視頻,精美的場景、逼真的人物細節(jié)讓用戶驚嘆不已。而這些視頻全都是通過OpenAI 2月15日發(fā)布的最新視頻生成模型Sora制作的,人們將其描述為“絕無僅有”和“游戲規(guī)則改變者”。
1分鐘的視頻并不長,但對于AI文字生成視頻卻是一個巨大的飛躍。在此之前,文字生成視頻的時長只有短短幾秒,一大原因就在于,AI不知道接下來要發(fā)生什么,因而不知道該生成怎樣的內(nèi)容。
Sora發(fā)布的黑衣紅裙女視頻很好地保持了人物的連貫性,讓觀眾也明顯感受到其幾乎可以“以假亂真”。當然,如果仔細觀察,可以發(fā)現(xiàn)紅裙女視頻中人物的腳步在某幾個幀會出現(xiàn)不自然的扭曲,視頻中的背景廣告牌雖然酷似日文,但由于目前AI還無法直接在視頻中“認識”文字,其只能生成似是而非的“日文”。在另一則中國龍年舞龍的視頻中,出現(xiàn)的也并非真正的漢字“龍”,只是像漢字的圖形而已。這些都是AI生成視頻的特點之一。不過瑕不掩瑜,Sora已經(jīng)用事實吊打了同類型的文生視頻應用。它不僅更加符合邏輯,還在一定程度上“展現(xiàn)”了對現(xiàn)實世界的理解能力。
英偉達人工智能研究院首席研究科學家Jim Fan在社交平臺感嘆,Sora不再是一個創(chuàng)意玩具,而是一個“數(shù)據(jù)驅動的物理引擎”,一個可學習的模擬器或“世界模型”,可以對真實或虛擬世界進行模擬。
那么,Sora具體厲害在哪?
如果說,之前的AI“文生視頻”工具是“模擬現(xiàn)實”,Sora則是“構建現(xiàn)實”。兩者的區(qū)別在于,前者是對現(xiàn)實的模仿,難以捕捉現(xiàn)實世界的物理規(guī)則、動態(tài)變化。后者,則是在虛擬世界里,構建另外一種現(xiàn)實。其學習的不僅是像素與畫面,還有現(xiàn)實世界的“物理規(guī)律”。
Jim Fan對咖啡杯里的海盜船這則視頻進行了拆解分析。首先,在這個視頻中模擬器生成了兩只帶不同裝飾的精美海盜船,這需要Sora在其潛在空間中解決文本到3D的隱含問題;第二,這兩艘船需要在航行和避開對方路徑時始終保持動畫效果;第三,從流體動力學上來看,咖啡的流動以及船只周圍形成的泡沫都非常自然。流體模擬是計算機圖形學的一個完整子領域,傳統(tǒng)上需要非常復雜的算法和方程;第四,在逼真度上,整體的效果看起來幾乎就像使用光線跟蹤渲染一樣;第五,模擬器考慮到與海洋相比,杯子的體積較小,因此采用了傾斜移位攝影技術,營造出一種微景觀的感覺;第六,雖然提示詞中場景的語義并不存在于現(xiàn)實世界之中,但Sora依然實現(xiàn)了我們所期望的正確物理規(guī)則。
咖啡杯里的海盜船視頻,展現(xiàn)了人類所期望的正確物理規(guī)則。
這就是Sora的獨到之處,理解運動中的物理世界。復旦大學教授、上海市數(shù)據(jù)科學重點實驗室主任肖仰華指出,因為世界本質上是非常復雜的,非線性的。我們傳統(tǒng)的模型只能建一些線性的簡單關系。像流體力學之類非常復雜的現(xiàn)象,用傳統(tǒng)的模型非常難建模。但是今天我們看到基于Transformer深度神經(jīng)網(wǎng)絡的大模型架構,Sora已經(jīng)具備了對現(xiàn)實世界復雜現(xiàn)象非常逼真的建模能力,這是Sora帶來的一個新高度。
在Sora推出后不久,OpenAI發(fā)布了這款新工具的技術報告。報告指出Sora的一個強大的能力是它的語言理解能力。OpenAI利用Dall-E模型的re-captioning(重述要點)技術,生成視覺訓練數(shù)據(jù)的描述性字幕,不僅能提高文本的準確性,還能提升視頻的整體質量。此外,與DALL·E 3類似,OpenAI還利用GPT技術將簡短的用戶提示轉換為更長的詳細轉譯,并將其發(fā)送到視頻模型。這使Sora能夠精確地按照用戶提示生成高質量的視頻。
因為一篇張冠李戴的文章而被誤稱為Sora發(fā)明者之一的紐約大學計算機科學助理教授謝賽寧,實際上是機器學習領域知名學者,也是擴散模型(Diffusion Transformer,簡稱DiT)一篇重要論文的主要作者之一。他分析Sora應該也是一個建立在DiT架構上的擴散模型,同時結合了GPT技術的混合模型,從而在視覺領域實現(xiàn)重大突破?!皩τ赟ora這樣的大規(guī)模系統(tǒng)工程而言,神經(jīng)網(wǎng)絡架構只是其中很小一部分。大部分的功勞要歸功于OpenAI的人才儲備,高質量數(shù)據(jù)規(guī)模以及巨大的算力?!?/p>
Sora視頻完整展現(xiàn)了小怪獸伸出爪子擋住紅色蠟燭跳動的火焰,它的影子隨之偏移的物理過程。
簡而言之,60秒超長長度、單視頻多角度鏡頭和世界模型是Sora的三大關鍵詞。如果沒有大語言模型的加持,Sora是不可能迅速“進化”到今天這個地步的。
毫無疑問,Sora目前展現(xiàn)出來的“邏輯能力”看似非常強大,或者說它展現(xiàn)出來的視頻世界更符合人類觀念中的現(xiàn)實世界。
但Sora真的能夠理解世界嗎?隨著一系列匪夷所思的Sora視頻出現(xiàn),業(yè)界有了截然不同的判斷。
比如在一個樣片中,提示詞為“考古學家在沙漠中發(fā)現(xiàn)了一把普通的塑料椅子,正小心翼翼地挖掘和除塵”,Sora生成的視頻出現(xiàn)了椅子變形、自動行走等詭異的場景。
另一個玻璃杯碎裂的視頻中,玻璃杯碎裂的方式也十分詭異——它被抬到半空中時,桌子上就忽然出現(xiàn)了一攤平整的紅色玻璃,隨后玻璃杯被摔到桌子上,和這攤玻璃融為一體。
很顯然,Sora混淆了玻璃破碎和液體溢出的順序,也并不能推理時間和因果關系。這不正說明,Sora目前還無法理解全部的物理世界?
再比如,Sora團隊Aditya Ramesh自豪地放出一個螞蟻巢穴內(nèi)爬行的視頻,粗看似乎很驚艷,仔細一看,卻令人啼笑皆非——螞蟻怎么只有四條腿?!
還有一個老奶奶慶祝生日的視頻,每一幀都異常逼真,但是當老奶奶吹了生日蠟燭的時候,蠟燭的火苗竟然紋絲不動。最離譜的還是一個男人在跑步機上煞有介事地反向跑步。如此“南轅北轍的跑步”視頻,讓人看到了Sora“智障”的一面,這些翻車視頻暫時讓人們松了一口氣,“輸入一部小說,產(chǎn)生一部電影”的時代還不會馬上到來。
美國紐約州立大學石溪分校計算機系顧險峰教授撰文指出,觀察“幽靈椅子”視頻,整個椅子如鬼魅般懸空,這與日常經(jīng)驗相悖。再如“四足螞蟻”的視頻,螞蟻的動作栩栩如生,宛如行云流水。局部上非常流暢自然,令人不禁聯(lián)想或許在某個星球上存在這種四足螞蟻。但是整體上,地球的自然界并沒有四足螞蟻。這種“局部合理,整體荒謬”的生成視頻,意味著Transformer學會了Token間局部的連接概率,但是缺乏時空上下文的大范圍整體觀念。
黃仁勛2016年向OpenAI捐出全球第一臺AI超算DGX-1時,馬斯克還是OpenAI的聯(lián)合創(chuàng)始人。
AI科學家馬庫斯(Gary Marcus)則發(fā)文表示,“我們需要認識到,并非Sora生成的所有視頻都來自其訓練集。Sora也并不總是遵循物理學、生物學和文化的規(guī)律。我最近討論的7*7棋盤、4條腿的螞蟻,和碎裂的杯子一樣,都證明了Sora是一個魯莽的野獸,而非迭代的、基于定律的物理引擎。其實,Sora只是泛化了像素的模式,而并非世界上物體的模式”。
圖靈獎得主、Meta公司首席科學家、AI團隊負責人楊立昆(Yann LeCun)說,在他看來,僅僅根據(jù)提示詞生成逼真視頻并不能代表一個模型理解了物理世界,生成視頻的過程與基于世界模型的因果預測完全不同。他認為Sora并不能模擬物理世界,在社交平臺上發(fā)文稱 “這里存在‘巨大’的誤導”。
對此,英偉達高級研究科學家Jim Fan表示,我們可以從兩個角度來解釋這個問題:(1)可能是因為這個模型根本沒有掌握物理知識,它僅僅是在無序地拼湊圖像像素;(2)模型確實嘗試構建了一個內(nèi)部的物理引擎,但這個引擎的表現(xiàn)還不盡如人意。就像是第一代虛幻引擎在處理流體動力學和物體變形等問題上,與V5相比有著明顯的不足。同樣地,V1的渲染效果也遠不如V5,并且缺乏物理上的準確性。
獵豹移動董事長兼CEO、獵戶星空董事長傅盛則認為Sora在某種意義上具備了對世界的理解?!暗绻阏f它把整個物理世界復刻了,我覺得這肯定不是真實的。我認為它對世界的理解還停留在比較初級的水平。就像一個五六歲的小孩,對世界的理解并不深,但畫圖方面是一個天才兒童。我認為這也是電腦特性決定的,計算機的能力和人類能力并不一樣,對我們來說很難的事情對它來說可能很簡單,畫畫對計算機來說就是一堆的像素點打出來,這個色階正好符合你的審美。所以我覺得僅以視頻本身去驚嘆Sora對物理世界的理解到了一個什么高度,這點我是絕對不認同的,‘AGI因此由十年變一年’,這個我也不認同?!?/p>
傅盛說,其實語言對世界的認知是遠超視頻的,雖然視頻看起來更讓我們有直覺的沖動,但語言的抽象和邏輯是最難理解的。一旦語言對世界的描述建立以后,視頻的這種抽象和描述相對來說是簡單的。OpenAI能走到今天與其說是技術積累的勝利,不如說是技術信仰的勝利;與其說是它有什么超牛的技術,還不如說它堅持在別人不相信的道路上勇敢前行。
其實即便到前年之前,OpenAI在硅谷都不是一個被看好的公司。但它自成立之初就相信一件事:讓機器讀大量的文字,它就能理解語言,甚至理解世界。在ChatGPT出現(xiàn)以前,所有人都不相信它可以實現(xiàn),但它最后成功了。
Sora某種程度是ChatGPT的又一次翻版:它把視頻數(shù)據(jù)統(tǒng)一了,然后用大語言模型的方法理解視頻,最后“涌現(xiàn)”出了對物理世界的構建能力。他們在技術報告中指出,Sora的靈感來源于大語言模型的開發(fā)。他們利用互聯(lián)網(wǎng)的規(guī)模數(shù)據(jù)使得大語言模型獲得了通識知識的能力。而大語言模型的成功在一定程度上得益于文字編碼(Tokens)的使用,它統(tǒng)一了不同的文字形式,包括編碼、數(shù)學和不同的自然語言。Sora有了視覺數(shù)據(jù)塊(pathes),可以有效表達不同種類的視頻和圖像數(shù)據(jù)。
當然,Sora成功的背后還離不開另外一個男人——英偉達的聯(lián)合創(chuàng)始人黃仁勛。2月22日,英偉達市值一日暴漲2770億美元,相當于漲出一個阿里+京東+百度,創(chuàng)造了人類史上最大個股單日市值增幅。英偉達目前總市值已靠近2萬億美元邊緣(1.96萬億美元),超過英特爾AMD高通博通四大半導體巨頭之和。2012年,當英偉達的黃仁勛決定all in AI 的時候,沒人看好。但眼下,無論你是發(fā)力自動駕駛,布局元宇宙,還是研發(fā)AI大模型,都離不開英偉達的GPU(圖形處理器)。
2016年,英偉達推出了全球首個針對AI計算場景的P100芯片。在此基礎上,英偉達打造了全球第一臺AI超算DGX-1。出人意料地,黃仁勛將這款價值12.9萬美元的全球首臺AI超算無償捐給了舊金山某個非營利性機構。
捐贈儀式上,黃仁勛拿出記號筆在機箱上寫道:“為了計算和人類的未來,我捐出世界上第一臺DGX-1?!爆F(xiàn)在人們知道了,這家非營利性機構就是OpenAI。
8年前的一次捐贈,從某種程度上看,也是AI發(fā)展浪潮中的一個巨大隱喻:用人類的信仰創(chuàng)造出驚人的未來。Sora的重大突破并不一定代表技術上的重大升級,而是又一個“大力出奇跡”的時刻——相信這事能成,然后不計成本地投入巨大的算力和數(shù)據(jù)嘗試。技術信仰使得他們?nèi)σ愿?,從而有了一個產(chǎn)品級的突破。從這個角度上講,Sora生成視頻的意義在于,繼語言模型突破之后,人類又迎來了視頻和物理世界虛擬生成的突破,人類完全可以用數(shù)據(jù)驅動的方法讓機器學習,從而產(chǎn)生出有可能遠遠超過人類對這個世界的認知方式,這或許是人類歷史的偉大轉折點!
近日,360創(chuàng)始人周鴻祎連發(fā)6段視頻和1篇長文,開直播向網(wǎng)友“推銷”Sora,“我成了布道者”,他隨之宣布了“四個相信”理論:“要有AI信仰;相信AI是工業(yè)革命級技術;相信人類已經(jīng)在朝著AGI(通用人工智能),甚至朝著強人工智能在指數(shù)級發(fā)展;相信不懂AI會終將被淘汰?!?/p>
Sora生成的舞龍視頻非常逼真。
Sora是OpenAI發(fā)布的文生視頻模型,能夠根據(jù)用戶輸入的提示詞、文本指令或靜態(tài)圖像,生成長達一分鐘的視頻,其中既能實現(xiàn)多角度鏡頭的自然切換,還包含復雜的場景和生動的角色表情,且故事的邏輯性和連貫性極佳。
Sora的命名或來源于日語中的單詞“天空”。OpenAI團隊表示,選用該詞是因其讓人聯(lián)想到無限的創(chuàng)作潛力。
Sora具有三大突出亮點,首先是時長,Sora可生成長達一分鐘的視頻,且可以保持視頻主體與背景的高度流暢性與穩(wěn)定性;其次是單視頻多角度,即在一段視頻中圍繞同一主體實現(xiàn)遠景、中景、近景、特寫等不同鏡頭的切換,且符合邏輯;此外還有理解真實世界的能力,Sora對于光影反射、運動方式、鏡頭移動等細節(jié)處理得十分優(yōu)秀,極大地提升了真實感。
語言模型是計算自然語言每個句子概率的數(shù)學模型。當用戶向 AI 提問時,AI 會通過計算概率來確定其回答。當前的語言模型不僅僅是一個問題對應一個答案,實際上是一個問題對應多個可能的答案,并根據(jù)這些答案的概率進行排序,最終返回最有可能的答案。大語言模型擁有數(shù)以億計的參數(shù),并在解決復雜任務時表現(xiàn)出令人驚嘆的能力。
Transformer模型是一種神經(jīng)網(wǎng)絡,這種模型應用了一組不斷發(fā)展的數(shù)學技術,稱為注意力或自我注意力,以檢測甚至是系列中遙遠的數(shù)據(jù)元素相互影響和相互依賴的微妙方式。自注意力機制的創(chuàng)新,使得模型能夠在捕捉長距離依賴關系的同時實現(xiàn)并行計算,大大提高了模型的性能和效率。無論是在自然語言處理還是計算機視覺領域,都成為了一種不可或缺的重要工具。
涌現(xiàn)理論的主要奠基人約翰·霍蘭德(John Henry Holland)在《涌現(xiàn):從混沌到秩序》一書中這樣描述“涌現(xiàn)”現(xiàn)象:“在復雜的自適應系統(tǒng)中,‘涌現(xiàn)’現(xiàn)象俯拾皆是:螞蟻社群、神經(jīng)網(wǎng)絡、免疫系統(tǒng)、互聯(lián)網(wǎng)乃至世界經(jīng)濟等。整體行為遠比構成它的部件復雜,可稱為‘涌現(xiàn)’。”
涌現(xiàn)在AI領域的表現(xiàn)為,當大模型的參數(shù)與數(shù)據(jù)量足夠大時,突然就“涌現(xiàn)”出了驚人的智能,即實現(xiàn)AI 的自我進化,能舉一反三,觸類旁通。