巴黎奧運會剛剛結(jié)束,2028年洛杉磯夏季奧運會似乎還很遙遠。然而,曾為勒布朗·詹姆斯和芝加哥公牛隊制作內(nèi)容的體育娛樂電影制作人喬什·卡恩已經(jīng)在思考更遠的未來:3028年的洛杉磯奧運會會是什么樣子?
這正是人工智能(AI)視頻生成的完美創(chuàng)意實現(xiàn)。2024年早些時候,OpenAI推出的Sora使得AI視頻生成進入主流。通過在Runway或Synthesia等生成器中輸入提示,用戶可以在幾分鐘內(nèi)生成相當高分辨率的視頻。與傳統(tǒng)的CGI或動畫創(chuàng)作技術(shù)相比,這種方式速度快、成本低,并且技術(shù)門檻較低。雖然每一幀畫面可能并不完美——例如6指手或物體消失等失真現(xiàn)象很常見——但至少在理論上,這種技術(shù)有著廣泛的商業(yè)應(yīng)用潛力。廣告公司、企業(yè)和內(nèi)容創(chuàng)作者可以利用這項技術(shù)快速、廉價地制作視頻。
卡恩一直在嘗試使用AI視頻工具,他利用最新版本的Runway構(gòu)想出了未來奧運會的樣子,并在模型中為每個鏡頭輸入一個新的提示。這段視頻時長僅一分多鐘,展示了一個未來感十足的洛杉磯:海平面急劇上升使城市被擠到海岸線邊緣,一座足球場坐落在摩天大樓的頂部,而港口中央的圓頂內(nèi)則設(shè)有一個沙灘排球場。
這段視頻由麻省理工科技評論獨家分享,更多的是為了展示AI目前的可能性,而非城市規(guī)劃藍圖?!拔覀冊谟^看奧運會時,注意到主辦城市在文化敘事上所投入的心血?!笨ǘ髡f,“洛杉磯有一種想象力和敘事文化,并且這種文化為世界其他地方定下了基調(diào)。如果我們能展示一下1000年后洛杉磯奧運會的樣子,那該多酷??!”
這個視頻最重要的是展示了生成技術(shù)對創(chuàng)作者的巨大助力,但它也揭示了當前技術(shù)的局限性。雖然卡恩沒有透露他為每個鏡頭使用的具體提示內(nèi)容或為了達到理想效果所需的提示次數(shù),但他提醒說,任何希望用AI創(chuàng)作出優(yōu)質(zhì)內(nèi)容的人都必須接受不斷試驗的過程。在他的未來項目中,特別具有挑戰(zhàn)性的是讓AI模型在建筑設(shè)計上突破常規(guī)。比如,水上懸浮的體育場是大多數(shù)AI模型在訓練數(shù)據(jù)中幾乎沒有見過的。
每個鏡頭都需要新的提示,這也讓視頻難以保持連貫性。顏色、太陽的角度以及建筑物的形狀很難由視頻生成模型保持一致。視頻中也沒有任何人像的特寫鏡頭,因為卡恩認為AI模型在處理這些方面仍然存在困難。
“目前,這些技術(shù)在處理大規(guī)模場景時表現(xiàn)較好,但在人類互動的細節(jié)上還有待改進?!彼f。因此,卡恩認為生成視頻的早期電影應(yīng)用可能會集中在風景或人群的廣角鏡頭上。
AI視頻專家艾利克斯·馬什博夫也同意當前AI視頻的缺陷和不足。他2023年離開了Snap公司生成AI部門總監(jiān)的職位,創(chuàng)立了一家新的AI視頻公司HiggsfieldAI。他指出,好的對話內(nèi)容很難通過AI生成,因為它往往依賴于微妙的面部表情和肢體語言。
一些內(nèi)容創(chuàng)作者可能會因為反復輸入提示以達到理想效果所需的時間,而不愿采用生成視頻技術(shù)。
“通常成功率是1∶20?!卑怂埂ゑR什博夫說,但需要50次甚至100次嘗試也并不罕見。
然而,對于許多用途來說,這已經(jīng)足夠好了。艾利克斯·馬什博夫表示,他已經(jīng)看到像Temu這樣的電商巨頭開始越來越多地使用AI生成視頻廣告。在中國,視頻生成器需求旺盛,用于快速制作產(chǎn)品的直接廣告。即使一個AI模型可能需要大量提示才能生成一個可用的廣告,用真人、攝像機和設(shè)備來拍攝可能會昂貴百倍。他認為,隨著技術(shù)的逐步改進,這類應(yīng)用可能會成為生成視頻技術(shù)大規(guī)模應(yīng)用的首批案例。
“雖然這條路還很長,但我對現(xiàn)階段已有的部分應(yīng)用充滿信心?!卑怂埂ゑR什博夫說,“我們正在找出生成AI已經(jīng)表現(xiàn)不錯的領(lǐng)域。”(綜合整理報道)(策劃/多洛米)