非田
Sora生成的視頻畫面
“一位時(shí)尚的女人走在東京的街道上,街道上到處都是溫暖的發(fā)光霓虹燈和動(dòng)畫城市標(biāo)志,她自信而隨意地走路。街道潮濕而反光,營造出五顏六色的燈光的鏡面效果。許多行人四處走動(dòng)?!笨吹竭@樣一段文字,人類腦海中會浮現(xiàn)出一些場景,最近,人工智能讓腦海里的想象照進(jìn)了現(xiàn)實(shí)。
2月16日,OpenAI公司的視頻大模型Sora橫空出世,通過上面的文字提示,最終生成了一段長達(dá)59秒的視頻,盡管細(xì)節(jié)仍有少許“出戲”之處,但乍一看,其已與人類正常拍攝的電影短片無明顯差別。
毫無疑問,2024年,人工智能技術(shù),尤其是視頻技術(shù),將繼續(xù)“井噴”。1月底,谷歌才剛發(fā)布了AI大模型Lumiere,可根據(jù)文字直接生成5秒長的視頻,并保證較強(qiáng)的運(yùn)動(dòng)連貫性,而這一度被認(rèn)為具有劃時(shí)代意義的模型,在Sora面前已經(jīng)顯得不太夠看—當(dāng)AI以不可思議的速度迭代,也難怪馬斯克驚呼“人類愿賭服輸(gg humans)”。
與此同時(shí),即便Sora尚未面向公眾開放,但單憑官網(wǎng)放出的幾段視頻,也足以加劇大眾對人工智能的擔(dān)憂。身份驗(yàn)證公司iProov的首席科學(xué)官Andrew Newell博士在接受哥倫比亞廣播公司采訪時(shí)表示,Sora將使不懷好意者更容易生成更高質(zhì)量的深度偽造視頻。
如果拿武俠小說來類比,本番震驚世人的Sora,并不是因機(jī)緣撿到武林秘籍后,頃刻間功力突飛猛進(jìn)的少俠,而更像是在藏經(jīng)閣內(nèi)閉關(guān)苦練多年后,終于打通任督二脈之人。
文字轉(zhuǎn)視頻是AI領(lǐng)域重點(diǎn)關(guān)注的方向之一?!堵槭±砉た萍荚u論》雜志在去年曾預(yù)言,生成式人工智能的第二波浪潮將是視頻。如今才剛開年,Sora的出現(xiàn)就印證了這一預(yù)測。
Sora是一種文本到視頻模型,這種技術(shù)涉及將自然語言轉(zhuǎn)換為視覺(圖像或視頻)的表現(xiàn)形式,它的成功是“站在巨人肩膀之上”。
在Sora之前,行業(yè)內(nèi)較為出名的公司名為Runway,2018年成立后,一直在開發(fā)人工智能驅(qū)動(dòng)的視頻編輯軟件,其客戶不僅有Tiktok和YouTube的自媒體創(chuàng)作者,也包括一些主流電影和電視工作室。
2021年,Runway與慕尼黑大學(xué)的研究人員合作構(gòu)建了文本生成圖片的AI模型Stable Diffusion的初代版本,另一家初創(chuàng)企業(yè)Stability AI隨即加入,強(qiáng)強(qiáng)聯(lián)手之下,Stable Diffusion進(jìn)步神速。
盡管兩家公司后續(xù)鬧掰,但選擇發(fā)力的領(lǐng)域也都不約而同選擇了文本轉(zhuǎn)視頻。Runway于去年2月推出了Gen-1模型,該公司負(fù)責(zé)人在接受美國媒體采訪時(shí)稱,自家AI已經(jīng)離制作完整的故事片非常近了。
而此時(shí),這條賽道上巨頭已然入局,包括Meta的Make-a-Video和谷歌的Phenaki,它們都可以從頭開始生成非常短的視頻內(nèi)容。
《麻省理工科技評論》認(rèn)為,生成式人工智能的爆炸式增長是由數(shù)百萬人推動(dòng)的。與Runway的路徑相似,據(jù)OpenAI的科學(xué)家Aditya Ramesh介紹,Sora最早也是從自家的文本到圖像模型DALL-E起步,但卻通過采各家之所長,從而實(shí)現(xiàn)了質(zhì)的飛躍。
Sora生成的視頻畫面
一方面,Sora的創(chuàng)新之處是建立在谷歌DeepMind早先發(fā)表的基礎(chǔ)研究之上。另一方面,它又融合了兩大模型。
傳統(tǒng)的文本到視頻AI采用擴(kuò)散模型(Diffusion Model)。其訓(xùn)練過程或是對一張真實(shí)照片逐步添加噪點(diǎn),變?yōu)榧冊朦c(diǎn)圖片,或是將一張純噪點(diǎn)圖片按照AI的思考“還原”成一張圖片。
而Sora創(chuàng)造性地將這一模型與GPT-4應(yīng)用的Transformer模型原理相結(jié)合,把視頻分解為三維坐標(biāo)系里的一個(gè)個(gè)坐標(biāo)點(diǎn),再通過專門的解碼模型將其生成為視頻圖像,這一方案也被業(yè)界稱為“Diffusion Transformer”(DiT)架構(gòu)。
要想生成連貫或一鏡到底的畫面,就必須先理解事物間相互作用的規(guī)則。
文本到視頻的合成,是一項(xiàng)具有挑戰(zhàn)性的任務(wù),AI模型不僅需要理解文本的含義和上下文,還得處理好視頻的視覺和物理方面內(nèi)容。
基于對現(xiàn)實(shí)世界中物理規(guī)律的理解,人類在看到一幀畫面后腦補(bǔ)前后的場景并不困難,但對于AI而言,要想生成連貫或一鏡到底的畫面,就必須先理解事物間相互作用的規(guī)則—比如明白墨水沾到紙上會出現(xiàn)顏色,風(fēng)吹樹葉會向一側(cè)擺動(dòng)等。
得益于ChatGPT等的成功,AI理解文本方面已經(jīng)有了明顯突破,而視覺和物理一直是AI企業(yè)發(fā)力的方向,直到Sora的出現(xiàn),才算取得了里程碑式的成功。
早前,如Meta推出的“Make-A-Video”,雖可以準(zhǔn)確理解文字意思并生成視頻,但產(chǎn)出的視頻里布滿了如上世紀(jì)80年代早期電視機(jī)上的各種“雪花”與噪點(diǎn);而Runway迭代出的Gen-2模型,已經(jīng)不時(shí)可以制作出質(zhì)量接近大型工作室動(dòng)畫的短片,但持續(xù)時(shí)長和動(dòng)作連貫性也都很難讓人滿意。
直到今年1月,谷歌Lumiere才較好地解決了視頻連貫性問題,讓AI生成的視頻不至于出現(xiàn)類似“威爾·史密斯吃意面”般人類像外星人且五官亂飛的“奇景”。但在時(shí)長方面,Lumiere單段可生成的視頻最多也只有5秒,谷歌解釋稱,這已經(jīng)超過大多數(shù)媒體中的平均鏡頭長度。大多數(shù)媒體中的平均鏡頭長度。
谷歌AI大模型Lumiere
正當(dāng)業(yè)內(nèi)為Lumiere的5秒連貫歡呼時(shí),在DiT架構(gòu)的幫助下,Sora直接將時(shí)長拉到了60秒,而且還能實(shí)現(xiàn)運(yùn)動(dòng)狀態(tài)下的一鏡到底。
在OpenAI發(fā)布的演示視頻中,Sora能熟練運(yùn)用鏡頭語言和處理遮擋,像是經(jīng)過精心剪輯,影片主題也更為明確,更對得起“短片”的稱呼。
在后續(xù)發(fā)布的一則以東京冬日為主題的視頻中,Sora甚至學(xué)會了如何在3D場景中將物體組合在一起—“鏡頭”以俯沖視角進(jìn)入場景,跟隨一對夫婦走過一排商店,還出現(xiàn)了同一場景下的多角度多機(jī)位畫面。
此外,當(dāng)世人的目光都被Sora高質(zhì)量的文本生成視頻能力吸引時(shí),卻忽視了其在視頻方面具備許多明顯甩開競爭對手不止一個(gè)身位的能力:比如支持生成寬屏1920×1080、豎屏1080×1920之間各種分辨率格式的視頻;又如基于現(xiàn)有的靜止圖像生成視頻,還可以向前或者向后“補(bǔ)充”現(xiàn)有視頻內(nèi)容;或按要求改變原有視頻的風(fēng)格。
當(dāng)然,OpenAI公司在宣傳中也坦陳,現(xiàn)在的模型依然存在不少弱點(diǎn),比如可能難以準(zhǔn)確模擬復(fù)雜場景的物理特性,并且可能無法理解因果關(guān)系的具體實(shí)例,使得視頻出現(xiàn)咬了一口餅干但餅干沒有咬痕、吹了蠟燭但燭焰沒有隨風(fēng)擺動(dòng)等情況;
又比如,因?yàn)榛煜崾镜目臻g細(xì)節(jié),難以精確描述隨時(shí)間推移發(fā)生的事件,從而生成出人物穿模、籃球穿過籃筐然后爆炸等詭異畫面。
對此,OpenAI也表示,正努力教人工智能理解和模擬運(yùn)動(dòng)中的物理世界。目前,Sora尚未向公眾開放,除了受招募而來測試AI的志愿者外,只允許數(shù)量有限的藝術(shù)家、設(shè)計(jì)師和電影從業(yè)者使用,并將根據(jù)他們的反饋進(jìn)行調(diào)整。
盡管Sora尚不完美,但依然不妨礙業(yè)界人士稱贊其偉大。英偉達(dá)高級科學(xué)家范麟熙(Jim Fan)將Sora類比成當(dāng)年的ChatGPT-3;紐約大學(xué)計(jì)算機(jī)科學(xué)助理教授謝賽寧則認(rèn)為,Sora將改寫整個(gè)視頻生成領(lǐng)域的游戲規(guī)則。
與大佬們不吝贊賞不同的是,國外媒體在報(bào)道Sora時(shí)所用的措辭相對克制,大多著重提及了Sora的潛在風(fēng)險(xiǎn)。
最顯而易見的是版權(quán)問題。《紐約時(shí)報(bào)》稱,OpenAI拒絕透露該系統(tǒng)從中學(xué)習(xí)了多少視頻或它們來自哪里,只是說訓(xùn)練了包括公開可用的視頻和從版權(quán)所有者那里獲得許可的視頻—而就在去年年底,《紐約時(shí)報(bào)》才以O(shè)penAI在未經(jīng)授權(quán)情況下使用其受版權(quán)保護(hù)的新聞進(jìn)行AI訓(xùn)練為由,提起了訴訟。
今年恰逢美國總統(tǒng)大選年。路透社、《商業(yè)內(nèi)幕》等英美媒體紛紛對Sora可能影響選舉表達(dá)了擔(dān)憂?!稌r(shí)代》周刊稱,人工智能生成的內(nèi)容可能被用來錯(cuò)誤地影響選舉,或以其他方式在世界范圍內(nèi)播下混亂;而《每日郵報(bào)》則表示,Sora為代表的AI工具,能讓別有用心之人更容易制造“深度偽造”視頻。
限制AI發(fā)展的考量,不僅僅來自技術(shù)本身,同樣在于技術(shù)倫理層面。對于超級英雄而言,是能力越大責(zé)任越大;對于“超級AI”來說,則是能力越大,由此引發(fā)的擔(dān)憂也就越大。
年初,在世界經(jīng)濟(jì)論壇上發(fā)布的《2024年全球風(fēng)險(xiǎn)報(bào)告》中,也將人工智能產(chǎn)生的錯(cuò)誤信息和虛假信息,列為世界面臨的最重大風(fēng)險(xiǎn)之一。
在AI浪潮席卷之下,即便是名人也難以獨(dú)善其身。不久前,用深度偽造技術(shù)生成的流行歌手泰勒·斯威夫特不雅照片與視頻瘋傳網(wǎng)絡(luò)。
連美國總統(tǒng)拜登也不能幸免?!都~約時(shí)報(bào)》稱,有成千上萬的選民收到了用AI制作出的“克隆”拜登聲音,指導(dǎo)他們?nèi)绾瓮镀薄?p>
Sora生成的視頻畫面
現(xiàn)在的模型依然存在不少弱點(diǎn),比如可能難以準(zhǔn)確模擬復(fù)雜場景的物理特性。
對于層出不窮的AI模型,美國似乎也沒有很好的處理方式,往往只能一禁了之,現(xiàn)已有十幾個(gè)州以法令形式,限制人工智能在政治廣告中的使用。美國聯(lián)邦貿(mào)易委員會也在Sora發(fā)布后的2月15日提議修改規(guī)則,禁止使用AI工具冒充人類。
而在中國,已有不少人開始蹭起了Sora的流量,或是借機(jī)兜售AI課程,或是販賣根本不存在的Sora內(nèi)測權(quán)限和使用手冊。知識社群應(yīng)用軟件“知識星球”上更是一夕之間出現(xiàn)了多個(gè)與Sora相關(guān)的社群,其中不少需要付費(fèi)才能加入。
與亂象相伴的,是對Sora想象力的匱乏。大部分媒體在談及Sora的影響時(shí),往往只局限于影視、游戲、內(nèi)容創(chuàng)作等與視頻強(qiáng)相關(guān)的領(lǐng)域,用類似“現(xiàn)實(shí)不存在”“端掉行業(yè)飯碗”之類聳人聽聞的標(biāo)題,制造著焦慮,收割著流量,而未能看到Sora的潛力,頗有買櫝還珠之感。
就像十多年前談及4G不該僅考慮網(wǎng)速、討論智能手機(jī)不該只探討對通信行業(yè)的影響一樣,從技術(shù)層面來看,Sora能帶給這個(gè)世界的驚喜或許遠(yuǎn)不止視頻。
360集團(tuán)創(chuàng)始人周鴻祎在社交媒體上表示,Sora對物理世界的模擬,能幫助AI更好地理解物理世界,從而對自動(dòng)駕駛行業(yè)產(chǎn)生積極影響。這一觀點(diǎn)旋即遭到Meta首席AI科學(xué)家楊立昆“隔空反駁”—后者認(rèn)為,如果Sora只是為了生成視頻,這沒什么問題,但如果其目的是了解世界如何運(yùn)作,那就是一個(gè)失敗的方法。
盡管尚未有定論,但雙方的這番“交鋒”,顯然讓世界看到了Sora的更多可能。太陽底下無新事,當(dāng)以山姆·奧特曼為代表的程序員為世界打開了名為AI的潘多拉魔盒,類似的討論此后還將重復(fù)無數(shù)次。
責(zé)任編輯吳陽煜 wyy@nfcmag.com