榮智慧
必須承認,目前的AI只有一位主角,OpenAI。
它的聊天機器人ChatGPT,不上法學院就通過了律師資格考試?,F(xiàn)在,它的最新模型Sora,不上電影學院就有希望拿到奧斯卡獎。
Sora于2月16日上線,根據(jù)文本提示,可創(chuàng)建長達一分鐘的逼真視頻。這些視頻呈現(xiàn)“多個角色,特定類型的動作,以及充滿細節(jié)的復雜場景”。
現(xiàn)在Sora還沒有開放使用,未來會提供給“數(shù)量有限的創(chuàng)作者”,售價應該不便宜。
Sora面世后,如ChatGPT一樣刷屏全球媒體。
OpenAI首席執(zhí)行官山姆·奧特曼熱情接受網(wǎng)友“點單”,在X上放送多個Sora繪制的精美視頻??萍冀绱罄袟盍⒗?、賈揚清、Jim Fan、謝賽寧、周鴻祎、李志飛等人競相評論,馬斯克直接感慨“人類愿賭服輸”。
OpenAI的獨角戲時代,對普通人而言是技術平權的好事,對AI從業(yè)者來說卻是沉重的壓迫。最高興的是誰呢?造芯片的。
Sora得名于日語“天空”一詞。研究團隊成員蒂姆·布魯克斯和比爾·皮布爾斯介紹,選擇這個名字,是因為它能“喚起無限的創(chuàng)造潛力”。
官方網(wǎng)站貼出了Sora創(chuàng)作的東京街頭視頻?!懊利惖?、白雪皚皚的東京市,鏡頭穿過熙熙攘攘的城市街道,跟隨幾名行人享受美妙的雪天,有人在路邊小攤購物。絢麗的櫻花與雪花一起在風中飛舞。”
另一個視頻根據(jù)如下提示詞產(chǎn)生“:幾只巨大的、毛茸茸的猛犸象,踩著白雪皚皚的地面走近,風吹動它們身上的長長毛發(fā),遠處是白雪覆蓋的高大樹木和雄偉山脈,午后的光線營造出溫暖的光芒?!?/p>
有了提示詞,Sora就“知道”如何用鏡頭語言講故事。
比爾·皮布爾斯用一個“海洋視頻”舉例,該視頻根據(jù)“一個華麗的珊瑚礁世界”等描述創(chuàng)建,畫面充斥著五顏六色的魚類和海洋生物。Sora通過變化攝像機的角度和進程,創(chuàng)造出了“敘事節(jié)奏”。
“實際視頻里有多個鏡頭變化—這些變化不是拼接在一起的,而是由模型一次性生成的,”皮布爾斯說,“我們沒有告訴它這樣做,它自動這樣做的?!?/p>
Sora最令人吃驚的本事,就是沒有經(jīng)過訓練而自行創(chuàng)造的能力。
Sora模型基于Transformer架構,建立在DALL·E 3和GPT模型之上,這是OpenAI綜合利用自家前沿技術方面的又一次突破。它有三大核心特點,“60秒超長長度”“單視頻多角度鏡頭”,以及“世界模型”,一舉打敗所有同類競品。
在此之前,AI視頻生成領域的明星產(chǎn)品Runway和Pika,只能做3秒或4秒長的模糊視頻,角色形象也很扭曲,還得用戶輸入圖片—受技術水平所限。
像YouTube火爆的AI視頻迷因“威爾史密斯吃面條”,用網(wǎng)友的話說“完美地用視覺效果傳達出洛夫克拉夫特式恐怖”—人物面目猙獰,看了一宿睡不著覺。
而Sora達到了驚人的高清照片級真實感,“運鏡”手法更令人難忘—圍繞同一主體實現(xiàn)遠景、中景、近景、特寫等不同鏡頭的切換。
雖然“東京街頭飄雪”視頻里,兩個角色走著走著就要走進死胡同;“猛犸象”視頻里,前頭兩只猛犸象有點“順拐”;“戴墨鏡的時髦女子”左手拇指比例不對;被咬了一口的餅干沒有牙印……但Sora的整體視覺呈現(xiàn)效果依然無可匹敵。
Sora發(fā)布的同一天,谷歌DeepMind推出Gemini 1.5 Pro,幾乎沒搶到什么眼球。去年大火的Stability AI也發(fā)布了新視頻模型SVD1.1,自覺“技不如人”,又火速刪除了該條官方推文。
跟一年多以前橫空出世的ChatGPT一樣,OpenAI的秘訣一直是屢試不爽的Scaling Law(縮放定律)。只要模型足夠“大”,根據(jù)特定算法,就會產(chǎn)生智能“涌現(xiàn)”的能力。
當然,一般的機構和公司,也沒有能力達到OpenAI的水平。別小看“大力出奇跡”,前提是你得有那么“大力”。
Sora模型基于Transformer架構,建立在DALL·E 3和G P T模型之上,這是OpenAI綜合利用自家前沿技術方面的又一次突破。
Sora是一種AI模型,使用文本到視頻的合成技術,按文本提示生成視頻。這種技術將自然語言轉換為視覺表示形式—圖像或視頻。
深度神經(jīng)網(wǎng)絡依然是Sora的基礎,它是一個帶有Transformer骨架的擴散(Diffusion)模型,AI從數(shù)據(jù)中學習并執(zhí)行復雜的任務。Sora就是從“學習”的大型視頻數(shù)據(jù)集里學會了各種風格、主題和流派。
Transformer模型本質(zhì)是一個“編碼器-解碼器”,輸入原始語言,生成目標語言。擴散模型的原理是先給數(shù)據(jù)添加高斯噪聲,再反向去除,從中恢復數(shù)據(jù)本貌。
簡單粗暴地理解Sora的原理,就是翻譯器+搜索引擎+概率制作(內(nèi)容)。
首先,拿到提示詞后,Sora先分析文本,提取關鍵字,比如主題、動作、地點、時間和情緒,再從它的數(shù)據(jù)集里搜索與關鍵字匹配的、最合適的視頻。
其次,Sora將數(shù)據(jù)集里合適的視頻混合在一起,重新創(chuàng)建一個符合要求的視頻。在“創(chuàng)造”的過程中,它要“知道”場景中有哪些對象和角色,它們的外形,它們?nèi)绾芜\動,對象如何交互,以及受到環(huán)境影響后如何表現(xiàn)。
根據(jù)用戶的喜好,Sora會修改視頻的風格。假如用戶想要一個35毫米膠片樣式的視頻,Sora會調(diào)整效果,更改圖像的亮度、色彩和攝像機角度。這一點和MidJourney等“文生圖”應用類似。
Sora可以生成分辨率1920x1080的視頻。它也可以基于靜止圖片創(chuàng)建視頻,使用新素材擴展現(xiàn)有素材。比如用戶給它一張森林圖片,它可以幫你加上鳥、獸、人。給它一張汽車行駛圖,它能加上道路、交通燈、沿途建筑物和風景。
“補丁”是新方法,類似于ChatGPT里的Token—較小數(shù)據(jù)單元的集合。“補丁”疊加在一起,湊成完整內(nèi)容。
“世界模型”這一核心特點,代表了文本生成視頻領域的最高級研究方向:通過對真實物理世界的模擬,世界模型讓計算機像人類一樣全面、準確地“認知”世界。其最根本意義就是“言出法隨”—你說什么,世界就是什么。
世界模型最早由圖靈獎得主、Meta首席科學家楊立昆(Yann LeCun)2023年6月提出。2023年12月,Runway宣布建造“通用世界模型”,用生成式AI模擬整個世界。
然而,“果子”還是讓OpenAI摘到了。
Sora面世后,楊立昆的看法值得思考。他發(fā)帖說,連接主義是有問題的,符號主義更有前途。意思就是重數(shù)據(jù)量和網(wǎng)絡規(guī)模、輕抽象表示和物理結構是不行的;要反過來。
因為模型要學習符號邏輯和物理意義,才能進一步理解因果,理解物理現(xiàn)實,否則長視頻上一定“露餡兒”。
有Sora的能力,何愁“元宇宙”遙遙無期?
《頭號玩家》的世界近在眼前:帶上蘋果Vision Pro,打開支持8K視頻的Sora應用,想象一個美好的場景,生成白日夢,然后成癮。
Sora也讓電視劇《黑鏡》里《Joan Is Awful》一集變?yōu)楝F(xiàn)實。女主角發(fā)現(xiàn)自己的生活與電視劇驚人相似。隨著情節(jié)推進,她逐漸揭露真相,一個根據(jù)觀眾個性、喜好及生活經(jīng)歷生成的復雜系統(tǒng),已經(jīng)滲入普通人的生活。
隨著Sora技術的更新和應用,新的娛樂時代近在眼前。所有的文化產(chǎn)品都不再是單向度的敘述和輸出,而是能反應、適應每一位觀眾獨特偏好的互動“游戲”。
當人工智能越發(fā)顯現(xiàn)出無所不能的力量之時,基于人類作為社群而不僅僅是種群的生命經(jīng)驗、社會經(jīng)驗提出問題,解決問題,仍然是我們“老調(diào)重彈”的挽尊之道。
如今,從業(yè)者們眼巴巴看著黃仁勛、奧特曼呼風喚雨,無處排遣“濃濃的科技主義階級壓迫感”—找到自己的機會,也變得越來越難。
不過,在強調(diào)“想象力奪權”之前,最緊張的反而是芯片制造商:視頻模型的競爭和語言模型相差不遠,先是拼團隊的工程化調(diào)參能力,最后就是拼算力。
就在OpenAI首席執(zhí)行官奧特曼開口“7萬億美元造芯片”前后,AI芯片賽道人滿為患。
AI芯片傳統(tǒng)三巨頭里,占有98%市場份額的英偉達,憑借近年人工智能的東風,2月23日,市值達到1.96萬億美元,超越亞馬遜和谷歌。AMD和英特爾還在緊追不舍。
Meta于2月公布最新的自研定制芯片計劃。2月17日,軟銀集團創(chuàng)始人孫正義宣布籌措1000億美元,成立AI芯片企業(yè),以便與前幾年收購的芯片設計公司ARM互補。
據(jù)The Information統(tǒng)計,截至目前,全球有超過18家用于AI大模型訓練和推理的芯片設計初創(chuàng)公司,包括Cerebras、Graphcore、壁仞科技、摩爾線程、d-Matrix等,融資總額已超過60億美元,企業(yè)整體估值共計超過250億美元。背后的投資方包括紅杉資本、OpenAI、五源資本、字節(jié)跳動等。
各家爭先“造芯”,最引人注目的還是OpenAI。
去年,CEO奧特曼就開始為代號Tigris的芯片制造項目籌錢,當時號稱要籌集100億美元,希望生產(chǎn)出類似谷歌TPU、英偉達H100等芯片。2023年9月,OpenAI還招募了搞軟硬件協(xié)同的著名牛人Andrew Tulloch。
2024年1月,奧特曼到訪韓國,會見韓國三星電子和SK海力士高管,尋求芯片領域的合作。2月,奧特曼被曝出與阿聯(lián)酋政府談判,計劃籌集“7萬億美元”。
AI時代出寡頭。
以前做技術,參與者總有身處浪潮之中的感覺。如今,從業(yè)者們眼巴巴看著黃仁勛、奧特曼呼風喚雨,也眼巴巴看著投資越來越天文數(shù)字,模型數(shù)據(jù)量也越來越天文數(shù)字,無處排遣“濃濃的科技主義階級壓迫感”—找到自己的機會,也變得越來越難。