◎陳寧
近期,OpenAI 又推出一款“王炸”大模型“Sora”。作為OpenAI 首次推出的視頻模型,可以根據(jù)用戶輸入的提示詞生成長達60 秒的高清視頻,盡管還未正式公開使用,但已經(jīng)引發(fā)全行業(yè)熱議。Sora 是否會成為一種新生產(chǎn)方式?國內(nèi)同類大模型發(fā)展到哪一步?記者采訪了上海人工智能行業(yè)協(xié)會秘書長鐘俊浩,聽聽專家的觀點。
白雪皚皚的城市街頭,人們走在熙熙攘攘的城市街道上,街道一側是布局整齊的商店,商店對面設立著一排售賣小吃、工藝品的小攤,行進到“鏡頭前”的女士,對著“鏡頭”微微一笑……這是OpenAI 公布的一段案例視頻所呈現(xiàn)的畫面,也是這家科技公司首次進軍人工智能視頻生成領域的初步成果展示。
不過,Sora 并非全球首個文本生成視頻的大模型。據(jù)不完全統(tǒng)計,截至去年底,全球范圍內(nèi)能實現(xiàn)文生視頻的大模型已超過20 個產(chǎn)品。
從國內(nèi)看,和去年ChatGPT 橫空出世時的情景一樣,國內(nèi)科技巨頭也相繼透露同類產(chǎn)品的研發(fā)進度。字節(jié)跳動稱,在Sora 引爆文生視頻賽道之前,已經(jīng)在研發(fā)“中文版Sora”:一款名為Boximator 的創(chuàng)新性視頻模型。不過,目前這款模型仍然處于研發(fā)階段,預計將在2~3 個月內(nèi)發(fā)布測試網(wǎng)站。也有一些公司正在進行從一張圖到另一張圖,生成中間視頻的大模型產(chǎn)品研發(fā),比如上海人工智能行業(yè)協(xié)會推進的人工智能企業(yè)孵化器——AI 驛站的企業(yè)里的小冰公司、筆墨AI 等。
不過,總體而言,這些產(chǎn)品與Sora 相比,還存在不小的差距。“Sora 克服了很多技術難題,目前已經(jīng)代表了文生視頻的最高水平?!鄙虾J腥斯ぶ悄苄袠I(yè)協(xié)會秘書長鐘俊浩向記者從技術角度分析,Sora 的“王炸”能力體現(xiàn)在四個方面:視頻壓縮網(wǎng)絡、用于視頻生成的ScalingTransformers(數(shù)據(jù)變壓器)、語言理解、世界模型和涌現(xiàn)的模擬能力。
進一步解釋就是,Sora 的訓練依賴于大量帶有文本標題的視頻數(shù)據(jù)。OpenAI 利用了DALL-E3 中的標題生成技術,為視頻生成高質(zhì)量的文本標題,以此來提高文本和視頻數(shù)據(jù)之間的對齊度。同時,在大規(guī)模訓練過程中,Sora展示了一些“涌現(xiàn)的模擬能力”,如三維一致性、長距離連貫性、物體持久性以及與世界互動等。這些能力表明,Sora 能夠在一定程度上模擬物理世界和數(shù)字世界中的人物、動物和環(huán)境。
Sora 引燃全行業(yè),各路大佬也紛紛開麥。日前,360 創(chuàng)始人周鴻祎發(fā)微博稱,Sora 的誕生意味著AGI(通用人工智能)的實現(xiàn)可能從10 年縮短至兩年左右。他表示:“有了大模型技術作為基礎,再加上人類知識的引導,可以創(chuàng)造各個領域的超級工具。”
他的“發(fā)言”,也引發(fā)人們對AI 是否會顛覆現(xiàn)實生活和傳統(tǒng)行業(yè)的擔憂。一名廣告公司負責人告訴記者,AI 對于廣告行業(yè)而言的確是一個巨大的轉(zhuǎn)折點?!斑^去制作視頻廣告的成本非常高,通常只有大品牌才能承擔,如今Sora模型為中小企業(yè)提供了制作視頻廣告的新機遇?!?/p>
不少專家也認為,現(xiàn)階段“Sora 將顛覆行業(yè)”的觀點過于極端?!癝ora 讓人感到震撼,是因為AI 的發(fā)展速度遠超過大家的預期,但并不是說短時間內(nèi)Sora 能形成生產(chǎn)力?!辩娍『票硎?,影視行業(yè)和游戲行業(yè)都是高度依賴創(chuàng)意、情感投入和人類故事講述的領域?!癆I 視頻生成技術雖然可以在某些方面提供幫助,比如降低制作成本、加速內(nèi)容生成,甚至在某些情境下提供創(chuàng)意靈感,但它們目前還不能完全替代人類在創(chuàng)作過程中的獨特視角和情感深度?!?/p>
他預計,Sora 和類似技術將不會立即顛覆影視和游戲行業(yè),而是逐漸成為這些行業(yè)中的一種強大賦能工具。但這個過程將是漸進的,需要技術、創(chuàng)意和社會的共同發(fā)展。Sora 的角色更多的是賦能創(chuàng)作者,而不是替代他們,為他們提供實現(xiàn)創(chuàng)意愿景的新途徑。
Sora 逼真的視覺效果、碾壓級的性能提升,在震撼整個科技圈之余,也出現(xiàn)了“為什么又一個AI 元創(chuàng)新沒能發(fā)生在中國”的聲音。
鐘俊浩認為,OpenAI 目前在競爭力上一騎絕塵,中國要在AI 領域追趕,首先依然靠人才,鼓勵行業(yè)高密度聚集,避免人才分散,也避免智能算力等稀缺資源的分散。上海作為人工智能發(fā)展高地,也應該發(fā)揮全產(chǎn)業(yè)鏈生態(tài)優(yōu)勢,鼓勵行業(yè)結合,尤其是在智能制造、機器人等領域,整合不同行業(yè)的技術和市場資源。同時,鼓勵相關企業(yè)、研究機構和教育機構在特定區(qū)域聚集,以促進知識共享、人才流動和資源高效利用。通過政策引導和資源配置,集中力量攻克關鍵技術難題。
與此同時,掌握與AI 相關的技能,并非業(yè)內(nèi)人士的“專題”。浙江大學人工智能研究所所長吳飛注意到,這次OpenAI 公布的Sora 合成視頻所對應的提示詞寫得很精彩,具有生動的細節(jié)感,因此他指出,善于提出問題、設計內(nèi)容以及使用工具是每個人在從信息化時代邁向數(shù)智化時代需要不斷加強的能力。
在科技領域顛覆式創(chuàng)新不斷涌現(xiàn)的情況下,如何實現(xiàn)擁抱技術進步和確保社會安全的平衡,越來越受到各界關注。鐘俊浩表示,AI 模型在訓練過程中需要消化和分析大量數(shù)據(jù)。如果這些數(shù)據(jù)中包含個人信息,并且在生成的內(nèi)容中無意中泄露,就可能導致隱私問題。另一方面,AI 技術能夠生成逼真的文本、圖像和視頻,這可能會被用于制造假新聞、虛假信息,對社會造成誤導和混亂。
鐘俊浩還提醒道,在國內(nèi)要注意正確使用通過國家網(wǎng)信辦備案的模型。2 月18 日國家網(wǎng)信辦發(fā)布公告,根據(jù)《互聯(lián)網(wǎng)信息服務深度合成管理規(guī)定》,公開發(fā)布了第四批境內(nèi)深度合成服務算法備案信息。
另外,用戶在使用Sora 等工具時,為進行內(nèi)容生成,需要主動輸入人機交互數(shù)據(jù),例如輸入提問內(nèi)容或提示詞,可能被用于人工智能訓練,這些數(shù)據(jù)中也可能包含用戶自身或其他自然人的個人信息。因此,要格外注意數(shù)據(jù)來源的合法性,以及警惕敏感信息泄露。
對話AI
【編者按】 與其紙上談兵,不如與AI 交交手。支持勞動者多渠道靈活就業(yè)是今年兩會的熱門話題之一。當下,應該如何保護靈活就業(yè)群體的勞動權益呢?《上海工運》問計于AI,我們希望通過這種方式,同讀者一起開展一場有關AI 的創(chuàng)新之旅。本文由“文心一言(文心大數(shù)據(jù)模型3.5)”在十五秒內(nèi)生成后,由編輯校對加工而成。AI 回答的內(nèi)容結構性較強,語句較通順,但在內(nèi)容上還有待進一步通過精準提問和訓練,以獲得更深入的探討結果。
保護靈活就業(yè)群體的勞動權益,是當下社會發(fā)展的重要議題。隨著新業(yè)態(tài)、新模式的不斷涌現(xiàn),越來越多的勞動者選擇靈活就業(yè),如網(wǎng)絡主播、家政服務、兼職教師等。然而,靈活就業(yè)者在享受工作自由的同時,也面臨著勞動權益保障不足的困境。
當前,一些靈活就業(yè)者由于勞動關系模糊、流動性強,其勞動權益往往難以得到保障。例如,一些外賣員、快遞員等,他們每天辛勤工作,卻往往面臨收入不穩(wěn)定、缺乏社保保障等問題。這不僅影響了他們的生活質(zhì)量,也制約了靈活就業(yè)市場的健康發(fā)展。
保護靈活就業(yè)群體的勞動權益,需要政府、社會、企業(yè)等多方共同努力。政府應完善相關法律法規(guī),明確靈活就業(yè)者的法律地位,為他們提供基本的勞動權益保障;探索建立適合靈活就業(yè)者的社會保險繳費機制。同時,企業(yè)也應承擔起社會責任,與靈活就業(yè)者簽訂規(guī)范的勞動合同,確保他們的合法權益不受侵害。
總之,保護靈活就業(yè)群體的勞動權益,不僅是維護社會公平正義的必然要求,也是推動經(jīng)濟持續(xù)健康發(fā)展的重要保障。我們應積極關注這一群體的權益保護問題,共同為他們創(chuàng)造一個更加公平、正義的就業(yè)環(huán)境。