摘要
Sora模型標(biāo)志著向構(gòu)建全面模擬物理世界前進(jìn)的一大步,展示了生成式人工智能在現(xiàn)實(shí)復(fù)刻上的深遠(yuǎn)能力。該模型的推出不僅開啟了視覺敘事的新篇章,而且能夠把抽象的想象力轉(zhuǎn)換成動(dòng)態(tài)的視覺呈現(xiàn),實(shí)現(xiàn)了將文字的精髓轉(zhuǎn)化為視覺藝術(shù)的過(guò)程。在這個(gè)由數(shù)字技術(shù)和算法驅(qū)動(dòng)的時(shí)代,Sora正重新塑造著人類與數(shù)字世界之間的互動(dòng)關(guān)系。本文以Sora為代表的大模型為例,探討文生視頻技術(shù)的出現(xiàn)在眾多創(chuàng)意領(lǐng)域的革命性潛力,包括電影、短視頻、微劇乃至新聞傳播等多個(gè)行業(yè)。然而,對(duì)人工通用智能(AGI)的追求往往伴隨著嚴(yán)峻的倫理風(fēng)險(xiǎn),包括深度偽造內(nèi)容的增多、對(duì)人權(quán)的潛在威脅、技術(shù)濫用的風(fēng)險(xiǎn)以及對(duì)知識(shí)產(chǎn)權(quán)保護(hù)的挑戰(zhàn),誘發(fā)人們進(jìn)行關(guān)于技術(shù)應(yīng)用反思的討論,并審視技術(shù)進(jìn)步對(duì)社會(huì)價(jià)值觀和認(rèn)知框架的影響。為確保技術(shù)應(yīng)用的長(zhǎng)期持續(xù)性和負(fù)責(zé)任的進(jìn)展,確保所生成內(nèi)容的準(zhǔn)確性和完整性顯得尤為關(guān)鍵。
關(guān)鍵詞
Sora 生成式人工智能 倫理風(fēng)險(xiǎn)
自2022年11月ChatGPT發(fā)布以來(lái),AI技術(shù)的興起象征著一次深刻的變革,它不僅重塑了人機(jī)互動(dòng)模式,而且深度融入日常生活和各行各業(yè)的方方面面[1]?;谶@一勢(shì)頭,OpenAI于2024 年2月發(fā)布了Sora,一款能夠根據(jù)文本提示生成視頻(Text to Video,T2V)的先進(jìn)AI模型。這些視頻既可以是現(xiàn)實(shí)場(chǎng)景,也可以是想象中的場(chǎng)景。與之前的視頻生成模型相比,Sora的特點(diǎn)是能夠生成長(zhǎng)達(dá)1分鐘的高質(zhì)量視頻,同時(shí)保持對(duì)用戶文本指令的遵守[2]。Sora模型的卓越性能體現(xiàn)在其能夠構(gòu)建細(xì)致入微的場(chǎng)景,包括多個(gè)角色在復(fù)雜背景下的特定動(dòng)作,以及人物與場(chǎng)景元素和攝像機(jī)運(yùn)動(dòng)的一致性模擬。此外,Sora能夠有效地模擬物理世界的互動(dòng),實(shí)現(xiàn)不同主題和場(chǎng)景之間的無(wú)縫過(guò)渡,并且能夠在視頻風(fēng)格和環(huán)境之間進(jìn)行轉(zhuǎn)換,甚至實(shí)現(xiàn)視頻內(nèi)容的時(shí)間延伸,即視頻的“續(xù)寫”。Sora不僅能夠從文本生成視頻,還能通過(guò)圖像和現(xiàn)有視頻資料生成新視頻,同時(shí)具備文本到圖像(Text to Image)的生成功能。Sora的技術(shù)進(jìn)步得益于深度學(xué)習(xí)(Deep Learning)、擴(kuò)散模型(Diffusion Models)和多模態(tài)變換器(Multimodal Transformers)等先進(jìn)技術(shù)的綜合運(yùn)用[3]。其創(chuàng)新之處在于將這些復(fù)雜的技術(shù)集成在一個(gè)模型中,實(shí)現(xiàn)從簡(jiǎn)單文本到復(fù)雜視頻的直接轉(zhuǎn)換,標(biāo)志著T2V技術(shù)的重大進(jìn)展。
Sora所創(chuàng)作的內(nèi)容被喻為“真實(shí)世界的模擬器”,其對(duì)物理世界的精確模擬展示了對(duì)現(xiàn)實(shí)世界規(guī)則的深刻理解和再現(xiàn)。這種全方位的模擬不僅僅是對(duì)現(xiàn)實(shí)世界各種要素的挖掘和重組,更是對(duì)人類與客觀經(jīng)驗(yàn)世界之間媒介角色的一次重新審視。Sora大模型作為未來(lái)媒介的濫觴,預(yù)示著數(shù)字文明的新范式,將重新定義對(duì)“真實(shí)”的認(rèn)知。本文旨在探討Sora這一視頻生成模型的出現(xiàn),將如何影響影視、短劇和傳媒行業(yè)的發(fā)展。在這一過(guò)程中,筆者將深入分析Sora技術(shù)的應(yīng)用前景,以及它可能帶來(lái)的倫理挑戰(zhàn),包括但不限于虛假信息的傳播、個(gè)人隱私的侵犯以及道德責(zé)任的模糊界限。通過(guò)對(duì)這些問題的探討,可以更好地理解Sora技術(shù)的雙刃劍特性,以及它在未來(lái)社會(huì)中的角色和影響。
一、Sora對(duì)影視、短視頻產(chǎn)業(yè)影響幾何?
每一次技術(shù)的進(jìn)步,都會(huì)引發(fā)人類社會(huì)對(duì)既有規(guī)則的擔(dān)憂。依賴文生視頻大模型,Sora最先改變的極有可能就是影視行業(yè)的游戲規(guī)則。此次 Sora 憑借其卓越的文本理解和視頻生成能力,已經(jīng)顛覆了人們對(duì)影視制作的傳統(tǒng)認(rèn)知。從文生圖、文生文,到文生視頻能力的進(jìn)階、迭代,這一技術(shù)將如何重塑影視行業(yè)的生產(chǎn)模式和創(chuàng)作關(guān)系?
(一)技術(shù)突破與創(chuàng)作自由的交匯
在傳統(tǒng)影視制作中,創(chuàng)作電影杰作是一個(gè)艱巨而昂貴的過(guò)程,往往需要數(shù)年的努力、尖端的設(shè)備以及大量的投資。以技術(shù)含量最高的科幻電影為例,《流浪地球》的特效制作耗時(shí)兩年多,最終完成了超過(guò)2000個(gè)特效鏡頭。據(jù)報(bào)道,電影預(yù)算高達(dá)5000萬(wàn)美元,其中相當(dāng)一部分用于后期特效制作。然而,先進(jìn)的視頻生成技術(shù)出現(xiàn)預(yù)示著電影制作新時(shí)代正在到來(lái),從簡(jiǎn)單的文本輸入中自主制作電影的夢(mèng)想正在成為現(xiàn)實(shí)。MovieFactory應(yīng)用擴(kuò)散模型從ChatGPT精心制作的腳本中生成電影風(fēng)格的視頻,這是一個(gè)重大的飛躍。Mobile VidFactory更是能夠根據(jù)用戶提供的簡(jiǎn)單文字自動(dòng)生成垂直移動(dòng)視頻??梢韵胂?,隨著大模型技術(shù)的進(jìn)一步應(yīng)用,特效制作的時(shí)間有望從數(shù)月縮短至數(shù)天,這將極大地降低電影拍攝的時(shí)間成本和技術(shù)門檻,為電影制作帶來(lái)新的維度,將傳統(tǒng)的敘事藝術(shù)與AI驅(qū)動(dòng)的創(chuàng)造力相結(jié)合。
盡管Sora目前僅能生成最長(zhǎng)一分鐘的視頻,這一限制在一定程度上減少了其在內(nèi)容創(chuàng)作上的靈活性。對(duì)于90分鐘左右的電影而言,無(wú)疑對(duì)Sora計(jì)算能力的精細(xì)程度、素材庫(kù)存儲(chǔ)的豐富程度提出了極高的要求。然而,對(duì)于短劇行業(yè)而言,一分鐘的視頻長(zhǎng)度恰好符合微短劇的市場(chǎng)需求。據(jù)艾媒咨詢《中國(guó)網(wǎng)絡(luò)微短劇市場(chǎng)規(guī)模的研究報(bào)告》顯示,2023 年短劇市場(chǎng)規(guī)模已達(dá)到373.9億元,兩年內(nèi)增長(zhǎng)了近10倍,接近百年電影市場(chǎng) 549.2億規(guī)模的70%[4]。在短視頻和自媒體等社交平臺(tái)競(jìng)爭(zhēng)激烈的當(dāng)下,Sora能夠迅速生成與熱點(diǎn)相關(guān)的視頻內(nèi)容,確保時(shí)效性,從而在流量競(jìng)爭(zhēng)中占得先機(jī)。
(二)加速“視頻化社會(huì)”新生態(tài)進(jìn)程
隨著數(shù)字技術(shù)的不斷進(jìn)步,人類正見證著一場(chǎng)從文字主導(dǎo)到視頻主導(dǎo)的媒介轉(zhuǎn)型,這一轉(zhuǎn)變標(biāo)志著“視頻化社會(huì)”的發(fā)軔。在這一社會(huì)形態(tài)中,影視作品,尤其是短視頻成為當(dāng)下不可或缺的思想表達(dá)方式和信息傳遞載體。根據(jù)《2023中國(guó)網(wǎng)絡(luò)視聽發(fā)展研究報(bào)告》顯示,近四分之一新網(wǎng)民因短視頻觸網(wǎng),短視頻“納新”能力遠(yuǎn)超即時(shí)通信。新入網(wǎng)的網(wǎng)民中,24.3%的人第一次上網(wǎng)時(shí)使用的是短視頻應(yīng)用,與其他應(yīng)用拉開較大距離[5]。這一現(xiàn)象不僅證明了短視頻作為媒介的吸引力,也暗示了其在社會(huì)傳播中的潛在主導(dǎo)地位。但是,與文字相比,視頻的通用性還處在始發(fā)階段,遠(yuǎn)未成為社會(huì)主導(dǎo)媒介[6]。ChatGPT等生成式人工智能技術(shù)通過(guò)深刻變革文本處理方式,打破了傳統(tǒng)信息處理的邊界,而Sora模型的出現(xiàn)則是降低視頻內(nèi)容創(chuàng)作門檻的一個(gè)里程碑,顯著提高了視頻媒介的通用性和可達(dá)性。Sora的推出,促進(jìn)了可視化媒介空間的構(gòu)建,這一空間與現(xiàn)實(shí)世界相互作用和影響,進(jìn)一步深化了虛擬與現(xiàn)實(shí)的交織,使得人類社會(huì)變成一個(gè)“現(xiàn)實(shí)—虛擬”連續(xù)體,其中視頻起著關(guān)鍵的作用[7]。
此前孵化過(guò)爆火虛擬形象“柳葉熙”的創(chuàng)壹科技,在2024年1月上線了短劇新作《柒兩人生》。該劇90分鐘的總時(shí)長(zhǎng)中,有60%的內(nèi)容采用了虛擬制片技術(shù),上線不到 2 小時(shí)便迅速?zèng)_上熱搜,并在抖音平臺(tái)上獲得了高達(dá)4.2億次的播放量。這一現(xiàn)象不僅體現(xiàn)了虛擬制片技術(shù)的潛力,也預(yù)示了該技術(shù)在未來(lái)娛樂產(chǎn)業(yè)中的發(fā)展趨勢(shì)。更重要的是,以Sora為代表的視頻大模型的出現(xiàn)極大地打破了元宇宙發(fā)展的核心桎梏,為元宇宙等前沿領(lǐng)域的未來(lái)發(fā)展描繪出了充滿無(wú)限可能的美好藍(lán)圖。生成式人工智能技術(shù)的快速發(fā)展正在深刻地重塑視頻作品的媒介特性,推動(dòng)著“視頻化社會(huì)”向更深層次的演進(jìn)。隨著這一進(jìn)程的加速,可以預(yù)見視頻將成為連接個(gè)體、社群乃至整個(gè)社會(huì)的關(guān)鍵紐帶,其在教育、娛樂、商業(yè)等領(lǐng)域的應(yīng)用將更加廣泛和深入。
(三)游走在深度偽造與創(chuàng)新的邊緣
2024年2月9日上線的Netflix新劇《殺人者的難堪》運(yùn)用AI換臉技術(shù),創(chuàng)造出與主演孫錫久極為相似的童年角色,從五官細(xì)節(jié)到整個(gè)人的氣質(zhì),和孫錫久本人如同復(fù)制粘貼一般。觀眾紛紛表示“就算是親生的,都生不出這么像的?!边@一運(yùn)用不僅展示了AI在影視制作中的巨大潛力,也引發(fā)了關(guān)于AI技術(shù)使用的倫理討論。與 AI換臉技術(shù)相比,“文生視頻”的Sora表現(xiàn)得更為簡(jiǎn)單粗暴,其對(duì)倫理觀念、對(duì)真實(shí)的理解乃至法律制度提出了更為嚴(yán)峻的挑戰(zhàn)。
在生成式人工智能的背景下研究虛假信息至關(guān)重要,因?yàn)橄冗M(jìn)的人工智能算法已經(jīng)日益成為生成和檢測(cè)欺騙性信息的工具[8]。Sora等先進(jìn)的人工智能視頻生成工具,已經(jīng)將深度偽造(Deep Fake)技術(shù)推向了一個(gè)新的高度,即所謂的“真實(shí)偽造”(Real Fake),創(chuàng)造出一種新的現(xiàn)實(shí)感知:在這種現(xiàn)實(shí)中,觀眾難以區(qū)分何為真實(shí),何為虛構(gòu)。Sora之所以能夠達(dá)到這樣的效果,歸功于其對(duì)物理世界各個(gè)方面的精細(xì)模擬,即便在缺乏3D建模的情況下,也能展現(xiàn)出動(dòng)態(tài)相機(jī)運(yùn)動(dòng)的3D一致性和對(duì)象的遠(yuǎn)程一致性,包括對(duì)象的持久性以及與環(huán)境的簡(jiǎn)單互動(dòng)。例如在數(shù)字環(huán)境下,Sora能夠控制像《我的世界》這類游戲環(huán)境,在維持視覺保真度的同時(shí)遵循基本的游戲策略。這些新興能力表明,擴(kuò)展視頻模型在創(chuàng)建人工智能以模擬物理和數(shù)字世界的復(fù)雜性方面是有效的。具體到日常生活中的物理規(guī)則,如食物被咬下時(shí)留下的痕跡,Sora生成的視頻能夠準(zhǔn)確反映這些細(xì)節(jié),使其產(chǎn)出的內(nèi)容與現(xiàn)實(shí)世界的規(guī)律高度一致,進(jìn)而挑戰(zhàn)人們對(duì)真實(shí)性的傳統(tǒng)認(rèn)識(shí)。然而,盡管Sora在模擬現(xiàn)實(shí)方面取得了顯著成就,但它仍存在技術(shù)上的不足。例如,在處理空間位置和對(duì)象數(shù)量一致性方面的問題,這些問題暴露了當(dāng)前AI視頻生成技術(shù)的局限性。隨著不斷訓(xùn)練,未來(lái)的AI視頻效果或能做到與人工拍攝不相上下的程度,“扔進(jìn)一部小說(shuō),出來(lái)一部大片”或許將照進(jìn)現(xiàn)實(shí)。但是也必須警惕其潛在的濫用風(fēng)險(xiǎn)。虛假信息的生成和傳播可能會(huì)對(duì)社會(huì)秩序、公共安全甚至國(guó)際關(guān)系產(chǎn)生嚴(yán)重影響,認(rèn)識(shí)到這一點(diǎn)是防范技術(shù)濫用的重要一環(huán)。
二、“風(fēng)暴之眼”:Sora之后的新聞業(yè)將何去何從?
生成式人工智能技術(shù),尤其是如Sora模型這樣的先進(jìn)實(shí)例,標(biāo)志著人工智能領(lǐng)域的一次重大轉(zhuǎn)型。它的核心突破不僅在于對(duì)數(shù)據(jù)進(jìn)行深度解析和理解,更在于開辟了通過(guò)AI獨(dú)立創(chuàng)作內(nèi)容的新紀(jì)元。這種技術(shù)進(jìn)步將AI從一個(gè)主要聚焦于數(shù)據(jù)處理與分析的角色,轉(zhuǎn)變?yōu)榫邆洫?dú)立創(chuàng)作能力、能夠模擬現(xiàn)實(shí)乃至構(gòu)建新的虛擬世界的創(chuàng)作者。在新聞傳播領(lǐng)域,生成式AI如Sora的應(yīng)用預(yù)示著巨大的變革。這一技術(shù)能夠使記者和媒體機(jī)構(gòu)快速生產(chǎn)出富有吸引力的視覺內(nèi)容,為新聞報(bào)道添加更多直觀和生動(dòng)的元素,從而增強(qiáng)觀眾的體驗(yàn)和互動(dòng)性。然而,這也帶來(lái)了假新聞和誤導(dǎo)性信息擴(kuò)散的潛在風(fēng)險(xiǎn),對(duì)新聞機(jī)構(gòu)在信息核實(shí)和輿論引導(dǎo)方面的職責(zé)提出了更高的挑戰(zhàn)。鑒于此,新聞行業(yè)在享受生成式AI帶來(lái)的便利和創(chuàng)新優(yōu)勢(shì)的同時(shí),必須面對(duì)如何確保新聞內(nèi)容真實(shí)性和權(quán)威性的重要課題。
(一)突破性:Sora在視覺報(bào)道中的應(yīng)用
以Sora為代表的生成式人工智能技術(shù)正引領(lǐng)新聞視覺報(bào)道進(jìn)入一個(gè)全新的時(shí)代。該技術(shù)通過(guò)迅速構(gòu)建包含豐富視覺元素的報(bào)道和解釋性視頻,極大地拓展新聞內(nèi)容的表現(xiàn)力,并顯著提升報(bào)道的吸引力和觀眾的參與度。Sora的能力在于模擬真實(shí)環(huán)境和場(chǎng)景,幫助記者以前所未有的方式傳達(dá)復(fù)雜的新聞故事,使得原本成本高昂、技術(shù)要求嚴(yán)格的視頻制作變得簡(jiǎn)便易行。
盡管Sora的虛擬創(chuàng)造能力為新聞報(bào)道帶來(lái)了前所未有的機(jī)遇,但它也引發(fā)了對(duì)新聞?wù)鎸?shí)性的深思。學(xué)者鄧建國(guó)表示,“新聞報(bào)道追求真實(shí)(facts),而Sora全是虛擬(fictional),它唯一可以被新聞業(yè)利用的也許是建構(gòu)在新聞事實(shí)基礎(chǔ)上的情景再現(xiàn)?!盵9]特別是在無(wú)法直接獲取現(xiàn)場(chǎng)圖像的災(zāi)難報(bào)道或突發(fā)事件中,通過(guò)生成高度逼真的動(dòng)畫來(lái)模擬事故現(xiàn)場(chǎng),既可以幫助公眾更直觀地理解事件,也對(duì)事故原因的探究起到了重要作用。以大型自然災(zāi)害的報(bào)道為例,記者可以使用Sora生成一個(gè)模擬的災(zāi)害現(xiàn)場(chǎng)視頻,展示災(zāi)害發(fā)生的過(guò)程、影響范圍以及救援行動(dòng)的布置。這種虛擬重現(xiàn)不僅能夠提供給觀眾更為生動(dòng)的視覺體驗(yàn),也有助于在不可到達(dá)的災(zāi)區(qū)進(jìn)行“現(xiàn)場(chǎng)報(bào)道”,從而在不增加現(xiàn)場(chǎng)風(fēng)險(xiǎn)的情況下傳達(dá)關(guān)鍵信息。此外,Sora技術(shù)的應(yīng)用潛力遠(yuǎn)不止于當(dāng)下新聞的呈現(xiàn),它還能夠穿越時(shí)空的界限,為歷史事件的再現(xiàn)提供強(qiáng)大的支持。通過(guò)精心制作的虛擬視頻將觀眾帶回歷史的關(guān)鍵時(shí)刻,不僅能增強(qiáng)歷史事件的傳播效果,更能以全新的維度為該事件賦予教育與啟示。
(二)危險(xiǎn)性:新聞倫理的價(jià)值對(duì)齊問題
在OpenAI尚未公布Sora模型的具體公開日期之際,其對(duì)于新聞倫理和治理的潛在影響已引起業(yè)界的廣泛關(guān)注。Sora模型的未來(lái)發(fā)展預(yù)示著在提升視頻制作效率和降低成本方面的巨大潛力,但同時(shí)也可能引發(fā)專業(yè)視頻制作領(lǐng)域的職業(yè)風(fēng)險(xiǎn)。過(guò)于逼真的AI生成視頻可能導(dǎo)致虛假新聞的擴(kuò)散,對(duì)新聞倫理構(gòu)成嚴(yán)重威脅。因此,確保大型生成模型的可信度和安全性成為亟待解決的問題。在眾多應(yīng)對(duì)策略中,模型對(duì)齊技術(shù)尤為關(guān)鍵,目標(biāo)是使模型的行為和輸出與設(shè)計(jì)者的意圖及道德標(biāo)準(zhǔn)保持一致,這觸及技術(shù)發(fā)展、道德責(zé)任和社會(huì)價(jià)值之間的價(jià)值對(duì)齊[10]。隨著Sora模型在生成內(nèi)容能力上變得越來(lái)越強(qiáng)大,如何避免其被濫用于產(chǎn)生仇恨言論和虛假信息等有害內(nèi)容,已成為一項(xiàng)緊迫的任務(wù)[11]。
為應(yīng)對(duì)由Sora帶來(lái)的挑戰(zhàn),除了內(nèi)部對(duì)模型的精細(xì)對(duì)齊,還需強(qiáng)化外部安全措施。這包括內(nèi)容過(guò)濾和審查機(jī)制、使用權(quán)限和訪問控制、數(shù)據(jù)隱私保護(hù),以及透明度和可解釋性的增強(qiáng)。另外,Sora作為多模態(tài)模型(文本到視頻模型),由于能夠理解和生成包括文本、圖像、視頻等各種類型的內(nèi)容,給安全性又帶來(lái)了額外的復(fù)雜性。傳統(tǒng)的內(nèi)容驗(yàn)證和事實(shí)核查手段面對(duì)這種新型內(nèi)容生成模式顯得不再有效,這不僅加劇了濫用和版權(quán)問題,也增加了監(jiān)管和管理的復(fù)雜度。因此,開發(fā)新的技術(shù)和方法以識(shí)別和過(guò)濾由此產(chǎn)生的有害內(nèi)容,成為確保技術(shù)健康發(fā)展的必要之舉。例如,OpenAI通過(guò)使用檢測(cè)分類器來(lái)鑒別視頻是否由Sora生成,并部署文本分類器以識(shí)別可能的有害文本輸入,作為防范措施之一[12]。
三、如何策略性引導(dǎo)Sora 的發(fā)展與應(yīng)用?
Sora的問世及其突破性的技術(shù)功能,對(duì)視聽產(chǎn)業(yè)乃至整個(gè)傳媒領(lǐng)域產(chǎn)生了深刻的影響。悲觀主義者甚至拋出了“取代人類”的論調(diào)。既然 Sora帶來(lái)的沖擊無(wú)法回避,那么關(guān)鍵就在于如何策略性地引導(dǎo)Sora的發(fā)展與應(yīng)用。
首先需要明確認(rèn)識(shí)到,生成式人工智能技術(shù),如Sora本質(zhì)上仍是一種技術(shù)的延伸,類似于為人類提供機(jī)械臂的輔助工具。從傳播媒介的角度來(lái)看,歷史上每一次新技術(shù)的出現(xiàn),如報(bào)紙、廣播、電話、電視和互聯(lián)網(wǎng),都曾引起社會(huì)對(duì)其所帶來(lái)變革的驚嘆。隨著社會(huì)的演進(jìn)和技術(shù)的迭代,技術(shù)進(jìn)步本質(zhì)上是社會(huì)發(fā)展的催化劑,每一次創(chuàng)新都是一個(gè)新的起點(diǎn),舊技術(shù)終將被更先進(jìn)的技術(shù)所替代。面對(duì)Sora等新技術(shù)的發(fā)展,相關(guān)行業(yè)從業(yè)者首先需要做的是理解、接觸并深入了解其背后的底層邏輯,這恰恰是從賦魅到祛魅的過(guò)程。當(dāng)對(duì)新技術(shù)背后的生成邏輯有足夠認(rèn)識(shí)的時(shí)候,恐懼感自然就會(huì)消失。
目前,Sora尚處于發(fā)展階段,未達(dá)到廣泛應(yīng)用的程度。然而,其發(fā)展趨勢(shì)已經(jīng)引起了廣泛的關(guān)注和期待??梢灶A(yù)見,隨著Sora等大型模型的逐步開源,它們將為內(nèi)容創(chuàng)作者提供前所未有的工具,使得視頻內(nèi)容的創(chuàng)作、編輯和個(gè)性化定制變得更加高效和靈活。在新聞報(bào)道和某些欄目制作中,由于對(duì)真實(shí)性有著嚴(yán)格的要求,Sora可能暫時(shí)無(wú)法直接應(yīng)用。然而,在文藝節(jié)目制作、大型活動(dòng)的宣傳、影視劇動(dòng)畫片的創(chuàng)作、多語(yǔ)種節(jié)目的譯制與推廣,以及新媒體內(nèi)容的制作與傳播等方面,Sora的應(yīng)用前景顯得尤為廣闊。只要媒體機(jī)構(gòu)能夠妥善把關(guān),確保內(nèi)容的真實(shí)性和質(zhì)量,就可以采用這種“拿來(lái)主義”的策略,將Sora等文生視頻大模型作為強(qiáng)大的輔助工具,以提升內(nèi)容創(chuàng)作的速度和質(zhì)量。
在利用Sora等大型模型的同時(shí),相關(guān)行業(yè)也需要從自身出發(fā),對(duì)技術(shù)進(jìn)行訓(xùn)練和改進(jìn),使其真正成為創(chuàng)作的助手。盡管Sora在視頻生成領(lǐng)域展現(xiàn)出巨大潛力,但它仍無(wú)法獨(dú)立完成完整的創(chuàng)作過(guò)程,尤其是在對(duì)生成內(nèi)容進(jìn)行詳細(xì)修改或優(yōu)化時(shí)。此外,Sora在理解復(fù)雜語(yǔ)言指令和捕捉微妙語(yǔ)義差異方面的局限性,可能導(dǎo)致生成的視頻內(nèi)容無(wú)法完全達(dá)到創(chuàng)作者的期望。這一限制意味著Sora在視頻編輯和內(nèi)容增強(qiáng)方面的應(yīng)用仍有其不足之處,它更多地扮演著參與者的角色,而非獨(dú)立的創(chuàng)作者。以HBO的《權(quán)力的游戲》為例,這部長(zhǎng)篇電視劇的成功不僅在于其宏大的敘事和復(fù)雜的人物關(guān)系,還在于創(chuàng)作者對(duì)細(xì)節(jié)的精心打磨和對(duì)情感層面的深刻挖掘。這樣的作品需要?jiǎng)?chuàng)作者投入大量的情感和智慧,以及對(duì)人類社會(huì)和心理的深刻理解,這些都是目前Sora等AI模型所無(wú)法單獨(dú)實(shí)現(xiàn)的。
如果說(shuō)短視頻的成功往往依賴于瞬間的創(chuàng)意,那么新聞報(bào)道則需要融入人文關(guān)懷和情感考量,而感人至深的長(zhǎng)篇影視作品則更加離不開人類獨(dú)特的視角和情感投入,這些都是當(dāng)前技術(shù)所無(wú)法完全復(fù)制的。因此,雖然Sora等生成式 AI 技術(shù)為傳媒行業(yè)帶來(lái)了新的工具和可能性,但人類的創(chuàng)造力和情感智慧仍然是不可替代的。行業(yè)應(yīng)當(dāng)在充分利用這些技術(shù)的同時(shí),保持對(duì)人類獨(dú)特價(jià)值的尊重和發(fā)揮。
結(jié)語(yǔ)
Sora模型以其能夠生成長(zhǎng)達(dá)60秒的1080P 高清視頻的能力,在文本到視頻(Text-to-Video)領(lǐng)域中展現(xiàn)出顯著的競(jìng)爭(zhēng)優(yōu)勢(shì)。這一技術(shù)進(jìn)步不僅超越了市場(chǎng)上其他僅能生成幾秒鐘短視頻的模型,如Runway、Pika和Stable Video Diffusion,而且預(yù)示著在視頻內(nèi)容創(chuàng)作領(lǐng)域樹立新的行業(yè)標(biāo)準(zhǔn)的可能性。此外,Sora的高質(zhì)量視頻輸出和先進(jìn)的物理引擎技術(shù),使得制作具有高度逼真物理現(xiàn)實(shí)主義的視頻內(nèi)容成為現(xiàn)實(shí)。Sora的技術(shù)成就標(biāo)志著人工通用智能(AGl)領(lǐng)域的重大進(jìn)展,預(yù)示著人工智能將更深入地融入我們的日常生活,并可能重塑我們的工作方式和對(duì)概念的理解。
然而,互聯(lián)網(wǎng)技術(shù)的發(fā)展趨勢(shì)是朝著“知難行易”的方向發(fā)展,隨著文本到視頻技術(shù)的競(jìng)爭(zhēng)日益加劇,我們預(yù)計(jì)將看到市場(chǎng)上產(chǎn)品的持續(xù)改進(jìn)。在這個(gè)過(guò)程中,需要關(guān)注幾個(gè)值得注意的挑戰(zhàn),特別是在知識(shí)產(chǎn)權(quán)保護(hù)和模型訓(xùn)練資源透明度方面。為防止生成深度偽造視頻和不當(dāng)內(nèi)容的產(chǎn)生,人文情懷和邏輯倫理的融入是關(guān)鍵。我們需要采取措施確保人權(quán)得到保障,如對(duì)生成視頻進(jìn)行可靠水印以追蹤其來(lái)源,以及利用區(qū)塊鏈技術(shù)提升信任度和可追溯性。此外,為了確保技術(shù)應(yīng)用的可持續(xù)性,優(yōu)化生成過(guò)程以降低計(jì)算資源消耗和環(huán)境影響也是必不可少的。面對(duì)這些挑戰(zhàn),跨學(xué)科的合作至關(guān)重要,需要共同制定綜合框架、監(jiān)管策略和技術(shù)創(chuàng)新,以促使文本到視頻的人工智能應(yīng)用更加道德和負(fù)責(zé)任。
參考文獻(xiàn):
[1]OpenAI.ChatGPT:Get instant answers,find creative inspiration,learn something new[EB/OL].(2022-11-30)[2024-03-25].https://openai.com/chatgpt.
[2]OpenAI.Sora:Creating video from text[EB/OL].(2024-02-15)[2024-03-25].https://openai.com/sora.
[3]Liu Y,Zhang K,Li Y,et al.Sora:A Review on Background,Technology,Limitations,and Opportunities of Large Vision Models[J].arXiv preprint arXiv:2402.17177,2024.
[4]艾媒咨詢.2023-2024年中國(guó)微短劇市場(chǎng)研究報(bào)告 [EB/OL].(2023-11-22)[2024-04-22].https://report.iimedia.cn/repo13-0/43507.html?acPlatCode=IIMReportamp;acFrom=recomBaramp;iimediaId=97110.
[5]劉欣.網(wǎng)絡(luò)視聽成為第一大互聯(lián)網(wǎng)應(yīng)用!《2023中國(guó)網(wǎng)絡(luò)視聽發(fā)展研究報(bào)告》發(fā)布[J].中國(guó)廣播影視,2023(8):42-43.
[6]孫瑋.“視頻化社會(huì)”的來(lái)臨——從ChatGPT展望媒介通用性變革[J].探索與爭(zhēng)鳴,2023(12):55-62,193.
[7]孫瑋.技術(shù)文化:視頻化生存的前世、今生、未來(lái)[J].新聞與寫作,2022(4):5-14.
[8]Amaro I,Barra P,Della Greca A,et al. Believe in Artificial Intelligence? A User Study on the ChatGPT’s Fake Information Impact[J].IEEE Transactions on Computational Social Systems,2023(3):1-10.
[9]李曉璐,賀涵甫.首個(gè)文生視頻模型Sora 是人類助手還是對(duì)手?[N].廣州日?qǐng)?bào),2024-02-23(09).
[10]Shen T,Jin R,Huang Y,et al. Large language model alignment:A survey[J].arXiv preprint arXiv:2309.15025,2023.
[11]Huang Y,Sun L.Harnessing the power of chatgpt in fake news:An in-depth exploration in generation,detection and explanation[J].arXiv preprint arXiv:2310.05046,2023.
[12]OpenAl.Safety at OpenAI[EB/OL].(2024-02-15)[2024-03-25].https://openai.com/index/sora/#safety.
[13]王樹義,肖驍,倪考?jí)舻?Sora的職業(yè)影響:知識(shí)工作者應(yīng)對(duì)AI核心技能替代的策略[J].圖書館論壇:2024(03):1-10.