【摘 要】文生視頻大模型Sora的問世受到全球矚目,如何利用AIGC推動(dòng)圖書視頻化發(fā)展成為新的研究熱點(diǎn)。Sora在圖書視頻化中的應(yīng)用潛力主要表現(xiàn)為高質(zhì)量?jī)?nèi)容呈現(xiàn)、靈活個(gè)性創(chuàng)意表達(dá)、響應(yīng)市場(chǎng)趨勢(shì)和賦能經(jīng)濟(jì)增長(zhǎng)。針對(duì)Sora在圖書視頻化應(yīng)用中面臨的技術(shù)局限、算法失衡、公眾偏見和數(shù)據(jù)安全監(jiān)管不足等挑戰(zhàn)提出相應(yīng)對(duì)策,推動(dòng)Sora在圖書視頻化領(lǐng)域的發(fā)展,為AIGC賦能圖書視頻化發(fā)展提供啟示。
【關(guān)" 鍵" 詞】人工智能;Sora;圖書視頻化;視頻創(chuàng)作
【作者單位】羅弦,湖州師范學(xué)院人文學(xué)院;徐伊冉,湖州師范學(xué)院信息工程學(xué)院。
【基金項(xiàng)目】2024年度浙江省教育科學(xué)規(guī)劃項(xiàng)目“智媒時(shí)代‘?dāng)?shù)字閱讀’賦能大學(xué)生媒介素養(yǎng)提升路徑研究”(2024SCG041) 的階段性成果;中國(guó)廣播電視社會(huì)組織聯(lián)合會(huì)2024年度媒介素養(yǎng)專項(xiàng)研究重點(diǎn)項(xiàng)目“數(shù)智時(shí)代浙江省大學(xué)生媒介素養(yǎng)研究”(2024ZGL010)的階段性成果。
【中圖分類號(hào)】G206 【文獻(xiàn)標(biāo)識(shí)碼】A 【DOI】10.16491/j.cnki.cn45-1216/g2.2025.04.013
圖書視頻化是借助數(shù)字媒體技術(shù),將閱讀體驗(yàn)從靜態(tài)文本和圖片拓展至動(dòng)態(tài)視頻的過程。其發(fā)展順應(yīng)了讀者日益增長(zhǎng)的視頻化內(nèi)容消費(fèi)偏好,豐富了數(shù)字閱讀的體驗(yàn),拓寬了圖書的受眾范圍,成為數(shù)字閱讀領(lǐng)域新的發(fā)展趨勢(shì)。2023年,AI視頻技術(shù)迅猛發(fā)展,從無到有,涌現(xiàn)數(shù)十種視頻生成產(chǎn)品。2024年2月15日,OpenAI公司繼2022年成功推出ChatGPT后,發(fā)布其首款文生視頻模型Sora;同年12月,Sora的公開版本正式發(fā)布。該模型能夠根據(jù)文本描述生成時(shí)長(zhǎng)達(dá)1分鐘的高清視頻,公開版本則支持生成分辨率最高1080p、時(shí)長(zhǎng)20s的無水印視頻,這標(biāo)志著AI視頻技術(shù)取得了突破性的進(jìn)步。本文對(duì)現(xiàn)有文生視頻模型的演進(jìn)路徑進(jìn)行梳理,聚焦Sora的技術(shù)特色,探討其未來在圖書視頻化領(lǐng)域的應(yīng)用前景,并嘗試分析Sora賦能圖書視頻化過程中的挑戰(zhàn)及對(duì)策,為未來Sora融入圖書視頻化領(lǐng)域提供參考。
一、Sora的技術(shù)革新與應(yīng)用
1.文生視頻模型的技術(shù)演進(jìn)
文生視頻模型(Text-to-Video)作為AI視頻技術(shù)的前沿分支,正逐步改變?nèi)藗儎?chuàng)造和欣賞視頻內(nèi)容的方式。始于學(xué)習(xí)技術(shù)與計(jì)算機(jī)視覺的深度融合,文生視頻模型從聚焦于生成對(duì)抗網(wǎng)絡(luò)(GANs)與變分自編碼器(VAEs)的初級(jí)形態(tài),躍遷至由Transformer和擴(kuò)散模型主導(dǎo)的先進(jìn)階段,并在現(xiàn)有技術(shù)基礎(chǔ)上實(shí)現(xiàn)了變革性突破,孕育出Sora這一里程碑式的模型。
文生視頻模型早期技術(shù)的探索聚焦于生成對(duì)抗網(wǎng)絡(luò)和變分自編碼器的應(yīng)用,二者分別通過生成器與判別器的對(duì)抗訓(xùn)練,以及編解碼過程,初步生成視頻內(nèi)容。但其受限于幀間連貫性和細(xì)節(jié)一致性,生成的視頻往往顯得粗糙且不夠穩(wěn)定。隨著技術(shù)不斷演進(jìn),Transformer模型的引入為文生視頻技術(shù)帶來了質(zhì)的飛躍。Transformer具備強(qiáng)大的“編碼—解碼”能力,不僅能將文本指令轉(zhuǎn)化為視頻內(nèi)容,還極大地提升了視頻生成的邏輯連貫性和內(nèi)容多樣性,Phenaki、NUWA等模型的推出標(biāo)志著這一技術(shù)路線的成熟與廣泛應(yīng)用。
2024年2月,OpenAI公司發(fā)布了其首款文生視頻模型——Sora,這一名稱寓意無限的創(chuàng)造潛力。作為“世界模擬器的視頻生成模型”,Sora不僅沿襲了Transformer架構(gòu)和擴(kuò)散模型的優(yōu)點(diǎn),還通過技術(shù)創(chuàng)新實(shí)現(xiàn)了從文本提示到60s視頻生成的流暢轉(zhuǎn)換。它借鑒了大型語言模型的標(biāo)記化策略,采用視覺補(bǔ)丁作為基本單元來處理圖像和視頻數(shù)據(jù):首先,利用視頻壓縮網(wǎng)絡(luò)將原始視頻轉(zhuǎn)換為低維的潛在表示,并拆分為時(shí)空補(bǔ)?。黄浯?,提取補(bǔ)丁作為Transformer(轉(zhuǎn)換器)架構(gòu)中的輸入標(biāo)記,以適應(yīng)不同格式的視覺要求;最后,借助擴(kuò)散模型從噪聲中逐步還原出更清晰的視覺補(bǔ)丁,搭配Transformer進(jìn)行轉(zhuǎn)換組合,生成符合文本提示視頻的同時(shí)解碼回原空間。未來,Sora的技術(shù)優(yōu)勢(shì)若應(yīng)用到圖書視頻化領(lǐng)域,可將復(fù)雜的文章情節(jié)轉(zhuǎn)化為生動(dòng)連貫、內(nèi)容高度還原的圖書視頻,為圖書內(nèi)容的視覺化呈現(xiàn)提供全新可能。
2.Sora的技術(shù)突破與創(chuàng)新實(shí)踐
在Sora誕生前,已有數(shù)十款文生視頻產(chǎn)品問世,那么Sora引起轟動(dòng)的原因是什么,和熱門文生視頻模型Runway、StableVide相比,技術(shù)差別在何處?
一是視頻時(shí)長(zhǎng)的巨大突破。傳統(tǒng)的文生視頻模型只能生成2s至18s的視頻,難以滿足用戶對(duì)復(fù)雜、詳細(xì)、連貫、完整敘事場(chǎng)景的應(yīng)用需要。Sora將文生視頻模型的時(shí)長(zhǎng)上限一舉延長(zhǎng)至60s,大幅提升了視頻的時(shí)序連貫性和情節(jié)豐富度,是AI視頻技術(shù)發(fā)展史上里程碑式的飛躍。OpenAI公司在Sora官網(wǎng)的著陸頁(yè)中放置了Sora生成的一段59s的視頻示例,體現(xiàn)了Sora生成視頻超強(qiáng)的連貫性和敘事能力以及在細(xì)節(jié)處理上的精細(xì)程度。
二是物理仿真的部分涌現(xiàn)。Sora技術(shù)團(tuán)隊(duì)在Sora的著陸頁(yè)中表示,“該模型不僅理解用戶在提示中請(qǐng)求的內(nèi)容,還理解這些事物在物理世界中的存在方式”[1]。從示例中我們可以看到,玻璃球體特寫鏡頭中玻璃的反光,火車車窗上的倒影,以及機(jī)器人在賽博朋克環(huán)境中活動(dòng)時(shí)所展現(xiàn)的復(fù)雜場(chǎng)景切換等,體現(xiàn)了Sora作為一個(gè)世界模擬器在生成更加真實(shí)的動(dòng)態(tài)效果方面的重大突破。物理仿真涌現(xiàn)和能力不僅確保了物理一致性,還增強(qiáng)了對(duì)細(xì)節(jié)和微小變化的捕捉能力,包括3D一致性、長(zhǎng)距離相干性和對(duì)象持久性等。
三是畫面質(zhì)量和視頻擴(kuò)展性的躍升。基于DALL-E(文生圖)和GPT模型的成功經(jīng)驗(yàn),Sora沿襲了其細(xì)膩逼真的畫質(zhì)和強(qiáng)大的提示理解能力,并顯著提升了視頻質(zhì)量。Sora支持1920×1080的高分辨率,并能處理多種縱橫比,使用DALL-E3技術(shù)能保障視頻的每一幀都具備極高的藝術(shù)感染力與視覺質(zhì)感。此外,Sora在文生視頻的基礎(chǔ)上還支持?jǐn)U展已有的視頻片段,包括向前向后的時(shí)間延伸、改變視頻中的環(huán)境條件、輸入插值以實(shí)現(xiàn)視頻無縫銜接等。
二、Sora圖書視頻化應(yīng)用的潛力
目前,已有不少圖書類視頻在各媒體平臺(tái)廣泛傳播,人工智能正逐步介入視頻制作過程,旨在為讀者提供更加生動(dòng)和豐富的閱讀體驗(yàn)。若能將Sora應(yīng)用于圖書視頻制作中,將會(huì)推動(dòng)圖書產(chǎn)業(yè)改革,拓展圖書出版新形式。
1.技術(shù)創(chuàng)新下的高質(zhì)量?jī)?nèi)容呈現(xiàn)
將靜態(tài)圖書轉(zhuǎn)變?yōu)閯?dòng)態(tài)視頻有兩個(gè)要求:其一,確保視頻表達(dá)圖書內(nèi)容的準(zhǔn)確性,忠實(shí)于著作原意;其二,充分發(fā)揮視頻高表達(dá)力優(yōu)勢(shì),提升視頻質(zhì)量,以提供更好的閱讀體驗(yàn)。Sora基于先進(jìn)的GPT模型,結(jié)合自然語言處理(NLP)技術(shù)去理解書中的情節(jié)、對(duì)話以及細(xì)節(jié),實(shí)現(xiàn)對(duì)原著的忠實(shí)呈現(xiàn)。在人物塑造方面,Sora利用情感和語義識(shí)別等功能,捕捉角色心理狀態(tài),通過表情、語氣刻畫使角色形象更貼合原著;在場(chǎng)景還原方面,Sora借助大數(shù)據(jù)技術(shù)和網(wǎng)頁(yè)檢索能力,精確再現(xiàn)作品中特定時(shí)期的建筑風(fēng)格和風(fēng)俗習(xí)慣等。同時(shí),Sora突破性的涌現(xiàn)能力和物理仿真能力提升了視頻畫面的真實(shí)度,使視頻不僅更符合現(xiàn)實(shí)世界的邏輯,還能支撐環(huán)境與物體行為的細(xì)致互動(dòng)。如猛犸象走過覆蓋白雪的草地時(shí)揚(yáng)起的塵土,男子吃下漢堡時(shí)留下的咬痕等。此外,3D一致性技術(shù)確保了鏡頭移動(dòng)和場(chǎng)景轉(zhuǎn)換時(shí),角色外觀和光影環(huán)境的一致性。這些技術(shù)的綜合應(yīng)用,使Sora在滿足圖書視頻化基本要求的基礎(chǔ)上,有效提升了視頻內(nèi)容的真實(shí)感和沉浸感。
Sora在視頻質(zhì)量方面的表現(xiàn)也超出平均水平。一方面,Pro版本支持生成1080p高分辨率的視頻,提供了卓越的細(xì)節(jié)表現(xiàn)力和視覺質(zhì)量:高分辨率支撐視頻顯示更多細(xì)節(jié),如復(fù)雜背景中的店鋪名稱、人物表情和肢體動(dòng)作,同時(shí)能夠捕捉更多更準(zhǔn)確的色調(diào)變化和光影效果,更好地展現(xiàn)物體質(zhì)感,使得視頻具有更細(xì)膩的色彩表現(xiàn)。另一方面,Sora采用的DALL-E模型為視覺呈現(xiàn)提供了堅(jiān)實(shí)的基礎(chǔ),使得視頻的每一幀畫面都具備電影級(jí)別的質(zhì)感和藝術(shù)感,創(chuàng)造出一種極具觀賞性的視覺體驗(yàn)。高分辨率和高觀賞性的結(jié)合充分發(fā)揮了視頻媒介強(qiáng)沖擊力和吸引力優(yōu)勢(shì),顯著提升讀者參與度與閱讀沉浸感。
2.技術(shù)簡(jiǎn)化下的靈活個(gè)性創(chuàng)意表達(dá)
Sora參與圖書視頻化制作與傳統(tǒng)視頻制作模式相比,顯著優(yōu)勢(shì)之一就是幾乎不存在技術(shù)門檻。Sora支持通過用戶輸入的文字、圖像或視頻文件生成視頻。這一制作模式極大簡(jiǎn)化了視頻制作流程,減少了對(duì)專業(yè)技能和設(shè)備配置的依賴性,可以吸引更多非專業(yè)人士如個(gè)人創(chuàng)作者、出版機(jī)構(gòu)等參與圖書視頻化的創(chuàng)作。這不僅為創(chuàng)作者提供了更大的創(chuàng)作空間,還將加速圖書推廣和出版行業(yè)融合發(fā)展的步伐。
Sora圖書視頻化應(yīng)用的另一大優(yōu)勢(shì)是其具備高度定制化特征。Sora支持“在個(gè)人時(shí)間軸上組織和編輯視頻的獨(dú)特序列”[2],這一功能決定了視頻能高度遵循用戶喜好,基于原著內(nèi)容改進(jìn)視頻風(fēng)格、角色形象、背景設(shè)定等,以滿足讀者期望。此外,Sora還具備修改靈活的優(yōu)點(diǎn)。根據(jù)OpenAI對(duì)Sora的概述,其不僅可以“使用Remix替換、刪除或重新構(gòu)想視頻中的元素”,還能夠“查找并隔離最佳幀,將它們向任一方向擴(kuò)展以完成場(chǎng)景”或是“使用Loop修剪并創(chuàng)建無縫重復(fù)的視頻”[2]。在示例中,技術(shù)人員將門后的景觀由圖書館變?yōu)橛钪骘w船,再變?yōu)閰擦趾驮虑?,但無論如何變換都看不出任何修改痕跡。如果將“制作定制化”和“修改靈活化”兩個(gè)優(yōu)勢(shì)結(jié)合應(yīng)用于圖書視頻化過程,不僅可以在初稿階段就滿足大多數(shù)讀者對(duì)內(nèi)容場(chǎng)景的想象,還可以根據(jù)市場(chǎng)反饋及時(shí)調(diào)整視頻風(fēng)格,從而滿足不同國(guó)家和文化背景下讀者的需求。
Sora文生視頻技術(shù)預(yù)示著對(duì)傳統(tǒng)視頻制作模式的根本性變革,制作周期將縮短至前所未有的分鐘級(jí)。這一革新簡(jiǎn)化了以往的腳本擬定、實(shí)際拍攝及后期剪輯等復(fù)雜環(huán)節(jié);無論是創(chuàng)作新視頻,還是進(jìn)行重拍與重編,都體現(xiàn)了該技術(shù)顯著的靈活性、高效性優(yōu)勢(shì)。利用“SDEdit”方法能夠在保證視頻主體不動(dòng)的情況下,迅速實(shí)現(xiàn)視頻背景的無縫變換,省時(shí)省力的同時(shí)有效減少銜接瑕疵;借助即時(shí)反饋與優(yōu)化機(jī)制,視頻具有極高的可塑性和修改自由度,視頻內(nèi)容能夠迅速迭代更新,以貼合觀眾審美趨勢(shì)與市場(chǎng)需求的快速演變,在提升視頻品質(zhì)與增強(qiáng)觀眾滿意度方面取得雙重成效。
3.?dāng)?shù)字閱讀市場(chǎng)下的廣闊應(yīng)用前景
隨著互聯(lián)網(wǎng)和移動(dòng)設(shè)備的普及以及數(shù)字文化建設(shè)的全面推進(jìn),數(shù)字閱讀成為全民閱讀的重要組成部分。《2024年度中國(guó)數(shù)字閱讀報(bào)告》顯示,2024年我國(guó)數(shù)字閱讀用戶規(guī)模達(dá)6.7億,數(shù)字閱讀用戶規(guī)模占網(wǎng)民規(guī)模的比例已超過50%。與此同時(shí),視頻社交平臺(tái)如抖音、嗶哩嗶哩等蓬勃發(fā)展近10年,收獲了大批忠實(shí)用戶。《第54次中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》顯示,“截至2024年6月,我國(guó)網(wǎng)民規(guī)模近11億人,互聯(lián)網(wǎng)普及率達(dá)78.0%。其中,短視頻成為新增網(wǎng)民‘觸網(wǎng)’的重要應(yīng)用,短視頻‘拉新’能力最強(qiáng)?!保?]這些數(shù)據(jù)表明,將數(shù)字閱讀與視頻內(nèi)容結(jié)合的視頻閱讀,具有堅(jiān)實(shí)的用戶基礎(chǔ)和廣闊的市場(chǎng)前景,是數(shù)字文化建設(shè)的必然趨勢(shì)。
數(shù)字時(shí)代,讀者對(duì)高質(zhì)量、個(gè)性化和多樣化的閱讀體驗(yàn)需求日益增長(zhǎng),在短視頻內(nèi)容漸趨同質(zhì)化的當(dāng)下,圖書視頻化不僅能夠滿足人們對(duì)高質(zhì)量視覺內(nèi)容的渴望,還為傳統(tǒng)圖書提供了新的生命力,使其在數(shù)字時(shí)代煥發(fā)新生。Sora圖書視頻化應(yīng)用恰好響應(yīng)了數(shù)字閱讀發(fā)展這一市場(chǎng)需求。Sora為視頻創(chuàng)作者簡(jiǎn)化了從靈感萌芽到視頻制作的過程,允許用戶根據(jù)個(gè)人偏好定制視頻的視覺風(fēng)格和敘述方式。經(jīng)典文學(xué)可以通過短劇、水墨畫或卡通動(dòng)畫等形式演繹表達(dá);科幻故事可以結(jié)合VR、AR技術(shù)打造沉浸式互動(dòng)體驗(yàn);科普書籍可以通過視頻動(dòng)畫、情景演繹等幫助讀者更好地理解和記憶。Sora將來還可能根據(jù)受眾不同的文化背景和語言需求,自動(dòng)調(diào)整配音、字幕,甚至為視障和聽障讀者提供視覺描述與手語翻譯服務(wù)。
短視頻爆炸式發(fā)展的時(shí)代,內(nèi)容同質(zhì)化和用戶注意力碎片化現(xiàn)象普遍存在,因而年輕一代更重視視頻內(nèi)容的個(gè)性化和刺激感,偏好兼具深度與個(gè)性的視聽享受。Sora圖書視頻化應(yīng)用輔以其他先進(jìn)技術(shù),可以為讀者營(yíng)造一種沉浸式且獨(dú)一無二的閱讀體驗(yàn),這不僅可以豐富傳統(tǒng)出版物的內(nèi)容生態(tài),還將吸引更偏愛視頻而非純文字閱讀的潛在讀者,激發(fā)視頻平臺(tái)在內(nèi)容創(chuàng)新和差異化競(jìng)爭(zhēng)上的活力。
4.產(chǎn)業(yè)融合下的經(jīng)濟(jì)新助力
Sora圖書視頻化應(yīng)用既是對(duì)市場(chǎng)趨勢(shì)的精準(zhǔn)響應(yīng),又是驅(qū)動(dòng)視頻出版新生態(tài)發(fā)展的重要力量。
一是提供了更多就業(yè)和創(chuàng)業(yè)的可能。一方面,Sora參與視頻制作可大幅降低人力物力成本,對(duì)經(jīng)濟(jì)社會(huì)的整體增長(zhǎng)起到促進(jìn)作用。另一方面,Sora可降低視頻創(chuàng)作的費(fèi)用門檻,低成本的創(chuàng)作模式將打破視頻制作的專業(yè)壁壘,使創(chuàng)意實(shí)現(xiàn)不再受制于資金,為有抱負(fù)的年輕創(chuàng)作者開辟了個(gè)人創(chuàng)作乃至商業(yè)化發(fā)展的道路。
二是促進(jìn)知識(shí)付費(fèi)領(lǐng)域的繁榮。未來,隨著更多人投身于Sora制作圖書視頻這一領(lǐng)域,競(jìng)爭(zhēng)的加劇將促使創(chuàng)作者不斷提升Sora的使用水平與賬號(hào)運(yùn)營(yíng)水平,進(jìn)而推動(dòng)視頻制作培訓(xùn)、賬號(hào)管理課程等行業(yè)的蓬勃發(fā)展。同時(shí),借鑒音頻、短劇和影視劇行業(yè)的成功案例,圖書視頻可以采取會(huì)員制或單集付費(fèi)模式,實(shí)現(xiàn)內(nèi)容的商業(yè)化。Sora圖書視頻化應(yīng)用的本質(zhì)是借助視頻媒介推廣書籍,鼓勵(lì)全民閱讀,因而在推廣閱讀的同時(shí),通過直播售書等方式,不僅能增強(qiáng)讀者的參與感,還能為內(nèi)容創(chuàng)作者、出版社和書商開辟多元化的盈利渠道。
三、Sora圖書視頻化應(yīng)用的挑戰(zhàn)與對(duì)策
Sora的橫空出世為圖書視頻化注入了嶄新活力,有著良好的應(yīng)用前景,也有望推動(dòng)數(shù)字閱讀進(jìn)程,并可能成為圖書出版業(yè)轉(zhuǎn)型的重要推手。但不容忽視的是,Sora圖書視頻化應(yīng)用在推進(jìn)過程中或?qū)⒚媾R多重挑戰(zhàn)。只有直面潛在挑戰(zhàn),分析并制定應(yīng)對(duì)策略,Sora的圖書視頻化應(yīng)用實(shí)踐才有望實(shí)現(xiàn)健康長(zhǎng)遠(yuǎn)發(fā)展。
1.多維創(chuàng)新突破技術(shù)局限
文生視頻模型在圖書視頻化領(lǐng)域的實(shí)際應(yīng)用對(duì)Sora提出了更高的技術(shù)要求和幾乎零失誤的苛刻條件,但當(dāng)前AIGC技術(shù)處于起步階段,面臨多項(xiàng)亟待解決的技術(shù)挑戰(zhàn),且其“本身具有復(fù)雜性、擴(kuò)展性、不可控性、不可預(yù)知性等特點(diǎn)”[4],這些短板在跨產(chǎn)業(yè)融合過程中尤為突出,由此衍生的新業(yè)態(tài)呈現(xiàn)不穩(wěn)定性與難以駕馭的特性。一方面,Sora的技術(shù)成熟度距生成商業(yè)化圖書視頻仍有一定距離。OpenAI在其官網(wǎng)簡(jiǎn)介中坦誠(chéng),Sora 可能難以模擬復(fù)雜場(chǎng)景的物理特性,并且可能無法理解因果關(guān)系的特定實(shí)例,如有時(shí)無法準(zhǔn)確模擬人物在跑步機(jī)上的運(yùn)動(dòng)軌跡或玻璃破碎的情景。另一方面,Sora生成的圖書視頻在保障情節(jié)忠實(shí)度與現(xiàn)實(shí)邏輯性方面仍存在風(fēng)險(xiǎn),“生成式人工智能具有深度偽造能力,可以生成與現(xiàn)實(shí)高度相似的虛假文本、圖片、音視頻等內(nèi)容或是生成侵權(quán)內(nèi)容”[5]。這些內(nèi)容隱蔽、難以被審查發(fā)現(xiàn),若經(jīng)由社交媒體廣泛傳播可能引起難以預(yù)計(jì)的后果。
面對(duì)技術(shù)挑戰(zhàn),筆者認(rèn)為可以分階段制定策略。在研發(fā)初始階段,建立健全的技術(shù)評(píng)估與測(cè)試體系,包括內(nèi)部壓力測(cè)試、外部獨(dú)立評(píng)審以及用戶反饋循環(huán),力爭(zhēng)全方位把控技術(shù)穩(wěn)定性。在視頻創(chuàng)作階段,針對(duì)視頻內(nèi)容準(zhǔn)確性和邏輯性,可以通過重點(diǎn)收集和訓(xùn)練涉及復(fù)雜物理場(chǎng)景和因果關(guān)系的數(shù)據(jù)來提升模型的理解與模擬能力;增加視頻審核環(huán)節(jié),引入專家評(píng)審機(jī)制,邀請(qǐng)?jiān)髡?、專業(yè)編輯和技術(shù)專家共同參與視頻初稿的多輪審核,保證視頻的嚴(yán)謹(jǐn)與合理性,提升視頻質(zhì)量。
2.多元視野糾正算法失衡
算法失衡根植于訓(xùn)練數(shù)據(jù),帶有文化價(jià)值和情感傾向的數(shù)據(jù)在無數(shù)次訓(xùn)練中慢慢滲透形成偏見。盡管Sora的訓(xùn)練細(xì)節(jié)尚未公開,鑒于其廣泛吸收包含歐美在內(nèi)的全球多元文化語料,算法失衡滋生的歧視性內(nèi)容對(duì)用戶價(jià)值觀念的潛在影響不可小覷。圖書視頻是文化領(lǐng)域的傳播媒介,若Sora生成的視頻內(nèi)隱含異化的價(jià)值導(dǎo)向,不僅有損原著精神與作者權(quán)益,還可能誤導(dǎo)觀眾以致他們形成錯(cuò)誤認(rèn)知。
針對(duì)Sora創(chuàng)作視頻過程中隱含的算法失衡問題,制定實(shí)施綜合策略至關(guān)重要。一方面,應(yīng)構(gòu)建防御算法失衡的壁壘,核心是多樣性和包容性。Sora在開發(fā)過程中應(yīng)積極采集來自全球各地、涵蓋各種文化背景和社會(huì)階層的數(shù)據(jù),削弱某一特定文化或價(jià)值觀的過度代表,使其生成的視頻不僅貼合國(guó)內(nèi)觀眾的需求,而且具備廣泛的適用性和包容性。另一方面,應(yīng)構(gòu)建透明的算法審計(jì)和評(píng)估系統(tǒng),并在視頻生成階段引入審查程序。結(jié)合Sora已發(fā)布的安全措施,與跨學(xué)科專家合作對(duì)模型進(jìn)行對(duì)抗性測(cè)試,在盡可能減少人自身認(rèn)知判斷局限的基礎(chǔ)上,最大限度降低生成錯(cuò)誤信息、仇恨內(nèi)容等的可能性;開發(fā)檢測(cè)工具,引入視頻生成階段的圖像分類與文本過濾系統(tǒng),對(duì)輸出內(nèi)容進(jìn)行持續(xù)審查與偏差校正,從而在技術(shù)與倫理層面共同保障生成視頻的公正性與安全性。
3.互動(dòng)共創(chuàng)消融公眾偏見
Sora技術(shù)在未來發(fā)展成熟并投入圖書視頻應(yīng)用后,公眾對(duì)其生成內(nèi)容的接受度也將面臨挑戰(zhàn),部分讀者可能對(duì)Sora圖書視頻化應(yīng)用這一新興模式存在偏見。這種偏見可能來自讀者對(duì)Sora技術(shù)本能的戒備心理,一種對(duì)未知事物的自然警覺——他們質(zhì)疑AI生成視頻內(nèi)容的真實(shí)性。偏見也可能來自某些根深蒂固的觀念,如AI生成視頻往往遵循某種模式,創(chuàng)造的內(nèi)容缺乏深度等。一些讀者可能偏好真人演繹或講解,因此對(duì)AI生成視頻的風(fēng)格感到不適應(yīng)。不論AI視頻風(fēng)格如何改變,其呈現(xiàn)的AI風(fēng)格與人工制作或真人演繹視頻的風(fēng)格之間的差異依舊無法避免,所以部分觀眾可能暫時(shí)難以調(diào)整自己的審美預(yù)期,短期內(nèi)無法接受Sora生成的視頻。
針對(duì)Sora生成的視頻和公眾接受度之間的矛盾,可制定多維度的宣傳互動(dòng)策略,逐步培育用戶對(duì)Sora的接受度及認(rèn)可度。在技術(shù)層面,應(yīng)提高技術(shù)信息透明度,通過組織研討會(huì)、發(fā)表技術(shù)白皮書闡明Sora的核心技術(shù)機(jī)制及獨(dú)特優(yōu)勢(shì),并引入業(yè)界專家與原著作者的權(quán)威認(rèn)證,以緩解公眾的擔(dān)憂與抵觸;在制作層面,可展示Sora生成的高質(zhì)量圖書視頻,鼓勵(lì)用戶參與視頻創(chuàng)作并反饋問題,強(qiáng)化其對(duì)產(chǎn)品的信任度和對(duì)平臺(tái)的歸屬感。針對(duì)偏好真人元素的受眾可以開發(fā)Sora與真人講解結(jié)合的混合型內(nèi)容,使之更貼近真人視頻的質(zhì)感和表現(xiàn)力;在平臺(tái)運(yùn)營(yíng)層面,可構(gòu)建用戶社群,開展線上線下多形式交流活動(dòng),搭建用戶和創(chuàng)作者間的溝通橋梁,以期形成正面的用戶口碑環(huán)境和持續(xù)反饋循環(huán),使Sora生成視頻更好地滿足用戶的閱讀需求和心理期望。
4.多層共治保障數(shù)據(jù)安全
Sora創(chuàng)作的視頻以原著為藍(lán)本,融合了大量的視覺元素和音頻素材,版權(quán)歸屬與保護(hù)將成為難題?!吨腥A人民共和國(guó)著作權(quán)法》第二十一條第一款規(guī)定“著作權(quán)保護(hù)期為五十年”,這意味著諸多流行作品均處于保護(hù)期內(nèi),圖書視頻化需取得相應(yīng)授權(quán)。但對(duì)于獨(dú)立創(chuàng)作者或小型團(tuán)隊(duì)而言,版權(quán)購(gòu)買成本高昂,因此,如何制定版權(quán)保護(hù)新規(guī)定及有效監(jiān)管成為亟待解決的問題。同時(shí),Sora的大數(shù)據(jù)訪問權(quán)限加劇了未經(jīng)授權(quán)素材使用與個(gè)人隱私泄露的風(fēng)險(xiǎn),其高效率的生成能力對(duì)版權(quán)保護(hù)體系構(gòu)成前所未有的考驗(yàn),可能直接侵害創(chuàng)作者權(quán)益,突破個(gè)人隱私邊界。
為應(yīng)對(duì)這一系列挑戰(zhàn),2023年7月10日,我國(guó)正式頒布《生成式人工智能服務(wù)管理暫行辦法》,填補(bǔ)了傳統(tǒng)監(jiān)管在人工智能領(lǐng)域的空白。面向Sora在圖書視頻化領(lǐng)域的具體應(yīng)用,現(xiàn)階段“雖然無法對(duì)人工智能生成內(nèi)容的素材來源作出明確說明,但仍需對(duì)生成內(nèi)容作出‘本內(nèi)容由AI生成’的提示說明”[6]?,F(xiàn)有的管理辦法與監(jiān)管框架比較宏觀,缺乏針對(duì)視頻創(chuàng)作與傳播環(huán)節(jié)的細(xì)致規(guī)定,亟須通過收集案例、細(xì)化條例來完善法律框架。鑒于此,政府部門需加快立法節(jié)奏,加速出臺(tái)有針對(duì)性的、細(xì)化的法律法規(guī)或指導(dǎo)原則,以促進(jìn)視頻創(chuàng)作行業(yè)的健康發(fā)展。同時(shí),應(yīng)構(gòu)建全面的數(shù)字教育與技術(shù)風(fēng)險(xiǎn)監(jiān)管機(jī)制,提升監(jiān)管技術(shù)、強(qiáng)化版權(quán)與數(shù)據(jù)安全防護(hù),這是營(yíng)造健康、可持續(xù)的視頻創(chuàng)作生態(tài)的關(guān)鍵。
四、結(jié)語
Sora憑借其卓越的視覺表現(xiàn)力、高效的內(nèi)容轉(zhuǎn)換能力,以及對(duì)市場(chǎng)需求的敏銳響應(yīng),為讀者提供了創(chuàng)新性的閱讀體驗(yàn),同時(shí)也為圖書行業(yè)開辟了嶄新的商業(yè)模式與盈利增長(zhǎng)點(diǎn)。但需要注意的是,實(shí)際應(yīng)用中可能產(chǎn)生包括技術(shù)成熟度的局限、公眾對(duì)AI生成內(nèi)容的認(rèn)知偏差、算法的潛在偏見,以及版權(quán)與數(shù)據(jù)安全的法律邊界挑戰(zhàn)。鑒于此,本文提出了一系列有針對(duì)性的策略,旨在通過構(gòu)建全面的技術(shù)評(píng)估框架、增強(qiáng)算法透明度、防范算法偏見、協(xié)同推進(jìn)相關(guān)法規(guī)建設(shè),在保障創(chuàng)新與倫理平衡之間找到合理路徑。通過持續(xù)的研究實(shí)踐,Sora也許會(huì)成為驅(qū)動(dòng)圖書出版行業(yè)轉(zhuǎn)型的重要?jiǎng)恿Γ咝зx能更多元、高品質(zhì)的數(shù)字閱讀時(shí)代,實(shí)現(xiàn)行業(yè)可持續(xù)發(fā)展。
|參考文獻(xiàn)|
[1]Creating video from text[EB/OL].[2025-04-06]. https://openai.com/index/sora/?ref=aihub.cn.
[2]Sora[EB/OL].[2025-04-06]. https://openai.com sora/.
[3]數(shù)據(jù)報(bào)告|第54次中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告[EB/OL].(2024-10-25)[2025-04-06].https://mp.weixin.qq.com/s?__biz=MzI0OTU1NDQ2Ng==amp;mid=2247527443amp;idx=2amp;sn=a4343bb1f832861dd693109af60c32b2amp;chksm=e8b675aa796cbdfd811631bc8fb06b982a404c2c0d76878820abfe300ac9ad404072f53a7d41amp;scene=27.
[4]杜華,孫艷超. 生成式人工智能浪潮下知識(shí)觀的再審視:兼論兩個(gè)經(jīng)典知識(shí)之問的當(dāng)代回應(yīng)[J]. 現(xiàn)代教育技術(shù),2024(1):96-106.
[5]杜都, 賴雪梅. 人工智能在出版營(yíng)銷領(lǐng)域的創(chuàng)新應(yīng)用[J]. 出版廣角,2024(19):29-35.
[6]丁毅. 人機(jī)協(xié)作下人工智能生成內(nèi)容的著作權(quán)共有模式[J]. 出版廣角,2024(9):34-39.