近年來,隨著數(shù)據(jù)和算力快速增長(zhǎng),AIGC技術(shù)取得了顯著進(jìn)步,尤其是在生成式人工智能方面取得了飛速發(fā)展,數(shù)據(jù)和算力呈現(xiàn)指數(shù)級(jí)增長(zhǎng)態(tài)勢(shì)。同時(shí),隨著國家與社會(huì)在人工智能方面持續(xù)投入,各地政府紛紛將算力平臺(tái)建設(shè)納入規(guī)劃,AI發(fā)展的基礎(chǔ)設(shè)施日益成熟,AI發(fā)展的生態(tài)日益成熟。
從數(shù)據(jù)方面看,為了提升AIGC技術(shù)的性能,許多地方都投入大量資源和精力進(jìn)行大規(guī)模模型訓(xùn)練,以提高語料等應(yīng)用質(zhì)量。隨著算力和數(shù)據(jù)建設(shè)不斷推進(jìn),AIGC技術(shù)將迎來更加廣闊、更加快速的發(fā)展機(jī)遇。可以說,以生成式人工智能為代表的通用人工智能時(shí)代已經(jīng)初現(xiàn)曙光。
AI為新時(shí)代發(fā)展構(gòu)建新引擎
通用人工智能之所以受到如此重視,是因?yàn)樗锌赡芤I(lǐng)一場(chǎng)前所未有的技術(shù)革命。這場(chǎng)智能革命將涉及我們?nèi)粘I詈凸ぷ髦兴信c人類智力有關(guān)的活動(dòng)。一旦通用人工智能達(dá)到人類智能水平,我們工作生活的領(lǐng)域都有可能被人工智能賦能,或可能被其替代。因此,它對(duì)整個(gè)人類社會(huì)的影響將廣泛且深遠(yuǎn)。
從積極角度看,它將給人類發(fā)展帶來前所未有的生產(chǎn)力;而從消極角度看,它可能給現(xiàn)有社會(huì)發(fā)展模式帶來巨大沖擊。先進(jìn)生產(chǎn)力必然要求生產(chǎn)關(guān)系與之相適應(yīng),兩者之間的磨合將是一個(gè)漫長(zhǎng)而復(fù)雜的過程。
隨著通用人工智能的快速發(fā)展,我們不斷見證眾多令人驚嘆的成就。例如,在文本大模型方面,無論是撰寫文本,還是編寫代碼,這些大模型都展現(xiàn)了強(qiáng)大能力。2023年,國內(nèi)眾多廠商紛紛涉足這一領(lǐng)域,并取得了顯著成果。實(shí)際上,這些模型已經(jīng)在多個(gè)領(lǐng)域展現(xiàn)其實(shí)際應(yīng)用價(jià)值。據(jù)估計(jì),傳統(tǒng)軟件編程行業(yè)受益于代碼大模型,代碼開發(fā)效率至少提升30%。
語言大模型的發(fā)展將朝著多模態(tài)方向繼續(xù)深入,像圖文大模型和視頻大模型,能夠自動(dòng)生成充滿想象力、具有視覺沖擊力的圖像和視頻,為用戶帶來強(qiáng)烈視覺沖擊。例如,只需輸入“騎馬的宇航員在月球上”的提示,即可生成相應(yīng)圖片;而輸入“風(fēng)云變幻”則能生成相應(yīng)視頻。如今,像Sora這樣的技術(shù)已經(jīng)為設(shè)計(jì)工作和視頻制作帶來了質(zhì)量和效率的巨大提升。
具身大模型是指讓機(jī)器具備跟現(xiàn)實(shí)世界進(jìn)行交互能力的大模型。人類在現(xiàn)實(shí)世界的交互中,涉及諸多難以明確表述的知識(shí)與技能,很多都是直覺或者經(jīng)驗(yàn)。然而,隨著具身大模型的持續(xù)進(jìn)步和成熟,我們有理由相信,機(jī)器將逐漸融入我們的家庭與社會(huì)生活,成為我們?nèi)粘I畹闹匾糠帧?/p>
在語音大模型方面,其已經(jīng)具備生成高度逼真音樂的能力。
由此可見,人工智能在各種各樣的生成任務(wù)當(dāng)中,從文字到圖像,到語音到視頻,已經(jīng)取得巨大進(jìn)步。如何看待這種進(jìn)步,人工智能研究領(lǐng)域內(nèi)部存在不同的觀點(diǎn)派別。一部分觀點(diǎn)認(rèn)為,AI已遠(yuǎn)超人類,并傾向于以樂觀的態(tài)度接受這一事實(shí)。實(shí)際上,盡管AI在某些方面表現(xiàn)了創(chuàng)新能力,但其本質(zhì)仍屬于組合創(chuàng)新,即將不同的元素拼接。例如,當(dāng)我們要求AI生成“青花瓷戰(zhàn)艦”時(shí),它只能將青花瓷的圖片與戰(zhàn)艦的元素結(jié)合。因此,我們需要清醒地認(rèn)識(shí)到,目前的通用人工智能發(fā)展仍處于初級(jí)階段,在推動(dòng)其發(fā)展的同時(shí),我們也應(yīng)關(guān)注其存在的局限與不足。
AI賦能視聽行業(yè)展現(xiàn)新價(jià)值
我們應(yīng)當(dāng)持辯證態(tài)度來看待AI的創(chuàng)新能力和價(jià)值,特別是組合創(chuàng)新的價(jià)值。事實(shí)上,人類的創(chuàng)新活動(dòng)在很大程度上都是基于組合創(chuàng)新。例如,在短劇創(chuàng)作中,我們發(fā)現(xiàn)很多作品將A故事的場(chǎng)景、B故事的人物與當(dāng)前熱門話題相結(jié)合。這種拼接并非原始創(chuàng)新。因此,組合創(chuàng)新這種較低層次的能力可以由人工智能來完成。而突破現(xiàn)有思維框架的創(chuàng)新,仍然是人類所獨(dú)具的能力。我們?cè)诳隙ńM合創(chuàng)新的同時(shí),要認(rèn)識(shí)到人類在原始創(chuàng)新方面的獨(dú)特性和不可替代性。
Sora自今年2月發(fā)布以來,其成就應(yīng)當(dāng)受到我們的高度重視。我們必須深入理解其對(duì)產(chǎn)業(yè)和未來的潛在影響。Sora之所以讓人震撼,是其能生成長(zhǎng)度一分鐘的與人類世界的物理規(guī)律、文化習(xí)俗及生活常識(shí)高度契合的視頻內(nèi)容。在此之前,我們的AI系統(tǒng)很難實(shí)現(xiàn)對(duì)人類社會(huì)習(xí)俗規(guī)律如此精確地建模。
另外,Sora在發(fā)揮想象力方面也表現(xiàn)出色。Sora的想象力基本上符合我們?nèi)祟愊胂?,這一點(diǎn)尤為難得。無論是生成的圖像還是視頻,Sora都能夠在保持合理性的同時(shí),展現(xiàn)豐富的創(chuàng)意和想象力。要保持大規(guī)模時(shí)空范圍內(nèi)的時(shí)空一致性、邏輯完整性,需要巨大算力支持、海量數(shù)據(jù)資源及先進(jìn)模型架構(gòu)。Sora無疑展示了其世界建模能力方面所取得的顯著進(jìn)展。
值得一提的是,Sora使用Transformer模型架構(gòu),能在大時(shí)空范圍內(nèi)進(jìn)行注意力有效計(jì)算,確保了時(shí)空一致性。其采用時(shí)空塊為基本數(shù)據(jù)處理單元,使視頻建模變得普適,覆蓋了各類視頻內(nèi)容。此外,Transformer還引入了重組提示詞技術(shù),可以讓生成內(nèi)容忠實(shí)于用戶指令。配合Diffusion技術(shù),它能夠從噪聲中還原圖像,并能兼容不同的視頻制式,展現(xiàn)了Sora技術(shù)的先進(jìn)性。在處理視頻時(shí),它能夠識(shí)別后續(xù)情節(jié)與前面情節(jié)的相關(guān)性,借鑒了語言模型的超長(zhǎng)上下文訓(xùn)練技術(shù),實(shí)現(xiàn)了高分辨率和長(zhǎng)時(shí)間訓(xùn)練。這些都是Sora技術(shù)上的獨(dú)特之處。
AI發(fā)展應(yīng)注重培養(yǎng)具有評(píng)價(jià)能力的人才
Sora在發(fā)展中仍面臨一系列問題,這恰恰成為我們努力改進(jìn)的方向。首先,Sora在處理物體與物體之間關(guān)系時(shí)存在誤區(qū)。例如,在描述跑步機(jī)上人與跑步機(jī)的關(guān)系時(shí),存在明顯邏輯錯(cuò)誤。根本原因在于缺乏高質(zhì)量數(shù)據(jù)支持。我們目前雖然擁有部分?jǐn)?shù)據(jù),但數(shù)據(jù)精度不足或物理場(chǎng)景數(shù)據(jù)缺失都導(dǎo)致了Sora在物理常識(shí)方面的不足。
其次,Sora還存在順勢(shì)瞬時(shí)事件建模問題,如杯子傾倒或人的表情突變等細(xì)節(jié)性建模還是很困難。其原因在于缺乏足夠的瞬時(shí)樣本數(shù)據(jù)。因此,很多人工智能生成視頻會(huì)出現(xiàn)局部合理、全局荒謬的問題。事實(shí)上,即便觀眾在觀看電視劇時(shí),也會(huì)常常因?yàn)橛洃浟ο拗贫y以保持對(duì)前后情節(jié)的連貫理解。對(duì)于機(jī)器而言,要實(shí)現(xiàn)視頻前后邏輯、時(shí)空背景和角色表現(xiàn)的高度一致性,更是困難重重。
另外,在多模態(tài)大模型的核心要素中,提示語的作用至關(guān)重要。現(xiàn)階段高質(zhì)量的提示語能夠引導(dǎo)模型產(chǎn)生更為優(yōu)質(zhì)的結(jié)果,但隨著技術(shù)不斷進(jìn)步,模型對(duì)于優(yōu)質(zhì)提示語的依賴度將逐漸降低。這意味著,未來即便使用簡(jiǎn)單提示語,也能夠生成高質(zhì)量?jī)?nèi)容。值得注意的是,這樣會(huì)給AI的創(chuàng)造發(fā)揮留出較大空間,其生成內(nèi)容并不一定符合我們的本意。
因此,在當(dāng)前AIGC時(shí)代背景下,對(duì)于生成內(nèi)容的評(píng)價(jià)和選擇顯得尤為關(guān)鍵。AI生成內(nèi)容并非盡善盡美,其中不乏事實(shí)性錯(cuò)誤和邏輯偏差,這就更需要我們審慎地對(duì)其進(jìn)行評(píng)價(jià)和選擇,但并非所有人都具備對(duì)AI生成內(nèi)容的評(píng)價(jià)與選擇能力。尼采曾言:“人的本質(zhì)是評(píng)價(jià)?!痹贏IGC時(shí)代,這一觀點(diǎn)尤為貼切。隨著AI逐漸取代我們的日常工作,學(xué)會(huì)評(píng)價(jià)將成為一項(xiàng)至關(guān)重要的技能。面對(duì)這一挑戰(zhàn),我們需要不斷提升自身的評(píng)價(jià)能力,以應(yīng)對(duì)未來AI時(shí)代的需求。
AI為產(chǎn)業(yè)發(fā)展提供新質(zhì)生產(chǎn)力
人工智能的發(fā)展將對(duì)很多產(chǎn)業(yè)產(chǎn)生深遠(yuǎn)影響。在影視創(chuàng)作方面,隨著AIGC的發(fā)展,很多工作將會(huì)被重新解構(gòu),細(xì)化為多個(gè)環(huán)節(jié),其中提示、評(píng)價(jià)等任務(wù)由人類完成,而生成等重復(fù)性工作則交由機(jī)器處理。這是未來AI時(shí)代典型的人機(jī)協(xié)作模式,即人類負(fù)責(zé)創(chuàng)造性和決策性任務(wù),機(jī)器承擔(dān)重復(fù)性勞動(dòng),將顯著降低影視制作成本,并推動(dòng)影視行業(yè)向智能化方向轉(zhuǎn)型。
Sora的潛力遠(yuǎn)不止于視頻領(lǐng)域。未來,無人駕駛技術(shù)將成為另一個(gè)巨大的發(fā)展機(jī)遇。其核心問題主要是對(duì)現(xiàn)實(shí)路況和實(shí)際世界進(jìn)行實(shí)時(shí)建模,這與Sora所面臨的問題相似。相較于復(fù)雜的現(xiàn)實(shí)世界,車路環(huán)境的建模相對(duì)簡(jiǎn)單。
在工業(yè)、醫(yī)療等領(lǐng)域,Sora所展示的強(qiáng)大建模能力,很有可能為相關(guān)行業(yè)的仿真模擬、虛擬現(xiàn)實(shí)帶來很多機(jī)會(huì),從而推動(dòng)各行業(yè)和人工智能深度融合,甚至可能給相關(guān)行業(yè)帶來全新的產(chǎn)業(yè)變革機(jī)遇。
以Sora為代表的AIGC勢(shì)必引領(lǐng)新一輪數(shù)智化新質(zhì)生產(chǎn)力。其核心要素涵蓋多個(gè)方面,其中最為關(guān)鍵的是大模型應(yīng)用及高質(zhì)量的數(shù)據(jù)。我們必須積極激發(fā)數(shù)據(jù)要素市場(chǎng)活力,從而確保數(shù)據(jù)資源充足和優(yōu)質(zhì)。同時(shí),大模型的實(shí)際應(yīng)用要與各個(gè)行業(yè)緊密結(jié)合,才能充分挖掘大模型和數(shù)據(jù)要素的價(jià)值,推動(dòng)生產(chǎn)力實(shí)質(zhì)性提升。
AI的健康發(fā)展離不開安全風(fēng)險(xiǎn)管控
在持續(xù)發(fā)展的過程中,我們?nèi)匀幻媾R一個(gè)不可忽視的關(guān)鍵因素,即AI的安全風(fēng)險(xiǎn),特別是涉及AI倫理的安全風(fēng)險(xiǎn)。只有我們充分認(rèn)識(shí)和妥善管理這些風(fēng)險(xiǎn),AI技術(shù)才能得到廣泛而穩(wěn)健地應(yīng)用。作為先進(jìn)生產(chǎn)力,AI產(chǎn)業(yè)發(fā)展的核心要素是模型、數(shù)據(jù)、行業(yè)應(yīng)用場(chǎng)景和安全風(fēng)險(xiǎn)管控。這些要素的有機(jī)結(jié)合,才能形成真正意義上推動(dòng)AI作為先進(jìn)生產(chǎn)力的持續(xù)發(fā)展。
對(duì)于傳統(tǒng)媒體和影視制作企業(yè)而言,當(dāng)前的技術(shù)變革帶來了前所未有的重大機(jī)遇。盡管在模型構(gòu)建和算力方面,它們可能無法與專業(yè)公司競(jìng)爭(zhēng),但其獨(dú)特優(yōu)勢(shì)是擁有海量?jī)?yōu)質(zhì)數(shù)據(jù)。例如,電視臺(tái)播出的內(nèi)容配合高質(zhì)量腳本,都是精心制作的成果。這些數(shù)據(jù)具有很高的實(shí)用價(jià)值,可以直接用于各種多模態(tài)大模型的訓(xùn)練,進(jìn)而賦能各種應(yīng)用場(chǎng)景??梢?,Sora的核心還是數(shù)據(jù)。對(duì)于傳統(tǒng)視聽企業(yè)而言,高質(zhì)量數(shù)據(jù)將成為激活A(yù)IGC市場(chǎng)的寶貴資源。
在AIGC時(shí)代大背景下,我們必須正視一個(gè)問題,AI的濫用可能對(duì)人類審美能力造成損害。例如,當(dāng)觀眾首次觀看一部電影時(shí),可能會(huì)感到好奇和興奮。如果每天都接觸類似場(chǎng)景,人類感官可能會(huì)逐漸麻木,導(dǎo)致對(duì)美的感知能力下降。美的稀缺性才是其價(jià)值所在,如果濫用,美的稀缺性可能會(huì)喪失,進(jìn)而影響我們的審美能力。如何在享受科技帶來的便利的同時(shí),保護(hù)美的稀缺性,將成為值得我們深思的問題。
同樣,AIGC技術(shù)濫用會(huì)帶來人類認(rèn)知、感知功能的紊亂。隨著AI生成內(nèi)容質(zhì)量越來越高,真實(shí)與虛假世界的界限日益模糊,這為判斷事物真?zhèn)螏砹死щy。因此,應(yīng)用應(yīng)該堅(jiān)持有所為有所不為的原則,劃定AI應(yīng)用邊界,制定應(yīng)用準(zhǔn)則,避免濫用,是未來AIGC健康和有序發(fā)展的前提。
人不僅是萬物的尺度,更是AI技術(shù)的尺度。AIGC的發(fā)展必須以人類福祉為唯一依據(jù)與標(biāo)準(zhǔn),這樣才能確保其有序、健康地發(fā)展。W
(作者肖仰華系復(fù)旦大學(xué)教授、上海市數(shù)據(jù)科學(xué)重點(diǎn)實(shí)驗(yàn)室主任)