摘要:從判別式人工智能到生成式人工智能的發(fā)展使得作為技術(shù)基底的大語言模型不但引起了空前的關(guān)注,也成為科技創(chuàng)新產(chǎn)業(yè)競(jìng)相追逐的新熱點(diǎn)。在內(nèi)在結(jié)構(gòu)方面,大語言模型雖展現(xiàn)出強(qiáng)大的泛化和涌現(xiàn)能力,但也存在泛化能力差、過度擬合、數(shù)據(jù)偏差等問題,其“涌現(xiàn)”現(xiàn)象也難以預(yù)測(cè)和控制。同時(shí),大語言模型面臨數(shù)據(jù)抗衰和模型退化的發(fā)展瓶頸。隨著時(shí)間推移,性能受“模型漂移”的影響在多模態(tài)、多任務(wù)領(lǐng)域明顯下降,商業(yè)化落地受阻,部分企業(yè)的先發(fā)優(yōu)勢(shì)難以超越。盡管大語言模型的突飛猛進(jìn)被視為信息社會(huì)新階段的標(biāo)志,但是其發(fā)展面臨著有待解決的挑戰(zhàn)和限制,以及背后曠日持久的能源和財(cái)力消耗。因此,唯有深入研究大語言模型技術(shù)的底層邏輯和運(yùn)行原理,進(jìn)行針對(duì)性測(cè)試和評(píng)估,批判性地審視其生成的價(jià)值邏輯,才能更有針對(duì)性地處理大語言模型對(duì)社會(huì)關(guān)系產(chǎn)生的影響,從而更好地解決人機(jī)協(xié)同及交互界面等問題。
關(guān)鍵詞:大模型;泛化;模型退化;價(jià)值
基金項(xiàng)目:國家社會(huì)科學(xué)基金一般項(xiàng)目“德勒茲資本批判視域下的西方平臺(tái)資本主義研究”(項(xiàng)目編號(hào):20BZX011)
中圖分類號(hào):B84;TP18 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1003-854X(2025)01-0104-08
在2023年度中國十大學(xué)術(shù)熱點(diǎn)排行中,“生成式人工智能與知識(shí)生產(chǎn)范式變革”赫然名列其中。而作為其技術(shù)基底的大語言模型成功引起了研究者、產(chǎn)業(yè)界和監(jiān)管機(jī)構(gòu)的高度關(guān)注。國內(nèi)和國際AI界都非常重視大模型尤其是在此基礎(chǔ)上向通用人工智能發(fā)展的安全問題。2023年11月23日,在第二屆全球數(shù)字貿(mào)易博覽會(huì)數(shù)據(jù)要素治理與市場(chǎng)化論壇上,國家數(shù)據(jù)局局長(zhǎng)劉烈宏在解讀接下來的工作任務(wù)時(shí),特別提出數(shù)據(jù)基礎(chǔ)設(shè)施要為數(shù)據(jù)應(yīng)用方提供適應(yīng)于通用化的智能決策、輔助設(shè)計(jì)、智慧管理等能力,也要充分利用人工智能大模型的最新成果,促進(jìn)數(shù)字化轉(zhuǎn)型和智能化升級(jí)。為此要推進(jìn)數(shù)據(jù)領(lǐng)域核心技術(shù)攻關(guān)、強(qiáng)化數(shù)據(jù)安全治理。而來自歐盟委員會(huì)、歐洲議會(huì)和27個(gè)成員國的代表,也在2023年12月早些時(shí)候達(dá)成了一項(xiàng)三方協(xié)議,擬對(duì)人工智能監(jiān)管進(jìn)行立法并已完成草案的準(zhǔn)備工作。其中一個(gè)重要方面就是對(duì)大語言模型開發(fā)人員基本的透明度要求。法案根據(jù)商業(yè)用戶數(shù)量和模型參數(shù)對(duì)大模型采取了分級(jí)管理的制度,但透明度要求將適用于所有模型,包括在不泄露所有者商業(yè)機(jī)密的情況下有義務(wù)發(fā)布訓(xùn)練數(shù)據(jù)概要,并要求人工智能生成的內(nèi)容必須做到可即時(shí)識(shí)別。對(duì)于前沿大模型,相關(guān)的合規(guī)義務(wù)還包括定期披露模型評(píng)估、跟蹤系統(tǒng)風(fēng)險(xiǎn)、網(wǎng)絡(luò)安全保護(hù)以及模型能耗在內(nèi)的詳細(xì)報(bào)告。
由此可見,一方面由于人工智能發(fā)展的無限潛力以及它為改變世界提供的巨大可能,另一方面也由于技術(shù)本身的不透明性和其發(fā)展過程的不確定性,業(yè)界、社會(huì)、學(xué)術(shù)界和多國政府之間已經(jīng)開始有意識(shí)地形成知識(shí)共享和最佳實(shí)踐協(xié)同,重點(diǎn)關(guān)注安全標(biāo)準(zhǔn)和安全實(shí)踐,通過確定人工智能安全方面最重要的開放研究問題來支持人工智能安全生態(tài)系統(tǒng),以減輕各種潛在風(fēng)險(xiǎn)。很多業(yè)內(nèi)人士在不同場(chǎng)合表示,目前在推動(dòng)大模型商業(yè)化落地方面還面臨諸多痛點(diǎn):如何精準(zhǔn)針對(duì)市場(chǎng)需求來開發(fā)下游場(chǎng)景應(yīng)用?如何保證長(zhǎng)期充裕的資金和能源支持?是追求算力無限升級(jí)還是尋求有效性算力?更為關(guān)鍵的是,高質(zhì)量訓(xùn)練數(shù)據(jù)集的迭代更新以及使用安全和可解釋性的問題,也亟待解決。在這種重要性之下,從算法邏輯、機(jī)器學(xué)習(xí)的特點(diǎn)以及場(chǎng)景應(yīng)用出發(fā)對(duì)大模型所提供的知識(shí)生產(chǎn)方式和結(jié)果進(jìn)行批判性分析就是非常必要甚至急迫的事情,因?yàn)樗瓤赡軐?duì)當(dāng)下的社會(huì)認(rèn)知和未來人類知識(shí)圖譜發(fā)生重大且無法預(yù)測(cè)的影響(這種影響甚至有可能對(duì)今后有關(guān)現(xiàn)實(shí)的每一個(gè)單獨(dú)判斷都發(fā)生難以察覺和不可逆轉(zhuǎn)作用,因?yàn)橐坏┦褂谜邔?duì)某種特定的知識(shí)生產(chǎn)方式產(chǎn)生強(qiáng)烈的信任與依賴,無意識(shí)地在認(rèn)知習(xí)慣中排斥其他模型和認(rèn)知方式,就有可能喪失對(duì)所獲得的數(shù)據(jù)和信息進(jìn)行批判性思考的能力),同時(shí)也會(huì)關(guān)系到當(dāng)前政府和產(chǎn)業(yè)界對(duì)于大模型技術(shù)的支持和布局。
一、大模型的內(nèi)在結(jié)構(gòu)瓶頸:泛化和涌現(xiàn)
ChatGPT的爆熱不僅使OpenAI自2023年以來收獲了最高的關(guān)注度,也成功帶動(dòng)了知識(shí)界、產(chǎn)業(yè)界以及立法監(jiān)管機(jī)構(gòu)對(duì)大模型技術(shù)的了解和追捧。僅就行業(yè)發(fā)展而言,在國際上,除了GPT的生成式預(yù)訓(xùn)練模型外,同樣基于transformer的BERT、被證明在視覺對(duì)象識(shí)別和分類中極為成功的深度學(xué)習(xí)模型ResNet、基于LSTM架構(gòu)的上下文感知模型ELMo、在文本分類和情感分析任務(wù)上表現(xiàn)優(yōu)秀的自然語言處理模型RoBERTa,以及眾多適用于專項(xiàng)任務(wù)的深度卷積神經(jīng)網(wǎng)絡(luò)模型都得到了不同程度的發(fā)展和應(yīng)用。在國內(nèi),百度的文心一言、阿里云的M6、騰訊云的MT-SAT、科大訊飛的星火和華為的盤古大模型等預(yù)訓(xùn)練模型也在推進(jìn)技術(shù)的同時(shí),試圖結(jié)合已有的構(gòu)架創(chuàng)造新的人工智能應(yīng)用場(chǎng)景。一種加速主義的立場(chǎng)被貫徹到了從科技界到人文社會(huì)科學(xué)領(lǐng)域。在媒體的推波助瀾之下,人們普遍相信對(duì)大模型性能的持續(xù)優(yōu)化和迭代可以實(shí)現(xiàn)智能的突破。
這些爭(zhēng)奇斗艷的大模型,盡管性能不同,但都可以通過機(jī)器學(xué)習(xí)有效地從大量標(biāo)記和未標(biāo)記的數(shù)據(jù)中捕獲具有邏輯關(guān)系的信息,并通過將這些信息(和人類理解的“知識(shí)”并不完全重合)存儲(chǔ)到大量的參數(shù)中并對(duì)特定任務(wù)進(jìn)行微調(diào),極大地?cái)U(kuò)展了模型的泛化能力。這就使得它們?cè)趹?yīng)對(duì)不同場(chǎng)景的任務(wù)時(shí),不再需要完全從零開始,而只需要借助少量的樣本進(jìn)行微調(diào)即可。更為關(guān)鍵的是,實(shí)現(xiàn)了有效泛化之后的大模型在突破了某個(gè)規(guī)模時(shí)可以展現(xiàn)出驚人的“涌現(xiàn)(emergence)”能力,即令人意想不到的知識(shí)生產(chǎn)能力,它可以在沒有直接訓(xùn)練過的任務(wù)上表現(xiàn)出非常優(yōu)秀的性能。這種涌現(xiàn)能力之所以讓人倍感驚異,其主要特質(zhì)有兩點(diǎn):第一是它們的突然爆發(fā)性,它不是一個(gè)漸進(jìn)的程度改變的過程,而似乎是瞬間從不存在轉(zhuǎn)變?yōu)榇嬖诘姆蔷€性不連續(xù)過程;第二是它們的不可預(yù)測(cè)性,不但難以預(yù)測(cè)其出現(xiàn)的規(guī)模,就連規(guī)模的縮放也并不和模型的規(guī)??s放成正比。新的研究和評(píng)測(cè)還表明,在某些任務(wù)和模型中存在超出閾值的復(fù)雜度,超過該閾值后模型的功能會(huì)急劇提高。盡管對(duì)于“涌現(xiàn)”的原因和其在人工智能發(fā)展過程中所代表的意義眾說紛紜,但相對(duì)較為一致的共識(shí)認(rèn)為,“涌現(xiàn)”現(xiàn)象是復(fù)雜系統(tǒng)內(nèi)部各個(gè)組成部分之間的相互作用和協(xié)同作用所導(dǎo)致的系統(tǒng)整體表現(xiàn)出來的性質(zhì)和行為。這些性質(zhì)和行為無法簡(jiǎn)單地從各個(gè)組成部分的性質(zhì)和行為中推導(dǎo)出來。簡(jiǎn)單地說,其性能的戲劇性躍升無法簡(jiǎn)化或還原為某個(gè)或某些因素及它們之間的作用。
這種看似神奇的能力使得作為人工智能基底的大模型技術(shù)更添“玄學(xué)”色彩:有人甚至認(rèn)為這種不可預(yù)測(cè)的能力所具有的無限潛力可以被認(rèn)為是人工智能“覺醒”的表現(xiàn)。伴隨生成式人工智能ChatGPT的乍現(xiàn)而來的“機(jī)器意識(shí)”話題至此更被放大,“智能涌現(xiàn)”“智能意識(shí)”的概念一度在驚艷之外還加深了人們對(duì)人工智能發(fā)展長(zhǎng)久以來就有的焦慮。那么,從“泛化”到“涌現(xiàn)”,是否意味著大模型技術(shù)已成為解決問題的最佳選擇或具備向通用人工智能轉(zhuǎn)變的基礎(chǔ)了呢?答案到目前為止都是否定的。
首先,大模型技術(shù)的良好應(yīng)用前景必須建立在模型的高“泛化”能力的基礎(chǔ)上,而模型的“泛化”性能是指模型對(duì)非訓(xùn)練數(shù)據(jù)集(即新數(shù)據(jù))的適應(yīng)能力和推廣能力,它是一個(gè)機(jī)器學(xué)習(xí)模型在面對(duì)新的數(shù)據(jù)集時(shí)表現(xiàn)優(yōu)劣的衡量指標(biāo)之一?!按笳Z言模型不像循環(huán)神經(jīng)網(wǎng)絡(luò)那樣單線程地進(jìn)行學(xué)習(xí),而是同時(shí)有大量副本各自就不同文本展開學(xué)習(xí),并通過共享權(quán)重或梯度的方式即時(shí)性地分享學(xué)習(xí)成果。”(1)一個(gè)好的模型需要具備較高的泛化能力,這也就意味著它的運(yùn)行不僅應(yīng)當(dāng)在用來訓(xùn)練的數(shù)據(jù)上表現(xiàn)出色,還應(yīng)該可以在基于其他數(shù)據(jù)的測(cè)試集、驗(yàn)證集以及實(shí)際應(yīng)用中展現(xiàn)出良好的預(yù)測(cè)性能,只有這樣才能夠適應(yīng)新的數(shù)據(jù)集并具備較好的預(yù)測(cè)精度。這種遷移學(xué)習(xí)的能力,即把從過去的經(jīng)驗(yàn)(訓(xùn)練數(shù)據(jù))中學(xué)習(xí)到的邏輯鏈條、知識(shí)表達(dá)和策略應(yīng)用到新的數(shù)據(jù)場(chǎng)景中的功能(也是大模型的“舉一反三”),是大模型最被需要的能力。換句話說,以大模型技術(shù)為基礎(chǔ)的人工智能要在不同的下游場(chǎng)景中適應(yīng)良好并應(yīng)用自如,必須要提高模型的“泛化”性能,這也是向通用人工智能轉(zhuǎn)變過程中的一個(gè)核心問題。
模型“泛化”能力差有兩種不同的表現(xiàn):過度擬合與擬合不足(欠擬合)。由于訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集不重合,當(dāng)模型可以在訓(xùn)練數(shù)據(jù)上獲得較好的表現(xiàn),但在測(cè)試數(shù)據(jù)集上卻表現(xiàn)欠佳的時(shí)候,被稱之為過度擬合。出現(xiàn)這一現(xiàn)象的原因可能是模型過于復(fù)雜。而當(dāng)在訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集上面都不能獲得良好表現(xiàn)時(shí),則被認(rèn)為是擬合不足,原因則是模型過于簡(jiǎn)單。兩種情況都無法表達(dá)數(shù)據(jù)之間的真實(shí)關(guān)系。
因?yàn)檫@個(gè)原因,有學(xué)者和業(yè)內(nèi)人士對(duì)大模型技術(shù)的普遍應(yīng)用的前景提出了質(zhì)疑。他們認(rèn)為,依賴于巨型數(shù)據(jù)集和高算力的大模型并不是解決所有人工智能技術(shù)問題的萬應(yīng)良藥。因?yàn)榇竽P退蕾嚨淖曰貧w算法不但需要耗費(fèi)巨大的能源資源和長(zhǎng)時(shí)的訓(xùn)練,而且其擬合不足和過度擬合的問題難以在隨機(jī)的驗(yàn)證數(shù)據(jù)集中體現(xiàn)出來。其所導(dǎo)致的模型崩潰會(huì)極大地影響下游應(yīng)用。而這些問題的產(chǎn)生,不僅取決于參數(shù)和數(shù)據(jù)的數(shù)量,還取決于模型結(jié)構(gòu)與數(shù)據(jù)形狀(即數(shù)據(jù)分布的離散度)的差異大小。以目前的GPT-4為例,其自身所生成的文本一旦進(jìn)入自己的訓(xùn)練數(shù)據(jù)庫,則必然改變?nèi)祟愔R(shí)所具有的多樣性,過度擬合的收縮將難以避免。對(duì)這個(gè)問題的補(bǔ)救往往需要訴諸更大更全更新的數(shù)據(jù)庫進(jìn)行多次驗(yàn)證,這種循環(huán)顯然是非良性的。
而要使得模型具有良好的泛化能力,不但要在特征選擇和特征縮放(選擇與目標(biāo)變量高度相關(guān)的特征,以及去除噪聲和冗余特征)與數(shù)據(jù)增強(qiáng)方面投注更多精力,更需要通過結(jié)合多個(gè)模型來提高泛化能力。事實(shí)上,越簡(jiǎn)單的模型越具有更好的泛化能力,模型的復(fù)雜度會(huì)增加泛化的難度。因此,在訓(xùn)練模型時(shí),可以通過早期停止法、正則化等方法適當(dāng)?shù)卣{(diào)整模型的復(fù)雜度,以避免過度擬合引起的模型崩潰。但這一做法本身卻又和大模型發(fā)展要求的多模態(tài)和多任務(wù)融合的基本傾向之間存在一定的張力。因?yàn)榘凑諅鹘y(tǒng)的機(jī)器學(xué)習(xí)泛化理論,模型的參數(shù)量越多,其擬合能力也就會(huì)越強(qiáng),這意味著模型的泛化能力會(huì)越差。作為很多大模型底層的深度神經(jīng)網(wǎng)絡(luò),其參數(shù)規(guī)模一般極為可觀,這就導(dǎo)致它的泛化能力和參數(shù)量增長(zhǎng)之間的關(guān)系呈現(xiàn)出開放性特征,并不是參數(shù)越大越好。大語言模型(LLMs)在隨著GPT系列驚艷現(xiàn)身后也被爆出存在泛化問題。
其次,對(duì)于“涌現(xiàn)”現(xiàn)象,盡管人們的理解還遠(yuǎn)不能達(dá)到其生成的內(nèi)在機(jī)制,但它也并不如某些技術(shù)樂觀主義者宣揚(yáng)的是“機(jī)器智能”生發(fā)的奇點(diǎn)?!坝楷F(xiàn)”這個(gè)概念最初是由諾貝爾獎(jiǎng)得主物理學(xué)家P.W.安德森在其著作《越多越不同(More Is Different)》里提出的。他認(rèn)為“大型和復(fù)雜的基本粒子集合體的行為,并不能按照少數(shù)基本粒子性質(zhì)的簡(jiǎn)單外推來理解”(2),隨著一個(gè)系統(tǒng)的復(fù)雜性增加,新的性質(zhì)可能會(huì)出現(xiàn),即使從系統(tǒng)微觀細(xì)節(jié)的精確定量理解都無法預(yù)測(cè)這些性質(zhì)。這種非線性突變?cè)谛∧P椭胁⒉淮嬖?,這也就是為什么大模型技術(shù)在由生成式人工智能帶火的這波發(fā)展浪潮中被追捧的原因之一,它被不少研究者和商業(yè)人士視作通往超級(jí)智能的技術(shù)構(gòu)架。但在AI領(lǐng)域最重要的會(huì)議之一、一年一度的NeurlPS神經(jīng)信息處理系統(tǒng)會(huì)議上,一篇題為 “Are Emergent Abilities of Large Language Models a Mirage?” (《大語言模型中的涌現(xiàn)是海市蜃樓嗎?》)的論文獲得了年度最佳論文,文章通過數(shù)學(xué)方法測(cè)評(píng)指出,大模型的涌現(xiàn)能力在很大程度上是由于研究者選擇的度量標(biāo)準(zhǔn)而產(chǎn)生的,而不是模型性能在規(guī)模擴(kuò)展中發(fā)生了根本質(zhì)性變化,“所謂的涌現(xiàn)能力會(huì)隨著不同的指標(biāo)或更好的統(tǒng)計(jì)數(shù)據(jù)而消失”(3)。這也就意味著,所謂機(jī)器的“自主智能”更多是對(duì)于“涌現(xiàn)”成因的不可知性的過于樂觀的想像。
“涌現(xiàn)”作為一種復(fù)雜系統(tǒng)的現(xiàn)象,它并不是大模型內(nèi)在的本質(zhì)性能力,而取決于很多方面的原因,雖然它在一些時(shí)候展現(xiàn)出非常強(qiáng)大和令人振奮的神奇,但它的可靠性卻無法被期待,這體現(xiàn)在以下幾個(gè)方面:
第一,“涌現(xiàn)”現(xiàn)象難以被排錯(cuò)(debug)和調(diào)試。由于“涌現(xiàn)”出現(xiàn)的機(jī)制和參數(shù)規(guī)模都并不清晰且難以預(yù)測(cè),對(duì)其進(jìn)行識(shí)別和debug的難度就非常之大。而且如果數(shù)據(jù)存在偏差或質(zhì)量問題,模型的涌現(xiàn)能力和結(jié)果都會(huì)受到影響。數(shù)據(jù)偏差可能導(dǎo)致模型在某些情況下表現(xiàn)不佳,甚至產(chǎn)生錯(cuò)誤的預(yù)測(cè)或決策。一旦這種錯(cuò)誤不能被很快監(jiān)測(cè)到,就會(huì)在不知情的情況下影響下游應(yīng)用。
第二,可解釋性差。大模型技術(shù)本身的復(fù)雜程度就已經(jīng)非常之高,深度神經(jīng)網(wǎng)絡(luò)的很多關(guān)鍵性邏輯仍處于黑箱狀態(tài)?!坝楷F(xiàn)”更是黑箱中的黑箱。其難以提高的可解釋性會(huì)導(dǎo)致人機(jī)信任危機(jī)增加,特別是在需要解釋復(fù)雜情況或涉及敏感問題的應(yīng)用中。
第三,泛化能力有限。雖然大模型的涌現(xiàn)能力可能會(huì)在某些特定任務(wù)上表現(xiàn)出色,但這并不意味著它能夠在廣泛的領(lǐng)域和場(chǎng)景中泛化?!坝楷F(xiàn)”所依賴的訓(xùn)練數(shù)據(jù)集的多樣性和質(zhì)量及其結(jié)構(gòu)和參數(shù)的復(fù)雜性有可能導(dǎo)致模型泛化能力的下降,從而降低其面對(duì)新任務(wù)時(shí)的性能表現(xiàn)。
因而從內(nèi)在機(jī)制來看,雖然大模型的涌現(xiàn)能力令人震驚,但在目前階段依舊存在難以解決的難題。所以在實(shí)際應(yīng)用中需要謹(jǐn)慎考慮其適用性和局限性。大模型的涌現(xiàn)能力也并非沒有局限,對(duì)于某些特定的領(lǐng)域,它的性能可能還不如針對(duì)專項(xiàng)任務(wù)的模型。事實(shí)上,在很多任務(wù)的實(shí)現(xiàn)上,數(shù)據(jù)的數(shù)量并不是保證模型適配性的唯一因素,相反,數(shù)據(jù)的質(zhì)量、可靠性以及模型適用性的標(biāo)準(zhǔn)同樣重要。在某些情況下,小數(shù)據(jù)集可能更加準(zhǔn)確和可靠,因?yàn)樗鼈兏菀走M(jìn)行有效的數(shù)據(jù)清洗和篩選。弱算力的系統(tǒng)也可以通過使用高效的算法和優(yōu)化技術(shù)來提高性能,如可以使用并行計(jì)算、分布式計(jì)算和硬件加速等技術(shù)來提高系統(tǒng)的效率和性能。而且,和大模型技術(shù)后期的“遞歸詛咒”相反,小數(shù)據(jù)學(xué)習(xí)進(jìn)路在后期隨著數(shù)據(jù)集的增加和模型的優(yōu)化,可以取得更好的效果。這是因?yàn)樾?shù)據(jù)學(xué)習(xí)更側(cè)重于深入理解數(shù)據(jù)和模型,通過精細(xì)調(diào)整和優(yōu)化模型架構(gòu)、特征工程等方面,取得更好的效果。這也就意味著,大模型技術(shù)并不能完全取代其他的技術(shù)應(yīng)用方法,它的優(yōu)越性只有在特定的領(lǐng)域內(nèi)才能體現(xiàn),并不是所有的場(chǎng)景應(yīng)用都值得用大模型再做一遍。
二、大模型的發(fā)展瓶頸:數(shù)據(jù)抗衰與模型退化
人工智能的長(zhǎng)足發(fā)展取決于兩個(gè)關(guān)鍵性的方面,一是模型的優(yōu)化和更新,二是下游應(yīng)用市場(chǎng)的普及和創(chuàng)新。前者是后者的基礎(chǔ),后者則保證和維持了前者不斷發(fā)展的動(dòng)力?!坝捎趯W(xué)術(shù)研究和行業(yè)應(yīng)用可能共享相同的主干LLM,因此在LLM上的大多數(shù)研究進(jìn)展可能有利于其下游應(yīng)用?!保?)由此大模型與應(yīng)用之間形成遞進(jìn)關(guān)系,即先有強(qiáng)大的大模型,才能有優(yōu)質(zhì)應(yīng)用;反過來,只有通過優(yōu)質(zhì)應(yīng)用所吸引的用戶及其產(chǎn)生的數(shù)據(jù)和反饋,才能幫助大模型不斷優(yōu)化和改進(jìn)?!霸钪妗睆男鷩桃粫r(shí)到后繼無力很大程度上與下游應(yīng)用的開發(fā)缺乏想象力相關(guān)。反觀這一波大模型浪潮,從ChatGPT仿佛“機(jī)械降神”般的現(xiàn)世到不久之后GPT-4的上線,國內(nèi)外眾多科創(chuàng)企業(yè)的跟進(jìn),使得2023年成為名副其實(shí)的AI大模型的大戰(zhàn)之年。OpenAI當(dāng)之無愧地在這一年的大部分時(shí)間里都成為引領(lǐng)風(fēng)騷的先鋒,當(dāng)GPT-4在下半年增加了“my GPTs(我的GPT)”的自定義設(shè)置后,不但提供了一種人際交互創(chuàng)新的平臺(tái),更借助用戶的力量將模型本身的迭代和多任務(wù)優(yōu)化做到了極致。盡管大模型技術(shù)的后來者眾,但到目前為止,能在參數(shù)、算力和前期積累方面與GPT系列真正一較高下的新模型并未出現(xiàn),直到谷歌公司在2023年12月6日發(fā)布號(hào)稱有史以來體量最大、功能最強(qiáng)的大模型Gemini(有Gemini Ultra、Gemini Pro 和Gemini Nano三個(gè)版本),用以挑戰(zhàn)GPT-4的霸主地位。
相比于OpenAI將純文本、純視覺和純音頻模型拼接在一起的多模態(tài)實(shí)現(xiàn)方式,谷歌稱其多模態(tài)為原生多模態(tài)(natively multimodal),它可以支持輸入文本、圖像、音頻和視頻,輸出圖像和文字,“無縫”理解、操作和組合不同類型的信息,擁有了強(qiáng)大的交互能力。研發(fā)者聲稱這種“原生性”體現(xiàn)為模型從初始階段就被設(shè)計(jì)為“多感官”模型,通過對(duì)其“投喂”多模態(tài)數(shù)據(jù)(包括文字、音頻、圖片、視頻、PDF文件等)進(jìn)行訓(xùn)練,再根據(jù)訓(xùn)練結(jié)果用另外的多模態(tài)數(shù)據(jù)進(jìn)行微調(diào),進(jìn)一步提升模型的有效性。在谷歌給出的與GPT-4的對(duì)比成績(jī)單中,Gemini Ultra在32個(gè)常用的學(xué)術(shù)基準(zhǔn)的30個(gè)上領(lǐng)先GPT-4。而在MMLU(大規(guī)模多任務(wù)語言理解)測(cè)試中,Gemini Ultra以90.0%的高分,成為第一個(gè)超過人類專家的模型。為此,谷歌公司展示了一個(gè)長(zhǎng)達(dá)6分鐘的視頻,用以全方位展現(xiàn)Gemini在多模態(tài)任務(wù)上的強(qiáng)大性能。在這段視頻中,Gemini仿佛一個(gè)智慧體,不僅能觀察周圍世界,及時(shí)做出反應(yīng),還會(huì)說多國語言,并實(shí)時(shí)用聲音、圖像與人類互動(dòng)。
然而,正是這個(gè)視頻在一天之內(nèi)就引發(fā)了爭(zhēng)議,使得研究者對(duì)Gemini的真實(shí)能力產(chǎn)生了質(zhì)疑。面對(duì)有理有據(jù)的質(zhì)疑,谷歌公司不得不向媒體承認(rèn),這個(gè)視頻并非實(shí)時(shí)錄制,而是經(jīng)過多次剪輯。但Gemini的研發(fā)負(fù)責(zé)人否認(rèn)故意造假,稱只是為了簡(jiǎn)潔縮短了反應(yīng)時(shí)長(zhǎng),使用了原始鏡頭中的靜止圖像幀,然后編寫了文本提示,減少了延遲。這也證明了Gemini對(duì)任務(wù)的真實(shí)反應(yīng)速度不但遠(yuǎn)遠(yuǎn)慢于視頻所展示的,而且仍然在一定程度上依賴于提示工程(prompt engineering)。
一時(shí)之間,“翻車”和“造假”之聲四起,谷歌的回應(yīng)也并沒有收到預(yù)期的效應(yīng)。在關(guān)于科技誠信和宣傳策略的拉扯背后,是這場(chǎng)所謂的“造假”風(fēng)波所影射出的AI公司急于打破頭部霸主的科技?jí)艛嗟匚?、吸引資本市場(chǎng)的焦慮。積淀深厚的老牌企業(yè)都如此,各路后來跟進(jìn)的新秀就更加只能在卷參數(shù)、卷任務(wù)的路上一路飆進(jìn)了??萍冀绶路鹨灰怪g變成了大模型加速主義的天下。
與此同時(shí),GPT大模型的缺陷卻在不斷被爆出。先是2023年5月,就有大模型老用戶在OpenAI論壇上開始抱怨GPT-4,即使在熟練的任務(wù)領(lǐng)域內(nèi)也出現(xiàn)了性能下降的情況,他們形容這種情況為人工智能“變笨”了。對(duì)于此,OpenAI的產(chǎn)品副總裁Peter Welinder在社交媒體上表示,更多用戶、更長(zhǎng)時(shí)間的使用(背后是更多的數(shù)據(jù))使得ChatGPT在同一任務(wù)中發(fā)現(xiàn)了更多的問題。這從另一個(gè)角度證明了大語言模型的泛化能力存在缺陷,并且它目前能實(shí)現(xiàn)的思維鏈條離真正的人類理解還很遠(yuǎn)。
這種模型的衰退現(xiàn)象與之前人們普遍相信的“數(shù)據(jù)飛輪”作用形成了強(qiáng)烈反差。在具有增效作用的數(shù)據(jù)飛輪中,更多的數(shù)據(jù)有助于訓(xùn)練出更好的模型從而吸引更多使用者,進(jìn)而產(chǎn)生更大數(shù)據(jù)集和模型參數(shù)用于微調(diào)和優(yōu)化。在這個(gè)過程中,數(shù)據(jù)和模型的增長(zhǎng)形成了相互促進(jìn),并且隨著使用時(shí)間的增加效應(yīng)越快。這正是網(wǎng)絡(luò)的正外部性效應(yīng)的體現(xiàn),所謂“要么平臺(tái),要么烏有”。多模態(tài)大模型的運(yùn)作實(shí)際上形成了一種強(qiáng)大的數(shù)據(jù)生產(chǎn)平臺(tái),它以自身特有的邏輯機(jī)理控制了知識(shí)的再生產(chǎn)。但即使在最樂觀的情形之下,數(shù)據(jù)的“飛輪作用”并不是無限的,它不但存在其自身的閾值,而且它是否能發(fā)展到極大值還要取決于限制性條件和需求。來自斯坦福大學(xué)和加州大學(xué)伯克利分校的研究者在一篇《ChatGPT的行為會(huì)隨時(shí)間如何變化?(How is ChatGPT's behavior changing over time?)》的論文中提出:大模型的性能表現(xiàn)可以在較短的時(shí)間內(nèi)有巨大的差異,并不總是穩(wěn)定。因此“需要不斷地評(píng)估和評(píng)估應(yīng)用程序中LLM漂移的行為,特別是由于像ChatGPT這樣的LLM如何隨著時(shí)間的更新并不透明”。(5)研究者同時(shí)對(duì)GPT-3.5和GPT-4做了測(cè)試,他們?cè)趯?duì)四個(gè)常見的基準(zhǔn)任務(wù)——數(shù)學(xué)問題、敏感問題、代碼生成和視覺推理的結(jié)果進(jìn)行比較的基礎(chǔ)上發(fā)現(xiàn),兩個(gè)版本的ChatGPT的表現(xiàn)都隨時(shí)間發(fā)生了變化,其中大部分是變差,只有極少數(shù)的任務(wù)出現(xiàn)了優(yōu)化。并且,這種時(shí)間變化沒有形成穩(wěn)定的曲率關(guān)系,難以預(yù)測(cè)和判斷。這一結(jié)果在一定程度上打破了技術(shù)研發(fā)者和投資者對(duì)大模型應(yīng)用前景所做的樂觀估計(jì)。
事實(shí)上,這種衰退幾乎是所有機(jī)器學(xué)習(xí)模型的“頑疾”。哈佛大學(xué)、劍橋大學(xué)、蒙特雷大學(xué)和麻省理工學(xué)院早在2022年就通過研究結(jié)果證明,91%的機(jī)器學(xué)習(xí)模型都會(huì)隨著時(shí)間的推移出現(xiàn)性能下降。這種退化類似于人類的衰老現(xiàn)象,因而研究者將此稱為“人工智能老化”。這種老化的本質(zhì),和“模型漂移”有關(guān),它是機(jī)器學(xué)習(xí)生命周期中一個(gè)非常重要的特性,指的是目標(biāo)變量和自變量之間的關(guān)系隨時(shí)間而變化。更簡(jiǎn)單地說,由于數(shù)據(jù)變化或輸入與輸出變量之間關(guān)系發(fā)生變化而導(dǎo)致模型性能下降。由于這種漂移,模型會(huì)變得不穩(wěn)定,并且在大多數(shù)時(shí)候會(huì)隨著時(shí)間的推移預(yù)測(cè)精度不斷降低?!澳P推啤狈譃椤皵?shù)據(jù)漂移”和“概念漂移”兩種,它們分別意指對(duì)數(shù)據(jù)的分布或數(shù)據(jù)的解釋隨著時(shí)間發(fā)生了變化,前者會(huì)導(dǎo)致訓(xùn)練好的模型與新的數(shù)據(jù)變量分布不相關(guān),從而發(fā)生結(jié)果惡化;后者則可能是獨(dú)立或在前者的基礎(chǔ)上,目標(biāo)變量的含義發(fā)生變化,從而使原有的模型喪失意義。從這里可以發(fā)現(xiàn),模型漂移從本質(zhì)上講反映的是目標(biāo)變量的動(dòng)態(tài)變化性與預(yù)訓(xùn)練模型的靜態(tài)適應(yīng)之間的張力關(guān)系,依賴于人類行為和社會(huì)現(xiàn)象的模型可能會(huì)更加容易退化,因?yàn)檫@兩者發(fā)生改變的幾率和進(jìn)行解釋的語境相關(guān)性要遠(yuǎn)高于數(shù)學(xué)問題。
在機(jī)器學(xué)習(xí)模型的常規(guī)運(yùn)作中,數(shù)據(jù)飛輪本質(zhì)上是為了迭代模型,用新模型解決新問題。當(dāng)數(shù)據(jù)飛輪的神奇作用不再能被保證、而成了一個(gè)如“永動(dòng)機(jī)”一般的神話時(shí),大模型的發(fā)展就不得不面對(duì)自身的瓶頸。從GPT系列不長(zhǎng)的發(fā)展歷程可以看到,幾乎其每一次的性能躍遷,都是在預(yù)訓(xùn)練數(shù)據(jù)的數(shù)量、質(zhì)量、多樣性等方面做出了重要的提升。GPT-2大約有15億個(gè)參數(shù),而GPT-3最大的模型有1750億個(gè)參數(shù),上升了兩個(gè)數(shù)量級(jí),GPT-4的參數(shù)則達(dá)到100萬億規(guī)模,規(guī)模呈指數(shù)級(jí)增長(zhǎng)。然而,由這樣的海量參數(shù)和訓(xùn)練數(shù)據(jù)集訓(xùn)練出來的模型一旦發(fā)生漂移現(xiàn)象,對(duì)其進(jìn)行重新調(diào)整和訓(xùn)練也并非易事。盡管理論上,對(duì)漂移現(xiàn)象也可以進(jìn)行建模和監(jiān)測(cè),但由于巨大的時(shí)間成本(長(zhǎng)時(shí)間的跟蹤和測(cè)試、驗(yàn)證)和數(shù)據(jù)資源成本(首先要確認(rèn)漂移區(qū)域,在針對(duì)性地進(jìn)行訓(xùn)練),可行性上存在巨大困難。尤其在多模態(tài)、多任務(wù)領(lǐng)域,難度更加提升。
這種難度既反映在大模型技術(shù)本身的迭代和推進(jìn)上,也反映在下游的應(yīng)用場(chǎng)景中。盡管2023年上半年的投資市場(chǎng)極為熱衷于AI場(chǎng)景創(chuàng)新,但真正落地并成功商業(yè)化的并不多見。這是由于OpenAI母公司的強(qiáng)勢(shì)創(chuàng)新能力和市場(chǎng)野心。在2023年11月開發(fā)者大會(huì)上,ChatGPT的開發(fā)者奧特曼就展示了公司針對(duì)多模態(tài)、my GPTs以及其他工具的全盤布局,這幾乎涉及了眾多應(yīng)用公司在這一波浪潮中的全部商業(yè)化努力,但其功能卻更強(qiáng)大、價(jià)格也更為低廉。無疑,從規(guī)模方面來看,大模型暴力美學(xué)依賴的大數(shù)據(jù)、高算力的發(fā)展方式使得平臺(tái)加速主義的先發(fā)優(yōu)勢(shì)顯露無疑,后來者很難在短時(shí)間內(nèi)通過數(shù)據(jù)增強(qiáng)和模型優(yōu)化趕超領(lǐng)先者。
正因?yàn)槿绱?,更多的?yīng)用創(chuàng)業(yè)者轉(zhuǎn)而另辟蹊徑,在專業(yè)性的行業(yè)大模型方向?qū)ふ倚碌目臻g。這當(dāng)然是由于transformer技術(shù)的底層構(gòu)架已經(jīng)被開源,眾多通用大模型的次第推出使得業(yè)界可以直接通過微調(diào)的方式使用,而不需要耗費(fèi)巨大的人力物力和時(shí)間單獨(dú)完成研發(fā)新模型的任務(wù)。但在這個(gè)基礎(chǔ)上,大容量、高質(zhì)量的行業(yè)數(shù)據(jù)就顯得至關(guān)重要。它不僅是微調(diào)模型能否成功的核心,也是其投入商業(yè)化應(yīng)用的市場(chǎng)前景的保證。然而,就目前的情形而言,各行業(yè)的數(shù)據(jù)資源都非常有限,且質(zhì)量不一。各種統(tǒng)計(jì)方法呈現(xiàn)出來的差異也非常大。這種分散性不僅導(dǎo)致了數(shù)據(jù)達(dá)不到調(diào)試模型有效性的閾值,還會(huì)在沒有統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)和質(zhì)量控制的情況下,使得模型訓(xùn)練效果大打折扣,甚至影響其泛化的效果。而要徹底改變這種情況,勢(shì)必增加企業(yè)的巨大運(yùn)行成本。以很多創(chuàng)業(yè)者關(guān)注的醫(yī)療大模型為例,它不但需要各醫(yī)療衛(wèi)生機(jī)構(gòu)開放共享各自的醫(yī)療數(shù)據(jù)來構(gòu)建行業(yè)數(shù)據(jù)集,還需要再增加數(shù)據(jù)的豐富性和多樣性,但其有效性和投入使用的收益卻難以預(yù)測(cè)。這些問題共同構(gòu)成了當(dāng)下大模型技術(shù)推廣的主要瓶頸。
三、反思認(rèn)知技術(shù)化與數(shù)字加速主義
和“元宇宙”主題一樣,人文學(xué)者和科創(chuàng)界圍繞大模型和人工智能的種種喧囂——驚嘆、焦慮和躁動(dòng)——一度讓工具批判和技術(shù)解析的聲音很難被理性地看待,除非它被安排上配合流行的驚異—反轉(zhuǎn)敘事的故事結(jié)構(gòu)。而且,由于人工智能技術(shù)壁壘和黑箱始終存在,技術(shù)話語和大眾傳播之間的鴻溝難以以有效的科普方式填補(bǔ),對(duì)于該問題的討論在某些時(shí)候不可避免地被披上了帶有臆想色彩的外衣。除此之外,媒體在助推這種想象性上扮演了不可忽視的角色,“注意力經(jīng)濟(jì)”的策略使他們更愿意選擇符合受眾期待或更容易引起討論的角度。這些討論毋庸置疑地最終被導(dǎo)向了技術(shù)加速與未來社會(huì)建構(gòu)之間的張力關(guān)系。和經(jīng)典的現(xiàn)代性批判以及技術(shù)理性批判的思路不同,卷體量、卷算力、卷速度的大模型的眾神之戰(zhàn)讓一種迷戀加速的密集主義傾向和迷戀規(guī)模的暴力美學(xué)占據(jù)了上峰,這很難不讓人想起十年前亞歷克斯·威廉姆斯(Alex Williams)與尼克·斯?fàn)柲崛耍∟ick Srnicek)發(fā)表的《一種加速主義政治的宣言(Manifesto for an Accelerationist Politics)》(下文簡(jiǎn)稱《加速主義宣言》)一文。文章秉承了未來主義主張加快技術(shù)革命的一貫取向,倡導(dǎo)通過對(duì)已有科技成果的挪用和重新配置,改造社會(huì)結(jié)構(gòu)、經(jīng)濟(jì)模型和意識(shí)形態(tài),實(shí)現(xiàn)人類解放。在這個(gè)宣言的核心中,兩位作者對(duì)新科技的發(fā)展寄予了無限希望,認(rèn)為解除技術(shù)阻礙將導(dǎo)致資本主義崩潰,在此基礎(chǔ)之上產(chǎn)生出新的人類社會(huì)形態(tài)。德勒茲和加塔利在《反俄狄浦斯》中所描述的資本主義對(duì)生產(chǎn)力的壓制和他們描繪出的“解轄域化(deterritorilization)”成為威廉姆斯和斯?fàn)柲崛说睦碚撡Y源。
從BERT到ChatGPT再到Gemini的突飛猛進(jìn),以及國內(nèi)AI大廠爭(zhēng)奇斗艷的大模型之戰(zhàn),標(biāo)志著信息社會(huì)進(jìn)入了大模型主導(dǎo)的新階段。這讓很多人樂觀地相信,人—機(jī)互融,信息、模型和行動(dòng)的無縫銜接時(shí)代即將到來。谷歌也指出在可以預(yù)見的時(shí)間內(nèi)通用人工智能將會(huì)得到應(yīng)用和普及,各種領(lǐng)域中的智能系統(tǒng)將具備與人類認(rèn)知能力相持平的智力水平,能夠勝任多種復(fù)雜任務(wù)。人們相信,隨著大模型的不斷優(yōu)化和民用化,其將極大地推動(dòng)生產(chǎn)力躍升,從而成為社會(huì)生產(chǎn)生活的主要工具,重塑經(jīng)濟(jì)社會(huì)的生產(chǎn)和再生產(chǎn)方式,全面降低生產(chǎn)成本,提升經(jīng)濟(jì)效益。甚至有人認(rèn)為,大模型技術(shù)集成了互聯(lián)網(wǎng)、云計(jì)算和大數(shù)據(jù)的全部生產(chǎn)能力,實(shí)現(xiàn)了信息獲取的邊際成本無限趨近零。將來更可以通過智能系統(tǒng)自動(dòng)獲取信息,利用大模型中樞驅(qū)動(dòng)各類任務(wù)系統(tǒng)或通用人工智能,使得社會(huì)生產(chǎn)和再生產(chǎn)的總成本將逐漸趨近固定成本,從而從根本上解決資本主義生產(chǎn)的剝削頑疾。
這種美好的設(shè)想仿佛《加速主義宣言》的理論藍(lán)圖已然成真。但正如奈格里在對(duì)這一主張做出反思時(shí)指出的那樣,這“是通過將認(rèn)知?jiǎng)趧?dòng)從其潛伏期中撕開的方式來釋放它的力量”,以為只要解放被資本壓制的認(rèn)知?jiǎng)趧?dòng)生產(chǎn)力,就能夠“最終把握從物質(zhì)勞動(dòng)霸權(quán)到非物質(zhì)勞動(dòng)霸權(quán)的轉(zhuǎn)變……革命的唯物主義歷來都是這樣做的”。(6)奈格里承認(rèn),這種斷言無論從政治上還是技術(shù)上都過于決定論了,他借用了德勒茲和加塔利的“集體性裝配(collective assemble)”概念來展示重新占有固定資本和轉(zhuǎn)變勞動(dòng)力的可能。但事實(shí)上,《加速主義宣言》的兩位作者都過于樂觀地解讀了德勒茲和加塔利的理論,他們忽視了后者的另一個(gè)概念更加適用于分析認(rèn)知?jiǎng)趧?dòng)生產(chǎn)和人工智能社會(huì)條件。思考新技術(shù)的發(fā)展及其社會(huì)化應(yīng)用后果,是縈繞德勒茲資本批判始終的一大主題。德勒茲曾以“公理化”(axiomatization)來形容資本主義生產(chǎn)方式的運(yùn)行機(jī)制和擴(kuò)張路徑。與前資本主義社會(huì)借助特定符號(hào)意義,將社會(huì)要素的流動(dòng)限制在特定場(chǎng)域內(nèi)部、并憑借清晰且不可逾越的規(guī)則實(shí)現(xiàn)對(duì)社會(huì)進(jìn)行整合的“編碼化”體系不同,資本的公理化不但具有更為嚴(yán)密和周全的特征,且借助著資本強(qiáng)大的同質(zhì)化邏輯將所遭遇的一切元素裹挾進(jìn)自己的洪流,哪怕這些元素本身具有解放性的潛力。這種公理化邏輯并不通過明確的轄域來實(shí)施對(duì)社會(huì)要素的控制,相反,它通過更加普遍的、更具成長(zhǎng)性和可塑性的“強(qiáng)中心”體系強(qiáng)化了控制的深度和廣度:“只有一只作為中心計(jì)算機(jī)的眼睛,它進(jìn)行著全范圍的掃視?!保?)在此基礎(chǔ)之上,晚年德勒茲曾提出了“控制社會(huì)”(society of control)理論,以揭示在信息通訊與互聯(lián)網(wǎng)技術(shù)普及應(yīng)用的前景下,資本主義社會(huì)統(tǒng)治形式將發(fā)生的整體嬗變:技術(shù)的進(jìn)步擴(kuò)展了資本微觀規(guī)訓(xùn)的社會(huì)場(chǎng)域,主體雖從福特制時(shí)代的“懲戒社會(huì)”中解放,卻又隨即陷入“技術(shù)—資本”合謀的控制論圖景之中。更為重要的是,這種控制方式因披上了價(jià)值中立和形式開放的外衣,而更加難以被辨識(shí)和揭露,從而在深層意義上強(qiáng)化了資本主義的統(tǒng)治秩序。如果說福特制中的流水線、工廠制度代表了產(chǎn)業(yè)資本場(chǎng)域封閉性的生產(chǎn)特征,那么后福特制時(shí)代的數(shù)字管理和數(shù)字生產(chǎn)方式則代表了金融資本將信息開放性和主體自由流動(dòng)性作為生產(chǎn)前提的特征。資本借助信息通訊技術(shù),將生產(chǎn)過程擴(kuò)展到社會(huì)諸微觀生活領(lǐng)域,且在知識(shí)生產(chǎn)公域化(實(shí)現(xiàn)通用化的知識(shí)前提)的前提下形成更趨數(shù)字理性的文化結(jié)構(gòu)。而世界范圍內(nèi)大模型競(jìng)賽的不斷推高的背后是技術(shù)的同一性的宰制(模型、構(gòu)架、共享數(shù)據(jù)庫),它必須要消弭任何不能被資本一體化運(yùn)作框架所涵蓋的異質(zhì)性因素,這正是資本總體化邏輯的具體展現(xiàn),它是知識(shí)生產(chǎn)從過程到結(jié)果都被資本所吸納的結(jié)果。正如馬克思所指出的,“資本只有在自己的發(fā)展過程中才不僅在形式上使勞動(dòng)過程從屬于自己,而且改變了這個(gè)過程,賦予生產(chǎn)方式本身以新的形式,從而第一次創(chuàng)造出它所特有的生產(chǎn)方式”。(8)
大模型在“泛化”和“涌現(xiàn)”上的結(jié)構(gòu)性沖突以及模型衰退和崩潰的缺陷由于一直停留在應(yīng)用市場(chǎng)之外的技術(shù)領(lǐng)域討論中,因而并沒有給予更廣泛的使用者客觀分析和理性對(duì)待其生成結(jié)果的機(jī)會(huì)。它使得人們忽略了對(duì)知識(shí)生產(chǎn)過程和方式的省察,代之以對(duì)人工智能技術(shù)的驚嘆式的贊賞和使用。傳統(tǒng)的與知識(shí)之間的批判性距離讓位于直接性的上手。從某種意義上而言,大模型的“泛化”性能越強(qiáng),就意味著它對(duì)于新任務(wù)和新數(shù)據(jù)庫的適應(yīng)性越強(qiáng),也意味著支撐大模型做出判斷的知識(shí)體系和價(jià)值邏輯越具有公理性。這種公理性的知識(shí)和價(jià)值鏈既是通用人工智能的通用性能夠成立的基礎(chǔ),也是它的人—機(jī)界面友好程度的保障,但同時(shí)它也制造了一種不驗(yàn)自明、無可置疑、睥睨一切社會(huì)存在的“數(shù)字的普遍理性”,使帶有特定價(jià)值預(yù)設(shè)的語言—概念—文化—價(jià)值體系被指認(rèn)為具有普遍性和自然性的現(xiàn)實(shí)(甚至真實(shí))本身,而這一體系無疑是現(xiàn)代性都市社會(huì)生活所預(yù)設(shè)的。當(dāng)技術(shù)成為普遍的社會(huì)無意識(shí),“泛化”的要求就成了大模型技術(shù)甚至通用人工智能的“社會(huì)征兆”(齊澤克意義上)。它需要不斷拓展自己的邊界,這導(dǎo)致大模型原有的概念體系和數(shù)據(jù)庫與新任務(wù)之間的矛盾不斷,從而出現(xiàn)模型漂移或崩潰,以至于從內(nèi)部瓦解了原模型本身。這種被稱之為“社會(huì)征兆”的東西喻示著某種在暗中與人們廣為接受的普遍性相對(duì)立的具有顛覆意味的特殊性,它是大模型技術(shù)造就的“數(shù)字的普遍理性”的撕裂口,揭示出認(rèn)知技術(shù)化的無意識(shí)幻像成為更大的“他者”。
對(duì)大模型的追高使一種具象方式出現(xiàn)的數(shù)字加速主義以前所未有的強(qiáng)度和態(tài)勢(shì)迫近我們的生活。它定位了一種集體性的“崇高客體”,不但用以“縫合”現(xiàn)代世界范圍內(nèi)、不同文化域中的“漂浮的能指”,甚至能以排他性的方式(過度擬合改變?cè)紨?shù)據(jù)庫離散度)實(shí)現(xiàn)知識(shí)重塑和普遍化。正如齊澤克所說:“對(duì)既定歷史現(xiàn)實(shí)的體驗(yàn),要想獲得其統(tǒng)一性,唯一的方式就是獲得能指的代理,通過對(duì)‘純粹’能指的指涉。將某一意識(shí)形態(tài)的統(tǒng)一性和同一性作為指涉點(diǎn)保證的,并不是實(shí)在客體。與此相反,正是對(duì)于一個(gè)‘純粹’能指的指涉,為我們對(duì)現(xiàn)實(shí)歷史自身的體驗(yàn)提供了統(tǒng)一性和同一性?!保?)大模型技術(shù)正是這樣一個(gè)“純粹”的能指,它以對(duì)其結(jié)構(gòu)性沖突和瓶頸的遮蔽為世界圖景的連續(xù)性提供了技術(shù)的保證。那么,真正的問題就在于:當(dāng)人工智能成為對(duì)社會(huì)認(rèn)知方式和文化體系進(jìn)行結(jié)構(gòu)化的依據(jù)時(shí),對(duì)大模型加速主義的迷戀是否在一種技術(shù)決定論的前提之下抽象地將重塑社會(huì)未來的維度簡(jiǎn)化成了單一的技術(shù)進(jìn)步?“把技術(shù)等同于工具的觀念帶來的是對(duì)通過把握真理而處理人自身與世界關(guān)系這一原初思考的遺忘,用胡塞爾的話說就是‘科學(xué)危機(jī)’,即去歷史化?!保?0)這一去歷史化的真正危機(jī)是使得解放的意涵可能喪失了社會(huì)關(guān)系的維度,并且越來越脫離任何實(shí)際的社會(huì)或政治機(jī)構(gòu)。而“通過加速我們現(xiàn)有的資源來實(shí)現(xiàn)從資本主義中獲得的解放,使資本本身——最重要的是,資本作為一種剝削性的社會(huì)關(guān)系——成為我們斗爭(zhēng)的地平線”。(11)然而,這種零和博弈式的市場(chǎng)角逐方式和現(xiàn)代性以來的分配原則市場(chǎng)競(jìng)爭(zhēng)有所差異?!坝捎谠诟?jìng)爭(zhēng)中的判決與區(qū)分原則是成就,因此,時(shí)間,甚至是加速邏輯,就直接處于現(xiàn)代性分配模式的核心當(dāng)中?!鐣?huì)競(jìng)爭(zhēng)的邏輯是,必須投入越來越多的資源,以維持競(jìng)爭(zhēng)力?!保?2)而大模型的平臺(tái)效應(yīng)無法促使常規(guī)性的競(jìng)爭(zhēng)發(fā)揮作用,先發(fā)者的壟斷優(yōu)勢(shì)難以突破。
大模型技術(shù)的數(shù)據(jù)暴力美學(xué)式發(fā)展的背后不但是巨大的能源和財(cái)力的消耗,而且是一場(chǎng)結(jié)果未知但曠日持久的投入。這既是技術(shù)的戰(zhàn)場(chǎng),也是資本的戰(zhàn)場(chǎng)。它不僅體現(xiàn)為資本以技術(shù)為工具對(duì)于人類歷史以來的一切共同性的吸納,也體現(xiàn)為其所代表的文化價(jià)值體系通過大模型的通用性輸出有偏差或有害的幻覺,這將會(huì)對(duì)使用者造成嚴(yán)重后果。但對(duì)于此問題,研究者僅僅從傳統(tǒng)的輸出結(jié)果的保真性角度出發(fā)是遠(yuǎn)遠(yuǎn)不夠的,因?yàn)楹芏鄷r(shí)候大模型的輸出結(jié)果中的錯(cuò)誤難以通過一般性的觀察被查知和糾正。并且必須意識(shí)到,沒有哪一個(gè)模型可以永遠(yuǎn)有效,只是衰退的速度各不相同。而現(xiàn)存的大語言模型隨著其規(guī)模的增加,模型性能甚至出現(xiàn)了先增加后又開始下降的現(xiàn)象。這既需要深入到大模型技術(shù)底層和邏輯鏈條中,根據(jù)其賴以成立的運(yùn)行原理進(jìn)行針對(duì)性測(cè)試和評(píng)估,從而對(duì)很可能發(fā)生的問題做出判斷,更需要批判性地拷問其生成的價(jià)值邏輯。簡(jiǎn)單的“價(jià)值對(duì)齊”并不是解決問題的良藥。因?yàn)閮r(jià)值從來不是普遍和勻質(zhì)的。大模型(以及通用人工智能)在智識(shí)生產(chǎn)方面的加速普遍化和人類社會(huì)文化價(jià)值的多樣性之間的不對(duì)稱會(huì)隨著數(shù)字技術(shù)的普及愈加明顯。而作為一項(xiàng)正在快速發(fā)展的技術(shù),不但大模型的技術(shù)原理需要更加細(xì)致和深入的研究,它對(duì)于社會(huì)關(guān)系再生產(chǎn)維度的影響、人機(jī)協(xié)同的關(guān)系生成方式以及交互界面的形成都應(yīng)當(dāng)被納入到更具有針對(duì)性的研究視野當(dāng)中。
注釋:
(1) 吳冠軍:《大語言模型的技術(shù)政治學(xué)評(píng)析》,《中國社會(huì)科學(xué)評(píng)價(jià)》2023年第4期。
(2) P. W. Anderson, More Is Different: Broken Symmetry and the Nature of the Hierarchical Structure of Science, 1972, 177(4047), pp.393-396.
(3) Rylan Schaeffer et al., Are Emergent Abilities of Large Language Models a Mirage? ArXiv: 2304.15004.
(4) Lei Li et al., Large Language Models for Generative Recommendation: A Survey and Visionary Discussions, ArXiv: 2309.01157.
(5) Lingjiao Chen et al., How is ChatGPT's Behavior Changing Over Time? ArXiv: 2307.09009.
(6) 安東尼奧·奈格里:《反思〈加速主義政治宣言〉》,張一兵主編:《社會(huì)批判理論紀(jì)事》第15輯,江蘇人民出版社2023年版。
(7) 吉爾·德勒茲、費(fèi)利克斯·加塔利:《資本主義與精神分裂(卷2):千高原》,姜宇輝譯,上海書店出版社2010年版,第295頁。
(8) 《馬克思恩格斯全集》第32卷,人民出版社1998年版,第103頁。
(9) 斯拉沃熱·齊澤克:《意識(shí)形態(tài)的崇高客體》,季廣茂譯,中央編譯出版社2002年版,第135頁。
(10) 洪北、胡大平:《從馬克思到斯蒂格勒:實(shí)踐唯物主義的技術(shù)論》,《閱江學(xué)刊》2023年第6期。
(11) Paddy Gordon, Left Accelerationism, Transhumanism and the Dialectic: Three Manifestos, New Proposals: Journal of Marxism and Interdisciplinary Inquiry, 2021, 12(1), pp.140-154.
(12) 哈特穆特·羅薩:《新異化的誕生——社會(huì)加速批判理論大綱》,鄭作彧譯,上海人民出版社2018年版,第33頁。
作者簡(jiǎn)介:吳靜,南京師范大學(xué)哲學(xué)系教授、博士生導(dǎo)師,江蘇南京,211100。
(責(zé)任編輯 胡 靜)