中圖分類號(hào):B014;TP18 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1000-5099(2025)04-0001-09
國際DOI編碼:10.15958/j.cnki.gdxbshb.2025.04.01
大語言模型與機(jī)器人對(duì)接及具身大模型等熱議話題不斷升溫,大模型接地問題遂成重要課題。在人工智能領(lǐng)域,“接地”(Grounding)指語言模型通過某種方式與外部世界的實(shí)體、物理環(huán)境建立聯(lián)系,主要指大語言模型如何與現(xiàn)實(shí)世界對(duì)接。在 Sora發(fā)布及其前后,大模型接地的研究已經(jīng)先后建立與現(xiàn)實(shí)世界進(jìn)一步關(guān)聯(lián)的三個(gè)代表性實(shí)驗(yàn)和產(chǎn)品:馬斯克的自動(dòng)駕駛汽車與大模型結(jié)合實(shí)驗(yàn)、文生視頻模型 Sora 及斯坦福大學(xué)和谷歌團(tuán)隊(duì)合作的“斯坦福人工智能小鎮(zhèn)”實(shí)驗(yàn)。在這三項(xiàng)的主要進(jìn)展中,OpenAI的文生視頻大模型 Sora最為火爆。在三者比較中,本文探討人工智能大模型不同方式接地的性質(zhì),無論對(duì)機(jī)器還是人類理解研究都具有關(guān)鍵意義。
一、大模型與自動(dòng)駕駛汽車結(jié)合:語境的場(chǎng)景凸顯
在Sora發(fā)布之前,馬斯克(ElonMusk)就開始了大模型與自動(dòng)駕駛汽車結(jié)合的實(shí)驗(yàn),其主要目的是測(cè)試特斯拉最新版本的FSD(FullSelf-Drive,全自動(dòng)駕駛)系統(tǒng)。實(shí)驗(yàn)使用的FSDV12是特斯拉自動(dòng)駕駛系統(tǒng)的一次重要升級(jí),采用了完全端到端(“EndtoEnd”:在不同領(lǐng)域中直接通信或處理方式的描述中廣泛使用)的方案。這意味著系統(tǒng)可以直接從攝像頭捕捉到的圖像中提取信息,并生成相應(yīng)的駕駛指令,無須依賴傳統(tǒng)的編程邏輯和高精度地圖。該系統(tǒng)不僅具有實(shí)時(shí)學(xué)習(xí)的能力,即在特定場(chǎng)景下,系統(tǒng)會(huì)根據(jù)實(shí)際情況進(jìn)行調(diào)整和優(yōu)化,從而逐步提升其應(yīng)對(duì)能力,更重要的是實(shí)現(xiàn)了與大模型的結(jié)合。在全球各地?cái)?shù)百萬輛特斯拉汽車的行駛過程中,收集了大量的視頻片段和傳感器數(shù)據(jù),每輛車的行駛數(shù)據(jù)都會(huì)上傳到特斯拉的中央數(shù)據(jù)庫,這些數(shù)據(jù)被用于訓(xùn)練神經(jīng)網(wǎng)絡(luò),改進(jìn)自動(dòng)駕駛模型。聯(lián)網(wǎng)使得車輛之間可以共享最新的駕駛數(shù)據(jù)和經(jīng)驗(yàn),從而不斷優(yōu)化自動(dòng)駕駛算法,使系統(tǒng)能夠更好地理解和應(yīng)對(duì)各種不同的情況。通過大量的數(shù)據(jù)訓(xùn)練,自動(dòng)駕駛汽車能夠應(yīng)對(duì)越來越多復(fù)雜的駕駛場(chǎng)景。并且,自動(dòng)駕駛汽車與大模型的結(jié)合,將大幅提升其應(yīng)對(duì)不同場(chǎng)景的能力。
馬斯克這一測(cè)試的重要性在于:自動(dòng)駕駛汽車與大模型的結(jié)合,實(shí)際上開啟了人工智能大模型的反向接地實(shí)驗(yàn)。有了大量特斯拉自動(dòng)駕駛汽車聯(lián)網(wǎng)數(shù)據(jù)構(gòu)成的大模型,聯(lián)網(wǎng)的每輛特斯拉自動(dòng)駕駛汽車都可以應(yīng)對(duì)大數(shù)據(jù)中其他聯(lián)網(wǎng)車所遇到的所有場(chǎng)景,這與單獨(dú)一輛自動(dòng)駕駛汽車遍歷所有這些場(chǎng)景相比較而言,具有范式級(jí)別的不同。
實(shí)驗(yàn)地點(diǎn)位于加州帕洛阿爾托(Palo Alto),馬斯克在其個(gè)人賬號(hào)上直播了這次自動(dòng)駕駛測(cè)試。車輛成功通過了施工區(qū)域、紅綠燈路口以及環(huán)形交叉路口等復(fù)雜路況,展現(xiàn)出了良好的適應(yīng)性和穩(wěn)定性。在45 分鐘的測(cè)試過程中,只有一次出現(xiàn)了問題:在一個(gè)需要直行的路段,測(cè)試車輛在路口等了很久的紅燈,對(duì)面信號(hào)燈剛剛轉(zhuǎn)為左轉(zhuǎn)狀態(tài)時(shí),測(cè)試車輛突然跟著啟動(dòng)了,在此種情況下,測(cè)試車輛不得不被人為干預(yù)。正是這唯一的人為干預(yù),意味著自動(dòng)駕駛隱含重要安全隱患。一方面,在實(shí)際駕駛過程中,現(xiàn)實(shí)場(chǎng)景是無限的,總是存在某些罕見或極端場(chǎng)景未能被充分覆蓋。由于人工智能尚未通用化,當(dāng)前的自動(dòng)駕駛技術(shù)還無法完全替代人類駕駛員的判斷和操作。另一方面,自動(dòng)駕駛汽車與大模型結(jié)合的效果雖然已提升很多,但仍然離不開人為干預(yù),這反映了數(shù)字智能發(fā)展的極限性:作為信息編碼層次的人工智能,大模型不可能完全通用化,而只能發(fā)展其通用性趨向無限的空間[]110。
人工智能與物理世界和社會(huì)行為交互的能力,在根本上體現(xiàn)其核心機(jī)制的發(fā)展層次及其性質(zhì)。ChatGPT具有堪稱神奇的自然語言處理能力,DeepSeek 更煥發(fā)出了大語言模型中文生成的魔力,但其在接地物理世界方面卻存在范式鴻溝。人工智能大模型不具有與物理世界交互的能力,這是其發(fā)展面臨天花板的機(jī)制性體現(xiàn)。由于人工智能大模型的特殊性,其具有魔性的內(nèi)容生成能力更凸顯了大模型接地的意義,特別是大型語言模型。
作為符號(hào)主義進(jìn)路基礎(chǔ)上聯(lián)接主義進(jìn)路發(fā)展的重要產(chǎn)物,大型語言模型似乎不涉及行為主義進(jìn)路,但從“言語行為理論”的語言哲學(xué)觀點(diǎn)可看到二者之間的微妙關(guān)聯(lián),只是言語與感性實(shí)踐的關(guān)聯(lián)還有待深人研究。按照言語行為理論,在說話時(shí),我們不僅在描述事物,還在采取行動(dòng),并與現(xiàn)實(shí)互動(dòng)。但在自然語言和人類身體行為的意義上,言語和行為總是存在界限。必須在信息層次上,我們才可能深化對(duì)言語行為理論的研究,甚至得出“言語即行為”的結(jié)論。正是在這個(gè)意義上,關(guān)于人工智能大模型接地的研究與大模型在人工智能中所處發(fā)展階段的認(rèn)識(shí)才密切相關(guān),而人工智能發(fā)展到當(dāng)下,其認(rèn)識(shí)又決定于信息理解的深化。
關(guān)于信息的長期艱難探索表明,信息不是物質(zhì)和能量[2],而是感受性關(guān)系。作為感受性關(guān)系,信息具有創(chuàng)生性和涌現(xiàn)性等基本特性[3]。把信息理解為感受性關(guān)系,對(duì)信息編碼及其與信息的關(guān)系就可以有一個(gè)更到位的認(rèn)識(shí):信息編碼是感受性關(guān)系的物能化和觀念化。因此,信息編碼相應(yīng)有兩種基本類型:信息的物能編碼和信息的觀念編碼。前者如記憶、DNA中的基因和電信號(hào);后者如作為自然類(Natural Kinds)概括產(chǎn)物的概念和基本的符號(hào)。在信息的觀念編碼中,作為信息符號(hào)編碼的特殊方式,信息的數(shù)字編碼可以建立起信息觀念編碼和物能編碼之間的直接關(guān)聯(lián),從而為深化理解言和行之間的關(guān)系提供更深層次的信息基礎(chǔ)。
作為二進(jìn)制數(shù)字編碼,“0”和\"1”是信息觀念編碼中的符號(hào)編碼;而“開”和“關(guān)”又是物能編碼中的物理編碼。正因?yàn)樾畔⒌臄?shù)字編碼既與信息的物能編碼,也與信息的觀念編碼內(nèi)在相關(guān),因此算法就可以通過信息的數(shù)字編碼將觀念和物能進(jìn)行內(nèi)在結(jié)合,從而在物能和信息關(guān)系層次構(gòu)成認(rèn)識(shí)和實(shí)踐的一體化[4]。在人類活動(dòng)中,言和行的關(guān)系具有重要地位。大型語言模型只是局限在言說范圍,相對(duì)少或較弱2
地涉及行為,因此主要涉及信息編碼,與作為感受性關(guān)系的信息相比較而言,在根本上只具有間接聯(lián)系。而人類的實(shí)際行為則在更根本的意義上涉及感受、感受性、作為感受性關(guān)系的信息——這則是達(dá)至智能通用化發(fā)展的層次。正是在這方面,馬斯克的自動(dòng)駕駛汽車與大模型結(jié)合的實(shí)驗(yàn)具有特殊意義。它使基于實(shí)際駕駛場(chǎng)景大數(shù)據(jù)的大模型和自動(dòng)駕駛汽車現(xiàn)場(chǎng)或場(chǎng)景相關(guān)聯(lián),而場(chǎng)景就是自動(dòng)駕駛汽車領(lǐng)域的情境,這就意味著為自動(dòng)駕駛汽車建立起了情境大模型。正是通過大數(shù)據(jù)納人駕駛汽車場(chǎng)景的重要實(shí)驗(yàn),集中凸顯了語境一情境關(guān)聯(lián)中語境之于情境的重要性。
情境(Situation)是具體條件的整合局勢(shì),語境(Context)是情境中一定范圍內(nèi)具體條件抽離的產(chǎn)物。由于還沒有深人到信息層次,關(guān)于語境和情境及其相互關(guān)系還是一個(gè)有待進(jìn)一步深人研究的問題。語境不僅僅關(guān)乎話語,即使作為狹義的人類語境的上下文,也涉及復(fù)雜的觀念體系。關(guān)于這一問題,在作為感受性關(guān)系的信息層次呈現(xiàn)得很清楚。
正是在信息觀念編碼的基礎(chǔ)上,人類可以建立起觀念體系,人類知識(shí)才得以形成和發(fā)展。由此,在信息深處可以看到三個(gè)依次遞進(jìn)的發(fā)展層次:作為感受性關(guān)系的信息、作為信息物能化和觀念化的信息編碼以及基于信息觀念編碼作為觀念體系的知識(shí)[5」。從作為感受性關(guān)系的信息到作為信息編碼的數(shù)據(jù),再到基于信息編碼的知識(shí),事實(shí)上構(gòu)成了具有雙向循環(huán)機(jī)制的人類認(rèn)識(shí)發(fā)展三部曲。因此,在信息深處可以清楚地看到人工智能發(fā)展的三個(gè)層次:以專家系統(tǒng)為最高發(fā)展水平的人類知識(shí)層次人工智能、以ChatGPT 和Sora等為發(fā)展標(biāo)志的信息編碼層次人工智能和通用化的信息層次人工智能[1]105。人工智能只有發(fā)展到作為感受性關(guān)系的信息層次,才能擁有自己的觀念系統(tǒng),才能建立起情境和語境的內(nèi)在關(guān)聯(lián)機(jī)制,才可能具有發(fā)展理解能力的基礎(chǔ)。
由情境和語境及其理解機(jī)制意義反觀馬斯克的自動(dòng)駕駛汽車與大模型結(jié)合實(shí)驗(yàn),可以得到諸多重要啟示,其中最具根本性的,就是實(shí)驗(yàn)只涉及作為場(chǎng)景的情境,而不涉及語境。自動(dòng)駕駛汽車大數(shù)據(jù)都是場(chǎng)景大數(shù)據(jù),由此建立起來的是作為情境的場(chǎng)景大模型。情境是人工智能大模型接地的基本方面之一,但不涉及作為同樣重要的另一方面——語境,它就不可能有理解。因此,人為干預(yù)正是人類理解能力的介入。
由于涉及的場(chǎng)景與情境相關(guān),因此自動(dòng)駕駛汽車收集的大數(shù)據(jù)也主要是駕駛汽車的場(chǎng)景數(shù)據(jù);而場(chǎng)景是不可窮盡的,大模型結(jié)合的自動(dòng)駕駛汽車總是會(huì)遇到行車大數(shù)據(jù)沒有包含的場(chǎng)景,因此不可避免會(huì)有“意外”。在人類駕駛情況下,由于人類駕駛員有一個(gè)基于理解能力的動(dòng)態(tài)觀念世界,這意味著在一個(gè)世界模型中,自然語言系統(tǒng)正是在這個(gè)觀念世界或世界模型的構(gòu)架里表述。在這個(gè)世界模型中,自然語言的語境與情境可以建立起內(nèi)在關(guān)聯(lián),從而具有對(duì)場(chǎng)景的理解能力,并通過舉一反三等相對(duì)簡化無限場(chǎng)景處理并應(yīng)對(duì)無限性問題。沒有語境一情境內(nèi)在關(guān)聯(lián),大模型與自動(dòng)駕駛汽車結(jié)合總是會(huì)遇到因大數(shù)據(jù)中相關(guān)場(chǎng)景數(shù)據(jù)缺失而無法應(yīng)對(duì)的場(chǎng)景。
人工智能大模型通過人類與物理世界的交互,可以從人機(jī)軟融合機(jī)制中得到理解;而關(guān)于其通過機(jī)器人實(shí)現(xiàn)這種交互的問題,則可以從馬斯克將大型語言模型和自動(dòng)駕駛汽車相結(jié)合中看到進(jìn)一步的內(nèi)容:在通過人類接地物理世界的過程中,其機(jī)制是情境大模型完全通過作為通用智能的人類對(duì)接物理世界;而在自動(dòng)駕駛汽車結(jié)合大模型的實(shí)驗(yàn)中,則是作為場(chǎng)景數(shù)字化的情境大模型與作為現(xiàn)實(shí)情境的場(chǎng)景對(duì)接實(shí)現(xiàn),只是在遇到大數(shù)據(jù)不包含的場(chǎng)景應(yīng)對(duì)時(shí),才必須有人為干預(yù)。由此凸顯的與其說是作為場(chǎng)景的情境,不如說是缺場(chǎng)的語境,最終凸顯了建立語境—情境關(guān)聯(lián)的重要性。在此基礎(chǔ)上,既可以深人理解人類理解機(jī)制中的語境一情境關(guān)聯(lián),又可以更好地理解人工智能大模型接地的具體機(jī)制。
人類語境涉及觀念體系的整體觀照,而整體觀照是人類理解的核心機(jī)制。因果關(guān)聯(lián)正是建立在觀念體系基礎(chǔ)之上,沒有相應(yīng)的觀念體系,就不可能理解物理世界的因果關(guān)系,更談不上參與社會(huì)行動(dòng)。關(guān)于3這一點(diǎn),在文生視頻模型的物理世界模擬中表現(xiàn)得尤為典型。
二、Sora對(duì)接物理世界:情境的視頻凸顯
ChatGPT只限于語言領(lǐng)域,其多模態(tài)化也只是指向廣義語言,而局限于語言領(lǐng)域表明其顯然不可能是真正意義上的通用人工智能。類人通用人工智能必須與物理世界交互,而大型語言模型在這方面所缺少的恰恰是通用智能的核心機(jī)制。因此,以ChatGPT為標(biāo)志的大型語言模型要與物理世界交互,不必通過作為通用智能的人類,而是必須擁有通用智能機(jī)制的機(jī)器人。當(dāng)前熱議中的具身智能和“AI智能體”,實(shí)際上指的就是通用智能,絕不意味著人工智能大模型加一個(gè)目前發(fā)展階段的機(jī)器人身體就可以了,而是必須包含通用智能核心機(jī)制。最近推出的Manus 就是一種人工智能體(AI Agent)。作為各種功能不同的智能體分工組合的產(chǎn)物,人工智能體的通用性大大強(qiáng)化,其核心機(jī)制類似信息編碼層次人工智能與作為人類知識(shí)層次人工智能的專家系統(tǒng)相結(jié)合。專用人工智能的組合是人工智能通用性發(fā)展的一種重要方式,但這并不構(gòu)成通用人工智能,人工智能體必須有通用智能機(jī)制才能真正通用化。在目前的發(fā)展階段,人工智能大模型與物理世界交互必須通過作為通用智能的人來實(shí)現(xiàn)。
文生視頻大模型與物理世界的對(duì)接涉及文本語境與物理情境,即從語境到情境的內(nèi)在關(guān)聯(lián),從而涉及物理規(guī)律的理解,因此需要有基于語境—情境內(nèi)在關(guān)聯(lián)的理解能力。Sora之所以會(huì)有圖像逼真而規(guī)律失實(shí)的現(xiàn)象,就因?yàn)槠湔Z境一情境內(nèi)在關(guān)聯(lián)還沒有建立起來,從而不可能具有基于語境一情境內(nèi)在關(guān)聯(lián)的物理世界規(guī)律的理解能力。與自動(dòng)駕駛汽車和大模型的結(jié)合不同,作為大型語言模型基礎(chǔ)上推出的多模態(tài)化產(chǎn)品,Sora等文生視頻模型即涉及語境又涉及情境,但由于沒有建立起二者之間的內(nèi)在關(guān)聯(lián),缺乏理解能力的人工智能大模型不可能理解物理規(guī)律。其必定造成物理規(guī)律失實(shí)表明了一個(gè)重要事實(shí):只有語料大數(shù)據(jù)及其所攜帶的人類語境,不可能把握物理世界的規(guī)律。要具有把握物理世界規(guī)律的能力,必須具備依次遞進(jìn)的三層次條件:理解能力、觀念體系和世界模型。只有理解能力而沒有建立起觀念體系,不可能理解物理世界的規(guī)律;即使既有理解能力又有觀念體系,也仍然只是具有可理解物理世界規(guī)律的可能性;要理解物理世界的規(guī)律,除以上兩個(gè)條件之外,還必須包含世界模型。
人工智能大模型的多模態(tài)發(fā)展,使“世界模型”概念在人工智能通用化中的地位備受關(guān)注。作為通用人工智能研究的重要層次,建立世界模型的目的是理解世界或預(yù)測(cè)未來。世界模型研究最具代表性的專家楊立昆(Yann LeCun)認(rèn)為,世界模型是一種“模擬器”,用于模擬與世界相關(guān)的各個(gè)方面。與哪些世界狀態(tài)相關(guān),取決于當(dāng)前的任務(wù)?!笆澜缒P偷闹饕康氖穷A(yù)測(cè)未來的世界狀態(tài)表示?!盵6]世界模型的真正實(shí)現(xiàn),意味著通用人工智能核心機(jī)制的突破。作為通用人工智能,世界模型對(duì)物理世界規(guī)律的把握同樣必須建立在語境一情境內(nèi)在關(guān)聯(lián)的基礎(chǔ)上,但它意味著與人工智能大模型完全不同的研究進(jìn)路。
通過大數(shù)據(jù)納入由人類語境形塑的語料,實(shí)現(xiàn)人機(jī)語境軟融合,ChatGPT等大語言模型獲得了與人類進(jìn)行自然語言交互的能力;而Sora等文生視頻模型則通過人類捕捉的物理世界視頻圖料實(shí)現(xiàn)對(duì)物理世界的模擬,取得了大模型多模態(tài)發(fā)展的重要進(jìn)展。由此,可以看到人工智能大模型發(fā)展的廣闊空間,看到人工智能模擬物理世界極限逼近的發(fā)展情勢(shì)。這一極限逼近性質(zhì)一方面意味著幾乎趨向無限的進(jìn)展可能性,DeepSeek 等就是大語言模型進(jìn)一步發(fā)展的重要一步;另一方面又表明,這一進(jìn)路注定不可能走向人工智能通用化,從而真正實(shí)現(xiàn)大模型與物理世界的對(duì)接。
正是從大語言模型到文生視頻模型,凸顯了語境和情境之間的關(guān)聯(lián)及其重要性。由于局限于廣義語言范圍,ChatGPT和 Sora及其所標(biāo)志的大模型不能在語言語境與物理情境之間建立起內(nèi)在關(guān)聯(lián),因此不可能直接對(duì)接物理世界。作為人工智能的重要發(fā)展階段,大模型在文本和視頻生成的過程中只能通過大數(shù)4
據(jù)納入人類語料和圖料等進(jìn)行。大模型只能利用其所攜帶的人類語境和世界情境的視頻進(jìn)行自然語言處理或?qū)ο竽M,不可能直接納入現(xiàn)實(shí)物理世界的具體情境中。事實(shí)上,由其大數(shù)據(jù)基礎(chǔ)也可以看到,作為信息數(shù)字編碼發(fā)展的產(chǎn)物,大數(shù)據(jù)不可能攜帶直接經(jīng)驗(yàn)內(nèi)容。只有深化到作為感受性關(guān)系的信息層次,才可能有真正意義上的世界模擬器。而我們將作為文生視頻模型的 Sora 稱作“世界模擬器”,其主要原因是對(duì)通用人工智能的誤解。
作為物理世界影像反映意義上的世界模擬器,Sora不僅不是通用人工智能,而且根本沒有進(jìn)人人工智能通用化研究進(jìn)路。Sora也不僅不是作為“物理引擎”的“世界模型”,甚至也不是真正意義上的“世界模擬器”,關(guān)于它的確切理解就是文生視頻模型。其生成的視頻僅是通過大數(shù)據(jù)學(xué)習(xí),對(duì)對(duì)象世界的動(dòng)態(tài)外觀進(jìn)行模擬。因此,完全不像人們關(guān)于它的直觀感覺,Sora不僅與人工智能通用化發(fā)展沒有實(shí)質(zhì)性關(guān)系,而且在與物理世界對(duì)接的更深層次表明:即使發(fā)展至大數(shù)據(jù),人工智能也不可能通用化。
作為人工智能大模型,Sora同樣根本不可能具有理解能力。由視頻的逼真導(dǎo)出 Sora具有語義甚至物理規(guī)律理解能力的結(jié)論,與由ChatGPT的類人對(duì)話能力得出其具有自然語言理解能力如出一轍。物理規(guī)律更明顯地涉及因果關(guān)系,人工智能要把握因果關(guān)系,必須具備類人理解能力。從作為信息數(shù)字編碼發(fā)展產(chǎn)物的大數(shù)據(jù)層次推進(jìn)到作為感受性關(guān)系的信息層次,可以清楚地看到將Sora與通用人工智能進(jìn)行聯(lián)系是一種更深層次錯(cuò)覺。其根本原因在于:人類視覺與物理世界的關(guān)聯(lián)更為形象,因而視頻模擬往往讓人感覺更具內(nèi)在關(guān)聯(lián)。
由于視覺感受似乎比自然語言更與物理世界直接相關(guān),Sora所造成的人工智能通用化錯(cuò)覺比ChatGPT更為強(qiáng)烈,而事實(shí)上,其所表明的恰恰是大模型通用性的擴(kuò)展并不導(dǎo)向人工智能通用化。人工智能通用性和通用化不僅不是一回事,而且二者間不可通約。在原理上可以用點(diǎn)線面的關(guān)系形象理解:點(diǎn)的量無限擴(kuò)展不能達(dá)至線,線的量無限擴(kuò)展不能達(dá)至面,面的量無限擴(kuò)展不能達(dá)至體,它們之間具有不可通約性。就與物理世界的關(guān)系而言,以Sora為代表的文生視頻模型局限于“模擬”,不構(gòu)成對(duì)世界的理解。因此,其成果主要集中在人工智能技術(shù)而不是范式上;其意義主要在對(duì)對(duì)象世界的模擬而不是認(rèn)識(shí)。
關(guān)于Sora是文生視頻模型而不是真正意義上的世界模擬器,丘成桐先生的弟子、計(jì)算機(jī)專家、紐約州立大學(xué)石溪分校教授顧險(xiǎn)峰(GuXianfengDavid)在財(cái)新網(wǎng)的博客中就清楚地指出:雖然Sora聲稱是“作為世界模擬的視頻生成模型”,目前的技術(shù)路線無法正確模擬世界的物理規(guī)律。首先,用概率統(tǒng)計(jì)的相關(guān)性無法精確表達(dá)物理定律的因果性,自然語言的上下文相關(guān)無法達(dá)到偏微分方程的精密程度;其次,雖然變換器(Transformer)可以學(xué)習(xí)臨近時(shí)空令牌間的連接概率,但是無法判斷全局的合理性,整體的合理性需要更高層次的數(shù)學(xué)理論觀點(diǎn),或者更為隱蔽而深厚的自然科學(xué)和人文科學(xué)的背景,目前的變換器無法真正悟出這些全局觀點(diǎn)。顧險(xiǎn)峰的觀點(diǎn)表明,Sora不可能理解和把握物理世界的規(guī)律,文生視頻不可避免地會(huì)出現(xiàn)形象逼真的規(guī)律失范問題,而其根本原因則在于作為人工智能的 Sora 的發(fā)展只是在信息編碼層次,其基本機(jī)制仍然是統(tǒng)計(jì)模型。紐約大學(xué)心理學(xué)家和人工智能專家馬庫斯(Gary Marcus)就認(rèn)為,ChatGPT“只是詞序的模型,不是世界怎樣運(yùn)行的模型”7]。北京通用人工智能研究院院長朱松純?cè)凇稒C(jī)器之心》的專訪中則表述得更為具體:大型語言模型在處理任務(wù)方面的能力有限,它們只能處理文本領(lǐng)域的任務(wù),無法與物理和社會(huì)環(huán)境進(jìn)行互動(dòng)。這意味著像ChatGPT這樣的模型不能真正“理解”語言的含義,因?yàn)樗鼈儧]有身體來體驗(yàn)物理空間。正是用身體體驗(yàn)物理空間,表明朱松純的觀點(diǎn)指向了關(guān)于通用智能理解的更深層次,而對(duì)物能對(duì)象的身體體驗(yàn)正涉及感受性關(guān)系即信息層次。人工智能的發(fā)展只有進(jìn)一步深入作為感受性關(guān)系的信息層次,類似Sora那樣形象逼真而規(guī)律失范的問題才可能真正得到解決。
由此可見,Sora文生視頻之所以會(huì)有規(guī)律失范的根源:沒有理解能力就不可能是世界模型,更不可能模擬世界的物理規(guī)律。Sora只能夠?qū)?duì)象進(jìn)行影像模擬,即只是物理世界的影像模擬器。其之所以會(huì)有逼真的失實(shí),根本原因是處于信息編碼層次的人工智能不可能具有理解能力,因此不可能把握物理規(guī)律,更不能理解世界。要真正實(shí)現(xiàn)與物理世界的對(duì)接,人工智能必須具有類人理解能力。而在這方面,Sora等文生視頻模型的確具有普遍意義:它們建立起了語境和情境的人工智能大模型關(guān)聯(lián),只是這種關(guān)聯(lián)不僅不是內(nèi)在的,而且是間接的。因?yàn)橐曨l只是物理世界的影像模擬而不是其內(nèi)在規(guī)律的情境反映,在物理世界情境的影像反映基礎(chǔ)上,人工智能大模型只可能模擬物理世界而不可能把握其規(guī)律。要把握物理世界的規(guī)律,必須接人真實(shí)的物理情境。正是在這一層次,可以看到 Sora 的特殊意義:一方面,即使涉及語境—情境關(guān)聯(lián),但如果不是二者的內(nèi)在關(guān)聯(lián),人工智能大模型就不可能真正接地;另一方面,文生視頻模型沒有完全建立語境和情境的內(nèi)在關(guān)聯(lián),但以特殊的方式凸顯了語境一情境,表明語境一情境的內(nèi)在關(guān)聯(lián)是人工智能大模型接地的關(guān)鍵環(huán)節(jié),由此為語境—情境關(guān)聯(lián)研究提供了諸多啟示,甚至是前所未有的場(chǎng)域。由于人類理解物理世界是在語境和情境的內(nèi)在關(guān)聯(lián)中進(jìn)行的,這就意味著人工智能大模型接地必須發(fā)展語境一情境內(nèi)在關(guān)聯(lián)的研究。
在人工智能大模型接地環(huán)節(jié),Sora等文生視頻模型凸顯了大模型對(duì)接物理世界的語境—情境關(guān)聯(lián),而“斯坦福人工智能小鎮(zhèn)\"實(shí)驗(yàn)則使人工智能大模型接地的語境—情境凸顯進(jìn)一步擴(kuò)展到與社會(huì)行為的對(duì)接。
三、斯坦福人工智能小鎮(zhèn)實(shí)驗(yàn):情境一語境關(guān)聯(lián)的雙向凸顯
馬斯克的大模型與自動(dòng)駕駛汽車結(jié)合實(shí)驗(yàn),通過自動(dòng)駕駛汽車和大模型的反向接地,以場(chǎng)景大模型凸顯了語境;以Sora為標(biāo)志的文生視頻模型,通過人工智能大模型接地世界視頻模擬器,以視頻情境凸顯了情境;而斯坦福人工智能小鎮(zhèn)實(shí)驗(yàn)則通過大語言模型的社會(huì)化接地社會(huì)行為,凸顯了更具整體性的語境一情境內(nèi)在關(guān)聯(lián)。
在文生視頻模型 Sora 發(fā)布后不久,斯坦福大學(xué)和谷歌團(tuán)隊(duì)合作的“斯坦福人工智能小鎮(zhèn)”實(shí)驗(yàn)項(xiàng)目于2024 年4月開始。斯坦福人工智能小鎮(zhèn)實(shí)驗(yàn)通過將大語言模型與生成式智能體對(duì)接,模擬小鎮(zhèn)社區(qū)生活。生成式智能體是利用生成模型模擬逼真人類行為的計(jì)算機(jī)軟件智能體。實(shí)驗(yàn)將生成式智能體(Generative Agents)引入一個(gè)受《模擬人生》啟發(fā)的交互式沙盒環(huán)境中,構(gòu)成一個(gè)由25個(gè)智能體組成的小型社區(qū),室內(nèi)外設(shè)施一應(yīng)俱全。智能體的“社交行為是涌現(xiàn)的”,而不需要預(yù)先編程生成?!凹軜?gòu)中的所有內(nèi)容都以自然語言描述記錄和推理,這使得架構(gòu)可以利用大型語言模型?!盵8]通過將架構(gòu)連接到ChatGPT,終端用戶可以使用自然語言與小鎮(zhèn)智能體進(jìn)行交互,從而有了人工智能小鎮(zhèn)與人類的社會(huì)性鏈接。
在實(shí)驗(yàn)設(shè)計(jì)中,智能體架構(gòu)使用大型語言模型存儲(chǔ)、綜合和應(yīng)用相關(guān)記憶以生成逼真的行為,包括三個(gè)主要組成部分:
一是記憶流(The Emory Stream)。記憶流是一個(gè)數(shù)據(jù)庫,記錄了智能體的全部經(jīng)歷?!爸悄荏w感知其環(huán)境,并將所有感知記錄在一個(gè)整體經(jīng)驗(yàn)記錄中,稱為記憶流。”[8]一個(gè)長期記憶模塊以自然語言記錄智能體的全部經(jīng)歷列表。檢索模型將相關(guān)性、就近性和重要性結(jié)合起來,以展現(xiàn)需要用來指導(dǎo)智能體即時(shí)行為的記錄。這就在一定程度上使小鎮(zhèn)社會(huì)建立在智能體類群親歷的基礎(chǔ)之上。類群親歷即個(gè)體在同類智能體構(gòu)成的群體中的親身經(jīng)歷;類群親歷性就是智能個(gè)體在相應(yīng)類群親歷中成長的特性[9」。類群親歷性是個(gè)體在群體經(jīng)歷中形成的,由此獲得的類群親歷性反過來又構(gòu)成群體發(fā)展的基礎(chǔ)。
二是反思(Reflection)。它將記憶轉(zhuǎn)化為高層次的推理,使智能體能夠在時(shí)間上得出關(guān)于自己及其交互對(duì)象的結(jié)論,以更好地指導(dǎo)其行為。智能體檢索到的記憶也用于形成長期計(jì)劃,并創(chuàng)建更高級(jí)別的反6
思,這些都被輸入到記憶流中以供未來使用[9]。所謂“反思”,實(shí)際上是由觀察記錄推導(dǎo)出進(jìn)一步的結(jié)論,由此可以深化生成式智能體之間的關(guān)系。通過反思深化的智能體關(guān)系是觀念間的關(guān)系,而觀念關(guān)系正是人類社會(huì)化的內(nèi)容。在實(shí)驗(yàn)中,這方面的主要意義在于深化了語境的層次:語境從有限群體向越來越大的社會(huì)規(guī)模發(fā)展。
三是規(guī)劃(Planning)。雖然一個(gè)大型語言模型可以根據(jù)情境信息產(chǎn)生可信的行為,但智能體需要在更長的時(shí)間范圍內(nèi)進(jìn)行規(guī)劃,以確保它們的行動(dòng)序列連貫且可信。規(guī)劃就是將智能體關(guān)于自己及其交互對(duì)象的結(jié)論和當(dāng)前環(huán)境轉(zhuǎn)化為高層次的行動(dòng)計(jì)劃,然后通過遞歸轉(zhuǎn)化為詳細(xì)的行動(dòng)和反應(yīng)行為9。由此構(gòu)成了一個(gè)循環(huán)機(jī)制,這些反思和計(jì)劃被反饋到記憶流中,以影響生成式智能體未來的行為。
在這樣一個(gè)構(gòu)架機(jī)制中,小鎮(zhèn)上的生成式智能體不僅可以從事正常的工作和生活,而且可以形成觀點(diǎn),關(guān)注彼此,用自然語言發(fā)起對(duì)話,甚至回憶和反思過去的日子,計(jì)劃未來的行動(dòng)。實(shí)驗(yàn)設(shè)計(jì)為實(shí)現(xiàn)生成式智能體所描述的架構(gòu)擴(kuò)展了大型語言模型,用自然語言存儲(chǔ)智能體的完整經(jīng)歷記錄,隨著時(shí)間的推移,將這些記憶綜合成更高層次的反思,并對(duì)其進(jìn)行動(dòng)態(tài)檢索以規(guī)劃行為。
實(shí)驗(yàn)結(jié)果表明,這些生成式智能體產(chǎn)生了逼真的個(gè)體和新型的社交行為。這是一個(gè)反映逼真人類行為的交互式人工社會(huì),在語境范圍較小的情況下,計(jì)算機(jī)智能體根據(jù)其過去的經(jīng)驗(yàn)行事并對(duì)其環(huán)境做出逼真反應(yīng)。斯坦福人工智能小鎮(zhèn)實(shí)驗(yàn)讓大模型與逼真的社區(qū)生活關(guān)聯(lián)起來,不僅涉及語境,而且涉及社區(qū)情境,建立起了大語言模型語境與模擬社區(qū)情境相關(guān)聯(lián)的模擬社區(qū)生活。實(shí)驗(yàn)可以為人機(jī)關(guān)系研究提供場(chǎng)域,開展人機(jī)關(guān)系的模擬探索,有助于人類行為模式的研究;可以用于指導(dǎo)人類真實(shí)的社區(qū)生活,也有助于促進(jìn)人機(jī)軟融合從個(gè)人向社區(qū)和社會(huì)更大范圍推進(jìn)。而作為小鎮(zhèn)社會(huì)模擬,實(shí)驗(yàn)也顯露了其特定局限:一方面,“生成式智能體的記憶并不完美:它們可能無法順利從記憶中檢索出正確的實(shí)例”8];另一方面,“即使使用了當(dāng)今最高效的模型(如GPT-4),長期規(guī)劃和一致性仍然存在挑戰(zhàn)”8]。這是因?yàn)榧词古c大型語言模型相連接,生成式智能體也仍然不具有通用智能的理解能力,更不可能擁有像人類那樣長期累積形成的類群親歷性。
在大模型接地的三種實(shí)驗(yàn)和產(chǎn)品中,由于不僅涉及生成式智能體之間以及其與人之間的交互,而且涉及“反思”,斯坦福人工智能小鎮(zhèn)實(shí)驗(yàn)涉及語境—情境關(guān)聯(lián)問題最為全面,所反映的問題也最為復(fù)雜。涉及的語境和情境關(guān)聯(lián)越復(fù)雜,基于語境—情境的理解能力要求就越高。在斯坦福人工智能小鎮(zhèn)的模擬社區(qū)生活中,雖然有生成式智能體的記憶流儲(chǔ)存,但是沒有形成語境一情境的內(nèi)在關(guān)聯(lián),從而不僅沒有生成理解能力,更沒有在此基礎(chǔ)上生成類群親歷性,因此不能構(gòu)成對(duì)自身經(jīng)歷和社區(qū)生活的整體觀照,結(jié)果自然不可能對(duì)自身行為有更高層次的整體規(guī)劃,也就不可能具有人類社會(huì)那樣的可靠性。因此,實(shí)驗(yàn)中的人類用戶參與就具有特殊意義。
斯坦福人工智能小鎮(zhèn)實(shí)驗(yàn)設(shè)計(jì)具有游戲性質(zhì),有用戶參與。在游戲者參與實(shí)驗(yàn)的情況下,由于作為用戶的人類是具有理解能力的通用智能,因此呈現(xiàn)出語境一情境的內(nèi)在關(guān)聯(lián)。在人類參與下,斯坦福人工智能小鎮(zhèn)就可以有持續(xù)的社區(qū)生活。而由此所看到的,則是大模型接地社會(huì)行為的情境一語境雙向機(jī)制關(guān)聯(lián)。無論對(duì)于人工智能大模型接地還是人類理解機(jī)制研究的深化,這都具有重要啟示。
由于人類實(shí)踐和認(rèn)識(shí)關(guān)系的復(fù)雜性,目前基于人類實(shí)踐的語境和情境研究還處于混雜狀態(tài),而人工智
能大模型接地則以簡單的方式凸顯了語境—情境關(guān)聯(lián)。由此可以看到,社會(huì)語言學(xué)關(guān)于“情境語境”(The
Contextof Situation)的研究具有重要發(fā)展空間。在社會(huì)語言學(xué)研究中,“情境是文本活起來的環(huán)境”,這是
一個(gè)確立已久的概念[10]109。這一重要觀念在英國社會(huì)人類學(xué)家馬林諾夫斯基(Bronislaw Malinowski)的語
言民族志中發(fā)揮了關(guān)鍵作用,被提煉為\"情境語境”概念。馬林諾夫斯基的“情境語境”概念在英國語言學(xué)7
先鋒約翰·費(fèi)斯(John RupertFirth)那里得到了進(jìn)一步發(fā)展和明確,他認(rèn)為情境語境不應(yīng)被解釋為周圍“道具”的某種視聽記錄,應(yīng)被視為以與文本相關(guān)的某些一般范疇對(duì)環(huán)境的抽象表征。而與說話或?qū)懽鲿r(shí)周圍發(fā)生的事情完全無關(guān)?!扒榫痴Z境是社會(huì)分析層面的一種方便抽象,并構(gòu)成了意義陳述技術(shù)層次的基礎(chǔ)。”\"關(guān)于“情境語境”概念的理解,英國當(dāng)代語言學(xué)家韓禮德(M.A.K.Halliday)做了重要深化:“情境語境是一種理論構(gòu)造,用于解釋文本如何與其所處的社會(huì)過程相關(guān)?!盵10]277由此可見,情境語境包含了智能體的觀念體系,只有在特定觀念體系中,情境才可能與語境關(guān)聯(lián)在一起。無論在人工智能大模型接地甚至通用化,還是在人類理解研究中,情境和語境的關(guān)聯(lián)都具有特殊意義。由此也可以看到語境一情境關(guān)聯(lián)的重要信息基礎(chǔ):作為感受性關(guān)系的信息、作為信息物能化和觀念化的信息編碼以及基于信息觀念編碼作為知識(shí)的觀念體系。在此基礎(chǔ)上深入研究,我們可以得到一系列重要結(jié)論。
四、結(jié)論
自動(dòng)駕駛汽車與大模型的結(jié)合實(shí)驗(yàn)以駕駛場(chǎng)景凸顯了語境,呈現(xiàn)了大模型接地中語境的地位。以Sora為標(biāo)志的文生視頻模型以視頻反映凸顯了情境,呈現(xiàn)了大模型接地中情境的地位。而斯坦福人工智能小鎮(zhèn)實(shí)驗(yàn)則以大語言模型和生成式智能體所處的社區(qū)情境凸顯了語境—情境的內(nèi)在關(guān)聯(lián)(機(jī)制),呈現(xiàn)了大模型接地中語境和情境關(guān)聯(lián)的地位。由語境凸顯到情境凸顯再到語境和情境關(guān)聯(lián)的雙向凸顯,構(gòu)成了大模型接地的語境一情境內(nèi)在關(guān)聯(lián)問題。由此可以得到進(jìn)一步的結(jié)論:首先,大模型接地凸顯了理解問題。沒有理解能力,人工智能大模型的接地總是離不開人類干預(yù)——實(shí)質(zhì)上是離不開通用智能機(jī)制。其次,大模型接地的理解問題凸顯了語境—情境關(guān)聯(lián)的關(guān)鍵性。智能體對(duì)世界的理解建立在語境—情境關(guān)聯(lián)的前提性基礎(chǔ)上,沒有語境和情境的關(guān)聯(lián)基礎(chǔ),不可能有類人理解。最后,作為理解的前提性基礎(chǔ),語境和情境的關(guān)聯(lián)既是離散的,又是連續(xù)的,類似廣義相對(duì)論中的時(shí)空連續(xù)統(tǒng)——“語境—情境連續(xù)統(tǒng)”。在三種大模型接地的實(shí)驗(yàn)和產(chǎn)品中,一個(gè)共同的缺陷就是沒有建立語境—情境連續(xù)統(tǒng)。語境一情境連續(xù)統(tǒng)不僅是大模型接地,而且是深化人類理解研究必不可少的環(huán)節(jié),還是人工智能通用化的重要前提性基礎(chǔ)。作為一個(gè)新的概念,語境一情境連續(xù)統(tǒng)是必須進(jìn)一步系統(tǒng)深人探索的重要課題。
參考文獻(xiàn):
[1]王天恩.人工智能通用化及其實(shí)現(xiàn)路徑[J].中國社會(huì)科學(xué),2024(3).
[2]WIENERN.Cybernetic,rControlandCommunicationintheAnimalandtheMachine[M].secondedition.CambridgetheMITPress,1985:132.
[3]王天恩.信息及其基本特性的當(dāng)代開顯[J].中國社會(huì)科學(xué),2022(1):90.
[4]王天恩.人工智能算法的深層認(rèn)識(shí)論意蘊(yùn)[J].湖北大學(xué)學(xué)報(bào)(哲學(xué)人文社會(huì)科學(xué)版),2023(1):98.
[5]TIANEN W,Xi W. Information as Receptive Relation[M].London/New York:Routledge,2024:39-48.
[6]YANN L C.A Path Towards Autonomous Machine Inteligence[DB/OL].(2022 -06-27)[2025-03-25].htps://arxiv.org/abs/2306.02572.
[7]MARCUSG.AI Platforms LikeChatGPTareEasyto Use ButAlsoPotentiall Dangerous[J/OL].Scientific American,(202212 -19)[2025-03-25].htps://www.scientificamerican.com/article/ai- platforms-like-chatgpt-are-easy-to-use- but-also -poten-tially-dangerous/.
[8]PARK JS,BRUENJCO,CAI CJ,etal.Bernstein,Generative Agents:interactive Simulacraof Human Behavior[DB/OL].(2023-11 -29)[2025-03-25]. https://arxiv.org/abs/2304.03442.
[9]王天恩.人機(jī)交會(huì):人工智能進(jìn)化的類群親歷性[J].師范大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版),2023(1):62.
8
[10]HALLIDAYMAK.Languageas SocialSemiotic,the Social InterpretationofLanguage and Meaning[M].London;EdwardArnold,1978 :109.
(責(zé)任編輯:張 婭李笛)
Grounding Emergence in AI Large Models : context - scenario Correlation for Enhanced Comprehension
WANG Tianen,WANG Jinwei
(Marxism Research Center in the Intelligent Era,Shanghai University,Shanghai,China,)
Abstract:From thedevelopmentof large language modelslike ChatGPTtothetext-to-videomodelsuchasSora,the groundingoflargeAImodelshasemergedasaciticalresearchfocus.The groundingof these modelscreatessignificanttensionin theresearchofmachineunderstanding,highlightingtheunprecedentedconnectionbetweencontextandsituation.Explorngand establishingtheintrinsicrelationshipbetwencontextandsituationisakeytogroundinglargeAImodels.ProgressinAI understandingcapabilitiesmustnotonlybebasedonresearchintohumancontextsbutalsodelveintomachinesituations, establishinganintrinsicconectionbetweencontextandsituationasafoundationalpremiseforunderstanding.Fromtheintegation oflargemodelswithauto-drivingcartothetext-to-videomodelrepresentedbySora,andtheStanfordAITownexperiment,this systemdemonstratesthecontext-situationrelatioship.Itsexplorationonimportantcoctionsissignificantotonlyforgrounding largeAImodelsbutalsofordepeningresearchintohumanunderstanding.Asabridgetoconectthephysicalworldandsocial behavior,the grounding of large models must be built on the intrinsic relationship between context and situation.
Key words :large AI models;context;situation;understanding;grounding