提 要 “人工智能教父”辛頓對(duì)喬姆斯基的批評(píng),值得語言學(xué)者思考:大語言模型究竟在哪里挑戰(zhàn)了語言學(xué)?本文討論以下問題:(1)搞大語言學(xué)還是小語言學(xué)?這一問題涉及語言學(xué)研究對(duì)象拓展和研究范式轉(zhuǎn)換。當(dāng)前特別需要把小語言學(xué)觀念轉(zhuǎn)變?yōu)榇笳Z言學(xué)觀念,建立基于數(shù)據(jù)和概率統(tǒng)計(jì)的多學(xué)科、跨領(lǐng)域的科學(xué)觀。大語言學(xué)向外融合文、理、醫(yī)、工等多學(xué)科,向內(nèi)跨越語音、語法、語義、語用等多領(lǐng)域,海闊天空,大有作為。(2)語言和思維可分還是不可分?人類的思維可以離開語言,語言不可離開思維。思維是為了交流,沒有新信息,思維會(huì)失去活力而枯竭。不能人為地把思維和交際分離開。(3)語言習(xí)得是先天的,還是經(jīng)驗(yàn)的?人工智能棄用喬姆斯基的語言先天論,轉(zhuǎn)而基于語言經(jīng)驗(yàn)論,取得了里程碑式的成功。(4)人工智能會(huì)不會(huì)有思維,甚至有生命?人工智能不會(huì)具有生命。人工智能的語言是離開思維的語言。流利的語言并不等于自主的思維。離開人類智能的主宰操控,人工智能將一事無成。我們要學(xué)會(huì)駕馭人工智能,適應(yīng)這個(gè)有了人工智能的世界,去創(chuàng)造更加美好的未來。
關(guān)鍵詞 人工智能;大語言學(xué);自主思維;概率匹配;復(fù)雜適應(yīng)系統(tǒng)
中圖分類號(hào)H002 文獻(xiàn)標(biāo)識(shí)碼A 文章編號(hào)2096-1014(2025)01-0087-10
DOI 10.19689/j.cnki.cn10-1361/h.20250108
一、引 言
2022 年年底,ChatGPT 橫空出世,人工智能進(jìn)入大語言模型時(shí)代。有著“人工智能教父”之譽(yù)的杰弗里·辛頓(Geoff rey E. Hinton)2024 年10 月8 日獲得諾貝爾物理學(xué)獎(jiǎng)后,在獲獎(jiǎng)訪談中說:“神經(jīng)網(wǎng)絡(luò)在處理語言方面,比喬姆斯基語言學(xué)派產(chǎn)生的任何東西都要好得多?!贝饲?,他在都柏林大學(xué)學(xué)院接受尤利西斯獎(jiǎng)?wù)碌墨@獎(jiǎng)感言中,就曾毫不客氣地指出“語言學(xué)家被一個(gè)叫喬姆斯基的人誤導(dǎo)了好幾代”(陳國華2024)。他對(duì)喬姆斯基語言學(xué)的批評(píng),引起了語言學(xué)界的強(qiáng)烈反響,或贊同,或反對(duì),莫衷一是。我聯(lián)想到以前有兩個(gè)人對(duì)于西方語言學(xué)的評(píng)論。一個(gè)是鮑林杰(Bolinger 1981):“沒有哪一個(gè)科學(xué)領(lǐng)域像語言學(xué)那樣,存在著如此之多的謬誤,不僅存在著,而且還繼續(xù)被當(dāng)作真理傳授著?!币粋€(gè)是杰里內(nèi)克(Jelinek 1988):“每次我炒掉一位語言學(xué)家,言語識(shí)別系統(tǒng)的表現(xiàn)就會(huì)提升?!笨墒撬终f:“我可以跟語言學(xué)家很好地合作。”(Jelinek 2005)作為語言學(xué)家,重要的不是去贊成或反對(duì),而是需要認(rèn)真反思:大語言模型在哪里挑戰(zhàn)了語言學(xué)?語言學(xué)該怎樣把挑戰(zhàn)變?yōu)闄C(jī)遇?
正如雅可布森高度稱贊索緒爾開創(chuàng)現(xiàn)代語言學(xué)的歷史功績的同時(shí),也指出“甚至其中的錯(cuò)誤和矛盾也能給人啟示”(羅曼·雅柯布森1942/2001 :66),實(shí)際上,有些語言學(xué)的基本問題,從索緒爾就開始改變了(石鋒2013)。喬姆斯基不過是把這種改變推向極致。我曾寫過《音義結(jié)合是任意的嗎?——重讀雅可布森評(píng)索緒爾之一》(石鋒2013)、《語言之謎:來自人工智能的挑戰(zhàn)》(石鋒2023)等文章。以下是幾個(gè)不成熟的想法,拋磚引玉,請(qǐng)大家指正。
二、大語言學(xué)還是小語言學(xué)?
關(guān)于搞大語言學(xué)還是小語言學(xué)的問題,涉及語言學(xué)研究對(duì)象的拓展和研究范式的轉(zhuǎn)換,或者如沈家煊所說的,是關(guān)系到語言學(xué)的內(nèi)涵和外延的擴(kuò)展a。索緒爾(1980:43)強(qiáng)調(diào)純語言學(xué):“我們的關(guān)于語言的定義是要把一切跟語言的組織、語言的系統(tǒng)無關(guān)的東西,簡言之,一切我們用‘外部語言學(xué)’這個(gè)術(shù)語所指的東西排除出去的?!眴棠匪够–homsky 1965)堅(jiān)持語言研究的對(duì)象是“理想化的說話人和聽話人的語言知識(shí)”??梢?,從索緒爾的純語言學(xué)到喬姆斯基的理想說話人,思想觀念是一脈相承的。這好像是自己給自己劃出一個(gè)小語言學(xué)的圈圈,把語言跟人群和社會(huì)隔絕開來。小語言學(xué)是追求規(guī)則性的還原論科學(xué)觀,大語言學(xué)則是追求概率性的演化論科學(xué)觀。我們當(dāng)前特別需要把小語言學(xué)觀念轉(zhuǎn)變?yōu)榇笳Z言學(xué)觀念,建立基于數(shù)據(jù)和概率統(tǒng)計(jì)的多學(xué)科、跨領(lǐng)域的科學(xué)觀。
語言是什么?“語言是人跟人互通信息,用發(fā)音器官發(fā)出來的、成系統(tǒng)的行為的方式?!保ㄚw元任1980 :3)英國著名語言學(xué)家杰弗里·利奇講:“語言學(xué)天生是跨學(xué)科的…… 語言天然地分布在多個(gè)學(xué)科的邊界處。”語言學(xué)天然具有多學(xué)科的性質(zhì)。這意味著語言學(xué)從來不是一個(gè)獨(dú)立自足的學(xué)科。
雅可布森、拉波夫、王士元都提倡并且實(shí)踐大語言學(xué)的研究。例如,雅可布森對(duì)照兒童的語言發(fā)展,考察失語癥病人的語言消退,寫出《兒童語言,失語癥和語音普遍現(xiàn)象》(1941)。他帶著學(xué)生哈勒(M. Halle)跟聲學(xué)語音學(xué)家方特(G. Fant)合作完成《語音分析初探:區(qū)別性特征及其相互關(guān)系》(1951)。拉波夫研究異質(zhì)有序的語言變異。他的團(tuán)隊(duì)經(jīng)過長期廣泛的調(diào)查訪談和實(shí)驗(yàn)測算,寫出多年學(xué)術(shù)積累的三卷本巨著《語言變化原理:內(nèi)部因素》(1994)、《語言變化原理:社會(huì)因素》(2001)、《語言變化原理:認(rèn)知和文化因素》(2010)。王士元最早利用計(jì)算機(jī)建成漢語方言語料庫,創(chuàng)立詞匯擴(kuò)散理論;現(xiàn)在又在研究演化語言學(xué),利用腦科學(xué)技術(shù)探索兒童語言產(chǎn)生和老年語言衰退的神經(jīng)機(jī)制。
大語言學(xué)內(nèi)部具有跨領(lǐng)域的特征。語音、詞匯、語法、語義、語用等分野并沒有明確的獨(dú)立性?!罢娴恼Z言是大半有規(guī)則,小半不規(guī)則的一個(gè)系統(tǒng)。”(趙元任1965a/2002 :590)不僅是全部語言成分大半有規(guī)則,小半不規(guī)則,而且還應(yīng)該包括全部的語言分野、語言范疇和語言層級(jí)的劃分,這些同樣是大半有規(guī)則,小半不規(guī)則的。這就意味著,在任何單一分野或單一層級(jí)內(nèi)部不可能解決這一分野和這一層級(jí)的所有問題,都不是自足的。即語言學(xué)內(nèi)部各分野、各層級(jí)之間也要互相補(bǔ)充、彼此結(jié)合才有可能解決問題。
那種語言內(nèi)部的語音、詞匯、語法、語義、語用各自成為一統(tǒng),相互分離的想法和做法,都是不可取的。為什么語調(diào)問題一直難以解決?因?yàn)檫@本來就不是單純的語音問題。為什么漢語的主語謂語問題長期糾纏不清?因?yàn)檫@根本就超出了語法的小圈子。所以趙元任說:“漢語里主謂結(jié)構(gòu)的含義并非像大多數(shù)印歐語言那樣是動(dòng)作者與動(dòng)作的關(guān)系,而是話題與說明的關(guān)系。作為一個(gè)特例,動(dòng)作者與動(dòng)作的關(guān)系也含于其中。”(趙元任1954/2002 :805)可見他根本就沒有把語法、語義和語用之間的界限看作不可逾越的雷池。
呂叔湘、朱德熙(1952)《語法修辭講話》把語法和修辭結(jié)合在一起。陸儉明(2024)的“語義制約語法”講“語法問題說到底是語義問題”。沈家煊(2020)提出,大語法“同時(shí)是‘語義語法’‘語用語法’‘聲韻語法’”。這些都表明我們中國語言學(xué)是有著大語言學(xué)傳統(tǒng)的。美國歐哈拉(J. Ohala)提倡語音學(xué)跟音系學(xué)結(jié)合。我們的“語音格局”學(xué)術(shù)理念和研究范式就是用實(shí)驗(yàn)的方法研究音系學(xué)的捷徑。這說明我們?cè)谶@方面的觀念和實(shí)踐上并不落后。
綜上所述,人工智能對(duì)語言學(xué)挑戰(zhàn)的重要意義之一,就是用事實(shí)打破了小語言學(xué)、純語言學(xué)的舊框框,帶給我們建立新的大語言學(xué)觀念和研究范式的機(jī)遇。語言學(xué)是經(jīng)驗(yàn)科學(xué),不是玄學(xué)。不能只是在書齋里坐而論道,而是要去調(diào)查、實(shí)驗(yàn)、探索、發(fā)現(xiàn)。大語言學(xué)向外融合文、理、醫(yī)、工等多學(xué)科,向內(nèi)是跨越語音、語法、語義、語用等多領(lǐng)域,海闊天空,道路寬廣,大有作為。
三、語言和思維,可分還是不可分?
我在《語言之謎:來自人工智能的挑戰(zhàn)》一文中寫道:“語言是用來交際的還是用來思維的?喬姆斯基說語言是思維的,不是交際的,這個(gè)可以討論。語言和思維可分還是不可分?喬姆斯基認(rèn)為語言和思維不可分,這也可以討論?!逼渲械诰殴?jié)就是討論“語言和思維可以分開嗎?”,這里再做些補(bǔ)充說明。
語言和思維的關(guān)系問題,其實(shí)是一個(gè)老問題。很多教科書上都講思維離不開語言。其實(shí)是語言離不開思維。20 多年前我給學(xué)生上語言學(xué)概論課就講過,人類思維可以分為形象思維、抽象思維、悟性思維和技術(shù)思維,其中只有抽象思維跟語言關(guān)系密切,需要語言來使抽象思維清晰化、條理化,并且用語言來表達(dá)出來(石鋒2023)。形象思維,如畫家用圖畫來表現(xiàn)思想,音樂家用旋律來抒發(fā)感情,可以不用語言;悟性思維,是一個(gè)謎題糾纏于心,久拖未解,偶遇觸發(fā),恍然大悟,也可以不用語言。技術(shù)思維,如體育運(yùn)動(dòng)、工藝制作、非遺傳承,都是可以不用語言就能夠完成的。
這幾種思維方式當(dāng)然不是各自孤立的,而是彼此聯(lián)系,相互補(bǔ)充的。所以,對(duì)于人類來說,思維可以離開語言,而語言不可離開思維。這是一種單向的蘊(yùn)含。語言中有很多這樣單向蘊(yùn)含的不對(duì)稱現(xiàn)象。人們常常會(huì)有“只可意會(huì),不可言傳”的狀態(tài)。因?yàn)槿说囊磺谢顒?dòng)行為都是由思維來支配的。思維所涵蓋的范圍比語言更加廣闊。這個(gè)問題澄清了,解決了,才好進(jìn)一步理解和認(rèn)識(shí)大語言模型生成的語言為什么會(huì)一本正經(jīng)地胡謅,那是因?yàn)樗皇腔谡Z言數(shù)據(jù)而不是基于認(rèn)知思維。
在中國傳統(tǒng)文化中,語言和思維不是一回事。道可道,非常道;名可名,非常名。可是在西方傳統(tǒng)文化中,語言和思維常常混在一起,如:語言的邊界就是世界的邊界(維特根斯坦語)。其實(shí),語言知識(shí)并不是人類所學(xué)習(xí)和掌握的全部知識(shí)。人們通過形象思維、悟性思維和技術(shù)思維同樣可以獲得知識(shí)。當(dāng)然,抽象思維以語言作為表達(dá)工具是很重要的?!叭祟愔匝莼蔀椤厍蛑髟住艽蟪潭壬鲜且?yàn)槲覀儼l(fā)明了語言。”(王士元2024)特別是記錄語言的文字可以突破空間和時(shí)間的限制,把人類的知識(shí)傳播開來,積累起來。這樣,后人就能夠站在前人的肩上不斷進(jìn)步。這種文化的演進(jìn)比生理的演進(jìn)在時(shí)間上要縮短千百倍。我們說思維可以離開語言,只是對(duì)于事實(shí)的陳述,并不否認(rèn)語言對(duì)于人類社會(huì)的重要作用。
再來看語言是用于思維還是用于交際的問題。喬姆斯基是主張語言用于思維而不是用于交際。最近有幾位神經(jīng)科學(xué)家在《自然》(Nature)刊物上發(fā)文(Fedorenko et al. 2024),用實(shí)驗(yàn)證明語言主要是一種交流的工具,而不是一種思考的工具。她們利用功能性磁共振成像(fMRI)技術(shù),找出那些專門參與語言以及思考和推理的大腦區(qū)域,發(fā)現(xiàn)當(dāng)人們進(jìn)行各種形式的思考時(shí),大腦中跟語言相關(guān)的區(qū)域是沉默的,即思維能力是由大腦的其他區(qū)域支持的。因此語言是用于交際的,沒有語言,同樣可以思維。
根據(jù)腦成像的證據(jù),嚴(yán)重失語癥病人(失去語言交流能力)照樣可以解決數(shù)學(xué)計(jì)算、下棋,具有做出決策的能力。同時(shí),智力障礙疾病或者神經(jīng)精神疾病的患者,思維和推理能力受到限制,可他們的基本語言功能不一定有問題。另外,口吃的人語言產(chǎn)生卡頓并不表明他的思維卡頓。我們往往會(huì)記得別人的相貌而想不起他的名字,這說明直接的視覺圖像記憶跟間接的語言符號(hào)提取是不同步的。語言不是思維的必要條件。這個(gè)結(jié)論對(duì)于我們認(rèn)識(shí)理解大語言模型的原理和本質(zhì)極為重要。
人們?cè)跍?zhǔn)備講述一個(gè)事件、論證一個(gè)觀點(diǎn)、寫作一篇文章的時(shí)候,先要在大腦里想好表達(dá)的條理次序和選用的詞語句式。這就是人們?cè)谒伎紗栴}時(shí)的內(nèi)部語言,可以看作自問自答,自己跟自己交際。思考的目的是什么?是為了說出來更好地表達(dá)思想,跟他人交流信息。寫文章的目的是什么?是為了給別人看,更廣泛地交流信息。外部語言就是我們平常講的自然語言,內(nèi)部語言就是前語言。只有表達(dá)出來成為語言,別人才能知道,你的思考才有意義。同時(shí),通過交流,得到反饋的信息。交際就是交流信息,只有通過交流得到新信息,思維才會(huì)有內(nèi)容。沒有新信息,思維會(huì)失去活力而枯竭。交際是思維得以進(jìn)行和發(fā)展的基礎(chǔ)條件。所以,我們大可不必對(duì)思維和交際進(jìn)行人為的分離和割裂。
四、語言習(xí)得是先天的,還是經(jīng)驗(yàn)的?
人工智能棄用喬姆斯基的語言先天論,轉(zhuǎn)而基于語言經(jīng)驗(yàn)論,取得了里程碑式的成功。經(jīng)驗(yàn)是什么?經(jīng)驗(yàn)就是頻率,經(jīng)驗(yàn)就是概率。經(jīng)驗(yàn)多就是高頻,經(jīng)驗(yàn)少就是低頻。高頻就是概率大,低頻就是概率小。趙元任(1965b/2002 :522)講:“小孩子學(xué)語言,就是老聽老聽,老聽那種語言在什么情形說甚么話。他把說那種話跟那種情形聯(lián)系起來,就可以知道那句話的意義了?!辈粩嗟卦黾痈怕剩炷苌?。兒童就是這樣學(xué)會(huì)說話的。
拉波夫(Labov 1994 :745)寫道:“語言學(xué)習(xí)的實(shí)際情況顯示出:兒童所習(xí)得的變異規(guī)則的使用頻率,是和他們所處的環(huán)境相匹配的?!彼麖?qiáng)調(diào):“這并不是一個(gè)關(guān)于兒童學(xué)習(xí)會(huì)表現(xiàn)出概率匹配的假設(shè)。它只是對(duì)所觀察到的事實(shí)進(jìn)行一個(gè)簡單的描述。”第二語言習(xí)得的情況也是一樣,“學(xué)習(xí)一個(gè)語言是要說過的若干分量,若干種的話。說到了自己會(huì)說出像樣的話了,以后就出口成話了”(趙元任1965a/2002 :589)。這就是語言的涌現(xiàn),功到自然成。
語言的本質(zhì)就是一種語言符號(hào)的概率分布模式。我在《語言之謎:來自人工智能的挑戰(zhàn)》第7 個(gè)問題“人類是怎樣學(xué)習(xí)語言的?”的討論中,曾經(jīng)提出語言習(xí)得的概率匹配法則:母語習(xí)得和二語習(xí)得的本質(zhì)就是對(duì)語言要素連同其語境和論域的概率匹配。概率增加到相當(dāng)大,就會(huì)發(fā)生涌現(xiàn),習(xí)慣成自然,就成為語感。
形式模仿和概率匹配是人和動(dòng)物共有的本能。概率匹配其實(shí)就是高級(jí)的模仿。本能都是先天的??梢?,語言不是先天的,形式模仿和概率匹配才是先天的語言學(xué)習(xí)機(jī)制。概率需要實(shí)踐經(jīng)驗(yàn)的積累儲(chǔ)存,包括形式的儲(chǔ)存和內(nèi)容的儲(chǔ)存??鬃拥摹皩W(xué)而時(shí)習(xí)之,不亦樂乎”中的“時(shí)習(xí)之”,就是經(jīng)常地練習(xí)。對(duì)于人類語言的概率性質(zhì),其實(shí)有些學(xué)術(shù)敏感的語言學(xué)者早就有意或無意的,在不同程度上有所發(fā)現(xiàn),并有所研究。只是大多都被學(xué)者們所忽略,或者都被視為非主流、非本體,而被排除在主流和本體之外。
雅可布森研究的兒童學(xué)母語的語音遵循的順序,其實(shí)就是概率大的先學(xué)會(huì),概率小的后學(xué)會(huì)。哈佛大學(xué)教授齊夫在20世紀(jì)40年代就提出詞頻分布的齊夫定律(Zipf’s Law)a。王士元的詞匯擴(kuò)散理論,哪些詞先變,哪些詞后變,都跟詞的頻率有關(guān)。我們?cè)疾焯旖蛟捖曊{(diào)的變化(石鋒,王萍2004),發(fā)現(xiàn)朝向標(biāo)準(zhǔn)語的變化是低頻詞領(lǐng)先,背離標(biāo)準(zhǔn)語的變化是高頻詞領(lǐng)先。沈家煊(1999)的《不對(duì)稱和標(biāo)記論》中,無標(biāo)記是高頻成分,有標(biāo)記是低頻成分。語法就是用法的固化。概率大的就是規(guī)則,概率小的就是例外。陸儉明的語義和諧律和語義制約語法說,也是跟概率相聯(lián)系的。何謂和諧?共現(xiàn)概率大,就和諧;共現(xiàn)概率小,就不和諧。優(yōu)選論風(fēng)靡一時(shí),最具概率色彩,這一點(diǎn)可能提倡者自己都沒有意識(shí)到。優(yōu)選就是優(yōu)勢選擇。優(yōu)勢就是概率大,劣勢就是概率小,肯定沒有百分之百的情況。我們依據(jù)實(shí)驗(yàn)數(shù)據(jù)做出語音格局、語言格局,就是語音成分或語言成分的概率分布模式。
趙元任(1965a/2002 :587)曾經(jīng)說可以把現(xiàn)代的中國話定義為:“現(xiàn)在活著的中國人說過的所有的話加起來的總和”。這句話好像有些熟悉哦!現(xiàn)在的人工智能就是基于大語言模型的,這個(gè)語言的定義正符合現(xiàn)在的大語言模型的設(shè)計(jì)思想。趙先生至少早在1965 年就把它的輪廓勾勒出來,并且把這個(gè)定義的理念成功地應(yīng)用于語言習(xí)得和語言教學(xué)當(dāng)中。真是了不起!所以現(xiàn)在的人工智能就是在繼續(xù)拓展那些“非主流”語言學(xué)家已經(jīng)在做的,并且需要其他語言學(xué)家都來做的事情。
前面講過,“真的語言是大半有規(guī)則,小半不規(guī)則的一個(gè)系統(tǒng)”(趙元任1965a/2002 :590)。語言實(shí)際上就是一種復(fù)雜適應(yīng)系統(tǒng),即開放的系統(tǒng)。對(duì)于封閉系統(tǒng),適用于規(guī)則;對(duì)于開放系統(tǒng),適用于概率。即,簡單封閉系統(tǒng)是規(guī)則系統(tǒng),復(fù)雜開放系統(tǒng)是概率系統(tǒng)。語言就是一種概率分布模式。兒童學(xué)會(huì)母語,學(xué)生學(xué)會(huì)一種外語,就是學(xué)會(huì)這種概率分布模式,進(jìn)行概率匹配和模式匹配。這就是人類語言的一個(gè)重要奧秘,也是大語言模型重要的設(shè)計(jì)原理和工作原理。
對(duì)于人工智能的成功,對(duì)于大語言模型的原理,有的學(xué)者講“不可解釋”,用那些先天論的理念和規(guī)則系統(tǒng)的觀點(diǎn)當(dāng)然不可能解釋語言這種概率系統(tǒng)。當(dāng)年機(jī)器翻譯有兩條路線,一條走規(guī)則,一條走概率。這就是對(duì)于語言是規(guī)則系統(tǒng)還是概率系統(tǒng)的兩種不同的觀念。以規(guī)則為基礎(chǔ)最多只能達(dá)到70% 左右的正確率,這應(yīng)該就是那有規(guī)則的大半。統(tǒng)計(jì)路線當(dāng)時(shí)受到數(shù)據(jù)量的限制,加之硬件算力不足,軟件算法不精,遭遇冷落。如今這3 個(gè)難題都可以解決,人工智能一飛沖天。以概率為基礎(chǔ)的正確率能達(dá)到多少?那70% 有規(guī)則的正確率肯定是100% ;剩下30% 不規(guī)則的正確率可以在90% 以上。這加起來的正確率應(yīng)該超過95%。所以,語言并不是規(guī)則系統(tǒng),而是一種基于概率的復(fù)雜適應(yīng)系統(tǒng)。
人工智能深度學(xué)習(xí)跟人類大腦學(xué)習(xí)方式是否相同?有人說二者完全不同,有人說二者完全一樣,這兩種說法都各有偏頗。實(shí)際上應(yīng)該是有同有異。相同的方面主要是,在采用概率匹配基本原理方面具有一致性。心理學(xué)界對(duì)兒童學(xué)習(xí)語言時(shí)的概率詞切分即語音統(tǒng)計(jì)學(xué)習(xí)已經(jīng)有大量實(shí)驗(yàn)證實(shí)發(fā)現(xiàn),是成熟的范式。實(shí)驗(yàn)證明,人腦的感知和理解語言,也是預(yù)測式的,由記憶概率和輸入信號(hào)的自然特征共同擬合,即相互匹配。
人類有很多科學(xué)技術(shù)是對(duì)各種生物的模仿,而人工智能則是不完全地模仿人類自身獲取知識(shí)、習(xí)得語言的過程。人工神經(jīng)網(wǎng)絡(luò)就是對(duì)人類大腦神經(jīng)元突觸連接而成的神經(jīng)網(wǎng)絡(luò)的模仿。所以人工智能可以說是人腦的不完全仿制品,或按照史有為的說法,是類仿生制品。所謂心理詞庫就是大腦中的記憶庫,詞語連同它所在的結(jié)構(gòu)和語境一起儲(chǔ)存在神經(jīng)網(wǎng)絡(luò)的長時(shí)記憶中,這相當(dāng)于大語言模型的詞向量數(shù)據(jù)庫。連接強(qiáng)度就是概率權(quán)重。人工神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)、大語言模型的成功,在很大程度上是一種仿生學(xué)的實(shí)踐。
這里順便對(duì)一個(gè)人們關(guān)注的問題做出簡單的解釋。兒童語言和人工智能語言同樣都很少有語法錯(cuò)誤,這是出于同樣的原因:輸入的都是正常語料,當(dāng)然會(huì)輸出正常的語句。
五、人工智能語言跟人類自然語言有什么差異?
面對(duì)當(dāng)前人工智能的快速進(jìn)展,人們開始談?wù)撊斯ぶ悄苁欠駮?huì)成為硅基生命,是否會(huì)優(yōu)于人類這種碳基生命,甚至?xí)霈F(xiàn)硅基生命取代碳基生物的前景。如OpenAI 公司前首席科學(xué)家伊利亞就非常擔(dān)心,感覺大語言模型似乎出現(xiàn)了某種自我意識(shí)。馬斯克也是強(qiáng)烈地戒備ChatGPT 可能會(huì)具有自我意識(shí)。人工智能的發(fā)展使我們有機(jī)會(huì)和有條件重新反思生命和非生命,意識(shí)和非意識(shí),思維和非思維,語言和非語言。
如果我們前面講的是大語言模型對(duì)主流語言學(xué)理論的挑戰(zhàn),以及大語言模型對(duì)人類語言的挑戰(zhàn),那么這里已經(jīng)涉及大語言模型對(duì)人類自身的挑戰(zhàn)了。我們可以把問題分解為3 個(gè)不同的層面:(1)生命和非生命,即生物和非生物之間的根本區(qū)別在哪里?這關(guān)系到人工智能是否可以有生命。(2)人工智能和人類智能的根本區(qū)別在哪里?這關(guān)系到人工智能是否具有自我意識(shí)和思維能力。(3)人工智能的語言和人類的自然語言根本區(qū)別在哪里?這關(guān)系到人類學(xué)習(xí)語言和機(jī)器學(xué)習(xí)語言,二者之間的相同點(diǎn)和不同點(diǎn)。
這樣有助于把問題導(dǎo)向清晰和簡化。人們?cè)诘谝粋€(gè)問題上可能就看法不同,即對(duì)生物和非生物的認(rèn)識(shí)理解不一樣。對(duì)第一個(gè)問題觀點(diǎn)相同的人,有可能在第二個(gè)問題上產(chǎn)生分歧,即能否把語言知識(shí)和思維能力區(qū)分開。對(duì)前兩個(gè)問題都意見一致的人,有可能在第三個(gè)問題上產(chǎn)生分歧,即怎樣認(rèn)識(shí)人工智能產(chǎn)生的語言。
第一個(gè)問題比較容易解決。人工智能不會(huì)具有生命。當(dāng)年叫作“人工智能”(Artifi cial Intelligence,AI),就是采用了一個(gè)神奇的名稱。其實(shí)AI 的A(artifi cial),意義就是“假的”,不是真的。世界由物質(zhì)、能量和信息構(gòu)成。生命的本質(zhì)表現(xiàn),就是通過生命體自身和外界的信息交換和物質(zhì)交換,為自身的生存和繁衍提供能量。這種內(nèi)源性可持續(xù)的能量獲取和能量消耗相互平衡,生命就可以不斷延續(xù)。這是生命的核心特征和判定標(biāo)準(zhǔn),人工智能顯然達(dá)不到這一點(diǎn)。所謂硅基生命只是一種幻想式的比喻說法,或者就是一種戲稱。
第二個(gè)問題聯(lián)系到人工智能和人類智能的根本區(qū)別。依據(jù)第一個(gè)問題的答案,人類智能有生命,人工智能無生命。自主意識(shí)的核心特征就是:具有主觀能動(dòng)性。這表現(xiàn)為獨(dú)立確定目標(biāo),主動(dòng)提出問題,自主進(jìn)行決策。人工智能不會(huì)具備這一點(diǎn)。人工智能可以產(chǎn)出流利通順的語言,但是流利的語言并不等于自主的思維。語言能力不等于思維能力。人類制造工具,是為了增強(qiáng)人的能力。正如汽車比人跑得快,輪船比人游得遠(yuǎn),人工智能在多方面超出人的能力,是正?,F(xiàn)象。人工智能具有的全部語言能力和各種其他能力,都是人類智能進(jìn)行決策、設(shè)計(jì)、運(yùn)作的結(jié)果。離開人類智能的主宰操控,人工智能將一事無成。
第三個(gè)問題是人工智能的語言和人類語言的對(duì)比。這直接聯(lián)系到語言學(xué)。上文第四節(jié)語言習(xí)得講的,多是二者之間的相同點(diǎn),即:人類語言是概率系統(tǒng),兒童習(xí)得母語和學(xué)生學(xué)習(xí)外語,都是靠概率匹配;大語言模型同樣是依據(jù)詞語搭配的共現(xiàn)概率進(jìn)行預(yù)測,同樣是一種概率匹配。我還發(fā)現(xiàn)另一個(gè)有趣的類似現(xiàn)象。兒童在一歲半到兩歲時(shí),突然會(huì)說很多的詞語和句子。這就是語言的涌現(xiàn)。大語言模型也會(huì)有涌現(xiàn)發(fā)生,當(dāng)訓(xùn)練參數(shù)達(dá)到500 億時(shí),顯示出越來越接近人類語言的表現(xiàn)。(馮志偉,張登柯2024)復(fù)雜適應(yīng)系統(tǒng)的概率積累到相當(dāng)程度,達(dá)到一個(gè)奇點(diǎn),就會(huì)產(chǎn)生涌現(xiàn)。
現(xiàn)在就可以討論人工智能語言跟人類自然語言之間有什么差異了。最大的鴻溝之別就是人工智能沒有生命,沒有自主意識(shí)。前面講到人類的語言是離不開思維的,而人工智能產(chǎn)生的卻是離開思維的語言。很多學(xué)者指出過的一些問題都是源于這個(gè)基本的不同點(diǎn)。例如,人工智能缺乏情感表達(dá)和語用能力,難以理解人類語言中的歧義、反語、雙關(guān)、幽默等意義,常常會(huì)一本正經(jīng)地胡謅。更重要的是人工智能沒有價(jià)值觀、正義感和道德觀,不會(huì)判斷真假和好壞,誠實(shí)和欺騙。(石鋒2023)離開思維的人工智能語言缺失真值判斷,當(dāng)然是不可靠的,必須要經(jīng)過人類的審查,剔除虛假信息,才能付諸使用。
人類有語言能力和思維能力,人工智能有語言能力,無思維能力。人類的思維能力先于語言能力,強(qiáng)于語言能力,大于語言能力,生成語言能力。因?yàn)槿祟愓Z言能力是思維能力的派生品,所以人類語言中可以反映出部分人類的思維能力的過程和結(jié)果。這就是有的人誤以為人工智能具有自主意識(shí)的原因。
人類語言是具身輸入的,包括了語言交際的雙方背景,說話時(shí)的場合情景等信息,所以除了語言內(nèi)部的聯(lián)系之外,還獲取了語言和外部世界的聯(lián)系。人工智能數(shù)據(jù)庫只是語言文本的輸入,只能獲得語言內(nèi)部的詞匯、語句之間的聯(lián)系,所以,有學(xué)者稱其為“語能”而非“智能”(李葆嘉2024),是“言知”而不是“親知”(陳保亞,陳樾2024)。這也是不完全模仿人類的意義。當(dāng)然,人類語言會(huì)有生理遺忘、心理偏好等因素,這也是大語言模型所沒有的。
人們?cè)缇妥⒁獾?,人工智能需要大量?shù)據(jù),十億、百億,以至千億,而兒童習(xí)得語言似乎“輸入貧乏”。其實(shí)量的問題只是表象,質(zhì)的差別才是根本。兒童具身互動(dòng)輸入的語料是語音+ 語義+ 語境+事件+ 人物+ 場景+ 褒貶+ 好惡+ 色彩+ 聲音+ 氣味+ 味道+ 剛?cè)帷?的多通路并行、多模態(tài)整合的優(yōu)質(zhì)高效數(shù)據(jù),而且是在互動(dòng)反饋中同步優(yōu)化的漸進(jìn)式存儲(chǔ),隨時(shí)做出概率權(quán)重,即連接強(qiáng)弱的調(diào)整。人工智能輸入的大量數(shù)據(jù)只是基于單通道、單模態(tài)文本的混雜低效語料,還必須加上各種訓(xùn)練調(diào)整,后補(bǔ)模仿人類的互動(dòng)?,F(xiàn)在新模型可以處理多模態(tài)對(duì)象,要像人類一樣跟語言無縫統(tǒng)合,還有很長的路要走。
實(shí)際上,3 歲兒童的詞匯輸入量大約有1300 萬~ 4500 萬(Hart amp; Risley 1995)。如果按照語音+語義+ 語境+ 事件+ 人物+ 場景…… 等等信息,假設(shè)每個(gè)詞向量有100 個(gè)參數(shù),那么,兒童輸入的數(shù)據(jù)量盡管比不上人工智能,相差也并非想象的那么多。而且兒童的優(yōu)化語料數(shù)據(jù)比人工智能的混雜語料數(shù)據(jù)不知道要強(qiáng)上多少倍!人工智能數(shù)據(jù)量為什么多多益善呢?因?yàn)椤吧忱锾越稹保祀s語料不過都是沙子,經(jīng)過各種訓(xùn)練調(diào)整,優(yōu)化淘汰之后,才得到“真金”。殊不知,兒童輸入的數(shù)據(jù)本身就已經(jīng)是“真金”。
最后,也是最為重要的根本點(diǎn):人工智能沒有個(gè)性。因?yàn)榇笳Z言模型數(shù)據(jù)庫來自互聯(lián)網(wǎng),不可能把每一個(gè)提供語料的人都區(qū)分出來。所以,人工智能不懂得人際交往的遠(yuǎn)近親疏。而人類社會(huì)網(wǎng)絡(luò)中的每個(gè)人都是獨(dú)特的“這一個(gè)”,人類語言是有個(gè)性的。這是人工智能語言和人類自然語言之間的根本性差別。(石鋒2023)這里順便提醒大家一個(gè)問題:人工智能的深度學(xué)習(xí)系統(tǒng)可以用于不同語言之間的轉(zhuǎn)譯,可以切換到不同語言內(nèi)部的問答聊天。這些都是基于同樣的系統(tǒng),并沒有改換不同的系統(tǒng)。那無數(shù)學(xué)人夢(mèng)寐以求的“普遍語法”是不是就已經(jīng)由人工智能實(shí)現(xiàn)了?!
六、結(jié) 語
最近的網(wǎng)絡(luò)上又見到人工智能新發(fā)展的兩個(gè)重要信息。一是OpenAI 公司推出最新推理模型GPT-o1,采用“思維鏈”(CoT,chain of thought)訓(xùn)練模式,極大提高了模型的推理能力。據(jù)說新模型在多項(xiàng)評(píng)測指標(biāo)上已達(dá)“博士級(jí)”智能水平。OpenAI 公司首席執(zhí)行官奧特曼表示,這代表了人工智能領(lǐng)域的新范式:具備通用推理能力的人工智能。一是ImageNet 創(chuàng)始人李飛飛聯(lián)合創(chuàng)建空間智能公司(World Labs),把空間智能作為人工智能領(lǐng)域新的研究前沿。她認(rèn)為,我們正處在一次“寒武紀(jì)大爆發(fā)”中,現(xiàn)在不只是文本,像素、視頻、音頻方面都在開始出現(xiàn)可能的人工智能應(yīng)用和模型。視覺空間智能非常根本,與語言一樣根本。再加上每天有無數(shù)的人在使用它,其實(shí)就是訓(xùn)練它,不斷接近人類的偏好。人工智能的未來具有廣闊的發(fā)展空間。
在這種人工智能快速發(fā)展的大勢所趨之下,語言學(xué)向何處去?語言教學(xué)和語言研究向何處去?確實(shí)值得每一位語言學(xué)人認(rèn)真思考?!癈hatGPT 對(duì)我們既是挑戰(zhàn),也是機(jī)遇。”(沈家煊2023)“這對(duì)于解釋第一語言習(xí)得的奧秘會(huì)有新思路,對(duì)于第二語言教學(xué)會(huì)有新啟發(fā)?!保ɡ钣蠲?023)“這是中國語言學(xué)唯一一次超越或者引領(lǐng)世界語言學(xué)的機(jī)會(huì)?!保▌⒑?,鄭國鋒2021 ;劉海濤2024)“不要問時(shí)代和社會(huì)真的會(huì)不會(huì)拋棄語言學(xué),而要問語言學(xué)真的能為時(shí)代和社會(huì)做些什么!”(袁毓林2024)以上幾位語言學(xué)家的意見,值得重視。
人工智能的挑戰(zhàn)對(duì)于語言學(xué)來說,確實(shí)是個(gè)極好的轉(zhuǎn)向科學(xué)化道路的機(jī)遇。我在今年第15 屆演化語言學(xué)國際研討會(huì)的主旨報(bào)告中,講到“殊途同歸”:“如果不同學(xué)者的大方向一致,不同的理論和方法最終總會(huì)殊途同歸,彼此相容?!保ㄊh2024)不同的理論和方法,應(yīng)該沒有根本分歧,可以統(tǒng)合在一起,渾然一體,形成一個(gè)更具普遍性的綜合性理論體系和方法范式。語言學(xué)的科學(xué)化應(yīng)該是我們共同的努力方向。趙元任的“多能性”精神提倡包容開放,想來也是在寄希望于未來的殊途同歸吧。
世界進(jìn)入了人工智能的時(shí)代。每個(gè)人的工作與生活都將會(huì)受到影響而發(fā)生不同程度的改變。首先要全面革新舊有的觀念,正確理解認(rèn)識(shí)和學(xué)會(huì)使用人工智能,學(xué)會(huì)在人工智能的幫助下進(jìn)行語言教學(xué)和語言研究。同時(shí)要保持清醒的頭腦和冷靜的思考,對(duì)人工智能要有客觀的評(píng)估,過低和過高都不利于對(duì)它的理解和使用。要記住對(duì)人工智能的答案結(jié)果必須認(rèn)真檢查,注意其中的胡謅成分。人工智能的本質(zhì)就是人類制造出來由人來操控的工具,不管它現(xiàn)在或?qū)頃?huì)有多大的功能,這個(gè)本質(zhì)屬性是不會(huì)改變的。我們將會(huì)像使用電腦和手機(jī)一樣,學(xué)會(huì)駕馭人工智能,適應(yīng)這個(gè)有了人工智能的世界,去創(chuàng)造更加美好的未來。
參考文獻(xiàn)
陳保亞,陳 樾 2024 《人類語言習(xí)得的親知還原模式—— 從ChatGPT 的言知還原模式說起》,《北京大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版)》第2 期。
陳國華 2024 《杰弗里·辛頓接受尤利西斯獎(jiǎng)?wù)聲r(shí)發(fā)表的獲獎(jiǎng)感言》,《當(dāng)代語言學(xué)》第4 期。
馮志偉,張登柯 2024 《ChatGPT 與語言研究》,載楊旭,羅仁地《ChatGPT 來了》,上海:上海教育出版社。
李葆嘉 2024 《辛頓如斯說:神經(jīng)網(wǎng)絡(luò)語模吸收了語義學(xué)理論》,“實(shí)驗(yàn)語言學(xué)+”云上論壇報(bào)告(10 月15 日)。
李宇明 2023 《“人機(jī)共生”的時(shí)代》,《語言戰(zhàn)略研究》第4 期。
劉海濤 2024 《從語言數(shù)據(jù)到語言智能:數(shù)智時(shí)代對(duì)語言研究者的挑戰(zhàn)》,《中國外語》第5 期。
劉海濤,鄭國鋒 2021 《大數(shù)據(jù)時(shí)代語言學(xué)理論研究的路徑與意義》,《當(dāng)代外語研究》第2 期。
陸儉明 2024 《語義制約語法芻議》,《河北大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版)》第2 期。
羅曼·雅柯布森 1942/2001 《雅柯布森文集》,錢軍,王力,譯注,長沙:湖南教育出版社。
呂叔湘,朱德熙 1952 《語法修辭講話》,北京:開明書店。
沈家煊 1999 《不對(duì)稱和標(biāo)記論》,南昌:江西教育出版社。
沈家煊 2020 《漢語大語法五論》,上海:學(xué)林出版社。
沈家煊 2023 《ChatGPT,趙元任,新文科——一個(gè)語言學(xué)家的思考》,《中國語言戰(zhàn)略》第1 期。
石 鋒 2013 《音義結(jié)合是任意的嗎?—— 重讀雅可布森評(píng)索緒爾之一》,載石鋒,彭剛《大江東去:王士元80 歲慶壽文集》,香港:香港城市大學(xué)出版社。收入石鋒《秋葉集》,天津:南開大學(xué)出版社。
石 鋒 2023 《語言之謎:來自人工智能的挑戰(zhàn)》,《實(shí)驗(yàn)語言學(xué)》第2 號(hào)。
石 鋒 2024 《拉波夫之問:音在變,還是詞在變?》,《實(shí)驗(yàn)語言學(xué)》第4 號(hào)。
石 鋒,王 萍 2004 《天津話聲調(diào)的新變化》,載石鋒,沈鐘偉《樂在其中:王士元教授七十華誕慶祝文集》,天津:南開大學(xué)出版社。
索緒爾 1980 《普通語言學(xué)教程》,高名凱,譯,北京:商務(wù)印書館。
王士元 2024 《第15 屆演化語言學(xué)國際研討會(huì)開幕式致辭》,《實(shí)驗(yàn)語言學(xué)》第4 號(hào)。
袁毓林 2024 《如何測試ChatGPT 的語義理解與常識(shí)推理水平?—— 兼談大語言模型時(shí)代語言學(xué)的挑戰(zhàn)與機(jī)會(huì)》,《語言戰(zhàn)略研究》第1 期。
趙元任 1980 《語言問題》,北京:商務(wù)印書館。
趙元任 1954/2002 《漢語語法與邏輯雜談》,載趙元任《趙元任語言學(xué)論文集》,北京:商務(wù)印書館。
趙元任 1965a/2002 《羅素的抽象原則跟語言教學(xué)》,載趙元任《趙元任語言學(xué)論文集》,北京:商務(wù)印書館。
趙元任 1965b/2002 《外國語教學(xué)的方式》,載趙元任《趙元任語言學(xué)論文集》,北京:商務(wù)印書館。
Bolinger, D. 1981. Aspects of Language. New York: Harcourt College Publisher.(《語言要略》,方立,等,譯,北京:外語教學(xué)與研究出版社,1993 年版)
Chomsky, N. 1965. Aspects of the Theory of Syntax. Cambridge, MA.: MIT Press.
Fedorenko, E., S. T. Piantadosi amp; E. A. F. Gibson. 2024. Language is primarily a tool for communication rather than thought.Nature 630, 575–586.
Hart, B. amp; T. R. Risley. 1995. Meaningful Diff erences in the Everyday Experience of Young American Children. Baltimore, MD:Paul H. Brookes Publishing Co.
Jelinek, F. 1988. Applying information theoretic methods: Evaluation of grammar quality. In Workshop on Evaluation of NLP Systems, Wayne, PA.
Jelinek, F. 2005. Some of my best friends are linguists. Language Resources and Evaluation 1, 25–34.
Labov, W. 1994. Principles of Linguistic Change: Internal Factors. John Wiley and Sons Limited.( 《語言變化原理:內(nèi)部因素》,石鋒,郭嘉,譯,北京:商務(wù)印書館,2019 年版)
責(zé)任編輯:韓 暢