大語(yǔ)言模型的誕生“在人類(lèi)歷史上稱(chēng)得上史無(wú)前例的技術(shù)成就”(孫茂松),因?yàn)檫@使機(jī)器真正能跟人自由對(duì)話了。先前的自然語(yǔ)言處理—— 具體到漢語(yǔ)就是中文信息處理,其目的就是要讓機(jī)器能理解我們?nèi)怂f(shuō)的話語(yǔ),反過(guò)來(lái)又能生成讓我們?nèi)四芙邮艿脑捳Z(yǔ),以實(shí)現(xiàn)“人機(jī)對(duì)話”。為達(dá)到此目的,上世紀(jì)70 年代解決了“字處理”問(wèn)題;80 年代進(jìn)一步解決了“詞處理”問(wèn)題,包括分詞和詞性標(biāo)注;90 年代逐步解決了“句處理”問(wèn)題,包括句子的句法分析和語(yǔ)義分析。處理方法逐步由基于規(guī)則進(jìn)而采取基于規(guī)則和統(tǒng)計(jì)相結(jié)合的手段。進(jìn)入21 世紀(jì),進(jìn)一步嘗試研制并使用淺層神經(jīng)網(wǎng)絡(luò)模型,同時(shí)開(kāi)始使用多層感知機(jī)(MLP)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)等“數(shù)據(jù)驅(qū)動(dòng)”來(lái)實(shí)施自然語(yǔ)言處理,實(shí)際上已綜合使用詞匯分析技術(shù)、語(yǔ)法分析技術(shù)、語(yǔ)義理解技術(shù)、上下文關(guān)聯(lián)分析技術(shù)和深度學(xué)習(xí)算法,以提升中文信息處理的準(zhǔn)確度。然而效果還不是十分理想。應(yīng)該承認(rèn),大語(yǔ)言模型無(wú)疑大大超越了自然語(yǔ)言處理已有的成果。
面對(duì)這樣的情況,有的語(yǔ)言學(xué)者開(kāi)始哀嘆自己的研究;而一部分學(xué)者,如辛頓這樣的諾貝爾物理學(xué)獎(jiǎng)獲得者,竟對(duì)語(yǔ)言學(xué)加以蔑視,甚至大罵喬姆斯基。然而我們必須清醒地認(rèn)識(shí)到,大語(yǔ)言模型的“語(yǔ)言”,跟自然語(yǔ)言有著本質(zhì)的不同。
人賴(lài)以交際的語(yǔ)言是“自然語(yǔ)言”。自然語(yǔ)言的特點(diǎn)是跟人腦心智相連的,是與人的認(rèn)知相連的。因此自然語(yǔ)言的能力,亦即人說(shuō)話的能力,“來(lái)自人腦的學(xué)習(xí)能力”“來(lái)自人腦的語(yǔ)言知識(shí)”(詹衛(wèi)東)。自然語(yǔ)言知識(shí)的底層是通過(guò)“范疇+ 規(guī)則”來(lái)處理的。要知道,人類(lèi)任何一種自然語(yǔ)言都是一個(gè)音義結(jié)合且具有適用性的符號(hào)系統(tǒng),這個(gè)符號(hào)系統(tǒng)隨著社會(huì)的發(fā)展而不斷發(fā)展變化。在這個(gè)音義結(jié)合的符號(hào)系統(tǒng)里,必然存在大小不等的音義結(jié)合的符號(hào)。自然語(yǔ)言的語(yǔ)法就是根據(jù)交際的需要由小的音義結(jié)合體構(gòu)成大的音義結(jié)合體所遵循的一整套規(guī)則;具體說(shuō)就是由語(yǔ)素構(gòu)成詞、由詞構(gòu)成短語(yǔ)、由短語(yǔ)構(gòu)成句子、由句子構(gòu)成段落篇章所遵循的一整套規(guī)則。語(yǔ)言工作者為了搞清楚這整套規(guī)則,就不斷地在各個(gè)層面上設(shè)立各種各樣的范疇,而每一層面的規(guī)則體現(xiàn)了不同范疇之間的聯(lián)系。
由于自然語(yǔ)言跟人腦心智相關(guān)聯(lián),因此能不斷產(chǎn)出具有原創(chuàng)性的新的語(yǔ)言表達(dá)式。語(yǔ)言跟客觀世界并不直接聯(lián)系,都得經(jīng)由認(rèn)知域。人通過(guò)感覺(jué)器官感知客觀世界并形成直感形象或直覺(jué);在認(rèn)知域內(nèi)進(jìn)一步抽象,由直感形象或直覺(jué)形成意象圖式;在認(rèn)知域內(nèi)借助內(nèi)在語(yǔ)言進(jìn)一步由意象圖式形成具體的概念框架。
具體的概念框架投射到外在語(yǔ)言,尋找最能表示該概念框架的具體的表達(dá)式—— 可能已有的表達(dá)式能用來(lái)表達(dá);也可能跟已有的表達(dá)式發(fā)生碰撞,產(chǎn)生新的表達(dá)式,并呈現(xiàn)為具體的句子。這種新的表達(dá)式廣為使用,所蘊(yùn)含的新的語(yǔ)法規(guī)則就由此而產(chǎn)生。
可是,大語(yǔ)言模型的語(yǔ)言是“人造語(yǔ)言”,大語(yǔ)言模型只能從已有的人類(lèi)文本中獲取“知識(shí)”。它不可能產(chǎn)生出原創(chuàng)性的新的表達(dá)式,因?yàn)樗乃^“語(yǔ)言數(shù)據(jù)”與語(yǔ)言外部的客觀世界不發(fā)生任何聯(lián)系。因此,大語(yǔ)言模型只是處理自然語(yǔ)言本身的數(shù)據(jù),并不能處理豐富多彩的語(yǔ)言外的信息。
總之,必須清醒認(rèn)識(shí)到,大語(yǔ)言模型跟人類(lèi)的自然語(yǔ)言,其性質(zhì)是迥然不同的。