關(guān)鍵詞 人工智能;大語言模型;語言學(xué)知識;空間語義理解;數(shù)據(jù)合成
中圖分類號H002 文獻(xiàn)標(biāo)識碼A 文章編號2096-1014(2024)05-0007-15DOI 10.19689/j.cnki.cn10-1361/h.20240501
一、引言
ChatGPT 等大語言模型的問世,引發(fā)了對以喬姆斯基理論為代表的語言學(xué)研究理念的尖刻批評,如Piantadosi(2023),Hinton(2024)。語言學(xué)家不甘示弱,做了針鋒相對的回?fù)簦鏚atzir(2023),Chomsky,Roberts amp; Watumull(2023)。
喬姆斯基在《語言知識:性質(zhì)、來源及使用》(Chomsky 1986)一書中提出了兩個發(fā)人深思的問題。一曰“柏拉圖問題”(Plato’s problem):為何人能在證據(jù)嚴(yán)重不足的條件下知道如此之多?二曰“奧威爾問題”(Orwell’s problem):為何人在證據(jù)充足的情況下卻又如此無知?前者關(guān)乎個人認(rèn)知,是喬姆斯基提出的“語言先天論”的主要依據(jù)a ;后者關(guān)乎社會認(rèn)知,是喬姆斯基政治評論的核心關(guān)切b。這兩個問題有著強(qiáng)烈的“沖突張力”。其中所謂的“證據(jù)”(evidence),可以理解為一般常說的“數(shù)據(jù)”(data);而與“數(shù)據(jù)”相對的,則是人所知道的“知識”(knowledge)。這樣來看,喬姆斯基提出的這兩個問題,實(shí)際上共同關(guān)聯(lián)著一個更為基本的問題,即“知識”和“數(shù)據(jù)”之間到底是怎樣的關(guān)系。更進(jìn)一步,在今天大語言模型引領(lǐng)的人工智能(AI)時代,面對以ChatGPT 為代表的大語言模型有時表現(xiàn)出的堪比人類水平的自然語言生成和理解能力,作為語言學(xué)研究者,很自然地會沿襲喬姆斯基的提問方式,生發(fā)出這樣的疑問:為何機(jī)器能在不需要語言學(xué)知識加持的條件下,獲得如此驚人的語言能力?為何人在語言學(xué)知識如此豐富的條件下,卻始終未找到幫助機(jī)器把語言學(xué)知識轉(zhuǎn)化為語言能力的可行途徑?
本文并不打算展開探討上面這兩個宏大的問題,而是嘗試以這兩個問題為背景,從機(jī)器學(xué)習(xí)的視角,重新思考如何認(rèn)識知識與數(shù)據(jù)之間的關(guān)系。我們相信,要在AI 時代更好地發(fā)展語言學(xué)研究,發(fā)揮語言學(xué)研究成果的價值,更需要堅(jiān)持實(shí)證主義的研究路徑,通過大量不斷地與機(jī)器的語言交互,來深入考察和分析機(jī)器在自然語言相關(guān)任務(wù)上的“能”與“不能”,從而深化對機(jī)器以深度學(xué)習(xí)方法學(xué)習(xí)人類語言這種特殊方式的理解,同時也加深我們對人類自身語言能力和語言學(xué)知識之間關(guān)系的理解(詹衛(wèi)東2024)。
需要強(qiáng)調(diào)的是,數(shù)據(jù)是具體可觀察的,在本文中特指語言材料;知識是抽象的模型,在本文中如不說明則特指語言知識。語言學(xué)家提出的各種語言學(xué)理論,稱為“語言學(xué)知識”,是人類對于語言知識的想象和外化,而非語言知識本身。
二、機(jī)器空間語義理解能力評測任務(wù)設(shè)計(jì)
人與機(jī)器的關(guān)系,可類比人類語言教學(xué)中教師與學(xué)生之間的關(guān)系,可以分為教學(xué)和測試兩個方面來看。
先看教學(xué),在人類嘗試讓機(jī)器具備人類自然語言能力的早期探索階段,是完全按照人類師生教學(xué)的模式進(jìn)行的,即把人總結(jié)出的語言學(xué)知識(詞典和語法規(guī)則)轉(zhuǎn)換為形式語言表述的結(jié)構(gòu)化知識庫,作為語言模型教給機(jī)器。構(gòu)建這樣的語言模型,主要依賴人的洞察力,或者直接由人工發(fā)掘,或者借助計(jì)算機(jī)輔助人來發(fā)掘,都是以顯式符號為基礎(chǔ)、對人而言可理解的知識表征。這就是所謂“符號主義”(Symbolism)的人工智能研究路徑。后期崛起的“聯(lián)結(jié)主義”(Connectionism)人工智能則完全是另一條路徑,機(jī)器學(xué)習(xí)人類語言的方式從向人學(xué)習(xí)逐漸發(fā)展演變成了以“自學(xué)”(Self-SupervisedLearning)為主。受人類大腦的神經(jīng)網(wǎng)絡(luò)工作原理啟發(fā),計(jì)算機(jī)科學(xué)家設(shè)計(jì)了多層深度人工神經(jīng)網(wǎng)絡(luò),直接通過“輸入字符串–輸出字符串”的數(shù)據(jù)配對(可大致理解為“問題–答案”樣例),學(xué)習(xí)一個能夠映射“輸入–輸出”數(shù)據(jù)的函數(shù),即所謂“端到端”(end-to-end)的學(xué)習(xí)方法,使得機(jī)器在給定輸入字符串條件下,能得到正確的輸出字符串結(jié)果(參見Wolfram 2023)。以“張三是縣長___來的”為例,如果以這個缺失了詞語的句子作為輸入,輸出字符串可以是“派/ 請/ 抓/ 昨天招聘來”等等。把這樣的“輸入–輸出”數(shù)據(jù)對,喂給深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí),在句子數(shù)量足夠多、神經(jīng)網(wǎng)絡(luò)參數(shù)足夠大的情況下,機(jī)器最終就可以捕捉到漢語中任意詞語之間在特定語境條件下的依賴關(guān)系,從而表現(xiàn)出能夠理解句子意思以及生成出自然句子的能力。
再說測試。機(jī)器的語言能力和智能水平,需要通過測試來檢驗(yàn)(Legg et al. 2007 ;Chollet 2019 ;董青秀,等2021)。針對機(jī)器的測試,大致有4 類做法。(1)可看作考語言學(xué)知識,比如讓機(jī)器完成中文分詞、詞性標(biāo)注、句法結(jié)構(gòu)分析等任務(wù),機(jī)器需要掌握詞、詞類、句法結(jié)構(gòu)層次分析等語言學(xué)專業(yè)知識。但這種測試方式在大語言模型出現(xiàn)后基本已經(jīng)行不通了,因?yàn)檎Z言學(xué)知識和語言實(shí)際應(yīng)用能力之間并無必然的關(guān)系,從最終應(yīng)用的角度看,人們希望機(jī)器具備實(shí)用的語言能力(比如翻譯、寫文章等),而不是具備語言學(xué)能力。(2)直接拿考人的題目來考機(jī)器,比如用高考這樣的標(biāo)準(zhǔn)化考試來考大語言模型。可參看Zhong et al.(2023)。(3)大型綜合性評測。具體又可分為兩種不同的情況:一種是有較為系統(tǒng)的測試體系,并且由程序來判分,如SuperCLUE、C-Eval、OpenCompass 等大型測試平臺a ;另一種是不設(shè)測試體系,由人類投票,采用Elo 等級打分系統(tǒng)來評分,如大模型盲測競技場LMSYS Chatbot Arenab。(4)專項(xiàng)考試。這種方式相當(dāng)于單科測試,一般聚焦于考察機(jī)器某一特定方面的能力,比如考察常識推理能力的Winograd 挑戰(zhàn)賽及其升級版Winogrande 挑戰(zhàn)賽a。
本文介紹的SpaCE 評測研究工作b,屬于上述第四類專項(xiàng)考試的范疇,考試科目可以概括為中文空間信息語義理解。開展這項(xiàng)研究的動機(jī)是探索以語言學(xué)知識來指導(dǎo)具體測試任務(wù)的設(shè)計(jì)和數(shù)據(jù)集的制作。概括來說,我們的指導(dǎo)思想有二。(1)從“形式— 意義”對應(yīng)關(guān)系的視角看機(jī)器的語言能力,區(qū)分“形式—意義”配對容易和困難的問題。之所以選擇空間信息語義理解這個主題,是因?yàn)榭臻g信息的主要語言標(biāo)記方位詞屬于指示語(deixis)范疇。跟實(shí)詞(如“國王、女人、旅行”等)不同,指示語的具體意義,需要依賴上下文和現(xiàn)實(shí)世界的情境,其“形式—意義”的對應(yīng)關(guān)系超越了符號字面形式。人在理解的時候,需要調(diào)用更深的認(rèn)知加工能力,才能在符號跟現(xiàn)實(shí)世界之間建立正確的聯(lián)系。(2)測試任務(wù)應(yīng)有層次性和結(jié)構(gòu)性,應(yīng)能從多個維度和不同深度探測機(jī)器的語言能力。探測結(jié)果不是一個簡單的分?jǐn)?shù),而應(yīng)該是機(jī)器語言能力的一個細(xì)粒度的綜合呈現(xiàn),類似于一個詳細(xì)的體檢報告。第一點(diǎn)認(rèn)識,是我們選擇空間領(lǐng)域作為測試主題的原因;第二點(diǎn)認(rèn)識,則是我們進(jìn)一步剖析空間領(lǐng)域內(nèi)的具體問題,規(guī)劃測試子任務(wù)的工作依據(jù)。
下面逐一介紹針對文本空間信息理解設(shè)計(jì)的6 個任務(wù),大體上遵循語言學(xué)中“語法—語義—語用”的遞進(jìn)關(guān)系來展開。在SpaCE2021 到SpaCE2024 的評測賽事實(shí)踐中,后一屆賽事相對于前一屆,基本上是一個不斷增加任務(wù)類型的過程,SpaCE2024 覆蓋了這6 項(xiàng)任務(wù)中的5 個,是任務(wù)類型最多的(參見下文表8)。
(一)空間信息正誤判別
請看下面兩個例句。其中例(1a)是從自然語料中抽取的富含空間信息的一個段落,例(1b)是把(1a)中“遂右轉(zhuǎn)彎由東向西行駛”替換成了“遂右轉(zhuǎn)彎由西向東行駛”。
(1)a. 大客車沿新源路由北向南行駛至曹安公路路口處遇綠燈,遂右轉(zhuǎn)彎由東向西行駛,適逢被害人李紅英騎電動自行車沿新源路西側(cè)非機(jī)動車道由北向南行駛至此,兩車相撞。
b. ……遂右轉(zhuǎn)彎由西向東行駛,……
圖1顯示了例(1b)中的空間信息沖突。大客車由北向南行駛到十字路口右轉(zhuǎn)彎,其行進(jìn)方向只能是由東向西,而不是由西向東。(1b)文本中蘊(yùn)含的這個空間信息沖突,涉及對同一個實(shí)體(大客車)的3 個空間信息描述“由北向南”“右轉(zhuǎn)彎”“由西向東”在時序上無法銜接這一空間常識知識的理解。
當(dāng)把例(1a)和(1b)這樣的句對呈現(xiàn)給計(jì)算機(jī)的時候,計(jì)算機(jī)應(yīng)該能像人一樣,判斷(1a)中的空間信息是正確的,符合常理;(1b)中的空間信息是錯誤的,與常識相悖。
(二)異??臻g信息識別
在判斷一段話中存在異常空間信息的同時,實(shí)際上也應(yīng)該能清晰地將異常信息的片段抽取出來,這就是比文本空間信息正誤判斷更具體的文本中異常空間信息識別任務(wù)。下面來看一個文本中包含異??臻g信息的例子。
(2)夫妻倆商量了幾天,買了一輛農(nóng)用三輪車。農(nóng)用三輪車的油門在左把手上,張順東請人改到左邊,他就能用左手操作了。
例(2)中的異常空間信息在于“農(nóng)用三輪車的油門在左把手上,張順東請人改到左邊”這個片段。既然已經(jīng)“在左把手上”,還要“改到左邊”,就不合常理,形成信息沖突。如果用自然語言來描述(2)中的異常空間信息,不同的人可能會有不同的表達(dá)方式。為便于對機(jī)器的答案進(jìn)行自動評分,最好是對標(biāo)注格式進(jìn)行統(tǒng)一規(guī)范。為此,我們提出了S–P–E 空間三要素標(biāo)注法,其中S 代表空間實(shí)體,P 代表空間方位信息,E代表跟S–P有關(guān)的事件信息(一般E 由動詞表達(dá))。表1 展示了對例(2)的3 種S–P–E 標(biāo)注形式。很顯然,第1 種標(biāo)注各要素對應(yīng)整齊,最為合理;另外兩種標(biāo)注,P要素或E要素信息標(biāo)注各有不合理的地方。限于篇幅,這里不展開討論,有興趣的讀者可訪問SpaCE 網(wǎng)站查詢關(guān)于S–P–E 標(biāo)注的詳細(xì)規(guī)范。
(三)缺失參照成分補(bǔ)回
中文常見的表達(dá)空間方位的形式是“名詞+ 方位詞”,如“教室里面”“桌子上面”。但行文中方位詞前的名詞常常也會出現(xiàn)承前省略的現(xiàn)象。例如:
(3)a. 這20 管試劑都被封存在一個長方形的紙箱里,上面貼了一張白色的標(biāo)簽。
b. 這20 管試劑被封存在一個長方形的透明玻璃箱里,上面事先都貼了不同顏色的標(biāo)簽。
例(3a)和(3b)逗號后面小句開頭的“上面”這個方位詞不是緊跟在名詞之后,這個“上面”依賴前文哪個名詞,需要聯(lián)系上下文,在理解句子中實(shí)體之間語義關(guān)系的基礎(chǔ)上才能確定。這兩個句子的詞語差異并不是很大,但“上面”所依賴的參照成分卻是明顯不同的:(3a)的空間信息應(yīng)解讀為“紙箱上面貼了一張白色的標(biāo)簽”,(3b)則應(yīng)解讀為“20 管試劑上面都貼了不同顏色的標(biāo)簽”。人有能力準(zhǔn)確地理解整句所表達(dá)的空間場景信息,其中就包含一種能力,即在方位詞前面補(bǔ)出缺失的空間參照成分。
(四)空間語義角色標(biāo)注
從語言學(xué)角度講,人對文本中空間信息的理解能力不僅可以通過前面3 個任務(wù)體現(xiàn),還可以進(jìn)一步通過對文本中空間信息的結(jié)構(gòu)化分析,在更深的層面上做更細(xì)粒度地刻畫。下面例(4)是前文例(1)的更完整的文本。表2 就是對這一文本中空間信息的結(jié)構(gòu)化標(biāo)注。
(4)2020年7月16日7時8分許,牌號為XXX的大客車沿新源路由北向南行駛至曹安公路路口處遇綠燈,遂右轉(zhuǎn)彎由東向西行駛,適逢被害人李紅英騎電動自行車沿新源路西側(cè)非機(jī)動車道由北向南行駛至此,兩車相撞。
跟上文提到的S–P–E 三要素標(biāo)注相比,表2 展示的空間語義角色標(biāo)注多了一個時間(T)要素。我們把這個語義角色標(biāo)注體系稱為“STEP 空間語義角色標(biāo)注體系”。其中P 細(xì)分為10 個空間角色(如“處所、方向、朝向、起點(diǎn)、終點(diǎn)、路徑……”等等),對每個“事件E”,還要進(jìn)一步標(biāo)注論元角色“施事”“受事”等。此外,語料中“此”指“曹安公路路口”,“兩車”指“大客車”和“電動自行車”,這樣的同指(co-reference)信息也需要標(biāo)注。限于篇幅,這里不展開討論,有興趣的讀者可訪問SpaCE2022 網(wǎng)站查詢STEP 空間語義角色標(biāo)注規(guī)范。
(五)空間表達(dá)異形同義判別
空間方位詞在實(shí)際使用中,存在語義對立消失的現(xiàn)象,比如“汽車上有炸彈= 汽車?yán)镉姓◤棥?。這也正是上文說過的,方位詞屬于指示語范疇,其具體的空間方位所指,需要更多的認(rèn)知加工參與,其形式和意義之間的對應(yīng)關(guān)系比其他實(shí)詞類表達(dá)更為復(fù)雜。下面來多看幾個這種“異形同義”的例子,即句子間存在空間表達(dá)的形式差異(通常是一詞之差),但不同形式卻可以指相同的空間場景。例如:(5)a. 至今菲律賓的土著居民在見面時,握過手后還要轉(zhuǎn)身向后走幾步,意思是向?qū)Ψ奖砻鞅澈鬀]有藏刀。
b.……握過手后還要轉(zhuǎn)身向前走幾步,……
(6)a. 昨晚,飯桌上,奶奶、爸爸和我爭著同媽媽說話,直到我雙手將媽媽的臉扳向我為止。
b. 昨晚,飯桌旁,……
(7)a. 在一座小縣城的一間教室里,工人們正在安裝一塊電子白板。“借助網(wǎng)課,我們的學(xué)生坐在教室里,就可以跟著里面的名師學(xué)習(xí),享受優(yōu)質(zhì)的教育資源?!毙iL興奮地說。
b.……就可以跟著外面的名師學(xué)習(xí),……
c.……就可以跟著上面的名師學(xué)習(xí),……
例(5)兩個句子一句是“向后”,一句是“向前”,形式有別,但整句所表達(dá)的空間場景信息實(shí)際上并無區(qū)別。(5a)的“向后”是相對于“轉(zhuǎn)身之前”的方向而言,(5b)的“向前”則是相對于“走”的方向而言,即(5a)是“轉(zhuǎn)身向后”,(5b)是“向前走”。表面上(5a)和(5b)在相同的位置上“后”跟“前”對立,但這個形式上的差異僅僅是表層線性字符串層面的差異,從語言學(xué)深層句法結(jié)構(gòu)的層面來看,(5a)跟(5b)是相同的結(jié)構(gòu),即“轉(zhuǎn)身+ 走幾步”,表層的“向后”或“向前”可以刪去而不影響句子的語義。
例(6)“飯桌上”跟“飯桌旁”的對立消失,類似于“汽車上”有時候相當(dāng)于“汽車?yán)铩?,“大門前”有時候相當(dāng)于“大門外”,都跟方位詞的多義性,以及空間認(rèn)知圖式有關(guān)。
例(7)中在相同位置有3 個方位詞“里面、外面、上面”形成形式上的對立差異,但由于方位詞前可補(bǔ)回的參照成分不同,實(shí)際上整句可以表達(dá)完全相同的場景。
空間表達(dá)異形同義包含了不同的類型。除方位詞的對立有時會消失外,趨向動詞也有類似現(xiàn)象。
漢語語法學(xué)界討論較多的所謂“主賓換位”現(xiàn)象,有的也屬于空間表達(dá)異形同義。如“門口站兩個人”“兩個人站門口”,“北大西門正對著蔚秀園東門”“蔚秀園東門正對著北大西門”,等等(參見第4 節(jié)表11)。有關(guān)空間表達(dá)異形同義現(xiàn)象,我們擬專文討論,這里不展開。
(六)空間方位關(guān)系推理
要考察機(jī)器對文本空間信息的綜合理解水平,最合適的任務(wù)是空間方位關(guān)系推理。下面是一個空間關(guān)系推理題例子。
(8)桌上有三塊積木,紅的在綠的上面,黃的在綠的下面?,F(xiàn)在把最下面的拿到最上面來。移動之后,中間的積木是什么顏色的?
例(8)中包含3個實(shí)體,題面涉及“上面、下面”,以及隱含的“中間”方位(題面上未出現(xiàn),僅在題干部分出現(xiàn))。像這類涉及實(shí)體較少、空間關(guān)系相對單一的推理任務(wù),大語言模型的表現(xiàn)比較好。但實(shí)際上,當(dāng)空間中實(shí)體數(shù)量變多、空間關(guān)系類型增加之后,大語言模型在空間關(guān)系推理任務(wù)上的表現(xiàn)會出現(xiàn)顯著下降。下文將介紹我們在SpaCE2024 中制作空間關(guān)系推理題的情況(見表8),以及大語言模型在這一任務(wù)上的表現(xiàn)(見表9)。
三、空間語言理解能力評測數(shù)據(jù)集制作
上一節(jié)提出了針對文本空間語義理解的6項(xiàng)任務(wù)。要將這些任務(wù)轉(zhuǎn)化落實(shí)為對機(jī)器空間語言理解能力的考試,就需要制作一定規(guī)模的數(shù)據(jù)集。表3概括呈現(xiàn)了6項(xiàng)任務(wù)的類型及數(shù)據(jù)集制作方式,之后對SpaCE系列評測的數(shù)據(jù)制作的總體情況做簡要討論。
為了制作包含異??臻g信息的語料,我們首先對自然語料文本中跟空間方位信息有關(guān)的詞語進(jìn)行替換,然后由人工來判斷替換后的文本是否存在空間信息異常,同時對文本中的異常信息片段進(jìn)行標(biāo)注和分類,這樣就可以得到任務(wù)1 和任務(wù)2 的數(shù)據(jù)(詹衛(wèi)東,等2022)。其中空間標(biāo)記詞390詞,空間實(shí)體詞632 詞。表4 中的空間標(biāo)記詞就是候選的替換詞。根據(jù)詞語的實(shí)際用法特點(diǎn),分布相近的詞語構(gòu)成替換詞族,由程序掃描原始語料,將一段語料中的空間標(biāo)記詞批量替換成同一個替換詞族中的其他詞語,形成新的語料,進(jìn)入標(biāo)注流程。
圖2 是SpaCE2022 數(shù)據(jù)集制作工作流程圖,全面展示了文本空間語義理解能力測試中主要數(shù)據(jù)集(任務(wù)1 到任務(wù)4)的制作工作步驟(圖中標(biāo)記了12個主要環(huán)節(jié))。
圖2 中,標(biāo)注? 位置的工作是對數(shù)據(jù)集中的語料進(jìn)行分配。除一般機(jī)器學(xué)習(xí)常見的劃分訓(xùn)練、驗(yàn)證、測試數(shù)據(jù)集外,在SpaCE 系列測試任務(wù)中,還要在不同子任務(wù)中放置一定比例的同源題。如上文例(7),同樣的題面,既可以用作異形同義判別的任務(wù),也可以用于缺失參照實(shí)體補(bǔ)回的任務(wù),因?yàn)檫@個例子中的3 個替換詞語位置分別是“里面”“外面”“上面”,3 句話屬于異形同義句組,而造成異形同義的原因,正是這3個方位詞前面省略的參照物實(shí)體不同:(7a)是“(網(wǎng)課)里面”,(7b)是“(縣城)外面”,(7c)是“(電子白板)上面”。表5 統(tǒng)計(jì)了SpaCE2022 和SpaCE2023 兩屆評測中同源題的占比,SpaCE2022 的同源題在測試集中占比不足15%,這對分析機(jī)器在不同任務(wù)上表現(xiàn)的相關(guān)性是不利的。因此,SpaCE2023 將同源題在測試集中的占比提高到了超過45%(表10 報告了機(jī)器在SpaCE2023 同源題上的成績相關(guān)性)。
任務(wù)5 很難從自然文本中收集語料:采用替換詞語方法造成的“異形”句對,很難恰好滿足“同義”條件。這一任務(wù)的數(shù)據(jù)制作主要針對特定的方位詞對、趨向動詞對,依靠人工編寫來得到符合“異形同義”條件的語料,同時借助大語言模型的生成能力來生成候選語料。表6 展示了GPT–4 輔助生成“異形同義”句對語料的例子。
任務(wù)6同樣也難以從自然語料中獲取,人工編寫推理題成本太高,而且很難保證試題質(zhì)量。為此,我們提出了一種基于空間布局知識庫由程序自動生成推理題的數(shù)據(jù)合成(data synthesis)方法(將另文討論)。下面是一個示例。
(9)豬八戒、高翠蘭、東海龍王、鐵扇公主四人來到茶餐廳吃飯,坐在四人卡座上??ㄗ謻|西兩排,每排坐兩人,坐東邊的兩人面朝西,坐在西邊的兩人面朝東,兩排人面對面而坐。已知:高翠蘭面朝東且在東海龍王左手邊挨著坐,豬八戒右手邊坐著鐵扇公主。請問:高翠蘭坐在_____ 正對面。(圖3)
程序自動出題方法的基本思想是:基于一個已知的空間布局(其中實(shí)體數(shù)量確定、實(shí)體方位關(guān)系固定),由程序從該空間布局的知識庫文件(包含該空間布局的全部實(shí)體方位信息的陳述和推導(dǎo)規(guī)則)中隨機(jī)抽?。ㄉ桑﹏ 條命題,該n 條命題須能夠還原出一個完整的空間布局,然后以其中n-1 條命題構(gòu)成題面,剩下的1 條命題中去除1 個空間實(shí)體或空間關(guān)系詞,構(gòu)成問題,即生成1 道有效的推理題。目前已實(shí)現(xiàn)四人卡座,六人向心(面對)圍坐,六人離心(背對)圍坐,三層兩列置物架等4 類空間布局,生成了近4000 道推理題a。
我們按照上述數(shù)據(jù)制作方法完成了從SpaCE2021 到SpaCE2024的數(shù)據(jù)加工,語料規(guī)模如表7 所示。
需要說明的是,SpaCE2023 和SpaCE2024 語料均取自SpaCE2022 語料池(近0.9 億字)。該語料池中一般性語料占比83%,專業(yè)領(lǐng)域語料占比17%。前者包括:報刊語料(36%),文學(xué)作品語料(25%),中小學(xué)語文課本語料(20%),語言學(xué)空間研究相關(guān)論文例句語料等其他類語料(2%);后者包括:交通事故判決書語料(9%),體育動作訓(xùn)練教材語料(6%),地理百科語料(2%)。最終得到SpaCE2022 數(shù)據(jù)集總共約2.5 萬條語料,每條語料長度范圍為16~256字,平均長度114.23字,標(biāo)準(zhǔn)差49.64字,總字?jǐn)?shù)約285萬。
SpaCE2023 對已有數(shù)據(jù)做了質(zhì)量優(yōu)化處理,未增加新的語料;SpaCE2024在原有基礎(chǔ)上小幅擴(kuò)充了語料標(biāo)注規(guī)模,同時用程序生成了一部分語料(空間關(guān)系推理題)。SpaCE2024 對全部任務(wù)統(tǒng)一采用選擇題形式來命題,覆蓋了5 個任務(wù):異常空間信息識別(DSA),缺失參照實(shí)體補(bǔ)回(RSR),空間語義角色標(biāo)注(ISR),空間表達(dá)異形同義判別(RSE),空間方位關(guān)系推理(SPR)。表8 是SpaCE2024 數(shù)據(jù)集各類任務(wù)數(shù)據(jù)規(guī)模統(tǒng)計(jì)表。
四、機(jī)器空間語義理解能力評測結(jié)果簡要分析
關(guān)于SpaCE 歷屆賽事中參賽系統(tǒng)的表現(xiàn),可參考詹衛(wèi)東等(2022)、肖力銘等(2023a,2023b),也可在SpaCE 評測網(wǎng)站查詢詳情。本節(jié)對機(jī)器表現(xiàn)值得關(guān)注的幾個方面略做簡要分析。表9 呈現(xiàn)了SpaCE2024 賽事部分參賽系統(tǒng)在5 項(xiàng)任務(wù)上的得分情況。
SpaCE2024 的參賽系統(tǒng)全部采用大語言模型完成任務(wù)(具體選擇的模型及采取策略各有不同)。表9 按照系統(tǒng)在5 項(xiàng)任務(wù)上表現(xiàn)優(yōu)劣從左到右排序??梢钥吹剑P驮诳臻g語義角色標(biāo)注、缺失參照成分補(bǔ)回、異??臻g信息識別等任務(wù)上表現(xiàn)更為出色,而在異形同義判別、空間關(guān)系推理任務(wù)上表現(xiàn)不佳,尤其是空間關(guān)系推理任務(wù),最好成績也不到38 分。值得注意的是,在語義角色標(biāo)注、缺失參照成分找回、異??臻g信息識別任務(wù)上,基線1 的成績超過基線2,說明對于常見的任務(wù)類型,微調(diào)效果顯著;而對于異形同義判別、空間關(guān)系推理等難度更高、訓(xùn)練樣本數(shù)據(jù)較少的任務(wù)類型,基線1表現(xiàn)低于基線2,微調(diào)沒有明顯效果,模型的參數(shù)規(guī)模起到更顯著的作用。
下面再簡要看一下SpaCE2023 的3 個子任務(wù)上的機(jī)器表現(xiàn)情況。表10呈現(xiàn)了基線系統(tǒng)(基于BERT 微調(diào)模型)在SpaCE2023 的task1(異??臻g信息識別)和task2(空間語義角色標(biāo)注)兩個子任務(wù)同源題上得分的相關(guān)性。
BERT 微調(diào)模型在task1 和task2 兩個任務(wù)上的總體表現(xiàn)不佳,得分分別是0.55 和0.48,模型在兩個任務(wù)同源題上的成績相關(guān)系數(shù)非常低。這說明機(jī)器在完成空間語義理解任務(wù)時,即便是同一領(lǐng)域的不同子任務(wù),仍然可能是針對特定任務(wù)形式進(jìn)行學(xué)習(xí),而沒有“打通”底層的語義邏輯。
表11 呈現(xiàn)了大語言模型在SpaCE2023–task3(異形同義判別任務(wù))上的表現(xiàn)。因試題數(shù)據(jù)規(guī)模不大(只有100 題),不一定能從大語言模型的表現(xiàn)得出可靠的結(jié)論。但值得注意的是,ChatGPT–3.5 在異形同義題上的得分比異形異義題低12 個百分點(diǎn),應(yīng)該能反映大語言模型的“知識能力”仍具有非常突出的“數(shù)據(jù)驅(qū)動”特點(diǎn),因?yàn)樵谌粘UZ料中,絕大多數(shù)的情況都是“異形異義”,這屬于常規(guī)數(shù)據(jù)。相比之下,“異形同義”是從語言學(xué)研究者角度特別關(guān)注的稀有超常規(guī)數(shù)據(jù),大語言模型的表現(xiàn)相對較差,也就在情理之中了(可對照Liu et al.(2023)基于“分布外(out of distribution,OOD)數(shù)據(jù)”對大語言模型推理能力的測試研究a)。
空間表達(dá)的異形同義現(xiàn)象可以從不同角度認(rèn)識和分類。對此我們將另文討論。這里簡要說明表11中的分類:方位圖式相同指“上–里”同義的情形;趨向動詞指“插上–插下”同義的情形;方位詞義包含指“上端–頂端”類同義情形;方位詞義相同指“里–中–內(nèi)”同義情形;實(shí)體投影關(guān)系指“鏡頭前–鏡頭里”同義的情形。SpaCE2023–task3 要求機(jī)器分兩步來答題,先判斷一組句對屬于“異形同義”句還是“異形異義”句,然后再按照一定的模板格式,解釋判斷理由。表11 中分“判斷”和“解釋”兩列呈現(xiàn)了機(jī)器表現(xiàn)情況。
總的來看,對大語言模型來說,SpaCE 系列空間語義理解能力評測,依然是高挑戰(zhàn)性任務(wù)。解決問題的線索越是依賴表面分布特征(形式線索),機(jī)器就越容易獲得好的成績,而越是依賴深層語義理解的任務(wù)(認(rèn)知能力),或者可獲得的訓(xùn)練樣本數(shù)據(jù)量越小的任務(wù),機(jī)器就越容易表現(xiàn)不好。本文沒有介紹SpaCE 系列任務(wù)上人類測試的情況(可參考詹衛(wèi)東,等2022)。值得注意的是,對于空間語義理解中“異形同義判別”這類凸顯認(rèn)知加工主觀性的任務(wù),初步的人類測試結(jié)果也顯示了不同個體之間較為突出的不一致性,對此將另文討論。
五、結(jié)語
本文較為全面地介紹了基于語言學(xué)理念設(shè)計(jì)SpaCE 系列評測任務(wù)以及相應(yīng)的數(shù)據(jù)集制作工作的總體情況。這項(xiàng)研究還有許多可改進(jìn)之處,比如測試題對各類空間語言現(xiàn)象的覆蓋率,試題內(nèi)部的結(jié)構(gòu)化設(shè)計(jì),包括難度在內(nèi)的更多更靈活的特征變量控制,等等。
在面向大語言模型的語言能力測試研究工作中,本文引言中提出的問題—— 知識和數(shù)據(jù)的關(guān)系—— 具體化為:如何依據(jù)語言知識提出好的語言能力測試問題,制作出高質(zhì)量的測試題(數(shù)據(jù))。如果語言知識真的足夠可靠,就可以基于語言知識,由程序來自動生成數(shù)據(jù)。SpaCE2024中的空間關(guān)系推理題,就是從人類語言知識出發(fā)實(shí)現(xiàn)由程序自動出題的一次嘗試。更進(jìn)一步,我們需要思考:能否在更大范圍內(nèi)、更系統(tǒng)地進(jìn)行類似的實(shí)踐?換言之,如何讓語言學(xué)知識來系統(tǒng)地指導(dǎo)“從知識生成數(shù)據(jù)”的語言工程實(shí)踐?在符號主義AI 時代,語言學(xué)知識的價值在于以程序可讀知識庫形式,直接用“顯性符號知識”去武裝機(jī)器的“大腦”;在當(dāng)前的聯(lián)結(jié)主義AI 時代,語言學(xué)知識的價值需要重新定位,即用于指導(dǎo)生產(chǎn)小而精的高品質(zhì)語言數(shù)據(jù),人類不再直接以知識,而是以數(shù)據(jù)(即語料)形式來“喂養(yǎng)機(jī)器的神經(jīng)網(wǎng)絡(luò)”,實(shí)現(xiàn)提升機(jī)器學(xué)習(xí)的效果和效率的目標(biāo)。
喬姆斯基開創(chuàng)的“生成語言學(xué)”革命,首次把語法視作一種“生成裝置”,即“一個語言(L)的語法將是一個生成所有L 序列而不生成任何非L 序列的裝置”(Chomsky 1957,第2 章)。如果語法真的能做到這一點(diǎn),也就實(shí)現(xiàn)了喬姆斯基為語法研究勾畫的“All and only”的宏偉藍(lán)圖(Chomsky 1957,第8 章)。在今天的時代背景下,為了計(jì)算應(yīng)用的目的,或許在喬姆斯基當(dāng)年明確提出的語法研究的3 個目標(biāo)“對語言現(xiàn)象的觀察充分(observational adequacy)、描寫充分(descriptive adequacy)、解釋充分(explanatory adequacy)”(Chomsky 1965,第1 章)之上,還應(yīng)該升格一個更具挑戰(zhàn)性的目標(biāo)——生成充分(generative adequacy)。
1965 年,諾貝爾物理學(xué)獎得主、物理家理查德·費(fèi)曼(Richard Feynman)在黑板上留下一句名言:“What I cannot create, I do not understand.”(一個事物可理解的前提是我能創(chuàng)造它。)創(chuàng)造了ChatGPT的OpenAI 公司同樣把這句話作為生成式人工智能的宣言。無獨(dú)有偶,世界著名華人數(shù)學(xué)家丘成桐先生也表達(dá)過類似的看法:“理解幾何結(jié)構(gòu)最透徹的方法就是弄明白如何從零開始構(gòu)建幾何結(jié)構(gòu)。”這些思想,跟生成語法學(xué)的理論追求一致,或許都可以概括為:檢驗(yàn)知識的最佳手段,就是用知識去生成數(shù)據(jù)。
語言學(xué)家的大腦應(yīng)該是比計(jì)算機(jī)程序更厲害的語言數(shù)據(jù)生成器。比如喬姆斯基創(chuàng)造的那些例句,實(shí)際上對于今天的大語言模型來說,仍然構(gòu)成挑戰(zhàn)。d 在深度學(xué)習(xí)技術(shù)為主流的AI 研究中,通過知識生成數(shù)據(jù),再將數(shù)據(jù)用于模型訓(xùn)練和測試,不僅可以檢驗(yàn)知識的可靠性,更可以直接助力提升模型的性能。而能夠用知識生成數(shù)據(jù)的前提,正是“知識是可靠的”。反過來,如果語言學(xué)知識無法生成出“正確的語言數(shù)據(jù)”,人們就有理由懷疑:已有的語言學(xué)知識不可靠,或者還不夠可靠。因此,語言學(xué)工作者應(yīng)該借助計(jì)算機(jī)程序,或者借助自己的腦力,將更多語言學(xué)研究成果轉(zhuǎn)化為語言數(shù)據(jù)。知識是不是有效,生成數(shù)據(jù)測一測才知道。在AI 時代,語言學(xué)理論的價值是用理論生成(創(chuàng)作)例句,而不僅僅是用理論解釋例句。