鄒崇理
(1.湘潭大學(xué) 碧泉學(xué)院·哲學(xué)與歷史文化學(xué)院, 湖南 湘潭 411105; 2.中國社會科學(xué)院 哲學(xué)研究所, 北京 100732)
自20世紀(jì)50年代初計算語言學(xué)家巴-希勒爾把范疇語法應(yīng)用于機器翻譯以來,近70年過去了,當(dāng)今計算機人工智能科學(xué)技術(shù)的發(fā)展一日千里,范疇語法的現(xiàn)代版本組合范疇語法對此發(fā)揮出更加積極的作用。隨著計算機人工智能時代邏輯的計算轉(zhuǎn)向,推理論證的主體已不僅僅限于人類,還可能是機器,同時分析和理解自然語言的主體也可能是機器,適合于機器分析自然語言的組合范疇語法便應(yīng)運而生。組合范疇語法采納邏輯的規(guī)則對自然語言的句法和語義進行推演計算,推演過程同時也是計算過程。在組合范疇語法針對大規(guī)模的自然語言真實文本構(gòu)建的分析樹庫那里,所使用的規(guī)則突破邏輯的剛性要求而產(chǎn)生柔性推廣。此外,組合范疇語法樹庫針對自然語言進行語義表征的工作還面臨從豐富的“現(xiàn)代邏輯工具箱”中進行選擇的問題。
組合范疇語法作為范疇語法的現(xiàn)代版本,其源頭是范疇語法。范疇語法最早誕生于20世紀(jì)30—50年代,波蘭的愛裘凱維茨和美國的巴-希勒爾提出了范疇語法,古典范疇語法系統(tǒng)是所謂AB-演算[1]。范疇語法的基本思想是:從計算的視角看待語法,即把自然語言的句法構(gòu)造過程看作是一種逐層逐級的計算過程。換言之,自然語言是由若干長短不同的符號串構(gòu)成的集合,自然語言的句法構(gòu)造過程總是由較短的符號串生成較長的符號串,且生成是逐層逐級的,每一步生成在范疇語法看來都是計算的結(jié)果。如英語句“John likes Mary”的構(gòu)造生成過程如下:
上例句由“l(fā)ikes”和“Mary”構(gòu)成“l(fā)ikes Mary”,再由“John”和“l(fā)ikes Mary”構(gòu)成“John likes Mary”都是計算的結(jié)果,即“l(fā)ike”對“Mary”進行計算得到結(jié)果“l(fā)ike Mary”,由“John”和“l(fā)ike Mary”計算出“John likes Mary”。要彰顯以上構(gòu)造生成是一種計算過程,這就需要對語言符號串進行代碼轉(zhuǎn)換處理,即把語言符號串轉(zhuǎn)換成便于計算的代碼,這個彰顯計算精神的代碼就是范疇。按照范疇語法的要求,從生成的初始,就把作為最小語言符號串的詞條轉(zhuǎn)換成范疇,即給詞條“John”指派范疇np,給詞條“l(fā)ikes”指派范疇(s p)/np,給詞條“Mary”指派范疇np。然后進行逐層逐級的范疇運算,運算所得最后范疇即是整個句子的范疇,即:
范疇之間是如何進行計算的?何以見得“(s p)/np”和“np”產(chǎn)生計算結(jié)果“s p”?怎樣理解范疇的運算特征?范疇分為兩大類:原子范疇,如np(指稱個體的專名或名詞短語)和s(指稱真值的語句),以及復(fù)合范疇(指稱普通名詞、形容詞和動詞及其詞組短語),如s p,(s p)/np等彰顯計算思想的函子范疇。函子范疇中的斜線表示運算的方向:包含右斜線的函子范疇“A/B”是向右邊尋找作為運算對象的論元范疇B,計算后獲得結(jié)果范疇A;包含左斜線的函子范疇“AB”是向左邊尋找論元范疇B,從而計算出結(jié)果范疇A。這兩類基本的運算在范疇語法中被概括成所謂函項應(yīng)用規(guī)則:
規(guī)則(>) A/B B ? A
規(guī)則(<) B AB ? A
上例分析樹先給句中的專名和動詞指派范疇;再由動詞“l(fā)ikes”的范疇“(s p)/np”對專名“Mary”的范疇“np”使用“>”規(guī)則進行計算獲得動詞短語“l(fā)ikes Mary”的范疇“s p”;最后由專名“John”的范疇“np”和動詞短語“l(fā)ikes Mary”的范疇“s p”使用規(guī)則“<”計算出句子的范疇“s”。
體現(xiàn)范疇語法“計算”思想的函項應(yīng)用規(guī)則,從邏輯視角看就是一種推演,語法的計算也就是邏輯推演(computation = deduction),把自然語言的句法范疇計算看作是受邏輯規(guī)則支配的推演。我們對此給出下面的比較:
范疇的計算思想——函項應(yīng)用: A/B(B) = A (類似數(shù)學(xué)的f(x) = y)
范疇的函項應(yīng)用規(guī)則表述: A/B B ? A
類似命題邏輯的分離規(guī)則: B → A B ? A
所以,把范疇語法中的范疇看作是公式,把函子范疇中的斜線算子看作是公式之間的聯(lián)接詞,范疇的函項應(yīng)用規(guī)則就成為邏輯的推演規(guī)則或定理,再按照命題邏輯系統(tǒng)的構(gòu)造模式,就獲得了范疇類型邏輯系統(tǒng)。換言之,范疇語法的范疇計算規(guī)則可以在范疇類型邏輯系統(tǒng)中的定理那里找到邏輯的依據(jù),范疇語法的函項應(yīng)用規(guī)則“>B”的邏輯依據(jù)就是范疇類型邏輯系統(tǒng)中的定理“A/B·B→A”。
范疇類型邏輯的歷史進程:從20世紀(jì)30—50年代的古典范疇語法AB演算[1]到20世紀(jì)50年代的Lambek演算LC[2]為范疇類型的初始階段;20世紀(jì)八九十年代范疇類型獲得了長足發(fā)展[3];21世紀(jì)范疇類型邏輯又涌現(xiàn)出多個方向,例如非連續(xù)的蘭貝克演算DLC[4],以及對稱的范疇語法邏輯[5],等等。
范疇類型邏輯系統(tǒng)的構(gòu)成:其基本特性分為:① 邏輯的性質(zhì),即函子范疇斜線算子“/”和“ ”的推演公理及其規(guī)則;② 結(jié)構(gòu)的性質(zhì),即毗連貼合算子“·”的結(jié)合或交換公理(或公設(shè))。根據(jù)不同的結(jié)構(gòu)性質(zhì),范疇類型邏輯系統(tǒng)分為4個基本系統(tǒng):非結(jié)合與非交換的NL系統(tǒng),結(jié)合與非交換的L系統(tǒng),非結(jié)合與交換的NLP系統(tǒng)和結(jié)合且交換的LP系統(tǒng)。范疇類型邏輯系統(tǒng)還有其Gentzen后承表述,這種表述用于解決判定問題。范疇類型邏輯的語義模型采用可能世界的框架語義學(xué),基于此證明系統(tǒng)的可靠性和完全性。
在當(dāng)今計算機人工智能科學(xué)技術(shù)的背景下,范疇語法的現(xiàn)代版本組合范疇語法CCG發(fā)揮了更大的作用[6-7],基于CCG分析的語料庫可以作為機器自主學(xué)習(xí)訓(xùn)練的語料資源數(shù)據(jù)庫。組合范疇語法CCG不僅揭示自然語言的句法構(gòu)造生成,還需要表征自然語言的語義組合。作為邏輯分析自然語言的工具,CCG表征的是一種便于推演計算的邏輯語義。邏輯語義可以采納各種邏輯工具表征,例如一階邏輯或λ-演算的高階邏輯,等等。在CCG的自然語言語義表征那里,使用λ-詞項進行計算推演的例證如:
組合范疇語法CCG分析自然語言的規(guī)則是一種句法構(gòu)造配語義組合的并行推演規(guī)則,范疇語法中最常用的函項應(yīng)用規(guī)則的表述如下:
(>) X/Y∶f Y∶a ? X∶fa
(<) Y∶a XY∶f ? X∶fa
針對自然語言中非對稱并列結(jié)構(gòu)的合并規(guī)則為:
合并 (〈Φn〉)
X∶g CONJ∶b X∶f ?ΦnX∶λ…b(f…)(g…)
Φ1bfg ≡ λx.b(fx)(gx)
Φ2bfg ≡ λx.λy.b(fxy)(gxy)
Φ3bfg ≡ λx.λy.λz.b(fxyz)(gxyz)
Φ4bfg ≡ λx.λy.λz.λw.b(fxyzw)(gxyzw)
使用CCG的合并規(guī)則,可以對自然語言中“缺肢少腿”的并列句進行起“修復(fù)”作用的分析推演,最后獲得完整的邏輯語義表征。如:
從上例并列句的表層結(jié)構(gòu)“John met and married Mary”看出,“and”左邊的子句缺少賓語,而右邊的子句缺少主語。CCG采用合并規(guī)則〈Φ2〉,通過句法構(gòu)造和語義組合的并行推演,最后獲得該句完整的邏輯語義表征:二元謂詞“meet′”和“marry′”都具有賓語論元“marry′”和主語論元“john′”。此外,在逐級逐層推演的每一步,句法范疇也并行實施運算,最后在推演獲得整句邏輯語義表征的同時也推出了作為合語法標(biāo)志的句法范疇“s”。
組合范疇語法CCG意味:組合 + 范疇語法。其“組合”是指其語義推演的工具源于組合邏輯中算子的借用。組合邏輯中的函項復(fù)合算子B、類型提升算子T和函項轉(zhuǎn)換算子S可通過λ-演算的詞項來定義:
Bfg≡λx.f(gx)
Tx≡λf.fx
Sfg≡λx.fx(gx)
將定義三個組合算子的λ-詞項作為語義表征添加到范疇語法推演規(guī)則中的句法范疇旁就形成CCG更多并行推演的規(guī)則。如B算子引入CCG的情況:
(句法構(gòu)造的函子范疇復(fù)合) X/Y Y/Z ? X/Z
(語義表征的函項復(fù)合B(f,g)) f g? λx.f(gx)
基于語義表征的B(f,g)對應(yīng)句法范疇的函項復(fù)合,便形成了CCG的并行推演規(guī)則:
X/Y:f Y/Z:g ? X/Z: λx.f(gx)
吸取B,T和S三個組合算子的計算思想,組合范疇語法就塑造出下述滿足邏輯可計算性要求的一系列句法和語義并行推演的規(guī)則:
向前的類型提升規(guī)則>T∶ X∶a ?Y/(YX)∶λf.fa
向后的類型提升規(guī)則 向前的組合規(guī)則>B∶ X/Y∶ f Y/Z∶ g ?X/Z∶λx.f(gx) 向后的組合規(guī)則 后前的交叉組合規(guī)則>Bx∶ X/Y∶ f Y∶ g ?X∶λx.f(gx) 前后的交叉組合規(guī)則 向前的替換規(guī)則>S∶ (X/Y)/Z∶ f Y/Z∶ g ?X/Z∶λx.fx(gx) 向后的替換規(guī)則 后前的交叉替換規(guī)則>Sx∶ (X/Y)/Z∶ f Y∶ g ?X∶λx.fx(gx) 前后的交叉替換規(guī)則 以下通過案例看組合范疇語法CCG如何運用規(guī)則對自然語言進行分析推演。例如,CCG的向前組合規(guī)則“>B”和向前類型提升規(guī)則“>T”對理解自然語言的賓語提取結(jié)構(gòu)和無界依存結(jié)構(gòu)就很有用。賓語提取結(jié)構(gòu)指在語言表達(dá)式包含的從句中其賓語的省略現(xiàn)象,對這樣表達(dá)式的語義表征必須補上省略掉的賓語。無界依存結(jié)構(gòu)指從句中省略的賓語跟前面的名詞中心語具有語義依存關(guān)系,即對這樣表達(dá)式的語義表征必須通過跟省略的賓語具有語義依存關(guān)系的名詞中心語來確定賓語的所指。如對自然語言表達(dá)式“team that I thought that Brazil defeated”的CCG推演: 就以上帶定語從句的名詞表達(dá)式而言,通過CCG逐層逐級的推演,在最后獲得的整個表達(dá)式的邏輯語義“λx.think′(defeat′x brazil′)me′∧team′x”那里,我們就找到了其賓語提取結(jié)構(gòu)“Brazil defeated…”的缺省賓語的邏輯語義所指“team′”,同對顯示出其無界依存結(jié)構(gòu)“team……Brazil defeated…”的遠(yuǎn)距離語義依存關(guān)系,即“defeat′x brazil′”中的x語義依存“team′x”中的x。 組合范疇語法CCG采納邏輯的規(guī)則對自然語言的句法和語義進行并行推演,進而面向自然語言的大規(guī)模真實文本構(gòu)建了CCG樹庫,CCG樹庫可以作為機器自主學(xué)習(xí)訓(xùn)練的語料資源庫。國內(nèi)清華大學(xué)的孫茂松院士呼吁AI發(fā)展的轉(zhuǎn)向依賴構(gòu)建基于邏輯語義表征的大知識庫[8],而CCG樹庫的深入開發(fā)有助于實現(xiàn)孫院士的宏大設(shè)想。在CCG針對自然語言大規(guī)模真實文本的分析樹庫那里,所使用的規(guī)則中出現(xiàn)一些不符合邏輯剛性要求的柔性規(guī)則。此外,CCG 樹庫對自然語言進行語義表征時需要從豐富的“現(xiàn)代邏輯工具箱”中進行選擇搭配。筆者將在下文討論CCG樹庫中規(guī)則的柔性推廣和邏輯語義表征工具的選擇融合等問題。 組合范疇語法CCG的語句分析樹庫是人工智能的自然語言處理領(lǐng)域所關(guān)注的語料資源數(shù)據(jù)庫。組合范疇語法CCG句法分析樹庫有:美國賓州CCG樹庫[9]和我國的微軟-清華CCG樹庫[10]: 作為本文作者承擔(dān)的國家社會科學(xué)基金重大項目的結(jié)項成果之一,項目團隊也構(gòu)建了一個社科漢語CCG樹庫(www.ccgbank.net),情況如下述: 社科漢語CCG樹庫 46 085詞條(722 790詞例) 25 694語句 2 483規(guī)則例 CCG樹庫里錄入的是自然語言真實文本句的組合范疇語法分析樹,是基于CCG分析的語料資源數(shù)據(jù)庫。我們以社科漢語CCG樹庫為例,語句“經(jīng)中國人民銀行批準(zhǔn),泰康人壽保險股份有限公司等5家保險公司正在緊張籌建中”的句法分析樹(1)社科CCG漢語樹庫中的語句分析樹既可以如上以“從樹根到樹葉”的方式展開,也能夠以本文前面“從樹葉到樹根”的方式展開。如圖1所示[11]: 圖1 組合范疇語法分析樹 近20年來,各國學(xué)者構(gòu)建了多種自然語言的CCG樹庫。我們主要關(guān)注英語和漢語的CCG樹庫,這兩種語言的CCG樹庫是對生成語法樹庫進行轉(zhuǎn)換而獲得的。這種統(tǒng)一的轉(zhuǎn)換導(dǎo)致樹庫中語句分析樹的范疇推演時常采納一些沒能由范疇類型邏輯提供邏輯依據(jù)的規(guī)則。換言之,CCG樹庫中句法分析樹的范疇推演大量使用范疇類型邏輯“體制”外的規(guī)則。這些規(guī)則我們稱作“柔性”的范疇推演規(guī)則。 以社科漢語CCG樹庫為例,樹庫中使用的CCG推演規(guī)則的分布如表1所示[12]: 表1 CCG推演規(guī)則的分布 社科漢語CCG樹庫面臨的第一個問題是:函項應(yīng)用、函項組合、類型提升和函項置換共四大類推演規(guī)則是范疇類型邏輯能夠提供邏輯依據(jù)的“體制”內(nèi)的規(guī)則,這些規(guī)則使用的頻率占了整個樹庫所用規(guī)則的微弱大多數(shù)57.55%,而所謂其他規(guī)則就是“柔性”的推演規(guī)則,占比也不低,屬于強勢少數(shù)42.45%。我們不得不應(yīng)對這樣的問題:這些柔性規(guī)則有無必要認(rèn)可?它們存在的邏輯依據(jù)是什么?要解決這樣的問題,有必要對這部分“其他規(guī)則”進行深入辨析。我們把這些規(guī)則再分為:占比41.95%的標(biāo)點吸收規(guī)則、占比43.48%的同類型范疇并列規(guī)則和占比14.61%的其他規(guī)則。我們的工作表明,其中占比41.91%的標(biāo)點吸收規(guī)則和占比43.48%的同類型范疇并列規(guī)則可以通過恒等規(guī)則和兩次使用函項應(yīng)用規(guī)則替換掉[12]。剩下占比14.61%的其余規(guī)則再分為:占比67.33%的論元脫落規(guī)則、占比11.14%的詞類吸收規(guī)則、占比10.8%的話題化歸規(guī)則和占比10.73%的詞類轉(zhuǎn)換規(guī)則。我們看到,這里占比67.33%的論元脫落規(guī)則,在整個樹庫占比大約4.17%,其他三類規(guī)則在整個樹庫的占比大約是0.6%,即6‰,可以暫時忽略不計。我們勢必首先對論元脫落規(guī)則(規(guī)則例)進行柔性處理。 漢語CCG樹庫中的論元脫落規(guī)則模式: A/B(空) ? A (空) AB ? A 其論元脫落規(guī)則例及其出現(xiàn)頻率如下[12]82: None·SNP ? S13 887(SNP)/NP·None ? SNP1 145((SNP)/(SNP))/NP · None ?(SNP)/(SNP)1 049 None·(S/S)NP ? S/S246 None·((SNP)/(SNP))NP ?(SNP)/(SNP)117 S/NP·None ? S82(SNP)/NP·None ? SNP52 CCG中具有范疇邏輯系統(tǒng)推出的定理作為導(dǎo)出依據(jù)的規(guī)則稱為滿足邏輯剛性要求的規(guī)則。而CCG中的柔性規(guī)則意味:這些規(guī)則沒有標(biāo)準(zhǔn)范疇邏輯系統(tǒng)提供的定理作為導(dǎo)出的依據(jù),并且很難匹配組合邏輯提供的邏輯語義表征。要確認(rèn)CCG柔性規(guī)則的身份地位,解決此問題的出路在于:根據(jù)自然語言現(xiàn)象的客觀存在規(guī)律,擴大范疇類型邏輯的陣營,對已有的范疇類型邏輯進行“柔性”的擴張,擴張后的范疇類型邏輯系統(tǒng)能夠推出對應(yīng)CCG柔性規(guī)則的定理,這樣也就給CCG的柔性規(guī)則找到了柔性的邏輯依據(jù)。 為了給CCG的論元脫落這樣的柔性規(guī)則提供柔性邏輯依據(jù),我們從范疇類型邏輯系統(tǒng)的結(jié)構(gòu)性質(zhì)入手。通常結(jié)構(gòu)性質(zhì)有:結(jié)合性質(zhì)、交換性質(zhì)、單調(diào)性(monotonicity)和收縮性(constraction)。標(biāo)準(zhǔn)的收縮性結(jié)構(gòu)性質(zhì)為[13]: 根據(jù)自然語言的實際情況,標(biāo)準(zhǔn)的收縮性可以柔性推廣: 把柔性的收縮性結(jié)構(gòu)規(guī)則添加到范疇類型邏輯系統(tǒng)中,就可推出定理:A/C→A。這就是漢語CCG樹庫中占比大約4.17%的“論元脫落規(guī)則”的柔性邏輯依據(jù)。然后,在這樣的范疇類型邏輯的框架語義中確立對應(yīng)的R限制:?x?y.Rxxy&y∈‖C‖。據(jù)此,可以證明柔性范疇邏輯系統(tǒng)的可靠性和完全性。 關(guān)于CCG樹庫的另一大困境是給其中的句法分析樹匹配邏輯語義表征問題。采用什么樣的邏輯工具標(biāo)注語義?是λ-演算高階邏輯,還是DRT系列?二者各有長短,λ-演算高階邏輯嚴(yán)格遵循組合原則,可計算性強,但不足以對自然語言語用層面的涵義進行表征,也不能完全滿足AI構(gòu)建大知識庫時對自然語言大規(guī)模真實文本進行語義表征的需求;而DRT系列,尤其是PDRT恰恰能夠較好地表達(dá)自然語言語用層面的涵義,如預(yù)設(shè)和隱涵等。在CCG樹庫基礎(chǔ)上添加帶λ-算子約束的PDRS框圖的邏輯語義表征就能對上述二者進行“取長補短”。 荷蘭格羅林根大學(xué)構(gòu)建的PMB語義樹庫采用:對CCG樹庫的句法樹中添加作為邏輯語義表征的帶λ-算子的PDRS框圖。樹庫中的例句“the cow moos”的推演圖為: 遵循組合范疇語法CCG的慣例,上述推演圖從詞條出發(fā)進行推演計算。如定冠詞“the”被指派句法范疇(S/(SNP))/(S/NP)和作為邏輯語義表征的帶λ-算子的PDRS框圖: 整個過程顯示出CCG提供的句法范疇和PDRT提供的帶λ-算子的PDRS框圖的并行推演計算,最后獲得例句“the cow moos”的句法范疇S[dcl]及其PDRS框圖: 跟經(jīng)典的DRT表述不同,這里PDRS框圖b3中上端的個體變項x,事件變項e和時間變項t以及框圖中的公式如“cow(x1)”都由一個指針“←”指向代表框圖的標(biāo)簽,如b1,b3。 PDRT的指針或標(biāo)簽的技術(shù)手段能夠刻畫并區(qū)分例句的預(yù)設(shè)信息和非預(yù)設(shè)信息。b3包含了b1,即例句的預(yù)設(shè)信息:存在一個x1,滿足公式cow(x1)。換言之,由于該例句出現(xiàn)了預(yù)設(shè)的觸發(fā)語“the”,故該句的邏輯語義就含有存在一個是“cow”的個體這樣的預(yù)設(shè)信息。 顯然,PDRT的技術(shù)工具能夠處理預(yù)設(shè)和隱涵等語用現(xiàn)象。不僅如此,在PMB語義庫那里,還采用了更多的語義工具,對此的匯總是[14]: ? word senses (WordNet) ? thematic roles (VerbNet) ? co-reference (DRT) ? tense (DRT) ? scope/negation (DRT) ? presupposition (PDRT) ? discourse relations (SDRT) ? compositionality (CCG) 如:刻畫詞條意義,采用“WordNet”的方式;描述自然語言的共指現(xiàn)象和時態(tài)現(xiàn)象,采用DRT;討論篇章之間的關(guān)系,工具是SDRT;當(dāng)然整個推演框架則基于CCG??梢哉f,CCG樹庫基礎(chǔ)上構(gòu)建的語義庫,其邏輯語義表征儼然就是各種語義工具的大融合。 漢語作為非形態(tài)語言,其句法形態(tài)缺乏嚴(yán)格的標(biāo)志,句法構(gòu)造很大程度依賴語義,語義的“意合”驅(qū)動句法的構(gòu)造生成。此外,漢語還是一種極大地依靠語境的語用語言。因此,對漢語CCG樹庫進行語義標(biāo)注,更需要廣泛借鑒并融合各種語義工具,特別是DRT、PDRT之類擅長處理語用現(xiàn)象的理論。谷歌或百度的計算機翻譯系統(tǒng)對涉及語用常識的漢語翻譯不能令人滿意,如同2021版“有道詞典”對“前門快到了,請從后門下車”的翻譯是:The front door is here,Please exit through the back door。這個翻譯或許產(chǎn)生思維混亂,前門到了,怎么又從后門下車?機器翻譯系統(tǒng)不知道在公交報站告知的語境下“前門”是地名這樣的常識。采用CCG+PDRT的工具就能夠把這個常識揭示出來[15],我們給出作為推演圖片段的最后環(huán)節(jié): 上述b3標(biāo)簽的框圖中包含兩個預(yù)設(shè):存在是“前門”并且作為“車站名”的個體x1,存在是“后門”并且作為“下車通道”的個體x4,即“前門”和“后門”對應(yīng)的預(yù)設(shè)信息涉及“車站名”和“下車通道”,顯示預(yù)設(shè)信息的b3不同于顯示非預(yù)設(shè)信息的b4?!扒伴T快到了,請從后門下車”這類通過預(yù)設(shè)展示生活常識的句子,對于已有的機器翻譯系統(tǒng)來說是無法識別的,因為涉及到說話人和聽話人的知識背景。采用CCG+PDRT的邏輯工具表征這些涉及預(yù)設(shè)的知識信息,有助于人工智能關(guān)于自然語言處理工作的進步。 總之,作為訓(xùn)練機器自主學(xué)習(xí)的語料資源庫,現(xiàn)有的CCG樹庫尤其是漢語CCG樹庫,勢必考慮配備能夠描述語用常識的PDRT邏輯語義工具。給漢語CCG樹庫配備邏輯語義,特別需要基于漢語本身的語用“意合”特點,對各類語義理論尤其是邏輯語義工具進行選擇優(yōu)化,這樣的工作是開發(fā)CCG樹庫的任重而道遠(yuǎn)的任務(wù)。范疇語法早在20世紀(jì)50年代初就被計算語言學(xué)之父B-Hillel用于機器翻譯,組合范疇語法CCG及其樹庫在當(dāng)今人工智能的自然語言處理背景下的機器翻譯領(lǐng)域內(nèi)將會發(fā)揮更大的作用。四、針對自然語言大規(guī)模真實文本——組合范疇語法樹庫及其研究