李艷嬌, 楊爾弘
(北京語言大學 應用語言學研究所,北京 100083)
樹庫作為包含語言結構信息的資源,其價值與作用得到了人們的肯定?!笆紫?,它可為基于統計的自動句法分析器提供必要的訓練數據和統一的測評平臺;其次,它能為漢語句法學研究提供真實文本標注素材,便于語言學家從中總結語言規(guī)則和規(guī)律;第三,它是進一步進行句子內部的詞語義項和語義關系標注的基礎[1]?!?/p>
組合歧義是指一個句法結構可以對應多種組合方式,即對應多棵樹。對于計算機而言,要在多個結構中選擇一個合適的句法結構,需要各種知識,通常統計的訓練模型主要利用的是一種結構在特定環(huán)境中的概率分布知識。本文通過對樹庫語料中三元詞性序列組合方式的統計,發(fā)現漢語中的歧義組合很大程度上要靠詞語內部的語義關系來化解,上下文環(huán)境的句法信息作用甚小。
《漢語短語結構定界歧義類型分析及分布統計》[2]一文在一個漢英機器翻譯系統所用的漢語分析規(guī)則的基礎上,對漢語短語結構的定界歧義做了全面考察,從歧義格式的組成成分,歧義對外造成的影響,模式歧義和實例歧義的對應關系三方面考察了短語結構定界歧義的不同類型,并對漢語短語結構定界歧義的不同類型進行了初步統計,以期對漢語短語結構定界歧義問題做清晰化的描述。至于一個歧義格式跟具體歧義實例的對應關系,由于要跟實際語料使用相印證,需要大規(guī)模樹庫的支持,所以該文沒有做統計。而本文是在大規(guī)模樹庫的基礎上,根據具體的實例來統計組合歧義模式,不同于上文的角度,正好形成有益的補充。
清華大學樹庫(Tsinghua Chinese Tree-bank,TCT)是國內第一個大規(guī)模漢語樹庫,也是一個標注信息最豐富的短語結構樹庫[3]。1998年到2002年間完成了100萬詞的建設。本文所使用的語料是TCT中經過人工校對的150個文件,共7 063個句子。
名詞、動詞、形容詞是漢語的三大詞類,清華樹庫中名詞、動詞、形容詞共有14種不同的標記符號(包括小類)。本文主要考察名詞、動詞、形容詞(包括小類)在連續(xù)線性序列上的組合情況,共27(33)種。具體方法是,將連續(xù)出現的三個詞串(名詞n、動詞v、形容詞a的任意組合)提取出來,然后匹配出三個詞直接組合在一起的實例,將實例數量排在前十位的模式作為本文的考察對象(下文一些具體的標注符號請參見相關規(guī)范[4-6])。
三個連續(xù)出現的詞串,可能組合在一起,也可能不組合在一起,例如,收回/v 澳門/nS ,/, …… ,/,是/vC [np-DZ [np-DZ [np-DZ 我/rN國/n]人民/n] [np-DZ長期/n的/u [np-DZ 共同/a 愿望/n ] ] ] ] ] …… 。/。(n+n+n模式,“國”沒有直接和“人民”結合,而是與前面的代詞“我”組合,“長期”則是“共同愿望”的定語,所以這里連續(xù)的三個名詞n沒有直接聯系)。在這里,不能直接組合在一起的三元詞串不在考察范圍內,我們只考察能夠直接組合在一起的三元線性序列。
2.3.1 總體情況
通過數據統計,實例數量排在前十位的模式組合情況如表1所示。
通過表1的具體數據可以看出,十種模式在組合方式上是有差異的,“n+n+n”“v+v+v”“v+n+v”模式有三種組合方式,而其余八種模式都是a、b兩種組合方式,即相對于其他模式而言,“n+n+n”“v+v+v”多出一種三個成分并列的模式(之所以將“v+n+v”去掉,是因為人工回查中發(fā)現,“v+n+v”的并列組合模式屬于標注失誤)。說明三個詞連續(xù)出現,若詞性相同,則直接組合成一個整體、構成并列成分的可能性會更大。
表1 十種模式的組合情況
此外,十種模式在不同的組合方式上也有不同的組合傾向,如“n+n+v”更傾向于a式組合,“v+a+n”更傾向于b式組合,c式組合有一定的特殊性,需要的條件較嚴格,只有少數模式在特定情況下才會出現。
以上就是十種模式的總體情況。在后續(xù)進一步的考察中發(fā)現,有些情況下,同種模式的不同組合根據本身的詞性序列是可以化解掉的,如“n+v+n”模式中,若A位置上的n是表示地點的名詞(nS),無論B、C位置上是什么詞,是什么詞性,一般傾向于b([ A [ BC] ])式組合,而不會是a式組合,例如,后來/t 得知/v [dj-ZW臨潼/nS[vp-PO有/v風力發(fā)電機/n] ] ,/, 我/rN 就/d 一/m 個/qN 人/n 去/v 買/v 。/。
但更多的時候,這種歧義組合在詞性標記符號的基礎上是消解不了的,以下分別說明十種模式的歧義組合。
2.3.2 十種模式的歧義組合
1) n+n+n模式
a1 ……在/p [np-DZ[np-DZ村/n干部/n]家/n] 搭伙/v 吃/v 飯/n ,/,補貼/vN 金額/n 嚴格/aD 按/p 規(guī)定/n 辦/v 。/。
b1 [np-DZ部分/n[np-DZ日元/n貸款/n] ] 及/c 無償/b 援助/vN 建設/vN 項目/n 考察/vN 散記/n
c1 黨/n 的/u [np-LH路線/n方針/n政策/n] 和/c 一切/rN 言論/n 行動/n ,/,……
n+n+n模式是由連續(xù)的三個名詞組成,相對于其他模式,多出一種三個成分并列的模式。上面三個例子中“村/n 干部/n 家/n”中“村”只修飾“干部”,說明“干部”的級別,“村干部”作為一個整體修飾“家”,表明“家”的所屬(誰的家),體現為a式組合;“部分”和“日元”都是來限制修飾“貸款”的,但一個用來說明“貸款”的數量,一個用來說明“貸款”的性質,因此它們不在同一個層次上,組合要有先后順序,所以“日元”先修飾“貸款”,然后再用“部分”來限定“日元貸款”這個整體,即b式組合;“路線”“方針”“政策”三個詞之間是并列關系,各自是一個方面,沒有修飾和限定關系,所以三者直接組合成一個整體,體現為c式組合。由此可見,組合方式與詞語之間的語義關系直接相關,不同的語義關系決定了不同的組合方式,線性序列上的詞性信息沒有表現出很強的作用。
2) v+n+n模式
a2 …… [np-DZ[vp-PO種/v菜/n]開支/n] 增加/v ,/,自然/d 影響/v 價格/n 。/。
b2 ……以往/t 那/rB 種/qN 認為/v [vp-PO干/v[np-DZ人武/n工作/n] ] 是/vC “/“ 敲邊鼓/iV ”/” 的/u 思想/n 打掉/v 了/u 。/。
在上面兩個例子中,“種/v 菜/n 開支/n”與“干/v 人武/n 工作/n”兩個短語不僅詞性序列相同,更嚴格的看,兩個短語句法位置也都一樣,都在句子中作主語,但它們的組合方式依然不同?!胺N/v 菜/n 開支/n”中動詞“種”與“菜”先組合成動詞性的述賓結構,述賓結構作定語修飾“開支”,最外層形成名詞性的定中結構;而“干/v 人武/n 工作/n”是“人武”與“工作”先組合,然后與前面的“干”在最外層形成述賓結構。這種組合的差異主要體現在語義關系的不同: “種/v 菜/n 開支/n”中“菜”是“種”的動作對象,“種菜”作為一個整體限定說明“開支”的用途;“干/v 人武/n 工作/n”中“人武”不是“干”的直接對象,而是限制說明“工作”的性質,“人武”要與“工作”組合成一個整體來作為“干”的對象。所以,這種不同的組合是由詞語之間的語義信息決定的,與句法信息尤其是詞性信息關系甚小。
3) n+v+n模式
a3 ……先后/d 分/v 片/qN 舉辦/v 了/u 30/m 多/m 期/qN [np-DZ[dj-ZW商品/n交易/v]知識/n] 培訓班/n ] ,/,……
b3 ……成立/v了/u 600/m 多/m 個/qN [dj-ZW民兵/n[vp-PO送/v溫暖/n] ]小組/n ……
“商品/n 交易/v 知識/n”與“民兵/n 送/v 溫暖/n”兩個短語的詞性序列相同,說明兩個短語中對應的具體詞屬于相同的詞類范疇,但它們內部的組合方式卻完全不同: a3是動詞“交易”與前面的名詞“商品”先結合形成主謂結構,主謂結構作定語然后修飾后面的名詞“知識”,形成定中結構;b3是動詞“送”與后面的名詞“溫暖”先結合形成述賓結構,然后與前面的名詞“民兵”結合,最外層形成主謂結構。這種不同的組合方式與詞語間的語義關系直接相關,一般而言,動詞總是與其動作對象先結合(“送”的對象是“溫暖”,“交易”的對象是“商品”),當動作對象處于不同的位置時,就有可能形成不同的組合方式,而這種組合歧義靠詞性序列是很難化解的。
4) v+v+n模式
a4要/vM 增強/v 責任/n 意識/n 、/、全局/n 意識/n 、/、 [np-DZ[vp-LH改革/v開放/v]意識/n] 、/、[np-DZ[vp-LH調查/v研究/v]意識/n] ] ] ,/, …… 。/。
b4有/vJY兩/m 位/qN 醫(yī)生累癱/v 在/p 手術臺/n ,/, 稍事休息/v ,/,又/d 重新/d 上場/v [vp-PO繼續(xù)/v[vp-PO作/v手術/n] ]。/。
上面兩個例子中的短語詞性序列相同,說明兩個短語中對應的具體詞,充當句法成分的能力、與其他詞語的組合能力有某些共性。但在具體的實例中,v+v+n模式的組合方式卻不相同。a4中,“改革”與“意識”、“開放”與“意識”都不是動作與對象的關系,而是一種限定關系(一種什么意識),“改革”與“開放”需要先組成并列結構,然后限定后面的名詞;而b4中,“繼續(xù)”的對象是“做手術”這一行為,“手術”是“做”的直接對象,所以“做手術”要先結合。所以,詞語間語義關系的差別決定了a4、b4組合方式的差異。
5) v+n+v模式
a5在/p主人/n 引導/v下/f ,/, 李/nP 主席/n換上/v 清潔服/n ,/, [vp-LW[vp-PO去/v養(yǎng)豬場/n]參觀/v] 。/。
b5首都/n薩那/nS 和/c 亞丁/nS 、/、赫臺達/nS 、/、塔伊茲/nS 等/u 城市/n 遭到/v 飛機/n 轟炸/v ,/,[vp-PO造成/v[dj-ZW人員/n傷亡/v] ] 。/。
“去/v 養(yǎng)豬場/n參觀/v”“造成/v 人員/n 傷亡/v”都是“v+n+v”模式,但是它們內部的組合方式卻有所不同,a5中“去/v 養(yǎng)豬場/n 參觀/v”表示動作的一前一后,即先“去”然后“參觀”(“養(yǎng)豬場”既是“去”的對象也是“參觀”的對象),所以“去”與“養(yǎng)豬場”先結合形成述賓結構,“去養(yǎng)豬場”與“參觀”有時間上的先后關系,整體形成連謂結構。b5中“傷亡”的主體是“人員”,“造成”的結果是“人員傷亡”這一整體,所以“人員”與“傷亡”先組合成主謂結構,這個主謂結構作“造成”的賓語,外層形成述賓結構。所以不論外層是述賓結構還是連謂結構,都與詞語的語義特征、短語內部的語義信息密切相關,與詞性序列上句法信息關系不大。
6) n+n+v模式
a6 [dj-ZW[np-DZ張鳴岐/nP同志/n]遇難/v]以后/f ,/當地/s 老百姓/n 說/v ,/, ……
b6 …… [dj-ZW法烏斯蒂諾/nP[dj-ZW頭部/n中彈/v] ] 當場/d 死亡/v ……
上面兩個例子中,“張鳴岐/nP 同志/n 遇難/v”和“法烏斯蒂諾/nP 頭部/n 中彈/v”兩個短語的詞性序列相同,甚至在小類上也一樣,第一個名詞都是人名(nP)(屬于名詞的小類,可以看成是一種較粗的語義標注),但它們的組合方式還是不同,說明類似較粗的語義標注達不到化解歧義組合的要求,內部需要更細微的語義信息: “張鳴岐/nP 同志/n遇難/v”中“遇難”的對象是“張鳴岐同志”,所以“張鳴岐”與“同志”先組合在一起,然后跟“遇難”發(fā)生聯系,最外層形成主謂結構;而b6中“中彈”的直接部位是“頭部”,所以“頭部”和“中彈”先組合,形成主謂結構,“頭部中彈”這一整體的對象是“法烏斯蒂諾”,所以最外層還是主謂結構,是b式組合??梢姡忸愃频钠缌x組合需要詞語之間更精細的語義關系,現有詞性小類這樣粗粒度的語義信息還達不到化解歧義組合的要求。
7) v+a+n模式
a7 ……告訴/vSB 孩子/n 們/k [vp-PO[vp-SB洗/v干凈/a]手/n] 再/d 來/v 看/v 書/n ……
b7 ……一時間/d ,/,信息/n [vp-PO成為/v[np-DZ熱門/a話題/n] ] 。/。
v+a+n模式的組合歧義主要集中在中間位置的形容詞(a)上,到底是與前面的動詞(v)先組合,還是與后面的名詞(n)先組合,這由短語內部詞語之間的語義關系決定: “成為/v 熱門/a 話題/n”中“成為”的結果是“熱門話題”,“熱門”是限定、修飾“話題”的(什么樣的話題),所以“熱門”先與“話題”形成定中結構,定中結構再作“成為”的賓語,最外層形成述賓關系。“洗/v 干凈/a 手/n”中“干凈”是來補充說明“洗”這一動作的,所以“洗”和“干凈”要先結合形成述補結構,然后再與“手”結合,最外層形成述賓結構??梢钥闯?,中間位置的形容詞(a)無論先與前面的動詞(v)結合,還是先與后面的名詞(n)結合,都是由語義關系決定的。
8) a+n+n模式
a8 ……這些/rN 過去/t 遙遠/a 如/v 夢/n 的/u 產品/n ,/,終于/d 進入/v [np-DZ[np-DZ尋常/a百姓/n]家/n] 。/。
b8 …… 其/rN 所/u 體現/v 的/u [np-DZ基本/a[np-DZ倫理/n觀念/n] ] 與/p 各/rB 種/qN具體/a 的/u 禮儀/n 和/c 道德/n 規(guī)范/n 相/d 結合/v ……
a+n+n模式中,最前面的形容詞(a)某些情況下直接限定修飾緊隨其后的名詞(n),某些情況下限定修飾后面一個整體(兩個名詞先組合成一個整體),這種不同的組合方式主要是由詞語之間的語義關系決定?!盎?a 倫理/n 觀念/n”中“基本”和“倫理”都是來限定、修飾“觀念”的,但限定的角度不同,“倫理”是說明“觀念”的內容,所以“倫理”與“觀念”先組合成定中結構,然后“基本”來說明“倫理觀念”的地位。而“尋常/a 百姓/n 家/n”中“尋?!笔莵硐薅?、修飾“百姓”的(說明“百姓”的性質),與后面的名詞“家”沒有直接聯系,“尋常百姓”來限定說明“家”(誰的家),所以,“尋?!迸c“百姓”要先結合,形成定中結構,然后整體修飾“家”,最外層形成定中結構。
9) v+v+v模式
a9薩那/nS 和/c 亞丁/nS 的/u 國際/n 機場/n 已/d 關閉/v ,/,[dj-ZW[vp-ZZ對外/v聯絡/v]中斷/v] 。/。
b9 [dj-ZW供/v[vp-PO大于/v求/v] ] ,/,價格/n 自然/d 就/d 趨于/v 下降/v ……。
c9 ……[vp-LH打/v罵/v體罰/v]或/c 嬌慣/v 溺愛/v 的/u現象/n 比較/dD 普遍/a 。
在v+v+v模式中,三個動詞連續(xù)出現,相對于其他模式,同樣多出一種三個成分并列的模式,從而出現上面三種完全不同的組合方式?!皩ν?v 聯絡/v中斷/v”中“中斷”的對象是“對外聯絡”,“對外”說明“聯絡”的性質(什么樣的“聯絡”),所以,“對外”與“聯絡”要先結合成一個整體作主語,然后在外層與“中斷”形成主謂結構;而“供/v 大于/v 求/v”中三個動詞分別充當主、謂、賓,“大于”的對象是“求”(實際上是所求的東西),所以,“大于”與“求”先結合,然后與主體“供”形成主謂結構;“打/v 罵/v 體罰/v”三個動詞之間不是限制、修飾關系,而是一種并列關系,所以三個詞直接組合在一起??梢钥闯觯齻€動詞連續(xù)出現,不管是什么樣的組合方式,都是由詞語間的語義關系決定的,語義關系決定哪兩個動詞先結合,怎樣結合,構成什么樣的句法結構類型。
10) a+v+n模式
a10[np-DZ[np-DZ基本/a建設/vN]規(guī)模/n] 過/dD 大/a ,/,全/a 社會/n 固定/a 資產/n 投資/vN 比/p 上年/t 增加/v 30%/m 以上/m ,/,……
b10民主集中制/n ,/,作為/v 上層建筑/n 的/u [np-DZ重要/a[np-DZ組成/vN部分/n] ] ,/,是/vC ……
從小類上看,上面兩個例子都是“a+vN+n”模式(vN名動詞,動詞下面的一個小類),小類的設立可以看成一種粗粒度語義標注,在這里同樣沒有起到化解歧義組合的作用。a10中,“基本”只限定、修飾“建設”,說明“建設”的性質,所以它們先組合,形成定中結構,然后修飾“規(guī)?!?,說明“規(guī)模”的內容。而b10 中,“重要”和“組成”都是修飾“部分”的,但角度不同,“組成”和“部分”先組合形成定中結構,然后“重要”來說明“組成部分”的地位。雖然詞性標記涉及到小類,但仍有組合歧義,說明詞語的組合方式主要取決于它們之間的語義信息,目前詞性小類的設置尚且達不到化解組合歧義的目的。
從上面十種模式的分析與考察中可以發(fā)現,相同的詞性序列可能產生不同的組合方式,也就是我們所說的組合歧義,并且這種歧義具有很大普遍性。同時能夠看出,不同的組合方式是由詞語之間不同的語義關系決定的,與詞語的語法特征(如詞類信息)沒有明顯關系。
縱觀漢語的這些類型的歧義,不難發(fā)現它們歧義的排除絕大多數是靠自身的意義,而不受詞語的語法特征尤其是詞類信息的制約,例如,“成為/v 熱門/a 話題/n”,“洗/v 干凈/a 手/n”的歧義靠自身的意義排列就可以排除,與線性序列上的詞性標記、句法信息等無關。
當前統計的方法得到越來越多的認可,人們構建樹庫,在很大程度上是“可為基于統計的自動句法分析器提供必要地訓練數據和統一的測評平臺”,即在現有樹庫的基礎上進行機器學習,讓計算機獲得盡可能多的句法知識,實現更大規(guī)模的標注,提高正確率,節(jié)省人力、物力。而大量歧義組合的存在必定影響機器學習的效果,對正確的組合方式產生干擾,不利于正確率的提高。
構建樹庫不是要增加歧義,而是要消除歧義,盡量使一個句子對應一棵樹(因為人的理解是沒有歧義的)。目前的考察不得不令人懷疑,依靠句法信息、在詞性標注的基礎上構建漢語樹庫能否達到消歧的目的?;蛟S,我們可以采取一些新的策略和方法,比如前文(2.3.1)已經提到,詞類小類有些情況下可以化解一些組合歧義,只是現有的小類還不夠精細,不能夠化解所有的歧義組合,所以,在后面的工作中,可以嘗試在詞類標記小類更加細化的基礎上,對這些歧義組合的短語進行集中標注、集中化解,讓機器學到更加精細的語義知識,或許情況會有所改善。
漢語大規(guī)模樹庫是一項重要的資源,它為漢語語言研究和信息處理做出重要的貢獻,如何有效地利用其中的數據,需要通過對數據的考察、分析、研究。
本文通過十種模式的考察與分析發(fā)現,在詞性序列的基礎上,漢語的歧義組合是普遍存在的。一般來說,不同的組合方式與詞語之間的語義信息有密切的關系,而并不受句法信息(尤其是詞類信息)的制約,甚至詞類小類如人名(nP)、名動詞(vN)等這種粗粒度的語義標注,某些情況下也達不到化解歧義組合的要求。這說明在目前詞性標注的基礎上,對漢語進行句法標注會產生大量的歧義組合。
歧義組合的存在會影響計算學習的效果,這需要引起我們的思考和重視,嘗試采取一些新的策略和方法,更好的解決樹庫中存在的歧義組合,以便更好地服務于中文信息處理。
致謝
在本文的寫作中,董振東教授提出了很多寶貴的意見,在此表示誠摯的感謝!
[1] 王躍龍,姬東鴻.漢語樹庫綜述[J].當代語言學,2009,11(1):47-55.
[2] 詹衛(wèi)東,常寶寶,俞士汶.漢語短語結構定界歧義類型分析及分布統計[J].中文信息學報,1999,13(3):9-17.
[3] 漢語句子的句法樹標注規(guī)范V2.0[R] .清華大學計算機系智能技術與系統國家重點實驗室,技術資料,2002.
[4] 周強,俞士汶.漢語短語標注標記集的確定[J].中文信息學報,1996,10(4):1-11.
[5] 周強,張偉,俞士汶.漢語樹庫的構建[J].中文信息學報,1997,11(4):42-51.
[6] 周強.漢語句法樹庫標注體系[J].中文信息學報,2004,18(4):1-8.