張永偉 馬瓊英
搭配(collocation)一詞在語言學中的含義,學界尚未達成共識,較為普遍的認知是指一種重復出現(xiàn)的詞語的組合(Sinclair 1991115;孫茂松,黃昌寧等 1997),這種組合是任意的、具有一定結構的、與領域相關的,往往體現(xiàn)了語言的某種習慣表達。[1]比如“民族服裝”是“民族”和“服裝”的偏正搭配,“洗干凈”是“洗”和“干凈”的動補搭配,這些均是各搭配成分相連的例子。更進一步,在“取得突破性進展”這一短語中,“取得”和“進展”位置上并不相連,依然是一個動賓依存搭配。
人類語言中充滿了搭配。(Smadja 1993)Firth(1957)12指出“人們可以從與一個詞結伴使用的其他詞來了解這個詞的含義”,這種觀點已經(jīng)成為語料庫語言學的核心概念之一,也是語言學習的有效方法。語文辭書是語言研究和學習的工具書,以解釋詞語的意義和用法為目的,釋義和配例是語文辭書最重要的內(nèi)容。搭配對于辭書編纂人員編纂條目時歸納詞義、挑選配例以及辭書讀者瀏覽條目時了解詞義和用法都非常重要。
然而,受限于依存搭配檢索工具功能性的不足,漢語語文辭書的編纂實踐對搭配的利用,尤其是對依存搭配的利用并不充分。近年來,許多大規(guī)模文本語料庫陸續(xù)建成,依存句法分析和搭配識別技術也取得了諸多進展,為依存搭配的實用化提供了數(shù)據(jù)來源和技術基礎。本文綜合利用這些資源,設計并研制了一個輔助語文辭書編纂的依存搭配檢索系統(tǒng),期望能促進依存搭配在語文辭書編纂中發(fā)揮積極的輔助作用。
搭配由節(jié)點詞(node)和搭配詞(collocate)組成,其中節(jié)點詞是被觀察詞,搭配詞是和被觀察詞結伴使用的其他詞?;诖翱诘拇钆涫亲畛R姷囊环N搭配,搭配詞是在節(jié)點詞上下文中指定大小的窗口內(nèi)出現(xiàn)的其他詞。基于窗口的搭配只考慮節(jié)點詞和搭配詞之間的共現(xiàn)關系,不考慮其他關系。而依存搭配是基于依存關系的搭配,詞語間的依存關系源自句子的依存句法。(Robinson 1970;Schubert 1987)依存句法理論認為,詞與詞之間存在支配關系,支配其他詞的詞稱為支配詞(head),被支配的詞稱為從屬詞(dependent)。語言技術平臺(LTP)[2]、spaCy[3]、CoreNLP[4]等許多工具都提供了不同標注體系的依存句法分析器(dependency syntax parser),可以自動標注句子的依存句法信息。圖1給出了句子“他收到了一封17個孩子聯(lián)名寫的感謝信”經(jīng)LTP[5]依存句法分析后的結果:
圖1 依存句法分析結果
圖1中的分析結果表示為一組詞語序列,詞性信息置于各詞上方,存在依存關系的兩個詞用一條有向弧連接,箭頭由支配詞指向被支配詞,弧上的標記表示兩詞之間的依存關系類型。
存在依存關系的任意兩個詞都可構成一組搭配,節(jié)點詞既可以是支配詞,也可以是被支配詞,以觀察對象為轉移。比如圖1中,“收到”和“感謝信”之間有一條有向弧,依存關系為“VOB”[6](動賓關系),因此是一組動賓依存搭配。將“收到”作為節(jié)點詞時,“感謝信”是作為直接賓語的搭配詞;將“感謝信”作為節(jié)點詞時,“收到”是作為動詞的搭配詞。
由此可見,依存搭配的節(jié)點詞和搭配詞之間存在某種依存關系,并且屬于同一個句子,這些特性讓依存搭配區(qū)別于基于窗口的搭配,與基于窗口的搭配形成互補。
早期的搭配識別主要依賴人工,以人的主觀判斷為標準,耗時耗力,眾口不一。隨著語料庫和計算機技術的發(fā)展,國外Choueka和Klein(1983)開始關注搭配的自動識別領域,國內(nèi)孫茂松、黃昌寧等(1997)率先開始研究漢語搭配的自動識別,此后許多研究圍繞多種漢語依存搭配的自動識別方法展開,比如曲維光和陳小荷等(2004)、徐睿峰和 陸勤(2006)、張化瑞和張永偉等(2011)。這些研究在豐富搭配類型的同時不斷提高著識別的準確率。
依存搭配識別的起步也比較早,Lin(1997)嘗試使用依存句法識別英語詞語搭配,周明和DingYuan等(2001)、吳華和周明(2003)等使用依存句法識別漢語詞語搭配。近年來,依存搭配識別研究常伴隨具體的應用展開,比如陳煒鵬和付瑞吉等(2014)將依存搭配識別用于信息檢索查詢語句的縮略,胡韌奮和肖航(2019)將依存搭配識別同詞語辨析、量詞學習和語法偏誤自動探測等應用結合研究,邵艷秋和申資卓等(2019)基于依存搭配識別技術進行了平面媒體語言的監(jiān)測研究,李娟(2022)將依存搭配識別技術用于近義詞的辨析等。這些研究都使用了不同的依存搭配識別方法。各依存搭配識別方法的核心區(qū)別在于計算詞語間搭配強度的方法不同:陳煒鵬和付瑞吉等(2014)使用了點間互信息、最大似然比、卡方分布3種方法,邵艷秋和申資卓等(2019)使用了加權互信息方法,胡韌奮和肖航(2019)使用了搭配頻次(節(jié)點詞和搭配詞的共現(xiàn)頻次)和互信息兩種方法,李娟(2022)使用了點間互信息的方法。
常見的搭配強度計算方法有10余種,除上述方法外,還有對數(shù)似然比、T值、對數(shù)Dice系數(shù)、對數(shù)比值、平方互信息等。計算方法眾多,各有長短,尚沒有一種方法能完全替代其他方法。輔助語文辭書編纂時,為了滿足編纂人員多方面的搭配使用需求,搭配識別需支持多種搭配強度計算方法。
搭配檢索指查詢搭配信息的過程,根據(jù)數(shù)據(jù)來源的不同,通常有兩種實現(xiàn)方法:(1) 基于搭配庫的檢索,先按一定規(guī)則抽取搭配,制作搭配庫,再從搭配庫中查詢搭配;(2) 基于文本語料的檢索,先查詢節(jié)點詞相關的語料文本,再利用搭配識別技術從中識別搭配。這兩種方法的主要區(qū)別在于搭配是預先抽取還是檢索時識別,搭配強度是預先計算還是檢索時計算。
北京師范大學研制的CCA中文搭配助手[7](胡韌奮,肖航 2019)是一款典型的基于搭配庫的依存搭配檢索系統(tǒng),兩個預先制作的搭配庫是搭配檢索的對象。該系統(tǒng)支持26種形式、9種句法搭配類型的搭配檢索;檢索時,搭配結果按搭配類型進行分組,每條搭配結果包含搭配、搭配頻次、互信息、典型形式、例句等信息。
基于文本語料的依存搭配檢索系統(tǒng)多集成于語料庫分析工具中。第四代語料庫檢索系統(tǒng)[8]以國外的CQPweb[9]、English-Corpora.org[10]、Sketch Engine[11]和國內(nèi)的北京大學CCL語料庫檢索系統(tǒng)[12]、北京語言大學BCC漢語語料庫[13]、國家語言文字工作委員會漢語通用平衡語料庫[14]為典型代表。國外的3個系統(tǒng)均支持基于窗口的搭配檢索,只有Sketch Engine支持基于語法關系的搭配檢索,而國內(nèi)的3個系統(tǒng)均不支持任意類型的搭配檢索。Sketch Engine基于語法關系的搭配檢索提供分組功能,但搭配強度計算只支持對數(shù)Dice系數(shù)一種方法?;谖谋菊Z料的檢索系統(tǒng)對依存搭配檢索的支持嚴重 不足。
基于文本語料的依存搭配檢索依賴原始語料,檢索時識別搭配并計算搭配強度,同基于搭配庫的檢索方法相比,檢索速度更慢,但支持的檢索條件可以更復雜、更靈活。為了不局限于某種特殊用途,依存搭配應該基于文本語料進行檢索。此外,為了全方面滿足語文辭書編纂過程中使用搭配的實際需求,依存搭配檢索系統(tǒng)應具備以下7個核心功能:
(1) 支持檢索任意詞語(節(jié)點詞)的搭配;
(2) 支持對節(jié)點詞詞形以外的屬性條件(比如詞性、句法功能)進行設置,以便更精確地描述節(jié)點詞;
(3) 支持對搭配詞詞形、詞性、句法功能等屬性條件進行設置,以便更精確地描述搭配詞;
(4) 支持多種搭配強度計算方法,以提供不同特點的搭配檢索結果;
(5) 支持歷時語料,以便觀察搭配的歷年使用變化;
(6) 支持分組,按詞性、依存關系等屬性條件將具有相同特性的搭配同組顯示;
(7) 提供搭配例句,以便查看搭配所在的完整上下文信息。
CCA中文搭配助手、Sketch Engine等在上述核心功能上也均有所欠缺,不能滿足漢語語文辭書編纂的核心功能要求。
為了方便辭書編纂人員使用依存搭配,我們研制了一個依存搭配檢索系統(tǒng)(簡稱“DCS系統(tǒng)”),系統(tǒng)整體工作流程如圖2所示。
圖2 依存搭配檢索系統(tǒng)工作流程
我們選擇《人民日報》1946—2019年圖文數(shù)據(jù)庫作為文本語料,使用LTP[15]進行詞法分析和依存句法分析。具體分析過程為:(1) 讀取單篇文本,按換行、回車符號進行分段處理;(2) 對每個文本段落,調(diào)用LTP進行分句、分詞、詞性標注、依存句法標注; (3) 對歷年《人民日報》文本重復上述步驟,并保存文本處理結果,得到用于建立索引的熟語料庫。
使用Lucene開源索引工具包[16]讀取熟語料,以詞為基本單位建立索引,得到索引庫。建立索引時,讀取并保存的篇章信息包含語料文本編號、作者、標題、版次、版名、年份、日期等信息,它們在熟語料文本中以元數(shù)據(jù)(metadata)形式保存;讀取并保存的詞語信息除詞語位置、詞形、詞性、依存關系外,還有對應支配詞的位置、詞形、詞性等信息,這些信息均是詞語的標注信息,它們在熟語料文本中以標注(annotation)形式保存。此外,為了高效獲取計算搭配強度所需的多種頻次信息,我們建立了多個詞表,用于緩存各類可預先統(tǒng)計的頻次信息。
依存搭配識別的主要步驟為:
(1) 系統(tǒng)根據(jù)用戶輸入的節(jié)點詞、搭配詞的查詢條件,在文本語料庫中檢索節(jié)點詞及其標注信息。節(jié)點詞和搭配詞的句法功能共同限定了節(jié)點詞既可能是支配詞,也可能是被支配詞,甚至有時候不做區(qū)分。句法功能限定節(jié)點詞是支配詞時,節(jié)點詞查詢條件的匹配對象是詞語對應支配詞的詞形和詞性等信息,搭配詞查詢條件則同詞語自身的詞形和詞性等信息匹配;句法功能限定節(jié)點詞是被支配詞時,節(jié)點詞和搭配詞查詢條件的匹配對象剛好相反;不區(qū)分節(jié)點詞是支配詞還是被支配詞時,需對兩種情況分別進行匹配和檢索,然后將結果合并。
(2) 根據(jù)步驟(1)的結果讀取或統(tǒng)計節(jié)點詞頻次、搭配詞頻次、搭配頻次、語料庫總詞數(shù)等數(shù)據(jù)。如用戶輸入查詢條件時還設置了詞性、句法功能等附加信息,則讀取或統(tǒng)計頻次時,需統(tǒng)計詞形、詞性、句法功能完全匹配時的頻次。
(3) 根據(jù)搭配強度計算公式,利用步驟(2)得到的各種數(shù)據(jù)計算各搭配的搭配強度。
(4) 按搭配強度對搭配進行排序,過濾掉搭配強度低于閾值的搭配,得到依存搭配列表。
DCS系統(tǒng)作為面向語料庫機助辭書編纂系統(tǒng)的一個子系統(tǒng),其技術選型與編纂系統(tǒng)(張永偉,顧曰國等 2021)完全一致。系統(tǒng)界面由頂部查詢條件設置區(qū)和底部搭配結果顯示區(qū)兩個區(qū)域組成,具體如圖3所示。
圖3 依存搭配檢索系統(tǒng)界面
檢索搭配時,DCS系統(tǒng)支持對節(jié)點詞、搭配詞、搭配過濾、搭配顯示、語料過濾等條件進行設置。細節(jié)如下:節(jié)點詞條件支持詞形、詞性和句法各功能的設置,詞形是必填項。搭配詞條件支持詞形、詞性、句法功能、搭配強度計算公式設置,其中搭配計算公式支持點間互信息、平方互信息、T值、對數(shù)比值、對數(shù)似然比、Dice系數(shù)、相對頻次、共現(xiàn)頻次、搭配詞頻次等方法,默認為Dice系數(shù)。節(jié)點詞條件和搭配詞條件均包含句法功能的設置,但只能設置節(jié)點詞或搭配詞在依存關系中的句法功能,比如設置某個節(jié)點詞是動賓結構的動詞,設置某個搭配詞是動賓結構的賓語等。搭配過濾條件支持搭配詞最小頻次和搭配最小頻次的設置,頻次低于該設置值的搭配將不會返回。搭配顯示條件支持分組(不分組/按搭配詞詞性分組/按依存關系分組)、分組大?。拷M的搭配數(shù)量)、搭配詞形式(詞形、詞性、句法功能及他們的組合)、搭配歷時分布信息(不顯示/按年份顯示/按年代顯示)、搭配歷時詳細數(shù)據(jù)(不顯示/顯示)的設置。按搭配詞詞性或句法功能分組時,不同詞性或不同句法功能的搭配將分進不同的組,相同詞性或相同句法功能的搭配將同組顯示。語料過濾條件支持在特定年份或特定版名的語料中進行搭配檢索。受限于界面空間限制,搭配詞的歷時分布和歷時數(shù)據(jù)只在不分組時才顯示。
圖3中搭配的查詢條件設置如下:節(jié)點詞詞形為“采集”、句法功能為“動賓結構-動詞”,搭配強度計算公式為“Dice系數(shù)”,搭配不分組并按年份顯示歷時分布。在表格中單擊搭配詞即可在新打開的窗口中查看“采集”和該詞搭配出現(xiàn)的句子列表。DCS系統(tǒng)實現(xiàn)了上文所述的輔助語文辭書編纂的依存搭配檢索系統(tǒng)應該具備的7個核心 功能。
搭配有助于編纂人員快速歸納詞語含義,對詞語進行釋義,本節(jié)以“采集”為例展示。使用DCS系統(tǒng)檢索節(jié)點詞詞形為“采集”的依存搭配,搭配強度計算公式為“Dice系數(shù)”,搭配按句法功能進行分組,得到排序靠前的4組信息(并列結構除外),如表1所示:
表1 “采集”依存關系分組信息
表1顯示“采集”最常見的用法是做狀中結構的中心語、動賓結構的動詞、定中結構的定語以及主謂結構的謂語,以動詞用法為主,其中主謂結構可以顯示動作的主體、動賓結構顯示動作的對象。在DCS系統(tǒng)中進一步設置搭配詞的句法功能為“動賓結構-賓語”,得到搭配強度大于等于0.01的賓語搭配詞列表,如表2所示:
表2 “采集”的賓語搭配詞
表2顯示“采集”的對象大致可以分為植物、信息、子集三類。其中,植物類包括中草藥、植物、藥材、飼料、樹種、草藥,信息類包括數(shù)據(jù)、信息,子集類包括標本、樣品、樣本。進一步對這三類信息的動作進行區(qū)分可知,之于植物的“采集”之義是“摘”+“收集”,之于信息的“采集”之義是“取”+“收集”,之于子集的采集之義是“選”+“收集”。標本、樣品、樣本等子集類詞語既可以指植物、信息,也可以指其他事物,三個詞子集類詞語含義也略有不同,這里不展開討論?!冬F(xiàn)代漢語詞典》第7版對“采集”的釋義為(省略了例句):
這里的“采集”釋義并未區(qū)分后接賓語搭配詞的不同類型,也沒有釋出“采”的區(qū)別。為了進一步考察后接信息類詞語的搭配,在DCS系統(tǒng)中設置搭配歷時頻次信息按年份顯示,得到與“采集”和“數(shù)據(jù)”“信息”搭配的歷時頻次變化(如圖3所示)。圖3中“采集”與信息類詞的搭配頻次近年來整體呈上升趨勢,具有一定典型性,這說明“采集”對應的義項有可能產(chǎn)生分化。綜合上述分析,“采集”可以進行如下釋義修改:
“采集”的新釋義區(qū)分了“采”的差異,通過括注提示了不同含義時常接的賓語,同時也通過第二個義項突出了近年新分化的含義。
辭書中的詞語配例應常用并且典型。以量詞“封”為例,為其選取短語例時使用DCS系統(tǒng)進行檢索,設置查詢條件如下:節(jié)點詞詞形為“封”、詞性為“量詞”(q)、句法功能為“定中結構(att)-定語”,搭配詞詞性為“名詞”(n),搭配強度計算公式為“Dice系數(shù)”。DCS系統(tǒng)給出前20個搭配詞信息,如表3所示:
表3 量詞“封”修飾的名詞搭配詞
表3顯示,在量詞“封”修飾的前20個名詞中,信件類詞語有18個,只有“電報”“郵件”包含非“信件類”含義[17],它們與“封”的歷年共現(xiàn)頻次變化如圖4所示:
圖4 量詞“封”修飾的搭配名詞“電報”“郵件”歷年共現(xiàn)頻次變化
圖4顯示,“封”與“電報”的依存搭配頻次在20世紀50年代中期和90年代初期達到了兩次高峰,此后整體呈下降趨勢,從1996年開始,頻次跌至個位數(shù),應該是隨著通信手段的不斷發(fā)展,電報逐漸退出歷史舞臺的結果。“封”和“郵件”的依存搭配頻次在2000年以前始終為個位數(shù),從2001年開始呈現(xiàn)爆發(fā)式增長,這應該與人類步入互聯(lián)網(wǎng)信息時代、電子郵件開始逐漸流行的背景相關?!胺狻焙汀半妶蟆币约啊胺狻焙汀班]件”的歷年依存搭配頻次呈現(xiàn)出大致相反的變化,提醒著我們,“電報”和“郵件”和其他信件類詞語一樣,均可以作為量詞“封”不同類型的配例?!冬F(xiàn)代漢語詞典》第7版對量詞“封”的完整釋文如下:
釋義將“一封信”作為第一個短語例,而從搭配檢索結果也可以看到,信件類詞語是“封”最常用且最典型的搭配,辭書釋義與搭配檢索結果相一致。搭配結果同時顯示,“一封電報”“一封郵件”也可以作為“封”的短語例,添加了新短語例的釋義如下:
借助DCS系統(tǒng)查詢“封”的依存搭配,一方面我們驗證了量詞“封”原有短語例的合理性,另一方面也為我們修訂條目時挑選更典型、更合適的配例提供了計量分析的技術手段。編纂人員無需閱讀大量例句就可以快速增補合理的配例,同時也降低了不同編纂人員挑選配例的主觀性和隨意性,尤其是對于歷時語料的充分挖掘,更能幫助編纂人員快速了解示例用法的歷時變化。由此可見,DCS系統(tǒng)為輔助語文辭書編纂時挑選、修改配例提供了高效、可用的方法。
DCS系統(tǒng)對語文辭書編纂的輔助遠不止釋義和配例,本文僅將這兩方面作用作為典型進行說明。
DCS系統(tǒng)可以有效輔助漢語語文辭書編纂,但仍有許多可改進之處。
(1) 增加漢語搭配網(wǎng)絡。Brezina和McEnery等(2015)研制了搭配網(wǎng)絡(collocation networks)工具GraphColl(后改名LancsBox[18]),用于建立共有搭配詞關聯(lián),生成多個中心詞的搭配層級網(wǎng)絡,從而有助于更加直觀地了解搭配詞之間的相互關聯(lián)以及節(jié)點詞的使用分布,有助于深層次地揭示節(jié)點詞的語義特點。
(2) 增加搭配詞語義韻識別。識別搭配詞語義韻并進行分組可視化,有助于快速了解節(jié)點詞常和哪些語義韻的詞語進行搭配。
(3) 增加搭配詞詞義分類識別。識別搭配詞詞義的分類,有助于快速了解節(jié)點詞常和哪些語義類的詞語進行搭配,從而快速了解節(jié)點詞使用上下文的語義環(huán)境。
未來我們將以本文研究為基礎,圍繞上述改進之處進行更深入的研究,為語文辭書編纂提供更多、更有效的輔助手段。
附 注
[1] 重復出現(xiàn)的詞語組合除搭配外,還可能是詞語的自由組合(free combination)或者熟語(idiom)等等(Van der Meer 1998)314。
[2] 主頁:http://ltp.ai。
[3] 主頁:https://spacy.io。
[4] 主頁:https://stanfordnlp.github.io/CoreNLP。
[5] 這里直接使用http://ltp.ai/demo.html在線工具進行分析。
[6] LTP支持的依存句法關系及其標簽列表參看http://ltp.ai/docs/appendix.html。
[7] 主頁:http://cca.xingtanlu.cn。
[8] McEnery和Hardie(2012)37-48將語料庫分析工具分為四代,其中第四代工具基于瀏覽器-服務器體系架構,分析工具基于內(nèi)建的語料庫,是當下最新型的語料庫分析工具。
[9] 主頁:https://cqpweb.lancs.ac.uk。
[10] 主頁:https://www.english-corpora.org。
[11] 主頁:https://app.sketchengine.eu。
[12] 主頁:http://ccl.pku.edu.cn:8080/ccl_corpus。
[13] 主頁:http://bcc.blcu.edu.cn。
[14] 主頁:http://corpus.zhonghuayuwen.org。
[15] LTP版本為4.0,模型為Base。使用Base模型進行詞法分析和語法分析的速度較慢,但與small、tiny等模型相比效果更好。
[16] 主頁:https://lucene.apache.org。
[17] 在《現(xiàn)代漢語詞典》第7版中,“電報”的含義為“用電信號傳遞文字、照片、圖表等的通信方式??煞譃榫幋a電報和傳真電報兩種”和“用電報裝置傳遞的文字、照片、圖表等”;郵件的含義為“由郵局接收、運送、投遞的信件、包裹等的統(tǒng)稱”和“電子郵件”,只有第一個義項是傳統(tǒng)意義上的信件。
[18] 主頁:http://corpora.lancs.ac.uk/lancsbox。