章宜華
以前,“辭書現(xiàn)代化技術(shù)”使人聯(lián)想最多的是借助語(yǔ)料庫(kù)編詞典,或者是把紙質(zhì)詞典裝進(jìn)計(jì)算機(jī)或芯片。在國(guó)內(nèi),以語(yǔ)料庫(kù)為代表的辭書現(xiàn)代化技術(shù)的研究方興未艾,檢索“中國(guó)知網(wǎng)”發(fā)現(xiàn),近五年來(lái)有關(guān)語(yǔ)料庫(kù)的論文有2341篇,與詞典或辭書相關(guān)的有1011篇,僅《辭書研究》就刊登有關(guān)辭書語(yǔ)料庫(kù)的論文20余篇。在近年召開(kāi)的中國(guó)辭書學(xué)會(huì)辭書編纂現(xiàn)代化專業(yè)委員會(huì)歷次年會(huì)上,語(yǔ)料庫(kù)的功能、特色、建設(shè)和管理,以及語(yǔ)料應(yīng)用等個(gè)案研究都是重要議題之一。而在國(guó)際詞典學(xué)的會(huì)議上,有很多新理念已經(jīng)取代了這類語(yǔ)料庫(kù)的話題,其中之一就是語(yǔ)料庫(kù)的深加工或數(shù)據(jù)化研究及開(kāi)發(fā)。
在語(yǔ)料庫(kù)發(fā)展的初級(jí)階段,信息數(shù)字化程度很低,語(yǔ)料完全靠人工錄入,建設(shè)成本很高,因此語(yǔ)料庫(kù)的規(guī)模都不大。但人們對(duì)語(yǔ)料的評(píng)價(jià)和期望都十分高,似乎有了語(yǔ)料庫(kù),詞典的一切問(wèn)題都解決了:釋義和義項(xiàng)劃分有了依據(jù)、例證的采集可以變得輕松、詞典的編纂效率可以大大提高,等等。而實(shí)際情況是,每天都會(huì)產(chǎn)生大量的電子信息,其數(shù)量越來(lái)越龐大,語(yǔ)料庫(kù)的建設(shè)變得很容易;而另一方面,在大規(guī)模語(yǔ)料庫(kù)環(huán)境下,海量語(yǔ)料往往會(huì)讓詞典編者無(wú)從下手,甚至?xí)蟠笤黾悠涔ぷ髁?,影響辭典編纂的進(jìn)度。因此,西方詞典學(xué)家早在上世紀(jì)八九十年代就開(kāi)始了語(yǔ)料的數(shù)據(jù)化加工,早期的有WordNet、MindNet、FrameNet等,近期有Word Sketch Engine(詞匯特性速描)、DANTE(英語(yǔ)詞匯數(shù)據(jù)庫(kù))和Corpus Pattern Analysis(CPA:語(yǔ)料庫(kù)模式分析)等。這些詞匯數(shù)據(jù)庫(kù)大多是在語(yǔ)料庫(kù)的基礎(chǔ)上,利用數(shù)據(jù)挖掘技術(shù)從海量的語(yǔ)料中提取有用的詞匯數(shù)據(jù),以描述詞匯的各種語(yǔ)言屬性。下面將對(duì)近期的幾個(gè)語(yǔ)料數(shù)據(jù)化項(xiàng)目做一介紹。
詞匯特性速描(Word Sketch Engine)是建立在語(yǔ)料庫(kù)基礎(chǔ)上的詞匯語(yǔ)言屬性的處理和描述平臺(tái),對(duì)詞匯語(yǔ)法和搭配特征進(jìn)行全面、詳盡的歸納和展現(xiàn)。主要功能有:
(1)一定分布模式中的詞匯語(yǔ)料檢索。用戶可以查詢語(yǔ)詞、短語(yǔ)、搭配和語(yǔ)法模式,并根據(jù)各種規(guī)則區(qū)分出不同文本來(lái)源(口語(yǔ)、書面語(yǔ)等)的相關(guān)索引行。
(2)詞匯的處理和特征速描,如詞位化處理、詞類標(biāo)注、數(shù)據(jù)輸入格式、搭配結(jié)構(gòu)和搭配特征、語(yǔ)法關(guān)系的定義與表述等。
(3)同義詞或近義詞的檢索和顯示。根據(jù)語(yǔ)料庫(kù)中大量的語(yǔ)法關(guān)系結(jié)構(gòu),利用統(tǒng)計(jì)分析和結(jié)構(gòu)相似性的方法,自動(dòng)生成近義詞集合,譬如根據(jù)〈object,drink,beer〉,〈object,drink,wine〉,即可以把“beer”和“wine”看作近義詞。
(4)詞匯速描的對(duì)比。當(dāng)你查詢近義詞時(shí),可以通過(guò)對(duì)比其釋義和不同的語(yǔ)言屬性來(lái)發(fā)現(xiàn)它們的區(qū)別特征,達(dá)到語(yǔ)義消歧的作用,以便正確理解和使用。
(5)語(yǔ)詞搭配顯著性的計(jì)算和描述。利用搭配詞在語(yǔ)料庫(kù)中各自出現(xiàn)的頻率和共現(xiàn)頻率及其關(guān)系來(lái)計(jì)算語(yǔ)詞搭配關(guān)系的顯著性。后來(lái)又吸收了互信息(MI,即mutual information)的計(jì)算方法(Church&Hanks 1989),把語(yǔ)詞搭配關(guān)系的顯著性視為互信息I和頻數(shù)對(duì)數(shù)(log joing frequency)之積,這種算法既便于詞典編者發(fā)現(xiàn)互信息較高的語(yǔ)詞搭配,同時(shí)也便于他們發(fā)現(xiàn)高頻語(yǔ)詞的搭配方式。
速描系統(tǒng)包含多個(gè)語(yǔ)料庫(kù),各個(gè)語(yǔ)料庫(kù)可單獨(dú)運(yùn)行。當(dāng)進(jìn)入查詢界面后,首先選擇語(yǔ)料庫(kù),然后在查詢窗口輸入要查詢的詞,如選擇BNC(英國(guó)國(guó)家語(yǔ)料庫(kù)),輸入deliver,就會(huì)彈出主顯示頁(yè)面,分頁(yè)顯示出deliver所有6368條索引行(每百萬(wàn)56.8條)。在顯示框左邊有一排功能鏈接鍵,包括“索引、詞匯列表、詞匯速描、同近義詞、詞匯速描對(duì)照”等。點(diǎn)擊“詞匯特性速描”,再次輸入deliver,選擇詞類(動(dòng)詞),點(diǎn)擊“顯示詞匯特性速描”便得到圖1所示結(jié)果[1]。
圖1顯示出deliver的各種屬性速描數(shù)據(jù),共計(jì)17種關(guān)系,全面描述了詞目詞的語(yǔ)義角色,包括共現(xiàn)賓語(yǔ)(object)、主語(yǔ)(subject)、限定詞(modifier)、and/or并列成分、接賓語(yǔ)小品詞(part trans)、不接賓語(yǔ)小品詞(part intrans)、一元關(guān)系(unary rels)、介詞詞組(PP)、介詞with in短語(yǔ)(pp within-p)、介詞to短語(yǔ)(pp to-p)、介詞by短語(yǔ)(pp by-p)、介詞at短語(yǔ)(pp at-p)、介詞on短語(yǔ)(pp on-p)、介詞in短語(yǔ)(pp in-p)、介詞of短語(yǔ)(pp of-p)、小品詞up接賓語(yǔ)(part up-a obj)、賓語(yǔ)帶形容詞補(bǔ)語(yǔ)(np adj comp)、形容詞補(bǔ)語(yǔ)(adj-comp)等。這些與被釋義詞共現(xiàn)的成分按照特定的語(yǔ)法規(guī)則形成不同的橫聚合關(guān)系,而且各種關(guān)系的詞項(xiàng)后都提供了共現(xiàn)頻率及其搭配的顯著度,這為詞典編纂者提供了極具操作性的數(shù)據(jù)支持。
圖1 英語(yǔ)動(dòng)詞deliver的詞匯特征速描數(shù)據(jù)
該詞匯特性速描網(wǎng)站有49個(gè)大型語(yǔ)料庫(kù)支持,覆蓋30多種語(yǔ)言;最大的enTenTen英語(yǔ)語(yǔ)料庫(kù)有32.68億個(gè)詞例(token),27.59億個(gè)詞形(type)。值得一提的是,Kilgarriff在2006年與我國(guó)臺(tái)灣研究機(jī)構(gòu)合作,推出基于漢語(yǔ)語(yǔ)料庫(kù)的詞匯特性速描平臺(tái),語(yǔ)料庫(kù)有4.55億詞例。現(xiàn)以“傳遞(傳遞)”為例做一說(shuō)明:
圖2 漢語(yǔ)動(dòng)詞“傳遞(傳遞)”的詞匯特性速描
詞匯特性速描中各種共現(xiàn)角色是根據(jù)對(duì)語(yǔ)詞的語(yǔ)法結(jié)構(gòu)及分布位置的統(tǒng)計(jì)歸納出來(lái)的,它過(guò)分強(qiáng)調(diào)搭配項(xiàng)的語(yǔ)法結(jié)構(gòu)和詞的屈折形式,對(duì)搭配項(xiàng)的語(yǔ)義限制考慮不足,因此出現(xiàn)了一些“噪音”信息,譬如在“主語(yǔ)”和“介詞by短語(yǔ)”的共現(xiàn)成分中出現(xiàn)了“L.j”、“J.”等外國(guó)人名縮寫,而在“修飾詞”中甚至出現(xiàn)了“to,than,then”等介詞和連接詞。而在漢語(yǔ)中,這種情況就顯得更加突出,因?yàn)闈h語(yǔ)沒(méi)有屈折形式,詞在句子中的位置比較靈活,難以根據(jù)語(yǔ)詞的形式特征和分布位置確定其共現(xiàn)成分的性質(zhì)。譬如:在“傳遞(傳遞)”的“賓語(yǔ)”中出現(xiàn)了“路程、英里、白冰冰、路線、行程、幅員”等,在“修飾語(yǔ)”中出現(xiàn)了“能夠、能、要、來(lái)”等;特別是在“主語(yǔ)“中,所列成分大多不是主語(yǔ),而“傳遞(傳遞)”在這樣的結(jié)構(gòu)中往往也不是動(dòng)詞,“接力、微博、軍情、公文”等都是“傳遞(傳遞)”的修飾語(yǔ)。
英語(yǔ)詞匯數(shù)據(jù)庫(kù)(DANTE Database)是建立在語(yǔ)料庫(kù)基礎(chǔ)上的一種新型詞匯知識(shí)庫(kù)。它提供了9.2萬(wàn)詞和短語(yǔ)的粒度精細(xì)的綜合性語(yǔ)言特征記錄,其中包括4.2萬(wàn)單詞、2.7萬(wàn)習(xí)語(yǔ)或短語(yǔ)、2.05萬(wàn)復(fù)合詞、2500個(gè)短語(yǔ)動(dòng)詞、62.2萬(wàn)從語(yǔ)料庫(kù)中提取的例句。英語(yǔ)核心詞匯的特性分析都建立在17億詞的用戶語(yǔ)料庫(kù)上,系統(tǒng)地描寫了英語(yǔ)詞匯的意義、語(yǔ)法、搭配特征及文本特性。從語(yǔ)料庫(kù)中提取的語(yǔ)言實(shí)例分為40個(gè)數(shù)據(jù)類型,每一語(yǔ)言屬性都與詞目詞的某一義項(xiàng)相關(guān)聯(lián),并有兩個(gè)以上的原始例證支持,用戶可以按需摘取。
英語(yǔ)詞匯數(shù)據(jù)庫(kù)有40種基本數(shù)據(jù)類型,此外還有詞目類型、拼寫變體、屈折變化、句法模式、搭配結(jié)構(gòu)、翻譯對(duì)等詞、語(yǔ)用說(shuō)明、語(yǔ)法說(shuō)明和功能說(shuō)明等內(nèi)容。這些類型都是用來(lái)描寫詞目詞的語(yǔ)言屬性的,在數(shù)據(jù)庫(kù)中都有詳細(xì)的標(biāo)注。該數(shù)據(jù)庫(kù)采用的是XML格式,而數(shù)據(jù)類型和注釋內(nèi)容都是通過(guò)文件類型定義(Document Type Definition—DTD)來(lái)描述的。下面是DTD定義的數(shù)據(jù)庫(kù)信息項(xiàng),共94項(xiàng)。由于信息項(xiàng)數(shù)量太多,這里僅列出其中的部分屬性,以資說(shuō)明。
表1 DTD定義的數(shù)據(jù)庫(kù)信息項(xiàng)
(續(xù)表1)
數(shù)據(jù)庫(kù)的數(shù)據(jù)信息大致是按詞典宏觀和微觀結(jié)構(gòu)體例組織并構(gòu)建起來(lái)的。詞目,包括單詞、復(fù)合詞、短語(yǔ)和縮略語(yǔ)詞頭,組織起宏觀結(jié)構(gòu)的框架,同形異義詞目按序號(hào)排列;詞頭有拼寫變體、屈折變化形式,然后是義項(xiàng)及句法結(jié)構(gòu)、搭配詞項(xiàng)、語(yǔ)塊、例句等。中間還穿插各種類型的注釋和說(shuō)明,最后是用法說(shuō)明、短語(yǔ)和習(xí)慣表達(dá)等內(nèi)容。圖3就是measure詞條的語(yǔ)料數(shù)據(jù)結(jié)構(gòu)(部分截圖)。
圖3 measure的語(yǔ)料數(shù)據(jù)結(jié)構(gòu)(部分截圖)
measure下列出了18個(gè)義項(xiàng)和近10個(gè)短語(yǔ)(部分內(nèi)容參見(jiàn)圖3),而且每個(gè)義項(xiàng)都有詳細(xì)的屬性注釋和豐富的例句(略)。這個(gè)數(shù)目高于一般的詞典義項(xiàng),如著名的《牛津高階英漢雙解詞典》總共只有11個(gè)義項(xiàng),其中名詞8個(gè),動(dòng)詞3個(gè)。在這個(gè)信息結(jié)構(gòu)中,除為每個(gè)義項(xiàng)提供語(yǔ)義解釋外,對(duì)句法結(jié)構(gòu)和搭配的描述尤為詳細(xì);此外,還給出了不少語(yǔ)塊。數(shù)據(jù)庫(kù)的顯示頁(yè)面是XML文本,內(nèi)容超過(guò)一頁(yè)的界面右邊會(huì)自動(dòng)出現(xiàn)滾動(dòng)條,滑動(dòng)滾動(dòng)條即可查看全部?jī)?nèi)容。
語(yǔ)料庫(kù)模式分析(Corpus Pattern Analysis)是一種把詞匯意義投射到特定語(yǔ)詞文本的一種方法,旨在構(gòu)建英語(yǔ)動(dòng)詞的模式數(shù)據(jù),用于計(jì)算語(yǔ)言學(xué)、語(yǔ)言教學(xué)和語(yǔ)言認(rèn)知方面的研究。該方法的倡導(dǎo)者是《新牛津英語(yǔ)詞典》的主編Patrick Hanks,其理論基礎(chǔ)是“常態(tài)與拓展理論”(Theory of Norms and Exploitations)(Hanks 2004;Hanks&Pustejovsky 2005)。該理論吸收了生成詞庫(kù)(Generative Lexicon)(Pustejovsky 1995)和生成語(yǔ)義學(xué)(frame semantics)(Fillmore&Atkins 1992)等理論。常態(tài)與拓展理論認(rèn)為,孤立的詞其意義是十分含糊的,或者說(shuō)是沒(méi)有“意義”的,它只有“意義潛勢(shì)”(meaning potential)。人類大腦中存儲(chǔ)的不是孤立的詞項(xiàng),而是詞的各種使用模式或短語(yǔ)模式(phraseological pattern)以及與該模式密切相關(guān)的原型特征。要理解一個(gè)詞在語(yǔ)言交際中的意義,關(guān)鍵是要知道其模式,并要區(qū)分常規(guī)模式(norms)和拓展模式(exploitation)。要想了解語(yǔ)詞如何獲得意義,就要分析語(yǔ)詞的分布位置及語(yǔ)境:配價(jià)和搭配。
模式分析的標(biāo)注工作一直在進(jìn)行當(dāng)中,凡標(biāo)注完成的條目會(huì)立即入庫(kù),并上網(wǎng)供用戶免費(fèi)查詢。模式分析庫(kù)的顯示結(jié)構(gòu)共三層:第一層是詞表,第二層是用法模式,第三層是相關(guān)語(yǔ)料。表2為第一層。
表2 語(yǔ)料庫(kù)模式分析查詢?cè)~表
在表2中,從左至右分別是動(dòng)詞表、模式數(shù)、OEC詞頻、BNC詞頻、成稿時(shí)間。用鼠標(biāo)點(diǎn)擊左邊的詞項(xiàng),便可以進(jìn)入語(yǔ)詞的模式分析界面。如點(diǎn)擊bite,便彈出第二層界面(如圖4所示):
圖4 bite的22個(gè)用法模式截圖
動(dòng)詞bite共22個(gè)用法模式(義項(xiàng)),截圖只顯示出8個(gè)。在圖4中,左側(cè)數(shù)字是序號(hào),百分?jǐn)?shù)是每一個(gè)模式占該詞總用法(或詞頻)的百分比。每一個(gè)義項(xiàng)上方的粗體單詞標(biāo)示的是語(yǔ)料模式,其下是該模式的釋義。最右邊的是模式類型:conc為常規(guī)模式,exploit為拓展模式;用鼠標(biāo)點(diǎn)擊相關(guān)模式可以進(jìn)入第三層語(yǔ)料界面(圖略)。
通過(guò)分析可以看出,語(yǔ)料庫(kù)模式的分析有以下方法和步驟:
—語(yǔ)料分析:以統(tǒng)計(jì)的方法整理語(yǔ)詞用法實(shí)例,根據(jù)目的詞的搭配項(xiàng)以索引行為單位分類,抽象出每一句子類型的模式,并把意義投射到相應(yīng)的用法模式;分析工具是詞匯特性速描(Word Sketch Engine)。
—模式分析:語(yǔ)言交際中的原型被視為常規(guī)用法模式,而常規(guī)模式通過(guò)新的隱喻、轉(zhuǎn)喻和非常規(guī)措辭,或在特定的語(yǔ)境中都會(huì)獲得具有個(gè)性的特色意義,這就被視為擴(kuò)展模式;而同一模式要分析出不同變體結(jié)構(gòu)(包括句法結(jié)構(gòu)交替、詞匯交替和語(yǔ)義交替),同時(shí)還要區(qū)別偏誤用法(error)。
—為每一動(dòng)詞模式配置一個(gè)語(yǔ)義結(jié)構(gòu)(implicature),它用不同的動(dòng)詞和短語(yǔ)表達(dá)與詞目詞相同的意義,而且該模式相關(guān)的論元或語(yǔ)義角色都要出現(xiàn)在這個(gè)結(jié)構(gòu)中。
—挑選例句:從語(yǔ)料庫(kù)(BNC)中為每一個(gè)目的詞挑選出一定數(shù)量的索引行,一般為250~500個(gè)例子。這些句子按不同的模式放在被釋義詞的各個(gè)義項(xiàng)中,以強(qiáng)化其分布結(jié)構(gòu)。下面舉例說(shuō)明:
(1)translate[8]
當(dāng)一個(gè)動(dòng)詞有兩個(gè)或兩個(gè)以上論元,且這些論元語(yǔ)義類型相同、形式相同但語(yǔ)義角色不同時(shí),可以用數(shù)字編碼加以區(qū)分;而一個(gè)模式有兩個(gè)義項(xiàng)的,則按序列出:
(2)bite[22]
有一些動(dòng)詞的語(yǔ)義角色在某些模式中要求有特有的語(yǔ)義類別,可以用注釋的方法在模式中標(biāo)示出來(lái);對(duì)釋義的補(bǔ)充說(shuō)明,則可以直接放在語(yǔ)義解釋下方:
(3)abate[5]
(4)abuse[5]
例(3)模式1和模式2中的主語(yǔ)語(yǔ)義類型分別是[事件=暴風(fēng)雨]和[事件=洪水],這種注釋使釋義更加具體化:處于危險(xiǎn)狀態(tài)的水位下降了。例(4)中的主語(yǔ)語(yǔ)義類型是[人類=壞家伙],賓語(yǔ)的語(yǔ)義類型是[人類=受害者],后面的注釋說(shuō)明該結(jié)構(gòu)并不總是用于性侵犯,有時(shí)也用于表示主語(yǔ)角色羞辱或侮辱受害人。
在信息化時(shí)代,辭書現(xiàn)代化的關(guān)鍵是計(jì)算機(jī)技術(shù)和數(shù)字化技術(shù)的應(yīng)用,其實(shí)質(zhì)就是文字處理與傳輸?shù)闹悄芑托畔⒒?辭書的編纂、編輯、出版和發(fā)行都必須充分利用這些技術(shù),以適應(yīng)信息時(shí)代的需要。國(guó)內(nèi)辭書界早已意識(shí)到現(xiàn)代化技術(shù)在詞典編纂和出版中的重要性,但由于種種原因主要研究仍集中在是否建立或如何建立語(yǔ)料庫(kù)的問(wèn)題上;而實(shí)際上,由于現(xiàn)代網(wǎng)絡(luò)無(wú)時(shí)無(wú)刻不在產(chǎn)生大量的電子文本,語(yǔ)料庫(kù)的建設(shè)已變得十分容易,況且國(guó)際互聯(lián)網(wǎng)上出現(xiàn)了越來(lái)越多免費(fèi)使用的大型語(yǔ)料庫(kù)(特別是英語(yǔ)語(yǔ)料庫(kù)),因此語(yǔ)料庫(kù)的建立和使用已經(jīng)不存在技術(shù)和資源問(wèn)題。鑒于此,辭書現(xiàn)代技術(shù)的應(yīng)用應(yīng)該多關(guān)注語(yǔ)料庫(kù)數(shù)據(jù)化的研究和開(kāi)發(fā),利用數(shù)據(jù)挖掘技術(shù)在語(yǔ)料的基礎(chǔ)上建立漢語(yǔ)、英語(yǔ)、法語(yǔ)、日語(yǔ)等語(yǔ)種的詞匯數(shù)據(jù)庫(kù),研究和開(kāi)發(fā)辭書編纂、編輯、出版專用的文字處理平臺(tái)和數(shù)據(jù)庫(kù)。這些內(nèi)容才是辭書走向載體電子化、檢索智能化、發(fā)行網(wǎng)絡(luò)化的核心問(wèn)題,這些問(wèn)題解決好了自然會(huì)加快我國(guó)辭書現(xiàn)代化的進(jìn)程。
附 注
[1]由于顯示內(nèi)容很多,難以在一個(gè)截屏中全部顯現(xiàn),故歸納成此表。
[2]OEC指Oxford English Corpus(牛津英語(yǔ)語(yǔ)料庫(kù))。
1.Church K,Hanks P.Word Association Norms,Mutual Information,and Lexicography.∥Computational Linguistics,1990(1):22 -29.
2.Fillmore C J.et al.Towards a Frame-based Organization of the Lexicon:The Semantics of RISK and Its Neighbors.∥Lehrer A,Kittay E F.(eds.).Frames,F(xiàn)ields,and Contrasts.Mahwah:Lawrence Erlbaum Associates,1992.
3.Hanks P.The Syntagmatics of Metaphor and Idioms.International Journal of Lexicography,2004(3).
4.Hanks P,Pustejovsky J.A Pattern Dictionary for Natural Language Processing.Revue Francaise de linguistique appliquée,2005(2).
5.Pustejovsky J.The Generative Lexicon.Cambridge:MIT Press,1995.