• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      語料庫數(shù)據(jù)化發(fā)展趨勢及詞典學(xué)意義

      2016-01-06 23:18:58章宜華
      辭書研究 2015年5期

      摘要 語料庫對詞典學(xué)的價值已得到辭書界的普遍認(rèn)可,但傳統(tǒng)大規(guī)模語料庫由于缺乏必要的標(biāo)注,與詞典微觀結(jié)構(gòu)項之間的相關(guān)性不足,這使得它對詞典學(xué)研究和詞典編纂的貢獻(xiàn)受到很大的制約。文章從詞匯知識庫和數(shù)據(jù)庫的建設(shè)特點(diǎn)入手,探討它與詞典學(xué)的相關(guān)性及其在規(guī)模、速度和信息量等方面的局限;最后以COCA為例,從語料庫的標(biāo)注、語料庫的索引、語料的智能化檢索和顯示等方面探討語料庫的數(shù)據(jù)化特征及其詞典學(xué)意義。

      關(guān)鍵詞 詞匯知識庫 詞匯數(shù)據(jù)庫 語料庫數(shù)據(jù)化 語料庫與詞典編纂

      在語料庫發(fā)展的初期,人們對語料的評價和期望都十分高,似乎有了語料庫,詞典的一切問題都解決了:釋義和義項劃分有了依據(jù)、例證的采集可以變得輕松、詞典的編纂效率可以大大提高等等。人們的主要精力是要把語料庫做大,覺得大到一定程度就可以覆蓋和解決詞典編纂的一切語言問題了。所以,語料庫迅速從百萬級到千萬級,最后柯林斯的“Bank of English”在20世紀(jì)80年代就達(dá)到空前的近5億詞。這時,詞典編纂者突然發(fā)現(xiàn),在使用這些大規(guī)模語料庫時,隨便輸入一個詞查詢就會產(chǎn)生成千上萬的索引行,顯示界面會把這個詞的各種用法實(shí)例都一股腦呈現(xiàn)出來。面對海量語料,詞典編纂者往往無從下手,只能逐條瀏覽;這會大大增加其工作量,影響詞典編纂的進(jìn)度。因此,西方語言學(xué)家和詞典學(xué)家早在20世紀(jì)七八十年代就開始了語料的數(shù)據(jù)化加工,取得了一系列的成果。下面就語料數(shù)據(jù)化及其詞典學(xué)意義做一探討。

      一、詞匯知識庫的建設(shè)

      詞匯知識庫(knowledge base)是為了特定目的,根據(jù)一定應(yīng)用領(lǐng)域的要求、背景特征、屬性特征和使用特征等構(gòu)建的模塊化的語言知識集合,系統(tǒng)地滿足用戶某方面的知識需求。自20世紀(jì)70年代開始,美國學(xué)者就開始設(shè)想建立能進(jìn)行自動語義描述的大規(guī)模詞庫,并在20世紀(jì)80年代中期付諸實(shí)踐,我國的專家在20世紀(jì)90年代以后也進(jìn)行了這方面的嘗試?,F(xiàn)在,為人熟知的詞庫有詞網(wǎng)(WordNet)、 智網(wǎng)(MindNet)、框架網(wǎng)(FrameNet)、動詞網(wǎng)(VerbNet)、命題庫(PropBank),以及國內(nèi)的知網(wǎng)(HowNet)和綜合知識庫(CLKB)等,分別用于句法分析、語義分析和自然語言處理或理解等,當(dāng)然也可以用于詞典學(xué)研究和詞典編纂。

      這些詞庫的建設(shè)并沒有受當(dāng)時主流語言學(xué)重語言能力(competence)輕語言應(yīng)用(performance)學(xué)術(shù)思潮的影響,而是從語言實(shí)例(語料)入手,通過自下而上的方式對語言的屬性進(jìn)行描寫,如句法模式、題元角色、概念結(jié)構(gòu)等語言規(guī)則和語義關(guān)系等。譬如,詞網(wǎng)使用同義詞集合(synsets)來表征詞匯概念,在詞的形式和意義之間建立起映射關(guān)系,把名詞、動詞、形容詞和副詞歸入認(rèn)知同義集合(sets of cognitive synonyms),每一集合表示一個不同的概念;同義集合之間通過概念—語義和詞匯系統(tǒng)關(guān)系相互聯(lián)系起來(Miller 1990;Lin Dekang 1998)。智網(wǎng)利用微軟的一個廣域自然語言分析器(broadcoverage parser)自動分析詞典釋義和例證文本而獲得詞匯語言知識,涉及24種關(guān)系,包括共同施事、擁有者、深層賓語、深層主語、領(lǐng)域、材料、來源、目標(biāo)、原因、意圖、方式、方法、同義等(Richardson et al. 1998)??蚣芫W(wǎng)是基于Fillmore框架語義學(xué)、借助詞典釋義和語料建成的知識庫,它利用“框架”和框架元素來解釋詞的結(jié)構(gòu)模式和語義角色,表征詞匯之間的共現(xiàn)特征和相互關(guān)系,語義結(jié)構(gòu)就蘊(yùn)涵在這種關(guān)系中。有了這些語言資源,研究者就可以設(shè)計機(jī)器學(xué)習(xí)算法,構(gòu)建語義角色標(biāo)簽的自動標(biāo)注系統(tǒng),從而實(shí)現(xiàn)句子語義結(jié)構(gòu)的自動識別,為各類精細(xì)的語言工程應(yīng)用服務(wù)(Fillmore et al. 2001;Fillmore 2003;Ruppenhofer et al. 2010 )。這些詞庫對于認(rèn)知詞典用戶的內(nèi)在知識結(jié)構(gòu)、按用戶的知識特點(diǎn)設(shè)置微觀結(jié)構(gòu)信息項及其組織方式有很好的借鑒作用,它們并不是為詞典編纂而建的,能直接用于詞典編纂的詞匯信息并不多。因此,一些語言學(xué)家和詞典學(xué)家嘗試建立能用于詞典編纂的通用詞匯數(shù)據(jù)庫。

      二、詞匯數(shù)據(jù)庫的建設(shè)

      詞匯數(shù)據(jù)庫(database)指的是把從語言實(shí)例(語料庫)中提取的詞匯語言屬性,如形態(tài)、句法、搭配、語義和用法等各種基本信息按一定格式以多元子集的方式儲存在一起,以滿足用戶對共享詞匯語言數(shù)據(jù)的需求。數(shù)據(jù)庫一般是由字段(field)、記錄(record)和文件(file)構(gòu)成。在庫中,人們把字段定義為能反映詞目某一語言特征的簡單數(shù)據(jù)項,記錄是能反映詞目某一類語言屬性的、有特定指向或歸宿的復(fù)雜數(shù)據(jù)項,而文件則是某一類詞典微觀數(shù)據(jù)項的集合。這樣,單一詞目(lemma)的拼寫、讀音、詞類、屈折變化、句法、搭配、釋義、例證,以及與其他詞項的各種關(guān)聯(lián)或關(guān)系以及多媒體信息都可以字段和記錄等形式存儲在庫中,以便在詞典編纂時按需調(diào)取。為了詞匯數(shù)據(jù)庫的建設(shè),西方詞典學(xué)家構(gòu)建了語料庫模式分析(Corpus Pattern Analysis,以下簡稱CPA)理論(Hanks & Pustejovsky 2005;Hanks 2010)及語料索引和數(shù)據(jù)提取工具——詞匯速描引擎(Word Sketch Engine)(Kilgarriff & Tugwell 2001;Kilgarriff et al. 2014)。前者以“常態(tài)與拓展”(Norms and Exploitations)(Hanks 1994,2013)理論為基礎(chǔ)構(gòu)建了語料模式分析的原則和方法,主要是通過語料分析提取語詞使用的橫聚合原型模式;后者是模式分析中的語料索引和有效數(shù)據(jù)的提取工具。

      CPA理論認(rèn)為,名詞和動詞的模式是不同的,名詞的模式隱含在語料庫中的一些反復(fù)使用的“經(jīng)典”語句的共現(xiàn)結(jié)構(gòu)中,而動詞的模式不但要看其基本論元結(jié)構(gòu)或配價結(jié)構(gòu),還要看其次配價特征(subvalency features),即一個語義角色有無其他修飾成分。譬如,“take place”與“take his place”的意思顯然是不一樣的。這就需要有特定的算法統(tǒng)計和分析它們的相關(guān)性,還需要人工干預(yù)來區(qū)別習(xí)語性搭配和一般搭配的語義特點(diǎn)。顯然,CPA不是解釋孤立的單詞意義,而是解釋語詞與原型構(gòu)式或句型模式(pattern)相關(guān)的意義,而且最近的標(biāo)注方式和成分凸顯與最初的方案相比有了很大的改進(jìn)。譬如動詞“grind”條目(見圖1)共有13個模式和語義結(jié)構(gòu)(包括短語和習(xí)語),241個用法實(shí)例,其重點(diǎn)是揭示動詞事件行為參與者,并以論元結(jié)構(gòu)和配價結(jié)構(gòu)的形式表征出來。如施動者為“Device/設(shè)備或Human/人”:Device=Mill/磨房,且由“Human”操作來磨碎“Stuff/東西”;受事“Stuff/東西”= “Grain/糧食或Coffee Beans/咖啡豆或Raw Material/原材料”;方式是“Slowly/慢慢地;Systematically/有條理地;between a stationary stone and a rotating stone,or in some other similar device在固定和轉(zhuǎn)動的石頭之間,或同類設(shè)備中”;成事為“Food/食物= Flour/面粉、Coffee/咖啡,或Stuff/東西 = Cement/水泥”。注意,數(shù)據(jù)庫把語義作為一種“隱含”(implicature)潛值來表達(dá),即“如果某設(shè)備或某人Grinds某東西或食品,就是該人操作磨房把糧食、咖啡豆或原材料在固定與轉(zhuǎn)動的石頭之間慢而漸進(jìn)地磨碎”。這樣,通過論元結(jié)構(gòu)把被釋義詞的句法、語義和使用搭配成分都在一個平臺上表征出來,既有釋義的抽象性、原型性,又有語用的具體性,加上200多個各種用法實(shí)例把被釋義詞的語義潛勢系統(tǒng)地表征出來,這為語言學(xué)習(xí)或教學(xué),以及詞典編纂者提供了很好的、可靠的建設(shè)性參考信息。

      該數(shù)據(jù)庫擬對5602個動詞進(jìn)行數(shù)據(jù)處理,截至2015年5月,已經(jīng)處理1275個,正在處理的有384個[1]。因此,目前的實(shí)際應(yīng)用價值還很有限。

      另一詞匯數(shù)據(jù)庫是由英國詞典學(xué)培訓(xùn)公司(Lexicography MasterClass Ltd)創(chuàng)建的DANTE數(shù)據(jù)庫,其設(shè)計目的就是為詞典編纂和計算語言學(xué)(包括計算機(jī)詞庫)研究而服務(wù)。該數(shù)據(jù)庫收錄了9.45萬個詞和短語,對詞的義項劃分和語言屬性描寫都很細(xì)致,包含40個數(shù)據(jù)類型,以及詞目類型、拼寫變體、屈折變化、句法模式、搭配結(jié)構(gòu)、翻譯對等詞、語用說明、語法說明和功能說明等內(nèi)容,并配有豐富的例證,對詞典編纂有很好的參考作用。相關(guān)的信息結(jié)構(gòu)和數(shù)據(jù)結(jié)構(gòu)已另文發(fā)表(章宜華 2012),這里不再贅述。

      三、語料庫數(shù)據(jù)化開發(fā)

      雖然數(shù)據(jù)庫目的性和實(shí)用性更強(qiáng),但需要大量人力物力的投入,發(fā)展比較緩慢。針對這種情況,西方語言學(xué)者就開始直接對語料庫進(jìn)行深加工處理,把語料庫的建設(shè)從追求量的擴(kuò)充向語料數(shù)據(jù)化方向轉(zhuǎn)化,即利用標(biāo)注、數(shù)據(jù)挖掘技術(shù)和計算機(jī)自動運(yùn)算的方法對無序的語料索引行進(jìn)行梳理、統(tǒng)計、分類、歸納,按用戶需求有針對性地呈現(xiàn)各種典型的詞匯數(shù)據(jù)。美國當(dāng)代英語語料庫(Corpus of Contemporary American English,以下簡稱COCA)[2]就是一個典型的代表。

      COCA由美國楊百翰大學(xué)(Brigham Young University)的Mark Davies教授主持開發(fā),語料規(guī)模達(dá)4.5億詞,是美國目前最新的當(dāng)代英語平衡語料庫。自2008年2月20日在互聯(lián)網(wǎng)上正式推出以來,每年都要至少做兩次語料更新。語料庫的數(shù)據(jù)化主要體現(xiàn)在將雜亂無序的語料變得有條有序,能根據(jù)用戶的需要提供相對準(zhǔn)確的詞匯語言數(shù)據(jù),其關(guān)鍵就是“智能化”索引,而索引的基礎(chǔ)是對語料的標(biāo)注和基礎(chǔ)數(shù)據(jù)庫的支持。下面就從這幾個方面談?wù)凜OCA數(shù)據(jù)化的功能特征。

      1.語料庫的標(biāo)注

      詞典編纂者最想從語料庫中獲取的信息大多是語詞的各種語言屬性,包括形態(tài)、詞類、句法模式、搭配成分、語義表征和使用語境等,因此需要對庫內(nèi)的各種用詞進(jìn)行標(biāo)注。COCA在 SWECCL詞類賦碼的基礎(chǔ)上設(shè)計了150多種標(biāo)簽,對全部4.5億語料進(jìn)行了逐條標(biāo)注。譬如,連詞類7個,如CC(并列連詞)、CS(從屬連詞)、CCB(轉(zhuǎn)折并列連詞)等;形容詞4個,如JJ(普通形容詞)、JJR(形容詞一般比較級)、JJT(形容詞一般最高級)、JK(連接形容詞);限定詞類13個,如DA(前置或后置限定詞)、DA1(后限定詞單詞形式)、DAR(后限定詞比較形式)等;名詞類22個,NN(普通名詞)、ND1(方向性單數(shù)名詞)、NN1(單數(shù)普通名詞)、NN2(復(fù)數(shù)普通名詞)、NNL1(單數(shù)方位名詞)等;NNO(數(shù)量詞)、NNT1(單數(shù)時間名詞)、NNU(度量單位詞)等;動詞31個,如VB0(動詞原形)、VDD(動詞過去式)、VBM(系動詞)、VBG(現(xiàn)在分詞)、VBN(過去分詞)等;代詞19個,如PN(不定代詞)、PNQO(賓格WH代詞)、PNQS(主格WH代詞)和PNX1(反身不定代詞)等。其他還有副詞、介詞、冠詞、程式(FO)、未分類詞(FU)和外來詞(FW)等。

      除詞類外,COCA還對所有語料做了詞匯語域和時間分布的標(biāo)注,因?yàn)檎Z詞的意義和用法與語域以及時間有著密切關(guān)系。語域維度分為口語、小說、流行雜志、報紙和學(xué)術(shù)期刊五大類型,語料按這五個類型基本呈均勻平衡分布;時間維度分為:1990—1994、1995—1999、2000—2004、2005—2009、2010—2012等五個時段,用戶可以從這兩個維度查詢?nèi)魏我粋€詞的分布頻率。為了語詞的形態(tài)變體和同義詞查詢,庫內(nèi)還配置了詞的屈折變化和同義詞數(shù)據(jù)庫。

      2.語料庫的索引

      COCA根據(jù)標(biāo)注和用戶的查詢需要設(shè)計出一套索引句法(Search Syntax)來滿足“智能”檢索的需要。主要分以下幾類:[pos](精確詞類[vvg])、[pos*](各種詞類[v*])、[lemma](原型詞形態(tài)變體[speak])、[=word](同義詞)、word|word(兩詞比較)、*xx(以某前綴開頭的詞)、x?xx(含某字母的詞)、x?xx*(含某字母+某詞綴的詞)、

      word(某詞前成分,若要限定詞類則可加詞類標(biāo)簽,如[nn*])等。利用上述句法成分和詞類標(biāo)簽可以組合成各種復(fù)雜的索引句法結(jié)構(gòu),以便詞典編纂者準(zhǔn)確查找所需的各種信息。

      3.語料的智能化檢索和顯示

      這里說的“智能”并不是說它具有抽象思維和隨機(jī)應(yīng)變的能力,而是指檢索系統(tǒng)通過識別語料庫中的標(biāo)注代碼,按特定的索引句法提取語料數(shù)據(jù)。這樣,用戶便可以根據(jù)自己的查詢需要,按一定句法規(guī)則來組織“檢索模式”,語料庫便可以比較準(zhǔn)確地調(diào)出他們所需的各類信息。值得一提的是,即使是無限制的普通檢索,COCA也能做不同的結(jié)構(gòu)和句法/搭配成分分類顯示,如相同結(jié)構(gòu)的例句放在一起,各種句法成分用不同顏色顯示:名詞為藍(lán)色、動詞為紫色、形容詞為綠色、副詞為棕色、代詞為灰色、介詞為黃色。這樣,可以使用戶對所顯示內(nèi)容一目了然。(見圖2)

      四、語料數(shù)據(jù)化的詞典學(xué)意義

      語料庫能輔助詞典編纂是辭書界的一個共識,它對詞典學(xué)的理論研究和實(shí)踐都具有重要意義,具體的作用體現(xiàn)在以下幾個方面:選詞立目(詞頻)、義項劃分、詞典釋義、句法模式提取、例證配置、語法注釋、語用或用法注釋、同義詞語義與使用對比等。(參見章宜華 2013:173—176)然而,傳統(tǒng)的語料庫會把各種信息混雜在一塊,人工識別比較困難,而數(shù)據(jù)化語料庫可以按特定義項、特定詞類或形態(tài)、特定結(jié)構(gòu)或分布來提供信息。

      1.特定單詞或范疇詞的查詢

      查詢一般單詞或連續(xù)的固定短語,可直接輸入所要查找的字符串,如輸入“child, children; give up, take measure; Actions speak louder than words.”等,就可以精確查到僅包含這些單位的句子。如果要查包含某些字母的一類詞就需用通配符“*”,如具有某種前綴、后綴、中綴或詞根的語詞:輸入“dis*, un*, anti*”等就能查找到所有以它們?yōu)榍熬Y的詞,輸入“*ness, *tion, *ly”能查到以它們?yōu)楹缶Y的詞。同理,查詞根就需要把通配符放在詞頭與詞尾之間,如輸入“dis*ly”能查到所有以“dis”開頭、以“l(fā)y”結(jié)尾的詞的詞根;要查以特定詞為基礎(chǔ)的復(fù)合詞或變體,則需把通配符放在該詞的前后,如輸入“*speak*”會顯示出“speak, speaks, speaking, speaker, speakeasy, speakerphone”等。

      如果想用一個檢索單位查得某詞的所有屈折變化形式,就要使用特定的“索引句法”及句法代碼。譬如,輸入“[ speak ].[ v* ]”會顯示出“speak, speaks, speaking, spoke, spoken”;如果要單獨(dú)查其過去式和過去/現(xiàn)在分詞形式則需在動詞后加上相應(yīng)的標(biāo)簽:[speak].[vvd]/[vvn]/[vvg]。此外,英語還有很多兼類詞,如track (v/n), lower (v/adj),own (adj/v/pron), left/right (adj/n/v)等,若要查其特定詞類則需在單詞后邊加上詞類標(biāo)簽,如“l(fā)eft”名詞、形容詞和動詞對應(yīng)的索引句法是:left.[n*]、left.[j*]和left.[v*];同理,若想?yún)^(qū)分相同詞尾的不同詞類,則需要與詞類標(biāo)簽組成特定的索引句法,如以“l(fā)y”結(jié)尾的大多是副詞,若輸入“*ly.[j*]”就可以查到全部以“l(fā)y”結(jié)尾的形容詞,如排在前面的有“only, early, likely, daily, holy, friendly, elderly, lovely”等??梢姡盟饕浞ǖ姆绞娇梢韵薅z索詞的特定詞類、次語類和形態(tài),可以做到精確查詢,大大減少詞典編纂者的工作量。

      2.詞匯搭配與句型模式的查詢

      搭配和句型模式一直是外語學(xué)習(xí)者和學(xué)習(xí)詞典最為關(guān)注的語言現(xiàn)象之一,同時也是難點(diǎn)之一,因?yàn)槠胀ㄕZ料庫(如BNC)無法提供這類信息的查詢,即使是利用“詞匯速描”等索引工具也無法按用戶的需求準(zhǔn)確查詢。COCA的數(shù)據(jù)化處理就比較好地解決了這一問題。

      搭配和句型結(jié)構(gòu)都涉及多個詞的共現(xiàn),而這些共現(xiàn)關(guān)系的檢索就比單一語言單位更復(fù)雜一些,也更能體現(xiàn)語料庫的數(shù)據(jù)化特點(diǎn)。查兩詞的簡單搭配可直接在單詞前/后空格加“*”,若要限定搭配的詞類則要在單詞后加詞類標(biāo)簽“[n*]、[j*]和[v*]”等;譬如,查“l(fā)eft”作為動詞與副詞的搭配情況,可在詞串框中輸入“*left.[v*]”,在搭配框中輸入[r*]就可以得到“clockwise, abruptly, voluntarily, hurriedly, carelessly, purposely”等;而反過來也可以通過詞類標(biāo)簽鎖定被搭配詞的詞類,如用“pretty [nn*]”可查該詞作為形容詞與名詞或動詞搭配的情況,如“pretty girl/woman/face/picture”等;用“pretty [vv*]”可以查“pretty”作為副詞與動詞搭配的情況,如“pretty well, pretty much”等。

      若要查找某一詞類(如動詞)+任何詞與特定詞(如argument)的搭配,可輸入“[V*] * [argument]”,就可以得到與“argument”搭配的動詞,如“make, reject, accept, hear, understand, win, support, lost, defend, strengthen, build”等,詞典編纂者可以從這些搭配中抽象出該詞的部分隱喻用法,如“argument is a war/battle (win, lost, defend, make)”,“argument is an idea (hear, understand, accept, reject, support)”,“argument is an architecture (build, strengthen)”等,這對促進(jìn)學(xué)習(xí)者的識解和記憶有重要意義。

      句法模式是反映特定語詞用法的最有效手段之一,但其查詢遠(yuǎn)比搭配復(fù)雜,因?yàn)樗鼈兩婕暗某煞直容^多,且組配結(jié)構(gòu)復(fù)雜,如“permit sb/sth to do, prevent sb/sth from, provide sb with/for, put sb/sth through to sb, nod to/at sb to do sth”等,中間的插入成分是不固定的,而且往往有多種選擇,查找合乎這類句型需求的例句是詞典編寫中的棘手問題,運(yùn)用傳統(tǒng)語料庫編纂者只能在海量的語料索引行中逐條尋找,耗時又費(fèi)力,而COCA的索引句法可讓人輕松地找到相應(yīng)結(jié)構(gòu)的例句,節(jié)省很多時間,可大大提升詞典編纂的速度和質(zhì)量。如輸入“[permit] * to [v*]”便可查到“permit them/us/him/it/individuals/Anna/students/busine

      ss... to be/have/take/do/make/play/happen/see...”等與所需句型一致的例句;輸入“[provide] * with|for”可查到含“provide them/us/you/students/people/teachers with”和“provide opportunity/support/incentives/security/care/food/funds/evidence/guidance/service/benefits/training for”句型的例句。

      此外,若想查找特定結(jié)構(gòu)的不同用詞或特定語詞的句法功能,也可以運(yùn)用相應(yīng)的索引句法來解決。譬如,想了解哪些詞可以用在“to be or not to be”結(jié)構(gòu)中,可以輸入“to [v*] or not to [v*]”,結(jié)果得到“be, do, buy, tell, see, engage, play, sell”等幾個較常見的動詞;若想查找某一動詞接任一詞+into 后接動詞“-ing”形式構(gòu)成的動結(jié)式結(jié)構(gòu),了解“into”表達(dá)致使義的句法功能,可輸入“[vv*] * into [vvgk]”便可以查得“fool you/people into thinking, brought them into being, delude ourselves into thinking, talked him into going, trick people into thinking”等。這對于說明“into”在動結(jié)式中的作用、抽象出動結(jié)式的句型特征,以及發(fā)現(xiàn)動結(jié)式動詞和用法都具有重要意義。

      3.同義詞組與其搭配成分的對比查詢

      同義詞之間的語義和用法差異也是外語學(xué)習(xí)和詞典編纂處理的一個難點(diǎn),普通語料庫在這方面基本沒有作為。COCA數(shù)據(jù)化的一個重要特征就是同義詞組及其語域頻率分布查詢和各自搭配成分的相互比較。

      對于同義詞,既可以查多義詞的所有意義,也可以查某一義項。譬如,輸入[=deliver]可查“deliver”的全部同義詞,結(jié)果為“give, bring, produce, free, provide, present, serve, send, save, produce, carry, release, supply, transfer, rescue, surrender, convey”等;如果要查該詞某一義項或分布結(jié)構(gòu)中的同義詞,則需要在后邊加特定搭配詞做語義限定,如用“[=deliver] the mail”可查得該動詞作為“遞送”義時的同義動詞,結(jié)果有“send, give, carry, bring”等,這些信息豐富、可靠,遠(yuǎn)勝過一些同義詞典,這對于同義辨析以及選擇最佳搭配詞都十分有效。

      同義詞搭配比較查詢可用于一組同義詞的分布特征、搭配成分和使用頻率差異的對比研究,并以此來辨別它們細(xì)微的語義差異。對于同義詞分布特征的比較很簡單,如選擇“COMPARE/比較”后在索引框中輸入“rent/hire”就能比較兩個詞的使用頻率,如果再選擇下方的“SHOW SECTIONS/顯示項”將會獲得這兩個詞在不同語域(口語、小說、雜志、報紙和學(xué)術(shù)期刊)和不同時段的使用分布數(shù)據(jù);如果在比較模式下選擇“COLLOCATES/搭配詞”(1~n詞)和“POS LIST/詞類表”中的相關(guān)選項(名詞、形容詞、副詞等),系統(tǒng)便會自動比較兩個詞的特定搭配詞及其出現(xiàn)的詞頻。對于同一詞搭配的比較,需要特定的句法組合,如輸入“fast|quick|rapid [nn*]”就能查得這三個同義詞的不同名詞搭配成分:fast food/lane/track,rapid transit/growth/change,quick/look/break/question等,而且后邊還給出了它們的共現(xiàn)頻率。這種信息對于詞典編纂者和英語學(xué)習(xí)者都是十分有用的,因?yàn)橹袊腅FL學(xué)習(xí)者很容易用漢語的思維來理解英語(語言遷移),對那些對應(yīng)于同一漢語概念的同義詞往往難以區(qū)分,更會混淆這類詞的習(xí)慣搭配,如“提高”的對等詞有“improve, increase, enhance”,它們在語義上的差異以及與搭配詞之間的微妙關(guān)系常常讓中國EFL學(xué)習(xí)者茫然,難得要領(lǐng),甚至張冠李戴。如果在COCA中輸入“improve|increase|enhance [nn*]”進(jìn)行對比檢索,用戶不但能得到各自的常用搭配詞,而且還可知道其搭配詞在這個結(jié)構(gòu)中的共現(xiàn)頻率:improve health (187)/education (183)/relations (174) /quality(151);increase heat (212)/taxes (210)/production (184)/sales (104);enhance performance (86)/learning (80)/understanding (42)/communication (37)等。

      此外,如果詞典編纂者想對某一詞進(jìn)行同義辨析,但又不清楚該詞到底有多少同義詞以及搭配的用法差異時,也可以在COCA中得到解答。如輸入“[=cheat]. [v*] the [n*]”便可查得“cheat”做動詞時其同義詞與“the+名詞”搭配的情況,最后的結(jié)果是:deceive the public/court, defraud the government/system, trick the eye/brain/enemy, bilk the taxpayers/area, con the people/airship等;然后再結(jié)合索引行實(shí)例的語義比較就可以輕松地完成這組同義詞的立目和辨析。

      五、結(jié) 語

      傳統(tǒng)的大規(guī)模語料庫雖然信息量豐富,但缺乏與詞典微觀數(shù)據(jù)結(jié)構(gòu)項相關(guān)的標(biāo)注,大多只具備提供簡單索引行的檢索功能,詞典編纂者要想在海量語料中找到所需信息絕不是一件容易的事情,因此對詞典編纂的貢獻(xiàn)也是有限的。專門索引工具“詞匯速描引擎”的使用能較大地提升語料庫的使用效果,但它所提供的數(shù)據(jù)信息針對性不強(qiáng),無法區(qū)分多義詞的義項,也無法進(jìn)行離合式句法結(jié)構(gòu)的檢索,更無法按用戶需求來提供詞匯語言數(shù)據(jù)。詞庫的建設(shè)發(fā)起比較早,對詞匯語言屬性的描述也比較詳盡,但它們都是為了某一目的或自然語言處理研究和應(yīng)用而設(shè)計的,對詞典學(xué)研究有很好的學(xué)術(shù)和參考價值,但由于其規(guī)模或數(shù)據(jù)結(jié)構(gòu)的限制,對詞典編纂的支持也有局限。COCA對詞匯語言屬性的精細(xì)標(biāo)注或數(shù)據(jù)化處理,建立了整套的索引句法和較為完善的智能化檢索系統(tǒng),基本能滿足語言學(xué)習(xí)、辭書研究和編纂的各種需求。同時,該語料庫的建設(shè)使我們看到了國際語料數(shù)據(jù)化處理的發(fā)展趨勢,積極研究、開發(fā)和應(yīng)用數(shù)據(jù)化語料庫,可以大大提升辭書研究和詞典編纂的效率和質(zhì)量。

      附 注

      [1]見http:∥nlp.fi.muni.cz/projekty/cpa。

      [2]見http:∥corpus.byu.edu/coca。

      參考文獻(xiàn)

      1.章宜華.2012國際辭書現(xiàn)代化技術(shù)的新理念:辭書語料數(shù)據(jù)化.辭書研究,2012(2):1—9.

      2.Fillmore C J. et al. Frame Semantics for Text Understanding. ∥Proceedings of NAACL WordNet and Other Lexical Resources Workshop. Pittsburgh,2001.

      3.Fillmore C J. Background to FrameNet. International Journal of Lexicography, 2003:235—250.

      4.Hanks P, Pustejovsky J. A Pattern Dictionary for Natural Language Processing. Revue Franaise de linguistique appliqué,2005(10):2.

      5.Hanks P. Linguistic Norms and Pragmatic Exploitations, or Why Lexicographers Need Prototype Theory and Vice Versa. ∥Kiefer F. et al. (eds.) Computational Lexicography: Complex 94. Budapest:Linguistic Institute,1994.

      6.Hanks P. Corpus Pattern Analysis: How People Use Words to Make Meanings. Speech in Center for Lexicographical Studies. Guangdong University of Foreign Studies,2010.

      7.Hanks P. Lexical Analysis: Norms and Exploitations. Cambridge: MIT Press,2013.

      8.Kilgarriff A, Tugwell D. Word Sketch: Extraction and Display of Significant Collocations for Lexicography. ∥Proceedings of Collocations Workshop, ACL 2001.Toulouse, 2001:32—38.

      9.Kilgarriff A. et al. The Sketch Engine: Ten Years on. Lexicography, 2014(1): 7—36.

      10.Lin Dekang. Wordnet: An Electronic Lexical Database. Computational Linguistics, 1998(2): 292—296.

      11.Miller G. Nouns in WordNet: A Lexical Inheritance System. International Journal of Lexicography ,1990(4): 245—264.

      12.Richardson S D. et al. MindNet: Acquiring and Structuring Semantic Information from Text. ∥COLING 98 Proceedings of the 17th International Conference on Computational Linguistics, 1998(2):1098—1102.

      13.Ruppenhofer J. et al.FrameNet II: Extended Theory and Practice. http:∥framenet2.icsi.berkeley.edu/docs/r1.5/book.pdf,2010.

      (廣東外語外貿(mào)大學(xué)詞典學(xué)研究中心 廣州 510420)

      (責(zé)任編輯 李瀟瀟)

      大同市| 株洲市| 武定县| 资兴市| 登封市| 库伦旗| 德安县| 肇州县| 山东| 萝北县| 沙雅县| 前郭尔| 随州市| 威远县| 育儿| 武清区| 平安县| 青阳县| 库尔勒市| 民乐县| 邳州市| 济阳县| 香格里拉县| 平乡县| 进贤县| 林芝县| 信阳市| 峡江县| 苗栗县| 南宁市| 铁岭市| 长乐市| 萍乡市| 东乡族自治县| 乌什县| 吕梁市| 三门县| 云南省| 略阳县| 康平县| 武安市|