• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      國(guó)內(nèi)漢語(yǔ)語(yǔ)料庫(kù)概況

      2014-08-15 00:54:11
      科技視界 2014年27期
      關(guān)鍵詞:現(xiàn)代漢語(yǔ)語(yǔ)料語(yǔ)言學(xué)

      鄭 萌

      (東北財(cái)經(jīng)大學(xué)MBA學(xué)院,遼寧 大連116024)

      0 引言

      自20世紀(jì)60年代計(jì)算機(jī)問世,計(jì)算機(jī)技術(shù)就迅速應(yīng)用到了以語(yǔ)料庫(kù)為基礎(chǔ)的語(yǔ)言學(xué)研究中,隨著計(jì)算機(jī)技術(shù)的迅速發(fā)展,世界各國(guó)在語(yǔ)料庫(kù)的建設(shè)上成績(jī)顯著。不同語(yǔ)言、不同類型、不同規(guī)模的語(yǔ)料庫(kù)越來越多。語(yǔ)料庫(kù)的廣度越來越大,開發(fā)加工的深也日益加深。語(yǔ)料庫(kù)在語(yǔ)言學(xué)研究和自然語(yǔ)言處理中發(fā)揮的作用越來越大。

      自第一代大型電子語(yǔ)料庫(kù)BROWN建立至今,語(yǔ)料庫(kù)語(yǔ)言學(xué)的研究已經(jīng)有50多年的歷史。而國(guó)內(nèi)的語(yǔ)料庫(kù)研究也有30多年的歷史,并在上世紀(jì)90年代得到飛速發(fā)展,語(yǔ)言學(xué)與計(jì)算機(jī)技術(shù)加速融合,不同的學(xué)者和專家秉著不同的出發(fā)點(diǎn),在各種角度和各種層次上進(jìn)行了大量實(shí)證研究,這使得我國(guó)的語(yǔ)料庫(kù)語(yǔ)言學(xué)迅速發(fā)展繁榮。

      1 語(yǔ)料庫(kù)和語(yǔ)料庫(kù)語(yǔ)言學(xué)

      1.1 語(yǔ)料庫(kù)和語(yǔ)料庫(kù)語(yǔ)言學(xué)的定義

      語(yǔ)料庫(kù)(corpus或corpora,corpuses[復(fù)]):是指按照一定的語(yǔ)言學(xué)原則,運(yùn)用隨機(jī)抽樣方,收集自然出現(xiàn)的連續(xù)語(yǔ)言運(yùn)用文本或話語(yǔ)片段而建成的具有一定容量的大型電子文本庫(kù)。

      語(yǔ)料庫(kù)語(yǔ)言學(xué):在文本語(yǔ)料的基礎(chǔ)上進(jìn)行語(yǔ)言研究的一門學(xué)科。語(yǔ)料庫(kù)語(yǔ)言學(xué)通過語(yǔ)言現(xiàn)象出現(xiàn)的概率對(duì)語(yǔ)言材料進(jìn)行研究。這里的語(yǔ)言材料是真實(shí)的、可觀存在的,因此,通過概率統(tǒng)計(jì)手段在語(yǔ)料庫(kù)語(yǔ)言學(xué)研究中得到的語(yǔ)言使用情況是真實(shí)客觀的,排除掉了語(yǔ)言學(xué)家的主觀性,研究結(jié)果更加真實(shí)可靠。

      1.2 語(yǔ)料庫(kù)在語(yǔ)言學(xué)研究領(lǐng)域的應(yīng)用

      語(yǔ)料庫(kù)應(yīng)用對(duì)語(yǔ)言學(xué)研究的主要改進(jìn)有:

      (1)保證了語(yǔ)料的客觀真實(shí)性,排除了語(yǔ)言學(xué)家的主觀性;(2)借助計(jì)算機(jī)的儲(chǔ)存能力,提高了研究的廣度和深度;(3)提高了工作效率,減少了人工誤差;(4)使語(yǔ)料資源具有共享性。

      語(yǔ)料庫(kù)在語(yǔ)言學(xué)研究中主要的應(yīng)用領(lǐng)域有:

      (1)詞典編纂;(2)語(yǔ)言統(tǒng)計(jì);(3)語(yǔ)言監(jiān)控,包括新詞、新用法的發(fā)現(xiàn);(4)語(yǔ)言教學(xué);(5)語(yǔ)言信息處理;(6)語(yǔ)法、語(yǔ)義、詞匯、語(yǔ)音等各種語(yǔ)言問題的研究;(7)方言研究等等。

      2 漢語(yǔ)語(yǔ)料庫(kù)

      我國(guó)漢語(yǔ)語(yǔ)料庫(kù)的建設(shè)開始于20世紀(jì)80年代,取得了不少成果。這里簡(jiǎn)單介紹北京大學(xué)建設(shè)的三個(gè)語(yǔ)料庫(kù)極其特點(diǎn)。

      2.1 北京大學(xué)中國(guó)語(yǔ)言學(xué)研究中心ccl語(yǔ)料庫(kù)

      該語(yǔ)料庫(kù)包含三個(gè)子語(yǔ)料庫(kù):現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)、古代漢語(yǔ)語(yǔ)料庫(kù)和漢英雙語(yǔ)語(yǔ)料庫(kù)。

      其中現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)和古代漢語(yǔ)語(yǔ)料庫(kù)主要是面向漢語(yǔ)研究和教學(xué)使用的大規(guī)模語(yǔ)料庫(kù)及其在線檢索系統(tǒng)。目前該語(yǔ)料庫(kù)收集了大約4.77億字語(yǔ)料,現(xiàn)代漢語(yǔ)和古代漢語(yǔ)大體上各占一半?,F(xiàn)代漢語(yǔ)語(yǔ)料庫(kù),主要收錄1696部作品,9711字的查詢。古代漢語(yǔ)語(yǔ)料庫(kù),涉及從周代到民國(guó)時(shí)期,22580字的查詢。語(yǔ)料未經(jīng)分詞處理。該語(yǔ)料庫(kù)的檢索系統(tǒng)可以提供比較方便的例句查詢功能,主要特色包括:A)可以查詢不連續(xù)的詞語(yǔ),可以指定詞語(yǔ)之間的距離(比如“幫……忙”);B)可以查詢標(biāo)點(diǎn)符號(hào)(比如查詢“《》”可以把書名都查出來);C)可以查詢漢語(yǔ)特有的重疊模式;D)支持對(duì)標(biāo)點(diǎn)符號(hào)的查詢(比如查詢“?”可以檢索語(yǔ)料庫(kù)中所有疑問句)等等。

      漢英雙語(yǔ)語(yǔ)料庫(kù)目前規(guī)模已經(jīng)超過100萬(wàn)句對(duì)。漢英雙語(yǔ)語(yǔ)料庫(kù)對(duì)于漢英語(yǔ)言對(duì)比研究有直接的幫助。該語(yǔ)料庫(kù)還可以用于漢英機(jī)器翻譯。目前北京大學(xué)在該語(yǔ)料庫(kù)的基礎(chǔ)上開發(fā)一個(gè)雙語(yǔ)詞典編纂平臺(tái)。這個(gè)平臺(tái)集成例句查找功能,詞語(yǔ)搭配分析功能,多詞翻譯等價(jià)單位的自動(dòng)識(shí)別功能,等等。該語(yǔ)料庫(kù)只對(duì)北大校內(nèi)用戶開放。

      2.2 人民日?qǐng)?bào)切分和標(biāo)注語(yǔ)料庫(kù)

      北大計(jì)算語(yǔ)言所對(duì)1998年和2000年兩個(gè)全年的人民日?qǐng)?bào)語(yǔ)料進(jìn)行了切分和詞性標(biāo)注的加工。該語(yǔ)料庫(kù)可以用來訓(xùn)練統(tǒng)計(jì)模型幫助計(jì)算機(jī)自動(dòng)分詞和詞性標(biāo)注處理。對(duì)于制訂漢語(yǔ)高頻詞表,定量研究詞語(yǔ)的語(yǔ)法功能(比如兼類詞、多義詞各種用法的分布情況),有直接的支持作用。

      2.3 現(xiàn)代漢語(yǔ)樹庫(kù)

      樹庫(kù)(Treebank)是對(duì)句子結(jié)構(gòu)進(jìn)行分析和標(biāo)注的深加工語(yǔ)料庫(kù)。北京大學(xué)中文系自2003年開始逐步建設(shè)現(xiàn)代漢語(yǔ)句法樹庫(kù),目前已經(jīng)達(dá)到百萬(wàn)漢字級(jí)的規(guī)模,同時(shí)也形成了一系列的相關(guān)工具軟件,包括分詞和詞性標(biāo)注、自動(dòng)句法分析、輔助校對(duì)工具、樹庫(kù)查詢與知識(shí)抽取工具等等。此外還開發(fā)了一個(gè)基于Web的樹庫(kù)查詢系統(tǒng)。建成的樹庫(kù)一方面可以用來訓(xùn)練統(tǒng)計(jì)參數(shù),幫助計(jì)算機(jī)進(jìn)行自動(dòng)句法分析,另一方面也可以用于漢語(yǔ)研究和教學(xué),既可以方便地查找例子,也可以做定量分析。

      3 國(guó)內(nèi)語(yǔ)料庫(kù)建設(shè)現(xiàn)狀及發(fā)展方向

      3.1 語(yǔ)料庫(kù)建設(shè)現(xiàn)狀

      3.1.1 研究漢語(yǔ)的語(yǔ)料庫(kù)比例小

      由于受國(guó)外語(yǔ)料庫(kù)語(yǔ)言學(xué)研究和發(fā)展的影響,加上近年來我國(guó)對(duì)英語(yǔ)教學(xué)的重視程度越來越高,多數(shù)國(guó)內(nèi)語(yǔ)料庫(kù)的建設(shè)仍以英語(yǔ)為主。參考查找到的國(guó)內(nèi)建設(shè)的語(yǔ)料庫(kù),其中有大部分是與英語(yǔ)相關(guān)的,只有少數(shù)語(yǔ)料庫(kù)是完全用來研究漢語(yǔ)的。

      3.1.2 語(yǔ)料庫(kù)建設(shè)小型化專業(yè)化

      隨著計(jì)算機(jī)及網(wǎng)絡(luò)技術(shù)快速的發(fā)展,越來越多的語(yǔ)言學(xué)者躋身于語(yǔ)料庫(kù)建設(shè)中,因其研究方向各異,相比大型綜合型的語(yǔ)料庫(kù),小型的、專業(yè)化的語(yǔ)料庫(kù)的建設(shè)更受青睞。

      3.1.3 生語(yǔ)料庫(kù)居多

      因?yàn)槿鄙俳?biāo)準(zhǔn)和統(tǒng)一管理,現(xiàn)在國(guó)內(nèi)的語(yǔ)料庫(kù)建設(shè)雜亂,大多是自建自用,缺乏共享,語(yǔ)料庫(kù)中的內(nèi)容得到標(biāo)注和重新加工的寥寥無(wú)幾,這使得語(yǔ)料庫(kù)的使用效率不高,同時(shí)也存在著重復(fù)性建設(shè)。

      3.2 國(guó)內(nèi)漢語(yǔ)語(yǔ)料庫(kù)的發(fā)展方向

      發(fā)展到現(xiàn)在,語(yǔ)料庫(kù)己經(jīng)成為現(xiàn)代語(yǔ)言學(xué)研究的重要基礎(chǔ)。語(yǔ)料庫(kù)語(yǔ)言學(xué)是指以語(yǔ)料庫(kù)為基礎(chǔ)的語(yǔ)言學(xué)研究方法。關(guān)于語(yǔ)料庫(kù)語(yǔ)言學(xué)的研究有很多文章和專著,而把漢語(yǔ)語(yǔ)料庫(kù)建設(shè)本身作為一個(gè)研究對(duì)象來專門進(jìn)行研究的課題卻不是很多,導(dǎo)致了漢語(yǔ)語(yǔ)料庫(kù)建設(shè)的規(guī)范性不強(qiáng)、缺少系統(tǒng)的理論指導(dǎo)、缺少評(píng)測(cè)標(biāo)準(zhǔn)等現(xiàn)象,使得當(dāng)前漢語(yǔ)語(yǔ)料庫(kù)建設(shè)的質(zhì)量良莠不齊、重復(fù)開發(fā)。語(yǔ)料庫(kù)的建設(shè)牽涉到語(yǔ)言學(xué)、計(jì)算機(jī)科學(xué)、概率統(tǒng)計(jì)學(xué)、文獻(xiàn)學(xué)、版權(quán)學(xué)、管理學(xué)等多個(gè)學(xué)科,建設(shè)一個(gè)高質(zhì)量的大型語(yǔ)料庫(kù),是一個(gè)人力、物力、時(shí)間、金錢開銷都很龐大的工程。因此語(yǔ)料庫(kù)建設(shè)周期長(zhǎng),難以滿足語(yǔ)料庫(kù)語(yǔ)言學(xué)發(fā)展的需要,難以為語(yǔ)言學(xué)研究提供全面、豐富、及時(shí)、權(quán)威的語(yǔ)料素材。因此,未來進(jìn)行漢語(yǔ)語(yǔ)料庫(kù)建設(shè)理論規(guī)范性研究、制定統(tǒng)一評(píng)判標(biāo)準(zhǔn),為研究者提供功能豐富、使用方便靈活、效率高的語(yǔ)料庫(kù)分析工具,是漢語(yǔ)語(yǔ)料庫(kù)未來的發(fā)展方向。

      [1]段海鵬.近十年語(yǔ)料庫(kù)語(yǔ)言學(xué)在中國(guó)的發(fā)展綜述[J].海外英語(yǔ),2011(11):304-305.

      [2]侯敏.計(jì)算語(yǔ)言學(xué)與漢語(yǔ)自動(dòng)分析[M].北京:北京廣播學(xué)院出版社,1999:155-159.

      [3]穆曉麗,尹轉(zhuǎn)云.語(yǔ)料庫(kù)在語(yǔ)言研究方面的應(yīng)用綜述[J].西安外國(guó)語(yǔ)學(xué)院報(bào),2001(09):21-26.

      [4]甄鳳超,張霞.語(yǔ)料庫(kù)語(yǔ)言學(xué)發(fā)展趨勢(shì)瞻望:2003語(yǔ)料庫(kù)語(yǔ)言學(xué)國(guó)際會(huì)議綜述[J].外語(yǔ)界,2004(04).

      [5]楊惠中.語(yǔ)料庫(kù)語(yǔ)言學(xué)導(dǎo)論[M].上海:上海外語(yǔ)教育出版社,2002.

      [6]張艷偉.語(yǔ)料庫(kù)語(yǔ)言學(xué)的多維角度:2011年中國(guó)語(yǔ)料庫(kù)語(yǔ)言學(xué)大會(huì)綜述[J].當(dāng)代外語(yǔ)研究,2012(09):87-88.

      猜你喜歡
      現(xiàn)代漢語(yǔ)語(yǔ)料語(yǔ)言學(xué)
      “楞”“愣”關(guān)系及“楞”在現(xiàn)代漢語(yǔ)中的地位
      評(píng)《現(xiàn)代漢語(yǔ)詞典》(第6版)
      基于語(yǔ)料調(diào)查的“連……都(也)……”出現(xiàn)的語(yǔ)義背景分析
      認(rèn)知語(yǔ)言學(xué)與對(duì)外漢語(yǔ)教學(xué)
      現(xiàn)代漢語(yǔ)中詞匯性的性范疇
      華語(yǔ)電影作為真實(shí)語(yǔ)料在翻譯教學(xué)中的應(yīng)用
      《苗防備覽》中的湘西語(yǔ)料
      國(guó)內(nèi)外語(yǔ)用學(xué)實(shí)證研究比較:語(yǔ)料類型與收集方法
      北大版《現(xiàn)代漢語(yǔ)》增訂本)出版
      語(yǔ)言學(xué)與修辭學(xué):關(guān)聯(lián)與互動(dòng)
      淮安市| 夹江县| 中西区| 青冈县| 峨山| 车致| 平遥县| 布拖县| 稷山县| 霞浦县| 上饶县| 梅河口市| 旬阳县| 靖州| 阿克| 团风县| 梨树县| 深泽县| 桑日县| 黄平县| 石渠县| 登封市| 定远县| 弥勒县| 社旗县| 滁州市| 阿荣旗| 渝中区| 雷州市| 左权县| 沐川县| 元谋县| 洮南市| 仙居县| 宣汉县| 阳曲县| 依安县| 齐河县| 读书| 绥滨县| 桐柏县|