• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      2000年以來我國多語言語料庫研究進(jìn)展

      2016-05-14 05:41:08司莉何依
      現(xiàn)代情報 2016年6期
      關(guān)鍵詞:綜述

      司莉 何依

      〔摘 要〕語料庫是指根據(jù)一定的方法收集的自然出現(xiàn)語料構(gòu)成的電子數(shù)據(jù)庫。2000年以來我國對多語言語料庫的研究呈現(xiàn)快速上升的趨勢。在全面文獻(xiàn)調(diào)研的基礎(chǔ)上,本文對我國多語言語料庫的研究現(xiàn)狀進(jìn)行了歸納與梳理。國內(nèi)學(xué)者對多語言語料庫的研究多集中于語言學(xué)領(lǐng)域,其次是計算機(jī)領(lǐng)域。研究主題主要分布在多語言語料庫的關(guān)鍵技術(shù)研究、多語言語料庫的應(yīng)用研究兩大方面。

      〔關(guān)鍵詞〕多語言語料庫;跨語言語料庫;平行語料庫;可比語料庫;綜述

      〔中圖分類號〕G252.8 〔文獻(xiàn)標(biāo)識碼〕A 〔文章編號〕1008-0821(2016)06-0165-06

      〔Abstract〕Corpus is an electronic database which is composed of the natural corpus collected accordingto a certain method.Since 2000,the research on multilingual corpora in China presented a rapid upward trend.Based on a comprehensive literature research,this paper summarized the current research situation of multilingual corpora in our country.The researches on multilingual corpus were mostly concentrated in the field of linguistics,followed by the computer field.Research topics were mainly distributed in two parts:the key technologies of multilingual corpora and the application multilingual corpora.

      〔Key words〕multilingual corpora;cross-language corpora;parallel corpora;comparable corpora;review

      語料庫是指根據(jù)一定的方法收集的自然出現(xiàn)語料構(gòu)成的電子數(shù)據(jù)庫[1]。按語種劃分可分為單語言、雙語言和多語言語料庫,后兩者根據(jù)語料的組織形式又可以分為平行語料庫和可比語料庫。平行語料庫,又稱對齊語料庫,是由原文本和對應(yīng)的翻譯文本構(gòu)成的語料庫,語言之間是完全對等的、互譯的,是譯文關(guān)系,多用于機(jī)器學(xué)習(xí)、雙語詞典;而可比語料庫,又稱類比語料庫,是表述相同主題的多種語言文本的集合,源語言和目標(biāo)語言沒有嚴(yán)格的翻譯關(guān)系,多用于語言對比研究,比如針對同一事件不同語言的新聞報道的集合等。

      自20世紀(jì)90年代初世界上第一個多語言語料庫“加拿大議會會議錄英法平行語料庫”在加拿大建成以來[2],國內(nèi)外出現(xiàn)了一些多語言語料庫,如廈門大學(xué)海外教育學(xué)院主持開發(fā)的英漢雙語平行語料庫(廈大E-C Corpus)[3]、北京大學(xué)中國語言學(xué)研究中心開發(fā)的漢英雙語語料庫[4]、北京外國語大學(xué)日本研究中心研制的中日對譯語料庫[5]、香港理工大學(xué)研制的雙語旅游語料庫、上海交通大學(xué)的科技英語可比語料庫(JDEST)、紹興文理學(xué)院創(chuàng)建的《紅樓夢》漢英平行語料庫[6]等。國內(nèi)學(xué)者對多語言語料庫的研究以雙語平行語料庫為主,涉及3種及3種以上語種的語料庫較少。據(jù)筆者統(tǒng)計,英漢語料庫的研究文獻(xiàn)(包括學(xué)術(shù)論文、學(xué)位論文、會議論文)占總文獻(xiàn)的55.9%。語料庫的語種以英漢語為主,其次是維漢語,另外還包括俄語、日語、法語、藏語等與漢語的結(jié)合。本文研究的多語言語料庫包括兩種及兩種以上語言的語料庫。

      1 我國多語言語料庫研究數(shù)量分布

      筆者選取CNKI、重慶維普、萬方數(shù)據(jù)庫為數(shù)據(jù)源,以“跨語言語料庫”或“雙語語料庫”或“多語言語料庫”或“平行語料庫”或“對齊語料庫”或“類比語料庫”或“可比語料庫”為關(guān)鍵詞,對期刊論文、會議論文與學(xué)位論文進(jìn)行檢索,經(jīng)篩選得到999篇與“多語言語料庫”主題相關(guān)的論文,其中學(xué)術(shù)論文628篇、會議論文51篇、學(xué)位論文320篇。具體學(xué)術(shù)論文數(shù)量的年代分布分別如表1和圖1所示。

      從圖1可以看出,2000年以來我國對多語言語料庫的研究基本呈快速上升的趨勢。筆者將其分為3個階段,第一階段為萌芽時期(2000-2004年),這一階段的發(fā)文量較少,年均發(fā)文量3.6篇;第二階段為初步發(fā)展時期(2005-2009年),發(fā)文數(shù)量有所增長,但增幅較慢,年均發(fā)文37.8篇;第三階段為快速發(fā)展階段(2010年至今),發(fā)文量大幅提升,共發(fā)文792篇,占總文獻(xiàn)量的79.2%,年均發(fā)文132篇??梢姡嗾Z言語料庫的研究已引起學(xué)界足夠的重視,成為領(lǐng)域研究熱點。

      2 我國多語言語料庫研究的主題分布

      除了檢索各種學(xué)術(shù)論文外,筆者還以“語料庫”為主題詞對國家圖書館館藏書籍進(jìn)行檢索,篩選出32種多語言語料庫相關(guān)的圖書,數(shù)據(jù)采集時間為2015年11月5日。通過對研究成果的深入研讀與歸類統(tǒng)計,得出關(guān)于我國多語言語料庫研究主要集中在多語言語料庫關(guān)鍵技術(shù)和多語言語料庫應(yīng)用兩大方面。

      2.1 關(guān)于多語言語料庫構(gòu)建的關(guān)鍵技術(shù)研究

      研究者提出的構(gòu)建多語言語料庫的關(guān)鍵技術(shù)主要有3種,分別是語料資源的獲取技術(shù)、對齊技術(shù)、術(shù)語抽取技術(shù)。此外,還有文本分類技術(shù)、去重技術(shù)和句子邊界識別技術(shù)。

      2.1.1 語料資源(網(wǎng)頁)的獲取技術(shù)研究

      (1)平行網(wǎng)頁獲取技術(shù)研究

      平行網(wǎng)頁是指存在于兩個不同的網(wǎng)頁中的、相互翻譯的兩種語言的網(wǎng)頁對,如武漢大學(xué)官網(wǎng)的中英文版本網(wǎng)址分別是URL:http:∥www.whu.edu.cn和http:∥en.whu.edu.cn。其網(wǎng)頁中包含的高質(zhì)量雙語語料是平行語料庫的構(gòu)建的重要來源,常用URL命名規(guī)律或HTML結(jié)構(gòu)信息來發(fā)現(xiàn)平行網(wǎng)頁。熊文新對“中外對話”環(huán)保網(wǎng)站的中英文文本的存放、文件的命名方式及頁面的構(gòu)成規(guī)律進(jìn)行分析,并構(gòu)建雙語平行語料庫[7];徐春通過一定的網(wǎng)頁分析算法預(yù)測候選URL與目標(biāo)網(wǎng)頁的相似度或與主題的相關(guān)性,從而抓取平行網(wǎng)頁[8];姜子進(jìn)等根據(jù)HTML特征建立HTML樹,以HTML樹結(jié)構(gòu)來識別網(wǎng)頁正文內(nèi)容的特征,然后根據(jù)正文內(nèi)容信息相似性提取網(wǎng)頁[9];莫源源等根據(jù)網(wǎng)頁內(nèi)容及候選網(wǎng)頁對間余弦相似度等特征和最大熵模型訓(xùn)練的分類器對平行網(wǎng)頁進(jìn)行識別,以獲取柬英(柬埔寨語與英語)平行網(wǎng)頁[10];劉奇等先利用HTML結(jié)構(gòu)實現(xiàn)平行網(wǎng)頁的遞歸訪問,再使用URL模式優(yōu)化遍歷平行網(wǎng)站的拓?fù)漤樞騺慝@得平行網(wǎng)頁[11]。

      (2)混合網(wǎng)頁獲取技術(shù)研究

      混合網(wǎng)頁是指互為翻譯的文本存在同一個網(wǎng)頁內(nèi),即網(wǎng)頁中既有源語言,又有目標(biāo)語言。要獲取混合網(wǎng)頁,就要先檢測網(wǎng)頁是否含有所需要語種的正文文本。王琳琳分別使用基于Unicode字符編碼分布和N-Gram的語種識別兩種方法進(jìn)行句子的語種識別,并進(jìn)行對比實驗,以發(fā)現(xiàn)混合網(wǎng)頁[12]。

      2.1.2 對齊技術(shù)與方法研究

      對齊是指從互譯的語言文本中找到其互譯片段的過程,根據(jù)對齊粒度的大小可以分為篇章、段落、句子、短語、詞等多個層次。國內(nèi)學(xué)者對對齊技術(shù)與方法的研究主要集中在詞對齊和句子對齊兩方面。

      (1)詞對齊方法研究

      張亞軍等基于統(tǒng)計方法依次使用IBM模型1、IBM模型2構(gòu)建出一個詞對齊系統(tǒng)[13]。劉鵬遠(yuǎn)等基于HowNet以及WordNet進(jìn)行相似度計算,然后設(shè)定相似度閾值來進(jìn)行詞義過濾,以改進(jìn)詞對齊技術(shù)中的錯誤累計問題[14]。陳亮提出基于語言模型的多詞對齊算法,解決詞對齊過程中存在的一對多和多對多的對齊問題[15]。

      (2)句子對齊方法研究

      張艷與柏岡秀紀(jì)提出了以基于長度的統(tǒng)計對齊方法為主,以基于標(biāo)點的方法作為對齊的后處理部分的漢英句子對齊的擴(kuò)展方法[16];于新等針對藏文語言的特殊性提出了基于詞典的漢藏句子對齊算法[17];塞麥提·麥麥提敏等將詞匯信息和長度信息相結(jié)合,識別出錨點句對,并將其作為分割標(biāo)志對全文進(jìn)行分段,進(jìn)而實現(xiàn)各片段內(nèi)的句子對齊[18];才藏太提出了一種藏文句子的邊界識別方法,即利用特殊規(guī)則和詞表對藏文句子進(jìn)行識別,然后利用最大熵模型對有歧義的句子進(jìn)一步識別[19];劉智穎建立了句子級語義標(biāo)注語料庫,探討句子級語義標(biāo)注語料庫的標(biāo)注內(nèi)容、標(biāo)注方法和標(biāo)注難點[20]。

      此外,李康熙從語言學(xué)角度出發(fā),重點結(jié)合象征單位和翻譯單位等概念探討了雙語對齊中存在的問題[21];趙蓮提出了基于跨語言信息檢索與特征過濾相融合的方法來建立源語言文檔與目標(biāo)語言文檔間的對應(yīng)關(guān)系,以確??杀容^語料庫的對齊質(zhì)量[22]。

      2.1.3 對應(yīng)單位抽取技術(shù)研究

      對應(yīng)單位是指源語言和目標(biāo)語言文本中任何可以識別的相互對應(yīng)的語塊或者片段,在部分文獻(xiàn)中又稱為翻譯對、互譯對,可用于雙語詞典編纂和統(tǒng)計機(jī)器翻譯。梁銘對雙語語料中的名詞和短語進(jìn)行統(tǒng)計并生成候選術(shù)語集,使用翻譯概率計算公式計算每個英文候選術(shù)語與相關(guān)的中文間的翻譯概率,并通過設(shè)定隨詞頻變化的閾值以及貪心算法來選取中文翻譯[23];任高舉等提出了一種改進(jìn)的短語抽取算法,先考慮詞對齊矩陣中一個漢語與多個維吾爾語詞的對齊情況,然后利用Och的短語抽取算法抽取短語對,最后考慮維吾爾語SOV語序(即主語+賓語+謂語語序)結(jié)構(gòu)特點,抽取雙語短語[24];唐亮等提出基于多策略過濾方法,即先從一種語言中抽取多詞短語,然后通過一系列過濾措施得到質(zhì)量較高的單語言多詞短語,最后通過相似度計算抽取并整合翻譯對[25];劉穎等用正則期望從漢語專利語料庫中抽取并過濾漢語短語,利用詞對齊工具Giza++和Moses從漢英平行語料庫中抽取漢英短語,根據(jù)二者的交集得到翻譯對[26];嚴(yán)燦勛等基于C#正則表達(dá)式的英漢翻譯對抽取方法,從機(jī)讀電子詞典、含英漢翻譯對的網(wǎng)頁等資料中提取有固定模式的翻譯對[27];徐會芳從可比較語料庫中分別抽取中、英文多詞術(shù)語,再使用最小化樣本風(fēng)險算法來調(diào)節(jié)特征權(quán)重,得到術(shù)語匹配對,并使用閾值限定法過濾正確的術(shù)語對[28]。

      2.1.4 其他技術(shù)研究

      其他技術(shù)研究涉及文本分類與去重技術(shù)。熊超等通過考慮雙語平行語料文檔與文檔、文檔與詞和詞與詞之間的語義對應(yīng)關(guān)系,提取原始文檔的潛在語義對,構(gòu)建潛在語義對偶空間,把雙語文檔映射到此概念空間后,實現(xiàn)跨語言文本分類[29]。申文明等利用整體相似因子和局部相似因子計算句子的相似度,并借鑒KMP算法的匹配思想,提出中文字符串匹配的類KMP算法,以實現(xiàn)平行語料庫中形似句子的去重[30]。

      2.2 關(guān)于多語言語料庫應(yīng)用的研究

      多語言語料庫常被用于翻譯、詞典構(gòu)建、機(jī)器翻譯、多語信息平臺構(gòu)建和跨語言信息檢索中。

      2.2.1 在翻譯中的應(yīng)用研究

      (1)應(yīng)用于翻譯共性研究

      翻譯共性是指譯文中呈現(xiàn)的有別于原文的一些典型的、跨語言的、有一定普遍性的特征[31]。研究集中在翻譯的顯化、隱化、簡化和范化等方面。董敏與馮德正基于自建的平行語料庫,檢索與漢語對應(yīng)的英文邏輯連接詞,進(jìn)而分析英漢翻譯邏輯關(guān)系顯化策略的動因[32];黃立波基于雙語平行語料,對漢英和英漢翻譯中連接成分和人稱代詞主語的轉(zhuǎn)換進(jìn)行考察,以發(fā)現(xiàn)語言形式手段差異與翻譯中顯化和隱化的關(guān)系[33];武光軍以漢英類比語料庫作為實證研究平臺,以搭配作為研究對象,分別分析了翻譯漢語、英語文本的整體搭配特征,以加深對翻譯共性的認(rèn)識[34]。

      (2)應(yīng)用于詞匯及古籍翻譯

      借助領(lǐng)域多語言語料庫對具體詞的用法進(jìn)行分析和研究,能夠?qū)ψg名進(jìn)行統(tǒng)一與規(guī)范,獲得作品、短語的最佳翻譯方式。易焱與王克非基于英漢、漢英雙向平行語料庫對現(xiàn)代漢語人稱代詞“大家”和它在英語中的對應(yīng)項進(jìn)行分析,以加強(qiáng)對人稱代詞在翻譯語言中使用規(guī)律的認(rèn)識[35];王子穎利用中國大陸和香港法律法規(guī)漢英平行語料庫,研究了shall和may兩個情態(tài)動詞在肯定和否定形式下的不同用法[36];胥逸萌選取5年的《政府工作報告》建立了一個小型雙語平行語料庫,研究報告的翻譯團(tuán)隊對“推進(jìn)”一詞的用法[37];劉克強(qiáng)基于自建的《儒林外史》漢英句對齊平行語料庫,對該書中服飾、習(xí)俗、戲曲等方面的翻譯進(jìn)行分析[38]。

      (3)應(yīng)用于譯者風(fēng)格研究

      通過語料對比分析,可以考察譯者在傳承原作風(fēng)格之外的自我顯現(xiàn)。劉澤權(quán)利用語料庫檢索軟件將《紅樓夢》的4個英譯本在詞匯和句子層面的基本特征進(jìn)行數(shù)據(jù)統(tǒng)計和初步的量化分析,比較其在翻譯風(fēng)格上的異同[39];宋偉華通過自建的《六祖壇經(jīng)》漢英平行語料庫對該部典籍最早的兩個英譯本進(jìn)行分析,探討導(dǎo)致兩個譯本方式不同的因素[40];盧曉娟根據(jù)魯迅小說的3位不同譯者的英譯本建立語料庫,從譯者所運用的翻譯策略、翻譯風(fēng)格等角度,探討影響譯者風(fēng)格形成的因素[41]。

      (4)應(yīng)用于翻譯教學(xué)

      多語言語料庫可以為教學(xué)翻譯提供句子及篇章級的英漢對譯,提高課堂教學(xué)效果。香港城市大學(xué)開發(fā)了“英漢漢英翻譯遠(yuǎn)程教學(xué)系統(tǒng)”,以篇章語言學(xué)、系統(tǒng)功能語言學(xué)、文體學(xué)和話語研究等為理論支撐,對語料進(jìn)行手工標(biāo)注[42]。賀文照使用平行語料庫和詞典等常規(guī)參考資源作為實驗組和對照組進(jìn)行實證研究,發(fā)現(xiàn)平行語料庫能提高翻譯的工作效率和質(zhì)量[43];蔣麗平以某IT學(xué)院大三的軟件開發(fā)專業(yè)學(xué)生為實驗對象,來驗證IT英漢平行語料庫在輔助翻譯的質(zhì)量和效率[44]。熊兵研究了英漢雙語平行語料庫的翻譯教學(xué)模式,并重點分析翻譯教學(xué)模式的教學(xué)內(nèi)容編排、實施原則及操作方式等問題[45]。

      2.2.2 在雙語詞典構(gòu)建中的應(yīng)用研究

      多語言語料庫的建立方便了詞典編撰,如《新時代英漢大詞典》是我國國內(nèi)借用現(xiàn)代語料庫研編大中型英漢詞典的開山之作[46]。曾文等在實現(xiàn)漢英句子級對齊后,對雙語語料分別進(jìn)行分詞和詞性標(biāo)注處理,通過抽取漢英詞語單元并計算其關(guān)聯(lián)概率來實現(xiàn)漢英的詞語對齊,生成雙語詞典[47]。吳玥在可比語料庫雙語詞表構(gòu)建的基礎(chǔ)上,提出了基于依存上下文來構(gòu)建中-英詞表的方法[48]。安紀(jì)霞等以對數(shù)相似性模型為基礎(chǔ),采用迭代策略實現(xiàn)了翻譯詞典獲取,并在自建的小型英漢平行語料庫《測試語料》上進(jìn)行了相應(yīng)的試驗[49]。李德俊探討了基于語料庫的詞典編纂系統(tǒng)的方法[50]。劉克強(qiáng)以《水滸傳》4個英語全譯本為對象,在建立平行語料庫基礎(chǔ)上編寫了《水滸傳翻譯大辭典》[51]。

      2.2.3 在機(jī)器翻譯中的應(yīng)用研究

      平行語料是機(jī)器翻譯模型不可缺少的訓(xùn)練數(shù)據(jù),機(jī)器翻譯系統(tǒng)能從語料庫中自動提取與待翻譯語句相同或相近的例句,并模仿例句自動生成譯文。黃瑾在已有的雙語平行語料庫中選出與待翻譯文本相似的數(shù)據(jù)構(gòu)造自適應(yīng)的訓(xùn)練語料,再通過加權(quán)調(diào)整已有資源的數(shù)據(jù)分布,在不增加大數(shù)據(jù)規(guī)模的基礎(chǔ)上生成更為優(yōu)化的模型參數(shù),以提高機(jī)器翻譯的質(zhì)量[52]。劉粵鉗與姚紅玉用《人民日報》中、法文網(wǎng)絡(luò)版的部分文章建立一個小型的漢法平行語料庫,然后利用改進(jìn)的Yamada算法構(gòu)建了一個漢法機(jī)器翻譯系統(tǒng)[53]。李梅等針對機(jī)器翻譯時出現(xiàn)的典型性錯誤,進(jìn)行二次加工,即做譯后編輯的自動化處理以過濾這些典型性錯誤,從而加快機(jī)譯速度并提高機(jī)譯質(zhì)量[54]。

      2.2.4 在信息服務(wù)平臺構(gòu)建中的應(yīng)用研究

      王傳英利用雙語平行語料庫二次開發(fā)圖書館公共信息服務(wù)平臺,以解決讀者利用文獻(xiàn)時語言障礙問題,并輔助讀者閱讀、寫作[55]。趙衍以中英文平行語料庫為基礎(chǔ),設(shè)計了一種跨語種的Web產(chǎn)品評論挖掘系統(tǒng),并將其應(yīng)用于高爾夫轎車的產(chǎn)品性能挖掘[56]。納吉米設(shè)計與實現(xiàn)了漢維哈平行語料庫系統(tǒng)的文檔導(dǎo)入及對齊功能,以構(gòu)建面向電力行業(yè)信息系統(tǒng)的漢維哈自動翻譯引擎[57]。

      2.2.5 在跨語言信息檢索中的應(yīng)用研究

      多語言語料庫是跨語言信息處理的重要資源。房璐等從多語言語料庫中抽取翻譯知識,并應(yīng)用于跨語言信息檢索系統(tǒng)的查詢翻譯中,以改善跨語言信息檢索的性能[58]。羅遠(yuǎn)勝等基于雙語平行語料庫中兩種語言的潛在語義空間,提出雙語偏最小二乘雙語主題相關(guān)模型,以克服跨語言潛在語義索引模型中存在的不足[59]。鄒小芳等基于自建的中英平行語料庫和蒙特利爾大學(xué)的英法平行語料庫,對平行文檔進(jìn)行分析建模,提取語言之間的潛在語義對應(yīng)關(guān)系,在潛在中間語義空間中進(jìn)行檢索[60]。胡小鵬等利用n-元詞串、關(guān)鍵詞簇等自動抽取技術(shù)挖掘三元組可比語料庫中本族語言模型的雙語資源,改進(jìn)和發(fā)展跨語言處理應(yīng)用[61]。

      3 總 結(jié)

      2000年我國研究者開始關(guān)注多語言語料庫,15年來其研究熱度持續(xù)上升。本文在大量的文獻(xiàn)調(diào)研基礎(chǔ)上,對我國多語言語料庫的研究進(jìn)展進(jìn)行了分析。在學(xué)科領(lǐng)域上,語言學(xué)領(lǐng)域?qū)Χ嗾Z言語料庫的研究最多,其次是計算機(jī)領(lǐng)域。具體來說,語言學(xué)領(lǐng)域主要是利用多語言語料庫來研究語言翻譯問題,即探討基于語料庫的特定領(lǐng)域、不同語種之間的翻譯以及翻譯教學(xué)研究,部分語言學(xué)學(xué)者會自行構(gòu)建小型多語言語料庫來輔助研究。計算機(jī)科學(xué)與圖書情報領(lǐng)域則更多的聚集多語言語料庫的關(guān)鍵技術(shù)方面,包括針對語料庫中某個技術(shù)的實現(xiàn)提出具體的解決方案、新的算法以及多語言語料庫的應(yīng)用問題等。

      通過對文獻(xiàn)的主題分析發(fā)現(xiàn),我國對多語言語料庫的研究大致可以分為兩大塊,一是多語言語料庫關(guān)鍵技術(shù)的研究;二是多語言語料庫應(yīng)用研究。在構(gòu)建多語言語料庫的過程中,研究得最多的技術(shù)是網(wǎng)頁獲取技術(shù)、對齊技術(shù)和術(shù)語抽取技術(shù)。網(wǎng)頁獲取技術(shù)是多語言語料庫的語料來源,是構(gòu)建多語言語料庫的基礎(chǔ);對齊技術(shù)、術(shù)語抽取技術(shù)可廣泛應(yīng)用于多語詞典、不同語種的同義詞詞表和機(jī)器翻譯中,但是術(shù)語抽取技術(shù)對多語言語料庫的數(shù)量、質(zhì)量、精確度要求較高。多語言語料庫的應(yīng)用以翻譯、詞典構(gòu)建、機(jī)器翻譯為研究熱點。在未來,要加強(qiáng)多語言語料庫的評價研究,提出定量和定性的評價指標(biāo),以提高語料庫的構(gòu)建質(zhì)量。此外,豐富的網(wǎng)絡(luò)信息資源已為可比語料庫的發(fā)展提供了契機(jī),通過爬蟲工具可以從互聯(lián)網(wǎng)上獲得大量的可比較文本,未來還應(yīng)加強(qiáng)對可比語料庫關(guān)鍵技術(shù)、構(gòu)建方法的研究。

      參考文獻(xiàn)

      [1]胡開寶.語料庫翻譯學(xué)概論[M].上海:上海交通大學(xué)出版社,2011.

      [2]王克非,黃立波.國外雙語庫研制與應(yīng)用評析[J].外語電化教學(xué),2012,(6):3-10.

      [3]英漢雙語平行語料庫.檢索頁面[EB/OL].http:∥www.luweixmu.com/ec-corpus/query.asp,2015-11-15.

      [4]北京大學(xué)中國語言學(xué)研究中心.CCL漢英雙語語料庫[EB/OL].http:∥ccl.pku.edu.cn:8080/cclcorpus/,2015-11-15.

      [5]北外語料庫語言學(xué).語料庫語言學(xué)年表[EB/OL].http:∥www.bfsu-corpus.org/content/chronology-corpus-linguistics-yu-liao-ku-yu-yan-xue-nian-biao,2015-11-15.

      [6]《紅樓夢》漢英平行語料庫[EB/OL].http:∥corpus.usx.edu.cn/hongloumeng/,2015-11-15.

      [7]熊文新.Web、語料庫與雙語平行語料庫的建設(shè)[J].圖書情報工作,2013,(10):128-135.

      [8]徐春.漢、英平行語料庫的研究與構(gòu)建[J].科技信息,2011,(17):104-105.

      [9]姜子進(jìn),吐爾根·依布拉音,賽依旦·阿不力米提,等.Web環(huán)境下自動獲取漢、維語料庫[J].計算機(jī)應(yīng)用與軟件,2011,28(12):19-21,70.

      [10]莫源源,潘麗同,嚴(yán)馨,等.基于最大熵模型的柬英平行網(wǎng)頁獲取[J].計算機(jī)工程,2015:1-8.

      [11]劉奇,劉洋,孫茂松.URL模式與HTML結(jié)構(gòu)相結(jié)合的平行網(wǎng)頁獲取方法[J].中文信息學(xué)報,2013,27(3):91-99.

      [12]王琳琳.面向Web的多語平行句對挖掘技術(shù)研究[D].黑龍江:哈爾濱工業(yè)大學(xué),2014.

      [13]張亞軍,賀琛琛.漢語-維吾爾語的一對一詞對齊研究[J].昌吉學(xué)院學(xué)報,2012,(6):80-83.

      [14]劉鵬遠(yuǎn),趙鐵軍,李生,等.利用語義相似度解決雙語詞匯知識獲取的錯誤累計問題[J].哈爾濱工程大學(xué)學(xué)報,2006,27(z1):575-579.

      [15]陳亮.基于英漢平行語料庫的機(jī)器翻譯知識獲取研究[D].北京:北京交通大學(xué),2012.

      [16]張艷,柏岡秀紀(jì).基于長度的擴(kuò)展方法的漢英句子對齊[J].中文信息學(xué)報,2005,(5):31-36.

      [17]于新,吳健,洪錦玲.基于詞典的漢藏句子對齊研究與實現(xiàn)[J].中文信息學(xué)報,2011,25(4):57-62.

      [18]塞麥提·麥麥提敏,侯敏,吐爾根·伊布拉音.基于錨點句對的漢維句子對齊方法[J].計算機(jī)工程,2015,(4):166-170.

      [19]才藏太.基于最大熵分類器的藏文句子邊界自動識別方法研究[J].計算機(jī)工程與科學(xué),2012,34(6):187-190.

      [20]劉智穎.基于HNC的現(xiàn)代漢語句子級語義標(biāo)注語料庫的研究和建立[M].北京:中國社會科學(xué)出版社,2015.

      [21]李康熙,楊勇.平行語料庫對齊技術(shù)的語言學(xué)思考[J].合肥工業(yè)大學(xué)學(xué)報:社會科學(xué)版,2009,23(3):83-86.

      [22]趙蓮.大規(guī)模中英可比較語料庫構(gòu)建[D].遼寧:大連理工大學(xué),2010.

      [23]梁銘.基于英漢平行語料庫術(shù)語詞典的自動抽取[J].電腦知識與技術(shù):學(xué)術(shù)交流,2009,5(7):5081-5083.

      [24]任高舉,吐爾根·伊布拉音,艾山·吾買爾.統(tǒng)計機(jī)器翻譯中漢維短語對抽取的研究[J].新疆大學(xué)學(xué)報:自然科學(xué)版,2010,27(3):349-352.

      [25]唐亮,李倩,許洪波,等.基于多策略過濾的漢日多詞短語抽取和對齊[J].山東大學(xué)學(xué)報:理學(xué)版,2015,(9):21-28.

      [26]劉穎,鐵錚,余暢.漢英短語翻譯對的自動抽取[J].計算機(jī)應(yīng)用與軟件.2012,29(7):69-72.

      [27]嚴(yán)燦勛,劉慧敏,宋蘭.基于C#正則表達(dá)式的英漢翻譯對抽取[J].科技信息,2011,(26):1-2.

      [28]徐會芳.可比語料中雙語多詞術(shù)語互譯對抽取方法研究[D].遼寧:大連理工大學(xué),2013.

      [29]熊超,王明文,吳福英,等.基于潛在語義對偶空間的跨語言文本分類研究[J].廣西師范大學(xué)學(xué)報:自然科學(xué)版,2010,28(1):157-160.

      [30]申文明,黃家裕,劉連芳.平行語料庫的相似語句去重算法[J].廣西科學(xué)院學(xué)報,2009,25(4):248-250,256.

      [31]柯飛.翻譯中的隱和顯[J].外語教學(xué)與研究:外國語文雙月刊,2005,37(4):303-307.

      [32]董敏,馮德正.英漢科技翻譯邏輯關(guān)系顯化策略的語料庫研究[J].外語教學(xué),2015,36(2):93-96.

      [33]黃立波.基于漢英/英漢平行語料庫的翻譯共性研究[M].上海:復(fù)旦大學(xué)出版社,2007.

      [34]武光軍.基于漢英類比語料庫的翻譯文本中的搭配特征研究[M].北京:中國社會科學(xué)出版社,2014.

      [35]易焱,王克非.基于平行語料庫的“大家”的對應(yīng)研究[J].外語與外語教學(xué),2013,(3):49-54.

      [36]王子穎.法律語篇中shall和may的翻譯對比研究[J].上海翻譯,2013,(4):52-57.

      [37]胥逸萌.《政府工作報告》中“推進(jìn)”的概念隱喻用法實證研究[J].讀與寫:教育教學(xué)刊,2012,(8):34-35.

      [38]劉克強(qiáng).儒林外史語詞典型翻譯——基于平行語料庫的研究[M].北京:光明日報出版社,2015.

      [39]劉澤權(quán),劉超朋,朱虹.《紅樓夢》四個英譯本的譯者風(fēng)格初探——基于語料庫的統(tǒng)計與分析[J].中國翻譯,2011,32(1):60-64.

      [40]宋偉華.《壇經(jīng)》黃茂林英譯本與Dwight Goddard英譯本比較[J].中國科技翻譯,2013,(1):19-22.

      [41]盧曉娟.語料庫驅(qū)動下的魯迅小說譯者風(fēng)格研究[M].北京:中央編譯出版社,2015.

      [42]王惠.“精加工”平行語料庫在翻譯教學(xué)中的應(yīng)用[J].中國翻譯,2015,(1):50-54.

      [43]賀文照.平行語料庫輔助翻譯實踐實證研究[J].嘉興學(xué)院學(xué)報,2013,25(2):64-69.

      [44]蔣麗平.IT文本英漢平行語料庫輔助翻譯實踐的實證研究[J].中南林業(yè)科技大學(xué)學(xué)報:社會科學(xué)版, 2014,8(4):110-113.

      [45]熊兵.基于英漢雙語平行語料庫的翻譯教學(xué)模式研究[J].外語界,2015,(4):2-10.

      [46]吳曉昱,王安民.平行語料庫與漢英詞典編纂的對接[J].譯林:學(xué)術(shù)版,2012(2):169-176.

      [47]曾文,王惠臨,徐紅姣.漢英雙語詞典的自動構(gòu)建技術(shù)研究[J].情報學(xué)報,2011,30(4):402-409.

      [48]吳.基于依存上下文的中-英詞表構(gòu)建方法[J].信息通信,2013,(7):95-96.

      [49]安紀(jì)霞,李錫祚,宋冰,等.服務(wù)于詞典編纂的特定領(lǐng)域?qū)I(yè)術(shù)語自動抽取[J].計算機(jī)與數(shù)字工程,2007,(11):53-56.

      [50]李德俊.語料庫詞典學(xué)[M].江蘇:譯林,2015.

      [51]劉克強(qiáng).水滸傳翻譯大辭典[M].北京:中央編譯出版社,2014.

      [52]黃瑾,呂雅娟,劉群.基于信息檢索方法的統(tǒng)計翻譯系統(tǒng)訓(xùn)練數(shù)據(jù)選擇與優(yōu)化[J].中文信息學(xué)報,2008,22(2):40-46.

      [53]劉粵鉗,姚紅玉.一類基于平行語料統(tǒng)計的漢法機(jī)譯解決方案[J].計算機(jī)技術(shù)與發(fā)展,2008,18(4):114-117.

      [54]李梅,朱錫明.譯后編輯自動化的英漢機(jī)器翻譯新探索[J].中國翻譯,2013,(4):83-87.

      [55]王傳英.基于雙語平行語料庫的信息服務(wù)平臺建設(shè)[J].圖書館工作與研究,2010,(12):79-82.

      [56]趙衍.基于中英文平行語料庫的Web產(chǎn)品評論挖掘[J].上海管理科學(xué),2012,(5):42-46.

      [57]尼加提·納吉米.面向電力行業(yè)的漢維哈文檔對齊工具的設(shè)計與實現(xiàn)[J].電腦知識與技術(shù),2014,(36):8657-8658,8663.

      [58]房璐,葛運東,洪宇,等.可比較語料庫構(gòu)建及在跨語言信息檢索中的應(yīng)用[J].廣西師范大學(xué)學(xué)報:自然科學(xué)版,2010,28(3):126-130.

      [59]羅遠(yuǎn)勝,王明文,勒中堅,等.跨語言信息檢索中的雙語主題相關(guān)模型[J].小型微型計算機(jī)系統(tǒng),2013,34(12):2758-2763.

      [60]鄒小芳,王明文,左家莉,等.新的基于中間語義的多語言信息檢索模型[J].小型微型計算機(jī)系統(tǒng),2010,(4):696-701.

      [61]胡小鵬,袁琦,耿鑫輝,等.構(gòu)建和剖析中英三元組可比語料庫[J].計算機(jī)工程與應(yīng)用,2014,(13):153-157,186.

      猜你喜歡
      綜述
      2021年國內(nèi)批評話語分析研究綜述
      認(rèn)知需要研究綜述
      氫能有軌電車應(yīng)用綜述
      高速磁浮車載運行控制系統(tǒng)綜述
      5G應(yīng)用及發(fā)展綜述
      電子制作(2019年10期)2019-06-17 11:45:16
      SEBS改性瀝青綜述
      石油瀝青(2018年6期)2018-12-29 12:07:04
      NBA新賽季綜述
      NBA特刊(2018年21期)2018-11-24 02:47:52
      深度學(xué)習(xí)認(rèn)知計算綜述
      JOURNAL OF FUNCTIONAL POLYMERS
      Progress of DNA-based Methods for Species Identification
      梁河县| 临颍县| 姜堰市| 鹿泉市| 黄骅市| 大悟县| 巩留县| 靖安县| 泸西县| 库伦旗| 二连浩特市| 融水| 嘉定区| 连州市| 大兴区| 伊吾县| 呼图壁县| 翁源县| 宜都市| 张家界市| 江川县| 三明市| 嘉定区| 毕节市| 那曲县| 乌恰县| 尼木县| 公安县| 额尔古纳市| 大邑县| 拜泉县| 嘉黎县| 建宁县| 泾阳县| 绵阳市| 卢氏县| 江达县| 磐石市| 乌兰浩特市| 荥阳市| 遵化市|