• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于跨語言信息檢索的可比語料庫構(gòu)建方法研究?

    2017-01-04 05:33:12史雅莉
    國家圖書館學刊 2016年6期
    關(guān)鍵詞:源語言目標語言單向

    司 莉 史雅莉

    基于跨語言信息檢索的可比語料庫構(gòu)建方法研究?

    司 莉 史雅莉

    為滿足用戶對多語言信息表達與獲取的迫切需求,可比語料庫的研究和開發(fā)逐漸成為信息檢索領(lǐng)域研究者和系統(tǒng)開發(fā)人員的關(guān)注重點。從跨語言信息檢索視角出發(fā),可比語料庫的構(gòu)建方法主要有提問式翻譯法、特征過濾法、中間語言翻譯法、文本翻譯法和同源匹配法等。我國可比語料庫的建設(shè),應(yīng)在充分考慮系統(tǒng)整體性能的前提下,根據(jù)用戶需求選擇適用的構(gòu)建方法,完善文本翻譯及術(shù)語抽取技術(shù),并優(yōu)化文本對齊方式。圖4。參考文獻18。

    可比語料庫 構(gòu)建方法 跨語言信息檢索

    語料庫是指為一個或多個應(yīng)用目標而專門收集加工的具有一定規(guī)模和結(jié)構(gòu),并且可被計算機程序檢索的規(guī)范化原始語料集合,可分為平行語料庫和可比語料庫兩種類型。目前,多語言信息語料庫已經(jīng)成為機器翻譯、機器輔助翻譯、翻譯知識獲取、跨語言信息檢索(Cross Language Information Retrieval,簡稱CLIR)等研究中不可或缺的重要資源。在此背景下,不少信息檢索領(lǐng)域研究者和系統(tǒng)開發(fā)人員開始將工作重點聚焦于可比語料庫的研究和開發(fā),以滿足用戶對多語言信息表達與獲取的迫切需求。本研究對基于CLIR的可比語料庫構(gòu)建方法進行探討與比較,旨在為當前國內(nèi)跨語言檢索系統(tǒng)中可比語料庫的構(gòu)建和完善提供借鑒和參考。

    1 可比語料庫的特點及其應(yīng)用領(lǐng)域

    1995年,Baker首次提出了可比語料庫的概念,他認為特定語言的非翻譯源文本資源和該文本資源的其他語言譯本共同構(gòu)成了可比語料庫(Comparable Corpus)[1]。因而,可比語料庫是一種資源倉儲,其資源是對同一主題、不同語種的文本資源進行系統(tǒng)化、規(guī)范化處理之后,形成的文本對數(shù)據(jù)。通過對相關(guān)研究成果的深入分析,我們發(fā)現(xiàn)可比語料庫主要有以下特點:(1)側(cè)重于源文檔和目標文檔是否是對同一事件的描述,是否具有同一主題,而非句子與句子之間的對齊;(2)庫中的翻譯詞對受語料庫質(zhì)量的影響更加顯著;(3)對未登錄詞(通常指自然語言處理所用詞典中未包含的詞,它既可能是隨著技術(shù)和社會發(fā)展新出現(xiàn)的詞,也可能是在構(gòu)建詞典過程中遺漏的詞[2])的處理能力較強。由于其主要通過互聯(lián)網(wǎng)收集語料,獲取未登錄詞的可能性相對較高[3]。

    由此可見,可比語料庫應(yīng)用于CLIR,其優(yōu)勢主要表現(xiàn)在主題關(guān)聯(lián)方面,有助于關(guān)聯(lián)主題的檢索。同時,由于其語料來源于網(wǎng)絡(luò),還可從語料規(guī)模和文本對質(zhì)量方面為大型CLIR系統(tǒng)的構(gòu)建及運行提供資源保障。相關(guān)研究對阿拉伯語-英語跨語言信息檢索系統(tǒng)的調(diào)研數(shù)據(jù)表明,可比語料庫對CLIR任務(wù)有效,可單獨將其作為資源模塊運用于CLIR系統(tǒng)[4]??杀日Z料庫主要借助網(wǎng)絡(luò)爬蟲技術(shù)智能獲取語料,語料規(guī)??筛鶕?jù)系統(tǒng)需求進行擴展,因而有助于大型CLIR系統(tǒng)的開發(fā)與構(gòu)建[5]。此外,可比語料庫對語料的對齊處理不再局限于嚴格的形式對齊,而是強調(diào)源語言文檔與目標語言文檔的主題關(guān)聯(lián)性,可有效提高CLIR系統(tǒng)的資源檢準率,更加貼近用戶需求[6]。

    國內(nèi)目前所構(gòu)建的可比語料庫以雙語可比語料庫為主,大多為中英可比語料庫。且多數(shù)采用單向翻譯構(gòu)建模式,一般是將同一主題的中英文文檔分別作為源語言文檔和目標語言文檔,通過單向翻譯(在關(guān)鍵詞抽取和文檔檢索上采用單向處理,將源語言文檔關(guān)鍵詞翻譯為目標語言檢索詞進行檢索,不再對目標語言文檔進行關(guān)鍵詞抽取及翻譯)和對齊處理形成可比文檔對,構(gòu)成語料庫。由此可見,我國在可比語料庫建設(shè)方面,采用的方法較為單一,除單向翻譯構(gòu)建模式外,對其他構(gòu)建方法的研究及運用相對較少。基于此,筆者結(jié)合相關(guān)研究及實踐,對目前幾種較為常見的可比語料庫構(gòu)建方法的基本原理進行探討,并提出構(gòu)建國內(nèi)可比語料庫的相關(guān)建議。

    2 基于CLIR的可比語料庫構(gòu)建方法

    CLIR系統(tǒng)中可比語料庫的構(gòu)建方法主要分為:提問式翻譯構(gòu)建法、特征過濾構(gòu)建法、中間語言翻譯構(gòu)建法、文獻翻譯構(gòu)建法和同源匹配構(gòu)建法。以下將對這些方法的原理及特點等進行深入分析。

    2.1 提問式翻譯構(gòu)建法

    目前,提問式翻譯構(gòu)建法是用于構(gòu)建可比語料庫較普遍的方法。其基本原理是:將源語言文檔中的關(guān)鍵詞翻譯為目標語言,再對目標語言文檔進行單語檢索,形成對齊文檔對。在實際應(yīng)用中,該方法又可分單向與雙向翻譯兩種構(gòu)建方式。

    2.1.1 單向翻譯構(gòu)建法

    利用單向翻譯法構(gòu)建可比語料庫的基本流程主要涉及五個環(huán)節(jié),即文檔搜集關(guān)鍵詞提取關(guān)鍵詞單向翻譯檢索查詢文檔對齊,如圖1所示[7]。

    圖1 可比語料庫單向翻譯構(gòu)建方法

    具體步驟如下:

    (1)文檔搜集。文檔搜集大都通過網(wǎng)絡(luò)爬蟲技術(shù)抓取網(wǎng)頁信息加以實現(xiàn)。目前,常用的爬蟲工具主要有Python、MetaSeeker、Heritrix、Nutch等。由于其在開發(fā)語言、運行環(huán)境以及網(wǎng)頁處理方式等方面存在著差異,在搜集文檔時應(yīng)充分考慮系統(tǒng)兼容性和功能需求選擇合適的爬蟲工具。

    (2)關(guān)鍵詞提取??杀日Z料庫的構(gòu)建更多地采用了基于主題特征的關(guān)鍵詞提取法。該方法根據(jù)LDA(Latent Dirichlet Allocation)文檔主題生成模型中主題和詞的分布情況,使用給關(guān)鍵詞賦值的方法直接抽取文檔關(guān)鍵詞,抽取出各主題的代表性詞匯[8]。一般情況下,關(guān)鍵詞提取分為五個步驟,即:1)預(yù)處理;2)主題分析;3)TF?ITF權(quán)值計算;4)候選關(guān)鍵詞合并;5)冗余短語消除[9]。

    關(guān)鍵詞提取的關(guān)鍵是利用TF?ITF算法計算詞在文檔中的頻度與其反文檔頻度的權(quán)值,獲取詞匯對文檔的權(quán)重。TF?ITF是關(guān)鍵詞提取的基本算法,假設(shè)關(guān)鍵詞j至少存在于一個文檔d(dj≠0),dj/N是包含關(guān)鍵詞j的文檔數(shù)占整個文檔集合的比例,則其逆文檔頻率IDFj為:

    關(guān)鍵詞j對文檔i的權(quán)重Wij(TF?ITF值)被定義為關(guān)鍵詞j在文檔i中的詞頻率乘以其逆文檔頻率,其計算公式為:

    注:N:文檔集合中的文檔總數(shù),dj:包含關(guān)鍵詞j的文檔數(shù),fij:關(guān)鍵詞j在文檔i中的頻率,Wij:關(guān)鍵詞j在文檔i中的權(quán)重[10]。

    (3)關(guān)鍵詞單向翻譯。在CLIR中,可比語料庫系統(tǒng)通常利用在線雙語或多語詞典對關(guān)鍵詞或查詢詞進行翻譯。在線詞典翻譯速度快,詞匯量豐富且交互性強。目前,常用的在線翻譯詞典(軟件)主要有Google翻譯、有道詞典、金山詞霸等。但利用在線詞典翻譯仍然存在以下問題:1)未登錄詞問題,即盡管網(wǎng)絡(luò)詞典詞匯豐富,但仍有些詞找不到其對應(yīng)的翻譯;2)一詞多譯問題,即同一個詞有不止一條翻譯結(jié)果[11];3)全文翻譯問題,即在線翻譯系統(tǒng)尚無法有效識別不同語言之間的語法和文字對應(yīng)規(guī)律[12]。

    (4)文檔檢索與對齊。這是構(gòu)建可比語料庫的關(guān)鍵環(huán)節(jié)。完成關(guān)鍵詞抽取工作之后,需要借助一定的檢索算法對所抽取的關(guān)鍵詞進行規(guī)范化處理,形成檢索式。利用檢索式通過可比語料庫檢索系統(tǒng)查詢目標語言文檔,形成文檔對并做對齊處理。在可比語料庫系統(tǒng)中,用于信息檢索的開源系統(tǒng)主要有 Lueene、Zettair、Smart、Lemur及Indri(Lemur子項目)等。其中,Indri因其在結(jié)構(gòu)化查詢方面的強大功能優(yōu)勢和靈活易用性得以廣泛應(yīng)用[13]。最初的對齊方法主要是通過檢索系統(tǒng)對查詢結(jié)果按照相關(guān)度進行初步排序,根據(jù)發(fā)布日期以及語料庫規(guī)模選擇與源語言文檔相似度較高的目標語言文檔形成可比文檔對。

    2.1.2 雙向翻譯構(gòu)建法

    利用雙向翻譯法構(gòu)建可比語料庫,其基本原理與單向翻譯構(gòu)建法相似,如圖2所示。但該方法在關(guān)鍵詞抽取和文檔檢索上采用雙向處理,即在文檔收集工作完成之后,分別提取源語言文檔與目標語言文檔的關(guān)鍵詞來代表當前文檔,并將提取出來的關(guān)鍵詞進行互譯。以中英文語料為例,即將中文關(guān)鍵詞翻譯成英文,英文關(guān)鍵詞翻譯成中文并對其進行規(guī)范化處理,分別形成檢索式。利用英文檢索語句到英文文檔集合中檢索候選英文文檔,利用中文檢索語句到中文文檔集合中檢索候選中文文檔。最后,根據(jù)發(fā)布日期和相似度對候選文檔進行過濾,形成可比文檔對[14]。

    圖2 可比語料庫雙向翻譯構(gòu)建方法

    2.2 特征過濾構(gòu)建法

    基于特征過濾的方法是對提問式翻譯構(gòu)建法的進一步完善,主要用于構(gòu)建大規(guī)模的雙語可比較語料庫。這種方法是在單向翻譯檢索的基礎(chǔ)上,基于日期、相似度等特征指標對已生成的文檔對進行過濾,目的是過濾掉相關(guān)性小的文檔對,如圖3所示。具體來說,其從檢索構(gòu)建的可比文檔對中抽取三個特征值進行過濾,這三個特征指標分別是日期(Date),即新聞文檔的發(fā)布日期;文檔對相似度(Similarity of Document Pair,SDP),即由Indri檢索系統(tǒng)返回的查詢語句與目標語言文檔的相似度;關(guān)鍵詞集合相似度(Keywords Similarity of Docuemts,簡稱KSD),即源語言文檔與目標語言文檔對應(yīng)關(guān)鍵詞間的相似度[15]。

    圖3 候選文檔對特征過濾

    Date指標:在通過單向翻譯檢索詞檢索目標語言文檔時,優(yōu)先考慮日期與源語言文檔相近的目標語言文檔。為了更好地衡量文檔日期間的差異,可把檢索范圍限制在日期與源語言文檔相同或前后相差最近的目標語言文檔中。

    SDP指標:在相關(guān)文檔池中,按相似度大小選取n個相似度最大的文檔與源語言文檔組成可比文檔對。然后,再將這些可比文檔對按照相似度大小進行排序并設(shè)置相似度閥值進一步過濾。

    KSD指標:該指標主要通過FIS關(guān)鍵詞頻度信息分值來衡量(與FIS值呈正相關(guān)),測算過程基于以下假設(shè):翻譯后的關(guān)鍵詞在某個目標語言文檔中出現(xiàn)的頻次越多,則該目標語言文檔與源語言文檔越相關(guān)。FIS算法的基本思想是:在累計兩篇文檔相似度時,為每對詞賦權(quán)值以適當增加或削減其對整個文檔間相似度的影響[16]。具體測算方法為:定義源語言文檔ds,目標語言文檔dt,從ds中抽取的關(guān)鍵詞集合ks,翻譯后關(guān)鍵詞集合kts,利用詞頻、反文檔頻度等信息為ks及kts分配權(quán)重,則計算結(jié)果為[15,17]:

    注:ktsLen:kts集合的大小,xi:ks中的元素,yi:kts中的元素(yi與xi互譯),BM25(w,d):w在文檔d中的標準化詞頻(TF),IDF:反文檔頻度,Dif(x,y):BM25(x,ds)與BM25(y,dt)的差值。

    上述計算過程中,主要考慮了TF·IDF和Dif(x,y)兩類參數(shù)。TF·IDF的主要思想是:如果某個詞或短語在某篇文檔中出現(xiàn)的頻率TF較高,且在其他文檔中的逆文檔率IDF也較高,則該詞或者短語對這篇文檔具有較好的類別區(qū)分能力,同時也最能反映文檔主題[17]。因此,當 xi與 yi為互譯關(guān)系時,關(guān)鍵詞對xi、yi在文檔ds、dt中的TF·IDF值越高,文檔ds與dt的相似度就越高。Dif(x,y)為詞頻差值,即兩篇文檔內(nèi)容越相似,其關(guān)鍵詞信息也越相似,詞頻差值則越小。

    2.3 中間語言翻譯構(gòu)建法

    中間語言翻譯法是為解決源語言與目標語言間翻譯資源不存在或極少的問題而開發(fā)的一種可比語料庫構(gòu)建模式。該方法引入除源語言與目標語言之外的一種中間語言,把源語言與目標語言都翻譯成中間語言,以中間語言再進行文檔的檢索和匹配,如圖4所示。在實際應(yīng)用過程中,這種通過中間語言翻譯的方法進行源語言與目標語言之間的轉(zhuǎn)換,大大降低了可比語料庫系統(tǒng)開發(fā)過程中跨語言翻譯的難度。

    圖4 可比語料庫中間語言翻譯構(gòu)建方法

    利用中間語言翻譯法構(gòu)建可比語料庫的核心問題在于:(1)中間語言的確立。作為中間語言必須滿足兩個條件,其一是該語言為泛在語言,具有較廣泛的適用范圍,便于語料庫資源的充分利用;其二是通過在線翻譯能夠?qū)崿F(xiàn)該語言與源語言和目標語言文檔之間的語義對齊處理,以保證可比語料庫資源的質(zhì)量。在實際應(yīng)用過程中,研究人員或系統(tǒng)開發(fā)者通常都會根據(jù)當前網(wǎng)絡(luò)翻譯資源的語種分布情況和語言的覆蓋范圍進行選擇,中間語言通常以英語居多。(2)翻譯工具的選取。CLIR的關(guān)鍵即源語言與目標語言之間的翻譯問題,很多翻譯方法都依賴于機器翻譯、雙語字典或語料庫等翻譯工具。就目前實際情況而言,詞匯量規(guī)模和翻譯準確度通常是翻譯工具選取過程中應(yīng)考量的重要因素。

    2.4 其他構(gòu)建方法

    除提問式翻譯構(gòu)建法、特征過濾構(gòu)建法、中間語言翻譯構(gòu)建法之外,相關(guān)研究者和系統(tǒng)開發(fā)人員還嘗試通過其他方法來構(gòu)建可比語料庫,主要包括文獻翻譯法和同源匹配法。

    與提問式翻譯方法不同,文獻翻譯法通過把信息庫中用目標語言描述的文獻全部翻譯成用源語言描述的形式,再進行檢索。運用該方法進行CLIR,檢索結(jié)果是用源語言描述的。由于目前文本機器翻譯技術(shù)的正確率較低,而且把信息庫中目標語言描述的文獻翻譯為源語言的工作量也是巨大的,所以文獻翻譯方法只有在語料庫規(guī)模不大且文檔內(nèi)容相對簡單的情況下才具有可行性。

    同源匹配法主要依據(jù)兩種不同語言詞語的書寫形式或者語音方面的相似性來判斷它們之間的匹配程度,無須翻譯轉(zhuǎn)換。由于該方法主要是通過詞語的形式特征來進行匹配,文本對的語義對齊程度較低,因此,在可比語料庫的實際構(gòu)建過程中,同源匹配構(gòu)建法應(yīng)用較少。

    3 我國可比語料庫構(gòu)建的建議

    通過以上的對比分析可以看出,各種可比語料庫構(gòu)建方法各具特色,這些方法的不斷發(fā)展和完善也為我國可比語料庫的構(gòu)建提供了新思路。根據(jù)我國可比語料庫建設(shè)現(xiàn)狀,我國在該領(lǐng)域的發(fā)展應(yīng)注意以下三個方面。

    3.1 根據(jù)需求選擇適用的構(gòu)建方法

    構(gòu)建方法的選取是可比語料庫建設(shè)的關(guān)鍵問題。由前文分析可知,目前我國可比語料庫的構(gòu)建仍以單向翻譯構(gòu)建法為主,在方法的采用上相對比較單一。但要真正滿足不同層次用戶的需求,提高庫內(nèi)資源的利用率,就必須充分結(jié)合實際情況選擇最佳建設(shè)方案。目前,除特定需求外,借助文獻翻譯或同源匹配方式構(gòu)建的小型可比語料庫已無法適用于當前信息環(huán)境。中間語言翻譯法主要解決的是翻譯資源極少或者不存在的可比語料庫的構(gòu)建問題,在實際應(yīng)用過程中對小語種可比語料庫的構(gòu)建將會發(fā)揮重要作用。提問式翻譯構(gòu)建法是當前發(fā)展較為成熟的可比語料庫構(gòu)建方法,大多研究者和系統(tǒng)開發(fā)人員借助于該方法進行可比語料庫系統(tǒng)的研發(fā)。特征過濾構(gòu)建法是對提問式翻譯構(gòu)建法在文本對齊方面的進一步完善,能夠有效提高語料庫質(zhì)量,應(yīng)用前景比較廣闊。隨著數(shù)據(jù)量的迅速增長和用戶信息需求的不斷升級,我國在可比語料庫的建設(shè)過程中,可在充分了解用戶需求的基礎(chǔ)之上,對現(xiàn)有的幾種構(gòu)建方法進行適用性分析,從而制定出最合適的建設(shè)方案。

    3.2 完善文本翻譯及術(shù)語抽取技術(shù)

    由前文分析可知,可比語料庫構(gòu)建過程中主要涉及網(wǎng)頁爬蟲、機器翻譯、術(shù)語抽取等相關(guān)技術(shù)。其中,文本翻譯準確率較低、提取的關(guān)鍵詞對文檔揭示度不高是國內(nèi)可比語料庫建設(shè)中面臨的較為普遍的問題。未來我國在關(guān)鍵技術(shù)方面可從以下兩方面著手:(1)文本翻譯方面,可借鑒Google在線機譯模式,除單詞、語句常規(guī)翻譯之外,開發(fā)文檔翻譯模塊,對語料庫文檔進行全文翻譯。同時,建立在線翻譯社區(qū),對文本翻譯中的術(shù)語表達、文本結(jié)構(gòu)、語義分析等問題進行互動交流和探討,不斷提高語料庫資源質(zhì)量。(2)術(shù)語抽取方面,為克服基于主題特征的關(guān)鍵詞提取法在文檔語義揭示方面的不足,可借鑒Dhouha等2013年基于WordNet語義相似度度量構(gòu)建的詞義消歧處理法[18]。該方法以單義詞作為消除歧義的種子集,并以此推斷多義詞的翻譯,提高雙語詞匯提取性能。

    3.3 優(yōu)化文本對齊方式

    文本對齊處理效果的優(yōu)劣在很大程度上決定著語料庫數(shù)據(jù)資源質(zhì)量的高低。目前,我國可比語料庫構(gòu)建過程中多采用提問式翻譯法,其在文本對齊方面通常是通過日期和相似度等傳統(tǒng)指標對候選文檔對進行過濾,可在一定程度上排除相似度較低的文檔對,但在文檔對的語義對齊上仍需進一步完善。特征過濾構(gòu)建法的特色即在于其在文檔對齊方面的突破,該方法除結(jié)合傳統(tǒng)的日期、相似度等特征指標,還融合了KSD指標,并采用FIS算法對候選文檔對進行系統(tǒng)過濾,有效提高了文檔對相似度。因此,在文本對齊處理方面,可嘗試借鑒特征過濾法,對候選文檔對進行更加精細地對齊處理,同時也可在特征指標上做進一步地研究及拓展。

    4 結(jié)語

    為滿足用戶多元化、跨語言的信息需求,研究者和系統(tǒng)開發(fā)人員嘗試采用不同的方法構(gòu)建可比語料庫,以提高CLIR效率。這些構(gòu)建方法各具特點:提問式翻譯構(gòu)建法開發(fā)較早并與現(xiàn)有查詢檢索系統(tǒng)具有較高的契合度,目前在研究和實踐中已得到較為廣泛的關(guān)注。但其在文本對齊方面以傳統(tǒng)的日期、相似度指標進行文本對處理,使語料庫質(zhì)量難以得到有效保障。特征過濾構(gòu)建法針對這一問題進行了改進和完善,通過KSD指標和FIS算法有效地提高了可比語料庫中文本對的相似度,這對大規(guī)??杀日Z料庫的構(gòu)建具有重要意義。中間語言翻譯構(gòu)建法引進中間語言翻譯機制,解決了翻譯資源較少或沒有對應(yīng)的翻譯資源時可比語料庫的構(gòu)建問題,是對提問翻譯構(gòu)建法和特征過濾構(gòu)建法的有益補充。文獻翻譯構(gòu)建法和同源匹配構(gòu)建法,由于目前全文翻譯技術(shù)和字形、語音智能識別等技術(shù)的發(fā)展尚不成熟,只能用于構(gòu)建小規(guī)模的本地語料庫,并且構(gòu)建成本較高。因此,我國可比語料庫建設(shè)過程中,應(yīng)在充分考慮系統(tǒng)整體性能的前提下,對不同構(gòu)建方法進行比較分析,注重關(guān)鍵技術(shù)的引進與完善、文本對齊處理問題的優(yōu)化,選擇真正適合用戶需求的構(gòu)建策略。

    1 Baker M.Corpora in Translation Studies:An O-verview and Some Suggestions for Future Research[J].Target,1995,7(2):223-243.

    2 段宇鋒,等.條件隨機場與領(lǐng)域本體元素集相結(jié)合的未登錄詞識別研究[J].現(xiàn)代圖書情報技術(shù),2015(4).

    3 康小麗,等.基于可比語料庫的雙語術(shù)語抽取研究述評[J].現(xiàn)代圖書情報技術(shù),2009(10).

    4 Azadeh S,Chengxiang Z.Leveraging ComparableCorpora for Cross-Lingual Information Retrieval in Resource-Lean Language Pairs[J].Inf Retrieval,2013(16):1-29.

    5 Homa B.,et al.Mining a Persian-English Comparable Corpus for Cross-Language Information Retrieval[J].Information Processing and Management,2014,50(2):384-398.

    6 Tuomas T,et al.Creating and Exploiting a Comparable Corpus in Cross-Language Information Retrieval[J].Acm Transactions on Information Systes,2007,25(1):79-82.

    7 房璐,等.可比較語料庫構(gòu)建及在跨語言信息檢索中的應(yīng)用[J].廣西師范大學學報,2010(3).

    8 劉俊,等.基于主題特征的關(guān)鍵詞抽?。跩].計算機應(yīng)用研究,2012(11).

    9 朱澤德.網(wǎng)絡(luò)雙語語料挖掘關(guān)鍵技術(shù)研究[D].合肥:中國科技大學,2014.

    10 IA El-Khair.TF?ITF[J].Encyclopedia of Database Systems,2009(12).

    11 房璐.英漢可比語料庫的構(gòu)建與應(yīng)用研究[D].蘇州:蘇州大學,2011.

    12 李韓芬.互聯(lián)網(wǎng)免費在線翻譯工具述評[J].農(nóng)業(yè)網(wǎng)絡(luò)信息,2007(4).

    13 陳燕.基于Indri的動態(tài)索引機制探討[J].電子設(shè)計工程,2014(9).

    14 王珊珊.中英可比語料庫的構(gòu)建[D].大連:大連理工大學,2013.

    15 趙蓮.大規(guī)模中英可比語料庫構(gòu)建[D].大連:大連理工大學,2010.

    16 TAO T,Chengxiang Z.Mining Comparable Bilingual Text Corpora for Cross-Language Information Integration[C].In Proceedings of the 11th ACMSIGKDD International Conference on Knowledge Discovery in Data Mining,Chicago,USA,2005:691-696.

    17 tf-idf[EB/OL].[2016-04-23].http://baike.so. com/doc/433640-459181.html.

    18 胡小鵬,等.構(gòu)建和剖析中英三元組可比語料庫[J].計算機工程與應(yīng)用,2014(13).

    (司 莉 教授 武漢大學信息資源研究中心 信息管理學院圖書館學系主任,史雅莉 武漢大學信息管理學院圖書館學專業(yè)2015級博士研究生)

    Study on the Construction Methods of Comparable Corpus Based on Cross Language Information Retrieval

    Si Li Shi Yali

    In order to satisfy the urgent need of users in multi-language information expression and retrieval,the research and development of comparable corpus have gradually become the focus of researchers and developers in information retrieval.From the perspective of cross language information retrieval,this paper studies several comparable corpus construction methods,which include questions translation method,feature filtering method,intermediate language translation method,text translation method and homologous matching method. The construction of comparable corpus in China should take a full consideration of the whole performance of the system,and then choose the appropriate building method based on user requirements,improve text translation and terminology extraction technology,optimize text alignment method.4 figs.18 refs.

    Comparable Corpus;Construction Method;Cross Language Information Retrieval

    2016-06-14

    ? 本文系教育部人文社會科學重點研究基地重大項目“基于內(nèi)容的多語言信息組織與檢索研究”(項目編號:14JJD870001)研究成果之一。

    猜你喜歡
    源語言目標語言單向
    碳纖維/PPS熱塑性單向預(yù)浸帶進入市場
    用“單向?qū)m排除法”解四宮數(shù)獨
    單向截止閥密封失效分析
    林巍《知識與智慧》英譯分析
    淺析日語口譯譯員素質(zhì)
    北方文學(2018年18期)2018-09-14 10:55:22
    教材插圖在英語課堂閱讀教學中的運用及實例探討
    跨文化視角下對具有修辭手法諺語英譯漢的研究
    速讀·下旬(2016年7期)2016-07-20 08:50:28
    以口譯實例談雙語知識的必要性
    考試周刊(2015年36期)2015-09-10 15:03:38
    二語習得過程中的石化現(xiàn)象分析
    單向度
    新聞前哨(2015年2期)2015-03-11 19:29:30
    精品一区二区三区视频在线| 欧美在线黄色| 国产精品久久久久久精品电影| 久久久精品欧美日韩精品| 亚洲精华国产精华精| 欧美色欧美亚洲另类二区| 成人一区二区视频在线观看| 国产老妇女一区| 午夜影院日韩av| 琪琪午夜伦伦电影理论片6080| 嫩草影院入口| 精品午夜福利视频在线观看一区| 国产成+人综合+亚洲专区| 久久久久久九九精品二区国产| 色吧在线观看| 亚洲最大成人手机在线| 国产成人a区在线观看| 在线a可以看的网站| 欧美在线黄色| 毛片一级片免费看久久久久 | 亚洲精品久久国产高清桃花| 国内久久婷婷六月综合欲色啪| 国产精品99久久久久久久久| 亚洲国产精品999在线| 露出奶头的视频| 别揉我奶头~嗯~啊~动态视频| 国产大屁股一区二区在线视频| 欧美日韩瑟瑟在线播放| 午夜福利欧美成人| 亚洲av第一区精品v没综合| 中文字幕精品亚洲无线码一区| 亚洲三级黄色毛片| 成年版毛片免费区| 少妇被粗大猛烈的视频| 日韩av在线大香蕉| 欧美国产日韩亚洲一区| 欧美区成人在线视频| 国产主播在线观看一区二区| 岛国在线免费视频观看| 精品日产1卡2卡| 国产亚洲精品综合一区在线观看| 国内少妇人妻偷人精品xxx网站| 91av网一区二区| 久久这里只有精品中国| 一边摸一边抽搐一进一小说| av在线老鸭窝| 小蜜桃在线观看免费完整版高清| h日本视频在线播放| 欧美乱色亚洲激情| 亚洲精品456在线播放app | 久9热在线精品视频| 午夜福利成人在线免费观看| 国产色爽女视频免费观看| 欧美高清成人免费视频www| 一个人看的www免费观看视频| 日本黄大片高清| 九九久久精品国产亚洲av麻豆| 丰满人妻一区二区三区视频av| 精品一区二区免费观看| 少妇的逼好多水| 久久久久久国产a免费观看| 国产精品女同一区二区软件 | 日本 欧美在线| 91久久精品国产一区二区成人| 男插女下体视频免费在线播放| 亚洲人与动物交配视频| 男人狂女人下面高潮的视频| 免费黄网站久久成人精品 | 国产高清视频在线观看网站| 亚洲狠狠婷婷综合久久图片| 在线观看午夜福利视频| 97热精品久久久久久| 亚洲 国产 在线| 亚洲专区中文字幕在线| 老熟妇仑乱视频hdxx| 国产乱人视频| 国内揄拍国产精品人妻在线| 精品午夜福利在线看| 长腿黑丝高跟| 嫩草影院精品99| 69人妻影院| 久久九九热精品免费| 亚洲成a人片在线一区二区| 免费看日本二区| 欧美国产日韩亚洲一区| 国产 一区 欧美 日韩| 久久精品国产亚洲av涩爱 | 日韩欧美精品免费久久 | 露出奶头的视频| 夜夜夜夜夜久久久久| 欧美日韩国产亚洲二区| av中文乱码字幕在线| 久久久成人免费电影| 一区二区三区免费毛片| 久久人妻av系列| 亚洲人成网站在线播放欧美日韩| 又粗又爽又猛毛片免费看| 麻豆国产97在线/欧美| 国产伦人伦偷精品视频| 两人在一起打扑克的视频| 国产午夜精品论理片| 色在线成人网| 久久久久国内视频| 成人美女网站在线观看视频| 大型黄色视频在线免费观看| 在线观看美女被高潮喷水网站 | 嫩草影视91久久| 乱人视频在线观看| 成熟少妇高潮喷水视频| 亚洲成人免费电影在线观看| 亚洲熟妇中文字幕五十中出| 国产成人av教育| 在线播放无遮挡| 亚洲真实伦在线观看| 嫩草影院精品99| 如何舔出高潮| 亚洲电影在线观看av| 亚洲av美国av| 国产成人aa在线观看| 天堂av国产一区二区熟女人妻| 亚洲真实伦在线观看| 51午夜福利影视在线观看| 亚洲avbb在线观看| 看十八女毛片水多多多| www.999成人在线观看| 亚洲成人久久爱视频| 色5月婷婷丁香| 欧美日本亚洲视频在线播放| 欧美日韩乱码在线| 黄色丝袜av网址大全| 免费av不卡在线播放| 国产精品久久久久久精品电影| 毛片女人毛片| 国产亚洲精品av在线| 中文字幕人成人乱码亚洲影| 久久九九热精品免费| 日日夜夜操网爽| 又粗又爽又猛毛片免费看| 免费看美女性在线毛片视频| 亚洲精品乱码久久久v下载方式| 欧美区成人在线视频| 免费高清视频大片| 在线看三级毛片| 欧美精品啪啪一区二区三区| 欧美黄色片欧美黄色片| 色视频www国产| 亚洲最大成人中文| 美女高潮喷水抽搐中文字幕| 99热这里只有是精品在线观看 | 毛片一级片免费看久久久久 | 国内久久婷婷六月综合欲色啪| 欧美三级亚洲精品| 免费电影在线观看免费观看| 非洲黑人性xxxx精品又粗又长| 国产午夜精品论理片| 搡女人真爽免费视频火全软件 | 他把我摸到了高潮在线观看| 欧美xxxx性猛交bbbb| 内射极品少妇av片p| 国内揄拍国产精品人妻在线| 久久九九热精品免费| 少妇的逼水好多| 精华霜和精华液先用哪个| 亚洲五月天丁香| 午夜精品一区二区三区免费看| 亚洲精品亚洲一区二区| 最近视频中文字幕2019在线8| 亚洲精品456在线播放app | eeuss影院久久| 在线观看午夜福利视频| 99热精品在线国产| 国产午夜福利久久久久久| ponron亚洲| 久久国产精品人妻蜜桃| 观看免费一级毛片| 激情在线观看视频在线高清| 国产精品综合久久久久久久免费| 亚州av有码| 真人一进一出gif抽搐免费| 天堂影院成人在线观看| 国产熟女xx| 亚洲国产精品sss在线观看| www.999成人在线观看| 欧美日韩乱码在线| 久久性视频一级片| 麻豆国产av国片精品| 亚洲美女搞黄在线观看 | 亚洲成人中文字幕在线播放| 亚州av有码| 国产伦人伦偷精品视频| 久久久色成人| 成熟少妇高潮喷水视频| 9191精品国产免费久久| 亚洲美女黄片视频| 欧美性猛交黑人性爽| 天天躁日日操中文字幕| 午夜福利欧美成人| 亚洲av.av天堂| 久久精品综合一区二区三区| 亚洲七黄色美女视频| 日本免费a在线| 国产欧美日韩一区二区精品| 国产又黄又爽又无遮挡在线| 午夜两性在线视频| 热99在线观看视频| 99国产综合亚洲精品| 国产成人av教育| 欧美潮喷喷水| 亚洲精品在线美女| 色吧在线观看| 久久久久国内视频| 中文在线观看免费www的网站| 女同久久另类99精品国产91| 日韩欧美一区二区三区在线观看| 久久亚洲真实| 尤物成人国产欧美一区二区三区| 三级男女做爰猛烈吃奶摸视频| 免费电影在线观看免费观看| 成熟少妇高潮喷水视频| 中文字幕av成人在线电影| 色播亚洲综合网| 国产av麻豆久久久久久久| 欧美bdsm另类| x7x7x7水蜜桃| 国产一区二区三区视频了| 亚洲av第一区精品v没综合| 日本一本二区三区精品| 久久精品久久久久久噜噜老黄 | 国产久久久一区二区三区| 久久精品人妻少妇| 成年人黄色毛片网站| 国产午夜精品论理片| 高清日韩中文字幕在线| 精品午夜福利视频在线观看一区| ponron亚洲| 欧美黑人巨大hd| 中文字幕高清在线视频| 88av欧美| 尤物成人国产欧美一区二区三区| av国产免费在线观看| 午夜精品久久久久久毛片777| 日韩精品中文字幕看吧| 欧美一区二区亚洲| 成人欧美大片| 日韩欧美一区二区三区在线观看| 精品午夜福利视频在线观看一区| av在线观看视频网站免费| 国产精华一区二区三区| 成年版毛片免费区| 亚洲av第一区精品v没综合| 啦啦啦韩国在线观看视频| 少妇被粗大猛烈的视频| 欧美3d第一页| 大型黄色视频在线免费观看| 国产淫片久久久久久久久 | 90打野战视频偷拍视频| 高清在线国产一区| 亚洲精品成人久久久久久| 亚洲国产色片| 九九在线视频观看精品| 国产黄色小视频在线观看| 99热精品在线国产| 97超视频在线观看视频| 国产成人啪精品午夜网站| 久久精品人妻少妇| 麻豆国产av国片精品| 国产精品98久久久久久宅男小说| 露出奶头的视频| 亚洲在线自拍视频| 午夜a级毛片| 亚洲人成伊人成综合网2020| 亚洲一区二区三区色噜噜| 最近中文字幕高清免费大全6 | 黄色配什么色好看| 欧美一区二区亚洲| 人人妻人人看人人澡| 美女黄网站色视频| 精品人妻一区二区三区麻豆 | 亚洲av五月六月丁香网| 少妇裸体淫交视频免费看高清| 淫妇啪啪啪对白视频| 在线观看一区二区三区| 99热精品在线国产| 久久中文看片网| 性欧美人与动物交配| 国产高清视频在线播放一区| 禁无遮挡网站| 在线天堂最新版资源| 日日干狠狠操夜夜爽| 中文字幕高清在线视频| 国产成人福利小说| 亚洲人成网站高清观看| 国产欧美日韩一区二区三| 99久国产av精品| 日韩人妻高清精品专区| 亚洲成av人片免费观看| 国产精品一区二区三区四区免费观看 | 亚洲欧美日韩高清在线视频| 香蕉av资源在线| 中文字幕免费在线视频6| 又粗又爽又猛毛片免费看| 国产精华一区二区三区| 欧美区成人在线视频| 成人午夜高清在线视频| 18+在线观看网站| 天堂动漫精品| 亚洲天堂国产精品一区在线| 亚洲美女视频黄频| 校园春色视频在线观看| 一级a爱片免费观看的视频| x7x7x7水蜜桃| 嫩草影视91久久| 欧美成狂野欧美在线观看| 99久久九九国产精品国产免费| 国产一区二区三区在线臀色熟女| 美女被艹到高潮喷水动态| 99热只有精品国产| 九色国产91popny在线| 日韩中字成人| 美女高潮的动态| 大型黄色视频在线免费观看| 亚洲人成电影免费在线| 国产精品久久久久久久电影| 嫩草影院精品99| 日韩欧美精品免费久久 | 色综合欧美亚洲国产小说| 日日夜夜操网爽| 亚洲成人久久性| 久久精品综合一区二区三区| 国产成人欧美在线观看| 久久香蕉精品热| 国产成人福利小说| 又爽又黄无遮挡网站| 一区二区三区激情视频| 欧美一区二区亚洲| www.熟女人妻精品国产| 每晚都被弄得嗷嗷叫到高潮| 18禁在线播放成人免费| 亚洲美女搞黄在线观看 | 蜜桃久久精品国产亚洲av| 1000部很黄的大片| 免费大片18禁| 老师上课跳d突然被开到最大视频 久久午夜综合久久蜜桃 | 精品乱码久久久久久99久播| 国内精品久久久久久久电影| 麻豆成人av在线观看| 长腿黑丝高跟| 精品一区二区三区视频在线| 久久久久九九精品影院| 国产欧美日韩精品一区二区| av天堂在线播放| 午夜亚洲福利在线播放| 别揉我奶头 嗯啊视频| 人妻夜夜爽99麻豆av| 在线观看美女被高潮喷水网站 | 国产成+人综合+亚洲专区| 男女做爰动态图高潮gif福利片| 热99re8久久精品国产| 免费看光身美女| 精品午夜福利在线看| 久久久国产成人精品二区| 亚洲中文字幕日韩| 欧美一区二区亚洲| 男女那种视频在线观看| av天堂在线播放| 日韩欧美精品免费久久 | 俄罗斯特黄特色一大片| 久久国产精品人妻蜜桃| 少妇人妻一区二区三区视频| 一区二区三区免费毛片| 九九在线视频观看精品| 欧美成狂野欧美在线观看| 国产极品精品免费视频能看的| 男插女下体视频免费在线播放| 国产精品亚洲一级av第二区| 国产亚洲精品久久久com| 动漫黄色视频在线观看| 亚洲精品久久国产高清桃花| 亚洲成av人片在线播放无| 我的女老师完整版在线观看| 美女cb高潮喷水在线观看| 国产私拍福利视频在线观看| 国产人妻一区二区三区在| 欧美+日韩+精品| 久久精品夜夜夜夜夜久久蜜豆| 给我免费播放毛片高清在线观看| 99久久精品一区二区三区| 一a级毛片在线观看| 1024手机看黄色片| 中文资源天堂在线| 婷婷六月久久综合丁香| 一级黄片播放器| 欧美日韩福利视频一区二区| 精品无人区乱码1区二区| 中文资源天堂在线| 国产主播在线观看一区二区| 别揉我奶头~嗯~啊~动态视频| 欧美+日韩+精品| 国产伦精品一区二区三区视频9| 国产精华一区二区三区| 亚洲无线观看免费| 黄片小视频在线播放| 国内精品久久久久久久电影| 一级黄色大片毛片| 淫秽高清视频在线观看| 中文字幕人妻熟人妻熟丝袜美| 免费看a级黄色片| 男人的好看免费观看在线视频| 欧美激情国产日韩精品一区| 国产av不卡久久| 色av中文字幕| 国产精品综合久久久久久久免费| 嫩草影院入口| 亚洲,欧美,日韩| 欧美精品国产亚洲| 蜜桃久久精品国产亚洲av| 午夜福利在线在线| 欧美成狂野欧美在线观看| 亚洲va日本ⅴa欧美va伊人久久| 亚洲精品粉嫩美女一区| www.熟女人妻精品国产| 99热只有精品国产| 啦啦啦观看免费观看视频高清| 久久精品影院6| 中文字幕高清在线视频| 国产黄色小视频在线观看| 757午夜福利合集在线观看| 啪啪无遮挡十八禁网站| 欧美日韩综合久久久久久 | 男女视频在线观看网站免费| 在线观看66精品国产| 日本一二三区视频观看| 大型黄色视频在线免费观看| 日本黄色片子视频| 最新中文字幕久久久久| 国产又黄又爽又无遮挡在线| 中文字幕av成人在线电影| 色视频www国产| 色噜噜av男人的天堂激情| av黄色大香蕉| 哪里可以看免费的av片| 日韩欧美在线乱码| 久久久久久久精品吃奶| 夜夜看夜夜爽夜夜摸| 最近在线观看免费完整版| 精品人妻偷拍中文字幕| 国产日本99.免费观看| 五月伊人婷婷丁香| 最近最新中文字幕大全电影3| 五月玫瑰六月丁香| 中文字幕av在线有码专区| 嫩草影院精品99| 内射极品少妇av片p| 丝袜美腿在线中文| 亚洲精品在线美女| 免费在线观看亚洲国产| 欧美bdsm另类| 最近最新中文字幕大全电影3| 哪里可以看免费的av片| 欧美激情国产日韩精品一区| 日本 欧美在线| 精品国产亚洲在线| 午夜精品在线福利| 国产精品影院久久| 中出人妻视频一区二区| 国产精品免费一区二区三区在线| 男女那种视频在线观看| 最近视频中文字幕2019在线8| 国产大屁股一区二区在线视频| 中文字幕人成人乱码亚洲影| 两人在一起打扑克的视频| 国产免费一级a男人的天堂| 久久午夜福利片| 天天一区二区日本电影三级| 我要看日韩黄色一级片| 国产伦在线观看视频一区| 欧美激情在线99| 国产视频一区二区在线看| 亚洲av免费高清在线观看| 91午夜精品亚洲一区二区三区 | 国内久久婷婷六月综合欲色啪| 深夜精品福利| netflix在线观看网站| 超碰av人人做人人爽久久| 老司机深夜福利视频在线观看| 男女视频在线观看网站免费| 亚洲 欧美 日韩 在线 免费| 可以在线观看的亚洲视频| 亚洲乱码一区二区免费版| 欧美极品一区二区三区四区| 精品乱码久久久久久99久播| 国产亚洲精品综合一区在线观看| 日韩av在线大香蕉| 身体一侧抽搐| 亚洲欧美激情综合另类| 精品国产三级普通话版| 免费在线观看日本一区| 性色av乱码一区二区三区2| 老熟妇乱子伦视频在线观看| 欧美zozozo另类| 日韩国内少妇激情av| 偷拍熟女少妇极品色| 99热精品在线国产| 美女黄网站色视频| 亚洲国产精品久久男人天堂| 国产爱豆传媒在线观看| 能在线免费观看的黄片| 欧美+亚洲+日韩+国产| aaaaa片日本免费| 亚洲乱码一区二区免费版| 亚洲国产色片| 亚洲精品亚洲一区二区| 午夜福利视频1000在线观看| 女同久久另类99精品国产91| 岛国在线免费视频观看| 国产精品99久久久久久久久| 最近中文字幕高清免费大全6 | 高潮久久久久久久久久久不卡| 日本精品一区二区三区蜜桃| 亚洲av成人精品一区久久| 亚洲熟妇中文字幕五十中出| 国产精品野战在线观看| 成人特级av手机在线观看| 国内久久婷婷六月综合欲色啪| 亚洲精品乱码久久久v下载方式| 日韩欧美精品v在线| 91麻豆av在线| 成人三级黄色视频| x7x7x7水蜜桃| 婷婷精品国产亚洲av在线| 十八禁人妻一区二区| 精品人妻熟女av久视频| 中文字幕av成人在线电影| 熟女人妻精品中文字幕| 国产乱人视频| 日本一二三区视频观看| 欧美最新免费一区二区三区 | 在现免费观看毛片| 午夜福利在线观看免费完整高清在 | 一个人观看的视频www高清免费观看| 婷婷亚洲欧美| 最近最新免费中文字幕在线| 一区二区三区激情视频| 亚洲av免费高清在线观看| 亚洲 欧美 日韩 在线 免费| 男人和女人高潮做爰伦理| 此物有八面人人有两片| 国产精品亚洲av一区麻豆| 久久99热这里只有精品18| 亚洲av不卡在线观看| 中文字幕av成人在线电影| 狂野欧美白嫩少妇大欣赏| 好男人电影高清在线观看| 桃色一区二区三区在线观看| 日韩欧美国产一区二区入口| 午夜激情福利司机影院| 又粗又爽又猛毛片免费看| 国产亚洲欧美98| 一区福利在线观看| 亚洲不卡免费看| 男女做爰动态图高潮gif福利片| 高潮久久久久久久久久久不卡| 午夜福利免费观看在线| 亚洲va日本ⅴa欧美va伊人久久| 18美女黄网站色大片免费观看| 成人毛片a级毛片在线播放| 桃色一区二区三区在线观看| 一区福利在线观看| 久久久久久久亚洲中文字幕 | 尤物成人国产欧美一区二区三区| 美女大奶头视频| 国产精品伦人一区二区| 男人舔女人下体高潮全视频| 中文字幕人妻熟人妻熟丝袜美| 久久久久久久久大av| 国产色爽女视频免费观看| 波多野结衣高清作品| 日日夜夜操网爽| 最近视频中文字幕2019在线8| 久久精品国产亚洲av涩爱 | 尤物成人国产欧美一区二区三区| 亚洲av美国av| 美女被艹到高潮喷水动态| 国产精品爽爽va在线观看网站| 成人永久免费在线观看视频| 欧美日本亚洲视频在线播放| 男人狂女人下面高潮的视频| 国产真实伦视频高清在线观看 | 国产精品亚洲av一区麻豆| 男女下面进入的视频免费午夜| 国产综合懂色| 国产av不卡久久| 赤兔流量卡办理| 男女之事视频高清在线观看| 欧美日韩瑟瑟在线播放| 国产美女午夜福利| 国产精品一及| 国产精品乱码一区二三区的特点| 国产成人av教育| 亚洲,欧美精品.| 国产精品一区二区三区四区免费观看 | 亚洲av成人av| 激情在线观看视频在线高清| 亚洲人成伊人成综合网2020| 国产高清视频在线观看网站| 老熟妇乱子伦视频在线观看| aaaaa片日本免费| 久久精品影院6| 波野结衣二区三区在线| 又爽又黄无遮挡网站| 国产一区二区在线av高清观看| 在线观看66精品国产| 99久国产av精品| 综合色av麻豆| 999久久久精品免费观看国产|