• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于中英文單語術(shù)語庫的雙語術(shù)語對齊方法

    2022-01-12 02:35:01向露,周玉,宗成慶
    中國科技術(shù)語 2022年1期

    向露,周玉,宗成慶

    摘 要:雙語術(shù)語對齊庫是自然語言處理領(lǐng)域的重要資源,對于跨語言信息檢索、機(jī)器翻譯等多語言應(yīng)用具有重要意義。雙語術(shù)語對通常是通過人工翻譯或從雙語平行語料中自動提取獲得的。然而,人工翻譯需要一定的專業(yè)知識且耗時(shí)耗力,而特定領(lǐng)域的雙語平行語料也很難具有較大規(guī)模。但是同一領(lǐng)域中各種語言的單語術(shù)語庫卻較易獲得。為此,提出一種基于兩種不同語言的單語術(shù)語庫自動實(shí)現(xiàn)術(shù)語對齊,以構(gòu)建雙語術(shù)語對照表的方法。該方法首先利用多個(gè)在線機(jī)器翻譯引擎通過投票機(jī)制生成目標(biāo)端“偽”術(shù)語,然后利用目標(biāo)端“偽”術(shù)語從目標(biāo)端術(shù)語庫中檢索得到目標(biāo)端術(shù)語候選集合,最后采用基于mBERT的語義匹配算法對目標(biāo)端候選集合進(jìn)行重排序,從而獲得最終的雙語術(shù)語對。計(jì)算機(jī)科學(xué)、土木工程和醫(yī)學(xué)三個(gè)領(lǐng)域的中英文雙語術(shù)語對齊實(shí)驗(yàn)結(jié)果表明,該方法能夠提高雙語術(shù)語抽取的準(zhǔn)確率。

    關(guān)鍵詞:雙語術(shù)語;單語術(shù)語庫;術(shù)語對齊;語義匹配

    中圖分類號:TP391;H083? 文獻(xiàn)標(biāo)識碼:A? DOI:10.12339/j.issn.1673-8578.2022.01.002

    Bilingual Terminology Alignment Based on Chinese-English Monolingual Terminological Bank//XIANG Lu, ZHOU Yu, ZONG Chengqing

    Abstract: Bilingual terminologies are essential resources in natural language processing, which are of great significance for many multilingual applications such as cross-lingual information retrieval and machine translation. Bilingual terminology pairs are usually obtained by either human translation or automatic extraction from a bilingual parallel corpus. However, human translation requires professional knowledge and is time-consuming and labor-intensive. Besides, it is not easy to have a large bilingual parallel corpus in a specific domain. But the monolingual terminology banks of various languages in the same domain are relatively easy to obtain. Therefore, this paper proposes a novel method to extract bilingual terminology pairs by automatically aligning terms from monolingual terminology banks of two languages. Firstly, multiple online machine translation engines are adopted to generate the target pseudo terminology through a voting mechanism. Secondly, the target pseudo terminology is used to retrieve from the target terminology bank to obtain the candidate set of target terminologies. Finally, a mBERT-based semantic matching model is used to re-rank the candidate set and obtain the final bilingual terminology pair. Experimental results of Chinese-English bilingual terminology alignment on three domains, including computer science, civil engineering, and medicine, show that our proposed method can effectively improve the accuracy of bilingual terminology extraction.

    Keywords: bilingual terminology; monolingual terminological bank; terminology alignment; semantic matching

    引言

    術(shù)語是專業(yè)領(lǐng)域中概念的語言指稱(GB/T 10112—959),也可定義為“通過語言或文字來表達(dá)或限定專業(yè)概念的約定性語言符號”[1-2]。術(shù)語通常由一個(gè)或多個(gè)詞匯單元組成,包含了一個(gè)領(lǐng)域的基本知識。隨著全球化進(jìn)程的快速發(fā)展,不同語言間的知識、技術(shù)交流的需求愈加迫切和頻繁。而術(shù)語作為知識的核心載體,其相互翻譯卻成為各國間知識、技術(shù)交流的最大障礙之一[3]。因此,研究雙語術(shù)語自動抽取方法對于雙語術(shù)語詞典構(gòu)建、跨語言信息檢索和機(jī)器翻譯等應(yīng)用都具有十分重要的實(shí)用價(jià)值。

    人工翻譯構(gòu)建是獲得高質(zhì)量雙語術(shù)語的一種可靠方式,但是人工翻譯需要一定的專業(yè)知識且耗時(shí)耗力。為此,許多研究者提出了從不同資源中抽取雙語術(shù)語的方法,包括基于平行語料庫的雙語術(shù)語抽取[4-8]和基于可比語料庫的雙語術(shù)語抽取[9-10]?;谄叫校杀龋┱Z料庫的雙語術(shù)語自動抽取通常分為兩個(gè)步驟,首先通過單語術(shù)語抽取分別得到兩個(gè)語言的單語術(shù)語候選表,而后通過計(jì)算候選術(shù)語在平行(可比)語料中的共現(xiàn)概率或基于雙語詞典計(jì)算術(shù)語對的翻譯概率,其中概率高于預(yù)設(shè)閾值的候選結(jié)果將抽取作為雙語術(shù)語。由于平行語料的文本是互為譯文的關(guān)系,基于平行語料庫的雙語術(shù)語抽取能夠獲得較高的準(zhǔn)確率。但是對于眾多語言對,尤其是低資源語言,特定領(lǐng)域的雙語平行數(shù)據(jù)非常稀缺且難以獲取。此外,受限于可比語料庫的規(guī)模和質(zhì)量,從其中抽取雙語術(shù)語對的準(zhǔn)確率往往較低。

    相比于雙語平行(可比)語料庫,同一領(lǐng)域中不同語言的單語術(shù)語庫更容易獲得??梢允且呀?jīng)構(gòu)建好的單語術(shù)語庫,也可以利用現(xiàn)有的單語術(shù)語抽取方法[11-14]對單語語料庫進(jìn)行自動抽取獲得。

    基于此,本文提出一種從兩種不同語種的單語術(shù)語庫中自動進(jìn)行術(shù)語對齊以抽取雙語術(shù)語對的方法。該方法僅利用單語術(shù)語本身的信息,而不依賴于上下文信息,在獲取不同語言同一領(lǐng)域的單語術(shù)語庫后,能夠迅速抽取雙語術(shù)語對。具體地,對于一個(gè)源端術(shù)語,該方法首先利用多個(gè)在線機(jī)器翻譯引擎通過投票機(jī)制生成目標(biāo)端“偽”術(shù)語,然后通過目標(biāo)端“偽”術(shù)語與目標(biāo)端術(shù)語庫中的術(shù)語之間的文本相似度篩選出目標(biāo)端術(shù)語候選集合,最后通過基于mBERT(multilingual bidirectional encoder representation from transformers)[15] 的語義匹配模型對源端術(shù)語和目標(biāo)端術(shù)語候選集的語義相似度重排序,從而獲得最終的雙語術(shù)語對。本文提出的方法在計(jì)算機(jī)科學(xué)、土木工程和醫(yī)學(xué)三個(gè)領(lǐng)域的中英單語術(shù)語庫上進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明本文所提方法能夠顯著地提高雙語術(shù)語抽取的準(zhǔn)確率。

    本文的組織結(jié)構(gòu)如下:第1部分介紹雙語術(shù)語抽取的相關(guān)工作,第2部分對本文的任務(wù)進(jìn)行形式化描述,第3部分對本文所提出的面向單語術(shù)語庫的雙語術(shù)語對齊方法進(jìn)行詳細(xì)介紹,第4部分介紹本文所使用的數(shù)據(jù)集和實(shí)驗(yàn)設(shè)置,并給出詳細(xì)的實(shí)驗(yàn)結(jié)果和分析,最后進(jìn)行總結(jié)和展望。

    1 相關(guān)工作

    1.1 單語術(shù)語抽取

    自動術(shù)語抽取是從文本集合中自動抽取領(lǐng)域相關(guān)的詞或短語,是本體構(gòu)建、文本摘要和知識圖譜等領(lǐng)域的關(guān)鍵基礎(chǔ)問題和研究熱點(diǎn)[11]。根據(jù)單語術(shù)語抽取的原理,可以將方法分為三類:基于規(guī)則的方法[12, 16-21],基于統(tǒng)計(jì)的方法[22-27] 和基于機(jī)器學(xué)習(xí)的方法[14, 28-31]。其中,基于機(jī)器學(xué)習(xí)的方法又可以細(xì)分為使用傳統(tǒng)機(jī)器學(xué)習(xí)的方法和使用神經(jīng)網(wǎng)絡(luò)的方法。不同的術(shù)語抽取方法可以相互融合集成,使用多種策略以提升性能。

    1.2 雙語術(shù)語抽取

    根據(jù)所使用語料的不同,雙語術(shù)語抽取可以分為基于平行語料庫的雙語術(shù)語抽取[3-8, 32-33]和基于可比語料庫的雙語術(shù)語抽取[9-10, 34-35]。其中,雙語平行語料由互為翻譯的源語言文本和目標(biāo)語言文本組成,而可比語料則是由不同語言同一主題的非互譯單語文本組成。雙語術(shù)語對齊的基本思路是術(shù)語及其翻譯往往出現(xiàn)在相似的上下文中[36]。

    從抽取方法上,雙語術(shù)語抽取以單語術(shù)語抽取為基礎(chǔ),也可以劃分為兩種方法:對稱策略抽取法,即先分別對兩種單語語料進(jìn)行單語術(shù)語抽取,然后對單語術(shù)語抽取的結(jié)果進(jìn)行雙語術(shù)語對齊;非對稱策略抽取法,即使用一種語言單語術(shù)語抽取的結(jié)果在另外一種語言單語語料上查找對應(yīng)的術(shù)語翻譯。

    在基于平行語料庫的雙語術(shù)語抽取上,孫樂等[4]根據(jù)詞性規(guī)則進(jìn)行單語術(shù)語抽取,然后融合句子字符長度信息計(jì)算翻譯概率,從而抽取雙語術(shù)語對。孫茂松等[3]使用短語對齊、組塊分析相結(jié)合的方法在雙語語料上進(jìn)行候選術(shù)語的抽取。張莉等[37]在孫樂等[4]的研究基礎(chǔ)上將術(shù)語語序位置信息引入術(shù)語對齊。劉勝奇等[38]提出使用多策略融合Giza++術(shù)語對齊方法,使用多種關(guān)聯(lián)和相似度提升術(shù)語對齊的對準(zhǔn)率。在基于可比語料的雙語術(shù)語抽取上,Rapp等[39]和Tanaka等[40]通過建立源語言文本與目標(biāo)語言文本的共現(xiàn)矩陣并進(jìn)行矩陣相似度計(jì)算來抽取翻譯等價(jià)對。Yu等[41]通過句法分析獲得細(xì)粒度的上下文信息,從而抽取中英雙語詞語對。Lee等[42]使用一種基于EM框架結(jié)合統(tǒng)計(jì)學(xué)、詞法、語言學(xué)、上下文和時(shí)空特征的無監(jiān)督混合模型來從可比語料中抽取雙語術(shù)語。

    不同于前述工作,本文主要關(guān)注的是從兩種語言的單語術(shù)語庫中自動進(jìn)行術(shù)語對齊,從而抽取雙語術(shù)語對。單語術(shù)語庫可以是已經(jīng)構(gòu)建好的單語術(shù)語庫,也可以利用現(xiàn)有的單語術(shù)語抽取方法進(jìn)行構(gòu)建。該方法僅利用單語術(shù)語本身的信息,而不依賴于上下文信息,在獲取不同語言同一領(lǐng)域的單語術(shù)語庫后,能夠迅速抽取雙語術(shù)語對。

    1.3 預(yù)訓(xùn)練模型詞向量

    深度學(xué)習(xí)給自然語言處理領(lǐng)域帶來了突破性的變革,其中一個(gè)關(guān)鍵的概念就是詞嵌入。作為最常見的文本特征表示方法之一,詞嵌入已被廣泛應(yīng)用于各種自然語言處理任務(wù)。分布式詞向量是利用神經(jīng)網(wǎng)絡(luò)模型來學(xué)習(xí)單詞的共現(xiàn)性,通過無監(jiān)督學(xué)習(xí)得到能夠表達(dá)詞語語義信息的低維度向量。

    最近,許多預(yù)訓(xùn)練模型通過不同的策略提升了語言表征能力。其中,Devlin等[15]提出了BERT模型。BERT模型的基礎(chǔ)是自注意力(self-attention)機(jī)制,利用自注意力機(jī)制可以獲取雙向的上下文信息,通過在海量的無監(jiān)督語料庫上訓(xùn)練獲得句子中每個(gè)單詞的上下文表示信息。BERT在多種自然語言處理任務(wù)上取得了最優(yōu)的研究成果[15, 43]。

    2 任務(wù)定義

    給定源端術(shù)語,雙語術(shù)語對齊任務(wù)旨在從目標(biāo)端術(shù)語集合中找到其對應(yīng)的翻譯,其形式化定義如下:

    給定源語言S中的一組術(shù)語集合QS,和目標(biāo)語言T中一組術(shù)語集合QT,QS和QT是同一領(lǐng)域(如醫(yī)學(xué)領(lǐng)域)不同語言的術(shù)語集合,本文的目標(biāo)是為每個(gè)源端術(shù)語wS∈QS,從目標(biāo)端術(shù)語集合QT中找到對應(yīng)的翻譯wT,從而獲得雙語術(shù)語對wS,wT。此處將雙語術(shù)語對wS,wT抽取的問題轉(zhuǎn)換為跨語言文本相似度度量任務(wù)。為了減小目標(biāo)端術(shù)語比對范圍,對于源端術(shù)語wS,首先利用多個(gè)在線機(jī)器翻譯引擎通過投票機(jī)制生成目標(biāo)端“偽”術(shù)語w'T,然后利用w'T和文本相似度算法對目標(biāo)端術(shù)語集合QT進(jìn)行篩選,獲得目標(biāo)端術(shù)語候選集合QcandT,最后對wS與候選集QcandT中的候選術(shù)語進(jìn)行語義相似度重排序,選取相似度最高的作為最終術(shù)語翻譯對。

    3 本文方法

    本文提出一種從兩種不同語種的單語術(shù)語庫中自動進(jìn)行術(shù)語對齊以抽取雙語術(shù)語對的方法。如圖1所示,該方法采用“生成—篩選—比較”的方式,共分為三個(gè)步驟:(1) 目標(biāo)語言偽術(shù)語生成,即利用多個(gè)在線翻譯引擎通過投票機(jī)制生成目標(biāo)語言偽術(shù)語;(2) 目標(biāo)語言術(shù)語候選集生成,通過最長公共子串(longest common sub-sequence, LCS)算法[43]對目標(biāo)語言術(shù)語庫進(jìn)行篩選,生成目標(biāo)語言術(shù)語候選集;(3) 基于語義相似度的重排序,通過預(yù)訓(xùn)練語言模型BERT對目標(biāo)語言術(shù)語候選集進(jìn)行基于跨語言語義相似度的排序,得到得分最高的目標(biāo)端術(shù)語,生成最終的雙語術(shù)語對。

    3.1 目標(biāo)端偽術(shù)語生成

    機(jī)器翻譯就是實(shí)現(xiàn)從源語言到目標(biāo)語言轉(zhuǎn)換的過程[44]。隨著深度學(xué)習(xí)和人工智能技術(shù)的快速發(fā)展,機(jī)器翻譯技術(shù)得到了快速發(fā)展,包括谷歌、百度、有道、搜狗等在內(nèi)的許多互聯(lián)網(wǎng)公司都已經(jīng)部署了各自的在線機(jī)器翻譯引擎。因此,本文借助已有的機(jī)器翻譯引擎作為不同語言之間的橋梁,將源語言術(shù)語轉(zhuǎn)換為目標(biāo)語言表述。由于術(shù)語翻譯的準(zhǔn)確性和專業(yè)性要求較高,通過機(jī)器翻譯引擎生成的目標(biāo)語言表述雖然一定程度上能夠表達(dá)源語言術(shù)語的含義,但是不能確保是完全正確的目標(biāo)語言術(shù)語,本文將其定義為“目標(biāo)端偽術(shù)語”。這些源語言術(shù)語對應(yīng)的目標(biāo)端偽術(shù)語需要和目標(biāo)端術(shù)語庫進(jìn)行進(jìn)一步的相似度計(jì)算才能最終確定其對應(yīng)的目標(biāo)端術(shù)語。表1給出了中文術(shù)語(源語言)、機(jī)器翻譯引擎翻譯結(jié)果以及標(biāo)準(zhǔn)的英語術(shù)語(目標(biāo)語言)的示例。

    利用多個(gè)在線翻譯引擎對源語言術(shù)語進(jìn)行翻譯,生成多個(gè)目標(biāo)端表述后,須從中選擇一個(gè)合適的表述作為源語言術(shù)語對應(yīng)的目標(biāo)端偽術(shù)語。本文采用多數(shù)投票法選擇最終目標(biāo)端偽術(shù)語。多數(shù)投票法以單個(gè)模型的預(yù)測結(jié)果為基礎(chǔ),采用少數(shù)服從多數(shù)的原則確定模型預(yù)測的結(jié)果。

    假設(shè)對于一個(gè)源語言術(shù)語wS,采用N個(gè)在線翻譯引擎對其進(jìn)行翻譯,得到目標(biāo)端偽術(shù)語集合Q'T=w'T1,w'T2,…,w'TN,統(tǒng)計(jì)w'Ti∈Q'T在目標(biāo)端偽術(shù)語集合中出現(xiàn)的次數(shù)countw'Ti,則目標(biāo)端偽術(shù)語w'T定義為:

    w'T=argw'Timaxcountw'Ti,w'Ti∈Q'T? ?(1)

    即w'T為得票數(shù)最多的翻譯結(jié)果,若同時(shí)有多個(gè)翻譯結(jié)果獲得最高票數(shù),則從中隨機(jī)選取一個(gè)作為最終目標(biāo)端偽術(shù)語。

    3.2 目標(biāo)端候選集生成

    在獲得目標(biāo)端偽術(shù)語的基礎(chǔ)上,若直接利用目標(biāo)端偽術(shù)語與目標(biāo)端術(shù)語集合中的每個(gè)目標(biāo)端標(biāo)準(zhǔn)術(shù)語進(jìn)行比對,則會存在噪聲多、時(shí)間成本高的問題。因此,本節(jié)將利用目標(biāo)端偽術(shù)語對目標(biāo)端術(shù)語集合進(jìn)行篩選,生成目標(biāo)端候選集,從而縮小標(biāo)準(zhǔn)術(shù)語的搜索空間。具體而言,通過目標(biāo)端偽術(shù)語和目標(biāo)端術(shù)語集合中的每個(gè)術(shù)語進(jìn)行相似度計(jì)算,這里采用LCS算法,保留相似度得分最高的K個(gè)術(shù)語形成候選集。

    如算法1所示,遍歷目標(biāo)端術(shù)語集合QT,計(jì)算由上一步獲得的目標(biāo)端偽術(shù)語w'T與目標(biāo)端術(shù)語集合中的術(shù)語wTi的相似度simscore(第4行),當(dāng)候選集中目標(biāo)端術(shù)語的個(gè)數(shù)小于K時(shí),直接將wTi加入到候選集U中,并更新候選集中相似度得分最小值LCSscore_L(第5—第11行)。當(dāng)候選集中目標(biāo)端術(shù)語個(gè)數(shù)等于K且simscore大于候選集中相似度得分最小值,則將得分最小的術(shù)語從候選集U中剔除,并從相似度得分集合scoreset刪除一個(gè)數(shù)值為LCSscore_L的元素,然后將wTi加入到候選集U中,同時(shí)更新候選集中相似度得分最小值LCSscore_L(第12—第20行)。當(dāng)遍歷完QT后,即可獲得目標(biāo)端候選集U。

    3.3 基于語義相似度的重排序

    由于LCS算法只考慮了詞形上的相似關(guān)系,而忽視了語義層面的相似關(guān)系,因此即便LCS相似度得分最高,在很多情況下依然無法獲取正確的目標(biāo)端術(shù)語。同時(shí),使用機(jī)器翻譯系統(tǒng)生成目標(biāo)端偽術(shù)語的過程也存在一定程度上的語義失真,因此,本文提出同時(shí)利用源語言術(shù)語和目標(biāo)端偽術(shù)語對目標(biāo)端候選集進(jìn)行語義層面的相似度計(jì)算,利用源語言術(shù)語信息進(jìn)一步增強(qiáng)目標(biāo)端術(shù)語選擇的性能。

    本文采用多語言預(yù)訓(xùn)練的BERT(mBERT)模型對源語言術(shù)語、目標(biāo)端偽術(shù)語和目標(biāo)候選集中的術(shù)語進(jìn)行語義表示。如圖2所示,輸入為“[SEP]”分隔的字符串,取第一位隱層源語言術(shù)語、目標(biāo)端偽術(shù)語和候選詞并按標(biāo)識符單元“[CLS]”的輸出,其中中文以字符為單位,英文以詞為單位,經(jīng)過非線性變化映射到一個(gè)固定維度的向量v作為“源語言術(shù)語—候選詞”的語義表示,并和可訓(xùn)練權(quán)重矩陣W∈

    Euclid Math TwoRA@

    n×k進(jìn)行相乘,如式(2)所示。

    score=softmax(vW)? ? ?(2)

    其中,n是輸出的固定維度,k是標(biāo)簽的數(shù)量,這里令k=2,標(biāo)簽分為兩種,即“語義相關(guān)”和“語義無關(guān)”。本文采用交叉熵?fù)p失對模型進(jìn)行優(yōu)化學(xué)習(xí)。

    使用mBERT語義相似度模型對候選集中所有術(shù)語進(jìn)行語義相似度打分后,按照得分從高到低依次進(jìn)行排序,得分最高的目標(biāo)端術(shù)語即為源語言術(shù)語對應(yīng)的目標(biāo)端術(shù)語(如圖1所示)。

    4 實(shí)驗(yàn)與結(jié)果

    本文在計(jì)算機(jī)科學(xué)、土木工程和醫(yī)學(xué)三個(gè)領(lǐng)域進(jìn)行了中英雙語術(shù)語對齊的實(shí)驗(yàn)。

    4.1 數(shù)據(jù)集構(gòu)造

    為了進(jìn)行雙語術(shù)語對齊的實(shí)驗(yàn),本文利用維基百科構(gòu)造了三個(gè)領(lǐng)域的中文術(shù)語庫和英文術(shù)語庫,包括計(jì)算機(jī)科學(xué)、土木工程和醫(yī)學(xué)。本文利用PetScan工具從維基百科上獲取符合特定條件的標(biāo)題列表,例如,使用“Language = en & Depth = 4 & Categories = Computer science”獲取計(jì)算機(jī)科學(xué)領(lǐng)域下的英文條目。在獲取對應(yīng)語言和領(lǐng)域下的標(biāo)題條目后,經(jīng)過簡單的規(guī)則處理,比如去掉純數(shù)字的條目、語言不正確的條目等,將過濾之后的標(biāo)題條目作為對應(yīng)領(lǐng)域的單語術(shù)語庫。在獲取單語術(shù)語庫后,由于在維基百科上,中文的頁面數(shù)遠(yuǎn)小于英文的頁面數(shù),因此,本文遍歷中文單語術(shù)語庫,利用維基百科的跨wiki鏈接(Interwiki links)來獲取對應(yīng)的英文術(shù)語,從而獲得雙語術(shù)語庫。利用上述方法獲取的術(shù)語庫的統(tǒng)計(jì)信息如表2所示。

    為了訓(xùn)練3.3節(jié)中的語義相似度模型,本文將中英雙語術(shù)語庫劃分成了訓(xùn)練集、驗(yàn)證集和測試集,具體數(shù)據(jù)規(guī)模如表3所示。在訓(xùn)練過程中,雙語術(shù)語是“語義相關(guān)”樣本,需要構(gòu)造“語義無關(guān)”樣本,對于訓(xùn)練集和驗(yàn)證集中的每一個(gè)中文術(shù)語,通過其對應(yīng)的英文端術(shù)語,采用LCS算法與英語單語術(shù)語庫中的其他術(shù)語進(jìn)行相似度計(jì)算,取相似度前5的英語端術(shù)語作為“語義無關(guān)”訓(xùn)練樣本,使訓(xùn)練語義相似度模型時(shí)的正負(fù)樣本比例為1∶5。

    在測試階段,源語言術(shù)語庫為測試集中的中文術(shù)語,目標(biāo)語言術(shù)語庫為英語單語術(shù)語庫,目標(biāo)是為中文術(shù)語找到其對應(yīng)的英語術(shù)語。

    4.2 實(shí)驗(yàn)設(shè)置

    在線翻譯引擎:在實(shí)驗(yàn)過程中,本文采用了5個(gè)在線翻譯引擎將中文單語術(shù)語庫中的術(shù)語翻譯成英文“偽”術(shù)語:谷歌翻譯、百度翻譯、有道翻譯、搜狗翻譯以及Bing翻譯。

    mBERT:在谷歌發(fā)布的多語言預(yù)訓(xùn)練模型BERT-Base、Multilingual Cased基礎(chǔ)上進(jìn)行微調(diào),數(shù)據(jù)采用4.1節(jié)所述方式進(jìn)行構(gòu)建,batch大小設(shè)為32,訓(xùn)練輪數(shù)設(shè)為30,輸入序列最大值為100,初始學(xué)習(xí)率為0.00005,其余保持默認(rèn)參數(shù)。

    評價(jià)指標(biāo):本文采用正確率(Accuracy)作為評價(jià)指標(biāo):

    Acc=|predict∩reference|reference? ? (3)

    其中,predict為模型獲得的雙語術(shù)語對集合,reference為標(biāo)準(zhǔn)的雙語術(shù)語對集合。|predict∩reference|代表模型預(yù)測正確的雙語術(shù)語對的個(gè)數(shù),reference代表標(biāo)準(zhǔn)雙語術(shù)語對的個(gè)數(shù)。

    基準(zhǔn)模型:為了對比所提“生成—篩選—比較”方法的有效性,本文將與以下基線模型進(jìn)行比較:

    (1)多翻譯引擎投票方法(基線系統(tǒng)1):使用4.2節(jié)所述的5種翻譯引擎對測試集中的中文術(shù)語進(jìn)行翻譯,然后采用多數(shù)投票法獲得對應(yīng)的英語術(shù)語。

    (2)跨語言相似度方法(基線系統(tǒng)2):直接使用預(yù)訓(xùn)練語言模型BERT-Base、Multilingual Cased對測試集中的中文術(shù)語和英語單語術(shù)語庫進(jìn)行編碼,得到對應(yīng)的句向量表示,然后計(jì)算一個(gè)中文術(shù)語和任意一個(gè)英文術(shù)語的句向量的余弦相似度,得分最高的為中文術(shù)語所對應(yīng)的英文術(shù)語。

    (3)多翻譯引擎投票+余弦相似度方法(基線系統(tǒng)3):該方法與基線系統(tǒng)2類似,都是通過BERT-Base、Multilingual Cased獲取句向量表示,然后計(jì)算余弦相似度。所不同的是,這里計(jì)算的是通過多翻譯引擎投票產(chǎn)生的英語表述與英語術(shù)語的相似度,得分最高的為中文術(shù)語所對應(yīng)的英文術(shù)語。

    4.3 實(shí)驗(yàn)結(jié)果

    在計(jì)算機(jī)科學(xué)、土木工程和醫(yī)學(xué)三個(gè)領(lǐng)域上進(jìn)行了中英雙語術(shù)語對齊的實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果見表4。

    通過該實(shí)驗(yàn)結(jié)果,可以看出以下信息。

    (1)當(dāng)前機(jī)器翻譯引擎對于術(shù)語的翻譯性能還有待提升。利用5個(gè)在線翻譯引擎通過投票機(jī)制生成的英語術(shù)語在計(jì)算機(jī)科學(xué)、土木工程和醫(yī)學(xué)領(lǐng)域上僅有43.34%/39.48%/46.23%的正確率。這也說明了自動構(gòu)建雙語術(shù)語庫對于提升翻譯系統(tǒng)的性能有著重要意義。

    (2)多語言BERT在中英語義相似度計(jì)算上表現(xiàn)很差(基線系統(tǒng)2:6.09%/3.68%/2.87%),其性能遠(yuǎn)低于基線系統(tǒng)1,這可能是由于多語言BERT沒有在任務(wù)對應(yīng)的雙語術(shù)語數(shù)據(jù)上微調(diào),中英文的語義空間對齊較差。而多語言BERT直接對英語偽術(shù)語和英文術(shù)語進(jìn)行語義相似度計(jì)算(基線系統(tǒng)3),其性能顯著優(yōu)于基線系統(tǒng)2,這表明多語言BERT在單一語言上能較好地表征語義相似度。

    (3) 本文所提方法在三個(gè)領(lǐng)域的雙語術(shù)語對齊上均顯著優(yōu)于基線系統(tǒng),該方法以基線系統(tǒng)1生成的結(jié)果作為輸入,使用LCS算法與英語標(biāo)準(zhǔn)術(shù)語庫比對,返回得分最高的10個(gè)英語術(shù)語組成候選集,最后利用mBERT進(jìn)行語義相似度重排序,實(shí)驗(yàn)結(jié)果表明所提方法能夠顯著提升雙語術(shù)語對齊的性能,從而得到更好的雙語術(shù)語庫。

    4.4 消融分析

    基本模塊分析:本文所提方法包含三個(gè)步驟:(1) 目標(biāo)語言偽術(shù)語生成,即利用多個(gè)在線翻譯引擎通過投票機(jī)制生成目標(biāo)語言偽術(shù)語;(2) 目標(biāo)語言術(shù)語候選集生成,通過文本相似度算法LCS對目標(biāo)語言術(shù)語庫進(jìn)行篩選,生成目標(biāo)語言術(shù)語候選集;(3) 基于語義相似度的重排序,通過預(yù)訓(xùn)練語言模型mBERT對目標(biāo)語言術(shù)語候選集進(jìn)行語義相似度重排序,得到得分最高的目標(biāo)端術(shù)語,生成最終的雙語術(shù)語對。表5展示了所提方法中不同模塊對最終結(jié)果的影響。

    其中,步驟(1)表示利用多個(gè)在線翻譯引擎通過投票機(jī)制生成目標(biāo)語言偽術(shù)語,+LCS表示使用目標(biāo)語言偽術(shù)語與目標(biāo)術(shù)語庫進(jìn)行LCS相似度計(jì)算,將得分最高的術(shù)語作為對應(yīng)的目標(biāo)端術(shù)語,+mBERT則是利用mBERT對LCS返回的得分最高的10個(gè)候選集進(jìn)行語義相似度重排序,取相似度得分最高的為目標(biāo)端術(shù)語。

    通過表5可以看出,相比于步驟(1),+LCS的性能有大幅提升,這說明對于部分術(shù)語,機(jī)器翻譯雖然不能將其完全翻譯正確,但部分能夠翻譯正確,LCS相似度計(jì)算能夠?qū)@種類型的術(shù)語進(jìn)行校正。表6展示了兩個(gè)示例,其中英文術(shù)語表示術(shù)語庫中正確的術(shù)語,英文偽術(shù)語表示步驟(1)產(chǎn)生的術(shù)語,LCS(Top5)表示LCS得分前5的術(shù)語,標(biāo)紅的術(shù)語為得分最高的術(shù)語。當(dāng)術(shù)語部分翻譯錯(cuò)誤時(shí),通過LCS可以從標(biāo)準(zhǔn)術(shù)語庫中找到對應(yīng)的正確術(shù)語。使用LCS產(chǎn)生候選集后,交由mBERT進(jìn)行語義相似度重排序,能夠進(jìn)一步提升雙語術(shù)語對齊的性能。表7展示了經(jīng)過步驟(1) → +LCS → +mBERT 三個(gè)步驟后,生成正確英語術(shù)語的例子。

    候選集規(guī)模的影響:步驟 (2)通過LCS相似度生成候選集。這里分析了生成候選集的質(zhì)量和候選集規(guī)模對最終雙語術(shù)語對齊的影響。圖3給出了LCS相似度前1—前200(Top 1—Top 200)的召回率。

    隨著候選集數(shù)目的增加,召回率也在增加。取LCS相似度前200的候選術(shù)語組成候選集后,計(jì)算機(jī)科學(xué)領(lǐng)域的召回率達(dá)到95.65%,土木工程領(lǐng)域的召回率達(dá)到92.19%,醫(yī)學(xué)領(lǐng)域的召回率達(dá)到91.99%。在獲得候選集之后,通過mBERT模型進(jìn)行語義相似度重排序選出最終術(shù)語。本文探討了候選術(shù)語數(shù)目對于最終雙語術(shù)語對齊的影響,將生成的不同規(guī)模的候選集交由mBERT模型進(jìn)行語義相似度重排序,最終正確率結(jié)果如圖4所示。

    可以看出,隨著候選集的增加,通過mBERT語義相似度重排序獲取雙語術(shù)語對的性能也會有一定的提升。當(dāng)候選集規(guī)模從5增加到60,雙語術(shù)語對齊的正確率提升較為明顯。當(dāng)候選集規(guī)模繼續(xù)增加,從60增加到200時(shí),雖然目標(biāo)端標(biāo)準(zhǔn)術(shù)語的召回率提升明顯,但是通過mBERT進(jìn)行語義相似度重排序后得到的結(jié)果并沒有明顯提升,在醫(yī)學(xué)領(lǐng)域和計(jì)算機(jī)領(lǐng)域上還出現(xiàn)了下降趨勢,經(jīng)過分析發(fā)現(xiàn)是由于過大的候選集會不可避免地帶來更多的噪聲,從而對語義相似度模型的排序造成一定干擾。此外,本文在構(gòu)造訓(xùn)練集的時(shí)候,正例和負(fù)例的比例是1∶5,這也會對語義相似度重排序的準(zhǔn)確率產(chǎn)生一定的影響。

    mBERT微調(diào)的影響:所提方法最后一步是利用mBERT對候選集進(jìn)行重排序得到最終結(jié)果。本文提出同時(shí)利用源語言術(shù)語和目標(biāo)端偽術(shù)語對目標(biāo)端候選集進(jìn)行語義層面的相似度計(jì)算。為了驗(yàn)證源端術(shù)語和目標(biāo)端術(shù)語對于mBERT模型性能的影響,本文在計(jì)算機(jī)科學(xué)和土木工程領(lǐng)域上對比了兩種微調(diào)方式:

    方式1:僅利用源語言術(shù)語和目標(biāo)端候選集對mBERT進(jìn)行微調(diào),以圖2中的例子為例,模型輸入為“[CLS] 邏輯卷軸管理[SEP] Logical volume management”。

    方式2:僅利用目標(biāo)端偽術(shù)語和目標(biāo)端候選集對mBERT進(jìn)行微調(diào),以圖2中的例子為例,模型輸入為“[CLS] Logical scroll management[SEP] Logical volume management”。

    模型訓(xùn)練過程中的參數(shù)與4.2節(jié)所述參數(shù)一致,訓(xùn)練數(shù)據(jù)中正負(fù)樣本比例為1∶5。模型訓(xùn)練完成后,對LCS算法返回的得分最高的10個(gè)英語術(shù)語組成的候選集進(jìn)行重排序,得分最高的術(shù)語為源端術(shù)語對應(yīng)的目標(biāo)端術(shù)語。實(shí)驗(yàn)結(jié)果如表8所示。其中,第1行到第3行顯示的是在計(jì)算機(jī)科學(xué)領(lǐng)域上的實(shí)驗(yàn)結(jié)果,第4到第6行顯示的是在土木工程領(lǐng)域上的實(shí)驗(yàn)結(jié)果。實(shí)驗(yàn)結(jié)果表明,相比于單一使用源語言術(shù)語或者目標(biāo)端偽術(shù)語,聯(lián)合使用這兩者的信息能夠增強(qiáng)語義相似度重排序的性能(第3行和第6行),提高模型抽取雙語術(shù)語對的能力。

    5 結(jié)語

    本文提出了一種面向兩種語言單語術(shù)語庫的雙語術(shù)語對齊方法,該方法由“生成—篩選—比較”三步組成,首先利用多個(gè)在線機(jī)器翻譯引擎通過投票機(jī)制生成目標(biāo)端“偽”術(shù)語,然后利用目標(biāo)端“偽”術(shù)語從目標(biāo)術(shù)語庫中檢索得到目標(biāo)端術(shù)語候選集合,最后采用基于mBERT的語義匹配算法對目標(biāo)端候選集合進(jìn)行重排序,從而獲得最終的雙語術(shù)語對。該方法可以僅僅利用單語術(shù)語庫本身的信息抽取雙語術(shù)語對。在計(jì)算機(jī)科學(xué)、土木工程和醫(yī)學(xué)三個(gè)領(lǐng)域上的中英雙語術(shù)語對齊實(shí)驗(yàn)結(jié)果表明,與基線系統(tǒng)相比,所提方法能夠有效地提高雙語術(shù)語抽取的性能。

    在未來的研究中,需要進(jìn)一步探索如何利用術(shù)語庫之外的信息提升雙語術(shù)語對齊的質(zhì)量,如利用互聯(lián)網(wǎng)大規(guī)模文本信息,學(xué)習(xí)更加準(zhǔn)確的融合上下文信息的術(shù)語表示。

    注釋

    ① PetScan工具:https://petscan.wmflabs.org。

    ② 跨wiki鏈接(Interwiki links):https://www.mediawiki.org/wiki/Manual:Interwiki。

    ③ 多語言預(yù)訓(xùn)練模型BERT-Base, Multilingual Cased:https://huggingface.co/bert-base-multilingual-cased。

    參考文獻(xiàn)

    [1] 馮志偉.現(xiàn)代術(shù)語學(xué)引論[M].北京:語文出版社,1997.

    [2] 杜波,田懷鳳,王立,等.基于多策略的專業(yè)領(lǐng)域術(shù)語抽取器的設(shè)計(jì)[J].計(jì)算機(jī)工程, 2005(14):159-160.

    [3] 孫茂松,李莉,劉知遠(yuǎn).面向中英平行專利的雙語術(shù)語自動抽取[J].清華大學(xué)學(xué)報(bào)(自然科學(xué)版), 2014,54(10):1339-1343.

    [4] 孫樂,金友兵,杜林,等.平行語料庫中雙語術(shù)語詞典的自動抽取[J].中文信息學(xué)報(bào), 2000(6):33-39.

    [5] HUANG G P, ZHANG J J, ZHOU Y, et al. A simple, straightforward and effective model for joint bilingual terms detection and word alignment in smt[C]//Proceedings of the Fifth Conference on Natural Language Processing and Chinese Computing & The Twenty Fourth International Conference on Computer Processing of Oriental Languages. Kunming, China, 2016:103-115.

    [6] LEFEVER E, MACKEN L, HOSTE V. Language-independent bilingual terminology extraction from a multilingual parallel corpus:A simple, straightforward and effective model for joint bilingual terms detection and word alignment in smt[C]//Proceedings of the 12th Conference of the European Chapter of the ACL (EACL 2009). 2009: 496-504.

    [7] FAN X, SHIMIZU N, NAKAGAWA H. Automatic extraction of bilingual terms from a chinese-japanese parallel corpus[C]//Proceedings of the 3rd International Universal Communication Symposium. 2009: 41-45.

    [8] 蔣俊梅.基于平行語料庫的雙語術(shù)語抽取系統(tǒng)研究[J].現(xiàn)代電子技術(shù), 2016, 39(15):108-111.

    [9] 康小麗,章成志,王惠臨.基于可比語料庫的雙語術(shù)語抽取研究述評[J].現(xiàn)代圖書情報(bào)技術(shù), 2009(10):7-13.

    [10] AKER A, PARAMITA M L, GAIZAUSKAS R. Extracting bilingual terminologies from comparable corpora[C]//Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Sofia, Bulgaria: Association for Computational Linguistics, 2013:402-411.

    [11] 張雪,孫宏宇,辛東興,等.自動術(shù)語抽取研究綜述[J].軟件學(xué)報(bào), 2020,31(7):2062-2094.

    [12] 李思良,許斌,楊玉基. DRTE:面向基礎(chǔ)教育的術(shù)語抽取方法[J].中文信息學(xué)報(bào),2018,32(3):101-109.

    [13] CRAM D, DAILLE B. Termsuit: Terminology extraction with term variant detection[C]//Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics. Berlin, Germany: Association for Computational Linguistics, 2016:13-18.

    [14] ZHANG Z, GAO J, CIRAVEGNA F. Semre-rank: Improving automatic term extraction by incorporating semantic relatedness with personalised pagerank[J]. ACM Transactions on Knowledge Discovery from Data (TKDD), 2018, 12(5): 1-41.

    [15] DEVLIN J, CHANG M W, LEE K, et al. Bert: Pre-training of deep bidirectional transformers for language understanding[C]//Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers). Minneapolis, Minnesota: Association for Computational Linguistics, 2019:4171-4186.

    [16]? BOURIGAULT D, GONZALEZ-MULLIER I, GROS C. Lexter, a natural language processing tool for terminology extraction[C]//Proceedings of the 7th EURALEX International Congress. Gteborg, Sweden: Novum Grafiska AB, 1996: 771-779.

    [17] JUSTESON J S, KATZ S M. Technical terminology: some linguistic properties and an algorithm for identification in text[J]. Natural language engineering, 1995, 1(1): 9-27.

    [18] 化柏林. 針對中文學(xué)術(shù)文獻(xiàn)的情報(bào)方法術(shù)語抽取[J]. 現(xiàn)代圖書情報(bào)技術(shù), 2013 (6): 68-75.

    [19] 祝清松, 冷伏海. 自動術(shù)語識別存在的問題及發(fā)展趨勢綜述[J]. 圖書情報(bào)工作, 2012, 56(18): 104-109.

    [20] 向音, 李蘇鳴. 領(lǐng)域術(shù)語特征分析:以軍語為例[J]. 中國科技術(shù)語, 2012, 14(5): 5-9.

    [21] 張樂,唐亮,易綿竹.融合多策略的軍事領(lǐng)域中文術(shù)語抽取研究[J].現(xiàn)代計(jì)算機(jī), 2020(26):9-16,20.

    [22] 屈鵬,王惠臨.面向信息分析的專利術(shù)語抽取研究[J].圖書情報(bào)工作, 2013,57(1):130-135.

    [23] 曾文,徐碩,張運(yùn)良,等.科技文獻(xiàn)術(shù)語的自動抽取技術(shù)研究與分析[J].現(xiàn)代圖書情報(bào)技術(shù), 2014(1):51-55.

    [24] 胡阿沛,張靜,劉俊麗.基于改進(jìn)C-value方法的中文術(shù)語抽取[J].現(xiàn)代圖書情報(bào)技術(shù), 2013(2):24-29.

    [25] JONES K S. A statistical interpretation of term specificity and its application in retrieval[J]. Journal of documentation, 2004.

    [26] CAMPOS R, MANGARAVITE V, PASQUALI A, et al. A text feature based automatic keyword extraction method for single documents[C]//European conference on information retrieval. Grenoble, France: Springer International Publishing, 2018:684-691.

    [27] VU T, AW A, ZHANG M. Term extraction through unithood and termhood unification[C]//Proceedings of the Third International Joint Conference on Natural Language Processing: Volume-II. 2008:631-636.

    [28] 賈美英,楊炳儒,鄭德權(quán),等.采用CRF技術(shù)的軍事情報(bào)術(shù)語自動抽取研究[J].計(jì)算機(jī)工程與應(yīng)用,2009,45(32):126-129.

    [29] 劉輝,劉耀.基于條件隨機(jī)場的專利術(shù)語抽取[J].數(shù)字圖書館論壇, 2014(12):46-49.

    [30] KUCZA M, NIEHUES J, ZENKEL T, et al. Term extraction via neural sequence labeling a comparative evaluation of strategies using recurrent neural networks[C]//19th Annual Conference of the International Speech Communication Association. Hyderabad, India: ISCA, 2018: 2072-2076.

    [31] HAZEM A, BOUHANDI M, BOUDIN F, et al. Termeval 2020: Taln-ls2n system for automatic term extraction[C]//Proceedings of the 6th International Workshop on Computational Terminology. Marseille, France: European Language Resources Association, 2020:95-100.

    [32] SEMMAR N. A hybrid approach for automatic extraction of bilingual multiword expressions from parallel corpora[C]//Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018). Miyazaki, Japan: European Language Resources Association (ELRA), 2018: 311-318.

    [33] REPAR A, PODPEAN V, VAVPETI A, et al. Termensembler: An ensemble learning approach to bilingual term extraction and alignment[J]. Terminology. International Journal of Theoretical and Applied Issues in Specialized Communication, 2019, 25(1): 93-120.

    [34] HAZEM A, MORIN E. Efficient data selection for bilingual terminology extraction from comparable corpora[C]//Proceedings of 26th International Conference on Computational Linguistics: Technical Papers (COLING).Osaka, Japan: The COLING 2016 Organizing Committee, 2016: 3401-3411.

    [35] KONTONATSIOS G, KORKONTZELOS I, TSUJII J, et al. Combining string and context similarity for bilingual term alignment from comparable corpora[C]//Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP).Doha, Qatar: Association for Computational Linguistics, 2014: 1701-1712.

    [36] DAILLE B, MORIN E. French-English terminology extraction from comparable corpora[C]//Second International Joint Conference on Natural Language Processing: Full Papers. Berlin, Heidelberg: Springer, 2005: 707-718.

    [37] 張莉,劉昱顯.基于語序位置特征的漢英術(shù)語對自動抽取研究[J].南京大學(xué)學(xué)報(bào)(自然科學(xué)), 2015,51(4):707-713.

    [38] 劉勝奇,朱東華.基于多策略融合Giza++的術(shù)語對齊法[J].軟件學(xué)報(bào), 2015,26(7):1650-1661.

    [39] RAPP R. Identifying word translations in non-parallel texts[C]//Proceedings of the 33rd Annual Meeting of the Association for Computational Linguistics. Cambridge, Massachusetts, USA: Association for Computational Linguistics, 1995:320-322.

    [40] TANAKA K, IWASAKI H. Extraction of lexical translations from non-aligned corpora[C]//Proceedings of the 16th International Conference on Computational Linguistics. Copenhagen, Denmark. 1996:580-585.

    [41] YU K, TSUJII J. Extracting bilingual dictionary from comparable corpora with dependency heterogeneity[C]//Proceedings of the Annual Conference of the North American Chapter of the Association for Computational Linguistics, Companion Volume: Short Papers. Boulder, Colorado: Association for Computational Linguistics, 2009: 121-124.

    [42] LEE L, AW A, ZHANG M, et al. Em-based hybrid model for bilingual terminology extraction from comparable corpora[C]//Proceedings of the 23rd International Conference on Computational Linguistics. Beijing, China:Coling 2010 Organizing Committee, 2010: 639-646.

    [43] LIU Y, OTT M, GOYAL N, et al. Roberta: A robustly optimized bert pretraining approach. arXiv preprint arXiv:1907.11692, 2019.

    [44] BAKKELUND D. An lcs-based string metric[J]. Olso, Norway: University of Oslo, 2009.

    [45] 宗成慶. 統(tǒng)計(jì)自然語言處理[M]. 北京: 清華大學(xué)出版社, 2013.

    作者簡介:向露(1988—),女,中國科學(xué)院自動化研究所模式識別國家重點(diǎn)實(shí)驗(yàn)室博士研究生, 主要研究方向?yàn)槿藱C(jī)對話系統(tǒng)、文本生成和自然語言處理。通信方式:lu.xiang@nlpr.ia.ac.cn。

    通訊作者:周玉(1976—),女,博士,中國科學(xué)院自動化研究所研究員,主要研究方向?yàn)樽詣诱C(jī)器翻譯和自然語言處理。通信方式:yzhou@nlpr.ia.ac.cn。

    宗成慶(1963—),男,博士,中國科學(xué)院自動化所研究員,中國科學(xué)院大學(xué)崗位教授,中國計(jì)算機(jī)學(xué)會會士,中國人工智能學(xué)會會士,主要從事自然語言處理和機(jī)器翻譯研究,出版專著《統(tǒng)計(jì)自然語言處理》和《文本數(shù)據(jù)挖掘》(中、英文版),發(fā)表論文200余篇。通信方式:cqzong@nlpr.ia.ac.cn。

    如何舔出高潮| 国产爱豆传媒在线观看| 欧美成人一区二区免费高清观看| 免费在线观看影片大全网站| 内射极品少妇av片p| 午夜激情福利司机影院| 亚洲av日韩精品久久久久久密| 亚洲专区中文字幕在线| 成熟少妇高潮喷水视频| 不卡一级毛片| 桃色一区二区三区在线观看| 国产v大片淫在线免费观看| 自拍偷自拍亚洲精品老妇| 久久精品国产亚洲av涩爱 | 淫妇啪啪啪对白视频| 91精品国产九色| 两个人视频免费观看高清| 99久久精品热视频| 国产极品精品免费视频能看的| 日本撒尿小便嘘嘘汇集6| 日本a在线网址| 亚洲一级一片aⅴ在线观看| 国产高清三级在线| 亚洲性夜色夜夜综合| 日本 av在线| 黄色欧美视频在线观看| 国产亚洲精品久久久com| or卡值多少钱| 香蕉av资源在线| 婷婷精品国产亚洲av在线| 伊人久久精品亚洲午夜| 国产成人av教育| 久久久久久久久大av| 在线观看免费视频日本深夜| 国产精品电影一区二区三区| 精品无人区乱码1区二区| 男女之事视频高清在线观看| 香蕉av资源在线| 精品人妻1区二区| 白带黄色成豆腐渣| 免费观看精品视频网站| 亚洲精品456在线播放app | 久久草成人影院| 亚洲欧美日韩卡通动漫| 日韩欧美精品v在线| 成人永久免费在线观看视频| 国产精品一区二区免费欧美| 一个人免费在线观看电影| 国产精品一区二区性色av| 中文字幕久久专区| 99久久成人亚洲精品观看| 韩国av在线不卡| 少妇裸体淫交视频免费看高清| 久久中文看片网| 久久精品夜夜夜夜夜久久蜜豆| 一级黄色大片毛片| 成年女人毛片免费观看观看9| www.色视频.com| 91久久精品电影网| 久久精品国产亚洲av涩爱 | 国产伦精品一区二区三区视频9| 国产乱人伦免费视频| 人妻丰满熟妇av一区二区三区| 国产久久久一区二区三区| 国国产精品蜜臀av免费| 国产精品福利在线免费观看| 免费观看精品视频网站| 精品日产1卡2卡| 国产v大片淫在线免费观看| 国产精品一区www在线观看 | 制服丝袜大香蕉在线| 午夜福利18| 国内精品久久久久精免费| 午夜老司机福利剧场| 色哟哟·www| 免费av毛片视频| 18禁黄网站禁片免费观看直播| 又粗又爽又猛毛片免费看| 又紧又爽又黄一区二区| 麻豆一二三区av精品| 俺也久久电影网| 亚洲最大成人av| 精品人妻1区二区| 免费无遮挡裸体视频| 欧美潮喷喷水| 精品99又大又爽又粗少妇毛片 | 91狼人影院| 成人综合一区亚洲| 免费无遮挡裸体视频| 桃红色精品国产亚洲av| 国产伦人伦偷精品视频| 午夜福利欧美成人| 欧美区成人在线视频| 久久久久久久亚洲中文字幕| 国产在线精品亚洲第一网站| 岛国在线免费视频观看| 亚洲一区二区三区色噜噜| 日韩在线高清观看一区二区三区 | 欧美高清性xxxxhd video| 一进一出抽搐动态| 麻豆国产av国片精品| 亚洲av免费高清在线观看| 午夜亚洲福利在线播放| 欧美+亚洲+日韩+国产| 国产成人一区二区在线| 亚洲第一电影网av| 国产久久久一区二区三区| 床上黄色一级片| 婷婷色综合大香蕉| 国产爱豆传媒在线观看| 欧美+亚洲+日韩+国产| 日韩中文字幕欧美一区二区| 久久精品91蜜桃| 亚洲av五月六月丁香网| 麻豆一二三区av精品| 十八禁国产超污无遮挡网站| 男人的好看免费观看在线视频| 极品教师在线免费播放| 亚洲一级一片aⅴ在线观看| 熟女电影av网| 国产美女午夜福利| 色吧在线观看| 波多野结衣高清作品| av在线蜜桃| 成人国产综合亚洲| 国产单亲对白刺激| 少妇人妻精品综合一区二区 | 久久久久性生活片| 99久久成人亚洲精品观看| 成人一区二区视频在线观看| 如何舔出高潮| 我要搜黄色片| 国产精品自产拍在线观看55亚洲| 国产男人的电影天堂91| 国产高清激情床上av| 日日啪夜夜撸| 亚洲欧美日韩东京热| 国产精品永久免费网站| 久久国内精品自在自线图片| 一个人免费在线观看电影| 女生性感内裤真人,穿戴方法视频| 国产91精品成人一区二区三区| 亚洲精品成人久久久久久| 99国产极品粉嫩在线观看| 国产极品精品免费视频能看的| 网址你懂的国产日韩在线| 91狼人影院| 亚洲成av人片在线播放无| 国产人妻一区二区三区在| 99九九线精品视频在线观看视频| 一进一出好大好爽视频| 亚洲图色成人| 午夜爱爱视频在线播放| 一个人免费在线观看电影| 99九九线精品视频在线观看视频| 一级毛片久久久久久久久女| 99热网站在线观看| 日韩欧美精品v在线| 精品久久久久久,| 97碰自拍视频| 尤物成人国产欧美一区二区三区| 色精品久久人妻99蜜桃| 日本精品一区二区三区蜜桃| 日本 av在线| 久久久久久九九精品二区国产| a级一级毛片免费在线观看| 99久久精品一区二区三区| 色综合婷婷激情| 免费黄网站久久成人精品| 高清在线国产一区| 黄色丝袜av网址大全| 国产v大片淫在线免费观看| 少妇人妻精品综合一区二区 | 美女 人体艺术 gogo| 亚洲国产精品成人综合色| 天堂动漫精品| 日韩欧美 国产精品| 国产白丝娇喘喷水9色精品| 亚洲av五月六月丁香网| av专区在线播放| 午夜福利成人在线免费观看| 精品午夜福利视频在线观看一区| 九九爱精品视频在线观看| 亚洲人成网站高清观看| 99热精品在线国产| 亚洲性久久影院| 亚洲欧美日韩东京热| 国产乱人伦免费视频| 欧美一级a爱片免费观看看| 男女那种视频在线观看| 欧美3d第一页| 欧美3d第一页| 欧美极品一区二区三区四区| 极品教师在线视频| 欧洲精品卡2卡3卡4卡5卡区| 别揉我奶头 嗯啊视频| 级片在线观看| 啦啦啦观看免费观看视频高清| 可以在线观看毛片的网站| 午夜视频国产福利| 中文字幕高清在线视频| 18+在线观看网站| 成人精品一区二区免费| 老司机福利观看| 特大巨黑吊av在线直播| 窝窝影院91人妻| 简卡轻食公司| 狠狠狠狠99中文字幕| 亚洲最大成人av| 毛片一级片免费看久久久久 | 最后的刺客免费高清国语| 久久久久久久精品吃奶| 国产一区二区亚洲精品在线观看| 中文字幕熟女人妻在线| 99久久无色码亚洲精品果冻| 国内精品宾馆在线| 禁无遮挡网站| 色播亚洲综合网| 亚洲国产精品成人综合色| 偷拍熟女少妇极品色| 99riav亚洲国产免费| 51国产日韩欧美| 在线观看美女被高潮喷水网站| 嫩草影院入口| 午夜爱爱视频在线播放| av在线老鸭窝| 美女被艹到高潮喷水动态| 久久久久久久久久成人| 身体一侧抽搐| 日韩中字成人| 97超视频在线观看视频| 精品午夜福利在线看| 久久人人爽人人爽人人片va| 久久久久久国产a免费观看| 18禁在线播放成人免费| 99久久无色码亚洲精品果冻| 欧美色视频一区免费| 99精品在免费线老司机午夜| 蜜桃久久精品国产亚洲av| 亚洲精华国产精华液的使用体验 | 此物有八面人人有两片| 久久精品久久久久久噜噜老黄 | 国产男人的电影天堂91| 观看美女的网站| 嫩草影院新地址| 黄色视频,在线免费观看| 69av精品久久久久久| 午夜福利在线观看吧| 高清毛片免费观看视频网站| 可以在线观看的亚洲视频| 久久草成人影院| 中文字幕人妻熟人妻熟丝袜美| 黄色欧美视频在线观看| 亚洲无线观看免费| 精品不卡国产一区二区三区| 日本免费一区二区三区高清不卡| 亚洲成人精品中文字幕电影| 久久精品国产清高在天天线| 丰满乱子伦码专区| 欧美日韩中文字幕国产精品一区二区三区| 听说在线观看完整版免费高清| 国产精品爽爽va在线观看网站| 午夜福利在线观看吧| 男人的好看免费观看在线视频| 午夜老司机福利剧场| 亚洲四区av| xxxwww97欧美| 淫秽高清视频在线观看| 两个人视频免费观看高清| 久久久色成人| 无人区码免费观看不卡| av在线老鸭窝| 在线观看66精品国产| 亚洲专区中文字幕在线| 国内精品美女久久久久久| 12—13女人毛片做爰片一| 精品久久久久久久久亚洲 | 国产欧美日韩一区二区精品| 亚洲图色成人| 久久久久久久久中文| 国产色婷婷99| 婷婷亚洲欧美| 成人国产一区最新在线观看| 久久久久久国产a免费观看| 免费人成视频x8x8入口观看| 很黄的视频免费| 久久久精品大字幕| 欧美不卡视频在线免费观看| 22中文网久久字幕| 婷婷六月久久综合丁香| 国产一区二区激情短视频| 一区二区三区免费毛片| 国产中年淑女户外野战色| 午夜精品一区二区三区免费看| 又黄又爽又免费观看的视频| 伦理电影大哥的女人| 在线观看免费视频日本深夜| 成人av一区二区三区在线看| 久久精品夜夜夜夜夜久久蜜豆| 哪里可以看免费的av片| 午夜精品久久久久久毛片777| 国产大屁股一区二区在线视频| 波野结衣二区三区在线| 自拍偷自拍亚洲精品老妇| 亚洲狠狠婷婷综合久久图片| 夜夜爽天天搞| 久99久视频精品免费| 国产高清三级在线| h日本视频在线播放| 亚洲精品日韩av片在线观看| 久久久精品欧美日韩精品| 简卡轻食公司| 淫妇啪啪啪对白视频| 精品不卡国产一区二区三区| 我的女老师完整版在线观看| 春色校园在线视频观看| 老女人水多毛片| h日本视频在线播放| 男女啪啪激烈高潮av片| 日本与韩国留学比较| 丰满乱子伦码专区| 高清毛片免费观看视频网站| 欧美3d第一页| 国产激情偷乱视频一区二区| 三级男女做爰猛烈吃奶摸视频| 成人三级黄色视频| 床上黄色一级片| 国产亚洲av嫩草精品影院| 别揉我奶头 嗯啊视频| 欧美绝顶高潮抽搐喷水| 亚洲精品亚洲一区二区| 久久精品影院6| 亚洲四区av| 日本三级黄在线观看| 尾随美女入室| 大型黄色视频在线免费观看| 丰满的人妻完整版| 欧美性感艳星| 国产成人aa在线观看| 男女那种视频在线观看| 欧美日韩瑟瑟在线播放| 亚洲美女黄片视频| 露出奶头的视频| 午夜精品久久久久久毛片777| 精品人妻一区二区三区麻豆 | 欧美一区二区亚洲| 亚洲人成伊人成综合网2020| 亚洲在线观看片| 欧美人与善性xxx| 精品人妻偷拍中文字幕| 精品午夜福利在线看| 俺也久久电影网| 亚洲人成网站高清观看| 国产精品亚洲一级av第二区| 国产精品免费一区二区三区在线| 日日干狠狠操夜夜爽| 亚洲精品456在线播放app | 亚州av有码| 亚洲最大成人手机在线| 欧美另类亚洲清纯唯美| 欧美人与善性xxx| 国产一区二区在线观看日韩| 男女视频在线观看网站免费| 99热这里只有精品一区| 国产伦一二天堂av在线观看| 成人国产一区最新在线观看| 十八禁网站免费在线| 午夜福利在线观看吧| 特大巨黑吊av在线直播| 老熟妇乱子伦视频在线观看| 久久久成人免费电影| 春色校园在线视频观看| 乱码一卡2卡4卡精品| 欧美最黄视频在线播放免费| 麻豆成人av在线观看| 九九久久精品国产亚洲av麻豆| 亚洲精华国产精华精| 干丝袜人妻中文字幕| 成人永久免费在线观看视频| 日本与韩国留学比较| 男女之事视频高清在线观看| 老司机午夜福利在线观看视频| 不卡视频在线观看欧美| 美女高潮喷水抽搐中文字幕| 午夜激情福利司机影院| 成人永久免费在线观看视频| 久久这里只有精品中国| 亚洲精品久久国产高清桃花| 久久久久久久久久久丰满 | 日本五十路高清| 制服丝袜大香蕉在线| 内地一区二区视频在线| 国产精品一区二区三区四区免费观看 | 国产一区二区三区在线臀色熟女| 成年人黄色毛片网站| 国产色婷婷99| 22中文网久久字幕| 欧美性猛交黑人性爽| 中文字幕精品亚洲无线码一区| 18+在线观看网站| 久久人人精品亚洲av| 男女之事视频高清在线观看| 老司机福利观看| av福利片在线观看| 97超视频在线观看视频| 国产淫片久久久久久久久| 真人做人爱边吃奶动态| 欧美又色又爽又黄视频| 免费看美女性在线毛片视频| 91精品国产九色| 精品福利观看| 我的女老师完整版在线观看| 精品欧美国产一区二区三| 国产伦精品一区二区三区四那| 午夜免费成人在线视频| 精品免费久久久久久久清纯| 99热这里只有精品一区| 在线天堂最新版资源| 精品久久久久久久久av| 日韩 亚洲 欧美在线| 波多野结衣高清无吗| 麻豆国产97在线/欧美| 国产日本99.免费观看| 欧美高清成人免费视频www| 午夜免费成人在线视频| 岛国在线免费视频观看| 日本在线视频免费播放| 国产高潮美女av| 国产伦人伦偷精品视频| 一本精品99久久精品77| 22中文网久久字幕| 一级毛片久久久久久久久女| 成人亚洲精品av一区二区| 日本黄色视频三级网站网址| 狂野欧美激情性xxxx在线观看| 欧美极品一区二区三区四区| 夜夜看夜夜爽夜夜摸| 免费高清视频大片| 成人av在线播放网站| 国产激情偷乱视频一区二区| 欧美又色又爽又黄视频| 男女视频在线观看网站免费| 国产 一区 欧美 日韩| 美女大奶头视频| 久久久久久久精品吃奶| 人妻丰满熟妇av一区二区三区| 亚洲自拍偷在线| 国产亚洲精品久久久com| 欧美+日韩+精品| 91麻豆精品激情在线观看国产| 一进一出抽搐动态| 成年版毛片免费区| 亚洲国产欧美人成| 成年女人毛片免费观看观看9| ponron亚洲| 亚洲国产精品成人综合色| 精品久久久久久久久久免费视频| 亚洲一级一片aⅴ在线观看| 久久久久久久精品吃奶| 淫妇啪啪啪对白视频| 国产真实伦视频高清在线观看 | 欧美+日韩+精品| 亚洲精品色激情综合| 久99久视频精品免费| 不卡视频在线观看欧美| 88av欧美| 色视频www国产| av.在线天堂| 国产伦人伦偷精品视频| 精品久久久噜噜| 亚洲精品成人久久久久久| 国产淫片久久久久久久久| 久久久久国产精品人妻aⅴ院| 亚洲熟妇熟女久久| 老司机福利观看| av.在线天堂| 欧美成人性av电影在线观看| 91狼人影院| 国产一区二区在线av高清观看| 色av中文字幕| 91午夜精品亚洲一区二区三区 | 国产欧美日韩精品一区二区| 精品久久久久久久久亚洲 | 欧美不卡视频在线免费观看| 九色成人免费人妻av| 老司机福利观看| 国产高清视频在线播放一区| 亚洲av熟女| 国产伦精品一区二区三区四那| 一a级毛片在线观看| av女优亚洲男人天堂| 久久精品国产亚洲av涩爱 | 欧美极品一区二区三区四区| 91久久精品电影网| 色播亚洲综合网| 波多野结衣巨乳人妻| 黄色女人牲交| 麻豆精品久久久久久蜜桃| 变态另类成人亚洲欧美熟女| 91久久精品国产一区二区三区| 99久久成人亚洲精品观看| 婷婷精品国产亚洲av在线| 日韩欧美精品免费久久| 色5月婷婷丁香| 美女高潮喷水抽搐中文字幕| 老司机午夜福利在线观看视频| 悠悠久久av| 日本 欧美在线| 亚洲国产日韩欧美精品在线观看| 美女黄网站色视频| 久久草成人影院| 国产乱人视频| a在线观看视频网站| 又黄又爽又免费观看的视频| 免费av不卡在线播放| 制服丝袜大香蕉在线| 波多野结衣巨乳人妻| 日韩欧美三级三区| 亚洲av电影不卡..在线观看| 欧美日本亚洲视频在线播放| 成人av在线播放网站| 一级黄色大片毛片| 午夜亚洲福利在线播放| 日日夜夜操网爽| 丰满人妻一区二区三区视频av| 国产单亲对白刺激| 成人国产一区最新在线观看| 国产亚洲精品久久久com| 看十八女毛片水多多多| 国产精品女同一区二区软件 | 日本 av在线| 干丝袜人妻中文字幕| 男女啪啪激烈高潮av片| 国产精华一区二区三区| 免费无遮挡裸体视频| 免费观看人在逋| 日韩欧美在线乱码| 少妇的逼好多水| 九色国产91popny在线| eeuss影院久久| 久久精品国产亚洲网站| 国产精品一区二区性色av| 中亚洲国语对白在线视频| 日本熟妇午夜| 黄色视频,在线免费观看| 成人一区二区视频在线观看| 亚洲一级一片aⅴ在线观看| av黄色大香蕉| 久久亚洲精品不卡| 啦啦啦啦在线视频资源| 午夜免费成人在线视频| 无人区码免费观看不卡| 老熟妇仑乱视频hdxx| 春色校园在线视频观看| 一区二区三区激情视频| 中国美女看黄片| 国产精品国产高清国产av| 天美传媒精品一区二区| 亚洲国产日韩欧美精品在线观看| 亚洲国产欧美人成| 啦啦啦韩国在线观看视频| 亚洲国产欧洲综合997久久,| 国产又黄又爽又无遮挡在线| 搡女人真爽免费视频火全软件 | 哪里可以看免费的av片| 久久人妻av系列| 他把我摸到了高潮在线观看| 亚洲人成网站在线播| 欧美日韩精品成人综合77777| 成年免费大片在线观看| 亚洲av中文av极速乱 | 欧美日韩综合久久久久久 | 国产麻豆成人av免费视频| 一区二区三区高清视频在线| 男人和女人高潮做爰伦理| 日韩中文字幕欧美一区二区| 成人无遮挡网站| 亚洲中文字幕日韩| 最后的刺客免费高清国语| 欧美最新免费一区二区三区| 久久天躁狠狠躁夜夜2o2o| 免费av不卡在线播放| 美女cb高潮喷水在线观看| 亚洲第一区二区三区不卡| 在线免费十八禁| 嫩草影视91久久| 国产亚洲欧美98| www日本黄色视频网| 中文字幕免费在线视频6| 99热网站在线观看| 国产又黄又爽又无遮挡在线| 日本精品一区二区三区蜜桃| 天堂网av新在线| 免费高清视频大片| 免费观看精品视频网站| 精品久久久久久久久av| 赤兔流量卡办理| 极品教师在线免费播放| 内射极品少妇av片p| 岛国在线免费视频观看| 成年版毛片免费区| 97热精品久久久久久| 国产视频一区二区在线看| 国产精华一区二区三区| 我的老师免费观看完整版| 精品人妻熟女av久视频| 日韩精品青青久久久久久| xxxwww97欧美| 日韩中字成人| 亚洲不卡免费看| 亚洲av.av天堂| 成人美女网站在线观看视频| 国产男人的电影天堂91| 国产av麻豆久久久久久久| 亚洲精品国产成人久久av|