• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    編碼器-解碼器模型合成漢英語碼轉(zhuǎn)換文本

    2022-11-16 00:50:56黃哲瑩劉作楨徐及趙慶衛(wèi)
    信號處理 2022年10期
    關(guān)鍵詞:語種解碼器數(shù)據(jù)量

    黃哲瑩 劉作楨 徐及 趙慶衛(wèi)

    (1.中國科學(xué)院大學(xué),北京 100049;2.中國科學(xué)院聲學(xué)研究所語音與智能信息處理實(shí)驗(yàn)室,北京 100190)

    1 引言

    “語碼轉(zhuǎn)換”(Code-Switching,CS)是指在一句話中出現(xiàn)語言切換的現(xiàn)象[1-3]。隨著全球化的發(fā)展,越來越多的人掌握了兩種或者兩種以上的語言,CS在人們的日常交流中非常普遍,由此催生了人們對CS自然語言處理(Natural Language Processing,NLP)技術(shù)的需求[4]。語言模型建模是多個(gè)NLP任務(wù)的上游工作,雖然單語種語言模型已經(jīng)能非常成功地被應(yīng)用到多個(gè)自然語言處理任務(wù)中[5-7],但是CS語言建模仍舊是一項(xiàng)非常艱巨的挑戰(zhàn),CS文本數(shù)據(jù)的稀缺問題就是其主要挑戰(zhàn)之一。CS文本數(shù)據(jù)的稀缺,會大大降低語言模型的性能。當(dāng)前主流的研究思路有3種,(1)構(gòu)建跨語言詞向量,將不同語種的單詞映射到一個(gè)共享的向量空間[5,8-9],這種方法不受CS 文本數(shù)量的限制,但是它卻沒有對跨語種的詞序列依賴關(guān)系進(jìn)行建模。(2)使用基于矩陣語言框架理論、等價(jià)約束理論、功能頭約束理論等主要語言學(xué)理論來合成CS 文本數(shù)據(jù)[10-11],但是這類方法需要額外的對齊器、句法分析器來處理兩個(gè)單語種句子,而現(xiàn)存的研究中利用到詞對齊器和詞性標(biāo)注器性能都不容樂觀,并且對于語法結(jié)構(gòu)、句法結(jié)構(gòu)差別巨大的兩種語言而言,反而會加劇問題,比如漢語與英語在語法結(jié)構(gòu)、句法結(jié)構(gòu)上迥然不同,由此這個(gè)方法會導(dǎo)致后續(xù)雙語CS 文本的生成自然度比較差。(3)將基于神經(jīng)網(wǎng)絡(luò)的單語種語言模型擴(kuò)展為基于神經(jīng)網(wǎng)絡(luò)的CS語言模型,輸入與輸出采用共通的跨語種詞向量[12],并將類合并到神經(jīng)網(wǎng)絡(luò)語言模型中,但是這種方法仍然受CS文本數(shù)據(jù)稀缺問題的限制。

    為了解決CS文本數(shù)據(jù)稀缺的問題,本文采用合成CS 文本的思路,本文在第2 節(jié)提出了基于編碼器-解碼器模型合成CS 文本的方法,從有限的CS 文本與大量單語種平行語料中學(xué)習(xí)CS 語言學(xué)規(guī)則與語種內(nèi)部的語言學(xué)規(guī)則,來合成CS 文本。在第2 節(jié)提出的方法中,在合成文本時(shí),由于解碼器缺少及時(shí)的語言學(xué)約束指導(dǎo),生成文本自然度較低,為了解決這個(gè)問題,本文在第3 節(jié)提出基于帶復(fù)制機(jī)制的編碼器-解碼器模型合成CS 文本的方法,在基于編碼器-解碼器模型的CS 文本生成器的基礎(chǔ)上,增加了一個(gè)門控,用來決定從解碼器的預(yù)測結(jié)果還是從編碼器的輸入源文本中產(chǎn)生下一個(gè)詞。該方法在合成階段為解碼器提供及時(shí)的語言學(xué)約束指導(dǎo),提升了合成文本的自然度。第4節(jié)對第2節(jié)、第3節(jié)提出的方法進(jìn)行實(shí)驗(yàn)。

    2 基于編碼器-解碼器模型的合成CS 文本的方法

    本節(jié)使用了基于循環(huán)神經(jīng)網(wǎng)絡(luò)的編碼器-解碼器模型來構(gòu)建生成雙語CS 文本數(shù)據(jù)的生成器。這個(gè)生成器從有限的CS文本隱式地學(xué)習(xí)CS的語言學(xué)約束規(guī)則,從大量單語種平行語料中隱式地學(xué)習(xí)語種內(nèi)部的語言學(xué)約束規(guī)則,然后利用單語種平行語料來生成雙語CS的文本數(shù)據(jù)。

    如圖1 所示,基于編碼器-解碼器模型的CS 文本生成器,由一個(gè)編碼器、一個(gè)解碼器、一個(gè)注意力機(jī)制構(gòu)成。本文使用一個(gè)雙向的長短時(shí)記憶網(wǎng)絡(luò)(Bidirectional Long-Short Time Memory,BLSTM)作為編碼器,使用一個(gè)單向長短時(shí)記憶網(wǎng)絡(luò)(Unidirectional Long-Short Time Memory,LSTM)作為解碼器,使用一個(gè)基于內(nèi)容與位置的方法作為注意力機(jī)制。

    圖1 基于編碼器-解碼器模型的CS文本生成器Fig.1 The Encoder-Decoder based code-switching text generator

    編碼器輸入一個(gè)詞序列X=[x1,…,xL],L是輸入詞序列的長度,詞序列包括漢語-英語平行句子對、英語-漢語平行句子對、漢語句子、英語句子、漢英CS 句子5 種。編碼器將詞序列編碼成編碼向量序列H=[h1,…,hL],如公式(1)所示:

    注意力機(jī)制在每一個(gè)輸出時(shí)間步t,接收解碼器的隱含狀態(tài)st-1,計(jì)算注意力權(quán)重向量at=[at,1,…,at,L],并作用于編碼向量序列,產(chǎn)生第t個(gè)輸出時(shí)間步的上下文向量ct,如公式(2)所示:

    模型學(xué)習(xí)到的注意力權(quán)重表示著語種內(nèi)部語言學(xué)約束規(guī)則、跨語種語言學(xué)約束規(guī)則。

    解碼器接收上下文向量ct與前一個(gè)輸出時(shí)間步t-1的輸出詞,并結(jié)合解碼器的隱含狀態(tài)st-1,得到解碼器的當(dāng)前隱含狀態(tài)st,再經(jīng)過輸出層映射預(yù)測當(dāng)前標(biāo)簽的詞概率分布Pvoc(wt)=,V是輸出的詞匯表大小,如公式(3)所示:

    該生成器的訓(xùn)練目標(biāo)函數(shù)是參考序列與預(yù)測序列的交叉熵,如公式(4)所示:

    解碼器輸入的參考序列種類包括:漢語-英語平行句子對、英語-漢語平行句子對、漢語句子、英語句子、漢英CS句子5種。

    值得注意的是,編碼器輸入的5 種序列與解碼器輸入的5種參考序列,在訓(xùn)練階段,不需要呈現(xiàn)一一對應(yīng)的關(guān)系,可以有9種組合呈現(xiàn),如表1所示。

    表1 輸入序列與輸出參考序列的組合Tab.1 Combinations of input sequence and output reference sequence

    3 基于帶復(fù)制機(jī)制的編碼器-解碼器的合成CS文本的方法

    基于編碼器-解碼器模型的文本生成器,由于在解碼過程中,解碼器沒有顯示地接收及時(shí)的語言知識指導(dǎo),導(dǎo)致合成的詞序列受到較少的語種內(nèi)部語言學(xué)約束與跨語種的語言學(xué)約束,即合成文本自然度低。為了解決此問題,在此基礎(chǔ)上,本小節(jié)為編碼器-解碼器引入了復(fù)制機(jī)制,如圖2 所示。在基于編碼器-解碼器模型的CS 文本生成器的基礎(chǔ)上,增加一個(gè)門控,它決定了生成器產(chǎn)生的下一個(gè)詞,到底是從解碼器中預(yù)測出來的,還是從編碼器的輸入源文本中拷貝過來的。門控概率pgen∈[0,1]表示當(dāng)前詞選中解碼器預(yù)測的詞(來自預(yù)測的詞匯表分布)的概率,而1 -pgen則表示當(dāng)前詞選擇復(fù)制文本詞的概率。

    圖2 基于帶復(fù)制機(jī)制的編碼器-解碼器模型的CS文本生成器Fig.2 The Encoder-Decoder based code-switching text generator with copy mechanism

    pgen是由編碼器的上下文向量ct、解碼器的隱含狀態(tài)st、解碼器當(dāng)前的輸入即上一輸出w*t-1共同計(jì)算的

    其中,Wc、Ws、Ww都是可訓(xùn)練的參數(shù)矩陣是詞的嵌入向量。

    該生成器的訓(xùn)練目標(biāo)函數(shù)是參考序列與預(yù)測序列的交叉熵,如公式(7)所示:

    4 實(shí)驗(yàn)結(jié)果與分析

    4.1 數(shù)據(jù)集

    本文實(shí)驗(yàn)使用了兩個(gè)數(shù)據(jù)集:(1)東南亞漢語-英語(South East Asia Mandarin-English,SEAME)數(shù)據(jù)集[13]的文本標(biāo)注,包含了具有100802個(gè)句子的訓(xùn)練集和具有6276個(gè)句子的測試集,其中大部分是漢英CS 的句子;(2)OpenSubtitles 數(shù)據(jù)集的漢語-英語平行文本數(shù)據(jù)子集[14],這個(gè)子集的數(shù)據(jù)均是漢語與英語的平行句對,包含了11203286 個(gè)漢語-英語平行句子對。

    4.2 實(shí)驗(yàn)設(shè)置

    語言模型的性能間接地反映了合成文本數(shù)據(jù)的質(zhì)量,進(jìn)而可驗(yàn)證本章所研究方法的有效性。本文實(shí)驗(yàn)采用了兩個(gè)指標(biāo)來衡量語言模型的性能,在SEAME 測試集的困惑度與識別解碼結(jié)果。以下實(shí)驗(yàn)采用的語言模型是基于3-元文法的CS語言模型,采用的識別框架是基于隱馬爾可夫的識別框架。為了更清晰地展現(xiàn)CS合成文本數(shù)據(jù)的質(zhì)量,本文又將SEAME 測試集由整體劃分為三個(gè)部分,即純中文句子的子集、純英文句子的子集、CS句子的子集,因此實(shí)驗(yàn)結(jié)果記錄表格除了記錄在SEAME 測試集上的整體困惑度以外,還將記錄各3-元語言模型在純中文句子子集、純英文句子子集、CS 句子子集上的困惑度。

    實(shí)驗(yàn)(1):首先設(shè)置一個(gè)基線系統(tǒng)實(shí)驗(yàn),只采用真實(shí)的CS 文本數(shù)據(jù)(SEAME 的訓(xùn)練集)來訓(xùn)練3-元統(tǒng)計(jì)語言模型。

    實(shí)驗(yàn)(2):在基線系統(tǒng)的基礎(chǔ)上,設(shè)置一個(gè)單語種數(shù)據(jù)與真實(shí)CS文本數(shù)據(jù)混合的實(shí)驗(yàn),這是為了排除單語種數(shù)據(jù)對語言模型性能的影響。

    4.3 基于編碼器-解碼器模型的方法合成CS 文本的質(zhì)量測試實(shí)驗(yàn)

    我們首先訓(xùn)練一個(gè)基于編碼器-解碼器模型的CS 文本生成器,采用的訓(xùn)練數(shù)據(jù)是由OpenSubtitles漢-英子集按照表1的9種組合方式擴(kuò)展而成。然后利用該生成器合成CS文本,編碼器輸入“漢-英平行句子”、“英-漢平行句子”、“漢語句子”、“英語句子”,解碼器輸出漢英CS 文本序列。使用不同數(shù)量的合成文本進(jìn)行以下實(shí)驗(yàn)。

    實(shí)驗(yàn)(3):設(shè)置一個(gè)采用等同于真實(shí)數(shù)據(jù)量(約10 萬條語句)的1 倍的CS 合成數(shù)據(jù)的實(shí)驗(yàn),這是為了最直觀地觀察合成數(shù)據(jù)的質(zhì)量。

    實(shí)驗(yàn)(4):設(shè)置一個(gè)等同于真實(shí)數(shù)據(jù)量的2倍的CS合成數(shù)據(jù)的實(shí)驗(yàn),這是為了直觀地觀察隨著合成數(shù)據(jù)的增長,能否對使用該數(shù)據(jù)訓(xùn)練生成的語言模型的性能有提升效果。

    實(shí)驗(yàn)(5):本小節(jié)設(shè)置一個(gè)等同于真實(shí)數(shù)據(jù)量的3 倍的CS 合成數(shù)據(jù)的實(shí)驗(yàn),這個(gè)實(shí)驗(yàn)的設(shè)置目的與實(shí)驗(yàn)(4)的目的相同,因?yàn)槲覀冊趯?shí)驗(yàn)中發(fā)現(xiàn),使用2 倍合成數(shù)據(jù)相比于只使用1 倍合成數(shù)據(jù),并不能降低語言模型的困惑度,并且困惑度遠(yuǎn)高于只使用真實(shí)數(shù)據(jù)的基線系統(tǒng),即實(shí)驗(yàn)(1),于是本小節(jié)繼續(xù)加大合成數(shù)據(jù)量,到達(dá)3倍。

    實(shí)驗(yàn)(6):設(shè)置一個(gè)采用3倍的合成文本數(shù)據(jù)與真實(shí)CS數(shù)據(jù)混合的實(shí)驗(yàn)。

    實(shí)驗(yàn)結(jié)果如表2 所示,1 倍合成數(shù)據(jù)訓(xùn)練的語言模型在測試集上困惑度與2 倍合成數(shù)據(jù)、3 倍合成數(shù)據(jù)的結(jié)果是相近的,它們與基線實(shí)驗(yàn)(1)相比,在單語種句子上的困惑度、在CS 句子上的、整體困惑度都提高了相對100%以上。3 倍合成數(shù)據(jù)與真實(shí)訓(xùn)練數(shù)據(jù)的混合集所訓(xùn)練的語言模型,與基線相比,在各困惑度指標(biāo)上也都有所提高。我們分析認(rèn)為,基于編碼器-解碼器模型的CS 文本生成器,在生成文本的過程中,由于解碼器輸入缺少及時(shí)的語言學(xué)指導(dǎo),導(dǎo)致解碼器輸出的詞序列,受到較少的同語種內(nèi)部的語言學(xué)約束與跨語種間的語言學(xué)約束,即它生成的詞序列自然度不高。

    表2 基于編碼器-解碼器模型的CS文本生成器合成文本所訓(xùn)練的3-元文法語言模型在SEAME測試集上的困惑度Tab.2 The perplexity on the SEAME test set of 3-gram language model trained on Synthetic text generated from Encoder-Decoder based code-switching text generator

    4.4 基于帶復(fù)制機(jī)制的編碼器-解碼器模型的方法合成CS文本的質(zhì)量測試實(shí)驗(yàn)

    我們首先訓(xùn)練一個(gè)帶復(fù)制機(jī)制的基于編碼器-解碼器模型的CS文本生成器,采用的訓(xùn)練數(shù)據(jù)與第4.3小節(jié)實(shí)驗(yàn)相同,在使用該生成器合成文本時(shí),編碼器的輸入設(shè)置與解碼器的輸出設(shè)置也分別與第4.3 小節(jié)實(shí)驗(yàn)相同。使用不同數(shù)量的合成文本進(jìn)行以下實(shí)驗(yàn)。

    4.4.1 困惑度測試

    實(shí)驗(yàn)(7):設(shè)置一個(gè)采用等同于真實(shí)數(shù)據(jù)量(約10 萬條語句)的1 倍的CS 合成數(shù)據(jù)的實(shí)驗(yàn),這是為了最直觀地觀察合成數(shù)據(jù)的質(zhì)量。

    實(shí)驗(yàn)(8):設(shè)置一個(gè)等同于真實(shí)數(shù)據(jù)量的2倍的CS合成數(shù)據(jù)的實(shí)驗(yàn),這是為了直觀地觀察隨著合成數(shù)據(jù)的增長,能否對使用該數(shù)據(jù)訓(xùn)練生成的語言模型的性能有提升效果。

    實(shí)驗(yàn)(9):設(shè)置一個(gè)等同于真實(shí)數(shù)據(jù)量的3倍的CS 合成數(shù)據(jù)的實(shí)驗(yàn),這個(gè)實(shí)驗(yàn)的設(shè)置目的與實(shí)驗(yàn)(8)的目的相同,因?yàn)槲覀冊趯?shí)驗(yàn)中發(fā)現(xiàn),使用2 倍合成數(shù)據(jù)相比于只使用1 倍合成數(shù)據(jù),能降低語言模型的困惑度,并且使得困惑度接近于只使用真實(shí)數(shù)據(jù)的基線系統(tǒng),即實(shí)驗(yàn)(1),于是本小節(jié)繼續(xù)加大合成數(shù)據(jù)量,到達(dá)3倍。

    實(shí)驗(yàn)(10):設(shè)置一個(gè)等同于真實(shí)數(shù)據(jù)量的4 倍的CS 合成數(shù)據(jù)的實(shí)驗(yàn),這個(gè)實(shí)驗(yàn)的設(shè)置目的與實(shí)驗(yàn)(9)的目的相同,因?yàn)槲覀冊趯?shí)驗(yàn)中發(fā)現(xiàn),使用3 倍合成數(shù)據(jù)相比于只使用2 倍合成數(shù)據(jù),能降低語言模型的困惑度,并且使得困惑度略低于只使用真實(shí)數(shù)據(jù)的基線系統(tǒng),即實(shí)驗(yàn)(1),于是本小節(jié)繼續(xù)加大合成數(shù)據(jù)量,到達(dá)4倍。

    實(shí)驗(yàn)(11):設(shè)置一個(gè)采用3 倍的合成文本數(shù)據(jù)與真實(shí)CS 數(shù)據(jù)混合的實(shí)驗(yàn),設(shè)置這個(gè)實(shí)驗(yàn)的是因?yàn)?,在?shí)驗(yàn)(10)與實(shí)驗(yàn)(9)的對比中,我們發(fā)現(xiàn),采用4 倍合成數(shù)據(jù)與采用3 倍合成數(shù)據(jù)的效果相差無幾,為了獲得更好的語言模型,此實(shí)驗(yàn)將真實(shí)數(shù)據(jù)采納進(jìn)來,將3倍合成數(shù)據(jù)與真實(shí)數(shù)據(jù)混合,以期使得模型的困惑度進(jìn)一步降低。

    實(shí)驗(yàn)結(jié)果如表3所示,與基線系統(tǒng)(實(shí)驗(yàn)(1))相比,單語種數(shù)據(jù)的加入(實(shí)驗(yàn)(2))能夠降低語言模型在純中文與純英文上的困惑度,然而對CS的句子基本沒有作用,對轉(zhuǎn)換點(diǎn)處也基本無影響,這是因?yàn)閱握Z種數(shù)據(jù)增強(qiáng)了語言模型對單語種詞序列內(nèi)部依賴關(guān)系進(jìn)行建模能力,但是由于單語種不存在CS現(xiàn)象,因此無法增強(qiáng)語言模型對跨語種詞序列的建模能力。

    表3 基于帶復(fù)制機(jī)制的編碼器-解碼器模型的CS文本生成器合成文本所訓(xùn)練的3-元文法語言模型在SEAME測試集上的困惑度Tab.3 The perplexity on the SEAME test set of 3-gram language model trained on Synthetic text generated from Encoder-Decoder based code-switching text generator with copy mechanism

    與基線系統(tǒng)相比,僅采用1 倍合成數(shù)據(jù)(實(shí)驗(yàn)(7)),對純中文與純英文的困惑度基本沒有影響,然而卻讓CS 句子困惑度增加了約20,這是因?yàn)椋?倍合成數(shù)據(jù)中,存在大量中文-中文、英文-英文的關(guān)系,而且這些關(guān)系是來源于源數(shù)據(jù),質(zhì)量高,因此,實(shí)驗(yàn)(7)對純中文、純英文的困惑度接近于基線系統(tǒng)。又因?yàn)? 倍合成數(shù)據(jù)中的CS 都是合成的,質(zhì)量比真實(shí)的訓(xùn)練數(shù)據(jù)低,因此,該系統(tǒng)在CS 句子上與在轉(zhuǎn)換點(diǎn)的困惑度都有所增加。實(shí)驗(yàn)(7)相比于實(shí)驗(yàn)(3),在純中文句子、純英文句子、CS句子、整體測試集上的困惑度指標(biāo)分別降低了相對65.28%、77.71%、54.94%、57.54%。我們分析認(rèn)為,復(fù)制機(jī)制的加入,使得在解碼階段,復(fù)制的原文為解碼器提供了及時(shí)的語言學(xué)指導(dǎo),導(dǎo)致生成的詞序列受到較多的語種內(nèi)部的語言學(xué)約束與跨語種間的語言學(xué)約束,生成的文本自然度較高。

    與僅采用1 倍合成數(shù)據(jù)(實(shí)驗(yàn)(7))相比,采用2倍合成數(shù)據(jù)(實(shí)驗(yàn)(8)),可稍微降低純中文(2.7%相對下降)與純英文的困惑度(4.4%相對下降),這是因?yàn)?,合成?shù)據(jù)量加大,則訓(xùn)練數(shù)據(jù)中的英文-英文、中文-中文數(shù)量增加。同時(shí),采用了2 倍合成數(shù)據(jù)的系統(tǒng),相比采用1 倍合成數(shù)據(jù)的系統(tǒng),在CS 語句上,困惑度有6.2%的相對下降,這是由于CS 數(shù)量翻倍了,有助于語言模型更好地對跨語種詞間依賴關(guān)系進(jìn)行建模。

    受實(shí)驗(yàn)(8)啟發(fā),本小節(jié)繼續(xù)加大合成數(shù)據(jù)量,設(shè)置了采用3倍合成數(shù)據(jù)的實(shí)驗(yàn)(實(shí)驗(yàn)(9)),結(jié)果顯示,進(jìn)一步加大合成數(shù)據(jù)量,可以進(jìn)一步使得困惑度降低,相比于實(shí)驗(yàn)(8),實(shí)驗(yàn)(9)在純中文、純英文、CS 的三個(gè)困惑度指標(biāo)上,分別獲得了相對下降3.2%、4.0%、3.8%。同時(shí),實(shí)驗(yàn)(9)第一次超越了基線系統(tǒng)。

    受實(shí)驗(yàn)(9)啟發(fā),本小節(jié)繼續(xù)加大合成數(shù)據(jù)量,設(shè)置了采用4 倍合成數(shù)據(jù)的實(shí)驗(yàn)(實(shí)驗(yàn)(10)),結(jié)果顯示,進(jìn)一步加大合成數(shù)據(jù)量,在三個(gè)困惑度指標(biāo)上雖然超越了實(shí)驗(yàn)(9)系統(tǒng),但是性能提升微弱。

    實(shí)驗(yàn)(10)引發(fā)了我們思考,語言模型性能不是隨著合成數(shù)據(jù)的增長而呈現(xiàn)線性提升的趨勢,當(dāng)合成數(shù)據(jù)到達(dá)一定的量之后,語言模型性能的提升會受到瓶頸限制,如果再增加合成數(shù)據(jù),也許可能還會有極其微弱的持續(xù)提升,但是卻會耗費(fèi)大量計(jì)算資源,得不償失,因此,我們適可而止,在實(shí)驗(yàn)(11)中,將3 倍合成數(shù)據(jù)量作為我們所研究的文本生成方法的最合適的產(chǎn)出量,將3 倍合成數(shù)據(jù)與真實(shí)訓(xùn)練數(shù)據(jù)混合到一起是比較合適的比例。實(shí)驗(yàn)(11)在純中文、純英文上的困惑度,與實(shí)驗(yàn)(9)基本保持一致,在CS句子上的困惑度,比實(shí)驗(yàn)(9)有5.7%,比基線有7.8%的相對下降,在SEAME 整體測試集上,比實(shí)驗(yàn)(9)有4.8%的相對下降,比基線有6.3%的相對下降。

    4.4.2 解碼性能測試

    為了進(jìn)一步驗(yàn)證基于指針生成網(wǎng)絡(luò)合成CS 文本的方法,所合成的文本質(zhì)量與語言模型的性能,本文進(jìn)一步展示第4 節(jié)中設(shè)置的實(shí)驗(yàn)(1)-實(shí)驗(yàn)(2)、實(shí)驗(yàn)(7)-實(shí)驗(yàn)(9)、實(shí)驗(yàn)(11)共6 組語言模型在語音識別系統(tǒng)中的性能表現(xiàn)。6 組實(shí)驗(yàn)均在SEAME 測試集上進(jìn)行識別解碼。

    實(shí)驗(yàn)結(jié)果如表4 所示,相比于基線系統(tǒng)實(shí)驗(yàn)(1),單語種數(shù)據(jù)的加入(實(shí)驗(yàn)(2)),其主要作用是在解碼過程中,對英文-英文或者中文-中文的詞間依賴關(guān)系提供更可靠的路徑選擇信息,但是對識別結(jié)果只有0.7%的混合錯(cuò)誤率相對下降,這是因?yàn)椋Z言模型依舊沒有更好地指導(dǎo)跨語種詞間的路徑選擇。實(shí)驗(yàn)(7)、實(shí)驗(yàn)(8),僅用合成數(shù)據(jù)訓(xùn)練的語言模型,不能提升系統(tǒng)的識別性能,這也是因?yàn)檎Z言模型依舊沒有更好地指導(dǎo)跨語種詞間的路徑選擇。根據(jù)第4.4.1小節(jié),實(shí)驗(yàn)(9)的困惑度稍微低于基線系統(tǒng),因此,實(shí)驗(yàn)(9)(39.40%)對解碼系統(tǒng)的路徑選擇指導(dǎo)能力應(yīng)該與基線(39.26%)保持相近。最后,實(shí)驗(yàn)(11)相對基線,識別混合錯(cuò)誤率僅有1.3%的相對下降,提升效果甚微。雖然本小節(jié)的識別結(jié)果收效甚微,但也可能是聲學(xué)模型的性能限制了,但這樣的識別結(jié)果已經(jīng)足以證明,本章研究的CS文本數(shù)據(jù)合成方法是可行的,以后有進(jìn)一步研究的必要。

    表4 基于帶復(fù)制機(jī)制的編碼器-解碼器模型的CS文本生成器合成文本所訓(xùn)練的3-元文法語言模型在SEAME測試集上的識別混合錯(cuò)誤率Tab.4 The mixed error rate on the SEAME test set of 3-gram language model trained on Synthetic text generated from Encoder-Decoder based code-switching text generator with copy mechanism

    5 結(jié)論

    本文構(gòu)建的基于編碼器-解碼器模型的CS文本生成器學(xué)習(xí)單語種內(nèi)部的語言學(xué)約束同時(shí)也學(xué)習(xí)跨語的語言學(xué)約束,并且利用單語種平行語料合成大量的CS文本數(shù)據(jù)來擴(kuò)充訓(xùn)練雙語CS語言模型的訓(xùn)練數(shù)據(jù)庫。但是該模型合成的CS 文本自然度較低,為了解決此問題,在該模型基礎(chǔ)上,增加一個(gè)門控,它決定了生成器產(chǎn)生的下一個(gè)詞,到底是從解碼器中預(yù)測出來的,還是從編碼器的輸入源文本中拷貝過來的,形成了基于帶復(fù)制機(jī)制的編碼器-解碼器模型合成CS 文本的方法。最終本文的方法使得語言模型在SEAME 整體測試集上的困惑度有13.96的絕對下降,識別混合錯(cuò)誤率有相對1.3%的下降。由此驗(yàn)證了,本文提出的方法,可以合成自然度較高的CS 文本,從而能夠緩解CS 文本數(shù)據(jù)稀缺的問題。

    猜你喜歡
    語種解碼器數(shù)據(jù)量
    科學(xué)解碼器(一)
    《波斯語課》:兩個(gè)人的小語種
    基于大數(shù)據(jù)量的初至層析成像算法優(yōu)化
    計(jì)算Lyapunov指數(shù)的模糊C均值聚類小數(shù)據(jù)量法
    科學(xué)解碼器(二)
    科學(xué)解碼器(三)
    高刷新率不容易顯示器需求與接口標(biāo)準(zhǔn)帶寬
    寬帶信號采集與大數(shù)據(jù)量傳輸系統(tǒng)設(shè)計(jì)與研究
    電子制作(2019年13期)2020-01-14 03:15:18
    線圣AudioQuest 發(fā)布第三代Dragonfly Cobalt藍(lán)蜻蜓解碼器
    “一帶一路”背景下我國的外語語種規(guī)劃
    欧美zozozo另类| 最近中文字幕高清免费大全6| 久久婷婷人人爽人人干人人爱| 五月伊人婷婷丁香| 国产精品一及| 亚洲成人精品中文字幕电影| 亚洲欧美精品专区久久| 两个人的视频大全免费| 国产午夜福利久久久久久| 亚洲欧美日韩高清在线视频| 两个人视频免费观看高清| 激情 狠狠 欧美| 一夜夜www| 日本欧美国产在线视频| 亚洲不卡免费看| 国产成人一区二区在线| 久久热精品热| 中文欧美无线码| 九九热线精品视视频播放| 久久韩国三级中文字幕| 如何舔出高潮| 国产精品乱码一区二三区的特点| 日韩欧美 国产精品| 五月伊人婷婷丁香| 国产一区二区三区av在线 | 久久午夜福利片| 高清毛片免费观看视频网站| 一本久久精品| 国产在线精品亚洲第一网站| 国语自产精品视频在线第100页| 日韩人妻高清精品专区| 精品一区二区免费观看| а√天堂www在线а√下载| 男人的好看免费观看在线视频| 美女cb高潮喷水在线观看| 美女高潮的动态| 日本一本二区三区精品| 免费看光身美女| 精品一区二区三区人妻视频| 在线免费观看的www视频| 国产精品女同一区二区软件| 精品无人区乱码1区二区| 观看免费一级毛片| 亚洲av二区三区四区| av天堂在线播放| 99热只有精品国产| 好男人视频免费观看在线| 国产中年淑女户外野战色| 国产精品久久久久久久久免| 国产色爽女视频免费观看| 国产黄片美女视频| 国产亚洲5aaaaa淫片| avwww免费| av又黄又爽大尺度在线免费看 | 老熟妇乱子伦视频在线观看| 欧美一区二区精品小视频在线| 91aial.com中文字幕在线观看| 99久久精品热视频| 女人十人毛片免费观看3o分钟| 久久九九热精品免费| 性欧美人与动物交配| 精品久久久久久久久久免费视频| 91精品一卡2卡3卡4卡| 亚洲电影在线观看av| 国产精品一区二区性色av| 国产探花在线观看一区二区| 国产午夜精品久久久久久一区二区三区| 国产精品麻豆人妻色哟哟久久 | 精品人妻熟女av久视频| 国产高清三级在线| 亚洲人成网站在线观看播放| 婷婷亚洲欧美| 久久精品夜夜夜夜夜久久蜜豆| av在线天堂中文字幕| 亚洲国产色片| 久久这里有精品视频免费| 日本成人三级电影网站| 亚洲精品乱码久久久久久按摩| 成年女人永久免费观看视频| 精品一区二区三区视频在线| 国产伦理片在线播放av一区 | 一级二级三级毛片免费看| 日本欧美国产在线视频| 午夜精品一区二区三区免费看| 国内精品美女久久久久久| 亚洲成人中文字幕在线播放| 黄色视频,在线免费观看| 夜夜夜夜夜久久久久| 精品国内亚洲2022精品成人| 我的老师免费观看完整版| 国产精品国产三级国产av玫瑰| 欧美在线一区亚洲| 成人二区视频| 不卡视频在线观看欧美| 亚洲av男天堂| 国内精品宾馆在线| 亚洲,欧美,日韩| 亚洲精品日韩av片在线观看| 日日干狠狠操夜夜爽| 日本撒尿小便嘘嘘汇集6| 中文字幕久久专区| 只有这里有精品99| 99在线人妻在线中文字幕| 边亲边吃奶的免费视频| 欧美性猛交╳xxx乱大交人| 人人妻人人澡欧美一区二区| 国产极品精品免费视频能看的| 久久人妻av系列| 99久久精品一区二区三区| av在线蜜桃| 欧美精品国产亚洲| 我要搜黄色片| 级片在线观看| 夜夜看夜夜爽夜夜摸| 少妇丰满av| 97在线视频观看| 国产精品久久久久久精品电影小说 | 麻豆一二三区av精品| 精品一区二区三区人妻视频| 久久这里只有精品中国| 亚洲国产色片| 日韩在线高清观看一区二区三区| 午夜福利在线在线| 天天躁日日操中文字幕| 美女内射精品一级片tv| 国产黄色小视频在线观看| 99久国产av精品| 亚洲av男天堂| 欧美精品国产亚洲| 美女xxoo啪啪120秒动态图| 亚洲七黄色美女视频| 久久久久九九精品影院| 麻豆国产av国片精品| 韩国av在线不卡| 欧美另类亚洲清纯唯美| 国产伦理片在线播放av一区 | 亚洲欧美日韩高清在线视频| 欧美变态另类bdsm刘玥| av专区在线播放| 国产精品野战在线观看| 尤物成人国产欧美一区二区三区| 国产v大片淫在线免费观看| 啦啦啦啦在线视频资源| 久久精品国产亚洲网站| 日韩 亚洲 欧美在线| 最近的中文字幕免费完整| 亚洲欧美中文字幕日韩二区| 亚洲va在线va天堂va国产| 春色校园在线视频观看| 一进一出抽搐动态| 人妻制服诱惑在线中文字幕| 亚洲av免费在线观看| 亚洲精品国产av成人精品| 青春草视频在线免费观看| 欧美三级亚洲精品| 综合色av麻豆| 精品无人区乱码1区二区| 天天一区二区日本电影三级| 亚洲欧美成人综合另类久久久 | 麻豆国产av国片精品| 丝袜喷水一区| 亚洲欧美精品自产自拍| 久久久久久九九精品二区国产| 人体艺术视频欧美日本| 天天躁夜夜躁狠狠久久av| 久久久久久伊人网av| 精品一区二区免费观看| 91av网一区二区| 2022亚洲国产成人精品| 欧美日韩一区二区视频在线观看视频在线 | 啦啦啦啦在线视频资源| 成人高潮视频无遮挡免费网站| 成人三级黄色视频| 亚洲国产精品成人综合色| 十八禁国产超污无遮挡网站| 亚洲中文字幕一区二区三区有码在线看| 亚州av有码| 春色校园在线视频观看| 联通29元200g的流量卡| 国产亚洲精品久久久久久毛片| 国产男人的电影天堂91| 人妻少妇偷人精品九色| 中国美白少妇内射xxxbb| 国产精品福利在线免费观看| 69av精品久久久久久| 老师上课跳d突然被开到最大视频| 高清午夜精品一区二区三区 | 中文字幕制服av| 欧美+日韩+精品| 欧美日韩在线观看h| 我要看日韩黄色一级片| 蜜桃久久精品国产亚洲av| www.av在线官网国产| 黄片wwwwww| 六月丁香七月| 国产色爽女视频免费观看| 1000部很黄的大片| a级毛片免费高清观看在线播放| 美女内射精品一级片tv| 精品久久久噜噜| av在线蜜桃| 亚洲av第一区精品v没综合| 久久久a久久爽久久v久久| 91久久精品电影网| 一级毛片久久久久久久久女| 尤物成人国产欧美一区二区三区| 在线观看av片永久免费下载| 九九热线精品视视频播放| 成年免费大片在线观看| 免费av不卡在线播放| 久久亚洲精品不卡| 麻豆国产av国片精品| 少妇熟女aⅴ在线视频| 又粗又硬又长又爽又黄的视频 | 亚洲电影在线观看av| 一级毛片久久久久久久久女| 成人亚洲精品av一区二区| 看十八女毛片水多多多| 精品国产三级普通话版| 欧美成人a在线观看| 日本三级黄在线观看| 啦啦啦观看免费观看视频高清| 亚洲欧美精品自产自拍| 欧美在线一区亚洲| 久久这里有精品视频免费| 国产不卡一卡二| 国产精品美女特级片免费视频播放器| 亚洲人成网站在线观看播放| 国产精品嫩草影院av在线观看| 国产精品1区2区在线观看.| 婷婷精品国产亚洲av| 日产精品乱码卡一卡2卡三| h日本视频在线播放| 悠悠久久av| 亚洲美女视频黄频| www.色视频.com| 免费电影在线观看免费观看| 免费av毛片视频| 亚洲熟妇中文字幕五十中出| 我要看日韩黄色一级片| 亚洲最大成人手机在线| 韩国av在线不卡| 久久久a久久爽久久v久久| 中文资源天堂在线| 国语自产精品视频在线第100页| 亚洲自拍偷在线| 综合色丁香网| 婷婷色av中文字幕| 日韩成人伦理影院| 日韩欧美 国产精品| 亚洲av成人av| 国产伦一二天堂av在线观看| 男人和女人高潮做爰伦理| 亚洲美女搞黄在线观看| 日韩成人伦理影院| 日本免费一区二区三区高清不卡| 亚洲精品色激情综合| 亚洲精品影视一区二区三区av| 99久久成人亚洲精品观看| 精品国内亚洲2022精品成人| 黄色配什么色好看| 日韩人妻高清精品专区| 99久久精品热视频| 有码 亚洲区| 夜夜爽天天搞| 亚洲av电影不卡..在线观看| 99久久久亚洲精品蜜臀av| 美女内射精品一级片tv| 成人一区二区视频在线观看| 一区福利在线观看| 99久国产av精品国产电影| 麻豆一二三区av精品| 男的添女的下面高潮视频| 午夜亚洲福利在线播放| 天堂网av新在线| 久久精品久久久久久噜噜老黄 | 波多野结衣高清作品| 最近视频中文字幕2019在线8| 中国美白少妇内射xxxbb| 91狼人影院| 亚洲av二区三区四区| 欧美日韩一区二区视频在线观看视频在线 | 性色avwww在线观看| 亚洲国产精品久久男人天堂| 伦精品一区二区三区| 2022亚洲国产成人精品| 国产成人影院久久av| 看黄色毛片网站| 婷婷六月久久综合丁香| 国产淫片久久久久久久久| 欧美+日韩+精品| 我的女老师完整版在线观看| 国产亚洲精品久久久com| 久久久久久久久久久免费av| 少妇的逼好多水| 女人被狂操c到高潮| av福利片在线观看| 少妇猛男粗大的猛烈进出视频 | 青春草国产在线视频 | 欧美变态另类bdsm刘玥| www.色视频.com| 在线免费观看不下载黄p国产| 九九在线视频观看精品| 深爱激情五月婷婷| 亚洲在线观看片| 亚洲自拍偷在线| 久久久色成人| 中文亚洲av片在线观看爽| 最近视频中文字幕2019在线8| 亚洲第一电影网av| 2021天堂中文幕一二区在线观| 亚洲五月天丁香| 欧美潮喷喷水| 五月伊人婷婷丁香| 国产精品久久久久久精品电影小说 | eeuss影院久久| 国产成人影院久久av| 国产亚洲精品av在线| 热99在线观看视频| 久久精品国产亚洲网站| 免费av不卡在线播放| 亚洲国产欧美人成| 亚洲人成网站在线观看播放| 狂野欧美激情性xxxx在线观看| 成人美女网站在线观看视频| www.色视频.com| 在线免费观看不下载黄p国产| 国产白丝娇喘喷水9色精品| 少妇的逼好多水| 极品教师在线视频| 午夜福利在线观看免费完整高清在 | 欧美性猛交╳xxx乱大交人| 精品久久久久久成人av| 日日啪夜夜撸| 最近视频中文字幕2019在线8| 国产精品美女特级片免费视频播放器| 熟女电影av网| 99久久九九国产精品国产免费| 人人妻人人澡欧美一区二区| 午夜激情福利司机影院| 三级经典国产精品| 色综合站精品国产| 99热这里只有精品一区| 久久久久久九九精品二区国产| 男女视频在线观看网站免费| 99精品在免费线老司机午夜| 亚洲欧洲国产日韩| 99热这里只有是精品在线观看| 天天躁夜夜躁狠狠久久av| av女优亚洲男人天堂| 日韩国内少妇激情av| 长腿黑丝高跟| 国产91av在线免费观看| 亚洲欧美精品专区久久| 午夜激情福利司机影院| 成人永久免费在线观看视频| 有码 亚洲区| 欧洲精品卡2卡3卡4卡5卡区| 男女啪啪激烈高潮av片| 毛片一级片免费看久久久久| 看片在线看免费视频| 国内揄拍国产精品人妻在线| 亚洲欧美清纯卡通| 成熟少妇高潮喷水视频| 久久草成人影院| 亚洲天堂国产精品一区在线| 麻豆成人av视频| 欧美日韩精品成人综合77777| 一夜夜www| 成人二区视频| 国产欧美日韩精品一区二区| 看十八女毛片水多多多| 久久午夜福利片| 国产精品蜜桃在线观看 | 欧美潮喷喷水| 爱豆传媒免费全集在线观看| 女人十人毛片免费观看3o分钟| 亚洲av熟女| 欧美高清性xxxxhd video| 村上凉子中文字幕在线| 国产视频内射| 日本黄大片高清| 综合色丁香网| 日韩一区二区视频免费看| 一区福利在线观看| 成人鲁丝片一二三区免费| 一进一出抽搐gif免费好疼| 六月丁香七月| 99热这里只有精品一区| 亚洲精品乱码久久久久久按摩| 男插女下体视频免费在线播放| 人体艺术视频欧美日本| 国产精品嫩草影院av在线观看| 我的老师免费观看完整版| 好男人在线观看高清免费视频| 天堂中文最新版在线下载 | 丝袜喷水一区| 男女边吃奶边做爰视频| 91狼人影院| 免费观看人在逋| 亚洲在线观看片| 国产蜜桃级精品一区二区三区| 久久久国产成人精品二区| 大型黄色视频在线免费观看| 亚洲四区av| 麻豆久久精品国产亚洲av| 一本久久中文字幕| 全区人妻精品视频| 爱豆传媒免费全集在线观看| 久久久精品大字幕| 一本—道久久a久久精品蜜桃钙片 精品乱码久久久久久99久播 | 非洲黑人性xxxx精品又粗又长| 国内精品美女久久久久久| 久久午夜福利片| 久久久久国产网址| 欧美一区二区亚洲| 看黄色毛片网站| 亚洲av一区综合| 免费看光身美女| 亚洲欧美日韩无卡精品| 夜夜夜夜夜久久久久| 日韩欧美 国产精品| 久久综合国产亚洲精品| 国产亚洲精品av在线| 亚洲av第一区精品v没综合| kizo精华| 日韩强制内射视频| 国产精品电影一区二区三区| 噜噜噜噜噜久久久久久91| 可以在线观看毛片的网站| 久99久视频精品免费| 久久精品人妻少妇| 麻豆国产av国片精品| 中文字幕av成人在线电影| 国产精品一二三区在线看| 久久精品91蜜桃| 好男人在线观看高清免费视频| 大型黄色视频在线免费观看| 99热这里只有是精品在线观看| 只有这里有精品99| 亚洲精品乱码久久久v下载方式| 国产精品免费一区二区三区在线| 日本在线视频免费播放| 国产av不卡久久| a级一级毛片免费在线观看| 噜噜噜噜噜久久久久久91| a级一级毛片免费在线观看| 一区二区三区高清视频在线| 日本-黄色视频高清免费观看| 国产成人精品婷婷| 一进一出抽搐动态| 国产精品电影一区二区三区| 能在线免费观看的黄片| 18+在线观看网站| 国产乱人视频| 校园人妻丝袜中文字幕| 免费搜索国产男女视频| 国产精品不卡视频一区二区| 有码 亚洲区| 99热这里只有是精品50| 亚洲国产色片| www.av在线官网国产| 深爱激情五月婷婷| 欧美人与善性xxx| 久久这里只有精品中国| 六月丁香七月| 夫妻性生交免费视频一级片| 成人午夜高清在线视频| 老熟妇乱子伦视频在线观看| 国产黄色小视频在线观看| 中文字幕av在线有码专区| 国产男人的电影天堂91| 久久人妻av系列| 国产精品免费一区二区三区在线| 高清毛片免费看| 村上凉子中文字幕在线| 久久韩国三级中文字幕| 国产色爽女视频免费观看| 黑人高潮一二区| 又黄又爽又刺激的免费视频.| 男人舔女人下体高潮全视频| 久久久国产成人精品二区| 1000部很黄的大片| 老司机影院成人| 看免费成人av毛片| 亚洲七黄色美女视频| 欧美日韩一区二区视频在线观看视频在线 | 最近手机中文字幕大全| 你懂的网址亚洲精品在线观看 | 国产av在哪里看| 韩国av在线不卡| 日韩精品青青久久久久久| 亚洲av免费高清在线观看| 成人永久免费在线观看视频| 久久久久久久久久黄片| 一级av片app| 国产成人freesex在线| 亚洲av.av天堂| 欧美3d第一页| 亚洲精品自拍成人| 97热精品久久久久久| www.av在线官网国产| 舔av片在线| 青春草视频在线免费观看| 日韩三级伦理在线观看| 成熟少妇高潮喷水视频| 国产极品天堂在线| 一夜夜www| 亚洲国产日韩欧美精品在线观看| 色综合站精品国产| 亚洲在线观看片| 久久99热这里只有精品18| 亚洲成a人片在线一区二区| 国产爱豆传媒在线观看| 欧美成人一区二区免费高清观看| 内射极品少妇av片p| 亚洲av免费在线观看| 蜜桃久久精品国产亚洲av| 少妇人妻一区二区三区视频| 久久午夜亚洲精品久久| 国产爱豆传媒在线观看| 久久精品国产亚洲网站| 少妇人妻一区二区三区视频| 蜜桃亚洲精品一区二区三区| 亚洲欧美日韩无卡精品| 午夜福利成人在线免费观看| 一区福利在线观看| 亚洲第一电影网av| 我的女老师完整版在线观看| 91狼人影院| 久久综合国产亚洲精品| 亚洲国产精品合色在线| 91在线精品国自产拍蜜月| 亚洲欧美日韩东京热| 99国产精品一区二区蜜桃av| 成人亚洲欧美一区二区av| 国产亚洲av嫩草精品影院| 1000部很黄的大片| 久99久视频精品免费| 国产极品天堂在线| 啦啦啦啦在线视频资源| 欧美日韩在线观看h| 夜夜夜夜夜久久久久| 男女下面进入的视频免费午夜| av专区在线播放| 欧美zozozo另类| 麻豆久久精品国产亚洲av| 女的被弄到高潮叫床怎么办| 91麻豆精品激情在线观看国产| 欧美最黄视频在线播放免费| 噜噜噜噜噜久久久久久91| 少妇高潮的动态图| 久久精品夜色国产| 国产爱豆传媒在线观看| 99热这里只有是精品在线观看| 国产一区二区三区av在线 | 亚洲国产欧洲综合997久久,| 麻豆一二三区av精品| 一夜夜www| .国产精品久久| 久久精品综合一区二区三区| 亚洲经典国产精华液单| 一级黄片播放器| 免费观看a级毛片全部| 毛片女人毛片| 亚洲精品自拍成人| 亚洲av不卡在线观看| 婷婷六月久久综合丁香| 国产在视频线在精品| 我要看日韩黄色一级片| 成年版毛片免费区| 能在线免费观看的黄片| 色综合亚洲欧美另类图片| 99精品在免费线老司机午夜| av又黄又爽大尺度在线免费看 | 国产在线男女| 国产精品一及| 精品99又大又爽又粗少妇毛片| 亚洲精品色激情综合| 国产探花极品一区二区| 1024手机看黄色片| 婷婷六月久久综合丁香| 色5月婷婷丁香| 午夜精品在线福利| eeuss影院久久| 午夜免费男女啪啪视频观看| 在线观看午夜福利视频| 亚洲国产精品sss在线观看| 日韩大尺度精品在线看网址| 国产成人a∨麻豆精品| 只有这里有精品99| 亚洲三级黄色毛片| 卡戴珊不雅视频在线播放| 日本五十路高清| 亚洲人成网站高清观看| 91久久精品国产一区二区成人| 波多野结衣高清无吗| 亚洲人成网站高清观看| 免费人成视频x8x8入口观看| 蜜臀久久99精品久久宅男| 国内精品久久久久精免费| 性插视频无遮挡在线免费观看| 欧美又色又爽又黄视频| av在线老鸭窝| 免费搜索国产男女视频| 亚洲乱码一区二区免费版| 欧美潮喷喷水| 国产成人影院久久av| 国产一区二区在线观看日韩| 在线播放无遮挡| 国产片特级美女逼逼视频| 久久久成人免费电影| 两性午夜刺激爽爽歪歪视频在线观看| 欧美xxxx性猛交bbbb| av免费在线看不卡|