• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      機(jī)器翻譯輔助的中蒙、維漢語(yǔ)音翻譯數(shù)據(jù)集子集

      2022-07-03 14:05:04李寧朱麗平趙小兵木尼熱艾爾肯
      關(guān)鍵詞:蒙文音頻文件中蒙

      李寧,朱麗平,2*,趙小兵,2,木尼熱·艾爾肯

      1.中央民族大學(xué)信息工程學(xué)院,北京 100081

      2.國(guó)家語(yǔ)言資源監(jiān)測(cè)與研究少數(shù)民族語(yǔ)言中心,北京 100081

      引 言

      語(yǔ)音自古以來(lái)就是人際交流最基本的方式,在使用不同語(yǔ)言的人與人之間實(shí)現(xiàn)無(wú)障礙語(yǔ)音交流一直是世界各國(guó)人民的愿望。語(yǔ)音翻譯,通過(guò)計(jì)算機(jī)技術(shù)實(shí)現(xiàn)語(yǔ)音到語(yǔ)音的翻譯(S2ST)或語(yǔ)音到文本的翻譯(AST),是實(shí)現(xiàn)跨語(yǔ)言人際交流的重要工具。

      傳統(tǒng)的語(yǔ)音翻譯系統(tǒng)采用級(jí)聯(lián)方式,語(yǔ)音到文本翻譯由自動(dòng)語(yǔ)音識(shí)別(ASR)模塊和機(jī)器翻譯(MT)模塊兩級(jí)級(jí)聯(lián)實(shí)現(xiàn),語(yǔ)音到語(yǔ)音翻譯由 ASR、MT和語(yǔ)音合成模塊(TTS)三級(jí)級(jí)聯(lián)實(shí)現(xiàn),通過(guò)單獨(dú)訓(xùn)練和調(diào)整每個(gè)模塊提升整體性能。隨著語(yǔ)音識(shí)別、機(jī)器翻譯和語(yǔ)音合成技術(shù)的日趨成熟,級(jí)聯(lián)方式語(yǔ)音翻譯的整體性能較高,但也存在一些固有的問(wèn)題,如只有語(yǔ)音沒(méi)有文字的語(yǔ)言的語(yǔ)音翻譯問(wèn)題[1],因系統(tǒng)級(jí)聯(lián)而產(chǎn)生的誤差傳播問(wèn)題[2]等。為了解決這些問(wèn)題,端到端模型[3]成為近年來(lái)的研究熱點(diǎn)。研究表明,當(dāng)有足夠多的數(shù)據(jù)可用時(shí),端到端模型的性能優(yōu)于級(jí)聯(lián)方式,但在低數(shù)據(jù)情況下表現(xiàn)不佳[4]。與現(xiàn)有的語(yǔ)音識(shí)別、機(jī)器翻譯和語(yǔ)音合成數(shù)據(jù)集相比,語(yǔ)音到語(yǔ)音翻譯和語(yǔ)音到文本翻譯均面臨嚴(yán)重的數(shù)據(jù)稀缺問(wèn)題,尤其是低資源小語(yǔ)種語(yǔ)音翻譯數(shù)據(jù)集非常匱乏[5]。

      針對(duì)語(yǔ)音翻譯數(shù)據(jù)稀缺問(wèn)題,數(shù)據(jù)集建設(shè)成為當(dāng)前語(yǔ)音翻譯的研究方向之一。在語(yǔ)音到文本翻譯數(shù)據(jù)集建設(shè)方面,國(guó)內(nèi)外研究者目前廣泛采用的方法是在現(xiàn)有公開(kāi)數(shù)據(jù)集基礎(chǔ)上,利用機(jī)器翻譯得到數(shù)據(jù)集。根據(jù)構(gòu)建方式不同,這種方法又可分為兩類,一類是利用ASR數(shù)據(jù),將源文本翻譯成目標(biāo)語(yǔ)言文本,生成AST數(shù)據(jù)集;另一類是利用MT數(shù)據(jù),將某一語(yǔ)言的文字進(jìn)行語(yǔ)音合成,生成AST數(shù)據(jù)集[6]。

      BéRARD A以LibriSpeech公開(kāi)數(shù)據(jù)集為基礎(chǔ),對(duì)該數(shù)據(jù)集進(jìn)行法語(yǔ)對(duì)齊與谷歌翻譯,生成語(yǔ)音翻譯數(shù)據(jù)集[7],該數(shù)據(jù)集已被LIU Y用于基于知識(shí)蒸餾的端到端語(yǔ)音翻譯研究[8]。KANO T通過(guò)英日機(jī)器翻譯語(yǔ)料庫(kù),通過(guò)語(yǔ)音合成的方式生成語(yǔ)音數(shù)據(jù),進(jìn)行端到端的英語(yǔ)日語(yǔ)語(yǔ)音翻譯研究[9]。PINO J利用機(jī)器翻譯模型,將英文文本翻譯成法語(yǔ)和羅馬尼亞語(yǔ)和利用語(yǔ)音合成技術(shù)將WMT14進(jìn)行語(yǔ)音合成生成音頻增強(qiáng)數(shù)據(jù)[6]。KANO T使用BTEC英語(yǔ)日語(yǔ)平行語(yǔ)料庫(kù),并使用谷歌語(yǔ)音合成技術(shù)生成語(yǔ)音語(yǔ)料庫(kù)研究遠(yuǎn)距離語(yǔ)言對(duì)的端到端語(yǔ)音翻譯[1]。TU M使用IWSLT2019提供的由并行數(shù)據(jù)和機(jī)器翻譯生成的合成語(yǔ)料庫(kù)研究端到端語(yǔ)音翻譯[10]。PINO J證明了兩類語(yǔ)音到文本翻譯數(shù)據(jù)集,并證明利用ASR生成AST數(shù)據(jù)集比利用MT生成AST數(shù)據(jù)集效果更好[6]。

      由于目前國(guó)內(nèi)語(yǔ)音翻譯相關(guān)數(shù)據(jù)集幾乎是空白,國(guó)際數(shù)據(jù)集多集中在英語(yǔ)方面,在漢語(yǔ)方面僅僅開(kāi)展了英漢領(lǐng)域的研究,蒙古語(yǔ)、維吾爾語(yǔ)研究工作由于缺少相關(guān)數(shù)據(jù)集支撐而無(wú)法開(kāi)展。本研究在現(xiàn)有公開(kāi)數(shù)據(jù)集AISHELL[11]、THUYG-20[12]基礎(chǔ)上,利用機(jī)器翻譯和人工校對(duì)相結(jié)合,構(gòu)建了兩種語(yǔ)音到文字翻譯數(shù)據(jù)集:中文語(yǔ)音到蒙文文字?jǐn)?shù)據(jù)集和維語(yǔ)語(yǔ)音到中文文字?jǐn)?shù)據(jù)集,可用于端到端語(yǔ)音翻譯模型的研究,開(kāi)展?jié)h語(yǔ)方面的語(yǔ)音翻譯相關(guān)研究。本數(shù)據(jù)集內(nèi)容涵蓋智能家居、無(wú)人駕駛、工業(yè)生產(chǎn)、新聞等多方面,覆蓋面廣,可用于多種場(chǎng)景。數(shù)據(jù)集生成方法較國(guó)際公開(kāi)方法,增加了人工校對(duì)步驟,更加科學(xué)可靠地保證了數(shù)據(jù)質(zhì)量。

      1 數(shù)據(jù)采集和處理方法

      本數(shù)據(jù)集包含兩部分,由中文語(yǔ)音蒙文文字語(yǔ)音翻譯數(shù)據(jù)集和維語(yǔ)語(yǔ)音中文文字語(yǔ)音翻譯數(shù)據(jù)集組成。中蒙語(yǔ)音翻譯數(shù)據(jù)集包含1919條中文語(yǔ)音,以及中文語(yǔ)音翻譯對(duì)應(yīng)的蒙古文文字。維漢音數(shù)據(jù)集包含3692條維吾爾語(yǔ)語(yǔ)音,以及維吾爾語(yǔ)語(yǔ)音翻譯對(duì)應(yīng)的中文文字。

      1.1 中蒙語(yǔ)音翻譯數(shù)據(jù)集

      中文語(yǔ)音蒙文文字語(yǔ)音翻譯數(shù)據(jù)集的中文語(yǔ)音語(yǔ)料直接取自于 AISHELL語(yǔ)音識(shí)別數(shù)據(jù)集[11],對(duì)應(yīng)的蒙文文本原始語(yǔ)料由AISHELL數(shù)據(jù)集中的中文文本經(jīng)過(guò)預(yù)處理、機(jī)器翻譯和后處理得到。用中文語(yǔ)音和原始蒙文文本訓(xùn)練語(yǔ)音翻譯模型,從訓(xùn)練結(jié)果中篩選出準(zhǔn)確(Bilingual Evaulation Understudy,即BLEU值為1)的中蒙語(yǔ)音翻譯數(shù)據(jù)共計(jì)25842條,得到形成中蒙語(yǔ)音翻譯數(shù)據(jù)集原型。再采用隨機(jī)抽樣的方式,從數(shù)據(jù)集中隨機(jī)抽取2000條數(shù)據(jù),經(jīng)過(guò)專家審核、校對(duì)、刪除和更新,得到最終的中蒙語(yǔ)音翻譯數(shù)據(jù)集。數(shù)據(jù)處理方案如圖1所示。

      具體處理步驟如下:

      1)預(yù)處理:將AISHELL數(shù)據(jù)集中帶空格的中文文本數(shù)據(jù)去空格。

      2)機(jī)器翻譯:把中文文本翻譯成蒙文文本。

      3)后處理:數(shù)據(jù)清洗,處理特殊字符,包括過(guò)濾蒙文語(yǔ)句中的特殊符號(hào),比如書(shū)名號(hào),雙引號(hào)等,以及用計(jì)算機(jī)輔助方法對(duì)蒙古語(yǔ)中的不可見(jiàn)字符,如蒙古元音分隔符等進(jìn)行批處理,消除不可見(jiàn)字符造成的蒙古文變形現(xiàn)象。

      4)語(yǔ)音翻譯模型篩選數(shù)據(jù):采用編碼器解碼器結(jié)構(gòu)的端到端語(yǔ)音翻譯模型,將文本正確,BLEU值為1的蒙文翻譯文本篩選出來(lái)。

      5)抽樣校驗(yàn):利用隨機(jī)抽樣,從抽樣數(shù)據(jù)集中抽出部分?jǐn)?shù)據(jù),由專家審核,挑選出存在偏差的數(shù)據(jù),交由后續(xù)專家人工校對(duì),糾正文中的錯(cuò)詞、錯(cuò)字及語(yǔ)義不清的文本,形成最終數(shù)據(jù)集。

      1.2 維漢語(yǔ)音翻譯數(shù)據(jù)集

      維漢數(shù)據(jù)集中的維語(yǔ)語(yǔ)音語(yǔ)料取自于清華大學(xué)和新疆大學(xué)發(fā)布的 THUYG-20語(yǔ)音識(shí)別數(shù)據(jù)集[12],對(duì)應(yīng)的中文文本原始語(yǔ)料由THUYG-20數(shù)據(jù)集中拉丁化的維文文本數(shù)據(jù)經(jīng)過(guò)預(yù)處理、機(jī)器翻譯、后處理、專家校驗(yàn)、最終整合得到,如圖2所示。

      具體處理步驟如下:

      1)預(yù)處理:將THUYG-20數(shù)據(jù)集,利用THUYG-20官方提供的工具包解碼拉丁化,得到維吾爾文字。

      2)機(jī)器翻譯:把維吾爾語(yǔ)文本翻譯成中文文本。

      3)后處理:數(shù)據(jù)清洗,處理特殊字符,包括過(guò)濾維文語(yǔ)句中的特殊符號(hào),比如書(shū)名號(hào),雙引號(hào)等,以及一些機(jī)器翻譯無(wú)法識(shí)別的語(yǔ)句。

      4)專家校驗(yàn):通過(guò)隨機(jī)抽樣,從數(shù)據(jù)集中抽出部分?jǐn)?shù)據(jù),由專家審核、校對(duì)。

      5)整合處理:將專家校對(duì)后的數(shù)據(jù)整理、去除標(biāo)記,形成最終數(shù)據(jù)集。

      2 數(shù)據(jù)樣本描述

      本數(shù)據(jù)集包含中蒙語(yǔ)音翻譯數(shù)據(jù)集和維漢語(yǔ)音翻譯數(shù)據(jù)集兩部分。數(shù)據(jù)包括音頻文件以及對(duì)應(yīng)翻譯文本,音頻文件格式為wav格式,采樣率是16 kHz,文本文件格式是txt文本。中蒙語(yǔ)音翻譯數(shù)據(jù)集包含樣本1919條,大小為238 MB。維漢語(yǔ)音翻譯數(shù)據(jù)集包含樣本3692條,大小為652MB。

      如圖3,每個(gè)數(shù)據(jù)集包括wav文件夾和doc文件夾兩個(gè)文件夾,其中doc文件夾中存放的是翻譯文本,wav文件夾中存放音頻文件,如下圖4所示。

      圖5是中蒙語(yǔ)音翻譯數(shù)據(jù)集中的蒙文文本,第一列是音頻文件名,對(duì)應(yīng)wav文件夾中的音頻文件,中間采用水平制表符“ ”分隔,第二列是音頻對(duì)應(yīng)的蒙文文本。音頻文件名中的第7-11個(gè)字符,比如BAC009S0113W0155中的S0113代表是由用戶idS0113所錄制,中間用戶id不同,代表音頻錄制人不同。

      3 數(shù)據(jù)質(zhì)量控制和評(píng)估

      本數(shù)據(jù)通過(guò)機(jī)器翻譯將源語(yǔ)言文本翻譯成目標(biāo)語(yǔ)言文本,從而得到了語(yǔ)音翻譯數(shù)據(jù)集,但機(jī)器翻譯的結(jié)果存在一定偏差,故后續(xù)邀請(qǐng)蒙語(yǔ)、維語(yǔ)語(yǔ)言專家進(jìn)行打分評(píng)價(jià),人工校驗(yàn)數(shù)據(jù)集,將數(shù)據(jù)質(zhì)量高的數(shù)據(jù)整理成為最終的語(yǔ)音翻譯數(shù)據(jù)。

      如圖6是蒙語(yǔ)專家對(duì)中蒙機(jī)器翻譯數(shù)據(jù)審核的結(jié)果,蒙語(yǔ)專家將根據(jù)偶數(shù)行的中文數(shù)據(jù)審核、判斷蒙文數(shù)據(jù)是否存在差錯(cuò),以及存在怎樣的差錯(cuò)。

      圖7、圖8給出了蒙文專家校正的文本數(shù)據(jù)對(duì)比圖,圖中左列均為音頻文件名,右列是音頻文件所對(duì)應(yīng)的中文文本和蒙文文本,圖7為專家校驗(yàn)之前的機(jī)器翻譯原文,圖8是專家校正之后的結(jié)果。

      圖9是維文專家校正的文本數(shù)據(jù)對(duì)比圖,每一行從左至右依次為文本所屬音頻編號(hào),機(jī)器翻譯的中文文本,翻譯檢驗(yàn)標(biāo)記。其中,0代表翻譯不準(zhǔn)確,其后為翻譯的問(wèn)題,如漏翻或翻錯(cuò),以及改正后的中文翻譯結(jié)果;1代表翻譯正確。

      通過(guò)專家審核、校驗(yàn),改善機(jī)器翻譯產(chǎn)生的偏差,進(jìn)一步提高數(shù)據(jù)質(zhì)量,使得數(shù)據(jù)更加真實(shí)、可靠。

      4 數(shù)據(jù)價(jià)值

      現(xiàn)在語(yǔ)音翻譯數(shù)據(jù)稀少,國(guó)際英語(yǔ)相關(guān)的數(shù)據(jù)比較多,但國(guó)內(nèi)研究較少,中蒙數(shù)據(jù)和維漢數(shù)據(jù)填補(bǔ)了中文相關(guān)語(yǔ)音翻譯的稀缺數(shù)據(jù)。本文提供的語(yǔ)音翻譯數(shù)據(jù)可以直接用于語(yǔ)音翻譯的相關(guān)研究。本數(shù)據(jù)是由AISHELL、THUYG20數(shù)據(jù)集處理加工而來(lái),便于使用AISHELL、THUYG20數(shù)據(jù)集的科研工作人員快速開(kāi)始訓(xùn)練,同時(shí)還便于將AISHELL、THUYG20的模型遷移到本數(shù)據(jù)集上。科研人員也可根據(jù)本數(shù)據(jù)集與AISHELL、THUYG20數(shù)據(jù)集音頻命名規(guī)則一致,便于修改預(yù)處理流程,快速開(kāi)展相應(yīng)實(shí)驗(yàn),用于機(jī)器翻譯的相關(guān)研究。

      致 謝

      感謝中央民族大學(xué)中國(guó)少數(shù)民族語(yǔ)言研究院高娃教授,中國(guó)社會(huì)科學(xué)院民族學(xué)與人類學(xué)研究所哈斯其木格研究員,中國(guó)政法大學(xué)戚肖克博士對(duì)蒙文機(jī)器翻譯質(zhì)量評(píng)估給出的寶貴建議,感謝呼和浩特民族學(xué)院包烏歌德勒博士,九原區(qū)蒙古族學(xué)校娜日娜老師,中央民族大學(xué)趙美麗、都樂(lè)根、媛媛對(duì)蒙文數(shù)據(jù)的審校。

      數(shù)據(jù)作者分工職責(zé)

      李寧(1996—),男,山東省泰安市人,碩士研究生,研究方向?yàn)檎Z(yǔ)音翻譯。主要承擔(dān)工作:數(shù)據(jù)集的預(yù)處理和整合、論文撰寫(xiě)。

      朱麗平(1970—),女,湖南省株洲市人,博士,教授,研究方向?yàn)檎Z(yǔ)音翻譯。主要承擔(dān)工作:總體質(zhì)量管控,機(jī)器翻譯結(jié)果審校組織、協(xié)調(diào)與管理,論文指導(dǎo)與修改。

      趙小兵(1967—),女,內(nèi)蒙古自治區(qū)呼和浩特市人,博士,教授,研究方向?yàn)樽匀徽Z(yǔ)言處理。主要承擔(dān)工作:數(shù)據(jù)質(zhì)量控制與綜合管理。

      木尼熱·艾爾肯(1999—),女,新疆省葉城縣人,本科,研究方向?yàn)樽匀徽Z(yǔ)言處理。主要承擔(dān)工作:維語(yǔ)數(shù)據(jù)質(zhì)量控制。

      猜你喜歡
      蒙文音頻文件中蒙
      蒙文少兒出版物題材特征分析
      萬(wàn)歲!中蒙友誼(男女聲四重唱)
      草原歌聲(2019年3期)2019-10-17 02:20:06
      蒙文信息處理課程教學(xué)策略分析
      清朝頒予杜爾伯特達(dá)賴汗之滿蒙文承襲詔書(shū)(英文)
      基于Android手機(jī)的音頻文件取證技術(shù)研究
      中蒙醫(yī)結(jié)合治療頸性眩暈
      中蒙醫(yī)解毒化濕法治療布魯氏菌病
      缺血性腦卒中恢復(fù)期的中蒙醫(yī)康復(fù)治療
      提取APP中的音頻文件
      數(shù)字水印在音頻文件篡改檢測(cè)中的應(yīng)用
      抚州市| 庄浪县| 柳林县| 浮梁县| 郸城县| 麦盖提县| 河津市| 江山市| 牡丹江市| 达州市| 海晏县| 彭州市| 青阳县| 铅山县| 巴青县| 休宁县| 台江县| 城市| 淮安市| 临漳县| 高碑店市| 德州市| 普定县| 容城县| 开平市| 彰化市| 庆阳市| 泌阳县| 离岛区| 博湖县| 河北省| 行唐县| 黔江区| 静乐县| 黎平县| 浦城县| 泗水县| 鞍山市| 安徽省| 枞阳县| 隆德县|