戚肖克,特尼格爾,孫媛,趙小兵*
1.中國(guó)政法大學(xué),北京 102249
2.國(guó)家語言資源監(jiān)測(cè)與研究少數(shù)民族語言中心,北京 100081
3.中央民族大學(xué)中國(guó)少數(shù)民族語言文學(xué)學(xué)院,北京 100081
語音翻譯 (Speech Translation,ST),又稱為口語翻譯 (Spoken Language Translation,SLT),它的任務(wù)是將一種語言的語音轉(zhuǎn)換為另一種語言的文本[1]。語音翻譯是打破人類交流語言壁障的一項(xiàng)關(guān)鍵技術(shù),應(yīng)用較為廣泛,如電影字幕、國(guó)際會(huì)議、旅游輔助等。
語音翻譯技術(shù)建立在自動(dòng)語音識(shí)別 (Automatic Speech Recognition,ASR) 和機(jī)器翻譯 (Machine Translation,MT) 技術(shù)之上。近年來,隨著計(jì)算機(jī)算力的提升、端到端神經(jīng)網(wǎng)絡(luò)方法的提出、數(shù)據(jù)的劇增等,ASR和MT領(lǐng)域都有了顯著的進(jìn)展,語音翻譯也成為語音信號(hào)處理及自然語言處理領(lǐng)域的一個(gè)研究熱點(diǎn)。
然而,受公開的數(shù)據(jù)集限制,目前ST方向的研究大多針對(duì)中英[2]、英德[3]、英法[4]、英日[5]等語言之間的翻譯,較少機(jī)構(gòu)研究面向少數(shù)民族語言的語音翻譯。為了緩解這一問題,本文采集了年齡在20-25歲之間的36位蒙古族人員的語音,并由蒙漢專業(yè)人員標(biāo)注了每個(gè)音頻對(duì)應(yīng)的漢語文本。經(jīng)整合和預(yù)處理后,共得到25小時(shí)的有效蒙語語音數(shù)據(jù),形成了蒙漢語音翻譯數(shù)據(jù)集NMLR-Mon2Chs ST。本數(shù)據(jù)集不僅可供ST領(lǐng)域研究使用,還可用于ASR、MT、蒙語語音合成、說話人識(shí)別等方向的研究。
蒙漢語音翻譯數(shù)據(jù)集(NMLR-Mon2Chs ST)包含語音和文本兩部分?jǐn)?shù)據(jù)。語音數(shù)據(jù)由36位年齡在20-25歲之間的蒙古族說話人通過錄制得到,這些說話人均來自于我國(guó)內(nèi)蒙古自治區(qū)呼和浩特市。首先,準(zhǔn)備蒙語文本,每位錄音人員在安靜的環(huán)境下,通過手機(jī)朗讀文本的句子,進(jìn)行錄音,朗讀的每句保存為一個(gè)wav格式的語音文件,文件名為朗讀文本中的句序號(hào),每個(gè)說話人的音頻放在一個(gè)單獨(dú)文件夾中。之后,由既懂蒙語又懂漢語的專業(yè)人員對(duì)每個(gè)語音文件標(biāo)注對(duì)應(yīng)的漢語文本。然后,整合語音和文本文件,并對(duì)其進(jìn)行預(yù)處理,最終得到蒙語語音翻譯數(shù)據(jù)集。
從36位錄音人員處收集數(shù)據(jù),數(shù)據(jù)的形式為每位說話人一個(gè)單獨(dú)文件夾,文件夾內(nèi)為以句序號(hào)命名的wav文件及對(duì)應(yīng)的以句序號(hào)命名的蒙文和漢語文本。將此數(shù)據(jù)集稱為原始蒙漢語音翻譯數(shù)據(jù)集,對(duì)此數(shù)據(jù)集進(jìn)行預(yù)處理,經(jīng)過6個(gè)步驟后,可以得到最終的蒙語語音翻譯數(shù)據(jù)集。具體的預(yù)處理步驟如圖1所示。
第一步,去除空文件。由于說話人在錄制過程中,存在誤觸、錄制失敗等問題,導(dǎo)致空語音文件的產(chǎn)生。因此,預(yù)處理首先要去除無語音數(shù)據(jù)的文件。方法為:設(shè)置一個(gè)閾值,當(dāng)語音音頻時(shí)長(zhǎng)小于閾值時(shí),認(rèn)為該文件內(nèi)不含有意義的語音數(shù)據(jù),因此將從數(shù)據(jù)集中刪除該音頻文件。在本數(shù)據(jù)集中,設(shè)置閾值為0.2秒。
第二步,去除非蒙語存在的音頻。在錄制的蒙文文本中,存在非蒙文詞,如2020、King、Uncle、Roger 等。由于數(shù)量較少,在預(yù)處理時(shí)簡(jiǎn)單地將這類文本數(shù)據(jù)及對(duì)應(yīng)的語音數(shù)據(jù)從數(shù)據(jù)集中刪除。
第三步,重采樣。由于36位說話人在不同的時(shí)間不同的設(shè)備上錄制語音,使得數(shù)據(jù)集中不同的音頻文件采樣率存在區(qū)別,如存在個(gè)別音頻的采樣率為44.1 kHz。為解決這一問題,對(duì)所有音頻,重采樣至16 kHz。
第五步,按照一定格式重命名音頻,具體格式描述如第2章所示。
第六步,文本文件重組。原始蒙漢語音翻譯數(shù)據(jù)集中每個(gè)音頻都對(duì)應(yīng)一個(gè)文本文件,不利于數(shù)據(jù)的處理。因此,將所有音頻的文本加入音頻名稱作為文本標(biāo)記,全部整合入一個(gè)文本中,形成最終的文本文件。
本數(shù)據(jù)集為蒙漢語音翻譯數(shù)據(jù)集,數(shù)據(jù)集中包含1個(gè)zip壓縮包和1個(gè)文本文件。其中,壓縮包內(nèi)有一個(gè)名為wav的文件夾,大小為1.61 GB,未壓縮時(shí)大小為2.68 GB。wav文件夾內(nèi)包含36個(gè)子文件夾,每個(gè)子文件夾對(duì)應(yīng)一位錄音人員的語音數(shù)據(jù),命名規(guī)則為錄音人員的“姓名拼音”與“錄制的音頻的總時(shí)長(zhǎng)(以分鐘為單位)”。例如,子文件夾“ahei40”表示該文件夾下的音頻均為“阿黑”錄制,錄制的語音總時(shí)長(zhǎng)約為40分鐘(由于預(yù)處理過程中去除了一部分無效語音,因此最終有效時(shí)長(zhǎng)略小于此處標(biāo)記的值)。子文件夾下為多個(gè)音頻文件,每個(gè)文件的命名格式為“該音頻所在的子文件夾名稱-音頻序號(hào).wav”,如“ahei40-0001.wav”、“ahei40-0002.wav”等。對(duì)本數(shù)據(jù)集中36位錄音人員錄制的音頻文件數(shù)目和音頻總有效時(shí)長(zhǎng)(以分鐘為單位)進(jìn)行統(tǒng)計(jì),結(jié)果如表1所示。平均每位錄音人員錄制 597句,平均有效時(shí)長(zhǎng) 41.7分鐘。整個(gè)蒙漢語音翻譯數(shù)據(jù)集中共包含21478個(gè)音頻文件,有效時(shí)長(zhǎng)為25小時(shí)。
表1 36位錄音人員的音頻數(shù)據(jù)統(tǒng)計(jì)表Table 1 Audio data statistics table of 36 recordists
數(shù)據(jù)集中的文本文件名為text.json,大小為4.9 MB。每個(gè)音頻文件對(duì)應(yīng)文本中的一個(gè)字典,字典中的鍵“filename”“mon”和“chs”分別表示“音頻文件名”“音頻對(duì)應(yīng)的蒙文文本”和“音頻對(duì)應(yīng)的漢語文本”,示例如表2所示。
表2 音頻對(duì)應(yīng)的文本內(nèi)容示例Table 2 Samples of text corresponding to audio
本蒙漢語音翻譯數(shù)據(jù)集由36位蒙古族人員在安靜環(huán)境中錄音的音頻文件、對(duì)應(yīng)的蒙語文本以及漢語文本組成,在預(yù)處理階段對(duì)音頻和文本進(jìn)行了質(zhì)量控制,去除了無效的音頻、非蒙文的句子等,確保數(shù)據(jù)的可靠性。對(duì)音頻時(shí)長(zhǎng)區(qū)間的分布進(jìn)行分析,如圖2所示,圖中的柱狀圖表示不同音頻時(shí)長(zhǎng)區(qū)間在所有音頻中的占比,折線圖為不同音頻時(shí)長(zhǎng)區(qū)間在所有音頻中的累積占比。從圖中可以看出,50.7%的音頻時(shí)長(zhǎng)在2-4秒,97.8%的音頻時(shí)長(zhǎng)在8秒以內(nèi)。同時(shí),通過計(jì)算可以得出,本數(shù)據(jù)集中音頻的平均時(shí)長(zhǎng)為4.2秒。
蒙漢語音翻譯數(shù)據(jù)集中的語音來源于36位蒙古族人員,年齡在20-25歲之間,采用手機(jī)錄制音頻,文本由專門的人員標(biāo)注,經(jīng)過整合和預(yù)處理后得到25小時(shí)的可靠數(shù)據(jù)。本數(shù)據(jù)可為蒙漢語音翻譯研究提供數(shù)據(jù)基礎(chǔ)。此外,本數(shù)據(jù)集還可用作蒙語語音識(shí)別、語音合成、說話人識(shí)別等任務(wù)的測(cè)試集,同時(shí)也可作為訓(xùn)練集用于研究小樣本下的任務(wù)。例如,蒙語語音和蒙文文本可用于小樣本下的蒙語語音識(shí)別的研究。蒙文文本與漢語文本作為一對(duì)平行語料,可用于小樣本下的蒙漢機(jī)器翻譯的研究。平均每個(gè)說話人錄制了約600句音頻,可用于研究小樣本蒙語語音合成或多說話人蒙語語音合成算法。語音數(shù)據(jù)按照說話人分別存儲(chǔ)在不同的文件夾下,因此,本數(shù)據(jù)集也可用于小樣本下的說話人識(shí)別研究。
致 謝
獲取本數(shù)據(jù)集得到呼和浩特民族學(xué)院包烏格德勒、斯日古楞的大力支持,在此表示感謝。
數(shù)據(jù)作者分工職責(zé)
戚肖克(1985—),女,山東省菏澤市人,博士,副教授,研究方向?yàn)檎Z音信號(hào)處理、自然語言處理。主要承擔(dān)工作:數(shù)據(jù)集的預(yù)處理和整合、論文撰寫。
特尼格爾(1990—),男,內(nèi)蒙古自治區(qū)呼和浩特市人,博士研究生,研究方向?yàn)橛?jì)算語言學(xué)。主要承擔(dān)工作:數(shù)據(jù)采集與質(zhì)量控制。
孫媛(1979—),女,山東省濱州市人,博士,副教授,研究方向?yàn)樽匀徽Z言處理。主要承擔(dān)工作:數(shù)據(jù)集前期整合。
趙小兵(1967—),女,內(nèi)蒙古自治區(qū)呼和浩特市人,博士,教授,研究方向?yàn)樽匀徽Z言處理。主要承擔(dān)工作:數(shù)據(jù)質(zhì)量控制與綜合管理。
中國(guó)科學(xué)數(shù)據(jù)(中英文網(wǎng)絡(luò)版)2022年2期