摘要:藏語(yǔ)屬于低資源語(yǔ)言,其語(yǔ)音識(shí)別模型的訓(xùn)練面臨數(shù)據(jù)稀缺的挑戰(zhàn)。為了解決這一問(wèn)題,文章研究了數(shù)據(jù)增強(qiáng)技術(shù)在藏語(yǔ)拉薩方言語(yǔ)音識(shí)別中的應(yīng)用。首先,文章比較了DeepSpeech2、Conformer和Squeezeformer等3種主流語(yǔ)音識(shí)別模型在藏語(yǔ)拉薩方言語(yǔ)音識(shí)別任務(wù)中的性能。隨后,在表現(xiàn)最佳的Conformer模型上,對(duì)速度擾動(dòng)、音量擾動(dòng)、移動(dòng)擾動(dòng)、SpecAugment和SpecSubAugment等5種數(shù)據(jù)增強(qiáng)方法的效果進(jìn)行了對(duì)比分析。實(shí)驗(yàn)結(jié)果表明,5種數(shù)據(jù)增強(qiáng)方法均能有效提升模型性能,其中SpecAugment方法表現(xiàn)最佳,將字符錯(cuò)誤率(CER)降至13.1%。
關(guān)鍵詞:藏語(yǔ)拉薩方言;語(yǔ)音識(shí)別;數(shù)據(jù)增強(qiáng);端到端模型;SpecAugment
中圖分類(lèi)號(hào):TP391.4文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2024)35-0001-05開(kāi)放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):
0引言
信息技術(shù)的迅猛發(fā)展,語(yǔ)音識(shí)別技術(shù)在人工智能領(lǐng)域占據(jù)了舉足輕重的地位。它通過(guò)將人類(lèi)語(yǔ)音轉(zhuǎn)化為文本形式,極大地促進(jìn)了人機(jī)交互的自然性和智能化進(jìn)程。語(yǔ)音識(shí)別技術(shù)自20世紀(jì)50年代起發(fā)展迅速[1],現(xiàn)已廣泛應(yīng)用于智能家居、車(chē)載設(shè)備、智能穿戴設(shè)備等領(lǐng)域,如Siri、GoogleNow等。
近年來(lái),隨著人工智能技術(shù)的進(jìn)步和社會(huì)對(duì)多語(yǔ)言信息處理需求的增加,少數(shù)民族語(yǔ)言的語(yǔ)音識(shí)別技術(shù)日益受到關(guān)注。藏語(yǔ)作為中國(guó)少數(shù)民族語(yǔ)言中使用人數(shù)較多的語(yǔ)言之一,具有深厚的歷史文化底蘊(yùn)。其語(yǔ)音識(shí)別技術(shù)的發(fā)展不僅能夠推動(dòng)藏語(yǔ)的數(shù)字化進(jìn)程,加強(qiáng)民族文化交流,還能幫助藏族人民更好地融入現(xiàn)代社會(huì),享受科技進(jìn)步帶來(lái)的便利。
盡管英語(yǔ)、漢語(yǔ)等語(yǔ)言在語(yǔ)音識(shí)別領(lǐng)域取得了顯著成就,但藏語(yǔ)語(yǔ)音識(shí)別技術(shù)的發(fā)展起步相對(duì)較晚。藏語(yǔ)雖然與漢語(yǔ)同屬漢藏語(yǔ)系,但發(fā)音差異較大,且由于地理位置、歷史條件等因素,藏語(yǔ)語(yǔ)音識(shí)別研究基礎(chǔ)相對(duì)薄弱,語(yǔ)料資源匱乏,導(dǎo)致其技術(shù)發(fā)展滯后,識(shí)別率較低[2]。
目前,研究者們通過(guò)引入不同的技術(shù)和模型,不斷優(yōu)化藏語(yǔ)語(yǔ)音識(shí)別的準(zhǔn)確率。例如:
CTC-Attention模型,在藏語(yǔ)拉薩方言測(cè)試WER達(dá)到38.64%。2020年,樂(lè)建建[4]引入空洞卷積,使用WaveNet-CTC模型,在藏語(yǔ)拉薩方言測(cè)試WER達(dá)到28.83%;郭龍銀[5]等結(jié)合卷積網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò),提出CNN-BLSTM-CTC模型,藏語(yǔ)拉薩方言測(cè)試WER達(dá)到35.51%。2021年,高飛[6]將視頻特征與語(yǔ)音特征融合,提出AV-WaveNet-CTC模型,在藏語(yǔ)拉薩方言測(cè)試WER達(dá)到42.7%;侯苗苗[7]融合多種語(yǔ)音特征,提出基于CNN的多特征聲學(xué)模型,在藏語(yǔ)拉薩方言測(cè)試WER達(dá)到24.64%;算太本[8]提出CNN-CTC模型,在藏語(yǔ)拉薩方言和安多方言混合數(shù)據(jù)集上測(cè)試WER達(dá)到19.26%。2022年,貢保加[9]引入多尺度特征融合思想,提出MRDCNN-CTC模型,在藏語(yǔ)安多方言測(cè)試WER達(dá)到18.67%。2023年,朱小軍[10]基于LAS網(wǎng)絡(luò)結(jié)構(gòu)提出MHLAS模型,結(jié)合遷移學(xué)習(xí),在安多藏語(yǔ)方言測(cè)試WER達(dá)到35.78%;王超[11]提出基于Conformer-CTCBi-Transformer的模型,在藏語(yǔ)安多方言測(cè)試WER達(dá)到6.98%。
在數(shù)據(jù)增強(qiáng)方面,研究者也取得了一定進(jìn)展:2021年,楊曉東[12]采用Transformer模型并引入Spe?cAugment進(jìn)行數(shù)據(jù)增強(qiáng),在藏語(yǔ)拉薩方言測(cè)試WER達(dá)到25.8%。王偉喆[13]提出基于語(yǔ)譜特征的端到端藏語(yǔ)語(yǔ)音識(shí)別模型,并通過(guò)添加不同信噪比的自然場(chǎng)景噪聲實(shí)現(xiàn)數(shù)據(jù)增強(qiáng),在藏語(yǔ)拉薩方言測(cè)試WER達(dá)到28.53%。
由上述研究可知,盡管藏語(yǔ)語(yǔ)音識(shí)別領(lǐng)域已有一定成果,但要進(jìn)一步提升性能,仍依賴(lài)于大量數(shù)據(jù)集的支持。此外,目前針對(duì)藏語(yǔ)語(yǔ)音識(shí)別任務(wù)的數(shù)據(jù)增強(qiáng)研究相對(duì)較少。因此,本文研究了數(shù)據(jù)增強(qiáng)技術(shù)在藏語(yǔ)拉薩方言語(yǔ)音識(shí)別任務(wù)上的應(yīng)用,以提升藏語(yǔ)拉薩方言語(yǔ)音識(shí)別性能。這項(xiàng)研究不僅能夠推動(dòng)藏語(yǔ)語(yǔ)音識(shí)別技術(shù)的發(fā)展,還對(duì)保護(hù)和傳承藏語(yǔ)文化具有重要意義。
為了確保實(shí)驗(yàn)結(jié)果的可比性和可復(fù)現(xiàn)性,本文選用了西北民族大學(xué)發(fā)布的公開(kāi)藏語(yǔ)語(yǔ)音識(shí)別數(shù)據(jù)集①作為實(shí)驗(yàn)數(shù)據(jù)。通過(guò)使用公開(kāi)數(shù)據(jù)集為不同研究者提供統(tǒng)一的實(shí)驗(yàn)平臺(tái),為后續(xù)研究者提供參考基準(zhǔn),使其能夠在此基礎(chǔ)上進(jìn)一步探索和優(yōu)化適用于藏語(yǔ)語(yǔ)音識(shí)別的模型和數(shù)據(jù)增強(qiáng)方法,促進(jìn)學(xué)術(shù)交流,推動(dòng)藏語(yǔ)語(yǔ)音識(shí)別技術(shù)的發(fā)展。
1數(shù)據(jù)增強(qiáng)方法
在語(yǔ)音識(shí)別領(lǐng)域,尤其是針對(duì)藏語(yǔ)這種低資源語(yǔ)言,收集大量標(biāo)簽數(shù)據(jù)是一項(xiàng)挑戰(zhàn),因?yàn)樗枰罅康娜肆臀锪Y源。為了解決這一問(wèn)題,本文探討了數(shù)據(jù)增強(qiáng)技術(shù)在藏語(yǔ)拉薩方言語(yǔ)音識(shí)別任務(wù)中的應(yīng)用。
數(shù)據(jù)增強(qiáng)是一種通過(guò)增加訓(xùn)練數(shù)據(jù)的多樣性來(lái)擴(kuò)充訓(xùn)練集的方法,這有助于防止模型過(guò)擬合并提高其魯棒性。本文采用了5種數(shù)據(jù)增強(qiáng)技術(shù),分別為速度擾動(dòng)[14]、音量擾動(dòng)[15]、移動(dòng)擾動(dòng)、SpecAugment增強(qiáng)[16]和SpecSubAugment增強(qiáng)[17]。
1.1速度擾動(dòng)
速度擾動(dòng)是一種直接作用于原始音頻的語(yǔ)音增強(qiáng)技術(shù),它利用時(shí)間伸縮的方法。具體來(lái)說(shuō),通過(guò)應(yīng)用不同的速度擾動(dòng)系數(shù)對(duì)原始信號(hào)進(jìn)行速度調(diào)整,以此生成一系列新的音頻樣本。然而,如果速度變化過(guò)大,可能會(huì)導(dǎo)致語(yǔ)音失真或語(yǔ)義丟失,因此在實(shí)際應(yīng)用中需要仔細(xì)選擇速度擾動(dòng)的范圍。
本文采用的擾動(dòng)因子將在0.9到1.1的范圍內(nèi)均勻采樣3個(gè)速度率,對(duì)音頻進(jìn)行擾動(dòng)。這種技術(shù)模擬了不同說(shuō)話人可能具有的不同語(yǔ)速,提高模型對(duì)不同語(yǔ)速的適應(yīng)能力。
1.2音量擾動(dòng)
音量擾動(dòng)是通過(guò)改變音頻信號(hào)的增益來(lái)實(shí)現(xiàn),即對(duì)信號(hào)的振幅進(jìn)行縮放,使其在不同的分貝級(jí)別上進(jìn)行變化。音量擾動(dòng)通過(guò)隨機(jī)選擇一個(gè)增益值,該值位于最小增益和最大增益之間,但需合理設(shè)置增益范圍以避免潛在的缺陷。
本文設(shè)置的最小增益和最大增益分別為-15dBFS和15dBFS,選定的增益被應(yīng)用到音頻片段上,改變其音量。通過(guò)這種技術(shù),模型在訓(xùn)練過(guò)程中接觸到不同音量水平的音頻數(shù)據(jù),從而提高其在實(shí)際應(yīng)用中對(duì)音量變化的適應(yīng)能力。
1.3移動(dòng)擾動(dòng)
移動(dòng)擾動(dòng)是通過(guò)在時(shí)間維度上對(duì)音頻進(jìn)行隨機(jī)平移或位移。對(duì)于每個(gè)音頻片段,隨機(jī)選擇一個(gè)位移值,將音頻信號(hào)在時(shí)間軸上向前或向后平移。然而,如果位移過(guò)大可能會(huì)導(dǎo)致音頻片段的開(kāi)始或結(jié)束部分被截?cái)?,從而丟失重要的信息。
本文設(shè)置的最小位移為-5ms,最大位移為5ms。通過(guò)這種技術(shù),可以模擬真實(shí)世界中可能遇到的信號(hào)延遲或時(shí)間偏移問(wèn)題,從而提高模型的性能。
1.4SpecAugment增強(qiáng)方式
SpecAugment是一種直接對(duì)音頻的特征進(jìn)行操作的增強(qiáng)技術(shù),能夠增強(qiáng)模型對(duì)各種噪聲和變化的魯棒性,使模型可以學(xué)習(xí)到更加泛化的特征表示,從而提高在實(shí)際應(yīng)用中的性能。該方法通過(guò)三種主要的擾動(dòng)方式進(jìn)行數(shù)據(jù)增強(qiáng):時(shí)間扭曲、頻率掩蔽和時(shí)間掩蔽。
時(shí)間扭曲:通過(guò)對(duì)頻譜圖進(jìn)行局部的時(shí)間軸扭曲,模擬音頻信號(hào)中可能發(fā)生的時(shí)間變化。具體操作是隨機(jī)選擇一個(gè)中心點(diǎn),并在該點(diǎn)周?chē)S機(jī)扭曲一定范圍。
頻率掩蔽:隨機(jī)選擇一定比例的連續(xù)頻率通道,將這些通道的值替換為零或頻譜圖的平均值,模擬信號(hào)在這些頻率上的缺失。
時(shí)間掩蔽:隨機(jī)選擇一定比例的連續(xù)時(shí)間步,將這些時(shí)間步的值替換為零或頻譜圖的平均值,模擬信號(hào)在這些時(shí)間段內(nèi)的缺失。
本文中,時(shí)間扭曲的最大扭曲幅度設(shè)置為5個(gè)時(shí)間步;頻率掩蔽執(zhí)行兩次,每次掩蔽操作覆蓋最多15%的頻率通道;時(shí)間掩蔽執(zhí)行兩次,每次掩蔽操作覆蓋最多5%的時(shí)間步。
1.5SpecSubAugment增強(qiáng)方式
SpecSubAugment是一種新型的數(shù)據(jù)增強(qiáng)方法,通過(guò)“頻譜替換”的技術(shù)來(lái)增強(qiáng)訓(xùn)練數(shù)據(jù)。這種方法隨機(jī)將當(dāng)前的一段頻譜特征替換為之前某段相同長(zhǎng)度的頻譜特征。替換操作是隨機(jī)進(jìn)行的,并且可以在訓(xùn)練過(guò)程中多次應(yīng)用,以增加模型對(duì)不同語(yǔ)音片段之間變化的適應(yīng)性。
本文中,替換的最大寬度為30幀,每個(gè)音頻片段將進(jìn)行3次替換操作,每次替換的起始點(diǎn)、長(zhǎng)度和來(lái)源位置均為隨機(jī)選擇。
2模型
2.1編碼器
本文探索了3種主流模型——DeepSpeech2、Con?former和Squeezeformer,作為編碼器在藏語(yǔ)拉薩方言語(yǔ)音識(shí)別任務(wù)中的性能表現(xiàn)。
2.1.1DeepSpeech2
DeepSpeech2是由百度AI研究院提出的一種端到端深度學(xué)習(xí)語(yǔ)音識(shí)別模型。該模型結(jié)合了深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)來(lái)提取語(yǔ)音信號(hào)的特征,并利用連接時(shí)序分類(lèi)(CTC)算法進(jìn)行高效的語(yǔ)音識(shí)別[18]。其整體架構(gòu)如圖1所示。
輸入數(shù)據(jù)首先通過(guò)CNN層進(jìn)行卷積和池化操作,以降低數(shù)據(jù)維度并提取關(guān)鍵特征,例如聲音的頻率和時(shí)間信息。接下來(lái),RNN層進(jìn)一步處理這些特征,利用其記憶功能捕捉語(yǔ)音信號(hào)中的序列信息。每一層RNN的輸出都會(huì)經(jīng)過(guò)批歸一化(BatchNormalization,BN)處理,以加速網(wǎng)絡(luò)的收斂并提升識(shí)別的準(zhǔn)確度。
最終,通過(guò)全連接層將RNN的輸出映射到字或音素的概率分布上,并通過(guò)束搜索算法(BeamSearch)確定最可能的單詞或音素序列,經(jīng)過(guò)后處理得到最終的識(shí)別結(jié)果。
2.1.2Conformer
自Transformer模型問(wèn)世以來(lái),它在自然語(yǔ)言處理(NLP)領(lǐng)域取得了顯著成就。同時(shí),卷積神經(jīng)網(wǎng)絡(luò)(CNN)技術(shù)在圖像處理領(lǐng)域也得到了廣泛應(yīng)用。Transformer在提取長(zhǎng)序列依賴(lài)方面表現(xiàn)更為高效,而CNN則擅長(zhǎng)捕捉局部特征。為了在語(yǔ)音識(shí)別任務(wù)中實(shí)現(xiàn)更優(yōu)的性能,Gulati等人[19]提出了一種名為Con?former的模型,該模型有效地結(jié)合了Transformer和CNN的優(yōu)勢(shì)。Conformer模型的整體架構(gòu)如圖2所示。
Conformer模塊由4個(gè)子模塊依次疊加構(gòu)成,包括一個(gè)前饋網(wǎng)絡(luò)、一個(gè)多頭自注意力網(wǎng)絡(luò)、一個(gè)卷積網(wǎng)絡(luò)和另一個(gè)前饋網(wǎng)絡(luò)。在前饋網(wǎng)絡(luò)中,引入了Swish激活函數(shù)和dropout技術(shù),其具體流程如圖3所示。卷積網(wǎng)絡(luò)部分采用了預(yù)歸一化殘差連接、逐點(diǎn)卷積和線性門(mén)控單元,如圖4所示。多頭自注意力機(jī)制通過(guò)將輸入向量分割成多個(gè)頭,分別進(jìn)行注意力計(jì)算,并將這些計(jì)算結(jié)果合并,從而生成輸出向量。這種機(jī)制使模型能夠同時(shí)關(guān)注輸入序列的多個(gè)不同區(qū)域,從而提升模型性能,如圖5所示。在Conformer的多頭自注意力模塊中,還應(yīng)用了相對(duì)位置編碼、dropout和預(yù)歸一化殘差連接。相對(duì)位置編碼是一種可訓(xùn)練的位置編碼方法,它將位置信息整合到輸入向量中,幫助模型理解輸入序列內(nèi)不同位置間的相互關(guān)系[19]。
2.1.3Squeezeformer
Squeezeformer[20]通過(guò)減少注意力頭數(shù)和隱藏層的維度,大大降低了模型的參數(shù)量和計(jì)算復(fù)雜度,使其在相同資源下能夠處理更長(zhǎng)的輸入序列。同時(shí),由于減少了注意力頭數(shù)和隱藏層的維度,Squeezeformer的模型大小較小,所需的存儲(chǔ)空間更少。此外,Squeeze?former引入了自適應(yīng)正則化機(jī)制,從而提高了模型的泛化能力,使其在處理不同領(lǐng)域和任務(wù)的數(shù)據(jù)時(shí)表現(xiàn)更為出色。
Squeezeformer還引入了自注意力機(jī)制,可以更好地捕捉輸入序列中的關(guān)鍵信息,從而使模型的預(yù)測(cè)結(jié)果更具可解釋性。Squeezeformer模型的框架圖如圖6所示。
2.2解碼器
解碼器是語(yǔ)音識(shí)別中非常重要的組成部分。在語(yǔ)音識(shí)別任務(wù)中,模型輸出的結(jié)果需要通過(guò)解碼器才能轉(zhuǎn)換為文本結(jié)果。常見(jiàn)的解碼器包括貪心解碼策略和集束搜索解碼策略。
貪心解碼策略是在每一步選擇概率最大的輸出值,然后刪除連續(xù)相同的字符,從而得到最終解碼的輸出序列。接著,在詞匯表中查找字符,將序列轉(zhuǎn)換為文本,得到最終的語(yǔ)音識(shí)別結(jié)果。然而,貪心解碼方法在性能上存在局限性,因?yàn)樗鼪](méi)有考慮到一個(gè)輸出可能對(duì)應(yīng)多個(gè)不同的結(jié)果,僅選擇概率最高的路徑。在某些情況下,發(fā)音相似的錯(cuò)誤字符可能會(huì)被錯(cuò)誤地識(shí)別為最有可能的選項(xiàng)。
相比之下,集束搜索解碼策略通過(guò)同時(shí)考慮概率相近的字符,生成多個(gè)可能的解碼路徑。集束搜索會(huì)擴(kuò)展當(dāng)前最有潛力的幾條路徑,而不是僅僅選擇單一最優(yōu)路徑。這樣,即使某些發(fā)音相似的字符被錯(cuò)誤地識(shí)別,集束搜索也能夠通過(guò)比較不同路徑的整體概率來(lái)減少這種錯(cuò)誤。
通過(guò)使用更優(yōu)的解碼器,可以有效提高模型的準(zhǔn)確率。因此,本文采用了集束搜索解碼策略。
3實(shí)驗(yàn)與分析
3.1實(shí)驗(yàn)設(shè)置
實(shí)驗(yàn)語(yǔ)料庫(kù)包含三大方言的數(shù)據(jù)集,但在本實(shí)驗(yàn)中僅使用拉薩方言的數(shù)據(jù)集。
本文基于藏字構(gòu)件作為建模單元,采用80維fbank作為聲學(xué)特征,使用Adam優(yōu)化器進(jìn)行訓(xùn)練,初始學(xué)習(xí)率設(shè)置為0.0001,訓(xùn)練輪次(epochs)為200。
實(shí)驗(yàn)設(shè)計(jì)的平臺(tái)為Anaconda,其他實(shí)驗(yàn)環(huán)境配置參數(shù)見(jiàn)表1。
評(píng)價(jià)指標(biāo)采用字符錯(cuò)誤率(CharacterErrorRate,CER),它通過(guò)計(jì)算識(shí)別結(jié)果與標(biāo)準(zhǔn)文本之間的字符差異來(lái)進(jìn)行評(píng)估。具體來(lái)說(shuō),CER是替換、刪除或插入字符的總次數(shù)與標(biāo)準(zhǔn)文本中字符總數(shù)的比率。CER比率越低,說(shuō)明語(yǔ)音識(shí)別系統(tǒng)的準(zhǔn)確性越高,因?yàn)檫@表示系統(tǒng)生成的文本與實(shí)際文本之間的差異較小。CER的計(jì)算公式如下:
CER=(S+D+I)/N
式中:S代表替換的個(gè)數(shù),D代表刪除的個(gè)數(shù),I代表插入的個(gè)數(shù),N代表總字符數(shù)。
3.2實(shí)驗(yàn)結(jié)果與分析
本文對(duì)比了3種主流模型DeepSpeech2、Con?former和Squeezeformer在藏語(yǔ)拉薩方言語(yǔ)音識(shí)別上的效果,如表2所示。其中,為了驗(yàn)證數(shù)據(jù)增強(qiáng)對(duì)藏語(yǔ)拉薩方言語(yǔ)音識(shí)別的有效性,在性能最優(yōu)的Conformer模型上,使用了速度擾動(dòng)、音量擾動(dòng)、移動(dòng)擾動(dòng)、Spe?cAugment和SpecSubAugment等5種數(shù)據(jù)增強(qiáng)方法進(jìn)行了對(duì)比實(shí)驗(yàn),如表3所示。
從表2的實(shí)驗(yàn)結(jié)果可以看出,Conformer、Squeeze?former和DeepSpeech2等3種不同架構(gòu)的語(yǔ)音識(shí)別模型在藏語(yǔ)拉薩方言數(shù)據(jù)集上均表現(xiàn)出良好的識(shí)別性能,其中Conformer模型表現(xiàn)最佳,其CER低至17.8%。
表3的實(shí)驗(yàn)結(jié)果表明,本文采用的5種數(shù)據(jù)增強(qiáng)方法對(duì)藏語(yǔ)拉薩方言語(yǔ)音識(shí)別均具有顯著效果。與原始的Conformer模型相比,這些增強(qiáng)方法使其字符錯(cuò)誤率進(jìn)一步降低。其中,SpecAugment增強(qiáng)方式的字符錯(cuò)誤率低于其余4種方法,表現(xiàn)最佳。
4總結(jié)與展望
本文首先探討了3種主流的端到端語(yǔ)音識(shí)別模型在藏語(yǔ)拉薩方言公開(kāi)數(shù)據(jù)集上的識(shí)別效果,其次在其中性能最優(yōu)的Conformer模型上,采用了五種數(shù)據(jù)增強(qiáng)方法進(jìn)行對(duì)比實(shí)驗(yàn)。
實(shí)驗(yàn)驗(yàn)證了3種模型在藏語(yǔ)拉薩方言語(yǔ)音識(shí)別任務(wù)中均具有良好的字符錯(cuò)誤率表現(xiàn),同時(shí)證明了數(shù)據(jù)增強(qiáng)對(duì)藏語(yǔ)拉薩方言語(yǔ)音識(shí)別具有顯著的促進(jìn)作用。在5種數(shù)據(jù)增強(qiáng)方法中,SpecAugment增強(qiáng)方式在該任務(wù)中表現(xiàn)出最優(yōu)效果。
實(shí)驗(yàn)驗(yàn)證了3種模型在藏語(yǔ)拉薩方言語(yǔ)音識(shí)別任務(wù)中均具有良好的字符錯(cuò)誤率表現(xiàn),同時(shí)證明了數(shù)據(jù)增強(qiáng)對(duì)藏語(yǔ)拉薩方言語(yǔ)音識(shí)別具有顯著的促進(jìn)作用。在5種數(shù)據(jù)增強(qiáng)方法中,SpecAugment增強(qiáng)方式在該任務(wù)中表現(xiàn)出最優(yōu)效果。
注釋?zhuān)?/p>
①藏語(yǔ)語(yǔ)音識(shí)別數(shù)據(jù)集.(V1).西北民族大學(xué)[創(chuàng)建機(jī)構(gòu)],2022-08-23.國(guó)家基礎(chǔ)學(xué)科公共科學(xué)數(shù)據(jù)中心[發(fā)布機(jī)構(gòu)],https://cstr.cn/16666.11.nbsdc.ertz0y0o.
參考文獻(xiàn):
[1]DAVISKH,BIDDULPHR,BALASHEKS.Automaticrecogni?tionofspokendigits[J].TheJournaloftheAcousticalSocietyofAmerica,1952,24(6):637-642.
[2]邊巴旺堆,王希,王君堡.藏語(yǔ)語(yǔ)音識(shí)別研究進(jìn)展綜述[J].高原科學(xué)研究,2022,6(4):76-84.
[3]周剛.藏語(yǔ)拉薩方言語(yǔ)音識(shí)別的研究[D].蘭州:西北師范大學(xué),2019.
[4]樂(lè)建建.藏語(yǔ)多任務(wù)多方言語(yǔ)音識(shí)別[D].北京:中央民族大學(xué),2020.
[5]郭龍銀,扎西多吉,尚慧杰,等.基于LSTM的藏語(yǔ)語(yǔ)音識(shí)別[J].電腦知識(shí)與技術(shù),2020,16(4):154-155.
[6]高飛.藏語(yǔ)拉薩話音視頻語(yǔ)音識(shí)別研究[D].北京:中央民族大學(xué),2021.
[7]侯苗苗.基于CNN多特征融合的藏語(yǔ)語(yǔ)音識(shí)別的研究[D].蘭州:西北師范大學(xué),2021.
[8]算太本.基于深度學(xué)習(xí)的安多藏語(yǔ)語(yǔ)音識(shí)別技術(shù)研究[D].西寧:青海師范大學(xué),2021.
[9]貢保加.基于MRDCNN_CTCamp;Transformer的安多藏語(yǔ)語(yǔ)音識(shí)別技術(shù)研究[D].西寧:青海師范大學(xué),2022.
[10]朱小軍.藏語(yǔ)安多方言語(yǔ)音增強(qiáng)和識(shí)別研究[D].西寧:青海師范大學(xué),2023.
[11]王超.基于深度學(xué)習(xí)的端到端藏語(yǔ)語(yǔ)音識(shí)別研究[D].拉薩:西藏大學(xué),2023.
[12]楊曉東.在線藏語(yǔ)語(yǔ)音識(shí)別系統(tǒng)的研究[D].蘭州:西北師范大學(xué),2021.
[13]王偉喆.基于語(yǔ)譜特征的藏語(yǔ)語(yǔ)音識(shí)別的研究[D].蘭州:西北師范大學(xué),2021.
[14]KOT,PEDDINTIV,POVEYD,etal.Audioaugmentationforspeechrecognition[C]//Proceedingsofthe16thAnnualConfer?enceoftheInternationalSpeechCommunicationAssociation(INTERSPEECH2015).Dresden:ISCA,2015:3586-3589.
[15]WANGYX,GETREUERP,HUGHEST,etal.Trainablefron?tendforrobustandfar-fieldkeywordspotting[C]//2017IEEEInternationalConferenceonAcoustics,SpeechandSignalPro?cessing(ICASSP).March5-9,2017,NewOrleans,LA,USA.IEEE,2017:5670-5674.
[16]PARKDS,CHANW,ZHANGY,etal.SpecAugment:asimpledataaugmentationmethodforautomaticspeechrecognition[EB/OL].[2023-10-20].2019:1904.08779.https://arxiv.org/abs/1904.08779v3
[17]WUD,ZHANGBB,YANGC,etal.U2++:unifiedtwo-passbi?directionalend-to-endmodelforspeechrecognition[EB/OL].2021:2106.05642.https://arxiv.org/abs/2106.05642v3
[18]AMODEID,ANANTHANARAYANANS,ANUBHAIR,etal.Deepspeech2:end-to-endspeechrecognitioninEnglishandmandarin[C]//Internationalconferenceonmachinelearning.PMLR,2016:173-182.
[19]GULATIA,QINJ,CHIUCC,etal.Conformer:convolutionaugmentedtransformerforspeechrecognition[EB/OL].2020:2005.08100.https://arxiv.org/abs/2005.08100v1.
[20]KIMS,GHOLAMIA,SHAWA,etal.Squeezeformer:aneffi?cienttransformerforautomaticspeechrecognition[J].Ad?vancesinNeuralInformationProcessingSystems,2022(35):9361-9373.
【通聯(lián)編輯:唐一東】
基金項(xiàng)目:拉薩市科技計(jì)劃項(xiàng)目(項(xiàng)目編號(hào):LSKJ202405)