迪力扎提·伊力哈木,米吉提·阿不里米提,鄭 方,艾斯卡爾·艾木都拉
(1.新疆大學(xué)信息科學(xué)與工程學(xué)院,新疆 烏魯木齊 830046;2.清華大學(xué)信息科學(xué)技術(shù)學(xué)院,北京 100084)
語(yǔ)種識(shí)別是預(yù)測(cè)一段語(yǔ)音語(yǔ)言種類的過(guò)程[1]。對(duì)于多語(yǔ)種語(yǔ)音識(shí)別系統(tǒng)來(lái)說(shuō),語(yǔ)種識(shí)別是一個(gè)重要的前置技術(shù),也被稱為自動(dòng)語(yǔ)言辨識(shí),但實(shí)際的應(yīng)用場(chǎng)景中,各式各樣的語(yǔ)音采集設(shè)備與傳輸信道差異,使得訓(xùn)練語(yǔ)音與測(cè)試語(yǔ)音之間存在信道失配的情況,導(dǎo)致語(yǔ)種識(shí)別性能急劇下降。這便是語(yǔ)種識(shí)別中的跨信道問(wèn)題,它也是影響自動(dòng)語(yǔ)音識(shí)別系統(tǒng)性能最重要的因素之一。因此,如何在最大程度上降低跨信道對(duì)識(shí)別性能的影響,將是本文的研究重點(diǎn)。神經(jīng)網(wǎng)絡(luò)等高性能的建模技術(shù)能夠同時(shí)處理多個(gè)完全不一樣的語(yǔ)言信息,需要將語(yǔ)種識(shí)別技術(shù)融入其中,進(jìn)而推動(dòng)語(yǔ)種識(shí)別在多語(yǔ)言語(yǔ)音處理方面的發(fā)展[2]。基于語(yǔ)音的語(yǔ)種識(shí)別中,首先需要選擇合適的語(yǔ)音特征,對(duì)音素特征的識(shí)別是通過(guò)音素的不同搭配來(lái)實(shí)現(xiàn)的[3]。之后,聲學(xué)特征受到研究者們關(guān)注,并進(jìn)行了較為廣泛的研究。Fernandes 等人對(duì)梅爾頻率倒譜進(jìn)行研究[4]。Atmani 等人使用了高斯混合模型[5]。Veera等人提出基于SDC 特征的語(yǔ)種識(shí)別方法[6]。
深度學(xué)習(xí)的出現(xiàn)為語(yǔ)種識(shí)別方法提供了發(fā)展機(jī)遇。Vuddagiri 等人提出DNN 模型,為語(yǔ)種識(shí)別奠定了基礎(chǔ)[7]。文獻(xiàn)[8]提取了深度瓶頸特征DBF。此外,端到端的語(yǔ)種識(shí)別系統(tǒng)也相繼出現(xiàn)[9]。2014年Google 的研究人員將特征提取、特征變換和分類結(jié)合到一個(gè)神經(jīng)網(wǎng)絡(luò)模型中,這是端到端系統(tǒng)首次應(yīng)用于語(yǔ)種識(shí)別任務(wù)中[9]。2014年,Lei 等人提出卷積網(wǎng)絡(luò)[10]。此后,研究者展開(kāi)了進(jìn)一步的研究,包括時(shí)延神經(jīng)網(wǎng)絡(luò)TDNN[11]、長(zhǎng)短時(shí)記憶遞歸神經(jīng)網(wǎng)絡(luò)LSTM?RNN[12]等。2016年,Wang 等人將注意力機(jī)制模型引入到語(yǔ)種識(shí)別系統(tǒng)中[13]。2017年,Bartz 等人利用卷積網(wǎng)絡(luò)結(jié)合循環(huán)神經(jīng)網(wǎng)絡(luò)的方法(CRNN)進(jìn)行語(yǔ)種識(shí)別[14]。
本文為了提高跨信道環(huán)境下的語(yǔ)種識(shí)別性能,提出一種基于注意力機(jī)制的BiLSTM 語(yǔ)種識(shí)別方法,在AP19?OLR 和AP20?OLR 兩個(gè)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。兩個(gè)數(shù)據(jù)集中的跨信道數(shù)據(jù)是從不同的錄音設(shè)備采集組成,例如手機(jī)、麥克風(fēng)等。通過(guò)實(shí)驗(yàn)指標(biāo)分析,驗(yàn)證了本文方法良好的性能。
聲音是通過(guò)聲帶的振動(dòng)以波的形式進(jìn)行傳播的,語(yǔ)音信號(hào)可以認(rèn)為是時(shí)間與振幅變化的時(shí)域信號(hào),它是不同頻率下周期信號(hào)的疊加,所以很難看出信號(hào)的規(guī)律,通常是將時(shí)域信號(hào)通過(guò)傅里葉變換轉(zhuǎn)為頻域上進(jìn)行相關(guān)操作[15]。為了更好地表示聲音的特征,需要將聲波信號(hào)轉(zhuǎn)換為聲學(xué)特征向量計(jì)算機(jī)可識(shí)別的形式。常用的聲學(xué)特征提取方法有:梅爾頻率倒譜系數(shù)(Mel Frequency Cepstral Coefficient,MFCC)、頻域特征(FBANK)、線性預(yù)測(cè)倒譜系數(shù)(LPCC)等[16]。本文通過(guò)對(duì)比實(shí)驗(yàn)后采用了提取FBANK 特征的方法,該方法可以有效地提高跨信道環(huán)境下語(yǔ)種識(shí)別的性能,符合人的聽(tīng)覺(jué)特性,被廣泛應(yīng)用于語(yǔ)音特征提取當(dāng)中。
人的聽(tīng)覺(jué)感知是呈非線性的,F(xiàn)BANK 方法考慮到人的聽(tīng)覺(jué)特性,先將線性頻譜映射到非線性空間,然后轉(zhuǎn)換到倒譜上[17]。Mel頻率公式如下:
提取FBANK 特征步驟如下:
1)語(yǔ)音預(yù)加重、分幀和加窗;
2)FFT 傅里葉變換得到頻譜;
3)經(jīng)過(guò)Mel濾波器組得到Mel頻譜;
4)Mel頻譜做對(duì)數(shù)變換,得到FBANK 特征。
圖1是整個(gè)FBANK 語(yǔ)音特征提取過(guò)程。
圖1 FBANK 特征提取流程
Stacking 融合模型在國(guó)內(nèi)外建模比賽中應(yīng)用廣泛,憑借著集成多模型的優(yōu)勢(shì),極大地提升分類回歸問(wèn)題的效果。因此本文使用Stacking 建立語(yǔ)種識(shí)別模型。Stacking 融合模型如圖2所示,分為訓(xùn)練集模塊與測(cè)試集模塊,上半部分訓(xùn)練集用到了5 折交叉驗(yàn)證,也就是把數(shù)據(jù)分為5 份,使用4 份來(lái)訓(xùn)練,1 份用作預(yù)測(cè)[18]?;A(chǔ)模型間是相互獨(dú)立的,基礎(chǔ)模型選擇的測(cè)試數(shù)據(jù)也不盡相同,在第一次的交叉驗(yàn)證中,模型會(huì)得到關(guān)于當(dāng)前測(cè)試數(shù)據(jù)的預(yù)測(cè)值,單個(gè)模型5 次的預(yù)測(cè)值會(huì)按列拼接在一起。下半部分測(cè)試集經(jīng)過(guò)上半部訓(xùn)練好的模型預(yù)測(cè)出對(duì)應(yīng)value 構(gòu)成的向量,這些向量并沒(méi)有做拼接操作,而是將向量做了加權(quán)平均,以保持維度不變,作為下一步模型的測(cè)試數(shù)據(jù)。Stacking 第一部分通常包含多個(gè)模型,第一部分模型的選擇很關(guān)鍵,通常會(huì)選擇非線性性較強(qiáng)的模型。本文選擇的組合是Model1:SVM;Model2:隨機(jī)森林;Model3:XGBoost。
圖2 Stacking 融合模型結(jié)構(gòu)
1.3.1 BiLSTM 模型
深度學(xué)習(xí)的發(fā)展彌補(bǔ)了傳統(tǒng)機(jī)器學(xué)習(xí)樣本不足表現(xiàn)的復(fù)雜函數(shù)能力不足問(wèn)題,同時(shí)也避免了人工構(gòu)建特征的麻煩。深度學(xué)習(xí)有較強(qiáng)的非線性性,能很好地模擬函數(shù)的能力。
在語(yǔ)音分析的任務(wù)中,語(yǔ)音信號(hào)與時(shí)序相關(guān),所以使用的模型不僅要提取語(yǔ)音信號(hào)的特征,有時(shí)也要了解輸入語(yǔ)音在整體語(yǔ)音中的聯(lián)系,這里只使用存儲(chǔ)信息有限的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)是不夠的,RNN 記憶周期是比較短的,在實(shí)際應(yīng)用中會(huì)出現(xiàn)梯度爆炸或梯度消失問(wèn)題。另外,RNN 結(jié)構(gòu)簡(jiǎn)單,含有一個(gè)非線性激活函數(shù),很難表征復(fù)雜的數(shù)據(jù)結(jié)。深度學(xué)習(xí)發(fā)展到20世紀(jì)90年代,Schmidhuber 和Hochreiter 提出了LSTM 長(zhǎng)短時(shí)記憶網(wǎng)絡(luò),在RNN 基礎(chǔ)上增加了輸入門(mén)、遺忘門(mén)、輸出門(mén)等門(mén)控限制,對(duì)單元狀態(tài)、隱含層輸出做更新、刪除、過(guò)濾操作。門(mén)控限制能有效選擇讓有價(jià)值信息通過(guò),同時(shí)也緩解了長(zhǎng)期依賴(Long?Term Dependencies)問(wèn)題,很大程度上避免了梯度消失或梯度爆炸的問(wèn)題。圖3為L(zhǎng)STM 網(wǎng)絡(luò)單元結(jié)構(gòu)。
圖3 LSTM 網(wǎng)絡(luò)單元結(jié)構(gòu)
在圖3中:tanh 為雙曲正切激活函數(shù);?為向量相乘;⊕為向量相加;σ為sigmoid 激活函數(shù)。LSTM 模型由輸入門(mén)it、遺忘門(mén)ft、輸出門(mén)ot三個(gè)時(shí)序模塊,以及一個(gè)記憶單元ct組成[19]。LSTM 模型t時(shí)刻三個(gè)門(mén)控單元的更新公式分別如下:
式中:Wi,Wf,Wo和bi,bf,bo分別為三個(gè)門(mén)控單元的權(quán)重和偏置項(xiàng);xt表示當(dāng)前時(shí)刻的輸入;ht-1表示上一時(shí)刻隱藏層輸出。LSTM 模型通過(guò)結(jié)合當(dāng)前時(shí)刻xt和上一時(shí)刻輸出ht-1,計(jì)算更新上下記憶單元,公式如下:
cell單元狀態(tài)更新公式如下:
cell 單元狀態(tài)更新輸出后,輸入到輸出門(mén)由神經(jīng)單元決定輸出。cell 單元狀態(tài)采用tanh 雙曲正切激活函數(shù),對(duì)輸出門(mén)限ot進(jìn)行過(guò)濾操作,公式如下:
LSTM 網(wǎng)絡(luò)的傳遞僅是對(duì)下文做了記憶存儲(chǔ),也就是說(shuō)網(wǎng)絡(luò)輸入的文本信息傳遞過(guò)程中僅有下文記憶,并沒(méi)有保存上文的記憶信息。所以本文引入了BiLSTM 模型,BiLSTM 結(jié)構(gòu)包含兩個(gè)LSTM 網(wǎng)絡(luò):一個(gè)正向LSTM的Forward 層,一個(gè)反向LSTM 的Backward 層。Forward層為前向計(jì)算,從0~t時(shí)刻隱含層按時(shí)序計(jì)算輸出;Backward 為反向計(jì)算,從t時(shí)刻到0 隱含層按倒序計(jì)算輸出,然后將同一隱藏層得到的正反向結(jié)果兩兩結(jié)合。這樣BiLSTM 包含了上下文的雙向信息。
1.3.2 注意力機(jī)制
注意力機(jī)制的原理借鑒了人視覺(jué)的特性,人的眼睛觀察事物一般會(huì)聚焦在某個(gè)局部,只去關(guān)注事物的部分特征而非全貌,同樣在語(yǔ)音與自然語(yǔ)言處理(NLP)領(lǐng)域也經(jīng)常用到Attention 機(jī)制,其深度學(xué)習(xí)中起到了很重要的作用,具有很深的研究?jī)r(jià)值。文獻(xiàn)[20]中提出了自注意力機(jī)制(Self?Attention),其意在用注意力機(jī)制代替?zhèn)鹘y(tǒng)的CNN 和RNN 網(wǎng)絡(luò)。Self?Attention 是由注意力機(jī)制原理演化而來(lái),是一種特殊的注意力機(jī)制方法,它能夠把不同位置的信息關(guān)聯(lián)起來(lái),考慮不同位置信息的內(nèi)在聯(lián)系計(jì)算出整個(gè)序列的表達(dá)。
編碼?解碼模型(Encoder?Decoder 模型)編碼部分是將初始向量轉(zhuǎn)化為固定長(zhǎng)度的特征向量;而解碼是將定長(zhǎng)的特征向量解碼為對(duì)應(yīng)的字符文本??蚣芙Y(jié)構(gòu)如圖4所示。
圖4 Encoder?Decoder 框架結(jié)構(gòu)圖
Encoder?Decoder 框架在自然語(yǔ)言處理領(lǐng)域的應(yīng)用,是將編碼部分將輸入序列Source 轉(zhuǎn)化為語(yǔ)義編碼c,解碼則參考該語(yǔ)義編碼c生成對(duì)應(yīng)的Target 過(guò)程,公式為:
編碼器Encoder 對(duì)輸入的Source 進(jìn)行特征變換,轉(zhuǎn)化為語(yǔ)義編碼c:
解碼器Decoder,通過(guò)語(yǔ)義編碼c和上一時(shí)刻解碼的數(shù)據(jù)來(lái)生成yi:
對(duì)于較長(zhǎng)文本采用Encoder?Decoder 模型,編碼器生成的語(yǔ)義編碼c會(huì)存在無(wú)法存儲(chǔ)較長(zhǎng)的信息問(wèn)題,故基于Encoder?Decoder 框架,引入了注意力機(jī)制,結(jié)構(gòu)如圖5所示。
圖5 引入注意力模型Encode?Decoder 框架
基于Encoder?Decoder 的注意力機(jī)制能將固定的語(yǔ)義編碼自適應(yīng)調(diào)整,替換成當(dāng)前生成詞的ci,Target 中的每個(gè)單詞都會(huì)學(xué)習(xí)與其對(duì)應(yīng)的注意力計(jì)算的概率信息:
式(12)為Encoder 部分轉(zhuǎn)化為整個(gè)句子的語(yǔ)義編碼的變換函數(shù),實(shí)際是對(duì)各詞向量的加權(quán)求和,公式如下:
式中:LX為Source 的長(zhǎng)度;hj為Source 第j個(gè)詞的中間語(yǔ)義編碼;aij表示Target 輸出的第i個(gè)單詞時(shí),Source 輸入第j個(gè)詞的注意力計(jì)算系數(shù)[21]。注意力機(jī)制模型框架如圖6所示。
圖6 注意力機(jī)制的本質(zhì)思想
Source(數(shù)據(jù)源)是由一系列的
注意力機(jī)制的計(jì)算過(guò)程可分為三個(gè)步驟:
1)計(jì)算每一個(gè)Query 和各個(gè)Key 矩陣,將計(jì)算的相關(guān)性權(quán)重和對(duì)應(yīng)的Value 進(jìn)行加權(quán)求和,常用的相似度計(jì)算函數(shù)有點(diǎn)積法、余弦相似度。
式中:K(Key)為關(guān)鍵字;Q(Query)為查詢;Sim()表示計(jì)算的相似性函數(shù)。
2)采用Softmax 函數(shù)對(duì)計(jì)算出的權(quán)重歸一化處理,如下所示:
3)將計(jì)算的權(quán)重ai和對(duì)應(yīng)的鍵值Value 加權(quán)求和,生成輸出注意力值,如下所示:
式中:a為權(quán)重系數(shù)。
以上為整個(gè)注意力機(jī)制的計(jì)算過(guò)程。
在本文中,具有注意力機(jī)制的BiLSTM 被用于深度特征學(xué)習(xí),以提高分類器的識(shí)別性能。在LSTM 網(wǎng)絡(luò)中,輸入數(shù)據(jù)是以時(shí)間序列的方式處理的,它經(jīng)常拋棄未來(lái)的上下文信息。與LSTM 相比,BiLSTM 結(jié)構(gòu)在正向和反向的基礎(chǔ)上,考慮到未來(lái)和過(guò)去的背景信息,可以更好地提取語(yǔ)音片段。在BiLSTM 網(wǎng)絡(luò)中,每個(gè)訓(xùn)練序列由后向和前向的LSTM 神經(jīng)網(wǎng)絡(luò)層組成,這是BiLSTM模型的基礎(chǔ)。圖7是本文基于注意力機(jī)制的BiLSTM 語(yǔ)種識(shí)別方法的框架。
圖7 基于注意力機(jī)制的BiLSTM 語(yǔ)種識(shí)別方法的框架
本文實(shí)驗(yàn)所使用的訓(xùn)練數(shù)據(jù)集由東方語(yǔ)種識(shí)別競(jìng)賽(Oriental Language Recognition Challenge,OLR)提供[23]。測(cè)試數(shù)據(jù)集使用了AP19?OLR 和AP20?OLR 提供的跨信道數(shù)據(jù)集,因此本次實(shí)驗(yàn)使用兩個(gè)數(shù)據(jù)集來(lái)驗(yàn)證所提方法的性能。此數(shù)據(jù)集都是從不同信道獲取的語(yǔ)音數(shù)據(jù),AP19?OLR 中包括藏語(yǔ)(Tibet)、維吾爾語(yǔ)(Uyghur)、日語(yǔ)(jp?jp)、越南語(yǔ)(vi?vn)、俄語(yǔ)(ru?ru)、漢語(yǔ)普通話(zh?cn)。AP20?OLR 數(shù)據(jù)集包括朝鮮語(yǔ)(ko?kr)、粵語(yǔ)(ct?cn)、日語(yǔ)(jp?jp)、越南語(yǔ)(vi?vn)、俄語(yǔ)(ru?ru)、印尼語(yǔ)(id?id)。每種語(yǔ)言語(yǔ)音數(shù)據(jù)各不相同,驗(yàn)證集每種語(yǔ)言設(shè)置為500 條,測(cè)試集設(shè)置為1 800 條,兩個(gè)數(shù)據(jù)集結(jié)構(gòu)如表1、表2所示。
表1 AP19?OLR 數(shù)據(jù)集結(jié)構(gòu)
表2 AP20?OLR 數(shù)據(jù)集結(jié)構(gòu)
本文利用TensorFlow 框架,NVIDIAGeForceGTX 1080 GPU 上搭建語(yǔ)種識(shí)別模型進(jìn)行實(shí)驗(yàn)。將語(yǔ)音數(shù)據(jù)經(jīng)過(guò)預(yù)處理和特征提取后輸入到語(yǔ)種識(shí)別模型,訓(xùn)練和驗(yàn)證網(wǎng)絡(luò)模型時(shí),其輸入為40 維的FBANK 特征,采用的是Adam 優(yōu)化器,學(xué)習(xí)率為0.002,損失函數(shù)采用交叉熵函數(shù)。
本文采用NISTLRE 標(biāo)準(zhǔn)化評(píng)價(jià)指標(biāo),分別是等錯(cuò)誤率(EER)、平均集檢測(cè)代價(jià)(Cavg),EER 定義為通過(guò)調(diào)整閾值,EER 值越小,就表示方法的識(shí)別性能越好。當(dāng)錯(cuò)誤接受率(FAR)和錯(cuò)誤拒絕率(FRR)相等時(shí),共同值稱之為等錯(cuò)誤率(EER)。Cavg是通過(guò)計(jì)算得到模型的平均檢測(cè)損失代價(jià),公式為:
式中:NL表示測(cè)試數(shù)據(jù)集中的語(yǔ)言種類;LT指的是目標(biāo)語(yǔ)種;LN指的是非目標(biāo)語(yǔ)種;CMiss表示漏判決一個(gè)和錯(cuò)判決一個(gè)的檢測(cè)代價(jià);PTarget和PNon?Target表示目標(biāo)語(yǔ)種和非目標(biāo)語(yǔ)種的先驗(yàn)概率。
本文實(shí)驗(yàn)分為四部分:第一部分是本文模型基于注意力機(jī)制的BiLSTM 方法對(duì)不同的語(yǔ)音特征進(jìn)行實(shí)驗(yàn)對(duì)比;第二部分是采用不同的深度學(xué)習(xí)模型進(jìn)行實(shí)驗(yàn)對(duì)比;第三部分是與傳統(tǒng)機(jī)器學(xué)習(xí)方法Stacking 融合模型進(jìn)行對(duì)比;第四部分是通過(guò)與語(yǔ)種識(shí)別基線系統(tǒng)以及現(xiàn)有的語(yǔ)種識(shí)別方法進(jìn)行對(duì)比。
2.3.1 實(shí)驗(yàn)1
選取LPCC 特征、FBANK 特征、MFCC 特征等方式來(lái)進(jìn)行特征提取,使用本文研究的模型對(duì)跨信道語(yǔ)種進(jìn)行實(shí)驗(yàn),分析模型基于注意力機(jī)制的BiLSTM 在不同特征下的效果。實(shí)驗(yàn)結(jié)果如表3所示。
從表3可以看出,在LPCC 特征、FBANK 特征、MFCC 特征三種特征之中,使用FBANK 特征進(jìn)行實(shí)驗(yàn)的效果最好,這是由于在特征的區(qū)分度方面,F(xiàn)BANK 的特征相關(guān)度較高,而MFCC 特征由于各個(gè)維度相關(guān)性更低。所以使用FBANK 特征使得網(wǎng)絡(luò)提取和學(xué)習(xí)特征更容易,識(shí)別效果更好。
表3 不同特征對(duì)照實(shí)驗(yàn)結(jié)果
2.3.2 實(shí)驗(yàn)2
設(shè)置CNN、LSTM、GRU、BiLSTM+Attention、CNN+BiLSTM 等5 種模型,對(duì)所選取的特征進(jìn)行實(shí)驗(yàn),分析不同模型在FBANK 特征下的性能,實(shí)驗(yàn)結(jié)果如表4所示。
表4 不同模型對(duì)照實(shí)驗(yàn)結(jié)果
從表4可看出,LSTM 模型和CNN 模型的Cavg和EER均比較高。對(duì)比幾種不同的循環(huán)神經(jīng)網(wǎng)絡(luò)模型可以看出,GRU 模型作為L(zhǎng)STM 模型的優(yōu)化,兩者的性能非常接近,但是GRU 模型的性能比LSTM 模型略好。CNN?BiLSTM 的EER 相對(duì)CNN、LSTM 也有提升,本文提出的BiLSTM+Attention 模型性能最優(yōu),說(shuō)明融合后的網(wǎng)絡(luò)能夠更好地利用FBANK 特征,從而提升跨信道環(huán)境下語(yǔ)種識(shí)別的性能。
2.3.3 實(shí)驗(yàn)3
本文使用傳統(tǒng)機(jī)器學(xué)習(xí)方法進(jìn)行實(shí)驗(yàn),通過(guò)前面特征的選取和深度學(xué)習(xí)模型的選擇以后,分析傳統(tǒng)機(jī)器學(xué)習(xí)方法Stacking 融合模型和本文方法的性能,實(shí)驗(yàn)結(jié)果如表5所示。
表5 傳統(tǒng)方法與本文方法對(duì)比結(jié)果
實(shí)驗(yàn)證明,使用本文構(gòu)建的基于注意力機(jī)制的BiLSTM 模型對(duì)于語(yǔ)種識(shí)別這項(xiàng)工作來(lái)說(shuō),相比于現(xiàn)在的機(jī)器學(xué)習(xí)方法,EER 分別在兩個(gè)數(shù)據(jù)集降低了3.61%和3.79%,在跨信道環(huán)境下有更好的識(shí)別性能。
2.3.4 實(shí)驗(yàn)4
選取本文模型(基于注意力機(jī)制的BiLSTM 模型)與語(yǔ)種識(shí)別基線系統(tǒng)X?VECTOR 以及其他現(xiàn)有語(yǔ)種識(shí)別方法進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果如表6所示。
表6 不同語(yǔ)種識(shí)別方法對(duì)照實(shí)驗(yàn)結(jié)果
從表6可看出,通過(guò)對(duì)比本文模型實(shí)現(xiàn)的識(shí)別結(jié)果與AP19?OLR 和AP20?OLR 兩個(gè)基線系統(tǒng)中的識(shí)別結(jié)果可知,本文采用的基于注意力機(jī)制的BiLSTM 方法要優(yōu)于I?VECTOR,X?VECTOR 基線系統(tǒng)提供方法的識(shí)別結(jié)果;EER 分別降低了3.44%和5.66%,說(shuō)明本文基于注意力機(jī)制的BiLSTM 可以很好地提升跨信道環(huán)境下的語(yǔ)種識(shí)別性能。
本文構(gòu)建了一種基于注意力機(jī)制的BiLSTM 跨信道語(yǔ)種識(shí)別方法,與傳統(tǒng)機(jī)器學(xué)習(xí)方法和基線系統(tǒng)進(jìn)行對(duì)比,在兩個(gè)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,跨信道環(huán)境下最有效的語(yǔ)音特征是FBANK,表現(xiàn)最好的模型是本文基于注意力機(jī)制的BiLSTM 方法。實(shí)驗(yàn)提取跨信道語(yǔ)音數(shù)據(jù)的有效特征,將其送入模型訓(xùn)練學(xué)習(xí),最終分類輸出語(yǔ)言類別。實(shí)驗(yàn)結(jié)果表明,本文提出的方法在跨信道環(huán)境下的語(yǔ)種識(shí)別上取得了較好的結(jié)果。但是本文涉及的語(yǔ)種場(chǎng)景較少,語(yǔ)料數(shù)據(jù)也比較少,在接下來(lái)的工作中,將會(huì)繼續(xù)在較大語(yǔ)料以及更有負(fù)載的信道上進(jìn)行語(yǔ)種識(shí)別的探索,進(jìn)一步開(kāi)展相關(guān)研究。
注:本文通訊作者為米吉提·阿不里米提。