王 瑤,龍 華,邵玉斌,杜慶治
(昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院,云南 昆明 650500)
語種識(shí)別是指計(jì)算機(jī)根據(jù)不同語種之間的差異來判別語音樣本中所用語言的種類.在語種識(shí)別中,短時(shí)語音片段被用于多種場景,例如軍事監(jiān)聽、短語翻譯和緊急救援等,但短時(shí)語音存在一些不足:①隨著語音時(shí)長的減少,語段特征中有效信息也隨之減少[1],無法充分表達(dá)語種信息;②由于訓(xùn)練語音的數(shù)量是有限的,無法覆蓋到任意時(shí)長,而當(dāng)待測語音與訓(xùn)練語音時(shí)長不等時(shí),語種識(shí)別的準(zhǔn)確率會(huì)急速下降.文獻(xiàn)[2]針對(duì)短時(shí)語音的語種識(shí)別問題提出了一種時(shí)長擴(kuò)展方法,該方法通過對(duì)短時(shí)語音進(jìn)行語速變速和時(shí)長拼接,將原有的短時(shí)語音片段轉(zhuǎn)換成時(shí)長較長的語音,有效提高了短時(shí)語音的語種識(shí)別準(zhǔn)確率.但在語段拼接過程中,語音的條數(shù)和語速的快慢對(duì)語種識(shí)別結(jié)果影響較大.為了解決訓(xùn)練語音與測試語音時(shí)長不等而導(dǎo)致語種識(shí)別率下降的問題,文獻(xiàn)[3]采用語種特征補(bǔ)償方法對(duì)不同時(shí)長語音的特征進(jìn)行補(bǔ)償,將不同長度的語音特征映射到了固定長度上,較好地解決了長度失配和音素失配不平衡的問題,但在短時(shí)語音的語種識(shí)別中,其準(zhǔn)確率還不夠理想.文獻(xiàn)[4]和文獻(xiàn)[5]通過在深度神經(jīng)網(wǎng)絡(luò)中引用時(shí)間平均池化層(Temporal Average Pooling layer,TAP layer),將不同時(shí)長語音處理成相同維度的特征,雖然解決了訓(xùn)練語音和測試語音時(shí)長不匹配的問題,但也丟失了語音信號(hào)中的部分時(shí)域信息.近些年來,長短時(shí)記憶網(wǎng)絡(luò)(Long Short-term Memory Network,LSTM)[6]在處理可變時(shí)長語音的問題上取得了一定的成果,但還是存在兩個(gè)缺點(diǎn):①當(dāng)輸入序列較長時(shí),由于時(shí)間的迭代乘法,訓(xùn)練速度可能非常緩慢[7];②訓(xùn)練過程中可能會(huì)出現(xiàn)梯度消失和梯度爆炸的問題[7].就目前而言,在可變時(shí)長的短時(shí)廣播語音信號(hào)語種識(shí)別實(shí)驗(yàn)中,采用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)[8]作為后端分類器是較為少見的.同時(shí),Abdel-Hamid 等[9]認(rèn)為CNN 用于語音識(shí)別有3 個(gè)重要的優(yōu)勢:①局部感受野可增強(qiáng)對(duì)非白噪聲的魯棒性;②權(quán)值共享可以進(jìn)一步增強(qiáng)模型的魯棒性;③池化操作可以抵抗頻帶帶來的擾動(dòng).
針對(duì)上述可變時(shí)長的短時(shí)語音在語種識(shí)別中存在的問題,本文在訓(xùn)練階段,提取短時(shí)廣播語音對(duì)數(shù)功率譜包絡(luò)圖(Logarithmic Power Spectrum Envelope Map,LPSEM)作為特征輸入,并以CNN中的Resnet 網(wǎng)絡(luò)[10]作為分類模型.在測試階段,當(dāng)待測語音的時(shí)長不等時(shí),本文基于文獻(xiàn)[10]中的深度殘差網(wǎng)絡(luò)Resnet34,在其前端引入時(shí)長規(guī)整層(Regular Duration layer,RD layer)構(gòu)建出一個(gè)可以識(shí)別可變時(shí)長語音的語種識(shí)別模型(Variable Duration-Language Identifi-cation,VD-LID).在時(shí)長為1 s 的短時(shí)語音語種識(shí)別任務(wù)中,準(zhǔn)確率達(dá)到了82.4%;此外,相比于沒有引入時(shí)長規(guī)整層的Resnet34網(wǎng)絡(luò),VD-LID 分別將測試語音時(shí)長為5 s 和10 s的語種識(shí)別準(zhǔn)確率提升了27.9%和37.7%.
1.1 語種特征分析語譜圖[11]、對(duì)數(shù)Mel 尺度濾波器組能量(log Mel-scale filter bank energies,F(xiàn)bank)[12]、梅爾頻率倒譜系數(shù)(Mel-Frequency Cepstral Coefficients,MFCC)[13]是進(jìn)行語音識(shí)別的重要特征.這些特征在說話人識(shí)別和語種識(shí)別中都取得了一定的成果,但在語種識(shí)別中還存在一些不足,語譜圖、Fbank、MFCC 包含了大量的說話人信息,這些信息會(huì)對(duì)語種識(shí)別產(chǎn)生較大影響.并且對(duì)于Fbank 而言,由于在提取過程中經(jīng)過了梅爾濾波器組,使其具有了較高的相關(guān)性,這將會(huì)產(chǎn)生大量冗余信息.相比于Fbank,MFCC 在其基礎(chǔ)上進(jìn)行了離散余弦變換(Discrete Co-sine Transform,DCT),雖然降低了Fbank 的相關(guān)性,但在一定程度上減少了語音中的原始信息量.目前還沒有文獻(xiàn)明確何種特征會(huì)對(duì)語種識(shí)別起到關(guān)鍵作用,因此對(duì)特征提取的課題還有待研究.針對(duì)上述問題,本文提出使用LPSEM 作為特征輸入.
語音信號(hào)可以看作是由聲門激勵(lì)信號(hào)與聲道沖激響應(yīng)共同作用的結(jié)果,其中聲門激勵(lì)信號(hào)主要反映語音的說話人信息,將其濾除可以有效減少語音信號(hào)中的說話人信息[14].本文中聲道沖激響應(yīng)就是對(duì)數(shù)功率譜包絡(luò)(Logarithmic Power Spectrum Envelope,LPSE).LPSE 不僅與語義有關(guān),還反映了語音信號(hào)的聲道特性[15],聲道特性是指人類發(fā)聲時(shí)舌體、牙齒等器官的形狀.而不同語種在發(fā)音時(shí),舌體、牙齒等器官的形狀具有一定差異.從語音的音素角度分析,不同的語種都有一套不同的音素來加以描述,并且不同音素的共振峰標(biāo)度有所不同,而共振峰標(biāo)度可以很好的在LPSE 中顯現(xiàn)出來,故選擇LPSEM 作為語種識(shí)別的特征.
1.2 LPSE 提取提取LPSE 實(shí) 際上就是將語音中的聲門激勵(lì)信號(hào)與對(duì)數(shù)功率譜包絡(luò)分離的過程,具體流程如圖1 所示.
圖1 對(duì)數(shù)功率譜包絡(luò)特征提取流程圖Fig.1 The features extraction of logarithmic power spectrum envelope
一幀語音信號(hào)x(n) 可以表示為:
式中,x1(n) 和x2(n) 分別表示對(duì)數(shù)功率譜包絡(luò)和聲門激勵(lì)信號(hào),? 表示卷積運(yùn)算.
步驟 1分幀、加窗:對(duì)語音信號(hào)進(jìn)行分幀,然后加上窗函數(shù),取一幀語音信號(hào)x(n) 進(jìn)行分析.
步驟 2DFT:通過離散傅里葉變換(Discrete Fourier Transform,DFT),將時(shí)域信號(hào)變換成為頻域信號(hào).
式中,fdtc() 為離散傅里葉變換,N為序列長度,n為時(shí)域上的第n個(gè)采樣點(diǎn),k為頻域上第k個(gè)采樣點(diǎn),j 為虛部單位,X(k) 為變換后的頻域信號(hào).
步驟 3取模、取對(duì)數(shù):對(duì)式(2)中X(k) 取模,再求其對(duì)數(shù):
步驟 4IDFT:對(duì)進(jìn)行逆離散傅里葉變換(Inverse Discrete Fourier Transform,IDFT)得到語音信號(hào)x(n) 的復(fù)倒譜:
式中,Y(k) 為語音信號(hào)x(n) 的對(duì)數(shù)功率譜包絡(luò).語音信號(hào)x(n) 的波形、對(duì)數(shù)功率譜和對(duì)數(shù)功率譜包絡(luò) 如圖2 所示.
圖2 同一幀語音信號(hào)的波形、對(duì)數(shù)功率譜和對(duì)數(shù)功率譜包絡(luò)Fig.2 The waveform,logarithmic power spectrum and logarithmic power spectrum envelope of the same frame speech signal
1.3 繪制LPSEM語音信號(hào)作為非平穩(wěn)信號(hào),其頻域隨時(shí)間變化而變化,為了較好地保留語音信號(hào)的時(shí)域特性和頻域特性,同時(shí)使得每一幀語音信號(hào)之間具有較強(qiáng)的關(guān)聯(lián)性,在提取完一幀語音信號(hào)的LPSE 之后,將同一段語音信號(hào)的每一幀LPSE按行拼接起來,形成一個(gè)f×w的矩陣M,其中f代表幀數(shù),w代表幀長.其流程圖如圖3 所示.
圖3 生成對(duì)數(shù)功率譜包絡(luò)圖的流程圖Fig.3 Flowchart for generating a logarithmic power spectrum envelope diagram
在LPSEM 中,橫軸為頻率特性,縱軸為時(shí)域特性,每一個(gè)色塊由矩陣M中的一個(gè)數(shù)據(jù)點(diǎn)擴(kuò)展得到.同時(shí)矩陣M是由每一幀語音的LPSE 按行拼接而成,故M可以表示為:
式中,i代表第i幀,j代表每一幀的第j個(gè)點(diǎn).
將一個(gè)數(shù)據(jù)點(diǎn)擴(kuò)展形成一個(gè)色塊,即Yi(j) 擴(kuò)展得到色塊Zi(j),矩陣M擴(kuò)展為矩陣Z,因此,LPSEM 可以表示為:
對(duì)于一般的神經(jīng)網(wǎng)絡(luò),尤其是全連接神經(jīng)網(wǎng)絡(luò),其輸入需要固定長度[16-17],然而在語種識(shí)別和說話人識(shí)別中使用的語音時(shí)長往往不是固定的.為了讓語種識(shí)別系統(tǒng)輸入語音時(shí)長可變,并且不丟失語種信息,同時(shí)語種識(shí)別準(zhǔn)確率保持在較高水平,本文在Resnet34 網(wǎng)絡(luò)前端引入一個(gè)時(shí)長規(guī)整層.如圖4所 示.
圖4 引入時(shí)長規(guī)整層的VD-LID 模型Fig.4 VD-LID model with regular duration layer
2.1 時(shí)長規(guī)整層本文根據(jù)語音的時(shí)長不同,將長語音分割為若干時(shí)長為1 s 的短時(shí)語音,從而保證測試語音的特征能夠映射到訓(xùn)練語音的輸入特征上.已知時(shí)長為1 s 的短時(shí)語音片段生成LPSEM特征矩陣M的維度是f×w.當(dāng)語音片段時(shí)長大于1 s 時(shí),設(shè)其生成的LPSEM 特征矩陣為M′,其維度為F×w,此時(shí)F≥f,故需要引入時(shí)長規(guī)整層對(duì)長語音進(jìn)行時(shí)長規(guī)整,具體操作如下:將長語音切割成多條時(shí)長為1 s 的短時(shí)語音,其結(jié)果表示如下:
式中,V1(n),V2(n),V3(n)···VH(n) 分別為時(shí)長為1 s的短時(shí)語音,V(n) 為時(shí)長大于1 s的語音,n代表第n個(gè)采樣點(diǎn).在進(jìn)行語音分割時(shí),首先要確定語音信號(hào)的時(shí)長T,再確定所分時(shí)長為1 s 的短時(shí)語音的個(gè)數(shù)H.L為長語音分割時(shí)相鄰兩段短時(shí)語音的重疊時(shí)長或間隔時(shí)長,其計(jì)算公式如下:
當(dāng)L大于0 時(shí),|L| 表示相鄰兩段短時(shí)語音的重疊時(shí)長,當(dāng)L小于0 時(shí),|L| 表示相鄰兩段短時(shí)語音的間隔時(shí)長.
2.2 CNN 網(wǎng)絡(luò)目前在語音識(shí)別領(lǐng)域比較流行的CNN 網(wǎng)絡(luò)主要是Resnet 網(wǎng)絡(luò)和VGG 網(wǎng)絡(luò).在VGG 網(wǎng)絡(luò)內(nèi)部使用多個(gè) 3×3 的卷積核代替其他大尺度的卷積核,其優(yōu)點(diǎn)在于,保證相同感知野的條件下,不僅可提升網(wǎng)絡(luò)的深度,在一定程度上也提升可神經(jīng)網(wǎng)絡(luò)的效果.然而VGG 網(wǎng)絡(luò)擁有3 個(gè)全連接層,這意味著會(huì)使用大量的參數(shù),因此它的計(jì)算會(huì)消耗大量的資源.同時(shí)隨著網(wǎng)絡(luò)層數(shù)的增加,梯度消失導(dǎo)致其后端網(wǎng)絡(luò)層無法對(duì)前端網(wǎng)絡(luò)層進(jìn)行調(diào)整,也會(huì)影響神經(jīng)網(wǎng)絡(luò)的性能.
相比于VGG 網(wǎng)絡(luò),Resnet 網(wǎng)絡(luò)引入殘差單元來解決網(wǎng)絡(luò)的退化問題.殘差單元可以表示為:
式中,x和y分別表示所在網(wǎng)絡(luò)層的輸入和輸出結(jié)果,F(xiàn)(x,Wi) 表示要學(xué)習(xí)的殘差映射,F(xiàn)(x) 代表殘差函數(shù).W1和W2代表圖5 中第一個(gè)網(wǎng)絡(luò)層和第二個(gè)網(wǎng)絡(luò)層的權(quán)重向量,σ 代表ReLU 激活函數(shù).最后殘差單元的輸出為 σ(F(x)+x).
當(dāng)殘差函數(shù)F(x)=0 時(shí),此時(shí)堆積層做了恒等映射,網(wǎng)絡(luò)的性能不會(huì)隨著網(wǎng)絡(luò)層數(shù)的增加而下降,事實(shí)上殘差函數(shù)不會(huì)為0,因此堆積層在輸入特征基礎(chǔ)上還可以學(xué)習(xí)到新的特征,從而擁有更好的性能.圖5 為殘差單元結(jié)構(gòu)示意圖.
圖5 殘差單元結(jié)構(gòu)圖Fig.5 Unit structure diagram of the residual neural network
在VD-LID 后端我們采用softmax 函數(shù)來計(jì)算語音分屬每一語種的概率.
式中,pJ表示判別為第J類語種的概率,G代表語種個(gè)數(shù),cI、cg分別代表第I個(gè)節(jié)點(diǎn)和第g個(gè)節(jié)點(diǎn)的輸出值.
一段時(shí)長為T的長語音,經(jīng)過分割之后得到H段時(shí)長為1 s 的短時(shí)語音,將H個(gè)短時(shí)語音的特征輸入CNN 網(wǎng)絡(luò)得到H×G個(gè)節(jié)點(diǎn)的輸出值,然后把這些節(jié)點(diǎn)的輸出值映射到softmax 函數(shù)中,得到各個(gè)短時(shí)語音識(shí)別為某種語種的概率pJ.
式中,QJ代表待測長語音被判別為第J類語種的概率,eJ表示第J類語種片段的個(gè)數(shù),pJ,r代表被識(shí)別為第J類語種的第r條短語音的概率,pr表示當(dāng)識(shí)別為第J類語種時(shí),第r條短語音的概率.
因此,當(dāng)輸入一段長語音時(shí),首先經(jīng)過時(shí)長規(guī)整層分割為若干條時(shí)長為1 s 的短時(shí)語音,通過公式(13)計(jì)算得出每條短時(shí)語音識(shí)別為某種語種的概率pJ,再將pJ帶入公式(14)計(jì)算這些短時(shí)語音的概率,最后計(jì)算得出長語音識(shí)別為某種語種的概率QJ.
3.1 實(shí)驗(yàn)設(shè)置實(shí)驗(yàn)數(shù)據(jù)集從國際廣播電臺(tái)中錄制,共8 種語言,分別是普通話、緬甸語、越南語、柬埔寨語、老撾語、韓語、藏語、維吾爾語.采樣率為16 kHz,精度為16 bit,聲道為單聲道,每種語言4 800 段,其中3 000 段為時(shí)長為1 s 的訓(xùn)練集,剩下的1 800 段為測試集.測試集包含3 種時(shí)長,分別為1、5 s 和10 s,每種時(shí)長600 段.
本文中語種識(shí)別的測試標(biāo)準(zhǔn)采用識(shí)別準(zhǔn)確率(Recognition Accuracy,AR)來評(píng)價(jià).
式中,G代表語種個(gè)數(shù),ag是第g個(gè)語種識(shí)別正確的語音個(gè)數(shù),bg代表第g個(gè)語種總的語音數(shù),AR代表識(shí)別準(zhǔn)確率.
語種識(shí)別系統(tǒng)分為前端聲學(xué)特征和后端語種分類模型,前端聲學(xué)特征采用Fbank、MFCC、LPSEM 和語譜圖.其中LPSEM 作為實(shí)驗(yàn)特征,F(xiàn)bank、MFCC 和語譜圖作為對(duì)比特征.后端訓(xùn)練模型為Resnet 網(wǎng)絡(luò)和VGG 網(wǎng)絡(luò).網(wǎng)絡(luò)采用交叉熵準(zhǔn)則(cross entropy)進(jìn)行訓(xùn)練.
實(shí)驗(yàn)主要分為3 個(gè)部分:第1 部分分別將語音的Fbank、MFCC、LPSEM 和語譜圖特征擬合到Resnet 網(wǎng)絡(luò)和VGG 網(wǎng)絡(luò)中,研究各個(gè)特征在不同網(wǎng)絡(luò)中的語種識(shí)別情況;第2 部分分別對(duì)語音的Fbank、MFCC、LPSE 的特征向量和Fbank、MFCC、LPSEM 的特征圖譜進(jìn)行訓(xùn)練,研究特征數(shù)據(jù)擴(kuò)展對(duì)短時(shí)語種識(shí)別效果的影響;第3 部分在Resnet34網(wǎng)絡(luò)前端引入一個(gè)時(shí)長規(guī)整層,同時(shí)與不加時(shí)長規(guī)整層的Resnet34 網(wǎng)絡(luò)進(jìn)行對(duì)比,來研究時(shí)長規(guī)整層對(duì)不同時(shí)長語音輸入的影響.
3.2 實(shí)驗(yàn)結(jié)果
3.2.1 實(shí)驗(yàn)1 在實(shí)驗(yàn)1 中,語音時(shí)長為1 s,輸入特征為Fbank、MFCC、LPSEM 和語譜圖,訓(xùn)練網(wǎng)絡(luò)根據(jù)種類和層數(shù)的不同分為Resnet18、Resnet34、Resnet50、VGG11 和VGG16.從 表1 中可以看出Resnet 網(wǎng)絡(luò)的語種識(shí)別效果普遍高于VGG 網(wǎng)絡(luò),這主要是由于VGG 網(wǎng)絡(luò)隨著卷積層數(shù)的增加,梯度消失導(dǎo)致后端的網(wǎng)絡(luò)層無法對(duì)前端的網(wǎng)絡(luò)層進(jìn)行調(diào)整.而Resnet 網(wǎng)絡(luò)提出了shortcut 捷徑連接,很好地解決了梯度消失的問題.同時(shí)在Resnet34 中,當(dāng)輸入特征為LPSEM 時(shí),語種識(shí)別率最高,達(dá)到了82.4%,同比輸入特征為語譜圖增加了6%,比輸入特征為Fbank 增加了7.2%,比輸入特征為MFCC 增加了7.9%.同樣當(dāng)輸入特征為LPSEM 時(shí),各個(gè)網(wǎng)絡(luò)的識(shí)別率相比于其他特征也是最高的,但在Resnet 網(wǎng)絡(luò)中隨著網(wǎng)絡(luò)層數(shù)的增加,語種識(shí)別率并不是隨著層數(shù)增加而增加的,例如Resnet50 相比Resnet34 下降了2.3%,這可能是網(wǎng)絡(luò)層數(shù)過高,使得網(wǎng)絡(luò)在訓(xùn)練時(shí)出現(xiàn)了局部最優(yōu)而造成的.
表1 不同網(wǎng)絡(luò)及特征的語種識(shí)別率Tab.1 Language recognition rate of different networks and characteristics %
3.2.2 實(shí)驗(yàn)2 在實(shí)驗(yàn)2 中,輸入分別為1 s 短時(shí)語音的Fbank、MFCC、LPSE 的特征向量和Fbank、MFCC、LPSEM 的特征圖譜,從表2 可以看出各個(gè)特征的原始特征向量的短時(shí)語種識(shí)別效果普遍低于經(jīng)過特征數(shù)據(jù)擴(kuò)展后的特征圖譜,因此在本文中將短時(shí)語音的特征向量擴(kuò)展成為特征圖譜有利于短時(shí)語音的語種識(shí)別.
表2 特征數(shù)據(jù)擴(kuò)展對(duì)短時(shí)語音語種識(shí)別率的影響Tab.2 The impact of feature data expansion on short-term speech language recognition rate %
3.2.3 實(shí)驗(yàn)3 在實(shí)驗(yàn)3 中,輸入特征為LPSEM,語音時(shí)長為1、5 s 和10 s.訓(xùn)練模型為沒有引入時(shí)長規(guī)整層的Resnet34 網(wǎng)絡(luò)和引入時(shí)長規(guī)整層的VD-LID 模型.實(shí)驗(yàn)結(jié)果如表3 所示.在沒有引入時(shí)長規(guī)整層的Resnet34 網(wǎng)絡(luò)中,輸入時(shí)長為5 s和10 s 的廣播語音語種識(shí)別率分別只有58.7%和56.3%,在VD-LID 模型中,輸入時(shí)長為5 s 和10 s的廣播語音的語種識(shí)別準(zhǔn)確率為86.6%和94.0%,相比于沒有引入時(shí)長規(guī)整層的Resnet34 網(wǎng)絡(luò),兩種輸入時(shí)長的語音分別提高了27.9%和37.7%,并且輸入時(shí)長為5 s 的廣播語音比輸入時(shí)長為1 s 的廣播語音識(shí)別率提高了4.2%;輸入時(shí)長為10 s 的廣播語音比輸入時(shí)長為5 s的廣播語音語種識(shí)別率提高了7.4%.實(shí)驗(yàn)結(jié)果表明:當(dāng)沒有引入時(shí)長規(guī)整層時(shí),由于訓(xùn)練語音與測試語音時(shí)長不匹配,會(huì)造成識(shí)別率大幅度下降;而在引入時(shí)長規(guī)整層之后,時(shí)長規(guī)整層將輸入長語音分割為若干時(shí)長為1 s 的短時(shí)語音,從而使得測試特征能夠與訓(xùn)練特征相映射,在識(shí)別過程中,VD-LID 模型后端又通過計(jì)算每段時(shí)長為1 s 的短時(shí)語音語種識(shí)別情況來判別長語音的語種,而時(shí)長為1 s 的短時(shí)語音語種識(shí)別準(zhǔn)確率已經(jīng)達(dá)到了82.4%,因此隨著語音時(shí)長的增加,長語音的語種識(shí)別準(zhǔn)確率也會(huì)隨之提高.
表3 時(shí)長規(guī)整層對(duì)語種識(shí)別準(zhǔn)確率的影響Tab.3 The impact of the time-length regulation layer on the ac-curacy of language recognition %
在語種識(shí)別中,針對(duì)短時(shí)語音信息量較少,語種識(shí)別率較低的問題,本文使用了LPSEM 作為特征輸入,Resnet34 網(wǎng)絡(luò)作為分類模型,對(duì)時(shí)長為1 s的短時(shí)語音進(jìn)行語種識(shí)別,其識(shí)別率達(dá)到了82.4%;針對(duì)訓(xùn)練語音與測試語音時(shí)長不匹配導(dǎo)致語種識(shí)別率急劇下降的問題,本文采用Resnet34 網(wǎng)絡(luò)結(jié)合時(shí)長規(guī)整層的方法,構(gòu)建了可以識(shí)別不同時(shí)長語音語種的可變時(shí)長語種模型VD-LID,對(duì)比沒有結(jié)合時(shí)長規(guī)整層的 Resnet34 網(wǎng)絡(luò),VD-LID 將時(shí)長為5 s 和10 s 的廣播語音的語種識(shí)別率分別提升了27.9%和37.7%.但考慮到短時(shí)語音的語種識(shí)別極易受到噪聲的影響,因此,在后續(xù)的工作中還需對(duì)語音的降噪展開研究.