孫 杰,王 宏,吾守爾·斯拉木
(1.新疆大學(xué)信息科學(xué)與工程學(xué)院,新疆烏魯木齊 830046;2.昌吉學(xué)院,新疆昌吉 831100)
方言識(shí)別亦稱方言分類,屬于語種識(shí)別的范疇。方言作為特定共同語的地方變體,具有“互相通話”功能[1],在語言學(xué)上具有很大的相似性,因此方言識(shí)別要比語種識(shí)別更具挑戰(zhàn)性[2]。
現(xiàn)代維吾爾語劃分為3個(gè)方言區(qū):中心方言、和田方言與羅布方言。中心方言包括伊犁、烏魯木齊、吐魯番、哈密、喀什和塔里木土語;和田方言由和田、墨玉、洛浦、皮山、策勒、于田和民豐七個(gè)土語組成;羅布方言主要是現(xiàn)今若羌縣境內(nèi)的羅布人所操土語,由于地理位置閉塞,保留較多古語。目前,關(guān)于維吾爾語方言識(shí)別的研究較少,僅文獻(xiàn)[3]提出了基于長短時(shí)記憶神經(jīng)網(wǎng)絡(luò)-統(tǒng)一背景空間(Long Short Term Memory-Universal Background Model, LSTM-UBM)的維吾爾語方言識(shí)別方法。很多研究者從語言學(xué)的角度對(duì)維吾爾語方言進(jìn)行了辨識(shí):依據(jù)動(dòng)詞后是否綴接-mix判斷南部方言與北部方言[4];把是否存在元音的唇部和諧作為區(qū)別羅布方言和中心方言的標(biāo)準(zhǔn)[5-7],但是這些都屬于“口耳之學(xué)”,很難用計(jì)算機(jī)進(jìn)行處理。
主流的方言識(shí)別技術(shù)是建立在高斯通用背景模型(Gaussian Mixture Model-Universal Background Model, GMM-UBM)[8]和聯(lián)合因子分析技術(shù)(Joint Factor Analysis, JFA)[9]上的全變量子空間建模方法(Total Variability, TV),它用一個(gè)低維度(通常是400維或600維)的i-vector矢量表征方言[10],取得較好識(shí)別效果,但是 i-vector對(duì)訓(xùn)練和測試方言語音的時(shí)長、噪聲和信道差異都很敏感,對(duì)訓(xùn)練數(shù)據(jù)的要求較為嚴(yán)苛。隨著深度神經(jīng)網(wǎng)絡(luò)在說話人識(shí)別方面取得的巨大成功,研究者從特征域和模型域分別提出了深度瓶頸特征(Deep Bottleneck Feature,DBF)[11-12]和深度神經(jīng)網(wǎng)絡(luò)通用背景[13-14]的方言識(shí)別TV模型。由于使用區(qū)分性的DNN網(wǎng)絡(luò)獲取不同方言語種的音素差異,剔除了與音素?zé)o關(guān)的噪聲干擾,因而提取的方言語種 i-vector更具鑒別性,其識(shí)別性能好于傳統(tǒng)的 GMM-UBM 生成性模型,但是模型訓(xùn)練需要大量的標(biāo)注語料,對(duì)于方言識(shí)別而言代價(jià)較大。近期,基于詞嵌入技術(shù)的深度神經(jīng)網(wǎng)絡(luò)在自然語言處理方面取得良好效果[15],受此啟發(fā)Snyder等學(xué)者提出了x-vector模型[16-18],其實(shí)質(zhì)是一種端到端(End-to-End)的方言識(shí)別模型,相關(guān)實(shí)驗(yàn)表明長時(shí)語音條件下的方言識(shí)別準(zhǔn)確率高于i-vector,且與DNN-UBM相當(dāng)。然而,x-vector模型用池化層將幀級(jí)別特征轉(zhuǎn)換為句子級(jí)特征時(shí),對(duì)語音段的幀特征計(jì)算了簡單算數(shù)平均數(shù),即對(duì)不同幀采用相同的權(quán)重,但是,實(shí)際語音中每幀信號(hào)對(duì)方言語種的辨識(shí)貢獻(xiàn)度是不一致的。
本文在對(duì)維吾爾語方言進(jìn)行識(shí)別時(shí),做了兩方面的創(chuàng)新工作:一是在x-vector模型的池化層引入了注意力機(jī)制,對(duì)引起方言差異的語音幀在計(jì)算段級(jí)特征時(shí)給予較大的權(quán)重;二是采用因果卷積網(wǎng)絡(luò)獲取維吾爾語方言語音幀的因果關(guān)系,實(shí)驗(yàn)結(jié)果表明,融合了兩種技術(shù)的x-vector系統(tǒng)的方言識(shí)別效果進(jìn)一步提升。
注意力機(jī)制實(shí)質(zhì)是模仿人類觀察物體時(shí)大腦視覺系統(tǒng)處理信息的方式,即將有限的注意力放在眾多信息中的重要區(qū)域,挑選出關(guān)鍵信息,抑制或忽略其他無關(guān)信息[19-20]。方言語種識(shí)別任務(wù)中應(yīng)用注意力機(jī)制的目標(biāo)是挑選出與當(dāng)前任務(wù)最為相關(guān)和最為關(guān)鍵的信息,進(jìn)而增強(qiáng)識(shí)別效果。
多頭注意力(Multi-head Attention)機(jī)制[21]使用多個(gè)查詢狀態(tài)Q={q1,q2,??,qM},并行地從輸入特征中遴選出多個(gè)關(guān)鍵信息,用不同的視角觀察不同區(qū)域的信息,并將每個(gè)單頭注意力進(jìn)行拼接,最終構(gòu)成多頭注意力的輸出值,其模型如圖1所示。
圖1 多頭注意力模型Fig.1 Multi-head attention model
計(jì)算多頭注意力時(shí),首先對(duì)查詢狀態(tài)Q、候選狀態(tài)K和輸入值V進(jìn)行線性變換,其變換表達(dá)式為
其中:att(?)表示注意力得分計(jì)算函數(shù);WiK、WiV和表示第i個(gè)輸入的線性變換矩陣,每個(gè)頭的線性變換參數(shù)不共享,也即每次對(duì)Q、K和V進(jìn)行線性變換的參數(shù)都不一樣,目的是為獲取不同的注意力。然后再將每個(gè)頭值輸入縮放點(diǎn)積注意力模塊,計(jì)算各自的注意力,并將所有輸出進(jìn)行拼接,其表達(dá)式為
其中:h表示注意力的計(jì)算次數(shù),屬于超參數(shù)。簡單拼接后得到的多頭注意力內(nèi)部結(jié)構(gòu)松散,對(duì)其實(shí)施線性變換可以使最終得到的多頭注意力更加緊湊。另外,每個(gè)單頭注意力張成一個(gè)特征子空間,多頭注意力機(jī)制的優(yōu)勢就是從不同注意力張成的多個(gè)子空間中學(xué)習(xí)到互為補(bǔ)充的有用信息。
自注意力機(jī)制[22]是對(duì)多頭注意力技術(shù)的進(jìn)一步改進(jìn),它更加注重內(nèi)部信息的學(xué)習(xí),充分挖掘輸入數(shù)據(jù)各部分的依賴性關(guān)系,適合提取語音段內(nèi)部各幀之間的相互關(guān)系。自注意力機(jī)制本質(zhì)就是用輸入特征X={X1,X2,??,XN}同時(shí)表示Q、K和V,并且令Q=K=V=X,進(jìn)而達(dá)到自我關(guān)注和自我挖掘。自注意力機(jī)制經(jīng)常與多頭注意力機(jī)制相結(jié)合使用,其結(jié)合公式為
卷積神經(jīng)神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks, CNN)通常是在空間維度處理信息,例如圖像識(shí)別中對(duì)像素信息的處理,因此使用CNN處理語音信號(hào)時(shí),通常將語音信號(hào)轉(zhuǎn)換為語譜圖的形式再進(jìn)行處理。為使 CNN直接處理時(shí)序特征的語音信號(hào),可以使用一維卷積網(wǎng)絡(luò),并通過增加卷積層數(shù),同時(shí)配合一定的門控激活函數(shù),實(shí)現(xiàn)對(duì)時(shí)序信號(hào)的“因果卷積”處理,門控激活為
其中:x、y分別表示神經(jīng)元的輸入和輸出;Wf、Wg分別表示卷積權(quán)重系數(shù);?代表卷積操作;σ(?)表示sigmoid函數(shù)。這種多層的一維卷積網(wǎng)絡(luò)稱之為因果卷積網(wǎng)絡(luò)(Causal Convolution Networks,CCN)[23]。輸入層的序列數(shù)據(jù)通過因果卷積網(wǎng)絡(luò)映射為標(biāo)記序列,即fCNN:XN+1→YN+1,從而實(shí)現(xiàn)序列數(shù)據(jù)建模。
因果卷積通過增加網(wǎng)絡(luò)層數(shù)以及增大卷積核的尺寸實(shí)現(xiàn)長時(shí)序列預(yù)測,同時(shí)也帶來梯度彌散、模型復(fù)雜和擬合效果不佳等問題,針對(duì)此問題通過引入空洞卷積(Dilated Convolution)[24-25]采樣的方式進(jìn)一步優(yōu)化因果卷積網(wǎng)絡(luò)。所謂空洞卷積采樣就是在卷積核中加入空洞,從而增大感受野,擴(kuò)展了觀察數(shù)據(jù)的范圍??斩淳矸e采樣可以表示為
其中:s表示輸入序列的長度;f為卷積核;d為空洞因子;?表示卷積操作;k為卷積核尺寸;s?d?i卷積的歷史跨度;?d表示帶有d個(gè)空洞因子的卷積操作。
首先,盡管基于x-vector模型的語種識(shí)別系統(tǒng)取得了一定的識(shí)別效果,但是對(duì)維吾爾語這種黏著語而言,構(gòu)成詞語的詞干和詞綴的作用不同,與詞干、詞綴對(duì)應(yīng)的所有幀的權(quán)重應(yīng)該也不相同。其次,不同方言、同一個(gè)音素會(huì)有不同的音位變體,這些音位變體會(huì)引起語音的較大差異,因此在計(jì)算均值時(shí)可以為其對(duì)應(yīng)的幀特征分配更大的權(quán)重。另外,維吾爾語方言語音變化呈現(xiàn)出顯著的先后關(guān)系。由于這三方面原因,本文使用自注意力機(jī)制和因果卷積網(wǎng)絡(luò)對(duì)傳統(tǒng)的x-vector語種識(shí)別模型進(jìn)行改進(jìn),圖2描繪了該系統(tǒng)架構(gòu),其中diaci為第i類方言的縮寫。該模型首先使用因果卷積網(wǎng)絡(luò)提取方言語音的幀級(jí)特征,使用注意力模塊計(jì)算幀級(jí)特征對(duì)應(yīng)的權(quán)重,其次結(jié)合獲取的權(quán)值在池化層對(duì)語音段計(jì)算加權(quán)統(tǒng)計(jì)信息,后使用一維卷積層獲取方言的x-vector辨別矢量,最后使用softmax層輸出方言種類的后驗(yàn)概率P。圖2中,1,1 CONVID@128表示卷積核為1×1、個(gè)數(shù)為128的一維卷積。
維吾爾語方言語音結(jié)構(gòu)中元音和諧對(duì)辨識(shí)不同方言具有重要作用,元音和諧現(xiàn)象在維吾爾語中很常見,并且元音和諧發(fā)生在音素與音素之間,表現(xiàn)為前一個(gè)音素中的音位影響后一個(gè)音素中元音的發(fā)音。通常一個(gè)音素對(duì)應(yīng)一個(gè)或幾個(gè)語音幀,因此可以認(rèn)為語音中前后幀之間具有較強(qiáng)的因果關(guān)系。圖3為使用帶有空洞卷積核的因果網(wǎng)絡(luò)提取和田方言語音特征的過程示意圖,音頻語義為“vRvmqigE bardiGan poyiz Kaysi wogzaldin maN-do(去烏魯木齊的火車從哪個(gè)車站發(fā)車)?”
圖2 結(jié)合注意力和因果卷積的方言識(shí)別模型Fig.2 Dialect recognition model combining attention mechanism and causal convolution networks
圖3 因果網(wǎng)絡(luò)提取和田方言語音特征示意圖Fig.3 Diagram of extracting speech features of Hotan dialect by causal networks
在“烏魯木齊”(標(biāo)注為vRvmqi)一詞中,前元音/v/和前元音/i/發(fā)生和諧,根據(jù)黏著語的特性:(詞根不斷綴接其它音素),可以認(rèn)為維吾爾語方言語音每一幀之間都具有因果關(guān)系。從生成模型的角度,這一段語音信號(hào)幀的聯(lián)合概率可以表示為
其中:x={x0,??,xT}表示語音段的幀信號(hào),而使用空洞卷積核的因果卷積網(wǎng)絡(luò),通過考慮歷史語音幀的因果卷積及門控激活函數(shù)的點(diǎn)積運(yùn)算,可近似計(jì)算式(6)的聯(lián)合概率。
使用注意力機(jī)制的維吾爾語方言識(shí)別模型中,采用了一個(gè)受限玻爾茲曼機(jī)計(jì)算查詢狀態(tài)和候選狀態(tài)的相似度,其計(jì)算公式為
其中:A=[α1,α2,??,αT]表示方言語音幀注意力權(quán)重矩陣;H=[h1,h2,??,hT]表示由因果卷積網(wǎng)絡(luò)隱藏層的輸出值組成的矩陣,它同時(shí)作為注意力網(wǎng)絡(luò)的輸入值,其維度為dh×T,而dh是ht的維度;W為受限玻爾茲曼機(jī)的權(quán)值矩陣,f(?)是ReLU激活函數(shù)。通過式(7)即可得到方言幀級(jí)特征對(duì)應(yīng)的權(quán)值,然后池化層就可以計(jì)算加權(quán)統(tǒng)計(jì)量,計(jì)算公式為
另外,為從維吾爾方言語音幀特征構(gòu)成的不同子空間中提取信息,注意力模塊使用了多頭注意力機(jī)制,平行地對(duì)因果卷積網(wǎng)絡(luò)的輸出幀特征重復(fù)計(jì)算注意力值,因此得到多組方言語音段的均值和標(biāo)準(zhǔn)差,所以需要對(duì)其進(jìn)行拼接形成方言語音段的最終表示。
本文研究的維吾爾語方言識(shí)別目前在國際和國內(nèi)均未有公開的標(biāo)準(zhǔn)測試數(shù)據(jù)集。清華大學(xué)公開的維吾爾語語音數(shù)據(jù)集 THUYG-20只提供了說話人信息和文本標(biāo)注信息[26],并沒有說明方言語種類別,因此只能用于維吾爾語說話識(shí)別和自動(dòng)語音識(shí)別任務(wù)。本文實(shí)驗(yàn)使用的方言語種數(shù)據(jù)集是由新疆大學(xué)多語種信息技術(shù)重點(diǎn)實(shí)驗(yàn)室創(chuàng)建,三種方言語料均為手機(jī)錄音的朗讀式語句,采樣頻率為16 KHz,采樣位數(shù) 16 bits,語音時(shí)長為 5~30 s,保存格式為WAV類型。其中中心方言與和田方言男女發(fā)音人各為41人,每人朗讀120句,而羅布方言女性發(fā)音人比例略大于男性發(fā)音人,分別為49人和33人,每人朗讀120句,三種方言的語料各有9 840句。
方言和語種識(shí)別性能評(píng)測中經(jīng)常也會(huì)使用方言語種識(shí)別正確率[27]作為評(píng)測指標(biāo),即被正確分類語音段的百分比Pacc:
其中:Nt表示測試方言語音段的總數(shù);Nc表示被正確分類的語音段總數(shù)。
為驗(yàn)證本文所提算法的有效性,按照文獻(xiàn)[16]中的配置搭建基于TDNN的x-vector方言識(shí)別基線系統(tǒng),稱之為TDNN-xvec。為探索因果卷積網(wǎng)絡(luò)提取方言語音幀級(jí)特征對(duì)方言識(shí)別效果的影響,設(shè)計(jì)一個(gè)基于因果卷積的x-vector方言識(shí)別系統(tǒng),其卷積層同樣設(shè)置為5層,第一層至第五層空洞因子分別設(shè)置為d=1、d=2、d=4、d=8和d=16,為了保持輸入序列和標(biāo)注序列的一致性,所有卷積層的濾波器數(shù)量均相同,并稱為 CCN-xvec。另外,為驗(yàn)證結(jié)合注意力機(jī)制和因果卷積網(wǎng)絡(luò)維吾爾語方言的識(shí)別效果,在CCN-xvec系統(tǒng)中加入注意力模塊,獲取權(quán)重系數(shù)的受限玻爾茲曼機(jī)的輸入和輸出神經(jīng)元數(shù)量均與因果卷積層的輸出幀數(shù)保持一致,將該系統(tǒng)稱之為CCN-att-xvec。最后,對(duì)基線TDNN-xvec方言識(shí)別系統(tǒng)加入注意力模塊,將該系統(tǒng)稱TDNN-att-xvec。
結(jié)合注意力機(jī)制和因果卷積網(wǎng)絡(luò)的x-vector方言模型訓(xùn)練流程如圖4所示,為充分利用有限方言語料,并增強(qiáng)模型的穩(wěn)定性和可靠性,首先在從維吾爾語三種方言語料中挑選訓(xùn)練集和測試集時(shí),采用十折交叉驗(yàn)證法,同時(shí)保證訓(xùn)練集數(shù)據(jù)不出現(xiàn)在驗(yàn)證集中。然后采用G.723.1技術(shù)規(guī)范[28]對(duì)語音進(jìn)行端點(diǎn)檢測和倒譜均值減處理,分幀后每幀提取30維MFCC系數(shù),同時(shí)計(jì)算其一階和二階差分系數(shù),考慮到基線系統(tǒng)TDNN-xvec的第一層組合了當(dāng)前時(shí)刻的前后兩幀{t?2,t?1,t,t+1,t+2}作為輸入,CCN-att-xvec同樣使用5幀共計(jì)450維參數(shù)作為CCN的輸入。采用有監(jiān)督方式對(duì)神經(jīng)網(wǎng)絡(luò)訓(xùn)練,訓(xùn)練目標(biāo)是最小化負(fù)對(duì)數(shù)似然函數(shù),損失函數(shù)使用交叉熵函數(shù)。采用反向傳播和梯度下降算法更新網(wǎng)絡(luò)參數(shù),參數(shù)更新公式為
圖4 方言識(shí)別系統(tǒng)訓(xùn)練過程Fig.4 Training process of dialect recognition system
式(11)~(13)中:vt、mt和θt分別表示t時(shí)刻的沖量、光滑系數(shù)和網(wǎng)絡(luò)參數(shù);β1和β2為超參數(shù);η為學(xué)習(xí)率;ε為保持?jǐn)?shù)值穩(wěn)定的參數(shù),初始學(xué)習(xí)率設(shè)置為0.01,共計(jì)迭代40個(gè)周期。
4.4.1 實(shí)驗(yàn)一
實(shí)驗(yàn)一對(duì)比了不同濾波器數(shù)量時(shí)的TDNN-xvec和CCN-xvec模型的方言識(shí)別性能。將TDNN-xvec和CCN-xvec模型中卷積層中卷積核數(shù)量分別設(shè)置為 64、128、256、512,實(shí)驗(yàn)中所有網(wǎng)絡(luò)的卷積核尺度固定為7。圖5為方言識(shí)別結(jié)果,從圖中可以看出,TDNN-xvec方言識(shí)別系統(tǒng)隨著卷積核數(shù)量的增加,識(shí)別正確率不斷降低,兩者之間呈現(xiàn)明顯的負(fù)相關(guān)性。而CCN-xvec方言識(shí)別系統(tǒng)卷積核從64個(gè)增加到 128個(gè)時(shí),識(shí)別正確率最高,正確率為85.80%,繼續(xù)增加卷積核數(shù)量,方言識(shí)別正確率緩慢降低。值得注意的是,具有不同卷積核數(shù)量的CCN-xvec模型的方言識(shí)別正確率都高于對(duì)應(yīng)的TDNN-xvec模型。這說明在x-vector框架下,因果卷積網(wǎng)絡(luò)比 TDNN更能夠提取到具有辨別性的維吾爾語方言語音幀級(jí)特征。
圖5 不同尺度卷積核模型的方言識(shí)別正確率Fig.5 Correctness rate of dialect recognition based on the convolution kernel model with different scales
4.4.2 實(shí)驗(yàn)二
實(shí)驗(yàn)二對(duì)比了添加注意力機(jī)制后 TDNN-att-xvec和CCN-att-xvec模型的方言識(shí)別性能。實(shí)驗(yàn)時(shí)將計(jì)算幀權(quán)重的受限玻爾茲曼機(jī)的神經(jīng)元與卷積核的數(shù)量設(shè)置為一致,加入注意機(jī)制后模型的維吾爾語方言識(shí)別結(jié)果如圖6所示。從實(shí)驗(yàn)結(jié)果來看,一個(gè)明顯的結(jié)論就是CCN-att-xvec系統(tǒng)的識(shí)別性能始終優(yōu)于TDNN-att-xvec系統(tǒng)的識(shí)別性能,并且兩個(gè)模型在卷積核數(shù)量為128個(gè)時(shí)性能最優(yōu)。另外將實(shí)驗(yàn)二與實(shí)驗(yàn)一進(jìn)行對(duì)比可以發(fā)現(xiàn)兩點(diǎn):(1) 加入注意力機(jī)制的 CCN-att-xvec比沒有融合注意力機(jī)制的CCN-xvec識(shí)別正確率總體上有一定程度提升,識(shí)別正確率最大提升6.19個(gè)百分點(diǎn),說明注意機(jī)制與因果卷積網(wǎng)絡(luò)結(jié)合有助于提高維吾爾語方言識(shí)別率;(2) 加入注意力機(jī)制的TDNN-xvec系統(tǒng)在卷積核數(shù)量為 64時(shí),識(shí)別正確率低于未使用注意力機(jī)制的系統(tǒng),而在卷積核數(shù)量為128、256和512個(gè)時(shí)方言識(shí)別正確率又都高于未使用注意機(jī)制的系統(tǒng)。形成這種結(jié)果的原因是:對(duì)于 TDNN-xvec系統(tǒng)而言,當(dāng)訓(xùn)練語料數(shù)量一定、語音段長度一定時(shí),濾波器數(shù)量的增多意味著網(wǎng)絡(luò)最終輸出的幀級(jí)特征維度越大,這些特征中存在大量重疊的上下文信息,這些信息簡單拼合在一起會(huì)相互干擾,濾波器數(shù)量越多干擾越大,識(shí)別正確率降低程度越大,而使用注意力機(jī)制后,就相當(dāng)于對(duì)這些高維冗余信息進(jìn)行了主成分分析(Principal Component Analysis,PCA)[29-30],做了降維處理,維度越大反而提取到的有用信息越多,識(shí)別效果越好。
圖6 加入注意力機(jī)制后模型的方言識(shí)別性能Fig.6 Dialect recognition performance of the model with attention mechanism
4.4.3 實(shí)驗(yàn)三
實(shí)驗(yàn)三為驗(yàn)證本文所提方法對(duì)其他方言識(shí)別的有效性,分別使用 TDNN-xvec和 CCN-att-xvec模型對(duì)長沙話、南昌話和上海話(簡稱湘、贛、吳)三種方言進(jìn)行識(shí)別,識(shí)別結(jié)果如圖7所示。三種方言數(shù)據(jù)來自科大訊飛方言挑戰(zhàn)賽公開的部分方言語料,每種方言訓(xùn)練數(shù)據(jù)為6 600條,同樣使用十折交叉驗(yàn)證法劃分訓(xùn)練集與測試集,且保證訓(xùn)練集中無測試集中的發(fā)音人語料。圖7中TDNN-xvec和CCN-att-xvec分別表示兩種模型對(duì)長沙話、南昌話和上海話的識(shí)別結(jié)果。從識(shí)別結(jié)果可以看出,在不同卷積核個(gè)數(shù)情況下CCN-att-xvec模型方言識(shí)別正確率均比TDNN-xvec模型的要高。說明注意力機(jī)制的因果卷積網(wǎng)絡(luò)相對(duì)傳統(tǒng)x-vector模型,不僅對(duì)維吾爾語有較高的識(shí)別正確率,而且對(duì)漢語方言也有較好識(shí)別性能,模型有較強(qiáng)的泛化性。通過與實(shí)驗(yàn)二進(jìn)行對(duì)比,可以發(fā)現(xiàn)CNN-att-xvec模型對(duì)湘、贛、吳和上海話三種方言的識(shí)別正確率略低于維吾爾語三種方言的正確率,這可能和維吾爾語的黏著性有關(guān)。
圖7 融合注意力機(jī)制模型的湘、贛、吳方言識(shí)別正確率Fig.7 Recognition rate of Xiang, Gan and Wu dialects based on attention mechanism model
本文提出了結(jié)合注意力機(jī)制和因果卷積網(wǎng)絡(luò)的 x-vector維吾爾語方言識(shí)別模型。實(shí)驗(yàn)結(jié)果表明,使用空洞卷積采樣技術(shù)的因果卷積網(wǎng)絡(luò)提取的維吾爾語方言幀級(jí)特征比TDNN的更具辨識(shí)性,且加入注意機(jī)制后,基于TDNN的x-vector模型和基于CCN的x-vector模型方言識(shí)別性能均有相當(dāng)程度的提升,特別是后者的維吾爾語方言識(shí)別正確率比標(biāo)準(zhǔn)x-vector模型最高提升了23.19個(gè)百分點(diǎn)。