• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      維吾爾語(yǔ)三音素決策樹的欠擬合調(diào)優(yōu)

      2018-10-23 02:20:38阿依先木卡得爾邱自成
      關(guān)鍵詞:音素維吾爾語(yǔ)錯(cuò)誤率

      阿依先木·卡得爾 邱自成

      (1塔里木大學(xué)人文學(xué)院,新疆 阿拉爾 843300)(2塔里木大學(xué)信息工程學(xué)院,新疆 阿拉爾 843300)

      得益于一批優(yōu)秀開源平臺(tái)[1]的支持,維吾爾語(yǔ)語(yǔ)音識(shí)別研究已經(jīng)取得一系列成果。大詞匯量連續(xù)語(yǔ)音識(shí)別系統(tǒng)的性能逐步提高,詞錯(cuò)誤率(Word Error Rate, WER)逐步下降。目前,HTK[2]和Kaldi[3]是這些開源平臺(tái)中的主流?;贖TK和Kaldi,許多研究工作以開源平臺(tái)提供的基線系統(tǒng)為基礎(chǔ),以維吾爾語(yǔ)語(yǔ)音識(shí)別系統(tǒng)的整體性能優(yōu)化為焦點(diǎn),研究新的單元技術(shù),擴(kuò)展識(shí)別系統(tǒng)的功能,降低詞錯(cuò)誤率[4-11]。吾守爾·斯拉木的研究團(tuán)隊(duì)[4-6]較早開展基于HTK的維吾爾語(yǔ)語(yǔ)音識(shí)別工作。文獻(xiàn)[4]基于HTK構(gòu)建了維吾爾語(yǔ)的上下文相關(guān)的三音素隱馬爾柯夫聲學(xué)模型,結(jié)合二元語(yǔ)法,實(shí)現(xiàn)了一個(gè)維吾爾語(yǔ)非特定人大詞匯量連續(xù)語(yǔ)音識(shí)別系統(tǒng)。文獻(xiàn)[5]基于HTK構(gòu)建隱馬爾柯夫模型(Hidden Markov Models,HMM)的聲學(xué)模型,通過決策樹、三音子綁定、修補(bǔ)啞音和增加高斯混合分量的方法提高識(shí)別精度。文獻(xiàn)[6]針對(duì)維吾爾語(yǔ)作為黏著語(yǔ)在識(shí)別過程中OOV (Out Of Vocabulary,未登錄詞)突出的問題,分別將子詞、詞首詞尾和組合識(shí)別單元代替單詞作為語(yǔ)言模型的建模單元,基于HTK構(gòu)建維吾爾語(yǔ)語(yǔ)音識(shí)別系統(tǒng)驗(yàn)證三種識(shí)別單元對(duì)識(shí)別性能的提升。李曉的研究團(tuán)隊(duì)[7]也較早基于HTK開展維吾爾語(yǔ)語(yǔ)音識(shí)別研究。文獻(xiàn)[7]搭建以HTK為平臺(tái)的維吾爾語(yǔ)語(yǔ)音識(shí)別基線系統(tǒng),針對(duì)方言口語(yǔ)發(fā)音變異的問題,構(gòu)建和田方言多發(fā)音字典,提高系統(tǒng)對(duì)方言口音的識(shí)別性能。

      基于上述開源平臺(tái),深層神經(jīng)網(wǎng)絡(luò)在語(yǔ)音識(shí)別中廣泛應(yīng)用,識(shí)別系統(tǒng)的詞錯(cuò)誤率顯著下降[8]。與此同時(shí),Kaldi作為一個(gè)支持深度學(xué)習(xí)技術(shù)的開發(fā)平臺(tái)[3]在語(yǔ)音識(shí)別社區(qū)中迅速發(fā)展,也受到維吾爾語(yǔ)語(yǔ)音識(shí)別研究者的青睞。文獻(xiàn)[9]基于Kaldi訓(xùn)練了一個(gè)含4隱層的神經(jīng)網(wǎng)絡(luò),構(gòu)建DNN-HMM (Deep Neural Networks-Hidden Markov Models)聲學(xué)模型,借助于GPU (Graphics Processing Unit)的強(qiáng)大計(jì)算能力,使識(shí)別系統(tǒng)性能得到大幅度提升。為了促進(jìn)維吾爾語(yǔ)語(yǔ)音識(shí)別技術(shù)的發(fā)展,文獻(xiàn)[10]發(fā)布了一個(gè)完全免費(fèi)的維吾爾語(yǔ)連續(xù)語(yǔ)音數(shù)據(jù)庫(kù)THUYG-2.0,同時(shí)基于Kaldi平臺(tái),提供了一整套構(gòu)建基線系統(tǒng)所需的音素集、詞表、文本數(shù)據(jù)、語(yǔ)言模型和結(jié)果可重現(xiàn)的腳本文件等資源?;赥HUYG-2.0語(yǔ)音數(shù)據(jù)庫(kù)和Kaldi研究平臺(tái),文獻(xiàn)[11]通過引入CNN (Convolutional Neural Networks)構(gòu)建聲學(xué)模型,在獲得與DNN相當(dāng)?shù)淖R(shí)別性能的同時(shí),降低訓(xùn)練參數(shù)的規(guī)模,緩解過擬合的問題。

      另一方面,語(yǔ)音數(shù)據(jù)庫(kù)是語(yǔ)音識(shí)別研究的重要基礎(chǔ)資源。THUYG-2.0免費(fèi)語(yǔ)音數(shù)據(jù)庫(kù)的發(fā)布為維吾爾語(yǔ)語(yǔ)音識(shí)別研究的發(fā)展進(jìn)一步推波助瀾[10,11]。雖然深層神經(jīng)網(wǎng)絡(luò)相比于高斯混合模型(Gaussian Mixture Model, GMM)能夠更高精度地對(duì)三音素狀態(tài)的似然概率建模,但是深層神經(jīng)網(wǎng)絡(luò)并不能代替整個(gè)HMM技術(shù)框架。目前,世界上最先進(jìn)的商業(yè)系統(tǒng)所采用的方案,普遍以HMM框架下混合多種深層網(wǎng)絡(luò)為特點(diǎn)[12]。換言之,HMM技術(shù)框架仍舊是現(xiàn)有語(yǔ)音識(shí)別技術(shù)的主體?;贙aldi平臺(tái)的THUYG-2.0語(yǔ)音數(shù)據(jù)庫(kù)[10]雖然提供了一套基線系統(tǒng),然而沒有研究表明其中的GMM-HMM部分已經(jīng)是最優(yōu)狀態(tài),也沒有研究表明該HMM框架在整合深層神經(jīng)網(wǎng)絡(luò)時(shí),能夠?qū)⑸顚由窠?jīng)網(wǎng)絡(luò)的性能發(fā)揮到最優(yōu)。實(shí)際上,不同性能的基線系統(tǒng)配備先進(jìn)的深層神經(jīng)網(wǎng)絡(luò)模型后,能夠得到的性能提升不盡相同,即以HMM框架為核心的基線系統(tǒng)仍舊是制約語(yǔ)音識(shí)別技術(shù)發(fā)展的一個(gè)主要因素。為語(yǔ)音研究界所公知,一個(gè)大詞匯量連續(xù)語(yǔ)音識(shí)別系統(tǒng)包括大量、相互關(guān)系復(fù)雜的可調(diào)參數(shù),這些參數(shù)增加了系統(tǒng)的復(fù)雜性和不確定性,使系統(tǒng)在調(diào)參的過程中難以避免多種經(jīng)驗(yàn)上有效卻不容易解釋清楚的小技巧。另一方面,HTK和Kaldi廣泛應(yīng)用于英語(yǔ)和漢語(yǔ)相關(guān)的語(yǔ)音識(shí)別研究,維吾爾語(yǔ)作為小語(yǔ)種,并不是開源平臺(tái)開發(fā)者的主要關(guān)注對(duì)象,此種情況進(jìn)一步限制了基于開源平臺(tái)的維吾爾語(yǔ)語(yǔ)音識(shí)別基線系統(tǒng)的性能。

      本文以Kaldi為平臺(tái)搭建維吾爾語(yǔ)語(yǔ)音識(shí)別基線系統(tǒng),研究基線系統(tǒng)內(nèi)部的三音素決策樹模型[13]?;贙aldi現(xiàn)有的三音素決策樹模型實(shí)現(xiàn)方案[3],針對(duì)其超參數(shù)的欠擬合設(shè)置,優(yōu)化提高其性能。三音素決策樹是模擬協(xié)同發(fā)音的重要模塊單元,與GMM或DNN結(jié)合成為聲學(xué)模型的核心,其性能的優(yōu)化也將有效降低基線系統(tǒng)的詞錯(cuò)誤率。

      1 基于Kaldi的維吾爾語(yǔ)語(yǔ)音識(shí)別基線系統(tǒng)

      1.1 基線系統(tǒng)的主要結(jié)構(gòu)

      基于Kaldi[3]開源工具包構(gòu)建維吾爾語(yǔ)語(yǔ)音識(shí)別基線系統(tǒng)。作為語(yǔ)音識(shí)別技術(shù)的研究平臺(tái),Kaldi具備一個(gè)由加權(quán)有限狀態(tài)轉(zhuǎn)換器(Weighted Finite State Transducer,WFST)統(tǒng)一實(shí)現(xiàn)的以靜態(tài)解碼為特點(diǎn)的系統(tǒng)框架結(jié)構(gòu)。在Kaldi中,大詞匯量連續(xù)語(yǔ)音識(shí)別中所需要的各種語(yǔ)音學(xué)和語(yǔ)言學(xué)知識(shí)均用WFST統(tǒng)一表征并解碼。用狀態(tài)序列對(duì)發(fā)音單元建模的隱馬爾科夫模型,模擬協(xié)同發(fā)音現(xiàn)象的上下文相關(guān)音素(Context-Dependent Phone, CD Phone)決策樹,在轉(zhuǎn)換成WFST后通過合成算法得到聲學(xué)模型,然后合成已經(jīng)轉(zhuǎn)換成WFST表征的發(fā)音字典(Lexicon)和N元文法(N-gram)語(yǔ)言模型,最終得到靜態(tài)解碼網(wǎng)絡(luò)。本文所構(gòu)建的維吾爾語(yǔ)語(yǔ)音識(shí)別基線系統(tǒng)自然繼承了Kaldi平臺(tái)的上述基本特征。

      已經(jīng)發(fā)布的THUYG-2.0語(yǔ)音數(shù)據(jù)庫(kù)選擇基于DNN-HMM(Deep Neural Network-Hidden Markov Model)框架的聲學(xué)模型和3-Gram語(yǔ)言模型構(gòu)建基線系統(tǒng)[10]。雖然DNN-HMM相對(duì)于傳統(tǒng)的GMM-HMM(Gaussian Mixture Model- Hidden Markov Model)聲學(xué)模型在性能上有大幅度的提高,但是目前在Kaldi的開發(fā)環(huán)境下,完全忽視GMM-HMM的研究?jī)r(jià)值仍有失偏頗。首先,DNN-HMM的訓(xùn)練需要來(lái)自于GMM-HMM的特征和對(duì)齊數(shù)據(jù),GMM-HMM是DNN-HMM的基礎(chǔ)。其次,GMM-HMM相對(duì)于DNN-HMM的劣勢(shì)不僅直觀地由詞錯(cuò)誤率體現(xiàn);GMM對(duì)非線性數(shù)據(jù)建模能力的不足,HMM的時(shí)間獨(dú)立性假設(shè)和分段平穩(wěn)假設(shè)與語(yǔ)音的動(dòng)態(tài)特性之間的不匹配,從ASR(Automatic Speech Recognition)系統(tǒng)設(shè)計(jì)思想和技術(shù)細(xì)節(jié)上體現(xiàn)了GMM-HMM模型的弱點(diǎn),為HMM的非線性動(dòng)態(tài)變體擴(kuò)展的產(chǎn)生[15],進(jìn)而向完全基于神經(jīng)網(wǎng)絡(luò)的端到端系統(tǒng)的演化提供了線索和指引[15,16]。

      圖1 基于GMM-HMM的維吾爾語(yǔ)語(yǔ)音識(shí)別基線系統(tǒng)框架圖

      本文基于Kaldi開源工具包構(gòu)建以GMM-HMM為聲學(xué)模型、以3-Gram為語(yǔ)言模型的維吾爾語(yǔ)語(yǔ)音識(shí)別基線系統(tǒng),其流程框架結(jié)構(gòu)如圖1所示,主要包括單音素、三音素、LDA_MLLT、SAT和Tri4b五個(gè)階段。其中,所抽取的梅爾頻率倒譜系數(shù)(Mel Frequency Cepstral Coefficient,MFCC)特征是39維的幀數(shù)據(jù)。單音素建模選取上下文無(wú)關(guān)的音素作為HMM的建模單元。三音素建模選取窗口寬度為3的上下文相關(guān)的邏輯音素作為HMM的建模單元,構(gòu)建三音素決策樹。三音素建模之后,在MFCC特征的基礎(chǔ)上將上下文窗口寬度為7幀的特征拼接,用線性判別分析(Linear Discriminant Analysis,LDA)降維至40維,在多次迭代之后估計(jì)出能使GMM協(xié)方差矩陣對(duì)角化的最大似然線性變換(Maximum Likelihood Linear Transform,MLLT)矩陣。在7幀寬的MFCC特征拼接數(shù)據(jù)上執(zhí)行LDA和MLLT組合后的變換,訓(xùn)練得到基于LDA+MLLT特征的GMM-HMM聲學(xué)模型。然后,基于說(shuō)話人無(wú)關(guān)的LDA+MLLT特征計(jì)算特征空間最大似然線性回歸(feature-space Maximum Likelihood Linear Regression,fMLLR)的自適應(yīng)特征,實(shí)現(xiàn)說(shuō)話人自適應(yīng)(Speaker Adapted Training,SAT)的GMM-HMM聲學(xué)模型的訓(xùn)練。如圖1所示,單音素、三音素、LDA_MLLT和SAT四個(gè)階段均需要計(jì)算新特征,然后執(zhí)行解碼和對(duì)齊任務(wù)。每一次測(cè)試解碼后都需要對(duì)訓(xùn)練數(shù)據(jù)再一次強(qiáng)制對(duì)齊,為下一階段的訓(xùn)練提供啟動(dòng)條件。

      最后,在Tri4b階段,沿用SAT階段的LDA+MLLT+fMLLR特征重新構(gòu)建決策樹,重新訓(xùn)練GMM-HMM聲學(xué)模型參數(shù)并執(zhí)行解碼測(cè)試,重新對(duì)齊訓(xùn)練數(shù)據(jù)。新獲得的訓(xùn)練數(shù)據(jù)對(duì)齊結(jié)果,以及準(zhǔn)備交叉驗(yàn)證數(shù)據(jù)的CV(Cross Validation)數(shù)據(jù)對(duì)齊,都是為下一階段的DNN訓(xùn)練做準(zhǔn)備。在基線模型GMM-HMM的基礎(chǔ)上,用說(shuō)話人自適應(yīng)后的LDA+MLLT+fMLLR特征訓(xùn)練DNN模型,構(gòu)建DNN-HMM系統(tǒng),進(jìn)一步驗(yàn)證GMM-HMM基線系統(tǒng)的欠擬合調(diào)優(yōu)對(duì)DNN-HMM性能的影響。

      1.2 維吾爾語(yǔ)語(yǔ)音識(shí)別的特點(diǎn)

      維吾爾語(yǔ)在形態(tài)結(jié)構(gòu)上屬于黏著語(yǔ)類型,構(gòu)建語(yǔ)言模型時(shí)面臨詞匯量巨大的問題。在維吾爾語(yǔ)中,一個(gè)詞根與多個(gè)不同詞綴構(gòu)成數(shù)目眾多的詞形變,這導(dǎo)致構(gòu)造語(yǔ)言模型的詞表體積巨大,也使訓(xùn)練數(shù)據(jù)稀疏的問題惡化,同時(shí)還會(huì)導(dǎo)致出現(xiàn)大量的未登錄詞(Out Of Vocabulary,OOV)[6]。因此,基線系統(tǒng)在構(gòu)造語(yǔ)言模型時(shí),采用基于詞素的建模方法[10,19]。首先將候選詞作詞干和詞綴的切分,然后以詞素為基元構(gòu)建4-Gram語(yǔ)言模型[10]。詞素切分后,詞表規(guī)模得到控制,數(shù)據(jù)稀疏和OOV問題也得到緩解。

      表1 維吾爾語(yǔ)發(fā)音音素的標(biāo)注集

      續(xù)上表

      音素英文表示音素英文表示音素英文表示Jk(隔前)vaNl(后連、前后)veOm(后連、前后)viUn(后連、隔前)voao(后連、前連、單立)vubpwcqxdryesz

      2 三音素決策樹及其超參數(shù)的欠擬合調(diào)優(yōu)

      2.1 Kaldi中的三音素決策樹模型

      在Kaldi中,通過決策樹聚類描述三音素的聲學(xué)特性,反映處于不同HMM狀態(tài)的三音素在語(yǔ)音學(xué)意義上的相似和相異的程度。自頂向下的貪婪分裂是實(shí)現(xiàn)決策樹聚類功能的基本算法。文獻(xiàn)[13]描述了標(biāo)準(zhǔn)的三音素決策樹模型。Kaldi的三音素決策樹模型的設(shè)計(jì)、實(shí)現(xiàn)與標(biāo)準(zhǔn)模型大致相似,但保留了一些Kaldi自身的獨(dú)特之處。這些特點(diǎn)在Kaldi的文檔中有粗略的介紹[20],但主要細(xì)節(jié)都記錄在決策樹相關(guān)的源代碼中。

      首先,在Kaldi中并不依據(jù)語(yǔ)音學(xué)知識(shí)手動(dòng)設(shè)計(jì)問題集,而是應(yīng)用自頂向下的二叉樹聚類算法自動(dòng)生成問題集。在標(biāo)準(zhǔn)算法中,手動(dòng)設(shè)計(jì)的問題集能反映每一類音素的語(yǔ)音學(xué)特點(diǎn),例如元音、清輔音、濁輔音等。然而在Kaldi中,問題集自動(dòng)生成,其方法更高效簡(jiǎn)潔。由于二叉樹的聚類以局部最優(yōu)為標(biāo)準(zhǔn),導(dǎo)致自動(dòng)生成的問題集對(duì)于人類而言沒有明確的意義。另外,生成問題集時(shí),處于不同上下文的同一種中間音素被無(wú)差別對(duì)待,且中間音素聚類生成的問題集將被無(wú)差別地應(yīng)用于針對(duì)左側(cè)音素和右側(cè)音素的提問。

      圖2 基線系統(tǒng)中三音素決策樹模型的構(gòu)建與訓(xùn)練流程

      其次,決策樹可以針對(duì)中間音素和HMM狀態(tài)提問。針對(duì)中間音素的分裂通過兩種機(jī)制實(shí)現(xiàn)。其一,由根節(jié)點(diǎn)配置文件roots.int生成樹梢映射(Stub Map),使單個(gè)中間音素或多個(gè)中間音素構(gòu)成的子集形成根節(jié)點(diǎn)。其二,如果包含多個(gè)中間音素的子集構(gòu)成根節(jié)點(diǎn),在后續(xù)的二叉分裂中,Kaldi能夠針對(duì)中間音素繼續(xù)提問完成該子集的分裂。Kaldi中專門構(gòu)建了針對(duì)HMM狀態(tài)的問題集,因此能夠按照roots.int文件的配置信息實(shí)現(xiàn)對(duì)HMM狀態(tài)的分裂。

      與手動(dòng)設(shè)計(jì)問題集的標(biāo)準(zhǔn)算法相比,Kaldi所生成的決策樹更復(fù)雜,由于針對(duì)中間音素和HMM狀態(tài)的靈活配置,其高效的性能也在工程實(shí)踐中得到了驗(yàn)證[1,3,9-11]。維吾爾語(yǔ)語(yǔ)音識(shí)別基線系統(tǒng)的三音素決策樹模型的構(gòu)建與訓(xùn)練流程如圖2所示。

      2.2 維吾爾語(yǔ)三音素決策樹構(gòu)建算法

      在構(gòu)建一棵三音素決策樹時(shí),Kaldi采用最常見的以局部最優(yōu)為準(zhǔn)則的自頂向下貪婪二叉分裂算法獲得分裂樹,然后采用自底向上的三音素聚類綁定算法獲得最終的決策樹。算法的行為可以通過靈活的參數(shù)配置調(diào)整。維吾爾語(yǔ)三音素決策樹的構(gòu)建算法一方面繼承了Kaldi的通用算法框架,另一方面在根節(jié)點(diǎn)配置上有自己的特點(diǎn)。該算法主要包括樹梢根節(jié)點(diǎn)映射生成、決策樹貪婪分裂和根節(jié)點(diǎn)映射受限聚類的三音素綁定三個(gè)主要的步驟,如圖3所示。

      圖3 維吾爾語(yǔ)三音素決策樹構(gòu)建算法的主要步驟

      圖4 基線系統(tǒng)生成的語(yǔ)音決策樹的局部圖。

      在生成樹梢根節(jié)點(diǎn)映射時(shí),根據(jù)根節(jié)點(diǎn)文件對(duì)中間音素集的配置情況,分別按照TableEventMap和SplitEventMap兩種方式將中間音素集映射為待分裂的根節(jié)點(diǎn)。維吾爾語(yǔ)語(yǔ)音識(shí)別基線系統(tǒng)的根節(jié)點(diǎn)文件中,每個(gè)中間音素集只包含一個(gè)音素,因此所有的根節(jié)點(diǎn)都按照TableEventMap方式映射生成?;诖朔N配置,在后續(xù)的樹分裂過程中,將不會(huì)再對(duì)中間音素繼續(xù)提問。得到根節(jié)點(diǎn)映射后,以目標(biāo)函數(shù)值的局部最大提升為準(zhǔn)則,對(duì)前期生成的每一個(gè)根節(jié)點(diǎn)執(zhí)行二叉分裂。形成分裂方案時(shí),既可以對(duì)左側(cè)音素、右側(cè)音素提問,也可以對(duì)HMM狀態(tài)提問。使目標(biāo)函數(shù)值的提升最大的提問方案被選中,且只有目標(biāo)函數(shù)值的提升大于分裂閾值時(shí),才允許執(zhí)行分裂。最大葉子數(shù)設(shè)定了決策樹葉子節(jié)點(diǎn)數(shù)目的上限。最后,根據(jù)聚類閾值的設(shè)定,執(zhí)行根節(jié)點(diǎn)映射受限聚類的三音素綁定,將特征接近的三音素HMM狀態(tài)自底向上地綁定到一起。在本基線系統(tǒng)中,聚類閾值設(shè)定為樹分裂時(shí)得到的最小目標(biāo)函數(shù)值提升量。通過調(diào)用不同的函數(shù),三音素綁定可以受限也可以不受限。在本基線系統(tǒng)中,三音素狀態(tài)的綁定受限于根節(jié)點(diǎn)設(shè)置,即擁有不同中間音素的三音素狀態(tài)不會(huì)被綁定到一起。生成聚類樹之后,再包裹一層上下文相關(guān)的接口,輸出三音素決策樹文件。

      根據(jù)本基線系統(tǒng)的根節(jié)點(diǎn)文件和配置參數(shù),以維吾爾語(yǔ)發(fā)音音素集構(gòu)建的單音素決策樹和三音素決策樹如圖4所示。三音素決策樹的結(jié)構(gòu)充分體現(xiàn)了貪婪二叉分裂算法的特點(diǎn)。

      2.3 超參數(shù)的欠擬合調(diào)優(yōu)

      三音素決策樹對(duì)聲學(xué)模型性能的影響主要體現(xiàn)在三個(gè)方面。其一,三音素決策樹在結(jié)構(gòu)上是否分裂充分,決定了決策樹模型對(duì)上下文相關(guān)音素的協(xié)同發(fā)音現(xiàn)象能否全面覆蓋。前述小節(jié)中,最大葉子數(shù)(--max-leaves)和分裂閾值(thresh)控制著決策樹的分裂充分程度。最大葉子數(shù)越大,分裂閾值越低,則對(duì)決策樹的貪婪二叉分裂越徹底。然而,訓(xùn)練數(shù)據(jù)總是有限的,葉子節(jié)點(diǎn)數(shù)過多,會(huì)導(dǎo)致數(shù)據(jù)稀疏的問題。另一方面,決策樹二叉分裂的過程,是局部最優(yōu)聚類的過程,并不能保證一定得到全局最優(yōu)解。因此,最大葉子數(shù)不是越大越好,分裂閾值也不是越小越好。需要注意的是,分裂閾值(thresh)在Kaldi中已被固化在C++源代碼里,調(diào)整該參數(shù)時(shí),需要重新編譯對(duì)應(yīng)的C++源程序。

      其二,三音素決策樹在充分分裂后,能夠自底向上充分綁定,有效減少葉子節(jié)點(diǎn)總數(shù),是克服訓(xùn)練時(shí)的數(shù)據(jù)稀疏問題的關(guān)鍵。在基線系統(tǒng)中,聚類閾值(--cluster-thresh)被設(shè)定為二叉分裂時(shí)得到的最小的目標(biāo)函數(shù)值最大提升量。此參數(shù)在基線系統(tǒng)中不需要人為設(shè)定。

      其三,三音素決策樹的每一個(gè)葉子節(jié)點(diǎn)在Kaldi中對(duì)應(yīng)一個(gè)pdf-id,相當(dāng)于一個(gè)三音素HMM狀態(tài)的GMM模型。因此,用于擬合的總高斯數(shù)(tot-gauss)越大GMM聲學(xué)模型的精度就越高。另一方面,總高斯數(shù)增大,會(huì)導(dǎo)致模型更復(fù)雜,計(jì)算量也相應(yīng)增大。

      3 實(shí)驗(yàn)與結(jié)果分析

      基于Kaldi提供的開源工具包,THUYG-20語(yǔ)音數(shù)據(jù)庫(kù)在發(fā)布時(shí),雖然提供了一套DNN-HMM模型的維吾爾語(yǔ)語(yǔ)音識(shí)別基線系統(tǒng),但是并未對(duì)GMM-HMM模型作深入詳細(xì)的討論[10]。隨同THUYG-20發(fā)布的GMM-HMM聲學(xué)模型作為向DNN的過渡,沒有仔細(xì)調(diào)參,性能在一定程度上是欠擬合狀態(tài)。尤其是對(duì)于三音素決策樹,幾個(gè)關(guān)鍵參數(shù)的設(shè)置不理想,影響了該模型發(fā)揮最佳性能。

      實(shí)驗(yàn)采用THUYG-20語(yǔ)音數(shù)據(jù)庫(kù),其中包含約20小時(shí)的語(yǔ)音訓(xùn)練數(shù)據(jù)和2. 5小時(shí)左右的語(yǔ)音測(cè)試數(shù)據(jù),詞匯量總共約4. 5萬(wàn)[10]?;€系統(tǒng)在訓(xùn)練三音素決策樹和GMM模型時(shí),采用基于最大似然準(zhǔn)則的EM算法。HMM的參數(shù)訓(xùn)練則以循環(huán)迭代的方式采用Viterbi算法代替常用的Baum-Welch算法。由于維吾爾語(yǔ)的黏著語(yǔ)特性,基線系統(tǒng)采用兩種語(yǔ)言模型,一種是基于詞的3-Gram語(yǔ)言模型,另一種是基于詞素的4-Gram語(yǔ)言模型[10,19]。實(shí)驗(yàn)結(jié)果將分別報(bào)告基于兩種語(yǔ)言模型的詞錯(cuò)誤率。

      3.1 實(shí)驗(yàn)1:三音素決策樹超參數(shù)調(diào)優(yōu)

      三音素決策樹的調(diào)優(yōu)參數(shù)主要包括:最大葉子數(shù)(--max-leaves)和總高斯數(shù)(tot-gauss)。在THUYG-20所提供的原始腳本中[10],三音素階段,最大葉子數(shù)設(shè)置為2 000,總高斯數(shù)設(shè)置為10 000;在LDA-MLLT階段,最大葉子數(shù)設(shè)置為2 500,總高斯數(shù)則設(shè)置為15 000。調(diào)整此組參數(shù),分別在三音素訓(xùn)練和LDA_MLLT訓(xùn)練階段,基于詞的語(yǔ)言模型和基于詞素的語(yǔ)言模型的詞錯(cuò)誤率結(jié)果如圖5所示。

      表2 三音素階段的優(yōu)化結(jié)果

      表3 LDA_MLLT階段的優(yōu)化結(jié)果

      圖5 詞錯(cuò)誤率隨最大葉子數(shù)和總高斯數(shù)調(diào)優(yōu)時(shí)的變化曲線(a)表示三音素階段的調(diào)優(yōu)情況,(b)表示LDA_MLLT階段的調(diào)優(yōu)情況。圖中word表示采用基于詞的3-Gram語(yǔ)言模型,morpheme表示采用基于詞素的4-Gram語(yǔ)言模型。

      從圖5可知,在三音素階段,最大葉子數(shù)為4 000時(shí)的詞錯(cuò)誤率均優(yōu)于該參數(shù)設(shè)置為2 000時(shí)的情況;在最大葉子數(shù)一定的情況下,逐步增大總高斯數(shù),詞錯(cuò)誤率也隨之逐步下降。在LDA_MLLT階段,最大葉子數(shù)為4 500時(shí)的詞錯(cuò)誤率普遍優(yōu)于該參數(shù)設(shè)置為2 500時(shí)的情況;在最大葉子數(shù)一定的情況下,逐步增大總高斯數(shù),詞錯(cuò)誤率也隨之逐步下降。在上述兩個(gè)階段,隨著總高斯數(shù)的持續(xù)增加,每增加1 000高斯數(shù)帶來(lái)的詞錯(cuò)誤率降低越來(lái)越小。

      權(quán)衡模型性能和計(jì)算效率之間的平衡,在三音素訓(xùn)練階段設(shè)置最大葉子數(shù)為4 000,總高斯數(shù)為30 000,在LDA_MLLT訓(xùn)練階段,設(shè)置最大葉子數(shù)為4 500,總高斯數(shù)為35 000,此時(shí)的基線系統(tǒng)詞錯(cuò)誤率如表2、表3所示。從表2和表3可知,相對(duì)于THUYG-20原始腳本中的參數(shù)設(shè)置結(jié)果,調(diào)優(yōu)后,詞錯(cuò)誤率下降的最大幅度為13. 1%。

      3.2 實(shí)驗(yàn)2:三音素決策樹調(diào)優(yōu)對(duì)DNN-HMM性能的影響

      為了探討三音素決策樹參數(shù)調(diào)優(yōu)對(duì)DNN-HMM模型性能的影響,在Tri4b階段之后,分別基于交叉熵(Cross Entropy,xEnt)和最小音素誤差(Minimum Phone Error,MPE)準(zhǔn)則訓(xùn)練DNN聲學(xué)模型,測(cè)試結(jié)果如表4所示。在表4中,分別給出了各個(gè)階段在三音素決策樹參數(shù)調(diào)優(yōu)前和調(diào)優(yōu)后的測(cè)試結(jié)果。

      在Kaldi中,DNN模型有三種不同的版本,此處采用Karel的實(shí)現(xiàn)版本[21]。三音素決策樹調(diào)優(yōu)前,所有參數(shù)采用THUYG-20所提供的原始腳本中的參數(shù)[10],調(diào)優(yōu)后,按照上一小節(jié)的策略增大最大葉子數(shù)和總高斯數(shù)提高決策樹的性能。實(shí)驗(yàn)結(jié)果表明,相對(duì)于調(diào)優(yōu)前,調(diào)優(yōu)后三音素、LDA_MLLT、SAT和Tri4b四個(gè)階段都得到了更低的WER。比較而言,DNN階段的WER的優(yōu)化程度相對(duì)較弱,說(shuō)明DNN的強(qiáng)大擬合能力彌補(bǔ)了調(diào)優(yōu)前后決策樹性能上的差距。調(diào)優(yōu)后,基于詞素語(yǔ)言模型的兩個(gè)DNN結(jié)果是空著的,因?yàn)門HUYG-20中沒有發(fā)布對(duì)應(yīng)的解碼器[10],這個(gè)名為latgen-biglm-faster-mapped的解碼器不屬于開源的一部分。

      表4 三音素決策樹調(diào)優(yōu)前后各階段WER對(duì)比

      4 總結(jié)

      三音素決策樹是GMM-HMM和DNN-HMM聲學(xué)模型的關(guān)鍵單元技術(shù),其自頂向下的分裂和自底向上的聚類綁定結(jié)果決定了聲學(xué)模型的建模單元;決策樹的分裂是否充分,每個(gè)葉子節(jié)點(diǎn)的GMM擬合是否精確,直接影響著聲學(xué)模型的性能。本文通過逐步調(diào)優(yōu)最大葉子數(shù)和總高斯數(shù),發(fā)現(xiàn)增加最大葉子數(shù)能夠使決策樹分裂更充分,在最大葉子數(shù)一定的條件下,逐步提高總高斯數(shù),聲學(xué)模型性能也逐步提高,詞錯(cuò)誤率逐步下降,且詞錯(cuò)誤率的下降幅度越來(lái)越小。實(shí)驗(yàn)表明,在采用基于詞素的4-Gram語(yǔ)言模型時(shí),調(diào)優(yōu)上述參數(shù),三音素和LDA_MLLT階段的詞錯(cuò)誤率分別下降了13. 1%和11. 7%。

      猜你喜歡
      音素維吾爾語(yǔ)錯(cuò)誤率
      限制性隨機(jī)試驗(yàn)中選擇偏倚導(dǎo)致的一類錯(cuò)誤率膨脹*
      新目標(biāo)英語(yǔ)七年級(jí)(上)Starter Units 1-3 STEP BY STEP 隨堂通
      依托繪本課程,培養(yǎng)學(xué)生英語(yǔ)音素意識(shí)
      小學(xué)英語(yǔ)課堂中音素意識(shí)與自然拼讀整合訓(xùn)練的探索
      ?不定冠詞a與an
      統(tǒng)計(jì)與規(guī)則相結(jié)合的維吾爾語(yǔ)人名識(shí)別方法
      正視錯(cuò)誤,尋求策略
      教師·中(2017年3期)2017-04-20 21:49:49
      解析小學(xué)高段學(xué)生英語(yǔ)單詞抄寫作業(yè)錯(cuò)誤原因
      維吾爾語(yǔ)話題的韻律表現(xiàn)
      維吾爾語(yǔ)詞重音的形式判斷
      家居| 天全县| 喀喇沁旗| 清远市| 阿尔山市| 滕州市| 焦作市| 明星| 大安市| 长葛市| 泾川县| 诏安县| 东安县| 富川| 兰坪| 连南| 泸西县| 华宁县| 稻城县| 潞西市| 剑阁县| 宣恩县| 彝良县| 洪雅县| 平度市| 乾安县| 且末县| 亚东县| 中山市| 澜沧| 高唐县| 团风县| 宁津县| 中牟县| 湖北省| 南靖县| 开江县| 新巴尔虎左旗| 广宗县| 虞城县| 黄浦区|