• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      不相關(guān)匹配追蹤的分段區(qū)分性特征變換方法

      2017-01-10 07:15:47張連海李弼程
      電子學(xué)報(bào) 2016年12期
      關(guān)鍵詞:區(qū)分字典分段

      陳 斌,牛 銅,張連海,屈 丹,李弼程

      (1.解放軍信息工程大學(xué)信息系統(tǒng)工程學(xué)院,河南鄭州 450001;2.西南電子電信技術(shù)研究所上海分所,上海 200434)

      不相關(guān)匹配追蹤的分段區(qū)分性特征變換方法

      陳 斌1,2,牛 銅1,張連海1,屈 丹1,李弼程1

      (1.解放軍信息工程大學(xué)信息系統(tǒng)工程學(xué)院,河南鄭州 450001;2.西南電子電信技術(shù)研究所上海分所,上海 200434)

      為了提高基于分幀特征變換方法的穩(wěn)定性,提出了一種基于分段的區(qū)分性特征變換方法.該方法將特征變換當(dāng)成高維信號(hào)的稀疏逼近問(wèn)題,采用狀態(tài)綁定的方法訓(xùn)練得到基于域劃分的線性變換矩陣(Region Dependent Linear Transform,RDLT)和基于最小音素錯(cuò)誤準(zhǔn)則均值補(bǔ)償?shù)奶卣?mean-offset feature Minimum Phone Error,m-fMPE)變換矩陣,將兩者的特征變換矩陣構(gòu)成過(guò)完備的字典;采用強(qiáng)制對(duì)齊的方式對(duì)語(yǔ)音信號(hào)進(jìn)行分段,以似然度最大化作為目標(biāo)函數(shù),利用匹配追蹤算法對(duì)目標(biāo)函數(shù)迭代優(yōu)化,自動(dòng)地確定各語(yǔ)音信號(hào)段中的變換矩陣及其系數(shù).為保證特征變換的穩(wěn)定性,在選擇變換矩陣過(guò)程中引入相關(guān)度測(cè)量,去除相關(guān)的特征基矢量.實(shí)驗(yàn)結(jié)果表明,相比于傳統(tǒng)的RDLT方法,當(dāng)聲學(xué)模型分別采用最大似然和區(qū)分性準(zhǔn)則訓(xùn)練時(shí),識(shí)別性能分別可以提高1.63%和2.23%.該方法同時(shí)能應(yīng)用于語(yǔ)音增強(qiáng)和模型區(qū)分性訓(xùn)練中.

      特征變換;語(yǔ)音識(shí)別;區(qū)分性訓(xùn)練;語(yǔ)音增強(qiáng);匹配追蹤

      1 引言

      目前,主流語(yǔ)音識(shí)別系統(tǒng)中常對(duì)識(shí)別特征進(jìn)行特征變換[1,2],以進(jìn)一步得到具有魯棒性和區(qū)分性的特征.其中,采用高斯混合模型(Gaussian Mixture Model,GMM)進(jìn)行聲學(xué)空間劃分的特征變換方法應(yīng)用較為廣泛,如基于最小音素錯(cuò)誤準(zhǔn)則的特征變換(feature Minimum Phone Error,fMPE)[3]和基于域劃分的線性特征變換(Region Dependent Linear Transform,RDLT)[4~6].在此基礎(chǔ)上,陸續(xù)提出了結(jié)合高斯混元參數(shù)信息的均值補(bǔ)償(mean-offset)m-fMPE[7]方法和狀態(tài)綁定的(tied-state)RDLT[8]方法,并同時(shí)應(yīng)用于深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)[9,10]中,通過(guò)調(diào)整網(wǎng)絡(luò)權(quán)值進(jìn)行特征變換[11~13].

      上述區(qū)分性特征變換方法中,訓(xùn)練階段均是采用一段有限長(zhǎng)信號(hào)求取變換矩陣,而在測(cè)試階段卻是對(duì)每一幀信號(hào)進(jìn)行特征變換和補(bǔ)償,這易造成訓(xùn)練和識(shí)別間不匹配.另外,由于語(yǔ)音信號(hào)具有短時(shí)平穩(wěn)性,一幀信號(hào)往往較難得到穩(wěn)定的參數(shù)信息.

      為了有效地解決不匹配問(wèn)題,得到穩(wěn)定的解.在測(cè)試階段,本文同樣基于一段信號(hào)進(jìn)行特征變換,即根據(jù)信號(hào)段的統(tǒng)計(jì)量信息,在訓(xùn)練得到的變換矩陣集合中,自動(dòng)地選擇特征變換矩陣.在這個(gè)過(guò)程中變換矩陣個(gè)數(shù)的選取是關(guān)鍵,當(dāng)選擇的變換矩陣較少時(shí),將不能得到精確的變換參數(shù);而當(dāng)選擇的矩陣過(guò)多時(shí),會(huì)使得特征參數(shù)的穩(wěn)健性不夠.由于一次求解過(guò)程擁有的數(shù)據(jù)量有限,所選擇的特征變換矩陣數(shù)相比于變換矩陣集合很小,是一個(gè)稀疏逼近問(wèn)題.

      本文將壓縮感知理論引入到區(qū)分性特征變換中,在對(duì)語(yǔ)音信號(hào)分段的基礎(chǔ)上,基于每一語(yǔ)音段求解其特征變換矩陣.先采用狀態(tài)綁定的方式訓(xùn)練得到變換矩陣,結(jié)合RDLT特征變換矩陣和均值補(bǔ)償fMPE偏移矢量構(gòu)成過(guò)完備字典,在特征域進(jìn)行特征變換相關(guān)參數(shù)的稀疏表示,利用匹配追蹤算法自動(dòng)地確定變換矩陣個(gè)數(shù)及其系數(shù),得到最終的變換矩陣.為了保證變換矩陣的穩(wěn)定性,在變換矩陣的選取過(guò)程中要求特征基矢量間不相關(guān),并進(jìn)一步討論了不同分段方法對(duì)識(shí)別結(jié)果的影響.

      2 基于語(yǔ)音分段的區(qū)分性特征變換

      本文先采用狀態(tài)綁定的方法得到RDLT變換矩陣和均值補(bǔ)償fMPE偏移矢量,組成變換矩陣和偏移矢量集合,在此基礎(chǔ)上結(jié)合壓縮感知方法,采用最大似然準(zhǔn)則進(jìn)行特征變換矩陣和偏移矢量的選取.

      2.1 基于狀態(tài)綁定的特征變換矩陣

      2.1.1 基于域劃分的特征變換矩陣

      RDLT[5]利用全局的GMM模型將聲學(xué)空間分成多個(gè)域,每個(gè)高斯混元對(duì)應(yīng)一個(gè)域劃分,通過(guò)區(qū)分性訓(xùn)練得到一個(gè)變換矩陣集合,每個(gè)變換矩陣對(duì)應(yīng)于聲學(xué)空間中的一個(gè)域.用特征向量所屬域?qū)?yīng)的變換矩陣對(duì)其進(jìn)行變換,特征所屬的域由其在高斯混元的后驗(yàn)概率所決定,最終特征變換式(1)所示:

      (1)

      2.1.2 基于最小音素錯(cuò)誤準(zhǔn)則的特征變換

      fMPE[3]方法將特征在高斯混元上的后驗(yàn)概率組成一個(gè)新特征,將這個(gè)特征映射為一個(gè)偏移矢量,加在原始特征上.fMPE方法中每個(gè)域?qū)?yīng)一個(gè)偏移矢量,由于偏移矢量所含的信息量有限,常通過(guò)采用增大域的個(gè)數(shù)來(lái)保證其性能.而m-fMPE[7]通過(guò)加入所在域的高斯混元參數(shù)信息,進(jìn)而提高了每一個(gè)域中的信息量,m-fMPE其變換式(2)所示:

      Fm-fMPE(o(t))=o(t)+Mht

      (2)

      其中,ht由后驗(yàn)概率向量κt和均值補(bǔ)償向量δt組成,需要求取變換矩陣M.

      ht=[ηκt,δt]T

      (3)

      Fm-fMPE(o(t))

      (4)

      其中,Ma和Mb分別為m-fMPE均值補(bǔ)償向量和后驗(yàn)概率向量所對(duì)應(yīng)的變換矩陣,L是聲學(xué)空間的域劃分個(gè)數(shù).基于狀態(tài)綁定的RDLT和m-fMPE的求解過(guò)程相類(lèi)似,只是求微分時(shí)針對(duì)的變量不同,以及確定迭代步長(zhǎng)時(shí)有所差異,這里根據(jù)文獻(xiàn)[8]分別進(jìn)行求解.

      2.2 基于分段區(qū)分性特征變換的一般形式

      不同于傳統(tǒng)方法中先驗(yàn)地設(shè)定所需變換矩陣的個(gè)數(shù),再根據(jù)后驗(yàn)概率值的大小進(jìn)行選擇和加權(quán).這里先對(duì)語(yǔ)音信號(hào)進(jìn)行分段,對(duì)每一語(yǔ)音段根據(jù)其聲學(xué)統(tǒng)計(jì)量信息,利用最大似然準(zhǔn)則,采用一種可變變換矩陣個(gè)數(shù)的方式,得到區(qū)分性特征變換的一般表達(dá)式.

      2.2.1 基于變換矩陣字典的特征變換

      設(shè)經(jīng)過(guò)域劃分后總共有R個(gè)域,每一個(gè)域?qū)?yīng)的變換矩陣為Ai,語(yǔ)音信號(hào)被分成S段,其中第s個(gè)語(yǔ)音段的特征變換可以描述為式(5):

      (5)

      (6)

      式中,T表示語(yǔ)音段s中含有的總幀數(shù),聲學(xué)模型采用隱馬爾可夫模型,共含有M個(gè)高斯混元,μm和Σm分別為第m個(gè)混元的均值矢量及協(xié)方差矩陣,γm(t)表示第t幀特征矢量屬于第m個(gè)高斯混元的后驗(yàn)概率,可采用Baum-Welch前后向算法計(jì)算得到.

      令似然度函數(shù)

      ξt=[A1o(t),A2o(t),…,ARo(t)] =[O1(t),O2(t),…,OR(t)],

      (7)

      由式(7)可知,基于分段的區(qū)分性特征變換是一個(gè)典型的二次優(yōu)化問(wèn)題,其求解方法為:對(duì)式(7)中的似然函數(shù)關(guān)于x求導(dǎo),并令導(dǎo)數(shù)等于0,C是與變量x無(wú)關(guān)的常數(shù)項(xiàng),可得式(8):

      (8)

      其中,

      (9)

      (10)

      2.2.2 聯(lián)合變換矩陣和偏移矢量字典的特征變換

      (11)

      可令ξc,t=[O1(t),O2(t),…,OR(t),b1,b2,…,bL],z=[x1,x2,…,xR,y1,y2,…,yL],則目標(biāo)函數(shù)可以轉(zhuǎn)換為式(12):

      (12)

      可得到解的類(lèi)似表達(dá)形式(13):

      (13)

      由于本文構(gòu)造的字典具有一定的冗余性,在對(duì)每一語(yǔ)音段進(jìn)行特征變換時(shí),相比于未知數(shù)所擁有的數(shù)據(jù)量很有限.在求解式(8)和(13)過(guò)程中,如何利用有限的數(shù)據(jù)從一個(gè)過(guò)完備的變換矩陣字典中,選取最佳的變換矩陣及其組合系數(shù)是本文的一個(gè)關(guān)鍵問(wèn)題.壓縮感知中的匹配追蹤算法能較好地解決該問(wèn)題,接下來(lái)將結(jié)合匹配追蹤算法求解目標(biāo)函數(shù).由于式(8)和(13)求解過(guò)程相類(lèi)似,下文中將主要介紹式(8)的求解過(guò)程,類(lèi)似可以得到式(13)的解.

      3 基于不相關(guān)匹配追蹤算法的目標(biāo)函數(shù)求解

      借鑒正交匹配追蹤(Orthogonal Matching Pursuit,OMP)[16,17]的算法思想,與最小化逼近誤差作為目標(biāo)函數(shù)不同,本文要使得似然度最大化,將似然度的變化率定義為誤差,同時(shí)采用字典項(xiàng)間的相關(guān)性代替正交性,得到一種不相關(guān)的匹配追蹤算法.這里字典項(xiàng)為變換矩陣Ai,其選取過(guò)程體現(xiàn)在特征o(t)經(jīng)過(guò)矩陣Ai變換后的特征矢量Oi(t)上.同樣采用迭代的方式求解目標(biāo)函數(shù),每次迭代包含三個(gè)步驟:第一步從大字典中選取一個(gè)使得似然度提升量最大的字典項(xiàng)加入到支撐集中;第二步判斷所選的字典項(xiàng)是否與支撐集中的字典項(xiàng)相關(guān);第三步更新支撐集中字典項(xiàng)所對(duì)應(yīng)的系數(shù).接著給出每一步驟的推導(dǎo)和求解過(guò)程.

      3.1 最大似然字典項(xiàng)選取

      支撐集選取過(guò)程為每次加入一個(gè)新字典項(xiàng),所加入的字典項(xiàng)需使得似然度的增量值最大.第一次選取時(shí)只需滿足似然度最大即可,此時(shí)xi=[g(i,i)]-1f(i),i=1,2,…,K,K為字典的大小.將xi代入目標(biāo)函數(shù)Q(x)中,得到特征經(jīng)過(guò)第i個(gè)變換矩陣后的似然度式(14):

      (14)

      根據(jù)Q1(xi)使之最大,確定第一個(gè)基矢量Or1(t)的序號(hào)r1為式(15):

      (15)

      接著,每次在已選的支撐集中加入一個(gè)變換矩陣字典項(xiàng),根據(jù)其權(quán)重系數(shù)進(jìn)行加權(quán)組合特征變換,使得變換后的特征能獲得最大的似然度提升.假設(shè)第k次迭代后所得到的支撐集為Dk={O1(t),O2(t),…,Ok(t)},其對(duì)應(yīng)的加權(quán)系數(shù)為xk,構(gòu)成子空間Γk=span{O1(t),O2(t),…,Ok(t)}.在字典D剩下的變換矩陣中進(jìn)行第k+1次迭代,選取字典項(xiàng)Ol(t)∈DDk,其對(duì)應(yīng)的系數(shù)為xl,此時(shí)似然度目標(biāo)函數(shù)為式(16):

      (16)

      (17)

      將[xk,xl]代入似然度目標(biāo)函數(shù)中,可得第k+1次迭代后似然度的提升量ΔQk+1(xl):

      (18)

      其中,Qk(xk)為第k次迭代后得到的似然度.為使得似然度提升量最大,則第k+1次所選擇的字典項(xiàng)Or(k+1)(t)其相應(yīng)的序號(hào)為式(19):

      (19)

      3.2 相關(guān)基矢量的去除

      (20)

      (21)

      3.3 變換矩陣權(quán)重系數(shù)的更新

      (22)

      (23)

      4 測(cè)試評(píng)估

      4.1 實(shí)驗(yàn)設(shè)置

      將本文分段區(qū)分性特征變換方法應(yīng)用到連續(xù)語(yǔ)音識(shí)別中.實(shí)驗(yàn)語(yǔ)料采用中文微軟語(yǔ)料庫(kù)Speech Corpora(Version 1.0),其全部語(yǔ)料在安靜辦公室環(huán)境下錄制,采樣率為16kHz,16bit量化.訓(xùn)練集共有19688句,共454315個(gè)音節(jié),總時(shí)長(zhǎng)約為33小時(shí),測(cè)試集共500句,約為0.7小時(shí),說(shuō)話內(nèi)容來(lái)自新聞報(bào)紙,對(duì)中文音節(jié)全覆蓋.文中選擇聲韻母作為模型基元,零聲母(-a、-o、-e、-i、-u、-v),加上靜音(sil)以及常規(guī)的聲韻母,一共有69個(gè)模型基元,在此基礎(chǔ)上將模型基元擴(kuò)展為上下文相關(guān)的交叉詞三音子(cross-word tri-phone).基于HTK 3.4.1建立基線系統(tǒng),聲學(xué)模型采用3狀態(tài)的隱馬爾科夫模型,通過(guò)決策樹(shù)對(duì)三音子模型進(jìn)行狀態(tài)綁定,綁定后的模型有效狀態(tài)數(shù)為2843個(gè).利用SRILM工具根據(jù)語(yǔ)料庫(kù)中自有的標(biāo)注文件訓(xùn)練得到語(yǔ)言模型.文中均采用有調(diào)音節(jié)的識(shí)別準(zhǔn)確率進(jìn)行識(shí)別性能的評(píng)估.

      4.2 基于幀特征變換方法的識(shí)別性能

      這里采用13維的MFCC特征聯(lián)合當(dāng)前幀及其前后各4幀共9幀,并采用MLLT+LDA作為初始的變換矩陣,進(jìn)行最大似然聲學(xué)模型的建立.特征變換中全局GMM模型是由聲學(xué)模型狀態(tài)中的高斯聚類(lèi)得到,最終共有800個(gè)高斯.在此基礎(chǔ)上,分別得到了基于詞圖信息和基于狀態(tài)綁定的fMPE、m-fMPE、RDLT特征變換方法的識(shí)別性能,并進(jìn)一步討論了當(dāng)聲學(xué)模型分別采用最大似然和區(qū)分性訓(xùn)練(Boosted Maximum Mutual Information,BMMI)時(shí),各種特征變換方法的識(shí)別性能,具體識(shí)別結(jié)果表1所示.

      表1 不同特征變換方法的識(shí)別準(zhǔn)確率(%)

      由表1中的識(shí)別結(jié)果可知,區(qū)分性特征變換方法的識(shí)別性能均較為明顯地優(yōu)于線性判別分析方法.基于詞圖信息和狀態(tài)綁定的fMPE方法得到的識(shí)別結(jié)果相當(dāng).為了保證fMPE的性能其所需的高斯混元數(shù)為12000個(gè),所得到的特征變換矩陣為其他方法的15倍左右,這主要是因?yàn)槠涿恳粋€(gè)域中所含有的參數(shù)和信息量較小,需要增大域的個(gè)數(shù)以保證信息量.由于它利用前后相關(guān)的后驗(yàn)概率信息進(jìn)行特征變換,采用狀態(tài)綁定的方式會(huì)在一定程度上影響這種前后相關(guān)性的獲取.m-fMPE,RDLT采用狀態(tài)綁定的方式得到識(shí)別結(jié)果會(huì)優(yōu)于采用詞圖信息的方式.在特征變換的基礎(chǔ)上,對(duì)聲學(xué)模型區(qū)分性訓(xùn)練后識(shí)別性能得到進(jìn)一步提升,且基于狀態(tài)綁定的特征變換方法其優(yōu)勢(shì)更為明顯.這說(shuō)明采用狀態(tài)綁定方法進(jìn)行特征變換時(shí),可以有效地克服聲學(xué)模型對(duì)特征變換的影響,在求解優(yōu)化過(guò)程中側(cè)重于尋找區(qū)分性特征.

      4.3 基于域劃分變換矩陣字典項(xiàng)的識(shí)別性能

      首先基于變換矩陣A構(gòu)造字典,字典共有800個(gè)字典項(xiàng),采用不相關(guān)匹配追蹤算法進(jìn)行特征變換.在這個(gè)過(guò)程中,語(yǔ)音信號(hào)的分段時(shí)長(zhǎng)、匹配追蹤算法中的似然度增量閾值δ直接決定著變換矩陣的選取,進(jìn)而影響識(shí)別性能,因此分別討論了上述參數(shù)在不同設(shè)置條件下的識(shí)別性能,所選字典數(shù)的上限N=200.通常語(yǔ)音分段以幀級(jí)單元為基礎(chǔ),通過(guò)某種分段方式來(lái)構(gòu)造,常用的分段方式有兩種:一是固定長(zhǎng)度分段,即按照指定的長(zhǎng)度進(jìn)行分割;二是自適應(yīng)長(zhǎng)度分段,即對(duì)語(yǔ)音信號(hào)按照某種關(guān)聯(lián)準(zhǔn)則進(jìn)行劃分,例如,采用強(qiáng)制對(duì)齊的方式進(jìn)行分段,這種分段考慮了語(yǔ)音特征空間內(nèi)在的關(guān)聯(lián)關(guān)系,是常用的分段對(duì)齊方法.這里將測(cè)試集強(qiáng)制對(duì)齊到前800個(gè)狀態(tài)中進(jìn)行分段,分段后語(yǔ)音分段時(shí)長(zhǎng)均值為3.15s,方差為1.47,接著分別討論了兩種分段方式的識(shí)別性能.表2給出了不同分段時(shí)長(zhǎng)、似然度增量閾值條件下,RDLT變換的連續(xù)語(yǔ)音識(shí)別率,其中加黑字體為除強(qiáng)制對(duì)齊外最好的識(shí)別結(jié)果,括號(hào)內(nèi)為稀疏度,其度量方式為零系數(shù)占所有系數(shù)的比例.

      表2 不同分段時(shí)長(zhǎng)、似然度增量閾值的識(shí)別準(zhǔn)確率及其稀疏度(%)

      由表2的識(shí)別結(jié)果可知,在相同的似然度增量閾值δ下,當(dāng)數(shù)據(jù)分段較小時(shí),稀疏度較大;隨著數(shù)據(jù)量的增大,所選擇的特征變換矩陣也會(huì)增多;在相同的數(shù)據(jù)分段長(zhǎng)度下,δ值越大,稀疏度越大,所選擇的變換矩陣越少,此時(shí)主要選擇對(duì)識(shí)別性能影響較大的特征變換矩陣,這與前面的分析是相符的.稀疏度過(guò)大和過(guò)小都不能獲得最佳的識(shí)別性能.同時(shí)由表中的識(shí)別結(jié)果可知,對(duì)語(yǔ)音采用不同的分段方式識(shí)別結(jié)果會(huì)有較大的差異.在對(duì)語(yǔ)音采用固定長(zhǎng)度的分段方法中,將語(yǔ)音分成2s一段的方式能得到最優(yōu)的識(shí)別結(jié)果,這主要是采用這一長(zhǎng)度能得到相對(duì)穩(wěn)定的統(tǒng)計(jì)特性,得到的參數(shù)信息較為準(zhǔn)確.隨著分段長(zhǎng)度的增大,識(shí)別性能反而會(huì)開(kāi)始下降,這主要是因?yàn)楫?dāng)數(shù)據(jù)分段過(guò)大時(shí)段內(nèi)的聲學(xué)性質(zhì)會(huì)有較大的差異,即使是數(shù)據(jù)較為充分也難以獲得較好的參數(shù)估計(jì),來(lái)同時(shí)描述差異性較大的語(yǔ)音信號(hào)段,此時(shí)應(yīng)該將語(yǔ)音信號(hào)段進(jìn)一步細(xì)分,分別估計(jì)變換矩陣.采用強(qiáng)制對(duì)齊的分段方法能得到最高的識(shí)別性能,這主要是因?yàn)閷?duì)齊到相同狀態(tài)的數(shù)據(jù)具有相類(lèi)似的聲學(xué)特性,利用這些數(shù)據(jù)能估計(jì)得到穩(wěn)健的參數(shù)信息.

      采用匹配追蹤算法還能根據(jù)所擁有的數(shù)據(jù)量大小,自適應(yīng)地確定變換基矢量的數(shù)量,有效地避免常用方法中需要對(duì)基矢量個(gè)數(shù)進(jìn)行經(jīng)驗(yàn)設(shè)定.由于本文是一個(gè)凸優(yōu)化問(wèn)題,初值的設(shè)置對(duì)識(shí)別結(jié)果的影響不大.匹配追蹤算法具有很高的運(yùn)算效率,這很適合于前端的特征變換,不會(huì)給識(shí)別系統(tǒng)中引入太多的耗時(shí),減小對(duì)后端識(shí)別解碼的影響.由于識(shí)別算法是一個(gè)非線性過(guò)程,較難直接得到其理論的計(jì)算復(fù)雜度,通過(guò)分別定性地統(tǒng)計(jì)特征變換和整個(gè)識(shí)別算法的耗時(shí),得知特征變換的耗時(shí)占整個(gè)識(shí)別算法耗時(shí)的1%以下,對(duì)整個(gè)識(shí)別算法的影響不大.

      4.4 聯(lián)合變換矩陣和偏移矢量字典項(xiàng)的識(shí)別性能

      由表1的實(shí)驗(yàn)結(jié)果可知,m-fMPE和RDLT能得到相對(duì)較優(yōu)的識(shí)別性能,m-fMPE側(cè)重于偏移矢量的求解,而RDLT能得到更好的變換矩陣,兩者具有一定的互補(bǔ)性.由于匹配追蹤算法具有較高的運(yùn)算效率,接下來(lái)將兩者變換矩陣結(jié)合起來(lái),構(gòu)造一個(gè)過(guò)完備字典,字典共有1600個(gè)字典項(xiàng),采用強(qiáng)制對(duì)齊的方式進(jìn)行數(shù)據(jù)的分段,利用不相關(guān)匹配追蹤算法進(jìn)行變換矩陣的選取及其系數(shù)的確定,實(shí)驗(yàn)結(jié)果表3所示,其中A是RDLT方法得到的變換矩陣,M是m-fMPE方法得到的變換矩陣,b是對(duì)矩陣M進(jìn)行分解后對(duì)應(yīng)的偏移矢量,括號(hào)內(nèi)為稀疏度.

      表3 聯(lián)合不同變換矩陣和偏移矢量字典項(xiàng)的識(shí)別準(zhǔn)確率及其稀疏度(%)

      字典項(xiàng)AMA+MA+bML7804(9035)7757(7546)7816(8587)7855(8738)BMMI8018791580438089

      由表3的識(shí)別結(jié)果可知,當(dāng)只采用一組字典時(shí),采用變換矩陣A能得到最好的性能,主要是由于變換矩陣A是矩陣M的一般化,其具有更強(qiáng)的描述能力,這同時(shí)說(shuō)明在進(jìn)行特征變換時(shí),變換矩陣比偏移矢量能更好地保證性能.結(jié)合變換矩陣和偏移矢量構(gòu)成過(guò)完備字典進(jìn)行特征變換,其得到的性能會(huì)優(yōu)于僅采用一組字典的方法,表明這兩組字典具有一定的互補(bǔ)性,選擇的變換矩陣和偏移矢量個(gè)數(shù)介于采用單組字典A和M之間.A+b的方法會(huì)好于A+M的方法,這主要是由于M矩陣中也含有變換矩陣,這與A中的變換矩陣會(huì)存在部分重復(fù),而使得這部分變換矩陣的權(quán)值過(guò)大,造成過(guò)分重視,降低識(shí)別性能.僅利用其偏移矢量b結(jié)合A構(gòu)造字典,能獲得最高的識(shí)別性能.在特征變換的基礎(chǔ)上,對(duì)聲學(xué)模型區(qū)分性訓(xùn)練均能進(jìn)一步提高識(shí)別性能.

      5 結(jié)論

      本文提出了一種基于語(yǔ)音分段的區(qū)分性特征變換方法,在特征變換求解過(guò)程中,引入了壓縮感知中的稀疏逼近相關(guān)理論.通過(guò)采用狀態(tài)綁定的方式,求解變換矩陣和偏移矢量構(gòu)造過(guò)完備的字典.根據(jù)不相關(guān)匹配追蹤算法,將特征變換的似然度作為目標(biāo)函數(shù),在目標(biāo)函數(shù)的優(yōu)化過(guò)程中選擇最佳的特征變換矩陣及其組合系數(shù).實(shí)驗(yàn)結(jié)果表明,相比于傳統(tǒng)基于幀的特征變換方法,本文方法能夠有效地提高識(shí)別性能,通過(guò)采用強(qiáng)制對(duì)齊的方式進(jìn)行語(yǔ)音分段能得到最好的識(shí)別性能.在特征變換的基礎(chǔ)上,進(jìn)行聲學(xué)模型的區(qū)分性訓(xùn)練能進(jìn)一步提升識(shí)別性能.后續(xù)的研究可以將本文方法應(yīng)用于其它特征變換方法中.

      [1]Abbasian H,Nasersharif B,Akbari A,et al.Optimized linear discriminant analysis for extracting robust speech features[A].Proceedings of International Symposium Communication Control and Signal Processing[C].Julians,Malta:IEEE,2008.819-824.

      [2]Nasersharif B,Akbari A.SNR-dependent compression of enhanced Mel sub-band energies for compensation of noise effects on MFCC features[J].Pattern Recognition Letters,2011,28 (11),1320-1326.

      [3]Povey D,Kingsbury B,Mangu L,et al.fMPE:Discriminatively trained features for speech recognition[A].Proceedings of the International Conference on Audio,Speech and Signal Processing[C].Philadelphia,United States:IEEE,2005.961-964.

      [4]Zhang B,Matsoukas S,Schwartz R.Discriminatively trained region dependent feature transforms for speech recognition[A].Proceedings of the International Conference on Audio,Speech and Signal Processing[C].Toulouse,France:IEEE,2006.313-316.

      [5]Zhang B,Matsoukas S,Schwartz R.Recent progress on the discriminative region-dependent transform for speech feature extraction[A].Proceedings of the Annual Conference of International Speech Communication Association[C].Pittsburgh,United States:ISCA,2006.1495-1498.

      [6]Takashi F,Osamu I,Masafumi N,et al.Regularized feature-space discriminative adaptation for robust ASR[A].Proceedings of the Annual Conference of International Speech Communication Association[C].Singapore:ISCA,2014.2185-2188.

      [7]Povey D.Improvements to fMPE for discriminative training of features[A].Proceedings of the Annual Conference of International Speech Communication Association[C].Lisbon,Portugal:ISCA,2005.2977-2980.

      [8]Yan Z J,Huo Q,Xu J,et al.Tied-state based discriminative training of context-expanded region-dependent feature transforms for LVCSR[A].Proceedings of the International Conference on Audio,Speech and Signal Processing[C].Vancouver,Canada:IEEE,2013.6940-6944.

      [9]Deng L,Chen J S.Sequence classification using the high-level features extracted from deep neural networks[A].Proceedings of the International Conference on Audio,Speech and Signal Processing[C].Florence,Italy:IEEE,2014.6894-6898.

      [10]Ling Z H,Kang S Y,Zen H,et al.Deep learning for acoustic modeling in parametric speech generation:a systematic review of existing techniques and future trends[J].IEEE Signal Processing Magazine,2015,32(3):35-52.

      [11]George S,Brian K.Discriminative feature-space transforms using deep neural networks[A].Proceedings of the Annual Conference of International Speech Communication Association[C].Oregon,United States:ISCA,2012.

      [12]Paulik M.Lattice-based training of bottleneck feature extraction neural networks[A].Proceedings of the Annual Conference of International Speech Communication Association[C].Lyon,France:ISCA,2013.89-93.

      [13]Liu D Y,Wei S,Guo W,et al.Lattice based optimization of bottleneck feature extractor with linear transformation[A].Proceedings of the International Conference on Audio,Speech and Signal Processing[C].Florence,Italy:IEEE,2014.5617-5621.

      [14]Kuhn R,Junqua J C,Nguyen P,et al.Rapid speaker adaptation in eigenvoice space[J].IEEE Transactions on Speech and Audio Processing,2000,8(6):695-707.

      [15]Ghoshal A,Povey D,Agarwal M,et al.A novel estimation of feature-space MLLR for full-covariance models[A].Proceedings of International Conference on Acoustics,Speech and Signal Processing[C].Texas,USA:IEEE,2010.4310-4313.

      [16]Mallat S G,Zhang Z.Matching pursuits with time-frequency dictionaries[J].IEEE Transactions on Signal Processing,1993,41(12):3397-3415.

      [17]Tropp J A,Gilbert A C.Signal recovery from random measurement via orthogonal matching pursuit[J].IEEE Transactions on Information Theory,2007,53(12):4655-4666.

      [18]Needell D,Vershynin R.Signal recovery from incomplete and inaccurate measurements via regularized orthogonal matching pursuit[J].IEEE Journal of Selected Topics Signal Processing,2009,4(2):310-316.

      陳 斌 男,1987年生于江西萍鄉(xiāng).現(xiàn)為解放軍信息工程大學(xué)信息系統(tǒng)工程學(xué)院博士研究生,西南電子電信技術(shù)研究所上海分所工程師.主要研究方向?yàn)檫B續(xù)語(yǔ)音識(shí)別、區(qū)分性訓(xùn)練和機(jī)器學(xué)習(xí).

      E-mail:chenbin873335@163.com

      牛 銅 男,1982年生于河南鄭州.現(xiàn)為解放軍信息工程大學(xué)信息系統(tǒng)工程學(xué)院博士研究生.主要研究方向?yàn)檎Z(yǔ)音識(shí)別和語(yǔ)音增強(qiáng).

      E-mail:niutong0072@gmail.com

      A Discriminative Segmental Feature Transform Method Based on Uncorrelated Matching Pursuit

      CHEN Bin1,2,NIU Tong1,ZHANG Lian-hai1,QU Dan1,LI Bi-cheng1

      (1.InstituteofInformationSystemEngineering,InformationEngineeringUniversity,Zhengzhou,Henan450001,China; 2.ShanghaiBranchofSouthwestElectronicsandTelecommunicationTechnologyResearchInstitute,Shanghai200434,China)

      A discriminative segmental feature transform method is proposed to promote the stability of the frame based method.The feature transform is considered as the sparse high dimensional approximation problem.Firstly,a set of feature transform matrices are estimated by tied-state based training of RDLT (Region Dependent Linear Transform) and m-fMPE (mean-offset feature Minimum Phone Error),and the transform matrices are integrated into an over-complete dictionary.Then,the speech signal is segmented through force alignment.Finally,following the matching pursuit to optimize the likelihood objective function iteratively,the transform matrices of each segment are selected from the dictionary and the corresponding coefficients are automatic determined in the optimization process.Further,to guarantee the stability of the transform matrices,a correlation measurement is introduced to remove the correlated basis in the recurrence process.The experimental results show that,compared with the traditional RDLT method,when the acoustic model is trained with maximum likelihood and discriminative training criterion separately,the recognition performance can be improved by 1.63% and 2.23% respectively.The method can also be applied to speech enhancement and model discriminative training.

      feature transform;speech recognition;discriminative training;speech enhancement;matching pursuit

      2015-05-17;

      2015-11-24;責(zé)任編輯:覃懷銀

      國(guó)家自然科學(xué)基金(No.61175017,No.61403415);國(guó)家高技術(shù)研究發(fā)展計(jì)劃(863計(jì)劃)課題(No.2012AA011603)

      TN912

      A

      0372-2112 (2016)12-2924-08

      ??學(xué)報(bào)URL:http://www.ejournal.org.cn

      10.3969/j.issn.0372-2112.2016.12.016

      猜你喜歡
      區(qū)分字典分段
      開(kāi)心字典
      家教世界(2023年28期)2023-11-14 10:13:50
      區(qū)分“旁”“榜”“傍”
      開(kāi)心字典
      家教世界(2023年25期)2023-10-09 02:11:56
      你能區(qū)分平衡力與相互作用力嗎
      一類(lèi)連續(xù)和不連續(xù)分段線性系統(tǒng)的周期解研究
      分段計(jì)算時(shí)間
      教你區(qū)分功和功率
      我是小字典
      3米2分段大力士“大”在哪兒?
      太空探索(2016年9期)2016-07-12 10:00:04
      正版字典
      讀者(2016年14期)2016-06-29 17:25:50
      鄱阳县| 资源县| 吴桥县| 于田县| 兖州市| 交口县| 溆浦县| 丹寨县| 台北市| 自贡市| 堆龙德庆县| 仁布县| 常熟市| 城步| 长顺县| 晋州市| 浮山县| 长顺县| 关岭| 辛集市| 平顶山市| 赤城县| 塔河县| 称多县| 锦州市| 谷城县| 扎赉特旗| 滁州市| 绩溪县| 嘉善县| 泰兴市| 卓资县| 婺源县| 左权县| 林周县| 四会市| 盈江县| 临澧县| 乳源| 永定县| 三原县|