• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      藏語孤立詞語音識別技術(shù)研究

      2016-01-19 01:13:05趙爾平,王聰華,黨紅恩
      關(guān)鍵詞:語音識別

      E-mail:xdzep@163.com

      藏語孤立詞語音識別技術(shù)研究

      趙爾平,王聰華,黨紅恩,雒偉群

      (西藏民族大學(xué)信息工程學(xué)院,陜西咸陽712082)

      摘要:針對藏語讀音首先看后加字,然后根據(jù)元音的位置關(guān)系決定讀音,而且元音比輔音攜帶更多聽覺感知信息的特點(diǎn),提出了一種改進(jìn)的HTK系統(tǒng)藏語孤立詞語音識別技術(shù).在識別特征參數(shù)中,增加更能表征元音特征的共振峰參數(shù)提高語音識別的正確性,通過循環(huán)迭代方法提高語音訓(xùn)練速度,利用藏文字母拉丁轉(zhuǎn)寫方法解決藏文和語音識別系統(tǒng)編碼不一致的問題.在二次開發(fā)的HTK平臺進(jìn)行實(shí)驗(yàn),正確率達(dá)到92.83%,實(shí)驗(yàn)結(jié)果表明元音特征在藏語音識別中起到重要作用.

      關(guān)鍵詞:藏語孤立詞;共振峰;Mel倒譜特征;循環(huán)迭代;隱馬爾可夫模型;語音識別

      收稿日期:2014-12-20;修改稿收到日期:2015-01-25

      基金項(xiàng)目:國家自然科學(xué)基金資助項(xiàng)目(61162025);西藏自治區(qū)自然科學(xué)基金資助項(xiàng)目(12KJZRYMY07);西藏自治區(qū)科技廳重點(diǎn)項(xiàng)目(藏科發(fā)[2013]189號);西藏民族學(xué)院重大科研項(xiàng)目(11myZ05)

      作者簡介:趙爾平(1976—),男,陜西彬縣人,副教授,碩士.主要研究方向?yàn)閿?shù)據(jù)庫技術(shù)與語音識別.

      中圖分類號:TP 912.34文獻(xiàn)標(biāo)志碼:A

      Research on Tibetan isolated word speech recognition technology

      ZHAO Er-ping,WANG Cong-hua,DANG Hong-en,LUO Wei-qun

      (College of Information Engineering,Tibet Nationalities Institute,Xianyang 712082,Shaanxi,China)

      Abstract:Aiming at Tibetan pronunciation firstly look after hong jia zi,then its pronunciation is determined by the position of vowel,and a vowel carry more auditory perception information than a consonant in speech,a Tibetan isolated word speech recognition technology of improved HTK system is proposed in this paper.The accuracy of speech recognition is improved by increasing a formant parameter in the recognition characteristic parameters,the formant parameter can characterize vowel features very well,the speech training speed is raised by cycle iteration,Tibetan letters transformation Latin alphabet solves inconsistent problem that Tibetan and speech recognition system code.The test is executed on the secondary developing HTK platform,the correct rate reaches 92.83%.Experimental result indicates that vowel features play an important role in Tibetan speech recognition.

      Key words:Tibetan isolated word;formant;Mel cepstrum features;loop iteration;HMM;speech recognition

      0前言

      語音識別是應(yīng)用多學(xué)科交叉知識將語音信號轉(zhuǎn)換為對應(yīng)文字的技術(shù),目的在于用聲音實(shí)現(xiàn)人機(jī)交互.漢語、英語等主流語言的語音識別已取得很多成果,實(shí)驗(yàn)室環(huán)境下的識別效果可以滿足人機(jī)交互系統(tǒng)的需要,在一些領(lǐng)域被廣范應(yīng)用.但是藏語語音識別還處在孤立詞階段,剛剛起步.

      1相關(guān)概念

      1.1隱馬爾可夫模型

      隱馬爾可夫模型(Hidden Markov model,HMM)是一種具有雙重隨機(jī)過程的統(tǒng)計(jì)分析模型,定義為五元組[1]67:

      其中,

      1)S為隱含狀態(tài),S={s1,s2,…,sN},N為隱含狀態(tài)數(shù)目;

      2)O為可觀察狀態(tài),O={o1,o2,…,oM},M為可觀察狀態(tài)數(shù)目,M=N或M≠N;

      3)Π為初始狀態(tài)概率矩陣,Π={π1,π2,…,πN}, πi=P(x0=si)(1≤i≤N)為初始時(shí)刻t=0模型各狀態(tài)的概率;

      1.2HTK工具

      HTK(HiddenMarkovmodeltoolkit)是英國劍橋大學(xué)開發(fā)的一套構(gòu)建隱馬爾可夫模型(HMM)的工具箱,主要用于語音合成與識別、故障診斷和DNA排序等領(lǐng)域[2],其核心功能包括數(shù)據(jù)準(zhǔn)備、模型訓(xùn)練、語音識別.HTK具有允許用戶根據(jù)實(shí)際需要進(jìn)行二次開發(fā)的開源代碼.

      1.3藏語簡介

      藏語是一種拼音文字,有30個(gè)輔音、4個(gè)單元音和1個(gè)無符號元音.國內(nèi)學(xué)術(shù)界將藏語主要分為衛(wèi)藏、安多和康三大方言[3].三大方言文字相同,發(fā)音有較大差異,文中選用使用人數(shù)最多、最具有代表性的衛(wèi)藏方言(拉薩話)作為研究對象.

      2衛(wèi)藏語音及元音特征研究

      2.1衛(wèi)藏語音

      衛(wèi)藏方言作為現(xiàn)代藏語的標(biāo)準(zhǔn),在長期應(yīng)用發(fā)展中形成自己的規(guī)律與特點(diǎn).研究表明[4],現(xiàn)代拉薩話的聲母系統(tǒng)已經(jīng)基本沒有復(fù)輔音.聲母系統(tǒng)主要指單輔音聲母,共28個(gè);韻母有45個(gè)(由單元音韻母、復(fù)合元音韻母和輔音韻尾的韻母三部分組成),韻母中有/a/,/i/,/u/,/e/,//,/ε/,/y/,/?/ 8個(gè)基本元音、/iu/,/au/ 2個(gè)復(fù)合元音和7個(gè)輔音韻尾.現(xiàn)代拉薩話中單元音增多,尤其是鼻化元音,元音發(fā)音長短與聲調(diào)有互補(bǔ)關(guān)系.藏語字母有一套嚴(yán)格排列規(guī)則,元音符號不能作為基字丁,只能固定地疊加在基字的上方或下方表示不同元音.元音的主要作用是做音節(jié)的韻母,每個(gè)音節(jié)中必須包含元音,元音在字母中的位置不同發(fā)音也不同.藏語先看后加字,然后根據(jù)元音的位置關(guān)系決定讀音[5].

      2.2元音特征

      Cole等提出元音比輔音對語音聽覺感知更為重要[6].文獻(xiàn)[7]采用噪聲替換實(shí)驗(yàn)方法分別替換掉語音中的元音和輔音,實(shí)驗(yàn)結(jié)論是替換掉輔音的語音比替換掉元音的語音具有更高的識別率(比率約為2∶1),證明了元音比輔音攜帶了更多的信息.Kewley-Port等采用同樣方法研究孤立詞語音,發(fā)現(xiàn)元音比輔音攜帶了更多對語句可懂度有用的信息[8-9].由此可見,在語音識別中應(yīng)用和識別元音特征至關(guān)重要.

      元音激勵(lì)進(jìn)入說話人聲道引起共振,產(chǎn)生一組共振頻率——共振峰,聲學(xué)界學(xué)者研究表明[10],共振峰是區(qū)別不同元音的重要聲學(xué)特征.由于藏語發(fā)音與元音位置有關(guān),元音又比輔音攜帶了更多聽覺感知信息,且衛(wèi)藏韻母中包含8個(gè)基本元音和2個(gè)復(fù)合元音,所以提取共振峰參數(shù)(主要是前3個(gè)共振峰f1,f2,f3)對識別帶有不同元音的藏語音增加了可靠的聲學(xué)特征.因此文中在蔵語孤立詞語音識別中,除了使用Mel倒譜參數(shù)外,增加共振峰參數(shù)來提高識別正確率.

      3改進(jìn)的HTK平臺衛(wèi)藏語音識別

      HTK平臺利用12維MFCC系數(shù)和1維數(shù)能量經(jīng)過一階、二階差分變后的39維MFCC特征向量進(jìn)行語音識別,沒有使用共振峰參數(shù),文中對HTK平臺進(jìn)行改進(jìn),增加共振峰聲學(xué)特征,與MFCC參數(shù)結(jié)合進(jìn)行藏語音識別.

      3.1提取共振峰特征

      共振峰信息包含在語音頻率包絡(luò)之中,因此共振峰參數(shù)信息提取的關(guān)鍵是估計(jì)自然語音頻譜包絡(luò),并認(rèn)為譜包絡(luò)中的最大值就是共振峰[11].提取共振峰參數(shù)的方法主要有倒譜法和線性預(yù)測法(LPC),倒譜法可以較好地分離出語音信號頻譜包絡(luò)結(jié)構(gòu).文中特別采用倒譜法,利用把語音頻譜進(jìn)行z變換、取對數(shù)和傅里葉變換變換等得到語音頻譜的包絡(luò)曲線.下面是倒譜法原理:選用最普遍的極零模型來描述表征聲道響應(yīng)x(n),其z變換公式為[12]58

      經(jīng)傅立葉、取對數(shù)和逆傅立葉變換得到復(fù)倒譜公式為

      (3)

      倒譜算法將基音諧波和聲道的頻譜包絡(luò)分離開,再對頻譜包絡(luò)曲線進(jìn)行離散傅里葉變換得到離散譜曲線.按照離散頻譜包絡(luò)曲線各峰值能量的大小確定出1~4共振峰參數(shù)[11],而前3個(gè)共振峰參數(shù)就足以確定語音信號中的不同元音.提取中采用同態(tài)解卷技術(shù)消除基頻諧波的影響,獲得更精確的共振峰參數(shù).

      3.2共振峰與MFCC結(jié)合

      人耳對低頻(<1 000 Hz)感知靈敏,感知力與頻率大致呈線性關(guān)系;而對高頻(>1 000 Hz)感知比較模糊,感知力與頻率呈對數(shù)關(guān)系[13].Mel頻率描述了人耳的這一聽覺特性,將頻譜轉(zhuǎn)換為基于Mel頻標(biāo)的非線性頻譜,再轉(zhuǎn)換到頻譜域中,Mel頻標(biāo)與頻率f的關(guān)系可用下式近似表示[13]1333:

      MFCC參數(shù)提取步驟包括:① 預(yù)加重;② 分幀加漢明窗;③ 快速傅利葉轉(zhuǎn)換;④ 三角帶通濾波;⑤ 離散余弦變換得到12維MFCC系數(shù);⑥ 對數(shù)能量;⑦ 差分變換.

      在差分變換之前,將3.1節(jié)中提取的f1,f2,f3共振峰參數(shù)增加到HTK系統(tǒng),使得每幀語音基本特征為16維(1維對數(shù)能量、12維MFCC系數(shù)和3維共振峰參數(shù)),然后將16維基本特征進(jìn)行一階、二階差分變換得到48維特征向量,即語音的差量倒頻譜參數(shù),它可以增加語音的動態(tài)特征.文中用48維差分倒譜參數(shù)對拉薩話語音進(jìn)行訓(xùn)練與識別.

      3.3循環(huán)迭代訓(xùn)練

      改進(jìn)HTK訓(xùn)練過程(hmm0→hmm1→hmm2→hmm3→hmm4…),采用循環(huán)迭代訓(xùn)練過程(圖1).采用循環(huán)迭代有兩點(diǎn)益處:① 多次修正HMM模型參數(shù)的初始值(hmm3→hmm0迭代),使訓(xùn)練算法快速收斂;② 有利于統(tǒng)一搭建語音識別系統(tǒng)環(huán)境.由于每個(gè)單詞發(fā)音不同,訓(xùn)練時(shí)的觀察值個(gè)數(shù)不同,訓(xùn)練模型重估迭代次數(shù)存在不同,結(jié)果輸出需要的文件目錄就不一樣多,不利于環(huán)境搭建.改進(jìn)的循環(huán)迭代訓(xùn)練給每個(gè)單詞統(tǒng)一搭建3個(gè)觀察值目錄,如果hmm2到hmm3迭代還未收斂,則繼續(xù)hmm3到hmm0迭代,直到hmm2到hmm3迭代收斂時(shí)停止訓(xùn)練.

      圖1 循環(huán)迭代訓(xùn)練

      基于Baum-Welch算法[14]的訓(xùn)練本質(zhì)上是一種梯度下降方法,在訓(xùn)練過程中可能存在局部極小問題,所以訓(xùn)練開始用HCompv工具對模型平坦初始化,用可變基底宏(varFloor1)的值在后續(xù)訓(xùn)練過程中作為估計(jì)的變化向量的基底,當(dāng)后續(xù)訓(xùn)練某狀態(tài)的估計(jì)變化值很小時(shí),就用基底宏的值來代替,以避免局部極小問題,使得訓(xùn)練算法快速準(zhǔn)確收斂.實(shí)踐表明,循環(huán)迭代不會影響藏語音識別正確率,反而會加快訓(xùn)練速度,并使藏語音識別系統(tǒng)環(huán)境配置統(tǒng)一起來.

      3.4藏文拉丁轉(zhuǎn)寫

      HTK工具箱是用來識別英語語音的,程序和配置文件(語法、任務(wù)字典、語音標(biāo)注等)編碼格式都是ANSI編碼,文獻(xiàn)[15]所述藏語字庫國際標(biāo)準(zhǔn)編碼是Unicode編碼,如果配置文件中直接輸入藏文就會成亂碼,所以此系統(tǒng)不能直接識別藏語音.藏語研究者通常將藏文字母轉(zhuǎn)寫為拉丁字符來表示藏語的發(fā)音,所以文中采用國際通用的藏文字母拉丁轉(zhuǎn)寫來表示藏語單詞,按文獻(xiàn)[16]中規(guī)則轉(zhuǎn)寫.藏文拉丁轉(zhuǎn)寫方法解決了藏文與HTK系統(tǒng)編碼不一致問題,方便改進(jìn)的HTK系統(tǒng)實(shí)現(xiàn)藏語音識別.

      4實(shí)驗(yàn)結(jié)果與分析

      對HTK系統(tǒng)進(jìn)行二次開發(fā),增加共振峰參數(shù)提取、統(tǒng)計(jì)和分析功能,把原來的HTK平臺系統(tǒng)與改進(jìn)后的HTK平臺系統(tǒng)進(jìn)行比較實(shí)驗(yàn)測試.實(shí)驗(yàn)中,用于聲學(xué)模型訓(xùn)練和測試的孤立詞語音集采用16K采樣頻率,用16bit量化精度,雙聲道麥克風(fēng)連接PC機(jī)在實(shí)驗(yàn)室環(huán)境下錄制.選擇拉薩地區(qū)發(fā)音標(biāo)準(zhǔn)的10位藏族學(xué)生(5男、5女)作為訓(xùn)練語料庫發(fā)音對象,訓(xùn)練語料庫包含10個(gè)學(xué)生對60個(gè)藏語詞匯的一次朗讀語音數(shù)據(jù).測試語音庫是30 個(gè)說話人(15 男、15 女)分別對60個(gè)訓(xùn)練詞3次朗讀語音數(shù)據(jù),頻譜特征觀察矢量為每幀48 維向量.圖2是改進(jìn)后的HTK平臺上進(jìn)行的某一次測試結(jié)果,圖2中單詞識別率是93.55%,N=62表示被識別的孤立詞總數(shù)(60個(gè)詞和1個(gè)開始標(biāo)志與1個(gè)結(jié)束標(biāo)志),H=58表示正確識別詞的數(shù)量,參考副本ref.mlf是訓(xùn)練時(shí)的整個(gè)語音標(biāo)注文件,識別副本reco.mlf是測試時(shí)整個(gè)語音標(biāo)注文件.通過比較語音在參考副本和識別副本中每項(xiàng)數(shù)據(jù),進(jìn)行識別性能測評.

      圖2 改進(jìn)的 HTK上某次識別結(jié)果

      HTK與改進(jìn)后的HTK系統(tǒng)30次平均測試結(jié)果如表1所示.由表1可知,共振峰與MFCC參數(shù)結(jié)合的方法(改進(jìn)后的HTK)明顯提高了拉薩話非特定人孤立詞語音識別正確率,再次證明元音特征為孤立詞識別提供了有用信息,元音在藏語發(fā)音中具有重要作用.實(shí)驗(yàn)過程中發(fā)現(xiàn)影響識別率的因素有:① 語音信號正確標(biāo)注,每個(gè)孤立詞語音信號標(biāo)注3個(gè)區(qū)域:開始停頓區(qū)、單詞語音區(qū)、結(jié)束區(qū),3個(gè)區(qū)域不能重疊,要有很小的間隙.② 訓(xùn)練的語音必須有3個(gè)以上觀察序列,否則不能訓(xùn)練,所以不能把一個(gè)人的連續(xù)幾次發(fā)音數(shù)據(jù)作為語料庫.③ 虛假共振峰影響識別率,盡量完全消除.④ 實(shí)驗(yàn)過程證明HMM模型選6個(gè)狀態(tài)最佳,狀態(tài)數(shù)增加或減少不會增加識別正確率.⑤ 循環(huán)迭代訓(xùn)練法不影響識別結(jié)果.

      表1 兩個(gè)系統(tǒng)識別結(jié)果比較

      5結(jié)束語

      文中對藏語拉薩話孤立詞語音進(jìn)行了分析,提出語音共振峰與MFCC參數(shù)為特征的藏語孤立詞識別技術(shù).在二次開發(fā)的HTK平臺上進(jìn)行測試,證明該方法明顯提高藏語孤立詞語音識別率,并指出影響識別率的幾個(gè)干擾因素和解決方法.拉薩話是有聲調(diào)的,長短聲調(diào)與韻母發(fā)音有嚴(yán)格對應(yīng)關(guān)系,今后研究方向是如何提取聲調(diào)特征參與識別.而基字丁拆分技術(shù)可以實(shí)現(xiàn)藏語音中聲母和韻母分離,聲母、韻母聲學(xué)特征也是今后研究的重要方向.

      參考文獻(xiàn):

      [1]王川,段德全,王曉東.基于改進(jìn)的POS和HMM的Web信息抽取算法[J].河南師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2010,38(5):65.

      [2]魏 巍,張海濤.一種基于HTK 的數(shù)字語音識別系統(tǒng)[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2011,20(9):17.

      [3]李冠宇,孟猛.藏語拉薩話大詞表連續(xù)語音識別聲學(xué)模型研究[J].計(jì)算機(jī)工程,2012,38(5):189.

      [4]于洪志,高璐,李永宏,等.藏語機(jī)讀音標(biāo)SAMPA_ST的設(shè)計(jì)[J].中文信息學(xué)報(bào),2012,26(4):67.

      [5]劉博,楊鴻武,甘振業(yè),等.利用SAMPA實(shí)現(xiàn)藏語的字音轉(zhuǎn)換[J].計(jì)算機(jī)工程與應(yīng)用,2011,47(35):117.

      [6]COLE R A,YANG Hong-yan,MAK B,et al.The contribution of consonants versus vowels to word recognition in fluent speech[C]//ProcICASSP1996.Atlanta:IEEE,1996:853.

      [7]KEWLEY-PORT K,BURKLE Z,LEE Jae Hee.Contribution of consonant versus vowel information to sentenceintelligibility for young normal-hearing and elderly hearing-impairedlisteners[J].AcousticalSocietyofAmerica,2007,122(4):2365.

      [8]LEWICHI M S.A signal take on speech[J].Nature,2010,466(12):821.

      [9]顏永紅,李軍鋒,應(yīng)冬文.語音中元音和輔音的聽覺感知研究[J].應(yīng)用聲學(xué),2013,32(3):231.

      [10]趙力.語音信號處理[M].北京:機(jī)械工業(yè)出版社,2003:5-9.

      [11]王坤赤,蔣華.基于語音頻譜的共振峰聲碼器實(shí)現(xiàn)[J].現(xiàn)代電子技術(shù),2007(21):168.

      [12]王曉亞.倒譜在語音的基音和共振峰中提取的應(yīng)用[J].無線電工程,2004,34(1):57.

      [13]王宏志,徐玉超,李美靜.基于Mel頻率倒譜參數(shù)相似度的語音端點(diǎn)檢測算法[J].吉林大學(xué)學(xué)報(bào)(工學(xué)版),2012,42(5):1331.

      [14]張?jiān)鲢y,元昌安,胡建軍,等.基于GEP和Baum-Welch算法訓(xùn)練HMM模型的研究[J].計(jì)算機(jī)工程與設(shè)計(jì),2013,31(9):2027.

      [15]黃鶴鳴,趙晨星.藏文信息處理的Windows支持環(huán)境[J].計(jì)算機(jī)應(yīng)用與軟件,2009,26(12):188.

      [16]李用宏,孔江平,于洪志.藏語文-音自動規(guī)則轉(zhuǎn)換及其實(shí)現(xiàn)[J].清華大學(xué)學(xué)報(bào)(自然科學(xué)版),2008,48(S1):622.

      (責(zé)任編輯惠松騏)

      猜你喜歡
      語音識別
      空管陸空通話英語發(fā)音模板設(shè)計(jì)與應(yīng)用
      通話中的語音識別技術(shù)
      面向移動終端的語音簽到系統(tǒng)
      淺析智能語音技術(shù)及其應(yīng)用
      語音識別的SVM模型選擇分析
      農(nóng)業(yè)物聯(lián)網(wǎng)平臺手機(jī)秘書功能分析與實(shí)現(xiàn)
      基于LD3320的非特定人識別聲控?zé)粝到y(tǒng)設(shè)計(jì)
      航天三維可視化系統(tǒng)中語音控制技術(shù)的研究與應(yīng)用
      基于語音識別的萬能遙控器的設(shè)計(jì)
      基于語音技術(shù)的商務(wù)英語移動學(xué)習(xí)平臺設(shè)計(jì)與實(shí)現(xiàn)
      衢州市| 洛隆县| 缙云县| 舞钢市| 阿拉善右旗| 宝山区| 冀州市| 瓮安县| 普格县| 河间市| 平罗县| 桃园县| 韶关市| 汕头市| 防城港市| 毕节市| 乐东| 广东省| 胶南市| 永和县| 通海县| 永修县| 南乐县| 孝义市| 胶州市| 尼木县| 巴中市| 武汉市| 五常市| 台安县| 安义县| 新和县| 铁岭县| 大田县| 巧家县| 南澳县| 藁城市| 康保县| 马山县| 临泽县| 东丰县|