, ,
(重慶第二師范學(xué)院 數(shù)學(xué)與信息工程學(xué)院,重慶 400065)
語(yǔ)音識(shí)別技術(shù)[1]是人機(jī)交互領(lǐng)域的重要研究?jī)?nèi)容,解決了人機(jī)交互過(guò)程中計(jì)算機(jī)不能夠聽(tīng)懂人說(shuō)話(huà)的問(wèn)題。語(yǔ)音識(shí)別技術(shù)起步于上世紀(jì)五十年代,發(fā)展至今已經(jīng)取得了長(zhǎng)足的進(jìn)步。國(guó)內(nèi)外很多科技公司都在語(yǔ)音識(shí)別領(lǐng)域進(jìn)行了深入的研究。如谷歌、微軟以及科大訊飛等公司已經(jīng)走在了語(yǔ)音識(shí)別領(lǐng)域最前沿。目前研究語(yǔ)音識(shí)別主要的研究對(duì)象是主流的語(yǔ)言,而關(guān)于方言的研究就相對(duì)少些。
重慶話(huà)是重慶地區(qū)方言文化,承載著重慶本地的傳統(tǒng)文化,人口覆蓋超過(guò)3 000萬(wàn)。近些年來(lái),重慶的電子信息產(chǎn)業(yè)已經(jīng)成為重慶經(jīng)濟(jì)的重要增長(zhǎng)極,在2012年重慶市提出的“兩江有云,西永有端,南岸有網(wǎng)”的電子信息產(chǎn)業(yè)發(fā)展總戰(zhàn)略布局背景下,人工智能產(chǎn)品將在重慶各個(gè)領(lǐng)域廣泛應(yīng)用。語(yǔ)音識(shí)別是人工智能領(lǐng)域的重要組成部分,實(shí)現(xiàn)了計(jì)算機(jī)能“聽(tīng)懂”人的語(yǔ)音。重慶話(huà)語(yǔ)音識(shí)別的研究將有助于實(shí)現(xiàn)重慶地區(qū)的人們能夠自然地利用重慶話(huà)與人工智能產(chǎn)品進(jìn)行交流,實(shí)現(xiàn)“人機(jī)對(duì)話(huà)”,從而讓人們享受到科技發(fā)展給生活帶來(lái)的便利和高效。
重慶方言雖然也屬于漢語(yǔ),但是和漢語(yǔ)普通話(huà)存在一些差異。在聲母方面的差異,漢語(yǔ)普通話(huà)有21個(gè)聲母[2],而重慶話(huà)中沒(méi)有翹舌聲母/zh/、/ch/、/sh/以及鼻音聲母/n/;重慶話(huà)只有17個(gè)聲母[3-6],重慶話(huà)不能區(qū)分/n/和/l/,也就是說(shuō)沒(méi)有鼻音聲母/n/,并且通常把聲母/h/讀成/f/。在韻母方面的差異,漢語(yǔ)普通話(huà)共有39個(gè)韻母[2],而重慶話(huà)只有37個(gè)韻母[3-6],沒(méi)有/ing/和/eng/這兩個(gè)后鼻音韻母,多一個(gè)/vu/,少一個(gè)/ui/。漢語(yǔ)普通話(huà)、重慶話(huà)的聲母和韻母分別如表1、表2、表3和表4。
表1 漢語(yǔ)普通話(huà)聲母表
表2 漢語(yǔ)普通話(huà)韻母表
表3 重慶話(huà)聲母表
表4 重慶話(huà)韻母表
簡(jiǎn)單來(lái)講,重慶話(huà)語(yǔ)音識(shí)別是利用聲學(xué)模型匹配方法將輸入是語(yǔ)音識(shí)別系統(tǒng)的待識(shí)別語(yǔ)音與經(jīng)過(guò)訓(xùn)練的聲學(xué)模型進(jìn)行模式匹配,并按照一定的判別規(guī)則得到待識(shí)別語(yǔ)音對(duì)應(yīng)的文本信息。
語(yǔ)音識(shí)別過(guò)程中需要對(duì)語(yǔ)料庫(kù)中的語(yǔ)音基元建立聲學(xué)模型,并對(duì)語(yǔ)音基元的聲學(xué)模型的參數(shù)進(jìn)行訓(xùn)練[7],得到含有語(yǔ)音特征信息的聲學(xué)模型。對(duì)建立的聲學(xué)模型的狀態(tài)轉(zhuǎn)移概率進(jìn)行重估訓(xùn)練,重估訓(xùn)練的方法如公式(1)所示。
(1)
(2)
從HMM模型的非發(fā)射入口狀態(tài)進(jìn)入HMM模型的由公式(3)嵌入式重估完成。
(3)
然后,從HMM模型進(jìn)入HMM模型的非發(fā)射入口狀態(tài)由公式(4)嵌入式重估完成。
(4)
最后,從HMM模型的非發(fā)射入口狀態(tài)進(jìn)入HMM模型的非發(fā)射入口狀態(tài)由公式(5)嵌入式重估完成。
(5)
在公式(2)、公式(3)、公式(4)以及公式(5)中的下標(biāo)q表示嵌入式重估的次數(shù),如果q沒(méi)有明顯的標(biāo)注出來(lái),嵌入式重估的輸出概率分布公式和單個(gè)模型的輸出分布是一樣。然而,概率計(jì)算公式必須將公式(6)變成公式(7)才能實(shí)現(xiàn)從入口狀態(tài)的轉(zhuǎn)移。
(6)
(7)
語(yǔ)音識(shí)別中訓(xùn)練聲學(xué)模型的方法較多,以上7個(gè)公式僅僅是語(yǔ)音識(shí)別中對(duì)聲學(xué)模型進(jìn)行重估訓(xùn)練所涉及的基本公式。
語(yǔ)音識(shí)別過(guò)程就是待識(shí)別語(yǔ)音的聲學(xué)模型和聲學(xué)模型庫(kù)中的模型進(jìn)行匹配,得到匹配度最高的聲學(xué)模型即是識(shí)別結(jié)果。待識(shí)別語(yǔ)音的聲學(xué)模型和聲學(xué)模型庫(kù)中的語(yǔ)音的匹配過(guò)程采用維特比算法實(shí)現(xiàn)。本文基于HMM模型的維特比算法基本思想是從觀測(cè)序列O=(o1,o2,o3,...,ot)中求取給定模型λ=(A,B,π)下的最大似然概率。維特比算法用于語(yǔ)音識(shí)別解碼的公式[7]如下所示。
給定一個(gè)模型M,設(shè)Φj(t)表示在t時(shí)刻觀測(cè)到語(yǔ)音序列從O1到Ot處于j狀態(tài)的最大似然,那么Φj(t)如公式(8)所示。
(8)
其中:i和j為不同的狀態(tài),aij為狀態(tài)轉(zhuǎn)移概率,bj(ot)為輸出概率密度如公式(9)所示。
(9)
其中:cjsm是第m個(gè)分量的權(quán)重,Ν(o;μ,Σ)是具有均值向量μ和協(xié)方差矩陣Σ的多元高斯模型,ost是在時(shí)間t觀測(cè)向量被分成s個(gè)獨(dú)立的數(shù)據(jù)流。
重慶話(huà)語(yǔ)音識(shí)別是將重慶話(huà)語(yǔ)音識(shí)別成文本的過(guò)程。重慶話(huà)語(yǔ)音識(shí)別分為兩個(gè)過(guò)程,即訓(xùn)練過(guò)程和識(shí)別過(guò)程。其中訓(xùn)練過(guò)程是利用語(yǔ)料對(duì)聲學(xué)模型進(jìn)行訓(xùn)練,最終得到聲學(xué)模型庫(kù);識(shí)別過(guò)程是將待識(shí)別的語(yǔ)音進(jìn)行預(yù)處理,然后提取語(yǔ)音的特征參數(shù),最后利用相應(yīng)的識(shí)別方法實(shí)現(xiàn)語(yǔ)音識(shí)別,并對(duì)識(shí)別結(jié)果進(jìn)行分析得到識(shí)別結(jié)果。重慶話(huà)語(yǔ)音識(shí)別過(guò)程如圖1所示。
圖1 重慶話(huà)語(yǔ)音識(shí)別過(guò)程
首先采集本實(shí)驗(yàn)需要的語(yǔ)音文件對(duì)應(yīng)的文本,選擇重慶話(huà)和普通話(huà)發(fā)音標(biāo)準(zhǔn)的錄音人;然后按照實(shí)驗(yàn)方案分別錄制重慶話(huà)語(yǔ)音30句,重慶話(huà)口音的普通話(huà)語(yǔ)音30句,每句語(yǔ)音發(fā)音10遍,共得到(30+30)*10句語(yǔ)音;最后由重慶話(huà)語(yǔ)音以及重慶話(huà)口音的普通話(huà)語(yǔ)音文本和與之對(duì)應(yīng)的語(yǔ)音文件形成語(yǔ)料庫(kù)。
語(yǔ)料庫(kù)由訓(xùn)練集和測(cè)試集組成,訓(xùn)練集中包含(30+30)*7句語(yǔ)料,測(cè)試集中包括(30+30)*3句語(yǔ)料。其中測(cè)試集細(xì)分為(30+30)*1句、(30+30)*2句以及(30+30)*3句。語(yǔ)料庫(kù)中語(yǔ)音對(duì)應(yīng)的文本如表5所示。
表5 重慶話(huà)語(yǔ)料庫(kù)文本與發(fā)音對(duì)照表
語(yǔ)料庫(kù)中的語(yǔ)音是連續(xù)且非平穩(wěn)的信號(hào),而非平穩(wěn)的信號(hào)不便于處理,因此需要對(duì)語(yǔ)音信號(hào)進(jìn)行預(yù)處理。預(yù)處理包括采樣量化、分幀加窗以及預(yù)加重等過(guò)程。
1)采樣量化是將連續(xù)語(yǔ)音信號(hào)轉(zhuǎn)換成離散數(shù)字信號(hào)。本實(shí)驗(yàn)的語(yǔ)料庫(kù)采用的采樣量化標(biāo)準(zhǔn)是16 kHz采樣、16 bit量化。
2)分幀加窗是為了將語(yǔ)音信號(hào)進(jìn)行短時(shí)化處理,我們可以認(rèn)為語(yǔ)音信號(hào)長(zhǎng)度在10~30ms時(shí)為準(zhǔn)平穩(wěn)信號(hào),因此需要對(duì)語(yǔ)音信號(hào)加窗函數(shù)以實(shí)現(xiàn)短時(shí)化處理。常用的窗函數(shù)有矩形窗、哈明窗以及哈寧窗等,根據(jù)語(yǔ)音信號(hào)的特點(diǎn),本文選取哈明窗函數(shù),如公式(10)所示。
(10)
3)預(yù)加重是為了解決高頻低功率譜的問(wèn)題,即語(yǔ)音信號(hào)在高頻部分呈現(xiàn)低能量,而低頻部分呈現(xiàn)高能量的現(xiàn)象。在對(duì)語(yǔ)音信號(hào)進(jìn)行處理分析過(guò)程中需要提高語(yǔ)音高頻部分的功率譜,因此需要預(yù)加重處理。
語(yǔ)音信號(hào)含有大量的信息,包括基頻、時(shí)長(zhǎng)以及頻譜等基本聲學(xué)參數(shù),也包括語(yǔ)音韻律等信息。為了便于對(duì)語(yǔ)音信號(hào)的處理,去掉一些不太重要的冗余信息,因此需要對(duì)語(yǔ)音信號(hào)提取能夠表征語(yǔ)音信號(hào)的相關(guān)參數(shù),即語(yǔ)音信號(hào)特征參數(shù)。語(yǔ)音特征參數(shù)常見(jiàn)的語(yǔ)音特征參數(shù)有線(xiàn)性預(yù)測(cè)系數(shù)(linear predictive coefficients, LPC)、線(xiàn)性預(yù)測(cè)倒譜系數(shù)(linear predictive cepstral coefficients, LPCC)、基于Mel頻率倒譜系數(shù)(mel frequency cepstral coefficients, MFCC)[8-9]。本論文根據(jù)聲學(xué)建模的需要,選擇接近人耳對(duì)語(yǔ)音信號(hào)頻率的感知特性的特征參數(shù)。以上3種參數(shù)中的基于Mel頻率倒譜系數(shù)(MFCC)作為特征參數(shù)。Mel頻率與Hz頻率之間的映射關(guān)系如公式(11)所示。
fMel=(1000/lg2)×lg(1+0.001fHz)
(11)
MFCC特征參數(shù)的產(chǎn)生過(guò)程如圖2所示。
圖2 MFCC參數(shù)提取過(guò)程
本文對(duì)語(yǔ)音信號(hào)提取的信號(hào)是12維的MFCC特征參數(shù),為了反應(yīng)語(yǔ)音信號(hào)的停頓及重音等參數(shù)需要加上1維短時(shí)平均能量構(gòu)成13維特征參數(shù),并且為了表示語(yǔ)音的動(dòng)態(tài)特征,需對(duì)13維的特征參數(shù)求取一階差分和二階差分得到39維的特征參數(shù)。
語(yǔ)音基元是發(fā)聲的基本單元,本文是以重慶話(huà)的聲韻母為語(yǔ)音基元,因此要為參與模型訓(xùn)練的聲韻母建立聲學(xué)模型。常用的聲學(xué)模型較多,其中隱馬爾可夫模型(hidden markov model, HMM)[10-12]是應(yīng)用很廣泛的聲學(xué)模型。HMM模型是由“單鏈”的馬爾可夫演變?yōu)椤半p鏈”而來(lái),其中一條隱藏的鏈描述了狀態(tài)的轉(zhuǎn)移,產(chǎn)生了不可觀測(cè)的狀態(tài)序列;另外一條可見(jiàn)的鏈描述了狀態(tài)和觀測(cè)值之間的統(tǒng)計(jì)對(duì)應(yīng)關(guān)系。觀察者只能通過(guò)可見(jiàn)的觀測(cè)值來(lái)感知狀態(tài)的轉(zhuǎn)移關(guān)系。五狀態(tài)的HMM模型如圖3[13]所示。
圖3 5狀態(tài)的HMM模型
從圖3中可以看出,由于5狀態(tài)的HMM模型左右兩端的狀態(tài)只起到前后連接作用,這兩個(gè)狀態(tài)并沒(méi)有高斯分布,因此5狀態(tài)的HMM模型只有中間3個(gè)狀態(tài)有狀態(tài)轉(zhuǎn)移。
聲學(xué)模型p(y|x,λ)在HMM模型中方可以變換如公式(12)所示。
=
(12)
其中:P(·)表示一個(gè)概率密度函數(shù),p(yt|qt,λ)是第qt個(gè)狀態(tài)的狀態(tài)輸出概率密度,它是一個(gè)典型對(duì)角協(xié)方差矩陣的單高斯分布,并且q={q1,...,qT}是HMM狀態(tài)序列。
為每一個(gè)語(yǔ)音基元建立了HMM模型之后,需要對(duì)HMM模型進(jìn)行重估訓(xùn)練,訓(xùn)練方法如2.1節(jié)。對(duì)訓(xùn)練后的HMM模型建立HMM模型庫(kù),模型庫(kù)中包含了(30+30)*7句語(yǔ)料的所有基元對(duì)應(yīng)的聲學(xué)模型。
語(yǔ)音識(shí)別是將待識(shí)別的語(yǔ)音識(shí)別成對(duì)應(yīng)文本的過(guò)程,即在聲學(xué)模型和語(yǔ)言模型下,對(duì)待識(shí)別語(yǔ)音的特征參數(shù)進(jìn)行解碼,從而將語(yǔ)音識(shí)別成對(duì)應(yīng)的文本。
語(yǔ)音識(shí)別過(guò)程分為4個(gè)大組,每1個(gè)大組再以測(cè)試語(yǔ)句細(xì)分為30句、60句以及90句3個(gè)小組,共計(jì)12組語(yǔ)音識(shí)別實(shí)驗(yàn)。具體的實(shí)驗(yàn)方案設(shè)計(jì)如下:
1)利用重慶話(huà)語(yǔ)音庫(kù)中訓(xùn)練集的語(yǔ)料訓(xùn)練語(yǔ)音模型,重慶話(huà)語(yǔ)音庫(kù)中測(cè)試集的語(yǔ)料為測(cè)試語(yǔ)句。
2)利用重慶話(huà)口音的普通話(huà)語(yǔ)音庫(kù)中訓(xùn)練集的語(yǔ)料訓(xùn)練語(yǔ)音模型,重慶話(huà)口音的普通話(huà)語(yǔ)音庫(kù)中測(cè)試集的語(yǔ)料為測(cè)試語(yǔ)句。
3)利用重慶話(huà)語(yǔ)音庫(kù)中訓(xùn)練集的語(yǔ)料訓(xùn)練語(yǔ)音模型,重慶話(huà)口音的普通話(huà)語(yǔ)音庫(kù)中測(cè)試集的語(yǔ)料作為測(cè)試語(yǔ)句。
4)利用重慶話(huà)口音的普通話(huà)語(yǔ)音庫(kù)中訓(xùn)練集的語(yǔ)料訓(xùn)練語(yǔ)音模型,重慶話(huà)語(yǔ)音庫(kù)中測(cè)試集的語(yǔ)料作為測(cè)試語(yǔ)句。
根據(jù)以上4個(gè)大組,共12個(gè)小組的實(shí)驗(yàn)方案分別進(jìn)行識(shí)別實(shí)驗(yàn),并將實(shí)驗(yàn)結(jié)果整理如表6所示。
從表6中可以看出,重慶話(huà)和重慶口音的普通話(huà)對(duì)應(yīng)識(shí)別自己本身的正確識(shí)別率為100%,而兩種語(yǔ)音交叉進(jìn)行語(yǔ)音識(shí)別則呈現(xiàn)出不同的正確識(shí)別率。其中重慶話(huà)聲學(xué)模型去識(shí)別重慶話(huà)口音的普通話(huà)在不同的測(cè)試集下呈現(xiàn)出不同的識(shí)別結(jié)果,當(dāng)測(cè)試集為30句和60句時(shí)均為76.67%,而在90句時(shí)達(dá)到78.89%;重慶話(huà)口音的普通話(huà)聲學(xué)模型去識(shí)別重慶話(huà)在不同的測(cè)試集下也呈現(xiàn)出不同的識(shí)別結(jié)果,隨著測(cè)試集語(yǔ)句數(shù)的增加,正確識(shí)別率總體趨勢(shì)上也隨之增加,并在30句時(shí)達(dá)到90.00%,60句和90句時(shí)分別達(dá)到91.67%和91.11%。
表6 12組實(shí)驗(yàn)結(jié)果
本文以重慶話(huà)為實(shí)驗(yàn)研究對(duì)象,采集了重慶話(huà)文本,并將文本錄制成重慶話(huà)和重慶話(huà)口音的普通話(huà),建立了兩種語(yǔ)音與之對(duì)應(yīng)的小語(yǔ)料庫(kù)。搭建了基于HMM的重慶話(huà)語(yǔ)音識(shí)別系統(tǒng),設(shè)計(jì)了12組語(yǔ)音識(shí)別方案,并得到了12個(gè)實(shí)驗(yàn)結(jié)果。實(shí)驗(yàn)結(jié)果表明:在30句、60句以及90句測(cè)試集下重慶話(huà)和重慶話(huà)口音的普通話(huà)訓(xùn)練得到聲學(xué)模型分別去識(shí)別對(duì)應(yīng)的兩種語(yǔ)音的正確識(shí)別率均為100%;重慶話(huà)語(yǔ)音聲學(xué)模型識(shí)別重慶話(huà)口音的普通話(huà)語(yǔ)音的正確識(shí)別率要比重慶話(huà)口音的普通話(huà)語(yǔ)音聲學(xué)模型識(shí)別重慶話(huà)語(yǔ)音的正確識(shí)別率要高。