趙 娜
(湖北工程學(xué)院 物理與電子信息工程學(xué)院,湖北 孝感432000)
隱馬爾可夫模型(Hidden Markov Model,HMM)是一種具有學(xué)習(xí)能力的統(tǒng)計(jì)模型。HMM利用概率及統(tǒng)計(jì)學(xué)理論成功地解決了如何辨識(shí)具有不同參數(shù)的短時(shí)平穩(wěn)的信號(hào)段以及如何跟蹤它們之間的轉(zhuǎn)化等問題,即非平穩(wěn)隨機(jī)過程的建模問題。
HMM能否成功得到應(yīng)用,其訓(xùn)練問題是關(guān)鍵。許多學(xué)者在這方面做了大量卓有成效的工作。1970年,Baum等人提出了用單個(gè)觀察序列估計(jì)模型參數(shù)的 Maximization算法[1]。1977年Dempster等又提出了Expectation-Maximization(EM)算法[2]。之后Levinson等在假設(shè)不同的觀察序列之間是統(tǒng)計(jì)獨(dú)立的前提下提出了基于多觀察序列的 HMM 訓(xùn)練算法[3]。自此以后,HMM廣泛應(yīng)用于語音識(shí)別、手寫字符識(shí)別、圖像處理、生物信號(hào)處理等諸多領(lǐng)域[4-6]。
獨(dú)立假設(shè)使HMM的訓(xùn)練得到了簡化,但卻忽略了數(shù)據(jù)之間的相關(guān)性。事實(shí)上,實(shí)際應(yīng)用中許多數(shù)據(jù)都具有很高的相關(guān)性。以語音識(shí)別為例,由同一個(gè)人發(fā)出的語音,不同幀間的語音信號(hào)是高度相關(guān)的。事實(shí)上,語言的結(jié)構(gòu)信息是多層次的,除了語音特性外,還牽涉到音長、音調(diào)、能量等超音段信息以及語法、句法等高層次語言結(jié)構(gòu)的信息。不合理的假設(shè)將導(dǎo)致識(shí)別率的下降或訓(xùn)練數(shù)據(jù)的增加。為此,人們?cè)谠噲D放寬這一限制方面做了許多有益的探索[7-9]。在不做任何假設(shè)的前提下,本文對(duì)一種基于多觀察序列的HMM訓(xùn)練算法進(jìn)行研究,較好地解決了HMM的訓(xùn)練問題。該算法既考慮到了多觀察序列之間的相關(guān)性又不增加計(jì)算量。當(dāng)用于訓(xùn)練的觀察序列之間是統(tǒng)計(jì)獨(dú)立時(shí),又可以導(dǎo)出經(jīng)典的HMM訓(xùn)練算法。
一個(gè)有N個(gè)狀態(tài)(s1s2…sN)及M 個(gè)觀察輸出(v1v2…vM)的HMM由如下三組參數(shù)描述:
1)初始狀態(tài)分布∏={πi}1≤i≤N。其中πi=P(q1=si)=1
2)狀態(tài)轉(zhuǎn)移概率矩陣A={aij}1≤i,j≤N。
給出觀察量O=o1o2…oT,并假設(shè)各觀察量是互不相關(guān)的。利用約束最佳化技術(shù),Baum等導(dǎo)出HMM 的全套參數(shù)估計(jì)公式如下[1,2,5]:
觀察序列之間可能是相關(guān)的,也可能是統(tǒng)計(jì)獨(dú)立的。一般地,應(yīng)有
引入權(quán)系數(shù)
構(gòu)造如下形式的輔助函數(shù)
(9)式中q=q1q2…qT是狀態(tài)序列??紤](7)式和相應(yīng)的約束條件,即
根據(jù)拉格朗日乘數(shù)法,構(gòu)造如下目標(biāo)函數(shù):
上式中,cai,cbj,cπ為拉格朗日乘數(shù)。對(duì)目標(biāo)函數(shù)最大化得到HMM的重估公式如下:
在上面的式子中,
當(dāng)各觀察序列之間是統(tǒng)計(jì)獨(dú)立時(shí),即:
此時(shí)wk=P(O|λ)/P(O(k)|λ),1≤k≤K.分別代入(11)、(12)、(13)式中得
(14)、(15)、(16)式與傳統(tǒng)的重估公式完全一致。由此可見,本文導(dǎo)出的基于多觀察序列的HMM訓(xùn)練算法實(shí)際上是在不做獨(dú)立假設(shè)下經(jīng)典HMM訓(xùn)練算法的推廣。
本文對(duì)一種基于多觀察序列的HMM訓(xùn)練算法進(jìn)行了研究,該算法避開了直接計(jì)算條件概率的困難,特別適用于分組間均勻相關(guān)的多觀察序列HMM的訓(xùn)練。同時(shí),該算法也可導(dǎo)出經(jīng)典的HMM訓(xùn)練算法。
[1]Baum L E,Petrie T,Soules G,et al.A maximization technique occurring in the statistical analysis of probabilistic functions of Markov chains[J].The Annals of athematical Statistics,1970,41(1):164-171.
[2]Levinson S E,Rabiner L R,Sondhi M M.An introduction to the application of the theory of probabi-listic functions of Markov process to automatic speech recognition[J].Bell System Technical Journal,1983,62(4):1035-1074.
[3]姚天任.數(shù)字語音處理[M].武漢:華中理工大學(xué)出版社,1992:347-355.
[4]Li Xiaolin,Parizeau M,Plamon R.Training hidden Markov models with multiple observations-A combinatorial method[J].IEEE Transactions on pattern analysis and machine intelligence.2000,22(4):371-377.
[5]Baggenstoss P M.A modified Baum-Welch algorithm for hidden Markov models with multiple observation spaces[J].IEEE Transactions on speech and audio processing,2001,9(4):411-416.
[6]王新民,姚天任.一種基于SDTS的HMM訓(xùn)練算法[J].信號(hào)處理,2003,19(1):40-43.
[7]Bocchieri E,Mark B.Subspace distribution clustering hidden Markov model[J].IEEE Trans Speech and Audio Processing,2001,9(3):264-275.
[8]Engelbrecht H A,Du Preez JA.Efficient backward decoding of high-order hidden Markov models[J].Pattern Recognition,2010,43(2):99-112.
[9]Ye Fei,Yi Na,Wang Yifei.EM Algorithm for Training High-order Hidden Markov Model with Multiple Observation Sequences[J].Journal of Information & Computational Science,2011,8(10):1761-1777.