鄒小云
(湖北職業(yè)技術(shù)學(xué)院,湖北 孝感 432000)
基于EM算法實(shí)現(xiàn)混合密度極的大似然參數(shù)估計(jì)
鄒小云
(湖北職業(yè)技術(shù)學(xué)院,湖北 孝感 432000)
在介紹極大似然估計(jì)與EM算法的基礎(chǔ)上,探討了基于EM算法的兩混合正態(tài)分布極大似然參數(shù)估計(jì),并舉例說(shuō)明了若干經(jīng)典場(chǎng)合的極大似然估計(jì)的算法.
極大似然估計(jì);EM算法;似然函數(shù);參數(shù)估計(jì)
極大似然估計(jì)參數(shù)也稱為最大概似估計(jì),這就是一種概率論在統(tǒng)計(jì)學(xué)中的應(yīng)用,同時(shí)也是參數(shù)估計(jì)的方法,它用來(lái)求一個(gè)樣本集的相關(guān)概率密度函數(shù)的參數(shù).其主要意思就是已知某隨機(jī)樣本滿足某種概率分布,但其中具體參數(shù)還不確定,參數(shù)估計(jì)就是通過(guò)很多次反復(fù)的試驗(yàn),看其結(jié)果,利用它的結(jié)果推算出參數(shù)的大概值.極大似然估計(jì)就是建立在這種思想上:已知某個(gè)參數(shù)能使這個(gè)樣本出現(xiàn)的概率最大,我們自然就不會(huì)再去選擇其他小概率的樣本,所以就把這個(gè)參數(shù)作為估計(jì)的真實(shí)值,這種算法就是EM的模型.付淑群給出了《EM算法正確收斂性的探討》的文章;李述山給出了《兩混合分布的一種參數(shù)統(tǒng)計(jì)方法》[1]的文章;楊珂玲,韓惠芳給出了《兩混合正態(tài)分布的參數(shù)統(tǒng)計(jì)方法》[2]的文章.本文在介紹一般極大似然估計(jì)法和EM算法的基礎(chǔ)上,綜述了文獻(xiàn)[1],[2],[3]的結(jié)果,并給出了幾個(gè)極大似然估計(jì)算法的實(shí)例.
定義1[4]設(shè)總體X的概率函數(shù)為f(x|θ),其中θ={θ1,…, θm}為未知參數(shù),θ∈Θ.設(shè)x=(x1,…,xN),是來(lái)自X的簡(jiǎn)單隨機(jī)樣本,令
稱作為θ的函數(shù)L(θ|x)為似然函數(shù).
定義2[4]在定義1的記號(hào)下,若(x)是θ的一個(gè)估計(jì)量,滿足條件
概率函數(shù)大都具有指數(shù)函數(shù)的形式,采用似然函數(shù)的對(duì)數(shù)求解通常更加簡(jiǎn)便.稱
為對(duì)數(shù)似然函數(shù).因?yàn)閷?duì)數(shù)變換是嚴(yán)格單調(diào)的,所以lnL (θ|x)與L(θ|x)在求極大值的時(shí)候是等價(jià)的.因此通常將(1.3)式分別對(duì)θi求偏導(dǎo),并令期值為零,得到似然方程組如下:
按上面介紹的思想又會(huì)存在一些問(wèn)題:對(duì)于很多具體情況不能構(gòu)造似然函數(shù)解析表達(dá)式,或似然函數(shù)表達(dá)式過(guò)于復(fù)雜,導(dǎo)致求解方程組(1.4)很困難.必須借助其它方法,其中EM算法就是在實(shí)際應(yīng)用中的一種廣泛且有效方法.
2.1 常規(guī)算法
通過(guò)對(duì)似然函數(shù)L(x|θ)或?qū)?shù)似然函數(shù)lnL(x|θ)求導(dǎo)而得到似然方程
得似然方程的解,驗(yàn)證其解從而得極大似然估計(jì).
一般說(shuō)來(lái),我們并不要求似然函數(shù)一定關(guān)于θ可微,如果它關(guān)于θ可微,則往往用求似然方程的根來(lái)求解θ的M L E.要指出的是似然方程的根不一定是MLE,反過(guò)來(lái),似然方程若無(wú)根,也可能有M L E存在.
2.2 極大似然估計(jì)的EM算法
2.2.1 EM算法
EM算法主要應(yīng)用在缺失數(shù)據(jù)條件下的參數(shù)估計(jì),是進(jìn)行極大似然估計(jì)時(shí)的一種有效方法.根據(jù)EM算法的特點(diǎn),我們可以在觀測(cè)數(shù)據(jù)的基礎(chǔ)上添加一些“潛在數(shù)據(jù)”,從而簡(jiǎn)化計(jì)算過(guò)程,完成一系列簡(jiǎn)單的極大化或者模擬.
假設(shè)Y為服從某一分布的非完全觀測(cè)數(shù)據(jù),Z為缺失數(shù)據(jù),則完全數(shù)據(jù)X=(Y,Z),由乘法公式,X的概率函數(shù)f(x|θ)與Y的概率函數(shù)f(y|θ)及Z的概率函數(shù)f(z|θ)的關(guān)系為
由(1.5)式給出的X,Y,Z概率函數(shù)之間的關(guān)系,可以得到新的函數(shù)
則稱此函數(shù)為完全數(shù)據(jù)X的似然函數(shù),但是由于隱變量未知,導(dǎo)致似然函數(shù)L(θ/X)是隨機(jī)的,并且由Z決定,這樣我們用不完全數(shù)據(jù)Y來(lái)估計(jì)參數(shù)θ的極大似然估計(jì)準(zhǔn)則如下:
EM算法第一步(E-step)是給定觀測(cè)數(shù)據(jù)Y和當(dāng)前參數(shù)估計(jì)初值,來(lái)計(jì)算完全數(shù)據(jù)對(duì)數(shù)似然函數(shù)lnf(Y,Z|θ),關(guān)于未知數(shù)據(jù)Z的條件期望,定義對(duì)數(shù)似然函數(shù)的期望
其中θ(i)為已知當(dāng)前的參數(shù)估計(jì)值.在(1.7)式中Y和θ(i)都為常數(shù),θ為待優(yōu)化參數(shù),Z為隨機(jī)變量,并且假設(shè)它服從某一分布f(z|Y,θ(i)),因此(1.7)式可寫(xiě)作為
其中f(z|Y,θ(i))是未知數(shù)據(jù)Z的邊緣分布的密度函數(shù),且依賴于觀測(cè)數(shù)據(jù)Y和當(dāng)前參數(shù)θ(i),D為Z的取值空間.由乘法公式可得
由于f(y|θ(i))與θ無(wú)關(guān),因此在實(shí)際過(guò)程中f(z,Y|θ(i))用來(lái)代替f(z|Y,θ(i))并不影響(1.8)式中似然函數(shù)的最優(yōu)化.
EM算法第二步(M-s t e p):最大化期望Q(θ,θ(i)),即找到一個(gè)θ(i+1)使之滿足
如此進(jìn)行依此迭代θ(i)→θ(i+1),將上述E步和M步進(jìn)行迭代下去直到||θ(i)-θ(i+1)||或Q(θ,θ(i+1))-Q(θ,θ(i))充分小為止.
2.2.2 混合正態(tài)分布參數(shù)極大似然估計(jì)的EM算法
下面我們就兩混合正態(tài)分布參數(shù)的極大似然估計(jì)問(wèn)題來(lái)證明極大似然估計(jì)的EM算法
設(shè)觀測(cè)樣本X=(x1,x2,…,xN)是從兩正態(tài)混合密度
(其中θ=(α1,θ1,θ2),α1+α2=1且f1,f2為正態(tài)分布的密度函數(shù),θ1, θ2為分布參數(shù))的總體中獨(dú)立抽取的,則觀測(cè)樣本的對(duì)數(shù)似然函數(shù)表達(dá)式為
下面就于EM算法來(lái)求解兩混合正態(tài)密度的極大似然估計(jì).
假設(shè)Y為觀測(cè)數(shù)據(jù),Z為遺失數(shù)據(jù),則完全數(shù)據(jù)X=(Y, Z).因?yàn)檫z失數(shù)據(jù)Z未知,假定Z為隨機(jī)變量,所以要確定Z的分布
則Zj=(Z1j,Z2j)T,Xj=(Yj,ZjT).
在一次觀測(cè)中,有兩種結(jié)果,每種結(jié)果的概率為α1,α2,所以
Zj~,其中Z1,Z2,…ZN獨(dú)立同分布,從而
則完全數(shù)據(jù)的對(duì)數(shù)似然函數(shù)為
其中Yobs指Y的觀測(cè)數(shù)據(jù),θ(k)表示當(dāng)前參數(shù),令
M步:極大化Q(θ,θ(k)),并用極大值點(diǎn)處的θ代替θ(k)作為下一輪循環(huán)的迭代的初始值,在極大化(1.1 7)式時(shí)只需要極大化含αi和θi的項(xiàng)即可.為了估計(jì)αi我們可引入拉格朗日乘法,約束條件為.故
兩邊分別對(duì)αi,θi,λ求偏導(dǎo).解方程組可得
假如混合分布中的兩部分為d維多元正態(tài)分布,則概率密度函數(shù)為
把(1.2 0)代入(1.1 7)中,忽略與θi無(wú)關(guān)的項(xiàng)得
對(duì)上式關(guān)于μi求偏導(dǎo)并令其為0得:
我們改寫(xiě)(1.2 1)式得
因此一次過(guò)程由式(1.19),(1.22),(1.24)實(shí)現(xiàn).
將求得的參數(shù)值θ(k+1)代替θ(k)開(kāi)始下一輪迭代,將最終收斂到極大似然估計(jì)值代入對(duì)數(shù)似然方程,即可獲得對(duì)數(shù)似然函數(shù)的極大值.
例1 設(shè)X1,…,Xn是來(lái)自B(1,θ)的一個(gè)樣本,0<θ<1.求參數(shù)θ的極大似然估計(jì).
解 因?yàn)镻(X=k)=θk(1-θ)1-k,k=0,1,所以θ的似然函數(shù)為
對(duì)數(shù)似然函數(shù)為
例2 設(shè)X1,…,Xn為取自Poisson分布P(λ)總體的簡(jiǎn)單隨機(jī)樣本,求參數(shù)λ的極大似然估計(jì).
解 因?yàn)樗迫缓瘮?shù)為
所以對(duì)數(shù)似然函數(shù)為
易驗(yàn)證l"(λ|x)<0,所以上式中的λ^即為l(λ|x)唯一的最大值點(diǎn),即為λ的極大似然估計(jì).
例3 (定數(shù)截尾壽命實(shí)驗(yàn))設(shè)某種電子元件,由于種種隨機(jī)因素的干擾,其壽命不同,抽取n個(gè)作試驗(yàn),設(shè)元件壽命的分布為
指定一個(gè)時(shí)刻T>0.實(shí)驗(yàn)進(jìn)行到全部抽出的n個(gè)元件都失效,或到時(shí)刻T為止.記Xi=元件i的壽命或T,視元件在時(shí)刻T時(shí)已失效或否而定,要由X1,…,Xn作λ的極大似然估計(jì).
若xi 對(duì)數(shù)似然函數(shù)為 似然方程的根為 這λ即為的極大似然估計(jì). 在以上的例子中,許多常用的分布如正態(tài)分布,Bernoulli分布,Poisson分布等其參數(shù)的極大似然估計(jì)和矩估計(jì)是一致的,但也有許多情況如均勻分布,其參數(shù)的極大似然估計(jì)和矩估計(jì)并不同,而進(jìn)一步比較往往是極大似然估計(jì)有更多的優(yōu)良性,對(duì)于許多估計(jì)問(wèn)題,求極大似然估計(jì)或似然方程的解,往往無(wú)法得到明顯的表達(dá)式,所以在實(shí)際數(shù)據(jù)分析中常用的做法是用各種最有化算法求得極大似然估計(jì)的值,其中EM算法就是極大似然估計(jì)的一種有效方法. 〔1〕付淑群.EM算法正確收斂性的探討[J].汕頭:汕頭大學(xué)學(xué)報(bào),2002.1~12. 〔2〕李述山.兩混合分布的一種參數(shù)統(tǒng)計(jì)方法[J].山東輕工業(yè)學(xué)報(bào),1999.73~77. 〔3〕楊珂玲,韓慧芳.兩混合正態(tài)分布的參數(shù)估計(jì)方法[J].黃岡師范學(xué)院學(xué)報(bào),2006.16~19. 〔4〕陳希孺.數(shù)理統(tǒng)計(jì)引論[M].北京:科學(xué)出版社,1988.55~56. 〔5〕茆詩(shī)松,王靜龍,濮曉龍.高等數(shù)理統(tǒng)計(jì)[M].北京:高等教育出版社,2006.115~116. O212 A 1673-260X(2013)12-0008-03