殷雨晨,陳兆榮
(銅陵學院 經濟學院,安徽 銅陵 244000)
在數(shù)據收集和處理的過程中,往往會出現(xiàn)數(shù)據缺失的現(xiàn)象,不恰當?shù)奶幚矸椒▽绊懛治鼋Y果的可靠性.因此,如何在數(shù)據存在缺失的情況下減小估計的誤差成了亟待解決的問題.對于缺失的數(shù)據,利用數(shù)據特征來進行填補是目前統(tǒng)計學中最常用的方法,包括均值插補法、回歸插補法和最近距離插補法等.其中,均值插補法就是用所研究樣本的已觀測數(shù)據的均值作為缺失值的替代值,這種方法操作簡單,實用性強.不過也存在著明顯的弊端,即均值填補忽略了數(shù)據的離散程度,可能會造成較大的推斷誤差.
除了進行傳統(tǒng)的方法進行數(shù)據填補以外,EM(Expectation Maximization)算法也逐漸被應用到經濟、醫(yī)療和工程等不完全數(shù)據的處理中.孫大飛[1]將EM算法應用到混合密度極大似然參數(shù)估計當中,驗證了此算法的收斂性和有效性.張夢琇[2]將EM算法應用到左截斷右刪失數(shù)據的幾何分布參數(shù)估計中.此外,學者們也對EM算法不斷進行研究和改進,先后提出了ECM(Expectation Conditional Maximization)、ECME(Expectation Conditional Maximization Either)、PX-EM(Parameter-Expanded EM)和MCEM(Monte Carlo EM)等算法.溫艷清[3]在區(qū)間型數(shù)據條件下利用ECM算法對Weibull分布進行了極大似然估計.嚴海芳[4]應用MCEM算法給出了對數(shù)正態(tài)分布的參數(shù)的迭代公式,給出了比EM算法更有效、收斂速度更快的模擬結果.本文將MCEM算法引入到含缺失數(shù)據的多元正態(tài)數(shù)據的均值向量估計當中,得到迭代公式,并據此進行數(shù)值模擬,驗證算法的合理性和準確性.
EM算法,也稱最大期望算法,是一種能夠在不完全數(shù)據下通過迭代得到參數(shù)最大似然估計的算法,最早由Dempster[5]提出,該算法迭代速度較快并且估計結果具有很好的穩(wěn)定性.它是在概率模型中尋找參數(shù)最大似然估計或者最大后驗估計的算法,其中概率模型依賴于無法觀測的隱性變量.EM算法的每次迭代包括一個E步和一個M步,兩個步驟交替進行計算.其基本思想是:首先根據已經給出的觀測數(shù)據,估計出模型參數(shù)的值;然后再依據上一步估計出的參數(shù)值估計缺失數(shù)據的值,再根據估計出的缺失數(shù)據加上之前已經觀測到的數(shù)據重新再對參數(shù)值進行估計,然后反復迭代,直至最后收斂,迭代結束.
E步:計算目標Q函數(shù)
Q(θ|θ(t))=Ef[l(θ|Yobs,Ymis)|Yobs,θ(t)]
(1)
M步:求目標Q函數(shù)的最優(yōu)解
θ(t+1)=argmaxQ(θ|θ(t));
(2)
E2步:計算目標Q函數(shù),其中
(3)
M步:求目標Q函數(shù)的最優(yōu)解
θ(t+1)=argmaxQ(θ|θ(t));
(4)
多元正態(tài)分布是一元正態(tài)分布的推廣[7].已知一元正態(tài)分布的密度函數(shù)為
(5)
將式(5)進行推廣,可以給出多元正態(tài)分布的定義
定義1p元正態(tài)變量X=(X1,X2,…,Xp)′的概率密度函數(shù)為
(6)
其中,|Σ|為協(xié)方差陣Σ的行列式.
記X~Np(μ,Σ),將X,μ和Σ剖分如下
其中,X(1),μ(1)為q×1維,Σ11為q×q維,(X(1)|X(2))為給定X(2)時X(1)的條件分布[8].
定理1 設X~Np(μ,Σ),Σ>0,則
(X(1)|X(2))~Nq(μ1·2,Σ11·2),
其中
(7)
(8)
(9)
(10)
最后實現(xiàn)M步,對目標函數(shù)求極值
(11)
(12)
由表1可知,相比于傳統(tǒng)的均值插補法,MCEM算法估計的均值離真實值的偏差更小,效果更好.并且隨著樣本量的增大,MCEM算法的估計精度也有所增加,即當樣本量從100增加到1000時,μ1估計偏差的絕對值從0.3938降低到0.0351,μ2估計偏差的絕對值從0.1198降低到0.0721.因此,本文提出的MCEM算法比均值插補法更有優(yōu)勢,在多元正態(tài)分布的均值向量估計中是切實可行的.
表1 不同樣本量下均值估計結果
本文將MCEM算法應用到含缺失數(shù)據的多元正態(tài)分布的均值向量估計中,既解決了傳統(tǒng)均值填補方法忽略數(shù)據離散程度的問題,同時也化解了 EM算法中計算E步期望的難題,將原本復雜的問題簡化為蒙特卡洛模擬求解積分.最后,數(shù)值模擬的結果也驗證了MCEM算法在多元正態(tài)分布均值向量估計中是可行且高效的.