吳 琴,葛文秀
(華南師范大學數(shù)學科學學院,廣東 廣州 510631)
成分數(shù)據(jù)是記錄觀測數(shù)據(jù)相對關(guān)系的多維數(shù)據(jù),在科學研究和日常生活中經(jīng)常用到,比如地質(zhì)學中巖石的組成成分比例、家庭消費模式中不同類別所占百分比等.Dirichlet分布是處理成分數(shù)據(jù)的重要工具,但是由于隨機變量各分量之間非負定和的約束限制,其統(tǒng)計分析具有較大的難度,傳統(tǒng)的參數(shù)估計方法算法復雜且不能保證有效性,極大地限制了其統(tǒng)計分析的進展.許多學者致力于Dirichlet分布的研究.張堯庭[1]詳細給出了Dirichlet分布[2]參數(shù)估計的算法,但是其提出的算法由于計算復雜且不能保證是有效估計(非負參數(shù)的估計值為負值)從而限制了其應(yīng)用.Hijazi等[3]給出了如何計算Dirichlet回歸模型參數(shù)的極大似然估計,但是其使用的Newton-Raphson算法嚴重依賴初值的選取而且存在不收斂的缺陷.Ma[4]提出了Dirichlet分布的Bayes估計,但有時存在參數(shù)不可估的現(xiàn)象.為了克服上述缺點,得到Dirichlet分布參數(shù)的有效估計,本文將根據(jù)Dirichlet分布的性質(zhì)提出其隨機表示[5],通過隨機表示的具體形式引入缺失數(shù)據(jù),構(gòu)造Dirichlet分布參數(shù)估計的EM算法[6].本文提出的EM算法,不僅不依賴于初值的選取,而且能保證得到的估計為正數(shù),也就是有效估計.最后,統(tǒng)計模擬結(jié)果表明,本文方法得到的估計精度良好,即使樣本量不大(比如n=20),估計的偏差也是可以接受的,當樣本量n=500的時候,估計值非常接近真實值.
定義1[5]稱m維隨機向量X=(X1,…,Xm)T服從參數(shù)是α=(α1,…,αm)T的Dirichlet分布,記為X~Dirichlet(α),如果其概率密度函數(shù)如下:
其對數(shù)似然函數(shù)為
從引理1中可以看出,Gamma分布中的參數(shù)β在Dirichlet分布中消失了.基于引理1,可以構(gòu)建如下隨機表示:
證明令引理1中的β=1即可.
引理2的證明可參考文獻[1].
利用引理2的結(jié)論做變換Yj=sxj即可得到引理3的結(jié)論,變換的雅可比行列式為1/xj.
定理1 若X=(X1,…,Xm)T服從參數(shù)為α=(α1,…,αm)T的Dirichlet分布,X為觀測數(shù)據(jù),Y=(Y1,…,Ym)T為X的基向量,即Yj~Gamma(αj,1),j=1,…,m.則
證明
EM算法的M步為求解完全數(shù)據(jù)的對數(shù)極大似然關(guān)于參數(shù)求偏導的方程組:
但上述方程組沒有顯式解,用Newton-Raphson迭代法求解,具體迭代方法為
E步為求基于觀測數(shù)據(jù)下缺失數(shù)據(jù)logyij的條件期望,由定理1得:
表1 不同參數(shù)下EM算法估計的模擬結(jié)果
從表1的結(jié)果中可以看出,即使樣本量很小(n=20),EM算法得到的估計的偏差也是可以接受的,當樣本量n=100的時候,估計的誤差已經(jīng)很小了,當n=500的時候,估計值非常接近真實值.此外,對于m=2和m=3兩種情況對比,發(fā)現(xiàn)估計的功效差別不大.實際上,本文嘗試了m取其他值的情況,比如m=5,其模擬結(jié)果顯示功效與m=2時并無明顯差異.可見本文所提出的EM方法估計精度不會隨著m的增大而降低.