楊 航, 楊艷秋, 于新龍
(吉林師范大學(xué)數(shù)學(xué)學(xué)院,吉林 四平 136000)
數(shù)據(jù)缺失情況下的統(tǒng)計(jì)推斷問題一直是熱點(diǎn)問題.有關(guān)一些常見的連續(xù)分布,文獻(xiàn)[1]研究兩個(gè)冪分布在部分?jǐn)?shù)據(jù)缺失情況下的參數(shù)估計(jì)及檢驗(yàn)問題.文獻(xiàn)[2]研究具有部分缺失數(shù)據(jù)的混合指數(shù)分布的參數(shù)估計(jì)及假設(shè)檢驗(yàn)問題.由于泊松分布是最常見到的非連續(xù)分布,因此對于泊松分布的統(tǒng)計(jì)推斷問題一直是統(tǒng)計(jì)學(xué)家關(guān)心的熱點(diǎn)研究問題.文獻(xiàn)[3]研究兩個(gè)泊松分布總體參數(shù)的估計(jì)及檢驗(yàn).文獻(xiàn)[4]給出含部分缺失數(shù)據(jù)的泊松分布參數(shù)的貝葉斯估計(jì).文獻(xiàn)[5]闡述了泊松分布的由來及發(fā)展.文獻(xiàn)[6]給出泊松分布以及復(fù)合泊松分布的性質(zhì).2016年何朝兵、杜保建等人[7]通過EM算法得到了在不完全信息隨機(jī)截尾試驗(yàn)下的混合泊松分布參數(shù)的點(diǎn)估計(jì).2019年隋崴等[8]得到了雙變量泊松分布參數(shù)的極大似然估計(jì).文中進(jìn)一步研究混合泊松分布在部分?jǐn)?shù)據(jù)缺失情況下的參數(shù)估計(jì)問題,計(jì)算混合泊松分布總體未知參數(shù)的矩估計(jì),證明其性質(zhì),并進(jìn)行隨機(jī)模擬以示其可行性.
混合泊松分布的密度函數(shù)為
f(x,q,λ1,λ2)=
其中λi>0(i=1.2)是第一個(gè)總體的參數(shù),在對總體分布進(jìn)行n次獨(dú)立觀測下,每個(gè)樣本的觀測值以1-p的概率被缺失,以p的概率被觀測,用(Xi,δi),i=1,2,...,n去表示總體的第一個(gè)觀測值,這里Xi表示第一個(gè)混合泊松分布總體的第i個(gè)樣本觀測值,若第i個(gè)觀測值丟失,記δi=0,否則記δi=1.
下面用矩估計(jì)對兩個(gè)未知參數(shù)λ1,λ2進(jìn)行估計(jì),建立如下矩估計(jì)方程:
其中EX=qλ1+(1-q)λ2,E(X2)=qλ1(λ1+1)+(1-q)λ2(λ2+1).
解得
下面證明:對于上述參數(shù)λi(i=1,2)的矩估計(jì)的漸近正態(tài)性以及相合性.
證明:{Xiδi,1≤i≤n}是獨(dú)立同分布的隨機(jī)變量序列,由強(qiáng)大數(shù)定律可知
這里
E(X1δ1)=E(X1)E(δ1)=p(qλ1+(1-q)λ2).
同理可知
(1-q)λ2(λ2+1)),
進(jìn)而有
其中
定理2在上述記號下有
證明:令Wi=(δi,δiXi,δiXi2),(Wi,i≥1)是獨(dú)立同分布的隨機(jī)變量序列,且
E(W1)=(p,p(qλ1+(1-q)λ2),
p(qλ1(λ1+1)+(1-q)λ2(λ2+1))).
令∑=E(W1-EW1)(W1-EW1)T,則由多元中心極限定理可知
記
其中
a11=p(1-p),
a12=a21=p(1-p)(qλ1+(1-q)λ2),
a13=a31=p(1-p)(qλ1(λ1+1)+(1-q)λ2(λ2+1)),
a22=p(qλ1(λ1+1)+(1-q)λ2(λ2+1))-
p2(qλ1+(1-q)λ2)2,
a23=a32=p(1-p)(qλ1(λ1+1)+
(1-q)λ2(λ2+1))(qλ1+(1-q)λ2),
a33=p(1-p)
(qλ1(λ1+1)+(1-q)λ2(λ2+1))2,
令
α1=p,
α2=p(qλ1+(1-q)λ2),
α3=p(qλ1(λ1+1)+(1-q)λ2(λ2+1)),
所以
由引理1知
而且
同理令
由引理1可知
其中
下面利用隨機(jī)模擬說明所給出的方法的可行性,表1分別給定樣本容量為n=50,n=100,n=300,缺失概率1-p=0.10,混合概率q=0.7和q=0.9時(shí)的模擬研究結(jié)果。模擬計(jì)算了不同參數(shù)λ1,λ2下1000次估計(jì)的均方誤差,括號中第一個(gè)數(shù)字是參數(shù)λ1的均方誤差,第二個(gè)數(shù)字是λ2均方誤差.
表1 模擬結(jié)果
從表1中的模擬結(jié)果可以看出,對于不同的參數(shù)以及不同的樣本量,參數(shù)估計(jì)的均方誤差都相對較小,并且誤差也比較穩(wěn)定,說明所給出的估計(jì)方法能夠?qū)ξ粗獏?shù)給出較為精確的估計(jì).
研究了具有缺失數(shù)據(jù)的混合泊松分布總體參數(shù)的估計(jì)問題。利用矩估計(jì)給出了未知參數(shù)的估計(jì),同時(shí)考慮了估計(jì)的極限性質(zhì)。也通過模擬分析計(jì)算了估計(jì)的均方誤差,根據(jù)模擬結(jié)果可知,的估計(jì)有較小的均方誤差,說明我們的估計(jì)方法具有可行性.