李洪明
泊松分布參數(shù)的穩(wěn)健估計(jì)
李洪明
呼倫貝爾學(xué)院數(shù)學(xué)科學(xué)學(xué)院,內(nèi)蒙古呼倫貝爾021008
本文主要以非對(duì)稱(chēng)分布中泊松分布為研究對(duì)象,探討了其參數(shù)的穩(wěn)健估計(jì)方法.作者以截?cái)嗨迫还烙?jì)為基礎(chǔ),結(jié)合Cizek的工作,提出了適用于泊松分布參數(shù)的一種穩(wěn)健估計(jì)方法.該方法避免了事先選取截?cái)啾壤穆闊?通過(guò)數(shù)據(jù)自身的信息給出在平均似然最大準(zhǔn)則下的最優(yōu)截?cái)啾壤?在文中的模擬部分,分別就未受污染和受污染的泊松分布數(shù)據(jù)進(jìn)行了模擬,得到了不錯(cuò)的效果.
自適應(yīng)極大截?cái)嗨迫还烙?jì);泊松分布;崩潰點(diǎn);穩(wěn)健估計(jì)
對(duì)于非對(duì)稱(chēng)分布中的泊松分布而言,其在實(shí)際生活中有著十分重要的地位.很多的實(shí)際模型都是基于泊松過(guò)程提出的,然而在某個(gè)確定時(shí)刻,泊松過(guò)程就相當(dāng)于是一個(gè)泊松分布。因此,如何估計(jì)泊松分布的參數(shù)在理論和實(shí)際中都有著重要意義.理論上,我們可以在估計(jì)泊松分布參數(shù)的方法基礎(chǔ)上,考慮其是否適合于其它非對(duì)稱(chēng)分布的位置參數(shù)估計(jì);實(shí)際中,較為準(zhǔn)確地估計(jì)出泊松分布的參數(shù)對(duì)未來(lái)情況的預(yù)測(cè)有著重要作用。
Cizek在解決廣義線性模型——Binary-Choice回歸模型時(shí),提出了一種通過(guò)數(shù)據(jù)自身情況決定截?cái)啾壤姆椒ā1疚木褪窃谶@個(gè)想法的基礎(chǔ)上,通過(guò)一定的改進(jìn),提出了一種估計(jì)泊松分布參數(shù)的方法,并說(shuō)明了該方法在估計(jì)泊松分布參數(shù)時(shí)的可行性。
1.1極大似然估計(jì)
對(duì)于泊松分布而言,其分布律記為 p( x;λ),其中λ為待估的參數(shù)。假設(shè)X1,L,Xn是服從分布p( x;λ)的獨(dú)立樣本。稱(chēng)由(1)式確定的MLE為參的極大似然估計(jì)。
因此,在泊松分布中,其參數(shù)的極大似然估計(jì)就是統(tǒng)計(jì)量x,從該表達(dá)式,我們可以發(fā)現(xiàn)當(dāng)數(shù)據(jù)中有一個(gè)壞數(shù)據(jù)(即離群值)的時(shí)候,該表達(dá)式會(huì)與真實(shí)結(jié)果之間產(chǎn)生較大的偏差。對(duì)于泊松分布參數(shù)的極大似然估MLE而言,其方差n。另一方面,由Rao-Cramer不等式可知:對(duì)于任何無(wú)偏估計(jì)而言,其方差的下界為n。因此,在對(duì)泊松分布參數(shù)進(jìn)行估計(jì)時(shí),MLE是最有效的估計(jì)(即最小方差無(wú)偏估計(jì))。進(jìn)一步,由極大似然估計(jì)的近似分布性質(zhì)可知:MLE具有近似分布N,n這也就是為什么在估計(jì)泊松分布的參數(shù)時(shí)常用極大似然估計(jì)的原因。
1.2M估計(jì)
對(duì)于分布p( x;λ)而言,其中λ為待估的參數(shù)。假設(shè)X1,L,Xn是服從分布p( x;λ)的獨(dú)立樣本,在正則條件下,λ的極大似然估計(jì)()MLEλ等價(jià)于方程(3)的解。
對(duì)于泊松分布而言,(3)式即為
令 ¬0 (u) =u,則泊松分布參數(shù)λ的極大似然估計(jì)λ(MLE)就是(5)的解。
對(duì)于(4)式而言,我們可以發(fā)現(xiàn)大數(shù)據(jù)xi對(duì)其影響很大。換而言之,如果數(shù)據(jù)被污染,有離群值在里面的話,那么用(4)式得到的估計(jì)會(huì)與真實(shí)值有較大偏差.我們稱(chēng)(6)式的解λ(MLE)為M估計(jì)。
進(jìn)一步,考慮到數(shù)據(jù)的尺度問(wèn)題,將(6)改進(jìn)為
由M估計(jì)的近似分布性質(zhì)可知:ME具有近似分布
Huber建議在(7)中取u和d如下:
1.3極大截?cái)嗨迫还烙?jì)
Neykov和Neytchev基于極大似然估計(jì)的優(yōu)良性質(zhì),提出通過(guò)似然函數(shù)截?cái)嘁恍┛赡艿膲臄?shù)據(jù)后再進(jìn)行估計(jì)的方法,這種方法既保留了似然函數(shù)的部分性質(zhì),又提高了估計(jì)量的穩(wěn)健性。
對(duì)于分布p( x;λ)而言,其中λ為待估的參數(shù),我們稱(chēng)(9)所對(duì)應(yīng)的估計(jì)λ(MLE,h)為參數(shù)λ的極大截?cái)嗨迫还烙?jì)。
1.4自適應(yīng)極大截?cái)嗨迫还烙?jì)
基于1.3小節(jié)中提到的極大截?cái)嗨迫还烙?jì)而言,它有一些不錯(cuò)的性質(zhì),但是截?cái)啾壤齢的選取并沒(méi)有一致的方法。通常情況下,截?cái)啾壤倪x取依賴于一些先驗(yàn)知識(shí)。當(dāng)h取得越大,則λ(MLE,h)受壞數(shù)據(jù)的影響越小,但有效性會(huì)降低。因此,我們考慮用平均似然達(dá)到最大的方法來(lái)確定截?cái)啾壤齢,稱(chēng)(10)所對(duì)應(yīng)的截?cái)啾壤齢*為最優(yōu)截?cái)啾壤齕1]。
其中λ(MTLE,h)的定義如(9)所示δλ為對(duì)截?cái)啾壤舷薜南拗屏瞀?AMTLE,h)=λ(MTLE,h*)稱(chēng)估計(jì)量λ(AMTLE)為自適應(yīng)極大截?cái)嗨迫还烙?jì)。在實(shí)際操作中,我們可以用下面的方法來(lái)給出我們首先用樣本的中位數(shù)median{ xi}作為位置參數(shù)λ的估計(jì),記u=median{ xi}然后令我們來(lái)解釋為什么這樣選取λδ根據(jù)定理1,我們可以看出受數(shù)據(jù)影響較小的中位數(shù)在樣本量趨于無(wú)窮的時(shí)候,雖然不是無(wú)偏估計(jì),但其和真實(shí)值之間的差異并不太大。在樣本量充分大時(shí)候,用上面所給的λδ作為截?cái)嗌舷蘅梢员WC得到的估計(jì)與λ相差不大[2]。
2.1自適應(yīng)極大截?cái)嗨迫还烙?jì)的極限性質(zhì)
根據(jù)(10)關(guān)于自適應(yīng)極大截?cái)嗨迫还烙?jì)中最優(yōu)截?cái)啾壤亩x,我們可以知道,當(dāng)樣本量n→∞的時(shí)候h*會(huì)以概率1趨于h0,h0有(11)式確定[3]。
根據(jù)引理1,我們可以得到λ(AMTLE)依概率收斂的極限,即下面的定理。
2.2自適應(yīng)極大截?cái)嗨迫还烙?jì)崩潰點(diǎn)
對(duì)于一個(gè)估計(jì)而言,我們常??紤]它受壞數(shù)據(jù)影響的情況。我們稱(chēng)一個(gè)估計(jì)是穩(wěn)健的,是指它受壞數(shù)據(jù)影響較小[6],即數(shù)據(jù)集中有壞數(shù)據(jù)和沒(méi)有壞數(shù)據(jù)時(shí)的估計(jì)結(jié)果相差不大。但這種定義只是一個(gè)描述性的定義,對(duì)問(wèn)題的分析沒(méi)有太大的作用。Müller和Neykov[7]給出了一種描述一個(gè)估計(jì)穩(wěn)健性的指標(biāo)。在本文中,我們也用這個(gè)定義來(lái)描述估計(jì)的穩(wěn)健性。
在這兩個(gè)小節(jié)中,我們考慮的樣本量n分別為100,200和400。對(duì)于相同樣本量的數(shù)據(jù),我們分別用極大似然估計(jì),M估計(jì),極大截?cái)嗨迫还烙?jì),自適應(yīng)極大截?cái)嗨迫还烙?jì)和中位數(shù)對(duì)泊松分布的參數(shù)進(jìn)行估計(jì)。對(duì)于某一種估計(jì)結(jié)果,我們考慮它的均方誤差MSE和平均偏差EB。這二者的定義如(13)所示。
在實(shí)際計(jì)算這兩個(gè)指標(biāo)時(shí),我們采用Monte Carlo方法,用多次模擬的平均值近似真值。這由大數(shù)定律是可以保證的。為了提高估計(jì)的精度,在Monte Carlo方法的基礎(chǔ)上,我們用Hammersley等減少方差的方法對(duì)模擬方法進(jìn)行改進(jìn)。
3.1未受污染數(shù)據(jù)的模擬
表1 未受污染數(shù)據(jù)的模擬情況Table 1 Unpolluted data simulation
=3.5 =4n=100n=200n=400n=100n=200n=400 MSEEBMSEEBMSEEBMSEEBMSEEBMSEEB MLE0.03530.00260.01770.00250.00870.00010.03980.00200.0202-0.00250.0100-0.0001 ME0.0982-0.0435 0.0683-0.0693 0.0441-0.10170.0485-0.07600.0282-0.08090.0170-0.0794 MTLE(0.1)0.1267-0.1080 0.0976-0.1403 0.0708-0.17160.0455-0.03160.0121-0.01090.0013-0.0015 MTLE(0.2)0.2136-0.2370 0.2192-0.3197 0.2236-0.39680.0738-0.05790.0218-0.02060.0026-0.0026 AMTLE0.0404-0.0707 0.0225-0.0710 0.0138-0.07260.04120.00890.01160.01260.00210.0096 MEDIAN0.2344-0.2668 0.2418-0.3464 0.2466-0.42240.0866-0.08540.0266-0.02890.0034-0.0038估計(jì)方法估計(jì)方法=21n=100n=200n=400n=100n=200n=400 MSEEBMSEEBMSEEBMSEEBMSEEBMSEEB MLE0.2054-0.00860.10330.00330.05070.00270.20990.00410.1058-0.00140.05250.0040 ME0.26260.05770.14950.05590.10150.05500.26940.07430.12670.04440.06120.0400 MTLE(0.1)0.3396-0.04090.2035-0.05720.1624-0.09280.3463-0.0218 0.1794-0.04940.0758-0.0372 MTLE(0.2)0.3983-0.08580.2412-0.09970.1926-0.13260.4021-0.0629 0.2204-0.08260.1008-0.0510 AMTLE0.2192-0.08290.1110-0.07010.0571-0.07120.2221-0.0683 0.1157-0.07570.0599-0.0709 MEDIAN0.4158-0.17960.2720-0.17800.2452-0.21540.4174-0.1623 0.2474-0.15780.1211-0.1075 =11n=100n=200n=400n=100n=200n=400 MSEEBMSEEBMSEEBMSEEBMSEEBMSEEB MLE0.10530.00330.0514-0.0063 0.02520.00250.11120.00190.0548-0.00310.02680.0006 ME0.16010.04660.10710.02340.09450.02210.13490.04100.05260.02190.02600.0230 MTLE(0.1)0.2092-0.0551 0.1598-0.1044 0.1339-0.14440.1829-0.04090.0842-0.04740.0259-0.0213 MTLE(0.2)0.2488-0.1088 0.2042-0.1650 0.1953-0.22150.2214-0.09160.1134-0.09020.0380-0.0420 AMTLE0.1149-0.0699 0.0594-0.0808 0.0307-0.07120.1213-0.07220.0635-0.07890.0339-0.0752 MEDIAN0.2769-0.1738 0.2424-0.2282 0.2431-0.29740.2434-0.14740.1357-0.11760.0498-0.0515估計(jì)方法=10.5 =20.5
從表1中,我們可以發(fā)現(xiàn):當(dāng)數(shù)據(jù)未受污染時(shí),自適應(yīng)極大截?cái)嗨迫还烙?jì)的MSE是較其他穩(wěn)健方法而言是最小的,并且EB也不是太大,也就是說(shuō)在未受污染的情況下,自適應(yīng)極大截?cái)嗨迫还烙?jì)有良好的表現(xiàn)。對(duì)于中位數(shù)估計(jì)而言,當(dāng)位置參數(shù)很小或者非整數(shù)時(shí),其估計(jì)效果不佳,比如在0.5λ=的時(shí)候,中位數(shù)估計(jì)的結(jié)果和零非常的接近,在很多樣本中中位數(shù)就是0,這與實(shí)際是不相符合的。從這一點(diǎn)也能看出,自適應(yīng)極大截?cái)嗨迫还烙?jì)就中位數(shù)估計(jì)而言,有一定的改進(jìn)作用。
通過(guò)上面的分析,我們可以發(fā)現(xiàn),自適應(yīng)極大截?cái)嗨迫还烙?jì)在估計(jì)泊松分布參數(shù)的時(shí)候,具有較好的穩(wěn)健性質(zhì),并且該估計(jì)不用事先給定截?cái)鄶?shù)據(jù)的比例,在實(shí)際運(yùn)用中較為方便。
[1]涂冬生,成平.非截尾型L統(tǒng)計(jì)量的Bootstrap逼近[J].系統(tǒng)科學(xué)與數(shù)學(xué),1989,9(01):14-23
[2]鄭忠國(guó).隨機(jī)加權(quán)法[J].應(yīng)用數(shù)學(xué)學(xué)報(bào),1987,10(02):247-253
[3]涂冬生.L統(tǒng)計(jì)量的Bootstrap逼近[J].科學(xué)通報(bào),1986(13):965-969
[4]周勇.L統(tǒng)計(jì)量的隨機(jī)加權(quán)分布逼近及重對(duì)數(shù)律[J].湘潭師范學(xué)院學(xué)報(bào),1991,12(6):7-18
[5]劉銀萍,宋立新.Ⅱ型截尾情形下泊松分布參數(shù)的估計(jì)[J].吉林大學(xué)學(xué)報(bào),2007,45(6):941-944
[6]宋立新,薛宏旗.一種Sieve極大似然估計(jì)的漸近性質(zhì)[J].湘潭大學(xué)學(xué)報(bào),2000,20(03):370-377
[7]Klugman S A,Panjer H H.損失模型從數(shù)據(jù)到?jīng)Q策[M].吳嵐譯.北京:人民郵電出版社,2009:350-370
[8]Biihlmann H.Mathematical Methods in Risk Theor y[M].Berlin:Spring er Verlag,1996:100-120
Robust Estimation of Parameter in Poisson Distribution
LI Hong-ming
Mathematics Institute,Hulunbeier College,Hulunbeier021008,China
This paper,the asymmetrical distribution of the Poisson distribution as an objective,discussed the estimation method of robust parameter.Author truncated likelihood estimation,combining Cizek's work,proposed a robust estimation method applying to Poisson distribution parameters.It avoided the hassle of pre-selected cutoff ratio,and gave their information through the data at an average maximum likelihood ratio criterion optimal truncation.In the analog part of the text,uncontaminated and contaminated Poisson distribution data were respectively simulated to get good results.
Adaptive maximum truncated likelihood estimation;Poisson distribution;collapse;robust estimation
O211.3
A
1000-2324(2014)04-0615-05
2013-01-24
2013-03-02
內(nèi)蒙古自治區(qū)高等學(xué)校科學(xué)研究基金項(xiàng)目(NJZY13319)
李洪明(1962-),男,副教授,河北保定人,研究方向:概率統(tǒng)計(jì)、數(shù)學(xué)模型.E-mail:li-h-m@163.com