李榮 陳莉 王平鮮
摘 要 針對(duì)車險(xiǎn)索賠次數(shù)數(shù)據(jù)經(jīng)常出現(xiàn)的過(guò)度離散問題,采用數(shù)值模擬的方法,分別使用泊松模型(Poisson)、負(fù)二項(xiàng)回歸模型(NB)以及廣義泊松模型(GP)對(duì)不同程度的過(guò)度離散車險(xiǎn)索賠次數(shù)數(shù)據(jù)進(jìn)行擬合,并用均方誤差、偏差以及AIC和BIC準(zhǔn)則對(duì)Poisson、NB、GP三種模型的優(yōu)良性進(jìn)行比較分析,得到了不同條件下三種模型的優(yōu)良性,并針對(duì)不同的條件給出了模型選擇的建議.
關(guān)鍵詞 過(guò)度離散;車險(xiǎn)索賠次數(shù)數(shù)據(jù);負(fù)二項(xiàng)模型;廣義泊松模型
中圖分類號(hào) O212.1 文獻(xiàn)標(biāo)識(shí)碼 A
1 引 言
保險(xiǎn)公司在進(jìn)行費(fèi)率厘定時(shí),需要建立索賠次數(shù)模型與索賠強(qiáng)度模型,在實(shí)際應(yīng)用中,車險(xiǎn)索賠次數(shù)數(shù)據(jù)常常出現(xiàn)過(guò)度離散現(xiàn)象,亦即觀察值方差大于均值的情況.刻畫車險(xiǎn)索賠次數(shù)數(shù)據(jù)最常用的是泊松模型,但當(dāng)數(shù)據(jù)存在過(guò)度離散現(xiàn)象時(shí),泊松模型不再適用,這時(shí)可以用負(fù)二項(xiàng)模型或者廣義泊松模型替代泊松模型,結(jié)果能從一定程度上改善過(guò)度離散問題,但不是所有的情況都適用.楊肇和朱凱旋針(2003)、郭海強(qiáng)等(2005)對(duì)logistic回歸中的過(guò)度離散現(xiàn)象,通過(guò)調(diào)整協(xié)方差以及用估計(jì)的離散參數(shù)影響參數(shù)估計(jì)和參數(shù)的標(biāo)準(zhǔn)誤來(lái)調(diào)整回歸系數(shù)的假設(shè)檢驗(yàn)結(jié)果,結(jié)論得到一定的改善[1-,2];Noriszura Tsmail和Abdul Aziz Jemain(2007)用負(fù)二項(xiàng)模型與廣義泊松模型作了實(shí)證研究,他們對(duì)一組特定的理賠次數(shù)找到了合適的模型[3];同年,Richard Berk和John MacDonald對(duì)泊松模型和負(fù)二項(xiàng)模型進(jìn)行了討論,得出,在犯罪學(xué)應(yīng)用中用負(fù)二項(xiàng)模型去替代泊松模型不是任何情況都適用[4];之后的一些文獻(xiàn)討論了過(guò)度離散現(xiàn)象的檢驗(yàn),也將過(guò)度離散模型運(yùn)用到了不同的領(lǐng)域,楊娟(2013)等基于一組真實(shí)的B2C商務(wù)數(shù)據(jù),比較了泊松模型、負(fù)二項(xiàng)模型、Tweedie模型對(duì)此數(shù)據(jù)的擬合效果、預(yù)測(cè)效果以及對(duì)過(guò)度離散的刻畫[5];可見,過(guò)度離散現(xiàn)象在理賠次數(shù)中是普遍存在的,因此,為數(shù)據(jù)尋求合適的模型是必要的.
本文將考慮在不同過(guò)度離散程度條件下,基于均方誤差準(zhǔn)則、偏差準(zhǔn)則、AIC準(zhǔn)則與BIC準(zhǔn)則,對(duì)Poisson,NB,GP三種模型的優(yōu)良性進(jìn)行比較研究,為過(guò)度離散數(shù)據(jù)尋求合適的模型.
2 基本模型
2.1 泊松回歸模型
對(duì)計(jì)數(shù)數(shù)據(jù)進(jìn)行分析通常采用的最基本的模型是泊松模型,設(shè)隨機(jī)變量Y服從Poisson分布,記為Y~Poisson(μ),則概率密度函數(shù)為:
3.3 結(jié)果分析
首先,在均方誤差與偏差準(zhǔn)則下對(duì)3個(gè)模型進(jìn)行比較研究,如圖1所示,當(dāng)n=50,μ=1時(shí),Poisson模型、NB模型、GP1模型的均方誤差都隨著離散程度的增大逐漸減小,且3個(gè)模型的均方誤差完全相等,其值都非常??;偏差在零的附近波動(dòng),且3個(gè)模型的偏差完全相等,其值接近于零,可以得出,3個(gè)模型對(duì)于參數(shù)估計(jì),效果都很好,實(shí)際應(yīng)用時(shí),擇一即可.隨著樣本量n以及均值μ的增大,亦即n=50,μ=2、n=100,μ=1、n=100,μ=2的情況,結(jié)論與n=50,μ=1時(shí)類似,說(shuō)明3個(gè)模型在參數(shù)估計(jì)上差別不顯著,如果只是針對(duì)參數(shù)估計(jì),那么3個(gè)模型擇一即可.而就Poisson模型來(lái)講,針對(duì)過(guò)度離散車險(xiǎn)索賠次數(shù)數(shù)據(jù),雖然其參數(shù)估計(jì)值與NB模型、GP1模型差別不明顯,但它會(huì)低估參數(shù)的標(biāo)準(zhǔn)誤與增大參數(shù)的顯著性水平,所以在數(shù)據(jù)存在過(guò)度離散現(xiàn)象時(shí),Poisson模型要慎用[5].
其次,對(duì)3個(gè)模型進(jìn)行擬合優(yōu)度檢驗(yàn),如圖2所示,當(dāng)n=50,μ=1時(shí),Poisson模型、GP1模型的AIC值逐漸減小且隨著離散程度的增大趨于平穩(wěn),NB模型的AIC值逐漸增大且隨著離散程度的增大也逐漸趨于平穩(wěn);GP1、NB模型整體優(yōu)于Poisson模型;當(dāng)θ<0.5時(shí),NB模型優(yōu)于GP1模型,當(dāng)0.5<θ<0.8時(shí),NB模型與GP1模型幾乎無(wú)差別,當(dāng)θ>0.8時(shí),NB模型優(yōu)于GP1模型.樣本量n=50不變,均值增大到μ=2時(shí),結(jié)論如圖3所示,可以看出,模型AIC值變化趨勢(shì)和μ=1時(shí)一致,說(shuō)明數(shù)據(jù)均值變化對(duì)模型的優(yōu)良性沒有影響,同樣,當(dāng)n=100,μ=1、n=100,μ=2的情況,結(jié)論也類似,說(shuō)明樣本量n的變化對(duì)模型的優(yōu)良性也沒有影響.對(duì)于BIC值,其變化趨勢(shì)與AIC值大致相同,這里不再贅述.
4 結(jié) 論
本文應(yīng)用Monte Carlo模擬方法比較研究了Poisson模型、NB模型、GP1模型對(duì)于不同離散程度的車險(xiǎn)索賠次數(shù)數(shù)據(jù)的擬合效果,并且對(duì)3個(gè)模型的優(yōu)良性進(jìn)行了比較研究.得出以下結(jié)論:1)從模型參數(shù)估計(jì)值來(lái)看,Poisson模型、NB模型、GP1模型3個(gè)模型之間沒有顯著的區(qū)別,如果只是參數(shù)估計(jì),三者擇一即可,但當(dāng)數(shù)據(jù)存在過(guò)度離散現(xiàn)象時(shí),用Poisson模型去擬合過(guò)度離散數(shù)據(jù)會(huì)低估參數(shù)的標(biāo)準(zhǔn)誤與增大參數(shù)的顯著性水平,出現(xiàn)較大的模型偏差,所以Poisson要慎用;2)由模型擬合優(yōu)度檢驗(yàn)來(lái)看,NB模型與GP1模型整體優(yōu)于Poisson模型,當(dāng)θ<0.5時(shí),NB模型優(yōu)于GP1模型,此時(shí)選擇NB模型較好;當(dāng)0.5<θ<0.8時(shí),NB模型與GP1模型幾乎無(wú)差別,二者擇一即可;當(dāng)θ>0.8時(shí),NB模型優(yōu)于GP1模型,此時(shí)選擇NB模型較好;并且模型選擇與樣本量n、均值μ的大小無(wú)關(guān).
參考文獻(xiàn)
[1] 楊肇,朱凱旋.Logistic回歸分析中的過(guò)度離散現(xiàn)象及糾正[J].中國(guó)衛(wèi)生統(tǒng)計(jì),2003(4):48-49.
[2] 郭海強(qiáng), 程大麗,黃德生,等.Logistic回歸中數(shù)據(jù)過(guò)度離散及其軟件處理[J].中國(guó)醫(yī)科大學(xué)學(xué)報(bào),2005(2):144-145+166.
[3] Noriszura ISMAIL, Abdul Aziz JEMAIN. Handing overdispersion with negative binomial and generalized poission regression models[C]//Proceedings of Casualty Actuarial Society Forum,2007:102-158.
[4] Richard BERK, John M.MACDONALD. Overdispersion and Poisson regression [J]. Journal of Quantitative Criminology, 2008,24 (3):269-284.
[5] 楊娟,謝遠(yuǎn)濤.基于過(guò)度離散廣義線性模型的來(lái)電量預(yù)測(cè)[J].統(tǒng)計(jì)與決策, 2013(6):33-36.
[6] Jiewu HUANG, Hu YANG. A twoparameter estimator in the negative binomial regression model[J]. Journal of Statistical Computation and Simulation, 2014,84(1):124-134.