蔣 彧
(南京大學 商學院,南京 210093)
在精算領域和保險實務中,在為保單組的總索賠額建模時,通常不是直接對總索賠額進行建模,而是對索賠次數(shù)和個體索賠額分別建模,進而運用索賠次數(shù)和個體索賠額分布的信息來得到總索賠額分布的信息。Klugman等(2004)指出對索賠次數(shù)和個體索賠額分別建模的優(yōu)勢在于:(1)可以單獨考察業(yè)務量的增長對索賠次數(shù)以及總索賠額的影響,提高對下一年總索賠額預測的精確度;(2)個體保單條款的更改以及通貨膨脹對個體索賠額的影響將更容易得到研究;(3)可以構造出更準確、更靈活的模型。因此,相比于僅對總索賠額進行分析,對索賠次數(shù)和個體索賠額都有所了解,可以更加深入地理解與承保相關的各種因素,并有助于保險公司根據(jù)實際數(shù)據(jù)對保單條款進行修改。
在總索賠額模型中,通常用于描述個體索賠額的分布為非負的連續(xù)分布,用于描述索賠次數(shù)的分布為在非負整數(shù)值上具有概率的離散分布。標準連續(xù)分布的種類眾多,如對數(shù)正態(tài)分布、Pareto分布、Gamma分布等,因此,在保險實務中可以根據(jù)個體索賠額的樣本信息,選擇具有類似特征的標準分布,以實現(xiàn)對個體索賠額分布較好的估計效果。然而,用于描述索賠次數(shù)的標準分布并不是太多,主要為泊松分布、二項分布和負二項分布。Panjer(2006)認為這三類分布往往不能較好地對實際索賠次數(shù)進行擬合,其原因在于不能較好地擬合索賠次數(shù)分布的形態(tài),尤其是不能很好地對索賠次數(shù)分布的左右尾部進行擬合。
索賠次數(shù)的取值范圍為非負整數(shù),索賠次數(shù)的分布左尾部指的是索賠次數(shù)為零的概率,即一份保單在保險期限內(nèi)沒有索賠發(fā)生的概率。在保險實務中,由于事故發(fā)生的概率通常較低以及多數(shù)保單設有免賠額條款,因此,實際引發(fā)索賠的概率會很低,這就導致索賠次數(shù)的分布在零點具有較大的概率值。運用以上三種標準分布對索賠次數(shù)進行估計時,如果參數(shù)估計較好地擬合了零點的高概率,則估計結果將大大降低索賠次數(shù)分布右尾部的概率;如果對右尾部的擬合較好,則對零點概率的估計將遠低于實際情況。因此,Klugman等(2004)認為需要對于索賠次數(shù)在零點的概率估計給予特殊的處理,其方法是對現(xiàn)有標準分布在零點的概率進行修正,修正后的分布即為零點修正分布。
假設離散型非負整數(shù)隨機變量N的分布的概率函數(shù)為:
其中,θ是概率函數(shù)的參數(shù)。對N的分布進行零點修正,得到新的隨機變量NM。定義NM在零點的概率為①當=0時,零點修正分布亦稱為零點截斷分布。零點截斷隨機變量的最小取值為1。,在非零點的概率定義為:
由于:
由此得到:
因此,NM服從基于隨機變量N的零點修正分布②零點修正分布屬于(a,b,1)類分布族,概率函數(shù)滿足遞推關系式pk=(a+b/k)pk-1(k≥2),其中a、b為常數(shù)。,其概率函數(shù)為:
早期關于零點修正或零點截斷分布的應用多集中于生物統(tǒng)計領域。近年來,零點修正分布逐漸被運用于計量經(jīng)濟學,醫(yī)學、社會學等。特別是隨著保險市場和精算學的快速發(fā)展,零點修正分布被廣泛應用于對索賠次數(shù)分布的估計。Panjer和Willmot(1992)首先在保險風險模型中引入了零點修正分布的概念。Klugman等(2004)將零點修正分布應用于汽車保險索賠次數(shù)分布的估計,發(fā)現(xiàn)零點修正分布較原始分布有著更好的擬合效果和估計精度。Lord等(2005)運用零點修正的泊松分布和零點修正的負二項分布,對機動車輛碰撞次數(shù)進行了建模。此外,零點修正分布還可以應用于計數(shù)數(shù)據(jù)的廣義線性回歸模型,通過對零點概率的修正,可以提高回歸模型的準確度。
現(xiàn)有文獻中均采用極大似然法對零點修正分布的參數(shù)進行估計,缺少關于其他估計方法以及估計結果優(yōu)劣的討論。因此,本文將介紹三種零點修正分布的參數(shù)估計方法,并對估計效果進行比較分析。
假設關于索賠次數(shù)的樣本為 n=(n0,n1,n2,…)′,其中nk(k=0,1,2,…)表示樣本中索賠次數(shù)為k次的觀測數(shù),表示樣本的總觀測數(shù)。根據(jù)索賠次數(shù)的樣本數(shù)據(jù),本文介紹三種零點修正分布的參數(shù)估計方法,分別為極大似然估計、貝葉斯估計和矩方法。
根據(jù)索賠次數(shù)樣本和零點修正分布的概率函數(shù),似然函數(shù)的表達式如下:
相應的對數(shù)似然函數(shù)為:
對數(shù)似然函數(shù)(3)關于參數(shù) pM0的一階條件為:
其具體形式由N的概率函數(shù)決定。參數(shù)θ的極大似然估計θ即為式(6)的解。
下文將以零點修正的泊松分布和零點修正的幾何分布為例,介紹參數(shù)θ估計的具體方法。假設N服從參數(shù)為λ的泊松分布,則其概率函數(shù)為:
此時,θ=λ,關于參數(shù)λ的一階條件(6)為:
假設N服從參數(shù)為p的幾何分布,則其概率函數(shù)為:
此時,θ=p,關于參數(shù) p的一階條件(6)為:
參數(shù)p的極大似然估計為:
參數(shù)θ的先驗分布將根據(jù)N分布中參數(shù)θ的要求而進行選擇,假設其密度函數(shù)為 f(θ)。因此,參數(shù)和θ的聯(lián)合后驗密度函數(shù)為:
參數(shù)θ的后驗密度核為:
其具體形式由N的概率函數(shù)和θ先驗分布的密度函數(shù)共同決定。
假設N服從參數(shù)為λ的泊松分布,此時λ>0,先驗分布可選擇為Gamma分布:
根據(jù)式(7)、式(16)和式(17),λ的后驗密度核為:
由于式(18)不是已知標準分布的密度核,λ后驗分布可以運用Metropolis-Hastings算法進行抽樣。獲取λ后驗分布M次抽樣的算法如下:
(1)根據(jù)先驗分布式(17),獲得初始抽樣 λ(0);
(2)當 1≤m≤M 時,抽取候選抽樣 λ*~N(λ(m-1),ν),ν>0;
(3)根據(jù)式(18),計算 α(λ*|λ(m-1))=min[f(λ*|n)/f(λ(m-1)|n),1];
(4)以 α(λ*|λ(m-1))為概率接受 λ(m)=λ*,否則 λ(m)=λ(m-1);
(5)重復步驟2至步驟4,直至獲得M次抽樣。
假設N服從參數(shù)為 p的幾何分布,此時 p∈[0,1],先驗分布可選擇為Beta分布:
根據(jù)式(9)、式(17)和式(19),p的后驗密度核為:
根據(jù)式(20),p的后驗分布為:
根據(jù)零點修正分布的概率函數(shù)式(1),零點修正分布隨機變量NM的i階原點矩為:
假設N服從參數(shù)為λ的泊松分布,零點修正的泊松分布的參數(shù)為和λ。此時,求解以下關于參數(shù)和λ的方程組得到矩方法估計和:
表1列出了某保險公司某年機動車輛保險索賠次數(shù)的樣本①數(shù)據(jù)來源于Klugman等(2004)。。在1875位被保險人中,在保單期限內(nèi)索賠次數(shù)的可能取值分別為0至4次,其中沒有索賠發(fā)生的人數(shù)達到1663人。
表1 機動車輛保險索賠次數(shù)的樣本數(shù)據(jù)
根據(jù)以上樣本數(shù)據(jù),運用前文介紹的極大似然估計、貝葉斯估計②先驗分布的參數(shù)取值為 =9,=1,=2, =8,=9,=1。以及矩方法,對零點修正的泊松分布和零點修正的幾何分布的參數(shù)進行了估計。表2給出了參數(shù)的估計結果以及相應的對數(shù)似然函數(shù)值,同時表2還給出了泊松分布和幾何分布的結果作為參考。表3列出了以貝葉斯估計為例的索賠次數(shù)分布的估計觀測數(shù),即樣本容量與索賠次數(shù)概率估計值的乘積。
表2 零點修正分布的參數(shù)估計結果和對數(shù)似然函數(shù)值
根據(jù)表2和表3中的結果,可以發(fā)現(xiàn)以下結論:
(1)無論是泊松分布還是幾何分布,零點修正后的分布的擬合效果明顯優(yōu)于原始分布的擬合效果,其原因主要在于原始分布對于零點的擬合較差。以表3中的貝葉斯估計為例,泊松分布在零點的估計觀測數(shù)為1628.09,幾何分布在零點的估計觀測數(shù)為1643.81,均小于實際樣本中索賠次數(shù)為0的觀測數(shù)1663。
(2)無論是哪種分布情況,由于貝葉斯估計的對數(shù)似然函數(shù)值最大,因此,貝葉斯估計的擬合效果優(yōu)于極大似然估計和矩方法估計的擬合效果。由于為分布的參數(shù)引入了先驗分布,因此貝葉斯估計較其他兩種估計方法在可操作性上具有更大的靈活性,但需要指出的是如果先驗分布選取不當,可能會造成其在估計上的誤差。
(3)針對表1中的樣本數(shù)據(jù),零點修正幾何分布的擬合效果優(yōu)于零點修正泊松分布的擬合效果,其原因在于前者對于樣本右尾部的擬合優(yōu)于后者。以表3中的貝葉斯估計為例,零點修正幾何分布中索賠次數(shù)為4次的期望值是1.24,零點修正泊松分布中索賠次數(shù)為4次的期望值是0.60,而實際樣本中索賠次數(shù)為4次的觀測值則是2。
表3 樣本的實際觀測數(shù)與分布的估計觀測數(shù)(貝葉斯估計)
在保險實務中,發(fā)生事故或索賠的概率通常較低,因此存在大量無索賠發(fā)生的保單,從而導致索賠次數(shù)的分布在零點的概率較大。傳統(tǒng)用于描述索賠次數(shù)分布的標準分布往往無法對零點概率進行較好的估計,進而產(chǎn)生較大的估計誤差。因此,需要對標準分布在零點的概率進行修正,由此產(chǎn)生新的分布族,即為零點修正分布。本文首先介紹了零點修正分布的定義,然后提出了三種零點修正分布參數(shù)的估計方法:極大似然估計、貝葉斯估計以及矩方法,最后以一組汽車保險索賠次數(shù)的實例對三種估計方法進行了比較。結果表明零點修正分布比傳統(tǒng)的標準分布具有更好的估計效果,而在這三種方法中貝葉斯估計具有最好的擬合效果。
[1]Panjer H.Zero-Modified Frequency Distributions[M].New Jer?sy:Wiley,2006.
[2]Klugman S,Panjer H,Willmot G.Loss Models:From Data to Decisions(2nd edition)[M].New Jersey:Wiley Series in Proba?bility and Statistics,2004.
[3]David N,Johnson T.The Truncated Poisson[J].Biometrics,1952,(8).
[4]Cohen A C.An Extension of A Truncated Poisson Distribution[J].Bio?metrics,1960,(16).
[5]Ridout M,Demetrio C,Hinde J.Models for Count Data With Many Zeros[J].Proceedings of the XIX International Biometric Conference,1998.
[6]Cheung Y B.Zero-inflated Models for Regression Analysis of Count Data:A Study of Growth and Development[J].Statistics in Medicine,[J].2002,(21).
[7]Lambert D.Zero-inflated Poisson Regression,With an Application to Defects in Manufacturing[J].Technometrics,1992,(34).
[8]Panjer H.Willmot G.Insurance Risk Models[M].Schaumburg:Society of Actuaries,1992.
[9]Lord D.Washington S P,Ivan J N.Poisson,Poisson-gamma and Ze?ro-inflated Regression Models for Motor Vehicle Crashes Balancing Statistical Fit and Theory[J].Accident Analysis and Prevention,2005,(37).
[10]Boucher J P,Denuit M,Guillen M.Risk Classification for Claim Counts:A Comparative Analysis of Various Zero-inflated Mixed Poisson and Hurdle Models[J].North American Actuarial Journal,2008,(11).