黃順林,張 穎,陳 娜
(1.南京財(cái)經(jīng)大學(xué) 應(yīng)用數(shù)學(xué)學(xué)院,南京 210046;2.中國(guó)人民大學(xué) 統(tǒng)計(jì)學(xué)院,北京 100872;3.南京郵電大學(xué) 通達(dá)學(xué)院,南京 210003)
在財(cái)產(chǎn)保險(xiǎn)中,保險(xiǎn)定價(jià)、損失理賠是保險(xiǎn)業(yè)務(wù)的核心問(wèn)題,而保費(fèi)定價(jià)的基礎(chǔ)就是對(duì)所考慮險(xiǎn)種索賠金額損失分布的精確估計(jì),因此,財(cái)產(chǎn)損失分布建模,是精算師的一項(xiàng)極為重要的工作。一般來(lái)說(shuō),不同保險(xiǎn)標(biāo)的財(cái)產(chǎn)損失具有不同的分布模型,因此在早期的研究中,人們通常針對(duì)具體險(xiǎn)種的歷史損失數(shù)據(jù),選擇理論模型,然后再利用實(shí)際數(shù)據(jù)進(jìn)行參數(shù)估計(jì)和擬合檢驗(yàn)。Hogg等(1984)[1]給出了很多索賠額分布的可能選擇。由于索賠額的損失分布通常是連續(xù)右偏的分布,所以常常使用伽瑪分布、逆高斯分布、對(duì)數(shù)正態(tài)分布和帕累托分布來(lái)對(duì)索賠額進(jìn)行量化。在應(yīng)用中,韓天雄[2]根據(jù)具體險(xiǎn)種特點(diǎn),提出構(gòu)造索賠額密度函數(shù)的修正方法來(lái)擬合索賠額分布,達(dá)到了比較理想的擬合效果。但是,如果統(tǒng)計(jì)數(shù)據(jù)中含有與索賠額相關(guān)的風(fēng)險(xiǎn)因素信息時(shí),直接對(duì)索賠數(shù)據(jù)進(jìn)行擬合就不是很有用,因?yàn)樗鼪](méi)有把所觀察到的風(fēng)險(xiǎn)因素信息考慮在內(nèi)。廣義線性模型將經(jīng)典線性模型中的因變量的正態(tài)假設(shè)放寬為具有離散參數(shù)的指數(shù)型分布,并通過(guò)聯(lián)結(jié)函數(shù)將因變量和解釋變量之間的關(guān)系設(shè)定為非線性關(guān)系,從而克服了經(jīng)典線性模型在應(yīng)用上的局限性。廣義線性模型因此在精算學(xué)的各個(gè)領(lǐng)域中得到廣泛運(yùn)用。
在對(duì)索賠額建立廣義線性模型時(shí),傳統(tǒng)上是把索賠額分為零索賠額和非零索賠額來(lái)考慮,先對(duì)零索賠額建立以“索賠發(fā)生與否”為因變量的模型,再對(duì)非零索賠額建立模型,然后把兩個(gè)模型的結(jié)果合并,來(lái)對(duì)索賠額進(jìn)行預(yù)測(cè)分析。如Haberman和Renshaw(1996)[3]基于非零索賠額與風(fēng)險(xiǎn)因素的關(guān)系建立了索賠額模型,得到非零索賠額的估計(jì)和風(fēng)險(xiǎn)因素的影響,然后再考慮索賠發(fā)生的概率,最后把兩者結(jié)合在一起,對(duì)索賠額進(jìn)行了分析研究。之后的許多研究大多是在此基礎(chǔ)上發(fā)展的,而把零索賠額和非零索賠額作為整體來(lái)考慮建立模型的很少,如 Jφrgensen和 de Souza(1994)[4]和 Smyth和Jφrgensen(2002)[5]基于復(fù)合泊松分布,并對(duì)期望值和離散參數(shù)分別建立與風(fēng)險(xiǎn)因素的關(guān)系,對(duì)索賠額進(jìn)行了研究。
本文將以零索賠額和非零索賠額的整體作為研究對(duì)象,基于Tweedie分布族和零調(diào)整逆高斯分布建立索賠額回歸模型,并以汽車(chē)第三者責(zé)任保險(xiǎn)的損失數(shù)據(jù)為例,應(yīng)用這兩個(gè)回歸模型。
Tweedie分布族是指數(shù)散度模型中的一類(lèi),一般用Twp(θ,φ)來(lái)表示,其中,θ為規(guī)范參數(shù),φ為離散參數(shù)。Tweedie分布族由其方差函數(shù)V(μ)=μp完全確定,p取值于 (-∞,0)∪[1,+∞)。它包括了幾個(gè)常見(jiàn)重要分布作為其特例:p=0,1,2,3分別對(duì)應(yīng)于正態(tài)分布、泊松分布、伽瑪分布和逆高斯分布。在1<p<2 時(shí),相應(yīng)的 Twp(θ,φ)是一個(gè)復(fù)合泊松分布,即 y=x1+x2…+XC,C服從泊松分布,xj獨(dú)立且服從伽瑪分布,則y就服從Twp(θ,φ)(1<p<2)。
實(shí)際中許多保單都允許多次索賠,令Ni表示第i個(gè)風(fēng)險(xiǎn)類(lèi)別的索賠次數(shù),ωi表示第i個(gè)風(fēng)險(xiǎn)類(lèi)別的風(fēng)險(xiǎn)個(gè)數(shù),yi表示第i個(gè)風(fēng)險(xiǎn)類(lèi)別的每單位索賠額隨機(jī)變量,i=1,2,…,n。假設(shè)Ni服從泊松分布,每次索賠額獨(dú)立且服從伽瑪分布,則yi服從 Twp(θi,φi)(1<p<2)分布,其在零點(diǎn)有一個(gè)集中概率,在大于零時(shí),是連續(xù)分布。
以Tweedie分布為因變量的分布建立廣義線性模型:
其中xi=(xi1,…,xiq)T是由q個(gè)分類(lèi)變量構(gòu)成的向量,T表示轉(zhuǎn)置,β是q×1階的參數(shù)向量。
回歸參數(shù)β可用極大似然法估計(jì),其Fisher得分更新方程為:
可以看出這與加權(quán)最小二乘法的估計(jì)方程具有相同的形式,只是需要迭代使用,所以模型的極大似然估計(jì)等價(jià)于迭代加權(quán)最小二乘估計(jì)。參數(shù)估計(jì)的標(biāo)準(zhǔn)誤可以從Fisher信息矩陣的逆中得到,F(xiàn)isher信息矩陣為:
Δ近似服從自由度為n-q的卡方分布。因此,如果模型是適當(dāng)?shù)?,則根據(jù)觀察數(shù)據(jù)與模型計(jì)算的Δ值應(yīng)該接近n-q。
把索賠額分為零索賠額和非零索賠額考慮時(shí),先對(duì)零索賠額建立以“索賠發(fā)生與否”為因變量的logistic回歸模型,再對(duì)非零索賠額建立伽瑪或逆高斯等回歸模型,然后把兩個(gè)模型的結(jié)果合并,來(lái)對(duì)索賠額進(jìn)行預(yù)測(cè)分析。而零調(diào)整逆高斯回歸模型把這兩個(gè)模型合并在一個(gè)模型中,直接對(duì)索賠額建立預(yù)測(cè)分析模型。
假定y表示索賠額,則其分布是離散與連續(xù)相混合的。假定發(fā)生索賠的概率為π,非零索賠額的密度函數(shù)為h(y),則y的密度函數(shù)為:
若假設(shè)“索賠發(fā)生與否”這個(gè)二元隨機(jī)變量服從參數(shù)為π的貝努利分布,非零索賠額服從逆高斯分布IG(μ,σ2),則索賠額服從零調(diào)整逆高斯分布。其期望和方差分別為:
以零調(diào)整逆高斯分布作為因變量的分布可建立零調(diào)整逆高斯回歸模型,其π、μ和σ都可以是解釋變量的函數(shù):
其中 g1、g2、g3是聯(lián)結(jié)函數(shù),x、z、w 是由解釋變量構(gòu)成的向量,β、γ、λ是相應(yīng)的需要估計(jì)的參數(shù)向量。模型的參數(shù)可使用Rigby和 Stasinopoulos(2005)[6]介紹的backfitting算法進(jìn)行估計(jì),利用統(tǒng)計(jì)軟件R的gamlss模塊可以實(shí)現(xiàn)。
下面用汽車(chē)第三者責(zé)任保險(xiǎn)的一組損失數(shù)據(jù)討論Tweedie回歸模型與零調(diào)整逆高斯回歸模型在汽車(chē)保險(xiǎn)定價(jià)中的具體應(yīng)用 (數(shù)據(jù)來(lái)源http://www.statsci.org/data/general/motorins.html)。該數(shù)據(jù)包含的變量有:每年行駛里程數(shù)(5個(gè)水 平 : <1000、1000 ~15000、15000 ~20000、20000 ~25000、 >25000;用K表示);地區(qū)(7個(gè)地理區(qū)域,用Z表示);無(wú)賠款折扣等級(jí)(7個(gè)等級(jí),用 B表示);車(chē)型(9個(gè)水平,用 M表示);保單年數(shù),索賠次數(shù)和總索賠額。
設(shè)y表示每保單年數(shù)的索賠額,將每年行駛里程數(shù)、地區(qū)、無(wú)賠款折扣等級(jí)、車(chē)型作為解釋變量來(lái)對(duì)索賠額建立Tweedie回歸模型與零調(diào)整逆高斯回歸模型。
首先建立Tweedie回歸模型,選擇對(duì)數(shù)聯(lián)結(jié)函數(shù),即
其中 β=(β0,β1,…,β28)T,x=(1,x1,x2,…,x28)T,參數(shù) β0對(duì)應(yīng)截距項(xiàng),β1至β28分別是對(duì)應(yīng)5個(gè)里程數(shù)、7個(gè)地區(qū)、7個(gè)折扣等級(jí)、9種車(chē)型的系數(shù)。
先用極大似然法估計(jì)參數(shù)p,調(diào)用R軟件中的tweedie模塊得到p=1.53。然后運(yùn)用R軟件中的statmod模塊得到模型擬合結(jié)果。從結(jié)果(具體結(jié)果表略)中可以看出,大部分參數(shù)的估計(jì)值都是顯著的,而且偏差為48217/40=1205,自由度為2157,說(shuō)明模型整體擬合的效果比較理想。
以對(duì)應(yīng)于地區(qū)1、年行駛里程數(shù)小于1000公里、無(wú)賠款折扣等級(jí)1、車(chē)型1為基準(zhǔn)的保單年索賠額的估計(jì)值為713.37,其他類(lèi)別保單的年索賠額為基準(zhǔn)類(lèi)別的年索賠額乘以相應(yīng)的eβ^。下面考慮各個(gè)風(fēng)險(xiǎn)因素對(duì)索賠額的具體影響。除了年行駛里程數(shù)水平3,其對(duì)索賠額的影響是單調(diào)的,隨著行駛里程數(shù)的增加,索賠額也相應(yīng)增加。就無(wú)賠款折扣等級(jí)而言,其對(duì)索賠額的影響也近乎單調(diào)的,處在折扣的等級(jí)越高,其索賠額越低,風(fēng)險(xiǎn)也就相對(duì)較小。在折扣等級(jí)7的索賠額只有等級(jí)1得索賠額的33%。對(duì)所處地區(qū)而言,地區(qū)1的風(fēng)險(xiǎn)最大,地區(qū)7的風(fēng)險(xiǎn)最小,其他地區(qū)的索賠額相差不大。從車(chē)型看,參數(shù)估計(jì)的顯著性普遍不是太顯著,可認(rèn)為車(chē)型對(duì)索賠額的影響不大,不過(guò)從估計(jì)的結(jié)果還是能發(fā)現(xiàn),車(chē)型4的風(fēng)險(xiǎn)最小,車(chē)型5與車(chē)型8的風(fēng)險(xiǎn)相對(duì)較高,而且是比較顯著的。
再對(duì)這組數(shù)據(jù)建立零調(diào)整逆高斯回歸模型:
這里μ和σ的聯(lián)結(jié)函數(shù)為對(duì)數(shù)聯(lián)結(jié)函數(shù),而π選用lo?gistic聯(lián)結(jié)函數(shù)。
選用與Tweedie回歸模型相同的基準(zhǔn)類(lèi)別,并運(yùn)用R軟件中的gamlss模塊得到模型擬合結(jié)果:模型的偏差為25491,基準(zhǔn)類(lèi)別的非零索賠額估計(jì)值為749.94,索賠發(fā)生概率的估計(jì)值為:
從實(shí)際數(shù)據(jù)看,基準(zhǔn)類(lèi)別保單索賠是發(fā)生的,所以與實(shí)際相符,則索賠額的估計(jì)值為 749.94×0.998=748.21,與Tweedie回歸模型的估計(jì)值相差不大。其它類(lèi)別保單的非零索賠額與索賠概率可從相應(yīng)的參數(shù)估計(jì)值中得到,例如對(duì)于地區(qū)5、年行駛里程數(shù)20000~25000公里、無(wú)賠款折扣等級(jí)6、車(chē)型4的保單,其非零索賠額估計(jì)值為749.94×0.84×1.62×0.38×0.52=201.65,索賠概率估計(jì)值為:
從參數(shù)估計(jì)結(jié)果看 (Tweedie回歸與零調(diào)整逆高斯回歸的參數(shù)估計(jì)結(jié)果表略),零調(diào)整逆高斯回歸模型得出的各風(fēng)險(xiǎn)因素對(duì)索賠額的影響與Tweedie回歸模型基本相同。但由于這組數(shù)據(jù)的索賠概率很高,使得零調(diào)整逆高斯模型的擬合偏差較大,所以對(duì)這組損失數(shù)據(jù)來(lái)說(shuō),Tweedie回歸模型的整體擬合效果更好。
本文針對(duì)零索賠額和非零索賠額建立了Tweedie和零調(diào)整逆高斯回歸模型,并且給出參數(shù)估計(jì)方法和擬合檢驗(yàn)過(guò)程,結(jié)合實(shí)際案例進(jìn)行了系統(tǒng)的理論方法論述和比較分析,對(duì)于零索賠額和非零索賠額損失分布建模問(wèn)題給出了一套完整、清晰的思路。
另外,在零調(diào)整逆高斯回歸模型中假定保單分為有索賠和無(wú)索賠兩類(lèi),而沒(méi)有考慮多次索賠的情形,在Tweedie回歸模型中,假定了保單的索賠次數(shù)服從泊松分布,每次索賠額獨(dú)立且服從伽瑪分布的情形。在進(jìn)一步的研究中我們可以把多次索賠的其他情形考慮進(jìn)去,不同的索賠次數(shù)分布與每次索賠額分布的假定,都會(huì)相應(yīng)產(chǎn)生不同的索賠額的分布,從而得到不同的回歸模型。比如,索賠次數(shù)的分布可以是負(fù)二項(xiàng)分布、零膨脹泊松分布等,每次索賠額分布可以是逆高斯分布、對(duì)數(shù)正態(tài)分布等。在具體應(yīng)用時(shí),要根據(jù)損失數(shù)據(jù)的具體特點(diǎn)以及積累經(jīng)驗(yàn),來(lái)選取合適的模型。
[1]Hogg,R.V.,Klugman,S.A.Loss Distributions[M].New York:Wiley,1984.
[2]韓天雄.保險(xiǎn)索賠額的分布及其應(yīng)用[J].華東師范大學(xué)學(xué)報(bào)(自然科學(xué)版),1997,(4).
[3]Haberman,S.,Renshaw,A.E.Generalized Linear Models and Actuarial Science[J].The Statistician,1996,45(4).
[4]Jφrgensen,B.,de Souza,M.Fitting Tweedie’s Compound Poisson Model to Insurance Claims Data[J].Scandinavian Actuarial Journal,1994,(1).
[5]Smyth,G.K.,Jφrgensen,B.Fitting Tweedie’s Compound Poisson Modelto Insurance ClaimsData:Dispersion Modelling[J].Astin Bulletin,2002,(32).
[6]Rigby,R.A.,Stasinopoulos,D.M.Generalized Additive Models for Location,Scale and Shape(with discussion)[J].Applied Statistics,2005,(54).