魯亞會(huì),劉愛(ài)義
(1.浙江科技學(xué)院 經(jīng)濟(jì)與管理學(xué)院,杭州 310023;2.美國(guó)國(guó)立衛(wèi)生研究院,美國(guó) 貝塞斯達(dá) 20817)
保單持有人和保險(xiǎn)公司的風(fēng)險(xiǎn)防范意識(shí)不斷增強(qiáng),使得大部分保單并不會(huì)發(fā)生風(fēng)險(xiǎn),或者保險(xiǎn)公司與被保險(xiǎn)人簽訂免賠償或無(wú)賠償折扣等條約,也使得在發(fā)生較輕的事故時(shí)被保險(xiǎn)人不提出索賠[1]。這會(huì)導(dǎo)致一份保單或一個(gè)風(fēng)險(xiǎn)類(lèi)別的累積損失數(shù)據(jù)具有下述2個(gè)特點(diǎn):一是出現(xiàn)零過(guò)多現(xiàn)象,因?yàn)榇蟛糠直卧诒kU(xiǎn)期間并未產(chǎn)生索賠,即在零點(diǎn)產(chǎn)生一個(gè)較大的概率堆積;二是非零部分可假設(shè)服從連續(xù)分布。此時(shí),若直接采用傳統(tǒng)的Tweedie回歸模型[2-3]進(jìn)行累積損失預(yù)測(cè),雖然該方法不要求損失次數(shù)與損失金額滿足相互獨(dú)立,但其可能會(huì)在預(yù)測(cè)零概率值時(shí)產(chǎn)生較大偏差,即由Tweedie分布得到的零概率值遠(yuǎn)小于累積損失觀察值的零概率值。雖然目前也有研究者對(duì)Tweedie回歸模型進(jìn)行了改進(jìn)[4],但是也只能對(duì)均值引入?yún)f(xié)變量,而不能對(duì)零概率值引入?yún)f(xié)變量??梢?jiàn),Tweedie回歸模型在預(yù)測(cè)累積損失時(shí)具有一定的局限性。上述累積損失數(shù)據(jù)的2個(gè)特點(diǎn)其實(shí)質(zhì)上就是一種半連續(xù)型數(shù)據(jù),這是由于計(jì)量數(shù)據(jù)中包含過(guò)多零值時(shí),除零以外的非零觀測(cè)值往往是連續(xù)的,所以被稱(chēng)為半連續(xù)數(shù)據(jù)。對(duì)于半連續(xù)數(shù)據(jù),Madden[5]指出此類(lèi)型數(shù)據(jù)可以看作由混合分布產(chǎn)生,即可假設(shè)由零值數(shù)據(jù)(退化分布)和非零連續(xù)數(shù)據(jù)(連續(xù)分布)各占一定比例所構(gòu)成的混合分布所產(chǎn)生[6],目前兩部模型是最常用的擬合分析方法[7-8]。對(duì)于半連續(xù)數(shù)據(jù)的兩部模型,其模型構(gòu)建的基本思路是將數(shù)據(jù)看作由2個(gè)不同的隨機(jī)過(guò)程產(chǎn)生。第一個(gè)過(guò)程考慮零值是否出現(xiàn),即表示某種行為是否發(fā)生,此過(guò)程通常被稱(chēng)為數(shù)據(jù)的二元部分,此部分可假設(shè)服從伯努利分布[9];第二個(gè)過(guò)程考慮非零值的產(chǎn)生,此過(guò)程通常被稱(chēng)為數(shù)據(jù)的連續(xù)部分,此部分可假設(shè)服從一般的連續(xù)分布,如正態(tài)分布、伽馬分布等[10]。為了進(jìn)一步分析半連續(xù)數(shù)據(jù)中自變量對(duì)因變量的影響,需對(duì)二元部分參數(shù)和連續(xù)部分參數(shù)分別引入?yún)f(xié)變量,從而構(gòu)造半連續(xù)兩部回歸模型[11-12]。因此,基于半連續(xù)兩部模型,本研究將提出3種不同的累積損失預(yù)測(cè)模型。即將累積損失看作2個(gè)過(guò)程進(jìn)行分別處理:一是損失是否發(fā)生,假設(shè)服從伯努利分布;二是在損失發(fā)生情況下累積損失金額的分布,分別考慮正態(tài)分布、伽馬分布和逆高斯分布。對(duì)累積損失的2個(gè)過(guò)程分別引入相關(guān)的協(xié)變量進(jìn)行解釋,從而對(duì)累積損失預(yù)測(cè)建立相應(yīng)的伯努利-正態(tài)(Bernoulli-Normal)回歸模型、伯努利-伽馬(Bernoulli-Gamma)回歸模型和伯努利-逆高斯(Bernoulli-Inverse Gaussian)回歸模型。
基于累積損失數(shù)據(jù)所具有的特點(diǎn),其實(shí)質(zhì)上就是一種半連續(xù)型數(shù)據(jù)。在半連續(xù)兩部模型的框架下,下面將提出3種不同的半連續(xù)兩部回歸累積損失模型。
在一個(gè)保險(xiǎn)期間,假設(shè)X={X1,X2,…,Xn}為保單的累積損失金額,其中Xi(i=1,2,…,n)表示第i份保單的累積損失金額,n為保單總份數(shù)[13]。此時(shí),可將累積損失X看作2個(gè)過(guò)程分別進(jìn)行處理:1) 損失是否發(fā)生,假設(shè)服從伯努利分布;2) 損失發(fā)生情況下,假設(shè)累積損失金額服從不同的分布。由此可對(duì)X構(gòu)建半連續(xù)兩部模型:
f(xi)=(1-π)I(xi=0)+[πg(shù)(xi|xi>0;μ,σ,κ)]I(xi>0),xi≥0,i=1,2,…,n。
(1)
式(1)中:π=Pr(X>0)為非零概率值,且0≤π≤1;I(·)為示性函數(shù);g(X|X>0)為X>0部分選定的連續(xù)分布函數(shù);μ為位置參數(shù);σ>0為尺度參數(shù);κ∈R為形狀/偏度參數(shù)。
另外,在累積損失預(yù)測(cè)問(wèn)題中,研究者往往更關(guān)注零概率值。因此,記ν=1-π,并將其代入式(1)中。經(jīng)過(guò)整理,則式(1)轉(zhuǎn)換為
f(xi)=νI(xi=0)+[(1-ν)g(xi|xi>0;μ,σ,κ)]I(xi>0),xi≥0,i=1,2,…,n。
(2)
式(2)中:ν=Pr(X=0)為零概率值。對(duì)非零累積損失數(shù)據(jù)的連續(xù)分布函數(shù)g(X|X>0),下面將分別采用正態(tài)分布(一般需進(jìn)行對(duì)數(shù)轉(zhuǎn)換)、伽馬分布和逆高斯分布進(jìn)行擬合分析。
在半連續(xù)兩部模型(2)中,假設(shè)X>0部分服從正態(tài)分布N(μ,σ2),且考慮到X>0部分具有一定的偏態(tài)性,在實(shí)際應(yīng)用中,一般需對(duì)X>0進(jìn)行對(duì)數(shù)轉(zhuǎn)換。此時(shí),g(X|X>0)分布的密度函數(shù)
(3)
將式(3)代入式(2)中,對(duì)累積損失X構(gòu)建伯努利-正態(tài)兩部模型,即構(gòu)建由零點(diǎn)的退化分布和非零的正態(tài)分布組合的混合分布,其密度函數(shù)
(4)
式(4)中:μ為正態(tài)分布的均值,是位置參數(shù);σ>0為正態(tài)分布的標(biāo)準(zhǔn)方差,是尺度參數(shù)。
為了進(jìn)一步識(shí)別風(fēng)險(xiǎn),在伯努利-正態(tài)兩部模型式(4)中,分別對(duì)ν和μ引入相關(guān)的協(xié)變量,從而能夠分析不同因素對(duì)ν和μ所產(chǎn)生的影響。另外,結(jié)合邏輯連接函數(shù)和對(duì)數(shù)連接函數(shù),得到預(yù)測(cè)累積損失的伯努利-正態(tài)回歸模型:
(5)
式(5)中:z1i=(z1i0,z1i1,…,z1iq1)T為零概率νi的q1+1維協(xié)變量向量;β1=(β10,β11,…,β1q1)T為所對(duì)應(yīng)的q1+1維回歸系數(shù)向量。z2i=(z2i0,z2i1,…,z2iq2)T為均值參數(shù)μi的q2+1維協(xié)變量向量;β2=(β20,β21,…,β2q2)T為其所對(duì)應(yīng)的q2+1維回歸系數(shù)向量。設(shè)定z1i0=z2i0=1,則β10和β20分別表示2個(gè)子回歸部分的截距項(xiàng)。另外,在實(shí)際應(yīng)用中,混合比例νi的協(xié)變量z1i和均值參數(shù)μi的協(xié)變量z2i可以相同,也可以不同。
在半連續(xù)兩部模型式(2)中,假設(shè)X>0部分服從伽馬分布G(μ,σ2)。此時(shí),g(X|X>0)分布的密度函數(shù)[14]
(6)
將式(6)代入式(2)中,對(duì)累積損失X構(gòu)建伯努利-伽馬兩部模型,即構(gòu)建由零點(diǎn)的退化分布和非零的伽馬分布組合的混合分布,其密度函數(shù)
(7)
式(7)中:μ為伽馬分布的均值,是位置參數(shù)。
類(lèi)似于伯努利-正態(tài)回歸累積損失模型,在伯努利-伽馬兩部模型式(7)中,對(duì)ν和μ分別引入相關(guān)的協(xié)變量,并結(jié)合邏輯連接函數(shù)和對(duì)數(shù)連接函數(shù),得到預(yù)測(cè)累積損失的伯努利-伽馬回歸模型:
在半連續(xù)兩部模型式(2)中,假設(shè)X>0部分服從逆高斯分布N(μ,σ2)。此時(shí),g(X|X>0)分布的密度函數(shù)[15]
(8)
將式(8)代入式(2)中,對(duì)累積損失X構(gòu)建伯努利-逆高斯兩部模型,即構(gòu)建由零點(diǎn)的退化分布和非零的逆高斯分布組合的混合分布,其密度函數(shù)
(9)
式(9)中:μ為逆高斯分布的均值,是位置參數(shù)。
同樣,在伯努利-逆高斯兩部模型(9)中,對(duì)ν和μ分別引入相關(guān)的協(xié)變量,并結(jié)合邏輯連接函數(shù)和對(duì)數(shù)連接函數(shù),即得到預(yù)測(cè)累積損失的伯努利-逆高斯回歸模型:
目前,針對(duì)半連續(xù)兩部回歸模型的參數(shù)估計(jì)方法較多,而在實(shí)際應(yīng)用中,具體的參數(shù)估計(jì)方法需根據(jù)調(diào)查目的及所選用的模型而定。極大似然法是一種最常用的參數(shù)估計(jì)方法,其基本算法就是高斯-牛頓(Gauss-Newton)迭代法[16-17]。由于伯努利-伽馬和伯努利-逆高斯回歸累積損失模型的參數(shù)估計(jì)過(guò)程類(lèi)似于伯努利-正態(tài)回歸模型,因此,下面只給出伯努利-正態(tài)回歸模型的高斯-牛頓迭代估計(jì)過(guò)程。
基于伯努利-正態(tài)回歸模型式(5),得到模型的似然函數(shù)
(10)
式(10)中:yi=I(xi>0)。
(11)
(12)
(13)
將式(11)~(13)代入伯努利-正態(tài)似然函數(shù)(10)中,得到其對(duì)數(shù)似然函數(shù)
(14)
式(14)中:
接下來(lái)采用高斯-牛頓迭代法分別對(duì)l1(β1)和l2(β2,σ)進(jìn)行參數(shù)估計(jì)。
記參數(shù)β1的得分函數(shù)
從而得到:
(15)
記參數(shù)β1的觀測(cè)信息陣
從而得到:
(16)
(17)
(18)
通過(guò)計(jì)算得到:
(19)
式(19)中:
下面將本研究所提出的3種半連續(xù)兩部回歸模型和Tweedie回歸模型,在一組機(jī)動(dòng)車(chē)輛第三者責(zé)任險(xiǎn)的累積損失數(shù)據(jù)[18]中進(jìn)行擬合,以比較4種回歸模型的擬合效果。
原始數(shù)據(jù)集來(lái)源于R語(yǔ)言程序包“CASdatasets”,它是一組經(jīng)典的保險(xiǎn)精算數(shù)據(jù)集,共記錄著429 350條損失信息。由于多次損失會(huì)發(fā)生在同一份保單中,通過(guò)累加同一份保單的多次損失,即能夠得到累積損失數(shù)據(jù)集。此外,考慮到預(yù)測(cè)模型的穩(wěn)健性,僅將累積損失小于15 000元的保單保留下來(lái),由此共得到412 990份保單作為最終的累積損失數(shù)據(jù)來(lái)源。在這些數(shù)據(jù)中,共包含397 779份零累積損失保單,因此數(shù)據(jù)中含有大量的零值,也導(dǎo)致一個(gè)很大的零概率堆積。又考慮到數(shù)據(jù)的偏態(tài)性,對(duì)累積損失數(shù)據(jù)中非零值進(jìn)行對(duì)數(shù)轉(zhuǎn)換。此時(shí),分別采用Tweedie模型、伯努利-正態(tài)兩部模型、伯努利-伽馬兩部模型和伯努利-逆高斯兩部模型對(duì)累積損失數(shù)據(jù)進(jìn)行擬合,并使用AIC(Akaike information criterion,赤池信息量準(zhǔn)則)來(lái)比較它們的擬合效果。4種模型的AIC值分別為180 652、174 964、177 893和180 483,結(jié)果表明:相較于傳統(tǒng)的Tweedie模型,3種半連續(xù)兩部模型具有較好的擬合效果,其中伯努利-正態(tài)兩部模型又比其他2種兩部模型的擬合效果更好。
原始數(shù)據(jù)中包含著一些連續(xù)型和分類(lèi)型解釋變量,其中連續(xù)型變量有車(chē)齡、駕駛?cè)塑?chē)齡、人口密度,分類(lèi)型變量有發(fā)動(dòng)機(jī)功率、汽車(chē)品牌、汽車(chē)油耗類(lèi)型。各分類(lèi)解釋變量的取值見(jiàn)表1。為了分析不同因素對(duì)累積損失產(chǎn)生的影響,對(duì)于3種半連續(xù)兩部模型,將數(shù)據(jù)中所有解釋變量分別引入零概率回歸模型和均值回歸模型,建立相應(yīng)的伯努利-正態(tài)回歸模型、伯努利-伽馬回歸模型和伯努利-逆高斯回歸模型。但是對(duì)于Tweedie模型,只能將解釋變量引入均值回歸模型中,建立Tweedie回歸模型。對(duì)于本研究所構(gòu)建的4種回歸模型,記l為對(duì)數(shù)似然函數(shù)值,p為模型的參數(shù)個(gè)數(shù),n為樣本容量。采用AIC和BIC(Bayesian information criterion,貝葉斯信息準(zhǔn)則)進(jìn)行模型比較和選擇,其中AIC值CAIC=-2l+2p,BIC值CBIC=-2l+plnl,且AIC值和BIC值越小,表明模型具有越好的擬合效果。4種回歸模型的擬合優(yōu)度統(tǒng)計(jì)量見(jiàn)表2。
表1 分類(lèi)解釋變量的取值
表2 4種回歸模型的擬合優(yōu)度統(tǒng)計(jì)量
由表2可知,3種半連續(xù)兩部回歸模型的AIC值和BIC值都小于Tweedie回歸模型,表明半連續(xù)兩部回歸模型對(duì)累積損失的擬合效果優(yōu)于Tweedie回歸模型。該結(jié)果可能是由于Tweedie回歸模型只能對(duì)均值建立回歸模型,而無(wú)法對(duì)零概率建立回歸模型;半連續(xù)兩部回歸模型能夠同時(shí)對(duì)均值和零概率建立相應(yīng)的回歸模型。另外,在半連續(xù)兩部回歸模型中,伯努利-正態(tài)回歸模型具有的AIC值和BIC值最小,表明伯努利-正態(tài)回歸模型的擬合效果優(yōu)于其他2種回歸模型,該結(jié)果可能是由于所使用的損失數(shù)據(jù)并不具有明顯的尖峰厚尾特征。
根據(jù)4種回歸模型的AIC值和BIC值可知,伯努利-正態(tài)回歸模型對(duì)本例的損失數(shù)據(jù)具有最優(yōu)的擬合效果。因此,對(duì)于本例的累積損失數(shù)據(jù),本節(jié)將最終建立伯努利-正態(tài)回歸模型,其中對(duì)零概率建立邏輯回歸模型,對(duì)均值建立對(duì)數(shù)回歸模型,且將原始數(shù)據(jù)中的解釋變量作為2個(gè)子回歸模型中的協(xié)變量集。考慮到連續(xù)型變量對(duì)零概率和均值產(chǎn)生的影響并不一定是線性的,在伯努利-正態(tài)回歸模型中,將車(chē)齡平方項(xiàng)和駕駛?cè)塑?chē)齡平方項(xiàng)作為2個(gè)子回歸模型的協(xié)變量,采用高斯-牛頓迭代法進(jìn)行參數(shù)估計(jì)。伯努利-正態(tài)回歸模型的參數(shù)估計(jì)值見(jiàn)表3。
表3 伯努利-正態(tài)回歸模型的參數(shù)估計(jì)值Table 3 Parameter estimates for Bernoulli-Normal regression model
由表3可知,對(duì)于零概率回歸參數(shù),在顯著性水平為5%的情況下,發(fā)動(dòng)機(jī)功率、汽車(chē)品牌、油耗類(lèi)型、人口密度、車(chē)齡和駕駛?cè)塑?chē)齡都對(duì)零概率具有顯著影響,即這些變量都顯著影響著損失發(fā)生的概率。其中人口密度的估計(jì)系數(shù)為負(fù)值,表明它與零概率存在著負(fù)相關(guān),即人口密度值越大,損失發(fā)生的可能性也就越大。另外,車(chē)齡平方項(xiàng)和駕駛?cè)塑?chē)齡平方項(xiàng)對(duì)零概率也具有顯著性影響,但它們的估計(jì)符號(hào)分別與車(chē)齡、駕駛?cè)塑?chē)齡變量相反,該現(xiàn)象表明車(chē)齡和駕駛?cè)塑?chē)齡對(duì)損失發(fā)生概率存在非線性影響。對(duì)于均值回歸參數(shù),在顯著性水平為5%的情況下,汽車(chē)品牌、油耗類(lèi)型和駕駛?cè)塑?chē)齡都對(duì)均值具有顯著影響,即這些變量都顯著影響著累積損失的大小。油耗類(lèi)型的估計(jì)系數(shù)為負(fù)值,表明它與均值存在著負(fù)相關(guān),即汽車(chē)油耗類(lèi)型為普通油時(shí),會(huì)減少累積損失的金額。另外,駕駛?cè)塑?chē)齡平方項(xiàng)對(duì)均值也具有顯著性影響,且該項(xiàng)的估計(jì)符號(hào)與駕駛?cè)塑?chē)齡變量相反,該現(xiàn)象也表明駕駛?cè)塑?chē)齡對(duì)累積損失金額存在非線性影響。
在保險(xiǎn)研究中,累積損失預(yù)測(cè)是厘定純保費(fèi)的關(guān)鍵工作,目前最常用的模型就是Tweedie回歸模型。但是該模型只能對(duì)非零均值建立回歸模型,卻不能對(duì)零概率建立回歸模型,從而導(dǎo)致其對(duì)累積損失的擬合結(jié)果產(chǎn)生偏差。由于累積損失數(shù)據(jù)往往會(huì)出現(xiàn)零過(guò)多現(xiàn)象,本研究將該數(shù)據(jù)視作半連續(xù)數(shù)據(jù)構(gòu)建模型,并考慮到數(shù)據(jù)中非零連續(xù)部分的分布類(lèi)型,分別提出伯努利-正態(tài)兩部模型,伯努利-伽馬兩部模型和伯努利-逆高斯兩部模型。在這3種不同的模型中,對(duì)零概率參數(shù)和均值參數(shù)分別引入相關(guān)的協(xié)變量,從而建立預(yù)測(cè)累積損失的伯努利-正態(tài)回歸模型,伯努利-伽馬回歸模型和伯努利-逆高斯回歸模型。此外,本研究將所提出模型應(yīng)用于一組機(jī)動(dòng)車(chē)輛第三者責(zé)任保險(xiǎn)的損失數(shù)據(jù)擬合中,并與傳統(tǒng)的Tweedie回歸模型進(jìn)行對(duì)比。實(shí)證結(jié)果表明:相較于Tweedie回歸模型,3種半連續(xù)兩部回歸模型具有較好的擬合效果;其中伯努利-正態(tài)回歸預(yù)測(cè)模型又優(yōu)于其他2種模型。
本研究仍存在著一些待進(jìn)一步探討的問(wèn)題。例如,隨著信息技術(shù)的發(fā)展,獲取累積損失數(shù)據(jù)中往往包含大量的候選解釋變量,如何在保證模型的準(zhǔn)確性和解釋性的前提下,更好地選擇出更重要的變量子集,這在模型構(gòu)建中就會(huì)產(chǎn)生一個(gè)變量選擇的問(wèn)題。因此,半連續(xù)兩部回歸損失預(yù)測(cè)模型的變量選擇將是我們后續(xù)研究的重點(diǎn)之一。