郭念國
(河南工業(yè)大學 理學院,鄭州 450001)
在非壽險精算領域,如何厘定出價格合理、具有競爭性的保險產品是保險人關注的一個重要問題。因為產品的價格不僅僅關系到新客戶的加入,還影響到老客戶的去留,而且價格合理的保險產品在一定程度上可以避免被保險人出現(xiàn)道德風險和逆選擇,從而減少保險人不必要的損失。分類費率厘定方法作為非壽險精算中費率厘定最重要的方法之一,其基本思想是基于保險市場中被保險人的風險水平的不同進行分組劃分,對不同的風險組別分別厘定費率,而辨別各個風險組別之間是否存在顯著性差別,是厘定費率的一個前提條件。廣義線性模型作為分類費率厘定的一個重要統(tǒng)計工具,在非壽險精算領域取得了大量的研究成果。
分位數(shù)回歸作為線性模型的推廣,可以通過選取不同的回歸分位,更全面的刻畫條件分布,而且其具有參數(shù)估計的穩(wěn)健性和單調變換不變性等優(yōu)良特性。實踐證明Koenker[1],在滿足廣義線性模型假設的條件下,利用分位數(shù)回歸模型估計的結果與廣義線性模型的估計幾乎一致;如果假設條件不滿足,分位數(shù)回歸估計的結果會更好,從而,使得分位數(shù)回歸的理論和方法在各個領域的研究應用得到迅速發(fā)展。郭念國和徐昕[2]利用分位數(shù)回歸模型對非壽險精算中厘定變量對損失變量的影響進行了整體分析,但利用分位數(shù)回歸模型研究非壽險精算中問題的文獻尚不多見。
本文基于中位數(shù)回歸模型的優(yōu)良性,對費率因子水平的顯著性進行判別,并與其他模型進行比較。為更好的理解中位數(shù)回歸模型,本文首先介紹了中位數(shù)和中位數(shù)回歸模型的概念及其實現(xiàn)算法;然后基于中位數(shù)回歸模型的思想和算法,對中位數(shù)回歸估計的優(yōu)良性進行了說明;最后給出實證分析。
中位數(shù)是分位數(shù)的一個特例,樣本中位數(shù)一般定義為有序集合的中間值,即樣本中位數(shù)把樣本分成數(shù)目相等的兩部分,一部分均大于中位數(shù),另一部分均小于中位數(shù)。通常用樣本中位數(shù)來估計總體中位數(shù)m,即如果變量Y代表總體,則
定義1 設隨機變量Y的累積分布函數(shù)為F(y)=P(Y≤y),則Y的中位數(shù)為QY(0.5)=min{P(Y≤η)≥0.5}。
由中位數(shù)的定義可以看出,中位數(shù)只與其所在序列的位置有關,從而比均值更具有穩(wěn)定性。如調查某社區(qū)的家庭收入情況,因為客觀原因,可能只有少數(shù)的家庭收入很高,從而該分布是右偏的,用中位數(shù)代表家庭收入比均值更能反映多數(shù)家庭收入狀況。
定義2 設(yi,xi)為第i個觀測值,其中xi=(xi1,xi2,…,xip)T,i=1,2,…,n,稱下式為中位數(shù)回歸模型。
其中β0.5為下式的解
穩(wěn)健性考慮的問題是:當實際模型中的分布與假定模型中的分布有微小差異時,統(tǒng)計方法的性能會受到怎么樣的影響?;贖ampel[5]提出的影響函數(shù),下面給出中位數(shù)回歸模型具有穩(wěn)健性,而均值模型不具有。
假定式(5)中分母存在且大于零。
一個好的統(tǒng)計模型,不僅僅具有穩(wěn)健性,而且還應該具有變量變換的不變性。如一個索賠額y(以美元為單位)的統(tǒng)計模型,若變換索賠額y的度量貨幣,如人民幣,希望這種變化對模型的估計結果沒有影響;如果對模型中的因變量作變換,也希望模型中的參數(shù)發(fā)生同步變化,而模型解釋的結論并不改變,這就是模型的單調變換的不變性,中位數(shù)回歸模型就具有該性質。
假如h(?)是實數(shù)R上的非減函數(shù),對于任意的隨機變量Y,下式成立
稱(6)式為分位數(shù)的單調變換不變性。
式(6)成立是因為
由式(6)可知,對變量Y做h(?)變換后的中位數(shù)等于Y 的中分位數(shù)做 h(?)變換。由式(6)和式(1)知,
其中X為協(xié)變量。從而,中位數(shù)回歸模型對于變量Y做變換h(?)后的中分位數(shù)的值大小沒有發(fā)生變化,即模型的結論沒有變化,稱該性質為中位數(shù)回歸模型的單調變換的不變性。該性質對于線性模型不成立,因為E(h(Y))≠h(E(y)),除非 h(?)是妨射變換。
本文利用P.de Jong等[6]中分析的車輛保險數(shù)據對費率因子的顯著性進行分析,該數(shù)據是基于2004年或2005年的一年期保單數(shù)據,包含10個變量,67856份保單,其中有4624份至少發(fā)生一次索賠。設索賠額變量為y(美元),對4624份保單索賠額統(tǒng)計如表1。
由表1可知,索賠額變量y的變異程度非常大,而且中位數(shù)與均值的差別很大,說明數(shù)據存在厚尾現(xiàn)象。對于存在該現(xiàn)象的數(shù)據,Gamma回歸模型和逆Gaussian回歸模型是兩個常用方法。故基于分位數(shù)回歸模型的費率因子顯著性的判別結果將與這兩個模型作比較,為此,分位數(shù)回歸模型需對對索賠額變量y進行對數(shù)變換,由性質(7)知,該變換對分位數(shù)回歸模型的估計結果沒有影響。
為與P.de Jong等[6]中的結論比較,本文討論駕齡類別(agecat)、性別(gender)和區(qū)域(area)三個費率因子對索賠額的影響,它們分別有6、2和6個水平,取值及基準水平的選擇如表2。
為分析析各個費率因子水平對索賠額的顯著性,建立的均值回歸模型和分位數(shù)回歸模型分別為
表1 索賠額的描述性統(tǒng)計
表2 費率因子
表3給出Gamma回歸模型、逆Gaussian回歸模型和中位數(shù)回歸模型中費率因子水平參數(shù)的估計值及其顯著性,其中分位數(shù)回歸模型的估計是基于Koenker[7]中rq函數(shù),其他兩個模型是基于R Development Core Team[8]中的glm函數(shù),模型中參數(shù)的估計方法均為函數(shù)中默認的方法。
由表3知截距項,即行駛區(qū)域在C、駕齡類別為3的男性保單持有人對索賠額有顯著(本文的顯著性均基于0.05的顯著性水平)影響。數(shù)據刪除前后,三個模型給出了相同的結論。當然,對索賠額影響的大小,在數(shù)據刪除前后,Gamma回歸模型與逆Gaussian回歸模型給出的估計值比中位數(shù)回歸模型均大,這與表1中索賠額的描述統(tǒng)計相符合,同時也表明數(shù)據中存在右偏、后尾現(xiàn)象。但數(shù)據刪除前后截距項估計值變化,中位數(shù)回歸模型僅有0.087,而Gamma回歸模型與逆Gaussian回歸模型均超過0.4,是中位數(shù)回歸模型估計變化的近四倍,這說明中位數(shù)回歸模型對數(shù)據更具有穩(wěn)健性。
表3 不同統(tǒng)計模型費率因子估計結果
對于駕齡類別費率因子各個水平的顯著性,在數(shù)據刪除前,三個模型給出了完全相同的結果,即認為駕齡類別1的保單持有人發(fā)生的索賠額與基準水平駕齡類別3發(fā)生的索賠額有顯著差異,其他駕齡類別的保單持有人與基準水平發(fā)生的索賠額沒有顯著差異。在數(shù)據刪除后,Gamma回歸模型與逆Gaussian回歸模型給出的結論與沒有刪除數(shù)據的結論相同,即駕齡類別1的保單持有人發(fā)生索賠額比基準水平顯著的高,從而應收取更高的保費。
對于性別費率因子,在數(shù)據刪除前后,Gamma回歸模型與逆Gaussian回歸模型給出相反的結論。數(shù)據刪除前,這兩個模型均認為,女性保單持有人與基準水平的男性保單持有人發(fā)生索賠的額度有顯著差別,并認為女性保單持有人發(fā)生的索賠額??;但是在數(shù)據刪除后,則認為男性和女性保單持有人發(fā)生的索賠額沒有顯著差別,即認為性別對索賠額的影響沒有差異,這說明模型不具有穩(wěn)健性。而中位數(shù)回歸模型在數(shù)據刪除前后均認為,性別對索賠額的影響無差異,應當收取相同的保費。
對于區(qū)域費率因子各個水平的顯著性,對于行駛區(qū)域在A、B、D和E的保單持有人,數(shù)據刪除前后,三個模型均認為與基準水平行駛區(qū)域C的保單持有人發(fā)生的索賠額沒有顯著差異。但對于行駛區(qū)域在F的保單持有人,在顯著性水平0.05下,數(shù)據刪除前后,Gamma回歸模型與逆Gaussian回歸模型給出了不同的結論。數(shù)據刪除前,這兩個模型認為行駛在該區(qū)域的保單持有人與基準水平有顯著差異,而且發(fā)生的索賠額較高,相對于基準水平風險較大,從而應收取較高的保費。但在數(shù)據刪除后,則認為區(qū)域F與行駛在其他區(qū)域的保單持有人一樣,風險大小并沒有顯著性差異。而中位數(shù)回歸模型在數(shù)據刪除前后,給出相同的結論,即認為行駛在各個區(qū)域的保單持有人風險大小沒有顯著差異。這進一步表明,中位數(shù)回歸模型的穩(wěn)健性。
為進一步說明中位數(shù)回歸模型的優(yōu)良性,可以對Gamma回歸模型與逆Gaussian回歸模型中參數(shù)進行Wald檢驗Draper和Smith[9],進一步比較費率因子各水平之間是否具有顯著性差異。假設行駛在區(qū)域F和區(qū)域E的保單持有人具有相同風險,對此作Wald檢驗,在數(shù)據刪除前,Gamma回歸模型的χ2檢驗統(tǒng)計量值為7.2,p=P(χ2>7.2)=0.027 ,在0.05顯著性水平下,拒絕原假設,即認為行駛證區(qū)域F的保單持有人確實與行駛在其他區(qū)域的保單持有人具有不同的風險水平;逆Gaussian回歸模型對該假設給出的 χ2檢驗統(tǒng)計量值為4.9,p=P(χ2>4.9)=0.086,從而認為行駛證區(qū)域F的保單持有人與行駛在其他區(qū)域的保單持有人具有相同的風險,從而兩個模型在數(shù)據刪除前就給出了不同的結論。對于數(shù)據刪除后,Gamma回歸模型的χ2檢驗統(tǒng)計量值為2.9,p=P(χ2>2.9)=0.24,從而給出相反的結論,即認為行駛在區(qū)域F和E的保單持有人具有相同的風險;逆Gaussian回歸模型對該假設給出的 χ2檢驗統(tǒng)計量值為2.6,p=P(χ2>2.6)=0.27,數(shù)據刪除前后給出了相同的結論。對于其他的費率因子同樣可以進行Wald檢驗,進一步比較費率因子各水平之間是否具有顯著差異。
綜上所述,僅僅利用Gamma回歸模型與逆Gaussian回歸模型參數(shù)的顯著性水平往往會給出錯誤的判斷,尤其是數(shù)據中存在巨額索賠額時,往往會影響費率因子水平的顯著性,而且數(shù)據刪除與否會給出不同的結論,結合Wald檢驗在一定程度上彌補了這兩個模型的不足。但是中位數(shù)回歸模型則給出了更為準確的費率因子水平的顯著性與否的信息,從而可以為分類費率厘定方法提供更好的費率因子信息。
當然,中位數(shù)回歸模型不是絕對完美,對于駕齡費率因子水平1,數(shù)據刪除前后,中位數(shù)回歸也給出了相反的結論。產生這種現(xiàn)象的原因在于刪除數(shù)據時,駕齡費率因子水平1相對其他水平刪除的觀察數(shù)據較多所導致的。即使不去深究發(fā)生該現(xiàn)象的原因,相對于Gamma回歸模型與逆Gaussian回歸模型來說,中位數(shù)回歸模型的誤判,至少對于該組數(shù)據來說其誤判更低。
分類費率厘定方法作為非壽險精算中費率厘定最重要的方法之一,通常都是基于損失分布假設的條件下,通過檢驗模型中參數(shù)的顯著性與否進行判定,而損失分布模型的選擇往往具有一定的主觀性。中位數(shù)回歸模型不僅具有穩(wěn)健性,而且具有單調變換的不變性,結合實際數(shù)據進行擬合分析表明,中位數(shù)回歸模型比常用的Gamma回歸模型和逆Gaussian回歸模型在費率因子的顯著性方面更具有優(yōu)良性。費率厘定問題作為非壽險精算中的一個重要研究內容,中位數(shù)回歸模型可以作為廣義線性模型的一個有益補充。
[1]Koenker,R.Quantile Regression[M].Cambridge:Cambridge University Press,2005.
[2]郭念國,徐昕.分位數(shù)回歸在非壽險產品費率厘定中的應用[J].統(tǒng)計與決策,2010,(24).
[3]Koenker,R.,Bassett G.Regression Quantiles[J].Econometrica,1978,(46).
[4]Hao,L.,Naiman D.Q.Quantile Regressioin[M].Los Angeles:SAGE Publication,2007.
[5]Hampel,F.R.The Influence Curve and its Role in Robust Estimation[J].Journal of the American Statistical Association,1998,(69).
[6]Jong P.D.,Heller G.Z.Generalized Linear Models for Insurance Data[M].Cambridge:Cambridge University Press,2008.
[7]Koenker R.Quantreg:Quantile Regression.R package Version 4.54,[EB/OL].URL http://CRAN.R-project.org/package=quantreg,2011.
[8]RDevelopmentCoreTeam.R:alanguageandEnvironmentforStatistical Computing.R Foundation for Statistical Computing,Vienna,Austria.ISBN3-900051-07-0[EB/OL].URLhttp://www.R-project.org/,2010.
[9]Draper,N.R.,Smith,H.Applied Regression Analysis[M].New York:John Wiley&Sons,Inc.,1998.