□文/孫 靜
(南京信息工程大學(xué) 江蘇·南京)
[提要] 近年來,廣義可加模型(GAM)在非壽險中得到廣泛的應(yīng)用,隨機森林作為極具代表性的一種集成學(xué)習(xí)方法在非壽險領(lǐng)域也取得很好的效果,為非壽險產(chǎn)品定價提供了一種新的選擇。因此,本文針對一組具有零膨脹特征的索賠次數(shù)數(shù)據(jù),建立零膨脹泊松分布和零膨脹負(fù)二項分布下的GAM 模型,并將其與隨機森林模型進行比較分析。結(jié)果表明:預(yù)測效果最優(yōu)的是基于零膨脹泊松分布的GAM 模型。在此基礎(chǔ)上,對各解釋變量進行分析,為車險費率的厘定提供一定的參考。
在對車險的研究中,車險費率占據(jù)著舉足輕重的地位,因此保險公司必須建立適合的定價模型來厘定更為合理的費率。一般來說,車險費率模型主要分為索賠頻率模型和索賠強度模型,本文僅考慮索賠次數(shù)的預(yù)測模型。由于實際中的索賠次數(shù)通常具有零膨脹性質(zhì),故Yip和 Yau(2005)引入零膨脹模型,并分別用 ZIP、ZINB、ZIGP、ZIDP 回歸模型擬合車險索賠次數(shù),結(jié)果表明零膨脹模型可以改善對數(shù)據(jù)的擬合效果。廣義線性模型(GLM)作為車險費率厘定中最常用的模型,卻不能有效地處理非線性問題,故Hastie 等(1986)提出廣義可加模型(GAM),可以將連續(xù)型解釋變量以平滑函數(shù)形式引入回歸模型,改善模型的預(yù)測精度。關(guān)于GAM 模型的應(yīng)用,Günther 等(2014)利用廣義可加模型預(yù)測客戶離開保險公司的風(fēng)險概率,發(fā)現(xiàn)廣義可加模型能很好地識別解釋變量之間的非線性關(guān)系。張連增和申晴(2019)使用廣義可加模型對交強險索賠頻率建模,并對索賠頻率影響因素進行分析。
隨著信息技術(shù)的迅速發(fā)展,機器學(xué)習(xí)成為統(tǒng)計領(lǐng)域的熱門工具。在車險費率研究中,Guelman(2012)使用梯度提升樹對索賠頻率和索賠強度進行預(yù)測,結(jié)果顯示該模型的預(yù)測效果比GLM 模型的效果要好。孟生旺(2012)對索賠頻率的線性回歸模型、廣義線性模型、神經(jīng)網(wǎng)絡(luò)、回歸樹進行比較,發(fā)現(xiàn)神經(jīng)網(wǎng)絡(luò)的預(yù)測效果優(yōu)于各種廣義線性模型,而回歸樹僅優(yōu)于線性回歸模型。Lee 和Antonio(2015)對索賠頻率分別建立GLM 模型、GAM 模型、神經(jīng)網(wǎng)絡(luò)和決策樹,通過比較發(fā)現(xiàn)神經(jīng)網(wǎng)絡(luò)的預(yù)測效果最佳。Wüthrich 和Buser(2017)對機器學(xué)習(xí)諸多算法的基本原理進行簡要梳理,并分別介紹這些算法在非壽險定價中的簡單應(yīng)用。Noll 等(2018)用GLM 模型、回歸樹、提升算法和神經(jīng)網(wǎng)絡(luò)等對索賠頻率進行建模分析,并比較幾個模型在建模中的表現(xiàn)。張連增和謝厚誼(2018)使用泊松回歸樹和bagging 方法對車險索賠頻率進行預(yù)測,研究結(jié)果表明回歸樹的效果不如廣義線性模型,而bagging 法可以提高回歸樹的預(yù)測能力。曾宇哲等(2019)用多種機器學(xué)習(xí)方法和GLM 模型對7 個數(shù)據(jù)集進行擬合,結(jié)果顯示在所有數(shù)據(jù)集上XGboost的預(yù)測效果均優(yōu)于GLM 模型。
本文選用隨機森林和基于零膨脹泊松分布和零膨脹負(fù)二項分布的GAM 模型對一組實際車險索賠數(shù)據(jù)中的索賠次數(shù)進行研究分析,并對不同模型的預(yù)測效果進行比較,探究更為合理的預(yù)測方法,為車險索賠頻率研究提供一定的參考。
(一)車險索賠次數(shù)分布。用隨機變量Y 表示保單的索賠次數(shù),i=1,2,3…,若 Y 服從零膨脹分布,則根據(jù) Yip 和 Yau(2005),其概率函數(shù)表示如下:
式中,φ 為發(fā)生事故但未索賠的概率,0<φ<1,K 為隨機變量。
當(dāng)隨機變量K 為服從均值為μ 的泊松分布時,隨機變量Y 服從零膨脹泊松分布(ZIP),其概率函數(shù)可表示為:
當(dāng)隨機變量K 為服從參數(shù)為r 和μ 負(fù)二項分布時,隨機變量Y 服從零膨脹負(fù)二項分布(ZINBI),其概率函數(shù)可表示為:
當(dāng)φ=0 時,零膨脹分布退化為泊松分布和負(fù)二項分布。
(二)GAM 模型。設(shè) YT=(Y1,Y2,…Yn)為響應(yīng)變量的 n 維向量,其服從指數(shù)族分布。據(jù)Hastie 等(1986)所述,GAM 模型的結(jié)構(gòu)表示如下:
其中,μ 為響應(yīng)變量 Y 的均值,g(·)為連接預(yù)測項 η 和均值 μ 的連接函數(shù);向量X 為具有線性影響的解釋變量,β 表示參數(shù)向量,則Xβ 為解釋變量的線性影響函數(shù);xj(j=1,2,…J)是具有非線性影響的解釋變量,hj(·)是關(guān)于xj的非參數(shù)平滑函數(shù)。
(三)隨機森林。隨機森林是Breiman(2001)提出的一種以CART決策樹為基礎(chǔ)的集成學(xué)習(xí)模型。隨機森林模型的適應(yīng)性較強,不容易產(chǎn)生過擬合問題,它既可以用于分類也可以用于回歸。隨機森林的生成步驟如下:
1、用Bootstrap 方法從樣本容量為K 的訓(xùn)練集中有放回地隨機抽取等量的樣本,作為一棵決策樹的訓(xùn)練樣本。
2、決策樹由根節(jié)點開始自上而下遞歸分裂。在決策樹的每個節(jié)點需要分裂時,從樣本中的M 個特征(解釋變量)中隨機選取m 個特征(m<M),再從m 個特征中挑選一個最優(yōu)特征對節(jié)點進行分裂。
3、決策樹的形成過程中每個節(jié)點均按照步驟2 進行分裂,直到節(jié)點無法繼續(xù)分裂時停止。隨機森林中的決策樹都隨意生長,不需要進行剪枝。
4、按照上述3 個步驟生成N 棵回歸樹,從而構(gòu)成隨機森林。在回歸問題中,由森林中的每一棵決策樹分別輸出一個預(yù)測值,所有決策樹的預(yù)測值的平均值即為隨機森林的輸出值。
隨機森林的生成依賴于兩個極為重要的參數(shù),即隨機選取的特征個數(shù)mtry 和隨機森林中決策樹的數(shù)量ntree,它們影響著隨機森林模型的分類能力。
(四)模型評價
1、在選擇GAM 模型時,本文采用AIC、BIC 準(zhǔn)則進行比較。一般來說,AIC 和BIC 的值越小,模型的擬合效果越好。AIC 和BIC 的定義如下:
其中,lc是對數(shù)似然函數(shù),k 是模型中未知參數(shù)的個數(shù),n 是模型中的觀測值個數(shù)。
2、本文使用均方根誤差(RMSE)對隨機森林和GAM 模型進行比較,其表達(dá)式如下:
其中,yi表示觀測值,表示模型預(yù)測值,n 是模型中的觀測值個數(shù)。RMSE 表示預(yù)測值與實際觀測值之間的平均偏差,其值越小,說明模型的預(yù)測效果越好。
(一)數(shù)據(jù)描述與預(yù)處理。本文使用的是AutoClaim 數(shù)據(jù)集,該數(shù)據(jù)集是從SAS Enterprise Miner 數(shù)據(jù)庫中檢索的一組汽車第三方責(zé)任保險數(shù)據(jù),其包含10,302 份保單和27 個變量。為了便于計算和減小模型預(yù)測誤差,本文進行了變量篩選。首先,剔除無關(guān)變量ID(訂單編號)、BIRTH(出生日期)、OLDCLAIM(累計索賠金額)和 CLAIM_AMT(當(dāng)期索賠金額),然后采用向后逐步回歸對其余變量進行降維。根據(jù)向后逐步回歸的結(jié)果,本文選取了12 個變量作為解釋變量,各解釋變量及其具體信息如表1 所示。(表1)
表1 解釋變量及說明一覽表
在處理缺失值和異常值后,得到的數(shù)據(jù)集包含7,647 個樣本。進而,本文分別從索賠次數(shù)為 0、1、2、3、4、5 的保單中隨機抽取 80%的保單形成訓(xùn)練集,其余20%的保單數(shù)據(jù)形成測試集。對索賠次數(shù)作簡單統(tǒng)計,具體情況如表2 所示。(表2)
表2 索賠次數(shù)的頻率一覽表
表2 顯示,在訓(xùn)練集和測試集中,均有超過60%的數(shù)據(jù)索賠次數(shù)為0,說明該組數(shù)據(jù)具有零膨脹特征。訓(xùn)練集中有12.5%的保單發(fā)生1次索賠,26.4%的保單發(fā)生2 次以上索賠,索賠次數(shù)為5 的保單出現(xiàn)頻率最低,僅為0.02%;測試集中有11.2%的保單發(fā)生1 次索賠,25%的保單發(fā)生2 次以上索賠,索賠次數(shù)為5 的頻率僅為0.03%。
(二)GAM 模型擬合。本文在索賠次數(shù)服從泊松分布、負(fù)二項分布、零膨脹泊松分布和零膨脹負(fù)二項分布的條件下建立GAM 模型。計算不同模型的AIC 值和BIC 值,結(jié)果如表3 所示。(表3)
表3 不同分布下的模型擬合優(yōu)度一覽表
由表3 可知,零膨脹模型優(yōu)于普通的泊松回歸模型和負(fù)二項回歸模型,且通過比較AIC 值和BIC 值發(fā)現(xiàn),ZIP 分布下建立的GAM 模型擬合效果最優(yōu)。本文對其進行參數(shù)估計,估計結(jié)果如表4 所示。(表4)
表4 參數(shù)估計一覽表
根據(jù)參數(shù)估計表,在Yi服從零膨脹泊松分布下,得到的GAM 模型如下所示:
log(μi)=0.040+0.141CLAIMFLAG(1)-0.105CARUSE(Private)+0.035HOMEKIDS +0.149MSTATUS +0.092MVRPTS +0.082REDCAR -1.227URBANICITY (Rural)+cs (TRAVTIME)+cs (BLUEBOOK)+cs(HOMEVAL)+cs(INCOME)+cs(AGE)
可以看出,幾乎所有解釋變量都對均值有顯著影響。上報索賠的投保人有較多的索賠次數(shù);相對于商務(wù)車來說,私家車具有較少的索賠次數(shù);對于已婚的投保人來說,未婚投保人的索賠次數(shù)更多;違規(guī)記錄和孩子數(shù)量的系數(shù)為正值,說明違規(guī)記錄和孩子數(shù)量越多的駕駛?cè)税l(fā)生索賠的次數(shù)越多;紅色車輛發(fā)生索賠的次數(shù)比其他顏色的車輛更多;而在鄉(xiāng)村行駛的車輛索賠次數(shù)比城市更少。表4 中的非參數(shù)變量系數(shù)及其標(biāo)準(zhǔn)誤差僅指平滑器的線性部分,且這五個非參數(shù)變量無法簡單地用數(shù)學(xué)形式描述,畫出其對索賠次數(shù)的影響效應(yīng)圖,具體如圖1所示。圖(a)、(b)、(c)、(d)、(e)分別表示駕駛?cè)四挲g、上班距離、住房價值、年收入和汽車價值對索賠次數(shù)的影響,圖中橫坐標(biāo)表示解釋變量的實測值,縱軸表示平滑函數(shù)值,陰影表示置信區(qū)間上下限,中間實線表示索賠次數(shù)的平滑擬合曲線。通過圖1 可以發(fā)現(xiàn),駕駛?cè)四挲g和上班距離對索賠次數(shù)的影響較為平穩(wěn);隨著住房價值的增加,索賠次數(shù)略有下降,隨后變得平穩(wěn);年收入與索賠次數(shù)呈現(xiàn)非常強烈的非線性關(guān)系,索賠次數(shù)處于波動狀態(tài);車輛價值與索賠次數(shù)呈負(fù)相關(guān),車輛價值越大,索賠次數(shù)越少。(圖1)
圖1 影響效應(yīng)圖
(三)隨機森林的構(gòu)建。隨機森林模型可以用R 語言中的random-Forest 包實現(xiàn)。在利用訓(xùn)練集建立隨機森林模型之前,需要使用十折交叉驗證來尋找使模型均方根誤差(RMSE)最小的最優(yōu)參數(shù)mtry 和ntree,mtry 是指樹節(jié)點用于分裂的變量個數(shù),ntree 是指隨機森林所包含的決策樹數(shù)目。
首先,根據(jù)RMSE 確定最佳mtry 值。本文解釋變量有12 個,故將mtry 參數(shù)設(shè)置為1~12 進行建模,計算不同mtry 取值下的RMSE 值,RMSE 隨著mtry 的變化如圖2 所示??梢钥闯?,隨著mtry 的值增大,RMSE 的值先減小后增大,在mtry 的值為2 時,RMSE 的值最小,因此本文選擇2 作為最優(yōu)mtry 值。(圖2)
圖2 mtry 與 RMSE 關(guān)系圖
其次,根據(jù)RMSE 確定最佳參數(shù)ntree。在mtry=2 的條件下,使ntree 分別等于 100,200,…,1000,依次計算 RMSE 的值,繪制 RMSE與ntree 的關(guān)系圖,如圖3 所示。(圖3)
圖3 ntree 與 RMSE 關(guān)系圖
從圖3 可以看出來,當(dāng)ntree 的取值為500 時,RMSE 的值最小。故本文選擇500 作為ntree 參數(shù)的取值。經(jīng)過交叉驗證,索賠頻率預(yù)測模型的最優(yōu)參數(shù)為mtry=2,ntree=500。以此參數(shù)建立隨機森林模型,并用該模型對測試集進行預(yù)測。
(四)模型比較。本文將ZIP 分布和ZINBI 分布假設(shè)下的GAM 模型以及隨機森林模型用于測試集中,并計算各自的RMSE。(表5)
表5 各模型RMSE 一覽表
如表5 所示,發(fā)現(xiàn)ZIP-GAM 模型的預(yù)測效果最優(yōu),其次是ZINBIGAM 模型。相比之下,隨機森林的預(yù)測效果最差,這可能在于索賠次數(shù)數(shù)據(jù)不平衡,導(dǎo)致模型訓(xùn)練受到影響,進而影響了模型的預(yù)測效果。
本文對一組實際車險索賠數(shù)據(jù)分別建立GAM 模型和隨機森林模型,并進行了比較分析,結(jié)果表明基于零膨脹泊松分布假設(shè)下的GAM模型比隨機森林在費率厘定中具有更大的優(yōu)勢。相比之下,GAM 模型不僅具有更好的預(yù)測能力,而且其對預(yù)測結(jié)果的可解釋性比隨機森林模型強,可以清晰地展示出每個解釋變量對索賠次數(shù)的影響程度。但隨機森林也有一定的優(yōu)越性,在其建模前不需對數(shù)據(jù)進行預(yù)處理。
綜上,隨機森林和GAM 模型各有優(yōu)點,在實際生活中可以根據(jù)不同的條件選擇合適的方法。同樣的,這兩種模型也能應(yīng)用于索賠強度或保費定價中,對保險公司的費率厘定和客戶選擇有一定的參考價值,以改進費率厘定結(jié)果的合理性。