張連增 江璐嘉
車(chē)險(xiǎn)定價(jià)一直是非壽險(xiǎn)精算定價(jià)中的一個(gè)研究熱點(diǎn),已有文獻(xiàn)較多(Denuit 等,2007[1];Klein 等,2014[2];孟生旺等,2017[3])。保險(xiǎn)公司經(jīng)營(yíng)的核心目標(biāo)是盈利,科學(xué)的風(fēng)險(xiǎn)管理技術(shù)可以為保險(xiǎn)公司的持續(xù)運(yùn)營(yíng)提供保障。精算定價(jià)人員構(gòu)造風(fēng)險(xiǎn)保費(fèi)類(lèi)別(insurance tariff classes),將風(fēng)險(xiǎn)狀況相似的保戶歸入同一類(lèi)別,收取相同的保費(fèi),使保費(fèi)與類(lèi)別的風(fēng)險(xiǎn)相匹配。風(fēng)險(xiǎn)狀況由不同的變量(variables)組合來(lái)定義,根據(jù)變量的數(shù)值特性,可以分為分類(lèi)型變量(如性別、地區(qū))和連續(xù)型變量(如駕駛員年齡、車(chē)齡)。
Denuit和Lang(2004)[4]指出,變量的不同類(lèi)型會(huì)影響風(fēng)險(xiǎn)保費(fèi)類(lèi)別的構(gòu)造:分類(lèi)型變量構(gòu)建風(fēng)險(xiǎn)保費(fèi)類(lèi)別直接明了,每一定價(jià)類(lèi)別都代表了分類(lèi)變量的特定組合;連續(xù)型變量由于其數(shù)值連續(xù)性,在一定程度上可以被理解為具有很多不同水平的分類(lèi)型變量。Ohlsson和Johansson(2010)[5]指出,如果考慮將連續(xù)變量中的每一個(gè)數(shù)值都定義為一個(gè)水平(level),會(huì)導(dǎo)致同一個(gè)變量有很多水平,且每一個(gè)水平下的樣本數(shù)量都不多,但這樣并不利于定價(jià)模型的擬合。一種更好的方法是連續(xù)變量離散化,把連續(xù)型變量的某個(gè)區(qū)間合并為一個(gè)水平,從而轉(zhuǎn)化為包括少數(shù)水平的分類(lèi)變量。
將連續(xù)變量離散化的方法被稱為分箱法(binning),該術(shù)語(yǔ)是由Kuhn和Johnson (2013)[6]提出的。本文將介紹一種由數(shù)據(jù)驅(qū)動(dòng)(data driven)的分箱方法,將連續(xù)型變量轉(zhuǎn)化為包括幾個(gè)水平的分類(lèi)變量,由此構(gòu)造風(fēng)險(xiǎn)保費(fèi)類(lèi)別。本文使用回歸樹(shù)(regression tree)作為分箱方法,因?yàn)榛貧w樹(shù)模型會(huì)產(chǎn)生直觀的連續(xù)分割,符合我們對(duì)連續(xù)變量連續(xù)值分箱的要求。在回歸樹(shù)模型中,我們選擇采用進(jìn)化樹(shù)模型(evolutionary tree),因?yàn)檫M(jìn)化算法可以達(dá)到全局最優(yōu)的分箱效果。Grubinger 等(2014)[7]設(shè)計(jì)的R軟件包evtree可以實(shí)現(xiàn)相關(guān)功能。
在車(chē)險(xiǎn)定價(jià)中,通過(guò)大量歷史索賠數(shù)據(jù),可以估計(jì)出不同風(fēng)險(xiǎn)保費(fèi)類(lèi)別的保險(xiǎn)成本,進(jìn)而計(jì)算相應(yīng)的純保費(fèi)(pure premium)。Frees 等(2014)[8]提出純保費(fèi)的計(jì)算從兩個(gè)方面分別進(jìn)行:索賠頻數(shù)(claim frequency)和索賠強(qiáng)度(claim severity)。通常應(yīng)用廣義線性模型(GLMs)進(jìn)行車(chē)險(xiǎn)索賠頻數(shù)和索賠強(qiáng)度的擬合與預(yù)測(cè)。在索賠頻數(shù)和索賠強(qiáng)度相互獨(dú)立的假設(shè)下,保單的純保費(fèi)可以用索賠頻數(shù)的估計(jì)值乘以索賠強(qiáng)度的估計(jì)值得到。在純保費(fèi)的基礎(chǔ)上,再考慮附加費(fèi)用,就構(gòu)成了保險(xiǎn)產(chǎn)品的價(jià)格。
在GLMs中,當(dāng)存在連續(xù)型變量時(shí),GLMs不能捕捉連續(xù)型變量的非線性效應(yīng)。此時(shí),通常考慮應(yīng)用更加靈活的廣義可加模型(GAMs)(James等,2013[9])。廣義可加模型本質(zhì)上是一種特殊的廣義線性模型,對(duì)連續(xù)型變量,對(duì)應(yīng)的樣條函數(shù)可表示為一些基本樣條函數(shù)的線性組合。在GAMs中,可通過(guò)對(duì)連續(xù)型變量引入樣條函數(shù),使模型的擬合效果更加平滑,反映非線性效應(yīng)。
在模型擬合中,一直存在著“擬合效果”(fitting effect)與“可解釋性”(interpretability)之間的權(quán)衡。顯而易見(jiàn),廣義線性模型的可解釋性要優(yōu)于廣義可加模型,而廣義可加模型的擬合效果更優(yōu)。為在兩者中找到一個(gè)平衡,在本文中,我們先運(yùn)用GAMs構(gòu)造一組索賠頻數(shù)和索賠強(qiáng)度預(yù)測(cè)模型;然后運(yùn)用進(jìn)化樹(shù)分箱方法,將連續(xù)型變量離散化為分類(lèi)變量,最終運(yùn)用GLMs構(gòu)造另一組索賠頻數(shù)和索賠強(qiáng)度預(yù)測(cè)模型;將GAMs和GLMs的預(yù)測(cè)結(jié)果進(jìn)行比較,找到最優(yōu)的定價(jià)預(yù)測(cè)模型。
本文后面的結(jié)構(gòu)如下:第二節(jié)是數(shù)據(jù)描述和數(shù)據(jù)預(yù)處理;第三節(jié)是GLMs和GAMs的基本介紹;第四節(jié)是GAMs在車(chē)險(xiǎn)定價(jià)中的應(yīng)用;第五節(jié)是數(shù)據(jù)驅(qū)動(dòng)分箱構(gòu)建風(fēng)險(xiǎn)保費(fèi)類(lèi)別;第六節(jié)構(gòu)建GLMs,并與GAMs進(jìn)行模型整體性能的比較;第七節(jié)是總結(jié)。
本文運(yùn)用的數(shù)據(jù)集是法國(guó)汽車(chē)第三者責(zé)任險(xiǎn)(簡(jiǎn)稱“三責(zé)險(xiǎn)”)理賠數(shù)據(jù)freMTPL2freq和freMTPL2sev(1)freMTPL2freq里面包含了很多特征(變量),但不包含索賠金額ClaimAmount變量;freMTPL2sev里面只有保單信息IDpol和索賠金額ClaimAmount這兩個(gè)變量。共有的變量IDpol將freMTPL2freq和freMTPL2sev兩個(gè)數(shù)據(jù)集的保單信息連接起來(lái)。,這兩個(gè)數(shù)據(jù)集都可以在R軟件包CASdatasets里找到。freMTPL2freq里包含了678 013條法國(guó)三責(zé)險(xiǎn)的索賠次數(shù)數(shù)據(jù),freMTPL2sev里包含了26 639條法國(guó)汽車(chē)三責(zé)險(xiǎn)的索賠強(qiáng)度數(shù)據(jù)。
為了擬合索賠強(qiáng)度模型,我們選取FF數(shù)據(jù)集中索賠強(qiáng)度大于0且小于20 000(2)FF數(shù)據(jù)集中包含一些損失特別大的極端數(shù)據(jù),會(huì)對(duì)模型擬合產(chǎn)生影響。區(qū)間(0,20 000)包含了92.80%的索賠強(qiáng)度數(shù)據(jù)量,為此我們挑選這部分?jǐn)?shù)據(jù)來(lái)進(jìn)行模型擬合。的保單信息,組合成了一個(gè)新的數(shù)據(jù)集FF.sev,新的FF.sev數(shù)據(jù)(24 743行、16列)共有24 743個(gè)保單數(shù)據(jù)信息。
表1 FF數(shù)據(jù)集變量描述
根據(jù)以上描述我們知道,F(xiàn)F.sev是FF數(shù)據(jù)集的一個(gè)子集。下面我們描述FF數(shù)據(jù)集的基本數(shù)據(jù)特征,圖1是FF數(shù)據(jù)集中的一些特征(變量)展示。
在FF數(shù)據(jù)集中,對(duì)索賠次數(shù)(ClaimNb),有94.98%的保單沒(méi)有提出索賠(即ClaimNb=0),有4.75%的保單提出了一次索賠,剩下的0.27%的保單提出多次索賠。對(duì)風(fēng)險(xiǎn)暴露(Exposure),24.18%的保單保障期間是1年,剩下的75.82%保單的風(fēng)險(xiǎn)暴露分布于0~1之間。在索賠金額(ClaimAmount)方面,有88.93%的索賠金額位于0~5 000區(qū)間中,剩下的11.07%索賠金額高于5 000。
圖1展現(xiàn)了FF數(shù)據(jù)集中的兩個(gè)分類(lèi)型變量:汽油類(lèi)型(VehGas)和汽車(chē)品牌(VehBrand)。在汽油類(lèi)型方面,48.99%的汽車(chē)使用柴油(Diesel),剩下的51.01%汽車(chē)使用其他類(lèi)型。在汽車(chē)品牌方面,B12(24.49%)、B1(24.00%)和B2(23.58%)是占比最多的三種車(chē)型,剩下的27.93%是其他類(lèi)型的汽車(chē)。
FF數(shù)據(jù)中的四個(gè)連續(xù)型變量:車(chē)齡(VehAge)、駕駛員年齡(DrivAge)、獎(jiǎng)懲系統(tǒng)(BonusMalus)和對(duì)數(shù)人口密度(logDensity)也在圖1中呈現(xiàn)。在車(chē)齡方面,72.60%的保單車(chē)齡集中于0~10年,剩下的27.40%保單車(chē)齡超過(guò)10年。在駕駛員年齡方面,15.41%的駕駛員年齡在18~30歲之間,76.99%的駕駛員年齡在30~65歲之間,7.60%的駕駛員年齡高于65歲。在法國(guó),獎(jiǎng)懲系統(tǒng)的基準(zhǔn)是100,低于100是獎(jiǎng)勵(lì)(bonus),高于100是懲罰(malus)。在FF數(shù)據(jù)中,有98.85%的保單是獎(jiǎng)勵(lì)狀態(tài),只有1.15%的保單是懲罰狀態(tài)。在對(duì)數(shù)人口密度中,79.19%聚集于2.5~8區(qū)間之內(nèi),剩下的20.81%分布在其他區(qū)間。
圖1 FF數(shù)據(jù)部分特征展示
在車(chē)險(xiǎn)定價(jià)中,精算師根據(jù)已有的歷史索賠數(shù)據(jù),預(yù)測(cè)出潛在損失,由此計(jì)算出保單純保費(fèi)πi。保單純保費(fèi)可以由索賠頻數(shù)和索賠強(qiáng)度分別計(jì)算得到,即πi=E(Fi)×E(Si),其中E(Fi)是索賠頻數(shù)預(yù)測(cè)的均值,E(Si)是索賠強(qiáng)度預(yù)測(cè)的均值。索賠頻數(shù)是單位風(fēng)險(xiǎn)暴露(risk exposure)下保單的索賠次數(shù);索賠強(qiáng)度是指在索賠發(fā)生條件下的平均單次索賠額度。
在本文中,我們假設(shè)索賠頻數(shù)和索賠強(qiáng)度相互獨(dú)立。使用數(shù)據(jù)集FF中所有保單的索賠次數(shù)歷史,為Fi構(gòu)建模型;使用數(shù)據(jù)集FF.sev中提出索賠的保單持有人的索賠歷史,為Si構(gòu)建模型。對(duì)每份保單的純保費(fèi)πi再加總求和,可以得到整體純保費(fèi)。
在本文中,我們考慮運(yùn)用GAMs和GLMs來(lái)構(gòu)建兩組回歸預(yù)測(cè)模型。
傳統(tǒng)的線性回歸模型形式如下:
(1)
其中Yi是響應(yīng)變量,xij是自變量,p為自變量的個(gè)數(shù)。
一般的廣義線性模型形式如下:
(2)
其中,μi=E(Yi)是響應(yīng)變量的均值,g(·) 是連接函數(shù)(link function),xij是自變量,p為自變量的個(gè)數(shù)。
GAM本質(zhì)上是一種特殊的GLM,通過(guò)允許自變量存在非線性的平滑效應(yīng)(smooth effect),同時(shí)保持可加性來(lái)擴(kuò)展線性模型。在GAM中,單個(gè)自變量的非線性平滑效應(yīng)可用樣條函數(shù)fj(xij)表示,它可表示為基本樣條函數(shù)的線性組合,代替GLM中的βjxij;兩個(gè)自變量之間也可能存在非線性交互效應(yīng),用樣條函數(shù)fj(xij,zij)來(lái)表示自變量之間的非線性交互效應(yīng)。GAM的形式為:
(3)
在本節(jié),我們運(yùn)用GAM對(duì)索賠頻數(shù)和索賠強(qiáng)度分別構(gòu)建回歸預(yù)測(cè)模型,R里的軟件包mgcv可以用來(lái)實(shí)現(xiàn)GLM和GAM。在最優(yōu)模型選擇方面,我們考慮使用AIC(Akaike Information Criterion)和BIC(Bayesian Information Criterion)兩個(gè)指標(biāo)。這兩個(gè)指標(biāo)都同時(shí)考慮了模型的擬合優(yōu)度(goodness of fit)和復(fù)雜度(complexity),它們的定義如下:
AIC=-2(log-likelihood)+2·r
BIC=-2(log-likelihood)+log(n)·r
(4)
其中,log-likelihood是模型的對(duì)數(shù)似然值(擬合優(yōu)度的度量),r是模型的參數(shù)個(gè)數(shù)(復(fù)雜度的度量),n是數(shù)據(jù)集的樣本個(gè)數(shù)。AIC和BIC的值越低表示模型越好。與AIC相比,BIC對(duì)模型復(fù)雜度的懲罰效果更大,為此在GAMs的模型擬合中,我們選用BIC作為最優(yōu)模型選擇指標(biāo)。
+β1VehGasRegular
+f2(DrivAge)+f3(BonusMalus)
+f4(logDensity)
(5)
上述模型中包含了兩個(gè)分類(lèi)變量:汽油類(lèi)型(VehGas)和汽車(chē)類(lèi)型(VehBrand),以及四個(gè)連續(xù)型變量:車(chē)齡(VehAge)、駕駛員年齡(DrivAge)、獎(jiǎng)懲系統(tǒng)(BonusMalus)和對(duì)數(shù)人口密度(logDensity)。
由此得到索賠頻數(shù)的最終預(yù)測(cè)模型形式為:
+f1(VehAge)+f2(DrivAge)
+f3(BonusMalus)+f4(logDensity)
+f5(VehAge,BonusMalus)
(6)
索賠頻數(shù)模型的具體擬合情況見(jiàn)表2。
表2 索賠頻數(shù)模型(GAM)的參數(shù)估計(jì)
根據(jù)圖2,在車(chē)齡(VehAge)方面:當(dāng)汽車(chē)處于 [0,2]的年齡區(qū)間時(shí),剛買(mǎi)新車(chē)的平滑效應(yīng)最大,隨著車(chē)齡增大,平滑效應(yīng)在不斷下降。當(dāng)車(chē)齡位于 [2,5]區(qū)間時(shí),隨著車(chē)齡增大,平滑效應(yīng)增加。當(dāng)車(chē)齡處于 [5,20]區(qū)間時(shí),平滑效應(yīng)再次呈現(xiàn)下降趨勢(shì),并在20年時(shí)達(dá)到了最低谷,說(shuō)明駕駛員車(chē)齡越大,駕駛技術(shù)越熟練,預(yù)估索賠頻數(shù)降低。
在駕駛員年齡(DrivAge)方面:當(dāng)駕駛員年齡處于 [18,30]區(qū)間時(shí),隨著年齡增大,平滑效應(yīng)在不斷下降,在30歲達(dá)到最低谷。當(dāng)駕駛員年齡處于 [30,40]區(qū)間時(shí),隨著年齡增大,平滑效應(yīng)不斷增加,但整體數(shù)值小于0。在 [40,50]區(qū)間內(nèi),隨著年齡增大,平滑效應(yīng)在不斷增加,并且大于0。[50,60]區(qū)間內(nèi)平滑效應(yīng)有一個(gè)小幅下降。60歲以后,再次呈現(xiàn)增加趨勢(shì)。
獎(jiǎng)懲系統(tǒng)(BonusMalus)的平滑效應(yīng)隨著獎(jiǎng)懲水平的提高呈現(xiàn)增長(zhǎng)趨勢(shì),這與我們的直覺(jué)相一致:BonusMalus越低表明駕駛員的索賠歷史記錄越好,越高表明索賠越多。
圖2 索賠頻數(shù)模型(GAM)的平滑效應(yīng)展示
對(duì)數(shù)人口密度(logDensity)的平滑效應(yīng)隨著人口密度的增加呈現(xiàn)穩(wěn)定的增長(zhǎng)趨勢(shì),這也十分直觀:人口密度越大,該地區(qū)發(fā)生交通事故的可能性也越大,索賠次數(shù)也就越多。
車(chē)齡-獎(jiǎng)懲系統(tǒng)(VehAge-BonusMalus)的效應(yīng)區(qū)域圖中淺灰色表示負(fù)相關(guān)性,深灰色表示正相關(guān)性。高車(chē)齡-低獎(jiǎng)懲系統(tǒng)、低車(chē)齡-低獎(jiǎng)懲系統(tǒng)和低車(chē)齡-高獎(jiǎng)懲系統(tǒng)組合的風(fēng)險(xiǎn)更低一些,而高車(chē)齡-高獎(jiǎng)懲系統(tǒng)的風(fēng)險(xiǎn)更高。
+g2(BonusMalus)
+g3(DrivAge,BonusMalus)
(7)
表3 索賠強(qiáng)度模型(GAM)的參數(shù)估計(jì)
圖3 索賠強(qiáng)度GAM平滑效應(yīng)展示
從駕駛員年齡(DrivAge)角度:在 [18,50]的年齡區(qū)間,隨著駕駛員年齡增加,索賠強(qiáng)度平滑效應(yīng)整體呈現(xiàn)增加趨勢(shì)。年齡處于 [18,40]區(qū)間時(shí),平滑效應(yīng)小于0。[40,50]區(qū)間內(nèi),效應(yīng)大于0。在 [50,60]區(qū)間,平滑效應(yīng)有一個(gè)下降趨勢(shì)。60歲以后,隨著駕駛員年齡增加,平滑效應(yīng)再次呈現(xiàn)上升趨勢(shì)。
獎(jiǎng)懲系統(tǒng)(BonusMalus)的平滑效應(yīng)隨著獎(jiǎng)懲水平的提高呈現(xiàn)增長(zhǎng)趨勢(shì),這與我們的直覺(jué)相一致:BonusMalus越低表明駕駛員的索賠歷史記錄越好,越高表明索賠越多。
由圖3可知,在駕駛員年齡-獎(jiǎng)懲系統(tǒng)(DrivAge-BonusMalus)方面:低駕駛員年齡-低獎(jiǎng)懲系統(tǒng)和高駕駛員年齡-高獎(jiǎng)懲系統(tǒng)組合的平滑效應(yīng)要低于低駕駛員年齡-高獎(jiǎng)懲系統(tǒng)和高駕駛員年齡-低獎(jiǎng)懲系統(tǒng)組合的平滑效應(yīng),其中低駕駛員年齡-高獎(jiǎng)懲系統(tǒng)組合的平滑效應(yīng)最高。
在模型擬合中,一直存在著“擬合效果——可解釋性”之間的權(quán)衡。上一節(jié)GAMs的構(gòu)建中包含一些針對(duì)連續(xù)型變量的平滑函數(shù),可以捕捉到一些連續(xù)型變量的非線性效應(yīng),使得擬合效果更好,預(yù)測(cè)更加精確,但也讓模型變得更加復(fù)雜和難以解釋。相比于GAMs,GLMs只包含線性形式,直觀簡(jiǎn)單,易于理解,但模型的擬合效果在一定程度上會(huì)有不足。在實(shí)務(wù)定價(jià)中,定價(jià)人員更加傾向于使用分類(lèi)變量進(jìn)行定價(jià)。在本節(jié)中,我們基于前面GAMs得到的回歸預(yù)測(cè)模型,運(yùn)用數(shù)據(jù)驅(qū)動(dòng)的分箱方法,將連續(xù)型變量離散化,將其轉(zhuǎn)化為包含少數(shù)水平的分類(lèi)變量,從而構(gòu)造風(fēng)險(xiǎn)保費(fèi)類(lèi)別。
1.回歸樹(shù)的基本介紹。
本文使用決策樹(shù)進(jìn)行分箱,將連續(xù)變量離散化。決策樹(shù)模型是一種常用的分類(lèi)與回歸方法,分類(lèi)樹(shù)輸出的結(jié)果是分類(lèi)型變量,回歸樹(shù)輸出的結(jié)果是連續(xù)型變量。本文使用回歸樹(shù)模型,一方面因?yàn)樗髻r頻數(shù)和強(qiáng)度都是連續(xù)型變量,另一方面回歸樹(shù)模型對(duì)連續(xù)型變量會(huì)產(chǎn)生直觀的連續(xù)分割,符合我們對(duì)連續(xù)變量連續(xù)值分箱的要求。
常用的回歸二叉樹(shù)(binary tree)方法,如CART(Classification And Regression Tree)算法等,都是以逐步向前搜索的方式建立模型的遞歸分割。這種方法由來(lái)已久,但CART算法的結(jié)果只是局部最優(yōu)的,因?yàn)楣?jié)點(diǎn)的選擇(從而產(chǎn)生葉子)是在上一步的基礎(chǔ)上,最大化下一步的結(jié)果。每個(gè)內(nèi)部節(jié)點(diǎn)的分割規(guī)則是為了最大化其子節(jié)點(diǎn)的同質(zhì)性,而不考慮回歸樹(shù)上更下一層的節(jié)點(diǎn),由此只產(chǎn)生局部最優(yōu)的樹(shù)。另一種在樹(shù)的參數(shù)空間上搜索的方法是使用全局最優(yōu)方法,如進(jìn)化算法,對(duì)應(yīng)的回歸樹(shù)被稱為進(jìn)化樹(shù)。
2.進(jìn)化樹(shù)。
進(jìn)化算法的思路來(lái)自達(dá)爾文的自然進(jìn)化思想:物競(jìng)天擇,適者生存。進(jìn)化算法是以種群(population)為基礎(chǔ),是個(gè)體(individual)的集合,在每一代進(jìn)化過(guò)程中,個(gè)體之間彼此競(jìng)爭(zhēng),以評(píng)估函數(shù)(evaluation function)為指標(biāo),保留高質(zhì)量的個(gè)體,淘汰低質(zhì)量的個(gè)體,如此循環(huán)往復(fù),種群的質(zhì)量隨著時(shí)間的推移而不斷增加,得以進(jìn)化。
在進(jìn)化遞歸的每一次進(jìn)程中,首先,整合上一次進(jìn)化過(guò)程得到的所有個(gè)體,這些個(gè)體在該次進(jìn)化過(guò)程中被稱為父母?jìng)€(gè)體(parent individuals)。隨后,變異算子(variation operator)作用于種群中的父母?jìng)€(gè)體,改變個(gè)體的結(jié)構(gòu),被改變后的個(gè)體被稱為新的解決方案(solutions),也被稱為子代個(gè)體(offspring individuals)。最后,生存者選擇過(guò)程依據(jù)評(píng)估函數(shù)指標(biāo)來(lái)衡量這些個(gè)體的質(zhì)量,保留優(yōu)質(zhì)個(gè)體,淘汰劣質(zhì)個(gè)體,得以進(jìn)化。在我們的模型中,在每一代,初始的父母?jìng)€(gè)體要與經(jīng)過(guò)變異算子作用后產(chǎn)生的子代個(gè)體同時(shí)競(jìng)爭(zhēng),優(yōu)勝劣汰,保證每一代種群的個(gè)體總數(shù)不改變。在這個(gè)進(jìn)化過(guò)程中,種群的整體質(zhì)量不斷優(yōu)化,進(jìn)化算法的具體思路如表4所示。
表4 進(jìn)化算法
當(dāng)進(jìn)化算法與決策樹(shù)模型相結(jié)合時(shí),一棵樹(shù)即是個(gè)體,多棵樹(shù)組成的整體是種群。進(jìn)化樹(shù)中共有五種變異算子:四種突變算子(mutation operators,針對(duì)單一個(gè)體)和一種交叉算子(crossover operator,針對(duì)多個(gè)不同個(gè)體)。在進(jìn)化過(guò)程中,變異算子隨機(jī)作用于個(gè)體,修改樹(shù)的結(jié)構(gòu),產(chǎn)生新的后代。根據(jù)Grubinger 等(2014)[7]的做法,五種變異算子如下:
(1)分叉(split)。
隨機(jī)選擇一個(gè)葉子節(jié)點(diǎn)T,并為其分配一個(gè)有效的、隨機(jī)生成的分叉規(guī)則,分叉規(guī)則由相應(yīng)的分割變量x(r)和分割數(shù)值s(r)來(lái)定義。由此,被選中的葉子節(jié)點(diǎn)成為內(nèi)部節(jié)點(diǎn)r,并生成兩個(gè)新的葉子節(jié)點(diǎn)T1和T2。
(2)修剪(prune)。
隨機(jī)選擇一個(gè)內(nèi)部節(jié)點(diǎn)r,它有兩個(gè)葉子節(jié)點(diǎn)作為子節(jié)點(diǎn),剪去這兩個(gè)葉子節(jié)點(diǎn),將內(nèi)部節(jié)點(diǎn)r修剪成葉子節(jié)點(diǎn)Tr。
(3)大分割規(guī)則突變(major split rule mutation)。
隨機(jī)選擇一個(gè)內(nèi)部節(jié)點(diǎn)r并改變其分叉規(guī)則,其中以50%的概率,內(nèi)部節(jié)點(diǎn)r的分割變量x(r)由原特征空間X={x1,x2,…,xn}中的其他特征變量替代;如分割變量保持不變,則其分割數(shù)值s(r)發(fā)生變化。
(4)小分割規(guī)則突變(minor split rule mutation)。
與大分割規(guī)則突變運(yùn)算類(lèi)似,但它并不改變分割變量x(r),而只是將分割數(shù)值s(r)改變一個(gè)小的幅度。
(5)交叉(crossover)。
樹(shù)在被變異算子作用后,需要對(duì)其質(zhì)量進(jìn)行衡量,我們使用的評(píng)估函數(shù)的表達(dá)式如下:
n·log(MSE)+4·α·(m+1)·log(n)
(8)
本節(jié),我們將考慮使用前面介紹的進(jìn)化樹(shù)方法,對(duì)八個(gè)平滑效應(yīng)進(jìn)行分箱處理,得到包含少數(shù)水平的分類(lèi)型變量,構(gòu)造風(fēng)險(xiǎn)保費(fèi)類(lèi)別。
關(guān)于索賠頻數(shù)和索賠強(qiáng)度的平滑效應(yīng)分箱,我們需要分別進(jìn)行估計(jì)。對(duì)于索賠頻數(shù)來(lái)說(shuō),觀測(cè)值的數(shù)量nfreq=678 013;對(duì)于索賠強(qiáng)度來(lái)說(shuō),觀測(cè)值nsev=24 743。調(diào)試變量α是模型預(yù)測(cè)精度和復(fù)雜度之間的調(diào)和值,針對(duì)不同的模型,調(diào)試參數(shù)取值不同。在α選擇方面,我們也是對(duì)索賠頻數(shù)αfreq和索賠強(qiáng)度αsev模型分別計(jì)算。參考Henckaerts(2018)[11]的做法,我們對(duì)αfreq和αsev分別取不等距集合{1,1.5,2,…,9.5,10,20,30,…,90,100,150,200,…,1 200}中的值,再分別代入模型中,以BIC為指標(biāo),找到使得模型BIC最低的αfreq= 1 100,αsev=200。
圖4 索賠頻數(shù)模型平滑效應(yīng)分箱
圖5 索賠強(qiáng)度模型平滑效應(yīng)分箱
上一節(jié)我們運(yùn)用了R軟件包中的evtree對(duì)幾個(gè)連續(xù)平滑效應(yīng)進(jìn)行了分箱處理,根據(jù)以上索賠頻數(shù)和索賠強(qiáng)度的分箱結(jié)果,我們得到了連續(xù)變量分箱后的分類(lèi)變量。應(yīng)用這些分類(lèi)變量構(gòu)造GLMs,由此得到了兩個(gè)模型的參數(shù)估計(jì),見(jiàn)表5和表6(3)受篇幅限制,文中無(wú)法列出表5和表6的全部?jī)?nèi)容,僅列出部分參數(shù)估計(jì),感興趣的讀者可聯(lián)系作者索取。。
表5 索賠頻數(shù)模型(GLM)的參數(shù)估計(jì)
表6 索賠強(qiáng)度模型(GLM)的參數(shù)估計(jì)
在最優(yōu)模型選擇方面,以同時(shí)衡量模型擬合效果和復(fù)雜度的AIC和BIC為指標(biāo)。表7列舉了GAMs和GLMs下的索賠頻數(shù)和索賠強(qiáng)度模型對(duì)應(yīng)的AIC和BIC的值,從表7可知:不管是索賠頻數(shù)模型,還是索賠強(qiáng)度模型,對(duì)應(yīng)的AIC和BIC很相近。
表7 GAMs和GLMs的AIC和BIC比較
為每一份保單i計(jì)算純保費(fèi)πi,純保費(fèi)πi的公式如下:
πi=E(Fi)×E(Si)
(9)
其中E(Fi)是保單i索賠頻數(shù)的期望值,E(Si)是保單i索賠強(qiáng)度的期望值。
在保費(fèi)預(yù)測(cè)時(shí),我們?cè)俅螌?duì)數(shù)據(jù)進(jìn)行了處理,刪去了那些損失特別大的極端數(shù)據(jù),以免對(duì)模型預(yù)測(cè)產(chǎn)生極端影響。最終我們新生成了預(yù)測(cè)數(shù)據(jù)集FF.pred,里面包含了677 499個(gè)保單持有人的損失數(shù)據(jù)(原數(shù)據(jù)FF中包含了678 013個(gè)數(shù)據(jù)(4)為避免極端值對(duì)模型預(yù)測(cè)產(chǎn)生影響,我們從FF數(shù)據(jù)集中刪去那些損失額大于10 000的數(shù)據(jù),總共刪去了514個(gè)數(shù)據(jù)量,新生成的FF.pred包含677 499個(gè)數(shù)據(jù)量,用于純保費(fèi)的估計(jì)。)。此時(shí),對(duì)預(yù)測(cè)數(shù)據(jù)集FF.pred,根據(jù)以上模型,最終求得的GAM純保費(fèi)為33 942 460,GLM的純保費(fèi)為33 864 103,GLM預(yù)測(cè)的純保費(fèi)比GAM低了78 357,占比0.231%,這兩個(gè)估計(jì)都略高于實(shí)際的總損失33 742 058。
就純保費(fèi)預(yù)測(cè)精度而言,GAMs和GLMs兩者表現(xiàn)相當(dāng)。就模型解釋性而言,GLMs有直觀的風(fēng)險(xiǎn)保費(fèi)類(lèi)別,更易于理解和解釋;而GAMs有非線性的平滑效應(yīng),在解釋方面較為復(fù)雜。
根據(jù)以上整體分析,分箱后的GLMs在擬合效果上近似于GAMs,解釋性優(yōu)于GAMs,以進(jìn)化樹(shù)分箱來(lái)構(gòu)造車(chē)險(xiǎn)風(fēng)險(xiǎn)保費(fèi)類(lèi)別的方法可以從多角度來(lái)優(yōu)化GAMs。
在車(chē)險(xiǎn)定價(jià)中,廣義線性模型(GLM)已經(jīng)成為標(biāo)準(zhǔn)方法。對(duì)連續(xù)型自變量,很多情況下,直接應(yīng)用廣義線性模型,會(huì)忽略自變量的非線性效應(yīng)。作為傳統(tǒng)的廣義線性模型的推廣,通過(guò)引入變量的樣條函數(shù),廣義可加模型(GAM)能很好地考慮到非線性效應(yīng)。廣義可加模型的預(yù)測(cè)精度更好,但不足之處是在實(shí)務(wù)應(yīng)用中,模型的可解釋性變差。在實(shí)務(wù)中傳統(tǒng)的做法是:對(duì)連續(xù)型自變量,直接劃分為分類(lèi)變量,再應(yīng)用廣義線性模型。但這樣做的不足之處在于,主觀性較強(qiáng),理論依據(jù)顯得不足。
本文運(yùn)用了數(shù)據(jù)驅(qū)動(dòng)的分箱方法,對(duì)連續(xù)型變量進(jìn)行分箱處理,目的是更好地建立車(chē)險(xiǎn)定價(jià)中的風(fēng)險(xiǎn)保費(fèi)類(lèi)別。我們對(duì)索賠頻數(shù)和索賠強(qiáng)度這兩個(gè)響應(yīng)變量,在分箱處理前后,分別建立了廣義可加模型(GAM)和廣義線性模型(GLM),結(jié)合這兩個(gè)模型的預(yù)測(cè)值,預(yù)測(cè)了純保費(fèi),結(jié)果發(fā)現(xiàn)分箱后的GLM可以用來(lái)優(yōu)化GAM。
本文的思路是先對(duì)法國(guó)三責(zé)險(xiǎn)數(shù)據(jù)freMTPL2freq和freMTPL2sev進(jìn)行處理,得到索賠頻數(shù)和索賠強(qiáng)度模型擬合的數(shù)據(jù)集FF和FF.sev。再以GAM框架為起點(diǎn),構(gòu)建了一組索賠頻數(shù)-索賠強(qiáng)度模型。隨后,運(yùn)用決策樹(shù)中的進(jìn)化樹(shù)算法,對(duì)連續(xù)型變量進(jìn)行分箱處理,將連續(xù)型變量轉(zhuǎn)化為分類(lèi)變量,再構(gòu)造新的GLM,得到了一組新的索賠頻數(shù)-索賠強(qiáng)度模型,由此構(gòu)造了車(chē)險(xiǎn)風(fēng)險(xiǎn)保費(fèi)類(lèi)別。
模型擬合一直存在著擬合精度和可解釋性之間的權(quán)衡,不斷優(yōu)化模型的目的之一,是用更簡(jiǎn)單的模型達(dá)到更好的擬合精度,分箱后的廣義線性模型比廣義可加模型更簡(jiǎn)單、更直觀、易解釋。經(jīng)過(guò)模型預(yù)測(cè),我們得出由廣義線性模型計(jì)算出的保費(fèi),與由廣義可加模型得到的結(jié)論非常接近。由此,本文研究得到了一個(gè)更簡(jiǎn)單直接的模型,可作為實(shí)務(wù)中更復(fù)雜車(chē)險(xiǎn)定價(jià)模型的較好替代。
本文的研究結(jié)果中,模型里的定價(jià)類(lèi)別并沒(méi)有加入地區(qū)(Area)等空間因素自變量,但是在Fahrmeir 等(2007)[12]、Tufvesson 等(2019)[13]中考慮了地理空間因素在車(chē)險(xiǎn)風(fēng)險(xiǎn)保費(fèi)類(lèi)別構(gòu)造中的影響。此外,模型最終擬合中沒(méi)有加入汽車(chē)動(dòng)力(VehPower)自變量,而在Wüthrich(2020)[14]車(chē)險(xiǎn)定價(jià)模型中包含了這個(gè)自變量。
本文使用的進(jìn)化樹(shù)算法是一種近幾年才出現(xiàn)的機(jī)器學(xué)習(xí)算法,作者查閱了國(guó)內(nèi)相關(guān)文獻(xiàn),未發(fā)現(xiàn)將進(jìn)化樹(shù)算法應(yīng)用于車(chē)險(xiǎn)定價(jià)的論文,本文重點(diǎn)介紹了進(jìn)化樹(shù)算法的原理及其精算應(yīng)用。
近年來(lái),大數(shù)據(jù)和機(jī)器學(xué)習(xí)技術(shù)快速發(fā)展,本文的數(shù)據(jù)驅(qū)動(dòng)進(jìn)化樹(shù)算法不僅可應(yīng)用于車(chē)險(xiǎn)定價(jià)領(lǐng)域,今后也必會(huì)應(yīng)用于其他領(lǐng)域來(lái)處理預(yù)測(cè)建模問(wèn)題。數(shù)據(jù)科學(xué)對(duì)保險(xiǎn)業(yè)的沖擊和促進(jìn)是必然趨勢(shì),相信在不遠(yuǎn)的未來(lái),會(huì)有越來(lái)越多的機(jī)器學(xué)習(xí)方法被應(yīng)用于精算領(lǐng)域。
中央財(cái)經(jīng)大學(xué)學(xué)報(bào)2022年9期