溫曉楠 董立偉 朱亞培 劉艷敏
摘? 要: 設(shè)計基于數(shù)學(xué)統(tǒng)計的保險賠付風(fēng)險預(yù)測模型,分別從使用量、駕駛表現(xiàn)、危險駕駛、出行習(xí)慣四個方面選取能夠反映駕駛行為的20個風(fēng)險因子構(gòu)建指標(biāo)體系,利用數(shù)學(xué)統(tǒng)計中的因子分析法從上述指標(biāo)體系內(nèi)選取6個能代表駕駛行為風(fēng)險情況的典型風(fēng)險因子;以選取的典型風(fēng)險因子為基礎(chǔ)結(jié)合二分類隨機(jī)變量,利用具有優(yōu)秀分類與回歸性能的XGBoost模型構(gòu)建保險賠付風(fēng)險預(yù)測模型,預(yù)測變量所屬類別與概率分布。實(shí)證分析結(jié)果顯示,該模型迭代速度較快,AUC值與F值相較于傳統(tǒng)Logistic模型分別上升67.4%和2.3%,顯著高于對比模型。
關(guān)鍵詞: 保險賠付; 風(fēng)險預(yù)測模型; 數(shù)學(xué)統(tǒng)計; 駕駛行為; 風(fēng)險因子選取; 指標(biāo)體系構(gòu)建
中圖分類號: TN919?34; F222.3? ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識碼: A? ? ? ? ? ? ? ? ? ? ? 文章編號: 1004?373X(2020)22?0086?04
Abstract: A risk prediction model for the insurance compensation is designed on the basis of mathematical statistics, and 20 risk factors that can reflect driving behavior are selected in four aspects of usage amount, driving expression, dangerous driving and traveling habit to construct the index system. Six typical risk factors that can represent the risk situation of driving behavior are selected from the above index system by means of the factor analysis method in mathematical statistics. On the basis of typical risk factors, the XGBoost model with excellent classification and regression performance is used to build the insurance claim risk prediction model in combination with two dichotomy random variables for the prediction of the variables′ category and probability distribution. The results of empirical analysis show that the iteration speed of the model is faster, and AUC value and F value are increased by 67.4% and 2.3% respectively in comparison with the traditional Logistic model, which are significantly higher than those of the compared model.
Keywords: insurance compensation; risk prediction model; mathematical statistics; driving behavior; risk factor selection; index system construction
0? 引? 言
隨著社會經(jīng)濟(jì)與汽車制造行業(yè)的快速發(fā)展,保險公司中汽車保險業(yè)務(wù)占據(jù)比例逐漸增大[1]。相關(guān)研究資料中數(shù)據(jù)統(tǒng)計結(jié)果顯示,2018年我國汽車保險業(yè)務(wù)原保費(fèi)占保險公司總原保費(fèi)收入的72%以上[2],金額高達(dá)7 632.18億元。但基于保險公司盈利角度分析,70%以上具有汽車保險業(yè)務(wù)的保險公司在汽車保險賠付方面均出現(xiàn)不同程度的虧損現(xiàn)象[3]。數(shù)據(jù)統(tǒng)計結(jié)果顯示,2018年保險公司車險賠付虧損額度高達(dá)65億元,與上一年度相比車險賠付虧損額度呈現(xiàn)上升趨勢。研究總結(jié)發(fā)現(xiàn),保險公司車險賠付虧損的主要原因在于車險保費(fèi)與賠付風(fēng)險不匹配[4]。由此可知準(zhǔn)確的保險賠付風(fēng)險預(yù)測是改善保險公司經(jīng)濟(jì)管理,提升保險公司利益收入的基礎(chǔ)。
數(shù)學(xué)統(tǒng)計是預(yù)測保險賠付風(fēng)險過程中的主要環(huán)節(jié),常用的數(shù)學(xué)統(tǒng)計方法包括回歸分析、方差分析、因子分析、Logistic分析、聚類分析等[5]。
利用數(shù)學(xué)統(tǒng)計法設(shè)計保險賠付風(fēng)險預(yù)測模型,將因子分析法與聚類分析、回歸分析相結(jié)合,實(shí)現(xiàn)高性能的保險賠付風(fēng)險預(yù)測[6]。
1? 保險賠付風(fēng)險預(yù)測模型
1.1? 研究樣本及指標(biāo)體系構(gòu)建
選取我國60家保險公司作為研究樣本,其中訓(xùn)練樣本與測試樣本各為30家。
以能夠全方位描述駕駛行為風(fēng)險為原則,分別從使用量、駕駛表現(xiàn)、危險駕駛、出行習(xí)慣四個方面選取能夠反映駕駛行為的20個風(fēng)險因子構(gòu)建指標(biāo)體系[7]。表1為指標(biāo)選取結(jié)果。
1.2? 指標(biāo)體系處理
由于上述風(fēng)險因子指標(biāo)中不同指標(biāo)間可能具有相關(guān)性,導(dǎo)致指標(biāo)體系存在信息重復(fù)問題[8],對保險賠付風(fēng)險預(yù)測產(chǎn)生不利影響。因此,需通過因子分析法在20個風(fēng)險因子中選取出最能全面體現(xiàn)駕駛行為狀態(tài)的指標(biāo)。
采用SPSS軟件對選取的60家保險公司實(shí)施因子分析獲取的KMO(Kaiser Meyer Olkin)檢驗(yàn)統(tǒng)計量、Bartlett球形度檢驗(yàn)近似卡方值以及相應(yīng)的概率P值分別為0.683,1 582.821和0.00,由此可知所選風(fēng)險因子內(nèi)存在共同因子,能夠?qū)嵤┮蜃臃治?。選取特征值大于1的因子,由此獲取的前6個因子方差累計貢獻(xiàn)率達(dá)到95%以上,這表示前6個因子能夠描述95%以上的方差,如表2所示。所以前6個因子可以基本表示原始數(shù)據(jù)信息。
1.3? XGBoost模型
用[M]和[hi,zi]分別表示車險保單數(shù)量和各車險保單對應(yīng)的觀察值,其中,[hi]和[zi]分別表示的是單個保單是否賠付的二分類隨機(jī)變量和第[i]份保單的風(fēng)險因子。[hi]服從伯努利分布[10],其值為1或0時分別表示第[i]份保單賠付和未賠付。設(shè)[zi]為[p]維向量,在其給定的基礎(chǔ)上,利用XGBoost模型預(yù)測因變量[hi]所屬類別與概率分布,即為保險賠付風(fēng)險預(yù)測模型。
優(yōu)化并拓展梯度提升決策樹模型后得到的集成學(xué)習(xí)模型XGBoost(eXtreme Gradinet Boosting),針對數(shù)據(jù)分類與回歸問題的分析求解具有十分突出的表現(xiàn)[11],在當(dāng)前諸多數(shù)學(xué)競賽中許多獲獎方案均采用該模型。
XGBoost模型同隨機(jī)森林模型相同的是均由一系列決策樹集合而成,兩者有所差異的是XGBoost模型屬于提升樹模型,其中決策樹在根據(jù)輸入樣本進(jìn)行風(fēng)險預(yù)測時,是以上一輪預(yù)測結(jié)果為基礎(chǔ)的學(xué)習(xí)預(yù)測誤差[12],以此提升模型的風(fēng)險預(yù)測精度。用[hit]和[ftzi]分別描述第[t]輪迭代后模型對第[i]個樣本的預(yù)測結(jié)果和第[t]棵決策樹對第[i]個樣本的預(yù)測分?jǐn)?shù),那么式(1)為[hit]的描述形式:
基于式(2)和式(3),XGBoost模型在[hit-1]處利用泰勒級數(shù)將損失函數(shù)展開至二次項,同時利用了誤差函數(shù)的一階導(dǎo)數(shù)與二階導(dǎo)數(shù),因此該模型預(yù)測結(jié)果同梯度提升決策樹模型相比,決策精度更高。在給定決策樹結(jié)構(gòu)的基礎(chǔ)上,目標(biāo)函數(shù)展開并進(jìn)行相關(guān)變換后能夠以一元二次函數(shù)最小值求解問題替代最優(yōu)化目標(biāo)問題[15]。利用貪心算法持續(xù)劃分現(xiàn)有的葉子節(jié)點(diǎn),同時對比劃分前后目標(biāo)函數(shù)的增益,直至確定第t輪迭代的最優(yōu)決策樹模型。通過上述過程獲取準(zhǔn)確的保單賠付風(fēng)險預(yù)測值。XGBoost模型內(nèi)風(fēng)險因子的關(guān)鍵度可利用不同方法實(shí)施判斷,例如確定全部決策樹內(nèi)風(fēng)險因子作為分裂特征的次數(shù)、確定全部基于該特征實(shí)施分裂的節(jié)點(diǎn)基尼系數(shù)降低值、信息增益總和的確定。將全部風(fēng)險因子的關(guān)鍵度依次排列,由此確定XGBoost模型內(nèi)風(fēng)險因子的關(guān)鍵度排列順序。
2? 實(shí)驗(yàn)分析
實(shí)驗(yàn)為驗(yàn)證本文所設(shè)計基于數(shù)學(xué)統(tǒng)計的保險賠付風(fēng)險預(yù)測模型的應(yīng)用性能,利用某保險公司數(shù)據(jù)為實(shí)驗(yàn)數(shù)據(jù)進(jìn)行實(shí)證分析,實(shí)驗(yàn)數(shù)據(jù)中包含該保險公司2018年期間全部車險保單的承保、賠付信息和保單有效期內(nèi)承保車輛駕駛員的駕駛行為信息。實(shí)驗(yàn)數(shù)據(jù)內(nèi)賠付保單共718份,占總保單數(shù)量的36%左右。駕駛行為數(shù)據(jù)內(nèi)包含車險保單對應(yīng)車輛固定時間區(qū)域內(nèi)不同時刻的行駛狀態(tài)。
采用本文模型預(yù)測該保險公司賠付風(fēng)險,預(yù)測過程中本文模型迭代過程如圖1所示。
由圖1可知,采用本文模型預(yù)測保險公司賠付風(fēng)險過程中,通過173步迭代可完成模型訓(xùn)練,與傳統(tǒng)Logistic模型通過316步迭代完成模型訓(xùn)練相比,本文模型具有較快的收斂速度,由此也能說明本文模型具有優(yōu)異的預(yù)測效率。
為驗(yàn)證本文模型對于保險賠付風(fēng)險的預(yù)測性能,選取十折交叉驗(yàn)證法。將全部實(shí)驗(yàn)數(shù)據(jù)分成10個數(shù)據(jù)子集,各數(shù)據(jù)子集均不重合,以其中9個數(shù)據(jù)集和剩余1個數(shù)據(jù)集分別為訓(xùn)練集和測試集。保險賠付風(fēng)險預(yù)測是一個二分類問題,普遍使用的評價指標(biāo)有F值與AUC值,二者是評估預(yù)測模型預(yù)測性能的指標(biāo),其值越靠近1,說明預(yù)測真實(shí)性越好。在計算這2個值時均以描述樣本實(shí)際類別與模型預(yù)測類別交叉統(tǒng)計結(jié)果的混淆矩陣為基礎(chǔ)。通過混淆矩陣評估預(yù)測模型的預(yù)測性能。表4為混淆矩陣針對保險賠付風(fēng)險預(yù)測模型的基本結(jié)構(gòu)。
1) 在利用F值與AUC值評價模型預(yù)測性能過程中,只選取車輛使用量情況作為風(fēng)險因子構(gòu)建預(yù)測模型時,模型的預(yù)測精度相對較低。由此可知,當(dāng)前市面上部分保險公司僅以被保汽車使用量情況為基礎(chǔ)預(yù)測保險賠付風(fēng)險的精度還有待提高。
2) 相較于只利用駕駛表現(xiàn)情況作為風(fēng)險因子構(gòu)建預(yù)測模型相比,危險駕駛情況對于保險賠付風(fēng)險預(yù)測更為重要。在上述四個模型內(nèi),僅使用危險駕駛情況構(gòu)建的模型AUC值均高于使用車輛使用量情況作為風(fēng)險因子構(gòu)建的模型;除梯度決策樹模型外,利用危險駕駛情況構(gòu)建的模型的F值也高于使用車輛使用量情況構(gòu)建的模型。
3) 將全部風(fēng)險因子相結(jié)合構(gòu)建預(yù)測模型,則全部模型的預(yù)測能力都有不同程度的上漲。由此可知,利用駕駛行為風(fēng)險因子構(gòu)建保險賠付風(fēng)險預(yù)測模型能夠獲取較好的風(fēng)險預(yù)測性能。
以全部風(fēng)險因子構(gòu)建保險賠付風(fēng)險預(yù)測模型,以傳統(tǒng)Logistic模型為標(biāo)準(zhǔn),將本文模型、神經(jīng)網(wǎng)絡(luò)模型和梯度決策樹模型預(yù)測性能與標(biāo)準(zhǔn)模型相對比,如表5所示。
3? 結(jié)? 論
汽車保險是當(dāng)前保險公司的主要業(yè)務(wù),在汽車保險中主要依照駕駛員對于汽車的駕駛行為預(yù)測車保賠付風(fēng)險,由于駕駛行為與車輛賠付風(fēng)險之間具有相關(guān)性,因此本文設(shè)計基于數(shù)學(xué)統(tǒng)計的保險賠付風(fēng)險預(yù)測模型。選取20個駕駛行為風(fēng)險因子構(gòu)建評價指標(biāo)體系,利用XGBoost模型分析駕駛行為風(fēng)險因子在保險賠付風(fēng)險預(yù)測中的應(yīng)用。分析結(jié)果顯示本文模型的預(yù)測性能顯著高于對比模型。
注:本文通訊作者為董立偉。
參考文獻(xiàn)
[1] 趙玉,嚴(yán)武,李佳.基于混合Copula模型的水稻保險費(fèi)率厘定[J].統(tǒng)計與信息論壇,2019,34(8):66?74.
[2] 王艷,袁宏俊,張煥明.基于C?UPWG算子的區(qū)間組合預(yù)測模型及其應(yīng)用[J].統(tǒng)計與決策,2019(9):63?66.
[3] 熊鴻斌,陸瑩.基于Bow?Tie模型的中小型電鍍廠退役搬遷環(huán)境風(fēng)險分析[J].安全與環(huán)境學(xué)報,2018,18(4):1615?1622.
[4] 劉展.基于傾向得分廣義線性模型的非概率抽樣統(tǒng)計推斷研究[J].數(shù)學(xué)的實(shí)踐與認(rèn)識,2018,48(16):175?184.
[5] 汪威.最優(yōu)組合預(yù)測線性模型在旅游需求預(yù)測中的應(yīng)用:以中國大陸赴澳門游客量預(yù)測為例[J].數(shù)學(xué)的實(shí)踐與認(rèn)識,2018,48(12):49?58.
[6] 王潤東,莢衛(wèi)東,葛勇勝,等.加速康復(fù)外科方案在肝細(xì)胞癌手術(shù)的失敗因素分析及風(fēng)險預(yù)測模型的建立[J].中華外科雜志,2018,56(9):693?700.
[7] 張文杰,袁紅平.基于灰色馬爾可夫模型的節(jié)能設(shè)備故障預(yù)測研究[J].系統(tǒng)科學(xué)與數(shù)學(xué),2019,39(1):65?75.
[8] 杜康,袁宏俊,鄭亞男.基于三角模糊數(shù)及GIOWA算子的區(qū)間型組合預(yù)測模型[J].統(tǒng)計與決策,2019(16):22?28.
[9] 高偉,馮海林.競爭風(fēng)險下右刪失數(shù)據(jù)的剩余壽命分位數(shù)回歸預(yù)測[J].統(tǒng)計與決策,2018(21):19?22.
[10] 文江平,郝潔,陶麗新,等.成年人2型糖尿病風(fēng)險預(yù)測模型的建立[J].中華檢驗(yàn)醫(yī)學(xué)雜志,2017(40):706.
[11] 于輝,吳騰飛.供應(yīng)風(fēng)險下營業(yè)中斷保險的供應(yīng)鏈模型分析[J].中國管理科學(xué),2017(12):39?47.
[12] 楊鵬,楊志江,孔祥鑫.Poisson?Geometric模型下時間一致的最優(yōu)再保險?投資策略選擇[J].應(yīng)用數(shù)學(xué),2019,32(4):729?738.
[13] 武海濱,李康,楊麗,等.非平衡分類技術(shù)在人群糖尿病疾病風(fēng)險預(yù)測模型中的應(yīng)用[J].中國衛(wèi)生統(tǒng)計,2019,36(4):502?506.
[14] 任義方,趙艷霞,張旭暉,等.江蘇水稻高溫?zé)岷庀笾笖?shù)保險風(fēng)險綜合區(qū)劃[J].中國農(nóng)業(yè)氣象,2019,40(6):391?401.
[15] 王真,馬建華.基于PLoS開放獲取數(shù)據(jù)的單篇論文網(wǎng)絡(luò)瀏覽量累積規(guī)律的數(shù)理統(tǒng)計及分析[J].圖書情報工作,2018,62(12):72?83.