鄒洋
摘 要:本文從車險業(yè)的角度出發(fā),根據(jù)未來車險業(yè)的發(fā)展趨勢,為車險業(yè)提高客戶續(xù)保率提供了一定數(shù)據(jù)支持。本文通過對提供的保單數(shù)據(jù)進行分析,建立了相關(guān)模型。根據(jù)得到的相應(yīng)模型結(jié)果,提出了車險業(yè)為增加續(xù)保率合理的優(yōu)惠方案和政策。首先對附件1中數(shù)據(jù)進行了描述性統(tǒng)計分析,其次對數(shù)據(jù)中存在的屬性特征進行了獨熱編碼,將其變成了數(shù)值特征,以便進一步的分析。在建立求解模型前,根據(jù)未來車險業(yè)的發(fā)展趨勢刪除對續(xù)保結(jié)果影響不大的特征。
關(guān)鍵詞:逐步回歸算法? 續(xù)保概率? 數(shù)學(xué)建模
近幾年保險行業(yè)有一種非常流行的保險類型——汽車保險,伴隨我國當(dāng)前的全民汽車擁有率的上升,汽車保險正在一步步進入到我們的生活中[1]。與其他保險類型相同,為了使得市場份額擴大,汽車保險應(yīng)該保證新老客戶的續(xù)保率[2]。保險公司提高車險優(yōu)質(zhì)業(yè)務(wù)續(xù)保率最根本的一點就是要建立完善的續(xù)保管理體系,全面推動公司的續(xù)保工作[3]。在信息時代下,我們需要建立更完善的體系,用以分析客戶的心理活動,對客戶進行精準(zhǔn)畫像,建立針對不同客戶的車險購置方案模型,提高車險的續(xù)保率,更好地為車險行業(yè)服務(wù)。
1 模型的建立
1.1 描述性統(tǒng)計分析
根據(jù)問題中所給未來車險業(yè)發(fā)展趨勢所涉及的因素,對一些不必要特征進行刪除,例如是否本省車牌、三者險保額(缺失值過多)、已決賠款(缺失值過多)等特征進行刪除。將特征歸為三類:一是客戶信息,二是保單信息,三是汽車相關(guān)信息。在本文的分析中,將品牌和車系作為分類標(biāo)準(zhǔn),同種品牌與類型的車輛作為一類進行分析,然后再根據(jù)客戶的詳細(xì)信息進行精準(zhǔn)畫像,建立客戶續(xù)保的概率模型,求解出不同類型客戶的續(xù)保概率。
1.2 數(shù)據(jù)預(yù)處理
數(shù)據(jù)中包含了屬性特征,因此需要對其進行數(shù)值化處理,才能進一步的建模分析。本文中運用獨熱編碼的方法,Python被用來對其進行數(shù)字處理。獨熱編碼(One-Hot)編碼,也被稱作一位有效的編碼,主要是利用具有N個狀態(tài)的寄存器來編碼這N個狀態(tài),每一個狀態(tài)都有其獨立的寄存器位,而且在任何時刻這些寄存器位只有一位是有效的。One-Hot將分類變量表示為二進制向量。首先要做的就是將分類值映射到整數(shù)值,其次將每一個整數(shù)值表示成二進制形式,除整數(shù)的索引之外,值都為零,被標(biāo)記為1。
1.3 模型的建立
邏輯回歸(Logistic Regression, LR)模型其實只是以線性回歸為基礎(chǔ),再套用一個邏輯函數(shù),正是這個邏輯函數(shù)的原因,使得該模型成為機器學(xué)習(xí)領(lǐng)域一顆閃亮的星,更是計算廣告學(xué)的核心。邏輯回歸算法在實際過程中主要用于解決二分類問題,它同Adaline線性自適應(yīng)算法很類似,主要是將線性函數(shù)的結(jié)果映射到sigmoid函數(shù)中,找到分類超平面。
sigmoid的函數(shù)輸出處在(0,1)當(dāng)中,它的中間值為0.5,那么前面的公式的含義就容易理解了,由于的輸出處在(0,1)當(dāng)中,這也就可以說明數(shù)據(jù)屬于某一類別的概率,例如:侃(x)<0.5則說明當(dāng)前數(shù)據(jù)屬于A類,所以我們可以將sigmoid函數(shù)看成樣本數(shù)據(jù)的概率密度函數(shù)。二分類問題可以看成伯努利分布,因此對于輸入x分類結(jié)果為類別1和類別0的概率分別為:
然后利用梯度下降法求解的最小值,最后根據(jù)邏輯回歸的性質(zhì),建立是否續(xù)保的分類模型,并求解不同客戶續(xù)保的概率,在此過程中,即求解分類到續(xù)保類的概率。
1.4 模型的求解
對邏輯回歸模型進行求解,得到有關(guān)客戶個人信息的結(jié)果顯示圖,由于數(shù)據(jù)量太多,無法進行一一顯示,因此在正文中僅顯示部分?jǐn)?shù)據(jù)的續(xù)保概率結(jié)果。
從客戶續(xù)保率與客戶車齡分布圖中,我們可以知道,當(dāng)客戶的車齡越高,其續(xù)保率越低,當(dāng)客戶車齡較低時,其續(xù)保率越高。當(dāng)車齡為1年時,續(xù)保率高達0.85。
該模型對于客戶實際情況有著精確的描述,以及能夠?qū)蛻羰欠窭m(xù)保的概率進行求解。從客戶所購買汽車的類型出發(fā),我們也可以建立邏輯回歸模型,對其進行續(xù)保率求解。
2 問題2模型的建立
2.1 模型的建立
建立基于逐步回歸算法的邏輯回歸樹預(yù)測模型,根據(jù)不同客戶的不同情況,將其轉(zhuǎn)化為初始值選擇的約束條件。
逐步回歸所要表達的基本思想是:以各個因素對于y的影響程度的大小為依據(jù),回歸方程由大到小逐個被引入,并且可以隨時檢驗回歸方程中在該時刻所包含的全部變量,看其是否還是非常顯著,如不再顯著則可將其剔除,直到在回歸方程中所包含的全部變量對y的作用都是顯著的,再考慮將一些新的變量引入其中。然后再從剩下的未選因子中,選出對于y作用最大的那個,對該因子的顯著性進行檢測,顯著的,則引入方程,不顯著的,則不引入。直到最終沒有可以引入的顯著因子,也沒有不顯著的變量需要剔除為止。
步驟1:計算變量均值,和差平方和。記各自的標(biāo)準(zhǔn)化變量為:
步驟2:計算的相關(guān)系數(shù)矩陣。
步驟3:假設(shè)當(dāng)前已選取K個變量:,并且互不相同,經(jīng)過變換變成,對j=1,2,...,k進行逐一的計算標(biāo)準(zhǔn)化變量的偏回歸平方和
步驟4:循環(huán)以上步驟,直至最終選上了t個變量,且互不相同,經(jīng)過變換后為,則對應(yīng)的回歸方程為:
3 結(jié)語
本文中的模型充分考慮了各個方面的綜合因素,在大量的數(shù)據(jù)支持下,邏輯回歸模型有更好的分類結(jié)果。且邏輯回歸模型本身是通過概率來進行分類。而本文所研究的問題的實質(zhì)也是一個根據(jù)概率來進行分類的二分類問題。因此在此問題中,可以得到良好的結(jié)果。但是該模型在實現(xiàn)方面依賴于大數(shù)據(jù)的處理,需要對數(shù)據(jù)做比較精確的預(yù)處理才能得到理想的結(jié)果;在優(yōu)惠政策的制定上,只是考慮了“折扣”這一種優(yōu)惠,可以挖掘其他的優(yōu)惠條件進行方案的制定。
參考文獻
周國清,陳昆華,何素楠,等.基于邏輯回歸模型的來賓市巖溶塌陷敏感性評價[J].安全與環(huán)境工程,2014,21(06).
董志勇.費率市場化對車險市場影響的經(jīng)濟學(xué)模型分析[J].保險研究,2011(05).
王勇,高峰.保險需求悖論的解釋——來自中國汽車險市場的實證研究[J].南開管理評論,2008,11(05).