李欣然 楊 杉
(四川大學(xué)錦城學(xué)院計(jì)算機(jī)與軟件學(xué)院,四川 成都 611731)
大數(shù)據(jù)技術(shù)的飛速發(fā)展引發(fā)了金融界的全面改革,其中保險(xiǎn)行業(yè)也面臨巨大的競(jìng)爭(zhēng)壓力,這種壓力不僅是來源于外界信息的交互傳播方面更是來源于行業(yè)內(nèi)部的管理競(jìng)爭(zhēng)、業(yè)務(wù)升級(jí)方面,因此保險(xiǎn)公司將大數(shù)據(jù)分析運(yùn)用在企業(yè)中的措施刻不容緩。從國(guó)內(nèi)大數(shù)據(jù)技術(shù)與保險(xiǎn)業(yè)結(jié)合發(fā)展的角度來看,在壽險(xiǎn)及健康險(xiǎn)領(lǐng)域,在逐漸普及基于大數(shù)據(jù)技術(shù)的用戶管理及保險(xiǎn)業(yè)務(wù)的應(yīng)用。大數(shù)據(jù)應(yīng)用的逐漸推廣帶來了較大的正面效應(yīng),實(shí)踐也證明,大數(shù)據(jù)技術(shù)在保險(xiǎn)業(yè)務(wù)中的應(yīng)用對(duì)于促進(jìn)保險(xiǎn)公司效率提高、成本降低起到了積極作用。保險(xiǎn)公司除了投保數(shù)據(jù)值得研究分析外,退保數(shù)據(jù)實(shí)則更能反映業(yè)務(wù)與客戶的問題?;谝陨媳尘?,針對(duì)保險(xiǎn)退保數(shù)據(jù)對(duì)其用戶管理、險(xiǎn)種業(yè)務(wù)等方面進(jìn)行探索性研究。
以四川人壽保險(xiǎn)公司的退保數(shù)據(jù)進(jìn)行分析,采用Excel、SPSS 數(shù)據(jù)分析工具,針對(duì)退保金額、保額、保費(fèi)三者間的相關(guān)性建立回歸方程,并將險(xiǎn)種分類進(jìn)行特征分析,包括退保機(jī)構(gòu)、保額保費(fèi)等。并圍繞退保原因展開分析,比較用戶性別、年齡段不同下是否會(huì)造成退保原因的選擇差異,退保原因與退保金額的顯著性關(guān)系。依次使用了頻率分析、獨(dú)立樣本T 檢驗(yàn)、線性回歸分析等方法。
數(shù)據(jù)來源于四川人壽保險(xiǎn)公司,覆蓋了2008 全年的退保數(shù)據(jù),時(shí)間跨度在1999 年至2008 年的投保保單,退保數(shù)據(jù)表中包含了保險(xiǎn)機(jī)構(gòu)、險(xiǎn)種、總保費(fèi)、保額、退保金額、退保原因、客戶號(hào)、性別、年齡等9 個(gè)字段共167721 條數(shù)據(jù),15.9M。
首先,進(jìn)行數(shù)據(jù)預(yù)處理,篩選刪除了對(duì)于研究退保險(xiǎn)種特征以及退保用戶基本畫像無價(jià)值的數(shù)據(jù)、保留所需數(shù)據(jù)。其中使用了險(xiǎn)種、退保金額、退保原因等字段的數(shù)據(jù)進(jìn)行分析探索。通過觀察家庭人口和教育程度字段發(fā)現(xiàn)其都進(jìn)行了脫敏處理,字段值為空或值一樣,對(duì)分析幫助和影響不大,因此刪除此類數(shù)據(jù)。其次,修改格式設(shè)置,由于原數(shù)據(jù)的投保時(shí)間和退保時(shí)間整列的值沒有正確顯示,因此將這兩列設(shè)置成日期格式。數(shù)據(jù)分類則通過統(tǒng)計(jì)匯總發(fā)現(xiàn)經(jīng)濟(jì)原因在退保原因當(dāng)中占比最大超過了50%,而其余退保原因的占比很少,統(tǒng)一歸為非經(jīng)濟(jì)原因,將退保原因分為經(jīng)濟(jì)原因和非經(jīng)濟(jì)原因。年齡段的分類中,由于用戶信息中的年齡分布較散并且研究單個(gè)年齡的用戶畫像意義不大,因此分段設(shè)置。我國(guó)規(guī)定,18 歲以下的未成年人只享有保險(xiǎn)受益者的權(quán)利無法自行進(jìn)行投保,因此以18 歲為分界點(diǎn),分為小于18 歲、18 歲~35 歲、36 歲~54 歲、55 歲~72歲以及72 歲以上5 個(gè)年齡段。險(xiǎn)種分類中,按照險(xiǎn)種的首字母進(jìn)行了分類,直接分為S、L、B、Y、4、6 六大類險(xiǎn)種。
(1)各參數(shù)的相關(guān)性分析
由表1 可知:總保費(fèi)、過去三年平均年收入、保額與退保金額之間的Sig 值都是小于0.01。退保金額的皮爾遜相關(guān)性一行的數(shù)據(jù)顯示退保金額與總保費(fèi)的數(shù)據(jù)是0.912**,與過去三年年收入的數(shù)據(jù)是0.083**,與保額的數(shù)據(jù)是0.375**。**代表相關(guān)性顯著,相關(guān)性大于0.3 表示有較強(qiáng)相關(guān)性,因此選取總保費(fèi)、保額與退保金額之間建立線性回歸模型。
表1 總保費(fèi)、退保金額、保額三者相關(guān)性比較
(2)建立線性回歸模型
表2 總保費(fèi)、保額、退保金額的線性回歸模型
選取總保費(fèi)、保額與退保金額之間建立線性回歸模型。利用步進(jìn)方法分別得出2 個(gè)模型。模型一:退保金額與總保費(fèi)的模型;模型二:退保金額與總保費(fèi)以及保額的模型;在表格中模型的R2的數(shù)值都為0.832,R2接近于1 說明模型擬合度較好,因此2 個(gè)模型的變量與因變量的總體存在著較強(qiáng)相關(guān)性。
表3 線性回歸模型的方差分析、線性回歸方差的參數(shù)系數(shù)值
由表3 可知:ANOVA^a對(duì)模型進(jìn)行了方差分析,從模型的顯著性可以看出數(shù)據(jù)都是小于0.01 的,進(jìn)而模型的顯著性較強(qiáng),由此說明模型是有效的,可以借此去判斷和計(jì)算相關(guān)數(shù)值,總保費(fèi)、保額與退保金額的線性回歸模型可通過第2 個(gè)模型去探究具體線性關(guān)系。從上述的系數(shù)^a 表中得出總保費(fèi)、保額的系數(shù)分別是0.949、0.003,則相關(guān)線性回歸方程是:退保金額=0.949×總保費(fèi)+0.003×保額+257.773
(1)險(xiǎn)種分類
觀察數(shù)據(jù)的險(xiǎn)種信息可知,按險(xiǎn)種的首字母作為分類依據(jù),共分為六大類險(xiǎn)種。因?yàn)樵赟PSS 分析工具中,以險(xiǎn)種作為分類字段需為數(shù)值性的數(shù)據(jù),因此將B、L、S、Y 字母分別替換為7、8、9、0 四個(gè)數(shù)字。研究每一個(gè)具體險(xiǎn)種的退保特征不具有現(xiàn)實(shí)意義且適用范圍不廣,因此逐類分析研究,使用頻率分析功能研究每類險(xiǎn)種退保率最高的機(jī)構(gòu)、退保險(xiǎn)種的特征包含保額與保費(fèi)、退保金額和總體退保數(shù)據(jù)的分布趨勢(shì)。
(2)主要險(xiǎn)種的退保特征數(shù)據(jù)可視化展示
S 類險(xiǎn)種有252615 條退保個(gè)案,占比90.9%;Y 類險(xiǎn)種有8976 條退保個(gè)案,占比5.3%。在Excel 中使用篩選統(tǒng)計(jì)功能,統(tǒng)計(jì)出其余險(xiǎn)種占比依次為1.4%、1.6%、0.5%、<0.1%。主要選取S、Y 兩種險(xiǎn)種展開退保特征畫像分析。
Y 類險(xiǎn)種中,易被退保的機(jī)構(gòu)513804,容易退保的保險(xiǎn)有保額為10000 總保費(fèi)為1000 的特征,此類保險(xiǎn)的用戶黏性較差。Y 類險(xiǎn)種,機(jī)構(gòu)、保額、總保費(fèi)和退保金額都是右偏分布,位于均值右側(cè)。除機(jī)構(gòu)為扁平分布,離均值較稀疏外,其余參數(shù)尖峰分布,集中于均值附近。S 類險(xiǎn)種中,易被退保的機(jī)構(gòu)是513803,容易退保的保險(xiǎn)有保額為10000 總保費(fèi)為590 的特征,說明此類保險(xiǎn)用戶滿意度不高。S 類險(xiǎn)種,機(jī)構(gòu)、保額、總保費(fèi)和退保金額都是右偏分布,分布與均值右側(cè)。除了機(jī)構(gòu)為扁平分布,離均值較稀疏外,其余參數(shù)尖峰分布,聚集與均值兩側(cè)。
因此在保險(xiǎn)險(xiǎn)種中513803、513804 為主要的被退保機(jī)構(gòu),其中S、Y 險(xiǎn)種退保率最高。被退保的險(xiǎn)種中特征為保額10000總保費(fèi)1000,客戶的忠誠(chéng)度最低。
退保數(shù)據(jù)中除了關(guān)注具體的退保金額,還需關(guān)注客戶退保的根本原因。圍繞退保原因展開分析,分別分析與退保金額、客戶性別、年齡之間是否有關(guān)聯(lián)產(chǎn)生影響,目的在于推測(cè)高退保風(fēng)險(xiǎn)的客戶人群畫像以及退保原因。為保險(xiǎn)險(xiǎn)種業(yè)務(wù)的不斷完善和改進(jìn)提供思路。
通過對(duì)退保原因的初步觀察發(fā)現(xiàn),退保原因中經(jīng)濟(jì)原因的占比為77%,是主要的退保原因而其余退保原因的占比共占23%,因此在退保原因的分類中,以經(jīng)濟(jì)原因作為分類依據(jù),并利用Excel 中的替換功能把退保原因分為經(jīng)濟(jì)原因和非經(jīng)濟(jì)原因后替換成數(shù)字1、2,導(dǎo)入SPSS 當(dāng)中完成獨(dú)立樣本t 檢驗(yàn),把退保金額方法檢驗(yàn)變量,把分組變量變成退保原因,并且定義組1,組2,組1 是經(jīng)濟(jì)效益,組2 是其他余下的退保原因。選取簇形圖構(gòu)建圖形,類別為性別、聚類定義為退保原因。
將客戶的年齡分為18 歲以下、18 歲~3 5歲、36 歲~54歲、55 歲~72 歲、大于72 歲及以上。對(duì)數(shù)據(jù)進(jìn)行整理、歸類,最后根據(jù)數(shù)據(jù)歸納總結(jié)出高退保風(fēng)險(xiǎn)的客戶基本畫像。
表4 獨(dú)立樣本檢驗(yàn)統(tǒng)計(jì)值
如表4 所示,分析退保金額之間是否因退保原因而產(chǎn)生差異性得出結(jié)果,從方差的齊次性檢驗(yàn)得出:因?yàn)槠滹@著性差異的數(shù)據(jù)值小于0.05 拒絕原假設(shè),方差不具有齊次性。通過方差的齊次性看到Sig.值<0.05,說明退保金額之間有一定差異性,不同的退保原因?qū)е碌耐吮=痤~的均值是不一樣的。均值差異為551,置信區(qū)間的下限值是443 上限值是669,所以均值的范圍95%是在這個(gè)范圍之內(nèi)的,可信度高。
男性在退保原因上選擇經(jīng)濟(jì)原因的占多數(shù),其后依次為正常退保、險(xiǎn)種不理想、失效退保,而其余的幾項(xiàng)退保原因的占比更小,而在女性的數(shù)據(jù)分布同男性相似,因此在退保原因的選擇上男女的差異不大。
經(jīng)濟(jì)原因仍是最主要的退保原因,在年齡階段中占多數(shù)的退保原因的年齡段有18 歲~35 歲,36 歲~54 歲,55 歲~72歲,其余年齡段比例幾乎忽略不計(jì)。人數(shù)占比最多的是36 歲~54歲年齡段,因此其為高退保年齡段的區(qū)間。
總保費(fèi)、保額與退保金額之間存在顯著相關(guān)關(guān)系,線性關(guān)系方程是退保金額=0.949×總保費(fèi)+0.003×保額+257.773。513803、513804 為主要的被退保機(jī)構(gòu),其中S 與Y 的險(xiǎn)種被退保率最高,被退保的險(xiǎn)種具體特征為保額10000 總保費(fèi)1000。退保原因的差異導(dǎo)致用戶在退保金額上的均值有差異,性別上差異不大。36 歲~54 歲為高退保風(fēng)險(xiǎn)人群,經(jīng)濟(jì)原因是占主要的退保原因。
對(duì)于較高保額、保費(fèi)的業(yè)務(wù)應(yīng)給予更多的關(guān)注,此類保險(xiǎn)業(yè)務(wù)的退保金額通常較高,會(huì)引起較大數(shù)據(jù)波動(dòng)。513803、513804 的保險(xiǎn)機(jī)構(gòu)需要改進(jìn)S 和Y 險(xiǎn)種,保額為10000 和總保費(fèi)為1000 的險(xiǎn)種需要注意其保險(xiǎn)比例設(shè)置,比例存在不妥當(dāng)就會(huì)造成客戶忠誠(chéng)度低,退保人數(shù)多的現(xiàn)象。
經(jīng)濟(jì)原因是最主要的退保原因,36 歲~54 歲是最高退保風(fēng)險(xiǎn)的用戶年齡區(qū)域。因此保險(xiǎn)公司向用戶推薦業(yè)務(wù)時(shí)要結(jié)合用戶年齡和經(jīng)濟(jì)情況來進(jìn)行推薦,在平日的用戶管理時(shí),重點(diǎn)關(guān)注這個(gè)年齡段的用戶,預(yù)防并做好其退保措施。