四川大學(xué)錦城學(xué)院計(jì)算機(jī)與軟件學(xué)院 劉 鑫 楊 杉
以四川省某保險(xiǎn)公司的新投保數(shù)據(jù)為數(shù)據(jù)基礎(chǔ),利用SPSS和EXCEL兩大工具據(jù)進(jìn)行分析。新投保數(shù)據(jù)分為4個(gè)主題,針對(duì)用戶購(gòu)買數(shù)據(jù)與機(jī)構(gòu)的關(guān)系和保險(xiǎn)中年齡分布情況利用了頻率分析的方法;針對(duì)保額與保費(fèi)、繳費(fèi)期限、年齡之間的線性關(guān)系利用相關(guān)分析及線性回歸分析的方法;針對(duì)不同收入與總保費(fèi)之間的關(guān)系利用描述統(tǒng)計(jì)中的探索分析。通過(guò)所得到的分析結(jié)果和結(jié)論,為保險(xiǎn)公司定位目標(biāo)客戶,繪制用戶畫像提供了數(shù)據(jù)支撐,同時(shí)也可以分析出購(gòu)保人群的特點(diǎn),有利于保險(xiǎn)公司留住老客戶,吸引新的購(gòu)保人群。
雖然中國(guó)的保險(xiǎn)市場(chǎng)位居世界第二,但是與世界平均保險(xiǎn)密度相比還存在著一定差距。保險(xiǎn)行業(yè)規(guī)模增長(zhǎng)過(guò)慢已經(jīng)不能適應(yīng)新時(shí)代的行業(yè)發(fā)展需求,行業(yè)及用戶長(zhǎng)期存在難以解決的痛點(diǎn),限制了行業(yè)發(fā)展。隨著我國(guó)保險(xiǎn)市場(chǎng)的開放和保險(xiǎn)公司數(shù)量的增加以及保險(xiǎn)行業(yè)資本的累積,保險(xiǎn)業(yè)的競(jìng)爭(zhēng)程度不斷升級(jí),同時(shí),互聯(lián)網(wǎng)經(jīng)濟(jì)的發(fā)展,大數(shù)據(jù)在保險(xiǎn)中的作用越來(lái)越大,因?yàn)橥ㄟ^(guò)大數(shù)據(jù),可以輕而易舉地抓取、篩選和分析出精算、營(yíng)銷、投保、服務(wù)、理賠等各個(gè)環(huán)節(jié)的統(tǒng)計(jì)數(shù)據(jù),為保險(xiǎn)行業(yè)帶來(lái)了增量市場(chǎng)。網(wǎng)民規(guī)模地不斷擴(kuò)大,用戶的行為習(xí)慣已發(fā)生轉(zhuǎn)變。隨著市場(chǎng)技術(shù)的不斷更新,傳統(tǒng)的企業(yè)和行業(yè)面臨著巨大的技術(shù)匱乏問(wèn)題。因此,為了提高公司員工績(jī)效,提升團(tuán)隊(duì)產(chǎn)能,實(shí)現(xiàn)企業(yè)利潤(rùn)的最大化,對(duì)已有數(shù)據(jù)進(jìn)行相應(yīng)的分析已成為必然趨勢(shì)。
首先對(duì)新投保數(shù)據(jù)進(jìn)行了數(shù)據(jù)清洗:對(duì)數(shù)據(jù)去除空值,刪除除重復(fù)值,剔除無(wú)效數(shù)據(jù)的行和列,再利用清洗之后的數(shù)據(jù)分四個(gè)主題進(jìn)行數(shù)據(jù)分析:(1)用頻率分析與分類匯總的方法探索用戶購(gòu)買數(shù)據(jù)與機(jī)構(gòu)的關(guān)系;(2)用頻率分析方法統(tǒng)計(jì)所有保險(xiǎn)中年齡分布情況并使用直方圖表示;(3)相關(guān)分析及線性回歸分析方法探索保額與保費(fèi)、繳費(fèi)期限、年齡之間的線性關(guān)系;(4)用探索分析方法分析不同收入與總保費(fèi)之間的關(guān)系。最后利用數(shù)據(jù)分析的結(jié)果寫出相應(yīng)的結(jié)論。
表1 去除無(wú)效數(shù)據(jù)后的數(shù)據(jù)指標(biāo)
包括家庭人口、教育程度、投保時(shí)間三列以及表中的第二行為空行,剔除后的效果展示如表1所示。
刪除重復(fù)值:數(shù)據(jù)工具欄中的刪除重復(fù)值功能。
清洗后的數(shù)據(jù)為13列,844067行,如圖1所示。
圖1 去重后的數(shù)據(jù)指標(biāo)
3.1.1 利用頻率分析的方法
利用頻率分析的方法:探索各機(jī)構(gòu)購(gòu)保人數(shù)的總量并進(jìn)行對(duì)比分析。
首先分析工具欄中選擇頻率分析,將機(jī)構(gòu)作為變量并勾選統(tǒng)計(jì)中的縱數(shù),然后通過(guò)統(tǒng)計(jì)每個(gè)機(jī)構(gòu)出現(xiàn)的次數(shù)來(lái)分析購(gòu)買保險(xiǎn)人數(shù)最多的機(jī)構(gòu)。探索保險(xiǎn)機(jī)構(gòu)總量結(jié)果如表2所示。
表2 探索保險(xiǎn)機(jī)構(gòu)總量結(jié)果
分析結(jié)果:通過(guò)頻率分析可以得出眾數(shù)為510722,說(shuō)明這一機(jī)構(gòu)購(gòu)保人數(shù)最多有非常大的保險(xiǎn)市場(chǎng)。通過(guò)匯總后的數(shù)據(jù)集并降序排序后可以更加直觀地看出510722,510115,510119,510117,510110,510781,512002,512004,510108,510681這幾個(gè)機(jī)構(gòu)的的購(gòu)買人數(shù)較多,并且在所有機(jī)構(gòu)中排名前10,說(shuō)明這些機(jī)構(gòu)的保險(xiǎn)客戶量較多,對(duì)保險(xiǎn)的需求量較大,有利于保險(xiǎn)公司獲得更多的客源,擴(kuò)大自己的市場(chǎng)511088,510928,510505,513498,513432,510925,511383,513431,510698,510800這10個(gè)機(jī)構(gòu)的購(gòu)保人數(shù)相對(duì)較少說(shuō)明這些機(jī)構(gòu)的保險(xiǎn)客戶量較少,對(duì)保險(xiǎn)的需求量較小保險(xiǎn)公司可以根據(jù)公司實(shí)際情況對(duì)公司業(yè)務(wù)進(jìn)行適當(dāng)宣傳。
3.1.2 利用分類匯總
利用分類匯總:對(duì)險(xiǎn)種頻率進(jìn)行統(tǒng)計(jì),并分析機(jī)構(gòu)對(duì)險(xiǎn)種的宣傳方案。
利用分類匯總的方法可以分析出S81,S42,415,602,S93,411,412,603等險(xiǎn)種的購(gòu)買人群較多,各機(jī)構(gòu)如果想要提高銷售率,就可以在各機(jī)構(gòu)大力宣傳S81,S42,415,602,S93,411,412,603等出現(xiàn)頻率大于9000的險(xiǎn)種,客戶對(duì)這些險(xiǎn)種的需求量較大,有較好的保險(xiǎn)市場(chǎng),并且購(gòu)保人群較少的機(jī)構(gòu)可以對(duì)非常有必要購(gòu)買的險(xiǎn)種進(jìn)行宣傳,提高人群的購(gòu)保意識(shí)。如果想對(duì)險(xiǎn)種宣傳得更加精準(zhǔn),還可與當(dāng)?shù)貦C(jī)構(gòu)購(gòu)買數(shù)量較多的險(xiǎn)種進(jìn)行結(jié)合,在當(dāng)?shù)貦C(jī)構(gòu)進(jìn)行個(gè)性化,精確化宣傳。險(xiǎn)種頻率分析的結(jié)果如表3所示。
表3 險(xiǎn)種頻率分析的結(jié)果
使用頻率統(tǒng)計(jì)分析方法統(tǒng)計(jì)所有購(gòu)買了保險(xiǎn)人中年齡的分布情況,包括平均值、中位數(shù)、眾數(shù)、標(biāo)準(zhǔn)差和四分位數(shù),并由直方圖表示。
年齡的中位數(shù)與平均數(shù)均在40歲左右,眾數(shù)為37歲,四分位點(diǎn)分為34、40和49歲,標(biāo)準(zhǔn)偏差為10.738。結(jié)合直方圖可初步得出結(jié)論購(gòu)買保險(xiǎn)的人群年齡較為集中,多數(shù)集中在30-60之間,其中30-45歲左右的年齡段購(gòu)買人數(shù)最多,50-60歲年齡段購(gòu)買人數(shù)次多,45-50歲年齡段購(gòu)買人數(shù)較其它年齡段屬于少數(shù),所以30-45年齡段的人群會(huì)更傾向于購(gòu)買保險(xiǎn),30歲以下人群對(duì)于購(gòu)買保險(xiǎn)的意愿不是很強(qiáng)烈??傮w年齡分布情況數(shù)據(jù)展示如圖2所示。
圖2 總體年齡分布情況數(shù)據(jù)展示
首先先進(jìn)行相關(guān)分析,分析Sig值可得,保額與保費(fèi)之間具有的相關(guān)關(guān)系最強(qiáng),與繳費(fèi)期限的相關(guān)關(guān)系次之,與年齡之間的相關(guān)關(guān)系最弱,且與年齡之間存在的是較弱的負(fù)相關(guān)關(guān)系。四個(gè)變量之間都具有相關(guān)性,因此可將這四個(gè)變量用作做線性回歸分析。其次,做線性回歸:將保額作為因變量,總保費(fèi)、年齡、繳費(fèi)期限作為自變量,方法選擇步進(jìn)。
表4 保額與保費(fèi)、繳費(fèi)期限、年齡三者線性回歸方程結(jié)果
結(jié)果分析:通過(guò)步進(jìn)的方式,可以得到總保費(fèi)、繳費(fèi)期限、年齡與保額之間的關(guān)系是逐漸增強(qiáng)的;通過(guò)表ANOVA中的顯著性的值,都小于0.01,說(shuō)明在0.01顯著性水平的基礎(chǔ)上,所分析的變量之間的線性關(guān)系是顯著的;通過(guò)系數(shù)表中的系數(shù),可以得到四者之間的線性相關(guān)系數(shù),公式為:“保額=1.07×總保費(fèi)+1147.39×繳費(fèi)年限-145.596×年齡+5637.879”。
首先先將過(guò)去三年平均年收入進(jìn)行分段用1表示0-99999、2表示100000-999999、3表示1000000-9999999、4表示10000000-20000000。
然后使用描述統(tǒng)計(jì)中的探索分析,分析不同收入與總保費(fèi)之間的關(guān)系,分析結(jié)果發(fā)現(xiàn),年平均收入在0-99999的投保人平均投保費(fèi)是8191.477084,95%的置信區(qū)間為8152.192593到8230.761574之間,其偏度為10.439是正數(shù),說(shuō)明數(shù)據(jù)右偏,也就是所投保費(fèi)高于平均保費(fèi)的人比較少,其峰度為303.013也是正數(shù),說(shuō)明數(shù)據(jù)相對(duì)集中在平均值,也就是說(shuō)這個(gè)區(qū)間的投保人大部分總保費(fèi)都集中在平均值8191左右,;年收入在100000-999999之間的平均投保費(fèi)是12669.41476,95%的置信區(qū)間為12244.37814到13094.45137之間,其偏度為13.699是正數(shù)比年收入在0-99999的偏度大,說(shuō)明數(shù)據(jù)右偏更多,也就是所投保費(fèi)高于平均保費(fèi)的人更少,其峰度為324.196也是正數(shù)同樣大于0-99999段的峰度,說(shuō)明數(shù)據(jù)更集中在平均值,也就是說(shuō)這個(gè)區(qū)間的投保人絕大部分總保費(fèi)都集中在平均值12669左右;年收入在1000000-9999999之間的平均投保費(fèi)是100843.0027,95%的置信區(qū)間為83634.75278到118051.2526之間,其偏度為4.403是正數(shù),說(shuō)明數(shù)據(jù)右偏,但小于前兩個(gè)段的偏度也就是說(shuō)所投保費(fèi)高于平均保費(fèi)的人雖然比較少,但相對(duì)而言要多一些,其峰度為25.714是正數(shù),說(shuō)明數(shù)據(jù)相對(duì)集中在平均值,但遠(yuǎn)小于前兩段的峰度,也就是說(shuō)這個(gè)區(qū)間的投保人大部分總保費(fèi)都集中在平均值12669左右,但相對(duì)而言集中度沒有前兩段高;年收入在1000000-9999999之間的平均投保費(fèi)是83495.44444,95%的置信區(qū)間為-7502.42217到174493.3111之間,其偏度為1.109是正數(shù),說(shuō)明數(shù)據(jù)右偏,但相對(duì)而言右偏較少,其峰度為-0.447是負(fù)數(shù),說(shuō)明數(shù)據(jù)集沒有集中在平均值,也就是說(shuō)這個(gè)區(qū)間的投保人的投保費(fèi)可能相差的比較大;1、2、3段的平均總保費(fèi)是在遞增的,也就是說(shuō),年收入越多的人,總投保費(fèi)就越多,但是第4段,也就是年收入在10000000-20000000之間的人反而更多的總保費(fèi)很少,也就是說(shuō)并不是越有錢,越會(huì)投入大額的保費(fèi)。
表5 分組后收入的探索分析結(jié)果
分析箱圖發(fā)現(xiàn),收入在1,2兩段的箱形圖的箱體和胡須幾乎沒有,也就是說(shuō)這兩個(gè)收入?yún)^(qū)間的投保人的總保費(fèi)都非常的集中相近,并且異常值較多,也就是說(shuō)有一些的人總保費(fèi)過(guò)于低或者過(guò)于高,而平均收入在3,4區(qū)間的箱形圖下邊的箱體和胡須較短,也就是說(shuō)數(shù)據(jù)是在偏低的地方集中的,總保費(fèi)在中位數(shù)以下相對(duì)集中,而總保費(fèi)高的差距拉的是比較開的。
圖3 收入分組區(qū)間箱形圖展示
結(jié)論及建議:購(gòu)保人群多的機(jī)構(gòu)可以根據(jù)當(dāng)?shù)仉U(xiǎn)種購(gòu)買的情況對(duì)保險(xiǎn)進(jìn)行宣傳,對(duì)當(dāng)?shù)氐馁?gòu)保人群購(gòu)保情況能有所了解,能夠精確地定位到目標(biāo)人群,準(zhǔn)確畫出目標(biāo)用戶畫像;購(gòu)保人群較少的機(jī)構(gòu)可以對(duì)非常有必要購(gòu)買的險(xiǎn)種進(jìn)行宣傳,提高人群的購(gòu)保意識(shí)。保險(xiǎn)供給方應(yīng)時(shí)刻以市場(chǎng)需求為導(dǎo)向,根據(jù)自身特點(diǎn),找準(zhǔn)進(jìn)入或者拓寬互聯(lián)網(wǎng)保險(xiǎn)市場(chǎng)的切入點(diǎn),同時(shí)樹立自身企業(yè)品牌良好形象。如果想對(duì)險(xiǎn)種宣傳得更加精準(zhǔn),還可與當(dāng)?shù)貦C(jī)構(gòu)購(gòu)買數(shù)量較多的險(xiǎn)種進(jìn)行結(jié)合,在當(dāng)?shù)貦C(jī)構(gòu)進(jìn)行個(gè)性化,精確化宣傳。同時(shí),建議該公司將主要客戶群體定在平均年收入在千萬(wàn)以下的人群中,也不要過(guò)分忽略年收入在100000以下的人群,雖然收入不多,但是投保額并不一定會(huì)比年收入在100000以上的人群投保額少。