于洪霞, 李 興
(1.上海電力學(xué)院 數(shù)理學(xué)院, 上海 201300; 2.華泰財(cái)產(chǎn)保險(xiǎn)有限公司 個(gè)險(xiǎn)承保部, 上海 201315)
?
一種基于Logistic回歸的銀行保險(xiǎn)消費(fèi)行為影響因素分析與預(yù)測(cè)
于洪霞1, 李 興2
(1.上海電力學(xué)院 數(shù)理學(xué)院, 上海 201300; 2.華泰財(cái)產(chǎn)保險(xiǎn)有限公司 個(gè)險(xiǎn)承保部, 上海 201315)
運(yùn)用Logistic回歸方法分析了銀行保險(xiǎn)消費(fèi)行為的影響因素,并構(gòu)建了預(yù)測(cè)模型,然后利用保留樣本進(jìn)行了實(shí)證檢驗(yàn).通過(guò)對(duì)樣本數(shù)據(jù)過(guò)離散、空單元、多元共線性、特異值、特殊影響案例的診斷,以及對(duì)模型的擬合程度和預(yù)測(cè)效果的檢驗(yàn),驗(yàn)證了所構(gòu)建的模型具有較好的擬合程度和預(yù)測(cè)效果.
銀行保險(xiǎn); 消費(fèi)行為分析; 分類變量; Logistic回歸分析
隨著經(jīng)濟(jì)的發(fā)展、人們收入水平的提高以及高新技術(shù)的普及,廣大保險(xiǎn)消費(fèi)者的消費(fèi)需求日趨復(fù)雜多樣,對(duì)保險(xiǎn)產(chǎn)品不僅要求有充足的保障功能,還需要提供周到完善的服務(wù),對(duì)保險(xiǎn)產(chǎn)品的購(gòu)買渠道、投保和后續(xù)服務(wù)的方式也提出了多樣化、個(gè)性化的需求.保險(xiǎn)企業(yè)要通過(guò)產(chǎn)品和服務(wù)為消費(fèi)者創(chuàng)造出值得回憶的美好體驗(yàn),需要加強(qiáng)消費(fèi)者行為研究,了解和掌握消費(fèi)者的行為活動(dòng)特點(diǎn),為保險(xiǎn)產(chǎn)品/服務(wù)和主題體驗(yàn)設(shè)計(jì)提供依據(jù).
國(guó)內(nèi)外研究人員已經(jīng)對(duì)銀行保險(xiǎn)消費(fèi)者行為開展了各種研究,例如:KARL Borch[1]按照購(gòu)買動(dòng)機(jī)對(duì)保險(xiǎn)需求進(jìn)行了分類,并研究了不同保險(xiǎn)需求的決策方式;KUUSELA A H和SPENCE M T[2]對(duì)消費(fèi)者如何選擇保險(xiǎn)產(chǎn)品進(jìn)行了研究,并將消費(fèi)者進(jìn)行了分類,分析了消費(fèi)者在決策過(guò)程中如何進(jìn)行信息的排除和選擇,進(jìn)而如何選擇不同的消費(fèi)策略;萬(wàn)晴瑤[3]研究了人口、家庭結(jié)構(gòu)變化對(duì)壽險(xiǎn)消費(fèi)需求的影響.對(duì)銀行保險(xiǎn)的研究可參考文獻(xiàn)[4]和文獻(xiàn)[5].桂林[6]設(shè)計(jì)了銀行保險(xiǎn)消費(fèi)行為調(diào)查問(wèn)卷,并在重慶市開展了調(diào)查,運(yùn)用Logistic模型對(duì)調(diào)查問(wèn)卷的數(shù)據(jù)進(jìn)行了分析,建立了重慶市銀行保險(xiǎn)消費(fèi)者購(gòu)買模型.中國(guó)工商銀行上海市分行課題組[7]分析了客戶金融消費(fèi)行為的影響因素和行為特征.
對(duì)消費(fèi)者行為的研究需要大量可信的數(shù)據(jù)作為基礎(chǔ).目前的研究或從宏觀角度出發(fā),或以調(diào)查問(wèn)卷的形式,尚未對(duì)銀行客戶保險(xiǎn)消費(fèi)的數(shù)據(jù)進(jìn)行深入的統(tǒng)計(jì)分析和研究.為進(jìn)一步深入分析銀行客戶保險(xiǎn)消費(fèi)的影響因素并構(gòu)建預(yù)測(cè)模型,本文對(duì)一個(gè)零售銀行消費(fèi)數(shù)據(jù)庫(kù)的數(shù)據(jù)進(jìn)行了研究.該數(shù)據(jù)庫(kù)涉及范圍廣,存儲(chǔ)數(shù)據(jù)量大,可以滿足研究需要.然后將Logistic回歸分析方法[8-9]引入銀行客戶保險(xiǎn)消費(fèi)的統(tǒng)計(jì)分析研究中.從消費(fèi)數(shù)據(jù)中選擇了16個(gè)因素,運(yùn)用Logistic回歸分析方法,分析這16個(gè)因素與客戶保險(xiǎn)購(gòu)買行為之間的關(guān)系,然后建立了預(yù)測(cè)模型并用實(shí)證進(jìn)行檢驗(yàn).
1.1 數(shù)據(jù)來(lái)源
本文數(shù)據(jù)來(lái)自于文獻(xiàn)[10]中的案例數(shù)據(jù),是一個(gè)零售銀行的消費(fèi)數(shù)據(jù),共包括32 264條記錄,47個(gè)變量.
首先,篩選出記錄完整、無(wú)空單元的數(shù)據(jù),共20 878條.選取前12 000條,將是否購(gòu)買保險(xiǎn)作為因變量,選取其中的16個(gè)自變量進(jìn)行影響因素分析,并構(gòu)建預(yù)測(cè)模型.在剩余的數(shù)據(jù)中選擇5 000條作為保留數(shù)據(jù),進(jìn)行模型檢驗(yàn).
16個(gè)自變量定義如表1所示.訓(xùn)練樣本數(shù)據(jù)統(tǒng)計(jì)結(jié)果如表2所示.
表1 16個(gè)自變量的取值和定義
表2 訓(xùn)練樣本數(shù)據(jù)統(tǒng)計(jì)結(jié)果
1.2 樣本數(shù)據(jù)診斷
判斷樣本數(shù)據(jù)是否符合Logistic回歸分析的基本條件,主要考慮樣本規(guī)模和樣本結(jié)構(gòu)兩個(gè)方面.王濟(jì)川和郭志剛[8]指出,Logistic回歸分析的每個(gè)參數(shù)至少需要5~10個(gè)觀測(cè)案例.本文研究的影響因素(自變量)為16個(gè),從表2可以看出各組觀測(cè)案例最少為119,因此樣本數(shù)據(jù)滿足樣本規(guī)模的條件.下面將通過(guò)對(duì)過(guò)離散、空單元、多元共線性等方面進(jìn)行診斷,判斷樣本數(shù)據(jù)是否存在數(shù)據(jù)結(jié)構(gòu)的問(wèn)題.
(1) 過(guò)離散 本文采用Pearson卡方檢驗(yàn)所得的卡方值除以相應(yīng)的自由度來(lái)估計(jì)離散參數(shù),并使用SPSS中的NOMREG程序來(lái)進(jìn)行計(jì)算,結(jié)果如下:卡方值為3 494.631;自由度為3 225;P值為0.001;離散參數(shù)為1.084.可以看出,離散參數(shù)近似等于1.0,這說(shuō)明樣本數(shù)據(jù)過(guò)離散可以忽略不計(jì).
(2) 空單元 從表2可以看出,樣本數(shù)據(jù)不存在空單元問(wèn)題.
(3) 多元共線性 可根據(jù)容忍度指標(biāo)來(lái)判斷,當(dāng)容忍度指標(biāo)為零時(shí),說(shuō)明相應(yīng)自變量與其他自變量完全相關(guān);容忍度小于0.2,可以認(rèn)為是多元共線性存在的標(biāo)志;容忍度小于0.1,說(shuō)明多元共線性很嚴(yán)重[8].樣本數(shù)據(jù)多元共線性問(wèn)題診斷結(jié)果如表3所示.表3中所有自變量的容忍度都遠(yuǎn)大于0.2,這表明不存在多元共線性問(wèn)題.
表3 樣本數(shù)據(jù)多元共線性問(wèn)題診斷結(jié)果
以上診斷結(jié)果說(shuō)明,抽取的樣本數(shù)據(jù)符合Logistic回歸分析的基本條件.
2.1 Logistic回歸分析及建模
設(shè)P為客戶購(gòu)買保險(xiǎn)的概率,0≤P≤1,則1-P為沒有購(gòu)買保險(xiǎn)的概率.假設(shè)Logistic回歸模型為:
式中:β0——常數(shù)項(xiàng);βi——回歸系數(shù),i=1,2,3,…,16.
本文運(yùn)用基于最大似然估計(jì)的向前逐步回歸法進(jìn)行分析,基于Score檢驗(yàn)統(tǒng)計(jì)量選入自變量,基于最大偏似然估計(jì)的似然比檢驗(yàn)結(jié)果來(lái)剔除變量,分析軟件選用SPSS.由于存在多分類的自變量,需要將多分類變量轉(zhuǎn)換為多個(gè)啞變量,每個(gè)啞變量只代表某兩個(gè)級(jí)別之間的差異,這樣回歸結(jié)果才能有明確而合理的實(shí)際意義.各自變量的啞變量編碼如表4所示.
表4 啞變量編碼
經(jīng)過(guò)程序計(jì)算,在迭代12次后,模型中各變量的相應(yīng)參數(shù)的檢驗(yàn)結(jié)果如表5所示.
表5 模型的變量及其相應(yīng)參數(shù)的檢驗(yàn)結(jié)果
根據(jù)表5的檢驗(yàn)結(jié)果可知,變量X8,X13,X15,X16不具有統(tǒng)計(jì)學(xué)意義.變量X1,X2,X3,X4,X5,X6,X7,X9,X10,X11,X12,X14具有統(tǒng)計(jì)學(xué)意義.因此,預(yù)測(cè)模型可以表示為:
其中:
Y=-0.576-0.157X1(1)-0.142X1(2)-
0.771X2-0.103X3-0.257X4+
0.625X5+1.060X6+0.737X7-
0.245X9-0.294X10+0.454X11+
0.775X12+0.145X14(1)+0.065X14(2)
2.2 模型擬合程度
2.2.1 特異值與特殊影響案例
本文采用Pearson殘差來(lái)判斷樣本數(shù)據(jù)是否為特異值,如圖1所示.采用杠桿度來(lái)判斷樣本數(shù)據(jù)是否屬于特殊影響案例,如圖2所示.由圖1可以看出,存在Pearson殘差值大于2的樣本數(shù)據(jù),這說(shuō)明樣本數(shù)據(jù)中存在特異值.由圖2可知,樣本數(shù)據(jù)的杠桿度平均值為(14+1)/12 000=0.001 25,大于2×0.001 25=0.002 5 的觀測(cè)值(即杠桿點(diǎn)),因此樣本數(shù)據(jù)中可能存在特殊影響案例.
圖1 訓(xùn)練樣本數(shù)據(jù)的Pearson殘差值
圖2 訓(xùn)練樣本數(shù)據(jù)的杠桿度值
為進(jìn)一步判斷特異值是否為特殊影響案例,將特異值的序號(hào)及對(duì)應(yīng)的檢驗(yàn)指標(biāo)都查找出來(lái),以便更清晰地觀察檢驗(yàn)結(jié)果.其中,樣本數(shù)據(jù)中共有342個(gè)特異值,但杠桿度值小于0.002 5的共15個(gè)(詳見表6),其Cook距離都小于最大值0.027 9,并且根據(jù)其各項(xiàng)dfbeta值可以看出,它們對(duì)系數(shù)估計(jì)的影響不太大,因此它們都不應(yīng)算作特殊影響案例.
表6 樣本數(shù)據(jù)特異值的各項(xiàng)檢驗(yàn)指標(biāo)值
注:DFB0_1,DFB1_1,DFB2_1,DFB3_1,DFB4_1,DFB5_1,DFB6_1,DFB7_1,DFB8_1,DFB9_1,DFB10_1,DFB11_1,DFB12_1,DFB13_1,DFB14_1—?jiǎng)h去該案例后對(duì)各項(xiàng)系數(shù)估計(jì)的影響系數(shù).
2.2.2 擬合優(yōu)度檢驗(yàn)與模型預(yù)測(cè)效果判斷
本文采用Hosmer和Lemeshow檢驗(yàn)來(lái)判斷模型的擬合優(yōu)度,得出結(jié)果:卡方值為15.001;自由度為8;P值為0.059,大于0.05,這表明模型預(yù)測(cè)概率獲得的期望頻數(shù)與觀測(cè)頻數(shù)之間的差異無(wú)統(tǒng)計(jì)意義,即模型擬合程度較好.
2.3 模型預(yù)測(cè)效果
對(duì)保留樣本的5 000條數(shù)據(jù)進(jìn)行預(yù)測(cè)準(zhǔn)確率判斷,結(jié)果見表7.
其中,模型對(duì)樣本數(shù)據(jù)分類情況的綜合預(yù)測(cè)準(zhǔn)確率為68.3%,預(yù)測(cè)結(jié)果較好.
表7 保留樣本數(shù)據(jù)預(yù)測(cè)分類情況
注:判斷值為0.400.
3.1 年齡因素
本文考慮客戶年齡與客戶賬戶年齡(賬戶開戶最長(zhǎng)時(shí)間)兩個(gè)年齡因素.數(shù)據(jù)分析結(jié)果表明,客戶年齡因素不具有統(tǒng)計(jì)學(xué)意義,賬戶年齡因素具有統(tǒng)計(jì)學(xué)意義.桂林[6]的研究認(rèn)為,年齡因素對(duì)客戶保險(xiǎn)購(gòu)買行為有一定影響.但在本文的研究中,客戶年齡因素對(duì)于所研究的保險(xiǎn)產(chǎn)品卻不具有統(tǒng)計(jì)學(xué)意義,此結(jié)論是否適用于其他保險(xiǎn)產(chǎn)品,有待進(jìn)一步研究.
客戶賬戶年齡因素的兩個(gè)啞變量的回歸系數(shù)分別為-0.157和-0.142.從回歸系數(shù)可以判斷,賬戶年齡小于2.3年的客戶比大于2.3年的客戶購(gòu)買保險(xiǎn)的概率高.此結(jié)論表明,新客戶比老客戶更傾向于購(gòu)買所研究的保險(xiǎn)產(chǎn)品,但該結(jié)論是否適用于其他保險(xiǎn)產(chǎn)品,有待進(jìn)一步研究.
3.2 賬戶或業(yè)務(wù)因素
本文考慮的賬戶或業(yè)務(wù)因素有:支票賬戶、直接存款業(yè)務(wù)、活期儲(chǔ)蓄賬戶、定期儲(chǔ)蓄帳戶、退休金賬戶、信用卡業(yè)務(wù)、投資業(yè)務(wù).這些因素的回歸系數(shù)分別為-0.771,-0.103,0.625,1.060,0.737,0.454,0.775.數(shù)據(jù)表明,這7個(gè)因素都具有統(tǒng)計(jì)學(xué)意義.可以看出,辦理活期存款賬戶、定期存款賬戶、退休金賬戶、信用卡業(yè)務(wù)、投資業(yè)務(wù)的客戶購(gòu)買所研究保險(xiǎn)產(chǎn)品的概率比未辦理的客戶要高.而未辦理支票賬戶、直接存款業(yè)務(wù)的客戶購(gòu)買所研究保險(xiǎn)產(chǎn)品的概率比已辦理的客戶要高.
3.3 負(fù)債因素
本文考慮的負(fù)債因素有:存款不足、免擔(dān)?;虻盅航杩?、分期借款、抵押借款.研究表明,免擔(dān)?;虻盅嘿J款對(duì)所研究保險(xiǎn)產(chǎn)品的購(gòu)買行為不具有統(tǒng)計(jì)學(xué)意義,而存款不足、分期借款、抵押借款因素具有統(tǒng)計(jì)學(xué)意義,這3個(gè)因素的回歸系數(shù)分別為-0.257,-0.245,-0.294.可以看出,未發(fā)生存款不足、未辦理分期借款或抵押借款的客戶購(gòu)買所研究保險(xiǎn)產(chǎn)品的概率比已發(fā)生或已辦理的客戶要高.
3.4 信用卡積分因素
數(shù)據(jù)表明,信用卡積分因素具有統(tǒng)計(jì)學(xué)意義,兩個(gè)啞變量的回歸系數(shù)分別為0.145與0.065.可以發(fā)現(xiàn),積分>646的客戶購(gòu)買所研究保險(xiǎn)產(chǎn)品的概率比積分≤646的客戶要高.此結(jié)論表明,與積分低的客戶相比,信用卡積分高的客戶更傾向于購(gòu)買所研究的保險(xiǎn)產(chǎn)品,但該結(jié)論是否適用于其他保險(xiǎn)產(chǎn)品,有待進(jìn)一步研究.
3.5 住址因素
本文考慮的住址因素有:是否搬家、是否在本地.研究表明,這兩個(gè)因素對(duì)所研究的保險(xiǎn)產(chǎn)品購(gòu)買行為不具有統(tǒng)計(jì)學(xué)意義.
本文基于一個(gè)零售銀行客戶消費(fèi)數(shù)據(jù)庫(kù)中的消費(fèi)數(shù)據(jù),運(yùn)用Logistic回歸分析方法分析了5類16個(gè)影響因素,構(gòu)建了客戶購(gòu)買保險(xiǎn)概率的預(yù)測(cè)模型.所涉及的影響因素范圍較大,構(gòu)建的模型擬合程度與預(yù)測(cè)效果較好,可以為保險(xiǎn)企業(yè)進(jìn)行客戶細(xì)分和產(chǎn)品細(xì)分、研發(fā)滿足不同客戶需求的產(chǎn)品或服務(wù)、開展應(yīng)用于不同客戶的主題體驗(yàn)設(shè)計(jì)等方面提供科學(xué)參考.
[1] KARL Borch.The three markets for private insurance[J].The Geneva Papers on Risk and Insurane,1981(20):7-31.
[2] KUUSELA H,SPENCE M T.How consumer select life insurance policies:a protocol analysis[J].Journal of Professional Services Marketing,1998,18(1):49-63.
[3] 萬(wàn)晴瑤.人口、家庭結(jié)構(gòu)變化對(duì)壽險(xiǎn)消費(fèi)需求的影響初探[J].上海保險(xiǎn),1999(11):15-17.
[4] 張洪濤,苗力.銀行保險(xiǎn)[M].北京:中國(guó)人民大學(xué)出版社,2005:1-100.
[5] 黃金財(cái).中國(guó)銀行保險(xiǎn)發(fā)展的模式選擇[J].保險(xiǎn)研究,2006(11):39-40.
[6] 桂林.銀行保險(xiǎn)消費(fèi)行為研究——以重慶壽險(xiǎn)的銀行保險(xiǎn)為例[D].重慶:西南大學(xué),2012.
[7] 中國(guó)工商銀行上海市分行課題組.商業(yè)銀行財(cái)富客戶金融消費(fèi)行為的統(tǒng)計(jì)與分析[J].金融論壇,2011(3):58-63.
[8] 王濟(jì)川,郭志剛.Logistic回歸模型——方法與應(yīng)用[M].北京:高等教育出版社,2001:57-218.
[9] 于洪霞,季建華,李興.一種基于Logistic回歸的全損飛行事故分析與預(yù)測(cè)[J].中國(guó)安全科學(xué)學(xué)報(bào),2010,20(3):34-38.
[10] MIKE Patetta.Predictive modeling using logistic regression[M].Cary:SAS Institute Inc,2008:1-15.
(編輯 白林雪)
Analysis and Forecast Model of Bancassurance Consuming Behavior Based on Logistic Regression Method
YU Hongxia1, LI Xing2
(1.SchoolofMathematicsandPhysics,ShanghaiUniversityofElectricPower,Shanghai201300,China; 2.UnderwritingDept.ofConsumerLine,HuataiP&CInsuranceCo.Ltd,Shanghai201315,China)
Logistic regression method is applied to analyze effect factors of bancassurance consuming behavior and build a forecast model.Then the model is tested with reserved sample.Through the diagnosis of overdispersion,zero cell count,multicollinearity,outliers,influential observations and test of level of fitness and predictive accuracy,the model is proved to be adequate and effective,indicating that 12 factors are of significance in statistics science.
bancassurance; consuming behavior analysis; categorical variables; logistic regression method
10.3969/j.issn.1006-4729.2017.03.019
2015-09-09
于洪霞(1978-),女,博士,講師,遼寧朝陽(yáng)人.主要研究方向?yàn)樽顑?yōu)化理論及應(yīng)用.E-mail:yuhongxialx@aliyun.com.
O212;F842.6
A
1006-4729(2017)03-0307-06