樊曉唯 蔣林岑 劉向東
摘要:本文以某金融機(jī)構(gòu)的一類保險產(chǎn)品——簡易險為例,詳細(xì)闡述LightGBM算法在金融產(chǎn)品目標(biāo)客戶挖掘中的應(yīng)用。經(jīng)過參數(shù)優(yōu)化和動態(tài)調(diào)整閾值,最終將目標(biāo)用戶的預(yù)測準(zhǔn)確率從原始的比例0.41%提升到14.96%,并且獲得了22.84%的召回率。同時,該模型可針對營銷活動和營銷資源的情況,實時調(diào)整概率閾值,從而調(diào)整營銷目標(biāo)的輸出規(guī)模,對業(yè)務(wù)營銷推廣提供了積極的指導(dǎo)價值。
關(guān)鍵詞:機(jī)器學(xué)習(xí);LightGBM;分類預(yù)測
中圖分類號:TP311? ? ? 文獻(xiàn)標(biāo)識碼:A
文章編號:1009-3044(2022)17-0017-02
1引言
近年來機(jī)器學(xué)習(xí)被廣泛應(yīng)用于金融產(chǎn)品領(lǐng)域,如投資組合管理優(yōu)化、貸款和保險承保、風(fēng)險管理,及市場營銷中的潛在目標(biāo)客戶挖掘等場景[1]。本文以某金融機(jī)構(gòu)的一類保險產(chǎn)品——簡易險為例,詳細(xì)闡述LightGBM算法在金融產(chǎn)品目標(biāo)客戶挖掘中的應(yīng)用。
簡易險是一種小面額、免體檢、適合一般普通工作者的綜合意外險保險。其保險責(zé)任主要為人身意外保險附加交通意外傷害保險、財產(chǎn)意外保險等[2]。隨著近幾年的發(fā)展,簡易險業(yè)務(wù)已在全國形成一定規(guī)模,但是與傳統(tǒng)金融業(yè)務(wù)相比,簡易險業(yè)務(wù)仍處于較小規(guī)模,占金融總收入比例不高。然而,簡易險業(yè)務(wù)保障屬性突出,符合未來發(fā)展趨勢,且市場空間巨大,是一類具有發(fā)展前景的產(chǎn)品。
本文探討了一種基于機(jī)器學(xué)習(xí)的潛在目標(biāo)客戶挖掘方案,利用該金融機(jī)構(gòu)的歷史數(shù)據(jù),基于LightGBM算法構(gòu)建簡易險潛在客戶挖掘模型。
2 LightGBM算法
LightGBM是 Light Gradient Boosting Machine 的縮寫,本質(zhì)上也是一種Boosting算法,由微軟提供,是一種免費開源的分布式梯度提升框架。LightGBM與在此之前的XGBoost原理類似,都是對GBDT的高 效實現(xiàn)。兩者都采用損失函數(shù)的負(fù)梯度作為當(dāng)前決策樹的殘差近似值,以此來擬合新的決策樹[3]。但是在很多方面,LightGBM都優(yōu)于XGBoost,比如:更快的訓(xùn)練速度、更低的內(nèi)存占用、更高的模型準(zhǔn)確率、并行計算、可直接支持離散特征作為輸入等。
LightGBM 算法主要使用了兩種新技術(shù),第一種是基于梯度的單側(cè)采樣 (GOSS) ,以此減少算法輸入數(shù)據(jù)量;第二種是互斥特征捆綁技術(shù) (EFB),將互斥的特征捆綁成一個特征,從而降低特征維度;除此之外,LightGBM還采用直方圖方法對連續(xù)特征進(jìn)行處理,將連續(xù)特征離散化到多個分箱中,進(jìn)一步提高分裂時的搜索速度[4]。
3基于LightGBM的簡易險潛在客戶挖掘模型
為了更好地發(fā)展簡易險業(yè)務(wù),本節(jié)基于LightGBM算法,運用金融客戶歷史數(shù)據(jù),研究建立能挖掘簡易險潛在客戶的模型。建模目的在于,在龐大的存量金融客戶群體中,找出最具有簡易險購買潛力的客戶,并且可根據(jù)營銷資源的情況,動態(tài)調(diào)整目標(biāo)客戶規(guī)模。
3.1 特征選取
為應(yīng)用LightGBM挖掘潛在簡易險客戶,首先對目標(biāo)客戶做一個基本范圍限定,即:截至2020年底金融總資產(chǎn)大于100元的客戶,共計468萬客戶。為更好地評估本次模型挖掘的效果,選取2020年客戶的屬性及行為特征作為輸入,將預(yù)測結(jié)果與2021年的真實簡易險購買數(shù)據(jù)進(jìn)行對比驗證。部分重要的特征說明如表1所示。
3.2 模型訓(xùn)練
依照上一步特征篩選出的數(shù)據(jù),訓(xùn)練集和測試集數(shù)據(jù)的比例設(shè)定為3:1。對離散型特征變量進(jìn)行預(yù)先配置,LightGBM算法參數(shù)主要如下:目標(biāo)函數(shù)objective設(shè)置為二分類、迭代次數(shù)設(shè)置為200、學(xué)習(xí)率設(shè)置0.01、葉子節(jié)點數(shù)設(shè)置32、樹最大深度設(shè)置為6、 L2正則化系數(shù)為0.001、自動平衡正負(fù)樣本設(shè)置為True。最終訓(xùn)練得到預(yù)測模型。
params = { 'objective': 'binary', 'metric': {'binary_logloss', 'auc'}, 'num_iterations': 200,
'learning_rate': 0.01, 'num_leaves': 32, 'max_depth':6, 'bagging_fraction':0.8,
'feature_fraction':0.8, 'lambda_l2': 0.001, 'is_unbalance': 'true' }
3.3 模型評價
在機(jī)器學(xué)習(xí)的分類任務(wù)中,經(jīng)常使用混淆矩陣(Confusion Matrix)來作為評價模型好壞的指標(biāo),混淆矩陣有兩行兩列,分別對應(yīng)預(yù)測數(shù)據(jù)和真實數(shù)據(jù)的分類情況[5]。在本案例中由于正樣本較少,且挖掘的目的是盡可能提升模型的準(zhǔn)確率,所以通過選擇不同的分類閾值,來控制預(yù)測出的正樣本的數(shù)量和準(zhǔn)確率。表2顯示的是當(dāng)LightGBM分類概率閾值設(shè)置為0.96時模型的混淆矩陣。
由表2可計算得出:簡易險客戶預(yù)測的準(zhǔn)確率為14.96%,召回率為22.84%。相比原始數(shù)據(jù)目標(biāo)占總體樣本比例僅為0.41%,有大幅度的提升。模型的F1值,由公式可得出:
[F1_Score=2×準(zhǔn)確率×召回率準(zhǔn)確率+召回率=2×0.1496×0.22840.1496+0.2284≈0.18 ]
當(dāng)概率閾值不同時,結(jié)果也會有一定差異,本模型求解了概率閾值0.5到1.0之間的各種情況,分別計算準(zhǔn)確率、召回率、F1值,以及輸出的預(yù)測目標(biāo)客戶的數(shù)量,來進(jìn)行綜合對比。從圖1可以看出,當(dāng)概率閾值取0.96時,F(xiàn)1值最高。
與此同時,從圖1中可以看出不同的概率閾值對應(yīng)的準(zhǔn)確率與回收率的關(guān)系,如果需要更高的準(zhǔn)確率,可適當(dāng)提高概率閾值;如果想要收獲更多的預(yù)測目標(biāo)客戶和較高的召回率,則可以適當(dāng)降低概率閾值。本文提供了一種可動態(tài)調(diào)整的分類模型目標(biāo)輸出方案。
3.4 模型對比
為了驗證此模型具有相對優(yōu)勢,筆者選用同樣的訓(xùn)練數(shù)據(jù)集與測試數(shù)據(jù)集進(jìn)行了傳統(tǒng)的決策樹二分類模型訓(xùn)練與XGBoost模型訓(xùn)練以作比較,準(zhǔn)確率、召回率、F1值結(jié)果如表3所示。
不難看出,傳統(tǒng)的決策樹在這類稀疏目標(biāo)預(yù)測上性能非常不理想,無論準(zhǔn)確率還是召回率都遠(yuǎn)低于LightGBM和XGBoost;LightGBM和XGBoost對比,準(zhǔn)確率和召回率都有小幅優(yōu)勢,更重要的是,LightGBM的模型訓(xùn)練時間只有XGBoost的五分之一,效率優(yōu)勢巨大。因此可以說,LightGBM模型在簡易險潛在客戶挖掘中取得了優(yōu)良的效果。
4結(jié)束語
本文的重點內(nèi)容是應(yīng)用LightGBM算法對滿足一定條件的金融存量客戶進(jìn)行建模,挖掘出簡易險產(chǎn)品的潛在目標(biāo)客戶。經(jīng)過參數(shù)優(yōu)化和動態(tài)調(diào)整閾值,最終將目標(biāo)用戶的預(yù)測準(zhǔn)確率從原始的比例0.41%提升到14.96%,并且獲得了22.84%的召回率。該模型可針對營銷活動和營銷資源的情況,實時調(diào)整概率閾值,從而調(diào)整營銷目標(biāo)的輸出規(guī)模,對業(yè)務(wù)營銷推廣提供了積極的指導(dǎo)價值。
參考文獻(xiàn):
[1] 毛子林,劉姜.基于機(jī)器學(xué)習(xí)方法的信用風(fēng)險評估綜述[J].經(jīng)濟(jì)研究導(dǎo)刊,2021(23):117-119.
[2] 安真,楊帥.新發(fā)展格局下郵政消費金融轉(zhuǎn)型發(fā)展研究[J].現(xiàn)代金融導(dǎo)刊,2021(8):53-55.
[3] Ke G, Meng Q, Finley T, et al. Lightgbm: A highly efficient gradient boosting decision tree[J]. Advances in neural information processing systems, 2017(30): 3146-3154.
[4] 王思宇,陳建平.基于LightGBM算法的信用風(fēng)險評估模型研究[J].軟件導(dǎo)刊,2019,18(10):19-22.
[5] Visa S, Ramsay B, Ralescu A L, et al. Confusion matrix-based feature selection [C]//Proceedings of The 22nd Midwest Artificial Intelligence and Cognitive Science Conference 2011, Cincinnati, Ohio, USA, 2011.
收稿日期:2022-02-10
基金項目:2020 年度江蘇省工業(yè)軟件工程技術(shù)研究開發(fā)中心開放基金項目(ZK20-04-02)
作者簡介:樊曉唯(1988—),女,江蘇蘇州人,講師/工程師,研究方向:職業(yè)本科教育、人工智能、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、計算機(jī)視覺;蔣林岑(1986—),女,江蘇南通人,講師/工程師,研究方向:職業(yè)本科教育、人工智能、大數(shù)據(jù)、數(shù)據(jù)清洗;劉向東(1971—),安徽蕪湖人,男,副教授/工程師,研究方向:職業(yè)教育、人工智能、機(jī)器學(xué)習(xí)、計算機(jī)視覺、知識圖譜。