繆智偉,韋才敏
(汕頭大學(xué)數(shù)學(xué)系,廣東 汕頭 515063)
顧客購(gòu)買保險(xiǎn)產(chǎn)品的最終目的是通過(guò)轉(zhuǎn)移風(fēng)險(xiǎn)來(lái)增強(qiáng)自身面對(duì)未來(lái)不確定事件的能力.現(xiàn)今,我國(guó)大部分公民都具有通過(guò)購(gòu)買保險(xiǎn)來(lái)防范未來(lái)不確定事件風(fēng)險(xiǎn)的意識(shí),比如我們看病會(huì)用醫(yī)療險(xiǎn),在購(gòu)買車之后往往會(huì)投保車險(xiǎn)等.這些在我們真正遇到相應(yīng)事故的時(shí)候,都可以幫助我們將風(fēng)險(xiǎn)轉(zhuǎn)嫁給保險(xiǎn)公司,降低自身的經(jīng)濟(jì)壓力,是一種很好的提前預(yù)防的保險(xiǎn)方式.任何一種從大眾中籌集的巨額資金,然后通過(guò)一定的規(guī)則重新分配到部分人的金融機(jī)制,在這個(gè)過(guò)程很容易出現(xiàn)信用、道德危機(jī).保險(xiǎn)也不例外.
保險(xiǎn)欺詐行為識(shí)別面臨較大挑戰(zhàn).傳統(tǒng)保險(xiǎn)公司主要依靠?jī)?nèi)部定性判別方式和專家的經(jīng)驗(yàn)判斷進(jìn)行保險(xiǎn)欺詐行為的識(shí)別.但是由于保險(xiǎn)欺詐手段多樣化、數(shù)據(jù)量大且復(fù)雜等原因,如果單靠以往傳統(tǒng)的保險(xiǎn)欺詐識(shí)別方法進(jìn)行識(shí)別,不僅難以精準(zhǔn)地識(shí)別出騙保行為,而且還會(huì)產(chǎn)生大量的人工成本.
現(xiàn)今,在精準(zhǔn)識(shí)別保險(xiǎn)欺詐行為的問(wèn)題上,許多保險(xiǎn)公司通過(guò)搜集、整理被保人的個(gè)人信息以及理賠事故信息,形成一套屬于自己公司的數(shù)據(jù)庫(kù),并且聘請(qǐng)高級(jí)數(shù)據(jù)工程師來(lái)構(gòu)建屬于自己公司的保險(xiǎn)騙保行為的檢測(cè)系統(tǒng).雖然使用大數(shù)據(jù)手段進(jìn)行保險(xiǎn)欺詐行為的識(shí)別,可以提高檢測(cè)的準(zhǔn)確性和效率,但是也面臨一些問(wèn)題.首先是數(shù)據(jù)不平衡:保險(xiǎn)欺詐行為在數(shù)據(jù)中的比例相對(duì)較小,這導(dǎo)致了數(shù)據(jù)的不平衡.因此,在訓(xùn)練深度學(xué)習(xí)模型時(shí),需要采取一些措施來(lái)平衡數(shù)據(jù),以避免模型對(duì)少數(shù)類別的識(shí)別性能下降.其次,可解釋性:深度學(xué)習(xí)模型通常被視為黑盒模型,難以解釋其預(yù)測(cè)結(jié)果的原因.在保險(xiǎn)欺詐行為的識(shí)別中,可解釋性是非常重要的,因?yàn)楸kU(xiǎn)公司需要知道模型是如何判斷被保人是否存在欺詐行為的,以便更好地制定反欺詐策略.最后是,模型選擇和優(yōu)化:在深度學(xué)習(xí)中,模型的選擇和優(yōu)化是關(guān)鍵,但是不同的模型需要不同的參數(shù)設(shè)置和訓(xùn)練方式,需要耗費(fèi)大量的時(shí)間和計(jì)算資源.
因此,針對(duì)以上保險(xiǎn)欺詐識(shí)別系統(tǒng)的不足,本文提出基于XGBoost 與LightGBM的Stacking 模型融合集成學(xué)習(xí)模型.文章第一部分對(duì)LightGBM、XGBoost 進(jìn)行算法機(jī)理的介紹與推導(dǎo),第二部分將詳細(xì)描述基于多模型融合Stacking 集成學(xué)習(xí)方式的保險(xiǎn)欺詐識(shí)別模型的原理和構(gòu)建方法,第三部分用阿里云天池保險(xiǎn)欺詐行為數(shù)據(jù)集對(duì)構(gòu)建的模型進(jìn)行實(shí)證檢驗(yàn),第四部分是結(jié)論.
XGBoost 和LightGBM 都是目前應(yīng)用較為廣泛的集成學(xué)習(xí)算法,它們的主要特點(diǎn)是具有高效性、準(zhǔn)確性和可擴(kuò)展性.這些特性使得它們?cè)跀?shù)據(jù)挖掘、預(yù)測(cè)分析、自然語(yǔ)言處理、圖像識(shí)別等領(lǐng)域得到廣泛應(yīng)用.
本文選擇了基于XGBoost 與LightGBM 的Stacking 模型融合集成學(xué)習(xí)模型,主要是因?yàn)檫@兩個(gè)模型具有以下特點(diǎn):1.XGBoost 和LightGBM 是當(dāng)前最流行和最優(yōu)秀的梯度提升樹(shù)模型,能夠高效地處理大規(guī)模的高維數(shù)據(jù),并具有很好的預(yù)測(cè)性能. 2. 在Stacking 模型融合中,XGBoost 和LightGBM 作為基礎(chǔ)模型可以很好地利用其優(yōu)點(diǎn),如高準(zhǔn)確性、良好的魯棒性、高效性等,同時(shí)通過(guò)融合可以進(jìn)一步提高模型的預(yù)測(cè)性能.3.XGBoost 和LightGBM 模型都具有很好的可解釋性和可視化性,能夠幫助分析人員更好地理解模型的預(yù)測(cè)結(jié)果和特征重要性.
LightGBM(Light Gradient Boosting Machine)是一種以高效率的并行訓(xùn)練計(jì)算的方式實(shí)現(xiàn)GBDT 算法,總結(jié)其優(yōu)點(diǎn):訓(xùn)練的速度比初始訓(xùn)練框架要快,占用的內(nèi)存空間更小,獲得更高的精確度,可以以較快的速度處理海量的數(shù)據(jù).
GBDT 二元分類算法基本步驟:
對(duì)于二元分類GBDT,如果用類似于Logistic 回歸的對(duì)數(shù)損失函數(shù),則損失函數(shù)為:
其中y∈{-1,+1}.則此時(shí)的負(fù)梯度誤差為
對(duì)于新生成的決策樹(shù),計(jì)算各個(gè)葉子節(jié)點(diǎn)處的最優(yōu)殘差擬合值為
由于上述方程比較難進(jìn)行計(jì)算,一般我們采用近似值來(lái)代替
XGBoost 的Gradient Boosting 方法是通過(guò)對(duì)損失函數(shù)、正則化處理、切分點(diǎn)搜索和并行化結(jié)構(gòu)設(shè)計(jì)等進(jìn)行改進(jìn),從而加快了模型的訓(xùn)練計(jì)算速度.舉例,在傳統(tǒng)的GBDT算法實(shí)現(xiàn)的時(shí)候,模型在訓(xùn)練計(jì)算第n 棵決策樹(shù)的時(shí)候需要使用到前面n-1 棵樹(shù)的殘值計(jì)算值,這一步驟需要較大的算力和內(nèi)存空間,從而導(dǎo)致面對(duì)海量數(shù)據(jù)的時(shí)候,該算法難以實(shí)現(xiàn)并行.而XGBoost 通過(guò)將求解的目標(biāo)函數(shù)進(jìn)行二階泰勒展開(kāi),這樣模型在計(jì)算求解的時(shí)候每一個(gè)數(shù)據(jù)點(diǎn)上的損失函數(shù)只需要計(jì)算出一階導(dǎo)和二階導(dǎo),進(jìn)而可以提高算法并行的速率.
與傳統(tǒng)GBDT 相比,XGBoost 算法在推導(dǎo)中以一種新的方式進(jìn)行構(gòu)造新樹(shù).這里主要介紹XGBoost 構(gòu)造新樹(shù)的方法.將ft和Ω 的表達(dá)式帶入近似求解的目標(biāo)函數(shù)中,忽略與ft無(wú)關(guān)的常量,可以得到:
最后一式中的Gj和Hj定義為:
因?yàn)榍蠼饽繕?biāo)函數(shù)可以看做一個(gè)是關(guān)于N 個(gè)相互獨(dú)立的變量ωj的二次目標(biāo)函數(shù),可以直接通過(guò)計(jì)算求解得到極小值點(diǎn):
然后將極小值點(diǎn)帶入到目標(biāo)函數(shù),求解出目標(biāo)函數(shù)值.
緊接著,開(kāi)始構(gòu)造新樹(shù)的結(jié)構(gòu).上面式子中Obj*表示當(dāng)我們確定了一顆樹(shù)的時(shí)候,可以在其目標(biāo)函數(shù)上確定最多可以減去多少值,因子我們可以把它們叫做樹(shù)的結(jié)構(gòu)得分.Obj*越小說(shuō)明新樹(shù)的結(jié)構(gòu)就越好,然后應(yīng)用貪心算法列舉出不同的新樹(shù)結(jié)構(gòu),篩選出結(jié)構(gòu)得數(shù)最小的樹(shù).
在每一次進(jìn)行計(jì)算的時(shí)候,都要對(duì)已有新樹(shù)的葉子引入分割計(jì)算,都要通過(guò)下面的計(jì)算式子.
采用分割計(jì)算并不會(huì)影響目標(biāo)函數(shù)的值,因?yàn)樵趯?duì)新的葉子進(jìn)行分割計(jì)算的時(shí)候,會(huì)對(duì)新的葉子進(jìn)行一定懲罰,這個(gè)操作可以對(duì)樹(shù)的減枝進(jìn)行優(yōu)化.若引入分割計(jì)算所產(chǎn)生的增益效果小于一個(gè)給定的閾值時(shí),我們可以去除掉這個(gè)分割.通過(guò)這樣的方式就可以重新確定了新樹(shù)的結(jié)構(gòu).
Stacking 是近幾年在人工智能領(lǐng)域比較流行的集成學(xué)習(xí)的框架.通常,Stacking 的大框架是一個(gè)多層嵌套的模型,第一層我們可以稱做特征學(xué)習(xí)層,里面包含了n 個(gè)不同類型的模型,可以是支持向量機(jī)、多元回歸模型、神經(jīng)網(wǎng)絡(luò)等,將不同模型預(yù)測(cè)結(jié)果整理合并成一個(gè)新的特征集,并作為最后一層模型輸入,最后一層模型再根據(jù)所給的數(shù)據(jù)標(biāo)簽,進(jìn)行訓(xùn)練計(jì)算,這樣就得到一個(gè)基礎(chǔ)Stacking 集成學(xué)習(xí)框架.[16-17]
圖1 Stacking 集成學(xué)習(xí)示意圖
為使訓(xùn)練出來(lái)的新的特征集充分代表原始訓(xùn)練數(shù)據(jù)的特征,我們會(huì)在第一層的模型里面采用擬合度較高的訓(xùn)練模型,例如XGBoost、神經(jīng)網(wǎng)絡(luò)、SVM 等.值得注意的是,第一層的模型框架里面涵蓋了許多不同模型,不同模型計(jì)算原理有所差別,第一層模型的主要目的是自動(dòng)有效地提取出原始數(shù)據(jù)的非線性變化的特征,但是這樣很容易出現(xiàn)過(guò)擬合的問(wèn)題.
因此,為了更好地解決過(guò)擬合的問(wèn)題,我們通常會(huì)在第二層使用一些比較簡(jiǎn)單的預(yù)測(cè)模型.如果第二層模型在使用復(fù)雜的神經(jīng)網(wǎng)絡(luò)訓(xùn)練模型,極大概率會(huì)加大預(yù)測(cè)結(jié)果出現(xiàn)過(guò)擬合的嫌疑.
從上述的分析可以得出,一個(gè)優(yōu)秀的Stacking 預(yù)測(cè)模型的關(guān)鍵在于第一層的訓(xùn)練模型是否能夠有效地提取出原始數(shù)據(jù)之間的非線性變化的關(guān)系,然后在通過(guò)最后一層的簡(jiǎn)單學(xué)習(xí),能夠在第一層的基礎(chǔ)上,結(jié)合簡(jiǎn)單模型結(jié)構(gòu),使得模型在預(yù)測(cè)的時(shí)候具有一定的泛化能力和準(zhǔn)確率.
2.2.1 傳統(tǒng)的Stacking
首先,如圖2 所示,是一個(gè)傳統(tǒng)的Stacking 集成學(xué)習(xí)模型結(jié)構(gòu)示意圖.圖中,第一次模型結(jié)構(gòu)中分別使用不同類型的預(yù)測(cè)模型去訓(xùn)練同一批次的訓(xùn)練集數(shù)據(jù),這樣做可以有助于模型能夠利用不同基礎(chǔ)學(xué)習(xí)器的優(yōu)點(diǎn)然后去訓(xùn)練出不同特征之間的非線性關(guān)系,得到具有代表性的新生成的特征值.其次,再通過(guò)第二層模型結(jié)構(gòu)中簡(jiǎn)單的預(yù)測(cè)模型——邏輯回歸,訓(xùn)練預(yù)測(cè)得到最終的預(yù)測(cè)值.
圖2 傳統(tǒng)Stacking 集成學(xué)習(xí)示意圖
2.2.2 改進(jìn)的Stacking
本文使用的是一種改進(jìn)的集成學(xué)習(xí)框架,如圖3 所示,框架的第一層不僅使用不同的模型,還使用有差異的訓(xùn)練數(shù)據(jù),這進(jìn)一步增大了模型輸出值之間的差異性(相關(guān)性低),這樣的差異性往往適用于訓(xùn)練數(shù)據(jù)和預(yù)測(cè)數(shù)據(jù)不是同分布的領(lǐng)域,可以增強(qiáng)預(yù)測(cè)的穩(wěn)定性.
圖3 改進(jìn)Stacking 集成學(xué)習(xí)示意圖
并且我們將第一層Stacking 生成的新的特征和原有的特征進(jìn)行合并作為第二層的輸入,這樣做可以有效地防止出現(xiàn)過(guò)擬合.在第二層框架中選擇采用多種分類預(yù)測(cè)算法,包括邏輯回歸、K 近鄰、高斯貝葉斯、決策樹(shù)、集成學(xué)習(xí)分類模型,其中集成學(xué)習(xí)分類模型有隨機(jī)森林、Bagging、LightGBM、XGBoost.
2.2.3 改進(jìn)Stacking 模型的構(gòu)建過(guò)程
下面舉例進(jìn)一步說(shuō)明:
1)首先將數(shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集兩組數(shù)據(jù),并將訓(xùn)練集隨機(jī)分成5 份train1到train5 這五個(gè)部分.
2)選定基礎(chǔ)學(xué)習(xí)模型.本文示例中選擇了XGBoost,LightGBM,隨機(jī)森林作為基礎(chǔ)學(xué)習(xí)模型.以隨機(jī)森林解釋例子,依次選用劃分后5 份訓(xùn)練集中的四份作為訓(xùn)練集,然后使用5 折交叉驗(yàn)證的方法進(jìn)行模型訓(xùn)練,最后在測(cè)試集上進(jìn)行預(yù)測(cè)結(jié)果. 這樣會(huì)得到在訓(xùn)練集上由隨機(jī)森林模型訓(xùn)練出來(lái)的5 份預(yù)測(cè)結(jié)果和在測(cè)試集上的1 份預(yù)測(cè)值B1,然后將5 份預(yù)測(cè)結(jié)果縱向重疊拼接成新的A1 特征.LightGBM 模型和隨機(jī)森林模型部分也采用相同的方法進(jìn)行模型預(yù)測(cè),生成新的預(yù)測(cè)特征.如圖4 所示.
圖4 改進(jìn)Stacking 集成學(xué)習(xí)模型構(gòu)建示意圖
3)在三個(gè)基礎(chǔ)模型訓(xùn)練完畢后,將其在訓(xùn)練集上的預(yù)測(cè)值分別作為3 個(gè)“特征”A1,A2,A3,然后使用LR 模型進(jìn)行訓(xùn)練并建立LR 模型.
4)利用訓(xùn)練好的Logistic 分類模型來(lái)預(yù)測(cè)測(cè)試集,在模型的第一部分的三個(gè)基礎(chǔ)學(xué)習(xí)模型上會(huì)生成新的三個(gè)特征,Logistic 在進(jìn)行預(yù)測(cè)的時(shí)候通過(guò)利用新生成的三個(gè)特征以及原始數(shù)據(jù)的特征,通過(guò)訓(xùn)練得出分類預(yù)測(cè)結(jié)果.
5)在做Stacking 的過(guò)程中,如果將第一層模型的預(yù)測(cè)值和原始特征合并加入第二層模型的訓(xùn)練中,則可以使模型的效果更好,還可以防止模型的過(guò)擬合嫌疑.
為驗(yàn)證本文所構(gòu)建模型的科學(xué)性和可靠性,本文實(shí)驗(yàn)使用基于阿里云天池保險(xiǎn)反欺詐公開(kāi)信息作為數(shù)據(jù)集.數(shù)據(jù)集中標(biāo)簽——是否存在欺詐行為(fraud),若該被保人的理賠事件存在欺詐行為取1,否則取0.
本文的特征工程包括以下三類(共43 個(gè)特征,僅列出部分重要特征,見(jiàn)表1):項(xiàng)目基本信息包括年齡、每年的保費(fèi)、保險(xiǎn)責(zé)任上限.被保人基本信息包括被保人學(xué)歷、被保人職業(yè)、被保人興趣愛(ài)好、資本收益、資本損失.被保人理賠事故基本信息包括碰撞類型、出險(xiǎn)類型、目擊證人、是否有警察記錄的報(bào)告、整體索賠金額等.
表1 特征工程匯總
查準(zhǔn)率(precision):模型對(duì)保險(xiǎn)事件的信息進(jìn)行預(yù)測(cè),預(yù)測(cè)結(jié)果中存在保險(xiǎn)欺詐行為的樣本有N 個(gè),樣本中真實(shí)存在保險(xiǎn)欺詐行為的樣本有M 個(gè),即precision=M/N.
3.3.1 基于遺傳算法的模型融合參數(shù)優(yōu)化
以XGBoost 模型為例,此處使用遺傳算法,在有限的數(shù)值空間內(nèi)搜索最優(yōu)的學(xué)習(xí)率ε 與樹(shù)的最大深度Z 參數(shù)使訓(xùn)練得到的模型具有較強(qiáng)的泛化能力和準(zhǔn)確率.
3.3.2 預(yù)測(cè)結(jié)果對(duì)比分析
本節(jié)對(duì)比所提方法與傳統(tǒng)機(jī)器學(xué)習(xí)模型及其模型融合系統(tǒng)的預(yù)測(cè)性能.首先,測(cè)試單一分類預(yù)測(cè)模型,包括邏輯回歸、高斯貝葉斯、決策樹(shù)、集成學(xué)習(xí)分類模型,其中集成學(xué)習(xí)分類模型有Bagging、LightGBM、XGBoost. 其次,分別設(shè)置兩組,一組是XGBoost 算法與LightGBM,另一組是隨機(jī)森林與支持向量機(jī),兩組進(jìn)行Stacking 模型融合生成新的兩個(gè)特征,新生成的兩個(gè)特征和原有的40 個(gè)特征合并作為第二層Stacking訓(xùn)練模型的輸入,在Stacking 的第二層中選擇使用多種分類學(xué)習(xí)模型,包括Bagging、LightGBM、XGBoost 等,以檢驗(yàn)改進(jìn)的Stacking 模型融合方法的預(yù)測(cè)性能.各模型的參數(shù)均由遺傳算法優(yōu)化得到.最終預(yù)測(cè)結(jié)果如表2 所示.
表2 預(yù)測(cè)結(jié)果對(duì)比 %
根據(jù)表2 的預(yù)測(cè)結(jié)果可得如下結(jié)論.
(1)總體而言,基于XGBoost 模型與LightGBM 的Stacking 模型融合預(yù)測(cè)精度高于未進(jìn)行模型融合的預(yù)測(cè)精度.主要是因?yàn)閄GBoost 和LightGBM 在第一層的模型中有效地提取了保險(xiǎn)欺詐數(shù)據(jù)集中不同特征之間的非線性關(guān)系,然后再通過(guò)最后一層簡(jiǎn)單模型訓(xùn)練,使得集成學(xué)習(xí)器的錯(cuò)誤率呈指數(shù)級(jí)下降,最終趨于零.通過(guò)融合可以達(dá)到“取長(zhǎng)補(bǔ)短”的效果,綜合個(gè)體學(xué)習(xí)器的優(yōu)勢(shì)是能降低預(yù)測(cè)誤差、優(yōu)化整體模型性能. 而且,如果單個(gè)基學(xué)習(xí)器對(duì)非線性關(guān)系的捕捉、預(yù)測(cè)的精度越高、模型的多樣性越大,Stacking 模型融合預(yù)測(cè)效果就會(huì)越好.
(2)單一模型預(yù)測(cè)結(jié)果里面XGBoost 的準(zhǔn)確率最高,其次是GBDT. 結(jié)合前文XGBoost 的推導(dǎo)內(nèi)容,可以知道傳統(tǒng)GBDT 在優(yōu)化時(shí)只計(jì)算了損失函數(shù)的一階導(dǎo)數(shù),而XGBoost 通過(guò)將求解的目標(biāo)函數(shù)進(jìn)行二階泰勒展開(kāi),這樣模型在計(jì)算求解的時(shí)候每一個(gè)數(shù)據(jù)點(diǎn)上的損失函數(shù)只需要計(jì)算出一階導(dǎo)和二階導(dǎo),進(jìn)而可以提高算法并行的速率.為了更好地降低模型預(yù)測(cè)結(jié)果的方差和控制模型的復(fù)雜程度,XGBoost 在損失函數(shù)里加入了正則項(xiàng).正則項(xiàng)降低了模型預(yù)測(cè)結(jié)果的方差,使訓(xùn)練得出的模型更加簡(jiǎn)單,能很好地防止過(guò)擬合,這也是XGBoost優(yōu)于傳統(tǒng)GBDT 的一個(gè)特性.
(3)通過(guò)對(duì)比有無(wú)模型融合預(yù)測(cè)準(zhǔn)確率,可以發(fā)現(xiàn)在Stacking 的第二層模型訓(xùn)練中使用決策樹(shù)分類器的準(zhǔn)確率是最高的,其次是XGBoost,并且也可以得出不同基礎(chǔ)分類器,得到預(yù)測(cè)準(zhǔn)確率有明顯的差異.
(4)通過(guò)對(duì)比XGBoost 算法與LightGBM、隨機(jī)森林與支持向量機(jī)兩組實(shí)驗(yàn)結(jié)果,可以發(fā)現(xiàn),XGBoost 算法與LightGBM 大部分的實(shí)驗(yàn)具有較高的預(yù)測(cè)準(zhǔn)確率,這說(shuō)明了在Stacking 模型第一層中使用XGBoost 算法與LightGBM 可以很好提取數(shù)據(jù)特征的非線性關(guān)系,進(jìn)而提高模型的預(yù)測(cè)性能.相比之下,支持向量機(jī)和隨機(jī)森林也是常用的分類算法,但相對(duì)于XGBoost 和LightGBM,在處理大規(guī)模數(shù)據(jù)和非線性問(wèn)題時(shí)可能會(huì)存在一些瓶頸,對(duì)于參數(shù)調(diào)節(jié)和特征處理等方面的要求也更高一些.同時(shí),XGBoost 和LightGBM 都是基于梯度提升的算法,能夠自適應(yīng)地學(xué)習(xí)到數(shù)據(jù)中的復(fù)雜關(guān)系,相對(duì)于支持向量機(jī)和隨機(jī)森林更具有優(yōu)勢(shì).
特征重要性(Feature Importance)的核心思想是計(jì)算依據(jù)某個(gè)特征進(jìn)行決策樹(shù)分裂時(shí)分裂前后的信息增益,信息增益越大,該特征越重要.通過(guò)計(jì)算出模型中特征的重要性可以直觀得出具體哪一個(gè)特征對(duì)于預(yù)測(cè)結(jié)果具有較大的影響力,可以從定量的角度去解釋機(jī)器學(xué)習(xí)的預(yù)測(cè)結(jié)果.下面打印出最高準(zhǔn)確率的Stacking 模型的特征重要性,其模型結(jié)構(gòu)為在第一層模型中使用XGBoost 模型與LightGBM 來(lái)預(yù)測(cè)新特征,然后在第二層中采用決策樹(shù)分類器.如圖5.
圖5 最優(yōu)Staking 集成學(xué)習(xí)模型特征重要性
觀察圖3,可以知道Stacking 模型融合下,被保人的職業(yè)、發(fā)生保險(xiǎn)事故的城市、發(fā)生保險(xiǎn)事故的地區(qū)、資本收益、資本虧損是比較重要的分類特征.根據(jù)此結(jié)果,本文向保險(xiǎn)行業(yè)建議在對(duì)被保人保險(xiǎn)欺詐行為核查的時(shí)候重點(diǎn)關(guān)注這些重要的特征,并且通過(guò)海量的大數(shù)據(jù)挖掘出保險(xiǎn)欺詐行為在這些特征的潛在規(guī)律.
保險(xiǎn)行業(yè)中,被保人通過(guò)欺詐進(jìn)行騙保,不僅對(duì)保險(xiǎn)行業(yè)造成巨大損失,更會(huì)制約我國(guó)保險(xiǎn)業(yè)的發(fā)展.長(zhǎng)期來(lái)看,如果我國(guó)能夠構(gòu)建一個(gè)信息可信度高、數(shù)據(jù)庫(kù)范圍廣、信息層次更豐富的征信體系,這將會(huì)為我國(guó)的保險(xiǎn)行業(yè)提供一個(gè)更加有保障、有活力的生態(tài)空間.短期而言,最有效的方法是保險(xiǎn)公司基于海量的用戶數(shù)據(jù),構(gòu)建識(shí)別準(zhǔn)確、性能穩(wěn)定的保險(xiǎn)欺詐行為識(shí)別模型.本文結(jié)合人工智能的前沿理論研究,提出一種基于改進(jìn)XGBoost 與LightGBM 模型融合的Stacking 集成學(xué)習(xí)方式的保險(xiǎn)欺詐行為預(yù)測(cè)模型,對(duì)保險(xiǎn)公司被保人保險(xiǎn)欺詐行為的識(shí)別具有啟示意義,有助于保險(xiǎn)公司更好地識(shí)別被保人的騙保行為,強(qiáng)化自身風(fēng)控體系.經(jīng)過(guò)對(duì)阿里云天池挑戰(zhàn)賽公開(kāi)的保險(xiǎn)欺詐數(shù)據(jù)集的驗(yàn)證與測(cè)試,結(jié)果表明,相比傳統(tǒng)機(jī)器分類模型,本文提出的基于XGBoost 與LightGBM 模型融合的Stacking 集成學(xué)習(xí)模型在欺詐行為識(shí)別方面具有更高的預(yù)測(cè)性能與準(zhǔn)確性,這得益于本文所提出的特征工程和模型融合方法,以及使用多種分類學(xué)習(xí)模型進(jìn)行訓(xùn)練和參數(shù)優(yōu)化的策略.同時(shí),本研究通過(guò)計(jì)算并可視化出最優(yōu)分類模型不同特征的重要性結(jié)果,發(fā)現(xiàn)被保人的職業(yè)、發(fā)生保險(xiǎn)事故的城市、發(fā)生保險(xiǎn)事故的地區(qū)、資本收益、資本虧損是識(shí)別保險(xiǎn)欺詐行為的重要特征.這些結(jié)果不僅對(duì)保險(xiǎn)公司提供了重要的參考和指導(dǎo),也為相關(guān)研究提供了寶貴的經(jīng)驗(yàn)和啟示.