郭文博
摘要:目前汽車金融貸款的市場增長較快,各個銀行競爭激烈,同時各類汽車貸款公司、互聯(lián)網(wǎng)金融平臺也加入了市場競爭。在為了在市場競爭中取得一定的優(yōu)勢,銀行需要提升自身的風(fēng)控水平以及效率。本文在文獻(xiàn)研究以及理論研究的基礎(chǔ)上,構(gòu)建基于Stacking集成學(xué)習(xí)的模型,對汽車金融貸款違約風(fēng)險進(jìn)行預(yù)測。
關(guān)鍵詞:金融科技;汽車金融;Stacking集成學(xué)習(xí)
一、研究背景
自2001年人大在十一五綱要中確立汽車進(jìn)入家庭的政策激勵開始,汽車市場在這十五年期間發(fā)展迅速,在中國加入世貿(mào)組織迎來全球化沖擊的助推下,中國汽車市場已經(jīng)成為世界第一的汽車產(chǎn)銷大國。2018年我國乘用車市場累計銷售超過1871萬輛,汽車保有量超過2.35億輛。隨著汽車行業(yè)的發(fā)展,汽車貸款金融市場也有了較快的增長,汽車金融占汽車產(chǎn)業(yè)鏈利潤結(jié)構(gòu)的23%,汽車零部件占22%,汽車維修占18%,整車制造和整車銷售分別只占16%和5%。2018年12月,汽車貸款余額為9900億,預(yù)計至2020年信貸市場規(guī)模將超過1.2萬億,至2022年將超過1.4萬億元,汽車金融市場具有廣闊的市場。
目前汽車金融貸款的市場增長較快,各個銀行競爭激烈,同時各類汽車貸款公司、互聯(lián)網(wǎng)金融平臺也加入了市場競爭。在為了在市場競爭中取得一定的優(yōu)勢,銀行需要提升自身的風(fēng)控水平以及效率。目前各個互聯(lián)網(wǎng)金融公司逐漸開始嘗試使用數(shù)據(jù)挖掘模型來進(jìn)行汽車貸款的風(fēng)險控制,因此本文研究Stacking集成學(xué)習(xí)等數(shù)據(jù)挖掘模型在汽車貸款信用評價中的應(yīng)用,對于提升銀行在汽車貸款中的風(fēng)險控制水平具有一定的價值。
二、模型構(gòu)建
Stacking 就是當(dāng)用初始訓(xùn)練數(shù)據(jù)學(xué)習(xí)出若干個基學(xué)習(xí)器后,將這幾個學(xué)習(xí)器的預(yù)測結(jié)果作為新的訓(xùn)練集,來學(xué)習(xí)一個新的學(xué)習(xí)器。Stackking分析的原理是將樣本數(shù)據(jù)中抽取訓(xùn)練數(shù)據(jù),然后由不同的單一學(xué)習(xí)器進(jìn)行學(xué)習(xí),學(xué)習(xí)器可以訓(xùn)責(zé)神經(jīng)網(wǎng)絡(luò)、決策樹等不同的模型,這些模型的輸出結(jié)果作為單一學(xué)習(xí)器的輸入繼續(xù)進(jìn)行學(xué)習(xí),并最終輸出結(jié)果。本文設(shè)計了基于stacking的組合模型,如圖1所示。
本文采用BP神經(jīng)網(wǎng)絡(luò)、決策樹作為第一層初級學(xué)習(xí)器,將學(xué)習(xí)結(jié)果輸出到邏輯回歸進(jìn)行第二次學(xué)習(xí),并最終輸出結(jié)果。學(xué)習(xí)過程如下:
(1)把訓(xùn)練樣本集打亂,并分成兩個沒有交集的數(shù)據(jù)集;
(2)選擇第一個數(shù)據(jù)集,在此數(shù)據(jù)集上訓(xùn)練決策樹以及BP神經(jīng)網(wǎng)絡(luò);
(3)在第二個集合測試第一個集合得出的模型;
(4)把第三步獲得的模型結(jié)果當(dāng)作輸入,把正確的標(biāo)記作為輸出,訓(xùn)練次分類器。
本文采用R語言的caretEnsemble包實現(xiàn)stacking模型,caretEnsemble中的caretStack函數(shù)能夠基于不同學(xué)習(xí)器進(jìn)行stacking組合,本文模型的實現(xiàn)代碼如圖5-4所示,其中models創(chuàng)建了第一層的基礎(chǔ)學(xué)習(xí)器,rpart代表決策樹模型,nnet代表BP神經(jīng)網(wǎng)絡(luò);caretStack表示第二層的學(xué)習(xí),采用邏輯回歸(logit)對第一層的輸出進(jìn)行學(xué)習(xí)。
3、實證分析
本文采用以下指標(biāo)進(jìn)行實證分析。
實證結(jié)果如下,Stackking模型能夠正確區(qū)分250個正常樣本中的231個樣本,有19個樣本被誤判為存在違約風(fēng)險,模型對于正常樣本的預(yù)測正確率為92.4%。模型對于100個存在違約風(fēng)險的樣本能夠正確識別其中94個樣本,但是對于其中6個存在違約風(fēng)險的樣本進(jìn)行了漏判,準(zhǔn)確率為94%,模型的綜合準(zhǔn)確率為92.85%。邏輯回歸模型能夠正確區(qū)分250個正常樣本中的216個樣本,但是有34個樣本被誤判為存在違約風(fēng)險,模型對于正常樣本的預(yù)測正確率為86.4%。模型對于100個存在違約風(fēng)險的樣本能夠正確識別其中85個樣本,但是對于其中15個存在違約風(fēng)險的樣本進(jìn)行了漏判,準(zhǔn)確率為85%,模型的綜合準(zhǔn)確率為86%。Stacking模型提高了對汽車金融違約風(fēng)險的預(yù)測性能。
4、研究總結(jié)
隨著汽車行業(yè)的發(fā)展,汽車金融貸款的規(guī)模不斷增長,對貸款信用風(fēng)險的評價變得越來越重要。本文構(gòu)建了基于Stacking集成學(xué)習(xí)模型對汽車貸款違約風(fēng)險進(jìn)行預(yù)測,并使用銀行的實證數(shù)據(jù)進(jìn)行了分析,Stacking集成學(xué)習(xí)模型在測試樣本集上的表現(xiàn)優(yōu)于邏輯回歸等模型。
參考文獻(xiàn):
[1]楊光飛, 崔雪嬌, 張翔. 基于抽樣和規(guī)則的不平衡數(shù)據(jù)關(guān)聯(lián)分類方法[J]. 系統(tǒng)工程理論與實踐, 2017, 37(4):1035-1045.
[2]崔晴. 基于PSO-LSSVM的中小企業(yè)信用風(fēng)險評價研究[D]. 河北工程大學(xué), 2017.
[3]吳煜寧. 供應(yīng)鏈金融信用風(fēng)險評估方法研究[D]. 西北農(nóng)林科技大學(xué), 2018.