王卓婭 王彬彬 劉源
[摘 要]互聯(lián)網(wǎng)金融的風控模式不同于傳統(tǒng)銀行業(yè)金融機構的信貸審核機制,缺乏足值抵押,面臨的信息不對稱問題也有別于傳統(tǒng)金融行業(yè)。當前,隨著大數(shù)據(jù)的迅猛發(fā)展和機器學習算法的普及,人工智能正在興起。文章基于人工智能算法的互聯(lián)網(wǎng)金融信用評分模型,對人工智能在互聯(lián)網(wǎng)金融中的應用及其現(xiàn)實挑戰(zhàn)進行了研究,發(fā)現(xiàn)基于人工智能的信用評分模型具有獨特優(yōu)勢,必將成為未來金融業(yè)風險控制的主流選擇。
[關鍵詞]人工智能;互聯(lián)網(wǎng)金融;信用評分;Logit模型
[DOI]10.13939/j.cnki.zgsc.2018.13.039
1 引 言
交易風險是傳統(tǒng)銀行業(yè)金融機構面臨的主要風險,商業(yè)銀行需要對客戶還款的履約能力進行風險評估,在評估客戶違約可能性的基礎上給予恰當?shù)氖谛蓬~度。[1]傳統(tǒng)風險評估中,客戶的工作、收入、婚姻狀況和財產(chǎn)等背景風險是重要的決策因素,同時還要求一定額度的抵押品,綜合授信門檻高,由此導致的金融排斥和金融低效常常受到人們詬病。近年來,互聯(lián)網(wǎng)金融打破傳統(tǒng)金融服務的“二八定律”,依靠大數(shù)據(jù)和機器學習的算法優(yōu)勢,擁有豐富的真實業(yè)務場景,人工智能信用評分模型在互聯(lián)網(wǎng)金融領域日益普及。[2]文章將對人工智能在互聯(lián)網(wǎng)金融信用評分模型方面的應用、面臨的現(xiàn)實挑戰(zhàn)進行分析并給出對策建議。
2 人工智能的信用評分模型
人工智能評分模型日益增多,分析問題的視角也不盡相同,但學習類模型的思路大致相通。首先根據(jù)信用評分的真實業(yè)務場景建立模型,通過正則化的懲罰項約束過高的模型復雜度,將數(shù)據(jù)分為訓練數(shù)據(jù)和檢測數(shù)據(jù),根據(jù)最大熵原理進行模型優(yōu)化,其算法十分豐富:迭代尺度法、梯度下降法、牛頓法、擬牛頓法等。[3]由于訓練數(shù)據(jù)和檢測數(shù)據(jù)永遠增加,且模型具有自主調(diào)整能力,因此能夠持續(xù)學習成長。關于人工智能的信用評分模型,具有代表性的主要是以下幾種:
(1)Logit模型。Logit模型實際上是受限因變量(LDV)分析框架的一種應用。在互聯(lián)網(wǎng)金融評分模型中,最簡單的客戶分類就是“好”和“壞”兩類,從概率上看只要超過0.5便可以確定其類別屬性,因而也是兩分類受限因變量的常見處理方式。評分模型實際上是對未知客戶的信用水平進行打分,客戶的真實信用狀況是不可觀測的,因而稱為潛變量Y*,信用評分實際上就是利用連接函數(shù)將潛變量分值轉(zhuǎn)換為可觀測的{0,1}兩分類結果,人工智能的算法就是要保證找到使信用分值經(jīng)轉(zhuǎn)換后能最大限度擬合訓練數(shù)據(jù)Y值的模型,進而確定出重點影響因素并對新增客戶進行信用打分和預測。LDV的一般框架如下:yit*=x′itβ+εityit=T(yit*),其中yit*是潛變量,yit=T(yit*)是轉(zhuǎn)換函數(shù),它將yit*的取值轉(zhuǎn)換為可觀測的結果yit。如果以潛變量是否大于0來對觀測結果進行分類,取值概率如下:P(yit=1)=P[T(yit*)]=P(x′itβ+εit≥0)=F(x′itβ)。顯然,LDV分析框架下,模型的具體形式就取決于累計分布函數(shù)F(x′itβ)的形式,如果是Logistic分布就是Logit模型,連接函數(shù)F(x,β)=Flogistic(x′β)=11+e-x′β,因變量取值概率Pr(Y=1|X)=Flogistic(x′β)=11+e-x′β。關于模型評價:一是看擬合優(yōu)度:R2=lnL1-lnL0lnLmax-lnL0;二是看正確預測百分比,如果概率P≥0.5,取Y_hat=1,預測正確的除以總數(shù)就是正確預測百分比;三是看KS曲線,它是好客戶和壞客戶的累積概率差的最大值,如果壞客戶估計值的經(jīng)驗分布與好客戶估計值的經(jīng)驗分布存在顯著差異,并且壞客戶集中于信用評分較低的區(qū)域,好客戶集中于較高區(qū)域,表明模型區(qū)分能力較好。
(2)支持向量機。支持向量機(SVM)是機器學習中一個非常重要的分類算法,最早由Cortes和Vapnik于1995年提出并得到廣泛運用。它是一種二分類模型,原理是在特征空間中尋找使得間隔最大的線性分類器,算法上表現(xiàn)為對一個凸二次規(guī)劃問題求解。SVM能夠在有限的樣本信息條件下,兼顧好訓練精度和泛化能力的矛盾關系,因此在解決小樣本、非線性及高維模式識別中具有獨特優(yōu)勢。在信用評分模型中,通常采用線性可分支持向量機,這種情形下訓練數(shù)據(jù)是線性可分的,并且能夠保證最優(yōu)解是全局唯一的,性質(zhì)優(yōu)良。實際應用中,不妨將“違約”“不違約”定義為兩分類變量Yi:{-1,+1},則對訓練數(shù)據(jù)集T={T1,T2,…,Tn}來說,就是要尋找使得這些點間隔最大的分離超平面。假設分離超平面由:y=wx+b表示,則這個最優(yōu)化的分離超平面可由下述最優(yōu)化問題得到:min12‖w‖2s.t yi(wxi+b)-1≥0,相應決策函數(shù)為:f(x)=sign(w*x+b*)。
(3)隨機森林。決策樹是一種樹型結構的分類方法,簡單易行,因此也適用于信用評分模型,它從根節(jié)點出發(fā),采用“if-then”規(guī)則,遞歸地對每一個實例進行分類直到葉節(jié)點,因此保證了分類路徑的唯一性。然而,傳統(tǒng)的決策樹容易引起過擬合的嚴重問題,現(xiàn)代方法傾向于采用隨機森林來解決。所謂隨機森林就是以隨機方式,采用多個決策樹的投票機制,以“多數(shù)票”方式來進行過擬合問題的改善。在互聯(lián)網(wǎng)信用評分模型中,假設采用隨機森林的方法,使用了m棵決策樹,因此需要生成m個樣本數(shù)據(jù)集來訓練每一棵樹。顯然,全樣本訓練這m棵決策樹是不可取的,并且全局樣本容易產(chǎn)生忽視局部規(guī)律的問題,這對提升模型泛化能力是有害的。實踐中,常常采用Bootstrap自抽樣方法,解決了有限樣本下大量訓練的問題,是一種行之有效的方法。
(4)人工神經(jīng)網(wǎng)絡模型。人類大腦的神經(jīng)元就是一種最簡單的分類器,可以從N個感受器接受到電信號后進行加權判斷,決定是否發(fā)出電信號。受此啟發(fā),信用評分模型總可以用N-1維的超平面分割N維空間,對“好”“壞”客戶進行分類。著名的Hebb算法通過逐點調(diào)整分離超平面的位置完成模型優(yōu)化,得到最終的分類結果。然而,現(xiàn)實問題的維度通常很高,難以通過簡單線性可分的神經(jīng)元完成分類要求,因而需要對每一次線性切分的半平面作交、并等運算,相當于上一層的神經(jīng)元作為下一層神經(jīng)元的輸入,這就構成了人工神經(jīng)網(wǎng)絡模型。人工神經(jīng)網(wǎng)絡模型的訓練依靠反向傳播算法,從開始輸入層輸入特征向量,經(jīng)網(wǎng)絡層層計算,如果輸入結果與實際分類標簽不一致,就會從最后一層進行參數(shù)調(diào)整,并且層層倒推,直到網(wǎng)絡輸出的分類結果正確為止。
3 現(xiàn)實挑戰(zhàn)
互聯(lián)網(wǎng)信貸審核和信用風險防控主要依靠互聯(lián)網(wǎng)金融下的各類信用評分模型,在人工智能發(fā)展的日新月異下,各類先進的人工智能算法開始頻繁出現(xiàn)于信用評分領域。人工智能的目的是要最終實現(xiàn)自主化和智能化運行,將人們從煩瑣低效的傳統(tǒng)信貸審核和現(xiàn)場調(diào)查中解放出來,節(jié)約企業(yè)運營成本,提升金融業(yè)效率。[4]然而,還存在如下現(xiàn)實挑戰(zhàn):
(1)挑戰(zhàn)一,模型泛化能力弱化。由于互聯(lián)網(wǎng)金融信用評分應用場景千差萬別,技術人員建模過程過于重視訓練效果,或過于重視單一業(yè)務數(shù)據(jù)的擬合效果,導致模型整體泛化能力偏弱,模型對新增業(yè)務場景或新增客戶的審核缺乏學習和成長能力,模型失效和模型預測不準時有發(fā)生,部分公司甚至依靠人工審核進行授信,人工智能評分模型束之高閣,不能適應未來行業(yè)發(fā)展需求。
(2)挑戰(zhàn)二,模型過度復雜,過擬合現(xiàn)象嚴重。人工智能在多數(shù)信用評分問題中都取得了比傳統(tǒng)模型更好的性能,這是因為人工智能下的評分模型無須變量分布的嚴格假設,可以直接從不斷更新的訓練數(shù)據(jù)中獲得知識并解析規(guī)律。與傳統(tǒng)的線性評分模型相比,人工智能在處理非線性分類問題時,更加靈活高效。實踐中,由于技術人員過于追求訓練擬合效果,傾向于采取過度復雜和過度繁多的變量建模,導致過擬合現(xiàn)象嚴重,預測效果低于預期。
(3)挑戰(zhàn)三,交叉驗證機制流于形式。人工智能模型獲得良好學習能力的一個方法就是要建立正確合理的交叉驗證機制,對訓練數(shù)據(jù)和檢測數(shù)據(jù)進行動態(tài)調(diào)整,不斷增強模型的學習機會。然而,由于企業(yè)人員的技術能力參差不齊,對模型的理解和執(zhí)行思路未能有效厘清,許多企業(yè)只是簡單將數(shù)據(jù)劃分為訓練和檢測兩類,對數(shù)據(jù)生成機制缺乏深入探索,導致模型訓練存在偏誤。
(4)挑戰(zhàn)四,缺乏行業(yè)標準。當前,人工智能模型似乎百花齊放、百家爭鳴,一派繁榮景象。然而,繁華之下亂象叢生。近年來人工智能在迅猛發(fā)展的同時,也存在行業(yè)泡沫,根源是缺乏行業(yè)指導和標準。[5]由于人工智能的進入門檻過低,評判標準不清,導致諸多人工智能應用被當作題材概念進行炒作,最終有損行業(yè)發(fā)展。
4 結論與對策建議
未來,人工智能必將成為未來互聯(lián)網(wǎng)金融風控的基石。然而,當前互聯(lián)網(wǎng)金融評分模型還存在模型錯用、過擬合現(xiàn)象普遍、泛化能力弱化、泛化誤差較大和技術人才稀缺等問題??朔F(xiàn)實挑戰(zhàn):一是加強高??蒲性核c互聯(lián)網(wǎng)金融行業(yè)的項目交流機制,引導產(chǎn)學研的深度結合,為人工智能在互聯(lián)網(wǎng)金融行業(yè)的發(fā)展提供人才保障;二是建立人工智能互聯(lián)網(wǎng)金融風控的峰會論壇交流機制,為現(xiàn)實問題尋求行業(yè)答案;三是以央行和銀監(jiān)會等監(jiān)管部門牽頭,發(fā)布風控行業(yè)的人工智能發(fā)展指引,頒布數(shù)據(jù)安全標準,建立基準模型,樹立行業(yè)規(guī)范標準。
參考文獻:
[1]蔡慧琴.互聯(lián)網(wǎng)金融的發(fā)展及人工智能的應用[J].現(xiàn)代商貿(mào)工業(yè),2017(35):36-37.
[2]喬海曙,王鵬,謝姍珊.金融智能化發(fā)展:動因、挑戰(zhàn)與對策[J].南方金融,2017(6):3-9.
[3]謝水園.基于布朗運動歐拉離散化模擬的VaR在股票市場中的應用研究[J].特區(qū)經(jīng)濟,2017(5):110-112.
[4]劉源.“一帶一路”沿線國家的金融監(jiān)管架構——國際比較與經(jīng)驗借鑒[J].沈陽工業(yè)大學學報:社會科學版,2017,10(3):210-220.
[5]劉源.互聯(lián)網(wǎng)金融對高校金融教育影響的SWOT分析[J].大學教育,2017(10):8-10.