阮亮亮
(四川大學經濟學院 四川 成都 610000)
近年來,計算機相關理論和技術快速發(fā)展,特征工程和機器學習算法在金融科技行業(yè)應用廣泛。信貸業(yè)務是銀行的重要業(yè)務之一,金融機構重點關注信貸業(yè)務過程中產生的信用風險,金融系統(tǒng)需要對信用風險進行有效的防范。學者和金融機構研究者在構建模型和模型應用于實際業(yè)務的過程中,信貸數據集一般具有高維稀疏和正負樣本不均衡的特點。如何對信貸業(yè)務數據集進行特征工程,并應用到具體的機器學習算法中提高評估和預測信用風險的能力,成為學者和各家金融機構積極探索的方向。
邏輯回歸模型常用于分類任務,對于二分類問題,一般用0和1表示類別。模型的表達式如下:
其中P(y=1|x;θ)表示給定輸入x條件下預測類別為1的概率,θ是條件概率的參數。
XGBoost模型是將K個樹的結果進行求和作為最終的預測值,是樹集成模型。表達式如下:
模型的目標函數如下:
通過擬合上次學習的殘差,并用泰勒展開得到如下公式:
移除常數項后,目標函數如下:
本文研究的數據來源于某銀行大數據比賽,數據集為該銀行實際業(yè)務場景中的信貸數據。數據集中包括用戶基本信息、借貸相關信息和其它信息,共104個特征。對原始數據集進行數據預處理,如數據清洗和數據對數變換等。根據業(yè)務場景構建信用等級特征等。數據集中貸款違約人數占比少,樣本數據不平衡。運用分層采樣進行劃分訓練集和測試集。
ROC表示“受試者工作特征”曲線,后被引入機器學習領域。ROC曲線的橫軸是“假正例率”(False Positive Rate,簡稱FPR),縱軸是“真正例率”(True Positive Rate,簡稱TPR),以FPR和 TPR為坐標軸作圖就得到了ROC曲線。對于樣本不均衡數據集,評價指標一般采用AUC,AUC值是ROC曲線下與坐標軸圍成的面積大小,取值范圍一般為0.5到1。預測結果的AUC值越接近1,表示學習器的效果越好。
運用python中scikit-learn框架,選擇相應的模型進行學習并進行參數優(yōu)化。將訓練好的模型分別對測試集進行預測,繪制ROC曲線圖,如下:
圖1 ROC曲線圖
從圖1可以看出,XGBoost模型ROC曲線下與坐標軸圍成的面積大于邏輯回歸模型。其中,XGBoost預測結果的AUC值為0.83,邏輯回歸預測結果AUC值為0.77。結果表明,兩種機器學習模型都能有效的對銀行客戶借款違約情況進行預測,XGBoost模型預測效果較好。
本文以某銀行數據建模比賽數據集為研究對象,根據用戶基本信息等104個特征進行數據建模。在進行特征工程后,運用兩種不同的機器學習算法構建客戶貸款違約概率預測模型評估信用風險,分析對比預測效果然后得出結論。實證結果表明,XGBoost模型和邏輯回歸模型均能有效地預測信用風險,但從AUC指標來看,相比之下XGBoost模型的預測效果要優(yōu)于邏輯回歸模型。機器學習算法可以有效地預測借款人的違約情況并進行信用分析評估,使得金融機構平臺能夠進行風險控制。