鮑佳彤
卷積神經(jīng)網(wǎng)絡(luò)(CNN)最早用于手寫數(shù)字識別并一直保持了其在該問題的霸主地位。近年來卷積神經(jīng)網(wǎng)絡(luò)在多個方向持續(xù)發(fā)力,語音識別、人臉識別等方面均有突破。
一、項目簡介
基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的征信系統(tǒng),作為個人征信系統(tǒng)第三方機構(gòu),利用合作單位已有大數(shù)據(jù)對卷積神經(jīng)系統(tǒng)進行訓(xùn)練,使系統(tǒng)具有高準確率對未來借貸人交易數(shù)據(jù)進行分析,快速得出是否可提供貸款及借貸金額和時間。
二、項目目標(biāo)
目前我國的個人征信系統(tǒng)主要以銀行的信貸信息和個人繳費信息為參數(shù),在未來借貸人信用預(yù)測方面仍有缺陷。利用卷積神經(jīng)網(wǎng)絡(luò)的征信系統(tǒng)可以對自然人進行預(yù)測,減少損失,快速得到可否借貸及借貸額度,同時系統(tǒng)本身所具有的傳輸加密功能也能良好防止客戶信息的泄露。
三、項目內(nèi)容
(一)基于卷積神經(jīng)網(wǎng)絡(luò)CNN的征信系統(tǒng)框架
征信作為金融業(yè)的基礎(chǔ)設(shè)施,不是簡單拿到數(shù)據(jù)就可以了,還要對數(shù)據(jù)進行加工或者評價。為此,我們提出了CNN框架來進行征信系統(tǒng)的研發(fā)。
(二)特征工程
將用戶的每條記錄的交易數(shù)據(jù)轉(zhuǎn)換為特征矩陣,通過相應(yīng)的數(shù)據(jù)轉(zhuǎn)化為可以在CNN模型顯示。
(三)CNN建模
模型中共有7層,模型的輸入是一個特征矩陣。前四層分別是卷積層、下采樣層、卷積層和池化層。最后三層則是全連接層。
(四)實驗及模型評估
將任意客戶交易數(shù)據(jù)樣本輸入CNN結(jié)構(gòu),利用樣本自身差異性和排列多樣性,對結(jié)構(gòu)進行大量重復(fù)訓(xùn)練以提高其識別準確率,從而實現(xiàn)本項目征信系統(tǒng)的不斷完善。后期將真實客戶交易信息,運用CNN征信系統(tǒng)進行實際評級操作,從而來檢驗評估項目系統(tǒng)的實際應(yīng)用準確性。
研究過程部分展示之特征工程部分:
在編程中我們將數(shù)據(jù)中的sex,edu,marry,age,paydue,bill,pay,label,記錄在數(shù)組中,如圖:
首先將借貸人的自然屬性放在中間的6*12的像素格中(img3)。部分代碼如下:
其中金額部分由于數(shù)字過大,我們將數(shù)字除10000后處理,得到的三位數(shù)由于只有100,我們用在兩個像素格里填10表示,兩位數(shù)的我們用十位和個位分別填在不同像素格的表示。
關(guān)于pay,bill和paydue的記錄由于有負數(shù)的存在,所以我們根據(jù)上正下負,左正右負的原則,將他們分別反正圍繞img3的img1(bill和pay中的正數(shù)),img2(bill和pay中的正數(shù)),img4(paydue中的正數(shù)),img5(paydue中的正數(shù))中。
這樣就基本完成了數(shù)字到圖像的轉(zhuǎn)換,例如,把第2480個人的信息轉(zhuǎn)化為圖像,得到圖像:
四、創(chuàng)新點
(一)引用卷積神經(jīng)網(wǎng)絡(luò)處理征信問題
在此之前由Kokkinaki提出了決策樹和布爾邏輯函數(shù),對個人進行征信評估。然而效果并不是很理想,因此我們使用CNN可以有效地降低特征冗余,避免模型的過擬合。
(二)特征轉(zhuǎn)化法
CNN可以用于圖像分類和語音信號領(lǐng)域,但并不是所有類型的數(shù)據(jù)都適用于CNN模型,因此提出特征轉(zhuǎn)換的方法。
(三)數(shù)據(jù)預(yù)處理
CNN模型很適合用于海量數(shù)據(jù)的訓(xùn)練,同時它有避免模型過擬合的機制。我們將通過大量基于真實的數(shù)據(jù)進行訓(xùn)練和測試,并在不斷的實驗過程中,降低偏差值。
(四)信息安全性
通過CNN模型生成的熱力圖在行和列的形式上有很強的局部相關(guān)性,保障信息被處理時的隱蔽性,及用戶個人信息的安全性。
五、市場推廣計劃
當(dāng)前中國市面上對CNN技術(shù)并未有特別成熟的應(yīng)用,此領(lǐng)域在市面上屬于藍海市場;同時CNN技術(shù)在 處理征信問題,特征轉(zhuǎn)化法,數(shù)據(jù)預(yù)處理,信息安全性點上的處理都體現(xiàn)了極大的創(chuàng)新性,可以充分完善當(dāng)前信貸機構(gòu)的用戶征信問題,因此CNN的技術(shù)應(yīng)用仍有相當(dāng)大的使用前景。
基金項目:大學(xué)生創(chuàng)新創(chuàng)業(yè)項目:《基于卷積神經(jīng)網(wǎng)絡(luò)在征信方面的應(yīng)用》201810173044。
作者單位:東北財經(jīng)大學(xué)