長(zhǎng)樂市發(fā)展和改革局 王燕平
BP 人工神經(jīng)網(wǎng)絡(luò)在信用卡評(píng)估中的應(yīng)用
長(zhǎng)樂市發(fā)展和改革局 王燕平
隨著經(jīng)濟(jì)的不斷發(fā)展,金融業(yè)在經(jīng)濟(jì)發(fā)展中發(fā)揮著越來越重要的作用,各商業(yè)銀行的信用卡業(yè)務(wù)也在逐漸增加,對(duì)銀行客戶的信用評(píng)估是否合理、科學(xué)、準(zhǔn)確,關(guān)系著銀行在辦理信用卡過程中承擔(dān)風(fēng)險(xiǎn)的大小。通過有效的信用評(píng)估,可以大大降低銀行承擔(dān)的風(fēng)險(xiǎn)。該文介紹了人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks,簡(jiǎn)寫為ANNs)、誤差反向傳遞神經(jīng)網(wǎng)絡(luò)(簡(jiǎn)稱BP人工神經(jīng)網(wǎng)絡(luò))的網(wǎng)絡(luò)結(jié)構(gòu)和學(xué)習(xí)訓(xùn)練算法。并使用BP人工神經(jīng)網(wǎng)絡(luò)模型,將來自UCI Machine Learning Repository 網(wǎng)站的三組數(shù)據(jù)輸入到BP人工神經(jīng)網(wǎng)絡(luò),通過創(chuàng)建不同的隱含層、設(shè)定不同輸入層的神經(jīng)元數(shù)及使用不同的訓(xùn)練方法來得到BP人工神經(jīng)網(wǎng)絡(luò)在信用卡評(píng)估的準(zhǔn)確率及速度。結(jié)果發(fā)現(xiàn),BP人工神經(jīng)網(wǎng)絡(luò)對(duì)信用卡信息的匹配和篩選具有較為理想的效果,對(duì)銀行客戶的信用評(píng)估有較好的推薦及參考作用,有利于商業(yè)銀行在對(duì)申請(qǐng)信用卡用戶的信用評(píng)估,及時(shí)減小了在辦理信用卡過程中承擔(dān)的風(fēng)險(xiǎn),對(duì)金融風(fēng)險(xiǎn)的防控也起了重要的作用。
人工神經(jīng)網(wǎng)絡(luò) BP人工神經(jīng)網(wǎng)絡(luò) 信用卡
1.1 人工神經(jīng)網(wǎng)絡(luò)的定義
人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks,簡(jiǎn)稱ANNs),是在生物學(xué)、心理學(xué)、神經(jīng)學(xué)等現(xiàn)代學(xué)科基礎(chǔ)上研究產(chǎn)生的,是生物神經(jīng)系統(tǒng)對(duì)外界事物處理過程的反映,其基本原理是由大量處理單元模擬人類大腦神經(jīng)組織通過廣泛聯(lián)系構(gòu)成的網(wǎng)絡(luò)體系形成的信息處理系統(tǒng),計(jì)算系統(tǒng)具有非線性、自學(xué)性、容錯(cuò)性等特征,算法數(shù)學(xué)模型對(duì)信息進(jìn)行分布式并行的處理[1]。這種復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)系統(tǒng)通過調(diào)整大量節(jié)點(diǎn)之間相互連接的關(guān)系達(dá)到處理信息的目的。雖然單個(gè)神經(jīng)元的結(jié)構(gòu)和功能都是簡(jiǎn)單和有限的,但多個(gè)神經(jīng)元組成的網(wǎng)絡(luò)系統(tǒng),其行為卻能被表現(xiàn)的豐富多彩[2]。
1.2 神經(jīng)元
1.2.1 生物神經(jīng)元
人類大腦是由大量的神經(jīng)細(xì)胞相互連接組合而成的,每個(gè)神經(jīng)元也可稱為神經(jīng)細(xì)胞,具體結(jié)構(gòu)如圖1所示[3]。神經(jīng)元的主要接受器是樹突,主要用來接受外界信息[4]。軸突是信息傳播的起點(diǎn),主要用來傳導(dǎo)信息,然后將信息傳到軸突末梢,最后在由軸突末梢與另一個(gè)神經(jīng)元的細(xì)胞體或者樹突構(gòu)成一種突觸的機(jī)構(gòu),實(shí)現(xiàn)神經(jīng)元之間的信息傳遞。興奮與抑制是神經(jīng)元的兩種常規(guī)工作狀態(tài),神經(jīng)細(xì)胞進(jìn)入興奮狀態(tài)是在細(xì)胞膜電位升高超過閾值時(shí)出現(xiàn)的,這是由傳入的神經(jīng)沖動(dòng)引起的,并由軸突輸出;神經(jīng)細(xì)胞進(jìn)入抑制狀態(tài)是傳入的神經(jīng)沖動(dòng)使細(xì)胞膜電位下降低于閾值時(shí)出現(xiàn)的,沒有神經(jīng)沖動(dòng)由軸突輸出。
1.2.2 人工神經(jīng)元
人工神經(jīng)網(wǎng)絡(luò)是利用物理器件來模擬生物神經(jīng)網(wǎng)絡(luò)的某些結(jié)構(gòu)和功能[5],具體結(jié)構(gòu)如圖2所示。
圖1 生物神經(jīng)元結(jié)構(gòu)
從圖1可見,腦神經(jīng)元由細(xì)胞體、樹突和軸突三個(gè)部分組成。神經(jīng)元的中心是細(xì)胞體,由細(xì)胞核、細(xì)胞膜等組成。
圖2 人工神經(jīng)元結(jié)構(gòu)
圖 2的人工神經(jīng)元結(jié)構(gòu)是科學(xué)家 W.Pitts和心理學(xué)家McCulloch在1943年講解神經(jīng)元基本特性時(shí)提出的,它是現(xiàn)在許多神經(jīng)網(wǎng)絡(luò)模型研究的基礎(chǔ)。其中,wji代表神經(jīng)元i與神經(jīng)元 j之間的連接強(qiáng)度(模擬生物神經(jīng)元之間突觸連接強(qiáng)度),稱之為連接權(quán);ui代表神經(jīng)元i的活躍值,即神經(jīng)元狀態(tài);vi代表神經(jīng)元j的輸出,即是神經(jīng)元i的一個(gè)輸入;θi代表神經(jīng)元的閾值。
函數(shù)f表達(dá)了神經(jīng)元的輸入輸出特性。
f定義為階跳函數(shù):
人工神經(jīng)網(wǎng)絡(luò)由很多個(gè)神經(jīng)元組成, 每個(gè)神經(jīng)元只有一個(gè)單一輸出,使用并行分布式的數(shù)學(xué)算法來處理接收的信息。人工神經(jīng)網(wǎng)絡(luò)可以連接多個(gè)的神經(jīng)元,從而輸出多個(gè)連接通路,每一個(gè)連接通路都有相對(duì)應(yīng)的一個(gè)連接權(quán)系數(shù)。
人工神經(jīng)網(wǎng)絡(luò)具有以下特征:(1)每一個(gè)結(jié)點(diǎn)有一個(gè)狀態(tài)變量xji;(2)結(jié)點(diǎn)i到結(jié)點(diǎn)j有一個(gè)連接權(quán)系數(shù)wji;(3)每個(gè)結(jié)點(diǎn)有一個(gè)閾值 θj;(4)每個(gè)結(jié)點(diǎn)定義一個(gè)變換函數(shù)最常見的情形為具體算法步驟見本文參考文獻(xiàn)[1]。
2.1 BP神經(jīng)網(wǎng)絡(luò)的定義
BP(Back Propagation)網(wǎng)絡(luò)由McCelland和Rumelhart在1986年首次提出,是一種按誤差逆?zhèn)鞑ニ惴ㄓ?xùn)練的多層前饋網(wǎng)絡(luò),又稱誤差反向傳遞神經(jīng)網(wǎng)絡(luò),是目前應(yīng)用最廣泛的神經(jīng)網(wǎng)絡(luò)模型之一,大約有80%的人工神經(jīng)網(wǎng)絡(luò)屬于BP神經(jīng)網(wǎng)絡(luò)[6]。BP神經(jīng)網(wǎng)絡(luò)是通過反饋值不斷調(diào)整節(jié)點(diǎn)之間的連接權(quán)值而形成的一種神經(jīng)網(wǎng)絡(luò)模型。圖3是一個(gè)典型的3層BP神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)模型,主要包括輸入層、隱含層和輸出層三個(gè)層次,但在實(shí)際的模型中,隱含層可以根據(jù)具體的實(shí)際情況來決定是一層結(jié)構(gòu)還是由多層結(jié)構(gòu)組成。
圖3 3層BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
2.2 BP神經(jīng)網(wǎng)絡(luò)的原理
BP網(wǎng)絡(luò)是由輸入層、隱含層和輸出層構(gòu)成的一種多層前饋神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),隱含層可以根據(jù)實(shí)際情況決定一層或多層[7]。BP神經(jīng)網(wǎng)絡(luò)的層與層之間采取全互連方式連接,其同一層之間不存在相互連接關(guān)系。層與層之間通過工作信號(hào)和誤差信號(hào)兩種信號(hào)在流通,工作信號(hào)是輸入和權(quán)值的函數(shù),是指輸入的信號(hào)向前傳播直到在輸出端產(chǎn)生實(shí)際的輸出信號(hào)。誤差信號(hào)也稱為誤差,是從輸出端開始逐層向后傳播,是網(wǎng)絡(luò)實(shí)際輸出值與期望輸出值之間的差值。因此,前向計(jì)算過程和誤差反向傳播過程兩個(gè)過程是BP神經(jīng)網(wǎng)絡(luò)的兩個(gè)學(xué)習(xí)過程。前向計(jì)算過程是輸入信號(hào)傳向輸出層,每層神經(jīng)元的狀態(tài)只影響下一層神經(jīng)元的狀態(tài),輸入量從輸入層經(jīng)隱含層逐層計(jì)算[8]。誤差反向傳播過程是由于輸出層得不到期望的輸出,誤差信號(hào)沿原來的連接通路返回,直至到達(dá)輸入層再重復(fù)計(jì)算,逐次調(diào)整BP神經(jīng)網(wǎng)絡(luò)每層的閾值和權(quán)值。前向計(jì)算過程和誤差反向傳播過程兩個(gè)過程反復(fù)進(jìn)行,各層的閾值和權(quán)值不斷被調(diào)整,從而得到網(wǎng)絡(luò)誤差最小或達(dá)到我們所預(yù)想的目標(biāo)時(shí),學(xué)習(xí)過程結(jié)束。具體原理如下:
設(shè)輸入層有n個(gè)神經(jīng)元節(jié)點(diǎn),隱含層有q個(gè)神經(jīng)元節(jié)點(diǎn),輸出層有m個(gè)神經(jīng)元節(jié)點(diǎn)。利用該網(wǎng)絡(luò)可實(shí)現(xiàn)n維輸入向量Xn=(X1,…,Xn)T到 m 維輸出向量Ym=(Y1,…,Yn)T的非線性映射。輸入層和輸出層的單元數(shù) n、m 根據(jù)具體問題確定,而隱含層單元數(shù) q 的確定尚無成熟的方法,一般可設(shè)定不同的q 值,根據(jù)訓(xùn)練結(jié)果來進(jìn)行選擇。BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)(n、q、m)確定后,神經(jīng)網(wǎng)絡(luò)還包括的參數(shù)有:
wij:輸入層第 i單元到隱含層第 i 單元的權(quán)重,其中i=1,…,n;j=1,…,q。
Wjk:隱含層第 j單元到輸出層第 k單元的權(quán)重,其中j=1,…,n;k=1,…,m。
θj:隱含層第 j 單元的激活閾值,j=1,…,q。
θk:輸出層第 k 單元的激活閾值,k=1,…,m。
以上閾值和權(quán)重的初值是在網(wǎng)絡(luò)訓(xùn)練之前隨機(jī)生成。
f(x):激活函數(shù)一般采用非線性 Sigmoid 型,即 f(x)=1/ [1+exp(-x)]。具體算法步驟見本文參考文獻(xiàn)[9]。
BP神經(jīng)網(wǎng)絡(luò)從輸入層到輸出層可以實(shí)現(xiàn)任意的非線性映射,可以解決線性模型不能解決的問題,可以通過對(duì)已知的信用數(shù)據(jù)進(jìn)行學(xué)習(xí),調(diào)整模型結(jié)構(gòu),產(chǎn)生能夠預(yù)測(cè)客戶信用數(shù)據(jù)的模型。
3.1 樣本選取
由于商業(yè)銀行信用卡用戶信息屬于商業(yè)秘密,不易獲取,因此本文選取了來自UCI Machine Learning Repository 網(wǎng)站的Credit Approval Data、Iris Data、Tic-Tac-Toe Endgame Data的三組數(shù)據(jù)作為訓(xùn)練樣本①~③。
Credit Approval Data一共包含690組數(shù)據(jù),每組數(shù)據(jù)根據(jù)信用卡用戶的不同特性包含15個(gè)分類;Iris Data一共包含150組數(shù)據(jù),4個(gè)分類; Tic-Tac-Toe Endgame Data一共包含958組數(shù)據(jù),9個(gè)分類。
3.2 運(yùn)行環(huán)境
HP lap top, DV9518TX, CPU: Intel Core 2, 2.00 GHz, 4 GB RAM, Windows 7 Ultimate.
3.3 實(shí)證分析
為測(cè)試 BP人工神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的速度及準(zhǔn)備性,本文主要通過創(chuàng)建不同的隱含層、設(shè)定不同輸入層的神經(jīng)元數(shù)及使用不同的訓(xùn)練方法(Cross Validation:交叉驗(yàn)證、Data Randomized隨機(jī)抽?。?6%為訓(xùn)練、34%為測(cè)試))來得到BP人工神經(jīng)網(wǎng)絡(luò)的準(zhǔn)確率及速度。
在Credit Approval Dataset 訓(xùn)練中,一共包括12組訓(xùn)練,前4組使用10-fold Cross Validation方法進(jìn)行訓(xùn)練,后8組通過Data Randomized方法進(jìn)行訓(xùn)練,輸入層的神經(jīng)元數(shù)為15,輸出層的神經(jīng)元數(shù)為1,前8組設(shè)置一個(gè)隱含層,后4組設(shè)置 2個(gè)隱含層。從表 1看,訓(xùn)練結(jié)果最好的一組成功率為65.81%,是使用Data Randomized方法(66%為訓(xùn)練、34%為測(cè)試),2個(gè)隱含層,第一個(gè)隱含層的神經(jīng)元數(shù)為6個(gè),第二個(gè)隱含層的神經(jīng)元數(shù)為2個(gè),訓(xùn)練時(shí)間大約為2s。
表1 Credit Approval Dataset訓(xùn)練結(jié)果
表2 Iris Dataset訓(xùn)練結(jié)果
在Iris Dataset訓(xùn)練中,一共包括12組訓(xùn)練,前4組使用10-fold Cross Validation方法進(jìn)行訓(xùn)練,后8組通過Data Randomized方法進(jìn)行訓(xùn)練,輸入層的神經(jīng)元數(shù)為4,輸出層的神經(jīng)元數(shù)為1,前8組設(shè)置一個(gè)隱含層,后4組設(shè)置2個(gè)隱含層。從表 2的數(shù)據(jù)看,訓(xùn)練結(jié)果最好的一組成功率為77.33%,使用Data Randomized方法(66%為訓(xùn)練、34%為測(cè)試),2個(gè)隱含層,第一個(gè)隱含層的神經(jīng)元數(shù)為28個(gè),第二個(gè)隱含層的神經(jīng)元數(shù)為5個(gè),訓(xùn)練時(shí)間大約為16s。
在Tic-Tac-Toe Endgame Dataset訓(xùn)練中,一共包括12組訓(xùn)練,前4組使用10-fold Cross Validation方法進(jìn)行訓(xùn)練,后8組通過Data Randomized方法進(jìn)行訓(xùn)練,輸入層的神經(jīng)元數(shù)為9,輸出層的神經(jīng)元數(shù)為1,前8組設(shè)置一個(gè)隱含層,后4組設(shè)置2個(gè)隱含層。從表3的數(shù)據(jù)看,成功率最高為65.34%,一個(gè)隱含層和兩個(gè)隱含層的訓(xùn)練結(jié)果多數(shù)相同,然而成功率最低的一組訓(xùn)練為59.17%,使用Cross Validation方法,1個(gè)隱含層,第一個(gè)隱含層的神經(jīng)元數(shù)為23個(gè),訓(xùn)練時(shí)間大約為95s。
表3 Tic-Tac-Toe Endgame Dataset 訓(xùn)練結(jié)果
綜上所述,Data Randomized方法(66%為訓(xùn)練、34%為測(cè)試)的成功率多數(shù)高于使用Cross Validation方法進(jìn)行BP人工神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,數(shù)據(jù)庫(kù)較多的訓(xùn)練較慢于數(shù)據(jù)庫(kù)較少的訓(xùn)練,使用Cross Validation方法的訓(xùn)練時(shí)間多數(shù)大于Data Randomized方法。BP人工神經(jīng)網(wǎng)絡(luò)對(duì)信用卡信息的匹配和篩選具有較為理想的效果,對(duì)銀行客戶的信用評(píng)估有較好的推薦及參考作用,有利于商業(yè)銀行在對(duì)申請(qǐng)信用卡用戶的信用評(píng)估,及時(shí)減小了在辦理信用卡過程中承擔(dān)的風(fēng)險(xiǎn),對(duì)金融風(fēng)險(xiǎn)的防控也起了重要的作用,但仍要與信用客戶的其他審核條件相結(jié)合,對(duì)申請(qǐng)信用卡用戶進(jìn)行全面管理。
同時(shí),本論文仍存在許多不足的地方,一方面是BP人工神經(jīng)網(wǎng)絡(luò)對(duì)銀行客戶的信用評(píng)估具有一定的復(fù)雜性,程序編寫較為耗時(shí)繁瑣,這是復(fù)雜性體現(xiàn)的主要原因之一;另一方面,本文僅僅選取了UCI Machine Learning Repository 網(wǎng)站的樣本數(shù)據(jù)進(jìn)行研究分析,缺乏廣泛性。再一方面,受到外界環(huán)境和客戶的類型等因素的影響,本論文的測(cè)試結(jié)果存在一定的偏差,只能為商業(yè)銀行在信用卡信息評(píng)估過程中提供一些想法和思路。
在后續(xù)研究中,建議從加大數(shù)據(jù)庫(kù)的容量,增加隱含層的層數(shù),繼續(xù)對(duì) BP神經(jīng)網(wǎng)絡(luò)的研究,同時(shí)增加對(duì)循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks,簡(jiǎn)寫為RNNs)和高階神經(jīng)網(wǎng)絡(luò)(Higher Order Neural Networks,簡(jiǎn)寫為HONNs)兩者的研究,將三者結(jié)合起來,充分利用三者的優(yōu)點(diǎn),從而獲得更強(qiáng)大的學(xué)習(xí)能力和解決實(shí)際問題能力的神經(jīng)網(wǎng)絡(luò)模型。
注釋:
①Credit Approval Data Set,見 http://archive.ics.uci.edu/ml/datasets/Statlog+ (Australian+Credit+Approval)
②Iris Data Set,見http://archive.ics.uci.edu/ml/datasets/Iris
③Tic-Tac-Toe Endgame Data Set,見http://archive.ics.uci.edu/ml/datasets/Tic-Tac-Toe+Endgame
[1] 蔡自興, 劉麗玨, 蔡競(jìng)峰, 等. 人工智能及其應(yīng)用[M]. 北京: 清華大學(xué)出版社,2016.
[2] George A. Rovithakis, Athanassios G. Malamos, Theodora Varvarigou, et al. Quality Assurance in Networks[C]. Proceedings of the 37th IEEE Conference on Decision & Control Tampa, Florida USA, 1998: 1599-1604.
[3] Hardier, G. Back-Propagation Neural Networks for Ship-Modeling and Control[C]. Eleventh Ship Control System Symposium. Published by Computational Mechanics Publications, 1997: 39-62.
[4] 雷·庫(kù)茲韋爾. How to create a mind 人工智能的未來[M]. 杭州:浙江人民出版社,2016.
[5] Knowles A., Lisboa P.G.J., Hussain A., et al. Back-Propagation Neural Networks with Bayesian Confidence Measure for the Prediction of the EUR/USD Exchange Rate[C]. Artificial Neural Networks for Economics and Business, IGI Global, 2011: 48-59.
[6] Chen Y H, Jiang Y L, Xu J X. Dynamic Properties and a New Learning Mechanism in Back Propagation Neural Networks[J]. Neurocomputing, 2013(50): 17-30.
[7] Minati L. Rapid Generation of Biexponential and Diffusional Kurtosis Maps using Back-Propagation Neural Networks: a Preliminary Experience. Short Communication, Magn Reson Mater Phy, 2008: 299–305.
[8] Aitkin M, Foxall R. Statistical Modelling of Artificial Neural Networks using the Back-Propagation[J]. Statistics and Computing, 2009: 227–239.
[9] 韓力群. 人工神經(jīng)網(wǎng)絡(luò)理論、設(shè)計(jì)及應(yīng)用[M]. 北京: 化學(xué)工業(yè)出版社, 2002.