• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于機(jī)器學(xué)習(xí)的個(gè)人信用模型實(shí)證分析

      2020-04-07 11:41:56張志明
      宿州學(xué)院學(xué)報(bào) 2020年1期
      關(guān)鍵詞:決策樹貝葉斯機(jī)器

      張 暉,張志明

      銅陵學(xué)院金融學(xué)院,安徽銅陵,244061

      1 引 言

      隨著信息技術(shù)的高速發(fā)展和互聯(lián)網(wǎng)的普及,征信領(lǐng)域發(fā)生了巨大的變化。大數(shù)據(jù)征信逐漸開始取代傳統(tǒng)征信模式。傳統(tǒng)征信數(shù)據(jù)來源單一,主要以傳統(tǒng)商業(yè)銀行的違約記錄作為征信依據(jù),覆蓋人群范圍較小,不能準(zhǔn)確判斷個(gè)人實(shí)際征信狀況。大數(shù)據(jù)征信以互聯(lián)網(wǎng)為平臺(tái),采用數(shù)據(jù)抓取和數(shù)據(jù)挖掘技術(shù),運(yùn)用合理的算法判斷個(gè)人或企業(yè)的信用狀況。其數(shù)據(jù)種類多樣,來源廣泛,具備綜合判斷的能力。近年來,個(gè)人信用模型不斷完善,從早期的判別分析模型到今天的基于機(jī)器學(xué)習(xí)的個(gè)人征信模型層出不窮。本文通過P2P平臺(tái),在經(jīng)過用戶允許的情況下,采集1 000名用戶的個(gè)人信息,運(yùn)用四種不同的機(jī)器學(xué)習(xí)方法進(jìn)行對(duì)比,將數(shù)據(jù)按照7∶3比例劃分,70%數(shù)據(jù)用于訓(xùn)練,30%數(shù)據(jù)用于驗(yàn)證模型,分析在有限數(shù)據(jù)情況下不同算法的準(zhǔn)確度。

      2 個(gè)人征信模型發(fā)展綜述

      個(gè)人征信模型是以評(píng)分對(duì)象過去的社會(huì)經(jīng)歷和交易記錄為數(shù)據(jù),采用數(shù)理統(tǒng)計(jì)的方法,分析和判斷個(gè)人的信用狀況。1941年,Durand在其編寫的《消費(fèi)者分期付款信貸的風(fēng)險(xiǎn)因素》一書中,提出了數(shù)理統(tǒng)計(jì)模型用于消費(fèi)者授信決策的統(tǒng)計(jì)方法[1]。1958年,F(xiàn)air等利用判別分析法建立了第一個(gè)真正現(xiàn)代意義上的商業(yè)化信用評(píng)分系統(tǒng)FICO,其產(chǎn)品在商業(yè)金融領(lǐng)域迅速得到了廣泛應(yīng)用[2]。

      計(jì)算機(jī)和信息技術(shù)的發(fā)展提高了個(gè)人征信模型的數(shù)據(jù)處理能力。在互聯(lián)網(wǎng)時(shí)代,個(gè)人征信的數(shù)據(jù)來源海量增長,機(jī)器學(xué)習(xí)的方法有助于處理大數(shù)據(jù)性質(zhì)的征信數(shù)據(jù)。基于機(jī)器學(xué)習(xí)的個(gè)人征信模型的核心是通過搜集和挖據(jù)互聯(lián)網(wǎng)以及其他平臺(tái)的數(shù)據(jù),把人類的經(jīng)驗(yàn)通過訓(xùn)練的方式讓機(jī)器進(jìn)行學(xué)習(xí),經(jīng)過反復(fù)檢驗(yàn)后得出正確率高的算法或模型,用于預(yù)測(cè)個(gè)人違約概率。

      近幾十年來,機(jī)器學(xué)習(xí)算法層出不窮。1967年,Cover和 Hart提出了 KNN算法(臨近算法)[3]。其全稱為K-Nearest Neighbor,意思是K個(gè)最靠近的鄰居。20世紀(jì)80年代,Breiman等人發(fā)明了決策樹算法,通過反復(fù)二分?jǐn)?shù)據(jù)進(jìn)行分類或回歸,大大降低了計(jì)算量[4]。2001年,Breiman在決策樹的基礎(chǔ)上提出了隨機(jī)森林算法,利用多棵樹對(duì)樣本進(jìn)行訓(xùn)練和預(yù)測(cè)[5]。樸素貝葉斯分類器(Naive Bayes Classifier,或NBC)發(fā)源于古典數(shù)學(xué)理論,有著堅(jiān)實(shí)的數(shù)學(xué)基礎(chǔ)以及穩(wěn)定的分類效率。同時(shí)樸素貝葉斯模型所需估計(jì)的參數(shù)很少,對(duì)缺失數(shù)據(jù)不太敏感,算法也比較簡單[6]。從理論上來看,樸素貝葉斯模型與其他方法相比誤差較小,但由于假設(shè)條件嚴(yán)格,現(xiàn)實(shí)中往往并不成立。1995年,Vapnik等人對(duì)線性分類器提出了另一種假設(shè),即支持向量機(jī)(Support Vector Machine,簡稱SVM),其核心思想是尋找一個(gè)超平面把數(shù)據(jù)集的樣本空間劃分成不同的樣本用于分析判斷[7]。

      綜上所述,可以看出當(dāng)前機(jī)器學(xué)習(xí)數(shù)據(jù)處理方法取得了諸多的成果,并運(yùn)用到了個(gè)人征信領(lǐng)域中。如美國金融科技公司ZestFinance的個(gè)人信用評(píng)分模型,從3 500個(gè)數(shù)據(jù)項(xiàng)提取70 000個(gè)變量,利用10個(gè)預(yù)測(cè)分析模型進(jìn)行訓(xùn)練和學(xué)習(xí),從而分析消費(fèi)者的信用狀況[8]。國內(nèi)支付寶旗下的芝麻信用以及騰訊金融、京東金融等互聯(lián)網(wǎng)金融平臺(tái)也都紛紛建立了自己的信用評(píng)分體系。

      3 實(shí)證分析

      3.1 數(shù)據(jù)描述

      本文數(shù)據(jù)來源于P2P平臺(tái)貸款客戶資料,變量指標(biāo)共14項(xiàng),分別為“年齡”“職業(yè)”“收入”“婚姻狀況”“教育程度”“存款”“房產(chǎn)”“車輛”“網(wǎng)購消費(fèi)金額”“債務(wù)余額”“違法記錄”“公積金”“支付寶年齡”“違約記錄”。

      3.2 數(shù)據(jù)處理

      上述征信數(shù)據(jù)中,既有文本型數(shù)據(jù),也有數(shù)字?jǐn)?shù)據(jù),原始數(shù)據(jù)無法直接適用于評(píng)估模型。同時(shí),數(shù)據(jù)中的連續(xù)變量可能造成數(shù)據(jù)之間不同的區(qū)分度,因此需要對(duì)連續(xù)變量做進(jìn)一步編碼,使得編碼后的數(shù)據(jù)能夠充分反映變量的變化,可以被模型充分學(xué)習(xí)。

      年齡變量是一個(gè)連續(xù)型變量,其數(shù)值對(duì)客戶信用可能呈“U型”分布,即在年齡數(shù)值較小時(shí)或較大時(shí)對(duì)客戶可信度具有負(fù)作用,中間數(shù)值呈正作用[9]。因此直接使用數(shù)據(jù)作為判斷依據(jù),可能對(duì)線性模型的評(píng)估帶來障礙,需要對(duì)數(shù)據(jù)進(jìn)行重新編碼。針對(duì)年齡變量,以5歲為一個(gè)階段劃分區(qū)間,將年齡數(shù)據(jù)分為:(0,15]、(15,20]、(20,25]、(25,30]、(30,35]、(35,40]、(40,45]、(45,50]、(50,55]、(55,60]、(60,65]、(65,70],共12個(gè)區(qū)間。通過重新編碼,將年齡1維數(shù)據(jù)轉(zhuǎn)換成12維數(shù)據(jù),讓模型避免“U型”難點(diǎn)。經(jīng)過重新編碼后部分結(jié)果如表1所示。

      表1 年齡變量數(shù)據(jù)處理

      收入數(shù)據(jù)按照2017年個(gè)人所得稅征稅級(jí)距為梯度劃分。收入數(shù)據(jù)雖然不存在“U型”數(shù)據(jù)難點(diǎn),但是工資的額度增加不一定與信用評(píng)分呈線性關(guān)系,因此需要對(duì)工資進(jìn)行再編碼,使工資變換能夠被分類器學(xué)習(xí),并將收入映射到梯度區(qū)間。但是,由于其數(shù)值較大,可能會(huì)帶來因數(shù)據(jù)單位不一致帶來的參數(shù)變化,使得模型泛化能力較低,因此對(duì)其取以2為底的對(duì)數(shù)。一方面可以反映數(shù)據(jù)的變化趨勢(shì),另一方面可壓縮數(shù)值,避免因?yàn)閿?shù)據(jù)變化造成模型的效果差。與年齡不同的是,工資的每個(gè)階段都有實(shí)質(zhì)作用,因此需要記錄每個(gè)階段的數(shù)值,處理后部分結(jié)果如表2所示。

      表2 收入變量數(shù)據(jù)處理

      職業(yè)劃分按照商業(yè)銀行個(gè)人信用評(píng)估的一般標(biāo)準(zhǔn),劃分為無職業(yè)、個(gè)體、教師、醫(yī)護(hù)人員、職員、公務(wù)員和金融從業(yè)者。其中職員又可分為初級(jí)職員、中級(jí)職員和高級(jí)職員。在職員部分做進(jìn)一步編碼如表3所示。

      表3 職業(yè)變量數(shù)據(jù)處理

      網(wǎng)購消費(fèi)金額一般數(shù)值較大,通過對(duì)其進(jìn)行標(biāo)準(zhǔn)化數(shù)據(jù)壓縮,將原始數(shù)據(jù)映射到[0,1]區(qū)間,避免因數(shù)據(jù)數(shù)值過大帶來的模型誤差,部分結(jié)果見表4。

      表4 網(wǎng)購消費(fèi)金額變量處理

      存款數(shù)據(jù)數(shù)額較大,在處理上對(duì)其以2為底取對(duì)數(shù),進(jìn)行壓縮,部分結(jié)果如表5所示。

      表5 存款數(shù)據(jù)變量處理

      教育程度范圍大致可分為,小學(xué)、初中、高中、本科、碩士、博士。受教育程度是一種遞進(jìn)關(guān)系,適合使用連續(xù)編碼方式表示,處理結(jié)果如表6所示。

      表6 教育程度變量處理

      債務(wù)余額記錄可分為:房貸、車貸和其他貸款。原始數(shù)據(jù)中有很多數(shù)據(jù)表示不明,無法確認(rèn)具體貸款額度,所以在操作中將其標(biāo)記為是否有該項(xiàng)貸款,確認(rèn)貸款信息,部分結(jié)果如表7所示。

      表7 債務(wù)余額變量處理

      房產(chǎn)、車輛、公積金信息根據(jù)有無劃分為1、0,婚姻狀態(tài)未婚為0,已婚為1,離異為2;支付寶年限可以直接使用。

      3.3 模型選擇

      分別選用SVM、決策樹、隨機(jī)森林、樸素貝葉斯進(jìn)行個(gè)人信用數(shù)據(jù)分析,對(duì)比不同模型的分析結(jié)果。

      SVM本質(zhì)上是針對(duì)線性可分情況進(jìn)行分析,通過設(shè)置軟間隔距離,保證了分類的泛化性,降低過擬合情況。當(dāng)分類特征是非線性時(shí),通過非線性映射算法,將低維非線性特征映射成高維空間乃至無窮維,使其線性可分。從而使得利用線性分割法完成對(duì)非線性空間的劃分[10]。方案使用高斯核函數(shù)將輸入向量映射到高緯空間,借助網(wǎng)格搜索法,調(diào)節(jié)“軟間隔”距離,選擇最優(yōu)訓(xùn)練模型。

      決策樹主要包括ID3,C4.5和CART。信息增益是ID3的分裂標(biāo)準(zhǔn),它定義了一個(gè)特征的信息量:攜帶的信息越大,該特征在分裂篩選過程中權(quán)重越大。實(shí)踐發(fā)現(xiàn):以信息增益為分裂標(biāo)準(zhǔn)時(shí),分裂過程中偏向于選擇數(shù)據(jù)種類較多的分類屬性。C4.5將信息增益率作為劃分標(biāo)準(zhǔn),優(yōu)化了ID3弊端,但仍舊難以避免決策樹中結(jié)構(gòu)復(fù)雜、規(guī)模大、運(yùn)行效率低等問題。CART使用GINI系數(shù),在前人的基礎(chǔ)上,降低了決策樹復(fù)雜性,提高決策樹算法執(zhí)行效率[11]。方案使用CART算法,以單個(gè)最小節(jié)點(diǎn)為2個(gè)樣本點(diǎn)為分割終止點(diǎn),對(duì)分類器進(jìn)行評(píng)價(jià)。

      隨機(jī)森林從bootstrap重采樣法等角度,構(gòu)建集成決策樹可緩解上述問題。本方案通過使用35棵CART決策樹,以GINI系數(shù)為分割依據(jù)。通過網(wǎng)格化自動(dòng)搜索,不同的分割深度、最小分割樣本點(diǎn)數(shù)等參數(shù),選擇最優(yōu)訓(xùn)練模型。

      樸素貝葉斯方法是基于貝葉斯定理的一組有監(jiān)督學(xué)習(xí)算法,即“簡單”地假設(shè)每對(duì)特征之間相互獨(dú)立。盡管其假設(shè)過于簡單,在很多實(shí)際情況下,樸素貝葉斯工作得很好,特別是文檔分類和垃圾郵件過濾等數(shù)據(jù)量大,特征稀疏的分類環(huán)境。方案使用服從多項(xiàng)分布數(shù)據(jù)的樸素貝葉斯算法,將alpha平滑因子設(shè)置為1進(jìn)行分類。

      采用Pyhton3.6.0軟件,根據(jù)常規(guī)搜索算法調(diào)整模型參數(shù),將數(shù)據(jù)隨機(jī)分成訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)兩份,比例為7∶3。訓(xùn)練數(shù)據(jù)用于訓(xùn)練模型,測(cè)試數(shù)據(jù)用于對(duì)模型進(jìn)行評(píng)價(jià)。評(píng)價(jià)指標(biāo)主要包括準(zhǔn)確率、召回率和F1值。準(zhǔn)確率是評(píng)估捕獲的成果中目標(biāo)成果所占得比例;召回率是從關(guān)注領(lǐng)域中召回目標(biāo)類別的比例;F1值則是綜合這二者指標(biāo)的評(píng)估指標(biāo),用于綜合反映整體的指標(biāo)。結(jié)果如表8所示。

      表8 機(jī)器學(xué)習(xí)個(gè)人征信模型測(cè)試結(jié)果比較

      結(jié)果顯示:(1)從準(zhǔn)確度來看,SVM和隨機(jī)森林算法的個(gè)人信用評(píng)價(jià)明顯好于樸素貝葉斯和決策樹,其對(duì)正常用戶分類的準(zhǔn)確率分別為90%和94%,對(duì)違約用戶分類的準(zhǔn)確率分別為92%和87%。將SVM與隨機(jī)森林對(duì)比發(fā)現(xiàn),SVM能更好地捕捉違約用戶,隨機(jī)森林可以更好地捕捉正常用戶。(2)從召回率來看,SVM對(duì)正常用戶的召回率最高達(dá)到97%,隨機(jī)森林對(duì)違約用戶的召回率最高達(dá)到84%,說明上述機(jī)器學(xué)習(xí)的算法,能夠有效地將目標(biāo)用戶查全,避免遺漏。結(jié)合F1值來看,SVM和隨機(jī)森林算法在綜合評(píng)價(jià)方面同樣表現(xiàn)較好。

      4 結(jié) 論

      本文通過搜集和整理P2P平臺(tái)1 000名真實(shí)客戶信息,運(yùn)用4種不同的機(jī)器學(xué)習(xí)算法對(duì)客戶的信用進(jìn)行分類評(píng)價(jià),并對(duì)各算法結(jié)果進(jìn)行比較。結(jié)果表明:機(jī)器學(xué)習(xí)個(gè)人征信模型相比傳統(tǒng)個(gè)人征信評(píng)價(jià)在數(shù)據(jù)來源相同的情況下,可以避免主觀上的失誤,結(jié)果更加明確和直觀。從實(shí)際效果來看,SVM和隨機(jī)森林是當(dāng)前較為成熟的個(gè)人征信模型算法,準(zhǔn)確度和召回率較高,可適用于商業(yè)銀行、P2P、小貸公司等機(jī)構(gòu)進(jìn)行個(gè)人征信評(píng)價(jià)。機(jī)器學(xué)習(xí)算法在樣本數(shù)量較少、個(gè)人數(shù)據(jù)相對(duì)不足的情況下也能夠?qū)€(gè)人征信有著較為準(zhǔn)確的評(píng)價(jià)。在大數(shù)據(jù)背景下,未來個(gè)人征信數(shù)據(jù)將會(huì)更加充足,基于機(jī)器學(xué)習(xí)算法的個(gè)人征信模型可以進(jìn)一步優(yōu)化數(shù)據(jù)處理和算法,提高個(gè)人征信評(píng)模型的準(zhǔn)確度。

      猜你喜歡
      決策樹貝葉斯機(jī)器
      機(jī)器狗
      機(jī)器狗
      一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹算法
      決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
      電子制作(2018年16期)2018-09-26 03:27:06
      未來機(jī)器城
      電影(2018年8期)2018-09-21 08:00:06
      貝葉斯公式及其應(yīng)用
      基于決策樹的出租車乘客出行目的識(shí)別
      基于貝葉斯估計(jì)的軌道占用識(shí)別方法
      一種基于貝葉斯壓縮感知的說話人識(shí)別方法
      電子器件(2015年5期)2015-12-29 08:43:15
      無敵機(jī)器蛛
      衡东县| 红桥区| 株洲市| 呼和浩特市| 平塘县| 松潘县| 达孜县| 安平县| 绥化市| 丰宁| 龙泉市| 文安县| 寻甸| 石渠县| 武鸣县| 洛南县| 丰台区| 多伦县| 平阳县| 清徐县| 东乡县| 垣曲县| 汉川市| 新龙县| 大方县| 左云县| 西丰县| 连江县| 大渡口区| 志丹县| 孝昌县| 石楼县| 永和县| 福清市| 祥云县| 康乐县| 开化县| 和田市| 新乡市| 桃源县| 黄冈市|