王圖南 何閣 鄒怡寧 黃運(yùn) 竹譚瑞
摘 要:一個發(fā)展完備的個人征信系統(tǒng)含有廣泛而精確的消費(fèi)者信息,可以為P2P消費(fèi)信貸行業(yè)等有個人貸款業(yè)務(wù)的機(jī)構(gòu)提供貸款建議與利率依據(jù)。優(yōu)質(zhì)的信用分析產(chǎn)品可以幫助消費(fèi)信貸機(jī)構(gòu)以最有效、經(jīng)濟(jì)的方式接觸到自己的目標(biāo)客戶,因而具有極高的市場價值。大數(shù)據(jù)時代,海量的信息可以被用于個人信用的評級,如何篩選出合適的原始信息并進(jìn)行加工、處理,以構(gòu)建出一個合理的信用評級模型來實(shí)現(xiàn)對個人信用的評分成為個人征信系統(tǒng)中重要的一環(huán)。
關(guān)鍵詞:個人征信系統(tǒng);個人信用評級;層次分析法
一、引言
在當(dāng)今的大數(shù)據(jù)時代,個人征信評級的數(shù)據(jù)來源于人們的生活細(xì)節(jié),最終也將用到人們的生活點(diǎn)滴中去。我們?nèi)粘YJ款需要進(jìn)行信用評級來讓金融機(jī)構(gòu)判斷是否可以為你辦理貸款業(yè)務(wù)、該以怎樣的利率貸款給你、貸款的額度是多少,貸款期限是多長等等,這一系列涉及雙方利益的問題都是從信用數(shù)據(jù)中找到的答案。而在信用評級制度不健全的時候,這些數(shù)據(jù)都處于缺失狀態(tài),需要金融機(jī)構(gòu)通過電話訪問的方式是一項一項地了解與核實(shí),這就大大增加了金融機(jī)構(gòu)的工作量,同時信息的準(zhǔn)確性也難以保證。然而目前為止,我國在大數(shù)據(jù)個人征信評級實(shí)用性模型方面的探討還不多,由此可見,建立一個短期內(nèi)可行的基于大數(shù)據(jù)的個人征信評級模型具有必要性和迫切性。
二、個人征信評級模型的建立
1.原始信息選擇
在大數(shù)據(jù)時代,獲取信息的方式五花八門,幾乎每個人都生產(chǎn)了海量的數(shù)據(jù),這些數(shù)據(jù)可能是你的消費(fèi)記錄,也可能是位置信息,甚至是通話記錄等等。為選擇出滿足個人征信要求的信息,我們分別對識別欺詐和確定還款能力這兩個方向進(jìn)行探究。
2.信息篩選
為了將原始信息處理成可用的征信信息,我們需要采用分布式爬蟲技術(shù)進(jìn)行所需有效信息的提取。
基本原理是:從數(shù)據(jù)倉庫中取出URL,利用HttpClient進(jìn)行下載,對下載后的頁面內(nèi)容使用HtmlCleaner和xPath等工具進(jìn)行頁面解析,這時,我們解析的頁面可能是列表頁面,也有可能是詳細(xì)頁面。如果是列表頁面,則需要解析出頁面中詳細(xì)頁面的URL,并放入Redis數(shù)據(jù)倉庫,進(jìn)行后期解析;如果是詳細(xì)頁面,則存入我們的MySQL數(shù)據(jù)。
3.信息處理
如何將我們篩選出的信息轉(zhuǎn)換為最終的信用分或者信用評級呢?這就需要我們用到大數(shù)據(jù)分析的方法。本團(tuán)隊在這里借鑒阿里京東等企業(yè)的風(fēng)控模型,給出一個互聯(lián)網(wǎng)金融風(fēng)控的一般方法。
(1)防欺詐風(fēng)控系統(tǒng)
①根據(jù)以往的業(yè)務(wù)系統(tǒng)數(shù)據(jù)可以建立黑名單、白名單
白名單:通過建立數(shù)據(jù)模型進(jìn)行數(shù)據(jù)挖掘,并利用機(jī)器學(xué)習(xí)相關(guān)算法進(jìn)行優(yōu)質(zhì)用戶的挖掘。
黑名單:通過手機(jī)號碼、imei作為用戶判斷標(biāo)識,調(diào)用第三方征信公司去進(jìn)行鑒別。
在實(shí)際調(diào)查中,我們發(fā)現(xiàn),很多互聯(lián)網(wǎng)金融企業(yè)都會建立自己的白名單和黑名單,但是并沒有一套共享機(jī)制。如果能做到黑名單的共享,企業(yè)之間各取所長,會進(jìn)而大大降低欺詐行為的可能性。
②對移動端用戶進(jìn)行實(shí)時監(jiān)測,獲取用經(jīng)緯作為、獲取用戶重力感應(yīng)數(shù)據(jù)、mac地址、ip、移動設(shè)備注冊時長等數(shù)據(jù)判斷用戶是否存在惡意欺詐,惡意注冊。
在發(fā)現(xiàn)借款人存在欺詐行為或存在欺詐可能后,系統(tǒng)將主動上報,并禁止其進(jìn)行P2P借貸等行為。
(2)風(fēng)險等級劃分
①數(shù)據(jù)量化
首先,對于能反應(yīng)支付流水的數(shù)據(jù),直接采用相應(yīng)數(shù)據(jù)x 來帶入模型中。
其次,對于反應(yīng)消費(fèi)檔次的信息,我們采用分類賦分的方式。這樣,每個層級的信息都會得到一個賦分,從而使加權(quán)成為可能。
利用爬蟲技術(shù),我們從淘寶、天貓、京東、唯品會等多家電商網(wǎng)站搜集各種商品的價格區(qū)間范圍,并以每個價格區(qū)間的商品數(shù)為依據(jù)劃分消費(fèi)等級并加以整理。其中,高、中、低檔產(chǎn)品分別占同類別產(chǎn)品總數(shù)的30%、40%、30%。
消費(fèi)檔次分層情況如下表所示:
對于在考察時間范圍內(nèi)發(fā)生的消費(fèi)情況,每件高檔品消費(fèi)記3分,中檔記2分,低檔記1分,并最終按該消費(fèi)品占總消費(fèi)情況的權(quán)重賦予相應(yīng)權(quán)重。為與消費(fèi)流水量級相同,在最終得分上乘10000以平衡量級,這樣最終得到的消費(fèi)檔次得分是一個 10000-30000之間的數(shù)。例如,某借款人半年內(nèi)發(fā)生20%的高檔消費(fèi),40%的中檔消費(fèi)和40%的低檔消費(fèi),則他最終消費(fèi)檔次得分:
y=10000*(20%*3+40%*2+40%*1)=18000
最后,對于反映資產(chǎn)狀況的數(shù)據(jù),我們將其與借款額做比并乘10000以平衡量級。令借款額=A,資產(chǎn)總額=B,資產(chǎn)情況得分:z=10000*B/A
確定了x,y,z后,通過加權(quán)就可以得出最終信用評分 S=a*x+b*y+c*z。
②模型權(quán)重確定
為了以一種科學(xué)的方式確定模型權(quán)重,本團(tuán)隊在查閱相關(guān)資料并請教了有關(guān)專家后決定采用層次分析法。
首先,建立結(jié)構(gòu)層次模型。
本團(tuán)隊將確定還款能力大小作為目標(biāo)層,建立層次分析法的模型。
消費(fèi)流水顯示了個人在一段時間內(nèi)日常的各項支出情況,既包括日常生活消費(fèi),也包含了投資、奢侈品等大額支出,能夠顯示個人的消費(fèi)水平和消費(fèi)能力。
消費(fèi)檔次指通過觀察個人消費(fèi)商品的類別(高、中、低檔),并根據(jù)各檔次所占比例來對個人的消費(fèi)檔次進(jìn)行量化。
資產(chǎn)情況能夠直接反映個人的還款能力,用借款額占資產(chǎn)額的比重來衡量個人的資產(chǎn)狀況好壞。
綜上所述,個人還款能力應(yīng)從消費(fèi)流水、消費(fèi)檔次、資產(chǎn)情況三個方面的研究來確定。衡量個人還款能力的指標(biāo)體系如圖所示:然后,構(gòu)造判斷矩陣。
從層次結(jié)構(gòu)模型的第2層開始,對于從屬于(或影響)上一層每個因素的同一層諸因素,用成對比較法和1-9比較尺度構(gòu)造成對比較陣,直到最下層。判斷矩陣是將同一個矩陣的每兩個因素的重要性程度進(jìn)行相關(guān)性比較,并將相關(guān)性比較的程度用 1-9比較尺度進(jìn)行表示。1-9比較尺度的關(guān)系如下表所示。
三、小結(jié)
1.模型改進(jìn)與應(yīng)用
除線性加權(quán)的方法外,我們還可選取邏輯回歸模型等更加復(fù)雜的模型來算取最終的信用評分。且在人工智能技術(shù)快速發(fā)展的今天,想要實(shí)現(xiàn)模型的自主學(xué)習(xí)已經(jīng)不是一件難事,隨著模型的不斷完善,信用評級技術(shù)將越來越精準(zhǔn)。
借款人成功借款后,公司會盡全力繼續(xù)跟著這筆借款的去向,同時,也會繼續(xù)收集該借款人的個人征信信息,以實(shí)現(xiàn)實(shí)時的信用評級。一旦借款人出現(xiàn)了不良的消費(fèi)行為,系統(tǒng)就會給予警告,當(dāng)借款人的評分低于所設(shè)定的閾值時,公司便會勒令追回借款。P2P借貸不同于傳統(tǒng)的抵押借貸,在追回借款的過程中,借款人可能出現(xiàn)拒不還貸等流氓行為,此類行為將把借款人放置于黑名單之列,從此該借款人都很難實(shí)現(xiàn)借貸等信用活動。更重要的是,隨著企業(yè)間信息的共享,此借款人可能在所有涉及到個人信用的領(lǐng)域都會步履維艱。
2.個人信息風(fēng)險
在信息時代,每個人都像是在海里裸泳,我們的各種信息,在不知情的情況下,很多已經(jīng)被對方甚至第三方獲取。雖然上述原始信息是需要經(jīng)過個人授權(quán)才能被企業(yè)所使用的,但信息安全問題總還是帶給我們隱隱的擔(dān)憂。
在同學(xué)及親友的幫助下,本團(tuán)隊共發(fā)放了1591份問卷。其中28歲以下的被調(diào)查者占40.51%,28歲以上的被調(diào)查中占59.49%。
問卷調(diào)查結(jié)果顯示:
在利用互聯(lián)網(wǎng)時,絕大多數(shù)人已經(jīng)意識到個人信息的泄露問題,并會主動地采取措施避免個人信息泄露。
在征信過程中對防范欺詐起重要作用的人臉識別技術(shù),正是基于不定期開啟攝像頭以驗明身份來實(shí)現(xiàn)的??烧{(diào)查結(jié)果卻顯示,有74%的人絕不允許P2P軟件啟用攝像頭。同時有超過60%的人拒絕提供聯(lián)系人、支付記錄等對欺詐識別與還款能力評定至關(guān)重要的信息。另一方面,P2P借貸平臺過多獲取個人隱私信息的行為會使近70%的用戶直接終止借款申請,還有超過15%的人會對該平臺提起申訴。
由此看來,信息獲取權(quán)限問題將是將來困擾個人征信行業(yè)崛起的重要方面。
為試圖探求信息征集問題的解決之道,本團(tuán)隊擬建立一套加密系統(tǒng)來收集用戶的隱私信息,并使得任何個人都將無法獲取某項確切的個人信息內(nèi)容,收集信息的結(jié)果只用于信用評分的生成。然而,人們的反應(yīng)卻并不樂觀,即使的在信息加密的情況下,依然有大約60%的用戶不同意P2P平臺征集個人信息。
現(xiàn)實(shí)生活中,90%的人都有被騷擾電話打擾的經(jīng)歷,甚至部分人還因信息泄露遭受過精神及財產(chǎn)損失。盡管調(diào)查結(jié)果顯示信息征集已很難進(jìn)行,但只有10%的人認(rèn)為自己有較高的信息安全意識,絕大多數(shù)人都認(rèn)為自己的安全意識還有一定提高的空間??梢灶A(yù)見到,隨著技術(shù)及制度的進(jìn)步,人們正在有越來越強(qiáng)的隱私意識,并對個人隱私的保護(hù)有著越來越高的要求。這對新興的大數(shù)據(jù)個人信用信息評級來說是一個不小的挑戰(zhàn)。
參考文獻(xiàn):
[1]李俊麗.我國個人征信體系的構(gòu)建與應(yīng)用研究.農(nóng)業(yè)經(jīng)濟(jì)管理,2007.
[2]李戰(zhàn)江.最優(yōu)策略下的商業(yè)銀行信用風(fēng)險的小樣本評級模型.系統(tǒng)工程,2017.
[3]美通社.冰鑒科技獲1.1億元A輪融資——創(chuàng)世伙伴資本領(lǐng)投、領(lǐng)沨資本跟投.金卡工程,2017.
[4]薛洪言.百行征信的模式、邊界與使命.金融經(jīng)濟(jì),2018.
[5]馬曉軍,沙靖嵐,牛雪琪.基于LightGBM算法的P2P項目信用評級模型的設(shè)計及應(yīng)用.數(shù)量經(jīng)濟(jì)技術(shù)經(jīng)濟(jì)研究,2018.