“大數(shù)據(jù)”概念的最早出現(xiàn),是從2012年2月份紐約時(shí)報(bào)一篇文章開(kāi)始的。到目前為止,在大數(shù)據(jù)領(lǐng)域當(dāng)中的投資已經(jīng)越來(lái)越熱,該領(lǐng)域企業(yè)越來(lái)越多。但是,有多少公司到底真正使用的是大數(shù)據(jù)?我相信幾乎沒(méi)有太多,這讓我想到1999年、2000年,我剛到美國(guó)的時(shí)候目睹了所謂互聯(lián)網(wǎng)1.0版本破滅的過(guò)程。
大數(shù)據(jù)在美國(guó)金融當(dāng)中最直接的場(chǎng)景,主要運(yùn)用于信用評(píng)估體系。美國(guó)的信用評(píng)估體系很早,對(duì)個(gè)人有制衡作用,因此個(gè)人不敢將違約的事情做得太絕。中國(guó)現(xiàn)在也在做,但是還不太成熟,這個(gè)領(lǐng)域中有很多機(jī)會(huì)。
五大因素評(píng)估信用值
美國(guó)的信用評(píng)估體系很簡(jiǎn)單,首先是債務(wù)的歷史。如果個(gè)人曾經(jīng)有過(guò)違約,對(duì)個(gè)人今后借款能力就會(huì)有影響。
第二是債務(wù),當(dāng)下總共欠了多少錢(qián),這個(gè)也很重要,即使你是比爾蓋茨,如果你借款已經(jīng)超過(guò)了你的償還能力,也是個(gè)問(wèn)題。
第三點(diǎn)信用歷史時(shí)間,如果你是在10年之前就有過(guò)一張信用卡,或者是相比另外一個(gè)人到今年才有第一張新的信用卡,我不能說(shuō)哪個(gè)哪個(gè)之間的償還能力更強(qiáng),但至少我會(huì)知道第一個(gè)人有更多的信用數(shù)據(jù),這個(gè)就是不一樣的。
第四點(diǎn)是很多相關(guān)的其他因素都很重要。比如說(shuō)最近有沒(méi)有買(mǎi)房,如果買(mǎi)房就有買(mǎi)房信用卡的記錄,有沒(méi)有買(mǎi)車(chē)?也有。這些東西全部加起來(lái)形成了美國(guó)現(xiàn)有的評(píng)分體系。
從某種程度上來(lái)說(shuō),對(duì)于信用數(shù)據(jù)如果變量太多,信用模型處理起來(lái)就會(huì)比較麻煩。因?yàn)樗纳疃缺葟V度要重要,對(duì)于我來(lái)說(shuō),我可能關(guān)心的是你過(guò)去20年,如果你有記錄,和你從最近一年當(dāng)中才有記錄,二者之間是不一樣的。
那么同樣,關(guān)注用戶的歷史遠(yuǎn)遠(yuǎn)多于現(xiàn)在,也許這個(gè)人一開(kāi)始是個(gè)屌絲,最近突然發(fā)財(cái)了,可能他的償還能力就會(huì)有巨大的改變,但是這樣的因素有沒(méi)有體現(xiàn)在這個(gè)里面?很多人不知道。怎么樣把縱向和橫向廣度上的東西都放進(jìn)來(lái),這個(gè)就會(huì)顯得相對(duì)來(lái)說(shuō)比較重要一點(diǎn)。
傳統(tǒng)信用評(píng)估:1.0版本信用模型
我們首先搭建一下傳統(tǒng)信用體系中,兩種類型人物的基本模型,以諸葛亮和司馬懿來(lái)舉例。如果將他們歷史上的典故事例來(lái)模擬化舉例,可以得出兩個(gè)人信用情況的模型。
司馬懿如果活在今天并且要借錢(qián),可以看看今天他的信用條件怎么樣:跟曹操混了那么多年,日子過(guò)得不錯(cuò),擁有過(guò)許20年的信用歷史,而且這個(gè)官級(jí)從養(yǎng)馬開(kāi)始一點(diǎn)點(diǎn)升上來(lái),他可能蓋房子借過(guò)錢(qián)、買(mǎi)馬車(chē)借過(guò)錢(qián),所以信用值也不錯(cuò),最近沒(méi)有新的貸款,如果從美國(guó)典型的風(fēng)控角度來(lái)說(shuō),絕對(duì)可以借錢(qián)給司馬懿。
如果是諸葛亮要借錢(qián),我們先看諸葛亮的情況:他日子過(guò)得沒(méi)那么好,幫劉備把蜀國(guó)給搞下了,但是畢竟蜀國(guó)財(cái)政沒(méi)那么好。收入可能只有3000塊錢(qián),過(guò)去24個(gè)月還違約過(guò)一次,只有7年的信用歷史,最近還老是借錢(qián),借過(guò)3次,貸款類型也不豐富,借過(guò)錢(qián)買(mǎi)過(guò)馬車(chē)。
將這二者之間進(jìn)行比較,毫無(wú)疑問(wèn)大家都會(huì)選擇把錢(qián)借給司馬懿,而不借給諸葛亮,這是個(gè)典型的傳統(tǒng)的風(fēng)控模型,看重債務(wù)歷史,而不看重現(xiàn)在。
真正的信用評(píng)估應(yīng)該是這樣的:傳統(tǒng)的占很大一部分,但是可替代的網(wǎng)絡(luò)數(shù)據(jù)也占據(jù)一部分,包括用戶在網(wǎng)上體現(xiàn)出來(lái)的網(wǎng)絡(luò)行為、社交信息和來(lái)自用戶自己的回答,要把所有這些信息全部給綜合起來(lái)才可以。在傳統(tǒng)數(shù)據(jù)當(dāng)中,我們只看到了深度沒(méi)看到廣度,現(xiàn)在更多是注重廣度,因此當(dāng)下網(wǎng)絡(luò)上的數(shù)據(jù)也是很重要的。
大數(shù)據(jù):2.0版本信用評(píng)估模型
以上是信用評(píng)估的1.0版本,倘若以互聯(lián)網(wǎng)的思維和方式來(lái)分析,或許就能獲得截然不同的結(jié)果。所以在2.0版本當(dāng)中,司馬懿和諸葛亮的介紹可能是這個(gè)樣子:
首先,司馬懿的上網(wǎng)IP地址來(lái)自于魏國(guó)國(guó)家圖書(shū)館、蔡文姬茶樓等,他不從工作的地方來(lái)、也不從家里來(lái),可以證明他沒(méi)有穩(wěn)定的收入。而他剛剛申請(qǐng)了兩個(gè)發(fā)薪日貸款,這證明他以前有錢(qián),現(xiàn)在沒(méi)錢(qián)。而他的學(xué)生貸款是從公司里扣除的,說(shuō)明他錢(qián)不歸他控制,而由魏國(guó)國(guó)家政府控制著意味著信用記錄并不好。而從地址來(lái)看,他最近一會(huì)在許昌,一會(huì)在洛陽(yáng),一會(huì)在長(zhǎng)安頻繁搬家,從整體情況來(lái)分析,很可能最近他混得比較慘。
而諸葛亮借錢(qián)的原因是他去年被馬車(chē)撞了,蜀國(guó)的醫(yī)療保障不健全,他只好自己付了醫(yī)療費(fèi),這意味著40%的DIT來(lái)自于他借款還醫(yī)療費(fèi),而之所以歷史信用記錄不長(zhǎng),是因?yàn)樗麆倓偘岬剿拇?,?dāng)丞相的時(shí)間不長(zhǎng),信用體系仍然沒(méi)有建立完全,但最近五年他一直住在丞相府,地址相對(duì)穩(wěn)定,而且在學(xué)生時(shí)代曾從司馬徽,龐德公那里拿過(guò)獎(jiǎng)學(xué)金。如果把所有的因素放在一起,信用評(píng)估的結(jié)果就會(huì)發(fā)生變化。
在大數(shù)據(jù)的場(chǎng)景當(dāng)中,如果有一個(gè)合適的建模的方式,能夠產(chǎn)生一個(gè)二維決策,那么就可以看到,最終借款的人應(yīng)該是借給諸葛亮,而不應(yīng)該是借給司馬懿。
大數(shù)據(jù)信用模型的關(guān)鍵點(diǎn)
大數(shù)據(jù)模型理念,一切數(shù)據(jù)皆為信用數(shù)據(jù),以此“積少成多、匯流成?!薄T诖酥白鼋y(tǒng)計(jì)、做因果系統(tǒng)的時(shí)候,總是希望能找到原因判斷這些事情到底是不是靠譜。但是在大數(shù)據(jù)的情況之下,我們認(rèn)為可以暫時(shí)不考慮背后的原因,并不是不知道原因就等同于它不靠譜。我們只看關(guān)聯(lián)不看因果。
大數(shù)據(jù)的關(guān)鍵點(diǎn)之二是數(shù)據(jù)的來(lái)源。包括錯(cuò)誤信息也是有用信息,比如說(shuō)謊能體現(xiàn)出一個(gè)人素質(zhì)。
第三點(diǎn)就是所謂的建模,總而言之,大數(shù)據(jù)當(dāng)中對(duì)所謂特征的變化,特征的提取和最后所謂獨(dú)立模型細(xì)節(jié)的建立,最后模型的整合都跟以前傳統(tǒng)統(tǒng)計(jì)上的理論有很大的區(qū)別。