周濤,李艷麗,李倩,陳端兵,3,謝文波,3,吳桐,曾途
1. 電子科技大學(xué)大數(shù)據(jù)研究中心,四川 成都 611731;2. 成都數(shù)聯(lián)銘品科技有限公司,四川 成都 610041;3. 成都數(shù)之聯(lián)科技有限公司,四川 成都 610041
隨著互聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)和各種遙感探測(cè)技術(shù)的發(fā)展,一個(gè)“一切都被記錄,一切都被分析”的數(shù)據(jù)化時(shí)代已經(jīng)到來(lái)[1]。大數(shù)據(jù)的技術(shù)發(fā)展與應(yīng)用實(shí)踐已經(jīng)為社會(huì)經(jīng)濟(jì)和人們的日常生活帶來(lái)了顯著的貢獻(xiàn)[2]。在醫(yī)療領(lǐng)域,大數(shù)據(jù)和人工智能被用于精準(zhǔn)識(shí)別醫(yī)療影像中早期的病灶,定位致病基因并開展相應(yīng)的靶向治療,實(shí)時(shí)監(jiān)測(cè)評(píng)估健康狀況,提前預(yù)警重大健康風(fēng)險(xiǎn)等[3];在交通領(lǐng)域,海量數(shù)據(jù)和預(yù)測(cè)算法的結(jié)合能夠幫助人們進(jìn)行更高效的交通導(dǎo)航,盡可能減少擁堵時(shí)間[4];在教育領(lǐng)域,對(duì)學(xué)生發(fā)展過程中學(xué)習(xí)和生活數(shù)據(jù)的分析可以幫助了解學(xué)生行為和學(xué)業(yè)表現(xiàn)之間的關(guān)系,從而設(shè)計(jì)更高效的個(gè)性化教育方案,提前對(duì)不利于學(xué)業(yè)發(fā)展的異常行為進(jìn)行干預(yù)[5]等。
在各種大數(shù)據(jù)研究對(duì)象和大數(shù)據(jù)應(yīng)用場(chǎng)景中,網(wǎng)絡(luò)大數(shù)據(jù)是獨(dú)具特色且受到廣泛關(guān)注的方向[6-7]。網(wǎng)絡(luò)科學(xué)是以網(wǎng)絡(luò)為研究對(duì)象的一門有數(shù)百年歷史的專業(yè)性很強(qiáng)的學(xué)科,又是眾多學(xué)科中不同研究對(duì)象的統(tǒng)一抽象的表達(dá)方式[8]。目前萬(wàn)維網(wǎng)具有超過萬(wàn)億 的統(tǒng)一資源定位符(uniform resource locator,URL),F(xiàn)acebook有10億個(gè)節(jié)點(diǎn)和千億條連邊,大腦神經(jīng)元網(wǎng)絡(luò)有數(shù)百億節(jié)點(diǎn)……如何分析挖掘大規(guī)模網(wǎng)絡(luò)中隱藏的信息,進(jìn)一步應(yīng)用于解決實(shí)際問題,已經(jīng)成為學(xué)術(shù)界和企業(yè)界亟待解決的重要挑戰(zhàn)。
金融網(wǎng)絡(luò)分析是網(wǎng)絡(luò)大數(shù)據(jù)在金融領(lǐng)域的應(yīng)用,因?yàn)槠淇梢姷木薮髢r(jià)值,最近受到了廣泛的關(guān)注[9-10]。真實(shí)的金融網(wǎng)絡(luò)包括金融機(jī)構(gòu)之間的業(yè)務(wù)關(guān)系網(wǎng)絡(luò)[11]、投資機(jī)構(gòu)和企業(yè)之間或投資機(jī)構(gòu)之間因共同投資而形成的投資關(guān)系網(wǎng)絡(luò)[12]等。這些網(wǎng)絡(luò)往往度分布范圍很廣,網(wǎng)絡(luò)連接總體上比較稀疏,網(wǎng)絡(luò)連接呈現(xiàn)負(fù)相關(guān)性(度大的節(jié)點(diǎn)傾向于和度小的節(jié)點(diǎn)相連),但度很大的若干節(jié)點(diǎn)之間表現(xiàn)出“富人俱樂部效應(yīng)”(即度最大的若干節(jié)點(diǎn)之間連接特別緊密)。金融網(wǎng)絡(luò)分析可以幫助人們盡早發(fā)現(xiàn)金融風(fēng)險(xiǎn),提升抗擊重大風(fēng)險(xiǎn)的能力[13-14]。
本文擬將金融網(wǎng)絡(luò)大數(shù)據(jù)分析技術(shù)應(yīng)用于預(yù)測(cè)企業(yè)失信行為。筆者認(rèn)為,定量刻畫企業(yè)信用水平,進(jìn)一步預(yù)測(cè)企業(yè)可能出現(xiàn)的各種失信行為,是建立信用社會(huì)、提升營(yíng)商環(huán)境中不可或缺的重要環(huán)節(jié),可以作為商務(wù)合作、股權(quán)投資、擔(dān)保貸款、招商引資等業(yè)務(wù)的前置條件。傳統(tǒng)的分析方法多從企業(yè)規(guī)模、經(jīng)營(yíng)地、行業(yè)類別、注冊(cè)與實(shí)繳資本等特征屬性出發(fā),預(yù)測(cè)結(jié)果往往并不準(zhǔn)確。最近大數(shù)據(jù)方法被廣泛應(yīng)用于企業(yè)征信領(lǐng)域,取得了大量、豐富且重要的成果[15-17]。但是,據(jù)筆者所知,目前尚沒有直接利用大規(guī)模企業(yè)間投資關(guān)系網(wǎng)絡(luò)來(lái)提升分析精確性的研究工作。本文采集清洗了大量數(shù)據(jù),建立了包含400多萬(wàn)家企業(yè)的有向投資網(wǎng)絡(luò),其中存在各類失信行為的企業(yè)占比6%左右。研究結(jié)果顯示,企業(yè)失信行為存在明顯的“網(wǎng)絡(luò)效應(yīng)”,即目標(biāo)企業(yè)的股東或者投資企業(yè)若存在失信行為,則目標(biāo)企業(yè)發(fā)生失信的風(fēng)險(xiǎn)遠(yuǎn)遠(yuǎn)大于平均值。基于以上分析,筆者實(shí)現(xiàn)了一個(gè)簡(jiǎn)單的失信行為預(yù)測(cè)算法,其精確性遠(yuǎn)遠(yuǎn)超過了不考慮網(wǎng)絡(luò)效應(yīng)的回歸方法。
本文分析的數(shù)據(jù)采 自國(guó)家企業(yè)信用信息公示系統(tǒng)的公開數(shù)據(jù),包括企業(yè)的基本信息(如企業(yè)類型、企業(yè)注冊(cè)資本、企業(yè)注冊(cè)地、企業(yè)所屬行業(yè)等)、工商變更等備案信息、各類行政處罰和其他失信行為公告等多項(xiàng)數(shù)據(jù)。表1給出了我國(guó)企業(yè)的行業(yè)分類信息。
本文分析的網(wǎng)絡(luò)數(shù)據(jù)集包括4020504家企業(yè),其中有259760家企業(yè)存在至少一次失信行為(本文為了便于敘述,把各種行政處罰都?xì)w為失信行為),占比為6.46%。筆者建立了這些企業(yè)之間直接投資形成的有向網(wǎng)絡(luò),其中每一個(gè)節(jié)點(diǎn)代表一家企業(yè),如果企業(yè)i投資了企業(yè)j(i是j的股東),則用一條有向邊i->j表示。
圖1顯示了不同規(guī)模的4個(gè)有代表性的弱連通子圖,其中灰色節(jié)點(diǎn)為沒有失信行為的企業(yè),黑色節(jié)點(diǎn)為有失信行為的企業(yè)。圖1中連邊的方向沒有表現(xiàn)出來(lái)。
式中,WT為流域中下游年徑流變化的總量;WH為人為活動(dòng)對(duì)流域中下游年徑流變化的影響量;WC為氣候變化對(duì)流域上游年徑流變化的影響量;WN為背景值,W入河為流域入河徑流量;W山口為流域水文站的實(shí)測(cè)年徑流深;WHN為流域水文站的模擬值或預(yù)測(cè)值;ηH為人為活動(dòng)對(duì)流域中下游徑流變化影響的百分比;ηC為氣候變化對(duì)流域中下游徑流變化影響的百分比。
即便以有向網(wǎng)絡(luò)弱連通作為判據(jù),該網(wǎng)絡(luò)也不是完全連通的網(wǎng)絡(luò)。圖1給出了所有弱連通子圖規(guī)模(節(jié)點(diǎn)數(shù))的Zipf分布(關(guān)于Zipf分布的定義以及其與冪律分布和Heaps定律的關(guān)系,請(qǐng)參考文獻(xiàn)[18])??梢钥吹?,僅有一個(gè)超級(jí)連通圖規(guī)模在100萬(wàn)個(gè)節(jié)點(diǎn)以上,其余第二大連通圖規(guī)模只有不到10萬(wàn)個(gè)節(jié)點(diǎn)。絕大部分連通圖的規(guī)模都很小。筆者也在圖1中選擇了若干可以用可視化方法直接畫出來(lái)的規(guī)模較小的連通圖,方便讀者直觀地看到投資網(wǎng)絡(luò)的結(jié)構(gòu)(為了可視化效果,投資關(guān)系的方向在此處省略了)。后文為了便于敘述,將存在失信行為的企業(yè)簡(jiǎn)稱為失信企業(yè),讀者要注意這并不是嚴(yán)格等同的概念。
表1 企業(yè)行業(yè)信息字段和內(nèi)容
圖1 按照弱連通圖規(guī)模排序得到的Z ipf分布
筆者猜測(cè),企業(yè)失信行為在企業(yè)之間的投資網(wǎng)絡(luò)中具有明顯的“網(wǎng)絡(luò)效應(yīng)”。也就是說(shuō),如果一個(gè)目標(biāo)企業(yè)的投資者(法人股東)或其投資對(duì)象(子公司、控股公司、參股公司等)存在失信行為,那么這個(gè)目標(biāo)企業(yè)存在失信行為的可能性也很大。為了方便、直觀地觀察上述網(wǎng)絡(luò)效應(yīng),先考慮一種簡(jiǎn)單的情況,即將有向投資關(guān)系網(wǎng)絡(luò)轉(zhuǎn)化為無(wú)向網(wǎng)絡(luò)加以考慮,暫時(shí)忽略連邊的方向性。用P(B|m)表示所有鄰居中失信企業(yè)數(shù)目大于或等于m的企業(yè)是一個(gè)失信企業(yè)的概率。顯然,當(dāng)m=0時(shí),P(B|0)=0.0646,就是整個(gè)數(shù)據(jù)集中失信企業(yè)的比例。圖2給出了P(B|m)隨m變化的曲線。該曲線上升的趨勢(shì)非常明顯,尤其在m比較小的時(shí)候(m很大的時(shí)候數(shù)據(jù)點(diǎn)很少,因此會(huì)出現(xiàn)一些波動(dòng))。即便只知道“目標(biāo)企業(yè)的投資方和投資對(duì)象存在失信企業(yè)”這一信息(也就是m=1),該目標(biāo)企業(yè)是失信企業(yè)的概率就從P(B|0)=0.0646陡增到P(B|1)=0.1641。而如果一家企業(yè)鄰居中有3家或3家以上失信企業(yè),它自己是失信企業(yè)的可能性會(huì)超過40%。筆者在圖2中還用虛線強(qiáng)調(diào)了一個(gè)值(虛線所示),即如果已知目標(biāo)企業(yè)的鄰居中沒有失信企業(yè),則該目標(biāo)企業(yè)自身是失信企業(yè)的可能性是0.0474,比整個(gè)數(shù)據(jù)集中失信企業(yè)占比低了27%。
圖2 P(B/m)隨m的變化曲線
以上分析顯示,投資網(wǎng)絡(luò)模型對(duì)于分析企業(yè)失信行為而言是一個(gè)非常有效的工具。事實(shí)上,如同社交網(wǎng)絡(luò)上吸煙―戒煙[19]、肥胖―減肥[20]的網(wǎng)絡(luò)效應(yīng)(如果你身邊有很多煙鬼,那么你是煙鬼的可能性會(huì)大大增加;類似地,如果你的很多社交好友都在減肥,那么你減肥成功的可能性也會(huì)增大)一樣,企業(yè)失信行為也有明顯的網(wǎng)絡(luò)效應(yīng),即目標(biāo)企業(yè)的投資方或者投資對(duì)象若存在失信行為,則目標(biāo)企業(yè)發(fā)生失信的風(fēng)險(xiǎn)會(huì)大大增加,而且隨著失信鄰居數(shù)目的增加,失信風(fēng)險(xiǎn)也快速增加。這種現(xiàn)象既可能來(lái)自投資關(guān)系本身的風(fēng)險(xiǎn)傳遞(如果目標(biāo)企業(yè)的投資對(duì)象出現(xiàn)了信貸違約,說(shuō)明該企業(yè)現(xiàn)金流出現(xiàn)了嚴(yán)重問題,那么目標(biāo)企業(yè)可能已經(jīng)為投資對(duì)象注入了現(xiàn)金,并且獲得期望投資收益的可能性很小,因此目標(biāo)企業(yè)自身也可能出現(xiàn)類似風(fēng)險(xiǎn)),也可能來(lái)自全行業(yè)的問題(例如環(huán)保標(biāo)準(zhǔn)上升后大量家具行業(yè)受到行政處罰,而這些同行業(yè)企業(yè)之間容易有產(chǎn)業(yè)鏈條上的投資關(guān)系)。
因?yàn)橛幸恍┢髽I(yè)基本信息數(shù)據(jù)不完備,為了和只用基本特征信息進(jìn)行分析的算法做對(duì)比,本文僅考慮基本信息完備的3207962家企業(yè),其中有失信行為的企業(yè)有257163家。因?yàn)楸疚牡暮诵脑V求是揭示企業(yè)失信行為的網(wǎng)絡(luò)效應(yīng),所以不采用和對(duì)比非常復(fù)雜的算法。筆者選擇了廣義線性回歸模型[21],該模型擬合過程是并行的,計(jì)算速度非???,適用于本文擬處理的數(shù)百萬(wàn)規(guī)模企業(yè)。因?yàn)轭A(yù)測(cè)企業(yè)失信行為是一個(gè)典型的二分類問題,選用伯努 利分布作為廣義線性模型的函數(shù)族,故一個(gè)企業(yè)是失信企業(yè)的似然值可由以下計(jì)算式擬合:
E(x,w)=[1+exp(-wTx)]-1(1)其中,x為特征向量,w為特征權(quán)重向量。表2給出了本文使用的企業(yè)基本特征和網(wǎng)絡(luò)特征說(shuō)明,其中二階鄰居是指與目標(biāo)企業(yè)在無(wú)向圖中距離恰好為2的企業(yè)集合。企業(yè)基本特征中的離散型已轉(zhuǎn)化為多項(xiàng)2值特征——1 代表“是”,0 代表“否”。
本文實(shí)驗(yàn)中采用10次交叉驗(yàn)證,抽取9:1的數(shù)據(jù)作為訓(xùn)練集和測(cè)試集,通過10次實(shí)驗(yàn)求平均。每次實(shí)驗(yàn)根據(jù)訓(xùn)練集回歸模型擬合的參數(shù),對(duì)測(cè)試集中所有企業(yè)存在失信行為的期望值打分,把風(fēng)險(xiǎn)最高的企業(yè)排在前面。如果風(fēng)險(xiǎn)最高的Top N個(gè)企業(yè)中失信企業(yè)有r個(gè),就定義精確度為:
圖3給出了預(yù)測(cè)精確度隨N的變化曲線。圖3中,NOR表示使用全部的企業(yè)基本特征,S1表示使用網(wǎng)絡(luò)特征中的一階鄰居特征,S2表示使用網(wǎng)絡(luò)特征中的二階鄰居特征。ALL表示融合S1、S2和NOR的特征??梢钥吹?,網(wǎng)絡(luò)特征中一階鄰居網(wǎng)絡(luò)特征較二階鄰居網(wǎng)絡(luò)特征預(yù)測(cè)效果更好,僅用企業(yè)基本特征不能很好地預(yù)測(cè)企業(yè)失信行為。如果結(jié)合了網(wǎng)絡(luò)特征,預(yù)測(cè)的精確度能夠被大幅度提升。其中預(yù)測(cè)出來(lái)失信風(fēng)險(xiǎn)最高的100家企業(yè)有70%以上有失信行為,前10000家企業(yè)40%左右有失信行為。
表2 預(yù)測(cè)模型中涉及的基礎(chǔ)特征及網(wǎng)絡(luò)特征
圖3 使用不同特征進(jìn)行組合時(shí)預(yù)測(cè)模型的精確度對(duì)比
本文采集了400多萬(wàn)家企業(yè)的真實(shí)數(shù)據(jù),構(gòu)建了大規(guī)模的企業(yè)間投資網(wǎng)絡(luò),揭示了企業(yè)失信行為顯著的網(wǎng)絡(luò)效應(yīng),即目標(biāo)企業(yè)的投資方或者投資對(duì)象若存在失信行為,則目標(biāo)企業(yè)發(fā)生失信的風(fēng)險(xiǎn)會(huì)大大增加。進(jìn)一步的分析顯示,隨著失信鄰居數(shù)目的增加,失信風(fēng)險(xiǎn)也快速增加?;诖耍疚脑O(shè)計(jì)了一個(gè)簡(jiǎn)單的廣義線性回歸模型對(duì)企業(yè)失信行為進(jìn)行預(yù)測(cè)。算法結(jié)果顯示,網(wǎng)絡(luò)特征的加入可以大幅度提高僅采用文本特征的算法的精確度。結(jié)合網(wǎng)絡(luò)特征的算法可以在給出10000家最高失信風(fēng)險(xiǎn)企業(yè)的情況下做到40%的預(yù)測(cè)精確度。
企業(yè)征信是金融生態(tài)體系,甚至經(jīng)濟(jì)生態(tài)體系建設(shè)中至關(guān)重要的一環(huán)。本文僅僅是開展了初步的嘗試,就有效證明了大數(shù)據(jù)在金融征信領(lǐng)域的巨大應(yīng)用價(jià)值。事實(shí)上,企業(yè)投資關(guān)系網(wǎng)絡(luò)是應(yīng)用潛力非常廣泛的一類數(shù)據(jù)。舉例而言,通過投資關(guān)系網(wǎng)絡(luò),可以發(fā)現(xiàn)一些異常的投資行為,例如通過多地、多次變更,形成企業(yè)A1全資控股A2,A2全資控股A3,…,As-1全資控股As,As全資控股A1這樣的長(zhǎng)度為s的企業(yè)投資有向環(huán),利用這樣的有向環(huán),企業(yè)A1可以把1億元注冊(cè)資本給A2,A2再給A3,以此類推,最終回到A1。資金沒有真正投入,但是每家企業(yè)的實(shí)繳注冊(cè)資本都增加了1億元。這些都是企業(yè)獲取虛假資質(zhì)、假造項(xiàng)目承接能力甚至非法集資常用的伎倆。這些重大金融經(jīng)濟(jì)風(fēng)險(xiǎn)問題轉(zhuǎn)變成了在一個(gè)幾千萬(wàn)個(gè)節(jié)點(diǎn)的企業(yè)投資關(guān)系網(wǎng)絡(luò)中發(fā)現(xiàn)有向環(huán)的典型的圖論問題。事實(shí)上,企業(yè)投資關(guān)系網(wǎng)絡(luò)的應(yīng)用還很多,本文的思路和方法還可以刻畫金融擔(dān)保圈的風(fēng)險(xiǎn)傳播,提高識(shí)別金融擔(dān)保圈中關(guān)鍵節(jié)點(diǎn)的準(zhǔn)確度[22],提升大數(shù)據(jù)在打擊非法集資[23]、反洗錢[24]方面的效率和準(zhǔn)確度。本文研究?jī)?nèi)容僅僅是其萬(wàn)千應(yīng)用中的一角,希望能給金融管理工作者有益的啟發(fā),并激發(fā)數(shù)據(jù)科學(xué)家和數(shù)據(jù)工程師投身于網(wǎng)絡(luò)大數(shù)據(jù)的研究和應(yīng)用中。