高赫
(北京金融安全產(chǎn)業(yè)園 北京市 100005)
近年來,借助大數(shù)據(jù)、人工智能、云計算、區(qū)塊鏈等新興信息技術(shù),我國金融科技(FinTech)創(chuàng)新呈爆發(fā)式增長,在國際也處于領(lǐng)先地位。與此同時,監(jiān)管科技(RegTech)作為FinTech重要分支,也日益受到重視。監(jiān)管科技是指借助信息技術(shù)手段,輔助監(jiān)管機(jī)構(gòu)提升效降本,同時對被監(jiān)管機(jī)構(gòu)合規(guī)工作提供支撐。2017年7月全國金融工作會議確定“服務(wù)實(shí)體經(jīng)濟(jì)、防控金融風(fēng)險、深化金融改革”三大任務(wù),強(qiáng)調(diào)健全風(fēng)險監(jiān)測預(yù)警和早期干預(yù)機(jī)制,加強(qiáng)金融基礎(chǔ)設(shè)施的統(tǒng)籌監(jiān)管和互聯(lián)互通,推進(jìn)金融業(yè)綜合統(tǒng)計和監(jiān)管信息共享,對監(jiān)管機(jī)構(gòu)的監(jiān)管能力和手段提出更高要求。RegTech具備快速、精準(zhǔn)、高效,以及可統(tǒng)籌、可規(guī)劃、可持續(xù)等特性,與上述要求高度契合。本次研究,針對金融機(jī)構(gòu)風(fēng)險特點(diǎn),基于其工商、司法、經(jīng)營、關(guān)聯(lián)方等數(shù)據(jù),進(jìn)行模塊化、分層的有監(jiān)督學(xué)習(xí),構(gòu)建包含800余項指標(biāo)的金融企業(yè)風(fēng)險評價體系,為監(jiān)管機(jī)構(gòu)對風(fēng)險的有效研判提供決策依據(jù)。
在互聯(lián)網(wǎng)金融快速發(fā)展的背景下,網(wǎng)絡(luò)小貸公司、虛擬貨幣交易所等歸屬于地方的非持牌金融機(jī)構(gòu)和組織的風(fēng)險加速暴露,非法集資、債務(wù)鏈條斷裂等金融亂象及風(fēng)險事件時有發(fā)生,區(qū)域性風(fēng)險隱患突出,對監(jiān)管機(jī)構(gòu)的監(jiān)管能力和手段提出更高要求。
隨類金融業(yè)態(tài)不斷發(fā)展,加大了地方金融監(jiān)管的壓力和難度,如小額貸款公司、融資擔(dān)保公司、地方資產(chǎn)管理公司、融資租賃企業(yè)等地方性金融機(jī)構(gòu)及非持牌機(jī)構(gòu),存在于“一行兩會”體系之外,其經(jīng)營活動及派生風(fēng)險主要由地方監(jiān)管部門負(fù)責(zé)管理和處置,其在金融風(fēng)險防范和化解方面扮演的角色日益重要。要維護(hù)區(qū)域金融安全和經(jīng)社會健康發(fā)展,做到“把防控金融風(fēng)險放到更加重要的位置,牢牢守住不發(fā)生系統(tǒng)性風(fēng)險的底線”,有必要構(gòu)建以科技為支撐的金融監(jiān)管體系,以技術(shù)監(jiān)管技術(shù),以技術(shù)賦能監(jiān)管。
本次研究針對地方“7+4”類金融機(jī)構(gòu)的潛在風(fēng)險,建立評價體系,以期實(shí)現(xiàn)此類風(fēng)險的預(yù)警和防范。
構(gòu)建金融企業(yè)風(fēng)險評價體系涉及的主要技術(shù)包括:特征衍生、集成學(xué)習(xí)、詞頻-逆文檔率(TF-IDF)算法及遺傳算法。
首先基于公開的工商、行政、輿情、司法等數(shù)據(jù),借助特征衍生及模塊化集成學(xué)習(xí)技術(shù),通過因子分析與聚類分析,生成800多條風(fēng)險指標(biāo)。隨后,使用TF-IDF算法提取經(jīng)營范圍中涉金融業(yè)務(wù)關(guān)鍵字,篩選出16余萬家注冊地為北京的金融機(jī)構(gòu)及類金融機(jī)構(gòu)。最后,通過遺傳算法進(jìn)行模塊權(quán)重學(xué)習(xí),測算風(fēng)險指數(shù),形成較為完善的風(fēng)險評價體系,實(shí)現(xiàn)對金融企業(yè)風(fēng)險的量化評估及預(yù)警。
對于企業(yè)原始數(shù)據(jù)中部分無實(shí)際含義的特征,無法直接反映企業(yè)的深層信息。需要進(jìn)行變換或組合,提升信息價值和數(shù)據(jù)質(zhì)量。特征衍生(或特征構(gòu)建)就是基于業(yè)務(wù)邏輯和既有數(shù)據(jù),對原始特征加以重構(gòu)以生成新特征的過程。[1]常見特征衍生方法包括:
2.1.1 基于統(tǒng)計指標(biāo)
同類企業(yè)數(shù)據(jù)中的高維稀疏特征常具有同質(zhì)性,可有針對性的構(gòu)建統(tǒng)計類指標(biāo),量化其集中和離散程度。另外,某些特征具有取值區(qū)間敏感性,也可以針對該特征的不同取值構(gòu)建其統(tǒng)計特征。
2.1.2 基于排序指標(biāo)
某些特征的取值區(qū)間與企業(yè)風(fēng)險程度順序相關(guān),可針對該特征的不同取值構(gòu)建其排序特征。
2.1.3 基于特征含義
某些特征可通過具體業(yè)務(wù)相關(guān)聯(lián),可對特征進(jìn)行組合,依據(jù)業(yè)務(wù)邏輯,并結(jié)合實(shí)際監(jiān)管需求,創(chuàng)建新特征。
2.1.4 基于特征交叉
針對數(shù)值型特征,根據(jù)其含義及彼此關(guān)系,進(jìn)行代數(shù)運(yùn)算,可生成企業(yè)風(fēng)險在更高維中的分布特征。
其本質(zhì)就是組合多個弱分類器,構(gòu)造預(yù)測效果更好的強(qiáng)分類器,屬于監(jiān)督學(xué)習(xí)范疇。[2]集成學(xué)習(xí)的路徑主要包括:
2.2.1 Bagging
即Bootstrap Aggregating的縮寫。Bootstrap采用有放回的抽樣,以得到統(tǒng)計量的分布以及置信區(qū)間。在Bagging方法中,基于bootstrap方法從整體數(shù)據(jù)集生成N個數(shù)據(jù)集,在每個數(shù)據(jù)集上學(xué)習(xí)出一個模型,各模型權(quán)重均等,綜合N個模型的輸出(投票)得到最終預(yù)測結(jié)果。隨機(jī)森林(Random Forest)即是典型的Bagging方法。
2.2.2 Boosting
Boosting對基礎(chǔ)模型采取差別對待,反復(fù)考驗篩選出「精英」模型,賦予更多權(quán)重(投票),最后對所有模型輸出進(jìn)行加權(quán)得出結(jié)果。AdaBoost算法即是典型的Boosting方法。
2.2.3 Stacking
訓(xùn)練多個不同模型,并綜合各模型的輸出訓(xùn)練一個新模型,以該模型的輸出為最終輸出。實(shí)際操作中通常使用邏輯回歸作為組合策略。
TF-IDF常用于信息檢索與文章關(guān)鍵詞挖掘,評估某詞對某文檔集或語料庫中某文檔的重要程度,以剝離關(guān)鍵詞,實(shí)現(xiàn)文本數(shù)據(jù)的清洗。字詞的重要性與其在文檔中出現(xiàn)頻次成正比,與其在語料庫中出現(xiàn)的頻次成反比;如某罕見詞在某篇文章中多次出現(xiàn),則很可能能代表該文章特性,即需要抽取的關(guān)鍵詞,在計算時應(yīng)賦予較高權(quán)重,即逆文檔頻率。[3]
當(dāng)獲得TF(詞頻)和IDF(逆文檔頻率)后,兩數(shù)值相乘,即得到某詞的TF-IDF值。TF-IDF值越大,該詞通常對文章重要性越高。將各詞TF-IDF降序排列,排在最前的詞,即為文章關(guān)鍵詞。
通過模擬遺傳學(xué)機(jī)理及自然進(jìn)化過程,即自動選擇優(yōu)良基因,淘汰劣勢基因,實(shí)現(xiàn)最優(yōu)解搜索。[4]遺傳算法的一般步驟:
采用適應(yīng)度函數(shù),評估每條染色體所對應(yīng)個體的適應(yīng)度;
對適應(yīng)度評估值升序排列,選出前列若干個體作為待選父種群(評估值越小越好);
從待選父種群中隨機(jī)選擇兩個個體作為父方和母方;
將雙方染色體進(jìn)行交叉,產(chǎn)生兩個后代(交叉概率);
對后代染色體進(jìn)行變異(變異概率);
重復(fù)上述3,4,5步,直至新種群產(chǎn)生;
循環(huán)以上步驟,直至出現(xiàn)最優(yōu)解。
本次研究的原始數(shù)據(jù)包括:新聞、論壇,微博、招聘等公開數(shù)據(jù)1.2億條;專用接口讀取的工商企業(yè)數(shù)據(jù)5000余萬家;行業(yè)協(xié)會提供數(shù)據(jù)20余萬條;違法舉報記錄8000余條;立案記錄、經(jīng)濟(jì)犯罪嫌疑企業(yè)名單等6萬余條,失信公告、判決書、執(zhí)行公告等司法信息5.5億條。
本次研究對數(shù)據(jù)的預(yù)處理分兩個步驟:
(1)特征衍生:利用上述數(shù)據(jù)對本市金融機(jī)構(gòu)進(jìn)行評估,采用“主體+事件+維度變換”的特征衍生方法(見圖1)。
圖1:“主體+事件+維度變換”特征衍生
(2)特征選擇。按照以下三種方式處理:
剔除高缺失特征:有高缺失值的特征將增加噪聲和訓(xùn)練成本,設(shè)置缺失比例閾值α=60%,刪除超過閾值的特征。
剔除常變量特征:常變量增加數(shù)據(jù)冗余性,且對訓(xùn)練效果貢獻(xiàn)極低,設(shè)置方差閾值σ=0.22,剔除低于閾值的特征。
剔除高相關(guān)性特征:相關(guān)度較高的特征參與訓(xùn)練將增加訓(xùn)練成本,計算各特征間的相關(guān)系數(shù)(數(shù)值變量計算Pearson系數(shù),序數(shù)變量計算Spearman秩系數(shù)),設(shè)置相關(guān)系數(shù)閾值ρ=0.9,相關(guān)系數(shù)絕對值超過閾值的僅保留其一。
最終保留近900項風(fēng)險特征(見圖2)。
圖2:經(jīng)選擇后的風(fēng)險特征(部分)
基于上述獲得的風(fēng)險特征項,進(jìn)行模塊化、層次化的集成學(xué)習(xí),模型結(jié)構(gòu)如圖3所示。
圖3:模型結(jié)構(gòu)圖
基于目標(biāo)企業(yè)工商信息及經(jīng)營信息,將本市金融機(jī)構(gòu)分為網(wǎng)絡(luò)借貸、小額貸款、私募股權(quán)、眾籌、交易場所、融資租賃、典當(dāng)、融資擔(dān)保、金融倉儲、金融租賃、金融資產(chǎn)交易等11個行業(yè),即歸屬地方監(jiān)管的“7+4”類機(jī)構(gòu)。[5]
一方面,依據(jù)監(jiān)管要求,按上述行業(yè)分類解析提取企業(yè)名稱和經(jīng)營范圍中的關(guān)鍵詞;另一方面,鑒于部分涉金融業(yè)務(wù)企業(yè)并未按規(guī)定申請經(jīng)營許可,因此使用TF-IDF算法提取經(jīng)營范圍中的關(guān)鍵字,按如下公式計算關(guān)鍵詞權(quán)重:
最終根據(jù)提取的企業(yè)名稱和經(jīng)營范圍關(guān)鍵詞,結(jié)合行業(yè)分類計算相關(guān)性,精準(zhǔn)判定目標(biāo)企業(yè)所屬類型。
基于得到的金融機(jī)構(gòu)類型,使用遺傳算法賦予基礎(chǔ)評價模塊不同權(quán)重,搜索評價模塊間最優(yōu)組合權(quán)重,精準(zhǔn)識別目標(biāo)企業(yè)風(fēng)險,并進(jìn)行動態(tài)評估。
具體流程如下:
隨機(jī)生成1500組基礎(chǔ)評分模塊,包括企業(yè)綜合實(shí)力、行業(yè)特征、司法誠信、經(jīng)營行為、關(guān)聯(lián)方等特征,設(shè)定初始權(quán)重約束條件:最小權(quán)重不低于0.05,最大權(quán)重不超過0.3,總和為1;
對權(quán)重向量賦值,設(shè)定交叉概率0.5,變異概率0.25,迭代800次;
單次迭代均進(jìn)行權(quán)重交叉及變異操作,并采用評價函數(shù)評估新權(quán)重,保留每輪迭代的最優(yōu)權(quán)重,并通過‘輪盤賭’方式進(jìn)行種群進(jìn)化;
選擇800次迭代最優(yōu)解作為最終模塊集成的權(quán)重組合,并使用該權(quán)重對該類金融機(jī)構(gòu)進(jìn)行風(fēng)險測算。
依托金融企業(yè)風(fēng)險評價體系,可進(jìn)一步實(shí)現(xiàn)對我市金融機(jī)構(gòu)的實(shí)時監(jiān)測預(yù)警,可視化呈現(xiàn)金融風(fēng)險的地理分布和行業(yè)分布,對目標(biāo)企業(yè)進(jìn)行風(fēng)險畫像,協(xié)助監(jiān)管機(jī)構(gòu)有效排查屬地金融風(fēng)險,實(shí)現(xiàn)金融風(fēng)險的常態(tài)監(jiān)測。