朱云濤 陳寧 麻婧漪 尹雪煜 龔劍濤 李前勝 陳仁煒
摘? ?要:大數(shù)據分析是目前金融風險防控的一個重要方向,數(shù)據整合和各類算法的場景性應用是目前的主流應用模式。本文嘗試性地總結了海南自貿港離岸貿易風險建模特點,有效地利用已知的各類信息碎片,結合圖神經網絡進行整合,為自貿港離岸貿易真實性和資金結算安全性提供有效保障。同時,創(chuàng)新性地提出一種基于復雜人工智能體的風險建模思路,并闡述了具體建模方法,搭建風控智腦,包括模型架構、算法、聯(lián)動邏輯、初步驗證以及模型的簡單應用。
關鍵詞:人工智能;圖神經網絡;銀行;大數(shù)據;風險
DOI:10.3969/j.issn.1003-9031.2023.04.002
中圖分類號:F752? ? ? ? ? ? ?文獻標識碼:A? ? ?文章編號:1003-9031(2023)04-0013-20
一、引言
新型離岸國際貿易是海南自貿港建設發(fā)展的一個重要方向,除業(yè)務本身能帶來的GDP增長外,同時能為區(qū)域發(fā)展帶來協(xié)同效應,目前已初步形成新型離岸貿易企業(yè)集群。在良好發(fā)展態(tài)勢下,我們深刻認識到,海南地區(qū)現(xiàn)有市場體量仍然較小、新老機制尚需銜接配套、新型業(yè)務風險有待進一步識別防控,疊加離岸貿易三流分離、信息碎片化等固有問題,對自貿港離岸貿易真實性和資金結算安全性提出了全新的挑戰(zhàn)。
有效利用已知的各類信息碎片是解決上述問題的關鍵,要充分利用政府資源整合各方數(shù)據,建設配套風險模型更有效地對數(shù)據進行處理。從各地實踐來看,政府主導的大數(shù)據平臺已經能逐步整合海關、銀行、倉儲、物流、征信機構等各方散落的信息,并通過整合性離岸貿易服務平臺方便相關機構使用。
大數(shù)據分析是目前金融風險防控的一個重要方向,數(shù)據挖掘和各類算法的場景性應用是目前的主流應用模式,但單一算法已越來越無法滿足復雜金融場景的使用需求,而場景化細分模型在拓展性和適應性方面又會受到較大的限制。通過精密的整體設計和創(chuàng)新性的智能算法模擬人類思維,在部分領域已能夠超越人類極限水平,對于復雜情境也能較好適應。因此,在我國風險防控實務中,嘗試引入較為復雜的高級人工智能已具備一定條件,并具有較為廣泛的市場需求。
本文嘗試性地總結了海南自貿港離岸貿易風險建模特點,創(chuàng)新性地提出了一種基于復雜人工智能體的風險建模思路,并闡述了具體建模方法,包括模型架構、所涉及的算法、聯(lián)動邏輯、初步驗證以及模型的簡單應用,最后結合模型的整體構建框架,針對海南自貿港新型離岸貿易所面臨的主要問題,給出了針對性的模型應用方案及實踐效果。
二、文獻綜述
(一)各國風險監(jiān)控實務
1.各國監(jiān)管系統(tǒng)
單繼進(2014)對國內外大數(shù)據監(jiān)管方式進行了梳理,指出從各國銀行業(yè)監(jiān)管機構的監(jiān)管實踐來看,美國聯(lián)邦金融機構監(jiān)管委員會、美聯(lián)儲、貨幣監(jiān)理署、聯(lián)邦存款保險公司共同建立了監(jiān)管采集數(shù)據標準規(guī)范,按季度從銀行收集數(shù)據報告和統(tǒng)一運行報告,形成中央數(shù)據倉庫(Central Data Repository,CDR)共享使用,其中聯(lián)邦存款保險公司在中央數(shù)據倉庫基礎上建立“VISION系統(tǒng)”(Virtual Information Supervisory On the Net),利用收集到的數(shù)據進行監(jiān)管分析;加拿大金融機構監(jiān)管署和加拿大央行、加拿大存款保險公司建立了“監(jiān)管報告系統(tǒng)”(Regulatory Reporting System,RRS),按季度、年度收集常規(guī)監(jiān)管數(shù)據和專門數(shù)據,開展監(jiān)管檢查分析;中國銀監(jiān)會2012年開始建立EAST系統(tǒng),旨在建設一個相對開放的數(shù)據分析平臺,實現(xiàn)對銀行業(yè)務數(shù)據的靈活組織、篩選、抽取、建模、挖掘和分析。
2.國外同業(yè)內部監(jiān)控措施
李卓諭(2021)對國外同業(yè)的資金監(jiān)管情況進行了梳理,摩根大通銀行在創(chuàng)新利用人工智能、區(qū)塊鏈技術方面擁有獨特的資金安全風險管理經驗。開發(fā) Mantas 系統(tǒng),將人工智能搜集的數(shù)據進行分析,監(jiān)控公司全球所有支付交易,可以基于歷史數(shù)據或通過外部監(jiān)管數(shù)據實現(xiàn)自我更新。組建基于區(qū)塊鏈的銀行間信息網絡(IIN),旨在解決世界主要市場的跨境支付問題,加入的的銀行數(shù)量已超過400 家?;ㄆ煦y行跨境匯款業(yè)務審核將系統(tǒng)監(jiān)測和人工識別有機結合。一方面,通過自主研發(fā)的交易監(jiān)測系統(tǒng),抓取異常業(yè)務、過快或過頻的異常資金流動、異常的客戶關系和行為進行有效監(jiān)控。另一方面,設立獨立的人工識別團隊,對無明確證明的可疑交易進行人工復查。
(二)金融場景的數(shù)字化
1.關聯(lián)關系圖譜查詢
國內以企查查、天眼查為代表的關聯(lián)關系整合取得了極大的成功,能將散亂的企業(yè)間信息通過后臺模型的方式進行分群關聯(lián)。李雨果(2021)指出,異構信息網絡可以對多種類型的對象以及它們之間的豐富關系進行建模。
2.圖神經網絡的應用研究
李甜甜等(2022)研究指出,深度學習已成功應用于圖像處理、自然語言理解等領域,在圖像、語音、文本等形式的數(shù)據上獲得較好效果。但深度學習一直無法很好地對于圖形式的非結構化數(shù)據進行有效的適配。而作為一類主要用于描述關系的通用數(shù)據表示方法,圖數(shù)據在產業(yè)界有著更加廣闊的應用場景,如社交網絡、電子購物、物聯(lián)網、生物制藥等場景。受到深度學習技術的啟發(fā),Marco Gori 等(2005)首次將深度學習技術與圖數(shù)據結合,提出了圖神經網絡(Graph Neural Networks,GNN)的概念,使深度學習能夠在圖數(shù)據的相關場景中得到有效利用。GNN 的應用領域十分廣泛,包括計算機視覺、化學生物、推薦系統(tǒng)以及自然語言處理等領域。常見的GNN 模型有:圖卷積神經網絡、圖注意力網絡、GraphSAGE 以及門控圖神經網絡。董彬(2021)認為,將圖神經網絡與數(shù)學自動推理系統(tǒng)相結合,可以極大提升系統(tǒng)的學習和推理能力。針對其可解釋性進行研究,能夠使推理的過程更加透明,令系統(tǒng)更加“類人”。
3.知識圖譜的應用研究
世界是由事物和事件組成的,人類是以事件為單元記憶和理解世界的?,F(xiàn)實世界是一系列動態(tài)的事件組成的,尹凱(2019)在知識圖譜的基礎上提出了事件知識圖譜,以事件作為構建單元表示知識,利用事件和事件間關聯(lián)構建知識圖譜,動態(tài)的描述現(xiàn)實世界中事物之間的變化。
本文構建了多層資金鏈圖譜網絡,并將其與關聯(lián)關系網絡交織補完,通過異構圖的方式進一步展現(xiàn)完整金融場景。相較于關聯(lián)關系圖譜還整合了更多交易關聯(lián)關系和靜態(tài)內容,綜合性和全面性上更優(yōu),異構圖展示的方式能更清晰地描畫集團間復雜交易網絡,同時兼顧了單一銀行小數(shù)據量的特性進行了缺失數(shù)據補完。進一步利用圖神經網絡推理的“類人”特性,通過圖神經網絡復現(xiàn)了大腦的底層結構運作模式。通過累加式的圖形構建方式,解決了圖神經網路層次結構較少的問題;通過局部調用、全局延伸的調用處理模式,解決了大規(guī)模圖形處理的問題,進一步拓展了事件與事件的變化關系構造的知識圖譜,形成了事件集和事件集的知識圖譜,搭建了基于高緯度標簽記錄的完整場景規(guī)則的識別和調用,使得超大規(guī)模數(shù)據記錄、超大規(guī)模并行調用處理和迭代衍生推理等運行成為可能。
(三)AI智腦的構建研究
1.存算一體的限制
由于芯片運行所依托的馮·諾依曼架構,是基于存算分離的設計,即使芯片制程能夠不斷突破,把處理器的算力做到非常大,但由于存儲器的訪問速度追不上處理器的處理速度,處理器性能仍會受到嚴重制約。人類大腦中的神經網絡既負責存儲,也負責計算。底層架構的不同使得計算機模擬人腦存在瓶頸。
2.并行算力和功耗的限制
人類大腦中有1000億級的神經元和百萬億級的突觸共同構建了復雜的神經網絡,而且這些神經網絡大部分都處于激活狀態(tài),日常運行的功耗在20W左右。通過計算機模擬很難在同級功耗的情況下進行模擬。對超大規(guī)模參數(shù)的處理也是目前的一個很大的瓶頸。
3.大腦運行機制的模擬研究
趙菲菲(2019)通過類腦自主學習與決策神經網絡模型研究指出,大量實驗驗證了從微觀尺度借鑒腦發(fā)育過程的動態(tài)變化機制可以提升網絡的適應性,幫助網絡更加高效準確地工作。莫宏偉、叢垚(2021)對類腦計算各國研究進行了梳理,認為類腦計算技術的研究路線可分為兩大類:一是自上而下,即先通過科學手段觀察大腦內結構和功能運行機制,然后根據觀察結果模仿大腦功能,如歐盟的人類腦計劃和美國的腦科學計劃。我國已有包括北京腦科學與類腦研究中心、上海腦科學與類腦研究中心在內的超過20個研究機構及實驗室。二是自下而上的方法,即先構造大腦功能結構相關的假說和模型,然后驗證假說和模型是否與真實神經結構、動力學規(guī)律相符,例如Friston的預測編碼和自由能假說等。
目前的研究都是對于大腦局部功能的研究,如何對目前的研究進行從局部到整體的整合是未來的研究主題之一。本文將自主研發(fā)的新型類腦模型初步應用于實踐,較好地部分替代人工進行智能化的處理,并且隨著類腦模型的完整開發(fā),功能將不斷升級。新型類腦模型與混沌理論有很高的契合度。通過計算機模型完整模擬大腦存算一體的構建邏輯,相較于通過數(shù)理公式部分模仿大腦功能的復雜人工神經網絡算法,有顯著升級。
三、數(shù)字化解決方案
(一)自貿港建設過程中離岸貿易以及資金結算安全的風險特征
從銀行業(yè)務實踐來看,海南自貿港離岸貿易真實性以及資金結算安全性呈現(xiàn)出小樣本、全球化、系統(tǒng)性、新穎性、碎片化等風險特征。
1.小樣本
相對于中國香港、新加坡、上海、廣州等地,海南離岸貿易起步相對較晚,總量仍然偏小,銀行離岸貿易融資和交易結算也還在起步階段,其中可用于提取風險特征的樣本更少,不利于業(yè)務人員風控經驗的積累,對區(qū)域性風險模型的建立也提出了更高要求。
2.全球化
海南自貿港面向全球,旨在打造新型離岸業(yè)務平臺,貿易領域和金融領域的開放所帶來的風險,既涵蓋創(chuàng)新帶來的新型業(yè)務風險,也將原先受國內制度保護的傳統(tǒng)業(yè)務暴露在全面競爭的國際環(huán)境中,需要防范全球化風險。
3.系統(tǒng)性
在全球化過程中,海南擬對標新加坡、中國香港等有成熟完備的全套金融穩(wěn)定體系,以應對潛在的國際結算以及離岸貿易風險,由于政治金融生態(tài)差異較大,經濟體量迥異,短時間內海南無法完全借鑒,所產生的系統(tǒng)性漏洞有可能被利用,系統(tǒng)性風險防控體系仍待完善。
4.新穎性
國際貨幣體系、貿易結構正面臨結構性調整,受國際政治因素驅動,具有不穩(wěn)定、不平等和不均衡的特征。海南作為人民幣國際化和新型離岸貿易的突破口之一,新興政策在拓展摸索過程中可能產生的政策伴生風險和金融科技風險,較難通過現(xiàn)有體制機制很好地識別及防控。
5.碎片化
國際市場征信信息缺失,資金交易網絡碎片化,貿易網絡不透明,企業(yè)、政府、第三方機構的信息共享以及聯(lián)合建模尚待完善,是交易真實性和安全性防范的難點。
(二)運用科技手段提升離岸貿易的監(jiān)管能力
解決上述問題,除了進一步完善自貿港體制機制建設外,可以從以下五個方面著手建立風險模型,運用科技手段提升離岸貿易的監(jiān)管能力。
1.小樣本內新增風險事件的迅速準確識別
現(xiàn)有的風控模型,大多是對歷史數(shù)據進行總結后形成的通用型標準,從大數(shù)定理上對風險防控能起到較好效果,但具體到細分市場或小樣本空間時,可能存在模型過擬合或擬合度不匹配等問題。離岸貿易由于區(qū)別于一般貿易的特殊性,需要更精準地建立起事件與事件間的關系,包括新老客戶之間的關系、自貿港離岸業(yè)務與其它離岸業(yè)務的關系、自貿港離岸業(yè)務之間的關系等,以更有效地識別處理自貿港離岸業(yè)務真實性。
2.國內市場經驗的傳遞與總結
把握開展離岸貿易的真實動機,進行穿透式管理,能夠更好地防范離岸貿易風險。因此,需要對歷史各類風險事件進行沉淀以及全貌還原,通過模糊相似算法,來達到窺一斑而知全豹的效果。
3.對缺失數(shù)據進行補完、類比
通過多模型組合,挖掘隱藏信息,對現(xiàn)有信息進行合理性補充。通過將貿易信息與同類型企業(yè)進行類比,或與歷史同期情況比較,來揭示其隱藏信息。解決離岸貿易中信息孤島化、碎片化的問題。
4.對結構性變化進行識別
離岸貿易受國際政治經濟局勢、產業(yè)結構化調整、大宗商品市場波動影響較大,同時受制于所屬集團或產業(yè)鏈的整體安排,部分波動可能存在一定的市場風險,或純粹為套利、套保、融資、美化報表等原因存在。而銀行傳統(tǒng)的風險防范中,缺乏對具體業(yè)務結構的深入分析和自動比對。因此,需要建立風險模型,在深入總結提煉單筆業(yè)務信息的基礎上,自動匯總生成多維度的全局性分析,掌握各類批量性、結構性的變化情況,來判斷離岸貿易的真實性以及合理性。
5.全方位整合各類基礎數(shù)據的綜合性風控模型
海南大數(shù)據中心、海南自貿港離岸新型國際貿易綜合服務平臺已初步整合了海關、稅務、企業(yè)、銀行、物流、港口、第三方機構的部分有價值信息,對判斷離岸業(yè)務真實性和資金交易安全起到了很好的支撐作用。建立開放性地處理各類數(shù)據、揭示其隱藏信息、印證其勾稽關系的綜合性風險模型,能提高對各類數(shù)據的利用效率、拓寬應用場景,并節(jié)省用于數(shù)據標準化處理、專家經驗積累、多方建模信息溝通、模型升級聯(lián)動等方面的工作量。
(三)建模路徑
1.搭建動態(tài)圖譜
利用圖模型分析技術動態(tài)識別數(shù)字化金融場景,融合以及補充各維度數(shù)據,構建各場景數(shù)字立體動態(tài)全景視圖,形成有效的模型輸入端。
2.搭建觀察學習型AI智腦
通過自動比對分析、經驗總結、泛化衍生等方式形成AI自迭代規(guī)則庫,通過回憶或聯(lián)想的方式進行擬人化思維,對碎片化、無顯性特征的數(shù)據集進行分類處理,自動識別隱藏規(guī)則以及參數(shù)權重,具備一定的預測能力,在防范批量風險、新型風險方面具有較好的效果,具有零人工干預、全場景適應、自我迭代等優(yōu)勢。
3.積極探索模型輸出端
結合業(yè)務實際完善離岸貿易風險真實性和資金交易安全性方面的應用,并通過系統(tǒng)開發(fā)、風險防控實踐將部分成果落地。
四、動態(tài)金融場景的構建及應用
(一)通過圖模型動態(tài)整合各類基礎信息
1.搭建資金鏈圖模型
通過資金鏈圖譜構建及自動化分析技術,加強用途穿透識別、潛在風險揭示、隱藏信息提取、可視化展示等資金用途管理能力。
資金鏈圖譜在后臺整合我行全量交易數(shù)據,形成龐大復雜的交易網絡全貌,并以此為基礎圖形進行后續(xù)分析(見圖1)。一是開展多層交易網絡分析挖掘;二是批量完成基礎網絡的構建,后續(xù)分析的運算量大幅減少;三是利用圖形分析等新型技術進行特征分析、復雜節(jié)點處理、斷點連接等處理,效率及效果均較基礎編程模式有所上升;四是易于對接系統(tǒng),形成全套可視化展示方案,加強與業(yè)務人員的直接互動;五是便于與其他基于圖模型平臺構建的模型進行聯(lián)動;六是進行向量分析,加入時間維度,并可以應用立體矩陣分析等高級數(shù)學分析方法;七是可動態(tài)提煉經常性交易軌跡,應用于后續(xù)多項衍生研究。
2.搭建集團隱藏關聯(lián)關系圖模型
該模型通過分析集團內以及集團間企業(yè)的關聯(lián)關系挖掘其隱藏聯(lián)系。一是基于如高管、親屬、股權等基礎數(shù)據構建基礎關系對;二是結合知識圖譜算法挖掘直接持股、間接持股等衍生關系對;三是分析集團之間關聯(lián)度;四是分析集團間隱藏關聯(lián)關系以及單戶應納未納關系,助力貸前新客戶授信過程(見圖2)。
3.完成圖模型拼接融合,通過點邊屬性整合靜態(tài)基礎數(shù)據
構建五層資金鏈圖譜,整合放貸信息以及親屬、股東、供應鏈等8種關系類型,形成豐富的展示藍圖。通過以多層資金鏈為核心的個體行為研究,加上以關聯(lián)關系為核心的關聯(lián)影響研究,進行模型整合,構建靜態(tài)金融場景(見圖3)。
4.利用圖平臺形成動態(tài)全景視圖
基于對客群交易行為的深入挖掘,通過不同的切片方式以及識別邏輯,并輔以隱形關聯(lián)關系、變遷模型等輔助手段,構建并補完客戶實際金融生態(tài)圈及交易軌跡。初期通過可視化展示方案,幫助客戶經理識別管轄客戶所屬生態(tài)圈,不局限于單一客戶范疇,后期將通過整合分析各類生態(tài)圈碎片,從實務角度出發(fā)對生態(tài)圈進行推廣應用。
在靜態(tài)研究中分別加入時間維度,動態(tài)形成金融場景的演變進程,進一步分析產業(yè)鏈中上下游客戶的流失或新增(見圖4、圖5)。
對比金融場景1和2,可以看出CE客戶的直接交易減少及上下游客戶D的新增。
5.補充周期修訂模型,拉平不同歷史時期所產生的特殊影響
(二)通過圖模型初步補充完善金融場景
1.斷點連接
根據合理性判斷,補充可能存在潛在聯(lián)系。如基于全局資金鏈圖譜,捕捉隱藏資金鏈路,挖掘多層可疑信貸資金違規(guī)使用行為(見圖6)。
2.經常性交易軌跡提取
通過不同時間點切片,提煉經常性交易軌跡。時間切片可采取等量時間法、數(shù)據峰值法等多維度,以確保隱藏信息全量提煉(見圖7)。
3.可視化洞察客戶變遷
在原來交易軌跡模型的基礎上,結合關聯(lián)關系數(shù)據構建異構圖,并基于時間序列可視化洞察客戶變遷。用于多維度展示交易軌跡及企業(yè)關系簇的變化情況,分析識別客戶的上下游客戶的流失或新增,動態(tài)洞察客戶風險(見圖8)。
(三)圖模型的簡單應用
1.為人工智能形成有效的數(shù)據輸入體系
將圖模型結果通過矩陣特征、圖形結構特征提煉等方式,為后續(xù)風險模型提供更多的分類方式及組合。通過圖模型固化識別專家經驗法提煉的場景信息,具有可解釋性強,直觀易識別等優(yōu)勢。
2.對部分風險場景進行直接監(jiān)控
通過模型識別的回流、挪用、歸集使用、集團關聯(lián)度識別、歸行率等可對貸后資金流異常監(jiān)測、貸前集團統(tǒng)一授信等風險場景提供直接監(jiān)控。
3.可視化展示,人機互動
圖模型的所有過程數(shù)據均有其特定的意義,可直接作為前臺展示,用于人工進一步識別分析;如集團隱藏關聯(lián)關系目前對接企業(yè)信貸系統(tǒng),作為貸前授信審查必看項輔助一線風險經理貸前審查。通過專家經驗法識別的特定圖形,可以作為風險識別結果直接應用于風險防控,且支持以圖形方式進行推送,直觀易懂。通過靜態(tài)圖形的延伸,以及動態(tài)圖形的變化趨勢,能十分清晰地看出明顯的趨勢性特征。
五、人工智能的建立及應用
(一)小浦風控智腦
搭建觀察學習型AI模型,通過自動比對分析、經驗總結、泛化衍生等方式,探索構建AI自迭代規(guī)則庫,加強對特定客群的異常事件的風險信號識別以及大概率事件的貸后預測的能力。本文整體構建思路主要由四部分組成,包括多種算法挖掘隱藏初始規(guī)則、進化算法構建衍生規(guī)則、最優(yōu)化方法提升規(guī)則有效性、相似度函數(shù)助力規(guī)則提純(見圖9)。
1.多種算法挖掘隱藏初始規(guī)則
初始規(guī)則挖掘主要由事件構成以及基礎規(guī)則挖掘2個步驟組成。
(1)事件構建
結合具體業(yè)務場景及專家經驗,構建基礎標簽。標簽大類包括客戶基本情況、授信情況、財務情況、結算情況、押品情況、風險情況、金融場景相關情況。
屬性標簽:表示長時間的狀態(tài),通常由類別型數(shù)據標簽衍生特征來定義;
動作標簽:表示短時間內的狀態(tài)變更,通常由數(shù)據標簽對時間窗聚合衍生特征;
事件定義:基于單個/多個數(shù)據屬性標簽或動作標簽整合歸類來定義的事件,數(shù)據標簽及其數(shù)據變化都屬于事件參數(shù)范圍。
(2)基礎規(guī)則挖掘
基礎規(guī)則挖掘主要以下4種方式:
枚舉法:根據具體研究場景枚舉現(xiàn)有專家經驗規(guī)則作為基礎規(guī)則,根據對應場景內樣本特征進行枚舉組合構建,此方法優(yōu)點可以對數(shù)據量小的場景進行全面分析,覆蓋度較高,但數(shù)據量大的場景中效率較低;
特征提取分類算法:現(xiàn)有監(jiān)督風險預測決策樹、邏輯回歸的變量結果作為基礎規(guī)則,該算法目前多應用于風控領域,此算法無法對時序特征進行有效分析,結果較難從業(yè)務角度解釋,但結果重要變量可作為后續(xù)挖掘標簽;
無監(jiān)督算法:將事件標簽組合進行聚類,事件集結果作為基礎事件,該算法目前多應用于銀行風控反欺詐、反洗錢等領域;
關聯(lián)分析算法-頻繁序列模式挖掘:該算法可以用于關聯(lián)事件序列挖掘。相較于頻繁項集挖掘的關聯(lián)算法Apriori和FP Tree,項之間沒有時間上的先后關系,而我們需要分析的,是由若干數(shù)據項集組成的序列。該算法目前多應用于營銷領域,在銀行風控領域暫無相關應用。
2.進化算法構建衍生規(guī)則
進化算法是以達爾文的進化論思想為基礎,通過模擬生物進化過程與機制的求解問題的自組織、自適應的人工智能技術。生物進化是通過繁殖、變異、競爭和選擇實現(xiàn)的;而進化算法則主要通過選擇、交叉和變異這三種操作實現(xiàn)優(yōu)化問題的求解。我們利用進化算法對原有規(guī)則進行交叉、變異操作,替換部分片段從而得到新的規(guī)則,根據提煉評價函數(shù)打分,比較原有規(guī)則效果,完成迭代優(yōu)化。進化算法也時有用于銀行風控領域(見圖10)。
3.評價函數(shù)提升規(guī)則有效性
對當前規(guī)則池中的各個規(guī)則分別打分,迭代挑選出優(yōu)質的風控規(guī)則集合。一是構建規(guī)則前給每個樣本賦權,迭代生成規(guī)則時未被其他規(guī)則捕捉的樣本有更高的權重,從而提升樣本多樣化。二是對所有新生成的規(guī)則構建距離函數(shù)計算規(guī)則之間的距離,依據評價函數(shù)進一步去除類似的規(guī)則,提煉多類別規(guī)則。
Idea1(規(guī)則間距評價):將規(guī)則間的距離納入評價函數(shù),盡量尋找互不相似的規(guī)則。
(1)
其中,J備選規(guī)則的集合,J為備選規(guī)則的個數(shù),xi為第i個備選規(guī)則,?茲為常規(guī)的評價函數(shù)(如精準率,召回率),d(xi,xj)為任意兩個規(guī)則間的距離。
注意,該方法需要計算所有規(guī)則間的兩兩距離。計算復雜度較高,可以考慮kd樹尋找最相似規(guī)則,或者使用迭代方法:
(2)
Idea 2(樣本賦權評價):給樣本賦權,未被其他規(guī)則捕捉的樣本有更高的權重。
原理:若一條規(guī)則可以捕捉其他規(guī)則無法捕捉的違約客戶,則該規(guī)則的評價應該增加。
設立一個大于1的超參數(shù)?啄,若一個正樣本未被備選規(guī)則捕捉過,則權重為?啄,否則權重為 。k為該樣本被捕捉過的次數(shù)。規(guī)則的評價為其捕捉的正樣本的權重和/所有正樣本的權重和。
4.相似度函數(shù)助力規(guī)則提純
使用驗證數(shù)據集對備選規(guī)則池中的規(guī)則進行評分,并依據評分結果對規(guī)則進行參數(shù)與結構的調整,最終達到規(guī)則提純的目的(見圖11)。
評價指標:
(二)模型功能的簡單應用
一是對數(shù)字化金融場景信息進行機器學習,進一步識別具體場景中參數(shù)的有效性及權重,使得堆砌的各類數(shù)據得到有效塑型。二是通過對碎片化信息進行類比推理,進一步補完金融場景,顯示出其可能存在的全貌。三是通過多維度擬合,全面及時揭示其潛在共通之處,有助于潛在風險識別以及批量結構性變化識別。
六、模型應用場景
(一)動態(tài)圖譜的應用
1.多層資金鏈圖譜自主查詢
國內目前對資金的第一手劃轉進行了較為嚴密的控制,主要通過柜面和營運部門的剛性控制來實現(xiàn)。但資金流向的分析十分注重穿透性,很多風險實際隱藏在錯綜復雜的資金網絡背后。如僅憑單筆交易,除了發(fā)現(xiàn)利率可能偏高外,很難識別出類似于龐氏騙局的金融詐騙,只有通過更高視野的全貌資金流向分析,才能發(fā)現(xiàn)其整體邏輯。海南片段化的單筆資金流特征可能較為明顯。
基于資金鏈圖譜,可以將散亂的單筆交易以可視化的方式關聯(lián)起來,從而對于其中可能隱藏的線索信息一目了然。對防范批量性金融風險具有積極的意義。
目前已實現(xiàn)資金鏈圖譜線上自主查詢,可通過某一時點的單一對公客戶為起點,以交易方向為有向連接,實現(xiàn)上下五層的實際關聯(lián)交易查詢(層數(shù)主要取決于算力限制,模型本身并無限制),通過點屬性反映交易對手的基本信息,通過邊屬性反映交易的具體信息(見圖13)。
圖形采用動態(tài)可調整的展現(xiàn)方式,支持用戶自主拖動具體點的位置,以更好地揭露隱藏信息。并且設置了一些便利化的圖形成像選擇,包括層數(shù)、期限范圍、特征圖形顯示等選項。
圖形支持轄內客戶的任意自主查詢,因此,如果單一圖譜無法滿足穿透管理需要,可以以中斷節(jié)點為起點,再次進行擴展查詢。通過多次圖譜的拼接分析,形成資金流向全貌。圖數(shù)據庫的力量在于它們能夠以超快的方式跟蹤關系,從一個節(jié)點轉到另一個節(jié)點。我們通過模式匹配從 Neo4j 中讀取數(shù)據,從而充分利用圖結構。模式匹配包括沿圖移動模板并查看哪些節(jié)點和關系對與其一致。首先構建帶有標簽A或B的節(jié)點組成的有向圖。當我們尋找序列A -> B時,在迭代中,節(jié)點標簽和關系方向都與搜索模式匹配。圖譜查詢根據客戶管轄權進行信息保密處理,且僅供內部風險管理使用。
2.動態(tài)金融場景可視化分析
自由一定意義上也會帶來無序,原先通過制度性框架阻擋住的各類金融與貿易亂象可能會乘機滲透,單憑資金流向和單筆交易單證相符的核驗已經較難實現(xiàn)實質重于形式的總體管理要求,也較難識別復雜多變的實際環(huán)境。因此通過圖模型整合、補充離岸貿易相關的動態(tài),金融圖譜能獲得更為廣泛的全景視圖。
在資金鏈圖譜分析的基礎上,拓展了動態(tài)金融場景的可視化分析,將關聯(lián)關系、客戶屬性、各類隱藏信息反映在圖譜中,以異構圖的方式展現(xiàn)集群之間的交易聯(lián)系,有效識別通過關聯(lián)企業(yè)兜轉、更為復雜的交易軌跡網絡、資金掮客、異常交易軌跡等信息,使騙局原形畢露。
以可視化圖譜的方式有條理地展示動態(tài)金融場景全貌,還能較好地輔助識別集團、集群之間的復雜關聯(lián)交易風險。尤其是有較多集團設立的貿易子公司,單一企業(yè)層面的經營情況已不足以顯示其真實的貿易背景。
由于系統(tǒng)限制,目前暫時不支持動態(tài)演變的直接展示,只能在不同時點切片進行查詢后比對分析,了解整體交易的變化情況。
3.圖譜統(tǒng)計分析信息定期推送
除了可視化分析外,形成的整體交易圖譜網絡也能提煉出額外的統(tǒng)計信息。如在重大關聯(lián)交易、結算性交易、融資性交易、資金閉環(huán)管理等方面的統(tǒng)計上,不僅限于一層資金流,而是基于全量圖譜信息進行統(tǒng)計。相關統(tǒng)計信息推送至貸后管理模塊,以供貸后分析決策使用。
4.資金流向逐筆自動效驗
整合了全量動態(tài)金融場景后,在資金用途檢查的后臺自動分析上,也能達到較好效果。通過多層圖譜的探查分析,能自動識別資金回流、流向房市股市、歸集使用、一對多還款、資金掮客、員工行為等信息,銀行開展資金用途檢查時,通過后臺模型逐筆效驗,如發(fā)現(xiàn)相關問題,則作為剛性控制要求排查反饋,并經有權人審定。
5.圖型特征自動化提煉
在識別有問題的資金流向時,通常提煉問題的相關特征,并進行數(shù)據層面的自動化分析。有了圖譜模型后,問題特征的識別多了一層手段,可以通過圖形特征予以輔助識別,而且對于一些異常的圖形特征也能予以自動標識,以便于后續(xù)進一步判斷。如資金回流在圖譜上呈現(xiàn)出一個首尾相連的環(huán)形,歸集使用則呈現(xiàn)出一個散射圖,一條鏈路上如果有某一點經過了行內員工,則可以作為員工行為信息進行排查(見圖14)。除了異常行為外,一些經常性的交易也可以進行提煉,以進一步識別經濟依存度、上下游供應商等產業(yè)鏈信息。目前這些特征圖譜已能在圖譜平臺上通過特殊顏色進行標記。后臺數(shù)據也已用于產業(yè)鏈分析、集團關聯(lián)關系補充等分析模型。
(二)智腦模型的應用
1.批量識別變遷規(guī)則
將環(huán)境數(shù)據拼接整合后,仍需要進一步處理。目前主要是通過專家經驗法,將已經成熟的業(yè)務規(guī)律用數(shù)字化的形式固化下來,仍缺少讓數(shù)據自己說話的機制,不利于離岸貿易中新型風險的防控,新型風險的提前暴露需要一些自動化的手段。通過智腦模型,能按天提煉總結批量變遷規(guī)則,全量識別當天發(fā)生的所有批量性事件,掌握其共性特征,并通過與歷史情況的比對了解其可能產生的負面影響,達到了用數(shù)據說話的效果。通過批量提煉目前實際發(fā)生的變遷規(guī)則,通過條件函數(shù)明確此類變遷行為歷史的結果導向(見圖15)。
2.客戶及客群的非線性演變預判
風險智腦能通過首尾相連的方式,達到多層演變推理的效果。如識別出了當前客戶的一個階段性變化,匹配歷史規(guī)則庫后,命中三條歷史變遷規(guī)則,發(fā)現(xiàn)其中兩條在歷史上存在過負面影響,有一定概率導致負面事件的發(fā)生,就先挑選出這兩條變遷規(guī)則,然后以其變遷結果為起始點,匹配歷史規(guī)則庫,再次進行推理預判,通過上述方法再次鎖定兩條(假設)可能出現(xiàn)負面影響的規(guī)則,及其發(fā)生概率。經過多次迭代后,可以找到多條指向負面影響事件的路徑及其可能發(fā)生概率,從而對某一客戶變遷情況的未來各種可能性有了數(shù)字化的量化判斷,并視情況采取相關防范措施。
有了單一客戶的演變預判之后,批量客群的演變也就十分容易了,只需根據需要預判的內容,調整條件函數(shù)的篩選,然后將單個客戶的大概率(最大概率且大于某一值的概率)演變可能進行疊加,就能大致得到批量客群的可能演變情況。用于行業(yè)分析、集團客戶分析等結構化分析,以及政策效果預判等方面,均有較好的應用前景。
3.新增事件的關聯(lián)分析
新增事件如果單純以事論事的話,可能會忽略了很多關聯(lián)影響,在大數(shù)據分析中,我們盡量多地集合了環(huán)境數(shù)據,以期望得到一個更完整的分析,尤其是在離岸業(yè)務涉及到的信息較為陌生,就更難進行關聯(lián)聯(lián)想。通過智腦模型能初步解決這一問題,通過歷史規(guī)則庫的提煉,識別出海量大數(shù)據之間實際的聯(lián)動規(guī)則,當發(fā)現(xiàn)有限的新增事件后,匹配這些事件可能觸發(fā)的歷史場景變遷,通過條件函數(shù)篩選出可能導致負面影響的歷史場景變遷,反向探查該場景下其他條件是否成熟,挑選出涉及到這些事件可能導致的負面影響,且具備發(fā)生條件的歷史場景變遷,從而了解新增事件的關聯(lián)性影響。即使面對碎片化、完全陌生的事件信息,通過標準化處理后,也能很好地匹配歷史視圖,了解片段化的局部事件可能導致的影響。同樣,也可以通過迭代方式,了解后續(xù)可能發(fā)生的一系列變化。在處理超大規(guī)模變量上,智腦采用的獨特算法能確保效果和效率兼顧。主要是通過以行的處理代替列的處理,局部調用,累加式學習等方式實現(xiàn)。
4.國內外經驗的有效傳導
在歷史規(guī)則庫的建設方面,僅從海南自貿港數(shù)據可能存在樣本過少的問題,但只要能對國內或者國外的事件進行變遷規(guī)則提煉,通過上述預判邏輯,相關規(guī)則就能很好地輔助自貿港新增事件或客群變遷的判斷,標準化的特征數(shù)據使得通用性大幅增強。而對于國際性的商業(yè)銀行來說這并不是難事,尤其在中國香港、新加坡等地的規(guī)則提煉,能幫助海南自貿港借鑒成熟的風險防控經驗。
5.多維參數(shù)的綜合處理
大數(shù)據平臺已集成了海量數(shù)據,標簽維度也達到了萬以上級別,通過單一的傳統(tǒng)模型很難進行綜合化處理,可全量識別其中關聯(lián)關系和隱藏屬性。
本文所提出的人工智能模型模擬了腦部運作模式,在規(guī)則提煉方面,通過對事件與事件的分析來降低標簽維度的影響;在存儲方面,構建事件的高緯度標簽,在此基礎上搭建歷史變遷全景,并對歷史經驗規(guī)則進行提純提煉等優(yōu)化,形成最優(yōu)化存儲結構,高效存儲了包含所有標簽維度在內的歷史變遷規(guī)律;在調用方面,以高效局部調用為特征,大幅降低了并行計算處理量,并通過對存儲規(guī)則的調用參與運算,初步實現(xiàn)了存算一體化,支持新增事件全自動的機器自主分析。
6.完成全套自動化數(shù)據分析流程
智腦模型支持超大規(guī)模參數(shù)的同時,上游對接大數(shù)據平臺,對實時數(shù)據進行有效處理,形成全量變遷規(guī)則,并根據具體需要進行自動非線性預判分析,鎖定相應客群,下游對接單一客戶的全套查詢分析功能,自動出具案例分析報告,從而完成從源數(shù)據到具體風險案例的全套自動化分析預警功能(見圖17)。
七、離岸貿易交易的真實性和資金結算的安全性的針對性解決方案
本文嘗試將場景數(shù)字化整合后,通過通用型AI模型進行自動化的風險特征識別、提煉及防控,為自貿港構建了一面無形的自動防護盾。
(一)識別小樣本客群中新型風險和隱藏風險
一是通過風控智腦對小樣本中聚類較為集中的客群自動迭代分析,提煉出其相似特征,以供業(yè)務人員決策。二是對于表象特征不明顯的小批量風險客群,通過多維度提煉分析,全量揭示其潛在共通之處,揭露隱藏規(guī)則。并對新增客戶是否存在此類情況實時進行預警。三是對于能通過我行自動審批模型的客戶,實時分析客群離散程度,確保小樣本中沒有集中性風險。四是通過模型建立事件與事件的關聯(lián),并可通過鎖定部分參數(shù)(如行業(yè)、時間、地區(qū)等)形成特定維度的分析結果,了解面上風險情況。
(二)完善系統(tǒng)性風險防控體系
一是通過圖模型應用,全量化揭示伴隨參數(shù)、動態(tài)參數(shù)、模型參數(shù),并補完碎片化信息,通過模型補完獲得風險全景視圖,在數(shù)據層面上進行完善。二是通過小浦風控智腦沉淀積累全行范圍內歷史上曾發(fā)生過的風險事件及其客觀特征,在規(guī)則層面上進行完善。三是通過小浦風控智腦自動驗證比對的方式,對新增客戶或客群可能涉及到的風險事件進行排查,結合經補完的數(shù)據和風險規(guī)則,在識別上通過自動化的方式確保沒有遺漏和疏忽。四是通過揭示歷史風險客群調查處置過程中額外發(fā)現(xiàn)的信息,提供對當前客群的謹慎性假設。這些信息可能并沒有納入海南大數(shù)據平臺,無法自動化處理,自動識別后提示業(yè)務人員。
(三)通過現(xiàn)有體制機制實時識別防控
一是對于批量客群的趨勢化特征全量、實時地予以識別,并且所識別的趨勢特征能通過規(guī)則展現(xiàn)的方式簡單明了地傳達到決策層。通過模型自動提煉分析,及時地識別、傳達結構性變化趨勢和新政策造成的影響,并進行持續(xù)化監(jiān)控,防范影響的時滯性。二是該模型通過自迭代訓練可不斷自動調整有效參數(shù)及其權重,自動形成新的風險防控規(guī)則,對新型未知風險能較好識別及防控。三是通過趨勢性分析、同類客群比較、歷史經驗判斷綜合作用,具有一定的預測能力,對于結構調整所帶來的批量風險,能給出相對量化的未來預判。
(四)有效整合國際市場征信信息缺失、資金交易網絡碎片化、貿易網絡不透明問題
一是模型容錯能力較強,當參數(shù)過少或過多時,能進行盡可能的有效處理。通過有限信息與行內現(xiàn)有客戶進行相似度分析,以揭示隱藏風險。二是通過圖模型揭示全量化動態(tài)金融場景,初步整合補完各類已有信息,并輸入至風控智腦智能化處理。通過大數(shù)據整合與風控智腦的聯(lián)動,形成一加一大于二的效果。
(責任編輯:夏凡)
參考文獻:
[1]朱云濤.元宇宙銀行體系建設初探[M].北京:中國商業(yè)出版社,2022.
[2]許白貞.EAST系統(tǒng):現(xiàn)場檢查中的“最強大腦”[J].武漢金融,2014(6):43-44+48.
[3]單繼進.EAST系統(tǒng)的建設與發(fā)展[J].中國金融電腦,2014(10):11-13.
[4]李卓諭.A銀行廣西分行跨境匯款業(yè)務內部監(jiān)管研究[D].廣西:廣西大學,2021.
[5]劉春航.大數(shù)據、監(jiān)管科技與銀行監(jiān)管[J].金融監(jiān)管研究,2020(9):1-14.
[6]尹凱.事件知識圖譜平臺設計及實現(xiàn)[D].四川:電子科技大學,2019.
[7]李為.基于圖神經網絡的多標簽圖像識別[D].黑龍江:哈爾濱工業(yè)大學,2020.
[8]肖琳,陳博理,黃鑫,等.基于標簽語義注意力的多標簽文本分類[J].軟件學報,2020,31(4):1079-1089.
[9]譚卓.基于自監(jiān)督學習的有向圖神經網絡模型[D].四川:西南財經大學,2022.
[10]董彬.圖神經網絡可解釋性的研究與應用[D].四川:電子科技大學,2021.
[11]李雨果.基于異構圖神經網絡的個性化推薦[D].河南:鄭州大學,2021.
[12]趙菲菲.類腦自主學習與決策神經網絡模型[D].北京:中國科學院大學,2019.
[13]莫宏偉,叢垚.類腦計算研究進展[J].導航定位與授時,2021,8(4):53-67.
[14]李甜甜,張榮梅,張佳惠.圖神經網絡技術研究綜述[J].河北省科學院學報.2022,39(2):1-13.
[15]馬俊.數(shù)字金融、銀行風險承擔與經濟高質量發(fā)展[J].海南金融 2023(1):18-37.