• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      知識圖譜在商業(yè)銀行風控領域的研究與應用綜述

      2022-10-18 01:04:06劉國柱梁宏濤羅清彩
      計算機工程與應用 2022年19期
      關鍵詞:圖譜實體領域

      袁 俊,劉國柱,梁宏濤,羅清彩

      1.青島科技大學 信息科學技術學院,山東 青島 266061

      2.山東浪潮科學研究院有限公司,濟南 250101

      近年來,新冠肺炎疫情的突發(fā)在引發(fā)全球范圍內(nèi)不確定風險加劇的同時,不僅造成金融市場的恐慌和極端波動[1],也深深影響商業(yè)銀行的經(jīng)營和發(fā)展。國內(nèi)外經(jīng)濟形勢動蕩不止,金融市場反應劇烈,銀行業(yè)在風險管理過程中的難度也不斷加大。在此背景下,傳統(tǒng)風控模式下的潛在風險將加速暴露。

      傳統(tǒng)風控模式存在的局限性如下:

      (1)缺乏對數(shù)據(jù)有效的整合和利用。金融領域?qū)崿F(xiàn)信息化后,歷時數(shù)十年已經(jīng)積累了龐大的數(shù)據(jù),但在商業(yè)銀行內(nèi)部,客戶信息、賬戶信息、交易信息等數(shù)據(jù)通常散落在各個獨立的業(yè)務系統(tǒng)之中,利用效率和分析能力不足。行內(nèi)往往存在著一個個“煙囪式”信息孤島,缺乏有效的信息整合,許多有價值的非結構化數(shù)據(jù)被埋沒在高熵無序的信息汪洋之中。

      (2)缺乏高效識別和監(jiān)控風險的手段。對于授信客戶的風險管理,無法在風險預警、監(jiān)控等管理層面提供高效科技手段,對實際觸發(fā)數(shù)據(jù)的篩查和前期風險特征識別預警的手段不多。對于客戶洞察,通常以單個客戶為分析對象,根據(jù)客戶的行為與特征分析其風險狀況,對客戶關系網(wǎng)絡的探索較少。

      (3)缺乏與時俱進的風險管控模式。近年來商業(yè)銀行接連推陳出新,新的業(yè)務和產(chǎn)品層出不窮,業(yè)務模式由柜臺服務向手機APP、微銀行、網(wǎng)絡銀行、自助終端、智能柜臺等線上渠道及平臺全面延伸。而欺詐行為也變得隱蔽和多樣化,只依靠過去傳統(tǒng)的規(guī)章制度、手工臺帳報表、人工審批和事后檢查等方式來發(fā)現(xiàn)潛在風險、解決違規(guī)已顯得力不從心,原有的風險管控模式亟需隨著業(yè)務改變而調(diào)整。

      隨著不斷地經(jīng)營發(fā)展,授信企業(yè)跨業(yè)經(jīng)營、股權并購、融資結構日益復雜化、隱蔽化,這對商業(yè)銀行信用監(jiān)測、風險評估等工作帶來了巨大的挑戰(zhàn)。在金融數(shù)字化議程加速的背景下,為解決傳統(tǒng)風控模式的弊端,商業(yè)銀行亟需推進風險管理工作中的科技創(chuàng)新,加快數(shù)字化轉型建設步伐。在風控領域中,風險往往不會孤立發(fā)生。對于自然人客戶,盜卡盜刷、非法套現(xiàn)等欺詐行為常常是團伙作案。對于企業(yè)客戶,隨著資金鏈、供應鏈、擔保鏈以及集團化的不斷發(fā)展,容易發(fā)生火燒連營般的連鎖反應。傳統(tǒng)的風控體系難以應對此類關聯(lián)性風險,基于圖數(shù)據(jù)結構構建的知識圖譜(knowledge graph,KG)[2]是解決此類問題的有效途徑。知識圖譜技術可以關聯(lián)不同數(shù)據(jù)源系統(tǒng)的孤立數(shù)據(jù),提供客戶風險的統(tǒng)一視圖,打破信息壁壘,有效解決信息不對稱問題;能夠?qū)崿F(xiàn)針對客戶關系網(wǎng)絡的洞察,有效防控關聯(lián)性風險,提升風控效能;能夠?qū)崿F(xiàn)風險數(shù)據(jù)的自動化采集、分析和預警,并深入挖掘金融實體之間的隱蔽關系。

      為此,本文將對風控領域知識圖譜的構建方法進行系統(tǒng)性綜述。

      1 風控領域知識圖譜的概念與架構

      1.1 風控領域知識圖譜的概念

      想要理解風控領域知識圖譜的概念,首先要了解什么是知識圖譜。1989 年,Bemers-Lee[3]發(fā)明了基于網(wǎng)頁之間相互鏈接的萬維網(wǎng)(world wide web,WWW),并在之后提出了新的網(wǎng)絡系統(tǒng),在萬維網(wǎng)基礎上將其轉換為基于實體鏈接的語義網(wǎng)絡——語義網(wǎng)(semantic web,SW)。語義網(wǎng)能夠幫助計算機理解蘊含在自然語言中的知識以及它們之間存在的關聯(lián)關系。在語義網(wǎng)的鋪墊下,Google 公司于2012 年首次提出了知識圖譜的概念,并將其用于理解搜索關鍵詞的語義信息,為搜索結果提供關鍵詞相關的人物、地點、事件等補充內(nèi)容。隨后知識圖譜逐漸在學術界與工業(yè)界得到深入研究,并在搜索服務、智能問答、情報分析等多個領域中大放異彩。但直到如今,知識圖譜的概念一直未有統(tǒng)一的定義,現(xiàn)借鑒文獻[4]對知識圖譜做出定義:“知識圖譜是一種采集信息并將信息集成到本體中、應用推理機以獲取新知識的的系統(tǒng)。”具體來說,知識圖譜是將物理世界的事物建模成相互關聯(lián)的知識網(wǎng)絡,它將實體抽象為一個個具備屬性的節(jié)點,而將兩實體間的語義關系抽象為連接這一對節(jié)點的邊,并以三元組的形式存儲這些實體、關系以及屬性。例如三元組“擔保(客戶A,客戶B)”描述了兩客戶間的擔保關系,三元組“行業(yè)類型(客戶,金融業(yè))”描述了客戶的行業(yè)類型屬性。

      從知識的適用范圍出發(fā),可將知識劃分為常識知識和領域知識。相應的,知識圖譜也可分為通用知識圖譜與垂直領域知識圖譜。通用知識圖譜覆蓋多領域、多場景,具備相當大的知識廣度,如DBpedia[5]、Yago[6]、Wikidata[7]、Knowledge Vault[8]等。與之相比,垂直領域知識圖譜對知識的深度與粒度要求更為嚴格,其結構更為復雜,知識的應用形式也并不限于搜索、問答、推薦,可提供更為廣泛的知識服務。由于面向的業(yè)務場景不同,二者側重也不同,其構建流程及關鍵技術存在一定的差異。在表1中,對通用知識圖譜與垂直領域知識圖譜在知識圖譜的構建技術方面作了比較與分析。目前在金融行業(yè)中,已有商業(yè)銀行將知識圖譜技術應用在金融問答、智能風控、精準營銷、智能決策等領域中。面向商業(yè)銀行的風控領域知識圖譜指的是將知識的覆蓋范圍和應用目標聚焦于風控領域,圖譜中管理著客戶信息、業(yè)務信息、風險信息等多方面的知識,能夠結合規(guī)則指標或算法模型自動執(zhí)行對風險的識別和預警。

      表1 通用知識圖譜與垂直領域知識圖譜構建技術的比較Table 1 Comparison of construction technology of general knowledge graph and vertical domain knowledge graph

      1.2 風控領域知識圖譜的架構

      風控領域知識圖譜的架構主要包括其邏輯結構與體系架構。

      (1)邏輯架構。從邏輯上看,風控領域知識圖譜可以分為描述抽象概念的模式層與描述具體事實的實例層。模式層中的知識是經(jīng)過整合和概括的,冗余較少,一般用構建本體庫的方式對這一層次的知識進行管理,并對領域術語及它們之間的關系進行形式化表達。本體的概念源于哲學領域,早在上世紀80 年代就被引入人工智能領域中,用于在語義層次上對知識進行分類和描述。而實例層中的知識可以看作是有具體指向?qū)ο蟮谋倔w實例。

      (2)體系架構。知識圖譜的體系架構指其使用何種構建模式,主要有兩種方式:自底向上和自頂向下。前者是指直接從底層數(shù)據(jù)中獲取資源,將置信度高的實體、關系及其屬性歸納到知識庫中,再根據(jù)知識庫中的知識逐步向上抽象形成概念,以構建頂層的本體模式。后者指的是首先為知識圖譜構建出本體和數(shù)據(jù)模式,再將抽取的對象整合到頂層概念中。一般來說,通用知識圖譜中的知識面向通用領域,本體的復雜度不高但數(shù)目龐大,可以通過自底向上的方式、以數(shù)據(jù)為驅(qū)動實現(xiàn)自動化創(chuàng)建本體庫,節(jié)省人力和時間。垂直領域知識圖譜中涉及的術語和概念在廣度上相對有限,其復雜性表現(xiàn)在知識的深度上,所以可以由業(yè)務專家枚舉該領域中的重要業(yè)務術語,借助本體編輯軟件手動創(chuàng)建本體,能夠有效保證本體庫的質(zhì)量。在風控領域,基于特定的業(yè)務關注點,可以考慮將客戶的電話號碼、地址等這樣的一些屬性信息設計為獨立實體節(jié)點。本體建模不僅需要正確而完整地描述已有的業(yè)務,還需要對將來的業(yè)務場景有一定的預估,才能設計出高適用性和高穩(wěn)定性的本體框架。

      綜上所述,為保證知識質(zhì)量和準確度的要求,面向商業(yè)銀行風控領域的知識圖譜可以采取自頂向下與自底向上相結合的構建方式刻畫客戶、賬戶、合同、押品、機構等實體及其屬性、關聯(lián)關系。如圖1所示,其構建流程可歸納為知識抽取、知識融合以及知識推理等步驟。

      2 風控領域知識圖譜的構建技術

      知識圖譜是一個橫跨多領域、多專業(yè)的龐雜學科,想要構建一個大規(guī)模的風控領域知識圖譜,需要綜合自然語言處理、機器學習、深度學習等各類技術[9]。在知識抽取階段,可從商業(yè)銀行積累的海量數(shù)據(jù)中提取出實體、關系以及屬性等信息。在知識融合階段,可以對描述同一實體或概念的多源異構知識進行融合,消除歧義和冗余,有效提升知識質(zhì)量。知識推理階段則是在現(xiàn)有的知識圖譜基礎上,進一步挖掘其中隱式的、包含的知識,對知識圖譜進行補充。

      2.1 知識抽取

      在知識圖譜的自動化構建流程中,知識抽取是一項重要環(huán)節(jié)。知識蘊藏于數(shù)據(jù)之中,知識抽取技術的關鍵在于如何從異構數(shù)據(jù)源中自動提取出高價值信息,并將它們存入知識庫中。風控領域知識圖譜中的知識主要來自于商業(yè)銀行的內(nèi)部數(shù)據(jù),一般以結構化的形式存放在關系型數(shù)據(jù)庫中。2012年,著名的標準化組織W3C發(fā)布了兩種RDB2RDF映射語言:直接映射(direct mapping,DM)[10]與R2RML[11],可以實現(xiàn)將結構化數(shù)據(jù)轉化為OWL本體或RDF數(shù)據(jù)。商業(yè)銀行外部數(shù)據(jù)包括中國人民銀行征信報告、銀監(jiān)會披露的風險預警數(shù)據(jù)、國家工商總局公示的企業(yè)信用信息、區(qū)域范圍內(nèi)的各級法院公告的裁判文書及執(zhí)行信息、各級稅務機關披露的企業(yè)欠稅及行政處罰、網(wǎng)絡百科及財經(jīng)新聞等數(shù)據(jù),這些也是風控領域知識圖譜的重要數(shù)據(jù)來源。其中如工商信息、裁判文書、網(wǎng)絡新聞等主要以半結構化或非結構化的形式存在。對于來源不同、結構不同的數(shù)據(jù),抽取過程中所使用的關鍵技術及其難點也迥乎不同。對于網(wǎng)頁中的半結構化數(shù)據(jù),通常使用已制定抽取規(guī)則的包裝器對網(wǎng)站進行解析。對于以文本為代表的非結構化數(shù)據(jù),抽取難度較高,需要借助自然語言處理技術,根據(jù)抽取對象的不同可以細分為實體抽取、關系抽取、屬性抽取等子任務。

      2.1.1 實體抽取

      實體抽取,即命名實體識別(named entity recognition,NER)[12],旨在從目標文本中界定如賬號、組織機構名、人名、貨幣、金額等命名實體,是風控領域知識抽取過程的關鍵部分,如圖2通過舉例對NER任務進行了描述。銀行賬號通常是一連串的數(shù)字,也可能夾雜字母,需要結合銀行制定的賬號生成規(guī)則進行識別和抽取。組織機構稱呼通常多種多樣,如“阿里巴巴集團控股有限公司”別名有“阿里”“阿里巴巴”“阿里集團”等。貨幣類型也有多種形式,如“人民幣”也可以用“¥”“RMB”“CNY”“Chinese yuan”等符號或文本表示。金額可以是數(shù)字,也可能是大寫的漢字,如“1 680.50”“壹仟陸佰捌拾元伍角”等。在風控領域,命名實體形式多樣、專業(yè)術語復雜等因素給NER帶來了巨大的挑戰(zhàn)。

      圖2 實體抽取示例Fig.2 Example of entity extraction

      經(jīng)過長時間的探索和研究,目前工業(yè)界針對實體抽取問題已積累了大量的經(jīng)驗和方法,表2介紹了幾種具有代表性的NER方法。這些方法大致可分為基于規(guī)則的方法、基于統(tǒng)計模型的方法和基于深度學習的方法。研究初期主要是人工構建規(guī)則的方法[13-15],將業(yè)務專家手工編寫的規(guī)則與目標文本進行字符串層面的簡單匹配,從而識別出命名實體。但這類方法依賴于規(guī)則的準確度和詞典的覆蓋面,無法識別規(guī)則覆蓋范圍外的新實體,而且在大規(guī)模文本數(shù)據(jù)集上的效果不盡如人意。隨著機器學習算法不斷深入發(fā)展,學術界逐漸將其應用于解決實體抽取問題并取得了不錯的效果,如隱馬爾科夫模型(hidden Markov model,HMM)[16]、最大熵模型(maximum entropy,ME)[17]、條件隨機場(conditional random field,CRF)[18]等。這類基于統(tǒng)計模型的方法實際是將實體抽取作為序列標注問題處理,通過語料標注、特征定義、訓練模型等步驟識別出文本中的實體。2015 年,為提升商業(yè)銀行風控工作效率,Alvarado 等[19]提出了一種基于大量域外數(shù)據(jù)和少量域內(nèi)數(shù)據(jù)相結合的NER 方法,使用CRF 模型從貸款協(xié)議文件中提取信用風險信息,對借款人名稱、貸款人名稱、金額、日期、地點等實體進行抽取,F(xiàn)1 值達到0.798。但對于機器學習模型,人工預先定義的特征在很大程度上決定了實體抽取的準確率,而深度學習方法則可以突破此限制,近年來學者們提出了多種神經(jīng)網(wǎng)絡結構,在NER 任務的應用中獲得了較好效果。2020年,為了監(jiān)控系統(tǒng)性金融風險,Cheng 等[20]基于知識圖譜框架對外匯市場參與者進行實時監(jiān)控,通過BiLSTM-CRF提取新聞文本中的金融實體,在銀行間市場參與者相關新聞的數(shù)據(jù)集上,準確率和Recall 值分別為93.33%、97.68%。2021 年,為防范合規(guī)風險,Wang 等[21]提出將BERT 與BiLSTM-CRF 結合,通過BERT預訓練詞向量并作為BiLSTM-CRF模型的輸入,以銀行間外匯市場中的海量聊天記錄作為數(shù)據(jù)集,對債券簡稱、債券類型、發(fā)行人等債券信息實體的識別結果在微平均和宏平均指標上比基于規(guī)則的方法高出1%~2%。隨著互聯(lián)網(wǎng)的發(fā)展,負面輿情能夠在極大程度上影響企業(yè)的經(jīng)營,近年來客戶輿情風險成為商業(yè)銀行風控落腳點之一,但輿論文本中往往存在多個實體而只有少數(shù)的關鍵實體。針對傳統(tǒng)NER方法無法檢測關鍵實體的問題,Zheng 等[22]提出了一個端到端的分層多任務學習框架HMFF,可增強關鍵實體識別的特征學習,在2019 CCF BDCI“金融信息負面及主體判定”數(shù)據(jù)集上,關鍵實體識別任務的F1值達到0.950。對于同一任務、同一數(shù)據(jù)集,Zhao等[23]采取了不同的方法,通過基于RoBERTa的輿情分析以及關鍵金融實體檢測的方法,在抽取所有實體后通過句子匹配任務進一步確認關鍵實體,模型的F1值達到了0.952,略優(yōu)于Zheng等人[22]的方法。除輿情風險外,企業(yè)的司法風險也是商業(yè)銀行風控工作的重要關注點,文獻[24]針對司法案件文本中存在的難點,將詞語以及詞性關系的拼接向量輸入到雙向LSTM神經(jīng)網(wǎng)絡中提取特征,通過2個多層感知器再編碼得到詞向量與詞性關系向量,將所有詞向量拼接,并將所有詞性關系向量與1個單位向量進行拼接,隨后利用中間矩陣對拼接向量進行仿射變化,得到分數(shù)矩陣對實體頭尾、類別進行判斷,有效解決嵌套實體問題與原被告角色反轉問題。

      表2 知識抽取方法的比較Table 2 Comparison of knowledge extraction methods

      NER 一直以來都是工業(yè)界和學術界研究的熱點問題,根據(jù)實體抽取的定義可以將其分解為實體邊界識別和實體類型識別兩個步驟[25],提高實體邊界檢測的效果能夠直接有效地提高NER的準確率與召回率。

      2.1.2 關系抽取

      關系抽?。╮elation extraction,RE)的目的是為了獲取多個目標實體之間的關聯(lián)關系,例如從“百度集團董事長李彥宏的夫人是馬東敏女士”這句話中,可以抽取出兩個實體關系三元組“董事長(百度集團,李彥宏)”、“夫妻(李彥宏,馬東敏)”。目前存在著眾多RE方法,大體上可以分為基于模板的方法、基于監(jiān)督學習的方法以及基于弱監(jiān)督學習的方法。

      初期的RE 任務大多借助于模板匹配的方法。Wu等[26]采用基于規(guī)則和模板的方法,在2003—2016年中國上市公司財經(jīng)新聞中提取出訴訟、質(zhì)押、債務等6 種實體關系,以構建用于金融領域RE任務的大規(guī)模語料庫,并提出了基于詞性標注與BIES 標注的混合方法,經(jīng)人工驗證在測試集上RE 任務平均準確率為88.88%。與基于規(guī)則的NER方法的優(yōu)缺點類似,基于模板的RE方法雖然構建起來簡單,在小規(guī)模數(shù)據(jù)集上效果不錯,但是覆蓋范圍有限,可移植性差。與之不同,基于監(jiān)督學習的方法實際上將RE任務轉換為分類問題。Yamamoto等[27]利用馬爾科夫邏輯網(wǎng)絡從4 661篇網(wǎng)絡新聞數(shù)據(jù)集中提取企業(yè)關系,在每種關系的100 個樣本上,對于合作類關系與競爭類關系的準確率分別達到67%、81%。機器學習模型雖能取得不錯的抽取效果,但嚴重依賴特征工程,于是無需人工構建特征的深度學習方法受到青睞。在風控領域,企業(yè)客戶群體之間關系不明確會導致商業(yè)銀行信用風險加大,具體如給予多頭授信以及過度授信等。為有效提升集團客戶識別、貸款集中預警等風控工作的效率及準確性,2019年,Yan等[28]提出一種基于ERE-GRU 模型的企業(yè)關系自動抽取方法,使用雙向門控循環(huán)單元BiGRU 搭建神經(jīng)網(wǎng)絡,通過提取詞匯特征和句法特征挖掘企業(yè)實體之間的關系,在手工標注的金融領域新聞數(shù)據(jù)集上F1 值可達到0.71,但較多的特征增加了向量維數(shù)。在文獻[28]的基礎之上,Yang等[29]提出了一種SDP-BGRU 模型,采用實體間最短依賴路徑(shortest dependency path,SDP)以及句子級注意力機制消除冗余和噪聲數(shù)據(jù),利用雙向門控循環(huán)單元BGRU獲取特征向量,并通過SVM 分類器將企業(yè)關系抽取問題轉化為分類問題,在手工標注的財經(jīng)新聞數(shù)據(jù)集上的F1值為0.919,可有效識別企業(yè)客戶關系,增強風險應對策略。在銀行風控中,企業(yè)關系和自然人關系訓練語料來源大不相同且不均衡分布,一起訓練會產(chǎn)生較大噪聲,針對此問題,李夢霄等[30]提出分開訓練企業(yè)關系和自然人關系抽取模型,隨后利用分開訓練的BERT模型對新聞文本中的實體與關系進行管道式抽取,并與銀行內(nèi)部圖譜進行融合以支持風控決策。由于關系抽取的效果依賴于實體識別的準確率,學者們發(fā)現(xiàn)實體關系聯(lián)合學習能夠比單任務學習取得更優(yōu)的泛化結果。2022年,田鷗等[31]提出了一種風險傳導概率知識圖譜生成方法,采用BERT-LSTM-CRF模型抽取企業(yè)實體關系對三元組,并引入掩碼多頭注意力結構提升BERT層提取上下文信息的能力,首先將企業(yè)信息輸入到BERT層進行編碼得到對應文本向量,再經(jīng)LSTM層得到各字詞對應的類型分布概率,由CRF層生成實體關系對,通過計算企業(yè)關系對的風險傳導概率,有效防控沿客戶關系鏈的風險傳播。針對金融領域中的復雜重疊關系,唐曉波等[32]在預訓練語言模型BERT 的基礎上結合BiGRU 以及CRF,構建端到端的實體關系聯(lián)合抽取模型,在采集的上市公司資訊信息數(shù)據(jù)上重疊關系抽取任務的F1值達0.543。2022 年,楊美芳等[33]提出基于知識圖譜與文本互注意力機制的實體關系聯(lián)合抽取模型,通過大規(guī)模的風控領域語料與較少的高質(zhì)量實體關系進行訓練,經(jīng)風控領域?qū)<以u估該模型在測試集上的整體誤判率為10.7%?;诒O(jiān)督學習的方法離不開訓練語料,對深度學習模型的優(yōu)化尤其依賴大量訓練數(shù)據(jù)。在這一點上,弱監(jiān)督學習方法具有突出表現(xiàn),只需要少量標注數(shù)據(jù)就能進行學習,主要包括遠程監(jiān)督以及Bootstraping 方法。為理清股票發(fā)行企業(yè)面臨的金融風險,劉政昊等[34]在金融知識圖譜的構建過程中,使用遠程監(jiān)督方法抽取持股、投資、面臨風險、實際控制人等13類關系,通過利用種子知識圖譜獲取可用于訓練的標注數(shù)據(jù),可有效節(jié)省標注成本,隨后使用PCNN+Attention模型進行訓練,平均F1 值為0.67。Zuo 等[35]使用弱監(jiān)督策略從金融新聞語料庫中提取企業(yè)間復雜業(yè)務關系,通過少量的初始種子迭代抽取實體關系,在2007 年新聞文章隨機挑選的100個樣本上,recall值與F1值均優(yōu)于PCNN模型。

      目前,RE 方法經(jīng)過長時間的發(fā)展已經(jīng)取得了一定成果,但在風控領域的實際應用中仍存在著一些挑戰(zhàn)。相比較通用領域,風控領域中的實體關系類型并不復雜,如圖3所示。一般不需要從知識圖譜中拓展新的關系類型,但風控領域知識圖譜往往存在關聯(lián)關系十分隱蔽的情況,需要結合知識推理技術進行深度挖掘。

      圖3 實體關系類型Fig.3 Relation types of entities

      2.1.3 屬性抽取

      屬性抽取(attribute extraction,AE)的目的是為了從文本中抽取出“屬性(實體,屬性值)”形式的三元組,以助于對實體充分理解。風控領域中,存在屬性值為日期、金額、企業(yè)名或人名等,如“阿里巴巴(中國)網(wǎng)絡技術有限公司”注冊日期屬性為“1999-09-09”,法定代表人屬性為人名“戴珊”,可使用NER 方法解決屬性抽取問題,將屬性看成實體與屬性值之間的關系。2021年,文獻[36]提出了一種基于金融知識圖譜的信貸風險識別方法,采集銀行客戶的信貸風險數(shù)據(jù),利用BERT 將文本中的詞語轉化為詞向量的形式,輸入到LSTM-CRF神經(jīng)網(wǎng)絡模型中,以獲取信貸風險實體及屬性信息。針對授信企業(yè)涉及的輿情風險,文獻[37]提出了一種風險事件分級方法,通過BERT-BiLSTM-CRF模型對公司名稱、注冊資本、經(jīng)營范圍、注冊地址、金融產(chǎn)品等實體屬性進行抽取,并通過Albert模型對損失金額、處罰金額、涉訴金額、死亡人數(shù)等事件屬性進行抽取,隨后對風險事件等級進行評定,以提升商業(yè)銀行在金融交易中的決策能力。文獻[38]采取BERT-BiLSTM-CRF模型對爬取的輿情信息進行輿情主體及對應屬性的提取,將AE 問題轉化為NER任務,并利用輿情主體、屬性和預警模型確定輿情評分,通過知識圖譜實現(xiàn)輿情信息的預警級別判定與預警信息推送。文獻[39]提出了一種基于擴充三元組的遠程監(jiān)督方法對產(chǎn)品文本數(shù)據(jù)進行標注,將屬性抽取轉化成序列標注問題,并通過實驗證明了預訓練語言模型對屬性抽取性能的有效幫助。

      目前在面向商業(yè)銀行風控領域的知識抽取實踐中,應用較為普遍仍是基于規(guī)則和機器學習的方法。針對關系和屬性抽取的性能在很大程度上取決于實體抽取結果,為保證所獲知識的質(zhì)量和可用性,目前人工干預的情況較多,總體上自動化程度還不高。隨著商業(yè)銀行數(shù)字化建設的不斷深入,風控領域積累的數(shù)據(jù)體量呈現(xiàn)高速增長態(tài)勢,對知識抽取精度的要求也不斷提升。如何在保證知識質(zhì)量的情況下提升風控領域自動化知識抽取水平和效率,還需要繼續(xù)深入研究。

      2.2 知識融合

      由于知識獲取的不確定性,通過知識抽取技術獲得的知識通常會存在重復、沖突、質(zhì)量參差不齊等情況,因此需要對知識進行轉換、清洗、消歧等操作,提升知識質(zhì)量后,方可將其用于知識推理和知識應用。知識融合技術根據(jù)融合對象的不同,可分為面向模式層的融合方法和面向?qū)嵗龑拥娜诤戏椒?。其中實例層的異構問題是風控領域知識融合面臨的主要問題,包括實體鏈接、實體對齊、沖突消解等主要任務。實例層客戶實體的融合是風控領域知識融合任務的主要目標。由于知識規(guī)模巨大而質(zhì)量參差不齊,多源異構實例數(shù)據(jù)的匹配面臨時間復雜度和空間復雜度的雙重挑戰(zhàn)。

      2.2.1 實體鏈接

      實體鏈接(entity linking,EL)旨在識別和提取文本中的新實體,將其與知識庫中的對應實體鏈接起來,并加入現(xiàn)有的知識庫中,消除知識的不一致性?,F(xiàn)有的相關工作可以總結為基于實體屬性、基于實體流行度、基于上下文或基于外部證據(jù)的實體鏈接方法。機器學習模型在實體鏈接任務中有著廣泛應用,2019 年,Miao等[40]在構建金融領域動態(tài)知識圖譜的過程中,利用SVM模型基于相似性特征與先驗知識進行金融實體鏈接,在測試集上的精度可達0.78。Song 等[41]在企業(yè)知識圖譜的構建過程中,使用代理學習技術訓練SVM 模型并計算給定實體與每個候選實體間的相似性分數(shù),在高于預定義的閾值時將給定實體鏈接到具有最高相似性得分的候選實體,在企業(yè)實體和自然人實體數(shù)據(jù)集上的F1值分別為0.90、0.81。Wang等[42]在股票市場知識圖譜的知識融合環(huán)節(jié)中,利用VSM模型進行實體鏈接,生成一組候選實體后通過計算實體間的相似度來確定是否需要消歧。近年來,深度學習作為研究熱點,也被廣泛應用于實體鏈接任務。2021年,Ding等[43]提出了一種基于端到端神經(jīng)網(wǎng)絡模型JEL的方法,該模型利用少量的上下文信息和Margin 損失來生成實體的向量表示,并通過聯(lián)合訓練Wide線性模型和深度神經(jīng)網(wǎng)絡模型分別匹配字符和語義信息,在摩根大通內(nèi)部數(shù)據(jù)以及金融新聞數(shù)據(jù)集上的實體鏈接任務中取得不錯表現(xiàn)。

      2.2.2 實體對齊

      實體對齊(entity alignment,EA)也稱為實體解析、實體匹配,指判斷相同或不同來源的兩個實體是否描述的是物理世界中的同一對象,以消除知識的異構性。目前EA 任務中的方法可分為成對實體對齊方法,以及集體實體對齊方法。

      成對實體對齊方法是基于實體及其屬性的相似度進行對齊。2019年,對于同一客戶在多家商業(yè)銀行同時擁有賬戶的情況,Suzumura等[44]在對金融犯罪檢測任務的研究中,使用基于簡單規(guī)則的EA方法,針對關系圖譜中的自然人客戶通過“全名+出生日期+國籍”或“身份證件類型+身份證件號碼+國籍”的屬性組合進行對齊,針對企業(yè)客戶通過“公司全稱+注冊日期+注冊地”或“注冊類型+注冊號+注冊地”的屬性組合進行對齊,以識別不同數(shù)據(jù)來源中的同一客戶實體。 此類方法簡單而高效,但在實踐中,由于客戶信息錄入時打字錯誤、文檔質(zhì)量不高、OCR過程出錯等問題,給基于規(guī)則匹配的實體對齊帶來了許多挑戰(zhàn)。而基于概率的方法具備一定的容錯性,早期有Fellegi-Sunter模型[45]為參與相似度計算的每個屬性評價其重要程度,對它們分配不同權重以提高相似度計算的可靠性,通過組合這些屬性就可以得到兩個實體之間的相似度概率。例如,企業(yè)客戶的實體對齊中,注冊地址、法人代表、注冊日期等屬性對于兩實體間相似度概率的影響要顯著大于經(jīng)營范圍、企業(yè)性質(zhì)、企業(yè)規(guī)模等屬性。集體實體對齊方法是在成對實體對齊方法的基礎上,將實體間相互關系也納入相似度計算中。2019 年,Trisedya 等[46]提出了一種融合實體結構向量和屬性字符向量的實體對齊模型,利用TransE生成實體結構向量并隱式地學習了關系傳遞信息,通過屬性三元組生成屬性的字符向量,從而計算實體之間的相似度,在真實知識圖譜的實驗中比基線模型的性能提高了50%以上。2020 年,Yang 等[47]針對之前EA 任務中對屬性信息的利用中所存在的不足,提出了一種融合實體結構和屬性信息的協(xié)同訓練模型COTSAE,模型的屬性嵌入組件基于偽孿生神經(jīng)網(wǎng)絡對字符級屬性信息進行編碼,并提出了聯(lián)合注意方法以確保屬性的類型及屬性值能夠共享注意力權重,該模型在實驗中優(yōu)于所有基線模型。

      商業(yè)銀行中一般存在著多個業(yè)務系統(tǒng),如核心銀行系統(tǒng)、信貸管理系統(tǒng)、客戶交易信息服務系統(tǒng)等,大型國有商業(yè)銀行具有多至上百個系統(tǒng)。在這些系統(tǒng)中,對于同一客戶的相關數(shù)據(jù)可能存在著一定差異,如表結構不同、字段值不一致、數(shù)據(jù)粒度不一致等。除了實體鏈接、實體對齊外,知識融合還需要解決不同來源的實例數(shù)據(jù)間的沖突。例如,來自不同數(shù)據(jù)源的同一企業(yè)的規(guī)模描述不同,可能這兩部分信息都是正確的,只是兩個數(shù)據(jù)源存在時間差,期間企業(yè)規(guī)模發(fā)生了變化,對于這種情況保留最新的信息即可。也有可能是因為知識抽取的過程中產(chǎn)生了錯誤,針對此類情況可采取基于投票或是基于質(zhì)量評估的方法進行沖突消解,基于投票的方法是對不同知識出現(xiàn)的頻率進行投票和統(tǒng)計,出現(xiàn)次數(shù)較多的知識可視為可信度較高。基于質(zhì)量評估的方法是通過考量數(shù)據(jù)來源、數(shù)據(jù)日期等因素對知識的置信度進行量化計算,保留置信度較高的知識。

      2.3 知識推理

      知識推理旨在從現(xiàn)有知識的基礎上深入挖掘出新的知識,從而對知識圖譜進行完善和拓展,有效應用知識推理技術可以輔助決策。在風控領域知識圖譜中,推理主要用于知識圖譜補全(knowledge graph completion,KGC)、三元組分類(triple classification,TC)等任務,其中知識圖譜補全是對三元組中缺失或隱含的實體、關系進行補全,即鏈接預測任務。而三元組分類則是確定三元組所描述的事實是否正確,進行二分類。知識推理方法大致上可以歸納為以下幾類:基于規(guī)則的推理方法、基于圖結構的推理方法、基于表示學習的推理方法、基于強化學習的推理方法以及基于時序性的推理方法。

      2.3.1 基于規(guī)則的推理方法

      基于規(guī)則的方法在早期的知識推理任務中應用廣泛,風控領域的規(guī)則來自于商業(yè)銀行內(nèi)的業(yè)務規(guī)定以及專家依據(jù)經(jīng)驗從已發(fā)生的風險事件中提取的特征信息。通過預設的經(jīng)過驗證的規(guī)則,根據(jù)規(guī)則與事實的匹配與否給出推理結果。如判定貸款資金是否受托支付的推理規(guī)則為:貸款發(fā)放時,收款人與借款人不一致。對于與規(guī)則匹配的某筆貸款,其支付方式可被判定為受托支付。2019 年,為預測企業(yè)破產(chǎn)風險,唐曉波等[48]通過CART 算法從訓練集中抽取用于破產(chǎn)預測的9 條規(guī)則,并將其轉化為對應的SWRL 規(guī)則,隨后利用Drools推理引擎進行可解釋的知識推理,在2008—2017 年美國破產(chǎn)上市公司數(shù)據(jù)上預測破產(chǎn)企業(yè)的準確率達到84.13%。除此之外,還可以對實體間隱含的關系進行推理。表3 中列舉了幾種隱含關系及其推理規(guī)則,可在風控領域知識圖譜中對客戶實體間的關聯(lián)關系進行深化。

      表3 關系推理規(guī)則舉例Table 3 Example of reasoning rules of relations

      為便于書寫規(guī)則,面向數(shù)據(jù)庫及知識庫的邏輯語言Datalog[49]得到開發(fā),在其基礎上,牛津大學推出了Vadalog[50],以平衡知識推理的計算復雜度和表達能力。2020 年,Atzeni 等[51]提出了基于Vadalog 和多層次聚類的Vada-Link框架,將KGC任務化分為聚類與多分類這兩個子任務,并在為意大利中央銀行構建企業(yè)股權知識圖譜的實踐中取得不錯效果,在20 個集群上的召回率為99.4%,在50 個集群上的召回率為98.6%?;谝?guī)則的推理方法較為精確且具有可解釋性,但學習能力不足,人工提供規(guī)則的效率較低。為彌補此缺陷,有學者提出了自動化的規(guī)則學習方法,如AMIE[52]通過迭代地在規(guī)則中增加懸掛邊、實例邊以及閉合邊,引入剪枝策略以高效地探索搜索空間,并在規(guī)則學習的過程中評估規(guī)則的質(zhì)量,可以有效應用在大規(guī)模知識圖譜上。為對知識圖譜缺失的關系進行推理,2020年,Zhang等[53]提出集成全局信息與關聯(lián)規(guī)則的概率模型FGEM,首先挖掘簡單規(guī)則并生成大量知識,以構造因子圖表示推理空間,然后通過開發(fā)EM算法,E步驟中使用置信度傳播算法計算候選邊的邊緣分布,M步驟中通過廣義迭代比例擬合框架學習軟規(guī)則的可信度,最終在關系補全任務中的表現(xiàn)優(yōu)于AMIE、TransH。自動化的規(guī)則學習方法將挖掘到的置信度高的規(guī)則添加進規(guī)則庫中,可以節(jié)省人力,大幅度提升工作效率。

      2.3.2 基于圖結構的推理方法

      由于知識圖譜特有的圖屬性,基于圖結構的方法尤其適于知識圖譜的推理任務。在知識圖譜技術面世之前,Lao等[54]已提出將基于隨機游走的PRA算法用于大規(guī)模知識庫中的推理和學習,將節(jié)點間的路徑作為特征預測潛在路徑,具有較好的可解釋性,但計算量大。Gardner等[55]其PRA基礎上提出表達能力更強的子圖特征提取模型SFE,舍去路徑特征的概率計算,直接保留二值特征,以有效降低計算復雜度。2022年,Wu等[56]將SFE方法應用在金融欺詐風險分析中,構建基于SFE的知識圖推理框架,通過搜索已知詐騙公司以挖掘潛在的詐騙公司,有助于監(jiān)管機構防范欺詐風險。除欺詐風險外,企業(yè)供應鏈的風險傳導也不容忽視,傳統(tǒng)的供應鏈風險分析方法只針對鏈中大型核心企業(yè),授信時以其非流動資產(chǎn)作為擔保,而中小企業(yè)依靠核心企業(yè)的信用擔保,傳統(tǒng)風控模式無法捕捉其日常交易中流動資產(chǎn)形式的轉換。針對這一問題,Zhang 等[57]提出了基于圖挖掘的企業(yè)供應鏈推理方法,利用企業(yè)間交易合同與企業(yè)基本信息搭建知識圖譜,隨后通過基于圖的社區(qū)檢測方法發(fā)現(xiàn)潛在的企業(yè)供應鏈,從而對供應鏈中的企業(yè)進行風險評估,以支持商業(yè)銀行授信決策。針對股權網(wǎng)絡中的關聯(lián)查詢問題,Ouyang等[58]提出了基于金融領域知識圖譜的雙節(jié)點關聯(lián)查詢DAQ 算法以及多節(jié)點關聯(lián)查詢MAQ 算法,以挖掘兩頂點之間最大股權鏈的k度關系路徑,為金融風險防控提供強有力的技術支撐。2020年,黃煒等[59]基于浦發(fā)銀行全行級企業(yè)關聯(lián)關系知識圖譜,利用隨機游走以及Fraud Rank 算法模擬了以輿情數(shù)據(jù)、借貸信息為起點的風險傳播過程,并對風險值進行計算。呂華揆等[60]通過深度優(yōu)先遍歷以及Tarjan算法對金融實體間持股關系、持股比例進行穿透式分析,并結合網(wǎng)絡中心度指標判斷實體對象風險水平,為風險識別和預測提供了新方法。

      基于圖結構的推理方法可以很好地挖掘圖結構中的路徑特征,結合業(yè)務規(guī)則,可以挖掘出實體間的隱含關系及路徑等,但在大規(guī)模知識圖譜的應用中會面臨高復雜度和巨大計算量等問題。

      2.3.3 基于表示學習的推理方法

      隨著知識圖譜的向量表示方法不斷完善,基于表示學習的推理也取得了新的進展?;诒硎緦W習的推理是將實體和關系映射到連續(xù)的向量空間中進行向量表示,再根據(jù)這些低維向量進行知識圖譜補全、三元組置信度評估等推理任務。其中應用較為廣泛的是基于平移距離的方法與基于語義匹配的方法。

      (1)基于平移距離的方法。其中較為經(jīng)典的模型如TransE[61]、TransH[62]、TransR[63]、TransD[64]等。它們的共同特點是得分函數(shù)通過計算頭、尾實體向量間的距離,以衡量此三元組的置信度。最早的翻譯模型TransE 受到詞向量中平移不變性的啟發(fā),將關系的向量表示解釋成頭、尾實體向量之間的轉移向量,簡單而高效。TransA[65]在TransE的基礎上,將得分函數(shù)中的歐氏距離改為適用性更高的馬氏距離,并為實體與關系向量的每一維學習不同的權重以區(qū)分其重要程度。TransParse[66]將TransR模型中的稠密矩陣簡化為稀疏矩陣,可以有效解決實體與關系的異質(zhì)性,減少參數(shù)數(shù)量,并通過對頭、尾實體使用不同的投影矩陣解決關系的不平衡性問題。為解決一種關系可能對應多種語義信息的問題,TransG[67]提出使用高斯混合模型及聚類算法生成實體關系的多種表示,不同的語義用不同的高斯分布描述。近年來,翻譯模型在風控領域知識推理任務中得到嘗試。2021 年,Ma等[68]提出了一種基于知識圖譜語義信息的深度學習模型,利用TransR模型將離散符號表示的知識圖譜嵌入到向量空間中,以挖掘債券實體之間的隱含關系,并使用融合知識圖譜語義信息的DeepFM 模型對債券違約進行預測,取得了不錯的效果。

      (2)基于語義匹配的方法。比較經(jīng)典的模型有RESCAL[69]、DistMult[70]、ComplEx[71]等,這些模型的共同特點是借助矩陣、張量或是神經(jīng)網(wǎng)絡挖掘?qū)嶓w向量和關系向量之間的語義聯(lián)系,其得分函數(shù)使用相似度來衡量。在RESCAL、DistMult 的基礎上,HolE[72]將二者相結合,引入循環(huán)相關運算描述實體之間的關聯(lián)。ANALOGY[73]將RESCAL中的關系矩陣約束為正規(guī)矩陣,以進一步對實體和關系的類比屬性進行建模。為學習到更多的特征,ConvE[74]提出使用多層卷積網(wǎng)絡進行知識圖譜嵌入,但對于實體與關系間的交互仍不充分,于是ConvR[75]提出將關系向量作為卷積核,以獲得實體與關系之間交互最大化,而InteractE[76]使用特征置換、交叉排列的特征重塑和循環(huán)卷積操作以增加實體與關系間的交互。SACN[77]提出使用加權的圖卷積網(wǎng)絡解決ConvE中圖結構信息未充分利用的不足,并保留了平移特性。2022年,Alam 等[78]將貸款違約預測二分類問題轉化為知識圖譜推理中的鏈接預測和三元組分類問題,即對三元組“分類為(申請人,?)”中缺失的尾實體預測為“違約”或“不會違約”,利用ComplEx 捕獲語義信息,并作為特征輸入到LR、RF 等傳統(tǒng)機器學習分類器以提升其性能,增強貸款違約預測模型的準確性和可解釋性。

      2.3.4 基于強化學習的推理方法

      2017 年,強化學習(reinforcement learning,RL)首次被引入知識圖譜推理中,經(jīng)過近幾年的探索,目前基于強化學習的推理方法已成為知識推理研究的新方向。開山之作DeepPath[79]旨在推理給定頭實體到尾實體之間的路徑,并將其建模為馬爾科夫序列決策問題,通過TransE將知識圖譜映射到連續(xù)空間中,利用基于蒙塔卡洛策略梯度的REINFORCE算法求解,在獎勵函數(shù)的設置中考慮路徑的多樣性、效率以及準確率,令智能體執(zhí)行最優(yōu)動作以拓展路徑,但其策略網(wǎng)絡需要預訓練,且搜索效率較低。緊隨其后,Minerva[80]旨在解決已知頭實體與關系情況下的查詢回答問題,并將其建模為部分可觀察的馬爾科夫決策過程。與DeepPath 相比,Minerva無需預訓練,獎勵函數(shù)較為簡單,且具備更強大的推理能力,但當缺乏高質(zhì)量路徑的訓練時,模型易受虛假路徑誤導。后續(xù)工作Multihop-KG[81]改進了Minerva的獎勵函數(shù),使用預先訓練的ConvE 模型計算軟獎勵,并在訓練過程中隨機掩蓋部分出邊,避免智能體受到歷史路徑誤導,實現(xiàn)對路徑的多樣化探索。于2019 年提出的AttnPath[82]通過引入基于LSTM與圖注意力機制的記憶組件以擺脫對預訓練的高度依賴,使用TransD 進行知識圖譜表示學習,并通過設定新的強化學習機制以避免智能體在某一節(jié)點持續(xù)停滯,在實驗中顯著優(yōu)于DeepPath。由于基于強化學習的推理方法具有良好的可解釋性和學習能力,在量化金融、投資交易等決策問題中已得到有效應用,同時在金融風控領域也進行了初步探索。為識別與防范企業(yè)重大風險,熊盛武等[83]提出了一種基于強化學習的區(qū)域產(chǎn)業(yè)關聯(lián)效應趨勢推理方法,以預測如“中美貿(mào)易摩擦”“關稅”等風險事件對關聯(lián)產(chǎn)業(yè)的影響趨勢,首先在產(chǎn)業(yè)知識圖譜上通過TransE將事實映射到低維向量空間,并將趨勢預測建模為序列決策問題,利用LSTM提取的歷史路徑特征和自注意力機制提取的鄰接實體特征構建策略網(wǎng)絡模型,智能體最終抵達的實體即預測結果。

      2.3.5 基于時序性的推理方法

      目前大部分知識圖譜相關研究大多是基于靜態(tài)知識圖譜,即認為圖譜結構不隨著時間變化而改變,只能反映某一時間點的風險信息。而真實數(shù)據(jù)通常具有隨時間演化的動態(tài)性,T+1 時刻的知識圖譜結構可能與T時刻的知識圖譜結構有著不小的差異,如企業(yè)實體的股權結構發(fā)生頻繁變動。同時新知識的重要程度一般大于舊知識,風控領域中的大部分業(yè)務都帶有時間窗口的限制,如統(tǒng)計客戶自貸款發(fā)放日起一個月內(nèi)進行的借方交易金額。

      近年來,基于時序性的知識推理方法相關文獻陸續(xù)發(fā)表。對于商業(yè)銀行來說,了解客戶行為對降低信用風險以及欺詐風險非常重要。2020 年,Shumovskaia 等[84]使用鏈接預測方法來挖掘銀行客戶間的交互,通過一家歐洲的大型銀行真實客戶交易數(shù)據(jù)集得到了具有8 600萬節(jié)點和40 億條邊的時序圖譜,按時間段劃分為三個部分:前三年、第四年和第五年,分別用于訓練、驗證和測試,隨后采用2-SEAL-RNN 模型進行鏈接預測,其中RNN 用于構建注意力機制,在提取目標鏈路周圍的閉合子圖之后處理關系對應的時間序列,最后將2-SEALRNN 作為GCN 中的注意力模塊以提高信用評分的質(zhì)量。針對擔保關系動態(tài)變化的擔保圈風險,Cheng 等[85]提出了一種基于時序圖譜的注意力神經(jīng)網(wǎng)絡模型DGANN用于預測風險擔保關系(即借款人違約而其擔保人未能償還擔保金額),模型包括具有結構注意力的GCN、具有時序注意力的GRN 以及計算風險概率的預測層這三部分,并在東亞一家主要金融機構2013—2016年期間的真實貸款數(shù)據(jù)集上對DGANN模型進行評估,對風險擔保的預測精度超越了GCN、SEAL、GRNN 等基線模型。隨后,Wang 等[86]提出通過時間感知圖神經(jīng)網(wǎng)絡TemGNN 對信用風險進行預測,該模型結合了靜態(tài)特征學習模型、帶有特殊圖卷積的短期圖編碼器以及基于LSTM的長期時序模型這三部分,能夠同時挖掘短期和長期的時間結構信息,最后在支付寶客戶借貸行為時序圖譜上進行違約預測,效果優(yōu)于所有基線模型。2022 年,Yang 等[87]引入時間信息構建企業(yè)動態(tài)風險知識圖譜,在“實體-關系-實體”三元組的基礎上增加時序維度,拓展為“實體-關系-日期/時間-實體”形式的四元組,通過基于多關系循環(huán)事件的動態(tài)知識圖譜推理方法Multi-Net 預測缺失實體和關系,并利用多關系鄰近聚合器得到每個時間戳下實體鄰近信息聚合后的向量表示,隨后利用基于LSTM的時序事件編碼器捕捉風險事件在多時間、多關系上的依賴性,將鏈接預測視為多分類問題并通過改進損失平衡函數(shù)提升計算精度,最后通過金融數(shù)據(jù)集驗證該模型在鏈接預測任務中的明顯優(yōu)勢。

      總的來說,基于表示學習的推理方法雖然可以自動捕捉特征,但可解釋性較差,且知識表示過程會產(chǎn)生語義損失。風控領域中決策空間巨大、推理鏈較長,基于表示學習的推理在復雜的推理任務上存在局限性,很難取得令人滿意的效果。Shao 等[88]在新加坡星展銀行的真實客戶數(shù)據(jù)上驗證了這一點,將TransE、DistMult、ComplEx用于知識圖譜補全任務,實驗結果表明這些模型在金融數(shù)據(jù)集上的性能遠低于在公共數(shù)據(jù)集上所能達到的效果?;趶娀瘜W習的推理方法是新興的推理手段,在風控領域有待進一步探索,例如用于風控領域知識圖譜中挖掘因果鏈的風險溯因場景,以生成可解釋的風險演化路徑?;跁r序的推理方法通過引入時序信息以契合真實的風控場景,主要利用RNN、LSTM 等神經(jīng)網(wǎng)絡捕獲時序特征,在對于可解釋性要求較高的風控領域中難以受到信任。目前在風控領域中應用較多的還是基于規(guī)則的推理方法以及基于圖結構的推理方法。隨著科技的不斷發(fā)展、人力成本上升,知識推理技術勢必要朝著自動化、智能化的方向發(fā)展,在這一技術領域中仍存在著許多挑戰(zhàn)和機遇。

      3 風控領域知識圖譜的應用

      面向商業(yè)銀行風控領域的知識圖譜有如下幾個方面的特點:(1)全面性。利用知識抽取技術以獲取全面的風險信息,基于知識圖譜描繪客戶風險全景圖以洞察客戶行為,有效防控信用風險、操作風險、欺詐風險。(2)深加工。利用知識推理技術挖掘?qū)嶓w間的潛在關系,以及擔保圈鏈、資金轉移鏈等復雜關系鏈。(3)淺表達。通過可視化工具進行圖形化展示,金融實體間錯綜復雜的關聯(lián)關系可以一目了然。近年來知識圖譜技術在商業(yè)銀行已有實際應用,表4中列舉了幾家商業(yè)銀行在風控領域中的知識圖譜應用成果[43,89-92]。以下從反欺詐、反洗錢、關聯(lián)風險預警、可視化分析、數(shù)字普惠金融等方面介紹知識圖譜的應用。

      表4 知識圖譜在商業(yè)銀行風控領域的應用成果Table 4 Application results of knowledge graph in field of risk management of commercial banks

      (1)反欺詐。欺詐行為包括薅羊毛、電信詐騙、刷單、中介代辦、套現(xiàn)等,若未嚴加防控,可能使商業(yè)銀行造受巨額損失,所以反欺詐在商業(yè)銀行的風險管理中起著重要的作用。風控領域知識圖譜可抽取和挖掘目標客戶的設備信息、交易數(shù)據(jù)以及行為數(shù)據(jù),拓展對欺詐風險的分析維度。在申請階段,可結合一定指標的預警規(guī)則對賬號、設備等風險因子進行分析,以支持高效、精準的反欺詐預測,對虛假申請等行為進行有效預警;在交易階段,結合特征工程和算法模型對目標客戶涉及的交易數(shù)據(jù)進行分析,對非法套現(xiàn)、盜刷等欺詐行為進行實時預警和監(jiān)控。2019年,金磐石等[93]提出了一種基于企業(yè)畫像與關聯(lián)圖譜的貸前反欺詐模型,對小微企業(yè)客戶的欺詐風險進行量化,在測試集上的AUC 值比僅利用企業(yè)基本特征建模提升了5%,能夠有效檢測申貸階段的欺詐行為。Yang 等[94]提出一種反欺詐檢測模型FraudMemory,通過TransE在交易圖譜上生成客戶實體的向量表示以提取語義特征,在某銀行的380萬條客戶交易數(shù)據(jù)上欺詐預測效果優(yōu)于SVM、GRU 等基線模型。2022 年,Mao 等[95]通過構建企業(yè)交易知識圖譜,提取交易規(guī)模、類型與頻率等特征,以增強金融欺詐行為檢測能力,并在2000—2019 年中國上市公司數(shù)據(jù)集上取得不錯的效果。

      (2)反洗錢。洗錢行為是指通過混淆資金來源,使非法獲得的金錢財產(chǎn)轉變?yōu)楹戏ㄙY產(chǎn)的過程。反洗錢是一項全球范圍內(nèi)的艱巨任務,通常涉及多地域、多機構、多部門。商業(yè)銀行面對的洗錢犯罪一般是團伙作案,利用多身份、多賬戶進行操作。隨著互聯(lián)網(wǎng)金融和數(shù)字貨幣的發(fā)展,洗錢作案方法越發(fā)復雜,洗錢作案手段越發(fā)隱蔽。僅依靠賬戶一度關聯(lián)交易識別洗錢賬號通常步履維艱,而利用知識圖譜建立賬號實體間的資金交易關系網(wǎng),可以對監(jiān)管賬號的關聯(lián)賬號進行深度追蹤挖掘,由淺到深地逐步排查可疑賬號,從而大幅度減少調(diào)查體量,提升反洗錢能效。2020 年,Bellomarini 等[96]提出基于Vadalog 和知識圖譜的反洗錢框架,對最終受益人、控股、夫妻等關系進行挖掘,然后根據(jù)綜合情況對可疑交易計算懷疑度評分。

      (3)關聯(lián)風險預警。外部風險是客戶發(fā)生違約的重要原因之一,因關聯(lián)企業(yè)的風險沖擊等外部因素引起的違約案例數(shù)不勝數(shù)。目前商業(yè)銀行的客戶洞察工作中,主要以客戶自身為研究對象,對于多個客戶間的風險傳導進行評估時通常只能評估與分析對象有直接關聯(lián)的客戶風險,而無法對其間接關聯(lián)客戶進行風險評估。通過搭建客戶關聯(lián)圖譜,可以對客戶錯綜復雜的外部關聯(lián)關系逐級梳理,有效拓展風險預警范圍,加強對關聯(lián)風險客戶的重點關注。考慮到同一種關系的緊密程度也存在差異,可根據(jù)關系屬性劃分關系等級,在風險傳導概率計算中為不同等級的關系分配不同的權重,例如,資金往來關系可以可根據(jù)交易金額的數(shù)量級劃分權值,“100 RMB”對應關系權值為3,“10 000 RMB”對應關系權值為5。2020 年,Xue[97]利用知識圖譜建立企業(yè)客戶關系網(wǎng)絡,挖掘風險傳遞路徑并計算風險傳遞系數(shù),以幫助商業(yè)銀行精準定位客戶的潛在風險。

      (4)可視化分析。風控領域知識圖譜將冗雜的信息轉化為高度結構化的知識網(wǎng)絡,借助可視化技術可以將知識資源映射為圖形元素,通過提供多維洞察視角,將實體間復雜關系直觀明了地描繪出來,令圖譜使用者對客戶、關系以及風險傳導路徑等信息了解得更為透徹。Wang等[98]基于交易數(shù)據(jù)構造了端到端的風控領域知識圖譜,將知識以三元組的形式存儲在Neo4j 圖數(shù)據(jù)庫,以文本列表和圖形可視化相結合的方式展示客戶之間的業(yè)務關系。

      (5)數(shù)字普惠金融。近年來,普惠金融受到高度重視,但風險一直是普惠金融發(fā)展中的核心問題之一,商業(yè)銀行在發(fā)展傳統(tǒng)普惠金融業(yè)務時面臨信息不對稱、貸前審批難、貸中貸后管理難等問題。而數(shù)字普惠金融實現(xiàn)金融科技與普惠金融的完美結合,利用知識圖譜技術打造數(shù)字化風控體系,能夠有效提升風控水平與工作效率。由于小微企業(yè)大多處于產(chǎn)業(yè)鏈弱勢地位,容易受到上下游風險傳導,中國農(nóng)業(yè)銀行通過構建小微企業(yè)知識圖譜,劃分風險客群,對小微客戶風險進行洞察和分析,致力于建設智能中樞,實現(xiàn)風控立體化,為數(shù)字普惠金融開辟了新道路[99]。

      目前,國內(nèi)銀行對于知識圖譜在風控領域中的應用尚淺,數(shù)據(jù)質(zhì)量還不完善,面臨數(shù)據(jù)治理能力和數(shù)據(jù)價值挖掘能力的挑戰(zhàn)。歐美對于金融知識圖譜的探索較早,構建技術較為成熟。十多年前,英國Garlik 公司就已將語義網(wǎng)用于在線信用監(jiān)控。由EDM Council 發(fā)布的金融業(yè)業(yè)務本體(financial industry business ontology,F(xiàn)IBO),此標準經(jīng)過包括美國道富銀行、德意志銀行在內(nèi)的多家銀行的檢驗。豐富的語義本體為知識圖譜奠定基礎,能夠準確描述金融實體,顯著減少映射工作,并能夠通過ETL代碼生成和自文檔化,降低維護成本。

      4 總結與展望

      本文在對知識圖譜的概念、體系架構等全面闡述的基礎上,介紹了風控領域知識圖譜構建技術的研究進展,并列舉了風控領域知識圖譜的實際應用及成果。由于大型商業(yè)銀行存量客戶可達千萬量級,在風控知識圖譜的構建過程中會生成以億為量級的節(jié)點和邊,不僅對圖譜存儲帶來巨大負擔,也為知識抽取、知識融合、知識推理等構建技術帶來了新的障礙,大型知識圖譜的管理和運營也是潛在的挑戰(zhàn)[100]。在過去的十年中,知識圖譜技術從首次被提出到現(xiàn)在廣泛研究,期間雖取得了諸多實踐成果,但在風控領域的落地實踐中仍存在進一步發(fā)展的空間。

      (1)進一步提升知識質(zhì)量與知識抽取效果。商業(yè)銀行中,各業(yè)務條線一般有著各自的管理系統(tǒng),不同系統(tǒng)或是同一系統(tǒng)的不同模塊可能出現(xiàn)重復錄入的情況,從而產(chǎn)生冗余或是數(shù)據(jù)不一致的錯誤,另外人工錄入信息時也可能輸入錯誤信息。在風控領域,對數(shù)據(jù)的準確性有著極高的要求,錯誤信息可能還會造成其關聯(lián)知識產(chǎn)生偏差,嚴重影響決策和判斷。在對結構化數(shù)據(jù)的抽取時可結合ETL技術提高知識質(zhì)量,對于非結構化文本數(shù)據(jù),可通過人工定義規(guī)則過濾掉一部分錯誤信息,并使用NLP 技術進行預處理。針對商業(yè)銀行風控領域的專業(yè)術語復雜度較高等特點,可以考慮結合融入專家經(jīng)驗的規(guī)則庫提升深度學習模型的效果。對于罕見詞和多義詞,結合垂直領域的業(yè)務背景加以解釋,提升知識抽取效果。

      (2)隱私保護下的知識共享。風控的本質(zhì)是利用數(shù)據(jù)降低信息不對稱程度,所以銀行需要全面采集客戶信息。而2021年《數(shù)據(jù)安全法》和《個人信息保護法》接連頒布,昭示著風控工作的前提是保障客戶隱私安全以及數(shù)據(jù)安全。相比較網(wǎng)絡爬蟲盛行的前幾年,當下更為注重個人隱私安全、數(shù)據(jù)合規(guī)性??紤]到客戶隱私、商業(yè)競爭等因素,銀行業(yè)未能形成聯(lián)合風控模式,無法共享數(shù)據(jù)、算法模型。故而可能出現(xiàn)這種情況:同一授信客戶在不同銀行的信用評分相差較大。現(xiàn)有的隱私保護機器學習技術如協(xié)作學習、聯(lián)邦學習以及安全機器學習,能夠支持多方在隱私保護下的數(shù)據(jù)使用和機器學習建模。知識圖譜中的知識涉及實體間的關聯(lián)關系,更為復雜。未來可考慮將知識存儲、知識表示與同態(tài)加密、密鑰共享等加密技術相結合,以促進知識共享。

      (3)增強知識推理的可解釋性。嵌入表示算法能夠獲得高效的計算效率,但模型越復雜,推理結果就越難被解釋,缺乏可解釋性的自動化推理與決策可能導致未知的風險。風控領域?qū)λ惴P偷陌踩阅芤筝^高,其可解釋性事關商業(yè)銀行穩(wěn)健經(jīng)營和客戶權益保障。有相關工作通過稀疏注意力機制、重要性權重等方法增強知識嵌入的可解釋性[101-102]。未來可以考慮提高已具備高安全性的基于規(guī)則或圖結構的推理模型性能,以及提升從黑盒模型中提取可解釋性描述的精確性。

      “十四五”規(guī)劃提出“加快數(shù)字化發(fā)展,建設數(shù)字中國”,央行也提出“力爭到2025 年實現(xiàn)整體水平與核心競爭力跨越式提升”的金融科技發(fā)展愿景,可以預見,商業(yè)銀行數(shù)字化建設仍將不斷加強、加深。在深度學習能力的支撐下,知識圖譜能夠有效提升商業(yè)銀行知識管理的智能化水平,為智慧金融的建設提供新動力,在銀行業(yè)的大規(guī)模應用已成必然趨勢。面向商業(yè)銀行的風控領域知識圖譜以風控業(yè)務為重心,通過建立以大數(shù)據(jù)為支撐的知識網(wǎng)絡,對風險進行智能化監(jiān)控與及時預警。當前知識圖譜在銀行業(yè)的落地仍處于發(fā)展階段的初期,如何使業(yè)務和技術深度融合是知識圖譜落地的關鍵。待領域知識圖譜構建技術進一步發(fā)展,知識圖譜將提供更為廣泛的知識服務,對于風險識別和分析的準確率也會越來越高。

      猜你喜歡
      圖譜實體領域
      繪一張成長圖譜
      前海自貿(mào)區(qū):金融服務實體
      中國外匯(2019年18期)2019-11-25 01:41:54
      領域·對峙
      青年生活(2019年23期)2019-09-10 12:55:43
      實體的可感部分與實體——兼論亞里士多德分析實體的兩種模式
      哲學評論(2017年1期)2017-07-31 18:04:00
      補腎強身片UPLC指紋圖譜
      中成藥(2017年3期)2017-05-17 06:09:01
      兩會進行時:緊扣實體經(jīng)濟“釘釘子”
      振興實體經(jīng)濟地方如何“釘釘子”
      主動對接你思維的知識圖譜
      新常態(tài)下推動多層次多領域依法治理初探
      肯定與質(zhì)疑:“慕課”在基礎教育領域的應用
      锦屏县| 杭州市| 电白县| 拉萨市| 杭锦后旗| 桐庐县| 繁峙县| 威宁| 赫章县| 达州市| 青神县| 石河子市| 宜兴市| 巴楚县| 和平县| 沈阳市| 石狮市| 山东省| 吉木乃县| 宿州市| 台北县| 景德镇市| 盖州市| 汶上县| 都兰县| 瓦房店市| 临沭县| 文登市| 商水县| 同江市| 永春县| 兴城市| 和林格尔县| 辽源市| 新乐市| 沾化县| 杭州市| 三江| 博爱县| 化隆| 宁晋县|