楊 波,楊美芳
(江西財經(jīng)大學(xué) 信息管理學(xué)院信息系,南昌 330032)
隨著信息技術(shù)、人工智能以及大數(shù)據(jù)技術(shù)的持續(xù)發(fā)展和不斷變革,新興技術(shù)賦能更豐富的新應(yīng)用使數(shù)據(jù)呈現(xiàn)規(guī)模式增長.海量數(shù)據(jù)中蘊藏著大量潛在有價值的知識,為經(jīng)濟社會的發(fā)展提供豐富而寶貴的知識資源,但如何從多元異質(zhì)的互聯(lián)網(wǎng)數(shù)據(jù)中獲取符合用戶需求的信息成為知識管理研究的關(guān)鍵問題.因此,我們應(yīng)遵循知識組織的原則,尋求既符合領(lǐng)域信息資源演化規(guī)律又滿足領(lǐng)域?qū)嶋H需求的知識管理方法,使其直觀而全面地展現(xiàn)網(wǎng)絡(luò)信息資源全貌,為用戶提供更優(yōu)質(zhì)的知識服務(wù).知識圖譜構(gòu)建了一種全新的知識服務(wù)模式,為解決風(fēng)險管理領(lǐng)域智能化語義檢索與網(wǎng)絡(luò)知識互聯(lián)提供了新思路.
知識圖譜最先Google公司于2012年正式提出,谷歌知識圖譜最初的目的是為提高搜索引擎效率并提升用戶搜索體驗[1].知識圖譜作為智能信息服務(wù)的輔助工具,近年來受到學(xué)術(shù)界與企業(yè)界的關(guān)注.大量學(xué)者對知識圖譜相關(guān)技術(shù)進行了深入研究,包括知識抽取、知識融合、知識推理與知識問答等[2];此外,企業(yè)應(yīng)用知識圖譜解決實際問題效果出色,以微軟、谷歌、FaceBook和IBM等為代表的國際巨頭和以BAT與華為等為代表的國內(nèi)大型企業(yè)在其產(chǎn)品中均使用了知識圖譜及其相關(guān)技術(shù).目前,知識圖譜逐漸開始應(yīng)用于風(fēng)險管理領(lǐng)域,在風(fēng)險識別、評估、預(yù)警與防控等方面具有很好的發(fā)展前景[3].知識圖譜是一種有向信息異構(gòu)網(wǎng)絡(luò),包含節(jié)點與有向邊,節(jié)點代表現(xiàn)實世界的實體,有向邊代表實體間關(guān)系.對企業(yè)界而言,風(fēng)險管理領(lǐng)域知識圖譜中蘊含著大量企業(yè)內(nèi)外部信息,以及企業(yè)間的關(guān)系,并可與企業(yè)經(jīng)營數(shù)據(jù)有效集成,從而挖掘企業(yè)間隱藏的關(guān)聯(lián)關(guān)系,幫助企業(yè)在知識驅(qū)動下自動完成風(fēng)險管理任務(wù)[4].隨著人工智能與大數(shù)據(jù)的快速發(fā)展,企業(yè)積累了大量風(fēng)險管理領(lǐng)域數(shù)據(jù),如何從這些數(shù)據(jù)中抽取有價值的信息并加以利用,是推進企業(yè)與社會智慧化進程的關(guān)鍵,也是風(fēng)險智能化管理的基礎(chǔ),對于提高管理決策水平、減少風(fēng)險損失意義重大.
2012年Google首次提出知識圖譜的概念,并把它定義為一個提供智能搜索服務(wù)的大型知識庫.然而從學(xué)術(shù)界與企業(yè)界發(fā)展動態(tài)來看,這一定義過于簡單.學(xué)術(shù)界普遍接受的定義為“知識圖譜是語義網(wǎng)技術(shù)之一,描述的是基于圖的數(shù)據(jù)結(jié)構(gòu),由節(jié)點(實體)和邊(實體間關(guān)系)組成[5].它本質(zhì)上是存儲實體及實體間聯(lián)系的結(jié)構(gòu)化網(wǎng)絡(luò).”此外,在特定情境下知識圖譜的內(nèi)容會頻繁動態(tài)地更改,最近也有學(xué)者嘗試構(gòu)建動態(tài)知識圖譜,將原有的三元組變更為包含時間戳的四元組,擴展了知識的演化性[6].企業(yè)界對知識圖譜的定義更加豐富與寬泛,通常將知識圖譜定義為運用圖結(jié)構(gòu)組織企業(yè)大規(guī)模的領(lǐng)域知識,并為企業(yè)提供個性化的智能服務(wù)[7].
從知識覆蓋領(lǐng)域來看,知識圖譜分為領(lǐng)域知識圖譜(Domain-Specific Knowledge Graph,DSKG)與通用知識圖譜(Universal Knowledge Graph,UKG).通用知識圖譜則更注重知識的廣度,強調(diào)實體間的融合,其精度與深度不高,難以形成統(tǒng)一的本體標準.領(lǐng)域知識圖譜將知識覆蓋范圍聚焦于特定領(lǐng)域,并綜合考慮業(yè)務(wù)需求、業(yè)務(wù)能力等因素,因此需定義更為嚴格的數(shù)據(jù)模式,保證領(lǐng)域?qū)嵗R的精度與深度.本文從知識表示、知識組織與知識應(yīng)用3方面總結(jié)DSKG與UKG的區(qū)別,如表1所示.
表1 領(lǐng)域知識圖譜與通用知識圖譜對比
本文通過對領(lǐng)域知識圖譜已有研究成果的分析,提出風(fēng)險管理領(lǐng)域知識圖譜的定義.
定義1. 知識圖譜.知識圖譜是描述物理世界中概念及其關(guān)系的語義知識庫,其基本組成單元為“實體-關(guān)系-實體”三元組與“實體-屬性-屬性值”三元組.知識圖譜通過三元組將知識表達為網(wǎng)狀的圖結(jié)構(gòu),便于知識的表示、抽取、組織、檢索與推理.
知識圖譜設(shè)計初衷是用于靜態(tài)知識表達,無法描述知識隨時間動態(tài)變化的過程[8].而風(fēng)險時刻在變化,這為風(fēng)險管理領(lǐng)域知識表達帶來極大不便.因此,將時間屬性增加到風(fēng)險管理領(lǐng)域知識圖譜的基本組織單元中,使之具備表達動態(tài)風(fēng)險知識的能力,是未來風(fēng)險管理領(lǐng)域知識圖譜研究的趨勢.基于此,本文將風(fēng)險管理領(lǐng)域知識圖譜的定義如下.
定義2. 風(fēng)險管理領(lǐng)域知識圖譜.風(fēng)險管理領(lǐng)域知識圖譜(Risk Management Domain Knowledge Graph,RMDKG)指的是風(fēng)險管理領(lǐng)域相關(guān)的結(jié)構(gòu)化風(fēng)險語義知識庫和風(fēng)險事件庫,其基本組成單元是“實體-關(guān)系-時間區(qū)間-實體”四元組和“實體-屬性-事件-屬性值”四元組.風(fēng)險管理領(lǐng)域相關(guān)信息通過四元組構(gòu)成網(wǎng)狀動態(tài)圖知識結(jié)構(gòu).
知識圖譜技術(shù)架構(gòu)指知識圖譜的構(gòu)建模式[9],主要包括自頂向下與自底向上兩種方式.自頂向下是首先構(gòu)建知識圖譜的本體與數(shù)據(jù)模式,然后再將抽取的實體與關(guān)系更新到知識庫中.自底向上指從開放鏈接數(shù)據(jù)中抽取置信度較高的實體關(guān)系合并到知識圖譜中,然后再構(gòu)建頂層的數(shù)據(jù)模式.RMDKG面向特定領(lǐng)域,對知識深度、質(zhì)量和粒度要求更加嚴格,需更加完備的本體層數(shù)據(jù)模式,因此RMDKG采用自頂向下和自底向上相結(jié)合的方式.
RMDKG主要利用抽取的大量領(lǐng)域知識解決風(fēng)險管理相關(guān)的問題.RMDKG構(gòu)建流程歸納為風(fēng)險管理領(lǐng)域知識抽取、風(fēng)險管理領(lǐng)域知識融合與風(fēng)險管理領(lǐng)域知識計算等3大模塊,如圖1所示.風(fēng)險管理領(lǐng)域知識抽取是從這些數(shù)據(jù)中提取實體、關(guān)系、時間、屬性等信息,并按照既定的存儲規(guī)則存入風(fēng)險管理領(lǐng)域知識庫.風(fēng)險管理領(lǐng)域知識融合是將風(fēng)險管理領(lǐng)域知識庫的內(nèi)容有機融合起來,通過知識整合、消歧等操作,增強風(fēng)險管理領(lǐng)域知識庫的柔性、條理性和系統(tǒng)性.風(fēng)險管理領(lǐng)域知識計算借助知識推理,推斷出可能引發(fā)的風(fēng)險事件,自動完成風(fēng)險識別、預(yù)警與處理.
圖1 風(fēng)險管理領(lǐng)域知識圖譜構(gòu)建技術(shù)架構(gòu)
RMDKG的構(gòu)建與應(yīng)用需要知識表示、抽取、融合、計算與推理等多種智能知識處理技術(shù)的支持.知識表示的核心在于對風(fēng)險管理領(lǐng)域文本中的實體和關(guān)系進行表示,并通過表示向量捕捉實體間的關(guān)聯(lián)關(guān)系.通過知識抽取技術(shù)可從海量的風(fēng)險管理領(lǐng)域文本數(shù)據(jù)中自動抽取實體關(guān)系,進而將實體與關(guān)系結(jié)構(gòu)化為知識,并擴充到知識圖譜中.借助知識融合技術(shù)消除實體與關(guān)系的歧義,形成高質(zhì)量的RMDKG.風(fēng)險管理領(lǐng)域知識計算與推理是在此基礎(chǔ)上進一步挖掘知識圖譜中蘊含的隱性知識,從而豐富與擴展RMDKG.
風(fēng)險管理領(lǐng)域知識表示(Risk Management Domain Knowledge Representation,RMDKR)是通過挖掘風(fēng)險管理領(lǐng)域數(shù)據(jù)中實體及實體間關(guān)系信息,并將這些信息組織成結(jié)構(gòu)化的知識網(wǎng)絡(luò)[10].傳統(tǒng)RMDKR方法處理風(fēng)險管理領(lǐng)域知識存在計算效率低與結(jié)構(gòu)稀疏等問題,很大程度影響知識圖譜在風(fēng)險管理領(lǐng)域的應(yīng)用.近年來,隨著深度學(xué)習(xí)與人工智能等知識表示技術(shù)的發(fā)展,RMDKG中的實體與關(guān)系可表示為低維稠密向量,使實體和關(guān)系的表示能夠充分融合知識圖譜的結(jié)構(gòu)信息,從而解決風(fēng)險管理領(lǐng)域?qū)嶓w與關(guān)系的復(fù)雜多樣性、圖譜結(jié)構(gòu)的稀疏性以及圖譜構(gòu)建過程信息不準確等問題,為RMDKG的構(gòu)建奠定基礎(chǔ).
RMDKR方法大致分為結(jié)構(gòu)向量模型、單層神經(jīng)網(wǎng)絡(luò)模型、語義匹配模型、隱變量模型與平移模型及其擴展.各類模型特點及其優(yōu)劣勢如表2所示.
由表2可知,盡管TransE模型兼顧了知識表示的效果與方法的執(zhí)行效率,并被廣泛應(yīng)用于知識圖譜的知識表示學(xué)習(xí)中,但在風(fēng)險管理領(lǐng)域應(yīng)用中仍有待改進.因此,TransE模型可從以下幾個方面進行拓展,這也是未來RMDKR研究方向.
表2 知識表示模型特點及其優(yōu)劣勢
1)TransE模型構(gòu)建基于理想化的平移假設(shè),而RMDKG中實體間存在一對多或多對多的復(fù)雜關(guān)系,因此知識建模往往會出現(xiàn)問題.為解決知識圖譜中復(fù)雜關(guān)系建模的問題,楊小平等人提出了基于平移模型的TransR模型,通過關(guān)系特化投影矩陣,將不同實體映射到不同的語義空間,使實體在不同關(guān)系中表現(xiàn)不同語義特征,有效提升實體間復(fù)雜關(guān)系的處理能力[11].
2)TransE模型只考慮了知識圖譜中局部實體關(guān)系信息,而未考慮知識圖譜全局的網(wǎng)絡(luò)結(jié)構(gòu)以及實體間蘊含的邏輯推理關(guān)系.郭茂盛等人認為文本蘊含知識推理機制能夠輔助實體間關(guān)系識別,同時大數(shù)據(jù)技術(shù)與深度學(xué)習(xí)理論為知識表示提供了豐富的知識來源和有力的研究工具,給知識圖譜的研究帶來新的視角[12].RMDKG的網(wǎng)絡(luò)關(guān)系路徑中蘊含著豐富的信息,運用人工智能與深度學(xué)習(xí)技術(shù)研究RMDKR將成為未來的研究趨勢.
3)TransE模型未考慮多源異質(zhì)的信息,這些信息既可輔助知識表示模型更好的學(xué)習(xí)已有的結(jié)構(gòu)化知識,也能提供結(jié)構(gòu)信息之外的多模態(tài)信息.多源信息融入知識表示學(xué)習(xí)的研究還處于探索階段,如融入實體文本描述信息、融入實體層次類型信息和實體圖像信息等方法是未來RMDKR的研究趨勢.
風(fēng)險管理領(lǐng)域知識抽取(Risk Management Domain Knowledge Extraction,RMDKE)是面向多源異構(gòu)的風(fēng)險管理領(lǐng)域數(shù)據(jù),通過手動或智能化技術(shù)抽取可用于風(fēng)險管理的候選知識單元[13].RMDKE的抽取流程分為實體與觸發(fā)詞識別模塊以及關(guān)系抽取模塊,如圖2所示.
圖2 實體關(guān)系抽取系統(tǒng)流程
RMDKE主要是對風(fēng)險管理領(lǐng)域文本進行知識建模,自動抽取領(lǐng)域?qū)嶓w間的語義聯(lián)系,獲得能有效解決風(fēng)險管理問題的語義知識.早期RMDKE主要采用預(yù)定義實體間網(wǎng)絡(luò)結(jié)構(gòu)規(guī)則或詞典驅(qū)動方法識別實體間的關(guān)系[14].Aone等人從大規(guī)模的領(lǐng)域文本中篩選領(lǐng)域?qū)嶓w,再利用已構(gòu)建的詞典實現(xiàn)實體關(guān)系抽取.該方法僅根據(jù)語義動詞抽取實體關(guān)系,而無法抽取其他類型的實體關(guān)系,靈活性較差[15].隨后,基于本體的RMDKE模型逐漸替代人工構(gòu)建的規(guī)則與詞典.Cimiano提出基于本體的實體關(guān)系抽取框架,該框架能自動抽取語義網(wǎng)中的實體關(guān)系形成知識庫[16].任飛亮等人認為在已知風(fēng)險管理領(lǐng)域知識基礎(chǔ)上,較適合采用機器學(xué)習(xí)的方法進行領(lǐng)域本體庫的構(gòu)建[17].接著,有學(xué)者嘗試將機器學(xué)習(xí)方法應(yīng)用于實體關(guān)系抽取,常用的方法有基于特征向量的有監(jiān)督方法、自舉方法與協(xié)同訓(xùn)練的半監(jiān)督方法、基于聚類算法的無監(jiān)督方法等[18].Wang等人綜合運用文本信息、語法分析樹以及實體間依存關(guān)系等多維信息構(gòu)造特征向量,并使用最大熵模型與文本語義特征相結(jié)合的方法進行實體關(guān)系抽取[19].該方法運用大量文本詞句特征,有助于擴展實體關(guān)系規(guī)模,提升實體關(guān)系抽取效率.Eric等人提出基于隨機特征映射的自舉算法,根據(jù)領(lǐng)域文本詞句特征抽取領(lǐng)域?qū)嶓w關(guān)系詞,該方法可改善其對標注語料庫的依賴[20].Huang等人面向特定應(yīng)用領(lǐng)域,融合實體關(guān)系的不確定圖模型與語義模板,構(gòu)建全程無監(jiān)督的實體關(guān)系抽取框架,自動抽取實體間的關(guān)系,有效促進無監(jiān)督方法在具體領(lǐng)域的應(yīng)用[21].
從大規(guī)模數(shù)據(jù)中獲取風(fēng)險管理領(lǐng)域?qū)嶓w及其關(guān)系,對風(fēng)險管理的研究具有重要應(yīng)用價值.傳統(tǒng)機器學(xué)習(xí)方法在風(fēng)險管理領(lǐng)域?qū)嶓w關(guān)系抽取過程中人工標注專業(yè)性不強,需進行大量特征工程,耗費時間且抽取效果參差不齊.因此,研究者嘗試將深度學(xué)習(xí)方法引入風(fēng)險管理領(lǐng)域?qū)嶓w關(guān)系抽取[22].深度學(xué)習(xí)是機器學(xué)習(xí)領(lǐng)域中新的方向,其本質(zhì)是模擬人腦進行分析與學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò).目前,基于深度學(xué)習(xí)的實體關(guān)系抽取能夠減少對標注數(shù)據(jù)的需求,并逐漸應(yīng)用于非結(jié)構(gòu)化的風(fēng)險管理領(lǐng)域?qū)嶓w關(guān)系抽取.深度學(xué)習(xí)的實體抽取方法可挖掘風(fēng)險管理領(lǐng)域?qū)嶓w與風(fēng)險間深層次的特征與聯(lián)系,在風(fēng)險識別、風(fēng)險預(yù)警與風(fēng)險管理研究方面有著廣泛的應(yīng)用.Aarya等人提出基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)的交通事故風(fēng)險管理領(lǐng)域?qū)嶓w關(guān)系抽取模型[23].風(fēng)險管理領(lǐng)域數(shù)據(jù)相比文獻數(shù)據(jù)具有不完整和非結(jié)構(gòu)化特性,抽取過程更復(fù)雜.Aarya運用詞義特征、位置向量、詞級向量等信息表示風(fēng)險管理領(lǐng)域文本信息,并利用CNN方法進行實體關(guān)系抽取.該方法在風(fēng)險管理領(lǐng)域?qū)嶓w關(guān)系抽取效果優(yōu)于機器學(xué)習(xí)方法.在此基礎(chǔ)上,F(xiàn)eng Jun等人針對特定領(lǐng)域文本語義信息豐富的特點,提出融合主題信息的卷積神經(jīng)網(wǎng)絡(luò)關(guān)系抽取模型,在不同環(huán)境下利用字符級與詞語級卷積神經(jīng)網(wǎng)絡(luò)模型對領(lǐng)域?qū)嶓w關(guān)系進行自動抽取.該模型能有效提升傳統(tǒng)CNN模型的抽取效果[24].基于CNN的抽取方法減少了對數(shù)據(jù)標注的依賴,但存在誤差傳播與噪音數(shù)據(jù)等問題.針對這一問題,肖毅等人融合CNN與注意力機制模型實現(xiàn)企業(yè)財務(wù)風(fēng)險事件的抽取[25].另外,為加強對目標實體關(guān)系的注意力,肖毅等人在注意力機制上增加了實體關(guān)系的描述信息,輔助風(fēng)險事件與預(yù)控方案的知識表示學(xué)習(xí),獲取最佳的實體關(guān)系知識庫.Lei等人提出基于CNN的協(xié)同消噪方法.該方法包括兩個CNN模塊和一個協(xié)同消噪模塊,先通過CNN模塊進行領(lǐng)域文本語料庫與知識圖譜的學(xué)習(xí),再利用自適應(yīng)雙向協(xié)同方法完成CNN模塊間的學(xué)習(xí),從而達到消噪的目的[26].
盡管基于深度學(xué)習(xí)的實體關(guān)系抽取能夠減少對標注數(shù)據(jù)的需求,并逐漸應(yīng)用于非結(jié)構(gòu)化的實體關(guān)系抽取,但抽取效果仍有待提升.隨著強化學(xué)習(xí)方法在科學(xué)、工程與藝術(shù)等領(lǐng)域的應(yīng)用,有學(xué)者將強化學(xué)習(xí)方法與深度學(xué)習(xí)方法相結(jié)合實現(xiàn)實體關(guān)系聯(lián)合抽取[27].陳佳灃等人提出基于強化學(xué)習(xí)的實體關(guān)系聯(lián)合抽取方法,分為實體抽取與關(guān)系分類兩個過程,如圖3所示[28].首先運用神經(jīng)網(wǎng)絡(luò)方法模擬領(lǐng)域文本上下文信息,并將抽取過程視為序列標注過程;然后運用注意力機制生成包含目標實體的初始狀態(tài);接著用神經(jīng)網(wǎng)絡(luò)方法生成中間狀態(tài);最后利用強化學(xué)習(xí)算法得到抽取策略.該方法可以將實體信息運用至關(guān)系抽取過程,使實體與關(guān)系信息間能交互學(xué)習(xí),有利于消除噪音數(shù)據(jù),同時也減弱錯誤知識的傳播.風(fēng)險管理領(lǐng)域文本語義豐富,風(fēng)險事件、風(fēng)控方案等實體及其關(guān)系復(fù)雜,融合強化學(xué)習(xí)與深度學(xué)習(xí)的實體關(guān)系抽取方法是未來研究的新方向.
圖3 基于強化學(xué)習(xí)的實體關(guān)系聯(lián)合抽取過程
風(fēng)險管理領(lǐng)域知識覆蓋面廣且來源多樣,存在知識分散、知識隨時間動態(tài)演化、不同語言表達導(dǎo)致語義理解困難、不同數(shù)據(jù)源知識質(zhì)量良莠不齊等問題.因此,國內(nèi)外工業(yè)界與學(xué)術(shù)界通過知識融合方法,將多源異構(gòu)且動態(tài)演化的知識通過檢測方法進行正確性判斷,并構(gòu)建領(lǐng)域知識庫支撐上層應(yīng)用,從而挖掘風(fēng)險管理領(lǐng)域知識價值[29].風(fēng)險管理領(lǐng)域知識融合(Risk Management Domain Knowledge Fusion,RMDKF)過程中,如何評價領(lǐng)域知識的質(zhì)量,降低領(lǐng)域知識理解的不確定性,挖掘領(lǐng)域知識的真值,并將高質(zhì)量的知識更新到領(lǐng)域知識庫是知識融合研究的重要內(nèi)容[30].RMDKF方法有實體對齊、實體鏈接以及關(guān)系推演等.其中,實體對齊用于消除風(fēng)險管理領(lǐng)域知識的異構(gòu)性;實體鏈接是運用消歧降噪等技術(shù)減少知識的不一致;關(guān)系推演用于挖掘數(shù)據(jù)庫中更深層次的隱性知識,擴充風(fēng)險管理領(lǐng)域知識庫.
3.3.1 實體對齊
實體對齊指判斷相同或不同數(shù)據(jù)庫中的實體是否對應(yīng)現(xiàn)實世界統(tǒng)一對象的過程.實體對齊方法分為兩類,包括基于實例及其屬性相似度的成對實體對齊以及在成對實體對齊基礎(chǔ)上基于實例間相互關(guān)系的集體實體對齊.
Singh等人運用邏輯連接詞將依賴關(guān)系表示為布爾匹配函數(shù),然后通過智能化處理自動生成布爾匹配函數(shù),從而判斷是否是同一實體[31].基于實例及其屬性相似度的實體對齊方法直觀簡單,但是該方法依賴于大量先驗知識.為解決這一問題,有學(xué)者嘗試使用基于實例間作用關(guān)系的集體實體對齊方法.基于實例間作用關(guān)系的集體實體對齊方法是在成對實體對齊方法的基礎(chǔ)上綜合考慮實例間作用關(guān)系以計算相似度.為進一步提升實體對齊模型的性能,有研究者將機器學(xué)習(xí)運用于領(lǐng)域知識圖譜中實體對齊的研究.Zhuang等人運用機器學(xué)習(xí)的方法對領(lǐng)域知識庫進行粗粒度對齊;然后通過推理模型推測問題的答案;最后借助容錯算法獲取實體對齊結(jié)果[32].深度學(xué)習(xí)是機器學(xué)習(xí)領(lǐng)域新的研究方向,也逐漸開始應(yīng)用于知識庫實體對齊.余傳明等人針對知識融合中存在數(shù)據(jù)冗余與不一致的問題,以知識圖譜為視角,提出基于深度學(xué)習(xí)的領(lǐng)域知識對齊模型.該模型使用多源異構(gòu)與跨語言數(shù)據(jù)集進行計算實驗[33].實驗表明該模型改善了實體對齊的效果,提升了領(lǐng)域知識的正確率與覆蓋率.知識對齊方法在解決實體沖突等不一致的問題上取得了一定的研究成果,但針對風(fēng)險管理領(lǐng)域知識對齊仍存在亟待解決的問題,概括起來有以下兩方面.一方面,風(fēng)險管理領(lǐng)域知識庫中數(shù)據(jù)量巨大、結(jié)構(gòu)復(fù)雜,對實體對齊模型的性能與擴展性要求更高.有學(xué)者嘗試運用并行與分布式算法解決實體對齊模型性能與擴展性問題.另一方面,目前大部分實體對齊的研究仍集中在離線處理階段,而風(fēng)險管理應(yīng)用環(huán)境下更需要實時處理領(lǐng)域?qū)嶓w對齊,因此需要更高效的實時算法解決風(fēng)險管理領(lǐng)域?qū)嶓w對齊問題.因此,構(gòu)建穩(wěn)定、可擴展的風(fēng)險管理領(lǐng)域?qū)崟r對齊任務(wù)模型是未來研究的重要方向.
3.3.2 實體鏈接
實體鏈接指運用風(fēng)險管理領(lǐng)域知識庫中的實體對從領(lǐng)域大數(shù)據(jù)文本中識別領(lǐng)域知識庫中與其對應(yīng)的映射實體.依據(jù)實體鏈接使用信息不同,實體鏈接方法可分為基于實體屬性的實體鏈接方法、基于實體流行度的實體鏈接方法、基于上下文的實體鏈接方法與基于外部證據(jù)的實體鏈接方法.本文對各類實體鏈接方法進行比較分析,具體如表3所示.
表3 實體鏈接方法的對比分析
3.3.3 關(guān)系推演
RMDKG構(gòu)建過程中通過實體對齊與實體鏈接能夠形成初步的本體庫,但風(fēng)險管理領(lǐng)域知識庫的需求與設(shè)計理念的不同導(dǎo)致知識庫中存在大量異構(gòu)數(shù)據(jù)[34].因此,還需運用關(guān)系推演方法將動態(tài)生成的實體關(guān)系不斷更新已有的風(fēng)險管理領(lǐng)域知識,從而形成高質(zhì)量的風(fēng)險管理領(lǐng)域知識庫.
RMDKG中實體關(guān)系存在兩種情況:1),風(fēng)險管理領(lǐng)域知識庫中存在與目標實體關(guān)系等價的實體關(guān)系,只需找到與之對應(yīng)的實體關(guān)系;2)風(fēng)險管理領(lǐng)域知識庫中不存在與目標文本實體關(guān)系等價的實體關(guān)系,則需要將實體關(guān)系擴展合并到知識庫,完成與風(fēng)險管理領(lǐng)域知識庫的關(guān)聯(lián)合并.
關(guān)系推演方法包括基于語義的關(guān)系推演與基于嵌入學(xué)習(xí)的關(guān)系推演.彭春光等人根據(jù)特定領(lǐng)域的交互信息,提出基于語義交互的關(guān)系推演模型,通過對比描述關(guān)系的上下文語義的相似度來判斷是否為同一關(guān)系.該方法能有效解決上下文語義相對簡單的實體關(guān)系推演問題,而對于風(fēng)險管理領(lǐng)域中遇到的各種復(fù)雜語義關(guān)系推演效果不佳.基于此,有研究者嘗試基于嵌入學(xué)習(xí)的關(guān)系推演方法.Dong等人通過嵌入式學(xué)習(xí)技術(shù)探尋合適的函數(shù)訓(xùn)練實體的嵌入表示,并判別兩個描述實體的關(guān)系是否為同一關(guān)系[35].實驗表明該方法能夠顯著提升實體關(guān)系推理效果.
綜上,RMDKF技術(shù)取得了一定成果,但仍需大量的人工干預(yù),高效的融合算法仍有待研究.
風(fēng)險管理領(lǐng)域知識推理(Risk Management Domain Knowledge Reasoning,RMDKR)指在已知風(fēng)險管理領(lǐng)域知識庫的基礎(chǔ)上深入挖掘知識庫中蘊藏的隱性知識,從而擴充已知風(fēng)險管理領(lǐng)域知識庫.而RMDKR具有行業(yè)特殊性,即使相同的風(fēng)險,仍需根據(jù)其行業(yè)內(nèi)外部環(huán)境作出不同判斷,因此RMDKG需處理大量矛盾數(shù)據(jù),增加RMDKR的難度.
RMDKR方法包括傳統(tǒng)的知識推理方法、基于人工智能的知識推理方法以及面向圖譜的知識推理方法,具體方法見圖4.Gentzen等人最早提出演繹推理方法,將演繹推理引入經(jīng)典邏輯推理過程[36].Huang等人運用語義描述邏輯與語義謂詞邏輯等規(guī)則推理訓(xùn)練網(wǎng)絡(luò)分類模型[37].基于邏輯、規(guī)則與案例的傳統(tǒng)知識推理方法在RMDKR方面取得了一定進展,但仍存在數(shù)據(jù)利用率不高、準確率低、學(xué)習(xí)能力不足等缺陷,難以滿足RMDKR的應(yīng)用需求.
圖4 風(fēng)險管理領(lǐng)域知識推理方法及研究趨勢
隨著風(fēng)險管理領(lǐng)域大數(shù)據(jù)規(guī)模的增長,傳統(tǒng)的知識推理方法存在推理時間過長、數(shù)據(jù)遺漏等問題,而人工智能方法可從海量的風(fēng)險管理領(lǐng)域數(shù)據(jù)中獲取知識真值,有效提升RMDKR的效率.基于人工智能的知識推理方法主要包括神經(jīng)網(wǎng)絡(luò)、遺傳算法等[38].基于神經(jīng)網(wǎng)絡(luò)的知識推理是利用神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)能力與泛化能力構(gòu)建實體關(guān)系事實元組.Socher等人利用神經(jīng)張量參數(shù)表示實體間的關(guān)系,并準確關(guān)聯(lián)實體向量,通過現(xiàn)有風(fēng)險管理領(lǐng)域知識庫推測其他實體關(guān)系事實[39].但在風(fēng)險管理領(lǐng)域,不僅需要挖掘隱含關(guān)系,還需挖掘外部實體鏈接到風(fēng)險管理領(lǐng)域知識庫.因此,Chen等人在此基礎(chǔ)上,再通過已有的風(fēng)險管理領(lǐng)域知識庫挖掘其外部新的實體關(guān)系,并將其更新到風(fēng)險管理領(lǐng)域知識庫[40].如何從風(fēng)險管理領(lǐng)域知識庫中挖掘最相似的實體關(guān)系決定了知識推理的性能.Kai等人使用改進的遺傳算法對風(fēng)險管理知識庫中的特征權(quán)重向量進行優(yōu)化,改善了知識推理性能[41].
無論是基于規(guī)則與案例的知識推理方法,還是基于人工智能的知識推理方法均將RMDKG作為知識推理的數(shù)據(jù)源.而面向風(fēng)險管理領(lǐng)域知識圖譜的知識推理則是將知識圖譜視為圖,將風(fēng)險管理領(lǐng)域?qū)嶓w視為節(jié)點,實體間的關(guān)系視為邊,通過實體間關(guān)系路徑所蘊含的信息對其語義關(guān)系進行推理.面向RMDKG的知識推理方法主要包括路徑約束隨機游走算法與路徑分級算法.Lao等人認為面向風(fēng)險管理領(lǐng)域知識圖譜的知識推理的基本思想主要是將實體視為節(jié)點,將關(guān)系或?qū)傩砸暈檫?,從源?jié)點開始,在知識圖譜上執(zhí)行隨機游走算法,若源節(jié)點能夠通過某一路徑達到目標節(jié)點,則可推斷源節(jié)點與目標節(jié)點之間可能存在關(guān)系[42].目前,面向知識圖譜的知識推理方法取得了一定的效果,但風(fēng)險管理領(lǐng)域知識結(jié)構(gòu)復(fù)雜、知識圖譜的不連通與稀疏性且隨時間動態(tài)變化,這將嚴重影響知識推理的性能.因此,針對風(fēng)險管理領(lǐng)域知識結(jié)構(gòu)復(fù)雜多樣的特性,Jasper等人運用具體實例集合表示領(lǐng)域?qū)嶓w間的多元關(guān)系,實體關(guān)系類型的具體事實表示為關(guān)系實例,組成關(guān)系實例的各要素視為領(lǐng)域?qū)嶓w[43].該方法能減少多元關(guān)系結(jié)構(gòu)信息的改變,但在此基礎(chǔ)上如何提升知識推理的靈活性將是未來研究的一個重要方向.針對RMDKG的不連通與稀疏性,Yang等人運用神經(jīng)網(wǎng)絡(luò)強學(xué)習(xí)和基于規(guī)則與案例相結(jié)合的方法,并融合多源信息進行知識推理,進一步提升模型的準確率與可解釋性,這也將成為未來知識推理的研究方向之一[44].此外,RMDKG隨著時間的推移而動態(tài)變化,Bellomarini等人運用知識圖譜各模塊的并行學(xué)習(xí)與集成推理方法,有效處理知識圖譜的增刪改,有助于實現(xiàn)風(fēng)險管理領(lǐng)域知識的動態(tài)推理,這也將是未來知識推理的研究方向之一[45].
知識圖譜為風(fēng)險管理領(lǐng)域多元異構(gòu)的大數(shù)據(jù)組織與管理提供更智能化的處理方式.目前,RMDKG主要用于風(fēng)險智能識別、風(fēng)險自動預(yù)警與風(fēng)險智能處理等方面.
面向知識圖譜的風(fēng)險智能識別是運用知識圖譜技術(shù),結(jié)合風(fēng)險辨識、風(fēng)險分析等風(fēng)險管理方法,實現(xiàn)風(fēng)險管理領(lǐng)域文本高效分析與智能化識別,有效防止誤判情況的發(fā)生.
王新浩等人認為風(fēng)險識別是運用風(fēng)險管理領(lǐng)域詞典,挖掘風(fēng)險事件中蘊含的文本特征,選取風(fēng)險特征詞,構(gòu)建風(fēng)險管理領(lǐng)域知識庫,并對風(fēng)險管理領(lǐng)域知識進行可視化處理的過程[46].該過程將非結(jié)構(gòu)化風(fēng)險管理領(lǐng)域文本數(shù)據(jù)轉(zhuǎn)化為RMDKG的形式,實現(xiàn)風(fēng)險管理領(lǐng)域文本初步的挖掘與分析,為后續(xù)的風(fēng)險預(yù)警與處理提供數(shù)據(jù)支撐.此外,有研究者們針對這一領(lǐng)域進行了深入的研究.Franco等人使用Protégé構(gòu)建基于本體的風(fēng)險管理領(lǐng)域知識庫,并對風(fēng)險事件的關(guān)鍵字與相關(guān)內(nèi)容進行標注,再借助Jena推理工具對風(fēng)險管理領(lǐng)域知識庫模型進行推理,通過自定義風(fēng)險識別語義規(guī)則,實現(xiàn)對風(fēng)險信息的識別與推理[57].實驗結(jié)果表明,該方法能夠快速發(fā)現(xiàn)多維風(fēng)險關(guān)聯(lián)信息,從而提高風(fēng)險信息的識別效果.Hyunsoo等人基于概念而非關(guān)鍵字的風(fēng)險識別方法,該方法將基于術(shù)語的風(fēng)險管理領(lǐng)域原始文本轉(zhuǎn)換為基于領(lǐng)域本體定義的風(fēng)險管理領(lǐng)域的概念,實驗結(jié)果表明該方法能夠有效提升風(fēng)險識別準確度,并為實現(xiàn)基于知識推理的風(fēng)險識別系統(tǒng)提供了理論框架[48].針對目前風(fēng)險識別系統(tǒng)自我學(xué)習(xí)能力的不足以及傳統(tǒng)案例推理過度依賴歷史案例的缺陷,Guilherme等人從工程領(lǐng)域風(fēng)險識別過程出發(fā),提出基于深度學(xué)習(xí)與案例推理的智能風(fēng)險識別系統(tǒng)[49].該系統(tǒng)通過對風(fēng)險領(lǐng)域案例的分析,結(jié)合本體技術(shù)構(gòu)建風(fēng)險管理領(lǐng)域案例庫,并融合深度學(xué)習(xí)的算法用以支持工程領(lǐng)域風(fēng)險信息的識別.
目前,風(fēng)險識別方法存在數(shù)據(jù)來源與數(shù)據(jù)類型簡單、研究角度片面等問題,歸根結(jié)底是風(fēng)險管理領(lǐng)域知識組織的問題,風(fēng)險管理領(lǐng)域大數(shù)據(jù)的價值在于其蘊含的隱性知識.因此,從RMDKG的角度出發(fā),豐富特定領(lǐng)域知識應(yīng)用模式,充分發(fā)揮知識圖譜對風(fēng)險識別的作用,是未來研究的趨勢之一.
知識圖譜技術(shù)為風(fēng)險管理領(lǐng)域大數(shù)據(jù)分析與應(yīng)用提供了技術(shù)支持,從海量風(fēng)險管理領(lǐng)域數(shù)據(jù)的抽取與表示到多源異構(gòu)風(fēng)險知識融合再到潛在風(fēng)險知識推理,形成完整的RMDKG技術(shù)路徑,為實現(xiàn)風(fēng)險自動預(yù)警提供了新思路.風(fēng)險自動預(yù)警系統(tǒng)是風(fēng)險智能識別系統(tǒng)的一種高級形式,能夠通過評價各種風(fēng)險狀態(tài)偏離警線的強弱程度向決策層發(fā)出預(yù)警信號并提前采取預(yù)控對策.面向知識圖譜的風(fēng)險自動預(yù)警系統(tǒng)旨在整合基于知識圖譜的風(fēng)險識別與風(fēng)險評價方法,設(shè)計適用于大數(shù)據(jù)環(huán)境下特定領(lǐng)域的風(fēng)險預(yù)警模型,并根據(jù)預(yù)警模型自動將預(yù)警信息以圖譜方式直觀地展現(xiàn)給決策層.
研究人員針對知識圖譜與風(fēng)險自動預(yù)警系統(tǒng)的融合進行了相關(guān)研究.邱玉霞等人運用文獻分析法與知識圖譜分析工具對網(wǎng)絡(luò)組織風(fēng)險研究視角與研究領(lǐng)域進行可視化分析,并基于共被引文獻分析,探討了網(wǎng)絡(luò)組織風(fēng)險形成、傳導(dǎo)與演化機理,深入研究了網(wǎng)絡(luò)組織風(fēng)險預(yù)警基本模式,為基于知識圖譜的組織風(fēng)險評價與預(yù)警研究奠定了基礎(chǔ)[50].Nazim等人利用文本抽取、領(lǐng)域數(shù)據(jù)融合與數(shù)據(jù)挖掘等技術(shù),探索RMDKG自動化構(gòu)建方法與風(fēng)險管理標準化流程,實現(xiàn)基于知識圖譜的風(fēng)險自動預(yù)警[51].Chen Li等人針對RMDKG在輔助風(fēng)險自動預(yù)警過程中缺乏管理者或?qū)<医?jīng)驗知識的問題,提出一種集成RMDKG與深度學(xué)習(xí)的風(fēng)險預(yù)警方法[52].該方法的關(guān)鍵在于構(gòu)建知識驅(qū)動的卷積神經(jīng)網(wǎng)絡(luò)模型,通過實體鏈接消歧與知識圖譜嵌入結(jié)構(gòu)化的風(fēng)險管理領(lǐng)域知識,并將風(fēng)險事件描述的風(fēng)險特征詞向量與領(lǐng)域?qū)嶓w向量作為卷積神經(jīng)網(wǎng)絡(luò)的多通道輸入.
目前,融合深度學(xué)習(xí)的風(fēng)險管理知識圖譜在金融監(jiān)管領(lǐng)域得到廣泛的應(yīng)用.深圳市金融辦與騰訊公司合作共建金融風(fēng)險預(yù)警監(jiān)測平臺.該平臺利用知識圖譜、數(shù)據(jù)挖掘與深度學(xué)習(xí)等技術(shù)手段,整合互聯(lián)網(wǎng)輿情、政府資源數(shù)據(jù)、銀行資金數(shù)據(jù)等大數(shù)據(jù),對深圳市金融企業(yè)進行金融風(fēng)險提前預(yù)判.此外,上交所也在積極部署監(jiān)管科技,提出利用深度學(xué)習(xí)結(jié)合金融機構(gòu)知識圖譜對上市公司風(fēng)險進行監(jiān)測預(yù)警,提高分類風(fēng)險管理效率,提升金融業(yè)監(jiān)管服務(wù)水平.
風(fēng)險智能化處理是指綜合考慮風(fēng)險性質(zhì)、大小以及風(fēng)險承受能力、風(fēng)險管理能力與核心競爭力等因素,利用數(shù)據(jù)挖掘、云計算、機器學(xué)習(xí)與知識圖譜等技術(shù)手段,以數(shù)據(jù)價值為驅(qū)動構(gòu)建智能化的風(fēng)險處理模型,并運用該模型自動選擇合適的風(fēng)險管理策略和工具,對所面臨的風(fēng)險進行處理.面向知識圖譜的風(fēng)險智能處理系統(tǒng)通常是將復(fù)雜的風(fēng)險管理問題簡化為多個小問題,然后運用智能語義搜索方法從風(fēng)險管理領(lǐng)域知識庫中匹配風(fēng)險預(yù)控方案,并自動檢測風(fēng)險預(yù)控方案在時間與空間上的匹配度等,最后將風(fēng)險預(yù)控方案進行整合,用以迅速應(yīng)對所面臨的風(fēng)險,并以圖譜的方式將風(fēng)險智能處理結(jié)果反饋給管理者.
中國互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)針對本次新冠疫情以及防控疫情中引發(fā)的網(wǎng)絡(luò)輿情風(fēng)險問題,嘗試利用機器學(xué)習(xí)、關(guān)聯(lián)挖掘、大數(shù)據(jù)分析等技術(shù)構(gòu)建突發(fā)事件網(wǎng)絡(luò)輿情風(fēng)險指標體系、評價重大突發(fā)事件網(wǎng)絡(luò)輿情風(fēng)險程度以及針對不同程度的風(fēng)險給出相應(yīng)的解決方案,為跨區(qū)域協(xié)同處理重大突發(fā)事件網(wǎng)絡(luò)輿情風(fēng)險提供范本.此外,很多研究者針對風(fēng)險智能處理領(lǐng)域知識圖譜的應(yīng)用進行了相關(guān)的研究.Bao等人體提出了基于風(fēng)險管理領(lǐng)域知識庫的風(fēng)險智能決策模型[53].該模型通過風(fēng)險管理領(lǐng)域知識庫分析風(fēng)險特征、類型及危害程度,并給出相應(yīng)的解決方案.陳曉軍等人針對目前金融領(lǐng)域知識圖譜存在信息缺失且準確率低等問題,利用知識圖譜中圖展示、圖挖掘以及圖模型計算等優(yōu)勢,構(gòu)建了企業(yè)風(fēng)險知識圖譜,并基于企業(yè)風(fēng)險知識圖譜構(gòu)建了智能問答機器人,實現(xiàn)了知識圖譜的檢索與利用,為面向知識圖譜的企業(yè)風(fēng)險智能化處理提供了重要參考[54].LIU等人基于商業(yè)銀行知識圖譜分析應(yīng)用體系,構(gòu)建企業(yè)關(guān)聯(lián)關(guān)系知識圖譜,并運用隨機游走與圖嵌入算法,實現(xiàn)了知識圖譜在商業(yè)銀行風(fēng)險管理中的應(yīng)用[55].實驗結(jié)果表明,該模型能夠較好地抽取風(fēng)險結(jié)構(gòu)信息,并能有效提升風(fēng)險處理的準確性.
總的來說,基于知識圖譜的風(fēng)險智能處理模型通過機器學(xué)習(xí)、數(shù)據(jù)挖掘等技術(shù),并融入具體領(lǐng)域的情境信息,能夠有效解決風(fēng)險智能處理過程中信息缺失、準確率低且耗時較長等問題.但是,目前大部分RMDKG都是處理靜態(tài)風(fēng)險管理問題,未考慮RMDKG中重要的時間信息,缺乏利用時間信息表示風(fēng)險管理領(lǐng)域更豐富的動態(tài)信息,不能推理RMDKG在時間上的動態(tài)演化過程.因此,將時間信息引入RMDKG是未來的研究方向之一.
隨著各領(lǐng)域信息化水平的不斷深入,風(fēng)險管理領(lǐng)域積累了大量的數(shù)據(jù),數(shù)據(jù)的充分利用對風(fēng)險智能識別、風(fēng)險自動預(yù)警與風(fēng)險智能防控等工作具有重要的意義.將知識圖譜技術(shù)融入風(fēng)險管理領(lǐng)域,開展RMDKG研究,通過海量風(fēng)險管理領(lǐng)域數(shù)據(jù)的抽取、表示、融合與推理,構(gòu)建RMDKG,最終向決策者提供風(fēng)險管理領(lǐng)域的知識服務(wù).與傳統(tǒng)的風(fēng)險管理模型相比,本文從知識圖譜構(gòu)建的視角出發(fā),介紹和分析了RMDKG架構(gòu)、RMDKG構(gòu)建的關(guān)鍵技術(shù)以及風(fēng)險管理領(lǐng)域應(yīng)用現(xiàn)狀與進展,并討論了今后的發(fā)展方向.目前風(fēng)險管理領(lǐng)域知識圖譜構(gòu)建技術(shù)日漸成熟,但依然需要研究者投入大量精力進行不斷探索,通過對現(xiàn)有風(fēng)險管理領(lǐng)域知識圖譜研究工作的總結(jié),在以后研究中可以從以下幾個方面展開相關(guān)研究.
1)開放領(lǐng)域?qū)嶓w關(guān)系抽取的深入研究.在風(fēng)險管理領(lǐng)域知識抽取環(huán)節(jié),面向開放領(lǐng)域的實體關(guān)系抽取大多面向特定關(guān)系類型或特定領(lǐng)域,部分研究成果僅在特定的數(shù)據(jù)集和語料庫上取得較好效果,但仍存在準確率低、擴展性差、約束較多且其他領(lǐng)域自動遷移能力差等問題.如何不斷提高系統(tǒng)的準確率、可擴展性以及可移植性,這激勵著學(xué)者們對開放領(lǐng)域?qū)嶋H關(guān)系抽取展開更深入的研究,促進風(fēng)險管理領(lǐng)域?qū)嶓w關(guān)系抽取的發(fā)展.
2)風(fēng)險知識融合方法需不斷改進.風(fēng)險知識融合的主要挑戰(zhàn)是實現(xiàn)多源異構(gòu)數(shù)據(jù)的有效鏈接.雖然風(fēng)險管理領(lǐng)域知識融合技術(shù)取得了一定的成果,但仍需大量的人工干預(yù),如何有效解決多源異構(gòu)、語義多樣與動態(tài)演化的風(fēng)險管理領(lǐng)域知識組織的問題,這將吸引著學(xué)者們不斷改進現(xiàn)有相關(guān)算法,不斷提升知識融合模型的性能.
3)融合多源信息與多種方法的動態(tài)知識推理模型性能的提升.近年來,越來越多的研究人員關(guān)注人工智能與深度學(xué)習(xí)相結(jié)合的知識推理方法.在此基礎(chǔ)上,融合多源信息的知識推理模型能夠有效解決風(fēng)險管理領(lǐng)域知識圖譜的不連通與稀疏性.另外,運用知識圖譜各模塊的并行學(xué)習(xí)與集成推理方法有助于實現(xiàn)風(fēng)險管理領(lǐng)域知識的動態(tài)推理.然而,融合多源信息與多種方法的動態(tài)知識推理模型性能還需進一步改進,不斷促進風(fēng)險管理領(lǐng)域知識融合的發(fā)展.
4)風(fēng)險管理領(lǐng)域知識圖譜應(yīng)用的深入探究.知識圖譜已被廣泛應(yīng)用于智能搜索、智能問答、個性化推薦等領(lǐng)域.通過學(xué)術(shù)研究與風(fēng)險管理需求進入深入融合,不斷提高風(fēng)險管理領(lǐng)域知識圖譜的運行效率,促進風(fēng)險管理領(lǐng)域知識圖譜模型性能的提升,為風(fēng)險管理者在風(fēng)險智能識別、風(fēng)險自動預(yù)警與風(fēng)險智能處理等方面提供更多便利.