楊波 廖怡茗
摘?要:[目的/意義]構(gòu)建企業(yè)風(fēng)險(xiǎn)知識(shí)圖譜,是對(duì)大數(shù)據(jù)環(huán)境下企業(yè)知識(shí)資源的有效組織和利用。針對(duì)現(xiàn)有企業(yè)知識(shí)圖譜多為知識(shí)的靜態(tài)映射問題,本文引入時(shí)間維度來刻畫企業(yè)風(fēng)險(xiǎn)事件的動(dòng)態(tài)性、突發(fā)性和時(shí)效性等演化特征。[方法/過程]經(jīng)過企業(yè)風(fēng)險(xiǎn)知識(shí)的信息抽取、知識(shí)融合、本體構(gòu)建以及動(dòng)態(tài)知識(shí)推理等環(huán)節(jié),自底向上系統(tǒng)性地構(gòu)建了企業(yè)動(dòng)態(tài)風(fēng)險(xiǎn)知識(shí)圖譜。在企業(yè)風(fēng)險(xiǎn)知識(shí)融合階段,針對(duì)企業(yè)領(lǐng)域數(shù)據(jù)集實(shí)體樣本的不平衡分類問題,本文提出ResNet動(dòng)態(tài)知識(shí)推理方法改進(jìn)了Multi-Net模型的損失平衡函數(shù)。[結(jié)果/結(jié)論]實(shí)驗(yàn)表明該知識(shí)推理方法能夠有效提高實(shí)體預(yù)測(cè)和關(guān)系預(yù)測(cè)的準(zhǔn)確性,對(duì)于企業(yè)領(lǐng)域知識(shí)具有良好的適用性,最后本文將該知識(shí)圖譜應(yīng)用于一個(gè)智能問答系統(tǒng)。
關(guān)鍵詞:企業(yè)動(dòng)態(tài)風(fēng)險(xiǎn);知識(shí)圖譜;知識(shí)融合;動(dòng)態(tài)知識(shí)推理
DOI:10.3969/j.issn.1008-0821.2021.03.011
〔中圖分類號(hào)〕G203?〔文獻(xiàn)標(biāo)識(shí)碼〕A?〔文章編號(hào)〕1008-0821(2021)03-0110-11
Research?on?the?Construction?and?Application?of
Knowledge?Graph?for?Enterprise?Dynamic?Risk
Yang?Bo?Liao?Yiming
(School?of?Information?Management,Jiangxi?University?of?Finance?and?Economics,Nanchang?330013,China)
Abstract:[Purpose/Significance]Constructing?an?enterprise?risk?knowledge?graph?is?an?effective?organization?and?utilization?of?enterprise?knowledge?resources?in?a?big?data?environment.Aiming?at?the?problem?of?static?mapping?of?existing?enterprise?knowledge?graphs,this?paper?introduces?the?time?dimension?to?describe?the?evolutionary?characteristics?of?enterprise?risk?events?such?as?dynamics,suddenness?and?timeliness.[Method/Process]Through?information?extraction,knowledge?fusion,ontology?construction?and?dynamic?knowledge?reasoning?of?enterprise?risk?knowledge,a?bottom-up?enterprise?dynamic?risk?knowledge?graph?was?systematically?constructed.In?the?enterprise?risk?knowledge?fusion?link,aiming?at?the?imbalanced?classification?problem?of?the?entity?samples?of?the?enterprise?domain?data?set,this?paper?proposed?the?ResNet?dynamic?knowledge?reasoning?method?to?improve?the?loss?balance?function?of?the?Multi-Net?model.[Result/Conclusion]Experiments?showed?that?the?new?model?could?effectively?improve?the?accuracy?of?entity?prediction?and?relationship?prediction,which?had?good?applicability?to?enterprise?domain?knowledge.Finally,the?knowledge?graph?was?applied?to?an?intelligent?question?answering?system.
Key?words:enterprise?dynamic?risk;knowledge?graph;knowledge?fusion;dynamic?knowledge?reasoning
隨著Web技術(shù)普及和社會(huì)信息化程度的提高,Web技術(shù)正向著基于知識(shí)互聯(lián)的語義Web方向發(fā)展,信息的多變性、異構(gòu)性和自治性使得人們難以從海量信息中獲取所需目標(biāo)資源[1]。知識(shí)圖譜以其強(qiáng)大的語義處理能力和開放互聯(lián)能力,讓大數(shù)據(jù)環(huán)境下的知識(shí)資源組織和管理更為高效,能夠有效解決智能搜索、智能問答、個(gè)性化推薦等基于知識(shí)的推理和決策問題。知識(shí)圖譜(Knowledge?Graph)的概念最早在2012年由谷歌正式提出,是用于增強(qiáng)其搜索引擎功能的知識(shí)庫,在智能搜索、情報(bào)分析、社交網(wǎng)絡(luò)、深度問答以及垂直行業(yè)[2-3]等領(lǐng)域取得了廣泛的應(yīng)用,此后各互聯(lián)網(wǎng)公司也紛紛推出各自的知識(shí)圖譜產(chǎn)品。當(dāng)前,國內(nèi)外研究人員開發(fā)了諸多高質(zhì)量大規(guī)模開放知識(shí)圖譜,包括DBpedia、Yago、BabelNet、ConceptNet以及Microsoft?Concept?Graph[3]等通用知識(shí)圖譜,以及阿里巴巴電商知識(shí)圖譜、Linked?Life?Data醫(yī)療項(xiàng)目和Kensho投資咨詢等垂直領(lǐng)域知識(shí)圖譜[4]。
大數(shù)據(jù)環(huán)境下,企業(yè)風(fēng)險(xiǎn)管理面臨信息爆炸的難題,企業(yè)風(fēng)險(xiǎn)知識(shí)涉及經(jīng)濟(jì)、產(chǎn)業(yè)、投資等覆蓋全行業(yè)的相關(guān)知識(shí),知識(shí)圖譜在企業(yè)商業(yè)活動(dòng)、創(chuàng)投咨詢及證券等金融領(lǐng)域具有重要價(jià)值,廣泛應(yīng)用于挖掘潛在客戶、反欺詐、內(nèi)審內(nèi)控、失聯(lián)客戶管理以及風(fēng)險(xiǎn)識(shí)別和預(yù)警等業(yè)務(wù)[5-6]。例如,建立行業(yè)、企業(yè)、客戶的實(shí)體關(guān)聯(lián)關(guān)系,根據(jù)貸款信息、行業(yè)信息建立關(guān)系挖掘模型,及時(shí)預(yù)測(cè)高風(fēng)險(xiǎn)行業(yè)及風(fēng)險(xiǎn)事件,企業(yè)可以盡早規(guī)避系統(tǒng)性風(fēng)險(xiǎn);在風(fēng)險(xiǎn)預(yù)警中,構(gòu)建基于企業(yè)現(xiàn)金流、經(jīng)營信息等屬性值的實(shí)體關(guān)聯(lián),通過深度學(xué)習(xí)方法對(duì)屬性值以及其衍生指標(biāo)進(jìn)行實(shí)時(shí)監(jiān)控,可以完善企業(yè)的風(fēng)險(xiǎn)預(yù)警系統(tǒng)。因此,研究企業(yè)風(fēng)險(xiǎn)知識(shí)圖譜具有重要實(shí)踐價(jià)值和理論意義,是對(duì)金融領(lǐng)域知識(shí)圖譜的進(jìn)一步探索和完善。
企業(yè)風(fēng)險(xiǎn)事件往往具有動(dòng)態(tài)性、突發(fā)性和時(shí)效性等演化特征,與其發(fā)生時(shí)間密切相關(guān),在構(gòu)建企業(yè)風(fēng)險(xiǎn)知識(shí)圖譜時(shí)加入時(shí)間信息,對(duì)于管理層把控決策風(fēng)向標(biāo)至關(guān)重要。目前已有學(xué)者構(gòu)建了金融領(lǐng)域知識(shí)圖譜,但是面向企業(yè)風(fēng)險(xiǎn)的知識(shí)圖譜研究仍相對(duì)匱乏,且多數(shù)只集中于某一特定環(huán)節(jié),如面向企業(yè)知識(shí)圖譜的中文命名實(shí)體識(shí)別[7]、實(shí)體鏈接[8]、關(guān)系抽取[9-10]等技術(shù)過程。盡管陳曉軍等[11]系統(tǒng)地研究了企業(yè)風(fēng)險(xiǎn)知識(shí)圖譜,并通過智能問答實(shí)現(xiàn)了對(duì)知識(shí)圖譜地檢索和利用,但僅僅構(gòu)建了一個(gè)靜態(tài)的企業(yè)知識(shí)圖譜,缺乏利用時(shí)間信息推理知識(shí)圖譜的演化過程,且未考慮到風(fēng)險(xiǎn)知識(shí)的動(dòng)態(tài)特征。領(lǐng)域知識(shí)圖譜相對(duì)于通用知識(shí)圖譜來說,知識(shí)的廣度、深度和粒度都有更加嚴(yán)格的要求,企業(yè)風(fēng)險(xiǎn)知識(shí)的一個(gè)顯著特征是高度動(dòng)態(tài)性,其知識(shí)圖譜的構(gòu)建便需要結(jié)合風(fēng)險(xiǎn)知識(shí)的時(shí)效性。有鑒于此,本文面向企業(yè)動(dòng)態(tài)風(fēng)險(xiǎn)引入時(shí)間維度,從信息獲取、知識(shí)融合、本體構(gòu)建和動(dòng)態(tài)知識(shí)推理4個(gè)環(huán)節(jié)自底向上構(gòu)建企業(yè)風(fēng)險(xiǎn)知識(shí)圖譜,并基于該企業(yè)動(dòng)態(tài)風(fēng)險(xiǎn)知識(shí)圖譜構(gòu)建了一個(gè)智能問答系統(tǒng),以可視化的圖譜形式實(shí)現(xiàn)用戶對(duì)企業(yè)風(fēng)險(xiǎn)信息的動(dòng)態(tài)把控。
1?相關(guān)工作
構(gòu)建面向企業(yè)動(dòng)態(tài)風(fēng)險(xiǎn)的垂直領(lǐng)域知識(shí)圖譜,不僅要基于面向企業(yè)風(fēng)險(xiǎn)管理的領(lǐng)域知識(shí),也需采用有效的動(dòng)態(tài)圖譜構(gòu)建技術(shù)模型。本節(jié)將介紹企業(yè)風(fēng)險(xiǎn)知識(shí)圖譜以及動(dòng)態(tài)知識(shí)圖譜構(gòu)建方法的相關(guān)研究。
1.1?企業(yè)風(fēng)險(xiǎn)知識(shí)圖譜研究現(xiàn)狀
企業(yè)知識(shí)圖譜是指關(guān)注于企業(yè)信息和關(guān)系的垂直領(lǐng)域知識(shí)圖譜[10],屬于金融領(lǐng)域,具有巨大的商業(yè)價(jià)值,目前國內(nèi)關(guān)于金融領(lǐng)域特別是企業(yè)風(fēng)險(xiǎn)領(lǐng)域的知識(shí)圖譜研究仍有待展開。王超[7]在經(jīng)典的BiLSTM-CRF命名實(shí)體識(shí)別模型的基礎(chǔ)上融入Self-Attention機(jī)制,提出SA-BiLSTM-CRF模型,將其應(yīng)用于標(biāo)注語料較少的企業(yè)領(lǐng)域,提出適用于企業(yè)領(lǐng)域的命名實(shí)體識(shí)別系統(tǒng),并基于此完成了企業(yè)圖譜的構(gòu)建,具有一定的工程應(yīng)用價(jià)值。劉波[8]提出了一個(gè)結(jié)合上下文匹配和知識(shí)庫信息檢索策略的實(shí)體指稱擴(kuò)展方法,根據(jù)候選實(shí)體消歧和實(shí)體生成方法設(shè)計(jì)了一個(gè)實(shí)體鏈接系統(tǒng),最后使用Neo4j將其應(yīng)用到企業(yè)領(lǐng)域知識(shí)圖譜的構(gòu)建中。孫晨等[9]針對(duì)企業(yè)知識(shí)圖譜在關(guān)系抽取效果上的局限性,提出給予分類的中文實(shí)體關(guān)系抽取方法,使用最大熵模型構(gòu)建更為完整的企業(yè)知識(shí)圖譜。吳錦鈺[10]提出BiGRU-CNN和BiGRU-Incep兩種基于深度學(xué)習(xí)的關(guān)系抽取模型,并通過注意力機(jī)制給不同實(shí)例句子分配權(quán)重以提高實(shí)體關(guān)系抽取的準(zhǔn)確率,構(gòu)建了一個(gè)小型的企業(yè)圖譜。然而,這些研究都只關(guān)注于知識(shí)圖譜構(gòu)建的某一環(huán)節(jié)而缺少全面性,也忽略了時(shí)間信息對(duì)風(fēng)險(xiǎn)演化的影響。
在風(fēng)控場(chǎng)景中,企業(yè)圖譜可以探查包括客戶風(fēng)險(xiǎn)、競(jìng)爭(zhēng)風(fēng)險(xiǎn)、政策風(fēng)險(xiǎn)以及市場(chǎng)風(fēng)險(xiǎn)等在內(nèi)的企業(yè)外部風(fēng)險(xiǎn),提供探究企業(yè)內(nèi)外主體及關(guān)系鏈的工具,能夠?qū)π袠I(yè)熱點(diǎn)、政策和關(guān)聯(lián)企業(yè)等進(jìn)行智能分析和風(fēng)險(xiǎn)預(yù)警,目前國內(nèi)發(fā)展比較成熟的有阿里云企業(yè)圖譜、百度云企業(yè)圖譜和海致企業(yè)圖譜[11]。在風(fēng)險(xiǎn)識(shí)別方面,馬海波[12]結(jié)合企業(yè)基本屬性和企業(yè)歷史風(fēng)險(xiǎn)中的特征信息,構(gòu)建企業(yè)關(guān)聯(lián)信息知識(shí)圖譜,通過分析企業(yè)節(jié)點(diǎn)和低信用列表實(shí)體節(jié)點(diǎn)的關(guān)系特征,提高了企業(yè)風(fēng)險(xiǎn)識(shí)別的能力。一些金融機(jī)構(gòu)如浦發(fā)銀行等也將知識(shí)圖譜應(yīng)用于風(fēng)險(xiǎn)預(yù)測(cè)中,但是企業(yè)風(fēng)險(xiǎn)知識(shí)圖譜的工業(yè)級(jí)應(yīng)用研究處于初步階段,如何系統(tǒng)而又全面地構(gòu)建風(fēng)險(xiǎn)知識(shí)圖譜,提高企業(yè)風(fēng)險(xiǎn)管理中領(lǐng)域知識(shí)利用效率仍有待探索。
1.2?動(dòng)態(tài)知識(shí)圖譜研究現(xiàn)狀
傳統(tǒng)知識(shí)圖譜被認(rèn)為是對(duì)多關(guān)系數(shù)據(jù)的靜態(tài)映射,而基于事件的交互知識(shí)除了有多關(guān)系性外,還具有復(fù)雜的時(shí)間動(dòng)態(tài)特征,引起了眾多學(xué)者的廣泛關(guān)注,近年來融合時(shí)間維度信息來構(gòu)建動(dòng)態(tài)知識(shí)圖譜的研究也逐漸興起。Trivedi?R等[13]采用隨時(shí)間推移的非線性演化的實(shí)體表示形式,提出包含時(shí)間邊沿的深度進(jìn)化知識(shí)網(wǎng)絡(luò)圖(Know-Evolve),有效地預(yù)測(cè)了事實(shí)的發(fā)生概率或復(fù)發(fā)時(shí)間,但無法解決并發(fā)事件的推理難題。
一些學(xué)者還關(guān)注于研究基于時(shí)間信息進(jìn)行建模的方法。García-Durán等[14]提出時(shí)序知識(shí)的補(bǔ)全方法(Temporal-Aware?Version?of?Trans?E,TA-Trans?E),利用遞歸神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)關(guān)系類型的時(shí)間信息表示,緩解了知識(shí)在時(shí)間表達(dá)上的稀疏性和異質(zhì)性。Leblay?J等[15]提出推演知識(shí)圖譜的時(shí)序方法(Temporal?TransE,TTransE),采用時(shí)間間隔注釋實(shí)體邊緣以反映實(shí)體關(guān)系時(shí)間維度的一致性,同時(shí)預(yù)測(cè)了未注釋邊緣時(shí)間有效性的任務(wù)。Dasgupta?S?S等[16]考慮知識(shí)圖譜中的關(guān)系事實(shí)通常表現(xiàn)出時(shí)間動(dòng)態(tài)特征,提出基于超平面的時(shí)間感知知識(shí)圖譜嵌入方法(Hyperplane-Based?Temporally?Aware?Knowledge?Graph?Embedding,HyTE),通過把每個(gè)時(shí)間戳與相應(yīng)的超平面相關(guān)聯(lián),將時(shí)間合并到實(shí)體關(guān)系空間中。Liu?J等[17]為了彌補(bǔ)演化知識(shí)圖譜模態(tài)表征和算法的不足,提出進(jìn)化知識(shí)圖譜(Evolve?Knowledge?Graph,EvolveKG),揭示了跨時(shí)間知識(shí)交互以及所需的存儲(chǔ)和計(jì)算性能,利用歷史影響力來預(yù)測(cè)未來的知識(shí)。然而這些動(dòng)態(tài)推理模型都是對(duì)單個(gè)時(shí)間點(diǎn)的處理,沒有捕捉到事實(shí)的時(shí)間相關(guān)性,只能對(duì)某個(gè)時(shí)間戳的知識(shí)圖譜進(jìn)行處理。
為了實(shí)現(xiàn)在全時(shí)間域內(nèi)對(duì)實(shí)體節(jié)點(diǎn)之間的時(shí)間、多關(guān)系和并發(fā)交互進(jìn)行建模,Jin?W等[18]提出對(duì)復(fù)雜事件序列進(jìn)行建模的循環(huán)事件網(wǎng)絡(luò)(Recurrent?Event?Network,RE-NET),解決了對(duì)多個(gè)時(shí)間點(diǎn)高并發(fā)事件的推理難題,以及隨著時(shí)間的推移進(jìn)行多步知識(shí)推理。在此基礎(chǔ)上,為了進(jìn)一步提高動(dòng)態(tài)圖譜在多關(guān)系對(duì)應(yīng)下的推理能力,陳浩等[19]改進(jìn)了RE-NET的鄰近聚合器,提出多關(guān)系循環(huán)事件的動(dòng)態(tài)知識(shí)圖譜推理方法(Dynamic?Knowledge?Graph?Inference?Based?on?Multiple?Relation?Cyclic?Events,Multi-Net),通過增強(qiáng)對(duì)同時(shí)間戳內(nèi)多個(gè)關(guān)系實(shí)體的聚合能力,提高了實(shí)體關(guān)系預(yù)測(cè)和實(shí)體消歧的精準(zhǔn)度。綜上所述,目前對(duì)于動(dòng)態(tài)知識(shí)圖譜的時(shí)間維度建模、時(shí)序知識(shí)推理的相關(guān)研究已取得了不同程度的進(jìn)展,然而這些方法主要針對(duì)大規(guī)模通用知識(shí)圖譜,對(duì)于垂直領(lǐng)域特別是企業(yè)風(fēng)險(xiǎn)知識(shí)圖譜的適用性仍有待探究。
2?企業(yè)動(dòng)態(tài)風(fēng)險(xiǎn)知識(shí)圖譜構(gòu)建
知識(shí)圖譜主要有自頂向下(Top-down)和自底向上(Bottom-up)兩種技術(shù)構(gòu)建方式[2]。自底向上的構(gòu)建方式首先對(duì)實(shí)體進(jìn)行歸納組織形成底層的概念,逐步向上抽取形成上層的概念[4],即從一些開放鏈接數(shù)據(jù)中提取實(shí)體,選擇置信度較高的實(shí)體加入知識(shí)庫中,再構(gòu)建頂層的本體概念模式[2]。隨著知識(shí)抽取和知識(shí)加工技術(shù)的不斷成熟,目前大多數(shù)知識(shí)圖譜采用自底向上的方式構(gòu)建,例如微軟的Satori知識(shí)庫和Google的Knowledge?Vault,都是基于公開的海量網(wǎng)頁數(shù)據(jù)自動(dòng)抽取資源來獲取知識(shí)[20]。
垂直領(lǐng)域知識(shí)具有極強(qiáng)的專業(yè)性,主要針對(duì)專業(yè)領(lǐng)域或行業(yè)的特定數(shù)據(jù)資源,同時(shí)考慮企業(yè)風(fēng)險(xiǎn)知識(shí)體系缺乏完備性的特點(diǎn),本文采用自底向上的方式[20]構(gòu)建知識(shí)圖譜,企業(yè)風(fēng)險(xiǎn)知識(shí)圖譜的技術(shù)架構(gòu)如圖1所示,主要由4個(gè)步驟構(gòu)成,分別是信息抽取、知識(shí)融合、企業(yè)本體構(gòu)建和動(dòng)態(tài)知識(shí)推理。
2.1?信息抽取
信息抽取是知識(shí)圖譜構(gòu)建的首要環(huán)節(jié),解決如何從多源異構(gòu)信息中自動(dòng)抽取出候選知識(shí)單元的問題,其中面向文本的信息抽取一般包括命名實(shí)體識(shí)別和關(guān)系抽取兩個(gè)任務(wù)。本文選取的實(shí)驗(yàn)數(shù)據(jù)來自人民日?qǐng)?bào)標(biāo)注語料庫,再通過百科數(shù)據(jù)得到企業(yè)基本信息對(duì)原始語料庫進(jìn)行補(bǔ)充;此外該語料庫屬于新聞?lì)I(lǐng)域,而企業(yè)風(fēng)險(xiǎn)知識(shí)圖譜的構(gòu)建重點(diǎn)關(guān)注于人物及企業(yè)領(lǐng)域的實(shí)體,于是又選擇爬取到的3?461條企業(yè)新聞對(duì)已有數(shù)據(jù)集進(jìn)行擴(kuò)充。首先過濾和篩選了數(shù)據(jù)集中的冗余和不相關(guān)信息,再對(duì)這些半結(jié)構(gòu)化和非結(jié)構(gòu)化的風(fēng)險(xiǎn)數(shù)據(jù)進(jìn)行抽取。
1)命名實(shí)體識(shí)別。命名實(shí)體識(shí)別又稱實(shí)體抽取,是指從非結(jié)構(gòu)化或半結(jié)構(gòu)化的文本信息中提取出多種指定類別的實(shí)體,其識(shí)別質(zhì)量對(duì)于后續(xù)實(shí)體鏈接和合并的效率影響極大,是信息抽取中最關(guān)鍵和基礎(chǔ)的環(huán)節(jié)。企業(yè)領(lǐng)域命名實(shí)體識(shí)別主要關(guān)注于人名、機(jī)構(gòu)名和地名實(shí)體等專有名詞,以及與動(dòng)態(tài)風(fēng)險(xiǎn)密切相關(guān)的時(shí)間實(shí)體信息,特別是公司名稱、縮略詞、企業(yè)專有名詞等的識(shí)別。
根據(jù)命名實(shí)體識(shí)別技術(shù)的發(fā)展脈絡(luò),命名實(shí)體識(shí)別的方法可以分為:基于規(guī)則、基于詞典、基于統(tǒng)計(jì)和基于深度學(xué)習(xí)4類?;谝?guī)則的命名實(shí)體識(shí)別可以根據(jù)不同行業(yè)的文本數(shù)據(jù),制定出與該行業(yè)特點(diǎn)最適用的規(guī)則模型,但是可移植性較差,過于依賴具體領(lǐng)域、語言和文本風(fēng)格;基于詞典的方法根據(jù)文本在預(yù)先構(gòu)建的詞典中的匹配結(jié)果來識(shí)別領(lǐng)域?qū)嶓w,由于詞典收錄實(shí)體完備性不足且難以更新,一般與基于規(guī)則或基于統(tǒng)計(jì)的方法結(jié)合使用;基于統(tǒng)計(jì)的常用方法有隱馬爾科夫鏈模型和條件隨機(jī)場(chǎng)模型等,前者沒有考慮實(shí)際文本處理中的上下文語義問題,對(duì)于領(lǐng)域標(biāo)注的性能不高,條件隨機(jī)場(chǎng)模型則需要使用標(biāo)注好的語料訓(xùn)練模型。由于企業(yè)風(fēng)險(xiǎn)知識(shí)圖譜的構(gòu)建對(duì)知識(shí)的準(zhǔn)確率有更高的要求,且企業(yè)領(lǐng)域的規(guī)范語料標(biāo)注較少,本文采用基于遷移學(xué)習(xí)的SA-BiLSTM-CRF模型[7]識(shí)別企業(yè)領(lǐng)域?qū)嶓w,遷移學(xué)習(xí)可以使得范圍更廣泛的語料數(shù)據(jù)在企業(yè)領(lǐng)域得到較好的識(shí)別效果。
經(jīng)典的BiLSTM-CRF命名實(shí)體識(shí)別模型包括Embedding層、BiLSTM編碼器和CRF層,其中LSTM網(wǎng)絡(luò)在處理長語句序列中較遠(yuǎn)距離的依賴特征時(shí),經(jīng)過多時(shí)間步驟的累積才能實(shí)現(xiàn)特征間的聯(lián)系,于是加入Self-Attention機(jī)制縮短距離來提高這些依賴特征的利用效果,模型結(jié)構(gòu)如圖2所示。其中X={x1,x2,…,xn}是由n個(gè)中文字符組成的輸入序列;經(jīng)過Embedding層字符嵌入后,E={Ec,Ep}分別表示字向量Ec,以及兼顧語句中詞序信息的位置向量Ep;字符向量分別以正向和反向順序輸入LSTM網(wǎng)絡(luò),得到含有上下文信息的特征Hi=[i,i];其次在Self-Attention層中通過Softmax函數(shù)歸一化,再加權(quán)求和得到含有正反語義信息的輸出H′i=[i,i,i,i];CRF層的作用在于解決有依賴關(guān)系的標(biāo)簽分類問題,輸出與輸入序列等長的標(biāo)簽序列Y={y1,y2,…,yn},最后使用BIEO標(biāo)注體系對(duì)各實(shí)體進(jìn)行標(biāo)注。
值得注意的是,企業(yè)領(lǐng)域語料標(biāo)注較少,人民日?qǐng)?bào)語料庫屬于新聞?lì)悩?biāo)注語料庫,直接使用會(huì)導(dǎo)致一些企業(yè)領(lǐng)域特征在新聞?lì)I(lǐng)域的局限下被忽略,本文通過遷移學(xué)習(xí)來優(yōu)化上述深度學(xué)習(xí)模型。對(duì)于提取人名、地名、機(jī)構(gòu)名的實(shí)體識(shí)別來說,企業(yè)和新聞?lì)I(lǐng)域的數(shù)據(jù)有極大的相似性,以新聞?lì)I(lǐng)域?yàn)樵搭I(lǐng)域,企業(yè)領(lǐng)域?yàn)槟繕?biāo)領(lǐng)域,首先使用人民日?qǐng)?bào)語料庫的新聞?wù)Z料進(jìn)行預(yù)訓(xùn)練,再基于百科網(wǎng)頁爬取到的1?429條企業(yè)領(lǐng)域標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練,將前者的SA-BiLSTM-CRF模型的參數(shù)訓(xùn)練結(jié)果分別遷移到后者模型的Embedding層和CRF層上,形成4個(gè)參數(shù)各異的對(duì)比實(shí)驗(yàn)。從表1的實(shí)驗(yàn)結(jié)果來看,人民日?qǐng)?bào)語料庫與企業(yè)領(lǐng)域數(shù)據(jù)存在一定程度上的相似性,遷移學(xué)習(xí)能夠有效提升SA-BiLSTM-CRF模型的實(shí)體識(shí)別效果。
2)企業(yè)實(shí)體關(guān)系抽取。命名實(shí)體識(shí)別之后的企業(yè)領(lǐng)域?qū)嶓w是離散的,為了得到企業(yè)實(shí)體間的關(guān)聯(lián)關(guān)系,通過關(guān)系抽取則可以獲取語義信息;企業(yè)的屬性一般包括創(chuàng)始人、董事長、高管、成立年份、城市等,通常也將企業(yè)屬性作為實(shí)體關(guān)系的一種,因此還需從企業(yè)百科網(wǎng)頁的基本信息中對(duì)各企業(yè)進(jìn)行屬性抽取。此外動(dòng)態(tài)知識(shí)圖譜的實(shí)體關(guān)系應(yīng)當(dāng)包含時(shí)序信息,吳錦鈺提出的BiGRU-CNN和BiGRU-Incep關(guān)系抽取方法[10]不僅注重時(shí)序信息的提取,而且關(guān)注于位置信息的提取,本文分別采用了這兩種模型進(jìn)行實(shí)驗(yàn)和比較。在進(jìn)行關(guān)系特征提取時(shí),將語料句法特征與實(shí)體特征相結(jié)合,首先把輸入的關(guān)系實(shí)例語句轉(zhuǎn)化為二維特征向量作為主要輸入特征,同時(shí)將實(shí)體特征如實(shí)體的長度、位置、上下文等特征輸入到Softmax分類器進(jìn)行特征融合,最終輸出Softmax概率最大的節(jié)點(diǎn)即為抽取得到的實(shí)體關(guān)系。
實(shí)體關(guān)系一般與前后實(shí)體形成“<實(shí)體1><關(guān)系><實(shí)體2>”結(jié)構(gòu)的知識(shí)三元組存儲(chǔ)到知識(shí)庫中,實(shí)體屬性則通過
2.2?知識(shí)融合
經(jīng)過信息抽取,獲取了企業(yè)實(shí)體和實(shí)體間的關(guān)系、屬性以及部分時(shí)間信息,盡管優(yōu)化的深度學(xué)習(xí)模型在實(shí)體識(shí)別和關(guān)系抽取中都存在優(yōu)勢(shì),這些結(jié)果還可能包含大量的冗余和沖突信息,同時(shí)為了提升知識(shí)的邏輯性和層次性,有必要對(duì)知識(shí)進(jìn)行融合,刪除錯(cuò)誤和冗余的知識(shí),消歧矛盾和沖突知識(shí),從而達(dá)到提升企業(yè)風(fēng)險(xiǎn)知識(shí)質(zhì)量的目的,其中實(shí)體鏈接和知識(shí)合并是知識(shí)融合的兩個(gè)主要任務(wù)。
1)實(shí)體鏈接。實(shí)體鏈接是指將從文本中抽取到的企業(yè)實(shí)體對(duì)象,鏈接到企業(yè)知識(shí)庫中所對(duì)應(yīng)的、指向現(xiàn)實(shí)世界同一事實(shí)的命名實(shí)體[20]。由于企業(yè)領(lǐng)域?qū)嶓w指稱復(fù)雜多樣,如“阿里巴巴集團(tuán)”和“阿里巴巴(中國)有限公司”指向同一實(shí)體,此外來源于網(wǎng)絡(luò)的語料和百科數(shù)據(jù)不規(guī)范,通過實(shí)體鏈接則可以有效解決企業(yè)實(shí)體指稱的多樣性和歧義性。目前實(shí)體鏈接的算法主要有無監(jiān)督的和有監(jiān)督的,無監(jiān)督的算法一般基于字典匹配或者相似度計(jì)算,對(duì)數(shù)據(jù)的規(guī)范化程度要求較高,企業(yè)領(lǐng)域?qū)嶓w數(shù)據(jù)復(fù)雜且不規(guī)范,于是采用融合卷積神經(jīng)網(wǎng)絡(luò)(CNN)和余弦相似度[8]的有監(jiān)督算法進(jìn)行企業(yè)實(shí)體鏈接。
融合CNN和余弦相似度的實(shí)體鏈接模型結(jié)構(gòu)主要分為:輸入層、CNN表示層、匹配層和輸出層。根據(jù)實(shí)體命名識(shí)別的結(jié)果,首先對(duì)語料數(shù)據(jù)進(jìn)行預(yù)處理,把以縮寫、簡(jiǎn)稱、別名等存在的企業(yè)實(shí)體進(jìn)行查詢修正,使用上下文匹配和知識(shí)庫信息檢索策略對(duì)實(shí)體指稱進(jìn)行擴(kuò)展,得到標(biāo)準(zhǔn)的實(shí)體名稱集合M={M1,M2,…,MN},并基于匹配規(guī)則[8]的方法生成候選實(shí)體集C={C1,C2,…,CN},使用Google開發(fā)的開源計(jì)算工具Word2Vec對(duì)候選實(shí)體集的詞向量化作為模型的輸入。其次通過CNN表示層計(jì)算語義特征,將原始的高維文本特征,映射到低維的語義空間向量中,輸出一個(gè)概念向量,再使用經(jīng)典的余弦相似度算法完成對(duì)實(shí)體概念向量的匹配。為了提高實(shí)體排序算法的性能,引入空實(shí)體判別機(jī)制,若候選實(shí)體集為空則認(rèn)為不存在歧義實(shí)體,對(duì)于候選實(shí)體排序結(jié)果設(shè)定閾值,若相似度小于該閾值也判定為空實(shí)體,最后與不使用空實(shí)體判別機(jī)制的實(shí)驗(yàn)進(jìn)行了對(duì)比。表3所示的實(shí)驗(yàn)結(jié)果表明,與單一的候選實(shí)體消歧算法相比,空實(shí)體判別能夠有效提升模型的準(zhǔn)確率和召回率。
2)知識(shí)合并。人民日?qǐng)?bào)語料庫以及企業(yè)新聞數(shù)據(jù)屬于半結(jié)構(gòu)化和非結(jié)構(gòu)化的文本數(shù)據(jù),除此之外第三方知識(shí)庫和已有的結(jié)構(gòu)化數(shù)據(jù)可以擴(kuò)展現(xiàn)有知識(shí)庫,于是選取百度百科、維基百科中文版和互動(dòng)百科知識(shí)庫中的部分企業(yè)網(wǎng)頁信息,爬取網(wǎng)頁源代碼中Title=“同義詞”的標(biāo)簽獲取同義詞作為候選實(shí)體集,對(duì)其進(jìn)行實(shí)體消歧后得到了企業(yè)的屬性信息,再將這些知識(shí)元素經(jīng)實(shí)體鏈接后加入到了企業(yè)風(fēng)險(xiǎn)知識(shí)庫,實(shí)現(xiàn)了結(jié)構(gòu)化風(fēng)險(xiǎn)知識(shí)的合并。
2.3?本體構(gòu)建
知識(shí)圖譜從邏輯上可以劃分為數(shù)據(jù)層和模式層[20],知識(shí)融合后得到了一系列正確的企業(yè)領(lǐng)域的基本事實(shí)表達(dá),然而事實(shí)本身并不等同于知識(shí),為了獲取具有邏輯結(jié)構(gòu)的知識(shí)體系,還需要進(jìn)行本體構(gòu)建來建立模式層的概念模板,借助本體庫來規(guī)范企業(yè)實(shí)體、關(guān)系以及實(shí)體的屬性和類型等對(duì)象之間的聯(lián)系。目前常用的本體構(gòu)建工具主要有可視化手工構(gòu)建和半自動(dòng)化構(gòu)建兩類,尚未出現(xiàn)自動(dòng)化的構(gòu)建工具,其中基于Java語言的Jena推理機(jī)[22]提供了通過程序調(diào)用算法半自動(dòng)化地構(gòu)建本體的方法,Jena推理機(jī)能夠存儲(chǔ)大規(guī)模的RDF數(shù)據(jù),同時(shí)提供處理OWL本體語言和RDFS本體的API,大大提高了本體構(gòu)建的效率。數(shù)據(jù)驅(qū)動(dòng)的半自動(dòng)化本體構(gòu)建過程[2]主要可以分為3個(gè)階段:①概念的并列關(guān)系計(jì)算;②實(shí)體的上下位關(guān)系抽取,主要是實(shí)體隸屬關(guān)系(HasA)的抽取,例如淘寶網(wǎng)和阿里巴巴集團(tuán)之間屬于隸屬關(guān)系;③生成本體,一般采用層次聚類[23]的方法,對(duì)各層次的抽象概念進(jìn)行聚類并指定公共上位詞來構(gòu)建本體結(jié)構(gòu)。
3?基于動(dòng)態(tài)知識(shí)圖譜的智能問答應(yīng)用
企業(yè)動(dòng)態(tài)風(fēng)險(xiǎn)知識(shí)圖譜實(shí)現(xiàn)了對(duì)融合時(shí)間信息的企業(yè)風(fēng)險(xiǎn)知識(shí)的關(guān)聯(lián)與整合,是對(duì)風(fēng)險(xiǎn)知識(shí)專業(yè)化和結(jié)構(gòu)化的語義表示,然而通過關(guān)鍵詞搜索知識(shí)圖譜的結(jié)果,用戶還不能獲得與風(fēng)險(xiǎn)防控密切相關(guān)的有效信息,因此本文將企業(yè)動(dòng)態(tài)風(fēng)險(xiǎn)知識(shí)圖譜應(yīng)用于風(fēng)險(xiǎn)知識(shí)智能問答系統(tǒng),進(jìn)一步提升用戶獲取目標(biāo)知識(shí)的針對(duì)性和準(zhǔn)確性。問答系統(tǒng)對(duì)用戶問題的自然語言理解程度決定了系統(tǒng)生成答案的準(zhǔn)確性,多輪問答機(jī)制通過多次追問的策略補(bǔ)充用戶問題所缺失的語義系統(tǒng)信息,幫助系統(tǒng)更準(zhǔn)確地理解用戶意圖。本文采用多輪自動(dòng)問答系統(tǒng)框架[26]構(gòu)建了基于企業(yè)動(dòng)態(tài)風(fēng)險(xiǎn)知識(shí)圖譜的智能問答系統(tǒng),主要包括問題理解、知識(shí)圖譜查詢和問答生成3個(gè)模塊,該系統(tǒng)的框架如圖8所示。
如圖8所示,問題理解模塊旨在將非結(jié)構(gòu)化的問題文本轉(zhuǎn)化為結(jié)構(gòu)化的語義表示。本文首先使用Jieba分詞對(duì)輸入的問句文本進(jìn)行中文分詞和詞性標(biāo)注,以及日期和數(shù)值處理等一系列預(yù)處理,如將“今天”一詞轉(zhuǎn)化為系統(tǒng)當(dāng)日時(shí)間“2020年7月18日”;其次進(jìn)行風(fēng)險(xiǎn)事件識(shí)別,風(fēng)險(xiǎn)事件實(shí)例一般分為4類:研發(fā)風(fēng)險(xiǎn)、管理者認(rèn)知風(fēng)險(xiǎn)、產(chǎn)品適應(yīng)性風(fēng)險(xiǎn)和社會(huì)網(wǎng)絡(luò)風(fēng)險(xiǎn);意圖識(shí)別是指對(duì)問句文本中用戶提問意圖的識(shí)別,與后續(xù)生成問答結(jié)果直接對(duì)應(yīng);本體屬性識(shí)別則是對(duì)問句文本中實(shí)體屬性和屬性值的識(shí)別。例如,輸入問句“2020年8月14日,餓了么逼迫商戶二選一遭20戶商家聯(lián)名舉報(bào),市場(chǎng)監(jiān)督管理局會(huì)罰款多少?”,所識(shí)別到的實(shí)體為“餓了么”“商戶”和“市場(chǎng)監(jiān)督管理局”,實(shí)體關(guān)系和風(fēng)險(xiǎn)事件時(shí)間為<舉報(bào)><2020年8月14日>,風(fēng)險(xiǎn)事件實(shí)例為管理者認(rèn)知風(fēng)險(xiǎn),意圖識(shí)別結(jié)果為罰款結(jié)果,蘊(yùn)含的屬性為餓了么平臺(tái)的“商戶數(shù)量”,屬性值為“20”。知識(shí)圖譜查詢模塊按照預(yù)定義的Cypher查詢模板,輸入問題理解中所識(shí)別的風(fēng)險(xiǎn)事件、問題意圖、實(shí)體屬性和屬性值進(jìn)行查詢;再對(duì)查詢到的子圖譜進(jìn)行結(jié)果計(jì)算,通過將問句文本中識(shí)別到的實(shí)體屬性集合與子圖譜依次計(jì)算差集來完成。若用戶輸入的問句文本語義完整,并且查詢結(jié)果符合答案閾值,則直接將查詢結(jié)果返回給用戶,否則通過Cypher查詢模板對(duì)用戶進(jìn)行缺失語義信息的追問。
本文通過Django實(shí)現(xiàn)對(duì)該智能問答系統(tǒng)的問答結(jié)果可視化。Django提供的Model-View-Controller開發(fā)框架無需第三方庫和工具便可以創(chuàng)建網(wǎng)站,是一個(gè)功能較為全面的Python?Web開發(fā)框架。圖9所示為該智能問答系統(tǒng)輸入“與阿里巴巴創(chuàng)始人相關(guān)的風(fēng)險(xiǎn)關(guān)聯(lián)關(guān)系有哪些”等問題的可視化界面。
4?結(jié)?語
針對(duì)現(xiàn)有企業(yè)風(fēng)險(xiǎn)知識(shí)圖譜的構(gòu)建方法大多為靜態(tài)知識(shí)映射,缺乏對(duì)企業(yè)風(fēng)險(xiǎn)的時(shí)間動(dòng)態(tài)特征建模,本文將時(shí)間信息融入企業(yè)知識(shí)圖譜構(gòu)建。本文詳細(xì)闡述了自底向上構(gòu)建面向企業(yè)動(dòng)態(tài)風(fēng)險(xiǎn)知識(shí)圖譜的完整過程,首先對(duì)企業(yè)風(fēng)險(xiǎn)領(lǐng)域的語料文本進(jìn)行信息抽取;其次通過實(shí)體鏈接和知識(shí)合并技術(shù),將抽取到的命名實(shí)體、關(guān)系和日期或時(shí)間信息進(jìn)行知識(shí)融合,并構(gòu)建了企業(yè)風(fēng)險(xiǎn)領(lǐng)域本體;針對(duì)企業(yè)領(lǐng)域數(shù)據(jù)集實(shí)體樣本的不平衡分類問題,本文提出的Multi-Net(ResNet)動(dòng)態(tài)知識(shí)推理方法改進(jìn)了原模型的損失平衡函數(shù),實(shí)驗(yàn)表明該方法能夠有效提高實(shí)體預(yù)測(cè)和關(guān)系預(yù)測(cè)的準(zhǔn)確性;最后構(gòu)建了企業(yè)動(dòng)態(tài)風(fēng)險(xiǎn)知識(shí)圖譜,并將該知識(shí)圖譜應(yīng)用于智能問答系統(tǒng)。本研究僅僅是面向企業(yè)動(dòng)態(tài)風(fēng)險(xiǎn)知識(shí)圖譜構(gòu)建的初步探索,對(duì)于模型中知識(shí)隨時(shí)間演化、轉(zhuǎn)移的完善還需進(jìn)一步研究。
參考文獻(xiàn)
[1]謝能付.基于語義Web技術(shù)的知識(shí)融合和同步方法研究[D].北京:中國科學(xué)院研究生院(計(jì)算技術(shù)研究所),2006.
[2]徐增林,盛泳潘,賀麗榮,等.知識(shí)圖譜技術(shù)綜述[J].電子科技大學(xué)學(xué)報(bào),2016,45(4):589-606.
[3]漆桂林,高桓,吳天星.知識(shí)圖譜研究進(jìn)展[J].情報(bào)工程,2017,3(1):4-25.
[4]王昊奮,漆桂林,陳華鈞.知識(shí)圖譜:方法、實(shí)踐與應(yīng)用[M].北京:電子工業(yè)出版社,2019.
[5]姜淵,黃樺,趙奕.知識(shí)圖譜在金融行業(yè)的應(yīng)用展望[J].金融電子化,2016,(9):87.
[6]雷豐羽.知識(shí)圖譜在金融信貸領(lǐng)域的應(yīng)用[J].現(xiàn)代商業(yè),2018,(10):89-90.
[7]王超.面向企業(yè)圖譜構(gòu)建的中文命名實(shí)體識(shí)別技術(shù)研究[D].南京:東南大學(xué),2019.
[8]劉波.面向企業(yè)圖譜的實(shí)體鏈接技術(shù)的研究[D].南京:東南大學(xué),2019.
[9]孫晨,付英男,程文亮,等.面向企業(yè)知識(shí)圖譜構(gòu)建的中文實(shí)體關(guān)系抽取[J].華東師范大學(xué)學(xué)報(bào):自然科學(xué)版,2018,(3):55-66.
[10]吳錦鈺.面向企業(yè)圖譜構(gòu)建的關(guān)系抽取技術(shù)研究[D].南京:東南大學(xué),2019.
[11]陳曉軍,向陽.企業(yè)風(fēng)險(xiǎn)知識(shí)圖譜的構(gòu)建及應(yīng)用[J/OL].計(jì)算機(jī)科學(xué):1-11.http://kns.cnki.net/kcms/detail/50.1075.TP.20200721.1547.078.html,2020-07-28.
[12]馬海波.面向風(fēng)控的企業(yè)關(guān)聯(lián)信息知識(shí)圖譜構(gòu)建與應(yīng)用研究[D].北京:北京工業(yè)大學(xué),2019.
[13]Trivedi?R,Dai?H,Wang?Y,et?al.Know-Evolve:Deep?Temporal?Reasoning?for?Dynamic?Knowledge?Graphs[J].2017.
[14]García-Durán,Alberto,Dumani?S,et?al.Learning?Sequence?Encoders?for?Temporal?Knowledge?Graph?Completion[J].2018.
[15]Leblay?J,Chekol?M?W.Deriving?Validity?Time?in?Knowledge?Graph[C]//Companion?of?the?the?Web?Conference,2018:1771-1776.
[16]Dasgupta?S?S,Ray?S?N,Talukdar?P.HyTE:Hyperplane-based?Temporally?Aware?Knowledge?Graph?Embedding[C]//Proceedings?of?the?2018?Conference?on?Empirical?Methods?in?Natural?Language?Processing,2018.
[17]Liu?J,Zhang?Q,F(xiàn)u?L,et?al.Evolving?Knowledge?Graphs[C]//IEEE?INFOCOM?2019-IEEE?Conference?on?Computer?Communications.IEEE,2019.
[18]Jin?W,Jiang?H,Qu?M,et?al.Recurrent?Event?Network:Global?Structure?Inference?over?Temporal?Knowledge?Graph[J].2019.
[19]陳浩,李永強(qiáng),馮遠(yuǎn)靜.基于多關(guān)系循環(huán)事件的動(dòng)態(tài)知識(shí)圖譜推理[J].模式識(shí)別與人工智能,2020,33(4):337-343.
[20]劉嶠,李楊,段宏,等.知識(shí)圖譜構(gòu)建技術(shù)綜述[J].計(jì)算機(jī)研究與發(fā)展,2016,53(3):582-600.
[21]任飛亮,沈繼坤,孫賓賓,等.從文本中構(gòu)建領(lǐng)域本體技術(shù)綜述[J].計(jì)算機(jī)學(xué)報(bào),2019,42(3):654-676.
[22]王向前,張寶隆,李慧宗.本體研究綜述[J].情報(bào)雜志,2016,35(6):163-170.
[23]Wang?C,Danilevsky?M,Desai?N,et?al.A?Phrase?Mining?Framework?for?Recursive?Construction?of?a?Topical?Hierarchy[C]//Proc?of?the?19th?ACM?SIGKDD?Int?Conf?on?Knowledge?Discovery?and?Data?Mining.New?York:ACM,2013:437-445.
[24]黃慶康,宋愷濤,陸建峰.應(yīng)用于不平衡多分類問題的損失平衡函數(shù)[J].智能系統(tǒng)學(xué)報(bào),2019,14(5):953-958.
[25]Bordes?A,Usunier?N,Garcia-Duran?A,et?al.Translating?Embeddings?for?Modeling?Multi-relational?Data//Burges?C?J?C,Bottou?L,Welling?M,et?al.,eds.Advances?in?Neural?Information?Processing?Systems?26.Cambridge,USA:The?MIT?Press,2013:2787-2795.
[26]陳金菊,王義真,歐石燕.基于道路法規(guī)知識(shí)圖譜的多輪自動(dòng)問答研究[J].現(xiàn)代情報(bào),2020,40(8):98-110,120.
[27]劉良.基于領(lǐng)域知識(shí)圖譜的智能問答關(guān)鍵技術(shù)研究[D].成都:電子科技大學(xué),2020.
(責(zé)任編輯:孫國雷)