李艷東
【關鍵詞】 知識圖譜; 商業(yè)銀行; 內部審計; 擔保; PageRank; 圖數(shù)據庫
【中圖分類號】 F239;C931.6? 【文獻標識碼】 A? 【文章編號】 1004-5937(2021)22-0115-05
一、引言
知識圖譜是以圖的形式來描述世界萬物及其關系的建模方法[ 1 ]。知識圖譜技術可以直觀、明了、形象地刻畫出審計關注對象(如客戶、員工、分支機構、股東、監(jiān)管機構、同業(yè)、供應商、合作伙伴等)之間的關聯(lián)網絡,并從多維度呈現(xiàn)審計對象的真實屬性和復雜多樣的連接關系,避免了抽樣風險,降低了審計風險,提升了內部審計的工作效率和效果。本文基于大數(shù)據語言和開源工具軟件,構建了改進的知識圖譜技術實現(xiàn)方法,對商業(yè)銀行擔保業(yè)務審計高階模型進行了嘗試和探索,有助于審計人員快速把握審計重點,并掌握新型的審計思路,為內部審計數(shù)字化轉型提供參考。
二、研究回顧
(一)知識圖譜簡介
知識圖譜基于語義網絡,能夠客觀描述實體之間或概念之間的復雜關聯(lián)關系。知識圖譜的構建涉及節(jié)點抽取、屬性定義、關系建立、圖形展示、關系優(yōu)化等多方面技術,而知識圖譜的應用涉及自然語言處理(NLP)、數(shù)據挖掘、機器學習、深度學習(Deep Learning)、人工智能等方面技術。
知識圖譜由節(jié)點和邊組成。節(jié)點可以是具象實體,如某個機構、某位客戶等,也可以是抽象概念,如精品盈利、最佳服務等。邊可以是實體的屬性,如聯(lián)系方式、通信地址,也可以是實體之間的關系,如股東、供應商。知識圖譜的初始理念是把用文本實現(xiàn)鏈接的傳統(tǒng)網絡轉化成具備一定智能、通過實體鏈接、能夠理解邏輯關系的語義網(Semantic)[ 2-3 ]。
1994年,Tim Berners-Lee提出網絡不應該只是網頁之間的互相鏈接。因為在現(xiàn)實生活中,網站描述的都是現(xiàn)實世界中存在的具體實物或者人腦中存在的抽象概念,網頁之間的鏈接應當體現(xiàn)這些實體或概念之間的關聯(lián)關系。但是當時計算機無法有效地從網頁中識別出其中相關語義。Tim Berners-Lee于1998年提出了Semantic
Web的概念[ 4 ]。與傳統(tǒng)的基于網頁的互聯(lián)網不同,Semantic Web的本質是基于事物(Web of Things),通過圖和鏈接的組織方式進行呈現(xiàn)。圖中節(jié)點不僅支持網頁,而且支持具象實體或抽象概念。圖中邊代表超鏈接,增加了語義描述,用于標明實體之間的關聯(lián)關系。
在Semantic Web概念之后,大量新興語義和知識庫開始涌現(xiàn),如亞馬遜公司的True Knowledge,谷歌公司的Freebase,IBM公司的Yago等。谷歌公司在2010年收購了MetaWeb公司,并以其Freebase產品為基礎,于2012年推出基于知識圖譜的搜索引擎。之后,知識圖譜開始在智能問答、輿情分析、數(shù)據挖掘、機器學習、深度學習等領域凸顯出越來越重要的作用。
(二)PageRank算法簡介
谷歌公司革命性的發(fā)明是“PageRank”網頁排名算法。該算法最初用于互聯(lián)網網頁搜集,在1998年前后使得網絡搜索實現(xiàn)質的飛躍。該算法會通過一定規(guī)則確定出每個網頁的PageRank(PR)值來衡量網頁的重要程度,然后對PR值進行大小排序[ 5 ]。在互聯(lián)網,當某網頁被多個網頁所指向或鏈接,說明它受到認可和信賴,其重要程度就高;如果某網頁沒有被指向或鏈接多次,但被其他重要的網頁指向和鏈接,那么該網頁重要程度也高。網頁的PR值主要受到三個因素影響,分別是指向該網頁的前置網頁數(shù)量、指向該網頁的前置網頁重要程度和該網頁背向指出數(shù)量。網頁PR值的計算方法如公式(1)所示。其中,PR(A)、PR(B)、PR(C)分別表示網頁A、B、C的PR值,L(B)、L(C)、L(D)分別表示網頁B、C、D的出鏈數(shù)。
如果用向量B=(b1,b2,…,bn)T表示各網頁的排名值,用Bi表示第i次迭代結果,用矩陣A=a11 … a1m … a1n… … … … …am1 … amm … amn… … … … …an1 … anm … ann表示網頁之間的轉移概率,其中amn表示第m個網頁指向第n個網頁的鏈接概率,那么可以用公式(2)表示網頁排名情況。其中,Bi表示i時刻的網頁排名情況,Bi-1表示前一時刻的網頁排名情況。
在公式(2)經過數(shù)次迭代趨于收斂后,可以得到公式(3):
由于存在某些孤立網頁不指向其他任何網頁的特殊情況,轉移矩陣A往往為稀疏矩陣。為了解決小概率事件下稀疏矩陣的運算問題,引入常數(shù)?琢進行平滑處理,得到公式(4)。其中N是互聯(lián)網網頁的數(shù)量,I是單位矩陣,?琢為介于0到1之間的常數(shù),一般取0.15。
PageRank算法在數(shù)據挖掘與知識圖譜中的研究和應用越來越多,尤其在社群識別(Community Identification)方面效果非常明顯。商業(yè)銀行在內部審計中可以運用PageRank算法,將審計關注對象作為網絡中的節(jié)點,通過各種關聯(lián)關系構建有向圖,然后計算轉移概率,再通過迭代,得到滿足收斂條件的PR值,進而識別出可疑個體及其關聯(lián)團體。
三、商業(yè)銀行擔保業(yè)務審計重點及存在困難
當前,國內外宏觀經濟發(fā)展處于下行期。商業(yè)銀行為規(guī)避社會信用環(huán)境惡化風險,主動壓降信用貸款,發(fā)展擔保貸款加強風險補償。在實踐工作中,擔保貸款管理不到位給銀行信貸資產造成損失的案例層出不窮,成為商業(yè)銀行內部審計必須關注的重點。
廣義擔保包括保證、質押和抵押等,是指商業(yè)銀行通過改變信貸風險輪廓來影響借款人的違約損失率或違約概率,從而降低其信用風險。狹義擔保特指保證,是指商業(yè)銀行與保證人約定,如果借款人不履行債務,保證人將承擔履行債務的責任[ 6 ]。擔保的最大特點是以第三人的信用來實現(xiàn)債務履約。在本文中,擔保特指狹義擔保。