廖浚斌,周 欣,2,何小海,王正勇,卿粼波
(1.四川大學 電子信息學院,四川 成都 610065;2.中國信息安全測評中心,北京 100085)
目前,世界處于網(wǎng)絡時代,各領域的信息呈爆炸式增長。涉恐信息零散地分布在海量的數(shù)據(jù)中[1],包括涉恐分子信息、涉恐組織信息、涉恐事件信息以及反恐策略等信息。如果能夠有效地獲取、組織及利用這些信息,將對各個國家在反恐、防恐工作中起到重要的促進作用。為了幫助相關人員對多元化的涉恐信息進行更好的分析及表達,需要建立一個基于涉恐領域的知識圖譜。涉恐領域知識圖譜的建立可以將海量的涉恐信息整合成結構化的有意義的知識,極大程度地方便了安全人員對涉恐人員及組織的分析[2]。
涉恐領域知識圖譜技術路線如圖1所示。具體流程為:(1)數(shù)據(jù)獲取,使用分布式爬蟲技術采集互聯(lián)網(wǎng)上已存在的非結構化數(shù)據(jù)和半結構化數(shù)據(jù);(2)信息抽取,對于半結構化數(shù)據(jù),需要根據(jù)其數(shù)據(jù)結構特征提取出人物、組織等實體和實體間的關系信息,對非結構化數(shù)據(jù)需要進行信息抽取,如采用實體識別[3-4]、關系抽取以及屬性抽取等技術,最終使數(shù)據(jù)通過三元組的方式進行鏈接;(3)實體對齊,借助構建的涉恐領域本體庫來輔助判斷數(shù)據(jù)中任意兩個實體是否指向真實世界同一對象,消除異構數(shù)據(jù)中的實體沖突、實體間指向不明等實體間的指向二義性問題[5];(4)通過構建的本體庫對數(shù)據(jù)進行推理補充,進一步完善數(shù)據(jù),最終形成涉恐領域的知識圖譜。
本知識圖譜主要從互聯(lián)網(wǎng)數(shù)據(jù)中獲取與恐怖主義相關的人物與組織信息,這些信息主要以兩種形式存在:半結構化的形式和非結構化的形式。第一類數(shù)據(jù)主要是各種社交媒體數(shù)據(jù),如維基百科、FaceBook、Twitter等。第二類數(shù)據(jù)來源主要以政府網(wǎng)站、新聞媒體網(wǎng)站以及各研究機構的公開網(wǎng)站為主,該類型網(wǎng)站的數(shù)據(jù)往往以非結構化的文本形式存在。針對以上兩類信息,考慮到其信息量的巨大,本文采用分布式爬蟲進行數(shù)據(jù)的采集。分布式爬蟲架構如圖2所示。
圖1 涉恐領域知識圖譜實現(xiàn)流程
圖2 分布式爬蟲架構
分布式爬蟲由三部分組成:(1)集中的統(tǒng)一資源定位符(Uniform Resource Locator,URL)調度管理和分配,即URL倉庫;(2)爬蟲節(jié)點;(3)數(shù)據(jù)存儲。URL倉庫負責對URL隊列進行管理并將URL分配給各爬蟲節(jié)點;爬蟲節(jié)點由多個子節(jié)點構成,每個子節(jié)點負責獲取和解析不同網(wǎng)站的數(shù)據(jù),最終將爬取的數(shù)據(jù)存儲到數(shù)據(jù)庫中。
實體關系抽取是指從文本信息中提取出實體之間隱含關系的方法,是實現(xiàn)知識圖譜的關鍵技術之一[6]。本文在構建涉恐領域知識圖譜時應用BI-GRU+Att模型完成了文本信息中實體的關系抽取任務,模型結構如圖3所示。
圖3 BI-GRU+Attention模型
其中,門控循環(huán)單元(GRU)網(wǎng)絡是循環(huán)神經網(wǎng)絡的一種變體[7],可以有效地克服循環(huán)神經網(wǎng)絡無法很好處理遠距離依賴的問題;而注意力機制可以增大關鍵詞的注意力權重,使得神經網(wǎng)絡更關注與關鍵詞相關的上下文信息[8]。
本體是對特定領域中的概念及其相互關系的形式化表達,是同一領域不同主體進行交流、連通的基礎[8-10],其相鄰層節(jié)點之間具有嚴格的從屬關系。在知識圖譜中,本體庫是用于管理知識圖譜的模式層,用于描述概念層次體系,是知識圖譜中知識的概念模板。通過本體庫形成的知識圖譜層次結構分明、冗余度小[11]。本文使用Protege本體庫構建工具進行涉恐領域本體庫的構建,Protege軟件是語義網(wǎng)中本體構建的核心開發(fā)工具。
本節(jié)將主要對數(shù)據(jù)爬取、實體的關系抽取和本體庫構建的實驗進行說明。
本文使用的涉恐領域的人物及組織信息主要從維基百科網(wǎng)站進行爬取,另外通過對反恐怖主義信息網(wǎng)、環(huán)球網(wǎng)等網(wǎng)站的爬取獲取更多的信息??傆嫬@取人物實例數(shù)據(jù)1 000條,組織實例數(shù)據(jù)200條。爬取的人物實例之一如表1所示,組織實例之一如表2所示。
表1 人物信息
表2 組織信息
本文使用BI-GRU+Att模型對隱含在涉恐人物和組織數(shù)據(jù)中的關系進行抽取,結果如表3所示。
表3 本文應用模型評價
從表3可以看出,本文針對涉恐信息的關系抽取方法由于網(wǎng)絡結構簡單,且使用字符級向量作為輸入,所以得到了較高的準確率。因此可以證明本文針對涉恐信息的關系抽取任務使用的關系抽取模型有一定的效果,但還有一定的提升空間。表4為人物關系抽取的實例展示,表5為組織關系抽取的實例展示。
表4 人物關系實例
表5 組織關系實例
從表4、表5可以得知,本文模型可以較好地從文本中抽取出實體間隱含的關系。
本文構建的人物本體庫與組織本體庫的類同屬于超類“Thing”,統(tǒng)稱為涉恐領域本體庫的類,本體庫的類結構如圖4所示。
圖4 類層次結構圖
其中人物庫的類包括人物類(People)和地點類(Location),而組織庫的類包括組織類(organization)、事件類(Event)和地點類(Location)。
本文通過使用非關系型圖數(shù)據(jù)庫Neo4j將通過上述流程所得的信息轉換為圖數(shù)據(jù)庫。圖5為知識圖譜部分節(jié)點的可視化展示。圖中展示的是與國家民主聯(lián)盟組織節(jié)點相關的節(jié)點。
圖5 知識圖譜可視化
本文首先使用了分布式爬蟲技術從互聯(lián)網(wǎng)中爬取涉恐領域的人物與組織數(shù)據(jù),然后利用BI-GRU+Att模型等技術實現(xiàn)對信息的抽取,并構建了涉恐領域的本體庫,最終實現(xiàn)涉恐領域的知識圖譜以及使知識圖譜可視化。因為本文的研究重點集中于特定領域的知識圖譜實現(xiàn),而針對基于知識圖譜的應用的研究尚處于初級階段,所以在未來的工作中將進一步研究基于知識圖譜的問答等應用領域,以便更好地滿足涉恐領域的需求。