國家開發(fā)銀行河北省分行 董 杭
本文簡述了知識圖譜的概念及其在銀行業(yè)中的應(yīng)用,并從方案設(shè)計和實現(xiàn)方法兩方面著手,對銀行網(wǎng)絡(luò)安全中知識圖譜技術(shù)的應(yīng)用進行分析,旨在為相關(guān)研究人員提供參考,更好地應(yīng)用于銀行網(wǎng)絡(luò)安全的維護中。
目前,信息服務(wù)應(yīng)用朝著智能化的方向發(fā)展,在個性化推薦、智能問答以及智能檢索等多個領(lǐng)域中都實現(xiàn)了知識圖譜技術(shù)的廣泛應(yīng)用。對于智能檢索應(yīng)用來說,系統(tǒng)將會突破以往關(guān)鍵詞匹配的局限,從用戶檢索的目的和實際環(huán)境出發(fā)展開推理,這樣檢索的結(jié)果便可以展現(xiàn)出更加結(jié)構(gòu)化以及層次化的特征。另外,知識圖譜技術(shù)的應(yīng)用,能夠使計算機更好地實現(xiàn)對于人類語言模式的理解,進而更加智能化地對用戶所需要的各類信息進行反饋。
(1)總體架構(gòu)
在構(gòu)建網(wǎng)絡(luò)安全知識圖譜的過程中,最為關(guān)鍵的內(nèi)容便是合理識別網(wǎng)絡(luò)安全實體以及對于實體關(guān)系的抽取,其具體的識別包括黑客信息、漏洞信息、惡意程序信息以及用戶信息等。結(jié)合當前的實際情況來分析,在深度學習基礎(chǔ)上所形成的網(wǎng)絡(luò)識別在效果上相對較好,其主要由循環(huán)神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)組成。之所以要對實體關(guān)系進行抽取,是因為要確定各個網(wǎng)絡(luò)安全實體之間所具有的關(guān)系,具體可以強化對于半監(jiān)督學習方法的應(yīng)用,進而提升實體關(guān)系抽取的實效性。
從實際情況來看,網(wǎng)絡(luò)安全結(jié)構(gòu)相對復雜且有著廣泛的數(shù)據(jù)來源,其中所涉及到的數(shù)據(jù)類型包括結(jié)構(gòu)化、半結(jié)構(gòu)化以及非結(jié)構(gòu)化等?;诖?,筆者在本文中基于傳統(tǒng)模型對于數(shù)據(jù)分類的管理提出了根據(jù)知識圖譜技術(shù)所形成的網(wǎng)絡(luò)安全數(shù)據(jù)組織方法。從網(wǎng)絡(luò)安全數(shù)據(jù)特征出發(fā),立足于相關(guān)接入規(guī)則的要求,從不同的層面著手,對相應(yīng)的網(wǎng)絡(luò)安全數(shù)據(jù)進行采納和收集工作;接下來要采取數(shù)據(jù)清洗的方式,針對原始數(shù)據(jù)的標準方式和格式規(guī)整等相關(guān)內(nèi)容展開相應(yīng)的預(yù)處理工作,對其中的各類有效信息進行保留,與此同時將數(shù)據(jù)的復雜程度降低。充分運用專家經(jīng)驗,完成對于網(wǎng)絡(luò)安全知識庫和相應(yīng)本體關(guān)系的構(gòu)建;運用雙向長短時記憶網(wǎng)絡(luò)-條件隨機場模型,在參數(shù)共享的基礎(chǔ)上高質(zhì)量實現(xiàn)實體識別、關(guān)系抽取,這樣便能解決其普遍存在的因為多標注所造成的模型準確性降低的問題;然后便可對完成合并后的知識進行組織,繼而構(gòu)建起更加完整和全面的知識圖譜。
(2)網(wǎng)絡(luò)安全知識圖譜設(shè)計
網(wǎng)絡(luò)安全知識圖譜主要涉及到兩方面內(nèi)容。一方面為通用知識圖譜,其中包含安全公告、攻擊威脅、已知漏洞等信息,這些信息能夠在各個漏洞網(wǎng)站中獲得,本質(zhì)上屬于已有的安全知識;另一方面,能夠?qū)崿F(xiàn)對于網(wǎng)絡(luò)結(jié)構(gòu)覆蓋的擴展知識圖譜,其中主要包含網(wǎng)絡(luò)運維、網(wǎng)絡(luò)拓撲、網(wǎng)絡(luò)資產(chǎn)等信息,是一種具體網(wǎng)絡(luò)的特有知識,需要對其展開具體的學習。
知識圖譜在深度學習能力的應(yīng)用下能為銀行動態(tài)、海量的大數(shù)據(jù)表達、管理和應(yīng)用帶來一種更加高效的手段,提升銀行知識處理的智能化水平,使其能夠無限同人類本身的認知思維相適應(yīng)。知識圖譜的應(yīng)用場景具體包括三方面內(nèi)容,分別為智慧平臺級、業(yè)務(wù)領(lǐng)域級和通用應(yīng)用級,具體如圖1所示。
圖1 知識圖譜的應(yīng)用場景
筆者主要針對業(yè)務(wù)領(lǐng)域級和通用應(yīng)用級展開分析。
從銀行金融業(yè)務(wù)分類的實際情況進行分析,能夠?qū)I(yè)務(wù)領(lǐng)域級的知識圖譜劃分為對公知識圖譜、零售知識圖譜等類型,其中最關(guān)鍵的應(yīng)用便在于風險時間傳導、客戶識別、智能風險報告、風險前置等。在通用應(yīng)用級方面,結(jié)合當前市場各行業(yè)的應(yīng)用狀況來看,知識圖譜所具有的通用場景涉及到問答、地圖、協(xié)作、搜索等。在知識圖譜技術(shù)基礎(chǔ)上所進行的智能搜索主要是基于長尾的搜索,搜索引擎將會采用知識卡片的形式展現(xiàn)出相應(yīng)的搜索結(jié)果。用戶的查詢請求將會經(jīng)歷查詢式語義理解和知識檢索兩個階段,智能搜索引擎的具體展現(xiàn)形式包括集成數(shù)據(jù)、查詢答案、查詢答案推薦列表等。對于信息檢索系統(tǒng)來說,問答系統(tǒng)是其高級形式,可以針對用戶所提出的問題用更加簡潔精煉的自然語言予以解答。傳統(tǒng)問答系統(tǒng)的應(yīng)用更側(cè)重于關(guān)鍵字在搜索知識庫,而利用知識圖譜技術(shù)所建立的問答系統(tǒng)則是依靠領(lǐng)域知識,充分運用自然語言理解和相應(yīng)的對話管理平臺,通過采用規(guī)則+模型的方法,構(gòu)建起能夠為二次開發(fā)提供支持的實體識別模型,進而提升擬人交互過程的智能性、可感知性。此外,推演、圖析地圖均需要在領(lǐng)域知識圖譜的基礎(chǔ)上實現(xiàn),進而向用戶展現(xiàn)出相應(yīng)的特征、布局以及關(guān)系等信息,具體涉及到風險推演、資金關(guān)系圈、客戶畫像以及風險地圖等。
(1)數(shù)據(jù)處理
在正式對原始數(shù)據(jù)進行獲取之前,應(yīng)先針對原始數(shù)據(jù)采取清洗措施,具體指的是格式規(guī)整、標注方式方面的處理。數(shù)據(jù)清洗和過濾工作應(yīng)按照以下步驟:首先為初步過濾,在該階段需通過對于合規(guī)數(shù)據(jù)的應(yīng)用,制定出更加規(guī)范的正則表達式,實現(xiàn)對于數(shù)據(jù)的科學篩查。其次便是去除冗余,在該階段需加強Bloom-Filter算法的應(yīng)用對重復數(shù)據(jù)進行過濾。最后則在于補足殘缺,通過均值插補方式的應(yīng)用達到良好的殘缺處理效果,定類數(shù)據(jù)、定量數(shù)據(jù)所使用的分別為眾數(shù)插補和均值插補。因為其數(shù)據(jù)結(jié)構(gòu)和類型存在一定的差異性,所以應(yīng)當針對數(shù)據(jù)展開精加工工作。其中,所涉及的半結(jié)構(gòu)化和結(jié)構(gòu)化數(shù)據(jù)都屬于百科類數(shù)據(jù),一般情況下都擁有固定的標簽類格式,并側(cè)重于專家知識庫,所以通常有著相對較高的可信度,在對實體進行獲取的過程中可以從該類數(shù)據(jù)中進行相關(guān)信息的直接抽取,并在隊列中對相關(guān)實體進行存儲,為后續(xù)的調(diào)用提供方便。在面臨非結(jié)構(gòu)化數(shù)據(jù)的時候,在其加工過程中應(yīng)事先剔除無用標簽,接下來再采用相關(guān)工具針對文本數(shù)據(jù)展開分詞處理,這樣便能夠形成相應(yīng)的語料庫。知識圖譜技術(shù)本身有著數(shù)據(jù)可視化、圖模型計算、圖挖掘等多方面優(yōu)勢,能夠為銀行工作者在各種業(yè)務(wù)場景下進行科學分析和決策創(chuàng)造良好的條件,有助于形成客戶畫像,此基礎(chǔ)上提升客戶服務(wù)的精準性,對銀行業(yè)務(wù)場景的交易全貌進行更好的表達。
(2)網(wǎng)絡(luò)安全知識圖譜構(gòu)建
知識庫是網(wǎng)絡(luò)安全知識圖譜構(gòu)建的重要組成部分,網(wǎng)絡(luò)安全知識庫模型中涉及到五方面元素,分別為定義、實例、關(guān)系、屬性、規(guī)則。在本文的設(shè)計模型體系中包括五個本體,具體為物理安全、主機安全、網(wǎng)絡(luò)結(jié)構(gòu)安全、應(yīng)用安全以及數(shù)據(jù)安全。其中,物理安全主要指的是系統(tǒng)網(wǎng)絡(luò)所處的環(huán)境以及各種設(shè)備的安全;主機安全是指服務(wù)器和終端等設(shè)備所具有的操作系統(tǒng)以及文件安全;網(wǎng)絡(luò)結(jié)構(gòu)安全在于設(shè)備防護措施、入侵防護措施的完備,同時與訪問控制設(shè)置與網(wǎng)絡(luò)拓撲安全有著密切的聯(lián)系;應(yīng)用安全主要指的是其所使用的網(wǎng)絡(luò)應(yīng)用軟件以及系統(tǒng)的安全性;數(shù)據(jù)安全具體在于數(shù)據(jù)所具有的保密性以及完整性。
在實體識別方面,筆者采用了一種在特征模板和BiLSTM—CRF基礎(chǔ)上所形成的一種命名實體識別訓練方法。首先,需要充分結(jié)合專家經(jīng)驗事先對本體關(guān)系進行構(gòu)造,完成初步篩選工作后便可以產(chǎn)生相應(yīng)的特征模板,接下來便要對局部上下文特征進行提取。其次,則應(yīng)當利用Bert模型,預(yù)先訓練的字向量文件對輸入語句進行轉(zhuǎn)化,使其以字向量序列的形式呈現(xiàn)出來,并對局部上下文特征、字符特征向量進行組合。最后,需要使用條件隨機場算法開展對于語義特征的實體標準工作,這樣便可最終得到相應(yīng)的標記序列。網(wǎng)絡(luò)數(shù)據(jù)可劃分為結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)數(shù)據(jù)、圖數(shù)據(jù)以及流數(shù)據(jù)等幾種形式。從實際情況來看,圖所對應(yīng)的是擁有復雜聯(lián)系的實體或者是拓撲信息,而流則是網(wǎng)絡(luò)流的緩存實體。結(jié)構(gòu)化數(shù)據(jù)主要指的是數(shù)據(jù)庫記錄實體,非結(jié)構(gòu)化數(shù)據(jù)則同網(wǎng)絡(luò)日志等實體相對應(yīng)。因為OrientDB圖形數(shù)據(jù)庫的應(yīng)用能實現(xiàn)類結(jié)構(gòu)化查詢語言,可以對知識圖譜各個節(jié)點及相應(yīng)關(guān)系信息實現(xiàn)全面獲取,其本身作為圖像數(shù)據(jù)庫在當前有著較高的成熟度以及良好的性能優(yōu)勢,所以筆者在本文中主要使用OrientDB圖形數(shù)據(jù)庫對網(wǎng)絡(luò)安全知識圖譜展開組織和構(gòu)建工作。
結(jié)論:優(yōu)化采用知識圖譜技術(shù)能提升銀行網(wǎng)絡(luò)安全,對于銀行未來的持續(xù)平穩(wěn)發(fā)展有著促進作用。因此,相關(guān)工作人員應(yīng)重視知識圖譜技術(shù),增強銀行網(wǎng)絡(luò)的安全性。