• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      Bi-LSTM+CRF的網(wǎng)絡(luò)空間安全領(lǐng)域命名實(shí)體的識(shí)別

      2021-01-04 00:59:44廉龍穎
      關(guān)鍵詞:語(yǔ)料命名網(wǎng)絡(luò)空間

      廉龍穎

      (黑龍江科技大學(xué) 計(jì)算機(jī)與信息工程學(xué)院, 哈爾濱 150022)

      0 引 言

      隨著信息革命的不斷演進(jìn),網(wǎng)絡(luò)空間已成為繼陸、海、空、天之后的第五大空間[1]。在網(wǎng)絡(luò)空間里,安全問(wèn)題的內(nèi)涵和外延在不斷擴(kuò)大,針對(duì)網(wǎng)絡(luò)空間安全面臨的嚴(yán)峻形勢(shì),威脅情報(bào)技術(shù)應(yīng)運(yùn)而生。威脅情報(bào)是關(guān)于IT或信息資產(chǎn)所面臨的已經(jīng)存在或正在顯露的威脅的循證知識(shí)[2]。這些知識(shí)通常存在于科學(xué)文獻(xiàn)、安全站點(diǎn)、黑客論壇等非結(jié)構(gòu)化的文本數(shù)據(jù)中,且具有海量化、碎片化、分散性和隱形關(guān)聯(lián)性等特征。因此,如何從文本數(shù)據(jù)中抽取出網(wǎng)絡(luò)空間安全的威脅主體、攻擊方法、防御措施等內(nèi)容是情報(bào)分析研究的熱點(diǎn)問(wèn)題。

      網(wǎng)絡(luò)空間安全知識(shí)圖譜可以從多維角度組織海量信息和知識(shí),并能可視化呈現(xiàn)知識(shí)及其關(guān)系,為威脅情報(bào)隱形關(guān)聯(lián)分析提供了可能性。網(wǎng)絡(luò)空間安全知識(shí)圖譜構(gòu)建主要包括命名實(shí)體識(shí)別、實(shí)體鏈接以及關(guān)系抽取等,其中命名實(shí)體識(shí)別是構(gòu)建知識(shí)圖譜的首要工作。網(wǎng)絡(luò)空間安全實(shí)體識(shí)別是一種特定領(lǐng)域的命名實(shí)體識(shí)別,主要工作是識(shí)別網(wǎng)絡(luò)空間安全文本數(shù)據(jù)中的對(duì)象、方法和事件等不同類型的實(shí)體。常用的命名實(shí)體識(shí)別方法有基于規(guī)則的方法[3]、基于統(tǒng)計(jì)的方法[4]和基于神經(jīng)網(wǎng)絡(luò)的方法[5]。基于規(guī)則的方法是早期命名實(shí)體識(shí)別中最有效的方式,依賴手工制定規(guī)則和權(quán)重賦值,通過(guò)實(shí)體與規(guī)則的相符情況來(lái)進(jìn)行實(shí)體識(shí)別,但存在可移植性差、維護(hù)困難等問(wèn)題。基于統(tǒng)計(jì)的方法是基于人工標(biāo)注的語(yǔ)料,通過(guò)序列標(biāo)注進(jìn)行命名實(shí)體識(shí)別,主流的方法有隱馬爾可夫模型[6]、最大熵[7]、支持向量機(jī)[8]和條件隨機(jī)場(chǎng)[9]等,這些方法對(duì)語(yǔ)料庫(kù)的依賴較大?;谏窠?jīng)網(wǎng)絡(luò)的方法具有更低的特征依賴性和更密的泛化性,在命名實(shí)體識(shí)別中得到廣泛應(yīng)用,如循環(huán)神經(jīng)網(wǎng)絡(luò)RNN[10]、長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)LSTM[11]、卷積神經(jīng)網(wǎng)絡(luò)CNN[12]等。近年來(lái),利用雙向LSTM模型結(jié)合CRF模型進(jìn)行命名實(shí)體識(shí)別達(dá)到了很好的效果。Huang等[13]首次利用此模型進(jìn)行命名實(shí)體識(shí)別。馬建霞等[14]從科學(xué)文獻(xiàn)中抽取生態(tài)治理技術(shù)命名實(shí)體。張若彬等[15]針對(duì)博客和安全公告數(shù)據(jù)識(shí)別安全漏洞命名實(shí)體。

      由于網(wǎng)絡(luò)空間安全領(lǐng)域缺乏大規(guī)模的專業(yè)語(yǔ)料庫(kù),通用語(yǔ)料庫(kù)訓(xùn)練的模型在進(jìn)行網(wǎng)絡(luò)空間安全命名實(shí)體識(shí)別時(shí)效果不佳,不能準(zhǔn)確地識(shí)別出一些網(wǎng)絡(luò)空間安全術(shù)語(yǔ),如DDoS、蠕蟲(chóng)等。彭嘉毅等[16]使用一種深度主動(dòng)學(xué)習(xí)的方法對(duì)信息安全領(lǐng)域英文命名實(shí)體進(jìn)行識(shí)別,秦婭等[17]基于深度神經(jīng)網(wǎng)絡(luò)進(jìn)行網(wǎng)絡(luò)安全實(shí)體識(shí)別。經(jīng)統(tǒng)計(jì)發(fā)現(xiàn),針對(duì)網(wǎng)絡(luò)空間安全領(lǐng)域命名實(shí)體識(shí)別研究工作較少,且多數(shù)是基于英文文本的,并缺少對(duì)本體的描述。在中文環(huán)境下,網(wǎng)絡(luò)空間安全命名實(shí)體識(shí)別主要存在難點(diǎn):網(wǎng)絡(luò)空間安全概念多且關(guān)系復(fù)雜,安全事件不同實(shí)體類型也可能不同,例如掃描可作為攻擊方法也可成為防御措施。新實(shí)體不斷出現(xiàn),例如漏洞名稱、病毒名稱等。長(zhǎng)度不確定且存在嵌套,例如蠕蟲(chóng)病毒W(wǎng)orm_Vobfus。針對(duì)上述難點(diǎn),筆者提出基于Bi-LSTM模型與CRF模型相結(jié)合的命名實(shí)體識(shí)別方法,通過(guò)Bi-LSTM進(jìn)行特征提取,使用CRF進(jìn)行實(shí)體標(biāo)注,主要識(shí)別網(wǎng)絡(luò)空間安全領(lǐng)域中12類命名實(shí)體,以提高識(shí)別效果。

      1 命名實(shí)體識(shí)別

      網(wǎng)絡(luò)空間安全命名實(shí)體識(shí)別框架如圖1所示,主要包括預(yù)處理模塊和實(shí)體標(biāo)注模塊。

      圖1 網(wǎng)絡(luò)空間安全命名實(shí)體識(shí)別框架 Fig. 1 Named entity recognition framework for cyberspace security

      預(yù)處理模塊主要包括語(yǔ)料預(yù)處理、詞向量訓(xùn)練和序列標(biāo)注。首先對(duì)網(wǎng)絡(luò)空間安全領(lǐng)域的命名實(shí)體進(jìn)行分析,抽象出本體模型,根據(jù)本體通過(guò)人工編寫的方式構(gòu)建領(lǐng)域詞典,用于分詞;構(gòu)建網(wǎng)絡(luò)空間安全語(yǔ)料庫(kù),使用Jieba對(duì)語(yǔ)料中的句子進(jìn)行分詞與詞性標(biāo)注,然后通過(guò)開(kāi)源工具word2vec的CBOW模型進(jìn)行詞向量訓(xùn)練,得到詞向量文件,將詞性標(biāo)注后的文本數(shù)據(jù)采用BIO標(biāo)注法進(jìn)行序列標(biāo)注。

      實(shí)體標(biāo)注模塊主要將測(cè)試語(yǔ)料放入模型進(jìn)行訓(xùn)練和實(shí)體識(shí)別?;贐i-LSTM+CRF構(gòu)建網(wǎng)絡(luò)空間安全命名實(shí)體識(shí)別模型,標(biāo)注后的文本數(shù)據(jù)和詞向量作為輸入訓(xùn)練實(shí)體識(shí)別模型,Bi-LSTM模型用于特征提取,CRF模型用于實(shí)體標(biāo)注。

      1.1 預(yù)處理模塊

      在預(yù)處理模塊中,使用網(wǎng)絡(luò)空間安全領(lǐng)域詞典進(jìn)行分詞,可以獲得更高質(zhì)量的word2vec詞向量,從而提升實(shí)體識(shí)別效果。因此,對(duì)網(wǎng)絡(luò)空間安全命名實(shí)體分析并抽象出本體模型,根據(jù)本體構(gòu)建領(lǐng)域詞典。本體是被共享的概念化的一個(gè)形式化的規(guī)格說(shuō)明,是知識(shí)圖譜的一種抽象表達(dá)方式,用來(lái)描述被廣泛認(rèn)可的概念與概念之間的關(guān)系[18]。利用網(wǎng)絡(luò)空間安全領(lǐng)域知識(shí)對(duì)概念進(jìn)行抽取構(gòu)建本體,以明確學(xué)科知識(shí)圖譜應(yīng)用的范圍。本文根據(jù)《信息安全技術(shù)網(wǎng)絡(luò)安全威脅信息格式規(guī)范》定義網(wǎng)絡(luò)空間安全包含對(duì)象、方法和事件等三個(gè)本體。對(duì)象指網(wǎng)絡(luò)安全事件的主體,方法指攻防技術(shù)術(shù)語(yǔ),事件指具體技術(shù)指標(biāo)。

      知識(shí)圖譜中的實(shí)體是在本體的基礎(chǔ)上進(jìn)行擴(kuò)充的,是指與網(wǎng)絡(luò)空間安全相關(guān)的各類命名實(shí)體的統(tǒng)稱,本文分析了科技文獻(xiàn),安全網(wǎng)站等,確定了12個(gè)網(wǎng)絡(luò)空間安全實(shí)體類型。(1)威脅主體:指網(wǎng)絡(luò)空間安全事件的人員,如“黑客”、“網(wǎng)絡(luò)管理員”。(2)攻擊目標(biāo):指網(wǎng)絡(luò)中的資產(chǎn),如“數(shù)據(jù)流”、“端口”。(3)攻擊方法:指安全事件中的攻擊技術(shù),如“DDoS”、“中間人攻擊”。(4)防御措施:指安全事件中的防御技術(shù),如“防火墻”、“身份認(rèn)證”。(5)軟件:即軟件名稱,如“PortScanner”、“L0phtcrack”。(6)硬件:即硬件類型,如“路由器”、“主機(jī)”。(7)系統(tǒng):即系統(tǒng)類型,如“Unix”、“Windows”。(8)協(xié)議:即協(xié)議名稱,如“ARP”、“ICMP”。(9)算法:即算法名稱,如“DES”、“RSA”。(10)語(yǔ)言:即編程語(yǔ)言,如“VB”、“C語(yǔ)言”。(11)病毒:即病毒名稱,如“黑色星期五”、“Worm_Vobfus”。(12)漏洞:即漏洞類型或名稱,如“緩沖區(qū)溢出漏洞”、“dll劫持漏洞”。

      本文定義實(shí)體體系:O={per,net}表示威脅主體和攻擊目標(biāo),E={soft,hard,sys,prot,alg,prog,vir,vul}表示軟件、硬件、系統(tǒng)、協(xié)議、算法、語(yǔ)言、病毒和漏洞,M={att,def}表示攻擊方法和防御措施。通過(guò)對(duì)語(yǔ)料進(jìn)行人工分析,編寫網(wǎng)絡(luò)空間安全領(lǐng)域詞典,詞典中共881個(gè)詞條,每個(gè)詞條代表一個(gè)命名實(shí)體,具體數(shù)目如表1所示。

      文本向量化就是將文本表示成一系列能夠表達(dá)文本語(yǔ)義的向量。word2vec是一個(gè)將詞表征為實(shí)數(shù)值向量的開(kāi)源工具,采用的模型有CBOW和Skip-Gram兩種。CBOW是使用周邊詞的詞向量去預(yù)測(cè)當(dāng)前的詞向量,而Skip-Gram正好相反,是輸入當(dāng)前詞的詞向量去預(yù)測(cè)周邊詞的詞向量。

      表1 網(wǎng)絡(luò)空間安全領(lǐng)域詞典數(shù)目

      在預(yù)處理模塊中,將網(wǎng)絡(luò)空間安全語(yǔ)料使用Jieba分詞后,通過(guò)word2vec的CBOW模型進(jìn)行訓(xùn)練,每個(gè)數(shù)值維度設(shè)為100維,上下文窗口大小為3,迭代次數(shù)設(shè)置為10次,得到詞向量文件,詞向量文件中包括18 719個(gè)中文和英文詞以及它們的向量數(shù)值,詞向量中的每一維表示一個(gè)特征。

      詞性是詞匯的基本語(yǔ)法屬性,詞性標(biāo)注是在給定句子中判定每個(gè)詞的語(yǔ)法范疇,確定詞性并加以標(biāo)注的過(guò)程。Jieba是中文分詞的常用工具,具有分詞、詞性標(biāo)注等功能。在Jieba中使用自定義的網(wǎng)絡(luò)空間安全詞典對(duì)語(yǔ)料進(jìn)行詞性標(biāo)注得到標(biāo)注后的文本數(shù)據(jù),針對(duì)網(wǎng)絡(luò)空間安全中12類實(shí)體,采用BIO標(biāo)注模式[19]對(duì)文本數(shù)據(jù)進(jìn)行序列標(biāo)注,B代表實(shí)體開(kāi)頭字符,I代表實(shí)體中間字符,O代表其他非實(shí)體字符。即B-per和I-per代表威脅主體的開(kāi)頭與中間,B-net和I-net代表攻擊目標(biāo)的開(kāi)頭與中間,B-att和I-att代表攻擊方法的開(kāi)頭與中間,B-def和I-def代表防御措施的開(kāi)頭與中間,B-soft和I-soft代表軟件的開(kāi)頭與中間,B-hard和I-hard代表硬件的開(kāi)頭與中間,B-sys和I-sys代表操作系統(tǒng)的開(kāi)頭與中間,B-prot和I-prot代表網(wǎng)絡(luò)協(xié)議的開(kāi)頭與中間,B-alg和I-alg代表算法的開(kāi)頭與中間,B-prog和I-prog代表編程語(yǔ)言的開(kāi)頭與中間,B-vir和I-vir代表病毒名稱的開(kāi)頭與中間,B-vul和I-vul代表安全漏洞的開(kāi)頭與中間,O代表非實(shí)體。序列標(biāo)注樣例如表2所示。

      表2 序列標(biāo)注樣例

      1.2 實(shí)體標(biāo)注模塊

      網(wǎng)絡(luò)空間安全領(lǐng)域語(yǔ)料經(jīng)過(guò)預(yù)處理后,輸入實(shí)體標(biāo)注模塊進(jìn)行模型訓(xùn)練。實(shí)體標(biāo)注模塊使用Bi-LSTM+CRF模型結(jié)構(gòu),包括Bi-LSTM層和CRF層。Bi-LSTM層主要進(jìn)行特征提取,CRF層主要進(jìn)行命名實(shí)體標(biāo)注。首先將已標(biāo)注的領(lǐng)域詞典輸入到模型中,在加載訓(xùn)練集與測(cè)試集后,使用Bi-LSTM對(duì)文本中詞向量序列獲得特征并存儲(chǔ)在輸出的數(shù)值向量中,并作為CRF模型處理tag之間的依賴關(guān)系信息,選擇出預(yù)測(cè)序列完成實(shí)體識(shí)別。模型訓(xùn)練后,重新加載模型,將預(yù)測(cè)文本輸入,最終識(shí)別出文本中的網(wǎng)絡(luò)空間安全實(shí)體。

      1.2.1 Bi-LSTM層

      長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)LSTM由Hochreiter等[20]于1997年提出,是一種特定形式的循環(huán)神經(jīng)網(wǎng)絡(luò)。LSTM是鏈?zhǔn)浇Y(jié)構(gòu)的,輸入層輸入xt,隱藏層輸出ht,每個(gè)LSTM記憶單元都由輸入門it、輸出門ot、遺忘門ft和記憶控制器ct等四部分組成。LSTM記憶單元如圖2所示。

      圖2 LSTM記憶單元結(jié)構(gòu)Fig. 2 Structure of LSTM memory unit

      LSTM只能訪問(wèn)過(guò)去的上下文信息,但未來(lái)的上下文信息對(duì)網(wǎng)絡(luò)空間安全實(shí)體特征提取同樣重要,因此,采用雙向LSTM即Bi-LSTM[21]神經(jīng)網(wǎng)絡(luò)模型。Bi-LSTM模型結(jié)構(gòu)如圖3所示,對(duì)輸入的序列分別采用順序和逆序計(jì)算獲得兩個(gè)隱藏層輸出向量,兩個(gè)隱藏層通過(guò)拼接獲得最終的隱藏層輸出向量。

      圖3 Bi-LSTM模型結(jié)構(gòu)Fig. 3 Structure of Bi-LSTM model

      本文將預(yù)處理后的網(wǎng)絡(luò)空間安全領(lǐng)域非結(jié)構(gòu)化文本中的字符向量序列作為Bi-LSTM層輸入,正向LSTM將輸入序列表示成ht,再利用逆向的LSTM將輸入序列表示成ht’,h=ht+ht’的拼接作為最終的結(jié)果,得到提取出的特征,并將特征表示進(jìn)行Softmax分類,從而輸出每個(gè)字的最終標(biāo)簽,為了利用已標(biāo)注過(guò)的信息,將每個(gè)字表示的k維向量進(jìn)行拼接并作為輸入到CRF層的特征矩陣。

      1.2.2 CRF層

      2001年Lafferty等[22]提出了條件隨機(jī)場(chǎng),它是一種用來(lái)標(biāo)記和切分序列化數(shù)據(jù)的統(tǒng)計(jì)模型,即在給定觀測(cè)序列下,計(jì)算輸出標(biāo)記序列的條件概率分布。線性結(jié)構(gòu)是最常用的CRF結(jié)構(gòu),文中使用線性鏈CRF。令X={X1,X2,…,Xn}為線性鏈表示的輸入觀測(cè)序列,Y={Y1,Y2,…,Yn}為線性鏈表示的輸出標(biāo)記序列,則條件概率分布P(Y|X)構(gòu)成條件隨機(jī)場(chǎng),且滿足馬爾可夫性,則P(Y|X)為線性鏈的CRF。如圖4所示,線性鏈CRF是一個(gè)無(wú)向圖,圖中的輸出標(biāo)記序列形成了一條馬爾可夫鏈,線性鏈CRF依賴于當(dāng)前狀態(tài)的周圍結(jié)點(diǎn)狀態(tài)。在得到條件概率后,使用Veterbi算法進(jìn)行最大可能序列路徑求解,作為最終的網(wǎng)絡(luò)空間安全命名實(shí)體識(shí)別的標(biāo)注結(jié)果。

      CRF層可以有效的考慮上下文的依賴關(guān)系,在Bi-LSTM層后加上CRF層,使得實(shí)體識(shí)別模型在結(jié)合上下文信息的同時(shí)可以有效考慮標(biāo)簽前后的依賴關(guān)系。利用訓(xùn)練好的模型,對(duì)語(yǔ)料進(jìn)行實(shí)體標(biāo)注,在CRF層引入轉(zhuǎn)移矩陣作為參數(shù),通過(guò)最大似然估計(jì)作為真實(shí)標(biāo)記序列的概率來(lái)更新Bi-LSTM中的參數(shù)與CRF中轉(zhuǎn)移概率矩陣A,標(biāo)注實(shí)體類型,最終輸出標(biāo)注結(jié)果,從而完成網(wǎng)絡(luò)空間安全命名實(shí)體識(shí)別。

      圖4 線性鏈CRFFig. 4 Linear chain CRF

      2 實(shí) 驗(yàn)

      實(shí)驗(yàn)所用的語(yǔ)料主要來(lái)自于科學(xué)文獻(xiàn)、網(wǎng)絡(luò)空間安全書籍、安全技術(shù)站點(diǎn)和漏洞庫(kù)等,共計(jì)5 000條語(yǔ)句,將標(biāo)注好的語(yǔ)料按7∶2∶1的比例分成訓(xùn)練集、驗(yàn)證集和測(cè)試集。

      2.1 命名實(shí)體識(shí)別

      在開(kāi)源平臺(tái)TensorFlow中使用Python語(yǔ)言,利用Bi-LSTM+CRF構(gòu)建實(shí)體識(shí)別模型。首先對(duì)模型參數(shù)進(jìn)行初始化,模型中共設(shè)置6類參數(shù),其中隱藏單元數(shù)量hidden_size設(shè)置為512,單元數(shù)num_units設(shè)置為256,學(xué)習(xí)率learning_rate設(shè)置為0.001,梯度裁剪clip設(shè)置為5,迭代次數(shù)num_epochs設(shè)置為100,dropout_rate設(shè)置為0.5;然后通過(guò)運(yùn)行Bi-LSTM模型前向和后向傳遞進(jìn)行特征提??;再通過(guò)運(yùn)行CRF模型前向和后向傳遞來(lái)計(jì)算輸出狀態(tài);接著通過(guò)Bi-LSTM模型的反向傳遞重新更新模型參數(shù)。圖5為模型訓(xùn)練過(guò)程。

      2.2 方法

      使用準(zhǔn)確率P、召回率R和調(diào)和平均值F對(duì)命名實(shí)體識(shí)別指標(biāo)進(jìn)行實(shí)驗(yàn)結(jié)果評(píng)價(jià),具公式為:

      (1)

      (2)

      (3)

      式中:N1——識(shí)別出的正確的網(wǎng)絡(luò)空間安全實(shí)體數(shù)量;

      N2——識(shí)別出的所有網(wǎng)絡(luò)空間安全實(shí)體數(shù)量;

      N——所有標(biāo)注的網(wǎng)絡(luò)空間安全實(shí)體數(shù)量。

      圖5 模型訓(xùn)練過(guò)程Fig. 5 Model training process

      2.3 結(jié)果及分析

      方法1僅使用CRF模型,它是對(duì)比實(shí)驗(yàn)的基線。方法2是秦婭[23]等提出的優(yōu)良方法,在基線的基礎(chǔ)上,利用基于規(guī)則的方法,對(duì)候選網(wǎng)絡(luò)安全實(shí)體進(jìn)行修正。方法3是文中提出的方法,使用Bi-LSTM模型提取特征向量,再經(jīng)過(guò)CRF模型進(jìn)行實(shí)體標(biāo)注。實(shí)驗(yàn)結(jié)果如表3所示,具體評(píng)價(jià)指標(biāo)包括準(zhǔn)確率、召回率和F值。

      表3 實(shí)驗(yàn)結(jié)果

      從表3可以看出,第1種方法CRF模型可用于命名實(shí)體識(shí)別,但僅使用CRF模型在非結(jié)構(gòu)化網(wǎng)絡(luò)空間安全文本中識(shí)別的F值為72.93%,識(shí)別效果不佳。第2種方法采用CRF與規(guī)則相結(jié)合識(shí)別網(wǎng)絡(luò)安全實(shí)體時(shí),由于添加了前綴“漏洞”、 “WooYun”和“注入”等規(guī)則對(duì)識(shí)別結(jié)果進(jìn)行糾正,識(shí)別準(zhǔn)確率和F值都有所提高,而召回率相對(duì)削弱,但差距不大,主要原因是手動(dòng)添加規(guī)則并且訓(xùn)練語(yǔ)料庫(kù)較小。第3種方法采用文中提出的Bi-LSTM+CRF模型,相比方法1與方法2評(píng)價(jià)值都有所提高,說(shuō)明文中使用領(lǐng)域詞典進(jìn)行分詞能夠有效提升命名實(shí)體識(shí)別效果。在實(shí)驗(yàn)中發(fā)現(xiàn),識(shí)別漏洞與病毒實(shí)體時(shí)的準(zhǔn)確率較低,主要是因?yàn)閮深悓?shí)體存在中英文混合、大小寫混合且邊界模糊等問(wèn)題,對(duì)整體識(shí)別效果有一定影響。對(duì)比三種方法的評(píng)價(jià)值,文中提出的方法結(jié)合了CRF模型與Bi-LSTM模型的優(yōu)點(diǎn),在網(wǎng)絡(luò)空間安全命名實(shí)體識(shí)別中具有更好的表現(xiàn),整體識(shí)別性能較高。

      3 結(jié)束語(yǔ)

      設(shè)計(jì)并實(shí)現(xiàn)了基于Bi-LSTM+CRF模型抽取中文語(yǔ)料中12類網(wǎng)絡(luò)空間安全命名實(shí)體的方法。該方法首先進(jìn)行語(yǔ)料預(yù)處理,通過(guò)人工構(gòu)建領(lǐng)域詞典進(jìn)行分詞,將標(biāo)注的文本轉(zhuǎn)成詞向量文件,經(jīng)過(guò)Bi-LSTM模型處理提取特征向量,再經(jīng)過(guò)CRF模型進(jìn)行實(shí)體標(biāo)注,從而識(shí)別網(wǎng)絡(luò)空間安全命名實(shí)體,通過(guò)實(shí)驗(yàn)對(duì)比驗(yàn)證了模型的有效性。該研究識(shí)別出的命名實(shí)體可用于網(wǎng)絡(luò)空間安全知識(shí)圖譜構(gòu)建 ,對(duì)威脅情報(bào)的隱形關(guān)聯(lián)分析工作有重要意義。在后續(xù)研究中,將擴(kuò)大網(wǎng)絡(luò)空間安全語(yǔ)料庫(kù),進(jìn)一步挖掘?qū)嶓w擴(kuò)充領(lǐng)域詞典,通過(guò)提取詞的字符級(jí)特征,提升模型訓(xùn)練的整體性能,從而提升實(shí)體識(shí)別效果。

      猜你喜歡
      語(yǔ)料命名網(wǎng)絡(luò)空間
      命名——助力有機(jī)化學(xué)的學(xué)習(xí)
      共建誠(chéng)實(shí)守信網(wǎng)絡(luò)空間
      公民與法治(2020年4期)2020-05-30 12:31:20
      網(wǎng)絡(luò)空間并非“烏托邦”
      有一種男人以“暖”命名
      東方女性(2018年3期)2018-04-16 15:30:02
      為一條河命名——在白河源
      基于語(yǔ)料調(diào)查的“連……都(也)……”出現(xiàn)的語(yǔ)義背景分析
      網(wǎng)絡(luò)空間安全人才培養(yǎng)探討
      華語(yǔ)電影作為真實(shí)語(yǔ)料在翻譯教學(xué)中的應(yīng)用
      《苗防備覽》中的湘西語(yǔ)料
      國(guó)內(nèi)外語(yǔ)用學(xué)實(shí)證研究比較:語(yǔ)料類型與收集方法
      遂昌县| 中江县| 嘉善县| 江安县| 交城县| 东丽区| 尖扎县| 文水县| 岐山县| 满城县| 临清市| 聊城市| 新兴县| 藁城市| 柳州市| 徐闻县| 息烽县| 武威市| 衡水市| 靖远县| 英吉沙县| 宝鸡市| 长汀县| 浑源县| 固原市| 仪陇县| 应用必备| 敦化市| 安义县| 广宗县| 武陟县| 谷城县| 重庆市| 靖宇县| 西和县| 黑山县| 瑞丽市| 门头沟区| 泽库县| 桑日县| 沁阳市|