楊立寶 余章馗 狄曉曉
摘? ?要:文章以信息安全相關(guān)文章數(shù)據(jù)為研究對(duì)象,分析了目前信息安全研究工作中新聞動(dòng)態(tài)熱點(diǎn)的數(shù)據(jù)處理和分析需求,結(jié)合信息安全領(lǐng)域特點(diǎn),基于自然語(yǔ)言處理技術(shù)提出了基于TextRank和LDA的信息安全領(lǐng)域熱點(diǎn)感知和可視化技術(shù),并對(duì)信息安全領(lǐng)域新聞動(dòng)態(tài)熱點(diǎn)進(jìn)行了關(guān)鍵詞分析、關(guān)鍵詞共現(xiàn)分析以及主題分析。實(shí)驗(yàn)結(jié)果表明,該技術(shù)可實(shí)現(xiàn)信息安全研究熱點(diǎn)快速定位與感知,達(dá)到輔助深入研究分析的目的。
關(guān)鍵詞:信息安全;熱點(diǎn)分析;TextRank;LDA
中圖分類號(hào):TP391.1? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A
Research on hotspot sensing of information security based on TextRank and LDA
Yang Libao, Yu Zhangkui, Di Xiaoxiao
(China Industrial Control Systems Cyber Emergency Response Team, Beijing 100040)
Yang Libao, Yu Zhangkui, Di Xiaoxiao
(China Industrial Control Systems Cyber Emergency Response Team, Beijing 100040)
1 引言
大數(shù)據(jù)時(shí)代下,信息呈爆炸式增長(zhǎng),各行業(yè)研究人員如何高效提取高價(jià)值信息,快速把握所在領(lǐng)域前沿動(dòng)態(tài)、熱點(diǎn)主題和發(fā)展趨勢(shì),為研究工作奠定良好基礎(chǔ),已經(jīng)成為信息技術(shù)研究的一個(gè)熱點(diǎn)話題。目前,在數(shù)據(jù)采集方面,網(wǎng)絡(luò)爬蟲技術(shù)已得到普遍應(yīng)用[1],公開網(wǎng)絡(luò)信息的采集效率有了極大提升;在數(shù)據(jù)處理和和分析方面,使用較多的則是自然語(yǔ)言處理技術(shù)、機(jī)器學(xué)習(xí)等技術(shù)。本文通過(guò)關(guān)鍵詞分析和主題模型分析,深度挖掘大量信息安全新聞動(dòng)態(tài)數(shù)據(jù)的深層信息,及時(shí)精準(zhǔn)感知信息安全領(lǐng)域熱點(diǎn),對(duì)輔助監(jiān)測(cè)預(yù)警工作具有重大意義。
2? 信息安全熱點(diǎn)研究的需求
在全球范圍內(nèi),信息安全領(lǐng)域的各種新政策、新技術(shù)、新事件不斷涌現(xiàn),做好信息安全熱點(diǎn)感知研究,一方面可以明確當(dāng)前信息安全領(lǐng)域政策、技術(shù)、產(chǎn)業(yè)的現(xiàn)狀和趨勢(shì),為國(guó)家信息安全相關(guān)決策提供現(xiàn)實(shí)依據(jù),是提升國(guó)家信息安全保障能力的重要環(huán)節(jié);另一方面可以更好地把握當(dāng)前信息安全前沿方向和關(guān)注焦點(diǎn),為信息安全防護(hù)理論、方法的學(xué)術(shù)創(chuàng)新提供支撐。
2.1 現(xiàn)有研究概述
熱點(diǎn)話題是指一個(gè)話題在一段時(shí)間內(nèi)頻繁出現(xiàn),也就是一定時(shí)期內(nèi)由多個(gè)新聞來(lái)源、多篇新聞同時(shí)報(bào)道的話題[2]。本文將信息安全熱點(diǎn)定義為在一段時(shí)間內(nèi)出現(xiàn)頻次較高,被多個(gè)新聞來(lái)源廣泛關(guān)注和報(bào)道的信息安全動(dòng)態(tài)新聞。國(guó)外熱點(diǎn)話題研究起步較早,1996年美國(guó)國(guó)防高級(jí)研究計(jì)劃局(DARPA)就倡議研究話題發(fā)現(xiàn)與跟蹤技術(shù)[3]。國(guó)內(nèi)熱點(diǎn)話題研究雖起步較晚,但是目前經(jīng)過(guò)學(xué)者的努力也取得了一定的研究成果。其中影響較大的包括李保利和俞士汶各種聚類算法的比較分析,賈自艷、何清和張俊海關(guān)于事件探測(cè)和追蹤算法的研究等[4]。
就目前研究而言,大致可以分為三類:其一,針對(duì)新聞、社交、論壇等網(wǎng)絡(luò)產(chǎn)品和服務(wù)的分析,此類熱點(diǎn)研究深度挖掘用戶行為偏好,旨在優(yōu)化信息推薦機(jī)制,改進(jìn)產(chǎn)品功能,提升用戶體驗(yàn);其二,針對(duì)新聞報(bào)道、社交網(wǎng)絡(luò)(微信和微博)的分析,旨在快速捕捉和精準(zhǔn)跟蹤網(wǎng)絡(luò)輿情熱點(diǎn),為輿情管控和相關(guān)決策提供支撐;三是,學(xué)術(shù)研究領(lǐng)域以一定時(shí)間范圍內(nèi)的研究成果為分析對(duì)象,通過(guò)關(guān)鍵詞分析、共現(xiàn)分析、可視化分析等手段,明確某一領(lǐng)域研究現(xiàn)狀,追蹤前沿課題,把握研究趨勢(shì)。信息安全關(guān)乎國(guó)家安全,是信息社會(huì)的重大研究課題,本文落腳于信息安全熱點(diǎn)感知,兼具第二類和第三類的特點(diǎn)。
2.2 技術(shù)難點(diǎn)
海量數(shù)據(jù)爆炸性涌現(xiàn),新聞數(shù)據(jù)處理分析和熱點(diǎn)提取都極具復(fù)雜性和特殊性。文本數(shù)據(jù)處理時(shí),專業(yè)分詞是首要難點(diǎn),專業(yè)領(lǐng)域詞匯切分是否正確,直接決定后續(xù)分析的準(zhǔn)確性;關(guān)鍵詞權(quán)重計(jì)算是主要難點(diǎn),僅依靠傳統(tǒng)的詞頻統(tǒng)計(jì)難以準(zhǔn)確識(shí)別詞語(yǔ)在文章中的依存關(guān)系,無(wú)法準(zhǔn)確挖掘出關(guān)鍵核心的詞匯。因此,在關(guān)鍵詞提取的基礎(chǔ)上,還需要對(duì)關(guān)鍵詞之間的主題概念進(jìn)行聚合挖掘,更細(xì)粒度地分析數(shù)據(jù)中蘊(yùn)含的研究主題以及主題本身的關(guān)鍵詞,同時(shí)借助有效的可視化工具,直觀展現(xiàn)這種主題分析結(jié)果。
3 熱點(diǎn)感知挖掘算法的設(shè)計(jì)
信息安全領(lǐng)域新聞動(dòng)態(tài)熱點(diǎn)感知挖掘算法流程設(shè)計(jì)如圖1所示,主要包括數(shù)據(jù)源(網(wǎng)絡(luò)采集的信息安全相關(guān)文章數(shù)據(jù)),數(shù)據(jù)處理層(主要做分詞、去停用詞、加入自定義詞庫(kù)等處理),算法層(TextRank、詞共現(xiàn)、LDA等),數(shù)據(jù)分析層(關(guān)鍵詞分析、關(guān)鍵詞共現(xiàn)分析以及主題分析)以及可視化層(關(guān)鍵詞可視化、主題可視化等),經(jīng)過(guò)整個(gè)挖掘流程,實(shí)現(xiàn)兩種信息安全熱點(diǎn)感知形式的具象化,達(dá)到信息安全領(lǐng)域熱點(diǎn)感知的目標(biāo),輔助更深層次的研究工作。
4? 熱點(diǎn)挖掘過(guò)程
熱點(diǎn)挖掘過(guò)程分為兩部分,第一部分主要是做基于TextRank的關(guān)鍵詞提取和基于詞共現(xiàn)的可視化分析,實(shí)現(xiàn)整體數(shù)據(jù)集中的關(guān)鍵詞提取;第二部分是基于LDA主題模型分析的主題關(guān)鍵詞及相關(guān)可視化,實(shí)現(xiàn)主題聚合的關(guān)鍵詞挖掘。通過(guò)對(duì)兩過(guò)程的分析,實(shí)現(xiàn)熱點(diǎn)挖掘和分析過(guò)程的快速化。通過(guò)建立統(tǒng)計(jì)中間表、利用矩陣+樹型遍歷算法,可實(shí)現(xiàn)數(shù)據(jù)分析快速化的目的[4]。
4.1 數(shù)據(jù)來(lái)源
本文數(shù)據(jù)為通過(guò)網(wǎng)絡(luò)采集的相關(guān)動(dòng)態(tài)文章,共651篇,包括文章的標(biāo)題、正文、時(shí)間三個(gè)維度,時(shí)間跨度為2018-07-05至2019-04-22。文章采集的數(shù)據(jù)源均為信息安全領(lǐng)域的相關(guān)網(wǎng)站,因此省去做信息安全領(lǐng)域相關(guān)與否的二元判斷環(huán)節(jié),可直接進(jìn)入內(nèi)容層面的熱點(diǎn)挖掘。
4.2 關(guān)鍵詞分析
關(guān)鍵詞分析就是從給定的文本中自動(dòng)抽取出若干有意義的詞語(yǔ)或詞組。本節(jié)將對(duì)所有文章數(shù)據(jù)進(jìn)行整合,經(jīng)過(guò)數(shù)據(jù)處理以及TextRank算法計(jì)算來(lái)實(shí)現(xiàn)關(guān)鍵詞抽取,從而在一定程度上反映信息安全領(lǐng)域熱點(diǎn)。
TextRank算法[5]是一種用于文本的基于圖的排序算法。其基本思想來(lái)源于谷歌的PageRank算法,通過(guò)把文本分割成若干組成單元(單詞、句子)并建立圖模型,利用投票機(jī)制對(duì)文本中的重要成分進(jìn)行排序。與LDA、HMM等模型不同,TextRank算法是利用局部詞匯之間關(guān)系(共現(xiàn)窗口)對(duì)后續(xù)關(guān)鍵詞進(jìn)行排序,僅利用文檔數(shù)據(jù)集本身的信息即可實(shí)現(xiàn)關(guān)鍵詞提取,不需要事先對(duì)多篇文檔進(jìn)行學(xué)習(xí)訓(xùn)練,因其簡(jiǎn)潔和有效而得到廣泛應(yīng)用。
關(guān)鍵詞分析需要經(jīng)過(guò)Python的jieba中文分詞包進(jìn)行分詞,在分詞前通過(guò)jieba的load_userdict函數(shù)加入信息安全領(lǐng)域相關(guān)自定義詞典,比如“關(guān)鍵基礎(chǔ)設(shè)施”“網(wǎng)絡(luò)攻擊”“安全漏洞”等。同時(shí),設(shè)置常用中英文停用詞,主要包括用來(lái)表達(dá)語(yǔ)氣的字詞、連接型字詞、標(biāo)點(diǎn)符號(hào)、特殊字符等沒(méi)有實(shí)際意義的文本,比如“著”“哈”“了”等。分詞后形成一個(gè)有序的詞語(yǔ)集合,經(jīng)過(guò)TextRank算法計(jì)算每個(gè)詞語(yǔ)的重要程度值并進(jìn)行排序,最終得到關(guān)鍵詞和對(duì)應(yīng)的權(quán)重。關(guān)鍵詞的權(quán)重越高,說(shuō)明在文本中越重要。關(guān)鍵詞分析有助于分析該數(shù)據(jù)集的關(guān)鍵特征。
TextRank模型可以表示為一個(gè)有向有權(quán)圖,由點(diǎn)集合V和邊集合E組成,E是的子集。圖中任兩點(diǎn),之間邊的權(quán)重為,對(duì)于一個(gè)給定的點(diǎn), 為指向該點(diǎn)的點(diǎn)集合,為點(diǎn)指向的點(diǎn)集合。點(diǎn)的得分定義如下:
其中,d為阻尼系數(shù),取值范圍為0到1,代表從某一特定點(diǎn)指向其他任意點(diǎn)的概率,一般取值為0.85。使用TextRank算法計(jì)算圖中各點(diǎn)得分時(shí),需要給圖中的點(diǎn)指定任意的初值,并遞歸計(jì)算直到收斂。通過(guò)使用TextRank算法對(duì)數(shù)據(jù)進(jìn)行關(guān)鍵詞提取,得出了前20個(gè)關(guān)鍵詞,如圖2所示。
從圖2可以看出,排名前五的關(guān)鍵詞之中“美國(guó)”這個(gè)主題詞被識(shí)別為權(quán)重最高的關(guān)鍵詞,接下來(lái)依次為“數(shù)據(jù)”“攻擊”“泄露”“漏洞”四個(gè)詞,這些關(guān)鍵詞在一定程度上反映出信息安全領(lǐng)域關(guān)注和研究的一些熱點(diǎn)。同時(shí),可以看到前20個(gè)關(guān)鍵詞里面出現(xiàn)不少國(guó)家名稱,說(shuō)明這些國(guó)家在這些文章中也被高頻率地提到,在整體數(shù)據(jù)上也是很重要的關(guān)鍵詞,是應(yīng)該關(guān)注的重點(diǎn)。本文將通過(guò)關(guān)鍵詞共現(xiàn)分析和主題模型來(lái)深入分析這些關(guān)鍵詞之間是否存在某種關(guān)系。
4.3 關(guān)鍵詞共現(xiàn)分析
這一部分是在關(guān)鍵詞分析的基礎(chǔ)上做關(guān)鍵詞共現(xiàn)分析,按關(guān)鍵詞權(quán)重從高到底排序,計(jì)算前100個(gè)關(guān)鍵詞之間的共現(xiàn)矩陣和共現(xiàn)列表,并計(jì)算每個(gè)節(jié)點(diǎn)的平均加權(quán)度。使用Gephi進(jìn)行可視化形成共現(xiàn)的語(yǔ)義網(wǎng)絡(luò)圖,如圖3所示。同步出現(xiàn)詞模式表明在文章中最頻繁出現(xiàn)或與其最相關(guān)的關(guān)鍵詞之間有著語(yǔ)義上的緊密聯(lián)系。
關(guān)鍵詞共現(xiàn)次數(shù)按從大到小排序,圖3展示的是前250條共現(xiàn)關(guān)系的網(wǎng)絡(luò),圖中節(jié)點(diǎn)大小表示節(jié)點(diǎn)加權(quán)度,連線的粗細(xì)表示節(jié)點(diǎn)之間共現(xiàn)權(quán)重。通過(guò)此圖可以更加直觀地查看關(guān)鍵詞之間的共現(xiàn)關(guān)系,在一定程度上反映出各個(gè)關(guān)鍵詞之間相關(guān)關(guān)系,共現(xiàn)頻次越高,說(shuō)明二者之間的聯(lián)系緊密程度越高。如表1所示,給出前20條詞共現(xiàn)列表。
通過(guò)圖3與表1,可以看到“美國(guó)”與“數(shù)據(jù)”“攻擊”“信息”“系統(tǒng)”等關(guān)鍵詞之間存在顯著的共現(xiàn)關(guān)系,從一定程度上可以反映出,美國(guó)比較關(guān)注或正在研究數(shù)據(jù)安全領(lǐng)域,這個(gè)話題可以作為信息安全領(lǐng)域的一個(gè)研究熱點(diǎn),研究人員可以從這個(gè)熱點(diǎn)著手進(jìn)行深入研究,從而推進(jìn)我國(guó)數(shù)據(jù)安全領(lǐng)域的研究工作;同樣,可以看到“攻擊”與“數(shù)據(jù)”“設(shè)備”“信息”“漏洞”“研究”等關(guān)鍵詞共現(xiàn)頻繁,從一定程度上可以反映出,現(xiàn)在攻擊者對(duì)設(shè)備的攻擊行為可能主要是利用了某些漏洞,造成相關(guān)信息和數(shù)據(jù)泄露等問(wèn)題,從這些關(guān)系入手,研究者可以重點(diǎn)關(guān)注“哪些被漏洞容易被利用”“哪些設(shè)備容易成為攻擊目標(biāo)”“攻擊容易造成哪些數(shù)據(jù)泄露”等研究方向。
4.4 主題分析
LDA 模型是由Blei等人提出的一種對(duì)自然語(yǔ)言進(jìn)行建模的生成模型,適合挖掘大規(guī)模文檔集中潛藏的主題信息[6]。本文通過(guò)LDA模型找出數(shù)據(jù)中的主題分布。在LDA模型中,需要先假設(shè)主題數(shù)目K,這樣所有的分布將基于K個(gè)主題展開。具體LDA模型如圖4所示。
LDA模型假設(shè)文檔中主題和主題中詞的先驗(yàn)分布都是Dirichlet分布,即對(duì)于任意一篇文檔d, 其主題分布為,對(duì)于任意一個(gè)主題k, 其詞分布為,α和η分別為對(duì)應(yīng)分布的超參數(shù)。對(duì)于數(shù)據(jù)的任意一篇文檔d中的第n個(gè)詞,可以從主題分布中得到它的主題編號(hào)的分布為,而對(duì)于該主題編號(hào),得到我們得到的詞的概率分布為。
這個(gè)模型里,有M個(gè)文檔與主題的Dirichlet分布,而對(duì)應(yīng)的數(shù)據(jù)有M個(gè)主題編號(hào)的多項(xiàng)分布,這樣就組成了Dirichlet-multi共軛,可以使用貝葉斯推斷的方法得到基于Dirichlet分布的文檔主題后驗(yàn)分布。同理,對(duì)于主題與詞的分布,有K個(gè)主題與詞的Dirichlet分布,而對(duì)應(yīng)的數(shù)據(jù)有K個(gè)主題編號(hào)的多項(xiàng)分布,這樣就組成了Dirichlet-multi共軛,可以使用貝葉斯推斷的方法得到基于Dirichlet分布的主題詞的后驗(yàn)分布。由于主題產(chǎn)生詞不依賴具體某一個(gè)文檔,因此文檔主題分布和主題詞分布是獨(dú)立的。
主題分析通過(guò)使用LDA主題模型算法,計(jì)算所有文章中出現(xiàn)的主要詞匯簇,這些詞匯集合構(gòu)成了一個(gè)主題,同時(shí)給出每個(gè)詞匯的權(quán)重,以及每篇文章所屬主題的主題系數(shù)及類別。本文基于Python的Sklearn編寫程序,分別對(duì)K等于1-20的主題參數(shù)進(jìn)行了實(shí)驗(yàn)。通過(guò)pyLDAvis實(shí)現(xiàn)對(duì)主題模型結(jié)果的可視化,如圖5所示,在K=5的時(shí)候,主題分布相對(duì)平衡,主題之間交疊較少,主題聚合效果較好。
圖5展示了5個(gè)不同主題之間的距離關(guān)系,交疊關(guān)系,可以看到5個(gè)主題分布相對(duì)平衡,可以很好地區(qū)分各個(gè)主題。圖中左側(cè)為聚合的主題,點(diǎn)擊每個(gè)主題,右側(cè)即可呈現(xiàn)對(duì)應(yīng)的前25個(gè)主題詞及其對(duì)應(yīng)的權(quán)重,這樣的主題分析結(jié)果可視化形式,很容易幫助研究人員從這5個(gè)主題中辨析出信息安全研究的熱點(diǎn)主題。右側(cè)為點(diǎn)擊主題3后的結(jié)果,主要展示了主題TOP25關(guān)鍵詞以及權(quán)重,從這些關(guān)鍵詞可以看到該主題主要講述的網(wǎng)絡(luò)攻擊,攻擊的目標(biāo)主要是關(guān)鍵基礎(chǔ)設(shè)施,其中OT(操作技術(shù))、ICS(工業(yè)控制系統(tǒng))等工控網(wǎng)絡(luò)系統(tǒng)是重要目標(biāo)。這也提示研究人員需要把關(guān)鍵基礎(chǔ)設(shè)施領(lǐng)域的工控網(wǎng)絡(luò)和控制系統(tǒng)安全作為重點(diǎn)研究,同時(shí)作為國(guó)家、社會(huì)和企業(yè)重點(diǎn)保護(hù)的目標(biāo)。此外,通過(guò)分析其他幾個(gè)主題,可以看到目前工控安全已成為全球關(guān)注的熱點(diǎn)。主題分析結(jié)果對(duì)工控系統(tǒng)遭受的攻擊進(jìn)行了比較全面的展示,對(duì)研究人員及時(shí)關(guān)注工控領(lǐng)域相關(guān)攻擊途徑、攻擊目標(biāo)、攻擊方法以及防范措施都起到一定的啟示作用。
5 結(jié)束語(yǔ)
本文在網(wǎng)絡(luò)數(shù)據(jù)采集的基礎(chǔ)上,使用自然語(yǔ)言處理技術(shù),設(shè)計(jì)了一套信息安全領(lǐng)域高價(jià)值信息提取感知策略。首先,加入信息安全領(lǐng)域自定義詞庫(kù),對(duì)數(shù)據(jù)進(jìn)行分詞、去停用詞等預(yù)處理過(guò)程,利用TextRank算法進(jìn)行關(guān)鍵詞提取,得到高敏價(jià)值熱點(diǎn)詞。其次,在關(guān)鍵詞基礎(chǔ)上使用詞共現(xiàn)技術(shù),計(jì)算前100個(gè)關(guān)鍵詞在數(shù)據(jù)中的共現(xiàn)矩陣,獲取關(guān)鍵詞的語(yǔ)義關(guān)系共現(xiàn)網(wǎng)絡(luò),分析得到重要共現(xiàn)熱點(diǎn)。最后,通過(guò)構(gòu)建LDA主題模型,挖掘數(shù)據(jù)中蘊(yùn)含的各種主題及主題相關(guān)的關(guān)鍵詞,并通過(guò)可視化技術(shù)將主題具象化,實(shí)現(xiàn)信息安全熱點(diǎn)的精準(zhǔn)識(shí)別與感知,達(dá)到輔助研究的目的。
參考文獻(xiàn)
[1] 周德懋, 李舟軍. 高性能網(wǎng)絡(luò)爬蟲:研究綜述[J]. 計(jì)算機(jī)科學(xué), 2009, 36(8):26-29.
[2] 羅亞平. 基于用戶瀏覽行為的網(wǎng)絡(luò)熱點(diǎn)話題發(fā)現(xiàn)模型研究[D]. 北京郵電大學(xué), 2008.
[3] 劉旭. 基于互聯(lián)網(wǎng)數(shù)據(jù)的話題發(fā)現(xiàn)及追蹤技術(shù)研究與實(shí)現(xiàn)[D]. 復(fù)旦大學(xué), 2010.
[4] 孫明溪, 劉春琦. 基于DBSCAN算法與句間關(guān)系的熱點(diǎn)話題發(fā)現(xiàn)研究[J]. 圖書情報(bào)工作, 2017(12).
[5] 夏天. 詞語(yǔ)位置加權(quán)TextRank的關(guān)鍵詞抽取研究[J]. 數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn), 2013, 29(9):30-34.
[6] Blei D M, Ng A Y, Jordan M I. Latent dirichlet allocation[J]. Journal of machine Learning research, 2003, 3(Jan): 993-1022.
作者簡(jiǎn)介:
楊立寶(1990-),男,漢族,河北唐山人,北京理工大學(xué),碩士,國(guó)家工業(yè)信息安全發(fā)展研究中心,助理工程師;主要研究方向和關(guān)注領(lǐng)域:大數(shù)據(jù)與信息安全、工業(yè)信息安全。
余章馗(1992-),男,漢族,云南騰沖人,中國(guó)人民大學(xué),碩士,國(guó)家工業(yè)信息安全發(fā)展研究中心,助理工程師;主要研究方向和關(guān)注領(lǐng)域:工業(yè)信息安全、工控安全、工業(yè)大數(shù)據(jù)安全。
狄曉曉(1993-),女,漢族,山東萊蕪人,北京航空航天大學(xué),碩士,國(guó)家工業(yè)信息安全發(fā)展研究中心,助理工程師;主要研究方向和關(guān)注領(lǐng)域:工業(yè)信息安全、工業(yè)大數(shù)據(jù)安全。