董偉
(忻州師范學(xué)院計(jì)算機(jī)系,忻州 034000)
信息技術(shù)的快速發(fā)展和應(yīng)用,促進(jìn)了當(dāng)今信息時(shí)代的發(fā)展,社會(huì)信息化進(jìn)程不斷加快,各行業(yè)都開始利用信息技術(shù)促進(jìn)作用。作為信息傳輸?shù)闹匾d體,互聯(lián)網(wǎng)的作用不容忽視,同時(shí)互聯(lián)網(wǎng)也是信息時(shí)代發(fā)展的基礎(chǔ)[1]?;诨ヂ?lián)網(wǎng)的信息傳輸,不受時(shí)間、地點(diǎn)等因素的限制,將整個(gè)世界歸為一個(gè)沒有界限的空間。2018年底我國網(wǎng)民數(shù)量突破8.29億,互聯(lián)網(wǎng)普及率高達(dá)59.6%,超出全球平均水平的2.6%。網(wǎng)民數(shù)量的不斷增加,說明我國互聯(lián)網(wǎng)發(fā)展迅猛,應(yīng)用廣泛?;ヂ?lián)網(wǎng)的出現(xiàn)和應(yīng)用,對(duì)人們工作和生活帶來了較大影響,同時(shí)也對(duì)社會(huì)經(jīng)濟(jì)發(fā)展、人類文明進(jìn)步帶來了深遠(yuǎn)影響。目前互聯(lián)網(wǎng)給人類社會(huì)帶來的促進(jìn)作用有目共睹,且這一影響還將繼續(xù)深入和加深。在看到互聯(lián)網(wǎng)帶來的積極影響的同時(shí),互聯(lián)網(wǎng)中存在問題也應(yīng)正視。互聯(lián)網(wǎng)具有較強(qiáng)的開放性,這是互聯(lián)網(wǎng)的一大優(yōu)勢,同時(shí)也是其問題存在的根源,特別是安全問題,更是互聯(lián)網(wǎng)所有問題中的重中之重,而安全問題主要是由于互聯(lián)網(wǎng)開放性導(dǎo)致的。Internet是世界上應(yīng)用范圍最大的信息網(wǎng)絡(luò),Internet的應(yīng)用實(shí)現(xiàn)了計(jì)算機(jī)的連接,信息共享也變成現(xiàn)實(shí),真正將世界變成了“地球村”。但I(xiàn)nternet早期協(xié)議在設(shè)計(jì)時(shí)并沒有重視安全問題,隨著其應(yīng)用的日益廣泛性,嚴(yán)峻的安全問題開始凸顯出來,國際安全、經(jīng)濟(jì)安全、網(wǎng)絡(luò)安全、個(gè)人隱私安全等,都成為互聯(lián)網(wǎng)安全中的重要安全問題[2-4]。如國外Facebook數(shù)據(jù)泄密,導(dǎo)致五千萬用戶數(shù)據(jù)被濫用、WannaCrypt病毒在全球范圍內(nèi)爆發(fā),有10萬家以上的組織機(jī)構(gòu)被攻陷、印度麥當(dāng)勞200多萬用戶數(shù)據(jù)被泄露、美國“棱鏡門”事件等,這些都是世界范圍內(nèi)影響較大的互聯(lián)網(wǎng)安全事件。在我國,互聯(lián)網(wǎng)安全問題同樣顯著,如個(gè)人信息泄露嚴(yán)重、多所高校遭受Wannacry勒索病毒、雅虎信息泄露影響幾千萬我國網(wǎng)民、來勢洶洶的挖礦木馬等,都是耳熟能詳?shù)陌踩珕栴}?;ヂ?lián)網(wǎng)安全問題,不是一個(gè)公司、一個(gè)國家所面臨的,而是全球范圍內(nèi)各國應(yīng)正視的問題。需要各國加強(qiáng)合作,通過深入研究找尋出有效的解決互聯(lián)網(wǎng)安全問題的舉措[5-8]。
面對(duì)嚴(yán)峻的互聯(lián)網(wǎng)安全問題,需要采取措施進(jìn)行應(yīng)對(duì),提高互聯(lián)網(wǎng)的安全性。其中計(jì)算機(jī)安全審核是一項(xiàng)提高互聯(lián)網(wǎng)安全的重要舉措。計(jì)算機(jī)安全審核即是對(duì)網(wǎng)絡(luò)中的設(shè)備、系統(tǒng)進(jìn)行集中審核,及時(shí)發(fā)現(xiàn)其中存在的安全隱患,并采取措施進(jìn)行應(yīng)對(duì),以此消除潛在的安全問題。大數(shù)據(jù)是近幾年來新發(fā)展的技術(shù),主要優(yōu)勢是提高了數(shù)據(jù)處理的準(zhǔn)確率和效率?;ヂ?lián)網(wǎng)中各類信息呈現(xiàn)出海量的特點(diǎn),海量的大數(shù)據(jù)面前安全隱患更多,稍不注意便有可能出現(xiàn)安全問題。故在大數(shù)據(jù)時(shí)代下,應(yīng)將大數(shù)據(jù)技術(shù)應(yīng)用到計(jì)算機(jī)安全審核中,通過準(zhǔn)確、高效的數(shù)據(jù)處理提高計(jì)算機(jī)安全審核準(zhǔn)確率和效率,找尋出安全隱患,從而保證互聯(lián)網(wǎng)的安全性。故文章就大數(shù)據(jù)技術(shù)在計(jì)算機(jī)安全審核中的應(yīng)用進(jìn)行了簡單分析。
計(jì)算機(jī)安全審核管理分為主機(jī)網(wǎng)絡(luò)安全審核、集中式安全審核系統(tǒng)和分布式安全審核系統(tǒng)、基于智能代理技術(shù)的分布式安全審核系統(tǒng),見圖1為計(jì)算機(jī)安全審核管理體系結(jié)構(gòu)。
圖1 計(jì)算機(jī)安全審核管理體系結(jié)構(gòu)
由圖1可知主機(jī)網(wǎng)絡(luò)安全審核包括基于主機(jī)的安全審核、基于網(wǎng)絡(luò)的安全審核,審核內(nèi)容分別為:主機(jī)安全審核用于監(jiān)督系統(tǒng)、事件,根據(jù)操作系統(tǒng)記錄日志進(jìn)行入侵檢測并進(jìn)行系統(tǒng)漏洞修復(fù);基于網(wǎng)絡(luò)安全審計(jì)主要是對(duì)網(wǎng)絡(luò)傳輸數(shù)據(jù)包進(jìn)行分析確保網(wǎng)絡(luò)數(shù)據(jù)安全。集中式安全審核系統(tǒng)和分布式安全審核系統(tǒng)包括集中安全審核和分布式安全審核,集中式安全審核系統(tǒng)將各個(gè)設(shè)備數(shù)據(jù)采集到一起進(jìn)行數(shù)據(jù)分析,該方式實(shí)現(xiàn)容易但是存在網(wǎng)絡(luò)傳輸容量、計(jì)算能力有限情況;分布式安全審核系統(tǒng)包括主機(jī)監(jiān)視和中心計(jì)算機(jī)量大模塊,如圖2為分布式安全審核系統(tǒng)結(jié)構(gòu)圖。
圖2 分布式審核系統(tǒng)結(jié)構(gòu)圖
由圖2可知分布式審核系統(tǒng)結(jié)構(gòu)中,網(wǎng)絡(luò)檢測器分布式各個(gè)地方,將采集數(shù)據(jù)傳輸?shù)街鳈C(jī),解決了集中運(yùn)算、傳輸能力問題,從而實(shí)現(xiàn)了系統(tǒng)運(yùn)行效率。但是缺點(diǎn)是容易造成中心計(jì)算機(jī)單點(diǎn)失效以及系統(tǒng)擴(kuò)展方面存在缺陷。
當(dāng)前計(jì)算機(jī)安全分析多采用安全日志和流量數(shù)據(jù)進(jìn)行安全審核。根據(jù)計(jì)算機(jī)安全審核指標(biāo)有漏洞、系統(tǒng)配置、訪問日志、用戶行為、應(yīng)用程序安全、業(yè)務(wù)指南、外部情報(bào)等。訪問日志包括主機(jī)入侵檢測、安全分析、審核管理。流量管理包含代碼檢測、木馬檢測、蠕蟲檢測、流量異常檢測、網(wǎng)絡(luò)入侵檢測。網(wǎng)絡(luò)審核中會(huì)存儲(chǔ)大量信息,將大數(shù)據(jù)技術(shù)應(yīng)用到計(jì)算機(jī)安全審核中可實(shí)現(xiàn)安全信息關(guān)聯(lián)、提高響應(yīng)效率[9,10]。本文就大數(shù)據(jù)及時(shí)在計(jì)算機(jī)安全審核中應(yīng)用進(jìn)行研究。
大數(shù)據(jù)平臺(tái)由采集層、存儲(chǔ)層、數(shù)據(jù)挖掘?qū)?、?shù)據(jù)展示層構(gòu)成。所設(shè)計(jì)的大數(shù)據(jù)計(jì)算機(jī)安全審核平臺(tái)網(wǎng)絡(luò)架構(gòu)如圖3所示。
圖3 大數(shù)據(jù)計(jì)算機(jī)安全審核平臺(tái)網(wǎng)絡(luò)架構(gòu)圖
由圖3可知大數(shù)據(jù)計(jì)算安全審核平臺(tái)中數(shù)據(jù)采集層包括鏡像流量、DNS流量、日志、用戶行為、檢測信息、結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)等,這些數(shù)據(jù)可從網(wǎng)絡(luò)設(shè)備中獲取。數(shù)據(jù)采集完成需要將數(shù)據(jù)存儲(chǔ)到分布式系統(tǒng)中,存儲(chǔ)數(shù)據(jù)使用框架有HDFS、Hadoop、MYSQL數(shù)據(jù)庫存儲(chǔ)[11]。數(shù)據(jù)挖掘?qū)又胁捎肕apReduce、Mahout等計(jì)算方法進(jìn)行數(shù)據(jù)異常分析,本文提出一種基于遺傳算法的關(guān)聯(lián)規(guī)則算法進(jìn)行病毒數(shù)據(jù)挖掘。數(shù)據(jù)展示層中向用戶展示信息查詢、檢索等。
現(xiàn)有計(jì)算機(jī)安全審核系統(tǒng)實(shí)現(xiàn)信息化管理,積累數(shù)據(jù)量比較大,目前對(duì)數(shù)據(jù)管理方式仍采用傳統(tǒng)平均值、方差分析等方法進(jìn)行安全信息分析。隨著數(shù)據(jù)挖掘技術(shù)不斷發(fā)展,沉睡的數(shù)據(jù)中隱含大量信息,目前數(shù)據(jù)發(fā)掘算法有Apriori算法、決策樹算法、K-means算法等,眾多算法中Apriori算法由于編寫難度低、非常適合非數(shù)據(jù)類型的數(shù)據(jù)挖掘中,考慮到安全信息管理系統(tǒng)中存儲(chǔ)大非數(shù)據(jù)類型數(shù)據(jù),因此本文選擇在現(xiàn)有Apriori算法基礎(chǔ)上進(jìn)行算法改進(jìn)并應(yīng)用到安全信息挖掘中。
(1)Apriori算法思想
Apriori算法是常見的數(shù)據(jù)挖掘算法,該算法思想是假設(shè)數(shù)據(jù)庫中有n項(xiàng)數(shù)據(jù)集用符號(hào)S={s1,s,2...,sn}表示。有關(guān)聯(lián)的數(shù)據(jù)T是數(shù)據(jù)庫事務(wù)的總體數(shù)據(jù)集,那么有數(shù)據(jù)庫中每個(gè)事務(wù)F都是數(shù)據(jù)集S的子集即有T?S關(guān)系。用符號(hào)X?Y表示關(guān)聯(lián)規(guī)則,其中X、Y都屬于數(shù)據(jù)集同時(shí)滿足X?I,Y?Y,X?Y=?。為量化X、Y全集占總事務(wù)的比重可用支持度符號(hào)D表示,使用符號(hào)support(X?Y)=P(X?Y),為量化X、Y數(shù)據(jù)集中X占的比值用置信度表示,計(jì)算方法為confidence(X?Y)=P(X|Y)。進(jìn)行集合處理中可能存在多個(gè)數(shù)據(jù)集將這些數(shù)據(jù)集集成在一起便是項(xiàng)集。如果數(shù)據(jù)集個(gè)數(shù)為m個(gè)稱為m項(xiàng)集。假設(shè)在數(shù)據(jù)集中有一項(xiàng)的支持度高于設(shè)置的最小支持度閾值min,將該數(shù)據(jù)集稱為頻繁項(xiàng)集,將所有的頻繁項(xiàng)集合組合在一起形成新的頻繁項(xiàng)集合用符號(hào)Lm表示[12]。
Apriori算法在進(jìn)行數(shù)據(jù)挖掘時(shí)需要經(jīng)過兩個(gè)步驟:第一步采用迭代方法查詢數(shù)據(jù)庫中的頻繁數(shù)據(jù)集,該過程主要計(jì)算支持度不低于用戶設(shè)置的閾值;第二步根據(jù)用戶提供的最小置信度的決策進(jìn)行挖掘。
(2)Apriori算法步驟
通過以上分析可知Apriori算法核心思想采用每層搜索加上迭代的方法進(jìn)行頻繁數(shù)據(jù)集獲取,同時(shí)對(duì)頻繁數(shù)據(jù)集按照挖掘技術(shù)方法找到各個(gè)數(shù)據(jù)集之間的關(guān)聯(lián)。如圖4為Aproori算法流程圖。
圖4 Apriori算法流程圖
如下為Apriori算法步驟:
步驟一:初始化從數(shù)據(jù)庫中遍歷所有數(shù)據(jù)找出第一階段頻繁項(xiàng)集合S1;
步驟二:將Sn-2(n≥2)按照自身連接生成n階候選項(xiàng)目集合Cn;
步驟三:從候選頻繁項(xiàng)目中任意選擇子集進(jìn)行剪枝。如果在n階候選項(xiàng)目中存在Cn-1∈Cn,同時(shí)有Cn-1?Sn-1,表明該選項(xiàng)中不存在頻繁數(shù),直接可刪除。
步驟四:按照步驟二、三執(zhí)行直到項(xiàng)目中未見高階頻繁項(xiàng)目集合。最終得到挖掘結(jié)果。
下面進(jìn)行Apriori算法實(shí)例分析。假設(shè)在數(shù)據(jù)庫中存儲(chǔ)數(shù)據(jù)集如表1所示。
表1 數(shù)據(jù)庫數(shù)據(jù)集
第一步對(duì)數(shù)據(jù)集進(jìn)行遍歷,最終得到1階頻繁項(xiàng)目數(shù)據(jù)集為S1={1=3,2=5,3=3,4=2,5=2,6=4,7=3,9=1},將S1自身相連得到2階選項(xiàng)集合S2={12,13,14,15,16,17,19,23,24,25,26,27,29,34,35,36,37,39,45,46,47,49,56,57,59,67,69,79},再對(duì)S2進(jìn)行自身連接形成數(shù)據(jù)集C3。
(3)遺傳算法
遺傳算法是由基因、染色體、種群、適應(yīng)度、選擇、交叉及變異共同組成。如下為各個(gè)指標(biāo)詳細(xì)分析。
1)基因。在遺傳學(xué)中它是DNA分析片段,基因上包含了大量的遺傳信息。基因是進(jìn)行遺傳的最小單元。在遺傳算法中基因可用二進(jìn)制、整數(shù)進(jìn)行表達(dá)。
2)染色體。染色體中是有多個(gè)基因組成,是信息承載的物質(zhì)。目前染色體編碼主要有浮點(diǎn)數(shù)編碼和二進(jìn)制編碼。
浮點(diǎn)編碼是指假設(shè)存在種群數(shù)量為m,用符號(hào)xti表示第t代中i個(gè)個(gè)體,每個(gè)基因的長度為n,那么有個(gè)體xti∈Rn,可用xti表示 n維行向量,用符號(hào)xti={xti1,xti2,...,xtij}表示。那么在t代后有種群xti表示為n×m的矩陣。在種群中有矩陣X0={x01,x02,...,x0n}未見相同的兩行,這種種群稱為個(gè)體互異。
二進(jìn)制編碼中假設(shè)種群的數(shù)量為m,用符號(hào)xti表示第t代中第i個(gè)個(gè)體,每個(gè)個(gè)體中的位數(shù)用l表示。每個(gè)基因的數(shù)目計(jì)算方法為:L=ml。個(gè)體xti可用ml維度的行向量表示,那么有xti={xti1,xti2,...,xtij}。最終得到二進(jìn)制編碼轉(zhuǎn)化實(shí)數(shù)的計(jì)算方法為:
3)種群。進(jìn)化論中種群是指由多個(gè)物種構(gòu)成的群體。將這一概念引入到遺傳算法中,可知遺傳算法的種群是指某一代的所有染色體的總和。本文所設(shè)計(jì)的遺傳算法基于二進(jìn)制串組成,種群初始數(shù)目設(shè)置在100以上。
4)適應(yīng)度。為評(píng)價(jià)個(gè)體是否優(yōu)秀,提出采用適應(yīng)度方法進(jìn)行個(gè)體好壞評(píng)價(jià)。遺傳算法中第一步是進(jìn)行編碼,接著根據(jù)染色體編碼按照設(shè)置適應(yīng)度方法進(jìn)行適應(yīng)度數(shù)值計(jì)算。適應(yīng)度函數(shù)計(jì)算方法主要有如下幾種:
①需要求解目標(biāo)函數(shù)可采用目標(biāo)函數(shù)最大值計(jì)算方法為:Fit(f(x))=f(x),目標(biāo)函數(shù)最小值計(jì)算方法為:Fit(f(x))=-f(x)。
②目標(biāo)函數(shù)最優(yōu)問題求解變種計(jì)算方法:當(dāng)需要計(jì)算最小值時(shí)有:
式中cmax表示函數(shù)最大估計(jì)值。
當(dāng)目標(biāo)函數(shù)為最大值時(shí)有:
式中cmin表示函數(shù)的最小估計(jì)值。
③目標(biāo)函數(shù)分式計(jì)算算法:當(dāng)需要計(jì)算最小問題時(shí)有:
當(dāng)目標(biāo)函數(shù)計(jì)算最大問題時(shí)有:
適應(yīng)度函數(shù)變化主要有線性變化、冪函數(shù)變化以及指數(shù)變化。如下為詳細(xì)分析。
①線性變化方法為:假設(shè)原有的適應(yīng)度函數(shù)為f(x),變化后的適應(yīng)度函數(shù)為f'(x),按照線性變化從而得到如下關(guān)系:
變化系數(shù)計(jì)算方法應(yīng)遵循如下計(jì)算:已有的適應(yīng)度函數(shù)平均值與轉(zhuǎn)化后的適應(yīng)度平均值相等,如下為計(jì)算方法:
變化系數(shù)計(jì)算方法如下:
式中k表示倍數(shù),一般設(shè)置在1-2之間。
②冪函數(shù)變化方法為:f'(x)=fk(x),其中k表示最優(yōu)問題求解,根據(jù)實(shí)際情況進(jìn)行求解。
③指數(shù)變化法為:f'(x)=e-af(x)。
5)選擇。選擇原理來自進(jìn)化論,該過程是遺傳算法關(guān)鍵環(huán)節(jié),選擇第一步是進(jìn)行適應(yīng)度計(jì)算。目前遺傳算法中選擇的算法主要有:基于偏差、基于方差、基于期望、基于概率。本文選擇基于概率的方法,按照如下進(jìn)行概率計(jì)算:
6)交叉。交叉是基因重組重要環(huán)節(jié)。由于本文采用二進(jìn)制交叉,而二進(jìn)制交叉中包含交叉方法有單點(diǎn)交叉、多點(diǎn)交叉、均值交叉。如下為交叉詳細(xì)分析。
①單點(diǎn)交叉是指在編碼長度為m交叉點(diǎn)位于[1,m-1],當(dāng)選擇好交叉點(diǎn)位置時(shí)只需將兩個(gè)父個(gè)體m點(diǎn)處進(jìn)行交叉互換。
②多點(diǎn)交叉是指在編碼長度為m中交叉點(diǎn)的個(gè)數(shù)為k,按照單點(diǎn)交叉思路完成多點(diǎn)交叉。
③均勻交叉。單點(diǎn)交叉和多點(diǎn)交叉很容易造成編碼分成多個(gè)片段,為解決編碼分離狀況提出了均勻交叉。均勻交叉與多點(diǎn)交叉性質(zhì)相似。
7)變異?;蚪?jīng)過多輪交叉后會(huì)出現(xiàn)局部最優(yōu)問題,為解決這一問題提出在編碼中增加變異放置算法過早收斂。在變異過程中如果變異率過高超過0.5則遺傳算法轉(zhuǎn)變?yōu)樗阉厮惴ㄊチ怂惴ū举|(zhì)。本文使用變異算法為單點(diǎn)算法。
(4)Apriori算法改進(jìn)
遺傳算法在進(jìn)行全局并行搜索時(shí)算法性能好,被廣發(fā)應(yīng)用到多個(gè)行業(yè)中。Apriori算法優(yōu)點(diǎn)是算法容易實(shí)現(xiàn),缺點(diǎn)是處理大量數(shù)據(jù)時(shí)效率較低,為解決這一問題,文章提出將遺傳算法與Apriori算法結(jié)合形成基于遺傳算法的Apriori算法。
本文所設(shè)計(jì)的算法思想是將數(shù)據(jù)庫中數(shù)據(jù)劃分為有限數(shù)據(jù)集用符號(hào)D={d1,d2,...,dn}表示,這些數(shù)據(jù)集能夠在運(yùn)行的系統(tǒng)中存儲(chǔ)并運(yùn)行,按照Apriori算法思想進(jìn)行強(qiáng)項(xiàng)集合計(jì)算。接著進(jìn)行強(qiáng)項(xiàng)集合求解,該過程中使用遺傳算法從而解決了算法對(duì)數(shù)據(jù)庫的讀取問題,實(shí)現(xiàn)了算法性能提升。如圖5為基于遺傳算法的Apriori算法流程圖。
圖5 基于遺傳算法的Apriori算法流程圖
根據(jù)改進(jìn)算法思想進(jìn)行算法設(shè)計(jì)。首先進(jìn)行遺傳算法編碼實(shí)現(xiàn),本算法采用二進(jìn)制編碼方式,將安全關(guān)聯(lián)的信息轉(zhuǎn)化為二進(jìn)制并連接在一起,一個(gè)染色體代表安全的信息并包含關(guān)聯(lián)規(guī)則。根據(jù)計(jì)算機(jī)安全審核績關(guān)聯(lián)分析定義染色體排序情況,可用二進(jìn)制編碼000100011…11網(wǎng)絡(luò)流量、。
按照上述操作完成編碼后進(jìn)行適應(yīng)度函數(shù)設(shè)置。遺傳算法需要解決問題時(shí)Apriori算法讀取數(shù)據(jù)庫效率問題。為此本文構(gòu)建的適應(yīng)度函數(shù)包括置信度和支持度兩個(gè)變量。如下為適應(yīng)度函數(shù)計(jì)算方法:
式中:a,b 為常數(shù);
S(x)表示支持度;
B(x)表示置信度;
接下來進(jìn)行遺傳算法選擇操作。前面已分析,本文選擇概率計(jì)算方法進(jìn)行選擇。
最終得到如圖6所示遺傳算法流程圖。
圖6 遺傳算法流程圖
(5)Apriori算法性能分析
本次試驗(yàn)系統(tǒng)配置環(huán)境為操作系統(tǒng)Windows7 64位專業(yè)版;內(nèi)存 16GB(16GB×1)DDR4 2666MHz;硬盤為SSD 128G;CPU主頻2.2GHz,六核心/十二線程,仿真平臺(tái)為Python 3.7。數(shù)據(jù)來源:本次試驗(yàn)數(shù)據(jù)來源于近三年安全管理系統(tǒng)中存儲(chǔ)數(shù)據(jù)庫(管理系統(tǒng)數(shù)據(jù)庫為開源MySQL數(shù)據(jù)庫)。目前管理系統(tǒng)中存儲(chǔ)數(shù)據(jù)量達(dá)到500Mb,第一步是對(duì)數(shù)據(jù)庫進(jìn)行劃分本算法劃分為20個(gè)數(shù)據(jù)集,將數(shù)據(jù)分別讀入內(nèi)存,按照Apriori算法計(jì)算強(qiáng)項(xiàng)集,并將強(qiáng)項(xiàng)集合并在一起。根據(jù)前面分析安全關(guān)聯(lián)信息因素得到關(guān)聯(lián)表。接著進(jìn)行參數(shù)設(shè)置,所使用適應(yīng)度函數(shù)方法為f(x)=S(x)+B(x),最小支持度為0.2,最小置信度為0.84,設(shè)置種群初始個(gè)數(shù)為150,變異率為0.13,交叉概率為0.9。
下面進(jìn)行改進(jìn)算法與Apriori算法性能分析。
(1)劃分次數(shù)對(duì)挖掘效率影響。內(nèi)存為512Mb、數(shù)據(jù)集為2500條,采用Python編程進(jìn)行算法實(shí)現(xiàn)。結(jié)果如圖7所示。
圖7 劃分次數(shù)對(duì)挖掘效率影響
由圖7可知改進(jìn)算法與經(jīng)典Apriori算法隨著劃分次數(shù)增加挖掘時(shí)間隨著增加成類似于指數(shù)增長關(guān)系。改進(jìn)算法挖掘時(shí)間比經(jīng)典Apriori算法挖掘時(shí)間少,說明改進(jìn)挖掘算法受劃分次數(shù)影響低于經(jīng)典Apri?ori算法。
(2)挖掘數(shù)量對(duì)挖掘效率影響。內(nèi)存為512Mb,劃分層次數(shù)量為6個(gè),采用Python編程進(jìn)行算法實(shí)現(xiàn)。結(jié)果如圖8所示。
由圖8可知改進(jìn)算法與經(jīng)典Apriori算法隨著挖掘數(shù)量增加挖掘時(shí)間隨著增加。改進(jìn)算法挖掘時(shí)間比經(jīng)典Apriori算法挖掘時(shí)間少,說明改進(jìn)挖掘算法受挖掘數(shù)量影響低于經(jīng)典Apriori算法。
(3)內(nèi)存空間對(duì)挖掘效率影響。挖掘數(shù)量2500條,劃分層次數(shù)量為6個(gè),采用Python編程進(jìn)行算法實(shí)現(xiàn)。結(jié)果如圖9所示。
圖8 數(shù)據(jù)量對(duì)挖掘效率影響
圖9 內(nèi)存空間對(duì)挖掘效率影響
由圖9可知改進(jìn)算法與經(jīng)典Apriori算法隨著內(nèi)存空間增加挖掘時(shí)間隨著降低。改進(jìn)算法挖掘時(shí)間比經(jīng)典Apriori算法挖掘時(shí)間少,說明改進(jìn)挖掘算法受內(nèi)存空間影響低于經(jīng)典Apriori算法。
從以上仿真數(shù)據(jù)可知將遺傳算法引入到Apriori算法中內(nèi)存空間會(huì)得到降低,挖掘分類得到提升。在相同數(shù)量下改進(jìn)算法能夠在較短時(shí)間內(nèi)完成挖掘,說明改進(jìn)算法從空間、時(shí)間都得到提升。
隨著物聯(lián)網(wǎng)到來計(jì)算機(jī)安全技術(shù)越來越顯重要,本文針對(duì)傳統(tǒng)計(jì)算機(jī)安全審核技術(shù)存在問題進(jìn)行大數(shù)據(jù)安全管理研究,構(gòu)建了基于大數(shù)據(jù)安全管理應(yīng)用平臺(tái),從數(shù)據(jù)采集層、存儲(chǔ)層、數(shù)據(jù)挖掘?qū)?、?shù)據(jù)展示層進(jìn)行大數(shù)據(jù)平臺(tái)設(shè)計(jì)。針對(duì)當(dāng)前大數(shù)據(jù)平臺(tái)中Apriori運(yùn)行占用內(nèi)存高、運(yùn)行效率慢問題構(gòu)建了基于遺傳算法的Apriori算法,對(duì)算法進(jìn)行時(shí)間、空間效率分析結(jié)果表明所設(shè)計(jì)算法提高了算法時(shí)間、空間效率具有廣闊應(yīng)用前景。