閆磊 何志方 趙文娜 李遠 姚非
摘 要:針對傳統(tǒng)的關(guān)聯(lián)規(guī)則在電力數(shù)據(jù)中心大數(shù)據(jù)環(huán)境下數(shù)據(jù)挖掘過程中效率低的問題,提出了基于自適應(yīng)遺傳算法的多維數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘算法,對傳統(tǒng)算法中的交叉算子和變異算子進行自適應(yīng)優(yōu)化,為了避免無用規(guī)則產(chǎn)生,融入注意力以提高關(guān)聯(lián)規(guī)則的可靠性,更好地用于關(guān)聯(lián)規(guī)則的挖掘。最后通過對比實驗驗證了本文算法能夠提高運算的收斂速度和結(jié)果的魯棒性。
關(guān)鍵詞:數(shù)據(jù)挖掘;關(guān)聯(lián)規(guī)則;自適應(yīng)遺傳算法;注意力
1 概述
近年來隨著電網(wǎng)的大規(guī)模建設(shè),相應(yīng)的自動化機房系統(tǒng)及數(shù)據(jù)網(wǎng)規(guī)模日益龐大,系統(tǒng)節(jié)點、設(shè)備、廠商日漸增多。各種設(shè)備與應(yīng)用間的交互與連接形成了縱橫交錯的復(fù)雜關(guān)系網(wǎng)。在這種設(shè)備與應(yīng)用數(shù)量急劇增加,關(guān)系愈加復(fù)雜的情況下,為保證數(shù)據(jù)中心系統(tǒng)的平穩(wěn)運行和實時監(jiān)控,需要對收集到的多維度運行數(shù)據(jù)信息進行有效地關(guān)聯(lián)分析與挖掘,讓所有的數(shù)據(jù)得到充分的分析利用,挖掘其潛在價值[1-3]。
因此本文提出一種將自適應(yīng)遺傳算法與關(guān)聯(lián)規(guī)則相結(jié)合的方式,選擇遺傳算法[4]用于電力數(shù)據(jù)中心數(shù)據(jù)的挖掘,并根據(jù)其具體需求對其進行自適應(yīng)改進。與此同時,通過引入注意度參數(shù)來增加算法的可信度。
2 自適應(yīng)遺傳算法
傳統(tǒng)的遺傳算法存在搜索能力較弱,容易陷入局部最優(yōu)無法達到應(yīng)有的效果。因此本文提出了一種新的自適應(yīng)遺傳算法,針對交叉概率Pc和變異概率Pm進行優(yōu)化,使其在運算過程中根據(jù)實際情況的適應(yīng)度變化而作出相應(yīng)改變。傳統(tǒng)算法中Pc過大不利于優(yōu)良個體的保護,Pc太小會使運算過程繁瑣,從而使算法的效率過低。Pm過小,會導(dǎo)致新的變異個體不易產(chǎn)生,同時也需要控制Pm不能過大[5]?;诖松鲜鰞煞N概率的計算方式如公式(1)(2)所示。其中favg表示平均適應(yīng)度值,f′表示交叉?zhèn)€體中適應(yīng)度較大的值,f表示變異個體適應(yīng)度的值;Pc1和Pc2為交叉概率,Pm1和Pm2為變異概率。
基于自適應(yīng)遺傳算法的關(guān)聯(lián)規(guī)則挖掘步驟如下,首先初始化相關(guān)參數(shù),生成初始種群,計算每個后代個體的適應(yīng)度,進行復(fù)制繁衍下一代個體,接著對后代個體使用公式3、4完成自適應(yīng)遺傳變異步驟,然后分別計算每條規(guī)則的支持度、置信度和注意力的相關(guān)值,最后選擇滿足條件的規(guī)則來生成提取最終的強關(guān)聯(lián)規(guī)則。
3 實驗結(jié)果與分析
3.1 實驗數(shù)據(jù)
實驗數(shù)據(jù)來源于某電力數(shù)據(jù)中心運維數(shù)據(jù)。數(shù)據(jù)集采集于2019年1月1日至2019年12月31日的數(shù)據(jù)中心的三份運維數(shù)據(jù),由告警、故障和綜合網(wǎng)絡(luò)數(shù)據(jù)三部分構(gòu)成。告警數(shù)據(jù)是由全業(yè)務(wù)系統(tǒng)中系統(tǒng)監(jiān)測單元產(chǎn)生的告警日志,用于監(jiān)測系統(tǒng)的運行狀態(tài);故障數(shù)據(jù)由人工完成,顯示了系統(tǒng)故障的起因及解決方案;綜合網(wǎng)絡(luò)數(shù)據(jù)由進程調(diào)度、CPU占用率、設(shè)備信息、流量統(tǒng)計、數(shù)據(jù)庫操作等系統(tǒng)數(shù)據(jù)構(gòu)成。
3.2 自適應(yīng)交叉概率和變異概率結(jié)果分析
圖1展示了兩種概率隨迭代次數(shù)增加的變化曲線,從圖中可以看出,隨著進化迭代代數(shù)的不斷增加,交叉概率Pc逐漸變小,然后穩(wěn)定于0.3左右波動;變異概率Pm則相反,隨迭代次數(shù)增加不斷變大,最終穩(wěn)定于0.09左右。在種群繁衍初期,受交叉算子的影響,能快速產(chǎn)生后代的新個體,當進化繁衍到后期時,交叉算子穩(wěn)定于一較小值,保證優(yōu)質(zhì)后代不會發(fā)生變異,同時較大的變異算子又能夠在種群陷入局部最優(yōu)解時,變異產(chǎn)生新的后代,保證種群的繼續(xù)迭代,全局搜索能力較強。
3.3 自適應(yīng)遺傳算法實驗結(jié)果與對比分析
通過本文算法對告警、故障和綜合網(wǎng)絡(luò)數(shù)據(jù)進行關(guān)聯(lián)規(guī)則分析,當支持度設(shè)置為50時,共分析得到8項強關(guān)聯(lián)規(guī)則,同時在告警數(shù)據(jù)和綜合網(wǎng)絡(luò)數(shù)據(jù)中進行分析,最終得到10項關(guān)聯(lián)規(guī)則,證明了本文算法的有效性。
算法效率的高低取決于數(shù)據(jù)集中不同屬性的范圍、數(shù)據(jù)量的大小和數(shù)據(jù)要素的數(shù)量,針對以上三種變量,使用FP-Growth算法[6]與本文提出的自適應(yīng)遺傳算法進行對比實驗,通過兩者的時間比來體現(xiàn)提出算法的性能,結(jié)果如圖2,3,4所示。
根據(jù)實驗結(jié)果可知,如果運維數(shù)據(jù)要素個數(shù)越多,每個運維數(shù)據(jù)不同屬性的取值范圍越大,則自適應(yīng)遺傳算法比FP-Growth效果越好。雖然當運維數(shù)據(jù)數(shù)據(jù)記錄量增大時,本文算法的效率比FP-Growth算法低,但兩者差距較小。因此本文提出的自適應(yīng)遺傳算法適用于數(shù)據(jù)類型復(fù)雜的數(shù)據(jù)中心運維數(shù)據(jù)的關(guān)聯(lián)規(guī)則挖掘。
4 結(jié)語
本文針對數(shù)據(jù)中心運維數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘效率低、潛在價值缺乏挖掘的問題,提出了關(guān)聯(lián)規(guī)則在電網(wǎng)數(shù)據(jù)中心的應(yīng)用,將自適應(yīng)遺傳算法融入到關(guān)聯(lián)規(guī)則中,在提取關(guān)聯(lián)規(guī)則前引入了注意力來提高結(jié)果的可靠性。通過實驗表明改進后的方法在算法收斂性、挖掘效率上,相比傳統(tǒng)方法有了較大的提升,適用于類型復(fù)雜的數(shù)據(jù)集中發(fā)現(xiàn)關(guān)聯(lián)規(guī)則。
參考文獻:
[1]丁煜.數(shù)據(jù)中心運維數(shù)據(jù)關(guān)聯(lián)規(guī)則知識庫的構(gòu)建[D].2016.
[2]彭剛,唐松平,曾力,等.基于數(shù)據(jù)挖掘的電網(wǎng)故障關(guān)聯(lián)規(guī)則的研究[J].計算機與數(shù)字工程,2019,47(9):2369-2374.
[3]蔡澤祥,馬國龍,孫宇嫣,等.基于數(shù)據(jù)挖掘的電力設(shè)備運維與決策分析方法[J].華南理工大學學報(自然科學版),2019,47(6).
[4]張軍,劉文杰.關(guān)聯(lián)規(guī)則中基于模糊遺傳算法的研究與改進挖掘技術(shù)[J].現(xiàn)代電子技術(shù),2017,40(14):23-25.
[5]任子武,傘冶.自適應(yīng)遺傳算法的改進及在系統(tǒng)辨識中應(yīng)用研究[J].系統(tǒng)仿真學報,2006,18(1):41-43.
[6]Sun Hong,Zhang Huaxuan,Chen Shiping,et al.The study of improved FP-growth algorithm in MapReduce [C].Shang-hai:International Workshop on Cloud Computing and Infor-mation Security(CCIS),2013.
作者簡介:閆磊(1985—),男,高工/副處長,研究方向:調(diào)度自動化。