趙林燕,雷沁怡,洪德華,孫琦,劉翠玲
(國網(wǎng)安徽信通公司數(shù)據(jù)運營中心,安徽合肥 230000)
一個由初始向量指向目標(biāo)向量的映射結(jié)果可以用關(guān)聯(lián)系數(shù)表示,因此可將多維關(guān)聯(lián)規(guī)則理解為由多個關(guān)聯(lián)系數(shù)組成的統(tǒng)一集合空間。在由多維關(guān)聯(lián)規(guī)則組成的集合空間中,每一個目標(biāo)向量都對應(yīng)一個節(jié)點,由于關(guān)聯(lián)法則的映射關(guān)系不會發(fā)生改變,故而目標(biāo)向量越多,集合空間內(nèi)包含的節(jié)點坐標(biāo)也就越多[1-2]。對于互聯(lián)網(wǎng)數(shù)據(jù)參量而言,基于多維關(guān)聯(lián)規(guī)則的集合空間既負(fù)責(zé)存儲映射向量,也能夠?qū)⑾嗨菩韵蛄恐笜?biāo)區(qū)別開來,一方面使得互聯(lián)網(wǎng)主機(jī)能夠?qū)?shù)據(jù)進(jìn)行準(zhǔn)確編碼;另一方面也可以輔助已編碼數(shù)據(jù)的快速傳輸,從而便于后續(xù)提取與處理指令的快速執(zhí)行。
數(shù)據(jù)挖掘是指利用相關(guān)算法從海量數(shù)據(jù)中搜索隱藏信息的方法,按照算法執(zhí)行條件的不同,可以分為基參量挖掘、并行挖掘、深度挖掘等多種不同的形式[3]。在執(zhí)行并行挖掘指令的過程中,由于數(shù)據(jù)離散程度增加,故而極易導(dǎo)致數(shù)據(jù)分布呈現(xiàn)稀疏情況的出現(xiàn)。為解決上述問題,提出基于信息熵與遺傳算法的并行挖掘技術(shù),主要是根據(jù)數(shù)據(jù)節(jié)點排列形式建立完整的挖掘指令執(zhí)行標(biāo)準(zhǔn),又通過求取決策度指標(biāo)數(shù)值的方式,完善挖掘算法的具體執(zhí)行流程[4]。然而這種數(shù)據(jù)挖掘方法在準(zhǔn)確挖掘數(shù)據(jù)參量方面的執(zhí)行能力有限,實際應(yīng)用效果并不好。為避免上述情況的發(fā)生,提出基于多維關(guān)聯(lián)規(guī)則的大規(guī)模數(shù)據(jù)并行挖掘方法。
該文主要將基于多維關(guān)聯(lián)規(guī)則的樹狀組織作為實現(xiàn)大規(guī)模數(shù)據(jù)并行挖掘處理的基礎(chǔ)結(jié)構(gòu),關(guān)聯(lián)樹由多個關(guān)聯(lián)節(jié)點組成,但根據(jù)執(zhí)行任務(wù)的不同,各個節(jié)點所對應(yīng)的數(shù)據(jù)對象也有所不同。在圖1 所示關(guān)聯(lián)樹組織的結(jié)構(gòu)示意圖中,“0”節(jié)點作為初始結(jié)構(gòu),負(fù)責(zé)與互聯(lián)網(wǎng)存儲數(shù)據(jù)進(jìn)行對接,并可將待挖掘信息參量直接反饋給下級節(jié)點結(jié)構(gòu)[5-6]。“1”節(jié)點作為“0”節(jié)點的下級附屬結(jié)構(gòu),具備一定的數(shù)據(jù)分類能力,可以按照數(shù)據(jù)參量編碼形式的不同,將其反饋至不同的存儲單元之中?!?”節(jié)點~“n”節(jié)點作為關(guān)聯(lián)樹組織核心處理結(jié)構(gòu),直接執(zhí)行數(shù)據(jù)并行挖掘指令,并可以按照運行處理結(jié)果,顯示數(shù)據(jù)信息參量的實時傳輸位置。
圖1 關(guān)聯(lián)樹組織的結(jié)構(gòu)示意圖
根據(jù)關(guān)聯(lián)樹組織連接長度的不同,系數(shù)“n”的實際取值也有所不同,但在多維關(guān)聯(lián)規(guī)則的作用下,樹狀組織越長,“n”的取值也就越大。
RFM 值是多維關(guān)聯(lián)規(guī)則限定條件,對于互聯(lián)網(wǎng)數(shù)據(jù)信息而言,RFM 值指標(biāo)的計算數(shù)值越大,多維關(guān)聯(lián)規(guī)則對于數(shù)據(jù)參量的約束作用能力也就越強(qiáng)。由于關(guān)聯(lián)樹結(jié)構(gòu)的連接形式并不會發(fā)生改變,故而在求取RFM 值計算公式時,默認(rèn)相關(guān)參量指標(biāo)的取值結(jié)果也不會發(fā)生改變[7-8]。設(shè)c表示一個隨機(jī)選取的RFM 值定義指標(biāo),且系數(shù)c≠0 的不等式條件恒成立,β表示關(guān)聯(lián)樹結(jié)構(gòu)中的節(jié)點定義系數(shù)。聯(lián)立上述物理量,可將基于多維關(guān)聯(lián)規(guī)則的RFM 值計算表達(dá)式定義為:
式中,xc表示互聯(lián)網(wǎng)數(shù)據(jù)的特征值,αc、δc表示兩個不相等的多維向量賦值系數(shù)。在求解RFM值表達(dá)式時,要求系數(shù)xc的取值必須處于[1,e]的物理區(qū)間。
多維運算法是多維關(guān)聯(lián)規(guī)則的執(zhí)行機(jī)制,可以根據(jù)RFM 值求解結(jié),確定互聯(lián)網(wǎng)主機(jī)對于信息參量的處理能力。在關(guān)聯(lián)樹組織中,反饋節(jié)點的排列形式會影響RFM 值計算結(jié)果,使多維運算法則的作用能力出現(xiàn)變化[9-10]。設(shè)χ表示反饋節(jié)點分布系數(shù)的初始賦值,其最小取值為自然數(shù)“1”。?表示待挖掘數(shù)據(jù)特征參量,受到RFM 值求解表達(dá)式的影響,RFM 值指標(biāo)的計算數(shù)值越大,?系數(shù)的實際取值也就越大。在上述物理量的支持下,聯(lián)立式(1),可將多維運算法則表達(dá)式定義為:
其中,b1、b2分別表示兩個不相等的信息并行運算特征,表示系數(shù)b1與系數(shù)b2的平均值,γ表示數(shù)據(jù)信息提取參量。在構(gòu)建多維關(guān)聯(lián)規(guī)則算法時,要求RFM 指標(biāo)的計算取值與多維運算法則表達(dá)式必須高度統(tǒng)一。
近鄰值是一個既定取值標(biāo)簽,負(fù)責(zé)調(diào)用多維關(guān)聯(lián)規(guī)則,既能夠?qū)⒅鳈C(jī)對于數(shù)據(jù)信息參量的挖掘處理能力控制在合理數(shù)值標(biāo)準(zhǔn)之內(nèi),也可以分析出待檢測信息的分布狀態(tài),從而提升網(wǎng)絡(luò)主機(jī)元件提取待測指標(biāo)的準(zhǔn)確性[11-12]。在多維關(guān)聯(lián)規(guī)則作用下,近鄰值指標(biāo)的求解要求待測數(shù)據(jù)取值不能取其物理極限值,即在挖掘指令的單位執(zhí)行周期內(nèi),只能有一個待測數(shù)據(jù)取值等于極大值或極小值。設(shè)a1、ι1表示兩個不相等的近鄰指標(biāo)定義項,d1表示待測數(shù)據(jù)的初始取值,s1表示待測數(shù)據(jù)分布向量的初始值。
大規(guī)模數(shù)據(jù)并行挖掘算法的近鄰值表達(dá)式為:
在多維關(guān)聯(lián)規(guī)則作用下,近鄰值指標(biāo)取值與逆近鄰值指標(biāo)取值互為相反數(shù)。
逆近鄰值指標(biāo)可以看作是近鄰值指標(biāo)的補(bǔ)充說明條件,其維度越高,待處理數(shù)據(jù)信息參量的分布越密集[13]。若將多維關(guān)聯(lián)規(guī)則看作非可變應(yīng)用標(biāo)準(zhǔn),則可認(rèn)為在該項約束性法則的作用下,待檢測數(shù)據(jù)的實時存儲量越大,逆近鄰值指標(biāo)受到近鄰值指標(biāo)的干擾也就越強(qiáng);反之,若待檢測數(shù)據(jù)信息的實時存儲量較小,逆近鄰值指標(biāo)受到近鄰值指標(biāo)的干擾也就相對較弱[14]。設(shè)V′表示多維運算法則V的逆運算函數(shù),且二者之間的取值關(guān)系始終滿足式(4):
式中,?表示反函數(shù)求解系數(shù)。
在數(shù)據(jù)信息參量逆運算指標(biāo)恒為d2的情況下,聯(lián)立式(3)、式(4),可將大規(guī)模數(shù)據(jù)并行挖掘算法的逆近鄰值計算表達(dá)式定義為:
在求解逆近鄰值表達(dá)式時,默認(rèn)近鄰值指標(biāo)、逆近鄰值指標(biāo)互為相反數(shù)的條件恒成立。
離散挖掘系數(shù)決定了大規(guī)模數(shù)據(jù)并行挖掘指令的執(zhí)行能力,在多維關(guān)聯(lián)規(guī)則的作用下,待測信息參量的分布離散程度越大,離散挖掘系數(shù)的實際取值也就越大[15-16]。考慮近鄰值指標(biāo)、逆近鄰值指標(biāo)的作用同步性,可認(rèn)為離散挖掘系數(shù)的計算取值始終處于(1,+∞)的數(shù)值區(qū)間。在執(zhí)行大規(guī)模數(shù)據(jù)并行挖掘指令時,離散挖掘系數(shù)同時影響了待測信息參量的并行排列順序與挖掘運行指令的實際執(zhí)行情況,且離散挖掘系數(shù)越大,待測信息參量的并行排列順序就越穩(wěn)定,挖掘運行指令的實際執(zhí)行等級也就越高。設(shè)f表示多維關(guān)聯(lián)規(guī)則下的大規(guī)模數(shù)據(jù)離散化排列向量,ΔH表示主機(jī)在單位時間內(nèi)所能挖掘處理的數(shù)據(jù)信息總量,λ表示待測數(shù)據(jù)的并行化提取系數(shù)。
離散挖掘系數(shù)計算表達(dá)式為:
至此,完成對各項指標(biāo)參量的計算與處理,在多維關(guān)聯(lián)規(guī)則的作用下,實現(xiàn)大規(guī)模數(shù)據(jù)并行挖掘。
在互聯(lián)網(wǎng)環(huán)境中,數(shù)據(jù)信息離散指標(biāo)的數(shù)值水平?jīng)Q定了其分布稀疏程度,這也在一定程度上影響了并行挖掘指令的執(zhí)行能力。在不考慮其他干擾條件的情況下,數(shù)據(jù)信息離散指標(biāo)的數(shù)值水平越高,待測信息參量的分布也就越稀疏,此時所得并行挖掘指令的執(zhí)行能力相對較弱;反之,若數(shù)據(jù)信息離散指標(biāo)的數(shù)值水平較低,待測信息參量的分布也就相對較為密集,此時所得并行挖掘指令的執(zhí)行能力相對較強(qiáng)。
表1 記錄了實驗所選設(shè)備元件的名稱及相關(guān)參量指標(biāo)的數(shù)值情況。
表1 實驗參數(shù)
具體實驗流程如下:
步驟一:利用基于多維關(guān)聯(lián)規(guī)則的大規(guī)模數(shù)據(jù)并行挖掘方法對實驗主機(jī)一進(jìn)行控制,將所得實驗數(shù)據(jù)作為實驗組變量;
步驟二:利用基于信息熵與遺傳算法的并行挖掘方法對實驗主機(jī)二進(jìn)行控制,將所得實驗數(shù)據(jù)作為對照組變量;
步驟三:對比實驗組、對照組變量數(shù)據(jù),總結(jié)實驗規(guī)律;
數(shù)據(jù)信息離散指標(biāo)的計算式如下:
其中,θ表示并行化離散向量,ω表示挖掘向量定標(biāo)值。
圖2 反映了實驗組、對照組?指標(biāo)與ω指標(biāo)的數(shù)值變化情況。
圖2 實驗數(shù)值
分析圖2 可知,實驗組θ指標(biāo)的均值水平相對較低,但ω指標(biāo)的均值水平卻相對較高;對照組θ指標(biāo)、ω指標(biāo)的數(shù)值變化趨勢則恰好與實驗組相反。
聯(lián)合式(7)與圖2 中的實驗數(shù)值,對數(shù)據(jù)信息離散指標(biāo)μ進(jìn)行計算,實驗詳情如表2 所示。
表2 數(shù)據(jù)信息離散程度
分析表2 可知,整個實驗過程中,實驗組μ指標(biāo)的最大值只能達(dá)到30.11%,與對照組最大值77.00%相比,下降了46.89%。
綜上可知,在基于多維關(guān)聯(lián)規(guī)則的大規(guī)模數(shù)據(jù)并行挖掘方法的應(yīng)用后,數(shù)據(jù)信息離散指標(biāo)的數(shù)值水平確實得到了有效控制,與基于信息熵與遺傳算法的并行挖掘方法相比,該方法可使待測信息參量呈現(xiàn)出較為密集的分布狀態(tài),這就表示所得并行挖掘指令始終具備較強(qiáng)執(zhí)行能力,提升了數(shù)據(jù)挖掘質(zhì)量。
為了提升大規(guī)模數(shù)據(jù)并行挖掘質(zhì)量與效果的問題,提出基于多維關(guān)聯(lián)規(guī)則的大規(guī)模數(shù)據(jù)并行挖掘方法,該方法以多維關(guān)聯(lián)規(guī)則作為執(zhí)行基礎(chǔ),在構(gòu)建樹狀單元結(jié)構(gòu)的同時,對RFM 指標(biāo)進(jìn)行精準(zhǔn)求解,又通過對比近鄰值指標(biāo)、逆近鄰值指標(biāo)的方式,計算離散挖掘系數(shù)的具體數(shù)值,以此實現(xiàn)大規(guī)模數(shù)據(jù)并行挖掘。在實用性方面,在多維關(guān)聯(lián)規(guī)則作用下,并行化離散向量指標(biāo)取值明顯縮小、挖掘向量定標(biāo)值指標(biāo)明顯增大,這對于控制數(shù)據(jù)信息離散指標(biāo)的計算數(shù)值起到了較強(qiáng)的促進(jìn)性影響作用,可以在解決因數(shù)據(jù)離散程度過大而導(dǎo)致的數(shù)據(jù)分布稀疏問題的同時,獲得準(zhǔn)確的數(shù)據(jù)信息參量并行挖掘處理結(jié)果,提升數(shù)據(jù)挖掘質(zhì)量與效果。