李洪波,周春姐
(魯東大學信息與電氣工程學院,山東 煙臺 264025)
計算機技術(shù)水平發(fā)展的同時,現(xiàn)代企業(yè)和個人所需要的信息數(shù)據(jù)要求也越來越高,造成了現(xiàn)代網(wǎng)絡(luò)數(shù)據(jù)中心面臨無法有效調(diào)配、匯總數(shù)據(jù)以及無法滿足當前網(wǎng)絡(luò)用戶對信息數(shù)據(jù)量穩(wěn)定性、安全性以及加密性的各方面需求的雙重矛盾。在這樣的情況下,尋求一種基于當前通信大數(shù)據(jù)特征屬性,進行通信大數(shù)據(jù)引導融合的方法成為了當前網(wǎng)絡(luò)數(shù)據(jù)中心研究領(lǐng)域亟待解決的核心問題[1]。
由于目前絕大多數(shù)通信網(wǎng)絡(luò)由多種網(wǎng)絡(luò)節(jié)點構(gòu)成,其目的就是綜合網(wǎng)絡(luò)大數(shù)據(jù),滿足云計算下的用戶要求。所以有關(guān)人員相繼提出根據(jù)網(wǎng)絡(luò)節(jié)點和輻射區(qū)進行屬性特征融合的數(shù)據(jù)融合策略,這種策略可以簡稱為“節(jié)點融合”[2]。節(jié)點融合主要依靠PHD節(jié)電傳感器,根據(jù)濾波算法模擬出各節(jié)點的狀態(tài)特征,計算數(shù)據(jù)關(guān)聯(lián)度,并采用協(xié)方差交流法,實現(xiàn)數(shù)據(jù)引導融合。此外還有人提出了基于支持向量機的屬性融合方法和基于深度學習的屬性融合方法。前者通過訓練傳感器的屬性信息融合度預測值,以此獲取數(shù)據(jù)融合閾值,根據(jù)閾值的高低能否達到標準值,獲取最終的融合結(jié)果;二者需匯聚網(wǎng)絡(luò)中全部數(shù)據(jù)節(jié)點特征,并利用CNNM模型獲取每個節(jié)點終端的數(shù)據(jù)原始特征,在此基礎(chǔ)上,將得到的特征結(jié)果及融合數(shù)據(jù)傳輸?shù)絽R聚節(jié)點,完成數(shù)據(jù)融合。
上述幾種通信大數(shù)據(jù)屬性引導融合方法均存在屬性節(jié)點生存期較短的問題,究其根本在于,對當前數(shù)據(jù)進行粗獷式融合,沒有真正做到數(shù)據(jù)屬性特征梳理,導致節(jié)點屬性很容易同化或錯亂[3]。為了有效解決屬性節(jié)點生存期較短問題,提出新型云計算下通信大數(shù)據(jù)特征融合技術(shù)。
在對當前通信大數(shù)據(jù)多屬性特征引導融合過程中,因為數(shù)據(jù)堆積環(huán)境的負載特殊性,需要將當前用戶所需要的特征數(shù)據(jù)先劃分為不同的數(shù)據(jù)團,根據(jù)每個數(shù)據(jù)團最關(guān)鍵的屬性信息,劃分為各個數(shù)據(jù)塊,并求得數(shù)據(jù)塊密度[4],以數(shù)據(jù)塊密度作為數(shù)據(jù)團集成標簽,最終完成信息數(shù)據(jù)團集成。以下為具體集成步驟:
假設(shè)A代表當前數(shù)據(jù)G的最高有效連續(xù)性矩陣,V,E代表當前通信數(shù)據(jù)的實際節(jié)點以及數(shù)據(jù)邊的集合,P代表當前數(shù)據(jù)的預設(shè)劃分,Gi代表當前劃分P的一個實際數(shù)據(jù)團,Vi,Ei分別代表當前數(shù)據(jù)團Gi的實際節(jié)點和邊的數(shù)據(jù)集合,根據(jù)式(1)將當前用戶信息全部劃分為不同中的數(shù)據(jù)團,其表達式為
(1)
對獲取的數(shù)據(jù)團進行數(shù)據(jù)劃分,得到劃分后的數(shù)據(jù)模塊p(g),其表達式為
(2)
式中,L(Vi,Vj)代表當前節(jié)點集合的實際邊數(shù)據(jù)量,I(s,t)代表當前通信大數(shù)據(jù)的實際信息增益值,?(E)代表不同連度下的節(jié)點數(shù)據(jù)量,R(z,p)代表當前大數(shù)據(jù)的屬性劃分,?(h)代表各個節(jié)點對當前數(shù)據(jù)模塊的實際貢獻值[5]。
在式(2)的基礎(chǔ)上,對數(shù)據(jù)模塊的密度μ*(s)進行計算,其計算公式為
(3)
式中,Aij代表當前通信大數(shù)據(jù)之間的連接性矩陣,L代表數(shù)據(jù)節(jié)點V和Vj之間數(shù)據(jù)邊界的數(shù)量,則可以根據(jù)公式直接定義當前數(shù)據(jù)模塊的密度,λ(d)代表當前數(shù)據(jù)節(jié)點的實際原始數(shù)據(jù),ε(E)代表不同數(shù)據(jù)之間的屬性值關(guān)聯(lián)類別和規(guī)則[6-7]。
通過上述步驟完成數(shù)據(jù)塊的密度求解,數(shù)據(jù)塊密度可視為數(shù)據(jù)團的集成標簽,根據(jù)標簽能夠?qū)崿F(xiàn)數(shù)據(jù)團進行集成劃分。在此基礎(chǔ)上需要計算集成標簽的初始重要程度。
假設(shè)RC(ei→ej)代表當前數(shù)據(jù)塊ei和ej之間的相對距離,根據(jù)式(4)計算當前數(shù)據(jù)塊的實際權(quán)值。其計算公式為
(4)
式中,m代表當前通信大數(shù)據(jù)基礎(chǔ)數(shù)據(jù)團的總量,sim(Tp)代表任意兩個數(shù)據(jù)聚類之間的實際關(guān)系距離的平均值[8]。
(5)
式中,vi代表當前數(shù)據(jù)內(nèi)部的實際節(jié)點總量,Degree(e)代表當前模式圖G中,數(shù)據(jù)表e的相對節(jié)點數(shù)量,γ(W)代表用戶核心數(shù)據(jù)樣本類型數(shù)據(jù)集,μ(x)為樣本中的數(shù)據(jù)種類比[9]。
利用R,S分別指代當前大數(shù)據(jù)網(wǎng)絡(luò)用戶所需要的不同數(shù)據(jù)聚類主題,則根據(jù)數(shù)據(jù)源的聚類思想,將不同類型數(shù)據(jù)團進行有效集成,作為當前大數(shù)據(jù)信息不同數(shù)據(jù)類別的主題組,根據(jù)式(6)進行表述。
(6)
式中,Ti和Tj分別代表當前數(shù)據(jù)組中的數(shù)據(jù)表,Tp代表關(guān)系數(shù)據(jù)表Ti的權(quán)值。φ(C)代表當前數(shù)據(jù)團集成聚類的結(jié)果數(shù)量[10]。
綜上所述可以確定,對當前數(shù)據(jù)堆積環(huán)境下的使用用戶,在進行通信大數(shù)據(jù)分類過程中,可以采用上述方法將其全部轉(zhuǎn)化為不同類型的數(shù)據(jù)團,再根據(jù)數(shù)據(jù)聚類思想將數(shù)據(jù)團中的通信數(shù)據(jù)信息和數(shù)據(jù)屬性特征優(yōu)化成不同的數(shù)據(jù)組,以此實現(xiàn)數(shù)據(jù)海量堆積情況下的數(shù)據(jù)團集成。
通過上述聚類集成方法將數(shù)據(jù)信息進行高度集成以后,即可將集成獲取的信息團進行分解,對信息屬性特征進行計算。采用粗糙集計算方法,對當前集成信息團的數(shù)據(jù)屬性進行評估,從而為后續(xù)特征引導融合提供數(shù)據(jù)基礎(chǔ)[11-12]。
設(shè)E為當前數(shù)據(jù)決策樹的屬性描述數(shù)值,D為當前數(shù)據(jù)屬性架構(gòu)的集合,則信息團分解公式為
(7)
式中,QD(E)表示當前信息特征屬性E對當前屬性架構(gòu)集合D的正域描述,V表示當前數(shù)據(jù)特征集合的實際基數(shù)。根據(jù)式(7)對分解后的信息團進行屬性特征計算,其表達式為
η′=η-Dj
(8)
式中,Dj表示數(shù)據(jù)屬性的對應(yīng)條件依賴程度,即該數(shù)據(jù)在特征數(shù)據(jù)集中的權(quán)重[12]。
根據(jù)粗糙集來確定數(shù)據(jù)屬性特征比例關(guān)系,需要對當前通信大數(shù)據(jù)特征權(quán)重值進行計算,其詳細步驟如下:
step1:根據(jù)運算數(shù)據(jù)能夠獲取的計算屬性值,可以獲取當前數(shù)據(jù)集屬性集合權(quán)重,即數(shù)據(jù)集屬性集合依賴值,計算公式如下
(9)
setp2:根據(jù)式(9)獲取的數(shù)據(jù),進一步計算當前屬性Dk對當前數(shù)據(jù)屬性SE的依賴性,即
(10)
setp3:根據(jù)以下公式計算當前數(shù)據(jù)集第j個數(shù)據(jù)屬性的歸一性系數(shù)。
(11)
根據(jù)上述的公式可以對當前數(shù)據(jù)屬性權(quán)重進行計算,以最大權(quán)值作為模糊決策樹的根節(jié)點、然后開始進行特征計算。
設(shè)通信大數(shù)據(jù)構(gòu)成集合可以用Y={(yj,zj)|j=1,2…,e}表示,其中,yj=(yj1,yj2,…yje)能夠用于描述當前數(shù)據(jù)的權(quán)值集合;(B1,B2,…,Be)用于描述當前數(shù)據(jù)的對應(yīng)屬性值。根據(jù)下列公式可以確定當前數(shù)據(jù)特征集合的綜合期望值。
(12)
假設(shè),當前的數(shù)據(jù)屬性為Bg(g=1,2,…,e),擁有r個不同屬性的信息權(quán)值,則將其屬性分解溝可以獲取如下描述
(13)
利用當前公式可計算的數(shù)據(jù)屬性Bg可以確定其信息增益對比值。
(14)
根據(jù)以下公式數(shù)據(jù),可以針對上述計算獲取的增益對比值,建立優(yōu)化決策樹
(15)
將當前信息的增益比最大值數(shù)據(jù)作為數(shù)據(jù)決策樹的各項分支數(shù)據(jù),以此建立決策數(shù)據(jù)節(jié)點。再根據(jù)節(jié)點信息屬性權(quán)重,設(shè)置對應(yīng)分支,從而獲取下級對應(yīng)子節(jié)點,完成整個決策樹的建立。
根據(jù)上述闡述的方法,可以計算數(shù)據(jù)屬性的信息量,從而進行數(shù)據(jù)特征挖掘,完成數(shù)據(jù)屬性的特征計算。
屬性特征計算完畢后,需要對其進一步排序,才能進行最后的屬性引導融合。通過輸入輸出關(guān)聯(lián)法,排序和計算當前決策樹信息屬性特征權(quán)值。同時,采用分離法對去掉部分屬性的當前信息進行信息組內(nèi)距離間距比值的計算,并根據(jù)聯(lián)系法對輸入和輸出特征的屬性關(guān)聯(lián)度進行計算,其計算公式為
(16)
(17)
在式(16)與式(17)中,S(k)表示當前數(shù)據(jù)屬性下實際輸入值的關(guān)聯(lián)梯度;C(k)表示當前數(shù)據(jù)屬性下實際分離值的關(guān)聯(lián)梯度;sign代表當前數(shù)據(jù)符號函數(shù);SWK代表去k特征數(shù)據(jù)間的組內(nèi)距離;SBK代表去k特征數(shù)據(jù)之間的組間距離。x(i,k)和y(i)分別表示當前樣本數(shù)據(jù)的屬性值和輸出值,此時數(shù)據(jù)k屬性的權(quán)值可以根據(jù)以下公式進行計算。
R(k)=αS(k)+(1-α)C(k)
(18)
式中,α為常數(shù)項,其值為0到1之間。
式(18)中,通信數(shù)據(jù)屬性的原始數(shù)據(jù)較大,也會導致其屬性特征權(quán)值增大。反之則會減小。這就導致了在后續(xù)特征引導時會出現(xiàn)信息數(shù)據(jù)屬性誤差,因此需要對當前數(shù)據(jù)特征屬性進行歸一化處理,從而有效消除數(shù)據(jù)誤差。設(shè)計采用最大規(guī)范法,對當前原始數(shù)據(jù)進行線性交叉,設(shè)minA和maxA分別表示當前數(shù)據(jù)實行的最大值和最小值,計算式如下:
(nmax(A)-min(A)+nmin(A))
(19)
通過上述公式,可以獲取對當前通信信息排序的方法,輸入和輸出的數(shù)據(jù)關(guān)聯(lián)公式如下
(20)
根據(jù)以上關(guān)系式和通信大數(shù)據(jù)樣本值的計算變化,可以獲取當前特征輸入值和輸出值的重要性衡量,對于特征數(shù)據(jù)庫屬性樣本值,輸入和輸出變化越大,屬性的重要程度就越高,再根據(jù)當前數(shù)據(jù)信息量計算重要性進行排序計算,即可完成最終結(jié)果排序。
通過尋找和提取數(shù)據(jù)特征,盡可能明確當前通信數(shù)據(jù)的特征子集,在利用上述計算公式對特征進行過濾式選取。在2.3節(jié)提出的特征排序的基礎(chǔ)上,利用比對法篩選當前大數(shù)據(jù)的特征屬性需求性。
通過相似性度量方法對不同數(shù)據(jù)樣本的數(shù)據(jù)相似程度進行描述,描述過程通常采用歐氏距離計算,該算法表示為
(21)
式中,p和p′表示當前通信數(shù)據(jù),d(p,p′)為數(shù)據(jù)中的信息需求實際差異性,fi和fi′分別表示數(shù)據(jù)內(nèi)p,和p′中第i個特征數(shù)取值。wi取值為1時,表示當前特征沒有被融合;d表示數(shù)據(jù)維數(shù)。
利用相似數(shù)據(jù)K對當前通信數(shù)據(jù)進行估算,在選擇同類型數(shù)據(jù)后,需要對其進行調(diào)整,確定數(shù)據(jù)評估結(jié)果。利用平均值法,選擇數(shù)據(jù)K作為平均值估算樣本數(shù)據(jù),并根據(jù)相似性進行引導融合,融合公式為
(22)
式中,pk代表當前數(shù)據(jù)p特征屬性最相近的數(shù)據(jù),d(p,pk)表示數(shù)據(jù)之間的實際距離;δ表示常數(shù)。
根據(jù)上述論述,在對當前云計算通信數(shù)據(jù)特征屬性計算和排序后,利用當前數(shù)據(jù)用戶信息間的數(shù)據(jù)相關(guān)性進行數(shù)據(jù)度量,可以實現(xiàn)數(shù)據(jù)屬性的初選,再確定特征子集,最終實現(xiàn)多屬性的引導融合。
為了證明上述設(shè)計的云計算下通信大數(shù)據(jù)多屬性特征引導融合方法的可用性,需要進行仿真。本文仿真平臺采用Weak3.08,憑借Weak3.08高效的數(shù)據(jù)特征仿真能力,對本文方法的有效性開展實驗。
仿真從當前CUI數(shù)據(jù)庫中,調(diào)借了4個無任何標簽的模塊化數(shù)據(jù)集(KGE、Docword、USC_nytimes、Househoid),實驗通過比較上述設(shè)計的融合方法和傳統(tǒng)基于支持向量機的特征融合方法的仿真特性進行有效性判別,特征參數(shù)選取數(shù)據(jù)節(jié)點融合能耗以及節(jié)點挖掘率。表1給出了實驗所用的五組數(shù)據(jù)集具體情況。
表1 實驗用數(shù)據(jù)集
仿真具有多個數(shù)據(jù)約簡方法,通過對數(shù)據(jù)需求的特征識別和融合分類完成實驗。圖1給出了實驗中兩種方法的節(jié)點融合耗能,其結(jié)果如下。
圖1 融合能耗對比
根據(jù)圖1能耗數(shù)據(jù)可以看出,隨著數(shù)據(jù)量的疊加,兩種方法的能耗沒有明顯的增減變化,證明兩種方法均存在較高的穩(wěn)定性。但是根據(jù)數(shù)據(jù)結(jié)果可以看出,此次設(shè)計的融合方法與傳統(tǒng)向量機法相比,綜合能耗更小,平均能耗比例均在3%以下。
在相同的實驗環(huán)境下,通過對比10組不同的實驗數(shù)據(jù)的節(jié)點挖掘率,進一步驗證設(shè)計方法的有效性,其中A表示當前組別序號,X表示設(shè)計方法的挖掘率,Y表示傳統(tǒng)方法的挖掘率。具體數(shù)據(jù)如下。
表2 挖掘率對比表
因為數(shù)據(jù)挖掘樣本完全隨機選擇,其數(shù)據(jù)類型和數(shù)據(jù)量較為多元化,所以兩個實驗組獲取的挖掘率沒有明顯的規(guī)律。但是通過數(shù)據(jù)統(tǒng)計可以確定,上述設(shè)計方法的實際挖掘率明顯高于傳統(tǒng)方法,再次驗證了本文方法的優(yōu)越性能。
高速增長的通信數(shù)據(jù)是現(xiàn)代網(wǎng)絡(luò)資源整理匯總的核心,也是未來數(shù)據(jù)管理領(lǐng)域面臨的重要挑戰(zhàn)。提出的通信大數(shù)據(jù)多屬性特征引導融合方法可以有效提高節(jié)點存活周期,從而實現(xiàn)特征引導融合效率的提高。