董 琴,楊 濤
(1. 鹽城工學(xué)院信息工程學(xué)院,江蘇 鹽城 224000;2. 西北工業(yè)大學(xué)自動化學(xué)院,陜西 西安 710072)
伴隨信息化社會的飛速發(fā)展,網(wǎng)絡(luò)中日漸增多的海量數(shù)據(jù)資源擁有異類、異構(gòu)分布等特征[1-2],這些數(shù)據(jù)中通常富含大量有價值的信息與知識。在此環(huán)境下,想要在眾多數(shù)據(jù)中得到目標(biāo)信息難度較高,需要運用數(shù)據(jù)挖掘技術(shù)獲取所需信息。數(shù)據(jù)挖掘作為一個交叉學(xué)科,匯聚了眾多信息化技術(shù)。其中,數(shù)據(jù)一致性是數(shù)據(jù)管理的核心事務(wù),關(guān)聯(lián)數(shù)據(jù)為一種新型數(shù)據(jù)分布模式[3],挖掘關(guān)聯(lián)數(shù)據(jù)一致性,能更準(zhǔn)確地描述網(wǎng)絡(luò)數(shù)據(jù)之間的內(nèi)在關(guān)系。
面向關(guān)聯(lián)數(shù)據(jù)一致性挖掘問題,不同領(lǐng)域的學(xué)者們給出如下解決方法:李曉春[4]等人創(chuàng)建數(shù)據(jù)屬性空間,采用逆向云模型劃分屬性空間并離散化數(shù)據(jù)。運用二進制儲存數(shù)據(jù),通過增量更新法更新規(guī)則,輸出數(shù)據(jù)挖掘結(jié)果,但該方法在應(yīng)對大規(guī)模數(shù)據(jù)集時,挖掘效率較低,無法完成既定數(shù)據(jù)挖掘任務(wù)。王志剛[5]等人利用滑動窗口法得到待分析數(shù)據(jù),把訓(xùn)練樣本輸入到LSTM(Long Short-Term Memory,長短期記憶網(wǎng)絡(luò))模型中訓(xùn)練,并通過模式識別挖掘目標(biāo)數(shù)據(jù)。該方法不能量化數(shù)據(jù)之間的線性關(guān)系,且計算量較多,實用性有待提高。
總結(jié)上述研究中的缺陷,本文充分考慮關(guān)聯(lián)數(shù)據(jù)特征,提出一種RBF神經(jīng)網(wǎng)絡(luò)下關(guān)聯(lián)數(shù)據(jù)一致性挖掘算法。通過數(shù)據(jù)清洗與數(shù)據(jù)平滑兩種方法預(yù)處理待處理數(shù)據(jù),推算關(guān)聯(lián)規(guī)則一致性隱含規(guī)律,采用RBF神經(jīng)網(wǎng)絡(luò)進行高精度數(shù)據(jù)挖掘訓(xùn)練。在仿真中,通過不同驗證指標(biāo)表明了所提方法在挖掘性能方面的優(yōu)越性,能為關(guān)聯(lián)數(shù)據(jù)的相關(guān)處理與正確應(yīng)用提供參考借鑒。
數(shù)據(jù)挖掘是得到知識的過程,預(yù)處理待分析數(shù)據(jù)是挖掘算法中的必要前提,其根本目標(biāo)是可以更容易地完成挖掘工作,網(wǎng)絡(luò)數(shù)據(jù)的格式通常是不統(tǒng)一的,若逐一進行挖掘工作,會加大計算時長,無法保證數(shù)據(jù)挖掘的時效性。針對上述問題,本文分別采用數(shù)據(jù)清洗與平滑處理,去除冗余信息并歸一化格式。數(shù)據(jù)清洗使用臨近排序算法來實現(xiàn),其計算核心思想是重新審查數(shù)據(jù),消除數(shù)據(jù)中的重復(fù)信息與錯誤信息,降低計算量,具體運算過程如下:
由于數(shù)據(jù)庫的信息不是都有唯一的主鍵,可以給每個數(shù)據(jù)都設(shè)置唯一的編碼[6],并將編碼的標(biāo)號值權(quán)重設(shè)為0。依照數(shù)據(jù)的屬性組建不同類型的屬性記錄庫,假設(shè)數(shù)據(jù)記錄為A={A1,A2,…,Al},其中,l代表數(shù)據(jù)記錄數(shù)量,與Al對應(yīng)的數(shù)據(jù)是Ai,則兩個數(shù)據(jù)在p屬性之間的內(nèi)在關(guān)系是:
B=D(Aip,Alp)={0,1}
(1)
Aip={ID1,ID2,…,IDm}
(2)
其中,D代表關(guān)聯(lián)因子,Aip、Alp代表數(shù)據(jù)屬性,IDm代表某個屬性的重復(fù)概率。
倘若B=1,則兩個數(shù)據(jù)在p屬性擁有較多相同的重復(fù)值,反之,則證明二者無重復(fù)值。依照此種關(guān)系就能精準(zhǔn)推算出兩個數(shù)據(jù)的相似程度[7],記作:
Ci,j,p=B*Ep
(3)
其中,Ep代表p屬性的權(quán)值。
累計求和全部屬性相似度,得到:
(4)
假設(shè)相似臨界值是H,若全部屬性相似度Gi,j大于H,判定該數(shù)據(jù)為重復(fù)數(shù)據(jù),并將其剔除,實現(xiàn)數(shù)據(jù)清洗,獲得關(guān)聯(lián)數(shù)據(jù)集。
下面對數(shù)據(jù)清洗后的關(guān)聯(lián)數(shù)據(jù)集進行平滑處理,如果數(shù)據(jù)量較多且變化形式比較復(fù)雜,那么采用加權(quán)局部多項式算法進行數(shù)據(jù)平滑。依照加權(quán)最小二乘原則計算多項式參數(shù),使窗口在待處理數(shù)據(jù)上滑動[8],最后輸出平滑數(shù)據(jù),以下為具體計算過程:
首先計算局部多項式回歸權(quán)值,記作:
(5)
其中,t代表數(shù)據(jù)窗口待平滑信息的觀測時間,ti代表數(shù)據(jù)窗口中第i個數(shù)據(jù)的觀測時間,b代表t時段下距數(shù)據(jù)窗口最遠(yuǎn)的數(shù)據(jù)點。
明確權(quán)值后,使用式(6)進行觀測數(shù)據(jù)擬合:
(6)
其中,d0、d1、d2均代表局部多項式系數(shù)。
假設(shè)E是權(quán)值對角矩陣,Y是觀測值列矢量,X是和觀測數(shù)據(jù)相關(guān)的矩陣,則數(shù)據(jù)平滑的最終解析式為:
F=(XTEX)-1XTEY
(7)
其中,T代表平滑迭代次數(shù)。
在數(shù)據(jù)挖掘之前,要充分明確關(guān)聯(lián)數(shù)據(jù)一致性規(guī)則,分析一致性隱含規(guī)律,這樣才能最大限度地提升關(guān)聯(lián)數(shù)據(jù)一致性挖掘結(jié)果的準(zhǔn)確性。內(nèi)容相關(guān)的條件函數(shù)依賴是一種能同時對若干條件采取一致性計算的約束條件[9],設(shè)置L為數(shù)據(jù)屬性關(guān)聯(lián)元素,則L的條件函數(shù)依賴為:
φ:(N|O→I,Sn=∪Sni)
(8)
其中,N代表屬性集合,O代表變量集合,I代表單一屬性。
在關(guān)聯(lián)數(shù)據(jù)模式中,因模式的差異,將關(guān)聯(lián)數(shù)據(jù)一致性規(guī)則分為模式融合與實例融合[10],假設(shè)兩個關(guān)聯(lián)數(shù)據(jù)分別是Qa、Qb,則數(shù)據(jù)模式融合過程為:
Qa⊕εQb=(R⊕εU,attr(Qa)-lhs(ε),attr(Qb)-rhs(ε))
(9)
其中,ε代表規(guī)則約束條件,R⊕εU代表屬性R、U融合后構(gòu)成的全新模式屬性,attr(Qa)、attr(Qb)分別代表兩個關(guān)聯(lián)數(shù)據(jù)的匹配指數(shù),lhs(ε)代表ε的左部屬性集合,rhs(ε)代表ε的右部屬性集合。
數(shù)據(jù)實例融合代表在融合模式下合并獲得的關(guān)系實例[11],創(chuàng)建過程為:
(10)
其中,Va[x]代表Qa中不存在的屬性,Vb[y]代表Qb中不存在的屬性,“*”為一個特殊值,不會和數(shù)據(jù)產(chǎn)生沖突而影響融合效果。
將預(yù)處理后的關(guān)聯(lián)數(shù)據(jù)與一致性規(guī)則作為輸入值,代入RBF神經(jīng)網(wǎng)絡(luò)中進行網(wǎng)絡(luò)訓(xùn)練。RBF神經(jīng)網(wǎng)絡(luò)中具備輸入層、隱含層與輸出層,為一種前向三層結(jié)構(gòu)網(wǎng)絡(luò),網(wǎng)絡(luò)拓?fù)浼軜?gòu)如圖1所示。
圖1 RBF神經(jīng)網(wǎng)絡(luò)拓?fù)浼軜?gòu)
網(wǎng)絡(luò)架構(gòu)核心元素包含中心向量、隱含層節(jié)點個數(shù)、徑向基函數(shù)寬度與權(quán)值矩陣[12-13]。
通過網(wǎng)絡(luò)訓(xùn)練明確網(wǎng)絡(luò)參數(shù),也就是徑向基函數(shù)寬度參數(shù)κ、權(quán)值矩陣η、隱含層單元數(shù)目q與中心點o。網(wǎng)絡(luò)訓(xùn)練的關(guān)鍵就是明確合適的中心點個數(shù)與方位。
將徑向基函數(shù)表達(dá)式記作
(11)
將徑向基函數(shù)寬度參數(shù)[14]表示為:
(12)
將徑向基函數(shù)的拓展常數(shù)表示成:
β=δdmin
(13)
其中,dmin代表各中心點的間距,δ代表重疊指數(shù)。
設(shè)定輸入矢量為n維,共涵蓋r個輸出節(jié)點,隱含層節(jié)點數(shù)量是h,可將隱含層節(jié)點的輸出值定義為
(14)
其中,μj(xs)代表隱含層節(jié)點輸出,xs代表網(wǎng)絡(luò)n維輸入矢量。
首先定義一個誤差代價函數(shù)ω來衡量網(wǎng)絡(luò)真實輸出yz與期望輸出φ的差距,記作
(15)
其中,φi、yzi分別代表RBF神經(jīng)網(wǎng)絡(luò)輸出節(jié)點的期望輸出和真實輸出。
運用梯度下降方法,推算t時段網(wǎng)絡(luò)權(quán)值矩陣η、徑向基函數(shù)寬度參數(shù)κ和隱含層單元中心點o的調(diào)節(jié)過程可按照如下公式完成:
(16)
(17)
(18)
其中,?η、?κ、?o代表學(xué)習(xí)率,?Et代表梯度因子。
假設(shè)有新的關(guān)聯(lián)樣本輸入網(wǎng)絡(luò),并且要校準(zhǔn)網(wǎng)絡(luò)參數(shù),通過式(16)~(18)即可修改參數(shù),通過有限次調(diào)節(jié)后,就能讓關(guān)聯(lián)數(shù)據(jù)一致性挖掘的網(wǎng)絡(luò)輸出誤差保持在可接受范圍。如果誤差ω小于準(zhǔn)許誤差,樣本則無需進行調(diào)節(jié)。
最終將RBF神經(jīng)網(wǎng)絡(luò)訓(xùn)練輸出計算公式表示為式(19),完成算法的全部流程,獲得關(guān)聯(lián)數(shù)據(jù)一致性挖掘結(jié)果。
(19)
為檢驗所提方法的數(shù)據(jù)挖掘效果,將文獻(xiàn)[4]云模型法與文獻(xiàn)[5]LSTM法作為對照組,在MATLAB仿真平臺中進行實驗分析,實驗數(shù)據(jù)來自UCI數(shù)據(jù)集,該數(shù)據(jù)集中包括了眾多用于監(jiān)督式和非監(jiān)督式學(xué)習(xí)的數(shù)據(jù)集。實驗指標(biāo)為F1值、數(shù)據(jù)挖掘誤差、輪廓系數(shù)以及挖掘時間。其中,F1值、數(shù)據(jù)挖掘誤差、輪廓系數(shù)均為數(shù)據(jù)挖掘質(zhì)量指標(biāo),時間為挖掘效率指標(biāo)。
為了更精準(zhǔn)地衡量挖掘方法的優(yōu)劣,在正確率與召回率的前提下提出F1值概念,該值取自正確率與召回率的平均值,F1值越大,證明方法的數(shù)據(jù)挖掘能力越強,精度越高。計算公式為:
(20)
其中,P代表正確率,R代表召回率。
三種方法的關(guān)聯(lián)數(shù)據(jù)一致性挖掘F1值對比結(jié)果如圖2所示。
圖2 關(guān)聯(lián)數(shù)據(jù)一致性挖掘F1值對比結(jié)果
從圖2可以看到,本文方法的F1值顯著高于云模型法和LSTM法,這是由于本文方法在數(shù)據(jù)挖掘擇取中心點時,能更好地存留初始數(shù)據(jù)特征,有效處理關(guān)聯(lián)數(shù)據(jù)的不確定性,挖掘質(zhì)量要明顯優(yōu)于兩個對比方法,避免陷入局部最優(yōu)。
從數(shù)據(jù)集中隨機抽取7000條數(shù)據(jù),評估三種方法挖掘結(jié)果與實際值之間的誤差,以每4次數(shù)據(jù)挖掘誤差平均值為例,綜合對比挖掘能力,實驗結(jié)果如圖3所示。
圖3 數(shù)據(jù)挖掘誤差對比結(jié)果
在圖3中可以充分得知,云模型法、LSTM法的數(shù)據(jù)挖掘誤差較高,而本文方法的誤差一直處于較低狀態(tài),證明其挖掘精度較優(yōu),不會因外部環(huán)境變化改變自身運算性能,可以實現(xiàn)關(guān)聯(lián)數(shù)據(jù)一致性的精準(zhǔn)挖掘,實用性更強。
輪廓系數(shù)通過數(shù)據(jù)集內(nèi)對象之間的相似性來衡量挖掘質(zhì)量,是簇的緊密與分散水平評估指標(biāo),輪廓系數(shù)值越高,挖掘結(jié)果越合理。計算公式為:
(21)
其中,ι代表數(shù)據(jù)幀和簇內(nèi)其余數(shù)據(jù)幀的距離均值,ν代表數(shù)據(jù)幀和距離自身最近的另一個簇內(nèi)樣本的距離均值。
三種方法的輪廓系數(shù)對比結(jié)果如圖4所示。
觀察圖4可以看到,隨著實驗次數(shù)的持續(xù)增多,本文方法的輪廓系數(shù)值一直處于領(lǐng)先水平,且計算穩(wěn)定性強,不會產(chǎn)生較多波動,說明該方法的關(guān)聯(lián)數(shù)據(jù)一致性挖掘輸出結(jié)果更具可靠性。
通過數(shù)據(jù)挖掘時間來表明三種方法運算能力高低,設(shè)定待挖掘關(guān)聯(lián)數(shù)據(jù)個數(shù)為1200條,共進行25次實驗,以0.4s為時間閾值,圖5為挖掘時間對比結(jié)果。
圖5 關(guān)聯(lián)數(shù)據(jù)一致性挖掘時間對比結(jié)果
由圖5可知,本文方法在運行時間方面更具計算優(yōu)勢,計算速率相對較快,可以在保證挖掘質(zhì)量的同時,實現(xiàn)高效率數(shù)據(jù)挖掘目標(biāo),在復(fù)雜的現(xiàn)實應(yīng)用場景中也能得到充分利用。
為有效提升關(guān)聯(lián)數(shù)據(jù)一致性規(guī)律提取精度與效率,提出一種RBF神經(jīng)網(wǎng)絡(luò)下關(guān)聯(lián)數(shù)據(jù)一致性挖掘算法。RBF神經(jīng)網(wǎng)絡(luò)訓(xùn)練為一種持續(xù)學(xué)習(xí)數(shù)據(jù)隱含規(guī)律的流程,模型可有效調(diào)節(jié)網(wǎng)絡(luò)各層之間的連接權(quán)值與節(jié)點臨界值,讓網(wǎng)絡(luò)擁有良好的學(xué)習(xí)能力,得到關(guān)聯(lián)數(shù)據(jù)一致性規(guī)律,在實現(xiàn)數(shù)據(jù)預(yù)處理并分析一致性規(guī)則后,通過網(wǎng)絡(luò)訓(xùn)練就能獲得精準(zhǔn)的數(shù)據(jù)挖掘結(jié)果。所提方法計算簡便,實用性強,數(shù)據(jù)挖掘精度與效率均滿足當(dāng)前運算需求,很好地改進了以往數(shù)據(jù)挖掘算法的不足之處,為網(wǎng)絡(luò)大數(shù)據(jù)分類評估帶來全新計算思路。