查道貴,許彩芳(宿州職業(yè)技術(shù)學(xué)院,安徽 宿州 234101)
?
RBF神經(jīng)網(wǎng)絡(luò)迭加粗糙集的數(shù)據(jù)挖掘算法探討
查道貴,許彩芳
(宿州職業(yè)技術(shù)學(xué)院,安徽 宿州 234101)
摘 要:報告了數(shù)據(jù)挖掘技術(shù)及算法的現(xiàn)狀,研究了粗糙集理論和RBF神經(jīng)網(wǎng)絡(luò)的經(jīng)典模型,比較分析了二者優(yōu)缺點,為提高數(shù)據(jù)挖掘算法的準確性,提出了 RBF神經(jīng)網(wǎng)絡(luò)迭加粗糙集的數(shù)據(jù)挖掘算法思想,實驗數(shù)據(jù)驗證了利用RBF神經(jīng)網(wǎng)絡(luò)優(yōu)化數(shù)據(jù),再利用粗糙集來約束和提取規(guī)則,可取得良好的數(shù)據(jù)挖掘效果。
關(guān)鍵詞:RBF神經(jīng)網(wǎng)絡(luò);粗糙集;數(shù)據(jù)挖掘算法
2012年,美國奧巴馬政府為提高海量數(shù)據(jù)的收集、訪問和整理的速度,承諾投資2億美元加強大數(shù)據(jù)及相關(guān)產(chǎn)業(yè)的發(fā)展和研究。我國也于2012年批復(fù)了“十二五國家政務(wù)信息化建設(shè)工程規(guī)劃”。聯(lián)合國于同年發(fā)布白皮書,指出大數(shù)據(jù)對聯(lián)合國及各國都是一個歷史的機遇。一個開放的、共享的、智能化的大數(shù)據(jù)的時代已經(jīng)來臨!
分析并挖掘海量數(shù)據(jù)中所蘊藏有價值信息,就是數(shù)據(jù)挖掘的目的所在。數(shù)據(jù)挖掘就是利用技術(shù)、方法和算法來管理、分析數(shù)據(jù)以達到知識發(fā)現(xiàn)。在此領(lǐng)域中應(yīng)用比較廣泛的包含遺傳算法、RBF(徑向基函數(shù))神經(jīng)網(wǎng)絡(luò)及粗糙集理論等。粗糙集理論是通過不可分辨關(guān)系確定某些特征屬性,從而確定數(shù)據(jù)的內(nèi)部屬性,在大量數(shù)據(jù)處理和消除冗余的情況下粗糙集在數(shù)據(jù)挖掘領(lǐng)域應(yīng)用比較廣泛[1]。
RBF神經(jīng)網(wǎng)絡(luò)首先利用徑向基函數(shù)將數(shù)據(jù)映射到一個高維的空間,之后再在高維空間上的實現(xiàn)線性建模。RBF神經(jīng)網(wǎng)絡(luò)原理如下:
研究的數(shù)據(jù)有N個訓(xùn)練樣本組,各個層次均有不同的神經(jīng)元組成,其中隱含層有i個神經(jīng)元構(gòu)成,輸入層有M個神經(jīng)元構(gòu)成,然后根據(jù)這兩組數(shù)據(jù)分析、總結(jié)出結(jié)構(gòu),并以高斯函數(shù)作為基函數(shù),其中it代表的是基函數(shù)的中心,輸入層含有j個神經(jīng)元元素。系統(tǒng)中輸入層與輸入層之間的權(quán)值用mi1ω(m=1,2…,M;i=1,2,…i)表示;另外,隱含層設(shè)置的值域單元為0δ,其中它的輸出值始終為1。假設(shè)X=[為一個訓(xùn)練樣本,其中任意一列(n=1,2,…N)為一個訓(xùn)練樣本,對應(yīng)的實際輸出為(n=1,2,…N),矢量集為D。通過以上的分析我們可以計算出此次分析中的基函數(shù)為:
在公式(1)中iσ為高斯函數(shù)的方差,神經(jīng)網(wǎng)絡(luò)的訓(xùn)練樣本分析中一般由兩個階段組成,第一個階段是在沒有監(jiān)督的過程中形成的一種樣本,而第二個階段是在有監(jiān)督的過程中形成的,兩者學(xué)習(xí)規(guī)則和構(gòu)成存在一定的差距,能夠根據(jù)一定的學(xué)習(xí)規(guī)則調(diào)整網(wǎng)絡(luò)的值域[2]。
粗集理論主要是在信息系統(tǒng)的分類能力下實施的一種時間約簡方式,并根據(jù)此種方法分析導(dǎo)出問題的分類原則和方法,它主要應(yīng)用于信息表描述域中有關(guān)數(shù)據(jù)模型的分析,在分析的過程中首先將粗糙集看做是一個二維表,然后根據(jù)信息表中的對象、屬性以及實例分析等,對粗糙集進行多個屬性的綜合分析,然后再此基礎(chǔ)上根據(jù)對屬性的描述進行集合分析,最后將分析結(jié)果整理為信息表。
將 RBF神經(jīng)網(wǎng)絡(luò)和粗糙集這兩種方法進行優(yōu)勢互補,在RBF神經(jīng)網(wǎng)絡(luò)及粗糙集機制下提出一種算法分析形式:采用一種網(wǎng)絡(luò)結(jié)構(gòu)形式預(yù)測信息表的原始數(shù)據(jù)和規(guī)則,并將真實決策與預(yù)測結(jié)果值進行詳細的對比,并在去除干擾數(shù)據(jù)的基礎(chǔ)上進行分析,然后再利用屬性離散分析法來數(shù)據(jù)處理,使之滿足粗燥集挖掘的要求,并進行簡約分析和規(guī)則提取。根據(jù)以上分析的思路,可得圖1所示RBF神經(jīng)網(wǎng)絡(luò)迭加粗糙集算法步驟圖:
圖11:RBF神經(jīng)網(wǎng)絡(luò)迭加粗糙生的算法步驟圖
5.1預(yù)處理數(shù)據(jù)
以安徽省各地級市在萬眾創(chuàng)新大眾創(chuàng)業(yè)的大環(huán)境下各種民營、私營企業(yè)(包括家庭式作坊,但不包括大型國有企業(yè))的相關(guān)數(shù)據(jù)為例進行數(shù)據(jù)分析,各地級市發(fā)展不同所以各自數(shù)據(jù)信息不同但均有一定的屬性關(guān)系,為此采用神經(jīng)元結(jié)構(gòu)的數(shù)據(jù)預(yù)處理方式進行處理,首先提取出具有代表性的地區(qū),而后對數(shù)據(jù)進行泛化操作和屬性刪除,進一步分析數(shù)據(jù)信息的分析其屬性值。
5.2數(shù)據(jù)處理
利用RBF神經(jīng)網(wǎng)絡(luò)對數(shù)據(jù)進行處理分析,首先將信息表的條件屬性當做其訓(xùn)練樣本,而后建立一個相關(guān)的RBF神經(jīng)網(wǎng)絡(luò)函數(shù)模型,最后對數(shù)據(jù)實施歸一化處理,調(diào)節(jié)數(shù)值分析,確定 spread值。然后建立網(wǎng)絡(luò)曲線圖對數(shù)據(jù)進行估計分析。比較數(shù)據(jù)精度值,由于數(shù)據(jù)比較多,刪除前后數(shù)據(jù)的精度值,利用RBF神經(jīng)網(wǎng)絡(luò)對數(shù)據(jù)進行預(yù)處理分析,提高系統(tǒng)泛化能力。
5.3數(shù)據(jù)挖掘分析
在數(shù)據(jù)挖掘分析的過程中為了使數(shù)據(jù)挖掘效果更加精確,我們在這里采用粗燥集理論對數(shù)據(jù)信息實施處理、分析,首先對數(shù)據(jù)進行離散分析,數(shù)據(jù)離散的方法比較多,比如等頻離散法、等距離離散法等,在這里我們利用等距離離散法進行數(shù)據(jù)屬性分析。
5.4屬性簡化分析和規(guī)則抽取
利用神經(jīng)網(wǎng)絡(luò)和粗糙集理論進行數(shù)據(jù)分析的過程中,首先利用相關(guān)軟件對信息進行處理,并對數(shù)據(jù)進行簡約處理,然后進行規(guī)則抽取,并將得到的規(guī)則應(yīng)用于樣本分析中,這時我們會得到一個相關(guān)信息為:處理后的測試精度高于未進行數(shù)據(jù)預(yù)處理的分析數(shù)據(jù)精度值。所以說RBF神經(jīng)網(wǎng)絡(luò)迭加粗糙集的數(shù)據(jù)處理更加精確,減少不可靠數(shù)據(jù)對數(shù)據(jù)挖掘的影響,提高數(shù)據(jù)精確度。
在數(shù)據(jù)分析中先利用 RBF神經(jīng)網(wǎng)絡(luò)所具有較強的數(shù)據(jù)分析和泛化能力,對數(shù)據(jù)進行預(yù)處理和分析,通過簡約化處理和規(guī)則抽取分析,得到一個相對比較可靠的數(shù)據(jù)信息,再利用粗糙集所具備的并行處理、較強魯棒性和效率高的特點進行數(shù)據(jù)處理,這樣能夠發(fā)揮粗糙集和RBF神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的雙重優(yōu)勢,提高信息精確度,同時能夠使優(yōu)化后的數(shù)據(jù)降低錯誤率,提高數(shù)據(jù)挖掘的精確度和準確性。
參考文獻:
[1]儲兵,吳陳,楊習(xí)貝等.基于RBF神經(jīng)網(wǎng)絡(luò)與粗糙集的數(shù)據(jù)挖掘算法[J].計算機技術(shù)與發(fā)展,2013,23(7):87-91.
[2]楊志超,張成龍,吳奕等.基于粗糙集和 RBF 神經(jīng)網(wǎng)絡(luò)的變壓器故障診斷方法研究[J].電測與儀表,2014,(21):34-39.
(責(zé)任編輯:雷 君)
中圖分類號:C37
文獻標識碼:A
doi:10.3969/j.issn.1672-7304.2016.01.080
文章編號:1672–7304(2016)01–0172–02
*基金項目:皖北旱地小麥秸稈腐化劑選擇及直接還田配套技術(shù)的研究(KJ2014A254)。
作者簡介:查道貴(1975-),男,安徽安慶人,講師,研究方向:計算機應(yīng)用。
Data Mining Algorithm Based on Rough Sets Superposed upon RBF Neural Network
ZHA Dao-gui,XU Cai-fang
(Computer Information Department Suzhou Vocational Technical College, Suzhou,Anhui 234101)
Abstract:In this thesis, the status of data mining technology and algorithm is reported, the classic models of rough sets theory and RBF neural network theory are studied and the merits and faults of the two theories are compared and analyzed. In order to improve the accuracy and of data mining algorithm, the idea of data mining algorithm based on rough sets superposed upon RBF neural network is put forward. The research results show that good data mining effect can be achieved by way of constraining and extracting the rules using rough sets after optimizing the data using RBF neural network.
Keywords:RBF neural network; Rough set; Data mining algorithms