黃成兵
摘 要: 針對(duì)多層次分布式數(shù)據(jù)存在高維特征和類(lèi)間不平衡因素的問(wèn)題,提出一種基于隨機(jī)決策樹(shù)檢索模型的數(shù)據(jù)挖掘技術(shù)。采用隨機(jī)相位重組方法進(jìn)行分布式數(shù)據(jù)的層次空間重構(gòu),在重構(gòu)的層次空間中提取多層次分布式數(shù)據(jù)的關(guān)聯(lián)維特征量,采用高階特征壓縮方法進(jìn)行降維處理,實(shí)現(xiàn)分布式數(shù)據(jù)的自適應(yīng)挖掘。仿真結(jié)果表明,采用該方法進(jìn)行數(shù)據(jù)挖掘的準(zhǔn)確性能較好、查準(zhǔn)率較高、計(jì)算開(kāi)銷(xiāo)降低、性能優(yōu)越。
關(guān)鍵詞: 多層次分布式數(shù)據(jù); 數(shù)據(jù)挖掘; 決策樹(shù); 檢索; 數(shù)據(jù)庫(kù)
中圖分類(lèi)號(hào): TN911.1?34; TP391 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2017)09?0070?03
Abstract: Aiming at the high?dimensional feature and inter?class imbalance factor exiting in the multi?level distributed data mining method, a multi?level distributed data mining technology based on random decision tree retrieval model is proposed. The random phase recombination method is used to reconstruct the hierarchical space of the distributed data. The correlation dimension characteristic quantity of the multi?level distributed data is extracted in the reconstructed hierarchical space, and performs the dimension reduction with the high?order feature compression method to realize the adaptive mining of distributed data. The simulation results show that the method has high accuracy for data mining, high precision ratio, low computation cost, and superior performance.
Keywords: multi?level distributed data; data mining; decision tree; retrieval; database
0 引 言
在大數(shù)據(jù)環(huán)境下,大量的多層次分布式數(shù)據(jù)通過(guò)云技術(shù)積累并存儲(chǔ)于網(wǎng)絡(luò)數(shù)據(jù)庫(kù)中,形成高維數(shù)據(jù),在對(duì)多層次分布式數(shù)據(jù)采集和存儲(chǔ)的過(guò)程中,由于采集手段的差異性以及測(cè)量誤差的存在,導(dǎo)致數(shù)據(jù)挖掘的精度不高,從而影響了網(wǎng)絡(luò)數(shù)據(jù)庫(kù)的訪問(wèn)精度,需要對(duì)多層次分布式數(shù)據(jù)進(jìn)行有效挖掘,結(jié)合特征提取和數(shù)據(jù)信息融合方法,進(jìn)行多層次分布式數(shù)據(jù)的狀態(tài)特征參量提取。研究多層次分布式數(shù)據(jù)挖掘方法在數(shù)據(jù)庫(kù)訪問(wèn)和數(shù)據(jù)結(jié)構(gòu)優(yōu)化存儲(chǔ)設(shè)計(jì)方面具有重要意義。
對(duì)多層次分布式數(shù)據(jù)的挖掘是建立在數(shù)據(jù)信息流模型構(gòu)建和特征提取的基礎(chǔ)上,目前使用的數(shù)據(jù)挖掘算法很多,按類(lèi)別可分為模糊挖掘算法、層次挖掘算法、網(wǎng)格區(qū)域分割挖掘方法等[1?2],通過(guò)對(duì)數(shù)據(jù)結(jié)構(gòu)的屬性類(lèi)別分類(lèi)處理和信息融合,實(shí)現(xiàn)數(shù)據(jù)信息特征檢測(cè)和挖掘,取得較好的挖掘精度。文獻(xiàn)[3]提出一種云計(jì)算環(huán)境下基于樸素貝葉斯分類(lèi)的多層次分布式數(shù)據(jù)挖掘方法,進(jìn)行多層次分布式數(shù)據(jù)歸類(lèi),提取多層次分布式數(shù)據(jù)的語(yǔ)義關(guān)聯(lián)性和規(guī)則性特征,實(shí)現(xiàn)數(shù)據(jù)優(yōu)化挖掘,但該算法的計(jì)算開(kāi)銷(xiāo)較大,數(shù)據(jù)信息檢測(cè)和挖掘的實(shí)時(shí)性不好。
文獻(xiàn)[4]提出一種基于相關(guān)子空間的數(shù)據(jù)挖掘方法,采用屬性維上的局部稀疏程度重新定義相關(guān)子空間,采用局部數(shù)據(jù)集的概率密度給出相關(guān)子空間中的計(jì)算公式,獲取相關(guān)子空間中的數(shù)據(jù)分布特征,引入LSH分布式策略,實(shí)現(xiàn)對(duì)分布式數(shù)據(jù)的挖據(jù),該方法提高了多層次分布式數(shù)據(jù)庫(kù)檢索的查準(zhǔn)性,但是該算法隨著多層次分布式數(shù)據(jù)庫(kù)規(guī)模的增大,信息挖掘的準(zhǔn)確性不好。
針對(duì)上述問(wèn)題,提出一種基于隨機(jī)決策樹(shù)檢索的多層次分布式數(shù)據(jù)挖掘方法。首先進(jìn)行數(shù)據(jù)信息流構(gòu)建和數(shù)據(jù)特征分析,對(duì)多層次分布式數(shù)據(jù)信息流進(jìn)行特征空間重構(gòu);然后在重構(gòu)的特征空間中提取多層次分布式數(shù)據(jù)的關(guān)聯(lián)維特征量,采用高階特征壓縮方法進(jìn)行降維處理,實(shí)現(xiàn)分布式數(shù)據(jù)的自適應(yīng)挖掘;最后進(jìn)行仿真試驗(yàn)分析。
1 多層次分布式數(shù)據(jù)信息流重構(gòu)
1.1 分布式數(shù)據(jù)的特征空間結(jié)構(gòu)模型
采用隨機(jī)相位重組方法進(jìn)行分布式數(shù)據(jù)的層次空間重構(gòu),構(gòu)建多層次分布式數(shù)據(jù)的高維特征空間分布結(jié)構(gòu)模型,假設(shè)多層次分布式數(shù)據(jù)的有限數(shù)據(jù)集為:
采用Takens嵌入定理進(jìn)行多層次分布式數(shù)據(jù)的特征分布空間重構(gòu)[5]:設(shè)是維的多層次分布式數(shù)據(jù)在高階矢量場(chǎng)的緊流形;是光滑的矢量場(chǎng);是上的一個(gè)光滑函數(shù)。采用高階線性微分方程進(jìn)行數(shù)據(jù)樣本的添加或者刪減,則當(dāng)表示是一個(gè)嵌入向量。對(duì)于多層次分布式數(shù)據(jù)采樣時(shí)間序列它的相空間重構(gòu)軌跡為:
式中:表示數(shù)據(jù)分布特征空間的狀態(tài)矢量;是重構(gòu)延時(shí);是嵌入維數(shù);是對(duì)多層次分布數(shù)據(jù)挖掘的采樣時(shí)間間隔。多層次分布式數(shù)據(jù)在聚類(lèi)中心的收斂控制函數(shù)為:
利用奇異半正定性原理,建立多層次分布式數(shù)據(jù)挖掘的二次規(guī)劃模型,在重構(gòu)的特征空間中提取多層次分布式數(shù)據(jù)的關(guān)聯(lián)維特征量。
1.2 數(shù)據(jù)流的關(guān)聯(lián)維特征提取
在重構(gòu)的特征空間中構(gòu)建一組齊次方程,求得多層次分布式數(shù)據(jù)挖掘的極大線性無(wú)關(guān)組,得到多層次分布式數(shù)據(jù)的信息融合中心的極大線性無(wú)關(guān)組表達(dá)式分別為:
3 仿真試驗(yàn)分析
為了驗(yàn)證本文方法在實(shí)現(xiàn)多層次分布式數(shù)據(jù)的特征選擇和優(yōu)化挖掘中的應(yīng)用性能,進(jìn)行仿真試驗(yàn)分析。試驗(yàn)采用Matlab 7 仿真軟件設(shè)計(jì),在數(shù)據(jù)庫(kù)中進(jìn)行多層次分布式數(shù)據(jù)特征信息采樣,采樣樣本的時(shí)間間隔為0.25 s,數(shù)據(jù)的點(diǎn)數(shù)為2 000點(diǎn),特征空間重構(gòu)的嵌入時(shí)延參數(shù),維數(shù)干擾強(qiáng)度為0~12 dB,根據(jù)上述仿真參量設(shè)定,進(jìn)行多層次分布式數(shù)據(jù)挖掘,得到的樣本數(shù)據(jù)如圖1所示。
分析圖2的結(jié)果得知,采用本文方法進(jìn)行數(shù)據(jù)挖掘,可降低多層次分布數(shù)據(jù)的空間組合維數(shù),提高挖掘精度,與傳統(tǒng)方法進(jìn)行挖掘的準(zhǔn)確性對(duì)比,得到的對(duì)比結(jié)果如圖3所示,查準(zhǔn)率和計(jì)算時(shí)間對(duì)比見(jiàn)表1,分析圖3和表1結(jié)果得知,采用本文方法進(jìn)行數(shù)據(jù)挖掘的準(zhǔn)確性較好,查準(zhǔn)率較高,且降低了計(jì)算開(kāi)銷(xiāo)。
4 結(jié) 語(yǔ)
針對(duì)多層次分布式數(shù)據(jù)存在高維特征和類(lèi)間不平衡因素的問(wèn)題,本文提出一種基于隨機(jī)決策樹(shù)檢索模型的數(shù)據(jù)挖掘技術(shù)。并利用仿真試驗(yàn)對(duì)本文方法與傳統(tǒng)方法的性能進(jìn)行對(duì)比,仿真結(jié)果表明,采用本文方法進(jìn)行數(shù)據(jù)挖掘的準(zhǔn)確性能好,查準(zhǔn)率較高,計(jì)算開(kāi)銷(xiāo)降低,性能優(yōu)越,具有較好的應(yīng)用價(jià)值。
參考文獻(xiàn)
[1] 王慧,張翠羽.基于改進(jìn)遺傳算法的網(wǎng)絡(luò)差異數(shù)據(jù)挖掘算法[J].計(jì)算機(jī)仿真,2015,32(5):311?314.
[2] 梁聰剛,王鴻章.微分進(jìn)化算法的優(yōu)化研究及其在聚類(lèi)分析中的應(yīng)用[J].現(xiàn)代電子技術(shù),2016,39(13):103?107.
[3] 張紅蕊,張永,于靜雯.云計(jì)算環(huán)境下基于樸素貝葉斯的數(shù)據(jù)分類(lèi)[J].計(jì)算機(jī)應(yīng)用與軟件,2015,32(3):27?30.
[4] 張繼福,李永紅,秦嘯,等.基于MapReduce與相關(guān)子空間的局部離群數(shù)據(jù)挖掘算法[J].軟件學(xué)報(bào),2015,26(5):1079?1095.
[5] 蔣本立,張小平.大數(shù)據(jù)網(wǎng)絡(luò)的均衡調(diào)度平臺(tái)設(shè)計(jì)與改進(jìn)[J].現(xiàn)代電子技術(shù),2016,39(6):62?65.
[6] 李根,樊龍,萬(wàn)定生,等.基于Map/Reduce的決策樹(shù)分類(lèi)挖掘方法應(yīng)用研究[J].計(jì)算機(jī)與數(shù)字工程,2016,44(8):1504?1510.
[7] 聶軍.基于K?L特征壓縮的云計(jì)算冗余數(shù)據(jù)降維算法[J].微電子學(xué)與計(jì)算機(jī),2016(2):125?129.