許學(xué)添,鄒同浩
(廣東司法警官職業(yè)學(xué)院 信息管理系,廣東 廣州510520)
網(wǎng)絡(luò)數(shù)據(jù)庫中隱蔽數(shù)據(jù)快速挖掘方法研究
許學(xué)添,鄒同浩
(廣東司法警官職業(yè)學(xué)院 信息管理系,廣東 廣州510520)
在大型網(wǎng)絡(luò)數(shù)據(jù)庫構(gòu)架中,包含有海量的圖片、聲音、文字等數(shù)據(jù)信息,由于數(shù)據(jù)之間的差異性較大以及擾動(dòng)干擾,導(dǎo)致對(duì)待訪問的目標(biāo)數(shù)據(jù)的隱蔽性較強(qiáng),對(duì)隱蔽數(shù)據(jù)的快速挖掘是實(shí)現(xiàn)網(wǎng)絡(luò)數(shù)據(jù)庫優(yōu)化訪問的基礎(chǔ)。傳統(tǒng)方法采用模糊C均值聚類算法進(jìn)行數(shù)據(jù)挖掘,算法的抗干擾性不強(qiáng),動(dòng)態(tài)差異性數(shù)據(jù)的分類挖掘性能不高。提出一種基于數(shù)據(jù)時(shí)頻分布特征點(diǎn)檢測的網(wǎng)絡(luò)數(shù)據(jù)庫中隱蔽數(shù)據(jù)快速挖掘算法。構(gòu)建網(wǎng)絡(luò)數(shù)據(jù)的數(shù)據(jù)分布結(jié)構(gòu)模型,進(jìn)行數(shù)據(jù)時(shí)間序列分析和信號(hào)模型構(gòu)建,對(duì)網(wǎng)絡(luò)數(shù)據(jù)庫中的大數(shù)據(jù)進(jìn)行FCM聚類預(yù)處理,對(duì)聚類輸出的數(shù)據(jù)進(jìn)行時(shí)頻分析和特征點(diǎn)檢測,實(shí)現(xiàn)數(shù)據(jù)準(zhǔn)確挖掘。仿真結(jié)果表明,采用該算法進(jìn)行數(shù)據(jù)挖掘的準(zhǔn)確度較高,快速收斂性較好,展示了較好的性能。
網(wǎng)絡(luò)數(shù)據(jù)庫;模糊C均值;數(shù)據(jù)挖掘;時(shí)頻分析
隨著現(xiàn)代網(wǎng)絡(luò)技術(shù)的迅猛發(fā)展,大量的圖片、聲音、文字、音視頻等數(shù)據(jù)信息通過網(wǎng)絡(luò)數(shù)據(jù)庫進(jìn)行存儲(chǔ)和調(diào)度,網(wǎng)絡(luò)數(shù)據(jù)庫猶如一個(gè)龐大的數(shù)據(jù)加工廠,在網(wǎng)絡(luò)數(shù)據(jù)庫中,各種信息量不但呈現(xiàn)爆炸式增長,而且各種信息之間相互穿插、包含,特征日趨模糊。網(wǎng)絡(luò)數(shù)據(jù)庫的構(gòu)架越來越復(fù)雜,隨著網(wǎng)絡(luò)數(shù)據(jù)庫容量的增大,信息處理速度的增加,對(duì)其管理難度不斷增強(qiáng)。網(wǎng)絡(luò)數(shù)據(jù)庫中大量的信息數(shù)據(jù)彼此交叉干擾,目標(biāo)數(shù)據(jù)在網(wǎng)絡(luò)數(shù)據(jù)庫中的隱蔽性較強(qiáng),信噪比較低,對(duì)目標(biāo)數(shù)據(jù)的挖掘難度較高,研究網(wǎng)絡(luò)數(shù)據(jù)庫的隱蔽挖掘算法在提高數(shù)據(jù)庫的優(yōu)化訪問和調(diào)度能力方面具有重要意義。
大型網(wǎng)絡(luò)數(shù)據(jù)庫構(gòu)架中,由于數(shù)據(jù)之間的差異性較大以及擾動(dòng)干擾,導(dǎo)致對(duì)待訪問的目標(biāo)數(shù)據(jù)的隱蔽性較強(qiáng),對(duì)隱蔽數(shù)據(jù)的快速挖掘是實(shí)現(xiàn)網(wǎng)絡(luò)數(shù)據(jù)庫優(yōu)化訪問的基礎(chǔ)。傳統(tǒng)方法中,網(wǎng)絡(luò)數(shù)據(jù)庫的數(shù)據(jù)挖掘方法主要有粒子群算法、支持向量機(jī)算法、模糊C均值算法、語義指向性特征提取算法等[1-3],通過對(duì)數(shù)據(jù)的信號(hào)模型構(gòu)建和分類算法設(shè)計(jì),結(jié)合特征提取實(shí)現(xiàn)數(shù)據(jù)挖掘,取得了一定的研究成果,其中文獻(xiàn)[4]提出一種基于信息流減法聚類的大型Web數(shù)據(jù)庫的語義信息挖掘算法,實(shí)現(xiàn)對(duì)大型網(wǎng)絡(luò)數(shù)據(jù)庫的數(shù)據(jù)索引和挖掘,提高數(shù)據(jù)庫的訪問性能,但是該算法需要在高維相空間中進(jìn)行數(shù)據(jù)調(diào)度,導(dǎo)致計(jì)算成本較大,實(shí)時(shí)性不好。文獻(xiàn)[5]提出基于語義本體模型和關(guān)聯(lián)指向性特征提取的數(shù)據(jù)庫信息挖掘算法,實(shí)現(xiàn)對(duì)低信噪比下的隱蔽數(shù)據(jù)信息挖掘,降低的誤檢率,但是該方法在受到冗余數(shù)據(jù)信息干擾下,容易陷入局部收斂。針對(duì)上述問題,文中提出一種基于數(shù)據(jù)時(shí)頻分布特征點(diǎn)檢測的網(wǎng)絡(luò)數(shù)據(jù)庫中隱蔽數(shù)據(jù)快速挖掘算法。構(gòu)建網(wǎng)絡(luò)數(shù)據(jù)的數(shù)據(jù)分布結(jié)構(gòu)模型,進(jìn)行數(shù)據(jù)時(shí)間序列分析和信號(hào)模型構(gòu)建,對(duì)網(wǎng)絡(luò)數(shù)據(jù)庫中的大數(shù)據(jù)進(jìn)行FCM聚類預(yù)處理,對(duì)聚類輸出的數(shù)據(jù)進(jìn)行時(shí)頻分析和特征點(diǎn)檢測,實(shí)現(xiàn)數(shù)據(jù)準(zhǔn)確挖掘。最后通過仿真實(shí)驗(yàn)進(jìn)行了性能測試,驗(yàn)證了文中算法在優(yōu)化數(shù)據(jù)挖掘性能方面的優(yōu)越性能,得出有效性結(jié)論。
1.1 網(wǎng)絡(luò)數(shù)據(jù)庫的數(shù)據(jù)存儲(chǔ)模型及數(shù)據(jù)挖掘算法的總體設(shè)計(jì)
為了實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)數(shù)據(jù)庫中大數(shù)據(jù)的優(yōu)化分類,提高網(wǎng)絡(luò)數(shù)據(jù)庫的訪問和調(diào)度能力,需要進(jìn)行隱蔽數(shù)據(jù)挖掘,首先分析網(wǎng)絡(luò)數(shù)據(jù)庫的數(shù)據(jù)存儲(chǔ)模型,在大型網(wǎng)絡(luò)數(shù)據(jù)庫中,數(shù)據(jù)庫的存儲(chǔ)節(jié)點(diǎn)將大量的數(shù)據(jù)信息流分布到融合的空間結(jié)構(gòu)中,通過云存儲(chǔ)和Deep Web數(shù)據(jù)存儲(chǔ)方式進(jìn)行數(shù)據(jù)庫的海量信息融合聚類和數(shù)據(jù)調(diào)度,實(shí)現(xiàn)數(shù)據(jù)庫的優(yōu)化訪問[6-9]。假設(shè)網(wǎng)絡(luò)數(shù)據(jù)庫的數(shù)據(jù)存儲(chǔ)模型為一個(gè)分布結(jié)點(diǎn)為G1=(Mα1,Mβ1,Y1),G2=(Mα2,Mβ2,Y2)的無向圖模型,在給定的隱蔽性數(shù)據(jù)分布的權(quán)重指數(shù)下,ai的屬性值為{c1,c2,…,ck)。數(shù)據(jù)庫的訪問接口的信息聚類中心滿足G1?G2?Y1?Y2,令A(yù)={a1,a2,…,an}為數(shù)據(jù)包的置信度概念區(qū)間,網(wǎng)絡(luò)數(shù)據(jù)庫的查詢向量集集成查詢接口、隱蔽信息傳輸通道和特征提取模塊以及查詢信息的輸出模塊,構(gòu)成網(wǎng)絡(luò)數(shù)據(jù)庫的分布式存儲(chǔ)和傳輸機(jī)制,得到一個(gè)采用三元組形式構(gòu)建的網(wǎng)絡(luò)數(shù)據(jù)庫的數(shù)據(jù)存儲(chǔ)的本體模型為:
根據(jù)上述構(gòu)建的網(wǎng)絡(luò)數(shù)據(jù)庫本體模型,構(gòu)建數(shù)據(jù)庫的Wigner-Ville分布空間,在Wigner-Ville分布空間中進(jìn)行不同采樣時(shí)間間隔上的特征信息流分析,現(xiàn)在把有限數(shù)據(jù)集合X分為c類,假設(shè)網(wǎng)絡(luò)數(shù)據(jù)庫中的隱蔽數(shù)據(jù)是一種多頻微弱的寬帶信號(hào),網(wǎng)絡(luò)數(shù)據(jù)庫中的隱蔽數(shù)據(jù)的波束形成方向有M個(gè)方向集合,通過數(shù)據(jù)預(yù)處理和數(shù)據(jù)篩選,得到網(wǎng)絡(luò)數(shù)據(jù)庫的數(shù)據(jù)存儲(chǔ)和調(diào)度模型如圖1所示。
圖1 網(wǎng)絡(luò)數(shù)據(jù)庫的數(shù)據(jù)存儲(chǔ)和調(diào)度模型
在圖1所示的網(wǎng)絡(luò)數(shù)據(jù)庫的數(shù)據(jù)存儲(chǔ)和調(diào)度模型中,進(jìn)行數(shù)據(jù)挖掘算法設(shè)計(jì),數(shù)據(jù)挖掘中首先進(jìn)行數(shù)據(jù)信息流的信號(hào)模型構(gòu)建,進(jìn)行數(shù)據(jù)分類和數(shù)據(jù)信息流的調(diào)制解調(diào)處理,對(duì)干擾數(shù)據(jù)進(jìn)行抗干擾濾波,采用分類算法進(jìn)行數(shù)據(jù)分類實(shí)現(xiàn)數(shù)據(jù)的準(zhǔn)確挖掘,數(shù)據(jù)挖掘的實(shí)現(xiàn)過程總體描述如圖2所示。
圖2 網(wǎng)絡(luò)數(shù)據(jù)庫的隱蔽數(shù)據(jù)挖掘?qū)崿F(xiàn)的總體結(jié)構(gòu)框圖
1.2 網(wǎng)絡(luò)數(shù)據(jù)庫中數(shù)據(jù)的信息流模型
在上述進(jìn)行了網(wǎng)絡(luò)數(shù)據(jù)庫的數(shù)據(jù)存儲(chǔ)和調(diào)度模型設(shè)計(jì)的基礎(chǔ)上,進(jìn)行網(wǎng)絡(luò)數(shù)據(jù)庫的隱蔽數(shù)據(jù)的信息流模型構(gòu)建,采用信號(hào)處理方法進(jìn)行數(shù)據(jù)流的信息特征提取和數(shù)據(jù)挖掘,通過構(gòu)建一個(gè)包含n個(gè)矢量屬性集合進(jìn)行數(shù)據(jù)庫的隱蔽信息的語義狀態(tài)信息,網(wǎng)絡(luò)數(shù)據(jù)庫的隱蔽數(shù)據(jù)為一個(gè)窄帶寬平穩(wěn)的隨機(jī)過程,存儲(chǔ)空間中的本中模塊表示為一組復(fù)包絡(luò)形式,可寫作:
其中,b(τ,φ)是網(wǎng)絡(luò)數(shù)據(jù)庫中隱蔽數(shù)據(jù)的窄帶信息流的干擾擴(kuò)展函數(shù),(t)為各頻率分量的時(shí)變非平穩(wěn)特征參量,τ為網(wǎng)絡(luò)數(shù)據(jù)庫中隱蔽數(shù)據(jù)的能量密度譜,選擇特定的窗函數(shù)形式:
上式中,N(z)是網(wǎng)絡(luò)數(shù)據(jù)庫頻譜圖的頻率分辨率,它的零點(diǎn)在處頻域的分辨率下降,D(z)為尺度因子,ψ(t)由尺度參數(shù)經(jīng)時(shí)間軸平移和伸縮得到數(shù)據(jù)的包絡(luò)特征為:
其中,θ(t)為時(shí)頻分辨率的頻移特性,可得網(wǎng)絡(luò)數(shù)據(jù)庫中隱蔽數(shù)據(jù)信息流的交叉項(xiàng),在語義特征的本體模型中,數(shù)據(jù)庫存儲(chǔ)中的包絡(luò)信息為一個(gè)標(biāo)量時(shí)間序列為:
采用傅里葉變換對(duì)上述數(shù)據(jù)信息流進(jìn)行信息融合,對(duì)待挖掘的數(shù)據(jù)信息流的傅里葉變換過程為:
上式中,f(t)為網(wǎng)絡(luò)數(shù)據(jù)庫的非平穩(wěn)態(tài)瞬時(shí)相位特征值,ρ(a,b)為時(shí)頻聯(lián)合分布,a為尺度參數(shù),b為加窗的Fourier譜。隱蔽數(shù)據(jù)x(t)出現(xiàn)在加窗的Fourier譜中兩次,并不包含任何窗函數(shù),經(jīng)過前饋調(diào)制濾波,得到網(wǎng)絡(luò)數(shù)據(jù)庫的邊緣性狀態(tài)函數(shù)表示為:
式中,xi∈Rn,代表網(wǎng)絡(luò)數(shù)據(jù)庫的錐形核分布狀態(tài)矢量,ui∈Rm為一個(gè)錐形核分布輸入矢量。在上述進(jìn)行網(wǎng)絡(luò)數(shù)據(jù)庫中數(shù)據(jù)的信息流模型構(gòu)建的基礎(chǔ)上,采用非線性時(shí)間序列分析方法進(jìn)行數(shù)據(jù)特征提取和數(shù)據(jù)挖掘。
2.1 網(wǎng)絡(luò)數(shù)據(jù)庫的數(shù)據(jù)信息聚類處理及特征提取
在上述進(jìn)行了大型網(wǎng)絡(luò)數(shù)據(jù)庫構(gòu)架和數(shù)據(jù)信息流的時(shí)間序列分析模型構(gòu)建的基礎(chǔ)上,進(jìn)行網(wǎng)絡(luò)數(shù)據(jù)庫中的大數(shù)據(jù)信息聚類處理,實(shí)現(xiàn)數(shù)據(jù)的快速挖掘算法改進(jìn),傳統(tǒng)方法采用模糊C均值聚類算法進(jìn)行數(shù)據(jù)挖掘,算法的抗干擾性不強(qiáng),動(dòng)態(tài)差異性數(shù)據(jù)的分類挖掘性能不高。為了克服傳統(tǒng)方法的弊端,文中提出一種基于數(shù)據(jù)時(shí)頻分布特征點(diǎn)檢測的網(wǎng)絡(luò)數(shù)據(jù)庫中隱蔽數(shù)據(jù)快速挖掘算法。對(duì)網(wǎng)絡(luò)數(shù)據(jù)庫中的大數(shù)據(jù)進(jìn)行FCM聚類預(yù)處理,假設(shè)網(wǎng)絡(luò)數(shù)據(jù)庫中的大數(shù)據(jù)信息流的時(shí)頻參量x(n)為網(wǎng)絡(luò)數(shù)據(jù)庫中的隱蔽數(shù)據(jù)預(yù)測的時(shí)間序列組合,〈x(n)〉代表對(duì)x(n)取均值:
在上述進(jìn)行了網(wǎng)絡(luò)數(shù)據(jù)庫中的隱蔽數(shù)據(jù)調(diào)度信息流時(shí)間序列重構(gòu)的基礎(chǔ)上,進(jìn)行流量監(jiān)測的頻率響應(yīng)配置,得到網(wǎng)絡(luò)數(shù)據(jù)庫中的隱蔽數(shù)據(jù)時(shí)間序列的特征向量幅值和自相關(guān)特征狀態(tài)為:
其中,M是d維的差異性時(shí)間窗口特征函數(shù),計(jì)算網(wǎng)絡(luò)數(shù)據(jù)庫中的隱蔽數(shù)據(jù)時(shí)間序列的幾何不變量,得到的該狀態(tài)空間中網(wǎng)絡(luò)數(shù)據(jù)庫中隱蔽數(shù)據(jù)信息特征的干擾向量模型表達(dá)式為:
上式中,a(t)為網(wǎng)絡(luò)數(shù)據(jù)庫中的隱蔽數(shù)據(jù)的信息幅度,稱為復(fù)信號(hào)z(t)的瞬時(shí)幅度。采用FCM算法進(jìn)行聚類分析,構(gòu)建網(wǎng)絡(luò)數(shù)據(jù)庫中的隱蔽數(shù)據(jù)預(yù)測相關(guān)函數(shù),假設(shè)網(wǎng)絡(luò)數(shù)據(jù)庫中隱蔽數(shù)據(jù)的有限數(shù)據(jù)集:
在網(wǎng)絡(luò)數(shù)據(jù)庫的定量遞歸矢量空間集合中含有n個(gè)樣本,其中樣本xi,i=1,2,…,n的表示網(wǎng)絡(luò)數(shù)據(jù)庫隱蔽數(shù)據(jù)標(biāo)量時(shí)序?yàn)椋?/p>
結(jié)合模糊C均值聚類,現(xiàn)在把有限數(shù)據(jù)集合網(wǎng)絡(luò)數(shù)據(jù)庫特征空間X分為c類,其中1<c<n,定義數(shù)據(jù)流的相空間軌跡,得到模糊聚類中心矩陣為:
其中Vi為有限數(shù)據(jù)集聚類中心的第i個(gè)特征空間,(第i個(gè)聚類中心矢量)。采用自相關(guān)特征配準(zhǔn)方法對(duì)數(shù)據(jù)信息的分布區(qū)間進(jìn)行模糊劃分,劃分矩陣表示為:
通過FCM聚類的定義,得到FCM聚類下網(wǎng)絡(luò)數(shù)據(jù)庫的大數(shù)據(jù)信息聚類的目標(biāo)函數(shù)為(定義聚類目標(biāo)函數(shù)):
式中,m為權(quán)重指數(shù),(dik)2為干擾向量xk與Vi的相空間分布間隔距離,用歐式距離表示數(shù)據(jù)時(shí)頻分布特征點(diǎn)為:
其中,數(shù)據(jù)時(shí)頻分布特征點(diǎn)的分布有效性的置信空間為:
對(duì)上述網(wǎng)絡(luò)數(shù)據(jù)庫的數(shù)據(jù)信息聚類目標(biāo)函數(shù)進(jìn)行優(yōu)化求解,采用數(shù)據(jù)時(shí)頻分布特征點(diǎn)方法進(jìn)行數(shù)據(jù)挖掘優(yōu)化。
2.2 改進(jìn)算法的實(shí)現(xiàn)步驟描述
根據(jù)上述算法描述,對(duì)聚類輸出的數(shù)據(jù)進(jìn)行時(shí)頻分析和特征點(diǎn)檢測,進(jìn)行數(shù)據(jù)挖掘優(yōu)化實(shí)現(xiàn),實(shí)現(xiàn)過程描述為:
1)初始化。算法的初始化,首先進(jìn)行時(shí)頻控制參數(shù)的初始化,包括聚類輸出迭代次數(shù)、相空間嵌入維數(shù)、信息融合區(qū)間、擾動(dòng)范圍大小等參數(shù)的初始化,通過初始化選出隱蔽數(shù)據(jù)挖掘和特征聚類的初始最優(yōu)個(gè)體和全局最優(yōu)個(gè)體;
2)網(wǎng)絡(luò)數(shù)據(jù)庫中的隱蔽數(shù)據(jù)的自相關(guān)序列按照時(shí)頻檢測進(jìn)行差分進(jìn)化(DE,differential evolution)實(shí)現(xiàn)隱蔽數(shù)據(jù)的亮點(diǎn)檢測;
3)設(shè)定閾值ζ,計(jì)算網(wǎng)絡(luò)數(shù)據(jù)庫中的隱蔽數(shù)據(jù)的多樣性因子mf,并結(jié)合定量遞歸分析進(jìn)行閾值比較,若mf<ζ,則進(jìn)行下一步(第4步),如果mf>ζ,進(jìn)入(5)步;
4)把網(wǎng)絡(luò)數(shù)據(jù)庫中的隱蔽數(shù)據(jù)時(shí)間序列加入到擾動(dòng)序列中。產(chǎn)生隨機(jī)矩陣z,為c×D維的,其均衡調(diào)度控制分量都在(0,1)之間。根據(jù)于數(shù)據(jù)時(shí)頻分布特征點(diǎn)的映射形式,得到NP個(gè)于數(shù)據(jù)時(shí)頻分布特征點(diǎn)序列分量:
5)加入網(wǎng)絡(luò)數(shù)據(jù)庫中的隱蔽數(shù)據(jù)的擾動(dòng)變量,得到優(yōu)化數(shù)據(jù)挖掘輸出分量:
6)如果G=Gmax,那么迭代停止并得到有限數(shù)據(jù)集下數(shù)據(jù)挖掘的適應(yīng)度值,如果不是,則G=G+1繼續(xù)迭代進(jìn)入第2)。并對(duì)數(shù)據(jù)歸一化處理過程為:
通過上述算法改進(jìn)設(shè)計(jì),實(shí)現(xiàn)數(shù)據(jù)快速挖掘,降低迭代步數(shù)。
為了驗(yàn)證文中算法在實(shí)現(xiàn)網(wǎng)絡(luò)數(shù)據(jù)庫中隱蔽數(shù)據(jù)快速挖掘中的性能,進(jìn)行仿真實(shí)驗(yàn)。驗(yàn)的硬件環(huán)境為:處理器Intel(R)Core(TM)2 Duo CPU 2.94 GHz,內(nèi)存:8.00 GB。采用Matlab仿真軟件,參數(shù)設(shè)定為Gmax=30,D=12,c=3,NP=30,F(xiàn)=0.5,CR= 0.1,m=2,網(wǎng)絡(luò)數(shù)據(jù)庫中的隱蔽數(shù)據(jù)的初始采樣頻率f1=2.1 Hz,終止頻率f2=0.23 Hz,時(shí)頻分布特征點(diǎn)檢測權(quán)重系數(shù)ω設(shè)定為0.82,根據(jù)上述仿真環(huán)境和參數(shù)設(shè)定,進(jìn)行網(wǎng)絡(luò)數(shù)據(jù)庫隱蔽數(shù)據(jù)挖掘仿真,首先進(jìn)行數(shù)據(jù)的時(shí)間序列分析和原始數(shù)據(jù)采樣,得到采集的原始數(shù)據(jù)點(diǎn)分布如圖3所示。
圖3 原始數(shù)據(jù)采樣分布
對(duì)采樣的數(shù)據(jù)進(jìn)行數(shù)據(jù)FCM聚類處理,實(shí)現(xiàn)數(shù)據(jù)的時(shí)頻分布特征點(diǎn)檢測,得到檢測結(jié)果如圖4所示。
圖4 數(shù)據(jù)的時(shí)頻分布特征點(diǎn)檢測
通過上述檢測結(jié)果可見,采用文中方法進(jìn)行隱蔽數(shù)據(jù)挖掘的聚焦性能較好,時(shí)頻域的特征點(diǎn)分布明顯,說明挖掘效能較高,為了定量分析文中方法的性能,采用文中方法和傳統(tǒng)方法,以數(shù)據(jù)挖掘的速度為測試指標(biāo),得到仿真對(duì)比結(jié)果如圖5所示,從圖可見,采用文中方法進(jìn)行數(shù)據(jù)挖掘的精度較高,速度較快,收斂性較好,展示了文中方法的優(yōu)越性。
圖5 數(shù)據(jù)挖掘性能對(duì)比
文中研究了網(wǎng)絡(luò)數(shù)據(jù)庫的隱蔽數(shù)據(jù)挖掘問題,提出一種基于數(shù)據(jù)時(shí)頻分布特征點(diǎn)檢測的網(wǎng)絡(luò)數(shù)據(jù)庫中隱蔽數(shù)據(jù)快速挖掘算法。構(gòu)建網(wǎng)絡(luò)數(shù)據(jù)的數(shù)據(jù)分布結(jié)構(gòu)模型,進(jìn)行數(shù)據(jù)時(shí)間序列分析和信號(hào)模型構(gòu)建,對(duì)網(wǎng)絡(luò)數(shù)據(jù)庫中的大數(shù)據(jù)進(jìn)行FCM聚類預(yù)處理,對(duì)聚類輸出的數(shù)據(jù)進(jìn)行時(shí)頻分析和特征點(diǎn)檢測,實(shí)現(xiàn)數(shù)據(jù)準(zhǔn)確挖掘。仿真結(jié)果表明,采用該算法進(jìn)行數(shù)據(jù)挖掘的準(zhǔn)確度較高,快速收斂性較好,展示了較好的性能,具有較高的應(yīng)用價(jià)值。
[1]陸興華,陳平華.基于定量遞歸聯(lián)合熵特征重構(gòu)的緩沖區(qū)流量預(yù)測算法[J].計(jì)算機(jī)科學(xué),2015,42(4):68-71.
[2]王小英,劉慶杰.關(guān)系型數(shù)據(jù)庫中數(shù)值數(shù)據(jù)的密文檢索模型研究[J].計(jì)算機(jī)仿真,2013,30(11):409-411.
[3]Chong F T,Heck M J R,Ranganathan P,et al.Data center energy efficiency:improving energy efficiency in data centers beyond technology scaling[J].IEEE Design&Test,2014,31(1):93-104.
[4]WANG Lin,ZHANG Fa,Arjona Aroca J,et al.GreenDCN: a general framework for achieving energy efficiency in data center networks[J].IEEE Journal on Selected Areas in Communications,2014,32(1):4-15.
[5]衛(wèi)星,張建軍,石雷,等.云計(jì)算數(shù)據(jù)中心服務(wù)器數(shù)量動(dòng)態(tài)配置策略[J].電子與信息學(xué)報(bào),2015,37(8):2007-2013.
[6]侯森,羅興國,宋克.基于信息源聚類的最大熵加權(quán)信任分析算法[J].電子學(xué)報(bào),2015,43(5):993-999.
[7]羅亮,吳文峻,張飛.面向云計(jì)算數(shù)據(jù)中心的能耗建模方法[J].軟件學(xué)報(bào),2014,25(7):1371-1387.
[8]章登義,吳文李,歐陽黜霏.基于語義度量的RDF圖近似查詢[J].電子學(xué)報(bào),2015,43(7):1320-1328.
[9]魏利峰,紀(jì)建偉,王曉斌.云環(huán)境中web信息抓取技術(shù)的研究及應(yīng)用[J].電子設(shè)計(jì)工程,2016,24(4):29-31.
[10]陳永峰.大數(shù)據(jù)背景下數(shù)據(jù)挖掘在高校固定資產(chǎn)統(tǒng)計(jì)中的應(yīng)用研究[J].河北軟件職業(yè)技術(shù)學(xué)院學(xué)報(bào),2015,17(2):6-9.
[11]關(guān)陽,金力,朱李凡.數(shù)據(jù)挖掘中的數(shù)據(jù)預(yù)處理問題分析[J].數(shù)字技術(shù)與應(yīng)用,2015(8):200.
[12]張躍,李葆青,胡玲芳,等.基于Web數(shù)據(jù)挖掘技術(shù)研究[J].電腦知識(shí)與技術(shù),2015,11(9):106-115.
[13]宋志秋.大數(shù)據(jù)時(shí)代營銷中的數(shù)據(jù)挖掘技術(shù)[J].數(shù)字技術(shù)與應(yīng)用,2015(3):209-209.
[14]吳曉英,明均仁.基于數(shù)據(jù)挖掘的大數(shù)據(jù)管理模型研究[J].情報(bào)科學(xué),2015,32(11):131-134.
[15]戴春娥,陳維斌,傅順開,等.通過GPU加速數(shù)據(jù)挖掘的研究進(jìn)展和實(shí)踐[J].計(jì)算機(jī)工程與應(yīng)用,2015,51(16):109-116.
[16]王祥瑞,韓成浩.一種基于云計(jì)算的數(shù)據(jù)挖掘平臺(tái)架構(gòu)設(shè)計(jì)與實(shí)現(xiàn)[J].數(shù)字技術(shù)與應(yīng)用,2015(9):164.
Research on fast mining method of hidden data in network database
XU Xue-tian,ZOU Tong-hao
(Department of Information Administration Guandong Justice Police Vocational College,Guangzhou 510520,China)
In the framework of large network database,contains a mass of pictures,voice,text,etc.data information,because the difference between the data and disturbance,resulting in treat access the target data of strong concealment,the rapid excavation of hidden data is network database access optimization based.Traditional method uses the fuzzy C means clustering algorithm for data mining,the anti interference of the algorithm is not strong,the classification of dynamic differential data mining performance is not high.A fast data mining algorithm for hidden data in the network database based on the feature point detection of the data time frequency distribution is proposed.Data network data distribution structure model,time series analysis and data signal model is constructed and of FCM clustering preprocessing network database in the data and the output of the clustering of data frequency analysis and feature point detection,to achieve accurate data mining proposed.Simulation results show that the proposed algorithm is of high accuracy,fast convergence and good performance.
network database;fuzzy C means;data mining;time frequency analysis
TP391
A
1674-6236(2016)24-0015-04
2016-04-28 稿件編號(hào):201604270
廣東省前沿與關(guān)鍵技術(shù)創(chuàng)新項(xiàng)目(2014B010110004);廣東省產(chǎn)學(xué)研合作項(xiàng)目(503036363071)
許學(xué)添(1984—),男,廣東揭陽人,碩士研究生,講師。研究方向:數(shù)據(jù)挖掘、生物信號(hào)處理。