摘"要:常規(guī)高維混合屬性數(shù)據(jù)挖掘方法多采用云平臺(tái)技術(shù),無法完整保留數(shù)據(jù)的結(jié)構(gòu)相似性,使得數(shù)據(jù)挖掘效率較低。為此,提出了基于FPgrowth算法的高維混合屬性數(shù)據(jù)挖掘方法。為了改善數(shù)據(jù)質(zhì)量,根據(jù)高維混合屬性數(shù)據(jù)在數(shù)據(jù)庫中的存儲(chǔ)結(jié)構(gòu),采用了一種固定算法實(shí)現(xiàn)數(shù)據(jù)去噪,并依據(jù)數(shù)據(jù)類型計(jì)算分類型和數(shù)值型相似度,結(jié)合FPgrowth算法對(duì)頻繁項(xiàng)樣本分支進(jìn)行篩選生成項(xiàng)表頭,保證數(shù)據(jù)結(jié)構(gòu)相似性的完整性,通過搜索項(xiàng)表頭輸出有效關(guān)聯(lián)規(guī)則,實(shí)現(xiàn)數(shù)據(jù)挖掘過程。實(shí)驗(yàn)結(jié)果表明,所提方法具有較高的挖掘效率。
關(guān)鍵詞:數(shù)據(jù)挖掘;FPgrowth算法;固定算法;高維混合屬性
中圖分類號(hào):TH17""""""文獻(xiàn)標(biāo)識(shí)碼:A
A"High"Dimensional"Mixed"Attribute"Data"Mining"
Method"Based"on"FPgrowth"Algorithm
LIANG"Shujie
(Guangdong"Preschool"Normal"College"in"Maoming,"Maoming,Guangdong"525200,China)
Abstract:Conventional"highdimensional"mixed"attribute"data"mining"methods"mostly"use"cloud"platform"technology,"which"can"not"completely"preserve"the"structural"similarity"of"data,"making"the"efficiency"of"data"mining"low."For"this"reason,"a"high"dimensional"mixed"attribute"data"mining"method"based"on"FPgrowth"algorithm"is"proposed."In"order"to"improve"the"data"quality,"according"to"the"storage"structure"of"highdimensional"mixed"attribute"data"in"the"database,"a"fixed"algorithm"is"adopted"to"denoise"the"data,"and"the"classification"and"numerical"similarity"are"calculated"according"to"the"data"type,"and"the"FPgrowth"algorithm"is"combined"to"filter"the"frequent"item"sample"branches"to"generate"the"item"header"to"ensure"the"integrity"of"the"data"structure"similarity,"and"the"data"mining"process"is"realized"by"outputting"effective"association"rules"from"the"search"item"header."Experimental"results"show"that"the"proposed"method"has"high"mining"efficiency.
Key"words:data"mining;"FPgrowth"algorithm;"fixed"algorithm;"highdimensional"mixed"attributes
互聯(lián)網(wǎng)環(huán)境中,高維混合屬性數(shù)據(jù)具有特征參數(shù)較多、屬性復(fù)雜等特點(diǎn),為提高網(wǎng)絡(luò)資源的利用率,需要采取一些技術(shù)手段對(duì)數(shù)據(jù)進(jìn)行挖掘,擴(kuò)大對(duì)數(shù)據(jù)的利用范圍。如文獻(xiàn)[1]利用差分進(jìn)化算法對(duì)數(shù)據(jù)進(jìn)行挖掘,該方法通過采集數(shù)據(jù)庫中的原始數(shù)據(jù),根據(jù)其結(jié)構(gòu)類型建立采集模型,并通過設(shè)定模型的聚類中心,采用差分進(jìn)化算法計(jì)算數(shù)據(jù)的聚類數(shù)量,根據(jù)樣本結(jié)構(gòu)對(duì)數(shù)據(jù)進(jìn)行聚類分析,最終實(shí)現(xiàn)數(shù)據(jù)挖掘過程,該方法的挖掘穩(wěn)定性較強(qiáng),但對(duì)于高維混合屬性的大數(shù)據(jù)而言,其靈活性較差,實(shí)用性比較受限,且挖掘準(zhǔn)確性還需提高;文獻(xiàn)[2]利用物聯(lián)網(wǎng)邊緣計(jì)算對(duì)數(shù)據(jù)挖掘展開研究,此方法通過對(duì)數(shù)據(jù)源進(jìn)行分布式計(jì)算,求得邊緣側(cè)數(shù)據(jù)的調(diào)度系數(shù),并利用貝葉斯關(guān)聯(lián)分析搭建挖掘技術(shù)模型,以此完成數(shù)據(jù)挖掘任務(wù),但該方法面對(duì)多層次的高維混合屬性數(shù)據(jù)時(shí),適應(yīng)度和抗干擾性較差。
根據(jù)對(duì)以上高維混合屬性數(shù)據(jù)挖掘方法的分析,提出了利用FPgrowth算法對(duì)高維混合屬性數(shù)據(jù)進(jìn)行挖掘,從多組數(shù)據(jù)的相似度來提取數(shù)據(jù)集中的頻繁項(xiàng)集,并輸出有效強(qiáng)關(guān)聯(lián)規(guī)則,進(jìn)而達(dá)到對(duì)數(shù)據(jù)可靠性挖掘的目的。
1"高維混合屬性數(shù)據(jù)挖掘方法設(shè)計(jì)
1.1"高維混合屬性數(shù)據(jù)去噪
高維混合屬性數(shù)據(jù)在數(shù)據(jù)庫中的存儲(chǔ)結(jié)構(gòu)為動(dòng)態(tài)重組,數(shù)據(jù)樣本位置多分布于多維分塊區(qū)域,其中包括大量的正樣本數(shù)據(jù)、負(fù)樣本數(shù)據(jù)及存在噪聲干擾的多源數(shù)據(jù)。為穩(wěn)定挖掘過程,提高挖掘質(zhì)量,在對(duì)數(shù)據(jù)進(jìn)行挖掘之前,需要執(zhí)行去噪處理[3]。本文采用固定算法實(shí)現(xiàn)數(shù)據(jù)去噪。
非高斯型度量函數(shù)如下:
J(y)=EG(y)-EG(v)2"(1)
上式中,E(·)表示數(shù)據(jù)期望值;G(·)表示數(shù)據(jù)的非線性函數(shù);y表示數(shù)據(jù)屬性部分權(quán)重;v表示絕對(duì)偏差。
為了快速提取到數(shù)據(jù)集中的多個(gè)獨(dú)立分值,利用公式(2),將公式(1)的計(jì)算結(jié)果最大化[4]:
JG(w)=EG(wTp)-EJ(y)2"(2)
上式中,w表示數(shù)據(jù)多維變量;p表示高斯變量的協(xié)方差矩陣。
對(duì)度量函數(shù)最大化的過程實(shí)質(zhì)上是對(duì)EG(wTp)的改進(jìn)過程,當(dāng)EG(wTp)=‖w‖2=1時(shí),可利用下式對(duì)最大化結(jié)果進(jìn)一步優(yōu)化,即:
wk+1=wk-EG(wTp)-βwkJG(w)-β(3)
上式中,β表示數(shù)據(jù)信息熵;k表示迭代次數(shù)。
為使得數(shù)據(jù)去噪結(jié)果更加準(zhǔn)確,當(dāng)完成一次優(yōu)化過程后,可采用標(biāo)準(zhǔn)化計(jì)算公式對(duì)優(yōu)化結(jié)果wk+1進(jìn)行處理:
wk+1/=‖wk+1‖""(4)
接下來,將上式與式(3)結(jié)合,進(jìn)行累加計(jì)算,得到wk+1多次迭代之后的結(jié)果,公式如下:
rk=EpG(wTp)wk+1(5)
上式中,rk表示數(shù)據(jù)的獨(dú)立分量。
式(5)表示初始權(quán)值矢量w0為隨機(jī)值,迭代次數(shù)為0時(shí)對(duì)權(quán)值矢量wk+1進(jìn)行更新的結(jié)果。
利用上式對(duì)高維混合屬性數(shù)據(jù)的估算分量進(jìn)行提取,重復(fù)該算法以分離數(shù)據(jù)組件[5]。為了保證提取出的數(shù)據(jù)組件之間內(nèi)部不存在關(guān)聯(lián)性,是相互獨(dú)立的,需要每次提取出分量之后,在其余迭代數(shù)據(jù)里將此分量剔除,循環(huán)以上操作,即可提取出原始空間中所有數(shù)據(jù)的分量,完成去噪過程。
通過利用固定算法最大化數(shù)據(jù)的非高斯度量函數(shù),并優(yōu)化數(shù)據(jù)期望值,獲取高維混合屬性數(shù)據(jù)的獨(dú)立分量,進(jìn)而實(shí)現(xiàn)對(duì)數(shù)據(jù)的去噪處理,提高了數(shù)據(jù)庫中數(shù)據(jù)的初始質(zhì)量[6],為計(jì)算數(shù)據(jù)相似度提供了便利條件。
1.2"高維混合屬性數(shù)據(jù)相似度計(jì)算
高維混合屬性數(shù)據(jù)在數(shù)據(jù)庫中的屬性通常表現(xiàn)為4種,包括方向、長(zhǎng)度、參量和標(biāo)題[7]。計(jì)算數(shù)據(jù)相似度是進(jìn)行數(shù)據(jù)挖掘的必要基礎(chǔ),因此,首先對(duì)多屬性數(shù)據(jù)的相似度進(jìn)行計(jì)算,以獲取最終挖掘結(jié)果。
為了緩解網(wǎng)絡(luò)系統(tǒng)中數(shù)據(jù)庫的內(nèi)存壓力,提升外界算法的穩(wěn)定性,基于數(shù)據(jù)去噪結(jié)果,利用空間維度變換原理,對(duì)數(shù)據(jù)進(jìn)行矩陣變換。假設(shè)Dj表示數(shù)據(jù)庫中第j列的結(jié)構(gòu)矩陣,dji(i=1,2,…,m)為其中的數(shù)據(jù)對(duì)象,表示第i列、第j行的數(shù)據(jù)。如果矩陣中每行共有m個(gè)高維混合屬性數(shù)據(jù),則Dj可表示為:
Dj=(dj1,dj2,…,.djm)"(6)
如果結(jié)構(gòu)矩陣中的數(shù)據(jù)對(duì)象數(shù)量為n,則使用矩陣的轉(zhuǎn)置變換來表示數(shù)據(jù)庫中高維混合屬性數(shù)據(jù)的總矩陣D,如下所示:
D=(D1,D2,…,Dn)T"(7)
現(xiàn)在,挖掘總矩陣D中集合X的高維混合屬性數(shù)據(jù)x,并將其單個(gè)屬性的關(guān)聯(lián)度設(shè)置為sim(X,Y)(對(duì)應(yīng)的集合由Y和X表示)。挖掘出的樣本數(shù)據(jù)表示為s,則s應(yīng)符合下列條件:
s=sim(X,Y)Freq(x,X)-Freq(y,Y)/D(8)
上式中,F(xiàn)req表示條件發(fā)生的概率。
高維混合屬性數(shù)據(jù)的尺度特征包括分類型和數(shù)值型兩種[8],假設(shè)數(shù)據(jù)集X中存在兩條相互獨(dú)立的數(shù)據(jù)Xi(xi1,xi2,…,xiq)與Xj(xj1,xj2,…,xjq),那么兩個(gè)數(shù)據(jù)間的距離由下式計(jì)算:
|Xi,Xj|=s∑qk=1(xik-xjk)2"(9)
上式中,q表示數(shù)據(jù)集X的維數(shù);s表示條件樣本數(shù)據(jù);xik、xjk分別表示Xi與Xj的第k維參考樣本。
數(shù)據(jù)Xi與簇Uj的相似度界定公式為:
|Xi,Uj|=|Xi,Xj|∑qk=1(xik-Ujk)2(10)
上式中,Uj表示數(shù)據(jù)簇的取值頻度向量;Ujk表示k維取值。數(shù)據(jù)Xi與參考樣本數(shù)據(jù)之間的距離由下式計(jì)算:
H(v)=|Xi,Uj|(rk2σ2)(11)
上式中,rk表示數(shù)據(jù)的獨(dú)立分量;σ表示候選信息目標(biāo)參數(shù)。
對(duì)于分類數(shù)據(jù)相似性的測(cè)量形式,如果兩個(gè)分類數(shù)據(jù)Xi(xi1,xi2,…,xiq)與Xj(xj1,xj2,…,xjq)能夠同時(shí)存在于一個(gè)數(shù)據(jù)矩陣中,則這兩個(gè)數(shù)據(jù)間的相似性計(jì)算公式為:
S(Xi,Xj)=∑qk=1δij(xik,xjk)H(v)(12)
上式中,δij表示高維混合屬性數(shù)據(jù)的特征、位置、方向和長(zhǎng)度屬性同時(shí)出現(xiàn)的概率,計(jì)算方法為:
δ(x1i,x2i)=0,x1i=x2i1,x1i≠x2i(13)
如果分類數(shù)據(jù)Xi和分類聚類A之間的相似度被認(rèn)為是數(shù)據(jù)和其他數(shù)據(jù)之間的平均相似度[9],則相似度的定義表達(dá)為:
M(Xi,A)=‖S(Xi,Xj)‖A×q""(14)
通過擴(kuò)展上述定義,可以獲得兩種類型數(shù)據(jù)的聚類相似性,分別設(shè)置A、B是此類型數(shù)據(jù)的簇,則相似性界限如下:
N(A,B)=‖M(Xi,A)‖A×B×q"(15)
將聚類界限作為數(shù)據(jù)相似度度量的提取標(biāo)準(zhǔn)[10],并由以下方程描述:
l(xi,Uj)=‖N(A,B)‖ln+wilc(16)
上式中,"Uj表示數(shù)據(jù)簇的取值頻度向量;wi表示第i個(gè)數(shù)據(jù)對(duì)象的離散點(diǎn)代表度;ln、lc分別表示n、c類數(shù)據(jù)屬性類型的相似度:
ln=l(xi,Uj)∑(xik-Ujk)2(17)
lc=l(xi,Uj)∑σ(xik-xjk)2"(18)
以高維混合屬性數(shù)據(jù)的屬性分類為基礎(chǔ)進(jìn)行分析與計(jì)算,得到高維混合屬性數(shù)據(jù)的數(shù)值型與分類型關(guān)聯(lián)相似度[11],便于實(shí)現(xiàn)對(duì)數(shù)據(jù)的挖掘。
1.3"利用FPgrowth算法實(shí)現(xiàn)數(shù)據(jù)關(guān)聯(lián)挖掘
FPgrowth算法是對(duì)傳統(tǒng)數(shù)據(jù)挖掘方法的一種改進(jìn)算法,其最大的特點(diǎn)是:在已知高維混合屬性數(shù)據(jù)相似度的情況下,無須再產(chǎn)生候選項(xiàng)集,而是將數(shù)據(jù)對(duì)象存儲(chǔ)于FP樹,再通過FP樹直接得到頻繁項(xiàng)集,實(shí)現(xiàn)過程中只對(duì)數(shù)據(jù)庫遍歷連詞即可,極大地縮短了挖掘時(shí)間[12]。
FPgrowth算法的實(shí)現(xiàn)過程主要分為兩個(gè)步驟,第一個(gè)步驟的目標(biāo)是構(gòu)建一棵FP樹,第二個(gè)步驟的目標(biāo)是基于FP樹,對(duì)數(shù)據(jù)對(duì)象進(jìn)行關(guān)聯(lián)規(guī)則挖掘。構(gòu)建FP樹是該算法執(zhí)行過程中的關(guān)鍵環(huán)節(jié),通過判斷FP樹除根節(jié)點(diǎn)以外的分支是否包含帶有分類屬性和數(shù)值屬性的頻繁項(xiàng)數(shù)據(jù),來構(gòu)成擴(kuò)展樹,若包含,則保留對(duì)應(yīng)的節(jié)點(diǎn);若不包含,則修剪該節(jié)點(diǎn),繼續(xù)向前擴(kuò)展[13]。當(dāng)初次遍歷完樹中的所有節(jié)點(diǎn)與分支后,檢查頻繁項(xiàng)前一節(jié)點(diǎn)和后一節(jié)點(diǎn)中是否包含規(guī)則項(xiàng),若包含,則保留該項(xiàng)集;若不包含,則生成相應(yīng)的子節(jié)點(diǎn)。根據(jù)以上優(yōu)化增長(zhǎng)過程,得到基于改進(jìn)的FP增長(zhǎng)算法的高維混合屬性數(shù)據(jù)挖掘的具體步驟如下。
(1)在增長(zhǎng)樹節(jié)點(diǎn)輸入數(shù)據(jù)樣本集,并利用下式計(jì)算最低支持度與最低置信度。
min"γ(X→Y)=lnnum(XY)num(total)"(19)
min"λ(X→Y)=lcnum(XY)num(X)(20)
其中,num(total)表示數(shù)據(jù)參考集;num(XY)表示離群參考對(duì)象;num(X)表示樣本點(diǎn)X到參考樣本的平均距離。
(2)利用參考數(shù)據(jù)集掃描輸入數(shù)據(jù),根據(jù)最低支持度公式搜索支持度大于計(jì)算結(jié)果的頻繁集,構(gòu)建FP樹和項(xiàng)目標(biāo)題,并按照數(shù)值大小進(jìn)行降序排列[14]。
(3)對(duì)第一次掃描得到的頻繁集進(jìn)行第二次掃描,并根據(jù)支持度生成相應(yīng)的數(shù)據(jù)節(jié)點(diǎn)。
根據(jù)樣本分支是否包含高維混合屬性數(shù)據(jù)的頻繁項(xiàng)來過濾樣本分支。如果是,則保留它們;否則,修剪分支,再次掃描,并重新生成項(xiàng)目標(biāo)題和FP樹。
(4)以項(xiàng)表頭最后一個(gè)頭指針為遍歷起點(diǎn),對(duì)表頭中的所有數(shù)據(jù)項(xiàng)進(jìn)行隨機(jī)遍歷,得到帶有遞歸項(xiàng)的頻繁項(xiàng)。
(5)判斷遍歷數(shù)據(jù)項(xiàng)中的數(shù)據(jù)是否為高維混合屬性數(shù)據(jù)的頻繁項(xiàng),若是,則保留該遍歷結(jié)果;若不包含,則舍棄該遍歷結(jié)果,重新進(jìn)行遍歷[15]。
(6)針對(duì)保留下來的數(shù)據(jù)頻繁項(xiàng)集,利用式(19)和式(20)計(jì)算數(shù)據(jù)的支持度與置信度,將小于最低支持度與置信度的頻繁項(xiàng)作為數(shù)據(jù)的關(guān)聯(lián)規(guī)則。
(7)關(guān)聯(lián)規(guī)則的評(píng)估被解釋為知識(shí)并被存儲(chǔ)。
以上為基于FPgrowth算法的高維混合屬性數(shù)據(jù)挖掘的全部過程,滿足最小支持和最小置信閾值的數(shù)據(jù)輸出視為有效的關(guān)聯(lián)規(guī)則。至此,完成對(duì)高維混合屬性數(shù)據(jù)的挖掘。
2"實(shí)驗(yàn)論證分析
2.1"實(shí)驗(yàn)準(zhǔn)備
對(duì)于提出的基于FPgrowth算法的高維混合屬性數(shù)據(jù)挖掘方法,結(jié)合仿真實(shí)驗(yàn)來說明算法執(zhí)行的有效性。實(shí)驗(yàn)開展環(huán)境為IOOM局域網(wǎng),采用3臺(tái)獨(dú)立計(jì)算機(jī)作為網(wǎng)絡(luò)的分布式節(jié)點(diǎn),每臺(tái)電腦都配置了CPU"P4"2.0G、硬盤3"GB以及專業(yè)操作系統(tǒng)。網(wǎng)絡(luò)主節(jié)點(diǎn)利用PC工作站替代,硬件和軟件配置與上述相同。實(shí)驗(yàn)數(shù)據(jù)來自一個(gè)大型網(wǎng)絡(luò)平臺(tái)數(shù)據(jù)庫,其中存儲(chǔ)的數(shù)據(jù)量約有36萬條,實(shí)驗(yàn)數(shù)據(jù)集構(gòu)成如表1所示。
基于以上數(shù)據(jù)集,將數(shù)據(jù)映射到高維空間的三個(gè)維度中,數(shù)據(jù)的傳輸延遲為3"s,特征采樣頻率為2.5"s,非高斯噪聲的輸出范圍為-2~5Db。根據(jù)實(shí)驗(yàn)條件,對(duì)上述數(shù)據(jù)集的統(tǒng)計(jì)特征進(jìn)行提取,得到特征量分布結(jié)果如圖1所示。
以模擬實(shí)驗(yàn)中獲得的數(shù)據(jù)統(tǒng)計(jì)特征量分布為測(cè)試對(duì)象,對(duì)數(shù)據(jù)的每個(gè)屬性進(jìn)行泛化處理,共得到3~12個(gè)屬性值,每個(gè)屬性值的最低支持度為6%,最小置信度為75%。
2.2"實(shí)驗(yàn)說明
對(duì)數(shù)據(jù)流時(shí)域波形進(jìn)行掃描,計(jì)算FP樹每個(gè)分支節(jié)點(diǎn)的支持度與置信度,并進(jìn)行降序排列,剔除小于6%支持度和75%置信度的頻繁項(xiàng),并存儲(chǔ)在頻繁項(xiàng)表中。同時(shí),舍棄頻繁項(xiàng)前一節(jié)點(diǎn)和后一節(jié)點(diǎn)的項(xiàng)集,由此生成FP樹與項(xiàng)表頭。其中,子節(jié)點(diǎn)為數(shù)據(jù)特征量的分布幅值,則構(gòu)建的FP樹如圖2所示。
創(chuàng)建FP樹根節(jié)點(diǎn),將其標(biāo)記為T,并標(biāo)記為1。對(duì)數(shù)據(jù)流中的每個(gè)會(huì)話執(zhí)行頻繁的項(xiàng)目選擇,并按項(xiàng)目標(biāo)題中的順序排序,然后將關(guān)聯(lián)規(guī)則評(píng)估轉(zhuǎn)換為知識(shí)并存儲(chǔ),便于算法執(zhí)行。
2.3"算法加速比對(duì)比實(shí)驗(yàn)分析
為分析本文算法在挖掘效率方面的性能,選取加速比這一評(píng)價(jià)指標(biāo)進(jìn)行評(píng)估。算法的加速比計(jì)算公式如下:
α=qjqt"(21)
其中,qj表示算法順序執(zhí)行的時(shí)間;qt表示當(dāng)有t個(gè)節(jié)點(diǎn)時(shí),并行算法的執(zhí)行時(shí)間。
并將文獻(xiàn)[1]提出的基于差分進(jìn)化算法的數(shù)據(jù)挖掘方法(方法1)、文獻(xiàn)[2]提出的基于物聯(lián)網(wǎng)邊緣計(jì)算的數(shù)據(jù)挖掘方法(方法2)作為對(duì)比組。在相同數(shù)據(jù)節(jié)點(diǎn)條件下,加速比越大,表明挖掘效率越高。三種算法挖掘時(shí)的加速比結(jié)果對(duì)比如圖3所示。
由圖3可知,隨著節(jié)點(diǎn)數(shù)量的增加,三種挖掘算法的加速比均呈先增加后下降的趨勢(shì)。在節(jié)點(diǎn)數(shù)目為10時(shí),本文方法的加速比達(dá)到最大值9.4,且挖掘加速比始終保持在4以上;而方法1與方法2的加速比最大值分別為5.8和7.5,本文方法與之相比,加速比分別提升了3.6和1.9。由此可見,利用本文方法對(duì)高維混合屬性數(shù)據(jù)進(jìn)行挖掘時(shí),可有效提升挖掘速度,挖掘效率較高。
2.4"數(shù)據(jù)挖掘時(shí)間對(duì)比實(shí)驗(yàn)分析
為了進(jìn)一步驗(yàn)證本文算法的挖掘效率,采用Webdocs."dat作為實(shí)驗(yàn)數(shù)據(jù),該實(shí)驗(yàn)數(shù)據(jù)的大小為1448580"KB,包括1692082條事務(wù)記錄,5267656個(gè)不同的項(xiàng)。在數(shù)據(jù)集中隨機(jī)選取總數(shù)的10%、30%、50%、80%和90%,構(gòu)建數(shù)據(jù)1、數(shù)據(jù)2、數(shù)據(jù)3、數(shù)據(jù)4和數(shù)據(jù)5。在集群結(jié)點(diǎn)固定,采取不同比例的該數(shù)據(jù)進(jìn)行實(shí)驗(yàn),在單機(jī)上運(yùn)行方法1、方法2與本文方法,記錄數(shù)據(jù)挖掘時(shí)間,對(duì)比挖掘效率。對(duì)比結(jié)果如圖4所示。
分析圖4可知,當(dāng)處理相同數(shù)量的數(shù)據(jù)時(shí),單機(jī)運(yùn)行本文方法對(duì)數(shù)據(jù)進(jìn)行挖掘,挖掘時(shí)間總是遠(yuǎn)小于其他兩種方法,主要是因?yàn)楸疚姆椒ㄔ趯?duì)數(shù)據(jù)提取關(guān)聯(lián)規(guī)則時(shí)能夠完整保留數(shù)據(jù)結(jié)構(gòu)的相似度,從而省去篩選無效規(guī)則的時(shí)間。實(shí)驗(yàn)結(jié)果表明,本文提出的數(shù)據(jù)挖掘方法的挖掘效率更高,可應(yīng)用于高維混合屬性數(shù)據(jù)的挖掘工作中。
3"結(jié)"論
利用FPgrowth算法設(shè)計(jì)了高維混合屬性數(shù)據(jù)挖掘方法。通過固定算法對(duì)數(shù)據(jù)進(jìn)行多角度去噪處理,基于FPgrowth算法,實(shí)現(xiàn)高維混合屬性數(shù)據(jù)挖掘。通過實(shí)驗(yàn)得出,利用本文數(shù)據(jù)挖掘技術(shù),能夠有效保障數(shù)據(jù)完整性,提升挖掘速度。在后續(xù)研究中,可繼續(xù)優(yōu)化所提方法,將其應(yīng)用于各個(gè)領(lǐng)域中,實(shí)現(xiàn)對(duì)多種類型數(shù)據(jù)的挖掘。
參考文獻(xiàn)
[1]"蓓蓓.基于差分進(jìn)化算法的網(wǎng)絡(luò)多屬性大數(shù)據(jù)聚類挖掘方法[J].寧夏師范學(xué)院學(xué)報(bào),2021,42(1):91-97.
[2]"鄭琳.基于物聯(lián)網(wǎng)邊緣計(jì)算的數(shù)據(jù)挖掘方法研究[J].無線互聯(lián)科技,2022,19(15):140-142.
[3]"王偉.基于機(jī)器學(xué)習(xí)的數(shù)據(jù)庫異常信息挖掘方法[J].電子技術(shù),2022,51(10):24-25.
[4]"段曉萌,王爽,趙婷,等.基于FPgrowth算法的用電異常數(shù)據(jù)挖掘方法[J].電子技術(shù)應(yīng)用,2020,46(10):47-50.
[5]"耿瑞煥.面向船舶避碰的異常軌跡點(diǎn)數(shù)據(jù)動(dòng)態(tài)挖掘方法[J].艦船科學(xué)技術(shù),2022,44(22):136-139.
[6]"李雪梅,馬文輝,張春慶,等.多屬性決策模型在網(wǎng)絡(luò)大數(shù)據(jù)挖掘中的應(yīng)用[J].中國新技術(shù)新產(chǎn)品,2022(19):55-57."
[7]"趙海燕,杜麗娟,劉琨,等.分布式光纖預(yù)警系統(tǒng)同質(zhì)序列數(shù)據(jù)異常模式挖掘方法[J].激光雜志,2022,43(9):134-138."
[8]"高天宇,王慶榮,楊磊.粗糙集屬性依賴度強(qiáng)化的應(yīng)急數(shù)據(jù)挖掘模型[J].計(jì)算機(jī)工程與應(yīng)用,2021,57(3):87-93.
[9]"曹麗娜,王霞,周瑛.基于模式匹配算法的空間屬性數(shù)據(jù)挖掘仿真[J].計(jì)算機(jī)仿真,2022,39(9):273-276.
[10]李娟.基于Hadoop云平臺(tái)的空間屬性數(shù)據(jù)挖掘技術(shù)研究[J].南京理工大學(xué)學(xué)報(bào),2022,46(4):419-426."
[11]張慶昌.基于人工智能的計(jì)算機(jī)網(wǎng)絡(luò)異常數(shù)據(jù)挖掘方法[J].信息與電腦(理論版),2022,34(16):31-33+37.
[12]宮帥,宋善坤.多維關(guān)聯(lián)規(guī)則的分布式能源系統(tǒng)數(shù)據(jù)挖掘方法研究[J].能源與環(huán)保,2022,44(10):278-283."
[13]唐建海.基于Hadoop平臺(tái)的網(wǎng)絡(luò)安全趨勢(shì)大數(shù)據(jù)挖掘算法[J].工業(yè)加熱,2022,51(7):67-70.
[14]王營,高琦,李婷玉,等.基于改進(jìn)FPgrowth算法的售后服務(wù)數(shù)據(jù)挖掘[J].現(xiàn)代制造工程,2021(6):31-37."
[15]程雅瓊.基于改進(jìn)聚類算法的網(wǎng)絡(luò)平臺(tái)異常數(shù)據(jù)挖掘方法[J].長(zhǎng)江信息通信,2022,35(4):38-40.