王鵬宇
(山西應(yīng)用科技學(xué)院 山西 太原 030000)
在網(wǎng)絡(luò)技術(shù)不斷發(fā)展下,各種新型IT設(shè)備不斷涌現(xiàn),導(dǎo)致大量數(shù)據(jù)不斷產(chǎn)生,這無疑加大了人們對海量數(shù)據(jù)的處理難度。而不確定頻繁模式挖掘算法的出現(xiàn)和應(yīng)用可以很好地解決以上問題,該算法綜合利用了極小數(shù)據(jù)結(jié)構(gòu),不僅可以提高數(shù)據(jù)處理效率和效果,還能保證挖掘精確度,完全符合不確定數(shù)據(jù)庫處理需求。因此,為了從海量數(shù)據(jù)中分析和挖掘出有用的信息,在極小數(shù)據(jù)結(jié)構(gòu)的應(yīng)用背景下,如何科學(xué)地分析和應(yīng)用不確定頻繁模式挖掘算法是相關(guān)人員必須思考和解決的問題。
頻繁模式挖掘主要是指從大量的指定數(shù)據(jù)庫中分析和挖掘有價(jià)值的信息數(shù)據(jù)。在正式進(jìn)行數(shù)據(jù)挖掘處理之前,需要設(shè)置相應(yīng)的最小支持度,用于實(shí)現(xiàn)對最小閾值的精確衡量。換而言之,一旦發(fā)現(xiàn)某一模式的支持度遠(yuǎn)遠(yuǎn)超過最小閾值,說明該模式屬于人們比較感興趣的頻繁模式。例如:在使用FPGrowth這一挖掘算法時(shí),由于該算法充分利用了樹結(jié)構(gòu)頻繁模式,不僅可以保證搜索內(nèi)容的深度和廣度,還能提高數(shù)據(jù)挖掘效率和效果,確保樹結(jié)構(gòu)存儲(chǔ)大量的有價(jià)值的壓縮數(shù)據(jù),從而極大地提高了用戶的搜索體驗(yàn)。FPGrowth這一挖掘算法流行的主要原因是該算法突破了Apriori的局限性,當(dāng)演變?yōu)镕P-Tree時(shí),可以實(shí)現(xiàn)對海量壓縮數(shù)據(jù)的安全存儲(chǔ)和管理,不僅降低了計(jì)算時(shí)間成本,還有效地節(jié)約了數(shù)據(jù)存放內(nèi)存。在這之后,出現(xiàn)了多種類型的FPGrowth變形算法。例如:通過借助附加數(shù)列,可以最大限度地提高算法處理速度,同時(shí),還能降低掃描次數(shù),降低操作復(fù)雜度。隨后,又出現(xiàn)了一種新型、先進(jìn)的LP-Growth算法,該算法所存儲(chǔ)的信息數(shù)據(jù)主要以數(shù)組元素為主,具有較高的數(shù)據(jù)挖掘效率,為保證數(shù)據(jù)挖掘結(jié)果的精確性和可靠性產(chǎn)生積極的影響。由此可見,為了進(jìn)一步提高不確定數(shù)據(jù)庫處理效果,需要確保所提出的不確定頻繁模式挖掘算法能夠快速、科學(xué)地處理不確定數(shù)據(jù),從而實(shí)現(xiàn)對多種不確定頻繁模式的挖掘和利用,為充分發(fā)揮和利用極小數(shù)據(jù)結(jié)構(gòu)的應(yīng)用優(yōu)勢,有效地滿足不確定數(shù)據(jù)庫處理需求打下堅(jiān)實(shí)的基礎(chǔ)。
當(dāng)出現(xiàn)不確定頻繁模式挖掘概念后,多種相關(guān)挖掘算法不斷涌現(xiàn)。與普通數(shù)據(jù)相比,不確定數(shù)據(jù)通常會(huì)附帶相應(yīng)的數(shù)據(jù)概率。Apriori作為首次出現(xiàn)的不確定頻繁模式挖掘算法,在具體的運(yùn)用中,主要借助了Apriori基礎(chǔ)方法,因此,其算法處理性能較低,難以遠(yuǎn)遠(yuǎn)超過Apriori算法。此外,Apriori不確定頻繁模式挖掘算法主要是在MBP算法的基礎(chǔ)上發(fā)展而來的,該算法通過綜合利用模糊統(tǒng)計(jì)技術(shù),可以極大地提高運(yùn)算效率和效果。緊接著,出現(xiàn)了一種IMBP算法,該算法主要是在MBP算法的基礎(chǔ)上進(jìn)行改進(jìn)后形成的,與MBP算法相比,其運(yùn)算效率得以顯著提升,有效地降低了內(nèi)存消耗量。但是,該算法的精度較低,尤其是在處理高密度數(shù)據(jù)庫時(shí),其算法精度越來越低,同時(shí)還表現(xiàn)出一定的不穩(wěn)定性??傊?,IMBP和MBP兩種算法盡管都能實(shí)現(xiàn)對數(shù)據(jù)庫的多次掃描,并形成相應(yīng)的候選集,但是由于這兩種算法均使用的模糊技術(shù),難以保證最終挖掘結(jié)果的精確性和全面性。
在極小數(shù)據(jù)結(jié)構(gòu)的應(yīng)用背景下,為了充分發(fā)揮和利用不確定頻繁模式的應(yīng)用優(yōu)勢,現(xiàn)提出一種新型、先進(jìn)的挖掘算法。為此,在充分介紹不確定頻繁模式問題描述相關(guān)內(nèi)容的基礎(chǔ)上,對不確定頻繁模式數(shù)據(jù)結(jié)構(gòu)進(jìn)行深入分析和研究,最后對挖掘算法進(jìn)行詳細(xì)化、全面化描述。
根據(jù)給定的D(不確定數(shù)據(jù)庫)和minSup(用戶最小支持度),對UFPs各個(gè)集合進(jìn)行挖掘處理,確保用戶從不確定數(shù)據(jù)庫中挖掘出多種算法模式[1],從而起到支持minSup的作用。
通過構(gòu)建相應(yīng)的新型數(shù)據(jù)結(jié)構(gòu),可以確保挖掘算法的有效性和針對性。此外,不確定頻繁模式挖掘算法在具體的運(yùn)用中,需要借助CUFP-Tree型結(jié)構(gòu),實(shí)現(xiàn)對多種不確定信息數(shù)據(jù)的獲取和處理[2]。在此基礎(chǔ)上,還要根據(jù)樹型序列路徑長度,對CUFP-Tree序列進(jìn)行增加處理,一旦處理操作不當(dāng),挖掘算法會(huì)在最短時(shí)間內(nèi)停止工作。由此可見,通過利用本文所提出的不確定頻繁模式挖掘算法,可以有效地避免出現(xiàn)過長序列路徑問題[3]。
在極小數(shù)據(jù)結(jié)構(gòu)的應(yīng)用背景下,為了更好地了解和把握不確定頻繁模式挖掘算法詳細(xì)內(nèi)容,現(xiàn)對算法第1次掃描流程和第2次掃描流程進(jìn)行全面介紹。第1次掃描算法流程圖見圖1,從圖1中可以看出,該算法在具體運(yùn)用中,首先要做好對指定數(shù)據(jù)庫的首次掃描工作,在此基礎(chǔ)上構(gòu)建數(shù)據(jù)結(jié)構(gòu)模型[4]。同時(shí),為了進(jìn)一步提高數(shù)據(jù)庫掃描效率和效果,還能為數(shù)據(jù)庫內(nèi)各項(xiàng)數(shù)據(jù)設(shè)置相應(yīng)的expSup,然后篩選并去除小于minSup的值。此外,還要根據(jù)其他項(xiàng)目特點(diǎn),構(gòu)建相應(yīng)的關(guān)鍵值降序序列,當(dāng)降序列長度遠(yuǎn)遠(yuǎn)超過給定值s時(shí),需要?jiǎng)h除該序列[5],并將最終處理結(jié)果存儲(chǔ)于棧底中,在此基礎(chǔ)上,為棧中其他序列進(jìn)行編號操作。
圖1 第1次掃描算法流程圖
第2次掃描算法流程圖見圖2,從圖2中可以看出,該算法在完成第1次掃描的基礎(chǔ)上,對給定數(shù)據(jù)庫進(jìn)行第2次掃描。然后,根據(jù)已構(gòu)建好的關(guān)鍵值完成對表序名的一一構(gòu)建,同時(shí),對構(gòu)建好的表序名進(jìn)行再次掃描處理[6]。另外,對多對K-list進(jìn)行編碼處理,從而形成多種算法模式。最后,通過對各種數(shù)據(jù)結(jié)構(gòu)的全面檢查,對搜索時(shí)間進(jìn)行縮短處理,只有這樣才能最大限度地提高挖掘效率和效果。
圖2 第2次掃描算法流程圖
本次實(shí)驗(yàn)中所使用的Window10操作系統(tǒng)型號為Intel(R)Core(MT)i5-5200,CPU大小為2.31 GHz,內(nèi)存達(dá)到了4.0 GB。同時(shí),通過利用基礎(chǔ)數(shù)據(jù)庫和合成數(shù)據(jù)庫,構(gòu)建相應(yīng)的多維圖譜,此外,還要借助不確定函數(shù)f(0,1),得到大量的不確定數(shù)據(jù)[7]。在此基礎(chǔ)上,從算法執(zhí)行時(shí)間、算法精度兩個(gè)方面入手,對以下8種挖掘算法進(jìn)行對比和分析,結(jié)果見表1。
表1 實(shí)驗(yàn)結(jié)果比較
從表1中的數(shù)據(jù)可以看出,通過利用IMBP挖掘算法,所消耗的時(shí)間最長,而執(zhí)行時(shí)間最短的是VBG挖掘算法。同時(shí),IMBP挖掘算法精度最高[8],而VBG挖掘算法精度次之。由此可見,根據(jù)以上實(shí)驗(yàn)對比結(jié)果,不難發(fā)現(xiàn)本文所提出的不確定頻繁模式挖掘算法具有處理時(shí)間短、算法精度高等優(yōu)點(diǎn)。
綜上所述,在極小數(shù)據(jù)結(jié)構(gòu)的應(yīng)用背景下,提出一種新型、高效的不確定頻繁模式挖掘算法,該算法通過構(gòu)建不確定數(shù)據(jù)結(jié)構(gòu)模型,可以實(shí)現(xiàn)對不確定數(shù)據(jù)的科學(xué)分析和挖掘,并挖掘出有價(jià)值的信息數(shù)據(jù),從而進(jìn)一步提高信息數(shù)據(jù)的利用率。同時(shí),通過利用該算法,還能降低算法處理時(shí)間,提高挖掘精確度,完全符合不確定數(shù)據(jù)庫處理需求。因此,本文所提出的不確定頻繁模式挖掘算法具有非常高的應(yīng)用價(jià)值和應(yīng)用前景。