摘 要:隨著信息技術(shù)的日益發(fā)展,相關(guān)產(chǎn)業(yè)也得以快速推進,為社會創(chuàng)造出極大的價值。從以往簡單化的數(shù)據(jù)查詢以及統(tǒng)計技術(shù)的發(fā)展來看,單一模式的數(shù)據(jù)計算已經(jīng)不能夠滿足日趨復(fù)雜的大型數(shù)據(jù)集計算要求,急需構(gòu)建以智能化數(shù)據(jù)轉(zhuǎn)化體系為基礎(chǔ)的新型模式來實現(xiàn)更高一級的數(shù)據(jù)統(tǒng)計及信息處理目標(biāo)。本文就大型數(shù)據(jù)集數(shù)據(jù)挖掘算法及其相關(guān)內(nèi)容做以論述,并探究該方法背后的現(xiàn)實意義。
關(guān)鍵詞:大型數(shù)據(jù)集;數(shù)據(jù)挖掘算法;研究
中圖分類號:TP311.13
現(xiàn)階段,大部分人們的生活和工作環(huán)境當(dāng)中已經(jīng)離不開信息的傳輸與共享的過程,且人們獲取信息的速度以及渠道不斷的發(fā)生著變化,各種形式的數(shù)據(jù)資源被人們儲存在各類媒介之中,并得以保存下來,以備后期查閱與調(diào)用。當(dāng)數(shù)據(jù)量激增狀況出現(xiàn)時,即大型數(shù)據(jù)集涌現(xiàn),讓人們不得不探尋新的數(shù)據(jù)儲存及處理渠道,從而將信息資源更完整的保存下來。但在構(gòu)建大型數(shù)據(jù)集計算模型的過程中,往往會出現(xiàn)諸多阻礙以及技術(shù)難題,直至大型數(shù)據(jù)集數(shù)據(jù)挖掘算法這一策略的出現(xiàn),才使得有關(guān)大型數(shù)據(jù)集的研究項目更為明朗化。
1 有關(guān)大型數(shù)據(jù)集數(shù)據(jù)挖掘算法的研究內(nèi)容綜述
大型數(shù)據(jù)集這一概念的提出是基于數(shù)據(jù)結(jié)構(gòu)的變化而來的,面對日益繁雜的激增數(shù)據(jù)信息,只有采取更為先進的數(shù)據(jù)挖掘算法才能將冗長的數(shù)據(jù)信息順利的保存下來,進而為相關(guān)實踐研究領(lǐng)域及各行各業(yè)服務(wù)。從整體來看,信息數(shù)據(jù)是十分龐雜的,但如若能夠從中發(fā)現(xiàn)規(guī)律、模式以及知識內(nèi)涵,則是一件非常有意義的事情,而且,實踐證明,研究大數(shù)據(jù)能夠為現(xiàn)實社會帶來一定的經(jīng)濟實效。
1.1 淺析大型數(shù)據(jù)集的概念
在信息技術(shù)快速發(fā)展的當(dāng)今社會,在很多領(lǐng)域所構(gòu)建的數(shù)據(jù)庫的規(guī)模以及范圍都在不斷地擴容,但即便是相關(guān)技術(shù)在不斷更新當(dāng)中,卻也無法運用傳統(tǒng)技術(shù)來滿足極快速增長的數(shù)據(jù)信息量,這便是大型數(shù)據(jù)集的表象特征。在現(xiàn)代社會,國家企事業(yè)單位以及政府部門在執(zhí)行工作的過程中往往會產(chǎn)生較以往幾倍的數(shù)據(jù)信息,在這種情況下,也產(chǎn)生了更加龐大的大規(guī)模數(shù)據(jù)集,而這些數(shù)據(jù)信息若需要完整的保存下來則需要更具包容力的信息處理模式以及計算方法來做支撐。因此,有關(guān)大型數(shù)據(jù)集數(shù)據(jù)挖掘算法的相關(guān)研究項目隨之出現(xiàn)[1]。
1.2 以往針對大型數(shù)據(jù)集數(shù)據(jù)挖掘算法的研究內(nèi)容概要
針對大規(guī)模數(shù)據(jù)集,計算量太大以至于不能在可接受的時間內(nèi)獲得挖掘結(jié)果。甚至?xí)霈F(xiàn)由于大規(guī)模數(shù)據(jù)集無法整體讀入內(nèi)存或者是算法執(zhí)行過程中對內(nèi)存的占用超過系統(tǒng)可用內(nèi)存[2]。當(dāng)然,這也是探究大型數(shù)據(jù)集數(shù)據(jù)挖掘算法的必經(jīng)之路,只有發(fā)現(xiàn)問題,才能找到解決問題的有效措施。通過實踐可知,在不同信息技術(shù)支撐下的大型數(shù)據(jù)集數(shù)據(jù)挖掘算法有著不同的優(yōu)勢,且每獲得一項新的研究成果的同時,舊有的研究項目則退出歷史舞臺,這是現(xiàn)代信息技術(shù)發(fā)展進行中所難以避免的真實現(xiàn)象,我們只能以積極的心態(tài)來看待日益更新的信息技術(shù)領(lǐng)域的發(fā)展與變革。
2 在不同信息技術(shù)支撐下的大型數(shù)據(jù)集數(shù)據(jù)挖掘算法研究
在研究過程中,由于信息技術(shù)的發(fā)展極為迅速,因此,在不同技術(shù)模式支撐下的大型數(shù)據(jù)集數(shù)據(jù)挖掘算法有所不同,且每項研究領(lǐng)域中,有關(guān)信息數(shù)據(jù)計算的成果也不盡相同,但都在以往的研究項目基礎(chǔ)上有所突破。在初期,從事該領(lǐng)域研究的專家學(xué)者主要把精力放在確定性聚類的研究內(nèi)容之上,針對某個具象的數(shù)據(jù)的歸類進行探究,通常某類數(shù)據(jù)只能夠歸集到同一個類別之中。后期,人們對于大型數(shù)據(jù)集聚類的研究有所進展,往往某一個數(shù)據(jù)對象能夠以一定的概率歸集到不同的幾個類別之中。這樣一來,大型數(shù)據(jù)集在整個運算或處理的過程中,往往反映到對應(yīng)的數(shù)據(jù)集中,其表現(xiàn)為不明顯的數(shù)據(jù)集分離[3]。
2.1 經(jīng)典關(guān)聯(lián)規(guī)則挖掘算法的分析
數(shù)據(jù)挖掘之所以被不同社會環(huán)境下的人們稱為信息處理的核心技術(shù)的原因就在于,該領(lǐng)域技術(shù)以一種全新的概念改變著人們運用數(shù)據(jù)的方式,讓枯燥的數(shù)據(jù)變?yōu)橐环N有益的信息資源。從經(jīng)典關(guān)聯(lián)規(guī)則挖掘算法來看,數(shù)據(jù)倉庫的構(gòu)建是永恒不變的數(shù)據(jù)挖掘基礎(chǔ)環(huán)節(jié),隨著數(shù)據(jù)量的日益增多,則聯(lián)機分析處理模式更新了以往經(jīng)典關(guān)聯(lián)規(guī)則挖掘算法成為該領(lǐng)域研究的主要方向。
2.2 大規(guī)模數(shù)據(jù)集關(guān)聯(lián)規(guī)則挖掘算法的內(nèi)容概要
在鉆研經(jīng)典關(guān)聯(lián)規(guī)則挖掘算法的基礎(chǔ)上,且圍繞著各種關(guān)聯(lián)規(guī)則挖掘以及聚類算法的工作原理可知,針對大規(guī)模數(shù)據(jù)集關(guān)聯(lián)規(guī)則挖掘算法的研究更夠改善以往數(shù)據(jù)規(guī)模儲存不力的問題,滿足了我國相關(guān)部門對于大型數(shù)據(jù)集信息儲存的要求,同時,在處理大規(guī)模數(shù)據(jù)集時偶爾會出現(xiàn)聚類結(jié)果質(zhì)量不穩(wěn)定等問題[4]。在這種情形之下,出現(xiàn)了有關(guān)大規(guī)模數(shù)據(jù)集關(guān)聯(lián)規(guī)則挖掘算法的研究內(nèi)容,且經(jīng)實際應(yīng)用以后,可以證明基于關(guān)聯(lián)規(guī)則挖掘算法的大型數(shù)據(jù)集計算具備一定的可行性。
2.3 基于磁盤表存儲模式的大型數(shù)據(jù)集數(shù)據(jù)挖掘算法分析
通過對大規(guī)模數(shù)據(jù)集關(guān)聯(lián)規(guī)則挖掘算法相關(guān)內(nèi)容的研究與實踐,了解到該方法在運算過程中存在一定的局限性,因此,為了改善數(shù)據(jù)運算的效能,并結(jié)合大規(guī)模數(shù)據(jù)集關(guān)聯(lián)規(guī)則挖掘時內(nèi)存不力的實際狀況,研究出一種基于磁盤表存儲模式的大型數(shù)據(jù)集數(shù)據(jù)挖掘算法[5]。在傳統(tǒng)的關(guān)聯(lián)規(guī)則挖掘算法的基礎(chǔ)上,提出了利用輕量級數(shù)據(jù)庫系統(tǒng)的二維表格存儲挖掘過程中的中間數(shù)據(jù),進而有效解決了以往大量數(shù)據(jù)對內(nèi)存占用問題,在一定程度上提升了內(nèi)存空間的利用效率。
2.4 基于標(biāo)記集指導(dǎo)的大規(guī)模數(shù)據(jù)集數(shù)據(jù)挖掘算法研究
發(fā)展至此,基于標(biāo)記集指導(dǎo)的大規(guī)模數(shù)據(jù)集數(shù)據(jù)挖掘算法的研究內(nèi)容是在以往有關(guān)聚類數(shù)據(jù)以及大規(guī)模數(shù)據(jù)集關(guān)聯(lián)規(guī)則挖掘算法的基礎(chǔ)上得出的,有效提升了聚類算法的執(zhí)行效率。
總而言之,隨著有關(guān)大型數(shù)據(jù)集數(shù)據(jù)挖掘算法的革新,相關(guān)領(lǐng)域也獲得了有力的技術(shù)支撐,使得我國現(xiàn)代企業(yè)單位以及政府部門的數(shù)據(jù)儲存及分析工作變得更為順暢。大型數(shù)據(jù)集數(shù)據(jù)挖掘算法經(jīng)歷了最初的經(jīng)典關(guān)聯(lián)規(guī)則挖掘算法過度到基于磁盤表存儲模式的大型數(shù)據(jù)集數(shù)據(jù)挖掘算法的演變,令該領(lǐng)域的研究更為深入,使得后期研究思路更為明晰。總體來看,針對大型數(shù)據(jù)集數(shù)據(jù)挖掘算法的各類研究項目及經(jīng)驗的積累對于推動信息技術(shù)的發(fā)展有著極為重要的意義。
3 結(jié)束語
長期以來,國內(nèi)外相關(guān)研究領(lǐng)域?qū)τ诖笮蛿?shù)據(jù)集數(shù)據(jù)挖掘算法的研究項目眾多,且很多研究結(jié)論為實踐提供了有價值的依據(jù),推進了大型數(shù)據(jù)集及相關(guān)儲存模式的發(fā)展。從分析經(jīng)典關(guān)聯(lián)規(guī)則挖掘算法得知,在傳統(tǒng)數(shù)據(jù)計算模式下的大型數(shù)據(jù)集分析與儲存有一定的局限性,因此,需要探究新型數(shù)據(jù)挖掘算法來為其做支撐。通過進一步探究大規(guī)模數(shù)據(jù)集關(guān)聯(lián)規(guī)則挖掘算法、基于磁盤表存儲模式的大型數(shù)據(jù)集數(shù)據(jù)挖掘算法以及基于標(biāo)記集指導(dǎo)的大規(guī)模數(shù)據(jù)集數(shù)據(jù)挖掘算法,讓人們對該領(lǐng)域的認知又向前邁了一步,且實踐表明,研究大型數(shù)據(jù)集數(shù)據(jù)挖掘算法具備一定的現(xiàn)實意義,可以滿足人們實際工作中出現(xiàn)的更高級數(shù)據(jù)儲存及處理需求。
參考文獻:
[1]陳申燕,曹旻.多層關(guān)聯(lián)規(guī)則挖掘算法的研究及應(yīng)用[J].計算機工程與設(shè)計,2010(04):886-888.
[2]盛小春,薛小鋒.基于數(shù)據(jù)流的頻繁項集數(shù)據(jù)挖掘算法研究[J].江蘇技術(shù)師范學(xué)院學(xué)報,2012(04):28-29.
[3]華丹陽.應(yīng)用于大數(shù)據(jù)集的聚類新算法設(shè)計[J].阜陽師范學(xué)院學(xué)報(自然科學(xué)版),2011(01):69-71.
[4]王海濤,陳樹寧.常用數(shù)據(jù)挖掘算法研究[J].電子設(shè)計工程,2011(11):90-92.
[5]張春生,莊麗艷.基于Apriori的相容數(shù)據(jù)集間關(guān)聯(lián)規(guī)則演繹方法[J].計算機應(yīng)用,2013(10):2799-2800.
作者單位:蘇州信息職業(yè)技術(shù)學(xué)院,江蘇蘇州 215200