摘 要:計(jì)算機(jī)的應(yīng)用,極大的提高了工作的效率,而數(shù)據(jù)挖掘在計(jì)算機(jī)的應(yīng)用中,具有非常重要的作用,本文在數(shù)據(jù)挖掘預(yù)處理技術(shù)概念和特點(diǎn)的基礎(chǔ)上,結(jié)合影響數(shù)據(jù)挖掘預(yù)處理技術(shù)應(yīng)用的因素,以及實(shí)際使用中存在的問題,從預(yù)處理技術(shù)重視程度、工作人員自身素質(zhì)、預(yù)處理的方式等方面,對(duì)數(shù)據(jù)挖掘預(yù)處理技術(shù)應(yīng)用的措施,進(jìn)行了深入的研究,希望能給實(shí)際的數(shù)據(jù)挖掘工作,提供一定的參考。
關(guān)鍵詞:數(shù)據(jù)挖掘;數(shù)據(jù)庫(kù);預(yù)處理技術(shù)
中圖分類號(hào):TP311.131
隨著計(jì)算機(jī)和互聯(lián)網(wǎng)的普及應(yīng)用,由于其能夠提高工作的效率,非常受到人們的重視,一些企業(yè)甚至在計(jì)算機(jī)應(yīng)用的基礎(chǔ)上,提出了無紙化辦公的理念,在實(shí)際應(yīng)用的過程中,計(jì)算機(jī)需要存儲(chǔ)大量的數(shù)據(jù),對(duì)于企業(yè)用戶來說,很多數(shù)據(jù)具有私密性,如果這些數(shù)據(jù)泄露出去,將會(huì)給企業(yè)的發(fā)展帶來嚴(yán)重的影響,甚至造成巨大的經(jīng)濟(jì)損失。受到特殊的歷史因素影響,我國(guó)的經(jīng)濟(jì)和科技起步較晚,與西方發(fā)達(dá)國(guó)家相比,存在較大的差距,雖然經(jīng)過了多年改革開放的發(fā)展,我國(guó)已經(jīng)成為了世界第二大經(jīng)濟(jì)體,計(jì)算機(jī)的應(yīng)用水平也有了很大的提高,但是在尖端的數(shù)據(jù)挖掘等領(lǐng)域中,研究的還比較少,而數(shù)據(jù)挖掘等技術(shù),能夠在很大程度上影響數(shù)據(jù)的利用效率,對(duì)于實(shí)際的工作來說,具有非常重要的作用。
1 數(shù)據(jù)挖掘的預(yù)處理技術(shù)簡(jiǎn)析
1.1 數(shù)據(jù)挖掘預(yù)處理技術(shù)的概念
數(shù)據(jù)挖掘技術(shù)是隨著數(shù)據(jù)庫(kù)的發(fā)展,逐漸形成的一門學(xué)科,在計(jì)算機(jī)出現(xiàn)的早期,受到其性能和體積的限制,能夠存儲(chǔ)的數(shù)據(jù)很少,不需要考慮數(shù)據(jù)的利用效率,但是隨著晶體管和集成電路的使用,計(jì)算機(jī)的性能得到了極大的提高,相應(yīng)的存儲(chǔ)設(shè)備也有了很大的進(jìn)步,計(jì)算機(jī)能夠處理的任務(wù)越來越復(fù)雜,存儲(chǔ)的數(shù)據(jù)越來越多,現(xiàn)在我國(guó)建成了多個(gè)大型數(shù)據(jù)存儲(chǔ)中心,存儲(chǔ)的數(shù)據(jù)量非常巨大。對(duì)于如此多的數(shù)據(jù),如何篩選出自己想要的,成為了很大專家和學(xué)者研究的問題,在傳統(tǒng)的數(shù)據(jù)應(yīng)用中,通常都是利用檢索技術(shù),根據(jù)輸入的關(guān)鍵詞,在數(shù)據(jù)庫(kù)中進(jìn)行逐個(gè)的匹配,如果數(shù)據(jù)庫(kù)的存儲(chǔ)量較小,檢索的效率就比較高,而對(duì)于現(xiàn)在的海量存儲(chǔ)來說,逐個(gè)匹配顯然需要很長(zhǎng)的等待時(shí)間。數(shù)據(jù)挖掘的預(yù)處理技術(shù),正是在這種背景下出現(xiàn)的,所謂預(yù)處理技術(shù),就是在數(shù)據(jù)挖掘之前,對(duì)數(shù)據(jù)進(jìn)行一定的整理,通常情況下,數(shù)據(jù)挖掘主要面對(duì)現(xiàn)有的數(shù)據(jù)庫(kù)或者互聯(lián)網(wǎng)上海量的數(shù)據(jù),如果在數(shù)據(jù)庫(kù)中進(jìn)行挖掘,那么可以對(duì)數(shù)據(jù)庫(kù)進(jìn)行一定的修改,如完善數(shù)據(jù)分類的方式等,而在互聯(lián)網(wǎng)上進(jìn)行數(shù)據(jù)挖掘,顯然就需要優(yōu)化挖掘的方式,或者縮小數(shù)據(jù)挖掘的范圍等。
1.2 數(shù)據(jù)挖掘預(yù)處理技術(shù)的特點(diǎn)
與正常的數(shù)據(jù)挖掘技術(shù)相比,如何增加相應(yīng)的預(yù)處理環(huán)節(jié),無疑可以極大的提高數(shù)據(jù)挖掘的效率,如在數(shù)據(jù)庫(kù)中進(jìn)行數(shù)據(jù)的挖掘,傳統(tǒng)的挖掘方式下,通常都是利用檢索技術(shù),輸入指定的關(guān)鍵詞后,與數(shù)據(jù)庫(kù)中的信息進(jìn)行對(duì)比,這樣逐條的進(jìn)行檢索,就可以找到自己想要的數(shù)據(jù),如果數(shù)據(jù)庫(kù)存儲(chǔ)的信息量較大,那么利用這樣的挖掘方式,顯然需要很長(zhǎng)的等待時(shí)間。如果增加相應(yīng)的預(yù)處理環(huán)節(jié),如在數(shù)據(jù)庫(kù)中添加索引,對(duì)數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行分類,那么在輸入相應(yīng)的關(guān)鍵詞后,首先與索引進(jìn)行匹配,然后在指定類別的數(shù)據(jù)中進(jìn)行對(duì)比,這樣的方式,顯然極大的提高了數(shù)據(jù)挖掘的效率,目前使用的數(shù)據(jù)庫(kù)中,大多采用了這樣的預(yù)處理技術(shù),取得了很好的應(yīng)用效果。受到特殊歷史因素的影響,我國(guó)數(shù)據(jù)庫(kù)相關(guān)技術(shù)水平較低,目前我國(guó)建設(shè)的大型數(shù)據(jù)庫(kù),都是與國(guó)外的技術(shù)公司合建的,通過實(shí)際的調(diào)查發(fā)現(xiàn),現(xiàn)在我國(guó)還無法自主生產(chǎn)外部存儲(chǔ)設(shè)備,市面上的存儲(chǔ)設(shè)備,都是從外國(guó)引進(jìn)的,但是在實(shí)際數(shù)據(jù)庫(kù)的建設(shè)中,在外國(guó)存儲(chǔ)設(shè)備的基礎(chǔ)上,我國(guó)也進(jìn)行了大量數(shù)據(jù)挖掘等技術(shù)的研究。
1.3 數(shù)據(jù)挖掘預(yù)處理技術(shù)的發(fā)展
從某種意義上來說,數(shù)據(jù)挖掘技術(shù)是隨著互聯(lián)網(wǎng)和數(shù)據(jù)庫(kù)的應(yīng)用,根據(jù)實(shí)際使用的需要,逐漸形成的一門技術(shù),在互聯(lián)網(wǎng)發(fā)展的初期,網(wǎng)絡(luò)上的資源有限,而且受到計(jì)算機(jī)性能的限制,沒有太多的娛樂項(xiàng)目,只能瀏覽一些商業(yè)網(wǎng)站等,隨著計(jì)算機(jī)的普及應(yīng)用,互聯(lián)網(wǎng)有了很大的發(fā)展,現(xiàn)在已經(jīng)建成了覆蓋世界范圍的因特網(wǎng)。據(jù)最新的統(tǒng)計(jì)調(diào)查表明,我國(guó)的網(wǎng)民數(shù)量已經(jīng)超過了6億,如果龐大的用戶群體,為我國(guó)互聯(lián)網(wǎng)的發(fā)展,提供了堅(jiān)實(shí)的基礎(chǔ),但是通過實(shí)際的調(diào)查發(fā)現(xiàn),我國(guó)的實(shí)際網(wǎng)絡(luò)帶寬,還沒有達(dá)到世界平均水平,即使實(shí)際使用的網(wǎng)絡(luò)帶寬較低,我國(guó)互聯(lián)網(wǎng)內(nèi)容的發(fā)展速度依然很快,現(xiàn)在網(wǎng)絡(luò)上出現(xiàn)了各種各樣的網(wǎng)站,極大的提高了網(wǎng)絡(luò)建設(shè)水平。在實(shí)際的網(wǎng)絡(luò)瀏覽中,面對(duì)如此大的信息量,如何找到自己想要的信息,成為了一個(gè)實(shí)際問題,為了解決這個(gè)問題,出現(xiàn)了搜索引擎,只要輸入相應(yīng)的關(guān)鍵詞,搜索引擎就可以很快的找到大量相關(guān)內(nèi)容,然后進(jìn)行必要的篩選,就能夠得到相應(yīng)的數(shù)據(jù),但是隨著互聯(lián)網(wǎng)內(nèi)容的豐富,除了傳統(tǒng)的文字信息外,還有視頻和音頻等數(shù)據(jù),如何在這些數(shù)據(jù)中,進(jìn)行相應(yīng)的挖掘工作,具有較大的難度。
2 影響數(shù)據(jù)挖掘預(yù)處理技術(shù)的因素
2.1 預(yù)處理的方式
在實(shí)際的數(shù)據(jù)挖掘過程中,能夠影響挖掘效果的因素有很多,如數(shù)據(jù)量的大小、挖掘方式等,從某種意義上來說,數(shù)據(jù)挖掘就是數(shù)據(jù)的查找,從指定范圍或者未知范圍內(nèi),找到指定的數(shù)據(jù),通常情況下,數(shù)據(jù)挖掘都具有很強(qiáng)的目的性,但是對(duì)于找到數(shù)據(jù)的量,并沒有明確的要求,尤其是隨著互聯(lián)網(wǎng)內(nèi)容的增加,現(xiàn)在的數(shù)據(jù)挖掘中,都會(huì)附帶大量的相關(guān)信息。對(duì)于數(shù)據(jù)挖掘的預(yù)處理技術(shù)來說,預(yù)處理的方式,能夠在很大程度上影響挖掘的效率,例如在一個(gè)一百條數(shù)據(jù)庫(kù)中進(jìn)行挖掘,為了提高實(shí)際的效率,通常情況下會(huì)采用檢索的方式,根據(jù)輸入的關(guān)鍵詞,逐條的與數(shù)據(jù)庫(kù)的信息進(jìn)行比對(duì),這樣挖掘的效率具有很大的不確定性,如果要查找的數(shù)據(jù)排列比較考前,那么就需要很短的檢索時(shí)間,如果要查找的數(shù)據(jù)剛好在第一百條的位置,顯然就需要進(jìn)行一百次匹配。如果采用索引的方式進(jìn)行預(yù)處理,將這一百條數(shù)據(jù)根據(jù)自身的特點(diǎn),分成十個(gè)類別,每個(gè)類別建立一個(gè)索引,那么在實(shí)際的匹配中,無論要查找的數(shù)據(jù)處于哪個(gè)位置,最多只需要十次匹配,就可以找到相應(yīng)的數(shù)據(jù),由此可以看出,預(yù)處理方式對(duì)于數(shù)據(jù)挖掘效率具有非常重要的影響。
2.2 數(shù)據(jù)量的大小
計(jì)算機(jī)經(jīng)過了多年的發(fā)展,其自身的性能有了很大的提高,在實(shí)際的數(shù)據(jù)挖掘中,如果檢索的數(shù)據(jù)較少,即使不經(jīng)過任何的預(yù)處理,仍然可以具有很高的挖掘效率,但是隨著數(shù)據(jù)庫(kù)自身的發(fā)展,企業(yè)用戶的數(shù)據(jù)庫(kù)容量越來越大,在數(shù)據(jù)庫(kù)中查找指定的數(shù)據(jù),需要較長(zhǎng)的時(shí)間,要想很好的解決這個(gè)問題,必須對(duì)數(shù)據(jù)挖掘的方式等,進(jìn)行相應(yīng)的優(yōu)化。通過實(shí)際的調(diào)查發(fā)現(xiàn),目前我國(guó)使用的數(shù)據(jù)庫(kù),大多都是國(guó)外的技術(shù)公司設(shè)計(jì)的,為了方便數(shù)據(jù)庫(kù)的使用,大多采用了整體的外包,即軟件和硬件都是由同一家公司提供,采用這樣的方式,不但能夠很好的解決軟件和硬件之間不兼容的問題,同時(shí)可以提供優(yōu)質(zhì)的軟件服務(wù)。目前市面上的數(shù)據(jù)庫(kù),大多對(duì)數(shù)據(jù)挖掘技術(shù)進(jìn)行一定的優(yōu)化,如增加索引環(huán)節(jié)等,通過這些技術(shù)的使用,很好的提高了實(shí)際的挖掘效率,但是這些預(yù)處理技術(shù),并沒有考慮到數(shù)據(jù)量的大小,如一些大型的數(shù)據(jù)庫(kù)中,要想建立索引機(jī)制,本身就需要很長(zhǎng)的時(shí)間,雖然在建立索引后,就可以直接的使用,即使數(shù)據(jù)庫(kù)中發(fā)生變化,也不需要重新建立,只要根據(jù)數(shù)據(jù)的情況,將其存儲(chǔ)到指定的分類中即可。
2.3 操作人員自身的素質(zhì)
對(duì)于實(shí)際的數(shù)據(jù)挖掘工作來說,操作人員自身的素質(zhì),也可以在很大程度上影響挖掘的效率,經(jīng)過了多年的完善,數(shù)據(jù)挖掘技術(shù)已經(jīng)成為了一門單獨(dú)的學(xué)科,計(jì)算機(jī)專業(yè)的學(xué)生,要進(jìn)行相應(yīng)知識(shí)的學(xué)習(xí),但是通過實(shí)際的調(diào)查發(fā)現(xiàn),現(xiàn)在的數(shù)據(jù)挖掘主要針對(duì)互聯(lián)網(wǎng)上的內(nèi)容,而互聯(lián)網(wǎng)日新月異的發(fā)展,給數(shù)據(jù)挖掘帶來了很大的難度。在這種背景下,如果沒有足夠的工作經(jīng)驗(yàn),顯然很難完成相應(yīng)的數(shù)據(jù)挖掘工作,因此剛畢業(yè)的大學(xué)生,數(shù)據(jù)挖掘的效果較差,即使能夠完成相應(yīng)的工作,也需要較長(zhǎng)的時(shí)間,雖然這些學(xué)生在學(xué)校中,能夠?qū)W習(xí)到大量的數(shù)據(jù)挖掘知識(shí),為了提高教學(xué)的效果,老師還會(huì)講解一些數(shù)據(jù)挖掘的實(shí)例,但是實(shí)際挖掘中,具有很多的不可控因素。如果操作人員具有豐富的數(shù)據(jù)挖掘經(jīng)驗(yàn),在實(shí)際的工作中,必然會(huì)總結(jié)一些相應(yīng)的技巧,這些技巧的使用,可以在一定程度上縮短挖掘的時(shí)間,提高數(shù)據(jù)挖掘的準(zhǔn)確性,對(duì)于數(shù)據(jù)挖掘工作來說,具有非常重要的作用,從某種意義上來說,數(shù)據(jù)挖掘的預(yù)處理技術(shù),指的就是這些從實(shí)踐中總結(jié)出來的技巧,然后進(jìn)行科學(xué)、系統(tǒng)的分析,應(yīng)用到實(shí)際的挖掘中。
3 我國(guó)數(shù)據(jù)挖掘預(yù)處理技術(shù)應(yīng)用中存在的問題
3.1 沒有意識(shí)到預(yù)處理技術(shù)的重要性
在傳統(tǒng)的數(shù)據(jù)挖掘中,由于數(shù)據(jù)庫(kù)自身的容量較少,采用檢索的方式,就可以輕松的找到想要的數(shù)據(jù),因此不需要預(yù)處理技術(shù),隨著數(shù)據(jù)庫(kù)自身的發(fā)展,計(jì)算機(jī)的性能也有了很大的提高,在很長(zhǎng)一段時(shí)間內(nèi),硬件的發(fā)展速度都要領(lǐng)先于軟件,因此數(shù)據(jù)檢索具有很高的效率,近些年互聯(lián)網(wǎng)的普及應(yīng)用,在很大程度上改變了這種現(xiàn)象,尤其是云計(jì)算等理念的出現(xiàn)。在互聯(lián)網(wǎng)海量數(shù)據(jù)中進(jìn)行挖掘,依靠單獨(dú)的計(jì)算機(jī),很難具有較高的效率,在這種背景下,如何優(yōu)化數(shù)據(jù)挖掘技術(shù),成為了很多專家和學(xué)者研究的問題,預(yù)處理技術(shù)就是根據(jù)實(shí)際工作的需要出現(xiàn)的,受到特殊的歷史因素影響,在數(shù)據(jù)庫(kù)的建設(shè)等方面,我國(guó)要落后西方國(guó)家很多,雖然近年來我國(guó)投入了大量的人力和物力,研究數(shù)據(jù)挖掘等技術(shù),但是并沒有取得明顯的效果。正是受到自身技術(shù)水平的限制,使得我國(guó)數(shù)據(jù)建設(shè)中,對(duì)數(shù)據(jù)挖掘的預(yù)處理技術(shù),沒有足夠的重視,導(dǎo)致很大數(shù)據(jù)庫(kù)中,還采用傳統(tǒng)的檢索等方式,沒有任何的預(yù)處理技術(shù),在很大程度上影響了數(shù)據(jù)挖掘的效率,雖然一些數(shù)據(jù)庫(kù)中集成了相應(yīng)的功能,但是通過實(shí)際的調(diào)查發(fā)現(xiàn),在實(shí)際使用的過程中,并沒有啟用相應(yīng)的功能。
3.2 沒有針對(duì)性的預(yù)處理方式
由于現(xiàn)在的數(shù)據(jù)挖掘,主要針對(duì)互聯(lián)網(wǎng)上海量的數(shù)據(jù),而互聯(lián)網(wǎng)上的數(shù)據(jù)非常復(fù)雜,尤其是近些年網(wǎng)絡(luò)的發(fā)展,出現(xiàn)了文本、視頻、音頻等各種各樣的信息,在這些信息中進(jìn)行數(shù)據(jù)的挖掘,顯然具有較大的難度,而且互聯(lián)網(wǎng)的數(shù)據(jù)量較大,即使借助相應(yīng)的搜索引擎,依然需要很長(zhǎng)的挖掘時(shí)間,對(duì)于現(xiàn)在使用的一些數(shù)據(jù)挖掘預(yù)處理技術(shù),只有在一些特定的情況下,才能夠發(fā)揮出一定的作用。數(shù)據(jù)挖掘預(yù)處理技術(shù)出現(xiàn)的時(shí)間較短,目前還沒有形成統(tǒng)一的認(rèn)識(shí),不同學(xué)者根據(jù)實(shí)際工作的需要,提出了不同的預(yù)處理方式,通過實(shí)際的調(diào)查發(fā)現(xiàn),這些預(yù)處理方式的應(yīng)用,都具有一定的局限性,在特定的數(shù)據(jù)挖掘中,可以明顯的提高挖掘的效率,但是對(duì)于其他數(shù)據(jù)的挖掘,就無法起到相應(yīng)的作用。受到我國(guó)數(shù)據(jù)挖掘技術(shù)水平的限制,并沒有意識(shí)到這點(diǎn),在實(shí)際數(shù)據(jù)挖掘的工作中,通常都是隨意的采用預(yù)處理方式,這樣顯然無法最大成都上提高數(shù)據(jù)挖掘的效率,有時(shí)候反而會(huì)降低工作的效率,目前西方發(fā)達(dá)國(guó)家的數(shù)據(jù)挖掘預(yù)處理中,都會(huì)根據(jù)每次工作的實(shí)際情況,針對(duì)性的設(shè)計(jì)一個(gè)預(yù)處理的方式。
4 數(shù)據(jù)挖掘的預(yù)處理技術(shù)應(yīng)用措施
4.1 重視數(shù)據(jù)挖掘的預(yù)處理技術(shù)
考慮到我國(guó)的數(shù)據(jù)庫(kù)建設(shè)中,很多都沒有采用相應(yīng)的預(yù)處理技術(shù),在很大程度上影響了數(shù)據(jù)挖掘的效率,要想很好的解決這個(gè)問題,必須對(duì)預(yù)處理技術(shù)給予足夠的重視,在數(shù)據(jù)庫(kù)的設(shè)計(jì)時(shí),就對(duì)預(yù)處理的方式等進(jìn)行考慮,如果是購(gòu)買的數(shù)據(jù)庫(kù)服務(wù),那么就要根據(jù)自身的實(shí)際情況,對(duì)預(yù)處理技術(shù)提供一定的要求,這樣可以極大的提高挖掘的效率。通過實(shí)際的調(diào)查發(fā)現(xiàn),西方國(guó)家的預(yù)處理技術(shù)水平之所以比較高,主要就是由于其重視,在實(shí)際的挖掘工作中,對(duì)于能夠提高工作效率的所有細(xì)節(jié)進(jìn)行完善,并總結(jié)相關(guān)的經(jīng)驗(yàn),方便下次的使用,正是這種供求雙方的重視,使得西方發(fā)達(dá)國(guó)家的預(yù)處理技術(shù)快速的發(fā)展。我國(guó)要想提高自身的數(shù)據(jù)挖掘預(yù)處理技術(shù),必須根據(jù)自身的實(shí)際情況,借鑒外國(guó)一些先進(jìn)的經(jīng)驗(yàn),最大程度上完善預(yù)處理技術(shù),要想達(dá)到這個(gè)目的,首先應(yīng)該提高對(duì)預(yù)處理技術(shù)的重視程度,無論是實(shí)際的操作人員,還是管理人員和開發(fā)人員,都應(yīng)該重視預(yù)處理技術(shù)的應(yīng)用,然后從自身的工作角度出發(fā),對(duì)其進(jìn)行一定的完善。
4.2 提高工作人員自身的素質(zhì)
數(shù)據(jù)挖掘預(yù)處理技術(shù)的應(yīng)用,需要實(shí)際的操作人員,而不同工作人員,由于自身經(jīng)驗(yàn)等不同,工作的效率會(huì)有一定的差距,如剛畢業(yè)的大學(xué)生,即使在學(xué)校中的成績(jī)較好,掌握了足夠的預(yù)處理知識(shí),還是無法很好的完成相應(yīng)的工作,尤其是近些年信息技術(shù)的發(fā)展,互聯(lián)網(wǎng)上海量數(shù)據(jù)的挖掘,具有很大的難度。而且不同數(shù)據(jù)的挖掘,預(yù)處理方式等也應(yīng)該具有一定的差異,通過實(shí)際的調(diào)查發(fā)現(xiàn),目前我國(guó)的數(shù)據(jù)挖掘工作人員自身的素質(zhì)普遍較低,無法根據(jù)實(shí)際的工作情況,針對(duì)性的選擇一種預(yù)處理方式,在很大程度上影響了挖掘的效率,要想很好的解決這個(gè)問題,必須提高工作人員自身的素質(zhì),在實(shí)際的招聘過程中,盡量聘請(qǐng)一些具有豐富經(jīng)驗(yàn)的人員。對(duì)于現(xiàn)有的工作人員,可以通過定期培訓(xùn)等方式,讓其了解到最新的數(shù)據(jù)挖掘理念,以及預(yù)處理技術(shù)的重要性等,如果條件允許,還可以與一些先進(jìn)的企業(yè)進(jìn)行交流,學(xué)習(xí)先進(jìn)的預(yù)處理技術(shù),這樣在提高預(yù)處理技術(shù)水平的同時(shí),還可以對(duì)數(shù)據(jù)庫(kù)的其他的技術(shù),進(jìn)行一定的優(yōu)化。
4.3 采用針對(duì)性的預(yù)處理方式
經(jīng)過了多年的發(fā)展和完善,數(shù)據(jù)挖掘的預(yù)處理技術(shù)已經(jīng)非常普遍,目前的很大數(shù)據(jù)庫(kù)建設(shè)中,都會(huì)采用預(yù)處理技術(shù),甚至在日常的數(shù)據(jù)搜索中,也開始使用預(yù)處理技術(shù),但是通過實(shí)際的調(diào)查發(fā)現(xiàn),根據(jù)實(shí)際需要數(shù)據(jù)的不同,數(shù)據(jù)挖掘的環(huán)境、方式等會(huì)具有較大的差異,而這些條件的變化,必然需要不同的預(yù)處理方式。而目前我國(guó)的數(shù)據(jù)挖掘中,顯然還沒有意識(shí)到這點(diǎn),為了提高實(shí)際的工作效率,雖然會(huì)采用一定的預(yù)處理方式,但是預(yù)處理的方式,并不會(huì)根據(jù)數(shù)據(jù)挖掘的不同,進(jìn)行針對(duì)性的變化,沒有真正的達(dá)到預(yù)處理的目的,在一些特殊的數(shù)據(jù)挖掘中,由于預(yù)處理方式的不當(dāng),甚至?xí)档凸ぷ鞯男?。由此可以看出,在?shí)際的數(shù)據(jù)挖掘中,預(yù)處理方式的重要性,要想最大程度上提高工作的效率,必須采用針對(duì)性的預(yù)處理方式,對(duì)目前已有的預(yù)處理方式進(jìn)行總結(jié)、分類,根據(jù)需要數(shù)據(jù)的情況,針對(duì)性的選擇,如果人員的自身素質(zhì)較高,還可以設(shè)計(jì)一個(gè)新的預(yù)處理方式,以此來最大程度上提高數(shù)據(jù)挖掘的效率。
5 結(jié)束語
通過全文的分析可以知道,隨著近些年計(jì)算機(jī)和互聯(lián)網(wǎng)的普及應(yīng)用,數(shù)據(jù)的挖掘、存儲(chǔ)、調(diào)用等技術(shù)越來越重要,受到特殊的歷史因素影響,我國(guó)科技起步較晚,與西方發(fā)達(dá)國(guó)家相比,在數(shù)據(jù)挖掘等領(lǐng)域中,具有明顯的差異,雖然經(jīng)過了多年改革開放的發(fā)展,這種差距在逐漸的減小,但是很難在短時(shí)間內(nèi)趕上發(fā)達(dá)國(guó)家的技術(shù)水平,在這種背景下,要想快速的提高我國(guó)數(shù)據(jù)挖掘預(yù)處理技術(shù),必須結(jié)合我國(guó)數(shù)據(jù)挖掘的實(shí)際情況,借鑒西方國(guó)家先進(jìn)的經(jīng)驗(yàn),完善目前的預(yù)處理技術(shù)。
參考文獻(xiàn):
[1]鄭繼剛,謝芳.多媒體圖像挖掘的關(guān)聯(lián)規(guī)則挖掘[J].紅河學(xué)院學(xué)報(bào),2009(05):44-47.
[2]謝邦昌,李揚(yáng).數(shù)據(jù)挖掘與商業(yè)智能的現(xiàn)況及未來發(fā)展[J].統(tǒng)計(jì)與信息論壇,2008(05):94-96.
[3]林建勤.數(shù)據(jù)挖掘主要問題的對(duì)策研究[J].貴陽學(xué)院學(xué)報(bào)(自然科學(xué)版),2007(02):1-4.
[4]陳娜.數(shù)據(jù)挖掘技術(shù)的研究現(xiàn)狀及發(fā)展方向[J].電腦與信息技術(shù),2006(01):46-49.
[5]李菁菁,邵培基,黃亦瀟.數(shù)據(jù)挖掘在中國(guó)的現(xiàn)狀和發(fā)展研究[J].管理工程學(xué)報(bào),2004(03):10-15.
[6]鄭斌祥,杜秀華,席裕庚.一種時(shí)序數(shù)據(jù)的離群數(shù)據(jù)挖掘新算法[J].控制與決策,2002(03):324-327.
[7]臧洌.人工神經(jīng)網(wǎng)絡(luò)在混沌觀測(cè)時(shí)序數(shù)據(jù)處理中的應(yīng)用[J].數(shù)據(jù)采集與處理,2001(04):486-489.
作者簡(jiǎn)介:程知(1976.06-),女,湖南長(zhǎng)沙人,碩士,講師,研究方向:數(shù)據(jù)挖掘、計(jì)算機(jī)教學(xué)、教學(xué)管理。
作者單位:湖南大眾傳媒職業(yè)技術(shù)學(xué)院,長(zhǎng)沙 410100