王翠紅
摘 要:隨著信息時代的發(fā)展變化,龐大的數(shù)據(jù)規(guī)模對于當(dāng)前數(shù)據(jù)挖掘算法處理的要求也越來越高。數(shù)據(jù)挖掘技術(shù)指的是從大量不完全的、模糊的以及隨機的數(shù)據(jù)中提取出具有潛在價值的信息的過程,其中的知識通常所指的有意義的規(guī)律。數(shù)據(jù)挖掘技術(shù)是隨著數(shù)據(jù)庫技術(shù)發(fā)展必然的產(chǎn)物,它能夠?qū)崿F(xiàn)據(jù)庫信息管理系統(tǒng)智能化,還能夠改善系統(tǒng)的實用性與有效性,為決策提供科學(xué)有效的依據(jù)。但是由于數(shù)據(jù)庫規(guī)模仍在不斷擴大,個人電腦硬件配置也受到很大的限制,數(shù)據(jù)挖掘算法的效率面臨著較大的挑戰(zhàn)。在這樣的情況下,具有提高計算機效率的抽樣技術(shù)被廣泛應(yīng)用。由于抽樣技術(shù)需要計算科學(xué)、數(shù)據(jù)庫與統(tǒng)計學(xué)相關(guān)學(xué)科的支持,所以在數(shù)據(jù)挖掘中應(yīng)用抽樣技術(shù)還有待進一步完善。本文首先論述數(shù)據(jù)挖掘及抽樣技術(shù)的概念,分析在數(shù)據(jù)挖掘中應(yīng)用抽樣技術(shù)的重要性,最后結(jié)合相關(guān)實例探討具體應(yīng)用方式。
關(guān)鍵詞:數(shù)據(jù)挖掘;抽樣技術(shù);統(tǒng)計學(xué);數(shù)據(jù)庫
計算機技術(shù)的高速發(fā)展使計算機的存儲能力和處理能力得到很大的提高,不同類型的數(shù)據(jù)庫應(yīng)用也越來越廣泛。由于計算機技術(shù)和信息技術(shù)的不斷融合,全球快速進入信息化時代,產(chǎn)生興趣的渠道越來越多、信息量越來越大、信息更新的頻率也逐漸加快。面對如此龐大的信息量,人們獲取有價值的信息變得較為困難,數(shù)據(jù)庫應(yīng)用而生,數(shù)據(jù)庫知識發(fā)現(xiàn)(KDD)技術(shù)就是為了滿足這樣的需求發(fā)展而來。隨后數(shù)據(jù)挖掘作為一門新興的學(xué)科在企業(yè)決策、商業(yè)發(fā)展的沃土中快速成長起來。就當(dāng)前的研究重點來看,人們普遍重視數(shù)據(jù)挖掘過程中使用的模型和算法,對于抽樣技術(shù)卻沒有給予應(yīng)有的關(guān)注。部分學(xué)者甚至認(rèn)為抽樣技術(shù)的應(yīng)用會導(dǎo)致信息丟失,且有其他技術(shù)能夠作為替代。盡管抽樣技術(shù)在數(shù)據(jù)挖掘過程中起到的并非決定性作用,但是其優(yōu)勢對于數(shù)據(jù)挖掘的收益也不能忽視。
1.數(shù)據(jù)挖掘及抽樣技術(shù)概述
1.1數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)挖掘指的是從存放在信息庫的海量數(shù)據(jù)中挖掘出有價值信息的過程,該技術(shù)從興起而來一直都是研究的熱門,到今天已經(jīng)有大量的實現(xiàn)算法支持。數(shù)據(jù)挖掘技術(shù)主要面對的對象是結(jié)構(gòu)化數(shù)據(jù)為主的數(shù)據(jù)倉庫,隨著網(wǎng)絡(luò)技術(shù)和數(shù)據(jù)庫技術(shù)的發(fā)展,類型復(fù)雜的數(shù)據(jù)不斷涌現(xiàn),其中隱藏著具有較高價值的知識與信息,復(fù)雜數(shù)據(jù)的挖掘主要包括對多媒體數(shù)據(jù)的挖掘、空間數(shù)據(jù)的挖掘、文本數(shù)據(jù)挖掘、流數(shù)據(jù)挖掘、Web數(shù)據(jù)挖掘。數(shù)據(jù)挖掘技術(shù)不但可以查詢以往數(shù)據(jù),還能夠?qū)?shù)據(jù)發(fā)展未來的趨勢進行預(yù)測,探索以往數(shù)據(jù)挖掘終未發(fā)現(xiàn)的模式,為人們的決策提供很好的支持。被挖掘出來的信息主要用于信息管理、決策、查詢處理、過程控制等應(yīng)用。
1.2抽樣技術(shù)
抽樣技術(shù)是選擇數(shù)據(jù)對象子集進行分析的方法之一,在統(tǒng)計學(xué)中通常用于數(shù)據(jù)的事先調(diào)查和最終分析。抽樣調(diào)查是一種非全面性調(diào)查,從全部調(diào)查對象中抽取出部分樣本進行調(diào)查,并根據(jù)結(jié)果對總體進行推斷,其目的在于獲得能夠反映總體特性的信息,是統(tǒng)計學(xué)中非常重要的方法。
數(shù)據(jù)挖掘過程中,抽樣技術(shù)同樣具有較大的應(yīng)用,但是與統(tǒng)計學(xué)中的應(yīng)用動機與作用有較大區(qū)別。在數(shù)據(jù)挖掘中,抽樣技術(shù)能夠?qū)φw特征進行推斷,處理全部數(shù)據(jù)需要耗費太高的時間和費用,而應(yīng)用抽樣技術(shù)能夠壓縮數(shù)據(jù)量,很大的減少計算開銷,并產(chǎn)生與總體挖掘效果相近的結(jié)果。抽樣技術(shù)能夠貫穿于數(shù)據(jù)挖掘的全過程,在數(shù)據(jù)準(zhǔn)備階段、算法實現(xiàn)階段、效果評價階段都能夠看到抽樣技術(shù)的身影。抽樣技術(shù)的應(yīng)用不但可以提高數(shù)據(jù)挖掘效率,同時還能保證結(jié)果準(zhǔn)確性、給出具體的誤差范圍,從而獲得良好的成效。
2.抽樣技術(shù)在數(shù)據(jù)挖掘中的重要性
2.1提高數(shù)據(jù)挖掘的速度和效率
數(shù)據(jù)挖掘技術(shù)好壞的重要評價因素就是速度與效率,主要取決于系統(tǒng)軟硬件的配置、應(yīng)用的工具算法、數(shù)據(jù)的選擇方式以及數(shù)據(jù)集的特點。就調(diào)查而結(jié)果來說,當(dāng)前已經(jīng)存在的數(shù)據(jù)挖掘軟硬件系統(tǒng)進方案中,能夠不使用統(tǒng)計抽樣方法節(jié)約成本與時間的方式是不存在的。通過應(yīng)用抽樣技術(shù)能夠確保大部分信息不發(fā)生丟失,與此同時提高計算速度、降低成本。數(shù)據(jù)挖掘工作人員將主要精力放在模型的建立和選擇上,而不是浪費大把的時間等待系統(tǒng)運算。
2.2輔助特殊性問題的分析
特殊問題的性質(zhì)與特點同樣會影響數(shù)據(jù)處理,在某些商業(yè)問題中會涉及到破壞性試驗,傳統(tǒng)處理方法難以勝任。而選擇抽樣技術(shù),抽取其中一小部分產(chǎn)品進行破壞性實驗?zāi)軌蛲扑愠稣w結(jié)果,確保實驗的經(jīng)濟和有效。
2.3滿足數(shù)據(jù)處理的需要
某些數(shù)據(jù)在收集過程中,可能受到數(shù)據(jù)庫中過期的、無效的、錯誤的以及缺省的信息干擾,造成結(jié)果不準(zhǔn)確。因此在進行數(shù)據(jù)挖掘之前應(yīng)當(dāng)對這一部分資料信息進行刪除或修正,這一步驟也就是數(shù)據(jù)挖掘的數(shù)據(jù)清理。但是對所有元數(shù)據(jù)進行清理同樣需要耗費大量的時間和精力,在某些情況下,數(shù)據(jù)挖掘在已經(jīng)進行預(yù)處理過的數(shù)據(jù)倉庫中開展,但是在實際解決問題過程中,仍然需要根據(jù)問題進一步對數(shù)據(jù)信息進行調(diào)整,此時應(yīng)用抽樣技術(shù)顯得非常必要。
3.抽樣技術(shù)在數(shù)據(jù)挖掘中的具體應(yīng)用
3.1關(guān)聯(lián)規(guī)則中應(yīng)用
在關(guān)聯(lián)規(guī)則領(lǐng)域應(yīng)用抽樣技術(shù)首先由Toivonen提出來,該算法的基本原理是得到一個隨機樣本之后在這個樣本基礎(chǔ)上發(fā)現(xiàn)關(guān)聯(lián)規(guī)則,將得到的關(guān)聯(lián)規(guī)則作為整體數(shù)據(jù)規(guī)則,然后通過數(shù)據(jù)集中剩余的數(shù)據(jù)對規(guī)則進行驗證。通常情況下,該算法通過掃描整個數(shù)據(jù)集能夠發(fā)現(xiàn)所有的關(guān)聯(lián)規(guī)則。
確定某一個事物的集合T,關(guān)聯(lián)規(guī)則發(fā)現(xiàn)是指找到集合中支持度大于等于最小支持度、同時置信度大于等于最小置信度的全部規(guī)則。最原始的尋找關(guān)聯(lián)規(guī)則算法是將全部規(guī)則的支持度與置信度計算出來,然后選擇滿足支持度閾值與置信度閾值的規(guī)則,由于該方法計算量大、但結(jié)果大多數(shù)無用。為了提高效率,通常情況下會對規(guī)則進行修剪,這也就是當(dāng)前多數(shù)關(guān)聯(lián)規(guī)則使用的Apriori算法。FAST算法也屬于關(guān)聯(lián)規(guī)則算法,其方法為:首先通過抽樣生成樣本,然后通過數(shù)據(jù)樣本快速對數(shù)據(jù)集中每一個項目的支持度進行估算;隨后得到數(shù)據(jù)項的支持度,對初始樣本中的離群數(shù)據(jù)進行調(diào)整,或者是選取更加具有代表性的數(shù)據(jù)形成最終的樣板,這個最終樣本能夠很好地反映出數(shù)據(jù)集合的特性,并實現(xiàn)關(guān)聯(lián)規(guī)則的發(fā)現(xiàn)。本文通過UCI機器學(xué)習(xí)褲中的部分?jǐn)?shù)據(jù)作為實驗數(shù)據(jù),驗證關(guān)聯(lián)規(guī)則的有效性。該數(shù)據(jù)集中一共有448條記錄,包含17中不同的屬性,每天記錄都表示不同的人對于16個不同問題的回答。也就是前16個屬性對應(yīng)問題、最后1個屬性是人的身份(民主黨派或者是共和黨派),數(shù)據(jù)挖掘的目的在于找出問題屬性與人的身份之間的關(guān)聯(lián)性,最終得到的部分運算結(jié)果可見下表。
3.2分類中應(yīng)用
常見的分類法主要包含決策樹、統(tǒng)計學(xué)方法和神經(jīng)網(wǎng)絡(luò)法等,這些方法無疑都借助抽樣思想,因此可知分類和抽樣之間的密切聯(lián)系。例如判定樹歸納算法中使用的窗口就是一種典型的抽樣策略,其步驟為:在全部訓(xùn)練數(shù)據(jù)中隨機抽樣得到初始窗口;然后在窗口上生成決策樹,通過剩余的訓(xùn)練數(shù)據(jù)對決策樹進行驗證,直到滿意。例如在數(shù)據(jù)庫中進行人口調(diào)查,通過基礎(chǔ)數(shù)據(jù)進行修改得到數(shù)據(jù)集,應(yīng)用抽樣技術(shù)能夠很大程度上縮短分類時間,且不會影響分類結(jié)果的準(zhǔn)確性。
3.3應(yīng)用抽樣技術(shù)注意事項
3.3.1樣本量的問題
基于數(shù)據(jù)源中實際數(shù)據(jù)分布,通過給出的精度閾值可以對對樣本容量以及挖掘結(jié)果的準(zhǔn)確性進行分析,這一環(huán)節(jié)也被成為學(xué)習(xí)曲線逐步擬合的過程,在實施過程中能夠確定出滿徐精度需要的最小樣本容量。再確定一次抽樣樣本容量期間,不能夠以人的主觀感受為依據(jù),而是需要掌握數(shù)據(jù)分布特點,在進行深入學(xué)習(xí)之后進行考量。這樣的方法確定的樣本容量才是考慮整體樣本分布的結(jié)果,才能夠保證進行抽樣的數(shù)據(jù)和原有的數(shù)據(jù)集之間的良好的對應(yīng)關(guān)系。
3.3.2抽樣效率的問題
在實際的應(yīng)用過程中,不同的抽樣技術(shù)相互之間也可以結(jié)合成為不同的抽樣方案,如分層抽樣和等距抽樣結(jié)合起來,運用得當(dāng)不同程度地提高抽樣精度。但是在數(shù)據(jù)挖掘過程中,設(shè)計抽樣方案期間不僅要考慮各種車輛技術(shù)對精度的影響,還應(yīng)當(dāng)結(jié)合抽樣效率進行考慮。內(nèi)容數(shù)據(jù)探索、樣本的確定和分割等技術(shù)應(yīng)用期間是否具備靈活性,是否能夠提高抽樣效率等。做好這一點需要注意以下兩點:首先,數(shù)據(jù)挖掘工作者應(yīng)當(dāng)了解源數(shù)據(jù)集,做好數(shù)據(jù)準(zhǔn)備階段的探索工作;再者,還需要根據(jù)解決的實際問題選擇合適的抽樣技術(shù)才能夠確保抽樣效率。
結(jié)束語
數(shù)據(jù)挖掘是一個集合了多學(xué)科、多領(lǐng)域,融合了人工智能技術(shù)、數(shù)據(jù)庫技術(shù)、工程技術(shù)、統(tǒng)計學(xué)、高性能計算、面向?qū)ο蠓椒ㄒ约皵?shù)據(jù)可視化等多種技術(shù)的研究成果。之所以將數(shù)據(jù)挖掘成為未來信息處理的干技術(shù),其原因在于數(shù)據(jù)挖掘以及全新概念改變?nèi)藗兝脭?shù)據(jù)的方式。近年來,大規(guī)模數(shù)據(jù)庫的挖掘工作界范圍內(nèi)的研究重點,而抽樣技術(shù)是將工作者從海量數(shù)據(jù)挖掘工作中解放出來的重要手段。在數(shù)據(jù)挖掘中應(yīng)用抽樣技術(shù),能夠降低處理結(jié)果的規(guī)模、保證結(jié)果的準(zhǔn)確性,為決策提供精確的資料依據(jù)。本文通過研究抽樣技術(shù)在數(shù)據(jù)挖掘中的意義和重要性,探討實際應(yīng)用過程,證實了抽樣技術(shù)對于提高數(shù)據(jù)挖掘效率產(chǎn)生的重要作用。(作者單位:北京當(dāng)當(dāng)網(wǎng)信息技術(shù)有限公司)
參考文獻:
[1] 殷賢君.基于增量存儲的商業(yè)數(shù)據(jù)流分類挖掘算法研究與應(yīng)用[D].浙江工商大學(xué),2011.
[2] 謝笑盈.數(shù)據(jù)挖掘中抽樣技術(shù)的應(yīng)用研究——方法改進與實證分析[D].浙江工商大學(xué),2010.
[3] 湯曉超.基于數(shù)據(jù)挖掘技術(shù)的審計抽樣系統(tǒng)開發(fā)和研究[D].江蘇大學(xué),2010.
[4] 琚春華,殷賢君,許翀寰等.結(jié)合自助抽樣的動態(tài)數(shù)據(jù)流貝葉斯分類算法[J].計算機工程與應(yīng)用,2011,47(8):118-121,142.