何棟
摘要:伴隨著計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)與數(shù)據(jù)庫技術(shù)日新月異的發(fā)展,數(shù)據(jù)庫的規(guī)??偸窃谝恢辈粩嗟臄U(kuò)大,人們積累的數(shù)據(jù)也就越來越多。當(dāng)數(shù)據(jù)在不斷增加的同時(shí),我們?nèi)绾螐拇罅康臄?shù)據(jù)中提取出有效信息的矛盾日益突顯。而傳統(tǒng)的查詢、報(bào)表等工具已經(jīng)無法滿足收集有效信息的需求,因此,需要一種新的數(shù)據(jù)分析方法與技術(shù):它可以實(shí)現(xiàn)從大量的數(shù)據(jù)中提取出隱含但有效的信息與知識,所以數(shù)據(jù)挖掘技術(shù)由此而生。該文簡單地介紹了數(shù)據(jù)挖掘技術(shù)的產(chǎn)生,挖掘過程以及數(shù)據(jù)挖掘的應(yīng)用和發(fā)展。
關(guān)鍵詞:數(shù)據(jù)庫;數(shù)據(jù)挖掘模式
中圖分類號:TP311 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2014)18-4121-01
1 數(shù)據(jù)挖掘技術(shù)的概念
數(shù)據(jù)是分析問題,掌握知識的基石。但是,擁有大量的數(shù)據(jù)與擁有許多有效的數(shù)據(jù)卻完全是兩回事。近幾年來,從數(shù)據(jù)庫中發(fā)現(xiàn)新問題掌握新知識這一領(lǐng)域發(fā)展飛速,廣闊的市場前景和研究利益促使這一領(lǐng)域不斷壯大。計(jì)算機(jī)技術(shù)發(fā)展和數(shù)據(jù)收集技術(shù)的進(jìn)步,可以讓人們從更加廣泛的范圍和以驚人的速度收集和存儲有效信息。
收集數(shù)據(jù)是為了得到有效信息,然而大量數(shù)據(jù)的存在本身卻并不意味著信息。當(dāng)今的數(shù)據(jù)庫技術(shù)使我們存儲大量的數(shù)據(jù)流已變得非常簡單,但卻還沒有一種成熟的技術(shù)能幫我們來分析、理解和讓數(shù)據(jù)以可理解的信息表示出來。所以,傳統(tǒng)的知識獲取技術(shù),在面對巨型數(shù)據(jù)倉庫無能為力時(shí)數(shù)據(jù)挖掘技術(shù)就此誕生。
數(shù)據(jù)挖掘(Data Mining)它就是在融合了數(shù)據(jù)庫、數(shù)理統(tǒng)計(jì)以及人工智能等多方面的技術(shù)后形成的一類深層次的數(shù)據(jù)分析方法。它是在以計(jì)算機(jī)為基礎(chǔ)的前提下加以新技術(shù),并從大量的數(shù)據(jù)中獲得有用知識的一個(gè)完整的過程,這就稱作數(shù)據(jù)挖掘。
2 數(shù)據(jù)挖掘的過程
數(shù)據(jù)挖掘是在以現(xiàn)有的已知數(shù)據(jù)集合為前提下,從中發(fā)現(xiàn)、建立各種模型,并且導(dǎo)出值的過程。
簡單的說來,數(shù)據(jù)挖掘可以大體分為以下幾個(gè)階段:
1)提出并闡明問題,隨之提出假設(shè);
2)相關(guān)數(shù)據(jù)的收集;
3)數(shù)據(jù)及其預(yù)處理;
4)模型及其評估;
5)解釋模型并得出結(jié)論。
3 數(shù)據(jù)挖掘的應(yīng)用和發(fā)展趨勢
數(shù)據(jù)挖掘是一門具有廣泛應(yīng)用的新興的學(xué)科,并且數(shù)據(jù)挖掘的原理與針對特定應(yīng)用領(lǐng)域,及其需要的有效的數(shù)據(jù)挖掘的工具之間,還存在不小的距離。本節(jié)我們分析幾個(gè)應(yīng)用領(lǐng)域,討論如何為這些應(yīng)用定制專門的數(shù)據(jù)挖掘工具。
3.1 針對生物醫(yī)學(xué)和 DNA 數(shù)據(jù)分析的數(shù)據(jù)挖掘
大量的研究發(fā)現(xiàn),在疾病不同階段時(shí)的致病基因有這樣的一個(gè)現(xiàn)象:引起一種疾病的基因是多個(gè),但在某階段發(fā)揮主要作用的基因可能只有一個(gè)或者是幾個(gè),所以,如果我們可以在不同階段,分別找出關(guān)鍵基因及它的基因組合序列,分別使用相對應(yīng)的藥物及治療手段,那將會大幅提升治療效果。
3.2 農(nóng)業(yè)中的數(shù)據(jù)挖掘與問題
農(nóng)業(yè)的生產(chǎn)是隨著時(shí)間的變化在不斷地發(fā)展變化中的,這樣一來就使得農(nóng)業(yè)生產(chǎn)數(shù)據(jù)更具有多樣性,變化性及不確定性等特性。我們面對著海量的數(shù)據(jù),在大量的數(shù)據(jù)面前,我們迫切需要找出一種方法,他可以幫助我們,在大量數(shù)據(jù)中找出隱藏的規(guī)律,能讓我們制定出正確的農(nóng)業(yè)策略, 使農(nóng)業(yè)生產(chǎn)能持續(xù)高效的并協(xié)調(diào)和諧的健康發(fā)展,數(shù)據(jù)挖掘技術(shù)首當(dāng)其沖。
3.3 電信業(yè)中的數(shù)據(jù)挖掘
隨著時(shí)代的發(fā)展與變遷電信業(yè)的電信服務(wù),早已不是以前單一的長短話服務(wù)了,計(jì)算機(jī)和 Web 數(shù)據(jù)傳輸,以及其它數(shù)據(jù)通訊服務(wù),反而成了它的主流業(yè)務(wù)?,F(xiàn)在人們跟多的使用手機(jī),來進(jìn)行數(shù)據(jù)的傳輸服務(wù),所以電信,計(jì)算機(jī)網(wǎng)絡(luò)和各種其它方式的通訊與計(jì)算的融合是目前的大勢所趨,正像我們現(xiàn)在大力發(fā)展的物聯(lián)網(wǎng)技術(shù)一樣。
電信數(shù)據(jù)本身同樣具有多維性,例如呼叫時(shí)間,呼叫類型,數(shù)據(jù)量等。對此類數(shù)據(jù)的多維分析有助于識別和比較數(shù)據(jù)通訊情況,以及資源使用的情況等。例如,分析人員希望經(jīng)常查看有關(guān)呼叫源,呼叫目標(biāo),呼叫量,數(shù)據(jù)量和每天使用模式等方面的圖表。因此,將電信數(shù)據(jù)構(gòu)造為數(shù)據(jù)倉庫十分有用,可以經(jīng)常使用 OLAP和可視化工具進(jìn)行多維分析。同樣面對海量數(shù)據(jù),數(shù)據(jù)挖掘技術(shù)依然首當(dāng)其沖。
21世紀(jì)是信息高速發(fā)展的時(shí)代,數(shù)據(jù)挖掘技術(shù)正是一個(gè)發(fā)展迅猛的技術(shù),在數(shù)據(jù)挖掘技術(shù)日益廣泛的使用前提下,它完全可以實(shí)現(xiàn)數(shù)據(jù)資源的共享以及技術(shù)發(fā)展的跨領(lǐng)域,使工作效率大幅提升。正如人們所說“信息不僅是資源,更是財(cái)富”,的確要實(shí)現(xiàn)經(jīng)濟(jì)的騰飛,離不開創(chuàng)新,要實(shí)現(xiàn)高新尖科技的發(fā)展,離不開創(chuàng)新,創(chuàng)新是一個(gè)國家發(fā)展的力量源泉,所以我們要充分利用提供的信息,進(jìn)行數(shù)據(jù)挖掘,為數(shù)據(jù)庫的應(yīng)用開辟新的前景,為人類的文明和發(fā)展開辟一個(gè)嶄新的時(shí)代。
參考文獻(xiàn):
[1] 互聯(lián)網(wǎng)文檔資源(http://wenku.baidu.c).2012-11-13.
[2] 李慶香.數(shù)據(jù)挖掘技術(shù)在高校學(xué)生成績分析中的應(yīng)用研究[D].西南大學(xué),2009.
[3] 張靜. 數(shù)據(jù)挖掘在生物信息中應(yīng)用的現(xiàn)狀及展望[J].電腦知識與技術(shù),2008,5.
[4] Berson A, Smith S, Thearling K. Building Data Mining Applications for CRM[M].McGraw-Hill, New York, 2000.
[5] Hand D, Mannila H, Smith P. Principles of Data Mining[M].MIT Press, Cambridge: MA, 2001.
[6] 韓家煒, 堪博.數(shù)據(jù)挖掘概念與技術(shù)[M]. 2版.范明,孟小峰,譯.北京:機(jī)械工業(yè)出版社,2007.endprint