李彥蓉
摘要:近年來數(shù)據(jù)庫一直是信息技術(shù)發(fā)展的熱門話題,特別是隨著網(wǎng)絡(luò)數(shù)據(jù)井噴式發(fā)展,數(shù)據(jù)挖掘已經(jīng)成為各行各業(yè)發(fā)展所不可或缺的技術(shù)之一?;诖?,本文從數(shù)據(jù)挖掘的相關(guān)概念出發(fā),對數(shù)據(jù)挖掘的對象與分類,技術(shù)和方法進(jìn)行簡單介紹。
關(guān)鍵詞:數(shù)據(jù)庫;數(shù)據(jù)挖掘隨著計(jì)算機(jī)技術(shù)和網(wǎng)絡(luò)通信技術(shù)的不斷發(fā)展,數(shù)據(jù)信息逐漸成為當(dāng)前社會(huì)各行各業(yè)發(fā)展的關(guān)鍵。如何在海量數(shù)據(jù)中挖掘出對企業(yè)發(fā)展有利的信息是當(dāng)前各行各業(yè)研究熱點(diǎn),也是未來計(jì)算機(jī)領(lǐng)域發(fā)展的主要方向。數(shù)據(jù)庫是高效數(shù)據(jù)挖掘的基礎(chǔ),同時(shí)也是數(shù)據(jù)挖掘技術(shù)不斷創(chuàng)新發(fā)展的重要條件。數(shù)據(jù)模型在數(shù)據(jù)庫中起著重要的作用,它影響著數(shù)據(jù)庫的運(yùn)行,是數(shù)據(jù)庫的核心架構(gòu)。數(shù)據(jù)模型在經(jīng)歷了兩次變革以后,現(xiàn)在已經(jīng)逐漸成熟起來,如今的數(shù)據(jù)模型已經(jīng)從以往格式化數(shù)據(jù)轉(zhuǎn)變?yōu)殛P(guān)系數(shù)據(jù)模型。當(dāng)前專家們對數(shù)據(jù)庫的研究內(nèi)容主要是把數(shù)據(jù)庫技術(shù)與其他技術(shù)相結(jié)合,然后應(yīng)用到特定領(lǐng)域中,這種研究現(xiàn)在已經(jīng)取得了驕人的成績。
1數(shù)據(jù)挖掘的有關(guān)概念
現(xiàn)如今數(shù)據(jù)挖掘技術(shù)尚處于初級發(fā)展階段,在很多方面還有待研究人員進(jìn)行更為深入的探討。作為一門新興技術(shù),數(shù)據(jù)挖掘主要把數(shù)據(jù)庫作為研究的前提,利用人工智能、機(jī)器人學(xué)習(xí)以及統(tǒng)計(jì)學(xué)來把這些技術(shù)結(jié)合起來。數(shù)據(jù)挖掘技術(shù)就要是在海量數(shù)據(jù)中提取出最有價(jià)值的信息,以用于企業(yè)未來發(fā)展策略構(gòu)建所需。數(shù)據(jù)挖掘的概念有廣義和狹義之分,廣義上的數(shù)據(jù)挖掘是指通過相關(guān)技術(shù)提取出一些隱秘信息,狹義上的數(shù)據(jù)挖掘是指挖掘多種數(shù)據(jù)類型,以達(dá)到信息提取的目的。
2數(shù)據(jù)挖掘的對象及分類
數(shù)據(jù)挖掘技術(shù)主要是對相應(yīng)的數(shù)據(jù)進(jìn)行挖掘,發(fā)現(xiàn)有用的信息,其挖掘的范圍很廣,幾乎可以在所有的存儲(chǔ)中心進(jìn)行挖掘。其中最主要的挖掘范圍是關(guān)系數(shù)據(jù)庫、事物數(shù)據(jù)庫以及一些特殊的數(shù)據(jù)庫。
數(shù)據(jù)庫與很多學(xué)科有著相輔相成的作用,所以就會(huì)產(chǎn)生多種結(jié)構(gòu)的數(shù)據(jù)挖掘系統(tǒng)。根據(jù)不同的標(biāo)準(zhǔn)可以把數(shù)據(jù)挖掘進(jìn)行分類,因?yàn)閷?shí)際上數(shù)據(jù)庫本身就可以根據(jù)其標(biāo)準(zhǔn)進(jìn)行分類;同時(shí)還可以根據(jù)其本身的模型進(jìn)行劃分,如關(guān)系的、事物的、面向?qū)ο蟮?、對象關(guān)系的等。此外數(shù)據(jù)挖掘技術(shù)在知識(shí)類型上也有所區(qū)別,既可以根據(jù)數(shù)據(jù)挖掘方法特征進(jìn)行劃分,又可以根據(jù)關(guān)聯(lián)度、離散度、演變方式等進(jìn)行劃分。相對來講級別越高,挖掘的知識(shí)層次就越深。從技術(shù)層面來看,數(shù)據(jù)挖掘又可以分為 3個(gè)方面:交互層、自動(dòng)系統(tǒng)層、查詢系統(tǒng)。這3個(gè)方面所用到的數(shù)據(jù)分析法很多,其中最主要也是應(yīng)用最為廣泛的分析法就是機(jī)器學(xué)習(xí)和統(tǒng)計(jì)學(xué)法。在數(shù)據(jù)挖掘領(lǐng)域除了一些普通的挖掘技術(shù)外還有一些特殊的挖掘技術(shù),比如目前在金融、股票等領(lǐng)域所采用的特殊挖掘技術(shù),是大多數(shù)普通挖掘技術(shù)所無法比擬的。
3數(shù)據(jù)挖掘技術(shù)和方法
3.1 統(tǒng)計(jì)方法
統(tǒng)計(jì)就是查找事物的數(shù)量或規(guī)律,數(shù)據(jù)挖掘技術(shù)中使用統(tǒng)計(jì)方法主要目的就是從事物的數(shù)量上來推斷其規(guī)律,通常都是在事物的數(shù)據(jù)上來找線索,然后根據(jù)這些線索進(jìn)行假設(shè),然后根據(jù)這些假設(shè)去驗(yàn)證其可行性,這種方法最大的優(yōu)點(diǎn)就是精確性。但是它的缺點(diǎn)也很明顯,就是很難有效的利用。
3.2 模糊集
模糊集顧名思義就是不清楚,沒有針對性。模糊集的數(shù)據(jù)處理分為兩個(gè)方面一個(gè)方面是不完整的數(shù)據(jù),另一個(gè)方面就是不確定的數(shù)據(jù)。模糊數(shù)據(jù)主要處理這兩種數(shù)據(jù),在這兩種數(shù)據(jù)的處理上要比以往的數(shù)據(jù)處理更加方便有效。
3.3 支持向量機(jī)
向量機(jī)就是一些數(shù)學(xué)理論,支持向量機(jī)就是建立在某些數(shù)學(xué)理論上的結(jié)構(gòu)風(fēng)險(xiǎn)。它主要的思想就是在一個(gè)高空的多維空間中找一個(gè)超平面,利用這個(gè)超平面把這兩類進(jìn)行隔開,這樣就可以保證最小分類的錯(cuò)誤率。它的一個(gè)很重要的優(yōu)點(diǎn)就是可以處理一些線性問題。
3.4 規(guī)則歸納
規(guī)則的歸納就是對數(shù)據(jù)進(jìn)行相關(guān)的統(tǒng)計(jì),其主要反映數(shù)據(jù)項(xiàng)中的一些屬性和集合,其中用的最多的歸納算法就是AQ法,它是歸納法中比較典型的,數(shù)據(jù)挖掘技術(shù)是目前計(jì)算機(jī)信息技術(shù)領(lǐng)域比較前言的研究方向,數(shù)據(jù)挖掘技術(shù)可以從數(shù)據(jù)庫中找出一些潛在的、位置的信息和知識(shí)。
4結(jié)論
數(shù)據(jù)挖掘技術(shù)是在近幾年才剛剛興起的一門信息處理技術(shù),隨著其在數(shù)據(jù)應(yīng)用領(lǐng)域的優(yōu)越表現(xiàn),現(xiàn)在已經(jīng)成為很多企業(yè)在進(jìn)行市場分析時(shí)所采用最為廣泛的一項(xiàng)技術(shù)。隨著研究人員在該領(lǐng)域的不斷深入研究,數(shù)據(jù)挖掘技術(shù)在很多方面都有著非常明顯的進(jìn)步。本文從數(shù)據(jù)挖掘技術(shù)的相關(guān)理論出發(fā),重點(diǎn)分析了數(shù)據(jù)挖掘的一些常用方法和具體思路,但由于本人水平有限,加之?dāng)?shù)據(jù)挖掘設(shè)計(jì)到許多領(lǐng)域,文中難免有若干不足之處,作者將在后續(xù)研究工作中不斷完善。
[參考文獻(xiàn)]
[1]周皓峰,朱揚(yáng)勇,施伯樂.一個(gè)基于興趣度的關(guān)聯(lián)規(guī)則采掘算法.計(jì)算機(jī)研究與發(fā)展,2002,39(4):450-456.
[2]張朝暉,陸玉昌,張錢.發(fā)掘多值屬性的關(guān)聯(lián)規(guī)則.軟件學(xué)報(bào),1998,9(11):802- 805.
[3]程繼華,施鵬飛.多層次關(guān)聯(lián)規(guī)則的有效挖掘算法,軟件學(xué)報(bào),1998,9(12):937-941.
[4]毛國君,劉椿年.基于項(xiàng)目序列集操作的關(guān)聯(lián)規(guī)則挖掘算法.計(jì)算機(jī)學(xué)報(bào),2002,25(4):417-422.
[5]王曉峰,王天然.相關(guān)測度與增量支持度和信任度的計(jì)算.軟件學(xué)報(bào),2002.