李沂 石建東
摘 ?要:數(shù)據(jù)挖掘是日常生活的一部分,雖然我們常常沒(méi)有意識(shí)到它的存在。但是影響到我們?nèi)粘I畹母鞣矫?,從?dāng)?shù)爻泄?yīng)的商品、網(wǎng)上沖浪看到的廣告,到犯罪預(yù)防。通過(guò)改進(jìn)服務(wù)和提高顧客滿意度,以及生活方式,為個(gè)人帶來(lái)許多好處。然而,數(shù)據(jù)挖掘應(yīng)用也會(huì)嚴(yán)重地威脅到個(gè)人隱私權(quán)和數(shù)據(jù)安全。數(shù)據(jù)挖掘系統(tǒng)和應(yīng)用的開(kāi)發(fā)是目前研究的難題,本文通過(guò)文獻(xiàn)綜述的方式對(duì)數(shù)據(jù)挖掘進(jìn)行討論,其目的是為了引起更多人的關(guān)注和更深入的研究。
關(guān)鍵詞:計(jì)算機(jī);數(shù)據(jù)挖掘;概念;應(yīng)用
引言
近年來(lái),數(shù)據(jù)挖掘引起了信息產(chǎn)業(yè)界的極大關(guān)注,其主要原因是存在大量數(shù)據(jù),可以廣泛使用,并且迫切需要將這些數(shù)據(jù)轉(zhuǎn)換成有用的信息和知識(shí)。作為一個(gè)新興的研究領(lǐng)域,自從20世紀(jì)80年代開(kāi)始以來(lái),數(shù)據(jù)挖掘在國(guó)外已經(jīng)取得了顯著進(jìn)展且涵蓋了廣泛的應(yīng)用。目前,在很多領(lǐng)域尤其是在商業(yè)領(lǐng)域如銀行、電信、電商等,數(shù)據(jù)挖掘可以解決很多問(wèn)題,包括市場(chǎng)營(yíng)銷策略制定、背景分析、企業(yè)管理危機(jī)等。
1、數(shù)據(jù)挖掘概述
數(shù)據(jù)挖掘(data mining)其英文名可以翻譯為數(shù)據(jù)采礦,實(shí)際上指的是從大量的數(shù)據(jù)中獲取所需要的有用信息,數(shù)據(jù)挖掘在各個(gè)行業(yè)都有著廣泛的應(yīng)用。數(shù)據(jù)挖掘又被稱為“數(shù)據(jù)中的知識(shí)發(fā)現(xiàn)”(KDD),顧名思義,也就是通過(guò)數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)選擇、數(shù)據(jù)變換、數(shù)據(jù)挖掘、模式評(píng)估、知識(shí)表示等一些列步驟,對(duì)數(shù)據(jù)進(jìn)行分類、聚類,發(fā)現(xiàn)其中的關(guān)聯(lián)關(guān)系或者離群點(diǎn),來(lái)發(fā)現(xiàn)新的知識(shí)[1]。例如金融大數(shù)據(jù)領(lǐng)域的信貸機(jī)構(gòu)可以通過(guò)數(shù)據(jù)挖掘?qū)崿F(xiàn)對(duì)用戶的信用評(píng)級(jí)、零售行業(yè)各地區(qū)顧客不同種類商品的需求和購(gòu)買(mǎi)習(xí)慣、電信行業(yè)數(shù)據(jù)分析、生物學(xué)領(lǐng)域中的基因數(shù)據(jù)分析等等。至此,便可以簡(jiǎn)單的理解清楚數(shù)據(jù)挖掘的概念。
對(duì)數(shù)據(jù)挖掘有多種文字不同但含義接近的定義,其實(shí)顧名思義,數(shù)據(jù)挖掘就是試圖從海量數(shù)據(jù)中找出有用的知識(shí)。數(shù)據(jù)挖掘可以視為機(jī)器學(xué)習(xí)和數(shù)據(jù)庫(kù)的交叉,它主要利用機(jī)器學(xué)習(xí)界提供的技術(shù)來(lái)分析海量數(shù)據(jù),利用數(shù)據(jù)庫(kù)界提供的技術(shù)來(lái)管理海量數(shù)據(jù)。
2、數(shù)據(jù)挖掘的特征
2.1基于大量數(shù)據(jù)
實(shí)際上大多數(shù)數(shù)據(jù)挖掘的算法都可以在小數(shù)據(jù)量上運(yùn)行并得到結(jié)果。但是,一方面過(guò)小的數(shù)據(jù)量完全可以通過(guò)人工分析來(lái)總結(jié)規(guī)律,另一方面來(lái)說(shuō),小數(shù)據(jù)量常常無(wú)法反映出真實(shí)世界中的普遍特性。
2.2非平凡性
挖掘出來(lái)的知識(shí)應(yīng)該是不簡(jiǎn)單的,絕不能是類似某著名體育評(píng)論員所說(shuō)的“經(jīng)過(guò)我的計(jì)算,我發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象,到本場(chǎng)比賽結(jié)束為止,這屆世界杯的進(jìn)球數(shù)和失球數(shù)是一樣的。非常的巧合!”那種知識(shí)。這點(diǎn)看起來(lái)勿庸贅言,但是很多不懂業(yè)務(wù)知識(shí)的數(shù)據(jù)挖掘新手卻常常犯這種錯(cuò)誤。
2.3隱含性
數(shù)據(jù)挖掘是要發(fā)現(xiàn)深藏在數(shù)據(jù)內(nèi)部的知識(shí),而不是那些直接浮現(xiàn)在數(shù)據(jù)表面的信息。常用的BI工具,例如報(bào)表和OLAP,完全可以讓用戶找出這些信息。
2.4新奇性
挖掘出來(lái)的知識(shí)應(yīng)該是以前未知的,否則只不過(guò)是驗(yàn)證了業(yè)務(wù)專家的經(jīng)驗(yàn)而已。只有全新的知識(shí),才可以幫助企業(yè)獲得進(jìn)一步的洞察力。
2.5價(jià)值性
給企業(yè)帶來(lái)直接的或間接的效益。有人說(shuō)數(shù)據(jù)挖掘看起來(lái)神乎其神,卻什么用處也沒(méi)有。這是一種誤解,在一些數(shù)據(jù)挖掘項(xiàng)目中,或者因?yàn)槿狈γ鞔_的業(yè)務(wù)目標(biāo),或者因?yàn)閿?shù)據(jù)質(zhì)量的不足,或者因?yàn)槿藗儗?duì)改變業(yè)務(wù)流程的抵制,或者因?yàn)橥诰蛉藛T的經(jīng)驗(yàn)不足,都會(huì)導(dǎo)致效果不佳甚至完全沒(méi)有效果。但大量的成功案例也在證明,數(shù)據(jù)挖掘的確可以變成提升效益的利器。
3、數(shù)據(jù)挖掘的應(yīng)用領(lǐng)域
3.1金融數(shù)據(jù)分析領(lǐng)域的應(yīng)用
大部分銀行和金融機(jī)構(gòu)都提供豐富多樣的銀行業(yè)務(wù)、投資和信貸服務(wù)例如交易、抵押、汽車(chē)貸款和信用卡等。有些還提供保險(xiǎn)服務(wù)和股票投資服務(wù)。銀行和金融機(jī)構(gòu)收集的金融數(shù)據(jù)通常相對(duì)完整、可靠,并具有高質(zhì)量,這大大方便了系統(tǒng)的數(shù)據(jù)分析和數(shù)據(jù)挖掘[2]。例如,為多維數(shù)據(jù)分析和數(shù)據(jù)挖掘設(shè)計(jì)和構(gòu)造數(shù)據(jù)倉(cāng)庫(kù),可以進(jìn)行貸款償還預(yù)測(cè)和顧客信用政策分析,針對(duì)定向促銷的顧客分類與聚類,用于洗黑錢(qián)和其他金融犯罪的偵破等。
3.2零售和電信業(yè)領(lǐng)域的應(yīng)用
零售業(yè)是非常合適的數(shù)據(jù)挖掘應(yīng)用領(lǐng)域,因?yàn)樗占岁P(guān)于銷售、顧客購(gòu)物史、貨物運(yùn)輸、消費(fèi)和服務(wù)的大量數(shù)據(jù)。特別是,由于通過(guò)Web或電子商務(wù)上進(jìn)行的商業(yè)活動(dòng)日益方便和流行,收集的數(shù)據(jù)量繼續(xù)迅速膨脹。今天,大部分較大的連鎖店都有自己的網(wǎng)站,顧客可以方便地聯(lián)機(jī)購(gòu)買(mǎi)商品。如 Amazon. com(htp:∥/ww. amazon. com),只有聯(lián)機(jī)商店而沒(méi)有實(shí)體(即物理的)商場(chǎng)。零售數(shù)據(jù)為數(shù)據(jù)挖掘提供了豐富的資源。零售數(shù)據(jù)挖掘可以幫助識(shí)別顧客購(gòu)買(mǎi)行為,發(fā)現(xiàn)顧客購(gòu)物模式和趨勢(shì),改進(jìn)服務(wù)質(zhì)量取得更好的顧客保持度和滿意度,提高貨品消費(fèi)比,設(shè)計(jì)更好的貨品運(yùn)輸與分銷策略,降低企業(yè)成本。
3.3科學(xué)與工程領(lǐng)域的應(yīng)用
計(jì)算機(jī)科學(xué)中的數(shù)據(jù)挖掘可以用來(lái)幫助監(jiān)測(cè)系統(tǒng)狀態(tài)、提高系統(tǒng)性能、隔離軟件錯(cuò)誤、監(jiān)測(cè)軟件剽竊、分析計(jì)算機(jī)系統(tǒng)缺陷、發(fā)現(xiàn)網(wǎng)絡(luò)入侵和識(shí)別系統(tǒng)故障。軟件和系統(tǒng)工程的數(shù)據(jù)挖掘可以在靜態(tài)或動(dòng)態(tài)(基于流)數(shù)據(jù)上進(jìn)行,取決于系統(tǒng)是否為之后的分析提前卸載跟蹤,或者是否必須實(shí)時(shí)反應(yīng),處理聯(lián)機(jī)數(shù)據(jù)。由于大量信息數(shù)據(jù)注入我們的日常生活[3]。這種通信在萬(wàn)維網(wǎng)和和各種社區(qū)網(wǎng)上以多種形式存在,包括新聞、博客、文章、網(wǎng)頁(yè)、在線討論、產(chǎn)品評(píng)價(jià)、嘰喳(twitters)、消息、廣告和通信。它可以分析用戶或讀者關(guān)于產(chǎn)品、講演和文章的反饋,以推斷社團(tuán)的一般觀點(diǎn)和意見(jiàn)。這種分析可以用來(lái)預(yù)測(cè)趨勢(shì)、改進(jìn)工作、幫助決策。因此社會(huì)科學(xué)和社會(huì)研究數(shù)據(jù)挖掘已經(jīng)日趨流行。
3.4入侵檢測(cè)和預(yù)防領(lǐng)域的應(yīng)用
計(jì)算機(jī)系統(tǒng)和數(shù)據(jù)安全一直處于危險(xiǎn)中?;ヂ?lián)網(wǎng)的大規(guī)模增長(zhǎng),各種入侵和攻擊網(wǎng)絡(luò)工具和手段的出現(xiàn),使得入侵檢測(cè)和預(yù)防成為網(wǎng)絡(luò)系統(tǒng)的關(guān)鍵組成部分。入侵可以定義為威脅網(wǎng)絡(luò)資源(如用戶賬號(hào)、文件系統(tǒng)、系統(tǒng)內(nèi)核等)的完整性、機(jī)密性或可用性的行為。入侵檢測(cè)系統(tǒng)和入侵預(yù)防系統(tǒng)都監(jiān)測(cè)網(wǎng)絡(luò)流量和系統(tǒng)運(yùn)行,以發(fā)現(xiàn)惡意活動(dòng)。數(shù)據(jù)挖掘技術(shù)的應(yīng)用,可以開(kāi)發(fā)強(qiáng)大的入侵檢測(cè)和預(yù)防系統(tǒng)[4]。
結(jié)語(yǔ)
當(dāng)前數(shù)據(jù)挖掘應(yīng)用主要集中在電信、零售、農(nóng)業(yè)、網(wǎng)絡(luò)日志、銀行、電力、生物、天體、化工、醫(yī)藥等方面??此茝V泛,實(shí)際應(yīng)用還遠(yuǎn)沒(méi)有普及。數(shù)據(jù)挖掘會(huì)成為未來(lái)10年內(nèi)重要的技術(shù)之一。而數(shù)據(jù)挖掘,也已經(jīng)開(kāi)始成為一門(mén)獨(dú)立的專業(yè)學(xué)科。具體應(yīng)用方向主要有:對(duì)知識(shí)發(fā)現(xiàn)方法的研究進(jìn)一步發(fā)展,如對(duì)Bayes和Boosting方法的研究和提高;商業(yè)工具軟件不斷產(chǎn)生和完善,注重建立解決問(wèn)題的整體系統(tǒng),例如Weka等軟件。數(shù)據(jù)挖掘的發(fā)展應(yīng)是挖掘工具在先進(jìn)理論指導(dǎo)下的改進(jìn),而就國(guó)內(nèi)情況而言,還有至少20年的發(fā)展空間。
參考文獻(xiàn)
[1] ?Micheling Kamber/Jian Pei.數(shù)據(jù)挖掘概念與技術(shù)[M].機(jī)械工業(yè)出版社.2012.8.
[2] ?韓秋明、李微、李華鋒.數(shù)據(jù)挖掘技術(shù)應(yīng)用實(shí)例[M].機(jī)械工業(yè)出版社.2009.
[3] ?邱恩海.計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)的開(kāi)發(fā)及其應(yīng)用研究[J].科技風(fēng).2019(17):100.
[4] ?劉芬.基于計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)的開(kāi)發(fā)及應(yīng)用分析[J].數(shù)字技術(shù)與應(yīng)用.2018(05):220-222.
作者簡(jiǎn)介:李沂;女;(1987.5.12—):研究生;研究方向:計(jì)算機(jī)科學(xué)與技術(shù)。