王麗麗
本文對大數(shù)據(jù)時(shí)代下數(shù)據(jù)挖掘技術(shù)的應(yīng)用進(jìn)行了研究,概述了大數(shù)據(jù)時(shí)代的概念與特點(diǎn),數(shù)據(jù)挖掘技術(shù)的定義與特點(diǎn);從聚類分析、分類預(yù)測和關(guān)聯(lián)分析3個(gè)角度,列舉了大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘技術(shù);從互聯(lián)網(wǎng)、金融、市場營銷、醫(yī)療和教育等多個(gè)角度,列舉了數(shù)據(jù)挖掘技術(shù)在大數(shù)據(jù)時(shí)代中的應(yīng)用。
在信息化社會的高速發(fā)展下,大數(shù)據(jù)、云計(jì)算、物聯(lián)網(wǎng)等技術(shù)應(yīng)運(yùn)而生,海量的數(shù)據(jù)資源逐漸在人們的生產(chǎn)生活中高速地產(chǎn)生、積累,帶動全社會邁入了大數(shù)據(jù)時(shí)代。這一時(shí)代背景下的數(shù)據(jù)信息,在規(guī)模與數(shù)量上相較過去都有了顯著的擴(kuò)充,在挖掘、應(yīng)用上難度較大。因此,運(yùn)用數(shù)據(jù)挖掘技術(shù)提升數(shù)據(jù)信息挖掘的便利性與準(zhǔn)確性,具有重要的意義。
大數(shù)據(jù)
大數(shù)據(jù)的概念
大數(shù)據(jù)的概念最早由麥肯錫研究院在2011年的《大數(shù)據(jù):創(chuàng)新、競爭和生產(chǎn)力的下一個(gè)新領(lǐng)域》一文中提出:“數(shù)據(jù)已經(jīng)融入了大眾的日常生活中,對大數(shù)據(jù)展開研究與分析,能夠?yàn)槿藗兊南M(fèi)、生產(chǎn)水平帶來跨越式的提升?!本S基百科認(rèn)為大數(shù)據(jù)是對一類無法用現(xiàn)有的數(shù)據(jù)庫管理工具處理的,具有海量性、復(fù)雜性特點(diǎn)的數(shù)據(jù)集成的統(tǒng)稱,即一類無法運(yùn)用傳統(tǒng)的IT技術(shù)以及硬件、軟件工具處理的數(shù)據(jù)集合。
大數(shù)據(jù)的特點(diǎn)
大數(shù)據(jù)的特點(diǎn)可被概括為4“V”,如下:
數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)挖掘通俗來講,就是從大量的數(shù)據(jù)之中挖掘出數(shù)據(jù)蘊(yùn)含的潛在規(guī)律、提煉出具有價(jià)值的知識的過程,數(shù)據(jù)挖掘技術(shù)是對在這一過程中運(yùn)用的方法與技術(shù)的通稱。
數(shù)據(jù)挖掘的特點(diǎn)
首先,數(shù)據(jù)挖掘是在各領(lǐng)域的數(shù)據(jù)庫中挖掘、處理海量數(shù)據(jù)信息的過程,而這些數(shù)據(jù)信息通常已經(jīng)過了預(yù)處理,具有結(jié)構(gòu)化特點(diǎn);其次,數(shù)據(jù)挖掘需要借助數(shù)學(xué)統(tǒng)計(jì)學(xué)知識,在建立挖掘模型、設(shè)計(jì)挖掘算法的基礎(chǔ)上,揭示潛在數(shù)值信息及其內(nèi)部特點(diǎn);最后,構(gòu)建科學(xué)的挖掘模型,能夠在揭示用戶行為的基礎(chǔ)上發(fā)揮一定的作用。
大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘技術(shù)
在大數(shù)據(jù)時(shí)代下,數(shù)據(jù)挖掘者應(yīng)結(jié)合實(shí)際情況,針對目標(biāo)與需求的特點(diǎn),科學(xué)合理地選擇數(shù)據(jù)挖掘方法?,F(xiàn)階段常用的數(shù)據(jù)挖掘方法包括以下幾種:
聚類分析
聚類分析在所有的分析方法中具有無預(yù)期、無監(jiān)督的特點(diǎn),是為事物實(shí)施集合分組,整合具有一定聯(lián)系的事物,構(gòu)建為全新的集合,再展開數(shù)據(jù)挖掘的一種分析方法。聚類分析的基礎(chǔ)就是“物以類聚”,大體來說,現(xiàn)階段數(shù)據(jù)挖掘工作中常用的聚類分析方法,主要為3種,即CURE、BIRCH、STING算法。具體如下:
CURE算法:在CURE算法的應(yīng)用下,每一個(gè)數(shù)據(jù)點(diǎn)被定義為一簇,依據(jù)收縮條件對全部的數(shù)據(jù)點(diǎn)展開收縮。在這種情況下,相距最近的簇會合并在一起,同時(shí)一個(gè)簇也會呈現(xiàn)為多個(gè)代表點(diǎn)的形式,讓CURE適應(yīng)非球形的形狀。
STING算法:對STING算法的應(yīng)用,會劃分空間整體為多個(gè)不同的矩形單元,這些矩形單元又可根據(jù)分辨率的差異再劃分為不同的結(jié)構(gòu),且這些結(jié)構(gòu)具有一定的層次性,高層單元是低層單元經(jīng)組合、合并后的形態(tài),因此為計(jì)算出高一層的統(tǒng)計(jì)參數(shù),可從計(jì)算低層單元入手。這里的統(tǒng)計(jì)參數(shù)一般是指數(shù)據(jù)的最大值、最小值、平均值等參數(shù)信息。對STING算法的運(yùn)用,會將計(jì)算、統(tǒng)計(jì)和查詢等功能相互隔離開來,為使用者帶來便捷,利于并行處理和增量更新,且計(jì)算效率也十分優(yōu)秀。
分類預(yù)測
分類與預(yù)測是在運(yùn)用數(shù)據(jù)挖掘技術(shù)的過程中所實(shí)施的2個(gè)不同步驟。其中,分類主要用來估計(jì)數(shù)據(jù)類別中的標(biāo)號,這些標(biāo)號通常分布得較為分散,無規(guī)律特點(diǎn);預(yù)測指的是運(yùn)用連續(xù)的函數(shù)值構(gòu)建出數(shù)據(jù)模型,再實(shí)施分析的一種方法。在數(shù)據(jù)挖掘?qū)嵺`中,分類實(shí)際上屬于一項(xiàng)基礎(chǔ)工作,可根據(jù)數(shù)據(jù)的特征,將能夠被預(yù)測的數(shù)據(jù)劃分為不同的區(qū)域,具體的分類方法繁多,例如神經(jīng)網(wǎng)絡(luò)、決策樹(圖1)都屬于較為常見的分類方法。預(yù)測則是對數(shù)據(jù)在未來的動態(tài)發(fā)展方向的把握,例如回歸分析法、局勢外推法都屬于典型的預(yù)測方法。
關(guān)聯(lián)分析
在日常生產(chǎn)生活中人們不難發(fā)現(xiàn),許多表面上看來毫無聯(lián)系的事物,其實(shí)具有緊密的內(nèi)部聯(lián)系。例如,某事件的發(fā)生可能會成為一系列看似毫無關(guān)系的事件的前提。關(guān)聯(lián)分析法就是對類似這樣事件其中的聯(lián)系,以及事件發(fā)生的概率展開分析的方法,是通過挖掘事件背后蘊(yùn)藏的規(guī)律,在把握規(guī)律的基礎(chǔ)上預(yù)測事件在未來發(fā)生幾率的方法。例如:在沃爾瑪商場中,啤酒與紙尿褲的銷量總是呈現(xiàn)出一定的正比例關(guān)系,營銷人員發(fā)現(xiàn)了這個(gè)規(guī)律,并運(yùn)用關(guān)聯(lián)分析法,找到了出現(xiàn)這個(gè)規(guī)律的原因———來商場購買紙尿褲的嬰兒父親會習(xí)慣性地帶兩罐啤酒回家。因此,沃爾瑪在之后的銷售中,有意將啤酒與紙尿褲的貨柜放在靠近的位置,進(jìn)一步提升了2種商品的銷量,這就是一個(gè)典型的運(yùn)用關(guān)聯(lián)分析法發(fā)現(xiàn)規(guī)律、解決問題、做出決策的例子。
大數(shù)據(jù)時(shí)代下對于數(shù)據(jù)挖掘技術(shù)的應(yīng)用
在大數(shù)據(jù)時(shí)代下,工作人員通過合理運(yùn)用數(shù)據(jù)挖掘技術(shù),能夠有效地降低企事業(yè)單位實(shí)際運(yùn)行的成本,降低企事業(yè)單位在發(fā)展過程中的風(fēng)險(xiǎn)系數(shù),提升利潤率以及在生產(chǎn)、管理和銷售方面的競爭力?,F(xiàn)階段較為典型的企事業(yè)單位應(yīng)用數(shù)據(jù)挖掘技術(shù)的例子如下:
數(shù)據(jù)挖掘技術(shù)在互聯(lián)網(wǎng)方面的應(yīng)用
Web信息中含有豐富的文本、圖形圖像、聲音等媒體信息,還包括鏈接結(jié)構(gòu)信息、使用記錄信息等非媒體信息。對 Web的內(nèi)容、結(jié)構(gòu)、記錄等展開挖掘,能夠較為快捷地獲取多種對于使用者而言具有價(jià)值的信息,優(yōu)化網(wǎng)站組織結(jié)構(gòu),提升網(wǎng)站使用者的訪問效率,讓同類用戶能夠高效地聚集在一起。具體而言,數(shù)據(jù)挖掘技術(shù)在互聯(lián)網(wǎng)方面的應(yīng)用,主要表現(xiàn)為以下方面:
(1)網(wǎng)絡(luò)檢索:運(yùn)用數(shù)據(jù)挖掘技術(shù),工作人員可提取網(wǎng)站中目標(biāo)樣本的特征,進(jìn)行分詞處理,通過自動分類、聚類文本的方式,從網(wǎng)絡(luò)信息資源庫中發(fā)掘用戶所需要的信息。
(2)網(wǎng)絡(luò)入侵監(jiān)測系統(tǒng):工作人員可通過時(shí)間序列模式的挖掘方法,對網(wǎng)絡(luò)傳輸數(shù)據(jù)包、系統(tǒng)日志展開分析,判斷是否存在非授權(quán)使用計(jì)算機(jī)的個(gè)體,或計(jì)算機(jī)系統(tǒng)的合法用戶存在非法訪問的情況,以完成對網(wǎng)絡(luò)的入侵監(jiān)測。
數(shù)據(jù)挖掘技術(shù)在金融領(lǐng)域的應(yīng)用
在銀行與金融機(jī)構(gòu)中,儲存著大量的金融數(shù)據(jù),例如儲蓄、信貸和投資信息等。銀行可以在分析客戶的還款記錄、個(gè)人征信、負(fù)債率等數(shù)據(jù)的基礎(chǔ)上,對用戶的業(yè)務(wù)實(shí)施管理,如管理用戶的個(gè)人貸款、信用卡申請等。在建立數(shù)據(jù)挖掘模型后,工作人員也可運(yùn)用這一模型,對用戶的數(shù)據(jù)展開驗(yàn)證、評價(jià),將市場調(diào)查得到的客戶數(shù)據(jù)建立模型,預(yù)測哪些客戶群體會對新產(chǎn)品具有興趣等。
數(shù)據(jù)挖掘技術(shù)在醫(yī)療領(lǐng)域的應(yīng)用
醫(yī)療領(lǐng)域的數(shù)據(jù)信息數(shù)量、規(guī)模都十分龐大,應(yīng)用數(shù)據(jù)挖掘技術(shù)具有重要意義。但這一行業(yè)的數(shù)據(jù)信息通常是由不同的信息系統(tǒng)管理的,同時(shí)在保存格式上,也與其他行業(yè)有所不同。在這一行業(yè)中應(yīng)用數(shù)據(jù)挖掘技術(shù),最重要的是對大量的數(shù)據(jù)信息展開歸納與整合,最終預(yù)測出大致的醫(yī)療保健費(fèi)用。
數(shù)據(jù)挖掘技術(shù)在市場營銷領(lǐng)域的應(yīng)用
在市場營銷領(lǐng)域中應(yīng)用數(shù)據(jù)挖掘技術(shù),主要為分析消費(fèi)者的消費(fèi)心理與消費(fèi)習(xí)慣,再預(yù)測出消費(fèi)者在未來的消費(fèi)行為,企業(yè)可在參考數(shù)據(jù)分析結(jié)果的基礎(chǔ)上,調(diào)整自己的生產(chǎn)、銷售計(jì)劃,進(jìn)一步提升產(chǎn)品的銷量。此外,在市場營銷領(lǐng)域中應(yīng)用數(shù)據(jù)挖掘技術(shù)還能夠幫助企業(yè)更加高效地在客戶群中挖掘出具有高度購買潛力且忠誠度高的客戶,進(jìn)而針對優(yōu)質(zhì)客戶展開客戶關(guān)系維護(hù)。
數(shù)據(jù)挖掘技術(shù)在教育領(lǐng)域的應(yīng)用
數(shù)據(jù)挖掘技術(shù)在教育領(lǐng)域中也有著重要的應(yīng)用價(jià)值。教師可應(yīng)用這一技術(shù)對學(xué)生的情況展開分析,把握學(xué)生的學(xué)習(xí)基礎(chǔ)、認(rèn)知水平、個(gè)性特點(diǎn),再以此為參考,對自身的教學(xué)設(shè)計(jì)展開有針對性的調(diào)整,提升課堂教學(xué)的質(zhì)量。此外,教師也可應(yīng)用數(shù)據(jù)挖掘技術(shù)分析學(xué)生的學(xué)習(xí)成績,了解學(xué)生在學(xué)習(xí)中存在的優(yōu)勢與劣勢,進(jìn)而合理優(yōu)化配置教學(xué)資源,整體提升教學(xué)效率與教學(xué)質(zhì)量。
數(shù)據(jù)挖掘技術(shù)在科學(xué)研究領(lǐng)域的應(yīng)用
科學(xué)研究領(lǐng)域,特別是生物技術(shù)、天文氣象研究領(lǐng)域的信息量極為龐大,應(yīng)用數(shù)據(jù)挖掘技術(shù),能夠更加高效地整合、分析這些數(shù)據(jù)信息,找到其中蘊(yùn)含的規(guī)律,為后續(xù)的決策提供支持。例如對于天文氣象研究領(lǐng)域,可在模型中輸入某一地區(qū)的歷史氣象數(shù)據(jù),運(yùn)用模型判定這一地區(qū)在未來的氣象特征,為氣象研究以及氣象預(yù)報(bào)提供數(shù)據(jù)支持。
綜上所述,在大數(shù)據(jù)時(shí)代,研究、應(yīng)用數(shù)據(jù)挖掘技術(shù),具有重要的理論意義與實(shí)踐意義。同時(shí),這一技術(shù)也具有良好的發(fā)展態(tài)勢與廣闊的發(fā)展空間。相關(guān)工作者應(yīng)當(dāng)重視探索、應(yīng)用這一技術(shù),將這一技術(shù)的優(yōu)勢最大化發(fā)揮到社會的各個(gè)領(lǐng)域之中,緊跟時(shí)代的發(fā)展形勢,為所在行業(yè)創(chuàng)造出更多的經(jīng)濟(jì)效益與社會效益。