陳赟赟
(溫州商學(xué)院,浙江溫州325000)
大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘技術(shù)研究
陳赟赟
(溫州商學(xué)院,浙江溫州325000)
隨著大數(shù)據(jù)時(shí)代的到來,互聯(lián)網(wǎng)絡(luò)、社交平臺等都在拓展其覆蓋范圍,各種各樣的數(shù)據(jù)信息不斷擴(kuò)張。雖然大數(shù)據(jù)中蘊(yùn)含著很多有價(jià)值的信息,但怎樣從海量的信息中獲取到用戶最需要的,是我們必須應(yīng)對的挑戰(zhàn)。該文就大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘技術(shù)展開分析。
大數(shù)據(jù)時(shí)代;數(shù)據(jù)挖掘;研究
大數(shù)據(jù)(Big Data),也可以稱之為海量數(shù)據(jù),是近年來隨著信息網(wǎng)絡(luò)技術(shù)的飛速發(fā)展而出現(xiàn)的一個(gè)新的概念。我們的工作、生活中有意無意地產(chǎn)生了大量的數(shù)據(jù)信息,比如網(wǎng)絡(luò)瀏覽,微信聊天,文字圖片,網(wǎng)絡(luò)購物等等。而怎樣有效地整理、分析這些數(shù)據(jù),使其能夠?yàn)槲覀兯?,是?dāng)前人們所關(guān)注的熱點(diǎn)課題。而應(yīng)用好數(shù)據(jù)挖掘技術(shù),從海量的數(shù)據(jù)信息中挖掘最有價(jià)值的那一部分,變得尤為關(guān)鍵。
隨著信息網(wǎng)絡(luò)技術(shù)的飛速發(fā)展,以及網(wǎng)絡(luò)瀏覽,微信聊天,網(wǎng)絡(luò)購物等的普及應(yīng)用,全球數(shù)據(jù)呈現(xiàn)出爆發(fā)式的擴(kuò)張,僅在2011年,就超過了1.8萬億GB。IDC(Internet Data Center,互聯(lián)網(wǎng)絡(luò)數(shù)據(jù)中心)預(yù)估,到2020年這一數(shù)值會擴(kuò)大五十倍。無可置疑的是,我們已然邁入大數(shù)據(jù)時(shí)代。一方面,通過云計(jì)算技術(shù)為這些龐大的數(shù)據(jù)提供了可靠地存儲平臺,另一方面,通過數(shù)據(jù)挖掘技術(shù)從中挖掘、整理、分析,以為相關(guān)用戶提供所需要的信息。
數(shù)據(jù)挖掘正在發(fā)展成為一種通過IT技術(shù)對企業(yè)運(yùn)營產(chǎn)生重大影響的管理策略。從其概念上來說,數(shù)據(jù)挖掘指的是這樣的一個(gè)過程:從海量、模糊、隨機(jī)的數(shù)據(jù)信息中挖掘得到有價(jià)值的、可用的數(shù)據(jù),進(jìn)而加以利用,為企業(yè)決策提供參考。應(yīng)用科學(xué)、合理的方式方法,在各個(gè)領(lǐng)域慢慢累積而來的龐大數(shù)據(jù)中,是能夠?qū)ふ业阶钣袃r(jià)值信息的。特別是在部分信息化發(fā)展及應(yīng)用比較多的領(lǐng)域,更是如此。例如:隨著銀行業(yè)的現(xiàn)代化發(fā)展,信息化建設(shè)逐漸趨于完善,每一天都會獲取到大量的數(shù)據(jù),包括用戶的存取款信息、交易信息等等,數(shù)據(jù)挖掘在其中的應(yīng)用意義重大。
數(shù)據(jù)的挖掘離不開可靠地分析方法,利用各種算法才能進(jìn)行有效的數(shù)據(jù)挖掘,尋找到海量數(shù)據(jù)中蘊(yùn)藏的規(guī)律。通過對各種分析手段的運(yùn)用,能夠解決好各種類型的問題,而在實(shí)際應(yīng)用中我們更要根據(jù)目標(biāo)需要,使用最合適的方法。當(dāng)前,最為常用的分析手段主要有以下幾種。
1)聚類分析。指的是對某些事物的集合實(shí)現(xiàn)分組,并構(gòu)成由類似的事物所集合的各種分類的相應(yīng)過程,其最終目標(biāo)就是借助類似的方法來獲取數(shù)據(jù)分類。這是一種無預(yù)期,無監(jiān)督的過程,從所給數(shù)據(jù)中尋找到有價(jià)值的部分,并將其設(shè)置于一個(gè)相應(yīng)的類。這與分類是不一樣的,由于其并不能知道其相應(yīng)的屬性。我們可以利用聚類來獲知對象之間類聚的某些規(guī)律。當(dāng)前,該種方法已被大量的使用在心理學(xué)、醫(yī)學(xué)、智能設(shè)備等行業(yè)。其按照隸屬度的不同一般分為以下兩類:硬聚類、模糊聚類。前者指的是將事物劃撥到相距最近聚類的類,不是這一個(gè),就是那一個(gè),也就是只能屬于某一類。后者指的是按照隸屬度的相應(yīng)范圍的不同差別來劃撥,給出的某一樣本很有可能是屬于多個(gè)類型的類。兩者是不同的。
2)分類和預(yù)測。這屬于問題預(yù)測的兩個(gè)重要類型。分類,是預(yù)估分類(離散、無序的)標(biāo)號,而預(yù)測則是構(gòu)建連續(xù)值函數(shù)模型。分類,可以說是數(shù)據(jù)挖掘的基礎(chǔ)性步驟,它是對可預(yù)計(jì)的訓(xùn)練數(shù)據(jù)集呈現(xiàn)出的相應(yīng)特性,獲取各個(gè)類別的描述或特征來構(gòu)建有關(guān)的分類。它是一種存在監(jiān)督的學(xué)習(xí)過程,是按照訓(xùn)練數(shù)據(jù)集獲悉確定性描述來區(qū)分類別。分類方法有許多種,較為常用的包括:決策樹、貝葉斯、神經(jīng)網(wǎng)路等等。預(yù)測,則是按照分類以及回歸來預(yù)估以后的規(guī)律。較為常用的預(yù)測方法包括:局勢外推法、回歸分析法等。
3)關(guān)聯(lián)分析。我們在日常生活中常常會發(fā)現(xiàn),事物之間是具有盤根錯(cuò)節(jié)的關(guān)聯(lián)的,當(dāng)一個(gè)意外出現(xiàn)時(shí),就會引發(fā)更多意外的出現(xiàn)。關(guān)聯(lián)分析這一方法,就是應(yīng)用事物之間密切的關(guān)聯(lián)性來獲知它們之間的某些規(guī)律,接著利用發(fā)現(xiàn)的規(guī)律進(jìn)行預(yù)估。比如:典型的案例購物籃分析,就是利用對消費(fèi)者購物籃中商品的排列規(guī)律來進(jìn)行分析,以獲得消費(fèi)者的消費(fèi)心理及特點(diǎn),接著再依靠這些規(guī)律來為商場營銷對策的制定提供參考。
1)科研領(lǐng)域。在目前的科研領(lǐng)域,常常要進(jìn)行各種各樣的實(shí)驗(yàn)數(shù)據(jù)的整理、分析,并努力尋找其中蘊(yùn)含的規(guī)律,而這就要用到數(shù)據(jù)挖掘技術(shù),以及相應(yīng)的算法,有效的運(yùn)用數(shù)據(jù)挖掘算法能夠迅速地找到數(shù)據(jù)中蘊(yùn)含的規(guī)律,以及某些前所未見的理論、知識。比如,對未知領(lǐng)域的探求、對人體DNA的分析等等.
2)制造領(lǐng)域。在該領(lǐng)域,我們可以借助于對生產(chǎn)過程中的數(shù)據(jù)分析,來有效地提升生產(chǎn)效率以及產(chǎn)品質(zhì)量,比如找出導(dǎo)致產(chǎn)品誤差的原因,找到限制生產(chǎn)率提升的原因,發(fā)現(xiàn)制造、生產(chǎn)過程中的各類變化因素等,進(jìn)而對相應(yīng)的步驟及技術(shù)加以改進(jìn),從而進(jìn)一步提升企業(yè)的經(jīng)濟(jì)效益。
3)通信領(lǐng)域。隨著通信行業(yè)的迅速發(fā)展,其技術(shù)、服務(wù)都已發(fā)展為一個(gè)極為復(fù)雜的數(shù)據(jù)載體,不但與當(dāng)前的市場有關(guān),更與未來的發(fā)展有關(guān)。在將現(xiàn)有的各種信息加以整合,并想要實(shí)現(xiàn)互動溝通的過程中,形成了龐大的數(shù)據(jù),怎樣從其中找到相應(yīng)的規(guī)律,已是通信行業(yè)想要發(fā)展必須解決的一個(gè)問題。而數(shù)據(jù)挖掘的應(yīng)用,恰能對這一問題加以解決,以促進(jìn)行業(yè)的可持續(xù)發(fā)展,比如:對系統(tǒng)載荷、通訊速率、數(shù)據(jù)容量、用戶反應(yīng)等情況的分析;應(yīng)用聚類分析,找到盜用模式或者異常狀況;應(yīng)用關(guān)聯(lián)及序列分析,找到困擾通信行業(yè)發(fā)展的某些因素,從而更好地促進(jìn)通信業(yè)務(wù)的改善。
隨著時(shí)代的發(fā)展,各種各樣的數(shù)據(jù)信息不斷擴(kuò)張、變化,擁有了更為復(fù)雜多變的形式。這就需要我們應(yīng)用數(shù)據(jù)挖掘技術(shù),努力從中找到相應(yīng)的規(guī)律及知識,同時(shí),很多行業(yè)也正在對空間、時(shí)序等數(shù)據(jù)進(jìn)行挖掘與分析。而大數(shù)據(jù)也推動著云計(jì)算的發(fā)展壯大,基于云計(jì)算的數(shù)據(jù)挖掘得以迅速發(fā)展。
[1]李濤,曾春秋,周武柏,等.大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘——從應(yīng)用的角度看大數(shù)據(jù)挖掘[J].大數(shù)據(jù),2015,1(4):57-80.
[2]李祥歌,王奇奇,郭軼博.基于大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘及分析[J].電子制作,2015(3).
[3]史夢楚.數(shù)據(jù)挖掘在大數(shù)據(jù)時(shí)代下的應(yīng)用[J].中國新通信,2017(8):88-88.
TP311
A
1009-3044(2017)24-0023-02
2017-05-26
陳赟赟(1985—),男,浙江溫州人,本科學(xué)歷,研究方向?yàn)樾畔⑾到y(tǒng)。