吳胤霖 張必彥 曾科軍
摘要:介紹了大數(shù)據(jù)產(chǎn)生的背景和來源,針對人們對大數(shù)據(jù)進行挖掘和分析的迫切需求,提出了數(shù)據(jù)挖掘和分析的過程,闡述了數(shù)據(jù)挖掘和數(shù)據(jù)分析的幾種方法,最后作了總結(jié)。
關鍵詞:大數(shù)據(jù) 數(shù)據(jù)挖掘 數(shù)據(jù)分析
引言
自計算機和互聯(lián)網(wǎng)技術飛速發(fā)展以來,人們的工作、生活乃至思維方式都受到了巨大的影響。二十一世紀以來,互聯(lián)網(wǎng)得到了快速建設,尤其是移動互聯(lián)網(wǎng)和智能終端迅速普及,導致全世界數(shù)據(jù)量出現(xiàn)爆炸式增長,每年產(chǎn)生的數(shù)據(jù)量已達到ZB量級。如今,各行各業(yè)中己經(jīng)開始積累著大量數(shù)據(jù)??梢詳嘌?,我們正處在一個大數(shù)據(jù)時代。國外的谷歌、亞馬遜,國內(nèi)的阿里巴巴、騰訊等企業(yè)投入了大量的人力和財力到大數(shù)據(jù)的挖掘和分析中并從中獲取了大量的機遇和財富。更多人希望從這些數(shù)據(jù)中獲得機遇和財富,因此也意味著人們對數(shù)據(jù)挖掘和分析提出了更高的要求。
數(shù)據(jù)挖掘就是從大量數(shù)據(jù)中發(fā)現(xiàn)隱藏信息和知識的過程。由于人們面對的數(shù)據(jù)量非常的龐大,數(shù)據(jù)的種類非常的豐富,因此,數(shù)據(jù)挖掘逐漸形成了一個學術領域。數(shù)據(jù)挖掘涵蓋了多個學科的知識,包括數(shù)學、統(tǒng)計學、計算機科學、機器學習等等,在數(shù)據(jù)分析的過程中還會涉及到社會學、經(jīng)濟學、心理學等等。它的目的就是從大數(shù)據(jù)中發(fā)現(xiàn)知識、規(guī)律和趨勢,為決策提供信息參考。數(shù)據(jù)挖掘技術近幾年發(fā)展很快,其成果己被廣泛應用于管理決策、市場分析、人工智能、國家安全和生產(chǎn)控制等領域。
1大數(shù)據(jù)挖掘及分析過程
大數(shù)據(jù)挖掘及分析通常按照以下步驟進行:
(1)明確問題。無論面對何種存儲格式,何種類型的數(shù)據(jù)信息,首先要清晰的定義出問題,明確數(shù)據(jù)挖掘的目的;
(2)數(shù)據(jù)預處理。在面對海量原始數(shù)據(jù)或者大型數(shù)據(jù)庫時,為提高效率,首先要提取出需要進行挖掘的目標數(shù)據(jù)集,然后再對目標數(shù)據(jù)集進行預處理。數(shù)據(jù)預處理的內(nèi)容通常包括檢查數(shù)據(jù)的完整性、數(shù)據(jù)的有效性、量綱的轉(zhuǎn)換復原、去除數(shù)據(jù)噪聲、補全缺失數(shù)據(jù),去除無效數(shù)據(jù)等工作。
(3)數(shù)據(jù)挖掘。根據(jù)數(shù)據(jù)的類型、數(shù)據(jù)的特點以及數(shù)據(jù)挖掘的目的選擇一種或多種恰當?shù)乃惴?,應用于?jīng)過預處理的數(shù)據(jù)集上,進行有目的、有效率的數(shù)據(jù)挖掘。
(4)數(shù)據(jù)分析。對數(shù)據(jù)挖掘的結(jié)果進行解釋和評價,轉(zhuǎn)換成為能夠最終被用戶理解的知識。
2數(shù)據(jù)挖掘的主要方法
目前較為常用的數(shù)據(jù)挖掘方法主要有以下6種:
(1)神經(jīng)網(wǎng)絡方法。神經(jīng)網(wǎng)絡方法是在模擬人腦神經(jīng)組織的基礎上發(fā)展起來的方法,它具有自組織自適應性,適合并行處理和分布存儲,擁有非線性映射能力和容錯能力,非常適合用于數(shù)據(jù)挖掘。在對模型的預測中,該算法具有很強的優(yōu)勢,利用神經(jīng)網(wǎng)絡方法可以對龐大的數(shù)據(jù)信息進行分類,從而對有潛在價值的信息進行定位時,速度快,同時描述也很簡潔,在大規(guī)模數(shù)據(jù)處理時,這種方法的應用性很強。但是神經(jīng)網(wǎng)絡算法也有收斂速度較慢的缺點。
(2)遺傳算法。該算法是一種隨機搜索算法,常用來解決最優(yōu)化問題。學者們受到生物學里遺傳、基因突變和雜交等現(xiàn)象的啟發(fā),從而發(fā)明了這種隨機搜索算法。遺傳算法具有隱含并行性、較好的收斂性和可擴展性等優(yōu)勢,從而在數(shù)據(jù)挖掘中得到了較為廣泛的應用。但是,遺傳算法也有編碼復雜、訓練時間長,而且可能得到的是局部最優(yōu)解而非全局最優(yōu)解等缺點。
(3)粗糙集方法。粗糙集是1982年由波蘭學者首先提出的一種建立在分類基礎上的理論,它的誕生就是為了解決不精確和不確定知識的問題。粗糙集方法在處理不確定問題時不需要先驗信息,而且能在保留信息的前提下有效的對知識約簡,算法也比較簡單。該方法可以和神經(jīng)網(wǎng)絡方法結(jié)合起來使用,能有效加快神經(jīng)網(wǎng)絡的收斂速度。粗糙集方法在很多領域中已經(jīng)得到了廣泛應用,而且自身也處于不斷發(fā)展之中。
(4)模糊集方法。模糊集也是一種研究模糊現(xiàn)象的方法。它以模糊數(shù)學為基礎,通過建立隸屬函數(shù)來對問題進行模糊評判和分析。模糊集方法目前已經(jīng)解決了很多傳統(tǒng)理論無法解決的問題,并且取得了良好的效果,模糊集方法的主要缺點是在需要提高精度的時候,必然會降低決策速度,甚至在一些復雜的系統(tǒng)中無法取得滿意的結(jié)果。
(5)決策樹方法。決策樹是通過樹狀圖來表示思考決策的過程,本質(zhì)上決策樹是用于處理無規(guī)則數(shù)據(jù)的分類規(guī)則方法。該方法特別適合處理大規(guī)模的數(shù)據(jù),從中找到人們希望得到的有用信息。決策樹描述比較簡單,而且擁有較快的分類速度。但它也有對閾值比較敏感的缺點,學者們也正在致力于它的改進之中,以期獲得更好的效果。
(6)統(tǒng)計分析方法。統(tǒng)計分析指的是通過建立數(shù)學模型來研究數(shù)據(jù)、字段之間存在的關系和規(guī)律,從而得出有用的、定量的結(jié)論。它可以揭示數(shù)據(jù)中的邏輯關系和數(shù)量關系,對比分析、回歸分析、結(jié)構分析、相關分析等都是較為常用的分析方法。
3數(shù)據(jù)分析
根據(jù)不同的分析任務可選擇不同的數(shù)據(jù)分析方法。數(shù)據(jù)本身是冰冷的、枯燥的,要想讓數(shù)據(jù)變得生動,易于分析,可以利用圖形圖像處理、計算機視覺等技術,通過把數(shù)據(jù)轉(zhuǎn)化為圖表、三維動畫等形式來便于對數(shù)據(jù)加以進一步的分析.由于大數(shù)據(jù)的特點可以直觀地呈現(xiàn)出來,因此人們可以更容易地從中獲取更多有用的信息。當前,大數(shù)據(jù)分析可以利用Hadoop平臺。Hadoop框架最核心的就是一個分布式文件系統(tǒng)(HDFS)和一個分布式計算系統(tǒng)(MapReduce)。HDFS可以讓多臺計算機協(xié)同工作,數(shù)據(jù)吞吐量大,而且具備較高的容錯性。該系統(tǒng)對計算機硬件要求不高,它在大規(guī)模數(shù)據(jù)處理領域有廣泛而深遠的意義。MapReduce本質(zhì)上是一種并行運算的編程模型,它通過映射和規(guī)約的思想來應對海量的數(shù)據(jù)處理和分析。MapReduce把復雜的任務分解成若干個簡單的任務來處理,然后對前面的結(jié)果進行匯總。由于這種”分而治之”的思想,使得MapReduce擅長處理大數(shù)據(jù)。
4結(jié)束語
數(shù)據(jù)挖掘和分析技術多種多樣,文中介紹了常用的一些方法。每種方法都有自己的優(yōu)勢,同時也有局限性。在實際應用中,需要結(jié)合實際情況,選擇適合的一種方法或者把幾種方法結(jié)合起來使用,才能取得滿意的效果。
參考文獻
[1]程學旗,靳小龍,王元卓.大數(shù)據(jù)系統(tǒng)和分析技術綜述[J].軟件學報,2014,25(9):1889- 1908.
[2 ]劉智慧,張泉靈.大數(shù)據(jù)技術研究綜述[J].浙江大學學報(工學版),2014,48(6):957- 969.
[3]楊舒林,智能分析技術發(fā)展現(xiàn)狀及應用[J]中國公共安全,2015.08(14):207- 209.
[4]劉正濤,王建東.Web數(shù)據(jù)空間技術研究[J]計算機工程與應用,2012{7):12-17.