譚博中
摘 要:基于數(shù)據(jù)化時代的發(fā)展特點,很多科研工作與行業(yè)發(fā)展都需要通過數(shù)據(jù)分析來獲得發(fā)展依據(jù),數(shù)據(jù)分析工作也顯得越來越重要了。為了完成分析數(shù)據(jù)的任務(wù),現(xiàn)代人對于數(shù)據(jù)分析技術(shù)進行了開發(fā),并獲取了更多的分析方法,計算機在數(shù)據(jù)分析工作之中發(fā)揮了相當重要的作用,應(yīng)用計算機可以以較高的效率處理種類豐富,數(shù)量龐大的數(shù)據(jù)。分析人員需要以分析條件以及數(shù)據(jù)實際情況為準,選出合適的分析方法,本文對幾種常見的分析數(shù)據(jù)的方法展開比較性研究。
關(guān)鍵詞:計算機;數(shù)據(jù)分析;常用方法;比較
數(shù)據(jù)分析已經(jīng)逐漸成為了各個行業(yè)之中的基礎(chǔ)性工作,在對數(shù)據(jù)進行分析之后可以清晰地找出數(shù)據(jù)之間存在的規(guī)律與聯(lián)系,在驗證了規(guī)律的正確性之后,還可以通過合理的方法來運用規(guī)律達到一定的目的,進行而成正確可靠的決策。雖然人們對數(shù)據(jù)分析工作不斷改進,但是需要處理的數(shù)據(jù)量仍在不斷增加,數(shù)據(jù)分析工作逐漸變得更具難度,選擇合適的分析方法頗為關(guān)鍵,本文對常用的數(shù)據(jù)分析方法展開研究,并通過對比來給數(shù)據(jù)分析人員提供參考。
1 數(shù)據(jù)分析工作概述
在了解數(shù)據(jù)分析工作中常用的分析方法時,工作人員需要對數(shù)據(jù)分析這項工作任務(wù)的基本概念有所了解,在數(shù)據(jù)分析工作中,分析人員具有相對較強的目的性,其會對目標數(shù)據(jù)進行收集、整理以及加工,再選定分析方法對數(shù)據(jù)展開多角度的分析工作,借此來將數(shù)據(jù)之間存在的可靠聯(lián)系與科學規(guī)律找出,輔助其他工作,在數(shù)據(jù)分析過程中,提煉出有價值的信息這個環(huán)節(jié)非常重要,在數(shù)據(jù)分析工作結(jié)束之后,工作人員還要對分析過程的各種工作情況進行整理,撰寫出詳細的數(shù)據(jù)分析報告 。
在開展數(shù)據(jù)分析工作時,分析人員一般會從數(shù)據(jù)挖掘方法與統(tǒng)計分析方法兩種方法之中選出合適的分析方法,數(shù)據(jù)分析結(jié)果與選定的分析方法存在極大的聯(lián)系,甚至會給分析結(jié)果的精準度帶去影響,因此可知選對分析方法的意義。
2 數(shù)據(jù)挖掘方法分析
分類分析:決策樹。決策樹是一種樹形結(jié)構(gòu),通過把實例從根節(jié)點排列到某個葉子節(jié)點來分類實例,葉子節(jié)點即為實例所屬的分類。常用的決策樹方法有C4.5、CART和Assistant。決策樹能生成可理解的規(guī)則,計算量相對較小,能夠清晰顯示比較重要的字段,但當類別太多時,錯誤也可能增加較快,比較難預(yù)測連續(xù)性的字段,在一般算法分類時,只根據(jù)一個屬性進行分類,這是其缺點。人工神經(jīng)網(wǎng)絡(luò)。人工神經(jīng)網(wǎng)絡(luò)是一種應(yīng)用類似于大腦神經(jīng)突觸聯(lián)接的結(jié)構(gòu)進行信息處理的數(shù)學模型,它是數(shù)據(jù)挖掘中機器學習的典型代表。簡言之,“神經(jīng)網(wǎng)絡(luò)”就是通過輸入多個非線性模型及不同模型之間的加權(quán)互聯(lián),最終得到一個輸出模型。貝葉斯分類方法。貝葉斯分類方法主要用于預(yù)測類成員間關(guān)系的可能性,它是統(tǒng)計學的一種分類方法。在許多場合,樸素貝葉斯分類算法可以與決策樹和神經(jīng)網(wǎng)絡(luò)分類算法相媲美,該算法能運用到大型數(shù)據(jù)庫中。
回歸分析。數(shù)據(jù)挖掘中的回歸分析主要是指多元線性回歸和邏輯斯蒂回歸,后者多在數(shù)據(jù)化運營中使用。多元線性回歸主要描述一個因變量如何隨著一批自變量的變化而變化,其回歸方程是因變量與自變量關(guān)系的數(shù)據(jù)反映,最常用的是最小二乘法,即找出一組對應(yīng)自變量的相應(yīng)參數(shù),使得因變量的實際觀測值與回歸方程的預(yù)測值之間的總方差減到最小。
聚類分析。聚類分析是指當要分析的數(shù)據(jù)缺乏描述信息,或是無法組成任何分類模式時就采用聚類的方法,將組之間的差異識別出來,并對個別組內(nèi)的相似樣本進行挑選,實現(xiàn)同組數(shù)據(jù)相近,不同組數(shù)據(jù)相異。
3 統(tǒng)計分析方法分析
描述性統(tǒng)計分析。描述性統(tǒng)計分析是通過圖標或數(shù)學方法,對數(shù)據(jù)資料進行整理、分析并對數(shù)據(jù)的分布狀態(tài)、數(shù)字特征和隨機變量之間的關(guān)系進行估計和描述的方法。它分為集中趨勢分析、離中趨勢分析和相關(guān)分析三大部分。集中趨勢分析主要靠平均數(shù)、中數(shù)、眾數(shù)等統(tǒng)計指標來表示數(shù)據(jù)的集中趨勢。離中趨勢分析主要靠全距、四分差、方差、平均差、標準差等統(tǒng)計指標來研究數(shù)據(jù)的離中趨勢。相關(guān)分析是研究現(xiàn)象之間是否存在某種依存關(guān)系,并對具體有依存關(guān)系的現(xiàn)象進行其相關(guān)方向及相關(guān)程度的研究。這種關(guān)系既包括兩個數(shù)據(jù)之間的單一相關(guān)關(guān)系,也包括多個數(shù)據(jù)之間的多重相關(guān)關(guān)系。
回歸分析?;貧w分析是確定兩種或兩種以上變量間相互依賴的定量關(guān)系的一種統(tǒng)計分析方法。按照涉及的自變量的多少,分為回歸和多重回歸分析;按照因變量的多少,分為一元回歸分析和多元回歸分析;按照自變量和因變量之間的關(guān)系類型,分為線性回歸分析和非線性回歸分析。這里講的回歸分析是指一元線性回歸,區(qū)別于數(shù)據(jù)挖掘方法中的多元線性回歸。
關(guān)聯(lián)分析。關(guān)聯(lián)分析又稱關(guān)聯(lián)挖掘,通過分析由定性變量構(gòu)成的交互匯總表從大量數(shù)據(jù)中發(fā)現(xiàn)項集之間有趣的關(guān)聯(lián)和相關(guān)聯(lián)系。其基本思想就是將一個聯(lián)列表的行與列中各個元素的比例結(jié)構(gòu)以點的形式在較低維的空間中表示出來。
因子分析。因子分析是指研究從變量群中提取共性因子的統(tǒng)計技術(shù),即從大量的數(shù)據(jù)中尋找內(nèi)在的聯(lián)系,減輕決策困難的分析方法。因子分析有重心法、最大似然揭發(fā),最小平方法,拉奧典型抽因法等,都以相關(guān)系數(shù)矩陣為基礎(chǔ)。
方差分析。方差分析又稱“變異數(shù)分析”或“F檢驗”,用于兩個及兩個以上樣本均數(shù)差別的顯著性檢驗。研究所得的數(shù)據(jù)一般呈現(xiàn)波動狀。造成波動的原因可分成兩類,一類是不可控的隨機因素,另一類是研究中施加的對結(jié)果形成影響的可控因素。方差分析是從觀測變量的方差入手,研究諸多控制變量中哪些變量是對觀測變量有顯著影響的變量。
4 兩種分析方法對比分析
前文詳細地介紹了數(shù)據(jù)挖掘方法與統(tǒng)計分析方法,對兩種類型的分析工作的實現(xiàn)途徑進行了詳細地解析,以下是對這兩種分析方法的對比情況。
從理論來源的角度來看,這兩種分析方法理論基礎(chǔ)都是統(tǒng)計基礎(chǔ)理論,在統(tǒng)計方法中的隨機事件與概率均來自于統(tǒng)計學,另外抽樣分析也與該理論存在聯(lián)系,而在數(shù)據(jù)挖掘系統(tǒng)之中應(yīng)用的貝葉斯分類法也可以被看做是基礎(chǔ)統(tǒng)計理論的延伸,因此可以明確兩種分析方法雖然具有存在差異的分析途徑,但是卻具有同樣的理論研究基礎(chǔ)。
在分析實踐工作之中,兩種方法之間存在的差異就很明顯了,應(yīng)用統(tǒng)計分析方法時,工作人員需要先給出判斷與假設(shè),再應(yīng)用其他的數(shù)據(jù)分析技術(shù)來對已有的判定以及假設(shè)進行驗證,在分析中會形成很多函數(shù)關(guān)系式,而選用數(shù)據(jù)挖掘技術(shù)時,工作人員會直接通過算法找尋數(shù)據(jù)間的主要聯(lián)系,并不需要應(yīng)用大量的函數(shù)關(guān)系式,因此可知在處理數(shù)量較大的數(shù)據(jù)時可以有限選用數(shù)據(jù)挖掘技術(shù)。
5 結(jié)束語
本文重點介紹的兩種分析方法是當前的數(shù)據(jù)統(tǒng)計工作中應(yīng)用頻次最高的分析方法。分析人員在不同的客觀分析條件之下可以選擇應(yīng)用不同的方法,也可以按照分析工作的不同階段來對不同的分析方法加以與應(yīng)用,先借助統(tǒng)計分析工作對數(shù)據(jù)進行整體性地處理,再通過數(shù)據(jù)挖掘技術(shù)對數(shù)據(jù)進行深度分析,本文還簡單地對兩種數(shù)據(jù)分析方法進行了對比,數(shù)據(jù)分析人員在方法選擇方面要保持一定的靈活性,規(guī)范地開展數(shù)據(jù)分析工作,切實將數(shù)據(jù)分析工作的作用在預(yù)測與方案制定等工作中發(fā)揮出來。
參考文獻:
[1]趙禹.(2016). 計算機數(shù)據(jù)分析常用方法與比較. 數(shù)字技術(shù)與應(yīng)用(3), 256-256.
[2]梁萌, & 管陽. (2017). 基于并行數(shù)據(jù)庫的海量數(shù)據(jù)分析處理方法的研究. 電子設(shè)計工程, 25(10), 132-135.
[3]康曉鷹. (2017). 對計算機分析處理技術(shù)中的數(shù)據(jù)分析的探析. 中國培訓(2), 71-71.
[4]宋智廣. (2017). 基于計算機輔助設(shè)計的數(shù)據(jù)處理方法和裝置.CN 103810351 B.