黃紅貴 黃加生
摘 要:面向大數(shù)據(jù)的分析而構(gòu)筑起了數(shù)據(jù)科學,來幫助人們分析、處理實際的問題。然而數(shù)據(jù)搜集的模式不斷發(fā)生著翻天覆地的變化,使得統(tǒng)計分析往往因為受到大數(shù)據(jù)方面的影響而隨之革新。另外,刨去以往常見的屬性數(shù)據(jù)以外,目前非結(jié)構(gòu)、半結(jié)構(gòu)還有關系數(shù)據(jù)應運而生,極大充實了數(shù)據(jù)類型,統(tǒng)計的角度同樣有所拓展。隨著數(shù)據(jù)激增并展露在大眾的視野之中,數(shù)據(jù)庫涉及的關聯(lián)信息逐步彰顯了自身的價值。本文由現(xiàn)下統(tǒng)計學研究的狀況以及暴露出的問題入手,面向數(shù)據(jù)科學統(tǒng)計加以了具體的解讀和講解,以求推動這一領域把握未來的機遇,實現(xiàn)持續(xù)的進步。
關鍵詞:大數(shù)據(jù);統(tǒng)計學;內(nèi)涵
曾經(jīng)許多數(shù)據(jù)由于記錄能力方面的約束而只能存儲一部分,但是由目前的知識經(jīng)濟來看,知識增長元素跟隨著知識數(shù)字化元素不斷突破,因而數(shù)據(jù)被視作21世紀新誕生的經(jīng)濟資產(chǎn)類型,所以我們當下既面臨著機遇,同樣要接受挑戰(zhàn)。在數(shù)據(jù)發(fā)揮其作用的過程里,我們需要通過適宜的操作落實計量。然而,現(xiàn)行的大多數(shù)以往的經(jīng)濟統(tǒng)計手法并無法從整體上達到商品目標還有響應服務目標的條件。經(jīng)濟的持續(xù)的發(fā)展離不開三點:數(shù)據(jù)信息生產(chǎn)、數(shù)字分配還有數(shù)字使用內(nèi)容。由于經(jīng)濟增長的作用因素、消費因素還有投資背景的影響過于明顯,進而無法直觀看到數(shù)據(jù)的貢獻,所以面向數(shù)據(jù)科學的探析具有深遠的含義。
1 數(shù)據(jù)科學的解讀
通常來講,統(tǒng)計學分析的大致內(nèi)容就是數(shù)據(jù),然而這一片面的印象讓人們普遍認為數(shù)據(jù)科學元素以及統(tǒng)計學元素存在著千絲萬縷的關聯(lián)。曾經(jīng)出現(xiàn)統(tǒng)計領域的研究者要求面向統(tǒng)計學的內(nèi)容加以新的界定,其后統(tǒng)計學受到了數(shù)據(jù)科學領域的代替,然而二者并不能混為一談。
以上涉及的數(shù)據(jù)在含以上相對寬泛,如果面向具體事物的演變過程以及外觀表現(xiàn)等加以適當?shù)挠涗洠瑫r添加響應符號信息的區(qū)分,這些將被視為是數(shù)據(jù),這里面涉及的還有數(shù)字信息、文字還有音頻等。傳統(tǒng)意義上的統(tǒng)計學包含的數(shù)據(jù)能夠被劃分成眾多類別,這些數(shù)據(jù)紛紛歸入系統(tǒng)結(jié)構(gòu)化的內(nèi)容,然而由數(shù)據(jù)科學的角度出發(fā),數(shù)據(jù)涵蓋的內(nèi)容更加寬泛,被人們稱為大數(shù)據(jù)。
2 數(shù)據(jù)科學統(tǒng)計學內(nèi)涵要素
2.1 基本理論
面向諸如現(xiàn)實復雜數(shù)據(jù)集還有高位數(shù)據(jù)集等的要素,需要獲取達到預測要求的方案,而突出的問題為其對應的可解釋性不強,另外在計算效率以及拓展能力上相對優(yōu)越。以算法為前提,形式對照非參數(shù)方法接近,但響應的要求明顯要弱,因為非參數(shù)方法處于大部分實踐中均需要滿足平滑的條件,分析環(huán)節(jié)內(nèi)將直接跳過函數(shù)機制來搜索預測條件。然而隨之而來的檢驗環(huán)節(jié)的基本前提是預測結(jié)構(gòu)。
2.2 技術維度
由具體實踐來說,數(shù)據(jù)表現(xiàn)出的規(guī)模巨大以及內(nèi)容繁雜將左右統(tǒng)計過程的效果,盡管基本的統(tǒng)計手法沒有出現(xiàn)本質(zhì)上的改動與優(yōu)化,但是涉及的算法與之前截然不同。因此,由某種意義上來說,大數(shù)據(jù)的誕生既給統(tǒng)計學帶來了機遇與挑戰(zhàn),同樣波及到了計算機技術領域,面向技術的可行程度的把握,還有算法的適用與否都屬于一次具體的檢驗。
2.3 應用維度
在面向商業(yè)方面時,數(shù)據(jù)科學受到了全進的詮釋,這一環(huán)節(jié)涵蓋商業(yè)信息數(shù)據(jù)化內(nèi)容。統(tǒng)計學研究者還有數(shù)據(jù)科學分析者不僅需要具備數(shù)據(jù)分析必備的知識以及技術,還要能夠靈敏地察覺到商業(yè)領域各方因素的變動。換一個角度加以解讀就是:數(shù)據(jù)研究者既應該能夠牢牢把握住數(shù)據(jù)來源形式信息,還有可涉及到的存儲調(diào)用信息,同時明確分析基于的手法,以這兩點為基本條件,面向具體實踐進行有關原理的應用,進行合理的分析解讀。在層面上的條件涉及兩點:數(shù)據(jù)科學技術者還有科學家需要由落實工作之初面向數(shù)據(jù)探究過程加以分析,明確其中內(nèi)容,這些不屬于數(shù)據(jù)庫的內(nèi)容、機器學習的知識還有經(jīng)濟學和商業(yè)領域的技巧等。還有一點為,應當以較短的時限落實二級定義,換句話說就是優(yōu)化行內(nèi)體系,引導統(tǒng)計學專家還有商業(yè)分析人員協(xié)同交流。
3 數(shù)據(jù)科學范式面向應用統(tǒng)計分析環(huán)節(jié)的基本影響
由大數(shù)據(jù)分析可行性解讀的過程內(nèi)能夠得到,數(shù)據(jù)的激增將顯著影響到現(xiàn)下的存儲水平,盡管還沒有造成存儲的困境,但是算法將占據(jù)大量內(nèi)存,同時涉及的處理器規(guī)模龐大,出于這方面的考慮,數(shù)據(jù)激增時不可避免的事實。在可行性方面面臨的問題集中于數(shù)據(jù)量龐大,這同樣體現(xiàn)出數(shù)據(jù)科學范式帶給統(tǒng)計分析的作用。伴隨數(shù)據(jù)規(guī)模的進一步增長,算法難度上呈現(xiàn)正相關的關聯(lián)。而普遍存在的大數(shù)據(jù)分析有效性的探索是說:盡管硬件設備已經(jīng)達到了基本應用的條件,然而耗時方面依然沒有得到優(yōu)化,很難在時限之內(nèi)落實任務。面向以上的影響因素,最佳解決手法就是采用并行模式,但是要強調(diào)一點,高性能計算機應當實施并行處理,大數(shù)據(jù)節(jié)點應當實施大規(guī)模數(shù)據(jù)訪問,因而大部分節(jié)點均將受到寬帶的約束處于空閑狀態(tài)。獲取節(jié)點元素內(nèi)的數(shù)據(jù)存儲手段相對普遍,它可以于某些情況中實現(xiàn)快速訪問。
4 結(jié)語
通過以上的分析能夠得到:首先,數(shù)據(jù)科學無法重復使用統(tǒng)計學的重命名,兩方面面向數(shù)據(jù)的解讀并不一致,數(shù)據(jù)科學由于基于相對寬泛的數(shù)據(jù)范疇,進而衍生出了大數(shù)據(jù)的概念。其次,由某些角度出發(fā)來看,大數(shù)據(jù)要檢測的并非統(tǒng)計學理論,而是計算機技術能夠達到相關要求。再次,大數(shù)據(jù)誕生的緣由離不開商業(yè)方面的影響,所以數(shù)據(jù)科學也存在一種解讀方式,將數(shù)據(jù)過渡到具備價值的商業(yè)信息的環(huán)節(jié)。其后,數(shù)據(jù)科學范式將面向統(tǒng)計的方方面面帶來新要求,其中主要涉及數(shù)據(jù)收集還有分析的工作。最后,由于現(xiàn)下針對大數(shù)據(jù)的解讀主要涉及架構(gòu)還有商業(yè)視角,故淡化了統(tǒng)計學方面的區(qū)分。本文面向數(shù)據(jù)科學的統(tǒng)計內(nèi)容加以探索,其目的是幫助這一領域快速發(fā)展,為今后的優(yōu)化做好鋪墊工作。
參考文獻:
[1]張程.數(shù)據(jù)科學的統(tǒng)計學內(nèi)涵探究[J].電大理工,2016,(04):4142.
[2]楊京,王效岳,白如江,祝娜.大數(shù)據(jù)背景下數(shù)據(jù)科學分析工具現(xiàn)狀及發(fā)展趨勢[J]. 情報理論與實踐,2015,38(03):134137+144.
[3]魏瑾瑞,蔣萍.數(shù)據(jù)科學的統(tǒng)計學內(nèi)涵[J].統(tǒng)計研究,2014,31(05):39.
作者簡介:黃紅貴(1997),男,廣東清遠陽山人,本科。