張景晨 中國人民大學(xué)
統(tǒng)計學(xué)作為一門綜合性比較強的學(xué)科,擁有極大的應(yīng)用價值,在經(jīng)濟生產(chǎn)生活中得到廣泛的應(yīng)用。統(tǒng)計學(xué)的發(fā)展還給實際的生活提供了便利,具體表現(xiàn)為對生活數(shù)據(jù)的處理,統(tǒng)計學(xué)隨著歷史的發(fā)展而不斷更新,在生活中的具體應(yīng)用也在不斷地優(yōu)化和升級。目前隨著互聯(lián)網(wǎng)時代的到來,每天都會有大量的數(shù)據(jù)產(chǎn)生被存儲下來,開始全面進入到海量數(shù)據(jù)的信息化時代,傳統(tǒng)的統(tǒng)計學(xué)方法無法應(yīng)對大數(shù)據(jù)的要求,因此需要根據(jù)時代進行更新,才能進一步促進統(tǒng)計學(xué)理論與實踐的創(chuàng)新,傳統(tǒng)統(tǒng)計學(xué)的變革成為目前社會關(guān)注的熱點也是當(dāng)前迫切需要解決的問題。
21世紀(jì)網(wǎng)絡(luò)技術(shù)不斷的發(fā)展,現(xiàn)代社會逐漸步入網(wǎng)絡(luò)信息化的社會,大數(shù)據(jù)的時代也隨之到來。大數(shù)據(jù)具有四個主要的維度,即數(shù)量大,速度快,數(shù)據(jù)多樣性大,數(shù)據(jù)價值高。具體來說,網(wǎng)絡(luò)信息技術(shù)得到了飛速的發(fā)展,導(dǎo)致過程中產(chǎn)生的數(shù)據(jù)量呈現(xiàn)指數(shù)增長的趨勢,數(shù)據(jù)信息數(shù)據(jù)庫存儲容量的增加以及數(shù)據(jù)信息的內(nèi)容也不斷地豐富起來,預(yù)計在近期,全球所產(chǎn)生的數(shù)據(jù)量將超過50萬億GB。大數(shù)據(jù)的高速化意味著數(shù)據(jù)的生成速度很快,因此是對于數(shù)據(jù)分析能力的考驗以及數(shù)據(jù)存儲技術(shù)具體速度的考驗,從而提高了困難和復(fù)雜大數(shù)據(jù)的處理質(zhì)量。目前數(shù)據(jù)可以產(chǎn)生于多種不同的環(huán)境當(dāng)中,也可以產(chǎn)生于不同的設(shè)備,具有復(fù)雜和多樣性,數(shù)據(jù)中攜帶者鮮明的特征,數(shù)據(jù)的產(chǎn)生可以源于文本,圖片,音頻,視頻,地理信息以及其他材料,例如微信,計算機平臺和移動客戶端;數(shù)據(jù)信息在當(dāng)今時代所攜帶的應(yīng)用價值非常大,存在著較高的信息量,當(dāng)前網(wǎng)絡(luò)信息技術(shù)正在不斷地發(fā)展來應(yīng)對這一點,網(wǎng)絡(luò)信息技術(shù)得到了深層次的發(fā)展,對于業(yè)務(wù)發(fā)展等方面都有者比較大的應(yīng)用價值。但是,當(dāng)前對于數(shù)據(jù)挖掘工作的開展還存在著問題,挖掘的密度較低,并且隨著大數(shù)據(jù)時代的激增,會產(chǎn)生大量的數(shù)據(jù),進一步加大了數(shù)據(jù)挖掘的難度。
在大數(shù)據(jù)時代的背景帶來的機遇和挑戰(zhàn)之下,統(tǒng)計獲得了新的發(fā)展空間和發(fā)展方向,統(tǒng)計學(xué)的重要性和應(yīng)用價值越來越突出。我國教育部將統(tǒng)計學(xué)定為大學(xué)教學(xué)的一級學(xué)科后,開設(shè)了經(jīng)濟統(tǒng)計學(xué),應(yīng)用統(tǒng)計學(xué)和統(tǒng)計學(xué)三個二級學(xué)科。鑒于大數(shù)據(jù)時代的發(fā)展特點,西方國家已經(jīng)建立了統(tǒng)計指導(dǎo)教學(xué)和教育綱要,并從統(tǒng)計軟件編程,統(tǒng)計基礎(chǔ)理論知識,實際應(yīng)用和數(shù)值挖掘等方面提出了統(tǒng)計人才培養(yǎng)標(biāo)準(zhǔn)。我國國務(wù)院于2015年指出,教育部門需要將工作重點放在大數(shù)據(jù)方面,對數(shù)據(jù)應(yīng)用技術(shù)和數(shù)據(jù)等高端技術(shù)人才進行培訓(xùn)和教育。對此應(yīng)該加強數(shù)據(jù)分析和挖掘,以從大數(shù)據(jù)時代的發(fā)展浪潮中獲得知識并且進行廣泛的創(chuàng)新應(yīng)用。
大數(shù)據(jù)既是機遇又是挑戰(zhàn),對社會發(fā)展和進步具有推動作用。大數(shù)據(jù)可以帶動目前關(guān)于統(tǒng)計學(xué)的教育與培訓(xùn)的改革,使得統(tǒng)計學(xué)的教育能夠適合當(dāng)前大數(shù)據(jù)時代背景之下的要求,為社會培養(yǎng)具有綜合應(yīng)用能力的人才,也為具體理論知識的應(yīng)用具有明顯的幫助。此外大數(shù)據(jù)還可以推動相關(guān)理論知識和技術(shù)手段的創(chuàng)新,海量數(shù)據(jù)的處理模式相比于傳統(tǒng)的處理模式而言有很大的不同,因此會帶動包括復(fù)雜數(shù)據(jù)建模方法在內(nèi)的諸多方面的變革與創(chuàng)新。
目前伴隨著大數(shù)據(jù)時代的到來,統(tǒng)計學(xué)的進一步發(fā)展面臨著機遇和挑戰(zhàn)。傳統(tǒng)的統(tǒng)計學(xué)方法在進行數(shù)理統(tǒng)計方面的應(yīng)用時,通常是用隨機抽樣的方式進行,從而得到簡單隨機樣本,在對樣本進行簡化的模型基礎(chǔ)上展開統(tǒng)計量分布繪圖以及統(tǒng)計量的分析計算,來得出不同統(tǒng)計量之間的關(guān)系以及相關(guān)性分析等等。傳統(tǒng)的統(tǒng)計學(xué)是根據(jù)抽樣分析來展開的,建立在樣本分析的基礎(chǔ)上的,從而在小容量的樣本上,對總體數(shù)據(jù)的特點和分布進行估計。大數(shù)據(jù)時代的背景之下,數(shù)據(jù)的獲取渠道合方式逐漸增多了,因此數(shù)據(jù)分析的模式應(yīng)當(dāng)發(fā)生一定程度的轉(zhuǎn)變,對于數(shù)據(jù)整體中發(fā)現(xiàn)重點并分析的方式可以逐漸過渡到對于整體的分析。隨著數(shù)據(jù)范圍的增加,統(tǒng)計難度也變得越來越大,所以需要從統(tǒng)計思維方式上進行改變來應(yīng)對。傳統(tǒng)統(tǒng)計學(xué)中常常采用的技術(shù)手段和相應(yīng)的理論方法,海量數(shù)據(jù)的到來帶來了不小的挑戰(zhàn),已經(jīng)很難將傳統(tǒng)統(tǒng)計學(xué)思維和相應(yīng)的方法應(yīng)用其中,因此對于數(shù)據(jù)整體來講,應(yīng)當(dāng)對總體數(shù)據(jù)進行拆分和清晰化處理,對于不同難度的數(shù)據(jù)進行分別處理,也可以針對不同分類下的問題進行分別處理和分析研究。
傳統(tǒng)統(tǒng)計學(xué)中的研究重點通常是放在數(shù)據(jù)之間因果關(guān)系的推理,例如在傳統(tǒng)的計量經(jīng)濟學(xué)研究中,通常是采用回歸模型進行分析,其中研究的重點是自變量和因變量的關(guān)系遞進分析。統(tǒng)計的分析中常常帶有驗證的成分,運用了很多的數(shù)學(xué)前提,包括正態(tài)分布前提等等,首先需要提出假設(shè),并根據(jù)假設(shè)和數(shù)據(jù)的分布來得到最終結(jié)果是否符合假設(shè)。大數(shù)據(jù)時代之下,數(shù)據(jù)之間的關(guān)聯(lián)性不斷加大,并且數(shù)據(jù)之間的因果關(guān)系變得更加模糊化,在網(wǎng)絡(luò)層面的研究當(dāng)中,相關(guān)性的分析變得更加重要。
傳統(tǒng)統(tǒng)計學(xué)在實際應(yīng)用的過程當(dāng)中僅僅是對少量信息進行分析的,這些信息由于量比較小,所以常常是作為標(biāo)準(zhǔn)化的存儲方式保存的,具有少量的文本信息和數(shù)字信息,常見的方式便是通過電子表格的形式進行保存。目前隨著網(wǎng)絡(luò)層面的科學(xué)技術(shù)不斷地發(fā)展,傳統(tǒng)小規(guī)模的數(shù)據(jù)形式得到了進一步的變化,出現(xiàn)了越來越多的非結(jié)構(gòu)化的儲存方式,包括圖片、音頻視頻、地理位置等等方式,數(shù)據(jù)形式越來越豐富。因此利用傳統(tǒng)的處理軟件很難對海量數(shù)據(jù)進行相應(yīng)的處理,并且處理速度也是比較緩慢。對此統(tǒng)計軟件需要對新的數(shù)據(jù)形式進行相應(yīng)的改革和創(chuàng)新,出現(xiàn)對于不同形式數(shù)據(jù)進行分析的功能,快速識別非結(jié)構(gòu)化的數(shù)據(jù)形式,將非格式化的數(shù)據(jù)形式進行轉(zhuǎn)化,實現(xiàn)此類統(tǒng)計學(xué)的軟件對于提升數(shù)據(jù)分析的效率提升具有很大幫助。
在大數(shù)據(jù)的時代背景和要求之下,數(shù)據(jù)處理的多種方式和環(huán)節(jié)都將會發(fā)生改變,具體體現(xiàn)在數(shù)據(jù)的挖掘和數(shù)據(jù)建模的方面,因此對于傳統(tǒng)統(tǒng)計學(xué)的方法不能夠完全的拋棄,應(yīng)當(dāng)針對原有的統(tǒng)計學(xué)理論和處理方法進行升級和拓展,針對現(xiàn)有的海量數(shù)據(jù)特征來進行復(fù)雜數(shù)據(jù)模型的建模和分析方法實現(xiàn),進一步擴充統(tǒng)計學(xué)的知識體系和應(yīng)用方法。此外還應(yīng)當(dāng)針對數(shù)據(jù)質(zhì)量進行評估,數(shù)據(jù)隨著規(guī)模的不斷提高,對于數(shù)據(jù)質(zhì)量的判斷也越來越困難,數(shù)據(jù)中通常攜帶著大量的噪音,因此需要對數(shù)據(jù)中存在的噪聲信息進行剔除,這也是統(tǒng)計學(xué)變革和創(chuàng)新發(fā)展的著力點。
對于目前教育和培訓(xùn)而言,應(yīng)當(dāng)大力推進教育教學(xué)的改革,嘗試將統(tǒng)計學(xué)和其他學(xué)科的相關(guān)技術(shù)和知識進行融合,形成交叉學(xué)科的培養(yǎng)教育模式,統(tǒng)計學(xué)中涉及理論和實踐方面的能力,在具體的應(yīng)用中也具有其工具方法,因此本身就具有一定的交叉屬性。目前無論是科研還是企業(yè)應(yīng)用方面都需要大數(shù)據(jù)人才,同時也需要大量的數(shù)據(jù)分析方面的專家,因此教育教學(xué)當(dāng)中需要針對社會中對于人才的需要進行相應(yīng)的培養(yǎng),跟進時代潮流,例如將統(tǒng)計學(xué)和管理經(jīng)濟類的學(xué)科進行交叉培養(yǎng),來滿足目前大數(shù)據(jù)行業(yè)對于人才背景的要求。企業(yè)可以組織培訓(xùn)內(nèi)容,聘請行業(yè)內(nèi)專家對員工數(shù)據(jù)分析理論和當(dāng)前先進的統(tǒng)計工具進行教授。
傳統(tǒng)統(tǒng)計學(xué)中對于數(shù)據(jù)的處理方式通常是按照一定的方法流程,進而進行數(shù)據(jù)的統(tǒng)一匯總,基本上過程中數(shù)據(jù)都是具有結(jié)構(gòu)化的特點,諸如保存在電子表格中的數(shù)據(jù)。對于數(shù)據(jù)的分類和預(yù)處理是數(shù)據(jù)處理過程應(yīng)當(dāng)最先進行的事情,也是統(tǒng)計分析中最重要的一個步驟,預(yù)處理的質(zhì)量直接影響統(tǒng)計分析的最終質(zhì)量。大數(shù)據(jù)的來源通常都比較的廣泛,具有多種的形式,因此不能夠簡單的按照傳統(tǒng)統(tǒng)計學(xué)的處理辦法對數(shù)據(jù)進行處理,否則將無法發(fā)揮出大數(shù)據(jù)多樣性帶來的優(yōu)勢,數(shù)據(jù)的完整性也會受到損害。因此對于數(shù)據(jù)信息的完善,就需要研究和創(chuàng)新數(shù)據(jù)處理分析方法,從而對數(shù)據(jù)進行有效地預(yù)處理。
大數(shù)據(jù)的背景之下,數(shù)據(jù)可以是非結(jié)構(gòu)化的數(shù)據(jù)類型,運用運用某些特定的技術(shù)手段就可以實現(xiàn)結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)之間的相互轉(zhuǎn)化,對于兩種數(shù)據(jù)形式的轉(zhuǎn)化問題也是目前關(guān)注度較高的問題。目前現(xiàn)代社會中,每天都會有各種形式的數(shù)據(jù)產(chǎn)生,不同的數(shù)據(jù)加起來便構(gòu)成了海量數(shù)據(jù),因此需要提高海量數(shù)據(jù)的表達方式和水平。在傳統(tǒng)統(tǒng)計學(xué)當(dāng)中,數(shù)據(jù)的推斷更加重要,但是大數(shù)據(jù)的處理框架中,更加偏向數(shù)據(jù)的描述,這一主要特征由大數(shù)據(jù)的多樣性決定。大數(shù)據(jù)通常對于數(shù)據(jù)整體和部分具有比較完整的描述,應(yīng)當(dāng)加強對于結(jié)構(gòu)化數(shù)據(jù)的收集,而對于非結(jié)構(gòu)化數(shù)據(jù)將著重放在對于其中有效信息的挖掘上面。通常非結(jié)構(gòu)數(shù)據(jù)具有一定的抽象性,后期對數(shù)據(jù)進行分析的過程當(dāng)中,需要將非結(jié)構(gòu)化的數(shù)據(jù)根據(jù)某種形式轉(zhuǎn)化為結(jié)構(gòu)化的數(shù)據(jù),在后續(xù)分析的過程中便可以簡潔。
根據(jù)以上的討論,可以得出大數(shù)據(jù)時代背景下給予了統(tǒng)計學(xué)機遇和挑戰(zhàn),大數(shù)據(jù)相對于以往的數(shù)據(jù)特點,除了數(shù)據(jù)量大之外還有多樣性的特點。統(tǒng)計學(xué)對于大數(shù)據(jù)時代下的挑戰(zhàn),應(yīng)該從多個角度尋求創(chuàng)新和變革,來適應(yīng)大數(shù)據(jù)時代背景下各個產(chǎn)業(yè)的要求和整體的發(fā)展,使得大數(shù)據(jù)可以和統(tǒng)計學(xué)產(chǎn)生有機的融合,促進兩門學(xué)科的發(fā)展。需要在大數(shù)據(jù)時代背景下充分把握機遇,促進統(tǒng)計學(xué)的改革,適應(yīng)當(dāng)前形勢下海量數(shù)據(jù)的處理要求,才能全面推進理論和科學(xué)手段的雙方面共同發(fā)展。