互聯(lián)網(wǎng)的普及已經(jīng)產(chǎn)生了一個(gè)大數(shù)據(jù)的時(shí)代,人們的方方面面都產(chǎn)生了大量的網(wǎng)絡(luò)數(shù)據(jù)信息,大數(shù)據(jù)時(shí)代的數(shù)據(jù)量更大、結(jié)構(gòu)更復(fù)雜,因而從大數(shù)據(jù)中挖掘有價(jià)值的信息資源具有重要意義。大數(shù)據(jù)人才要求具備數(shù)學(xué)、計(jì)算機(jī)、統(tǒng)計(jì)學(xué)的綜合知識(shí)。本文主要從人才素質(zhì)的培養(yǎng)、知識(shí)結(jié)構(gòu)的形成、課程設(shè)置的調(diào)整以及應(yīng)用型人才的培養(yǎng)四個(gè)方面,對(duì)大數(shù)據(jù)時(shí)代的統(tǒng)計(jì)學(xué)教育提出了相應(yīng)的建議。
大數(shù)據(jù)最重要的特征是具有"4V"的特點(diǎn),即Volume、Velocity、Variety和Veracity:1.數(shù)量大,其數(shù)量已經(jīng)達(dá)到了PB級(jí)和 ZB級(jí)別;2.類(lèi)型多,數(shù)據(jù)的結(jié)構(gòu)類(lèi)型多樣,包括網(wǎng)頁(yè)、圖片、音頻、視頻等格式的數(shù)據(jù);3.高效。如今數(shù)據(jù)的產(chǎn)生十分迅速,同時(shí)也需要高效的數(shù)據(jù)處理迅速對(duì)其作出反應(yīng),高效、及時(shí)、連續(xù)不斷的的數(shù)據(jù)監(jiān)測(cè)、處理,可以避免數(shù)據(jù)死角,實(shí)現(xiàn)全方位監(jiān)測(cè),提取有價(jià)值的信息。4.真實(shí)性。真實(shí)是數(shù)據(jù)處理的最終目的,大數(shù)據(jù)可以通過(guò)適當(dāng)?shù)慕y(tǒng)計(jì)學(xué)的研究工具和方法獲得真實(shí)的數(shù)據(jù)分析結(jié)果,但由于大數(shù)據(jù)的易得性和泛濫性,導(dǎo)致數(shù)據(jù)的信噪比越來(lái)越大,數(shù)據(jù)的真實(shí)性受到了挑戰(zhàn),所以需要通過(guò)新的統(tǒng)計(jì)工具和方法降低信噪比。
大數(shù)據(jù)對(duì)傳統(tǒng)產(chǎn)業(yè)造成了沖擊,比如傳統(tǒng)的媒體報(bào)紙行業(yè)日漸沒(méi)落,而互聯(lián)網(wǎng)企業(yè)則發(fā)展迅猛,任何行業(yè)都可以通過(guò)做“互聯(lián)網(wǎng)+”得到快速發(fā)展。大數(shù)據(jù)促使信息獲取方式的變革,較大的樣本量也變得極容易收集,數(shù)據(jù)的維度也在不斷的擴(kuò)張。比如人們?cè)谟^(guān)看視頻和網(wǎng)絡(luò)新聞時(shí)表的評(píng)論也成為了信息的監(jiān)測(cè)的對(duì)象,增加數(shù)據(jù)來(lái)源的渠道。大數(shù)據(jù)促使信息推送方式也就是廣告的變革,瀏覽器通過(guò)追蹤定位記錄用戶(hù)瀏覽的信息,廣告商根據(jù)用戶(hù)訪(fǎng)問(wèn)記錄投放更加精準(zhǔn)的廣告,從而帶來(lái)了一個(gè)精準(zhǔn)營(yíng)銷(xiāo)的時(shí)代,數(shù)據(jù)是企業(yè)了解市場(chǎng)與自身發(fā)展趨勢(shì)的主要依據(jù),但是國(guó)內(nèi)由于大數(shù)據(jù)起步較晚,還沒(méi)有建立起為大數(shù)據(jù)人才制定的一套獨(dú)有的教育模式,而統(tǒng)計(jì)學(xué)是研究數(shù)據(jù)的學(xué)科,因此從統(tǒng)計(jì)學(xué)入手培養(yǎng)數(shù)據(jù)人才是目前最便捷的教育方式。大數(shù)據(jù)與統(tǒng)計(jì)學(xué)二者是有緊密聯(lián)系的,體現(xiàn)在對(duì)數(shù)據(jù)的處理流程有很多相似之處,都需要做數(shù)據(jù)采集和分析。但二者也有區(qū)別,主要體現(xiàn)在研究目的和技術(shù)上。大數(shù)據(jù)的目的是挖掘出商業(yè)投資、金融分析、風(fēng)險(xiǎn)管理和醫(yī)療健康等領(lǐng)域的有價(jià)值的信息,涉及的技術(shù)有數(shù)據(jù)庫(kù)、分布式文件系、云計(jì)算平臺(tái)、互聯(lián)網(wǎng)和可擴(kuò)展的存儲(chǔ)系統(tǒng)等。而統(tǒng)計(jì)學(xué)主要目的是發(fā)現(xiàn)數(shù)據(jù)背后的本質(zhì)和規(guī)律,以概率論、抽樣推斷和相關(guān)回歸分析等數(shù)理統(tǒng)計(jì)原理為研究方法。因此,如何利用統(tǒng)計(jì)學(xué)的傳統(tǒng)優(yōu)勢(shì),對(duì)統(tǒng)計(jì)學(xué)教育進(jìn)行改革,培養(yǎng)大數(shù)據(jù)人才是本文主要探討的內(nèi)容。
大數(shù)據(jù)時(shí)代的統(tǒng)計(jì)學(xué)教育首先需要培養(yǎng)學(xué)生的自學(xué)能力,因?yàn)樾枰鄬W(xué)科的知識(shí)融合。其次,是溝通能力的培養(yǎng)。大數(shù)據(jù)統(tǒng)計(jì)工作者在工作中需要經(jīng)常會(huì)與各個(gè)部門(mén)的員工交流溝通,傳達(dá)結(jié)論給產(chǎn)品經(jīng)理和工程師,共同確立最合適方案,并能將專(zhuān)業(yè)的數(shù)據(jù)分析結(jié)果用通俗易懂的語(yǔ)言表達(dá)出來(lái),可通過(guò)積極的多參加演講活動(dòng)培養(yǎng)數(shù)據(jù)人才優(yōu)秀的溝通表達(dá)能力;最后,需要培養(yǎng)數(shù)據(jù)敏感性,提高其視野和眼界。數(shù)據(jù)科學(xué)家經(jīng)常面對(duì)各種各樣的海量數(shù)據(jù),并需要從這些數(shù)據(jù)中挖掘出有價(jià)值的信息,這就需要數(shù)據(jù)科學(xué)家具有強(qiáng)烈的數(shù)據(jù)敏感性。數(shù)據(jù)敏感性是無(wú)法一蹴而就的,而是通過(guò)長(zhǎng)期的數(shù)據(jù)分析工作和閱讀數(shù)據(jù)分析報(bào)告的經(jīng)驗(yàn)積累的。
統(tǒng)計(jì)學(xué)家是需要具備數(shù)學(xué)、統(tǒng)計(jì)、計(jì)算機(jī)知識(shí)的綜合型數(shù)據(jù)人才,因此統(tǒng)計(jì)學(xué)學(xué)生不僅要學(xué)習(xí)統(tǒng)計(jì)學(xué)理論知識(shí),還要學(xué)習(xí)計(jì)算機(jī)和數(shù)學(xué)方面的知識(shí)。計(jì)算機(jī)方面,熟練應(yīng)用計(jì)算機(jī)軟件是數(shù)據(jù)人才進(jìn)行數(shù)據(jù)分析的基礎(chǔ)。因此,企業(yè)招聘統(tǒng)計(jì)數(shù)據(jù)人才時(shí)一般都會(huì)要求其至少會(huì)使用一種腳本語(yǔ)言,如 Python、PHP等,精通數(shù)據(jù)庫(kù)和SQL,會(huì)使用R、MATLAB、SAS等分析工具以及可以使用Map Reduce、Hadoop、Hive等計(jì)算工具,可用 Hadoop、Pig做大數(shù)據(jù)分析,可以編寫(xiě)復(fù)雜 SQL查詢(xún)流程,可以用數(shù)據(jù)庫(kù)、統(tǒng)計(jì)軟件編寫(xiě)程序代碼。數(shù)學(xué)方面,除了高等數(shù)學(xué)、線(xiàn)性代數(shù)、概率論等基礎(chǔ)課程,還應(yīng)該學(xué)習(xí)隨機(jī)過(guò)程論、函數(shù)逼近論、圖論等方面的知識(shí)。因?yàn)殡S著數(shù)據(jù)分析研究問(wèn)題的深入,所有的統(tǒng)計(jì)問(wèn)題、計(jì)算機(jī)問(wèn)題的本質(zhì)都是回歸到數(shù)學(xué)問(wèn)題,只有擁有更加有深度的數(shù)學(xué)理論知識(shí),才能滿(mǎn)足大數(shù)據(jù)時(shí)代數(shù)據(jù)科學(xué)家的需要。
我國(guó)目前的統(tǒng)計(jì)學(xué)研究生教育課程設(shè)置更偏向于經(jīng)濟(jì)統(tǒng)計(jì)方向、數(shù)理統(tǒng)計(jì)方向、金融統(tǒng)計(jì)與風(fēng)險(xiǎn)管理方向。統(tǒng)計(jì)學(xué)研究生必修課包括高等概率論、高等數(shù)理統(tǒng)計(jì)、回歸分析、多元統(tǒng)計(jì)、時(shí)間序列分析、探索性數(shù)據(jù)分析、統(tǒng)計(jì)調(diào)查和英語(yǔ)、思政等;選修課包括金融統(tǒng)計(jì)實(shí)務(wù)、定性數(shù)據(jù)分析、金融風(fēng)險(xiǎn)管理、投資學(xué)、金融計(jì)算等。顯然這樣的課程設(shè)計(jì)缺少計(jì)算機(jī)方面的課程,但是所有數(shù)據(jù)分析的實(shí)現(xiàn)都需要計(jì)算機(jī)來(lái)完成,包括計(jì)算機(jī)語(yǔ)言、數(shù)據(jù)庫(kù)、數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)可視化等。其中,數(shù)據(jù)可視化是一項(xiàng)比較新的技術(shù),即用API把圖形、表格、地圖、Dashboard等相關(guān)服務(wù)有機(jī)結(jié)合,使分析結(jié)果簡(jiǎn)單易懂,將數(shù)據(jù)結(jié)果與設(shè)計(jì)結(jié)合起來(lái),讓深?yuàn)W難懂的分析結(jié)果以簡(jiǎn)單易懂、生動(dòng)有趣的形式進(jìn)行圖形化的信息展現(xiàn)。綜上所述,大數(shù)據(jù)時(shí)代已經(jīng)到來(lái),我們的課程設(shè)置應(yīng)做出相應(yīng)的調(diào)整。下面是美國(guó)某大學(xué)的數(shù)據(jù)分析專(zhuān)業(yè)的主要課程設(shè)置,其多元化的課程設(shè)計(jì)十分具有參考價(jià)值。
其在數(shù)據(jù)挖掘方面的課程有聚類(lèi)、關(guān)聯(lián)性規(guī)則、因子分析、存活時(shí)間分析、邏輯回歸、非線(xiàn)性回歸、多元統(tǒng)計(jì)分析等。在數(shù)據(jù)分析方面的課程有時(shí)間軸分析、主成分分析、非參數(shù)回歸、統(tǒng)計(jì)流程控制、非結(jié)構(gòu)化數(shù)據(jù)概念的學(xué)習(xí)、Map Reduce技術(shù)、大數(shù)據(jù)分析方法、時(shí)間序列分析、概率模型與優(yōu)化、多目的決策分析、決策樹(shù)、影響圖、敏感性分析等,在數(shù)據(jù)管理方面的課程有ETL(Extract、Tr ansform、Load)、數(shù)據(jù)治理、管理責(zé)任等。在計(jì)算機(jī)軟件方面的課程有數(shù)據(jù)模型、數(shù)據(jù)庫(kù)設(shè)計(jì)、WEBUI設(shè)計(jì)、企業(yè)門(mén)戶(hù)設(shè)計(jì)實(shí)踐、云計(jì)算概述、資訊門(mén)戶(hù)系統(tǒng)數(shù)據(jù)庫(kù)建模設(shè)計(jì)實(shí)踐 、Java核心技術(shù)、Java Web開(kāi)發(fā)技術(shù)、編譯原理、高級(jí)軟件工程等。選修類(lèi)課程有社交網(wǎng)絡(luò)分析、多元統(tǒng)計(jì)分許與 R語(yǔ)言建模、流數(shù)據(jù)分析技術(shù)、數(shù)據(jù)可視化技術(shù)、計(jì)算廣告學(xué)、商業(yè)智能、大數(shù)據(jù)技術(shù)與應(yīng)用前沿技術(shù)講座等。
由此可見(jiàn),大數(shù)據(jù)時(shí)代的數(shù)據(jù)分析工作需要數(shù)學(xué)、計(jì)算機(jī)以及統(tǒng)計(jì)學(xué)三個(gè)學(xué)科的緊密結(jié)合,通過(guò)三個(gè)不同的學(xué)科進(jìn)行聯(lián)合培養(yǎng),對(duì)原有課程進(jìn)行調(diào)整,應(yīng)根據(jù)新時(shí)代人才培養(yǎng)的要求,增設(shè)新的與大數(shù)據(jù)前沿領(lǐng)域發(fā)展相關(guān)的課程,如計(jì)算機(jī)網(wǎng)絡(luò)和大數(shù)據(jù)相關(guān)軟件的應(yīng)用教程,進(jìn)行不同課程之間的合并重組和統(tǒng)籌安排,在已有課程中提高社會(huì)實(shí)踐教育課程的比重,引導(dǎo)學(xué)生正確認(rèn)識(shí)大數(shù)據(jù)和大數(shù)據(jù)時(shí)代,培養(yǎng)其運(yùn)用大數(shù)據(jù)的相關(guān)分析工具解決實(shí)際問(wèn)題的能力,促使其學(xué)習(xí)更多處理不同數(shù)據(jù)結(jié)構(gòu)的知識(shí),例如圖像處理、視頻處理、自然語(yǔ)言處理、文本處理、語(yǔ)言識(shí)別等課程,這些專(zhuān)業(yè)課程可根據(jù)企業(yè)的供需有選擇的學(xué)習(xí)。
大數(shù)據(jù)時(shí)代培養(yǎng)的數(shù)據(jù)人才不僅需要掌握扎實(shí)的理論知識(shí)和具備基本素養(yǎng),也需要具備實(shí)踐應(yīng)用能力。因此,研究生教育可以建立導(dǎo)師雙軌制,一名校內(nèi)導(dǎo)師一名校外導(dǎo)師,可通過(guò)校企合作的方式進(jìn)行研究生的聯(lián)合培養(yǎng),注重學(xué)生的實(shí)際操作能力。校內(nèi)導(dǎo)師注重學(xué)生的理論性,校外導(dǎo)師注重學(xué)生的實(shí)踐性,學(xué)生通過(guò)在校外導(dǎo)師所在的企業(yè)實(shí)習(xí),學(xué)??梢阅承┢髽I(yè)中建立專(zhuān)業(yè)性教育實(shí)踐基地,鼓勵(lì)學(xué)生到大數(shù)據(jù)相關(guān)的企業(yè)中去做相關(guān)項(xiàng)目的社會(huì)實(shí)踐,從而熟悉并且掌握實(shí)際工作中所需要的技能,總而言之,雙導(dǎo)師制為大數(shù)據(jù)時(shí)代培養(yǎng)應(yīng)用型數(shù)據(jù)分析提供了一個(gè)可供學(xué)生接觸大數(shù)據(jù)的平臺(tái)。此外,研究方向、培養(yǎng)目標(biāo)也需要與時(shí)俱進(jìn),新的研究方向需要被建立,如大數(shù)據(jù)分析、計(jì)算廣告學(xué)等方向。不同的研究方向應(yīng)配置不同的培養(yǎng)方案與體系和針對(duì)該研究方向的審核方式。與之相同需要與時(shí)俱進(jìn)的是培養(yǎng)目標(biāo),大數(shù)據(jù)時(shí)代的培養(yǎng)目標(biāo)并不僅僅是像以前那樣進(jìn)行數(shù)據(jù)的收集、整理與分析那么簡(jiǎn)單,而是要求學(xué)生掌握新的研究方法,掌握大數(shù)據(jù)時(shí)代數(shù)據(jù)科學(xué)家所需要的專(zhuān)業(yè)技術(shù),可以獨(dú)立完成數(shù)據(jù)的分析,有價(jià)值信息的提取以及成為做出響應(yīng)決策。
面對(duì)大數(shù)據(jù)時(shí)代的諸多挑戰(zhàn),培養(yǎng)統(tǒng)計(jì)學(xué)人才的教育模式也得與時(shí)俱進(jìn),做出相應(yīng)變革,推動(dòng)統(tǒng)計(jì)學(xué)和數(shù)學(xué)、計(jì)算機(jī)學(xué)科的合作,從而為適應(yīng)大數(shù)據(jù)時(shí)代的發(fā)展趨勢(shì)培養(yǎng)更加全面、更加專(zhuān)業(yè)的復(fù)合型數(shù)據(jù)人才,使得海量數(shù)據(jù)的市場(chǎng)價(jià)值不斷被挖掘和實(shí)現(xiàn)。綜上所述,統(tǒng)計(jì)學(xué)教育的改革不是一朝一夕的事情,而是一個(gè)不斷發(fā)展和不斷進(jìn)步的過(guò)程,需要多學(xué)科的合作,從而更好的應(yīng)對(duì)大數(shù)據(jù)時(shí)代的挑戰(zhàn)。
[1]耿直.大數(shù)據(jù)時(shí)代統(tǒng)計(jì)學(xué)面臨的機(jī)遇與挑戰(zhàn)[J].統(tǒng)計(jì)研究,2014(1):5-9.