[摘 要] 大數(shù)據(jù)時代背景下統(tǒng)計計算課程體系建設(shè)關(guān)系到統(tǒng)計學(xué)專業(yè)人才培養(yǎng)的質(zhì)量。本文就當(dāng)前統(tǒng)計計算課程體系建設(shè)存在的問題、統(tǒng)計計算課程涉及到的相關(guān)課程體系、包含的統(tǒng)計計算內(nèi)容及方法進(jìn)行了研究,給出了相關(guān)課程體系建設(shè)框架,以及具體課程所涉及的統(tǒng)計計算方法。
[關(guān)鍵詞] 大數(shù)據(jù)時代;統(tǒng)計計算;課程體系建設(shè)
[基金項(xiàng)目] 華僑大學(xué)校級研究生教育教學(xué)改革研究項(xiàng)目(18YJG03)
[作者簡介] 張五六(1971—),男,安徽桐城人,博士,副研究員,研究方向?yàn)榻y(tǒng)計理論方法。
[中圖分類號] G642? ? [文獻(xiàn)標(biāo)識碼] A? ? [文章編號] 1674-9324(2020)26-0246-03? ? [收稿日期] 2020-01-13
統(tǒng)計學(xué)是一門歷史悠久的學(xué)科,最早關(guān)于統(tǒng)計相關(guān)的記錄可追溯到17世紀(jì)的政治算術(shù)學(xué)派,其主要代表人物William Patty(1623—1687)主張用大量觀察和數(shù)據(jù)來分析社會經(jīng)濟(jì)現(xiàn)象。隨著統(tǒng)計學(xué)的發(fā)展,特別是統(tǒng)計學(xué)家Adolphe Quetelet(1796—1874)《概率論書簡》的誕生,將概率論和統(tǒng)計學(xué)方法引入社會經(jīng)濟(jì)分析后,標(biāo)志著現(xiàn)代統(tǒng)計學(xué)的發(fā)展拉開了序幕,統(tǒng)計計算由此融會于統(tǒng)計學(xué)發(fā)展的進(jìn)程。
在當(dāng)前的信息時代,隨著互聯(lián)網(wǎng)、物聯(lián)網(wǎng)的興起,以及人工智能及區(qū)塊鏈技術(shù)的推廣,大數(shù)據(jù)背后的統(tǒng)計規(guī)律探索,商業(yè)與社會價值的挖掘,成為統(tǒng)計學(xué)發(fā)展的必然趨勢。在碩士研究生的培養(yǎng)方案設(shè)定及課程教學(xué)中,統(tǒng)計計算也面臨著大數(shù)據(jù)時代帶來的困境及發(fā)展機(jī)遇,因此,結(jié)合統(tǒng)計學(xué)碩士研究生的課程建設(shè)過程,統(tǒng)計計算課程體系存在哪些問題,統(tǒng)計計算的課程體系核心課程及內(nèi)容應(yīng)該包括哪些,如何實(shí)施統(tǒng)計計算的課程及內(nèi)容是本論文研究主要對象。
一、當(dāng)前統(tǒng)計計算課程體系建設(shè)存在問題
(一)統(tǒng)計計算課程對大數(shù)據(jù)的認(rèn)知不足
在當(dāng)今的統(tǒng)計類教學(xué)中,大數(shù)據(jù)科學(xué)深度影響著統(tǒng)計學(xué)的發(fā)展趨勢已經(jīng)成為普遍共識,但在相關(guān)統(tǒng)計計算的課程中,對大數(shù)據(jù)的認(rèn)知尚未形成共識,在高校統(tǒng)計類課程建設(shè)中,仍然存在兩類典型的做法,一種是開設(shè)幾門與大數(shù)據(jù)相關(guān)的統(tǒng)計課程,如數(shù)據(jù)挖掘、統(tǒng)計學(xué)習(xí)等類似課程;另一種是開設(shè)一些與大數(shù)據(jù)相關(guān)的計算機(jī)語言課程,如Java語言、Python語言等。顯然,這些做法具有可取之處,是大數(shù)據(jù)相關(guān)學(xué)習(xí)的必備課程。但作為對碩士研究生的培養(yǎng)是遠(yuǎn)遠(yuǎn)不夠的,這幾門課程的開設(shè)充其量類似于培訓(xùn)機(jī)構(gòu)的短期學(xué)習(xí)。高校對于統(tǒng)計計算中涉及的大數(shù)據(jù)認(rèn)知仍然是碎片化的,還沒有形成有機(jī)的系統(tǒng)研究,在教學(xué)中還需要去探索和實(shí)踐。
(二)統(tǒng)計計算課程對大數(shù)據(jù)融合度較低
從當(dāng)前各個高校開設(shè)的統(tǒng)計學(xué)研究生課程設(shè)置來看,除了幾門新開設(shè)的數(shù)據(jù)科學(xué)課程,如數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、大數(shù)據(jù)技術(shù)等課程外,其他課程鮮有涉及大數(shù)據(jù)相關(guān)的計算及應(yīng)用的案例。課程中涉及的計算方法及計算的數(shù)據(jù)、案例仍然停留在傳統(tǒng)的小數(shù)據(jù)時代,學(xué)生對統(tǒng)計計算的認(rèn)識難以實(shí)現(xiàn)對大數(shù)據(jù)的全面認(rèn)識。因此,相關(guān)的培養(yǎng)方案、教材建設(shè)、課程建設(shè)必須要實(shí)現(xiàn)整體統(tǒng)籌規(guī)劃,融合大數(shù)據(jù)的觀點(diǎn)、算法技術(shù)及實(shí)際案例的實(shí)習(xí),在相關(guān)計算內(nèi)容中穿插大數(shù)據(jù)背景的實(shí)際場景。
(三)統(tǒng)計計算課程缺乏對大數(shù)據(jù)的實(shí)驗(yàn)與實(shí)踐
不同于傳統(tǒng)的統(tǒng)計學(xué)試驗(yàn)及實(shí)踐,大數(shù)據(jù)中的統(tǒng)計計算實(shí)踐所需實(shí)驗(yàn)設(shè)備及實(shí)驗(yàn)過程都要復(fù)雜得多。除了穩(wěn)定的數(shù)據(jù)源以外,還必須具備基本的相關(guān)統(tǒng)計軟件,如SAS、Matlab、R、Julia、Python等軟件外,還需要具備Hadoop+Spark架構(gòu)的大數(shù)據(jù)平臺。學(xué)生的實(shí)驗(yàn)與實(shí)踐最好放在合適的項(xiàng)目場景下進(jìn)行,對于這些實(shí)驗(yàn)與實(shí)踐要求,目前統(tǒng)計學(xué)專業(yè)在實(shí)際課程建設(shè)中執(zhí)行得并不是太好。特別是對于應(yīng)用統(tǒng)計專業(yè)碩士,尚需要與數(shù)據(jù)科學(xué)關(guān)聯(lián)的企業(yè),如大數(shù)據(jù)、人工智能、區(qū)塊鏈等相關(guān)的企業(yè)進(jìn)行深度合作,尋求理論學(xué)習(xí)與創(chuàng)新實(shí)踐的融合,加強(qiáng)學(xué)生在創(chuàng)新創(chuàng)業(yè)實(shí)踐方面的能力培養(yǎng)。
二、大數(shù)據(jù)背景下統(tǒng)計計算課程體系建設(shè)
在統(tǒng)計類碩士研究生培養(yǎng)方案中,統(tǒng)計計算涉及課程總體上為三類:專業(yè)基礎(chǔ)課、專業(yè)核心課、專業(yè)選修課。由于研究生的總課時有限,不同研究方向的選修課又散落于不同的課程中。在華僑大學(xué)統(tǒng)計專業(yè)的培養(yǎng)過程中,涉及相關(guān)的統(tǒng)計計算知識組成的課程體系如下:
在實(shí)際教學(xué)中,教師可以根據(jù)學(xué)生培養(yǎng)所需的知識體系來選擇不同的統(tǒng)計計算知識組合。另外,不同老師可能根據(jù)課程的前沿方向提供給學(xué)生豐富的文獻(xiàn)閱讀,使得教學(xué)中的統(tǒng)計計算體系隨著前沿方向不斷發(fā)展。根據(jù)課程體系建設(shè),我們將其細(xì)分為下面幾個統(tǒng)計計算模塊,并探討其涉及的主要內(nèi)容。
(一)探索性統(tǒng)計
傳統(tǒng)數(shù)據(jù)分析著重于初始數(shù)據(jù)分析,即對已有數(shù)據(jù)進(jìn)行驗(yàn)證性分析,而探索性數(shù)據(jù)分析注重于對數(shù)據(jù)的概況性描述,不僅在傳統(tǒng)截面/時間序列中使用,現(xiàn)在空間統(tǒng)計學(xué)方面也得到了廣泛的應(yīng)用。涉及的探索性統(tǒng)計計算如下表2所示:
(二)隨機(jī)數(shù)生成與抽樣方法
隨機(jī)數(shù)生成包含一般及不同隨機(jī)數(shù)生成方法、抽樣包含了蒙特卡羅方法、bootstraps方法、數(shù)據(jù)分塊方法等。
(三)貝葉斯與非參數(shù)統(tǒng)計計算
貝葉斯方法是基于貝葉斯基本原理而構(gòu)成的一種統(tǒng)計推斷方法,難以進(jìn)行解析的后驗(yàn)分布,可以采用MCMC方法進(jìn)行抽樣,從而獲得其系數(shù)。非參數(shù)方法在數(shù)據(jù)具有非線性特征時具有非常好的刻畫功能,在回歸模型中有非參數(shù)回歸與半?yún)?shù)回歸。
貝葉斯統(tǒng)計與非參數(shù)統(tǒng)計既相互獨(dú)立,又有相互交叉的兩類統(tǒng)計計算方法。傳統(tǒng)的非參數(shù)回歸如果在采用基函數(shù)情況下可以將其參數(shù)化,從而可以對參數(shù)進(jìn)行貝葉斯估計,特別是隨著Dirichlet Process過程的引進(jìn),許多非參數(shù)回歸均可以變換為貝葉斯方法進(jìn)行計算的可能。具體三個方面的計算如下表4所示:
(四)回歸分析模型計算
回歸分析模型是統(tǒng)計建模的主要組成部分,在不同類型數(shù)據(jù)或分析框架下,回歸分析方法具有非常好的拓展性,下表給出了不同框架下的回歸分析模型及計算。
從表5的課程知識體系來看,線性與非線性回歸模型構(gòu)成的單變量、多變量時間序列模型、面板與空間面板數(shù)據(jù)模型、結(jié)構(gòu)與非結(jié)構(gòu)模型。參數(shù)(系數(shù))估計方法內(nèi)容亦豐富多樣:包括最小二乘方法、GMM估計方法、工具變量估計方法、格子搜索方法、極大似然及擬極大似然方法、貝葉斯推斷的MCMC抽樣方法,卡爾曼濾波的極大似然估計方法。
(五)數(shù)據(jù)科學(xué)課程體系方法
數(shù)據(jù)科學(xué)是統(tǒng)計專業(yè)最近5年來發(fā)展迅速的一個方向。在傳統(tǒng)統(tǒng)計計算的基礎(chǔ)上,更加專注于大數(shù)據(jù)的處理??梢詫⑵鋬?nèi)容分為兩個方面:一個是與數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、統(tǒng)計學(xué)習(xí)相關(guān);另一個是與大數(shù)據(jù)技術(shù)相關(guān)。主要如下表所示:
參考文獻(xiàn)
[1]蕭政.面板數(shù)據(jù)分析[M].北京:人民大學(xué)出版社,2012.
[2]李航.統(tǒng)計學(xué)習(xí)方法[M].北京:清華大學(xué)出版社,2019.
[3]周志華.機(jī)器學(xué)習(xí)[M].北京:清華大學(xué)出版社,2016
Research on the Curriculum System Construction of Statistical Computing in the Big Data Era
ZHANG Wu-liu
(School of Statistics Huaqiao University,Xiamen,F(xiàn)ujian 361021,China)
Abstract:Under the background of big data era,the construction of Statistical Computing curriculum system is related to the training quality of statistics professionals.This paper studies the problems existing in the construction of the current curriculum system of Statistical Computing,the related course systems involved in the curriculum of Statistical Computing,and the contents and methods of Statistical Computing.Then,it gives the construction framework of related curriculum system and the Statistical Computing methods involved in specific courses.
Key words:big data era;Statistical Computing;curriculum system construction