饒 鳳 趙 劍
(南京工業(yè)大學(xué)數(shù)理科學(xué)學(xué)院,南京 211816)
應(yīng)用統(tǒng)計(jì)是統(tǒng)計(jì)學(xué)下設(shè)的二級科目,它是統(tǒng)計(jì)學(xué)與其他學(xué)科交叉融合,以研究與統(tǒng)計(jì)數(shù)據(jù)為主的應(yīng)用性學(xué)科。它在當(dāng)今社會各個領(lǐng)域中扮演著重要的角色,如在經(jīng)濟(jì)領(lǐng)域中預(yù)測金融風(fēng)險(xiǎn)、農(nóng)業(yè)領(lǐng)域中統(tǒng)計(jì)天氣及氣候的規(guī)律以避免自然災(zāi)害、醫(yī)學(xué)領(lǐng)域中預(yù)測流行病的傳播周期等都少不了應(yīng)用統(tǒng)計(jì)學(xué)活躍的身影。南京工業(yè)大學(xué)于2018年獲批增設(shè)應(yīng)用統(tǒng)計(jì)碩士專業(yè)學(xué)位,主要開設(shè)了如下主干課程:時間序列分析、應(yīng)用多元統(tǒng)計(jì)分析、統(tǒng)計(jì)建模與統(tǒng)計(jì)軟件、信息統(tǒng)計(jì)挖掘與分析、金融分析與風(fēng)險(xiǎn)管理、供應(yīng)鏈管理等。我校本科生時間序列分析課程的開設(shè)有十幾年的歷史,也為本文提供了豐富的實(shí)踐素材。
大數(shù)據(jù)時代的到來,為應(yīng)用統(tǒng)計(jì)專業(yè)的發(fā)展注入了新的活力,同時也對統(tǒng)計(jì)人才提出了新的要求。除了要掌握基本的概率論、統(tǒng)計(jì)理論知識、掌握統(tǒng)計(jì)軟件(如SAS、SPSS、R 等)的使用外,還要具備相關(guān)領(lǐng)域(如經(jīng)濟(jì)、工程技術(shù)等)的專業(yè)知識與實(shí)操能力。還要具有對復(fù)雜多變的實(shí)際情況足夠敏感、懂得如何收集數(shù)據(jù),分析處理數(shù)據(jù),進(jìn)而取得較好的預(yù)測結(jié)果[1]。關(guān)于大數(shù)據(jù)背景下應(yīng)用統(tǒng)計(jì)專業(yè)教育教學(xué)改革的文獻(xiàn)大量出現(xiàn)。例如尹勤和黃寶鳳闡述了大數(shù)據(jù)的特征以及大數(shù)據(jù)帶來的變革對統(tǒng)計(jì)人才的需求變化,并對在研究生中開展教學(xué)改革的實(shí)踐經(jīng)驗(yàn)進(jìn)行了總結(jié)[1]。阮敬等人論述了將大數(shù)據(jù)分析與統(tǒng)計(jì)分析相結(jié)合的教學(xué)模式,并對應(yīng)用統(tǒng)計(jì)專業(yè)的人才培養(yǎng)模式進(jìn)行了探討[2]。
為了適應(yīng)迅速發(fā)展的大數(shù)據(jù),應(yīng)用統(tǒng)計(jì)專業(yè)研究生的教育教學(xué)方式也要隨之變革,研究生除了學(xué)習(xí)基本理論知識,如何開展研究也是其面臨的重要問題。教師授課時如何將專業(yè)的理論知識與研究生的科研相結(jié)合,已顯得相當(dāng)必要。
“創(chuàng)新是一個民族進(jìn)步的靈魂,是一個國家興旺的力量源泉”。研究生創(chuàng)新的培養(yǎng)是國家戰(zhàn)略層面的迫切需求,也是提高國民素質(zhì)的重要途徑。要學(xué)生創(chuàng)新,就要給學(xué)生創(chuàng)新的土壤,我校每年舉辦“科技創(chuàng)新月”就給學(xué)生提供了創(chuàng)新機(jī)會,同學(xué)們將自己探究的問題參加科技活動,或根據(jù)大數(shù)據(jù)進(jìn)行建模分析,或?qū)τ?jì)算算法進(jìn)行優(yōu)化,或?qū)?jīng)典模型進(jìn)行改進(jìn)等。實(shí)踐證明探究性學(xué)習(xí)是一種培養(yǎng)創(chuàng)新能力的有效方法,對于學(xué)生而言是學(xué)習(xí),對于老師而言就是探究性教學(xué),教與學(xué)相得益彰,相互促進(jìn)。
探究性教學(xué),顧名思義是探索研究性教學(xué),始于探索、重在研究,它是在學(xué)生學(xué)習(xí)時,教師通過創(chuàng)設(shè)情境,啟發(fā)思考等方法,讓學(xué)生自行去發(fā)現(xiàn)問題、探索問題、解決問題、研究問題的內(nèi)在聯(lián)系,從而建立自己的認(rèn)知模型和學(xué)習(xí)方法架構(gòu)。它強(qiáng)調(diào)教學(xué)與科學(xué)研究的結(jié)合,一般教師不但承擔(dān)教學(xué)任務(wù)還承擔(dān)著科研任務(wù),用自己的科研知識,滲透于教學(xué)活動中,用研究性的方法優(yōu)化傳統(tǒng)的教學(xué)方式,從而形成“探究性教學(xué)”。它有如下幾個特點(diǎn):
“學(xué)問必須合乎自己的興趣,方才可以得益”(莎士比亞),自己不感興趣的學(xué)問做下去是不會有所建樹的。教學(xué)過程中使學(xué)生主動進(jìn)行探究性學(xué)習(xí)的一個重要前提就是要善于運(yùn)用各種方法激發(fā)學(xué)生的學(xué)習(xí)興趣[3]。只要激發(fā)了學(xué)生的學(xué)習(xí)熱情,使學(xué)習(xí)不再是一種負(fù)擔(dān),就會極大地調(diào)動學(xué)生的積極性,激發(fā)其學(xué)習(xí)的潛能,從而形成自主學(xué)習(xí)的習(xí)慣。也就是充分發(fā)揮學(xué)生的主觀能動性,學(xué)生才是知識的認(rèn)知者,實(shí)踐者,是發(fā)現(xiàn)知識的主體,調(diào)動其主觀能動性,才能更好地研究,更好地創(chuàng)新。
應(yīng)用統(tǒng)計(jì)專業(yè)課程大部分是抽象的理論知識,更何況探究性學(xué)習(xí)是一種以探究為主分析問題、解決問題的富有挑戰(zhàn)性的學(xué)習(xí)方式。學(xué)生在探究過程中難免會充滿問題和疑惑,這時施教者就要加以引導(dǎo),提供必要的幫助,發(fā)揮教師作為啟發(fā)者、引導(dǎo)者的作用。但是也要把握好“度”,不能喧賓奪主,要給學(xué)生獨(dú)立學(xué)習(xí)與探究的空間,啟發(fā)學(xué)生積極思考和探索,鼓勵學(xué)生主動地參與到知識的形成過程。
教學(xué)是教與學(xué)的統(tǒng)一,教學(xué)過程即是師生雙向互動、共同發(fā)展的過程?;咏涣魇墙⒃谧灾魈骄康幕A(chǔ)之上的,學(xué)生只有在經(jīng)過認(rèn)真的探究、積極思考后,才能與教師有高質(zhì)量的互動。另一方面,教師一定是創(chuàng)設(shè)了合適的場景,給學(xué)生適時的引導(dǎo),已經(jīng)事先預(yù)測過可能發(fā)生的一些問題,才能與學(xué)生產(chǎn)生觀點(diǎn)碰撞,無障礙的交流。
時間序列分析是應(yīng)用統(tǒng)計(jì)的主干課程,不僅強(qiáng)調(diào)理論知識的講授,而且注重真實(shí)案例的分析。
在授課中采用課堂翻轉(zhuǎn)模式。將學(xué)生進(jìn)行分組,兩名同學(xué)為一組,筆者先利用慕課、微課、B 站等網(wǎng)絡(luò)資源提供授課相關(guān)視頻,并將課件事先發(fā)給學(xué)生,讓學(xué)生熟悉課程內(nèi)容,然后選擇一組同學(xué)來擔(dān)任授課的角色,兩名同學(xué)分別負(fù)責(zé)一個小節(jié)。并要求其他組同學(xué)能提出有價值的問題,最后由教師進(jìn)行點(diǎn)評。例如在學(xué)習(xí)時間序列模型平穩(wěn)性的判定時,筆者給學(xué)生們推薦了中南財(cái)經(jīng)政法大學(xué)汪家義等老師主講的《時間序列分析》在線課程,A 同學(xué)與B同學(xué)分別講述了時間序列的平穩(wěn)性與平穩(wěn)性的判斷,其他同學(xué)提出了很好的問題,如我們?yōu)槭裁葱枰椒€(wěn)的時間序列、弱平穩(wěn)性與強(qiáng)平穩(wěn)性怎么區(qū)分等,同學(xué)們對這些問題展開了廣泛的討論。這充分調(diào)動了學(xué)生的積極性,很好地發(fā)揮了學(xué)生的主體作用。最后筆者給出整個上課效果的評判,指出授課同學(xué)尚需改進(jìn)之處。教與學(xué)的翻轉(zhuǎn),施教者與受教者角色互換,不但可以讓學(xué)生更牢的掌握知識,也讓學(xué)生體會到“教”的不易,從而更加珍惜課堂的勞動成果。
數(shù)據(jù)驅(qū)動是通過編程工具等從互聯(lián)網(wǎng)或社會組織采集海量的數(shù)據(jù),將數(shù)據(jù)進(jìn)行組織形成信息,再對信息進(jìn)行整合,并對數(shù)據(jù)集進(jìn)行訓(xùn)練、擬合等過程形成智能模型,進(jìn)而對相關(guān)事物進(jìn)行預(yù)測[4]。時間序列分析本質(zhì)上就是對數(shù)據(jù)的分析。例如在講述非平穩(wěn)序列時,筆者收集了我國2010-2019年之間的艾滋病的發(fā)病人數(shù)與死亡人數(shù),這些數(shù)據(jù)具有很大的隨機(jī)性,筆者分別對這兩種數(shù)據(jù)進(jìn)行分析并建立ARIMA 模型,使用R 語言編程進(jìn)行數(shù)據(jù)擬合,并對未來的發(fā)病與死亡人數(shù)給出預(yù)測。隨后給學(xué)生布置了數(shù)據(jù)采集任務(wù),分組采集2019年的股市上證、深證、中小板指數(shù),并作給出合理的預(yù)測。通過這些實(shí)例數(shù)據(jù)的采集與分析,激發(fā)了學(xué)生對數(shù)據(jù)的好奇心以及對現(xiàn)實(shí)問題的敏感性[5][6],使其認(rèn)識到時間序列分析這門課程是能實(shí)際運(yùn)用到社會生活當(dāng)中去的,這樣才能讓學(xué)生在數(shù)據(jù)美的驅(qū)動力下去學(xué)習(xí)、去研究。
對研一的研究生來講,剛剛開始研究生生涯,大部分學(xué)生對“研究”還不知從何下手。這就需要教師結(jié)合相關(guān)知識點(diǎn),融合科研元素,讓學(xué)生潛移默化中了解科研,體會科研,從而激發(fā)他們的科研興趣,熱愛科研[5]。筆者在講述平穩(wěn)時間序列時,講解了《運(yùn)用ARMA 模型對股價預(yù)測的實(shí)證研究》(徐晨萌等,經(jīng)濟(jì)研究導(dǎo)刊.2019,(31):77-82),讓學(xué)生們對于ARMA 模型的實(shí)用價值有較深的認(rèn)識。在與學(xué)生討論時間序列季節(jié)影響時,分析了《基于X-12-ARIMA 季節(jié)分解與年度電量校正的月度電量預(yù)測》(張強(qiáng)等,電力建設(shè).2017,38(01):76-83),我們除了理解X-12-ARIMA 模型外,還討論了作者為何沒有使用X-11模型的可能原因。通過講解相關(guān)的科研論文,培養(yǎng)學(xué)生對科研的感覺,激發(fā)學(xué)生從科研論文中汲取營養(yǎng),學(xué)會解決實(shí)際問題的方法。筆者在期末考核時也是采用開放課題,讓學(xué)生自由選題,結(jié)合教材知識點(diǎn),完成一篇小論文。實(shí)踐證明,通過教與研、學(xué)與研相結(jié)合的訓(xùn)練,提高了學(xué)生的科學(xué)素養(yǎng),有不少同學(xué)將課程小論文加以完善,發(fā)表于學(xué)術(shù)期刊。
隨著計(jì)算機(jī)與互聯(lián)網(wǎng)的迅速發(fā)展,數(shù)據(jù)集越來越朝著多樣性、復(fù)雜性、高緯度的方向發(fā)展。有些數(shù)據(jù)集存在著噪音、缺失值、量綱不一等問題,很難使用傳統(tǒng)的理論模型來處理[5]。為了克服這些短板,近年深度學(xué)習(xí)算法如RNN(循環(huán)神經(jīng)網(wǎng)絡(luò))、CNN(卷積神經(jīng)網(wǎng)絡(luò))等被大量運(yùn)用到時間序列預(yù)測上。
新冠肺炎從2019年底爆發(fā)以來,已造成全球1.5億多人感染,320多萬人死亡。設(shè)計(jì)一個用統(tǒng)計(jì)方法來預(yù)測新冠肺炎新增人數(shù)案例,具有很強(qiáng)的現(xiàn)實(shí)意義。結(jié)合筆者于2020 年8 月份用LSTM算法對美國新冠肺炎的感染者進(jìn)行的建模與預(yù)測,將案例設(shè)計(jì)如下:
給學(xué)生提出問題,從哪些網(wǎng)站上獲取新冠肺炎病例數(shù)據(jù)(世界衛(wèi)生組織、各國衛(wèi)生機(jī)構(gòu)等網(wǎng)站),用哪種編程語言來繪制曲線圖(R、Python、SPSS等)。讓學(xué)生先自己動手,可以選擇單個國家的數(shù)據(jù),也可以選擇不同國家進(jìn)行比較,自由選題。
筆者采集了感染人數(shù)最多的美國數(shù)據(jù)作為研究對象,數(shù)據(jù)采集于霍普金斯大學(xué)網(wǎng)站,截取2020年1月至8月中旬美國每日新增確診人數(shù)數(shù)據(jù),繪制出曲線圖如圖1所示,1月到3月,美國尚未投入大規(guī)模檢測,出臺隔離治療措施,這部分?jǐn)?shù)據(jù)未包含太多信息,選取4月初至8月中旬每日新增感染者時間序列數(shù)據(jù)作為建模對象。隨機(jī)拆分90%的樣本數(shù)據(jù)作為訓(xùn)練集擬合訓(xùn)練模型,剩余10%的樣本數(shù)據(jù)作為測試集。
引導(dǎo)學(xué)生用何種算法來建模(ARIMA、NARNN、LSTM 等),每個學(xué)生說出選用某種算法的理由,并給學(xué)生推薦相關(guān)的文獻(xiàn)資料進(jìn)行閱讀,讓學(xué)生理解常見算法模型適用的數(shù)據(jù)類型。
筆者采用了LSTM(長短期記憶神經(jīng)網(wǎng)絡(luò))算法,是RNN 的一種改進(jìn)算法。為避免RNN 同一級神經(jīng)元之間傳遞信息時由于相互間隔的傳輸距離過長而衰減的問題,Hochreiter和Schmidhuber提出了LSTM 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)[7]。研究中使用了雙層LSTM 框架,使用步驟一中訓(xùn)練集進(jìn)行訓(xùn)練模型,數(shù)據(jù)擬合如圖2所示,其中藍(lán)線為實(shí)際值,紅線為預(yù)測值。
圖2 數(shù)據(jù)擬合曲線圖
讓學(xué)生回憶課程中有哪些評估誤差的方法,再給學(xué)生提示幾種科研中經(jīng)常用到的方法,讓學(xué)生去了解各種方法分別從哪些緯度對誤差數(shù)據(jù)進(jìn)行了評估。
筆者使用了四個參數(shù)評估模型擬合效果:平均絕對誤差(MAE),均方根誤差(RMSE),均方誤差(MSE),平均百分比誤差(MAPE)。表達(dá)式如下,其中代表每日新增感染人數(shù)預(yù)測值,代表每日新增感染人數(shù)真實(shí)值,n是測試集樣本數(shù)量。四個參數(shù)都能夠測量模型擬合效果,MAPE 消除量綱影響,應(yīng)用更普遍。
對測試集擬合結(jié)果的各參數(shù)值評估見表1,可以看出預(yù)測精度還是比較好的。
表1 LSTM 模型擬合參數(shù)
最后得出預(yù)測結(jié)果,讓學(xué)生與真實(shí)數(shù)據(jù)進(jìn)行對比,找出偏差,如果偏差太大,是否有隱含的因素沒有考慮,有沒有做合理的假設(shè),預(yù)測區(qū)間是否合理等。經(jīng)過一個完整的研究步驟下來,讓學(xué)生們有了對科研基本的認(rèn)識,從而達(dá)到較好的授課效果。
筆者假設(shè)病毒的傳播能力和防控資源投入具有連續(xù)性,不會在短期內(nèi)發(fā)生巨大變化,且未來每日新增感染人數(shù)與歷史數(shù)據(jù)相關(guān)。使用擬合后的LSTM 模型用當(dāng)前時間序列數(shù)據(jù)建立的特征集對未來15天(即8月中旬至8月底)的每日新增確診人數(shù)做出預(yù)測,預(yù)測結(jié)果如圖3所示。從圖中可以看出,在未來15天內(nèi),每日新增確診人數(shù)在42000到51000之間波動,并且數(shù)據(jù)波動呈現(xiàn)一定的周期性,約以一周為一個周期。與實(shí)際數(shù)據(jù)對比,基本符合預(yù)期。
圖3 未來15天新增確診人數(shù)預(yù)測走勢
研究生已經(jīng)具備較高的自主學(xué)習(xí)能力,不像低年級本科生那樣需要以教師引導(dǎo)為主,因此在研究生階段開展探究性教學(xué)更具備可行性。大數(shù)據(jù)為應(yīng)用統(tǒng)計(jì)專業(yè)提供了更加廣泛的應(yīng)用場景,相應(yīng)地也對教師與學(xué)生提出了更高的要求,學(xué)生要擴(kuò)展自己的視野,不局限于課本知識,閱讀經(jīng)典文獻(xiàn)、復(fù)現(xiàn)文獻(xiàn)結(jié)果等來訓(xùn)練自己的科研素養(yǎng)。教師積極探索課程的改革與實(shí)踐,結(jié)合自己的研究領(lǐng)域引領(lǐng)學(xué)生運(yùn)用所學(xué)的方法或工具來解決實(shí)際問題,更好地培養(yǎng)適用社會需要的人才。