【摘? 要】通過 3年具體課堂教學實踐,深入探討大數據科學融入應用統(tǒng)計學課堂教學促進高級技能創(chuàng)新人才培養(yǎng)模式轉型,得到具有現實指導意義的經驗和方法,為應用統(tǒng)計學本科教學中如何融于大數據科學提供科學依據、具體形式和方法。
【關鍵詞】大數據科學;課堂教育;模式轉型
隨著大數據時代的到來,數據的規(guī)模、類型、結構和增長速度發(fā)生質的飛躍,大數據科學主要研究應用計算機科學技術進行大數據處理、分析和預測,解決工程、社會等領域實際問題,應用統(tǒng)計學作為大數據平臺最核心的科學之一,是大數據時代最重要的基礎學科專業(yè)[1]。
我校當前應用統(tǒng)計學課堂教育模式已無法適應大數據科學發(fā)展對人才的需求,存在偏理論傳授、重學術引導,而輕技能的形成和實踐能力的培養(yǎng),特別是重知識傳授和技能模仿、輕知識創(chuàng)新和技能形成,嚴重阻礙我校應用統(tǒng)計高級技能創(chuàng)新人才培養(yǎng)。針對應用統(tǒng)計學課堂教學的現狀,于2018年申報教學改革項目“進行大數據科學融入應用統(tǒng)計學課堂教學促進高級技能創(chuàng)新人才培養(yǎng)模式轉型”的研究,[2]通過研究發(fā)現大數據技術的主要數學基礎知識包含概率論與數理統(tǒng)計、線性代數、最優(yōu)化方法和離散數學等。
首先,概率論與數理統(tǒng)計與大數據技術開發(fā)的關系最為密切,條件概率、獨立性等基本概念、隨機變量及其分布、多維隨機變量及其分布、方差分析及回歸分析、隨機過程(特別是Markov)、參數估計、Bayes理論等在大數據建模、挖掘中占有重要地位。大數據具有天然的高維特征,在高維空間中進行數據模型的設計分析就需要一定的多維隨機變量及其分布方面的基礎。Bayes定理更是分類器構建的基礎之一。特別是條件隨機場CRF、隱Markov模型、n-gram等在大數據分析中可用于對詞匯、文本的分析,可以用于構建預測分類模型。以概率論為基礎的信息論里面的信息增益、互信息等特征分析的方法在大數據分析中也有非常重要的作用。
其次,線性代數知識與大數據技術開發(fā)的關系也很密切,矩陣、轉置、秩?分塊矩陣、向量、正交矩陣、向量空間、特征值與特征向量等在大數據建模、分析中也是常用的技術手段。特別是在互聯網大數據中,許多應用場景的分析對象都可以抽象成為矩陣表示,大量Web頁面及其關系、微博用戶及其關系、文本集中文本與詞匯的關系等等都可以用矩陣表示。以矩陣為基礎的各種運算,如矩陣分解則是分析對象特征提取的途徑,因為矩陣代表了某種變換或映射,因此分解后得到的矩陣就代表了分析對象在新空間中的一些新特征。所以,奇異值分解SVD、PCA、NMF、MF等在大數據分析中的應用非常廣泛。
第三,最優(yōu)化方法為大數據模型求解提供了多種途徑,通常是基于微分、導數的優(yōu)化方法,例如梯度下降、爬山法、最小二乘法、共軛分布法等。
第四,離散數學是所有計算機科學分支的基礎,其中計算機課程中的數據結構、數據庫、算法設計與分析、又是能夠進行大數據分析和處理的基礎。
由以上分析培養(yǎng)計劃我們確定在如下課程中融入大數據技術科學:
1《統(tǒng)計計算及應用軟件》學分1.5,實驗0.5學分,融合R語言進行數據處理,Python完成網絡爬蟲和微信機器人應用
2《概率統(tǒng)計》學分5,融合大數據與概統(tǒng)、概統(tǒng)與R的關系
3《統(tǒng)計學導論》學分2.5,實驗0.5學分,融合大數據的統(tǒng)計假設檢驗
4《運籌學》學分2,課程設計2學分,融合大數據最優(yōu)化求解案例
5《回歸分析》學分2,融合最小二乘法應用及行列式、矩陣的運算、特征分解、奇異值分解
6《多元統(tǒng)計分析》學分2,課程設計1學分,融合大數據高維特征建模及非線性模型求解,仿真案例
7《時間序列分析》學分2,課程設計2學分,融合具有時間序列特征的大數據應用對現狀分析及預測
8《數據分析與處理》學分2,融合大規(guī)模數據存儲和處理,并行運算及云計算,高維矩陣奇異值分解方法
9《抽樣調查技術與應用》學分2,課程設計2學分,融合大數據抽樣方法的基本原理和應用案例分析
10《統(tǒng)計預測和決策》學分2,課程設計2學分,融合向量機和神經網絡基礎理論及預測模型案例分析
11《統(tǒng)計建?!穼W分2,課程設計2學分,融合大數據處理核心統(tǒng)計模型簡介及案例分析
根據大數據技術發(fā)展現狀和應用統(tǒng)計學專業(yè)發(fā)展需要,2021級培養(yǎng)計劃新增大數據科學創(chuàng)新實踐課組,課程如下:
基于以上應用統(tǒng)計學專業(yè)基礎、核心課程及創(chuàng)新模塊融于大數據科學以外還需要在數學基礎理論課程中添加大數據科學所需的矩陣論、離散數學和科學計算方面的基礎知識。
經過我們專業(yè)的老師們深入研究和實踐,大數據科學融于課堂教學是可行的,未來我們將努力拓展專業(yè)方向,把應用統(tǒng)計學發(fā)展成為能夠讓學生成為大數據時代社會所需要的高級技能創(chuàng)新人才,完成培養(yǎng)模式轉型。
參考文獻:
[1]雷俊麗,張良均.大數據數學基礎[M].人民郵電出版社,2019.3
[2]中科普開.大數據技術基礎[M].清華大學出版社,2016.6
作者簡介:
柏宏斌(1970.03-)男,漢族,四川南充,碩士,黨員,副教授,主要從事數據分析與處理研究。
四川輕化工大學教學改革項目編號:JG-1802