[摘要]隨著大數(shù)據(jù)時代的到來,更多的人開始關注現(xiàn)代統(tǒng)計學教學中學生數(shù)據(jù)分析能力的培養(yǎng)。本文以大數(shù)據(jù)背景下如何提高大學生數(shù)據(jù)分析能力作為目標,分別從實現(xiàn)這一目標的必要性、主要內(nèi)容、基本途徑以及擬解決的問題四個方面進行了探討和闡述。
[關鍵詞]大學統(tǒng)計學教學數(shù)據(jù)分析能力必要性途徑分析
[基金項目]安徽省質(zhì)量工程教學研究項目基金(2020jyxm0649);國家自然科學項目基金(11901006);安徽省自然科學項目基金(1908085QA06)。
[中圖分類號]G64
[文獻標識碼]A
[文章編號]2095-3089(2021)17-0147-03
一、引言
2015年9月5日中國政府網(wǎng)印發(fā)國務院促進大數(shù)據(jù)發(fā)展行動綱要的通知,從發(fā)展意義與形勢、總的目標與思想、所面臨的任務、相關政策機制四個角度闡述了大數(shù)據(jù)作為一種重要的新型國家資源,現(xiàn)代社會處在充滿改革與急速發(fā)展的各類復雜數(shù)據(jù)時代。大數(shù)據(jù)相關文獻也稱為海量數(shù)據(jù),它的主要特點可以用四個“V”去描述。第一個是數(shù)據(jù)的體量很高(Volume)即數(shù)據(jù)的維數(shù)和數(shù)據(jù)的樣本量都很大;第二個是數(shù)據(jù)相依結構多樣化(Variety)即包括復雜非線性相依和復雜高維;第三個是數(shù)據(jù)的稀疏值復雜(Value)即數(shù)據(jù)的變量很多但有用的變量可能很少;第四個是計算的有效性不穩(wěn)定(Velocity)即由于數(shù)據(jù)的高維數(shù)和大樣本量常使得傳統(tǒng)的計算方法失效。無論發(fā)展中國家還是發(fā)達國家都愈發(fā)重視大數(shù)據(jù)技術的發(fā)展與應用,這就需要從事海量數(shù)據(jù)分析的專職人才。統(tǒng)計學是以數(shù)據(jù)為中心的學科,統(tǒng)計學的本質(zhì)就是利用統(tǒng)計工具分析和挖掘數(shù)據(jù)所包含的有用信息。這就需要學生系統(tǒng)地學習概率論與數(shù)理統(tǒng)計的基礎知識,能夠從海量的數(shù)據(jù)中提取有價值的信息,并能夠給出科學的決策建議和意見。隨著大數(shù)據(jù)時代的到來,更多的人開始關注現(xiàn)代統(tǒng)計學教學中學生數(shù)據(jù)分析能力的培養(yǎng)。本文以大數(shù)據(jù)背景下如何提高大學生數(shù)據(jù)分析能力作為目標,分別從實現(xiàn)這一目標的必要性、主要內(nèi)容、基本途徑以及擬解決的問題四個方面進行了探討和闡述。
二、現(xiàn)代統(tǒng)計學教學中提高大學生數(shù)據(jù)分析能力的迫切性和必要性
在上個世紀初期,統(tǒng)計學還處于描述統(tǒng)計階段,沒有形成公理化,人們對數(shù)據(jù)的定義和觀念只是些數(shù)字,比如身高、體重、臂長等,這些數(shù)據(jù)都是被收集和被記錄的阿拉伯數(shù)字所構成,而且這些傳統(tǒng)的經(jīng)典小數(shù)據(jù)的收集方法、加工方法、處理方法都與現(xiàn)代統(tǒng)計中的前沿技術有所不同。一個經(jīng)典的例子就是英國著名生物學家兼統(tǒng)計學家高爾頓于19世紀在研究人類遺傳學所提出的回歸分析問題。高爾頓當年從遺傳學的角度關心的是父母的身高對子女的身高有沒有影響,如果有影響又該如何刻畫這種影響,為此高爾頓在1877年的四月五號、十二號和十九號分別在自然期刊上提出著名的回歸系數(shù),那里的回歸系數(shù)就是本科教材中的經(jīng)典的皮爾遜積矩相關系數(shù),是兩個隨機變量的重要數(shù)字特征,這個經(jīng)典例子說明傳統(tǒng)的數(shù)據(jù)分析技術從估計、檢驗和預測的角度去挖掘和刻畫和數(shù)字數(shù)據(jù)有關的隨機現(xiàn)象和問題。
然而,在現(xiàn)代統(tǒng)計學中,數(shù)據(jù)的定義和概念要寬泛了很多。只要能夠被數(shù)字化的信息載體,都能夠稱之為數(shù)據(jù)。例如高速公路上及城市各個路口的攝像頭記錄的影像視頻,消費者網(wǎng)上購物停留在網(wǎng)頁界面的時間流量,公安系統(tǒng)的刑偵人員對嫌疑犯人臉頭像的甄別圖片,生物統(tǒng)計中基因組生物信息載體等等,盡管這些都不是被收集和被記錄的阿拉伯數(shù)字所構成,但是它們都是數(shù)據(jù)或者說都是可以數(shù)字化的數(shù)據(jù)。特別地,這些數(shù)據(jù)相依類型復雜、數(shù)據(jù)的價值具有低密度性,當數(shù)據(jù)的容量達到一定程度后,傳統(tǒng)的經(jīng)典處理方法都會失效,掌握前沿先進的統(tǒng)計推斷知識技能的數(shù)據(jù)分析能力就非常有必要了。另一方面,近年來隨著計算機科學技術的快速提升,使得海量數(shù)據(jù)的采集、處理以及精準高速的運算都成為現(xiàn)實,人們步入大數(shù)據(jù)時代。在現(xiàn)代統(tǒng)計的實際應用中,經(jīng)常遇到要處理高維或超大樣本數(shù)據(jù)的情形,這種情形在經(jīng)濟、金融、生物醫(yī)學、工業(yè)工程中尤為常見。
與統(tǒng)計學特別是現(xiàn)代統(tǒng)計學有關的高等教育培養(yǎng)體系目標中,應該把海量數(shù)據(jù)的處理辦法、加工方法和收集技術包含進來,這些技術方法應該成為當今高等教育中學生的重要學習內(nèi)容。為了使高等教育中的學生可以較快適應和具備當代統(tǒng)計學的海量數(shù)據(jù)的分析能力,應該把數(shù)據(jù)分析的常用技術技巧加入到相關課程中去?,F(xiàn)代統(tǒng)計學教學中大學生數(shù)據(jù)分析能力的培養(yǎng)應該是與高等教育中學生的培養(yǎng)標準是一致的。由于每行每業(yè)有海量數(shù)據(jù)信息需要去挖掘和分析,因此這也一定程度上提升了學生的跨學科進行學術研究的本領。另一方面,從各個行業(yè)的需求以及發(fā)展的角度來看,適應和掌握大數(shù)據(jù)特別是海量數(shù)據(jù)學科思想是迫切的和必須的。在當今信息爆炸的時代,從來不會缺少數(shù)據(jù),甚至無處不在,相關統(tǒng)計表明幾乎百分之九十九的海量數(shù)據(jù)的信息都處于深度睡眠狀態(tài),需要我們?nèi)ネ诰蚝烷_發(fā)。因此在新時代的大背景下,高校的學生更應該積極主動地去學習海量數(shù)據(jù)的處理技巧和統(tǒng)計分析軟件。針對新形式的背景,經(jīng)典的概率論與數(shù)理統(tǒng)計的傳統(tǒng)課程已無法滿足新的需求。因為這些課程都注重理論知識的傳授和培養(yǎng),常常忽略了統(tǒng)計學的學科思維,即數(shù)據(jù)思維。因為實踐問題中我們拿到的數(shù)據(jù)都不是經(jīng)典的,經(jīng)常無法滿足理想的模型假設,在這種情況下去利用標準的統(tǒng)計推斷分析方法所得到的結論可能是錯誤的,甚至是不可信的。這就要求高校學生應積極主動學習海量數(shù)據(jù)思維,特別是當已有模型都無法適應新的數(shù)據(jù)的時候該如何解決。另外,傳統(tǒng)的統(tǒng)計學教育主要關注學生的考試能力,這種以考試成績?yōu)槟繕说呐囵B(yǎng)是不利于學生的數(shù)據(jù)分析能力的培養(yǎng)的。因此,為了培養(yǎng)出能夠適應和勝任海量數(shù)據(jù)分析能力的高等教育人才,就必須也很有必要對現(xiàn)有的課程體系進行相關的革新。
三、現(xiàn)代統(tǒng)計學教學中提高大學生數(shù)據(jù)分析能力的主要內(nèi)容
(一)構建教學內(nèi)容課程體系
海量數(shù)據(jù)的信息提取必須具有一定的理論基礎,從而線性代數(shù)、高等數(shù)學、概率論與數(shù)理統(tǒng)計等課程是必修的。而過分強調(diào)理論會使得高校學生的數(shù)據(jù)思維被扼殺掉,因此高校應該開設一些數(shù)據(jù)挖掘,機器學習和人工智能的課程,這些課程應該包含與數(shù)據(jù)分析特別是海量數(shù)據(jù)分析有關的無監(jiān)督學習如大數(shù)據(jù)降維、向前回歸和向后回歸、特征篩選、變量篩選等;半監(jiān)督學習如聚類分析、因子分析、主成分分析等;有監(jiān)督學習如回歸分析、方差分析等。
(二)課程案例教學設計研究
經(jīng)典和優(yōu)秀的案例分析不僅能夠加強課程的實踐性,還能提升課程的趣味性。海量數(shù)據(jù)分析經(jīng)典案例有很多,比如文本分析、基因路徑分析、數(shù)據(jù)可視化分析等。把這些優(yōu)秀例子結合統(tǒng)計學理論進行講授,不僅可以開發(fā)學生的數(shù)據(jù)思維,還能觸通旁類,啟發(fā)學生橫向?qū)W習和縱向?qū)W習的跨學科學習能力。讓學生如何在數(shù)據(jù)案例中學習理論,學以致用。
(三)課程實踐教學環(huán)節(jié)研究
經(jīng)典的教學課程首先向?qū)W生呈現(xiàn)的是數(shù)學公式,然后把數(shù)據(jù)當作數(shù)字導入公式計算,然后對所得計算結果進行統(tǒng)計解釋。這樣做完全違背了統(tǒng)計學的學科發(fā)展過程,統(tǒng)計學首先是從描述統(tǒng)計開始,剛開始只有實際問題沒有任何理論背景,直到前蘇聯(lián)的著名數(shù)學和統(tǒng)計學家安德雷·尼古拉耶維奇·柯爾莫哥洛夫從測度論角度把統(tǒng)計學進行公理化才有概率論與數(shù)理統(tǒng)計這門學科。因此,在教學實踐環(huán)節(jié),應該從數(shù)據(jù)出發(fā),摒棄相關理論,側(cè)重統(tǒng)計軟件的運用,有目的地、有組織地展開能夠為學生提升數(shù)據(jù)思維的環(huán)境。
四、現(xiàn)代統(tǒng)計學教學中提高大學生數(shù)據(jù)分析能力的基本途徑
(一)統(tǒng)計理論和案例應用相結合
以理論為基礎側(cè)重統(tǒng)計知識的應用,開展海量數(shù)據(jù)分析方法,基于統(tǒng)計分析軟件,結合海量數(shù)據(jù)處理技術,提升高校大學生的數(shù)據(jù)分析思維。近幾年來,統(tǒng)計建模大賽受到學校和各級部門的高度重視,作為創(chuàng)新創(chuàng)業(yè)大賽的一部分和培養(yǎng)創(chuàng)新型人才的重要手段之一,有利于高校學生利用統(tǒng)計計算軟件解決實際問題的本領,特別是統(tǒng)計模型的建立和統(tǒng)計方法的運用。進一步有利于培養(yǎng)學生的創(chuàng)新思維和提高他們的應用知識的水平。特別是伴隨著大數(shù)據(jù)時代的來臨,重大的變化需求也發(fā)生在各行各業(yè)對現(xiàn)代統(tǒng)計學高質(zhì)量人才的要求,這對與統(tǒng)計學相關的高等教育提出新的要求和挑戰(zhàn)。應該積極鼓勵學生參加各類統(tǒng)計和數(shù)學建模,通過對統(tǒng)計建模課程教學現(xiàn)狀的調(diào)查分析,確定統(tǒng)計建模課程改革的指導思想,探討課程內(nèi)容體系和教學內(nèi)容體系的構建,提出實踐性教學環(huán)節(jié)的實施模式,對大數(shù)據(jù)時代背景下統(tǒng)計建模教學方法進行探索與實踐。
(二)課程教學和上機實踐相結合
結合課程教學,我們安排上機實踐課程以提高學生的統(tǒng)計軟件能力。運用軟件進行大數(shù)據(jù)分析,調(diào)用函數(shù)、編寫復雜程序、仿真、模擬實驗等。運用軟件對統(tǒng)計理論進行驗證。一方面提高學生統(tǒng)計軟件的應用能力,另一方面加深學生對統(tǒng)計理論的理解。進一步布置較為開放性的命題,將學生分成若干組,要求結合自己的專業(yè)查找有關資料和大數(shù)據(jù),然后利用軟件完成相關的統(tǒng)計分析。結合各組上交的作業(yè)情況和各組講解作業(yè)完成思路的表現(xiàn)綜合打分。
(三)教師的教研和科研項目與教學相結合
任課教師應該積極主動開展和教學、教研有關的科學研究,并積極主動申請相關項目,并把學生以參與人的方式加入到項目中去。從實際問題出發(fā),和學生一起以合作方式完成相關項目包括論文的撰寫。從數(shù)據(jù)的收集處理、模型的建立、模型假設的驗證、數(shù)據(jù)分析結果的解釋說明等內(nèi)容,能使學生在一個項目中得到收獲激發(fā)他們的興趣愛好。
五、現(xiàn)代統(tǒng)計學教學中提高大學生數(shù)據(jù)分析能力過程中擬解決的問題
(一)課程體系和教學內(nèi)容體系的構建問題:經(jīng)典的數(shù)理統(tǒng)計類課程不能將所學知識與專業(yè)研究有機地聯(lián)系起來。在大數(shù)據(jù)驅(qū)動下新課程在教學內(nèi)容設計上注重理論學習與實踐有機結合,并凸顯數(shù)據(jù)建模的實踐應用價值,提升統(tǒng)計建模人才的綜合性技能。
(二)開展實踐教學的可行性:從學生的發(fā)展和需求及課程本身出發(fā),結合我校實際情況,從實踐教學的硬件和軟件,如大數(shù)據(jù)實驗室、教學觀念、師資團隊、實踐課程體系設置、數(shù)據(jù)來源等方面探討新課程實踐教學的可行性。
(三)適合多層次統(tǒng)計應用型人才培養(yǎng)平臺的搭建問題:大數(shù)據(jù)時代人才的培養(yǎng)需要多方主體的參與,不僅需要具有專業(yè)知識的高校,還需要具有熟練實踐知識的政界和企業(yè)界,三方交流合作才能培養(yǎng)出適合多層次的統(tǒng)計應用型人才,高校與政府、高校與企業(yè)進行多方合作的方式及可操作性問題是需要解決的關鍵問題之一。在我們的研究團隊中已有關注生物大數(shù)據(jù)應用的業(yè)界人員,這為我們解決這一關鍵問題提供了契機。
六、結語
綜上所述,當今的教育體制下學生數(shù)據(jù)分析能力的培養(yǎng)已經(jīng)涉及到不同學科。作為一名高校統(tǒng)計學教育教學工作者,應該積極主動地發(fā)現(xiàn)自身存在的不足,提出了制定適合信息與統(tǒng)計科學專業(yè)學生的數(shù)理統(tǒng)計課程大綱、實驗大綱和實驗指導書,編寫具有時代特色的數(shù)理統(tǒng)計教材,增加計算機實驗課程,加強案例教學和項目教學,建設網(wǎng)絡課程,改革考核方式等解決辦法,激發(fā)學生的學習興趣,提高學生的數(shù)據(jù)分析能力,適應大數(shù)據(jù)時代發(fā)展的要求,為國家和社會發(fā)展輸送更多高素質(zhì)應用和學術型的人才,積極探索新型的教學手段和教育方法。
參考文獻:
[1]國務院關于印發(fā)促進大數(shù)據(jù)發(fā)展行動綱要的通知[R],中國政府網(wǎng),2015-09-05.
[2]孟生旺,袁衛(wèi).大數(shù)據(jù)時代的統(tǒng)計教育J統(tǒng)計研究,2015.
[3]朱力平大數(shù)據(jù)面前,統(tǒng)計學的價值在哪里N光明日報,2019-03-30.
作者簡介:
許凱(1988年10月-),男,博士,副教授,主要從事統(tǒng)計推斷及課程教學方面的研究工作。