葛明星 蘇永剛
【摘要】數(shù)據(jù)素養(yǎng)是當今時代大學生應該具備的核心素養(yǎng)之一.為了加強大學生的數(shù)據(jù)素養(yǎng)教育,以概率論與數(shù)理統(tǒng)計課程中的基礎性概念教學為依托,按照數(shù)據(jù)素養(yǎng)的十個維度,把數(shù)據(jù)素養(yǎng)教育融入數(shù)學的課堂教學中去.
【關鍵詞】數(shù)據(jù)素養(yǎng);概率論與數(shù)理統(tǒng)計;課堂教學;數(shù)學概念
當今是一個信息化浪潮時代,而信息卻蘊含于數(shù)據(jù)之中,因此,數(shù)據(jù)素養(yǎng)是大學生應該具備的核心素養(yǎng)之一.Schield(2004)認為數(shù)據(jù)素養(yǎng)、信息素養(yǎng)和統(tǒng)計素養(yǎng)三者相互聯(lián)系、相互作用、密不可分.這里我們以某財經類??茖W院中的三年制學生為研究對象,以開設的概率論與數(shù)理統(tǒng)計課程為依托,探討如何在課堂教學中基于基礎性概念的講解為例,培養(yǎng)學生的數(shù)據(jù)素養(yǎng).同時,以數(shù)據(jù)素養(yǎng)中數(shù)據(jù)的數(shù)學定義、數(shù)據(jù)的敏感性、數(shù)據(jù)的來源、數(shù)據(jù)的清洗、數(shù)據(jù)整理、數(shù)據(jù)分析的內在邏輯、數(shù)據(jù)分析、數(shù)據(jù)挖掘、數(shù)據(jù)決策和數(shù)據(jù)預測十個維度為線索展開分析.
一、數(shù)據(jù)的定義
一般地,我們在分析一些事物時,它會表現(xiàn)出數(shù)個特征,其中的每一個特征,我們定義為一個變量.刻畫水平、分類等特征的稱之為定性變量,其他為定量變量.定量變量有連續(xù)型變量和離散變量兩種.數(shù)據(jù)在概率論與數(shù)理統(tǒng)計這門課程中就定義為變量的觀測值.例如,一方麥田里小麥的高度就是一個變量,我們若測得某株的高度為98厘米,這就是一個數(shù)據(jù),一般來說,數(shù)據(jù)常常是一個集合名詞,即每一個數(shù)據(jù)里包含很多觀測值.因此,數(shù)據(jù)和變量緊緊相關,變量分為隨機變量和常量.而隨機變量的性質被其概率分布所決定,一件事情的概率就是該事件發(fā)生可能性的一個數(shù)量度量,其數(shù)值在0到1之間.一般我們所說的概率是指統(tǒng)計概率,而有些事件無法重復試驗.例如,某一個人活到85歲的可能性為八成,這種概率稱之為主觀概率.事件的概率是進行數(shù)據(jù)分析、挖掘的基礎性概念.
二、數(shù)據(jù)的敏感性
一個人在生活、學習、工作中,在與人、事、物的接觸中要善于捕捉關鍵數(shù)字,形成對數(shù)字強的敏感性,很是重要.例如,在城市里坐公交車上下班,你要清楚最早的一班車是幾點幾分,最晚的一班車是幾點幾分,兩班車之間的時間間隔是多長等.工作中所使用的工具或者儀器等,要對其特性、操作流程等進行數(shù)據(jù)化.以至于,家里做飯,每一道菜的做法,也要潛意識地數(shù)據(jù)化,否則不是材料配比不恰當,就是生熟火候不到等,做到色香味俱全,腦子里要有一套數(shù)據(jù)在指導.
三、數(shù)據(jù)來源
我們這個世界的每一個角落都充滿了數(shù)據(jù),來自經濟的、政治的、文化的、教育的、科研技術的、軍事的等等.不同的行業(yè)形成了不同數(shù)據(jù)平臺,有開放的,有不開放的;有流動的,有儲存在數(shù)據(jù)庫里.例如,我們研究一個經濟問題,我們可以到政府的金融、統(tǒng)計、財政、稅務等部門的數(shù)據(jù)庫或者其網站去搜尋,可以到行業(yè)企業(yè)的數(shù)據(jù)庫或者網站去獲取,以及一些經濟方面的社交平臺去抓取,也可以設計調查問卷去收集數(shù)據(jù)等等.
數(shù)學上,把數(shù)據(jù)分為一手數(shù)據(jù)和二手數(shù)據(jù).一手數(shù)據(jù)是直接調查等方式獲得的,也就是原始數(shù)據(jù);二手數(shù)據(jù)是指在研究一個問題時,原始數(shù)據(jù)之外所用到的數(shù)據(jù).因此,提高數(shù)據(jù)素養(yǎng),我們要清楚怎樣去獲取數(shù)據(jù),一是直接來自數(shù)據(jù)庫,二是去抓取流動的數(shù)據(jù),三是實驗與調查,取得第一手數(shù)據(jù).其中,在流動的數(shù)據(jù)中抓取數(shù)據(jù),需要學習相關軟件如爬蟲等.
調查設計是獲取原始數(shù)據(jù)的重要手段.對于調查對象的全體稱之為總體,其中的對象為個體,部分個體組成樣本.抽樣分為系統(tǒng)抽樣、分層抽樣、整群抽樣、多級抽樣等,從容量為N的總體中產生樣本為n的隨機樣本,常用方法是隨機數(shù)法.例如,從1到100之間隨機抽取20個整數(shù),在R軟件中,可以用語句sample(0:100,20)來實現(xiàn).這些概念都是數(shù)據(jù)素養(yǎng)提高的載體.
四、數(shù)據(jù)清洗
清洗數(shù)據(jù)是為了形成目標數(shù)據(jù)以及提高數(shù)據(jù)質量.例如,常見的軟件Excel為數(shù)據(jù)清洗提供了一系列的函數(shù),比如,刪除重復、查找替換以及拼音檢查等.DataKleenr是數(shù)據(jù)清洗軟件領域的新兵,它是一款全自動的解決方案,支持text、數(shù)字和二進制數(shù)據(jù).它基于云,無須下載安裝,只要有瀏覽器和網絡即可.創(chuàng)建賬戶,所有的數(shù)據(jù)清洗操作都在云上進行;然后會加密、保存到您的私人工作區(qū),通過賬戶登陸可以隨時隨地管理項目.學概率論與數(shù)理統(tǒng)計課程,需要基本學會這些軟件.
五、數(shù)據(jù)整理
首先對數(shù)據(jù)進行審核,檢驗原始數(shù)據(jù)的完整性、準確性和時效性,按照一定的標準將原始數(shù)據(jù)進行分組、匯總,把數(shù)據(jù)列入表格.整理后的數(shù)據(jù)可以進一步可視化:運用相關軟件如SPASS等,把數(shù)據(jù)變?yōu)橐?guī)律性圖形與色彩.像條形圖、餅圖、直方圖、盒形圖、莖葉圖等,這幾種圖形僅僅代表一個變量的觀察數(shù)據(jù).對兩個變量之間的數(shù)據(jù)關系,可以用散點圖來描述,縱橫坐標分別表示兩個變量的取值.其他可視化圖還有面孔圖、地理圖形,表示四個變量的星形圖等等.
六、數(shù)據(jù)分析的邏輯
統(tǒng)計學的基本思維邏輯是:面對一個問題,提出一個假設,取得樣本或者總體的數(shù)據(jù),進行數(shù)據(jù)分析,然后肯定或者否定假設.用部分的特性推測整體的特性,用現(xiàn)在的數(shù)據(jù)推測未來的趨勢.
七、數(shù)據(jù)分析
在統(tǒng)計思維的基礎上,運用分析工具進行數(shù)據(jù)分析.統(tǒng)計量是不包含未知總體參數(shù)的樣本的函數(shù),用于估計的統(tǒng)計量稱為估計量.匯總統(tǒng)計量主要包括樣本均值、中位數(shù)、眾數(shù),表示數(shù)據(jù)中心的位置,均值涉及所有數(shù)據(jù),中位數(shù)不易受極端數(shù)據(jù)的影響,具有穩(wěn)健性.眾數(shù)表示數(shù)據(jù)中重復出現(xiàn)次數(shù)最多的數(shù)據(jù).尺度匯總統(tǒng)計量——樣本方差、標準差、級差、標準誤差,表示數(shù)據(jù)的離散程度.樣本方差、標準差的差別在于量綱.求方差的分母用n-1,而不用n的原因是這樣的樣本方差是無偏估計量.標準誤差是多個樣本均值的標準差.
八、數(shù)據(jù)挖掘
要進行數(shù)據(jù)挖掘,還要搞清楚變量的常見分布,它表示隨機變量的取值和相應概率的關系,隨機變量取任意一值所得概率的變化規(guī)律稱之為分布.熟悉這些分布(模型)是數(shù)據(jù)挖掘的重要一環(huán),概率分布若知道了,就等于知道了總體.例如,我們知道某一門課程高考的分數(shù)服從正態(tài)分布,就相當于我們知道了這個總體.
離散型變量分布有:二項分布、多項分布、超幾何分布、泊松分布等;連續(xù)型變量分布有:正態(tài)分布、卡方分布、學生分布、均勻分布、指數(shù)分布等.
例如,設有80%的學生能夠考試及格,現(xiàn)隨機問詢7個人,則至少3個人能夠考試及格的概率是多少?
九、數(shù)據(jù)決策
按照專科生概率論與數(shù)理統(tǒng)計課程的教學目標,包括簡單的統(tǒng)計推斷、總體參數(shù)估計與總體參數(shù)的假設檢驗.估計總體參數(shù)的統(tǒng)計量叫作估計量,常用的估計量就是樣本的均值x、樣本的標準差s、成功比例xn.估計包括點估計與區(qū)間估計,要根據(jù)現(xiàn)實的情況,采用哪種估計.例如,某產品“合格率是75%,誤差±2%,其置信度95%”,這里合格率是一個區(qū)間(73%,77%),置信度是指對產生這樣一個區(qū)間估計過程的一種信心.當然,我們希望區(qū)間窄,置信度大些好.
以假設檢驗進行決策基礎是利用數(shù)據(jù)來證偽.假設檢驗中,一般要設立一個零假設(H0表示)和一個對立假設,稱為備擇假設(常用H1表示),設立這些假設的意圖是指運用樣本數(shù)據(jù)(一般更接近于備擇假設),找出零假設和現(xiàn)實之間的矛盾,從而否定這個假設,這稱之為顯著性假設檢驗.在多數(shù)統(tǒng)計實驗中的假設檢驗都是以否定零假設為目標,如果否定不了,那就說明證據(jù)不足,但零假設未必正確.判定方法如下:
P值是在零假設下,出現(xiàn)檢驗統(tǒng)計量的現(xiàn)實值.P值越小,說明樣本數(shù)據(jù)不支持零假設,它是由樣本數(shù)據(jù)決定,而顯著性水平是由用戶決定的.
十、數(shù)據(jù)預測
前面的數(shù)據(jù)分析,都是基于單一變量,但是世界上一個問題中常常涉及相互關聯(lián)的多個變量.關心變量和其他有關變量之間的關系,一般稱為模型.因此,它們形成函數(shù)關系Y=f(X),這里Y稱為因變量或者響應變量,X稱為自變量或者解釋變量、協(xié)變量.尋找這種關系的過程叫作回歸,建立回歸模型后可以進行預測.例如,一元線性回歸模型如下:
這樣,我們取所謂未來的X的一個數(shù)值,可以得到預測值Y.
十一、結束語
通過上面的研究,我們把數(shù)據(jù)素養(yǎng)的十個維度和概率論與數(shù)理統(tǒng)計課程中基本概念緊緊地交織在一起,由此,在概率論與數(shù)理統(tǒng)計的課堂教學中就融入了數(shù)據(jù)素養(yǎng)教育,從而摸索進行數(shù)學課堂教學模式的改進.課題組相關成員一年多的課堂教學實踐表明,能夠達到預期目標,教學效果良好.
【參考文獻】
[1]Schield M.Information literacy,statistical literacy and data literacy[J].Iassist Quarterly,2004(2-3):7-14.
[2]徐群芳.《概率論與數(shù)理統(tǒng)計》課程教學的探索與實踐[J].大學數(shù)學,2010(1):10-13.
[3]王庚.《概率論與數(shù)理統(tǒng)計》課程的一種新教改模式[J].南京財經大學學報,2009(2):102-105.
[4]周興才.應用型本科院校概率論與數(shù)理統(tǒng)計教學研究[J].湖北文理學院學報,2011(5):60-63.
[5]朱德全.數(shù)學素養(yǎng)構成要素探析[J].中國教育學刊,2002(5):49-51.
[6]張靜波.大數(shù)據(jù)時代的數(shù)據(jù)素養(yǎng)教育[J].科學,2013(4):29-32.
[7]鄭毓信.簡論數(shù)學課程改革的活動化、個性化、生活化取向[J].教育研究,2003(6):90-94.
[8]章建躍.全面深化數(shù)學課改的幾個關鍵[J].課程·教材·教法,2015(5):76-80.