劉加霞
大數(shù)據(jù)時代背景下,人的數(shù)據(jù)意識與數(shù)據(jù)分析能力尤為重要。收集、分析數(shù)據(jù)的重要目的是研究與解決問題。什么是數(shù)據(jù)、數(shù)據(jù)有哪些類型及特點、傳統(tǒng)數(shù)據(jù)與大數(shù)據(jù)有何區(qū)別、如何理解“數(shù)據(jù)中蘊含著信息”等,是一線教師持續(xù)關(guān)注的問題。
數(shù)據(jù)的不同類別與價值
數(shù)據(jù)在科學(xué)研究中占據(jù)中心地位。大數(shù)據(jù)時代,數(shù)據(jù)收集的方式方法發(fā)生了翻天覆地的變化,但收集哪些數(shù)據(jù)的思路并沒有改變,仍取決于研究者對研究問題及統(tǒng)計指標(biāo)的設(shè)計。學(xué)界對“數(shù)據(jù)是什么”一直沒有明確、統(tǒng)一的解釋。李金昌教授認(rèn)為,可以從兩個角度理解數(shù)據(jù),狹義的數(shù)據(jù)就是以數(shù)字表現(xiàn)的可進(jìn)行數(shù)學(xué)運算的數(shù)值,即所謂的結(jié)構(gòu)化數(shù)據(jù);廣義的數(shù)據(jù)指一切可以用一定形式記錄和反映的客觀事實,是信息的表現(xiàn)方式或載體,除了數(shù)值、圖表,還可以是符號、文字、圖像、聲音、視頻等所謂的非結(jié)構(gòu)化數(shù)據(jù),以及其他任何有可能被納入統(tǒng)計學(xué)研究對象的可存在形式。
隨著時代發(fā)展,數(shù)據(jù)可以分為傳統(tǒng)數(shù)據(jù)與大數(shù)據(jù)。傳統(tǒng)數(shù)據(jù)就是通過調(diào)研、實驗所獲得的結(jié)構(gòu)化數(shù)據(jù)(即觀測數(shù)據(jù)和實驗數(shù)據(jù)),數(shù)理統(tǒng)計學(xué)家陳希孺院士將其細(xì)分為3個類別:抽樣數(shù)據(jù)、重復(fù)測量同一對象數(shù)據(jù)、試驗設(shè)計所得數(shù)據(jù)。目前,小學(xué)階段所研究的數(shù)據(jù)都是傳統(tǒng)數(shù)據(jù),以調(diào)研觀測數(shù)據(jù)為主。大數(shù)據(jù)的“大”不是指數(shù)據(jù)量之大,更強(qiáng)調(diào)“全體”的意思。大數(shù)據(jù)指不限量的數(shù)據(jù),是基于現(xiàn)代信息技術(shù)的一切可以記錄的全體數(shù)據(jù),其特征之一是盡量多地包含數(shù)據(jù),它與樣本容量無關(guān),只與信息來源的數(shù)量和儲存容量有關(guān)。例如,交通監(jiān)控系統(tǒng)獲得的數(shù)據(jù)(自動產(chǎn)生的數(shù)據(jù))、網(wǎng)絡(luò)上購買東西的數(shù)據(jù)(驅(qū)動產(chǎn)生的數(shù)據(jù))等都是大數(shù)據(jù)。
從另一個角度看,數(shù)據(jù)還有統(tǒng)計數(shù)據(jù)與非統(tǒng)計數(shù)據(jù)之分。統(tǒng)計數(shù)據(jù)指能通過統(tǒng)計方法獲得并加以處理和分析、用統(tǒng)計語言來表現(xiàn)分析結(jié)果的數(shù)據(jù)。其中,只有契合問題本質(zhì)和數(shù)據(jù)形態(tài)特征的分析方法才是科學(xué)的統(tǒng)計方法,統(tǒng)計語言就是統(tǒng)計指標(biāo)(變量)和各種圖表(包括可視化)。當(dāng)然,統(tǒng)計數(shù)據(jù)的界定也不是絕對的,隨著研究問題的不斷變化,相應(yīng)的統(tǒng)計方法也會發(fā)生變化,隨著處理和分析數(shù)據(jù)能力的增強(qiáng),統(tǒng)計數(shù)據(jù)的范圍將不斷擴(kuò)大。
“數(shù)據(jù)蘊含著信息”是數(shù)據(jù)存在的最大價值,即數(shù)據(jù)不僅為了記錄,更要從中挖掘出有價值的信息,通過對其篩選與分析得出所需要的結(jié)論,或者將其轉(zhuǎn)化為有用的信息解決實際問題。需要注意的是,虛假錯誤的數(shù)據(jù)也可以分析出有意義的結(jié)果,因此要特別關(guān)注數(shù)據(jù)的來源和真實性。
關(guān)于數(shù)據(jù)分析觀念,課程標(biāo)準(zhǔn)中首要強(qiáng)調(diào)“用真實數(shù)據(jù)說話”的意識與做人做事的態(tài)度;其次,通過分析數(shù)據(jù)發(fā)現(xiàn)事物的規(guī)律,進(jìn)而解決實際問題;最后,要學(xué)生感悟即使數(shù)據(jù)是真實的,但統(tǒng)計數(shù)據(jù)仍具有隨機(jī)性。
統(tǒng)計數(shù)據(jù)的本質(zhì)特征——隨機(jī)性
隨機(jī)性指事件發(fā)生的結(jié)果不能由人主觀臆想、主觀控制。統(tǒng)計數(shù)據(jù)具有隨機(jī)性,但小學(xué)階段所涉及的數(shù)據(jù)分兩種情況:一種是不考慮隨機(jī)性的數(shù)據(jù),只針對調(diào)查出的數(shù)據(jù)本身進(jìn)行描述分析。例如,調(diào)研全班學(xué)生最愛吃哪種水果、全班學(xué)生身高的數(shù)據(jù)。另一種情況是具有隨機(jī)性的數(shù)據(jù)。具有隨機(jī)性的數(shù)據(jù)包括兩種情況:一是完全隨機(jī)性,即概率試驗所得到的數(shù)據(jù),例如拋硬幣、擲骰子試驗所得到的數(shù)據(jù);二是來自現(xiàn)實的數(shù)據(jù),既具有一定的隨機(jī)性,但又不完全隨機(jī),屬于半隨機(jī)狀態(tài)。
完全隨機(jī)和完全不隨機(jī)的數(shù),屬于數(shù)學(xué)研究或數(shù)學(xué)闡釋的范疇,半隨機(jī)性的數(shù)據(jù)則由于歷史原因歸于統(tǒng)計研究的領(lǐng)域。例如,一天中某股票的價格(排除人為操控因素)、某地每天發(fā)生的交通事故數(shù)、每天上學(xué)遲到的學(xué)生人數(shù)、10次測量一支鉛筆的長度(規(guī)定精確度)等都是半隨機(jī)性數(shù)據(jù)。數(shù)據(jù)要盡可能排除人為干擾和系統(tǒng)誤差,這樣通過統(tǒng)計推斷所得到的結(jié)果才能“更好”,但所得出的結(jié)論沒有“對錯”之分。這與數(shù)學(xué)結(jié)論具有唯一性、確定性等特征不同,這一點也是統(tǒng)計思維與數(shù)學(xué)思維的本質(zhì)區(qū)別。在小學(xué)階段培養(yǎng)學(xué)生的統(tǒng)計思維非常有難度。
此外,大數(shù)據(jù)具有4V(Volume大量、Velocity高速、Variety多樣、Value價值)特征。史寧中教授認(rèn)為,大數(shù)據(jù)還具有“價值稀疏性”,數(shù)據(jù)量那么大,每天能夠產(chǎn)生25億GB,真正有分析價值的不到0.5%,但一旦有價值就是“價值最大的價值”。
如何獲得數(shù)據(jù)所蘊含的信息
數(shù)據(jù)蘊含著信息,關(guān)鍵要用一定的(或者不同的)方法發(fā)現(xiàn)并獲得這些信息,用哪些統(tǒng)計方法取決于分析者的判斷準(zhǔn)則及價值觀,但要遵從數(shù)據(jù)類型,不同類型的數(shù)據(jù)適合的分析方法也不同。因而,統(tǒng)計既是科學(xué),也是藝術(shù)。
如前所述,對不具有隨機(jī)性數(shù)據(jù)的分析稱為描述性分析(描述統(tǒng)計),例如可以對數(shù)據(jù)排序、“分段”整理,或者求最大值、最小值、平均數(shù)等獲得信息。這些信息是數(shù)據(jù)“自身攜帶”的,只需要描述出來,不需要進(jìn)行推斷、估計等思維活動。這類數(shù)據(jù)最重要的加工方式是對數(shù)據(jù)“合理分類”。例如,對調(diào)研獲得的全班學(xué)生身高數(shù)據(jù)進(jìn)行“合理分段”非常重要,分段前要制定標(biāo)準(zhǔn),每段“多長(區(qū)間長度)”、所分“段數(shù)”是多少等都要合理。學(xué)會基于“標(biāo)準(zhǔn)”做判斷是重要的數(shù)學(xué)思維。
教學(xué)統(tǒng)計圖表時,不應(yīng)是教師“畫好”了,再讓學(xué)生填寫某個“圖表”,這樣做沒有思維價值,不是素養(yǎng)導(dǎo)向的教學(xué)。教師應(yīng)引導(dǎo)學(xué)生思考“為什么”,經(jīng)歷“圖表”的建構(gòu)過程。如,怎樣設(shè)計表頭、如何確定統(tǒng)計圖中橫軸的分類與縱軸的單位等。確定標(biāo)準(zhǔn)的過程就是學(xué)會度量的過程。因此,分類與度量是尤為重要的兩種數(shù)學(xué)思想和科學(xué)研究方法,制訂標(biāo)準(zhǔn)與按標(biāo)準(zhǔn)做事是非常重要的兩件事,既涉及能力問題,也涉及情感態(tài)度甚至是價值觀的問題。
具有隨機(jī)性數(shù)據(jù)的統(tǒng)計分析稱為推斷分析(推斷統(tǒng)計),例如通過求相關(guān)系數(shù)、回歸方程結(jié)構(gòu)模型等,再輔以描述統(tǒng)計的方法,人們就可以獲得數(shù)據(jù)蘊含的更多“隱藏”信息。推斷統(tǒng)計的核心是通過已經(jīng)驗了的事物推斷未曾經(jīng)驗的事物,或者說通過樣本推斷總體。因此,抽樣問題至關(guān)重要。
李金昌教授認(rèn)為:統(tǒng)計分析的過程是一個循序漸進(jìn)的過程,它既容忍誤差的存在,又不斷在認(rèn)識過程中控制和降低誤差,同時,對分析結(jié)論進(jìn)行評估。在大數(shù)據(jù)時代背景下,和調(diào)研實驗數(shù)據(jù)不一樣,大數(shù)據(jù)的分析更為復(fù)雜,雖然小學(xué)階段不要求學(xué)生學(xué)習(xí)大數(shù)據(jù),但可以結(jié)合學(xué)生生活實際讓他們知道大數(shù)據(jù)的存在、了解大數(shù)據(jù)的價值。
助理編輯? 劉佳