李 健 于 涵
(人民教育出版社課程教材研究所 100081)(北京景山學(xué)校遠(yuǎn)洋分校 100040)
隨著大數(shù)據(jù)時(shí)代的來臨,數(shù)據(jù)素養(yǎng)成為人們應(yīng)對(duì)工作、生活的重要能力之一,也就自然成為數(shù)學(xué)課程聯(lián)系現(xiàn)實(shí)應(yīng)用的重要落腳點(diǎn).在《義務(wù)教育數(shù)學(xué)課程標(biāo)準(zhǔn)(2022年版)》(下稱《標(biāo)準(zhǔn)2022》)中,發(fā)展學(xué)生的數(shù)據(jù)意識(shí)與數(shù)據(jù)觀念,成為落實(shí)義務(wù)教育階段數(shù)學(xué)課程“三會(huì)”核心素養(yǎng)的重要舉措[1].
“統(tǒng)計(jì)與概率”是義務(wù)教育階段數(shù)學(xué)課程內(nèi)容的四個(gè)學(xué)習(xí)領(lǐng)域之一,與《義務(wù)教育數(shù)學(xué)課程標(biāo)準(zhǔn)(2011年版)》相比,《標(biāo)準(zhǔn)2022》在“統(tǒng)計(jì)與概率”領(lǐng)域中的變化不?。畬?duì)于初中階段而言,增加了“中位數(shù)、眾數(shù)的意義”“數(shù)據(jù)分類的原則”“四分位數(shù)、百分位數(shù)”“箱線圖”“分布式計(jì)算”等內(nèi)容[2],它們都可歸為探索數(shù)據(jù)特征的有力工具或重要方法.其中,箱線圖作為呈現(xiàn)數(shù)據(jù)分布特征的可視化技術(shù),為初中生開展數(shù)據(jù)分析活動(dòng)提供了一種簡單而直觀的工具.由于箱線圖是《標(biāo)準(zhǔn)2022》中新增的內(nèi)容,所以絕大多數(shù)一線教師對(duì)其并不熟悉.為此,本文將依循箱線圖有何形式、從何而來、如何認(rèn)識(shí)、如何教學(xué)的邏輯線索展開分析:首先介紹箱線圖的呈現(xiàn)形式;再對(duì)箱線圖的起源與發(fā)展進(jìn)行說明;然后從“數(shù)”“形”兩個(gè)角度討論箱線圖,加深認(rèn)識(shí);最后提出關(guān)于箱線圖的教學(xué)思考.
《標(biāo)準(zhǔn)2022》中出現(xiàn)的箱線圖,也可稱為盒須圖,緣于對(duì)英文術(shù)語box-and-whisker plot的直譯.又因常以英文術(shù)語box plot作為box-and-whisker plot的簡稱,故而也常將其譯作箱形圖或箱式圖.
統(tǒng)計(jì)分析一組定量數(shù)據(jù)時(shí),最基本的操作包括了解這組數(shù)據(jù)的分布形式.對(duì)于一維數(shù)據(jù)而言,統(tǒng)計(jì)學(xué)中常常使用一種稱為“五數(shù)概括(5-number summary)”的數(shù)據(jù)描述方式.所謂“五數(shù)概括”,是指將一組數(shù)據(jù)按由小到大排序,使用最小值、第一四分位數(shù)(第25百分位數(shù)/下四分位數(shù))、中位數(shù)(第50百分位數(shù))、第三四分位數(shù)(第75百分位數(shù)/上四分位數(shù))、最大值對(duì)這組數(shù)據(jù)的分布形態(tài)進(jìn)行綜合描述.
圖1 箱線圖的典型構(gòu)造
箱線圖是一種可以直觀地呈現(xiàn)“五數(shù)概括”的數(shù)據(jù)可視化技術(shù),箱線圖的典型構(gòu)造見圖l.箱線圖將整個(gè)數(shù)據(jù)集劃分為容量大小相等的四個(gè)子集:“箱子”的下端和上端分別表示第一四分位數(shù)和第三四分位數(shù),整個(gè)“箱子”的長度(第三四分位數(shù)減第一四分位數(shù)的差)稱為四分位距,能夠呈現(xiàn)出中間50%的數(shù)據(jù)分布區(qū)域;在“箱子”內(nèi)部繪制一個(gè)橫條與“箱子”相交,該橫條上下各有一半的數(shù)據(jù),這個(gè)橫條表示整個(gè)數(shù)據(jù)集的中位數(shù);“箱子”兩端的兩條線被延展到整個(gè)數(shù)據(jù)集的最小值和最大值;有時(shí)為了避免一些極端值影響我們對(duì)數(shù)據(jù)分布的認(rèn)識(shí),也將線的長度設(shè)置為四分位距的倍數(shù)(如1.5或3),例如當(dāng)個(gè)別數(shù)據(jù)不在區(qū)間[第一四分位數(shù)-1.5倍四分位距,第三四分?jǐn)?shù)+1.5倍四分位距]內(nèi)時(shí),就將該數(shù)據(jù)獨(dú)立標(biāo)出,這個(gè)數(shù)據(jù)就稱為異常值.
需要說明的是,“箱子”的寬度和填充、線的呈現(xiàn)形式、異常值的表示等都沒有絕對(duì)的標(biāo)準(zhǔn),繪圖者可以自行選擇.
箱線圖的起源可以追溯到范圍條形圖(range-bar chart),如圖2(1).Haemer認(rèn)為,范圍條形圖不僅可用于數(shù)據(jù)全距的比較,還可以通過在圖中注釋,以此表示集中趨勢,如中位數(shù)、平均值、眾數(shù)、標(biāo)準(zhǔn)差等[3].利用這種在范圍條形圖中做標(biāo)注的改良思想,通過在范圍條形圖中標(biāo)注“五數(shù)概括”,將條形圖縮短到只包含中間50%的數(shù)據(jù),使用細(xì)線表示整個(gè)范圍,用垂線表示中位數(shù),如圖2(2),這就是我們今天普遍見到的箱線圖[4].20世紀(jì)70年代,美國統(tǒng)計(jì)學(xué)家John Tukey正式發(fā)明了箱線圖,并指出:描述一組數(shù)據(jù)時(shí),當(dāng)存在某些遠(yuǎn)離絕大多數(shù)數(shù)據(jù)的極端值時(shí),需要設(shè)置合適的“柵欄(fence)”對(duì)其進(jìn)行區(qū)分,并提出將箱線圖兩端的線的長度設(shè)置為四分位距的1.5倍,并使用獨(dú)立標(biāo)記來表示異常值;去掉了范圍條形圖中的填充;清楚地標(biāo)記范圍線的末端[5]41-44.
圖2 箱線圖的演變
在此之后,一些改良版的箱線圖應(yīng)運(yùn)而生,如圖2(3)中的四分位數(shù)圖(quartile plot)、圖2(4)中的縮略箱線圖(abbreviated box plot)等.這些圖的一個(gè)共性特點(diǎn)是都盡可能地使用較少的“筆墨”繪制箱線圖,這既是出于減小繪制難度的考慮,又兼顧到了繪制、印刷過程中的顏料成本控制[4].近年來,隨著計(jì)算機(jī)及數(shù)據(jù)可視化軟件的發(fā)展,箱線圖已經(jīng)逐步被一些更能夠精細(xì)地體現(xiàn)數(shù)據(jù)分布特征的統(tǒng)計(jì)圖所取代[6],例如圖3中的小提琴圖(violin plot)、散點(diǎn)圖(dot plot)就可以傳遞出某些數(shù)據(jù)集分布的多峰特征,但對(duì)應(yīng)的箱線圖僅能呈現(xiàn)中位數(shù)這一集中趨勢.
圖3 同一數(shù)據(jù)集對(duì)應(yīng)的箱線圖(左)、小提琴圖(中)與散點(diǎn)圖(右)
自箱線圖被發(fā)明以來,很快便得到廣泛應(yīng)用,究其原因:一方面在于箱線圖能夠提供關(guān)于數(shù)據(jù)分布的豐富信息;另一方面在于箱線圖易于繪制,畢竟在上世紀(jì)中后期,數(shù)據(jù)可視化主要是通過手工繪制實(shí)現(xiàn)的.盡管箱線圖對(duì)信息傳遞的精確度不如之后發(fā)明的小提琴圖、散點(diǎn)圖等優(yōu)越,但無論如何,箱線圖都已憑借其簡單易得、直觀形象的特點(diǎn),奠定了其在數(shù)據(jù)可視化技術(shù)中的地位,成為了描述數(shù)據(jù)分布特征的經(jīng)典工具.時(shí)至今日,我們能夠在許多數(shù)據(jù)分析報(bào)告中看見箱線圖的身影.
作為統(tǒng)計(jì)圖的箱線圖,具有數(shù)形結(jié)合的特征.接下來,將分別從“數(shù)”“形”兩個(gè)視角入手分析箱線圖,確保能夠更加深入地認(rèn)識(shí)箱線圖.
從“數(shù)”的角度來看,理解箱線圖的前提條件是能夠準(zhǔn)確認(rèn)識(shí)“五數(shù)概括”.在“五數(shù)概括”中,最小值與最大值很容易理解,只要確定了這兩個(gè)值,也就輕松地確定了整個(gè)數(shù)據(jù)的分布范圍.緊接著,我們應(yīng)該查看中位數(shù).中位數(shù)是衡量一組數(shù)據(jù)分布中心的參數(shù),它將整個(gè)數(shù)據(jù)集按數(shù)值大小“一分為二”,一半的數(shù)比它大、一半的數(shù)比它小,這樣就形成了兩個(gè)容量為原數(shù)據(jù)集容量一半的新數(shù)據(jù)集.然后,再對(duì)兩個(gè)新的數(shù)據(jù)集分別取中位數(shù),這兩個(gè)中位數(shù)就是原數(shù)據(jù)集的第一四分位數(shù)和第三四分位數(shù)了.
通過上述分析,不難發(fā)現(xiàn)“五數(shù)概括”與三個(gè)中位數(shù)之間的緊密關(guān)聯(lián):以兩個(gè)極值為基礎(chǔ),通過三次按數(shù)值大小“一分為二”,得到三個(gè)中位數(shù),也就是“五數(shù)概括”中的三個(gè)四分位數(shù).因此,如果將“五數(shù)概括”稱為箱線圖的一種靜態(tài)形成方式,那么“三個(gè)中位數(shù)”就為我們提供了一種箱線圖的動(dòng)態(tài)形成方式.
比較是認(rèn)識(shí)事物特征的有效方式,將箱線圖與其他一些經(jīng)典統(tǒng)計(jì)圖相比較,有助于我們更好地認(rèn)識(shí)箱線圖的特殊性.在條形圖(bar chart)中,不同類別對(duì)應(yīng)的矩形高/面積,與該類別所占數(shù)據(jù)頻數(shù)成正比,如圖4中類別B對(duì)應(yīng)的矩形是類別A對(duì)應(yīng)矩形的高/面積的2倍,那么類別B對(duì)應(yīng)的數(shù)據(jù)頻數(shù)就是類型A對(duì)應(yīng)數(shù)據(jù)頻數(shù)的2倍.相似的情形在扇形圖(pie chart)、直方圖(histogram)、雷達(dá)圖(radar chart)中同樣存在:在這些統(tǒng)計(jì)圖中,幾何對(duì)象的度量值與其所占數(shù)據(jù)頻數(shù)成正比.
圖4 條形圖的高/面積與其頻數(shù)成正比 圖5 箱線圖各部分長度與其數(shù)據(jù)密度成反比
通過上述分析可知:不同于多數(shù)統(tǒng)計(jì)圖,箱線圖中各“部分”的長度(度量值),僅與其所占數(shù)據(jù)的密度有關(guān),謹(jǐn)防將其與各“部分”所占數(shù)據(jù)頻數(shù)相關(guān)聯(lián).
基于上述對(duì)箱線圖的分析,以及大數(shù)據(jù)時(shí)代背景下統(tǒng)計(jì)教學(xué)的需求導(dǎo)向,對(duì)箱線圖的教學(xué)提出幾點(diǎn)思考.
《標(biāo)準(zhǔn)2022》將“三會(huì)”(會(huì)用數(shù)學(xué)的眼光觀察現(xiàn)實(shí)世界、會(huì)用數(shù)學(xué)的思維思考現(xiàn)實(shí)世界、會(huì)用數(shù)學(xué)的語言表達(dá)現(xiàn)實(shí)世界)作為數(shù)學(xué)學(xué)科核心素養(yǎng),是學(xué)生數(shù)學(xué)學(xué)習(xí)的關(guān)鍵.箱線圖的本質(zhì)是對(duì)數(shù)據(jù)分布的可視化呈現(xiàn),能幫助學(xué)生掌握與探索一組事物數(shù)據(jù)信息的分布概貌.利用箱線圖直觀刻畫現(xiàn)實(shí)世界中的數(shù)據(jù)分布,能夠?yàn)閷W(xué)生提供發(fā)展“三會(huì)”核心素養(yǎng)的有效學(xué)習(xí)機(jī)會(huì).首先是體現(xiàn)“數(shù)學(xué)的眼光”,教學(xué)時(shí)要注意體現(xiàn)學(xué)習(xí)數(shù)據(jù)分布的意義所在,例如呈現(xiàn)希望了解不同天氣情況的單日冷飲售賣情況、不同睡眠時(shí)間學(xué)生的身高差異等問題情境,使學(xué)生基于不同情境感受到研究數(shù)據(jù)分布是一種行之有效的解決問題的手段.其次是體現(xiàn)“數(shù)學(xué)的思維”,由于箱線圖的最佳用途在于同時(shí)比較多個(gè)數(shù)據(jù)的分布[7],所以應(yīng)讓學(xué)生結(jié)合箱線圖中的“五數(shù)概括”與圖形特征,對(duì)不同類別數(shù)據(jù)的分布進(jìn)行比較.最后是體現(xiàn)“數(shù)學(xué)的語言”,箱線圖是基于數(shù)據(jù)建立的一種能夠反映其分布特點(diǎn)的模型,這種模型就是一種數(shù)學(xué)的語言,故而要借助箱線圖培養(yǎng)學(xué)生解讀數(shù)據(jù)分布的能力.對(duì)于部分學(xué)有余力的學(xué)生,甚至可建議其通過自行繪制箱線圖,進(jìn)行數(shù)據(jù)分布的分析.
箱線圖本身不是孤立存在的,在其對(duì)應(yīng)的統(tǒng)計(jì)知識(shí)體系中占據(jù)著一席之地,將其與相關(guān)統(tǒng)計(jì)知識(shí)整合在一起,將有助學(xué)生形成良好的數(shù)學(xué)知識(shí)脈絡(luò)、更好地理解與掌握箱線圖.首先,箱線圖是“五數(shù)概括”的可視化形式,也就直接關(guān)聯(lián)到四分位數(shù)、百分位數(shù)等統(tǒng)計(jì)概念,這些概念都與一組數(shù)據(jù)中元素的順序相關(guān),是典型的基于“數(shù)值順序”刻畫數(shù)據(jù)分布形式的參數(shù),教學(xué)時(shí)應(yīng)注重結(jié)合箱線圖,使學(xué)生會(huì)計(jì)算四分位數(shù),能感悟百分位數(shù)的意義.其次,要注意將箱線圖與條形圖、直方圖等統(tǒng)計(jì)圖進(jìn)行比較教學(xué),通過異同點(diǎn)分析,將有助學(xué)生更好地理解箱線圖的特征,諸如箱線圖中不同部分的長度僅能反映對(duì)應(yīng)的數(shù)據(jù)密度等.最后,還要注意箱線圖與“均值+標(biāo)準(zhǔn)差”的比較.它們的相同點(diǎn)在于均能夠刻畫數(shù)據(jù)的分布特征,不同點(diǎn)也同樣明顯:箱線圖上、下兩端點(diǎn)刻畫數(shù)據(jù)集的整體范圍,“箱子”的上、下邊刻畫中間50%數(shù)據(jù)的范圍;相較于箱線圖按“數(shù)值順序”刻畫數(shù)據(jù)分布,“均值+標(biāo)準(zhǔn)差”是按“數(shù)值大小”對(duì)整個(gè)數(shù)據(jù)集最中間的那一部分?jǐn)?shù)據(jù)的刻畫,均值刻畫數(shù)據(jù)的集中趨勢,標(biāo)準(zhǔn)差刻畫數(shù)據(jù)的離散程度.兩種刻畫方式的內(nèi)涵有差異,操作難易程度也不相同,希望通過比較兩種刻畫數(shù)據(jù)分布的方式,使學(xué)生面對(duì)具體問題時(shí)能夠選擇合適的數(shù)據(jù)分析手段.
數(shù)學(xué)文化是數(shù)學(xué)課程的組成要素之一,挖掘箱線圖發(fā)展過程中所蘊(yùn)含的數(shù)學(xué)文化,合理地將其融入教學(xué)之中,有助于拓寬學(xué)生的統(tǒng)計(jì)學(xué)視野,使學(xué)生更好地認(rèn)識(shí)統(tǒng)計(jì)學(xué)的發(fā)展.箱線圖作為上世紀(jì)70年代發(fā)明出的一種探究數(shù)據(jù)特征的技術(shù),是伴隨著探索性數(shù)據(jù)分析的興起而發(fā)展起來的.1977年,箱線圖之父Tukey的著作《探索性數(shù)據(jù)分析》(ExploratoryDataAnalysis)出版,該書前言中記載著如下一段文字:“曾幾何時(shí),統(tǒng)計(jì)學(xué)家只會(huì)探索.后來,他們學(xué)會(huì)了準(zhǔn)確地驗(yàn)證……任何沒有明確附加驗(yàn)證過程的東西都被譴責(zé)為‘僅僅是描述性統(tǒng)計(jì)’……今天,探索和驗(yàn)證可以——也應(yīng)該——并肩而行.”[5]Ⅶ這段話為我們大致描述了統(tǒng)計(jì)學(xué)的變革:從早期的描述性統(tǒng)計(jì)時(shí)期,到基于小樣本數(shù)據(jù)的推斷性統(tǒng)計(jì)發(fā)展期,再到重視數(shù)據(jù)探索.而Tukey所吹響的探索性數(shù)據(jù)分析的變革號(hào)角,可稱之為大數(shù)據(jù)時(shí)代來臨的前哨.箱線圖正是這一時(shí)期Tukey為實(shí)現(xiàn)數(shù)據(jù)探索而發(fā)明的有力工具,不僅有助于探索數(shù)據(jù)的分布形式,還能較好地實(shí)現(xiàn)數(shù)據(jù)可視化.以向?qū)W生講授箱線圖發(fā)展為契機(jī),趁機(jī)融入統(tǒng)計(jì)學(xué)的發(fā)展變革及數(shù)據(jù)探索、可視化等內(nèi)容,能夠使學(xué)生感受到統(tǒng)計(jì)的科學(xué)價(jià)值與應(yīng)用價(jià)值、領(lǐng)悟統(tǒng)計(jì)之美,有助于落實(shí)數(shù)學(xué)的文化育人功能.