曹廣福,張蜀青,羅荔齡
?
中學(xué)數(shù)學(xué)中統(tǒng)計內(nèi)容的問題與建議
曹廣福1,張蜀青2,羅荔齡1
(1.廣州大學(xué) 數(shù)學(xué)與信息科學(xué)學(xué)院,廣東 廣州 510006;2.廣州市執(zhí)信中學(xué),廣東 廣州 510090)
統(tǒng)計學(xué)產(chǎn)生于17世紀(jì)的歐洲,最早用于國情調(diào)查,1662年,格朗特(John Graunt)發(fā)表了他第一本也是唯一一本手稿《基于死亡賬單的自然與政治觀察》(),分析了生男孩和女孩的比例.
19世紀(jì)中葉,統(tǒng)計學(xué)形成了兩個主要的學(xué)派,數(shù)理統(tǒng)計學(xué)派與社會統(tǒng)計學(xué)派.隨著概率論的成熟,為統(tǒng)計學(xué)的發(fā)展奠定了數(shù)學(xué)基礎(chǔ).19世紀(jì)中葉,比利時的阿道夫·凱特勒(1796—1874)主張用自然科學(xué)的方法研究社會現(xiàn)象,把古典概率論引入了統(tǒng)計學(xué),使得統(tǒng)計學(xué)進(jìn)入了一個新的發(fā)展階段.不過凱特勒將自然科學(xué)的觀點(diǎn)與方法機(jī)械套用到犯罪、道德等社會問題,混淆了自然現(xiàn)象與社會現(xiàn)象之間的本質(zhì)區(qū)別.盡管如此,凱特勒把概率論引入統(tǒng)計學(xué)至少使得統(tǒng)計學(xué)在“政治算術(shù)”的“算術(shù)”方法基礎(chǔ)上往準(zhǔn)確化道路邁進(jìn)了一大步,他為后期數(shù)理統(tǒng)計學(xué)的形成與發(fā)展奠定了基礎(chǔ).
社會統(tǒng)計學(xué)派比數(shù)理統(tǒng)計學(xué)派的形成稍晚一些,19世紀(jì)后半葉,德國經(jīng)濟(jì)學(xué)家、統(tǒng)計學(xué)家克尼斯(1821—1889)以及恩格爾(1821—1896)、梅爾(1841—1925)等人沿著凱特勒的“基本統(tǒng)計理論”繼續(xù)向前發(fā)展,認(rèn)為統(tǒng)計學(xué)是一門社會科學(xué),是研究社會現(xiàn)象變動原因和規(guī)律性的實質(zhì)性科學(xué).從那時開始,數(shù)理統(tǒng)計學(xué)與社會統(tǒng)計學(xué)便形成了兩個相互對立的陣營,社會統(tǒng)計學(xué)派認(rèn)為,由于社會現(xiàn)象的復(fù)雜性和整體性,需要進(jìn)行整體的大量觀察和分析,研究其內(nèi)在聯(lián)系,才能揭示現(xiàn)象的內(nèi)在規(guī)律,這就是該學(xué)派所謂“實質(zhì)性科學(xué)”的顯著特點(diǎn).
社會統(tǒng)計學(xué)與數(shù)理統(tǒng)計學(xué)的根本區(qū)別在于前者在統(tǒng)計研究中以事物的質(zhì)為前提,強(qiáng)調(diào)認(rèn)識事物質(zhì)的重要性,后者則不關(guān)心事物的質(zhì).
傳統(tǒng)的統(tǒng)計學(xué)(也稱為記述統(tǒng)計)通常是對所搜集的大量數(shù)據(jù)資料進(jìn)行加工整理、綜合概括,通過圖示、列表和數(shù)字,如編制次數(shù)分布表、繪制直方圖、計算各種特征數(shù)等,對資料進(jìn)行分析和描述.
隨著科學(xué)技術(shù)的發(fā)展,統(tǒng)計學(xué)的研究方法也有了很大的變化,到了20世紀(jì),人們在搜集整理觀測的樣本數(shù)據(jù)基礎(chǔ)上對有關(guān)總體做出推斷,這就是所謂的推斷統(tǒng)計.推斷統(tǒng)計的典型特征是根據(jù)隨機(jī)的樣本數(shù)據(jù)以及問題的調(diào)查和假定,以概率形式表述對未知事物作出的推斷,現(xiàn)在所謂的科學(xué)統(tǒng)計方法主要指推斷統(tǒng)計.
隨著社會科學(xué)與自然科學(xué)的發(fā)展,統(tǒng)計學(xué)與各個學(xué)科相結(jié)合,產(chǎn)生了五花八門的分支.從大的方面看,統(tǒng)計主要有3個分支:數(shù)理統(tǒng)計、經(jīng)濟(jì)統(tǒng)計與應(yīng)用統(tǒng)計.美國大學(xué)的統(tǒng)計學(xué)設(shè)置則涵蓋4個方面:生物統(tǒng)計、金融統(tǒng)計、應(yīng)用統(tǒng)計和數(shù)理統(tǒng)計,有些學(xué)校下設(shè)統(tǒng)計系,有些學(xué)校在數(shù)學(xué)系下設(shè)統(tǒng)計學(xué).中國大學(xué)統(tǒng)計學(xué)的設(shè)置情況與此類似,教育部在2011年的學(xué)科目錄調(diào)整中統(tǒng)一將統(tǒng)計學(xué)歸類到理科,但在授予學(xué)位時除了可以授予理學(xué)學(xué)位,依然可以授予經(jīng)濟(jì)學(xué)學(xué)位.
統(tǒng)計學(xué)與數(shù)學(xué)一樣涉及幾乎所有的自然科學(xué)與社會科學(xué),如果將統(tǒng)計學(xué)進(jìn)行細(xì)分,可以分出眾多的方向:
(1)數(shù)理統(tǒng)計學(xué);(2)經(jīng)濟(jì)統(tǒng)計學(xué);(3)生物統(tǒng)計學(xué);(4)商務(wù)統(tǒng)計學(xué);(5)化學(xué)統(tǒng)計學(xué);(6)數(shù)據(jù)挖掘(使用統(tǒng)計學(xué)和模型來發(fā)現(xiàn)數(shù)據(jù)中的規(guī)律和知識);(7)人口統(tǒng)計學(xué);(8)數(shù)量經(jīng)濟(jì)學(xué);(9)能源統(tǒng)計學(xué);(10)金融統(tǒng)計學(xué);(11)工程統(tǒng)計學(xué);(12)衛(wèi)生統(tǒng)計學(xué);(13)地理統(tǒng)計學(xué);(14)圖像統(tǒng)計學(xué);(15)心理統(tǒng)計學(xué);(16)社會統(tǒng)計學(xué);(17)農(nóng)業(yè)統(tǒng)計學(xué);(18)風(fēng)險管理;(19)精算學(xué);(20)保險學(xué).
幾乎每一個科學(xué)分支都可以與統(tǒng)計學(xué)發(fā)生聯(lián)系,統(tǒng)計的范疇已覆蓋了社會生活的所有領(lǐng)域,幾乎無所不包,成了普適的方法,被廣泛應(yīng)用于社會科學(xué)和自然科學(xué)的各個方面.
隨著社會的發(fā)展,統(tǒng)計的意義已經(jīng)不僅局限于對已經(jīng)發(fā)生和正在發(fā)生的事物進(jìn)行統(tǒng)計,提供統(tǒng)計資料和數(shù)據(jù),它還擔(dān)負(fù)著一個重要使命:統(tǒng)計預(yù)測與統(tǒng)計決策,統(tǒng)計學(xué)也吸收了信息論、控制論及系統(tǒng)論的思想方法,使得其內(nèi)容得到了極大的豐富.特別是計算機(jī)技術(shù)的發(fā)展使得統(tǒng)計數(shù)據(jù)的搜集、處理、分析、存貯、傳遞等過程有了革命性的變化,計算機(jī)科學(xué)已經(jīng)成為統(tǒng)計學(xué)不可分割的組成部分.如今的統(tǒng)計學(xué)無論是理論還是實踐的深度與廣度都是過去所無可比擬的.統(tǒng)計學(xué)的重要性不言而喻,正如英國統(tǒng)計學(xué)家哈斯利特所說:“統(tǒng)計方法的應(yīng)用是這樣普遍,在我們的生活和習(xí)慣中,統(tǒng)計的影響是這樣巨大,以致統(tǒng)計的重要性無論怎樣強(qiáng)調(diào)也不過分.”
中學(xué)階段的統(tǒng)計該側(cè)重于什么方面?是數(shù)理統(tǒng)計還是社會統(tǒng)計?兩者無論是方法還是思想都是不同的,不把這個問題弄清楚,統(tǒng)計學(xué)的教學(xué)就可能不著要點(diǎn),甚至帶來邏輯上的混亂.一線教師不僅應(yīng)該了解中學(xué)教材,更應(yīng)該讀一讀大學(xué)教材中的相關(guān)內(nèi)容,例如,可以讀一讀大學(xué)“概率論與數(shù)理統(tǒng)計”的相關(guān)內(nèi)容(參見文[2]).
既然中學(xué)的統(tǒng)計作為數(shù)學(xué)課程的一部分,而且與概率放在一起,說明是以概率作為基礎(chǔ)的,所以應(yīng)該屬于數(shù)理統(tǒng)計的范疇.比較好的方案是將選修2-3中的概率調(diào)整到必修3中,將必修3的統(tǒng)計內(nèi)容調(diào)整到選修2-3,這樣的調(diào)整有利于內(nèi)容的連貫性與邏輯的嚴(yán)謹(jǐn)性.但有意思的是,中學(xué)數(shù)學(xué)必修3將統(tǒng)計放在了概率之前,而在選修2-3中又將統(tǒng)計放在了概率之后.也難怪在概率章節(jié)不介紹樣本空間,在統(tǒng)計學(xué)中卻講到了抽樣統(tǒng)計與樣本概念,是不希望概念混淆?概率中的樣本點(diǎn)與樣本空間與統(tǒng)計中的樣本值的確有所不同,也正是因為概念上有所差別,更應(yīng)該加以辨別.簡單地說,統(tǒng)計上一個容量為的簡單隨機(jī)樣本來自某個隨機(jī)變量的分布函數(shù),即:
定義1:設(shè)是具有分布函數(shù)的隨機(jī)變量,若1,2,…,X是具有同一分布函數(shù)的相互獨(dú)立的隨機(jī)變量,則稱1,2,…,X為來自分布函數(shù)(稱為總體或稱為總體)得到的容量為的簡單隨機(jī)樣本,簡稱樣本.它們的觀察值1,2,…,x稱為樣本值,又稱為總體的個獨(dú)立的觀察值.
從上述定義可以看出,這里的樣本值與隨機(jī)試驗的樣本點(diǎn)有關(guān)但又有所不同,從隨機(jī)試驗的角度看,所謂總體實際上是隨機(jī)試驗所有可能的結(jié)果,也就是樣本空間,由于隨機(jī)變量是樣本空間到實數(shù)域的映射,所以也把隨機(jī)變量稱為總體.這里的隨機(jī)樣本指的是個隨機(jī)變量的笛卡爾積,所以也可以說隨機(jī)樣本是一個隨機(jī)向量(1,2, …,X),且每一個隨機(jī)分量都有相同的分布函數(shù).這樣說可能會讓人難以理解,通俗地說,所謂隨機(jī)樣本就是從總體中隨機(jī)抽取個樣本點(diǎn)構(gòu)成的集合.
傳統(tǒng)數(shù)理統(tǒng)計的內(nèi)容包括哪些呢?雖然不同的教科書在編排上有所不同,但大同小異,主要包括:樣本及抽樣分布(隨機(jī)樣本、直方圖、統(tǒng)計量、抽樣分布)、參數(shù)估計(參數(shù)的點(diǎn)估計、估計量的評選標(biāo)準(zhǔn)、參數(shù)的區(qū)間估計、正態(tài)總體均值與方差的區(qū)間估計、置信區(qū)間)、假設(shè)檢驗(正態(tài)總體均值與方差的假設(shè)檢驗、分布擬合檢驗)、方差分析和回歸分析(單因素試驗的方差分析、一元回歸分析).
研究者不主張在中學(xué)階段介紹回歸分析.事實上,線性回歸方程的系數(shù)需要最小二乘法進(jìn)行估計,由于涉及兩個參數(shù)的估計,通常需要多元微積分的偏導(dǎo)數(shù)才能計算其估計公式,也就是教材中系數(shù)與的估計.某個教材是這樣闡述這部分內(nèi)容的.
在實際問題中,變量之間的常見關(guān)系有如下兩類:
一類是確定性函數(shù)關(guān)系,變量之間的關(guān)系可以用函數(shù)表示.例如,圓的面積與半徑之間就是確定性函數(shù)關(guān)系,可以用=π2表示.
一類是相關(guān)關(guān)系,變量之間有一定的關(guān)系,但不能完全用函數(shù)來表達(dá).例如人的體重與身高有關(guān).一般來說,身高越高,體重越重,但不能用一個函數(shù)來嚴(yán)格地表示身高與體重之間的關(guān)系.
用怎樣的數(shù)學(xué)模型刻畫兩個變量之間的相關(guān)關(guān)系?
身高與體重之間是一種什么關(guān)系?教材沒有將本質(zhì)問題揭示出來,卻拋出了一個諱莫如深的問題,此后再也沒回頭關(guān)心過這個問題,甚至連簡單的說明都沒有,緊接著轉(zhuǎn)向了另一個問題.
某小賣部為了了解熱茶銷量與氣溫之間的關(guān)系,隨機(jī)統(tǒng)計并制作了某6天賣出熱茶的杯數(shù)與當(dāng)天氣溫的對照表:
氣溫/℃26181310 4-1 杯數(shù)202434385064
如果某天的氣溫是-5℃,那么你能根據(jù)這些數(shù)據(jù)預(yù)測這天小賣部賣出熱茶的杯數(shù)嗎?
這個數(shù)表顯然是杜撰出來的,杜撰數(shù)據(jù)本來并無不可,但至少應(yīng)該有一定的生活價值.如果是某個飲料加工廠做這樣的統(tǒng)計倒是有一定的可信度,當(dāng)然樣本量絕不可能是短短的6天.有哪一家小賣部會做這樣無聊的事?小賣部最多每天統(tǒng)計一下收入了多少,不會專門去統(tǒng)計一個數(shù)據(jù)來進(jìn)行分析.即使想估算銷量,也只會估算未來幾天的銷量,而且如此小的樣本量,憑直覺就可以判斷,何須如此復(fù)雜的理論?教材為什么不針對開始時的身高與體重的關(guān)系接著往下討論呢?例如,可以將某個學(xué)校的學(xué)生身高與體重做一個統(tǒng)計,哪怕是隨機(jī)杜撰一個數(shù)據(jù)表也未嘗不可,這樣的統(tǒng)計要有價值得多.身高與體重問題是一個經(jīng)典的問題,也有一定的社會價值.令人疑惑的是,為什么教材欲言又止地把一個有價值的問題拋出來又扔掉,轉(zhuǎn)而討論一個莫名其妙的問題?
在給出上述數(shù)表后,接著給出了散點(diǎn)圖以及最小二乘法的概念,并給出了參數(shù)估計公式:
接下來,需要計算使(,)取得最小值的和,可以用公式
這里x,y是觀察數(shù)據(jù),=1, 2, …,,其計算過程如下:
…………
的計算公式不難解釋,的計算公式從何而來?教材甚至連來歷都不作介紹,就這么堂而皇之地擺在那里.或許編寫者像金庸筆下的武林高手一樣,要學(xué)生先把“武功秘訣”背下來,待到武功修為達(dá)到一定境界后自然就會領(lǐng)會.問題是學(xué)生將來如果學(xué)習(xí)相關(guān)的專業(yè),這些對于他們就是不值一提的常識性問題,如果不學(xué)習(xí)相關(guān)專業(yè),這些就是很快就會被遺忘的毫無價值的東西,因為,他們不僅不知其所以然,甚至不知其然,如何讓他們在忘記公式之后還能領(lǐng)會蘊(yùn)含在其中的思想方法?教材用一句推導(dǎo)公式比較復(fù)雜,這里不作要求一帶而過.這個公式的推導(dǎo)還真的非常簡單,只是學(xué)生還沒有學(xué)習(xí)多元函數(shù)微積分而已.
在選修2-3中介紹了隨機(jī)誤差、線性回歸模型后,引出了相關(guān)系數(shù)的概念,此處也是“科普”式的處理方法,只是在“鏈接”中解釋了相關(guān)系數(shù)為什么越接近1,兩個量之間的線性相關(guān)程度越強(qiáng).
縱觀必修3與選修2-3中的回歸分析部分,存在兩個方面的問題:(1)回歸分析的本質(zhì)沒有解釋清楚,這個問題下一節(jié)會作說明;(2)原理解釋不清,幾乎都是“拿來主義”式的介紹,至于怎么來的一概不作解釋,參數(shù)估計公式便是個典型的例子.
教學(xué)最好做兩個比較大的調(diào)整:(1)將統(tǒng)計移到概率之后講授;(2)在傳統(tǒng)數(shù)理統(tǒng)計基礎(chǔ)上通俗點(diǎn)講授.
也許比較合適的方案是從隨機(jī)變量的角度引入隨機(jī)樣本,也就是定義1所說的容量為的樣本,在此基礎(chǔ)上介紹抽簽法、隨機(jī)數(shù)表法、系統(tǒng)抽樣以及分層抽樣.這樣講授便于學(xué)生對抽樣方法有一個整體認(rèn)識,抽簽法、隨機(jī)數(shù)表法、系統(tǒng)抽樣以及分層抽樣不過是幾個具體的隨機(jī)抽樣方法,學(xué)生也不至于僅僅停留在對隨機(jī)抽樣的感性認(rèn)識上.可以先通過對下面的問題分析入手.
問題1:兵工廠生產(chǎn)了一批炮彈,技術(shù)部門需要對這批炮彈進(jìn)行合格鑒定,該如何鑒定?
最好的檢驗方法當(dāng)然是試射,但不可能把所有炮彈都拿出去射了,所以存在一個抽樣檢查的問題.類似的問題很多,例如,工廠生產(chǎn)的產(chǎn)品在上市之前一般也需要技術(shù)部門做合格鑒定,工商部門也會對市場上的商品做合格檢查,但由于這些產(chǎn)品都有包裝,一旦打開,這些產(chǎn)品就不能再賣了,所以不可能將所有產(chǎn)品都拆開檢查.即使是不需要損壞產(chǎn)品包裝,也可能由于數(shù)量的龐大,很難對每件產(chǎn)品都做檢驗,只能抽取部分產(chǎn)品做鑒定.在此基礎(chǔ)上引入簡單隨機(jī)抽樣的概念.
定義2:假設(shè)一個總體含有個個體,從中逐個不放回地抽取個個體作為樣本(≤),如果每次抽取時總體內(nèi)的各個個體被抽到的機(jī)會都相等,就把這種抽樣方法叫做簡單隨機(jī)抽樣,這樣抽取的樣本,叫做簡單隨機(jī)樣本.
問題2:道觀或寺廟里常常有抽簽算卜一說,一個桶里放著若干竹簽,竹簽上刻著“上”“中”“下”等字樣,每根竹簽上還刻有號碼,善男信女們拿著桶搖晃,直到桶里掉出一根簽來,然后拿著掉出來的竹簽去找道士或和尚.道士或和尚根據(jù)竹簽上的號碼找到對應(yīng)的簽詩,那首簽詩里便“隱藏著”你或你關(guān)心的人的禍福.道士或和尚根據(jù)簽詩為你解卜,回答你所關(guān)心的事情的吉兇.這是唯心主義的東西,不過是給人心理上的某種慰籍,自然信不得.但可以探討一下抽簽過程中所蘊(yùn)含的數(shù)學(xué)原理,你能用數(shù)學(xué)方法描述一下這個過程嗎?例如簽桶里的簽是什么?搖桶的過程可以作何解釋?竹簽掉出來說明了什么?
抽簽問卜實際上就是個隨機(jī)抽樣,不過問卜者問完卜之后一般要將簽放回簽筒里.可以假定簽筒里有根簽,有(<)個人先后搖簽問卜,在他們問卜完成之前,簽是不會被放回簽筒里的,這就是個簡單的隨機(jī)抽樣,這樣的隨機(jī)抽樣方法就叫抽簽法.
定義3:假設(shè)總體中有個個體,將這個個體編號,把號碼寫在號簽上,將號簽放在一個容器中,攪拌均勻后,每次從中抽取一個號簽,連續(xù)抽取次,就得到一個容量為的樣本.這樣的隨機(jī)抽樣方法稱為抽簽法.
除常用的抽簽法,還有一種簡單隨機(jī)抽樣方法,稱為隨機(jī)數(shù)法,教師按照教材的做法告訴學(xué)生怎么做就可以了,基本上是一種機(jī)械化操作方法.客觀地說,抽簽法或許有一定的實用價值,但隨機(jī)數(shù)法的實際應(yīng)用價值有待檢驗,現(xiàn)實中誰會真的對著一張隨機(jī)數(shù)表去抽樣?不過作為抽樣方法之一,讓學(xué)生有所了解未嘗不可.
問題3:如上一節(jié)課所述,簡單隨機(jī)抽樣僅適用于容量較小的總體,如果總體的容量很大怎么辦?有沒有合適的抽樣方法?例如,為了做一項社會調(diào)查,需要從某群體的10?000名人士中抽取1%做調(diào)查,怎么抽取比較科學(xué)?
從10?000個人中抽取1%等于要抽取100個人,為10?000個人制作10?000個簽顯然不太現(xiàn)實,即使制作出來了也很難進(jìn)行均勻攪拌,隨機(jī)數(shù)法的工作量也比較大.10?000個人做編號是必要的,否則無從抽取,問題是編號后如何抽???學(xué)生所能想到的多半是根據(jù)編號的某種特征進(jìn)行抽取,例如號碼的奇偶性等.但由于每個人的編號已經(jīng)確定了,根據(jù)編號的奇偶性抽樣并非真正的隨機(jī)抽樣,而是一種有選擇的抽樣.
問題的關(guān)鍵在于總體的容量偏大,使得抽簽法或隨機(jī)數(shù)法不可行或工作量比較大.可以通過具體的例子引導(dǎo)學(xué)生思考.例如全年級有1?000人,20個班,每個班50人,現(xiàn)在需要從全年級中隨機(jī)抽取10%的人參加某項活動,如何抽取既簡單又合理?學(xué)生很容易想到每個班隨機(jī)抽取5個人.雖然這種抽取方法與從1?000人中隨機(jī)抽取100個人并非同樣的隨機(jī)抽樣,因為1?000人抽取100人并不一定會平均到每個班級,但卻給問題1的解決帶來某種啟發(fā),即將總體進(jìn)行分組.但分組應(yīng)該也是隨機(jī)的,換言之,按隨機(jī)的方法將總體進(jìn)行編號.某版教材對這個問題的分析有誤:
某校高一年級共有20個班,每班有50名學(xué)生.為了了解高一學(xué)生的視力狀況,從這1?000人中抽取一個容量為100的樣本進(jìn)行檢查,該怎樣檢查?
現(xiàn)實中如果真的要進(jìn)行類似的檢查,的確很可能采取每個班抽取5名同學(xué)的辦法,但這與1?000人中隨機(jī)抽取100人不屬于同一個問題,盡管每個班里的5名同學(xué)可能是隨機(jī)抽取的.但教材接下來的分析不是針對1?000人的總量,而是針對每個班進(jìn)行分組:
通常先將各班學(xué)生平均分成5組,再在第一組(1—10號學(xué)生)中抽簽法取一個,然后按照“逐次加10(每組中個體數(shù))”的規(guī)則分別確定學(xué)號為11—20、21—30、31—40、41—50的另外4組中的學(xué)生代表.
這已經(jīng)不是對總體(1?000人)分組了,而是對總體的一部分(某個班級)進(jìn)行分組.事實上,50人的班級不算大容量的總體,即使是按照班級隨機(jī)抽取,也無需如此麻煩,直接用抽簽法就可以了.最重要的是,這樣的分析給學(xué)生的理解帶來很大的困惑,到底對總體分組還是對部分分組?
恰當(dāng)?shù)姆椒ㄊ菍??000人隨機(jī)編號分成100個組,每組10人,第一組隨機(jī)抽取一個號l,然后將編號為l,l+10,l+20,…,l+99的100人抽出,這才是對具有1?000個個體的總體進(jìn)行系統(tǒng)抽樣的正確方法.
教師課堂上可以針對問題1進(jìn)行分析,這類問題在社會調(diào)查中是很常見的.
通過對問題1的詳細(xì)分析,可以歸納出系統(tǒng)抽樣的一般方法.
定義4:從容量為的總體中抽取容量為的樣本,可將總體分成均衡的若干部分,然后按照預(yù)先制定的規(guī)則,從每一部分抽取一個個體,得到所需要的樣本,這種抽樣的方法叫做系統(tǒng)抽樣.
關(guān)于分層抽樣,教材解釋得還是比較清楚的,這里無需重復(fù).
教材沒有說明數(shù)據(jù)總量與區(qū)間之間的關(guān)系,也沒有說明應(yīng)該將區(qū)間分割成多少小區(qū)間,學(xué)生在實際操作時就可能顯得盲目隨意.雖然理論上講組距越小越好,但精細(xì)與可操作性之間需要達(dá)到一定的平衡.?dāng)?shù)據(jù)與區(qū)間之間的關(guān)系,分割區(qū)間的個數(shù)等問題有必要做出詳細(xì)解釋.有了直方圖之后,頻率分布折線就不難理解了.教師在課堂教學(xué)中,宜將重點(diǎn)放在對頻率直方圖的詳細(xì)分析,頻率折線圖則可以一帶而過.此外,頻率密度曲線在折線圖之后出現(xiàn)顯得有點(diǎn)突兀,也超出了學(xué)生可以接受的范圍,雖然貌似解釋得比較通俗,但仔細(xì)分析一下會發(fā)現(xiàn),如果總體是有限的,無論如何也過渡不到密度曲線,即使總體無限,也未必能得到一個連續(xù)的密度曲線.所謂總體分布的密度曲線是什么?這里也無法解釋清楚,事實上,這條光滑曲線(實際未必光滑)已經(jīng)不是頻率的分布密度曲線了,而是概率密度曲線.說得主觀一點(diǎn),此處的頻率密度曲線有畫蛇添足之嫌.
例1:一枚被懷疑灌過鉛的骰子60次擲得的數(shù)如下.
4331234656 2413353434 3345456451 6442332445 6362464632 5463335314
如果骰子沒有被灌鉛,那么上表中的60個數(shù)字應(yīng)該如同從盒子(盒子里有6個數(shù)字1,2,3,4,5,6)里隨機(jī)抽取60次(隨機(jī)有放回)的結(jié)果,每個數(shù)字應(yīng)該出現(xiàn)10次左右,期望頻數(shù)為10.要弄清楚數(shù)據(jù)與期望的比較如何,需要統(tǒng)計一下每個數(shù)出現(xiàn)的次數(shù),得到觀察頻數(shù)如下.
呈現(xiàn)值觀察頻數(shù)期望頻數(shù) 1 410 2 610 31710 41610 5 810 6 910 76060
(1)確定總體(隨機(jī)變量或分布函數(shù)),并將總體進(jìn)行分類,例如擲骰子試驗中,將總體按數(shù)字1,2,3,4,5,6進(jìn)行分類;
嚴(yán)格說來,假設(shè)檢驗中還需要一個量——顯著水平,根據(jù)顯著水平確定拒絕原命題的范圍——拒絕域.統(tǒng)計量本身已經(jīng)令學(xué)生應(yīng)接不暇,有興趣的教師不妨自己了解一下其細(xì)節(jié),可以參考任何一本數(shù)理統(tǒng)計書籍.
什么叫回歸分析?它研究的是什么問題?選修2-3對回歸的來歷做了簡單介紹,但對于第二個問題的本質(zhì)語焉不詳,教師在課堂上最好做適當(dāng)?shù)难a(bǔ)充.
隨機(jī)變量(因變量)與某個確定性變量(自變量)之間可能存在著一定的關(guān)聯(lián).由于是隨機(jī)變量,對于在某個范圍內(nèi)的各個確定值,的取值范圍隨試驗的結(jié)果而定,在此基礎(chǔ)上可以引入教材中身高與體重的例子.這里身高是一個確定性變量(自變量),體重是隨機(jī)變量(因變量),以例子解釋隨機(jī)變量與確定性變量之間的關(guān)系,學(xué)生自然就清楚研究的是什么問題了.
接下來應(yīng)該解釋清楚為什么可以用隨機(jī)變量的數(shù)學(xué)期望替代隨機(jī)變量?對這個問題的解釋與理解并不困難.如果是隨機(jī)變量,那么方差與數(shù)學(xué)期望之間有如下的關(guān)系:
原理搞清楚了,還要考慮實際的可操作性,回歸函數(shù)通常是未知的,回歸分析的任務(wù)是根據(jù)數(shù)據(jù)去估計回歸函數(shù).很多情況下都是假設(shè)回歸函數(shù)是線性的,更復(fù)雜的情況估計難度更大,例如也可能用形如++2的二次函數(shù)進(jìn)行擬合,那樣將涉及3個系數(shù)的估計.
上式稱為殘差平方和.
學(xué)生對這個原理的理解應(yīng)該沒有太大難度,但如何求最小值則超出了他們的理解范圍,尤其是如果在此之后才學(xué)習(xí)微積分,那就更如同聽天書了.但如果學(xué)生學(xué)習(xí)過一元函數(shù)的微積分,可以從幾何上作出直觀解釋.與曲線的極小值一樣,曲面的最小值處的切平面與平面是平行的,因而兩個偏導(dǎo)數(shù)等于0,高中階段大概也只能到此為止了.如果原理不清不楚,教材中再多的例子也難以讓學(xué)生開竅.
教材中關(guān)于樣本相關(guān)系數(shù)的解釋比較清楚,有了上面的一番準(zhǔn)備工作,學(xué)生對線性相關(guān)性檢驗的理解應(yīng)該不難.
[1] FREEDMAN D,PISANI R,PURVES R,等.統(tǒng)計學(xué)[M].北京:中國統(tǒng)計出版社,1997:570-590.
[2] 盛驟,謝式千.概率論與數(shù)理統(tǒng)計及其應(yīng)用[M].北京:高等教育出版社,2004:114-205.
Problems and Suggestions on Statistical Content in High Middle Mathematics
CAO Guang-fu1, ZHANG Shu-qing2, LUO Li-ling1
(1. Faculty of Mathematics and Information Science, Guangzhou University, Guangdong Guangzhou 510006, China;2. Zhixin High Middle School, Guangdong Guangzhou 510095, China)
G632.0
A
1004–9894(2018)06–0007–06
曹廣福,張蜀青,羅荔齡.中學(xué)數(shù)學(xué)中統(tǒng)計內(nèi)容的問題與建議[J].?dāng)?shù)學(xué)教育學(xué)報,2018,27(6):7-12.
2018–06–25
國家“萬人計劃”領(lǐng)軍人才、廣東省“特支計劃”、廣州市教育名家工作室聯(lián)合資助
曹廣福(1960—),男,江蘇海安人,教授,博士生導(dǎo)師,首屆國家高等學(xué)校教學(xué)名師獎獲得者,入選國家“萬人計劃”領(lǐng)軍人才,主要從事數(shù)學(xué)研究與數(shù)學(xué)教育研究.
[責(zé)任編校:周學(xué)智、張楠]