廣東省廣州市第十六中學(xué)(510080) 何嘉穎
對(duì)比舊人教A 版、新人教A 版、新人教B 版以及舊北師大版、新北師大版五個(gè)版本教材中分層隨機(jī)抽樣的定義,可以發(fā)現(xiàn)五個(gè)不同教材的分層隨機(jī)抽樣的定義都有涵蓋兩個(gè)與分層隨機(jī)抽樣相關(guān)的特點(diǎn):一是把總體分為互不相交的層,二是在每層中進(jìn)行隨機(jī)抽樣.
其中,新人教A 版與其他四個(gè)課本定義有明顯區(qū)別.一是四個(gè)課本定義中都對(duì)進(jìn)行分層隨機(jī)抽樣時(shí)各層應(yīng)如何抽樣作了說(shuō)明,即對(duì)每層抽樣時(shí)除了要進(jìn)行隨機(jī)抽樣,還強(qiáng)調(diào)需要“按一定比例”進(jìn)行抽樣.二是新人教B 版還具體描述了“按一定比例”進(jìn)行抽樣的具體操作,即“按層在總體中所占比例”進(jìn)行抽樣.三是新人教A 版沒(méi)有對(duì)各層應(yīng)如何抽樣作說(shuō)明,但提及了一個(gè)分層隨機(jī)抽樣時(shí)的分配方式“比例分配”.
從教材的內(nèi)容來(lái)看,其他四個(gè)課本定義中所強(qiáng)調(diào)的“按一定比例”進(jìn)行抽樣都是指“比例分配”.也就是說(shuō),新人教A版是一個(gè)包含其他四個(gè)課本定義內(nèi)涵的更廣義上的分層隨機(jī)抽樣定義,即分層隨機(jī)抽樣對(duì)各層的抽樣方式有多種,“比例分配”是其中一種方式.新人教A 版所給出的分層隨機(jī)抽樣定義與大學(xué)教材中的定義一致,除“比例分配”(按層權(quán)分配)外,分層隨機(jī)抽樣還有Neyman 分配(按層權(quán)與層標(biāo)準(zhǔn)差的乘積成正比分配)、最優(yōu)分配(按估計(jì)量方差達(dá)到最小分配)、不按比例分配等.分層隨機(jī)抽樣的本質(zhì)是按照一定的方式得到更能反映總體,更能反映實(shí)際的樣本.
《普通高中數(shù)學(xué)課程標(biāo)準(zhǔn)(實(shí)驗(yàn)版)》和舊教材對(duì)分層隨機(jī)抽樣的要求不高,分層隨機(jī)抽樣的概念是“比例分配”下分層隨機(jī)抽樣定義,主要是讓學(xué)生掌握比例分配下各層樣本量與總體的關(guān)系,學(xué)會(huì)進(jìn)行比例的換算.《普通高中數(shù)學(xué)課程標(biāo)準(zhǔn)(2017年版)》對(duì)分層隨機(jī)抽樣的要求有所提高,包括增加了分層隨機(jī)抽樣的樣本均值和樣本方差,但側(cè)重點(diǎn)仍在“比例分配”下的分層隨機(jī)抽樣.
新人教A 版除了增加了均值和方差計(jì)算外,其對(duì)分層隨機(jī)抽樣定義本身的要求也有所強(qiáng)化.即需要知道分配方式有多種,按不同分配方式可以得到不同的樣本,且這些樣本的獲得均是可行的;需要區(qū)別按比例分配與其他分配方式下樣本均值與方差估計(jì)總體的意義.
新課程標(biāo)準(zhǔn)和新人教A 版對(duì)分層隨機(jī)抽樣的要求轉(zhuǎn)變對(duì)教師的教學(xué)以及學(xué)生有關(guān)分層隨機(jī)抽樣的學(xué)習(xí)提出了新的要求.教師需重視對(duì)新課程標(biāo)準(zhǔn)與新教材的研究與學(xué)習(xí),改變自己對(duì)分層隨機(jī)抽樣的固有看法.除了補(bǔ)充有關(guān)分層隨機(jī)抽樣的樣本均值和樣本方差外,還需要著重理解不同分配方式下樣本的關(guān)系以及這對(duì)樣本均值和樣本方差估計(jì)總體的影響.
以下提供簡(jiǎn)單兩個(gè)例子用于理解不按比例分配分層抽樣的現(xiàn)實(shí)意義.
例1某大學(xué)有男生2000 人,女生3000 人,本月舉辦了一個(gè)人數(shù)為500 人的交友配對(duì)活動(dòng)(一男一女為一對(duì)),參加該活動(dòng)的男女生各250 人.活動(dòng)結(jié)束后對(duì)500 人進(jìn)行了問(wèn)卷回訪(fǎng);并以此估計(jì)全校學(xué)生對(duì)舉辦該類(lèi)活動(dòng)的認(rèn)可情況.
在該例中,由于是“一男一女的配對(duì)活動(dòng)”,因此樣本無(wú)法實(shí)現(xiàn)按比例分配.
例2某學(xué)生正進(jìn)行某項(xiàng)針對(duì)全校學(xué)生的、與性別相關(guān)的研究性學(xué)習(xí),需對(duì)全校進(jìn)行問(wèn)卷調(diào)查.該生通過(guò)自己的朋友圈進(jìn)行問(wèn)卷發(fā)布,受該生朋友圈擴(kuò)散限制,回收的問(wèn)卷共100 份,其中男生10 份,女生90 份.全校男生600 人,女生400 人.受研究截止時(shí)間限制,該生只能對(duì)已回收的100 份問(wèn)卷進(jìn)行數(shù)據(jù)分析,并以此估計(jì)全校學(xué)生的情況.
在該例中,樣本與總體并非按比例分配,且總體中男生人數(shù)多于女生人數(shù),但樣本男生人數(shù)少于女生人數(shù),因此用該樣本估計(jì)總體會(huì)有較大誤差;但在現(xiàn)實(shí)中受各方面因素所限,常會(huì)出現(xiàn)該例的情況.教師可利用此例讓學(xué)生理解它的現(xiàn)實(shí)意義,并引導(dǎo)學(xué)生思考如何優(yōu)化方案以及方案是否合理性,如擴(kuò)大樣本量,剔除女生樣本或增加男生樣本以達(dá)到比例分配等.
從分層隨機(jī)抽樣樣本均值和總體均值的計(jì)算公式看,對(duì)分層隨機(jī)抽樣的均值計(jì)算是對(duì)各層平均數(shù)進(jìn)行加權(quán)平均數(shù);其中權(quán)重為各層個(gè)體數(shù)在總個(gè)體數(shù)的占比.
由于新人教B 版和新北師大版兩版教材對(duì)分層隨機(jī)抽樣的定義局限于“比例分配”,因此所給出的樣本平均數(shù)可直接估計(jì)總體平均數(shù),即兩版教材并沒(méi)有過(guò)多探究分層隨機(jī)抽樣樣本均值估計(jì)總體的意義,而只側(cè)重于公式的計(jì)算.
新人教A 版中分層隨機(jī)抽樣定義包括了“按比例分配”和“不按比例分配”兩種,因此均值計(jì)算涉及許多相關(guān)量,且與分層隨機(jī)抽樣有關(guān)的均值也有多個(gè),包括總體的均值、總體中各層的均值、樣本的均值、樣本中各層的均值,如以層數(shù)為2 為例,涉及6 個(gè)均值計(jì)算.在這6 個(gè)均值計(jì)算中,只要分配方式確定,都可以相應(yīng)計(jì)算出各自的均值;并且由分層隨機(jī)抽樣的定義,各層的樣本均值都可以估計(jì)對(duì)應(yīng)層的總體均值.而問(wèn)題的核心在于總樣本的均值并不一定可以估計(jì)總體的均值;對(duì)大多數(shù)的分配方式,總體的均值是對(duì)各層樣本平均數(shù)進(jìn)行加權(quán)平均,而權(quán)重為各層總個(gè)體數(shù)在總個(gè)體數(shù)的占比;只有在“按比例分配”下,總體均值恰好可用總樣本均值進(jìn)行估計(jì).
例(新人教A 版第184 頁(yè)練習(xí)3)[1]高二年級(jí)有男生490 人,女生510 人,張華按男生、女生進(jìn)行分層,通過(guò)分層隨機(jī)抽樣,得到男生、女生的平均身高分別為170.2cm 和160.8cm.
(1)如果張華在各層中按比例分配樣本,總樣本量為100,那么在男生、女生中分別抽取了多少名? 在這種情況下,請(qǐng)估計(jì)高二年級(jí)全體學(xué)生的平均身高;
(2)如果張華從男生、女生中抽取的樣本量分別為30 和70,那么在這種情況下,如何估計(jì)高二年級(jí)全體學(xué)生的平均身高更合理?
分析(1)中明確指出這是按比例分配樣本,因此對(duì)全體學(xué)生平均身高的計(jì)算既可以使用也可以使用(2) 中所給男生和女生的樣本量明顯不是比例分配樣本,因此對(duì)全體學(xué)生平均身高的計(jì)算只可以使用若使用估計(jì),則163.62,此時(shí)會(huì)出現(xiàn)較大誤差.
對(duì)比三個(gè)版本對(duì)分層隨機(jī)抽樣均值的介紹,都有體現(xiàn)分層隨機(jī)抽樣下樣本均值計(jì)算的公式推導(dǎo),以及用它對(duì)總體均值的估計(jì).在教學(xué)中,對(duì)樣本均值公式的推導(dǎo)、其中涉及的多個(gè)相關(guān)量的關(guān)系的梳理以及樣本均值公式的意義都是教學(xué)的重點(diǎn).此外,針對(duì)新人教A 版分層隨機(jī)抽樣均值,除了對(duì)樣本均值公式本身的推導(dǎo)以及意義的解釋外,應(yīng)說(shuō)明只要知道各層樣本量,都可以計(jì)算樣本的均值,只是所得均值并不一定能用于估計(jì)總體均值; 應(yīng)說(shuō)明總體均值計(jì)算公式與一般情況下分層隨機(jī)抽樣均值計(jì)算公式的關(guān)系,即可以用來(lái)估計(jì)總體均值;應(yīng)說(shuō)明在按比例分配下總體均值計(jì)算公式與分層隨機(jī)抽樣均值計(jì)算公式的關(guān)系,即可以直接用樣本均值估計(jì)總體均值.
教師在教學(xué)中,可注重分層隨機(jī)抽樣均值計(jì)算公式的推導(dǎo)并在推導(dǎo)過(guò)程中加入對(duì)公式含義的理解;可以給出不同形式的例子以便學(xué)生在熟悉均值計(jì)算公式的計(jì)算;還可以結(jié)合實(shí)際情境來(lái)判斷計(jì)算所得均值是否能更合理反映總體的情況.如對(duì)“新人教A 版第184 頁(yè)練習(xí)3”進(jìn)行改編,給出例子中1000 位學(xué)生的身高數(shù)據(jù);給出某種分層隨機(jī)抽樣下樣本的身高數(shù)據(jù),讓學(xué)生進(jìn)行計(jì)算與探究.
值得注意的是,在用分層抽樣的樣本均值估計(jì)總體均值時(shí),無(wú)論是按比例分配還是不按比例分配的情況,對(duì)各層總體均值都默認(rèn)可用各層樣本均值進(jìn)行估計(jì).即默認(rèn)簡(jiǎn)單隨機(jī)抽樣中樣本均值可估計(jì)總體均值;對(duì)這一性質(zhì),課本在簡(jiǎn)單隨機(jī)抽樣一節(jié)僅以“在簡(jiǎn)單隨機(jī)抽樣中,我們常用樣本平均數(shù)去估計(jì)總體平均數(shù)”說(shuō)明,但沒(méi)有闡述本質(zhì)原因.實(shí)際上,這一性質(zhì)涉及統(tǒng)計(jì)學(xué)中點(diǎn)估計(jì)的無(wú)偏性,即“對(duì)任意總體而言,樣本均值是總體均值的無(wú)偏估計(jì)”.但對(duì)學(xué)生而言,這一性質(zhì)超出了課程標(biāo)準(zhǔn)的要求范圍,因此沒(méi)有進(jìn)行闡述而是作為一個(gè)默認(rèn)性質(zhì)給到學(xué)生.但教師在教學(xué)中需要理解這一性質(zhì)的原理,以及“樣本方差并不是總體方差的無(wú)偏估計(jì)”,以便理解教材在對(duì)分層抽樣方差的闡述中不類(lèi)比均值來(lái)闡述的原因.
在新北師大版教材中,以一實(shí)際例子(新北師大版必修第一冊(cè)P171 例6)出發(fā),給出了層數(shù)為2 時(shí)樣本方差的計(jì)算過(guò)程,并抽象概括出方差的一般計(jì)算公式以及推導(dǎo)過(guò)程.
在新人教B 版教材中,以一實(shí)際例子(新人教B 版必修第二冊(cè)P79)出發(fā),直接給出了層數(shù)為2 時(shí)樣本方差的計(jì)算公式,但并沒(méi)有給出公式的推導(dǎo)過(guò)程;還給出了樣本方差的變形公式.
在新人教A 版教材中,以一實(shí)際例子(新人教A 版必修第二冊(cè)P212 例6)出發(fā),給出了層數(shù)為2 時(shí)樣本方差的推導(dǎo)過(guò)程,但沒(méi)有抽象概括出一般計(jì)算公式;在新人教A 版P216的習(xí)題9.2 第十一題給出了在分層隨機(jī)抽樣中,層數(shù)分為3層時(shí)樣本方差的一般計(jì)算公式.
在各個(gè)版本教材中都只給出了樣本方差的計(jì)算公式,并直接用該樣本方差直接估計(jì)總體方差;而沒(méi)有給出總體方差的計(jì)算公式,以及在不同分配方式特別是按比例分配下的樣本方差與總體方差的聯(lián)系.這與樣本方差并不是總體方差的無(wú)偏估計(jì)有關(guān).
例(新人教A 版214 頁(yè)練習(xí)5)[1]某學(xué)校有高中學(xué)生500 人,其中男生320 人,女生180 人.有人為了獲得該校全體高中學(xué)生的身高信息,采用分層抽樣抽取樣本,并觀測(cè)樣本的指標(biāo)值(單位:cm),計(jì)算得男生樣本的均值為173.5,方差為17,女生樣本的均值為163.83,方差為30.03.
(1)根據(jù)以上信息,能夠計(jì)算出總樣本的均值和方差嗎?為什么?
(2)如果已知男、女樣本量按比例分配,你能計(jì)算出總樣本的均值和方差各為多少嗎?
(3)如果已知男、女的樣本量都是25,你能計(jì)算出總樣本的均值和方差各為多少嗎? 它們分別作為總體均值和方差的估計(jì)合適嗎? 為什么?
分析(1) 總樣本的均值和方差都需要知道各層的樣本量才可以計(jì)算,因此不能夠計(jì)算出總樣本的均值和方差.(2) 中明確指出這是按比例分配樣本,因此總樣本的均值總樣本的方差.(3) 可以計(jì)算總樣本的均值和方差,46.892.但是它們不能作為總體均值和方差的估計(jì).
方差是樣本各值與平均數(shù)差的平方的加權(quán)平均數(shù),反映數(shù)據(jù)的偏離程度.由則其中,可理解為各層方差的加權(quán)平均數(shù),可理解為各層平均數(shù)與總體平均數(shù)的方差.分層抽樣中的方差受到各層內(nèi)樣本和層與層之間的分配兩方面因素影響,一般把稱(chēng)為層內(nèi)方差,把稱(chēng)為層間方差;因此在統(tǒng)計(jì)學(xué)中,分層抽樣的方差一般可分解為組間方差與組內(nèi)方差之和.
在教材中只給出了直接用樣本方差來(lái)估計(jì)總體,而并沒(méi)有給出總體方差的計(jì)算公式,以及樣本方差與總體方差的聯(lián)系.下文將給出兩種樣本方差估計(jì)總體方差的方案.
方案一在分層隨機(jī)抽樣中,若層數(shù)分為2 層,第1、2 層包含的個(gè)體數(shù)分別為M和N,第1、2 層的總體平均數(shù)分別為,,總體平均數(shù)為,設(shè)總體方差為S2,第1、2 層的總體方差分別為S21,S22,則S2=
上述方案使用了課本所給的方差定義(S2=進(jìn)行分層抽樣方差公式的推導(dǎo); 同時(shí)在方案中,用各層樣本方差作為各層總體方差的估計(jì).但從統(tǒng)計(jì)學(xué)的角度,該方差并非對(duì)總體方差的無(wú)偏估計(jì),即用該樣本方差并不能準(zhǔn)確的估計(jì)總體方差.
方案二
定義設(shè)x1,x2,...,xn為取自某總體的樣本,則它關(guān)于樣本均值的平均偏差常用作為樣本方差,也稱(chēng)無(wú)偏方差[2].它是總體方差的無(wú)偏估計(jì).
用無(wú)偏方差定義給出相應(yīng)的分層隨機(jī)抽樣方差計(jì)算公式,下文所涉方差均為無(wú)偏方差.
在分層隨機(jī)抽樣中,若層數(shù)分為2 層,第1、2 層包含的個(gè)體數(shù)分別為M和N,第1、2 層的總體平均數(shù)分別為,,總體平均數(shù)為,設(shè)總體方差為S2,第1、2 層的總體方差分別為S21,S22,則
由此可見(jiàn),在無(wú)偏方差下,不能直接由總樣本方差估計(jì)總體方差;但可由各層樣本方差及抽樣比估計(jì)總體方差.此外,當(dāng)抽樣比是按比例分配時(shí),總樣本方差最小.
命題設(shè)從均值為μ,方差為σ2>0 的總體中分別抽取容量為n1和n2的兩獨(dú)立樣本,和分別是這兩個(gè)樣本的均值.對(duì)于任意常數(shù)a,b(a+b=1),Y=+都是μ的無(wú)偏估計(jì),且當(dāng)時(shí),使D(Y)的方差達(dá)到最小.
證明易知,由于且則有=aμ+bμ=(a+b)μ=μ,Y是μ的無(wú)偏估計(jì)得證.由于兩樣本獨(dú)立,D(Y)=由a+b=1,D(Y)=則令則得證.
從分層隨機(jī)抽樣方差的計(jì)算公式可見(jiàn),無(wú)論是公式的推導(dǎo),記憶,理解,還是公式的計(jì)算與應(yīng)用都是教學(xué)的難點(diǎn).此外,針對(duì)新人教A 版的內(nèi)容,直接用樣本方差估計(jì)總體方差時(shí)所用到的是樣本平均數(shù),即無(wú)論是否按比例分配,所使用的都是樣本本身的樣本量;這與用樣本平均數(shù)估計(jì)總體平均數(shù)時(shí),使用的是總體比例不同.
面對(duì)新教材中的這一大變化,教師在教學(xué)中需做好備課工作,課前要對(duì)分層隨機(jī)抽樣方差計(jì)算公式的推導(dǎo)、理解、應(yīng)用理解透徹;考慮到計(jì)算公式的抽象性,符號(hào)字母的多樣性,應(yīng)考慮對(duì)教材例題進(jìn)行適當(dāng)設(shè)計(jì),如先減少樣本量,讓學(xué)生考慮樣本量很小(如樣本量為10)時(shí),應(yīng)如何計(jì)算樣本方差,從中歸納概括出樣本方差的計(jì)算公式.而對(duì)樣本方差的計(jì)算公式推導(dǎo),由于涉及求和符號(hào)以及相應(yīng)的運(yùn)算性質(zhì),學(xué)生在此前并未接觸,因此容易使學(xué)生產(chǎn)生障礙.因此應(yīng)考慮學(xué)生的層次進(jìn)行選擇,如在讓學(xué)生根據(jù)例子自行歸納出計(jì)算公式后,直接類(lèi)比給出公式而不推導(dǎo)(新人教B 版),或在拓展出另外補(bǔ)充推導(dǎo)過(guò)程但不具體細(xì)致講解,而是分析相關(guān)思路(新北師大版),或利用具體例子進(jìn)行推導(dǎo)(新人教A 版).在推導(dǎo)時(shí)應(yīng)考慮盡量避免求和符號(hào)的使用,或者應(yīng)在前期教學(xué)中對(duì)求和符號(hào)及運(yùn)算性質(zhì)進(jìn)行訓(xùn)練或熟悉,以避免求和符號(hào)造成的障礙.此外,結(jié)合新課程標(biāo)準(zhǔn)對(duì)學(xué)生核心素養(yǎng)以及思維的培養(yǎng)與拓展,教師也可設(shè)計(jì)問(wèn)題串引導(dǎo)學(xué)生探究樣本方差估計(jì)總體方差的優(yōu)化方案,以加深學(xué)生對(duì)方差的理解.
中學(xué)數(shù)學(xué)研究(廣東)2023年2期