統(tǒng)計備考中需要把握的4個方面
◇湖南劉兆平
統(tǒng)計單元在數(shù)學(xué)高考的命題分量超過了課標(biāo)規(guī)定的課時分量,這是因為統(tǒng)計問題在考查考生的運(yùn)算求解能力、數(shù)據(jù)處理能力以及應(yīng)用意識、創(chuàng)新意識等方面扮演著重要的角色.本文分4個方面例談統(tǒng)計單元的備考熱點(diǎn).
13種抽樣方法
抽樣是一項統(tǒng)計工作的開始,需要我們根據(jù)研究對象的特征確定抽樣方法.常用的抽樣方法主要有簡單隨機(jī)抽樣、分層抽樣、系統(tǒng)抽樣.應(yīng)用中要把握3種抽樣方法的適用條件,正確選擇利用.
例1(2015年福建卷)某校高一年級有900名學(xué)生,其中女生400名,按男女比例用分層抽樣的方法,從該年級學(xué)生中抽取一個容量為45的樣本,則應(yīng)抽取的男生人數(shù)為________.
例2(2012山東高考理)采用系統(tǒng)抽樣方法從960人中抽取32人做問卷調(diào)查,為此將他們隨機(jī)編號為1,2,…,960,分組后在第1組采用簡單隨機(jī)抽樣的方法抽到的號碼為9.抽到的32人中,編號落入?yún)^(qū)間[1,450]的人做問卷A,編號落入?yún)^(qū)間[451,750]的人做問卷B,其余的人做問卷C.則抽到的人中,做問卷B的人數(shù)為().
A7;B9;C10;D15
當(dāng)總體容量較小,樣本容量也較小時,可采用簡單隨機(jī)抽樣法;當(dāng)總體由差異明顯的幾部分組成,可采用分層抽樣法;當(dāng)總體容量較大,樣本容量也較大時,可采用系統(tǒng)抽樣法.
23種常用圖表
抽樣所得到的數(shù)據(jù),需要進(jìn)行匯總整理,數(shù)據(jù)的處理結(jié)果,我們通常將其表示為頻率分布直方圖、莖葉圖、隨機(jī)變量分布列,以直觀、整齊的形式地體現(xiàn)樣本數(shù)據(jù)特征.
例3(2015年湖南卷)在一次馬拉松比賽中,35名運(yùn)動員的成績(單位:min)的莖葉圖如圖1所示.若將運(yùn)動員按成績由好到差編為1~35號,再用系統(tǒng)抽樣方法從中抽取7人,則其中成績在區(qū)間[139,151]上的運(yùn)動員人數(shù)是________.
13003456688891411122233445556678150122333圖1
總體分布反映了總體在各個范圍內(nèi)取值的可能性的大小,利用樣本的頻率分布去估計總體分布,樣本容量越大,這種估計也就越精確.
例4(2013全國新課標(biāo)Ⅱ卷) 經(jīng)銷商經(jīng)銷某種農(nóng)產(chǎn)品,在一個銷售季度內(nèi),每售出1 t該產(chǎn)品獲利潤500元,未售出的產(chǎn)品,每1 t虧損300元.根據(jù)歷史資料,得到銷售季度內(nèi)市場需求量的頻率分布直方圖,如圖2所示.經(jīng)銷商為下一個銷售季度購進(jìn)了130 t該農(nóng)產(chǎn)品,以X(單位:t,100≤X≤150)表示下一個銷售季度內(nèi)的市場需求量,T(單位:元)表示下一個銷售季度內(nèi)銷商該農(nóng)產(chǎn)品的利潤.
圖2
(1) 將T表示為X的函數(shù);
(2) 根據(jù)直方圖估計利潤T不少于57000元的概率;
(3) 在直方圖的需求量分組中,以各組的區(qū)間中點(diǎn)值代表該組的各個值,需求量落入該區(qū)間的頻率作為需求量取該區(qū)間中點(diǎn)值的概率(例如:若X∈[100, 110),則取X=105,且X=105的概率等于需求量落入[100,110]的概率),求利潤T的數(shù)學(xué)期望.
(1) 當(dāng)X∈[100, 130)時,
T=500X-300(130-X)=800X-39000.
當(dāng)X∈[130,150]時,T=500×130=65000.
(2) 由(1)知利潤T不少于57000元當(dāng)且僅當(dāng)
120≤X≤150.
由直方圖知需求量X∈[120, 150]的頻率為0.7,所以下一個銷售季度內(nèi)的利潤T不少于57000元的概率的估計值為0.7.
(3) 依題意可得T的分布列為
T45000530006100065000P0.10.20.30.4
所以ET=45000×0.1+53000×0.2+61000×0.3+65000×0.4=59400.
此題將概率與統(tǒng)計、函數(shù)等知識自然結(jié)合起來命制了一道綜合性較強(qiáng)的概率應(yīng)用題,主要考查了考生的分析問題與解決問題的能力,注重知識的交會和滲透是本題的“閃光”之處.解決此題的關(guān)鍵是結(jié)合頻率分布直方圖理順概率P與需求量X、利潤T之間的關(guān)系.
35個數(shù)字特征
對樣本數(shù)據(jù)進(jìn)行整理后,通過對樣本數(shù)據(jù)的分析來估計總體分布,即通過對樣本數(shù)據(jù)的評價分析來研究總體的數(shù)字特征.對數(shù)據(jù)評價的主要參考有期望(平均數(shù))、中位數(shù)、方差(反映樣本數(shù)據(jù)的波動程度的量)、標(biāo)準(zhǔn)差、眾數(shù)(反映樣本數(shù)據(jù)的集中程度).具體應(yīng)用中應(yīng)根據(jù)需要選擇合適的數(shù)字特征.
圖3
例6(2014年福建卷)為回饋顧客,某商場擬通過摸球兌獎的方式對1000位顧客進(jìn)行獎勵,規(guī)定:每位顧客從一個裝有4個標(biāo)有面值的球的袋中一次性隨機(jī)摸出2個球,球上所標(biāo)的面值之和為該顧客所獲的獎勵額.
(1) 略.
(2) 商場對獎勵總額的預(yù)算是60000元,并規(guī)定袋中的4個球只能由標(biāo)有面值10元和50元的2種球組成,或標(biāo)有面值20元和40元的2種球組成.為了使顧客得到的獎勵總額盡可能符合商場的預(yù)算且每位顧客所獲的獎勵額相對均衡,請對袋中的4個球的面值給出一個合適的設(shè)計,并說明理由.
(2) 根據(jù)商場的預(yù)算,每個顧客的平均獎勵為60元.所以先尋找期望為60元的可能方案.對于面值由10元和50元組成的情況,如果選擇(10,10,10,50)的方案,因為60元是面值之和的最大值,所以期望不可能為60元;如果選擇(50,50,50,10)的方案,因為60元是面值之和的最小值,所以數(shù)學(xué)期望也不可能為60元,因此可能的方案是(10,10,50,50),記為方案1.
對于面值由20元和40元組成的情況,同理可排除(20,20,20,40)和(40,40,40,20)的方案,所以可能的方案是(20,20,40,40),記為方案2.
以下是對2個方案的分析:
對于方案1,即方案(10,10,50,50),設(shè)顧客所獲的獎勵為X1,則X1的分布列為
X12060100P162316
X1的期望為
X1的方差為
對于方案2,即方案(20,20,40,40),設(shè)顧客所獲的獎勵為X2,則X2的分布列為
X2406080P162316
X2的期望為
X2的方差為
由于2種方案的獎勵額都符合要求,但方案2獎勵的方差比方案1的小,所以應(yīng)該選擇方案2.
本題主要考查古典概型、離散型隨機(jī)變量的分布列、數(shù)學(xué)期望、方差等基礎(chǔ)知識,考查數(shù)據(jù)處理能力、運(yùn)算求解能力、建模意識,考查分類與整合思想.分別求出2種方案的期望與方差,并比較它們的大小,即可得出結(jié)論.
42種統(tǒng)計模型
生活中除了函數(shù)關(guān)系這種確定性的關(guān)系外,還大量存在因變量的取值帶有一定隨機(jī)性的2個變量之間的關(guān)系,即相關(guān)關(guān)系.研究2個變量之間的關(guān)系,首先要采取樣本,然后將采取的樣本數(shù)據(jù)進(jìn)行處理,得到模型.不同的方式得到不同的模型,再利用模型描述2個變量之間關(guān)系的強(qiáng)弱.
例7(2015年福建卷)為了解某社區(qū)居民的家庭年收入與年支出的關(guān)系,隨機(jī)調(diào)查了該社區(qū)5戶家庭,得到如下表所示的統(tǒng)計數(shù)據(jù).
收入x/萬元8.28.610.011.311.9支出y/萬元6.27.58.08.59.8
據(jù)此估計,該社區(qū)一戶收入為15萬元家庭年支出為()萬元.
A11.4;B11.8;
C12.0;D12.2
由已知得
本題主要考查回歸直線方程的求法,應(yīng)用回歸直線方程進(jìn)行預(yù)測、估計的思想方法,意在考查考生的數(shù)據(jù)分析能力和實際應(yīng)用能力.
例8(2013年福建卷)某工廠有25周歲及以上工人300名,25周歲以下工人200名.為研究工人的日平均生產(chǎn)量是否與年齡有關(guān),現(xiàn)采用分層抽樣的方法,從中抽取了100名工人,先統(tǒng)計了他們某月的日平均生產(chǎn)件數(shù),然后按工人年齡在“25周歲及以上”和“25周歲以下”分為2組,再將2組工人的日平均生產(chǎn)件數(shù)分成[50,60)、[60,70)、[70,80)、[80,90)、[90,100]5組分別加以統(tǒng)計,得到如圖4、5所示的頻率分布直方圖.
圖4 圖5
(1) 從樣本中日平均生產(chǎn)件數(shù)不足60件的工人中隨機(jī)抽取2人,求至少抽到1名“25周歲以下組”工人的概率;
(2) 規(guī)定日平均生產(chǎn)件數(shù)不少于80件者為“生產(chǎn)能手”,請你根據(jù)已知條件完成2×2列聯(lián)表,并判斷是否有90%的把握認(rèn)為“生產(chǎn)能手與工人所在的年齡組有關(guān)”.
P(χ2≥k)0.1000.0500.0100.001K2.7063.8416.63510.828
(1) 略.(2) 由頻率分布直方圖可知,在抽取的100名工人中,“25周歲及以上組”中的生產(chǎn)能手有60×0.25=15,“25周歲以下組”中的生產(chǎn)能手有40×0.375=15,據(jù)此可得2×2列聯(lián)表如下:
分組生產(chǎn)能手非生產(chǎn)能手合計25周歲及以上組15456025周歲以下組152540合計3070100
所以得
因為1.79<2.706,所以沒有90%的把握認(rèn)為“生產(chǎn)能手與工人所在的年齡組有關(guān)”.
變量間的相關(guān)關(guān)系與統(tǒng)計案例主要考查線性回歸方程的計算或回歸分析的思想與方法的應(yīng)用問題、獨(dú)立性檢驗的基本思想及應(yīng)用.
(作者單位:湖南省婁底市第三中學(xué))