葉莉
頻率分布直方圖是用來刻畫樣本數(shù)據(jù)分布的重要工具之一,也是用樣本估計(jì)總體的常用方法.整個制圖過程,操作性強(qiáng),分布直觀,圖形簡潔美觀,也適用于計(jì)算機(jī)繪圖,所以在各行業(yè)的數(shù)據(jù)處理中應(yīng)用廣泛.
高中課程標(biāo)準(zhǔn)對頻率分布直方圖的具體要求是:1.通過實(shí)例體會分布的意義和作用,會列頻率分布表、畫頻率分布直方圖表示樣本數(shù)據(jù),并體會其特點(diǎn);2.會用樣本的頻率分布直方圖估計(jì)總體分布,會用樣本的頻率分布直方圖估計(jì)總體的基本數(shù)字特征.簡單地說,就是能“制圖”,會“用圖”,而我們在應(yīng)用中產(chǎn)生的錯誤也主要發(fā)生在這兩個過程中.
一、頻數(shù)的統(tǒng)計(jì)錯誤
例1 從2015年9月1日起,學(xué)校不再代收學(xué)平險保險費(fèi),在校學(xué)生意外保險由家長自行辦理. 武漢市某區(qū)在開學(xué)之初,以班級為單位,對學(xué)生自行購買保險的情況進(jìn)行了抽樣統(tǒng)計(jì),得到了如下20個班級購買保險人數(shù)情況(如下表),試作出該樣本的一個頻率分布直方圖.
錯解 計(jì)算這組數(shù)據(jù)的極差為30-5=25,將組距定為5,組數(shù)定為5,則將20個數(shù)據(jù)分為[5,10],[10,15],[15,20],[20,25],[25,30]這5組,得到每組的頻數(shù)分別為5,8,5,2,2,…….
正解 在上述解答中,各小組頻數(shù)之和為22,大于樣本容量,顯然是錯誤的. 原因是分組區(qū)間全是雙閉區(qū)間,則數(shù)據(jù)“10”在第一組和第二組均被計(jì)入頻數(shù),數(shù)據(jù)“15”也是如此. 在分組時,應(yīng)將20個數(shù)據(jù)分為[5,10),[10,15),[15,20),[20,25),[25,30]這5組,得到每組的頻數(shù)分別為4,7,5,2,2,…
點(diǎn)撥 分組時,每組所在區(qū)間一般是選擇“左閉右開”,而不是“雙閉”或“雙開”,防止某些數(shù)據(jù)漏選或某些數(shù)據(jù)被多次計(jì)入不同小組,從而導(dǎo)致頻數(shù)統(tǒng)計(jì)失誤.規(guī)避這種失誤,可以檢查各組頻數(shù)之和是否等于樣本容量.
二、將頻率分布直方圖的縱坐標(biāo)“[頻率組距]”誤認(rèn)為是“頻率”
例2 在上例中,若另一個區(qū)也做了此項(xiàng)抽樣統(tǒng)計(jì),樣本容量為100,得到的樣本頻率分布圖如下,其中第3小組頻率為0.34,第1,2,4,5小組頻率形成了公差為0.03的等差數(shù)列,求m值及第2小組的頻數(shù).
[m][5][10][15][20][25][30][班級購買保險人數(shù)]
錯解 由于各小組的頻率之和為1,且第3小組頻率為0.34,則第1,2,4,5小組頻率之和為0.66.這四個小組的頻率形成了公差為0.03的等差數(shù)列,設(shè)首項(xiàng)為[x],則由等差數(shù)列前四項(xiàng)之和為0.66,可得[x]=0.12,則第二組的頻率為0.15,故[m]=0.15,….
正解 第2組頻率的計(jì)算過程完全正確,第2組的頻率等于0.15,但并不意味著[m]=0.15. 因?yàn)榈?組的矩形的面積才是第2組的頻率,故矩形的高=[0.155]=0.03,即[m]=0.03.
點(diǎn)撥 無論是初中學(xué)習(xí)的頻數(shù)分布直方圖,還是高中學(xué)習(xí)的頻率分布直方圖,都是用每個小矩形的面積而不是小矩形的高度表示該組的頻數(shù)和頻率.
雖然在等距分組時,[該組頻率該組小矩形的高度]=組距(定值),此時縱坐標(biāo)是[頻率組距],所作出的頻率分布直方圖中,小組頻率越大,小矩形的面積越大,小矩形的高度越高,但在實(shí)際生活中,也有很多是不等距分組,此時縱坐標(biāo)表示“[頻率組距]”,所作出的頻率分布直方圖中,小組的頻率越大,小矩形的面積越大,但小矩形的高度不一定越高,所以務(wù)必明確頻率分布直方圖的縱坐標(biāo)不是頻率.
當(dāng)然以“數(shù)據(jù)”為橫坐標(biāo),“頻率”為縱坐標(biāo),建立平面直角坐標(biāo)系,也能繪出每組的頻率分布,而且直觀明了,但這種圖不方便直觀呈現(xiàn)“累積頻率”,“高度與高度的累積”就遠(yuǎn)不如“面積與面積的累積”直觀,所以為了能更好地估計(jì)總體的密度曲線,頻率分布直方圖的縱坐標(biāo)規(guī)定為“[頻率組距]”.
三、繪圖過程中丟失必要元素
例3 有一個容量為100的樣本,其頻率分布直方圖如圖所示,求從左往右第2,3組的頻數(shù)之和.
錯解 該頻率分布直方圖中,第2,3組的小矩形的縱坐標(biāo)都沒有標(biāo)記出來,缺失條件,得不到該組的頻率,無法計(jì)算該組的頻數(shù).
正解 雖然第2,3組的小矩形的縱坐標(biāo)都沒有標(biāo)記出來,但其它組的小矩形的縱坐標(biāo)均有標(biāo)記,即其它組的小矩形的面積均可以計(jì)算,而所有面積之和為1,則第2,3組面積和為1-(0.02+0.09+0.19)×2=0.4,即第2,3組的頻率之和為0.4,且樣本容量為100,則第2,3組頻數(shù)和為0.4×100=40.
點(diǎn)撥 明確頻率分布直方圖中包含的一些等量關(guān)系如:[頻數(shù)樣本容量]=頻率;各組頻數(shù)之和等于樣本容量;各小組頻率之和等于1;各個小矩形面積之和等于1;各小組的頻數(shù)之比等于各小組的頻率之比等于各小組的面積之比等.
總之,頻率分布直方圖是一種分析數(shù)據(jù)的有效工具,他能夠把大量數(shù)據(jù)的分布情況直觀的表現(xiàn)出來,但在圖中,我們已經(jīng)讀不出原始的數(shù)據(jù)信息,如果同學(xué)們能結(jié)合其他的統(tǒng)計(jì)工具分析數(shù)據(jù),應(yīng)該能更準(zhǔn)確地估計(jì)總體。
[練習(xí)]
1. 測速儀在某段時間內(nèi)檢測過往200輛車的車速,作出汽車時速的頻率分布直方圖如圖所示,問該時間段內(nèi)時速不低于60km·h-1的汽車數(shù)量為多少?
2. 某市急救中心在過去上半年中,隨機(jī)抽樣80天,統(tǒng)計(jì)了每天的急救電話的個數(shù),并將它們制成頻率分布直方圖如下,從左往右四個小矩形的高度比分別為1[∶]3[∶]4[∶]2. (1)求第4個小矩形的面積;(2)估計(jì)該市每天急救電話的平均個數(shù)是多少?
[0] [48][74][100][126][152][每天急救電話個數(shù)]
3. 為了解高中生的身體素質(zhì)狀況,某學(xué)校隨機(jī)抽取部分學(xué)生進(jìn)行一分鐘跳繩次數(shù)測試,將所有的數(shù)據(jù)整理后,繪制出如下頻率分布直方圖,第2,3小組的頻數(shù)和為20,(1)求樣本容量和第4組的頻數(shù);(2)試估計(jì)該校學(xué)生一分鐘跳繩個數(shù)的中位數(shù)和平均值.
[0] [一分鐘跳繩個數(shù)][0.032][0.008][0.004][a][90][100][110][120][130][140][150]
4.某校高二年級共有學(xué)生1000名,其中走讀生750名,住宿生250名,現(xiàn)從該年級采用分層抽樣的方法從該年級抽取n名學(xué)生進(jìn)行問卷調(diào)查.根據(jù)問卷取得了這n名同學(xué)每天晚上有效學(xué)習(xí)時間(單位:分鐘)的數(shù)據(jù),按照以下區(qū)間分為八組:[0,30),[30,60),[60,90),[90,120),[120,150),[150,180),[180,210),[210,240],得到頻率分布直方圖如下圖.已知抽取的學(xué)生中每天晚上有效學(xué)習(xí)時間少于60分鐘的人數(shù)為5人.
(1)求n的值并求有效學(xué)習(xí)時間在[90,120)內(nèi)的頻率;
(2)如果把“學(xué)生晚上有效時間達(dá)到兩小時”作為是否充分利用時間的標(biāo)準(zhǔn),對抽取的n名學(xué)生,有下列2×2列聯(lián)表。問:是否有97.5%的把握認(rèn)為學(xué)生利用時間是否充分與走讀、住宿有關(guān)?
(3)若在第①組、第②組、第⑦組、第⑧組中共抽出3人調(diào)查影響有效利用時間的原因,記抽到“有效學(xué)習(xí)時間少于60分鐘”的學(xué)生人數(shù)為x,求x的分布列.
參考公式:[K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)]
1.[C]
2.(1)第4小組的面積為0.2.
(2)估計(jì)該市每天急救電話的平均個數(shù)是105.2.
3.(1)樣本容量為100,第4組的頻數(shù)32.
(2)該校學(xué)生一分鐘跳繩個數(shù)的平均數(shù)估計(jì)為126.6.
4.(1)根據(jù)題意設(shè)第n組的頻率為Pn(n=1,2,…,8),由題意每天晚上有效學(xué)習(xí)時間少于60分鐘的分別為第一組和第二組,由頻率分布直方圖知: