祁蓓 郝曉輝
樣本眾數(shù)是一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的數(shù);樣本中位數(shù)是將一組數(shù)據(jù)按大小次序依次排列,處于最中間的一個(gè)數(shù)據(jù)(或中間兩個(gè)數(shù)據(jù)的平均數(shù));樣本平均數(shù)是一組數(shù)據(jù)的算術(shù)平均數(shù).那么,數(shù)據(jù)7,8,6,8,6,5,8,10,7,4中的眾數(shù)、中位數(shù)、平均數(shù)分別是多少?眾數(shù)是8,中位數(shù)是7,平均數(shù)是6.9. 眾數(shù)反映的往往是局部較集中的數(shù)據(jù)信息,中位數(shù)反映的是處于中間部位的數(shù)據(jù)信息,平均數(shù)反映的是所有數(shù)據(jù)的平均水平.
如果已知樣本數(shù)據(jù)的頻率分布直方圖,又應(yīng)該如何估計(jì)眾數(shù)、中位數(shù)和平均數(shù)呢?
一、估計(jì)眾數(shù)
例1 從參加歷史知識(shí)競(jìng)賽的學(xué)生中抽出60名,將其成績(jī)(均為整數(shù))整理后畫(huà)出的頻率分布直方圖如下,觀察圖形,估計(jì)這次歷史知識(shí)競(jìng)賽成績(jī)的眾數(shù).
解析 由圖易知,分?jǐn)?shù)介于69.5到79.5之間的最多,所以可以估計(jì)眾數(shù)是[12(69.5+79.5)=74.5].
點(diǎn)撥 一般可以直接在頻率分布直方圖中找到最高的矩形,矩形中點(diǎn)橫坐標(biāo)即為眾數(shù)估計(jì)值. 眾數(shù)體現(xiàn)了樣本數(shù)據(jù)的最大集中點(diǎn),但是它只能表達(dá)樣本數(shù)據(jù)中的很少一部分信息,它對(duì)其它數(shù)據(jù)信息的忽視使得其往往無(wú)法客觀地反映出總體特征.
二、估計(jì)中位數(shù)
例2 某班50名學(xué)生舉行一次英語(yǔ)測(cè)驗(yàn)(滿(mǎn)分100分),根據(jù)成績(jī)各分?jǐn)?shù)段作出頻率分布直方圖如下,觀察圖形,估計(jì)這次測(cè)驗(yàn)的中位數(shù).
[49.5][59.5][69.5][79.5][89.5][99.5][分?jǐn)?shù)][0.02][0.024][0.032][0.016][0.008][0]
解析 在樣本數(shù)據(jù)中,有50%的個(gè)體小于或等于中位數(shù),也有50%的個(gè)體大于或等于中位數(shù). 而在頻率分布直方圖中,矩形的面積大小正好表示頻率的大小,所以中位數(shù)左邊和右邊的直方圖的面積應(yīng)該相等,由此可以估計(jì)中位數(shù)的值.
觀察該圖,左邊三個(gè)矩形的面積和為0.08+0.16+0.2=0.44,右邊兩個(gè)矩形的面積和為0.32+0.24=0.56,可知中位數(shù)應(yīng)在(79.5,89.5)內(nèi),為使中位線(xiàn)左側(cè)面積等于0.5,[(0.5-0.44)0.032=1.875],所以中位數(shù)為79.5+1.875=81.375,此時(shí)左右兩邊的面積各為0.5.
點(diǎn)撥 中位數(shù)是樣本數(shù)據(jù)所占頻率的等分線(xiàn),它不受少數(shù)幾個(gè)極端值的影響,這在某些情況下是優(yōu)點(diǎn),但它對(duì)極端值的不敏感有時(shí)也會(huì)成為缺點(diǎn). 另外由于樣本數(shù)據(jù)的頻率分布直方圖只是直觀地表明分布的形狀,但是從直方圖本身得不出原始的數(shù)據(jù)內(nèi)容,所以由頻率分布直方圖中得到的中位數(shù)估計(jì)值往往與樣本的實(shí)際中位數(shù)不一致.
三、估計(jì)平均數(shù)
例3 在某中學(xué)高三年級(jí)參加九月聯(lián)考的同學(xué)中,用系統(tǒng)抽樣法抽取了一個(gè)容量為200的學(xué)生總成績(jī)的樣本,根據(jù)分?jǐn)?shù)段及各分?jǐn)?shù)段人數(shù)(滿(mǎn)分750分),作出頻率分布直方圖如下,試估計(jì)樣本平均數(shù)并探究其與頻率的關(guān)系.
解析 樣本平均數(shù)是一組數(shù)據(jù)的算術(shù)平均數(shù),由頻率分布直方圖所提供的信息來(lái)看,約300分的有0.001×100×200=20人,約400分的有0.0015×100×200=30人,以此類(lèi)推,約500分的有80人,約600分的有40人,約700分的有30人,所以平均數(shù)應(yīng)為
[300×20+400×30+500×80+600×40+700×30200=515,]
即300×0.1+400×0.15+500×0.4+600×0.2+700×0.15=515,也就是每個(gè)分?jǐn)?shù)段的中間值與其相應(yīng)的頻率乘積的總和. 在直方圖中,每個(gè)小矩形面積就是相應(yīng)的頻率,所以頻率分布直方圖中每個(gè)小矩形的面積乘以小矩形底邊中點(diǎn)的橫坐標(biāo)之和,即為平均數(shù)的估計(jì)值.
例4 某公司的人員及月工資構(gòu)成具體如下:
(1)指出這家公司人員月薪中的眾數(shù)、中位數(shù)、平均數(shù);
(2)你認(rèn)為哪個(gè)統(tǒng)計(jì)量更能反映這個(gè)公司的工資水平?結(jié)合此問(wèn)題談一談你的看法.
解析 (1)由表格可知:眾數(shù)為8000,中位數(shù)為8800,平均數(shù)為12000.
(2)中位數(shù)或眾數(shù)均能反映該公司的工資水平. 由于公司少數(shù)人的工資與大多數(shù)人的工資差別太大,導(dǎo)致平均數(shù)與中位數(shù)偏差較大,所以平均數(shù)不能客觀真實(shí)地反映該公司的工資水平(平均月薪為12000,除總經(jīng)理外,其余的人都在平均數(shù)以下).
點(diǎn)撥 由于平均數(shù)與每一個(gè)樣本的數(shù)據(jù)有關(guān),它描述了數(shù)據(jù)的平均水平,是一組數(shù)據(jù)的“重心”. 任何一個(gè)樣本數(shù)據(jù)的改變都會(huì)引起平均數(shù)的改變,這是眾數(shù)、中位數(shù)都不具有的性質(zhì). 正因如此,與它們相比,平均數(shù)可以反映出更多的關(guān)于樣本數(shù)據(jù)全體的信息. 但平均數(shù)受數(shù)據(jù)中的極端值的影響較大,使平均數(shù)在估計(jì)樣本時(shí)可靠性降低. 所以一般情況下,平均數(shù)可以反映出這組數(shù)據(jù)的一般情況,比如某班一次考試的平均成績(jī)可以反映出該班學(xué)生該科的平均水平. 但特殊情況下,當(dāng)樣本數(shù)據(jù)質(zhì)量較差時(shí),使用平均數(shù)描述數(shù)據(jù)的中心位置可能與實(shí)際情況產(chǎn)生很大的誤差.比如在體育、文藝等各種比賽的評(píng)分中,使用的是平均數(shù),但是計(jì)分過(guò)程中采用“去掉一個(gè)最高分,去掉一個(gè)最低分”的方法,就是為了防止個(gè)別裁判給出過(guò)高或過(guò)低的分?jǐn)?shù)對(duì)選手的比分造成較大的影響,從而降低誤差,盡量保持公平性.
總而言之,這三個(gè)數(shù)字特征之間互有區(qū)別和聯(lián)系:
1.眾數(shù)、中位數(shù)、平均數(shù)都是描述一組樣本數(shù)據(jù)集中趨勢(shì)的量,平均數(shù)是其中最重要的量.
2.樣本眾數(shù)通常用來(lái)表示分類(lèi)變量的中心值,比較容易計(jì)算,但是它只能表示樣本數(shù)據(jù)中的很少一部分信息,也不一定唯一. 當(dāng)一組數(shù)據(jù)中有不少數(shù)據(jù)多次重復(fù)出現(xiàn)時(shí),眾數(shù)往往更能反映問(wèn)題.
3.樣本中位數(shù)不受少數(shù)幾個(gè)極端值的影響,也比較容易計(jì)算,它利用了樣本數(shù)據(jù)排在中間的數(shù)據(jù)信息,可能出現(xiàn)在所給數(shù)據(jù)中,也可能不在所給數(shù)據(jù)中. 中位數(shù)僅與數(shù)據(jù)的排列順序有關(guān),某些數(shù)據(jù)的變動(dòng)對(duì)中位數(shù)沒(méi)有影響,所以當(dāng)一組數(shù)據(jù)中的個(gè)別數(shù)據(jù)變化較大時(shí),可以用中位數(shù)描述其集中趨勢(shì). 另外,當(dāng)樣本數(shù)據(jù)質(zhì)量較差,比如存在一些錯(cuò)誤數(shù)據(jù)(數(shù)據(jù)的錄入錯(cuò)誤或者測(cè)量錯(cuò)誤等)時(shí),也應(yīng)該用抗極端數(shù)據(jù)強(qiáng)的中位數(shù)來(lái)表示數(shù)據(jù)的中心值.
4.樣本平均數(shù)與每個(gè)樣本數(shù)據(jù)有關(guān),所以任何一個(gè)樣本數(shù)據(jù)的改變都會(huì)引起平均數(shù)的改變,越“離群”的數(shù)據(jù),對(duì)平均數(shù)的影響越大. 與眾數(shù)、中位數(shù)相比,平均數(shù)代表了更多的關(guān)于樣本數(shù)據(jù)全體的信息.
5.如果樣本平均數(shù)大于樣本中位數(shù),說(shuō)明數(shù)據(jù)中存在許多較大的極端值;反之,則說(shuō)明數(shù)據(jù)中存在許多較小的極端值. 在實(shí)際應(yīng)用中,如果能同時(shí)知道樣本中位數(shù)和樣本平均數(shù),可以使我們了解樣本數(shù)據(jù)中極端數(shù)據(jù)的信息,幫助我們作出決策.
6.使用者常常根據(jù)自己的利益去選取使用眾數(shù)、中位數(shù)或平均數(shù)來(lái)描述數(shù)據(jù)的中心位置,從而產(chǎn)生一些誤導(dǎo)作用.