田載今
客觀事物帶有各種信息,這些信息的表現(xiàn)形式和載體叫作數(shù)據(jù).例如,測(cè)量溫度、濕度、氣壓、風(fēng)力、風(fēng)向等所產(chǎn)生的各種記錄,都是研究氣象問(wèn)題離不開(kāi)的數(shù)據(jù),
統(tǒng)計(jì)過(guò)程主要分為三步:第一步是收集數(shù)據(jù);第二步是整理數(shù)據(jù),即對(duì)收集的原始數(shù)據(jù)進(jìn)行整理、加工,從中提取出數(shù)據(jù)的代表;第三步是分析數(shù)據(jù),即通過(guò)數(shù)據(jù)的代表研究數(shù)據(jù)中蘊(yùn)涵的規(guī)律,從而研究已發(fā)生的事或預(yù)測(cè)將發(fā)生的事.
一、數(shù)據(jù)的集中趨勢(shì)
分析數(shù)據(jù)時(shí),通常關(guān)注“一組數(shù)據(jù)圍繞哪個(gè)中心數(shù)值分布”.這個(gè)問(wèn)題關(guān)系到一組數(shù)據(jù)的平均水平或一般情況,對(duì)發(fā)現(xiàn)事物的內(nèi)在規(guī)律有重要參考價(jià)值,在統(tǒng)計(jì)學(xué)中,把一組數(shù)據(jù)向某一中心數(shù)值靠攏的情形,稱為這組數(shù)據(jù)的集中趨勢(shì),為描述數(shù)據(jù)的集中趨勢(shì),可以選擇不同的數(shù)據(jù)代表.如果從數(shù)據(jù)取值大小的角度描述,可用平均數(shù)作為數(shù)據(jù)代表:如果從數(shù)據(jù)排列位置的角度描述,可用中位數(shù)作為數(shù)據(jù)代表;如果從不同數(shù)據(jù)出現(xiàn)次數(shù)的角度描述,可用眾數(shù)作為數(shù)據(jù)代表.這三個(gè)數(shù)據(jù)代表從不同角度反映數(shù)據(jù)的集中趨勢(shì),它們各有各的作用,分別適合于不同情況的數(shù)據(jù)分析.
例1 為比較A,B兩個(gè)玉米品種,將它們分別種植在面積相等的多塊試驗(yàn)田中,每塊試驗(yàn)田只種一種玉米,下表記錄了兩種玉米收獲后的產(chǎn)量分布情況.表中第一行為單塊試驗(yàn)田產(chǎn)量,下面兩行分別為A,B兩個(gè)品種中與第一行產(chǎn)量對(duì)應(yīng)的試驗(yàn)田的塊數(shù).
根據(jù)表中的數(shù)據(jù)解答下列問(wèn)題:
(1)分別求A,B兩種玉米單塊試驗(yàn)田產(chǎn)量的平均數(shù),并說(shuō)明其意義;
(2)分別求A.B兩種玉米單塊試驗(yàn)田產(chǎn)量的中位數(shù),并說(shuō)明其意義:
(3)分別求A,B兩種玉米單塊試驗(yàn)田產(chǎn)量的眾數(shù),并說(shuō)明其意義.
解:(1)從表中可知.A種玉米單塊試驗(yàn)田產(chǎn)量(單位:kg)為700,750,800,850,900,950的試驗(yàn)田塊數(shù)分別為4,20,26,20,18 ,12.通過(guò)計(jì)算加權(quán)平均數(shù),得A種玉米單塊試驗(yàn)田產(chǎn)量的平均數(shù)為XA=832 kg.
同理,B種玉米單塊試驗(yàn)田產(chǎn)量的平均數(shù)為xB≈ 827 kg.
從計(jì)算結(jié)果可知,在單塊試驗(yàn)田平均產(chǎn)量上A比B高5 kg.
加權(quán)平均數(shù)與通常的算術(shù)平均數(shù)本質(zhì)相同,即n個(gè)數(shù)之和除以n的結(jié)果,只是加權(quán)平均數(shù)計(jì)算起來(lái)更簡(jiǎn)捷.
(2)將A的全部單塊試驗(yàn)田產(chǎn)量(共100個(gè))從小到大依次排列,相同的數(shù)據(jù)重復(fù)寫,這100個(gè)數(shù)據(jù)中處于正中間位置的是第50個(gè)數(shù)據(jù)800和第51個(gè)數(shù)據(jù)850,這兩數(shù)的平均數(shù)(800+850)÷2=825為A種玉米單塊試驗(yàn)田產(chǎn)量的中位數(shù),
將B的全部單塊試驗(yàn)田產(chǎn)量(共99個(gè))從小到大依次排列,相同的數(shù)據(jù)重復(fù)寫,這99個(gè)數(shù)據(jù)中處于正中間位置的是第50個(gè)數(shù)據(jù)850,它為B種玉米單塊試驗(yàn)田產(chǎn)量的中位數(shù).
從計(jì)算結(jié)果可知,A的數(shù)據(jù)中小于825的和大于825的各占50個(gè);B的數(shù)據(jù)中第50個(gè)數(shù)據(jù)850之前和之后的數(shù)據(jù)各占49個(gè).這說(shuō)明825 kg和850 kg可以分別作為A,B兩種玉米單塊試驗(yàn)田產(chǎn)量的中等水平的代表.
中位數(shù)可以不是原始數(shù)據(jù).排序時(shí)既可以從小到大,也可以從大到小,兩種排法找出的中位數(shù)相同.
(3)A的全部數(shù)據(jù)(共100個(gè))中,出現(xiàn)次數(shù)最多的是800 kg(26次),800 kg即這組數(shù)據(jù)的眾數(shù).
B的全部數(shù)據(jù)(共99個(gè))中,出現(xiàn)次數(shù)最多的是800 kg(25次)和850 kg (25次),800 kg和850 kg都是這組數(shù)據(jù)的眾數(shù).
從計(jì)算結(jié)果可知,雖然各塊試驗(yàn)田中產(chǎn)量不盡相同,但也可能有規(guī)律存在,即在一般情形下,A的單塊試驗(yàn)田產(chǎn)量是800 kg的可能性較大,B的單塊試驗(yàn)田產(chǎn)量是800 kg或850 kg的可能性較大.
可以看出,一組數(shù)據(jù)的眾數(shù)可能是一個(gè),也可能不止一個(gè).眾數(shù)是原始數(shù)據(jù)中的數(shù)據(jù).
平均數(shù)是最常用的一個(gè)數(shù)據(jù)代表,它通常能反映一組數(shù)據(jù)的平均水平.平均數(shù)的計(jì)算,要用到原始數(shù)據(jù)中的每一個(gè)數(shù)據(jù).因此,一組數(shù)據(jù)中如有極端值(與多數(shù)數(shù)據(jù)相比過(guò)大或過(guò)小的個(gè)別數(shù)據(jù))時(shí),極端值可能對(duì)平均數(shù)影響較大.這種情形下如仍用平均數(shù)作為數(shù)據(jù)代表,往往與多數(shù)數(shù)據(jù)的大小產(chǎn)生較大偏差,不能恰如其分地反映一組數(shù)據(jù)的中心數(shù)值,這時(shí),選擇中位數(shù)或眾數(shù)作為數(shù)據(jù)代表,或更能客觀地反映一組數(shù)據(jù)的中心數(shù)值,
例2 下表為某地9月份每天空氣中細(xì)顆粒物(即PM 2.5)的測(cè)定值及相應(yīng)的天數(shù).
(1)分別求表中數(shù)據(jù)的平均數(shù)、中位數(shù)和眾數(shù).
(2)所得的平均數(shù)能客觀反映該地9月份空氣中細(xì)顆粒物的含量嗎?
解:(l)平均數(shù)約為34.9 yg/m3,中位數(shù)為24μg/m3,眾數(shù)為24 μg/m3.
(2)觀察表中數(shù)據(jù)不難發(fā)現(xiàn),30天中有29天的測(cè)定值都不超過(guò)25 μg/m3,它們與平均數(shù)差距較大;30天中只有1天的測(cè)定值360μLg/m3遠(yuǎn)高過(guò)平均數(shù),這可能是由于一次突發(fā)事故造成了空氣嚴(yán)重污染.顯然,因?yàn)橛?60這個(gè)極端值,才使得平均數(shù)的值很大.如果以平均數(shù)34.9 μg/m3作為數(shù)據(jù)代表,則不能客觀反映該地9月份空氣中細(xì)顆粒物含量的一般狀況.而以中位數(shù)或眾數(shù)24μg/m3作為數(shù)據(jù)代表,則能較好地反映客觀實(shí)際.
二、數(shù)據(jù)的離散程度
“一組數(shù)據(jù)中各個(gè)數(shù)據(jù)與這組數(shù)據(jù)的中心數(shù)值的偏離程度有多大?”這是數(shù)據(jù)分析所關(guān)注的另一個(gè)主要問(wèn)題,由它能從整體上描述這組數(shù)據(jù)的聚散狀態(tài).在統(tǒng)計(jì)學(xué)中,把一組數(shù)據(jù)中各個(gè)數(shù)據(jù)與這組數(shù)據(jù)的中心數(shù)值的偏離程度,稱為這組數(shù)據(jù)的離散程度或離中程度.它反映一組數(shù)據(jù)大小的波動(dòng)狀態(tài),從而描述了這組數(shù)據(jù)的穩(wěn)定性.
方差是表示離散程度的常用數(shù)據(jù)代表,它的計(jì)算方法是,先計(jì)算一組數(shù)據(jù)的平均數(shù),再計(jì)算各數(shù)據(jù)與所得平均數(shù)之差的平方和,最后用所得平方和除以這組數(shù)據(jù)的個(gè)數(shù),這個(gè)結(jié)果被用于反映一組數(shù)據(jù)與平均數(shù)的偏離程度,對(duì)數(shù)據(jù)的變化幅度給予了定量的刻畫.
例3 分別計(jì)算例1中A.B兩組數(shù)據(jù)的方差,由所得方差你能看出哪種可能性?
解:s2=4 876,s2≈5 061.
從兩個(gè)方差看,B的略大于A的,即B的數(shù)據(jù)比A的數(shù)據(jù)的離散程度略高,也即B的數(shù)據(jù)起伏略大,而A的數(shù)據(jù)相對(duì)來(lái)說(shuō)略為穩(wěn)定.
同學(xué)們可能會(huì)想:為什么計(jì)算方差要用各數(shù)據(jù)與平均數(shù)之差的平方和?如果直接把各數(shù)據(jù)與平均數(shù)之差相加豈不更簡(jiǎn)單?一般情況下,一組數(shù)據(jù)中可能有些數(shù)據(jù)比平均數(shù)大,有些數(shù)據(jù)比平均數(shù)小.如果直接用它們減平均數(shù),則這些差會(huì)有正有負(fù),如果再把這些差相加,就會(huì)出現(xiàn)正負(fù)相抵,例如,一組數(shù)據(jù)為2,2,3,3,4,4,其平均數(shù)為3,各數(shù)據(jù)與平均數(shù)之差分別為一1,-1,0,0,1,1.這些差之和為0.但這并不意味著這組數(shù)據(jù)都是緊靠平均數(shù)的.使用各數(shù)據(jù)與平均數(shù)之差的平方和,則利用了平方的非負(fù)性,防止做加法時(shí)出現(xiàn)正負(fù)相抵而隱藏了相關(guān)數(shù)據(jù)對(duì)平均數(shù)的偏離.方差名稱中的“方”正是“平方”的簡(jiǎn)稱.
你也許會(huì)問(wèn):為什么不用差的絕對(duì)值,而要用差的平方來(lái)分析離散程度呢?直接用絕對(duì)值不是也可以避免出現(xiàn)負(fù)數(shù)嗎?不使用絕對(duì)值,是因?yàn)槿〗^對(duì)值在運(yùn)算上要考慮差的正負(fù),取差的平方則不需要考慮差的符號(hào),而且只要四則運(yùn)算即可獲得避免正負(fù)相抵的效果.所以人們選擇用差的平方來(lái)計(jì)算方差.觀察下圖,圖1中數(shù)據(jù)的方差應(yīng)大于圖2中數(shù)據(jù)的方差,這一結(jié)論可通過(guò)測(cè)量距離或運(yùn)用方差公式計(jì)算來(lái)證明.