蔡卉
為了解決現(xiàn)實生活中我們碰到的很多問題,必須收集相關(guān)數(shù)據(jù)并加以分析. 然而從節(jié)約費用等方面考慮,一般是從總體中收集部分個體的數(shù)據(jù)得出結(jié)論,也就是要通過樣本情況去推斷總體情況. 為了使樣本具有好的代表性,設(shè)計抽樣方法時,最重要的是要將總體“攪拌均勻”,即使每個個體有相同的機會被抽中.
隨機抽樣即是建立在隨機原則基礎(chǔ)上,從總體中抽取部分進(jìn)行收集數(shù)據(jù)的方法,是統(tǒng)計學(xué)的基礎(chǔ),常用抽樣方法有簡單隨機抽樣、分層抽樣和系統(tǒng)抽樣三種. 這三種抽樣方法各有特點,在使用這三種方法時,只有準(zhǔn)確把握它們之間的聯(lián)系與區(qū)別,才能準(zhǔn)確、合理地從總體中抽取樣本. 本文結(jié)合具體實例對三種抽樣方法的區(qū)別與聯(lián)系加以敘述.
一、簡單隨機抽樣
若總體中沒有差異明顯的層次,一般優(yōu)先考慮采用簡單隨機抽樣.當(dāng)總體容量較小時,宜用抽簽法;當(dāng)總體容量較大,樣本容量較小時宜用隨機數(shù)表法.
例1 為了考查某校的教學(xué)水平,抽取這個學(xué)校高三年級部分學(xué)生本學(xué)年考試成績進(jìn)行考查. 為了全面地反應(yīng)實際情況,采取以下三種方式進(jìn)行抽查:(已知該校高三年級共有20個教學(xué)班,并且每個班內(nèi)的學(xué)生已經(jīng)按隨機方式編號了學(xué)號,假定該校每班學(xué)生人數(shù)都相同.)
(1)從全年級20個班中任意抽取一個班,再從該班中任意抽取20人,考查他們的學(xué)習(xí)成績;
(2)每個班都抽取1人,共計20人,考查這20名學(xué)生的成績;
(3)把學(xué)生按成績分成優(yōu)秀、良好、普通三個級別,從中共抽取100名學(xué)生進(jìn)行考查.(已知若按成績分,該校高三學(xué)生中優(yōu)秀生共150人,良好生共600人,普通生共250人.)
上面三種抽取方式中各自采用何種抽樣方法?
解析 第一種情況由于總體樣本較少,宜采用簡單隨機抽樣;
第二種情況由于總體樣本較多,并且總體中沒有明顯差異,宜使用系統(tǒng)抽樣法和簡單抽樣法相結(jié)合;
第三種情況由于總體中由成績差異明顯的三層構(gòu)成,所以宜使用分層抽樣法和簡單隨機抽樣法.
二、系統(tǒng)抽樣
系統(tǒng)抽樣相對于簡單隨機抽樣最主要的優(yōu)勢就是經(jīng)濟性,系統(tǒng)抽樣方式比簡單隨機抽樣更為簡單,花的時間更少,并且花費也少.但使用系統(tǒng)抽樣方式最大的缺陷在于總體單位的排列上,系統(tǒng)抽樣所得樣本的代表性和具體編號有關(guān)(簡單隨機抽樣所得樣本的代表性與個體的編號無關(guān)),如果編號的個體特征隨編號的變化呈現(xiàn)一定的周期性,可能會使系統(tǒng)抽樣的代表性很差.
例2 某單位在崗職工人數(shù)為624人,為了調(diào)查工人上班時從離開家到單位平均所用的時間,決定抽取[10%]的工人進(jìn)行調(diào)查,試問最好采用什么抽樣方法完成這一抽樣?如何抽?。?/p>
解析 由于在崗職工沒有明顯差異,并且總體人數(shù)較多,故適宜采用系統(tǒng)抽樣法.首先,將在崗的職工624人用隨機方式編號:000,001,002,…,623;第二步,由題知應(yīng)抽取62人的樣本,應(yīng)為[62462]不是整數(shù),所以應(yīng)從總體中剔除4人(由于總體容量較多,樣本容量較少,故剔除方法宜用隨機數(shù)表法),將余下的620人,重新編號為000,001,002,…,619分成62段,每段10人,在第一段000,001,002,…,009這十個編號中,用簡單隨機抽樣選取一起始號[i0],則編號[i0,i0+10,i0+20,…,i0+61×10]為所取的樣本.
三、分層抽樣
若總體是由差異明顯的幾個層次組成,則宜用分層抽樣,當(dāng)抽樣比與各層的個體數(shù)的乘積是整數(shù)時,則該積就是該層的抽樣數(shù);當(dāng)抽樣比與各層個體數(shù)的乘積不是整數(shù)時,則該積經(jīng)過四舍五入后就是該層的抽樣數(shù).
例3 選擇合適的抽樣方法抽樣,并寫出抽樣過程.
(1)有30個籃球,其中甲廠生產(chǎn)的有21個,乙廠生產(chǎn)的有9個,抽取10個入樣;
(2)有甲乙廠生產(chǎn)的30個籃球,其中一箱21個,另一箱9個,抽取3個入樣;
(3)有甲乙廠生產(chǎn)的300個籃球,抽取10個入樣;
(4)有甲乙廠生產(chǎn)的300個籃球,抽取30個入樣.
解析 應(yīng)結(jié)合三種抽樣方法的使用范圍和實際情況,靈活地使用各種抽樣方法解決問題.
(1)總體由差異明顯的幾個層次組成,故選用分層抽樣法.
第一步,確定抽取個數(shù).因為[1030]=[13],所以甲廠生產(chǎn)的應(yīng)抽取21×[13]=7(個),乙廠生產(chǎn)的應(yīng)抽取9×[13]=3(個);
第二步,用抽簽法分別在甲廠生產(chǎn)的籃球中抽取7個,在乙廠生產(chǎn)的籃球中抽取3個,這些籃球便組成了我們要抽取的樣本.
(2)總體容量較小,樣本容量也小,用抽簽法.
第一步,將30個籃球編號,編號為00,01,02,…,29;
第二步,將以上30個編號分寫在大小形狀相同的小紙條上,揉成小球,制成號簽;
第三步,把號簽放入一個不透明的袋子中,充分?jǐn)噭颍?/p>
第四步,在袋子中逐個抽取3個號簽,并記錄上面的號碼;
第五步,找出和所得號碼對應(yīng)的籃球即為要抽取的樣本.
(3)總體容量較大,樣本容量較小,宜用隨機數(shù)表法.
第一步,將300個籃球用隨機方式編號,編號為:001,002,003,…,300;
第二步,在隨機數(shù)表中隨機確定一個數(shù)作為開始,如第8行第29列的數(shù)“7”,任選一個方向作為讀數(shù)方向,比如向右讀;
第三步,從數(shù)“7”開始向右讀,每次讀取三位,凡不在001~300中的數(shù)跳過去不讀,遇到已經(jīng)讀過的數(shù)也跳過去不讀,便可依次得到286,211,234,297,207,013,027,086,284,281這10個號碼,這就是所要抽取的10個樣本個體的號碼.
(4)總體容量較大,樣本容量也較大,宜用系統(tǒng)抽樣方法.
第一步,將300個籃球用隨機編號,編號為:000,001,002,…,299,并均分成30段;
第二步,在第一段000,001,002,…,009這十個編號中用簡單隨機抽樣抽出一個(比如002)作為起始號碼;
第三步,將編號為002,012,022,…,292的個體抽出,組成樣本.
總體來看,三種抽樣方法在抽樣過程中,每個個體被抽到的機會都相等且都是不放回抽取. 簡單隨機抽樣是最基本的抽樣方法,適用于總體容量較少的樣本,從總體中逐個抽取;系統(tǒng)抽樣適用于總體容量較多但單個體差異不大的樣本,將樣本總體分成幾部分,再按預(yù)先定出的規(guī)則部分抽取;分層抽樣適用于由差異明顯的若干部分組成的樣本,將總體分成幾部分,每一部分按比例抽取. 在學(xué)習(xí)此部分內(nèi)容時,應(yīng)該明晰三者間的差別,從而在解題過程中有針對性地使用.
[練習(xí)]
1.一個單位有職工500人,其中未到35歲的有125人,35到49歲的有280人,50歲以上的有95人,為了了解這個單位職工與身體狀況有關(guān)的某項指標(biāo),要從中抽取一個容量為100的樣本,試問:應(yīng)用什么方法抽???能在500人中任意抽取100人嗎?能將100個份額均分到這三個部分中嗎?
2.某社區(qū)有500個家庭,其中高收入家庭125戶,中收入家庭280戶,低收入家庭95戶,為了調(diào)查社會購買力的某項指標(biāo),要從中抽取一個容量為100戶的樣本記作①;某學(xué)校高一年級有12名女排球運動員,要從中選出3人調(diào)查學(xué)習(xí)負(fù)擔(dān)情況,記作②. 那么完成上述兩項調(diào)查采用的抽樣方法分別是什么?
3. 某學(xué)校附近的一家小型超市為了了解一年的客流量情況,決定用系統(tǒng)抽樣法從一年中抽取52天作為樣本實施調(diào)查(即從每周抽取1天,一年恰好有52個星期),你覺得這樣的選擇合適嗎?為什么?
4. 假設(shè)甲、乙兩種品牌的同類產(chǎn)品在某地區(qū)市場上銷售量相等,為了解它們的使用壽命,現(xiàn)從這兩種品牌的產(chǎn)品中分別各隨機抽取100個進(jìn)行測試,結(jié)果統(tǒng)計如下:
(1)估計甲品牌產(chǎn)品壽命小于200小時的概率;
(2)這兩種品牌產(chǎn)品中,某個產(chǎn)品已使用了200小時,試估計該產(chǎn)品是甲品牌的概率.
5.為了調(diào)查某學(xué)校的教學(xué)水平,將抽取這個學(xué)校高三年級的部分學(xué)生本學(xué)年的考試成績進(jìn)行調(diào)查。為了全面反映實際情況,采取以下三種方式進(jìn)行抽查(已知該學(xué)校高三年級共有20個班,并且每個班內(nèi)的學(xué)生按隨機方式編好了學(xué)號,假定該學(xué)校每班學(xué)生人數(shù)都相同):
(1)先從全年級20個班中任意抽取1個班,再從該班任意抽取20人,考查這20人的學(xué)習(xí)成績;
(2)從每個班中各抽取1人,共計20人,抽查這20人的成績;
(3)把學(xué)生按成績分成優(yōu)秀、良好、普通三個級別,從中抽取100名學(xué)生進(jìn)行調(diào)查(若按成績分,則該校高三學(xué)生中優(yōu)秀生共150人,良好生共600人,普通生共250人).
根據(jù)上面的敘述,試分別寫出三種抽查方式各自抽取樣本的步驟.
[參考答案]
1. 適宜選用分層抽樣法.因為總體中的個體年齡有比較明顯的差異,所以不能在500人中任意抽取100人,又因為各部分的人數(shù)占總體的比例不同,所以也不能將這100個份額均分到三部分中.
2. 由于①中總體容量較大,并且家庭收入差異明顯,宜使用分層抽樣;②中總體容量較小,宜采用簡單隨機抽樣.
3.從顧客類型及顧客作息時間等方面進(jìn)行分析,看每周相同的一天是否能很好地反應(yīng)總體.這個選擇不合適,因為超市位于學(xué)校附近,其顧客多為學(xué)生,其客流量受到學(xué)生作息時間的影響,周末時,客流量會明顯減少,寒、暑假也會影響超市的客流量,這樣必然導(dǎo)致樣本不能很好地反映總體,正確的方法是利用簡單隨機抽樣或分層抽樣進(jìn)行抽樣,可以把一周分為7天,一年分為52層,每層用簡單隨機抽樣的方法,抽取適當(dāng)?shù)臉颖?
4.(1)甲品牌產(chǎn)品壽命小于200小時的概率為[14].
(2)已使用了200小時的該產(chǎn)品是甲品牌的概率為[1529].
5.第一種抽樣方式的步驟如下:
第1步,在這20個班中用抽簽法任意抽取1個班;
第2步,從這個班中用簡單隨機抽樣的方法抽取20名學(xué)生,抽查其考試成績.
第二種抽樣方式的步驟如下:
第1步,在第1個班中,用簡單隨機抽樣的方法抽取一名學(xué)生(其學(xué)號為a);
第2步,在其余的19個班中,選取學(xué)號為a的學(xué)生,共計20人.
第三種抽樣方式的步驟如下:
第1步,分層.因為若按成績分,其中優(yōu)秀生共150人,良好生共600人,普通生共250人,所以在抽取樣本時,應(yīng)把全體學(xué)生分成3層;
第2步,確定各層抽取的人數(shù).因為樣本容量與總體的個體數(shù)之比為100∶1000=1∶10,所以在各層抽取的個體數(shù)依次為15,60,25;
第3步,按層次分別抽取.分別在優(yōu)秀生、良好生、普通生中用系統(tǒng)抽樣的方法各抽取15人、60人、25人.