應(yīng)智霞, 張 歡, 葛 剛, 鄒志文
(南昌大學(xué) 生命科學(xué)學(xué)院, 南昌 330031)
生物統(tǒng)計學(xué)是數(shù)理統(tǒng)計的原理在生物科學(xué)中的應(yīng)用,微生物學(xué)、植物學(xué)、動物學(xué)等各領(lǐng)域研究中都離不開生物統(tǒng)計,如生物學(xué)實驗設(shè)計、取樣、數(shù)據(jù)處理與分析,資料的歸納與總結(jié)。生物統(tǒng)計學(xué)不僅僅是諸多高校醫(yī)學(xué)、生命科學(xué)、農(nóng)業(yè)科學(xué)等領(lǐng)域的必修專業(yè)基礎(chǔ)課,也廣泛應(yīng)用于科學(xué)研究和生產(chǎn)實踐。通過對這門課程的系統(tǒng)學(xué)習(xí),培養(yǎng)學(xué)生發(fā)現(xiàn)與分析問題的能力,滿足新時代對創(chuàng)新型和應(yīng)用型人才的需求[1-3]。然而,由于其具有較強的理論性和抽象性,學(xué)生反映這門課程難懂、難學(xué)以及枯燥單調(diào),導(dǎo)致這門課程的教學(xué)效果不是很好[4-6]。
要提高生物統(tǒng)計學(xué)的教學(xué)效果以及培養(yǎng)學(xué)生對統(tǒng)計知識的綜合應(yīng)用能力,必須要掌握生物統(tǒng)計的原理與方法。生物統(tǒng)計學(xué)最基本的問題是研究總體與樣本間的關(guān)系,其可以通過兩方面研究:1)由已知的總體,研究樣本統(tǒng)計量的分布規(guī)律,即由總體到樣本的研究過程;2)以樣本統(tǒng)計量的抽樣分布為基礎(chǔ),由樣本去推斷未知的總體。抽樣分布在概率論和推斷統(tǒng)計中具有承上啟下的作用,但抽樣分布抽象、復(fù)雜,很多初學(xué)者難以理解。如何正確理解抽樣分布是后續(xù)統(tǒng)計推斷的基礎(chǔ),也是對生物統(tǒng)計原理與方法必需掌握的基本內(nèi)容。如果學(xué)生不能正確地認識抽樣分布以及其主要統(tǒng)計作用,就會無法準確區(qū)分后續(xù)的統(tǒng)計推斷與假設(shè)檢驗中相關(guān)定義(如標(biāo)準差,標(biāo)準誤差),進而無法有效掌握統(tǒng)計推斷的原理。
抽樣分布就是樣本統(tǒng)計量的分布。如果在大量樣本的抽樣實驗中,能通過實驗?zāi)M的方法,得出分布的結(jié)論,這樣會使學(xué)生更加直觀地理解這部分內(nèi)容。計算技術(shù)的發(fā)展為理論分布及檢驗提供了一種更直觀的表達方法,即用計算機模擬的方法使理論問題實驗化,抽象問題具體化,并對理論進行模擬驗證[7-10]。MATLAB 是美國MathWorks公司面對科學(xué)計算、可視化以及交互式程序設(shè)計的高科技計算環(huán)境。它具有完備的圖形處理功能、計算運算能力和編程的可視化,是生物統(tǒng)計這門課輔助教學(xué)的一個有力工具。針對那些內(nèi)容抽象、學(xué)生難以理解、用傳統(tǒng)教學(xué)方法難以奏效的教學(xué)內(nèi)容開展MATLAB系統(tǒng)輔助教學(xué),可以讓學(xué)生更直觀、更深刻地理解教學(xué)知識點。
基于此,本文介紹了如何利用MATLAB軟件對3種常見的抽樣分布進行描述和驗證,讓學(xué)生更直觀、更深刻地理解三大抽樣分布的內(nèi)涵,為教學(xué)提供一種更直觀的抽樣實驗方法,改進統(tǒng)計課程的教學(xué)。
總體(population)是指考察對象的全體。描述總體特征的數(shù)值記為參數(shù),是一個不變的常數(shù);樣本(sample)是總體中所抽取的一部分個體,樣本中個體的數(shù)目記為樣本容量n。描述樣本特征的數(shù)值記為統(tǒng)計量,是一個隨機變量。從一個已知或者未知的總體中,獨立隨機地抽取含量為n的樣本,所得樣本的各種統(tǒng)計量的概率分布,即所謂的抽樣分布(sampling distribution)。以樣本平均數(shù)為例,如果按照相同的樣本含量n,相同的抽樣方式,反復(fù)地進行獨立隨機抽樣,每次都可以得到一個含量為n的樣本,計算每個樣本的平均數(shù),所有可能樣本的平均數(shù)所形成的分布,就是樣本均值的抽樣分布(圖1),其中統(tǒng)計量的抽樣分布往往是一種理論分布,因為現(xiàn)實中一般不可能將所有的樣本都抽出來。
圖1 樣本均值的抽樣分布
生物統(tǒng)計學(xué)最基本的問題是研究總體與樣本間的關(guān)系,主要從兩方面研究:一是從已知總體研究樣本的分布規(guī)律;二是從樣本推斷未知的總體。其中,研究的“樣本的分布規(guī)律”通常指樣本統(tǒng)計量的分布規(guī)律,即抽樣分布,只有理解和掌握抽樣分布,才能有效利用樣本對總體做出統(tǒng)計推斷。對一個從均值為μ,標(biāo)準差為σ的正態(tài)總體(即X~N(μ,σ2))中抽取的樣本統(tǒng)計量的分布主要有如下幾種:
3)標(biāo)準化的樣本方差χ2=(n-1)·s2/σ2服從自由度df=n-1 的χ2分布。
從一個正態(tài)總體中抽取樣本統(tǒng)計量分布的模擬過程主要包括以下步驟:
1)已知一個總體X~N(μ,σ2),重復(fù)地從這個正態(tài)總體中獨立隨機地抽取容量為n的樣本NS個;
2)計算每個樣本的平均數(shù)(記mi,i=1,2,…,NS)與標(biāo)準差(記si,i=1,2,…,NS);
3)計算3種統(tǒng)計量(即ui,ti,χ2i)的值(i=1,2,…,NS);
4)分別做出3種統(tǒng)計量的頻率分布圖,當(dāng)NS很大時,頻率分布圖近似抽樣分布的概率密度分布;
5)并分別將這3個頻率分布圖和相應(yīng)的理論分布進行比較,驗證從正態(tài)分布總體中抽取樣本統(tǒng)計量分布的形式。
在MATLAB平臺下的具體實施流程見圖2,其中涉及的MATLAB函數(shù)說明見表1。
圖2 模擬與驗證從正態(tài)分布總體中抽取樣本統(tǒng)計量分布的流程圖
表1 主要相關(guān)MATLAB函數(shù)介紹
圖3 從一個正態(tài)總體中的抽樣分布模擬驗證
此外,對于樣本t統(tǒng)計量和樣本χ2統(tǒng)計量,還分別模擬了樣本容量n=30和100 的情況。對于樣本t統(tǒng)計量的模擬實驗,可以看出,在自由度比較小的時候,t分布與標(biāo)準正態(tài)分布相差較大,隨著自由度變大,t分布在自由度等于29的時候與標(biāo)準正態(tài)分布重合度較高。結(jié)果驗證了當(dāng)t分布的自由度增大時,t分布趨于標(biāo)準正態(tài)分布(圖3-c、d),也說明了在樣本量大于30的時候,t-檢驗和u-檢驗可以相互替換使用;對于樣本χ2統(tǒng)計量的模擬實驗,可以看出,在df=5 的時候,χ2分布與正態(tài)分布N(5,10) 偏離較大,在df=99的時候,x2分布與正態(tài)分布N(99,198) 重合度較高,驗證了當(dāng)χ2分布的自由度增大時,χ2分布趨于正態(tài)分布,其中正態(tài)分布的均值為χ2分布的自由度,方差為自由度的2倍(圖3-e、f)。
在生物統(tǒng)計課程教學(xué)中,關(guān)于抽樣分布這部分內(nèi)容的講解是一件棘手的事情,學(xué)生難以理解抽樣分布的內(nèi)涵以及對其在統(tǒng)計推斷中的應(yīng)用。抽樣分布其實就是樣本統(tǒng)計量的分布,利用實驗?zāi)M的方法得出大量樣本統(tǒng)計量的分布,學(xué)生就能更加直觀地去理解抽樣分布。本文通過MATLAB軟件編寫程序進行模擬抽樣,獲得了3種常見的抽樣分布的樣本分布,試驗統(tǒng)計結(jié)果與理論結(jié)果非常一致,表明本實驗方法能有效地模擬抽樣分布,為抽樣分布的描述和驗證提供一種更直觀的抽樣實驗方法。
模擬試驗的模擬結(jié)果直觀形象地呈現(xiàn)了幾種常見的抽樣分布,使抽象的統(tǒng)計理論問題具體化。MATLAB軟件為生物統(tǒng)計理論進行模擬驗證提供輔助手段,可以增強學(xué)生對所學(xué)知識的理解。通過MATLAB軟件,通過調(diào)節(jié)總體參數(shù)、樣本容量等參數(shù),查看不同參數(shù)下幾種常見的抽樣分布及參數(shù)變化情況,從而使學(xué)生更加直觀地理解總體與樣本之間的關(guān)系,進而快速掌握樣本抽樣分布。另外,通過MATLAB輔助教學(xué)可以增加生物統(tǒng)計學(xué)學(xué)習(xí)的趣味性,調(diào)動學(xué)生學(xué)習(xí)積極性,將顯著提升教學(xué)效果,培養(yǎng)出具備良好統(tǒng)計基礎(chǔ)才能的創(chuàng)新性人才。