李寶娜 朱 平
(洛陽師范學(xué)院數(shù)學(xué)科學(xué)學(xué)院 河南·洛陽 471934)
概率論與數(shù)理統(tǒng)計(jì)是研究自然界中隨機(jī)現(xiàn)象數(shù)量規(guī)律性的一門學(xué)科,最早產(chǎn)生于17世紀(jì)中葉的賭博行為,并以此發(fā)展起來。概率論是研究隨機(jī)現(xiàn)象的統(tǒng)計(jì)規(guī)律性,而數(shù)理統(tǒng)計(jì)研究如何從樣本分布估計(jì)總體分布.大多數(shù)的概率統(tǒng)計(jì)教材中,概率論最后一個(gè)章節(jié)便是大數(shù)定律和中心極限定理,中心極限定理表達(dá)的是確定在什么條件下,大量隨機(jī)變量之和的分布逼近于正態(tài)分布??梢赃@樣說,正因?yàn)橛辛诉@類定理,自然界的許多符合正態(tài)分布的隨機(jī)現(xiàn)象有了堅(jiān)實(shí)的理論基礎(chǔ)。
中心極限定理(Central Limit Theorems)是概率論中論證隨機(jī)變量和的極限分布為正態(tài)分布的定理的總稱。中心極限定理的教學(xué)安排在隨機(jī)變量、分布函數(shù)等內(nèi)容之后,抽樣分布、假設(shè)檢驗(yàn)等統(tǒng)計(jì)學(xué)內(nèi)容之前,從這個(gè)意義上來看,中心極限定理是概率論和數(shù)理統(tǒng)計(jì)兩部分的銜接,起著承上啟下的作用;從內(nèi)容上來說,中心極限定理的數(shù)學(xué)表達(dá)具有抽象性,理論性較強(qiáng),短時(shí)間內(nèi)理解起來比較困難。如果從純理論角度來講解會(huì)加大學(xué)習(xí)的難度;從學(xué)情分析,概率論與數(shù)理統(tǒng)計(jì)為專業(yè)基礎(chǔ)課,數(shù)學(xué)院的學(xué)生主要在大二上學(xué)期學(xué)習(xí).對于步入大學(xué)的第二年,有一定的學(xué)習(xí)能力和專業(yè)基礎(chǔ),對大學(xué)學(xué)習(xí)和生活已經(jīng)基本適應(yīng),學(xué)習(xí)積極性比較高,但是學(xué)習(xí)方法掌握的不夠多,學(xué)習(xí)深度不夠強(qiáng),尤其是對于理論性較強(qiáng)的缺乏實(shí)踐認(rèn)知。
本文立足內(nèi)容難度和學(xué)情分析,先從生活中的現(xiàn)象講起,實(shí)驗(yàn)?zāi)M,引出中心極限定理表達(dá)內(nèi)容,最后通過具體事例闡明中心極限定理的應(yīng)用.將抽象的內(nèi)容更加形象化和具體化,開闊了學(xué)生的視野,緩解了學(xué)生的畏難情緒,從而達(dá)到良好的教學(xué)效果。
生活中,我們會(huì)有這樣一個(gè)經(jīng)驗(yàn)性認(rèn)知:中間狀態(tài)是事物的常態(tài),過高和過低都屬于少數(shù).也就是我們數(shù)學(xué)中的正態(tài)分布所描述的現(xiàn)象,比如人群的身高、壽命、血壓、考試成績、測量誤差、員工回家所需要的時(shí)間、某城市的耗電量等等,都符合正態(tài)分布.我們不僅要問一句:為什么?
在回答問題之前,我們先利用python進(jìn)行模擬實(shí)驗(yàn):
2.1.1 數(shù)據(jù)生成
假設(shè)我們現(xiàn)在在觀察一個(gè)人擲均勻的骰子,得出的結(jié)果1-6的概率都是相同的1/6,他擲了20000次?,F(xiàn)在我們來模擬下擲骰子的結(jié)果:
生成出來的平均值:3.49525
生成出來的標(biāo)準(zhǔn)差:1.6982866181831617
由于骰子點(diǎn)數(shù)服從均勻分布,平均值接近3.5符合理論值。
2.1.2 畫圖
生成的數(shù)據(jù)用直方圖畫出來如下:
2.1.3 抽樣
接下來隨便抽取一組數(shù)據(jù),例如,從生成的數(shù)據(jù)中隨機(jī)抽取10個(gè)數(shù)字.這10個(gè)數(shù)的結(jié)果是:[6 1 2 1 4 3 1 3 1 6]
生成出來的平均值:2.8
生成出來的標(biāo)準(zhǔn)差:1.8867962264113207
可以看到,只抽取少量樣本的時(shí)候,樣本的平均值(2.8)會(huì)距離總體的平均值(3.5)偏差較大。
2.1.4 中心極限定理的體現(xiàn)
現(xiàn)在我們抽取20,200,2000,20000 組,每組50個(gè).每組的平均值都計(jì)算出來,直方圖如圖1。
我們看到投擲20000個(gè)骰子點(diǎn)數(shù)的平均值符合概率理論結(jié)果,當(dāng)觀察每組50的平均值時(shí)我們發(fā)現(xiàn)抽樣次數(shù)比較少時(shí),平均值的分布沒有規(guī)律,但隨著抽樣的增加,取2000組甚至更多時(shí),可以看到平均值的分布近似為正態(tài)分布,基本符合大多數(shù)為中間狀態(tài)(3.5附近),靠近1和6的可能性明顯很低。
由上述的實(shí)驗(yàn)可以看到,隨著抽樣的增加,極限分布趨近于正態(tài)分布。這便是中心極限定理所表達(dá)內(nèi)容。由于中心極限定理是一類描述和的極限分布為正態(tài)分布的定理,我們接下來主要介紹常見的三個(gè)中心極限定理。
圖1
定理三(棣莫弗-拉普拉斯(De Moivre-Laplace)定理)設(shè)隨機(jī)變量服從參數(shù)為n,p(0<p<1)的二項(xiàng)分布,那么對于任意的x即有
設(shè)有100個(gè)年齡為x歲且相互獨(dú)立的被保險(xiǎn)人都投保了保險(xiǎn)金額為10元的終身壽險(xiǎn),隨機(jī)變量剩余壽命T的概率密度。保險(xiǎn)金于被保險(xiǎn)人死亡時(shí)進(jìn)行給付,保險(xiǎn)金給付是從某基金中按照利息強(qiáng)度支付。計(jì)算這項(xiàng)基金在最初的數(shù)額至少是多少時(shí),才能保證從這項(xiàng)基金中足以支付每個(gè)被保險(xiǎn)人的死亡給付的概率達(dá)到95%?
由于對每個(gè)被保險(xiǎn)人都有
所以,該基金在最初時(shí)至少為449.35元,比收取的躉繳純保費(fèi)總額400元多出49.35元。
中心極限定理為一類定理的統(tǒng)稱。中心極限定理表明,在較為一般的條件下,當(dāng)獨(dú)立隨機(jī)變量的個(gè)數(shù)不斷的增加時(shí),和隨機(jī)變量的分布趨近于正態(tài)分布。一方面,中心極限定理可以解釋為什么正態(tài)分布在生活中很常見;另一方面,中心極限定理是大樣本統(tǒng)計(jì)推斷的理論基礎(chǔ)。不管是從名稱來源、教學(xué)地位還是教學(xué)內(nèi)容,中心極限定理都占有重要的位置。本文突出從形象易懂?dāng)S骰子的例子出發(fā)引導(dǎo)學(xué)生理解中心極限定理所表達(dá)的含義,通過圖示直觀感受,并以實(shí)際保險(xiǎn)為練習(xí)強(qiáng)化對中心極限定理的理解和應(yīng)用,以期學(xué)生能夠?qū)χ行臉O限定理有更加全面、準(zhǔn)確的認(rèn)識(shí)。