夏文文 河南財經政法大學
中心極限定理在概率論中有著極其廣泛的應用背景。提到中心極限定理,要先介紹一位叫棣莫佛的數(shù)學家,雖然出生在法國,但他卻在32歲時成為英國皇家學會會員。他在1718年首次出版的《機遇論》被稱為概率論史上有三部里程碑性質的著作之一。1712年,一位叫亞歷山大的人向他提出了一個關于賭博的問題,最終他給出了二項分布下每局獲勝概率p=0.5的證明。但是當局數(shù)n很大時,計算就變得非常困難。因此棣莫佛就找到了一個近似的算法,它就是后面我們所熟知的“二項分布的正態(tài)近似”。因此可以說棣莫佛的工作在數(shù)理統(tǒng)計的發(fā)展史上有著里程碑式的意義。
在實際生活中,有些現(xiàn)象會受到很多相互獨立的因素的綜合影響,如果每個獨立因素的影響都非常小,單獨來看的話并不好研究,但如果放在一起的綜合影響近似服從正態(tài)分布。在研究中經常需要考慮研究對象受許多相互獨立的隨機因素的綜合影響。比如在射擊時,子彈命中的位置偏離目標位置的程度,就受到很多隨機因素(如空氣阻力、風向、射擊所用槍支的結構等)的綜合影響。同時,許多研究結果表明,受到這些許多綜合影響的隨機變量近似服從正態(tài)分布。
在統(tǒng)計學中,想要研究某個總體的某種指標,如果這個總體很大,通常都是通過從該總體中用某種方法抽取一定的樣本,然后根據(jù)抽樣得到的樣本結果來估計該總體的情況。但樣本畢竟是樣本,它和總體之間還是有一定差別的。所以我們通常還要根據(jù)抽樣結果,計算出相應的置信區(qū)間,這樣會更具有說服力。除此之外,我們往往還會進行假設檢驗,將樣本值和假設值進行比較,以此來判斷我們所作的假設是否正確。
但是,想要獲得置信區(qū)間或者進行假設檢驗,都必須知道樣本的分布屬于哪一種類型。如果我們連樣本的分布類型都不知道,相應的統(tǒng)計量我們也就不可能知道,更不可能求出置信區(qū)間或者進行假設檢驗。但還好我們有偉大的數(shù)學家,他們發(fā)現(xiàn)的中心極限定理幫我們解決了這一難題。
在實際中,許多問題的研究都需要求n個獨立同分布隨機變量和的分布函數(shù)Fn(y),當n很大時,大多數(shù)情況下尋求準確的Fn(y)是很難的。而中心極限定理的思想對求解Fn(y)提供了很大的幫助,我們可以用極限的方法求Fn(y)的近似分布。我們習慣上把概率論中有關論證大量獨立隨機變量的和近似服從正態(tài)分布的這一類定理統(tǒng)稱為中心極限定理。
下面給出了在概率論中兩種常用的中心極限定理的主要內容和它們之間的關系。
從這個定理我們可以看出,獨立同分布隨機變量的共同分布不管是什么分布,只要共同分布的方差存在,且不為0,那么大量該隨機變量和的分布就近似為正態(tài)分布。
設隨機變量Xn服從于二項分布B(n,p),n=1,2,…,則
通過該定理可以知道,當n充分大(n 30)時,服從二項分布的隨機變量Xn近似服從于正態(tài)分布,期望為np,方差為np(1-p)。
這個定理是最早的中心極限定理,它是用正態(tài)分布近似計算二項分布的一種方法,因此被稱為“二項分布的正態(tài)近似”。當n很大時,二項分布隨機變量的計算結果就會非常大,利用“二項分布的正態(tài)近似”的思想使問題變得簡單化。除此之外,我們還常用到“二項分布的泊松近似”,它們之間還是有一定的區(qū)別。比如,當p很小,而np又不太大時,我們常用泊松近似;當np和np(1-p)都比較大,一般認為np>=5和np(1-p)>=5時,就可以用正態(tài)近似。
當使用“二項分布的正態(tài)近似”時,往往需要修正,合理的修正可以提高精確度。設Xn~B(n,p),如果滿足np>=5和np(1-p)>=5,那么二項分布的正態(tài)近似的公式為:
拉普拉斯中心極限定理其實就是隨機變量序列獨立同二項分布情形下的林德伯格中心極限定理。前者要求隨機變量序列服從于二項分布,而后者則是要求獨立同分布即可。
1.當樣本容量或實驗次數(shù)n很大時(一般n>=30),隨機變量和的分布近似服從正態(tài)分布。隨機變量和的均值為nμ,隨機變量和的方差為nσ2,σ為總體標準差。
2.當樣本容量或實驗次數(shù)n很大時,獨立同分布隨機變量的算術平均值 的分布近似為正態(tài)分布。其中樣本均值的期望與總體均值相等,而方差等于總體方差除以樣本容量。
中心極限定理在實際中的應用也是十分的廣泛。保險這個行業(yè)對我們來說并不陌生,它是降低因意外事故造成損失的保障。保險的賠付一般都是比較大額的,那么就會有人好奇保險公司什么情況下會發(fā)生賠本呢?它賠本的概率有多大呢?
實例:某家保險公司年初有5000個同齡同階層的人投保,并且已知該類人在兩年內會出現(xiàn)重大意外事故的概率為0.005。該保險公司規(guī)定每個投保人都要在第一年的年初繳納2000元作為保險費,而在意外事故死亡后其所填受益人可以從保險公司得到20萬元。問在該保險公司的投?;顒又?,該公司將有多大的概率會賠本?
在投保中記第k個人在兩年內意外身亡為“Yk=1”,否則為“Yk=0”,那么該隨機變量服從二點分布B(1,0.005)。該保險公司在第一年年初可以收到保險費5000*2000=10000000元,所以當兩年內死亡人數(shù)超過50人時保險公司才會賠本。各Yk為獨立同分布的隨機變量,E(Yk)= 0.005,D(Yk)=0.005*(1-0.005)=0.004975,由修正后的“二項分布的正態(tài)近似”公式可得:
由此可見,該保險公司賠本的概率近似為0。這也就解釋了保險市場新的公司不斷萌發(fā)的原因。盡管如此,一份保險對我們來說還是十分必要的,在你生活困難時,它于你是雪中送炭;在生活美滿時,它于你便是錦上添花。
中心極限定理的主要作用可以總結為以下三個方面:
當我們在沒有辦法知道總體所有數(shù)據(jù)的情況下,總體的分布顯然也就無法得知。我們可以用樣本的值來估計總體相應的值。在收集到了隨機抽取的樣本數(shù)據(jù)之后,我們可以計算出樣本的平均值和標準差,由中心極限定理的性質,我們也就可以計算出總體的平均值和標準差。
如果我們知道了某個總體的具體信息,并且知道某個樣本的數(shù)據(jù),我們就可以利用中心極限定理的性質,計算出樣本來自于該總體的概率。如果所得的概率非常低,我們就可以確定樣本不屬于該總體。
在大樣本的情況下,要想求得未知分布的置信區(qū)間,就需要用到中心極限定理的內容。即可以利用正態(tài)分布的性質來求解出該未知分布的置信區(qū)間。
正態(tài)分布在概率論中占有著舉足輕重的地位,它是許多概率和分布的理論基礎。很多隨機變量的分布都與正態(tài)分布有關系,比如我們所熟知的t分布、卡方分布、F分布等等。除此之外,在一些相關性檢驗中我們也能發(fā)現(xiàn)正態(tài)分布的身影,比如Pearson相關系數(shù)檢驗的前提條件就是該檢驗只能在正態(tài)分布的假定下進行,而Spearman秩相關檢驗和Kendall τ相關檢驗都用到了大樣本下的正態(tài)近似。而中心極限定理則可以將大量隨機變量和的分布最終歸到正態(tài)分布的陣營之中,由此可見它在概率論和數(shù)理統(tǒng)計中有著非常重要的作用。
其次,中心極限定理還為概率論和數(shù)理統(tǒng)計在統(tǒng)計學的應用奠定了理論基礎。在統(tǒng)計學的研究中,由于直接研究總體的特征比較困難,我們常常用抽樣的方式進行研究,用某種方法和規(guī)則從總體中抽選一定的樣本,并根據(jù)樣本的某些指標來估計總體。但這個關鍵是要知道樣本的分布,然而很多時候樣本的分布都是未知的。中心極限定理指出只要樣本容量n足夠大時,未知總體的樣本分布就近似為正態(tài)分布。因此,只要得到足夠多的樣本統(tǒng)計數(shù)據(jù),就可以用正態(tài)分布的性質來處理。因此就可以利用中心極限定理把數(shù)理統(tǒng)計中的一些方法應用到統(tǒng)計學中。