(上海市新虹橋中學(xué),上海 200051)
概率論和數(shù)理統(tǒng)計(jì)是數(shù)學(xué)的一個(gè)十分重要的分支,它主要研究隨機(jī)事件的發(fā)生規(guī)律。根據(jù)概率統(tǒng)計(jì)理論,數(shù)學(xué)家可以更高效地收集數(shù)據(jù)、分析數(shù)據(jù),挖掘其中的信息,更清晰直觀地呈現(xiàn)計(jì)算結(jié)果。
在17世紀(jì),人們嘗試對賭博和保險(xiǎn)中發(fā)生特定事件的可能性進(jìn)行研究,這便是概率論的起源。如今,概率論與數(shù)理統(tǒng)計(jì)已成為生產(chǎn)生活、科學(xué)研究中不可或缺的工具。在進(jìn)行人口普查、市場調(diào)研、銷量預(yù)測時(shí),概率統(tǒng)計(jì)都發(fā)揮著重要的作用。它能夠幫助人們把握隨機(jī)事件的發(fā)生規(guī)律,預(yù)測特定事件發(fā)生的可能性。不斷完善概率統(tǒng)計(jì)理論,可以幫助人們更加高效地分析隨機(jī)變量的分布規(guī)律、隨機(jī)事件的發(fā)生規(guī)律,更準(zhǔn)確地預(yù)測事物的未來發(fā)展方向。
在數(shù)學(xué)中,隨機(jī)變量被定義為可以取不同值的變量。隨機(jī)變量的取值是由隨機(jī)變量的概率分布規(guī)律決定的。一般而言,隨機(jī)變量的實(shí)際分布特征與均值和標(biāo)準(zhǔn)差有關(guān),符合正態(tài)分布的隨機(jī)變量就屬于這類隨機(jī)變量。隨機(jī)變量的實(shí)際分布特征也與其偏態(tài)性和峰值有關(guān)。此外,當(dāng)存在噪聲或偶然事件時(shí),隨機(jī)變量的值也會受到隨機(jī)擾動的影響。
在生活中,人們可以將用隨機(jī)變量描述多種場景中不能確定的數(shù)值。例如,某地7月中旬的預(yù)期最高溫度和最低溫度、一項(xiàng)體育賽事的預(yù)期出勤率、體育隊(duì)的評級以及一支球隊(duì)贏得比賽或特定得分的概率,都是隨機(jī)變量。
人們也可以將隨機(jī)變量納入多種用于預(yù)測的數(shù)學(xué)模型中,從而預(yù)測體育比賽或其他隨機(jī)事件的結(jié)果。在這些情況下,分析人員需要根據(jù)隨機(jī)變量的分布規(guī)律,估算結(jié)果變量的可能取值。
隨機(jī)變量可以是離散值或連續(xù)值。離散隨機(jī)變量只能取特定的數(shù)值。例如,體育比賽中的常見離散隨機(jī)變量是球隊(duì)的得分或主隊(duì)得分與客隊(duì)得分之間的差值。連續(xù)隨機(jī)變量可以取一個(gè)區(qū)間內(nèi)的幾乎任何數(shù)值。理論上,連續(xù)隨機(jī)變量的小數(shù)位數(shù)可以是任意值。但是,由于測量儀器的精度是有限的,連續(xù)隨機(jī)變量有時(shí)只保留兩位小數(shù)。例如,體育比賽中的連續(xù)隨機(jī)變量可以是球隊(duì)的實(shí)力等級或與場上表現(xiàn)相關(guān)的指標(biāo),如擊球平均值(可以是無限循環(huán)小數(shù))[1]。
在收集到相關(guān)數(shù)據(jù)后,人們通常用幾個(gè)參數(shù)描述得到的數(shù)據(jù),這些參數(shù)可以很好地展現(xiàn)數(shù)據(jù)的特征,幫助人們總結(jié)變量的分布規(guī)律或變化規(guī)律。在進(jìn)行統(tǒng)計(jì)分析時(shí),最常用的統(tǒng)計(jì)量是平均值、中位數(shù)、標(biāo)準(zhǔn)差、變異系數(shù)等。
平均值:也稱算術(shù)平均值、簡單平均值或等加權(quán)平均值。人們一般需要計(jì)算統(tǒng)計(jì)量的平均值,了解統(tǒng)計(jì)量大概位于哪個(gè)區(qū)間內(nèi)。
中位數(shù):中位數(shù)是比一半的統(tǒng)計(jì)數(shù)據(jù)的數(shù)值小、比另一半的統(tǒng)計(jì)數(shù)據(jù)的數(shù)值大的那個(gè)統(tǒng)計(jì)數(shù)據(jù)。也就是說,如果把統(tǒng)計(jì)數(shù)據(jù)按照數(shù)值大小排成一列,中位數(shù)是位于中間的那個(gè)數(shù)。如果人們收集到了偶數(shù)個(gè)統(tǒng)計(jì)數(shù)據(jù),那么中位數(shù)是位于中間的兩個(gè)統(tǒng)計(jì)數(shù)據(jù)的平均值。中位數(shù)通常不是唯一的。例如,在數(shù)據(jù)系列1、2、3中,中位數(shù)是2;但是在數(shù)據(jù)系列1、2、3、4中,中位數(shù)是2和3的平均值2.5。
標(biāo)準(zhǔn)差:人們通常用標(biāo)準(zhǔn)層描述均值附近的數(shù)據(jù)的分散程度。標(biāo)準(zhǔn)差較小表示數(shù)據(jù)大都接近均值,而標(biāo)準(zhǔn)差較大表示數(shù)據(jù)大都遠(yuǎn)離均值。標(biāo)準(zhǔn)差通常是數(shù)據(jù)的方差的平方根[2]。
變異系數(shù):用標(biāo)準(zhǔn)差除以平均值就可以得到變異系數(shù)。人們可以用變異系數(shù)將數(shù)據(jù)歸一化,以便“公平地”比較平均值不同的幾組數(shù)據(jù)的離散度。例如,當(dāng)人們評估每日或每月股票交易量的數(shù)據(jù)離散度時(shí),他們不能直接比較標(biāo)準(zhǔn)差,因?yàn)槊咳蘸兔吭碌幕A(chǔ)交易量是不一樣的,但是變異系數(shù)可以幫助人們相對準(zhǔn)確地比較不同交易日和不同月份的交易情況。
偏度:衡量數(shù)據(jù)分布的對稱性的一種方法。正偏斜表示多數(shù)數(shù)據(jù)比平均值大,在概率分布圖像與x軸圍成的圖形中,平均值右側(cè)的面積一般大于平均值左側(cè)的面積。負(fù)偏斜表示多數(shù)數(shù)據(jù)比平均值小,在概率分布圖像上,平均值右側(cè)的面積一般小于平均值左側(cè)的面積。偏度為零表示數(shù)據(jù)是對稱的。偏度也被稱為關(guān)于均值的第三階矩。
峰度:峰度是對數(shù)據(jù)分布的峰值的度量。人們稱峰度為負(fù)的數(shù)據(jù)分布為platykurtic分布,稱峰度為正的數(shù)據(jù)分布為leptokurtic分布[3]。
正態(tài)分布是統(tǒng)計(jì)分析中最重要的概率分布之一。一般而言,自然界中的許多變量是服從正態(tài)分布的。在科學(xué)研究、工業(yè)領(lǐng)域、生態(tài)建設(shè)時(shí),人們常常需要構(gòu)建正態(tài)分布模型模型。當(dāng)數(shù)據(jù)不完全服從正態(tài)分布時(shí),人們可以借助通過正態(tài)分布進(jìn)行近似,從而分析數(shù)據(jù)的分布特征。此外,在進(jìn)行參數(shù)估計(jì)或建立回歸模型時(shí),正態(tài)分布是非常有用的。
接下來,筆者以接受氣管隆突切除術(shù)的患者的年齡分布分析為例,說明正態(tài)分布模型的應(yīng)用。134位被抽到的患者的平均年齡約為48歲,其年齡標(biāo)準(zhǔn)差(即σ值)約為16歲。求30歲以下的患者的百分比是多少?
30歲與年齡平均值—48歲的差值為-18歲,-18/16=-1.125。問題變成了:在標(biāo)準(zhǔn)正態(tài)分布中,變量小于μ-1.125σ的概率是多少?我們可以在標(biāo)準(zhǔn)正態(tài)分布表中查到,變量大于μ+1.125σ的概率是大概是0.13。由于分布是對稱的,變量小于μ-1.125σ的概率也是0.13,也就是說,接受氣管隆突切除術(shù)的患者中,年齡小于30歲的約占總數(shù)的13%。
在生活中,人們經(jīng)常遇到只有兩種可能結(jié)果的情況:健康或患病、治療的成功或失敗、體液中存在或不存在特定微生物[4]。我們可以用π表示任何隨機(jī)試驗(yàn)中,第一種結(jié)果發(fā)生的概率。如果我們有n次機(jī)會進(jìn)行隨機(jī)試驗(yàn),并得到n個(gè)結(jié)果。例如,n位患者是否在治療后痊愈?則二項(xiàng)分布將告訴我們,第一種結(jié)果將出現(xiàn)多少次。
接下來,筆者以激光手術(shù)的有效率分析為例,說明正態(tài)分布在生活中的應(yīng)用。挪威的一項(xiàng)研究評估了激光小梁成形術(shù)治療開角型青光眼療法的長期成功率。在第2年末,接受手術(shù)的患者復(fù)發(fā)的概率為1/3。假設(shè)一家醫(yī)院中,有6例患者接受了小梁成形術(shù)。在2年末,有且只有一位患者手術(shù)復(fù)發(fā)的概率約為多少?
從6位患者中隨機(jī)“選”出一位患者,有6種選法。在這一場景中p=1/3,P(1)=6*p1(1-p)5=192/729=26.34%。也就是說,在接受手術(shù)后的第二年末,有且只有一位患者復(fù)發(fā)的概率為26.34%。
1837年,Siméon Denis Poisson在研究發(fā)生概率較低的一系列事件時(shí),提出了泊松分布模型。當(dāng)時(shí)的人們用泊松分布預(yù)測1875—1894年期間被戰(zhàn)馬踢死的普魯士軍官人數(shù)[5]。
當(dāng)隨機(jī)事件的某一結(jié)果出現(xiàn)的可能性很低,且隨機(jī)事件會發(fā)生多次時(shí),該結(jié)果發(fā)生的次數(shù)服從泊松分布。此外,還可以將泊松分布定義為單位時(shí)間內(nèi)某事件發(fā)生的次數(shù)。例如,在一段時(shí)間內(nèi),某常見病的新發(fā)例數(shù)服從泊松分布。
若隨機(jī)變量X取0和一切正整數(shù)值,在n次獨(dú)立試驗(yàn)中出現(xiàn)的次數(shù)x恰為k次的概率,式中λ是單位時(shí)間內(nèi)隨機(jī)事件的平均發(fā)生次數(shù)。
接下來,筆者以通過某路口的汽車是否發(fā)生交通事故為例,說明泊松分布的應(yīng)用。假設(shè)在早高峰期間,通過某路口的每輛汽車發(fā)生事故的概率為p=0.0001,某日早高峰期間有10000輛車通過該路口,求此段時(shí)間內(nèi)發(fā)生事故的次數(shù)超過一次的概率。
由于λ=np=10000*0.0001=1,此路段不發(fā)生交通事故的概率為,發(fā)生一次交通事故的概率為。
則此路段發(fā)生交通事故的次數(shù)超過一次的概率為P(X>1)=1-0.368-0.368=0.264。
在分析以上場景時(shí),人們也可以應(yīng)用二項(xiàng)分布模型計(jì)算不發(fā)生事故的概率。
P(X=0)=0.999910000=0.368,P(X=1)=10000*0.0001*0.99999999=0.368,但是計(jì)算量比泊松分布模型的計(jì)算量大。
應(yīng)用概率模型或統(tǒng)計(jì)模型,人們可以高效地描述生活中的問題,得到較可靠的結(jié)論。但是,這種分析方法也有一定的局限性。在建立模型的過程中,人們只能將可量化的因素納入模型中,但是無法在模型中體現(xiàn)不可被量化的因素的影響。這可能導(dǎo)致所建立的模型不能貼切地描述問題,得到的結(jié)論與實(shí)際不符。此外,人們只能借助模型得到某一事件發(fā)生的可能性,而不能得到其他信息。如果決策者僅根據(jù)計(jì)算結(jié)果進(jìn)行決策,那么他可能遺漏一些重要因素的影響,無法做出周到的安排。例如,在預(yù)測股票的漲跌時(shí),人們只能得到某只股票上漲、下跌的概率,但是無法得到與上漲和下跌背后的風(fēng)險(xiǎn)相關(guān)的信息。如果僅根據(jù)與概率統(tǒng)計(jì)相關(guān)的計(jì)算結(jié)果進(jìn)行決策,可能會造成一定的損失。因此,建立概率統(tǒng)計(jì)模型只是輔助決策的手段,決策者需要在決策時(shí)考慮其他因素的影響,才能得到正確的結(jié)論[6]。
概率統(tǒng)計(jì)知識在生活中有著廣泛的應(yīng)用。預(yù)測股市走向、購買彩票、賭馬賭球時(shí),人們都需要應(yīng)用與概率統(tǒng)計(jì)相關(guān)的模型,如正態(tài)分布模型、泊松分布等模型等分析問題,才能得到較為可靠的結(jié)論。需要注意的是,當(dāng)需要分析的事件比較復(fù)雜時(shí),人們需要盡量將所有的主要影響因素納入模型中,并同時(shí)分析可量化的因素和不可量化的因素的影響,才能得到可靠的結(jié)論。