張飴慈
《普通高中數(shù)學(xué)課程標(biāo)準(zhǔn)(2017 版2020 年修訂)》提出:“概率的研究對象是隨機現(xiàn)象,為人們從不確定性的角度認(rèn)識客觀世界提供了重要的思維模式和解決問題的方法。統(tǒng)計的研究對象是數(shù)據(jù),核心是數(shù)據(jù)分析。”
統(tǒng)計是研究如何合理收集、整理、分析數(shù)據(jù)的學(xué)科,它為人們制訂決策提供依據(jù);概率是研究隨機現(xiàn)象規(guī)律的學(xué)科,它為認(rèn)識客觀世界提供了重要的思維模式和解決問題的方法。高中概率與統(tǒng)計是采用演繹與歸納有機結(jié)合的思維模式,概率以演繹為主,統(tǒng)計以歸納為主,概率為統(tǒng)計的發(fā)展提供理論基礎(chǔ)。
從以下四個方面來認(rèn)識概率。
教材上我們?nèi)绱硕x概率:對于一個隨機事件A,我們通常用一個數(shù)P(A)(0≤P(A)≤1)來表示該事件發(fā)生的可能性的大小,這個數(shù)稱為隨機事件A的概率。概率度量了隨機事件發(fā)生的可能性的大小,是對隨機事件統(tǒng)計規(guī)律性的數(shù)量刻畫。
高中概率的定義是描述性定義,概率是與應(yīng)用緊密相連的,教師在教學(xué)中不應(yīng)過分追究概率的定義,最重要的是讓學(xué)生認(rèn)識到隨機事件的概率是用0到1之間的一個數(shù)衡量一個隨機事件發(fā)生可能性的大小。
在概率中,概率相等并不等于公平。例如,有一張電影票,A,B兩個人通過拋擲硬幣決定誰獲得這張電影票,此時是公平的,獲得電影票的機會是相等的。再例如,A、B 兩個人通過拋擲硬幣決定誰去商店領(lǐng)獎,若A 去領(lǐng)獎,會獲得一支鋼筆,若B去領(lǐng)獎,會獲得一臺彩電,此時,領(lǐng)獎的概率是相等的,但不是公平的。所以,公平不是數(shù)學(xué)概念,在教學(xué)中討論概率時,建議不討論公平性。
在概率中,我們會用一個0到1之間的數(shù)來描述概率,用集合來描述事件,用數(shù)列或函數(shù)來描述分布,等等。
對有些概率問題認(rèn)識不清楚,許多時候?qū)嵸|(zhì)是因為對數(shù)學(xué)知識沒弄清楚。
例如,拋擲一枚“均勻”的硬幣,當(dāng)正面出現(xiàn)次數(shù)大于反面出現(xiàn)的次數(shù)時,有人會覺得下一次出現(xiàn)反面的可能性比較大。
設(shè)拋擲了n次硬幣,正面出現(xiàn)的頻數(shù)為k1=,反面出現(xiàn)的頻數(shù)為,當(dāng)n趨于無窮時,二者的頻率之差為0,頻數(shù)之差“趨于”無窮,若由頻率之差“趨于”0,錯誤地“推導(dǎo)出”頻數(shù)之差“趨于”0,則屬于數(shù)學(xué)理解上的錯誤。
再舉一個例子,向某個區(qū)間隨機投擲一點,落在每一點的概率都是0,但落在該區(qū)間的概率是1,有人問:為什么落在每一點的概率是0,加起來卻是1?
這也是一個和隨機現(xiàn)象無關(guān)的問題,它問的是:長為1的一個線段,它上面的每一點的長度都等于0,為什么加起來等于1?
之所以會產(chǎn)生這樣的問題,是因為對數(shù)學(xué)上的“加法”理解得不清楚。
對隨機現(xiàn)象,我們只能了解如下結(jié)果:(1)所有可能出現(xiàn)的結(jié)果;(2)每一個結(jié)果出現(xiàn)的概率。
通過引進(jìn)隨機變量(它是一個映射),把上述問題轉(zhuǎn)化為:了解隨機變量的所有可能取值、取每一個值的概率。隨機變量的分布給出這個問題的回答。這表明:分布描述了隨機現(xiàn)象,研究分布是概率論的核心問題。
數(shù)學(xué)模型是人頭腦中的產(chǎn)物,現(xiàn)實中是不存在的。例如,現(xiàn)實中不存在“均勻”的硬幣。在概率學(xué)習(xí)中,要注意以下四點。
一是讓學(xué)生認(rèn)識到模型選取的重要性,培養(yǎng)學(xué)生的模型意識。判斷模型的對錯通常是判斷其在數(shù)學(xué)上的對錯,但是在實際應(yīng)用中,模型沒有對錯之分,只有好壞之分,判斷的標(biāo)準(zhǔn)是根據(jù)具體問題的需要而提出的。例如,給出的分布列中,所有的概率之和是否等于1,是數(shù)學(xué)上的對錯;把什么看成一個試驗結(jié)果、選哪一個分布等是我們?nèi)藶橐?guī)定的,只有好壞之分,沒有對錯的問題。在實際應(yīng)用中,選取一個好的模型是非常重要的。在北師大版《普通高中教科書 數(shù)學(xué) 必修 第一冊》第七章第二節(jié)“古典概型”的例3中,給出了四個解法,也就是四個模型,從解決問題的意義來看四個不同的模型,第一個模型可以解決很多類的問題,最后一個模型可以解決較簡單的問題,讓學(xué)生認(rèn)識不同模型的好處。
二是對于學(xué)習(xí)概率,要讓學(xué)生不滿足于給出正確答案,要能解釋其結(jié)果。例如,對于中獎率為千分之一的彩票,要能解釋為什么買1000 張也不一定能中獎。
三是概率的學(xué)習(xí)不只有重視計算的學(xué)習(xí),還要加強概率的背景和概率意義的學(xué)習(xí),如條件概率、全概率公式和貝葉斯公式等。
四是在概率學(xué)習(xí)時要與其他數(shù)學(xué)知識建立聯(lián)系,如在樣本空間中,強調(diào)讓學(xué)生使用列舉法寫出樣本空間,列舉法中又涉及計數(shù)原理中的加法原理。
關(guān)于統(tǒng)計,首先我們要清楚統(tǒng)計這門學(xué)科是干什么的。統(tǒng)計是收集數(shù)據(jù),提取數(shù)據(jù),并從數(shù)據(jù)中得到信息。統(tǒng)計最核心的一個問題是希望從數(shù)據(jù)中得到什么信息,如何得到信息,如何評價這些信息,也就是統(tǒng)計的重點是提取信息。若對這一點理解不到位,則會將統(tǒng)計看成計算。下面,從課程標(biāo)準(zhǔn)的要求,談一談以下幾個問題。
(1)總體
一般來說,當(dāng)問題明確后,調(diào)查對象的范圍也就隨之確定,調(diào)查對象的全體稱為總體。通??傮w中的每個個體可以對應(yīng)成數(shù)值,當(dāng)知道了這些數(shù)值在總體中所占的比例(百分比),就知道了總體的分布。
一個總體可能是實際存在的,也有可能是虛構(gòu)的。
例如,如果我們想了解北京市所有18歲男生的身高,因為我們研究的對象是身高,那么總體是北京市所有18歲男生的身高。這是實實在在存在的,雖然我們并不完全知道北京市所有18歲男生的身高,但是身高是客觀存在的,身高的平均數(shù)、方差和其他的數(shù)字特征都是客觀存在的。這就是說總體的均值、總體的方差、總體的百分位數(shù)、中位數(shù)等都是客觀存在的,只是我們沒有做普查,對它沒有一個全面了解。
再如,考查某工廠每月生產(chǎn)的燈泡的壽命(使用時間)。如果每月隨機選一天去該工廠抽查部分燈泡。把這些抽查到的燈泡的壽命作為樣本。那么,此時的總體是:該廠這個月生產(chǎn)的全體燈泡的壽命。它包括了該廠這個月已經(jīng)生產(chǎn)出來的燈泡的壽命,也包括這個月還未生產(chǎn)出來的燈泡的壽命。換句話說,這里的總體包括了還不存在的量,與上一個例子相比,這個總體可能就不是實實在在的,是一個虛構(gòu)的。
我們關(guān)心總體各個數(shù)值所占的百分比,即研究對象的各個數(shù)值的百分比,也就是總體的分布。對于統(tǒng)計來說,核心問題就是要去估計總體的分布,進(jìn)而得到總體的數(shù)字特征、均值方差等。
(2)樣本
在進(jìn)行抽樣調(diào)查時,從總體中抽取的部分稱為樣本。
樣本是從總體中隨機抽取的,所以樣本是隨機的??傮w不是隨機的,總體是客觀存在的。想要通過隨機的樣本,得到不隨機的總體分布、總體方差、總體均值,實際上是一個不可能完成的任務(wù)。因為樣本是隨機的,可以變化,不同的人抽取的樣本可能是不一樣的,所以我們只能把它叫作估計。在統(tǒng)計中,“估計”沒有精確不精確的問題,只要把樣本數(shù)取得充分大,我們往往可以達(dá)到我們需要的任何一個精度。
因此,在統(tǒng)計中有一個最中心的觀念,即關(guān)于統(tǒng)計問題中的總體和樣本,我們要清楚有一個總體,總體可能是實的,也可能是虛的,有一批隨機的樣本,用這一批隨機的樣本,得到總體的信息,這個就是估計。
關(guān)于總體分布的估計,需要注意以下三個問題。
一是頻數(shù)與頻率哪一個更能反映信息。
不同的應(yīng)用范圍,頻數(shù)與頻率有不同的優(yōu)缺點。在初中階段,學(xué)生接觸到的數(shù)據(jù)較少,大部分都是使用頻數(shù),對頻率的認(rèn)識較少;到高中階段,對兩者的區(qū)別還是模糊的,認(rèn)為頻數(shù)很方便,不理解為什么一定要用頻率,這是在高中階段需要讓學(xué)生弄清楚的。
舉一個例子,一個班里有50個學(xué)生,某次數(shù)學(xué)考試有5個學(xué)生考了滿分,若用頻率表示,則表示為班里有10%的學(xué)生考了滿分,此時從反映信息、理解信息來說,頻數(shù)比頻率更能反映問題,更直觀、清楚。這個例子中數(shù)據(jù)僅有50個,較少。
再舉一個例子,有一個地區(qū)患某病的人數(shù)是3421,若只知道這個地區(qū)患某病的人數(shù)是3421,我們幾乎就得不到任何信息,因為我們不知道這地區(qū)有多少人,若再告訴我們這個地區(qū)有670215人,共有3421人患病,還是難以清楚理解其中包含的信息,我們計算頻率,約為0.005,那我們就清楚地得到這個地區(qū)有0.5%的人患病,此時頻率要比頻數(shù)更能夠提供清楚的信息。
在很多情況下,特別是學(xué)生在今后接觸到大數(shù)據(jù),頻率是比頻數(shù)更常見、更常用的一個工具,所以在高中階段,教師要讓學(xué)生對頻數(shù)和頻率有一個清晰的認(rèn)識。
二是頻率分布直方圖中,為什么用面積表示頻率。
很多教師和學(xué)生會有疑問,在頻率分布直方圖中為什么要用面積表示頻率,在初中階段,頻數(shù)是使用高度來表示的,那為什么頻率不用高度表示,而用面積呢? 我們舉例分析一下。
假設(shè)有兩種疾病,第一種疾病,它的死亡率也就是頻率是0.005,第二種疾病的死亡率(頻率)是0.006,若用面積畫直方圖,很難看出大小,我們會傾向于采用高度來表示頻率,而不是面積,若兩個頻率相差特別大時,也可以用面積,但沒有高度方便。那么為什么我們在估計總體的頻率分布直方圖中要用面積來表示頻率呢? 主要是因為我們的目的不是比較兩個不同頻率的大小,而是用頻率表示各個數(shù)值相對總數(shù)而言的相對強度,反映各個數(shù)值所占的百分比,所占的分布。
再看北師大版高中數(shù)學(xué)教材中的例子:為了解本市居民的生活成本,學(xué)生甲利用假期對所在社區(qū)進(jìn)行“家庭數(shù)”和“家庭每月日常消費額”的調(diào)查,他把調(diào)查得到的消費額按大小進(jìn)行分組,并計算出每組數(shù)據(jù)在整個數(shù)據(jù)中占的百分比——頻率,結(jié)果如下表。
消費額/元 頻率[1000,1500) 0.1[1500,2000) 0.2[2000,2500) 0.4[2500,3000) 0.2[3000,3500) 0.1
從圖1、圖2中都可以觀察到消費額在1000~1500元的頻率為0.1,在1500~2000元的頻率為0.2,但若想要得到消費額在1000~2000 元的頻率,從圖2中可以得到是消費額在1000~1500元的兩個面積之和,但在圖1中無法表示出兩個的高度之和,所以圖1提供的信息只有所分段的幾個數(shù)值,無法提供其他數(shù)值,而圖2可以表示任何區(qū)域中所占百分比,也就是圖2提供的信息更多,所以我們用面積來表示頻率。
圖1 用高度表示頻率
圖2 用面積表示頻率
在高中階段,教師要讓學(xué)生從提取信息的角度認(rèn)識到頻率的意義,頻率相較于頻數(shù)更能反映信息,相較于高度法用面積法表示頻率更能反映信息。
三是如何用樣本估計總體的數(shù)字特征。
用樣本的數(shù)字特征來估計總體的數(shù)字特征,我們應(yīng)當(dāng)注意以下三點。
(1)由于樣本是隨機的,我們得不到總體的數(shù)字特征。估計量的選取,沒有對錯的問題,只考慮估計量的好壞,而好壞的標(biāo)準(zhǔn)是根據(jù)需要實際情況來判斷。
例如,兩個估計量的樣本均值相等,是不是應(yīng)該選擇樣本方差小的那一個? 假設(shè)有兩個運動員,甲運動員的成績并不是非常好,但是非常穩(wěn)定,總是8環(huán)左右,方差非常小,乙運動員的成績非常不穩(wěn)定,發(fā)揮不好的時候,可能是0環(huán),發(fā)揮好的時候,可以達(dá)到10環(huán),平均分也是8環(huán)。那么在比賽中教練派誰上場呢? 那不同的情境就有不同的選擇。若比賽擊中8環(huán)可以得到一塊銅牌,現(xiàn)在我們一塊獎牌都沒得到,無論如何也想得到一塊獎牌,此時顯然教練應(yīng)選甲運動員上場。若比賽中我們已經(jīng)取得了幾塊銅牌,我們想拿到一塊金牌,那此時教練可以選擇乙運動員上場,如果他發(fā)揮得好,我們就能得到一塊金牌。所以在求解總體的數(shù)字特征時,不應(yīng)只是看均值,均值相等看方差,方差小了選它,不應(yīng)形成套路,要根據(jù)實際情形來判斷。
各種各樣統(tǒng)計的方法,沒有對和錯之分,而要根據(jù)實際情況來考慮其優(yōu)劣。
(2)由于是隨機抽樣,如果樣本充分大,樣本的分布就能很好地近似于總體的分布,否則就沒有意義了,比如,在官方網(wǎng)站上看到的各樣數(shù)據(jù)是隨機抽取的樣本,但是它反映的信息與實際相差不多。
(3)有些數(shù)據(jù)可能并不能得到它的數(shù)字特征,甚至有些總體沒有相應(yīng)的數(shù)字特征,也就是總體的數(shù)字特征可能并不存在,或者說總體的數(shù)字特征沒什么意義。舉一個例子,假設(shè)100人考試,我們求其考試成績的中位數(shù),因為是偶數(shù),所以由中間(第50人和第51人)這兩個數(shù)的平均值,得到中位數(shù)。假設(shè)這100 人中有60 人考了滿分100 分,剩下40人沒有考滿分,計算中位數(shù)為100分,但是這個中位數(shù)100 分有什么意義嗎? 能判斷比100分少的有50人,比100分多的有50人嗎? 顯然是不能的,所以有時候有些總體的數(shù)字特征沒有什么意義。
在統(tǒng)計的問題里,我們關(guān)注得到的信息是否有意義,在許多時候不能“死扣”定義,這是和純數(shù)學(xué)不一樣的地方。所以在討論用數(shù)據(jù)估計總體時,我們要賦予統(tǒng)計的意義,而不是從數(shù)學(xué)的定義出發(fā)。
百分位數(shù)是中位數(shù)的推廣,一般來講,當(dāng)總體是連續(xù)型變量時,給定一個百分?jǐn)?shù)p∈(0,1),總體的p分位數(shù)的特點是,總體數(shù)據(jù)中的任意一個數(shù)小于或等于它的可能性是p,總體的p分位數(shù)通常是未知的,人們用樣本的p分位數(shù)來估計它,樣本容量越大,估計越準(zhǔn)確。
根據(jù)前面的討論,我們知道在統(tǒng)計中,對于百分位數(shù),不應(yīng)過分糾結(jié)百分位數(shù)的定義,而應(yīng)重點關(guān)注在實際應(yīng)用中其能否提供正確的信息。
例如,某場有100 人參加考試,錄取率為5%,把所有成績按照從低到高排列,找到排在第95%的成績,也就是95%的分位數(shù),比這個成績高的錄取,比這個成績低的不被錄取,但是如果這100人中有10 人考了100 分,也就是從第91 名一直到第100名,全是100分,95%這個分位數(shù)就沒有任何的意義了,即使你求出來也沒有任何的意義。所以這樣的問題,在統(tǒng)計上就是沒有意義的問題,盡管按照定義計算出結(jié)果,但是從信息角度來說,并不能提供正確的信息。
獨立性檢驗、相關(guān)性分析和回歸分析有什么區(qū)別呢? 獨立性檢驗討論的問題是兩個隨機變量是否相互獨立;相關(guān)性分析討論的問題是兩個隨機變量是否有線性關(guān)系。
兩個隨機變量獨立,是指它們沒有任何關(guān)系,自然它們也沒有線性關(guān)系,相關(guān)系數(shù)一定為0。兩個隨機變量的相關(guān)系數(shù)為0,說明它們之間沒有線性關(guān)系,但無法保證它們相互獨立,它們可能有別的關(guān)系,例如,一個隨機變量等于另一個隨機變量的平方。
回歸分析,在高中課程中,只要求會用最小二乘法建立一元線性回歸方程。
由于回歸方程中的自變量可以不是隨機變量,因此,回歸方程的檢驗和相關(guān)分析是不一樣的(相關(guān)分析討論的是隨機變量之間的關(guān)系)。在高中沒有要求對回歸方程進(jìn)行檢驗。最小二乘法是擬合線性函數(shù)的一種方法,如果從幾何上看,擬合直線完全可以有別的方法。例如,給定n個點后,求一條直線,使得點到這條直線的距離之和最小,等等。高中數(shù)學(xué)的核心概念一個是函數(shù),一個是向量,在北師大版《普通高中教科書 數(shù)學(xué) 選擇性必修第一冊》中,采用向量法來求解最小二乘法,用向量的觀點來“認(rèn)識”相關(guān)系數(shù),這是十分關(guān)鍵的。