華南師范大學(xué)附屬中學(xué)(510000) 羅麗
近年來高考試卷概率統(tǒng)計(jì)部分加強(qiáng)了對(duì)概率原理方面和綜合知識(shí)的考察,不只是考驗(yàn)學(xué)生運(yùn)用公式的能力,例如,2022 年新高考I 卷第20 題考察獨(dú)立性和條件概率的證明;2021 年新高考II 卷第21 題的命題原理基于分支過程,綜合函數(shù)知識(shí)考察三次函數(shù)零點(diǎn)的分布;2019 年全國(guó)I 卷理科第21 題的命題原理基于馬爾科夫鏈,結(jié)合全概率公式考察數(shù)列的證明.結(jié)合新課程標(biāo)準(zhǔn)提出的培育學(xué)生六大數(shù)學(xué)核心素養(yǎng)[1],教師應(yīng)引導(dǎo)學(xué)生發(fā)掘問題的本源,關(guān)注公式背后的原理與推導(dǎo)思想.
現(xiàn)實(shí)生活中,我們希望探究?jī)蓚€(gè)變量或多個(gè)變量之間的關(guān)系,例如,通過研究?jī)鹤由砀吆透赣H身高的關(guān)系,可以揭示自然界“均值回歸”的規(guī)律;通過發(fā)掘空氣質(zhì)量及其影響因素的關(guān)系,可以幫助環(huán)境部門進(jìn)行環(huán)保治理.對(duì)于兩個(gè)變量的情形,可以搜集n對(duì)樣本數(shù)據(jù)(x1,y1),(x2,y2),···,(xn,yn).根據(jù)散點(diǎn)圖和樣本相關(guān)系數(shù),若這組數(shù)據(jù)呈現(xiàn)出較強(qiáng)的線性相關(guān)關(guān)系,不妨建立一元線性回歸模型,Y=bx+a+e,E(e)=0,D(e)=σ2,其中參數(shù)a和b未知.如何通過成對(duì)樣本數(shù)據(jù)估計(jì)參數(shù)a和b呢?
與函數(shù)模型不同,回歸模型的參數(shù)一般無法精確求出.對(duì)模型誤差的要求不同,每種方法的估計(jì)值略有差異.從圖象的角度看,如何尋找一條“最好”的直線,使得成對(duì)樣本數(shù)據(jù)的這些散點(diǎn)在整體上與這條直線最“接近”? 從代數(shù)的角度看,一是局部觀念,類比解方程的待定系數(shù)法,通過選擇兩個(gè)“典型”的數(shù)據(jù),用待定系數(shù)法可以求解出參數(shù)a和b.有諸多方法來得到兩個(gè)“典型”的數(shù)據(jù),如:將這些數(shù)據(jù)分成兩組(隨意分類或按照序號(hào)下標(biāo)的奇偶分類),分別計(jì)算平均值;隨意選取兩個(gè)樣本點(diǎn).此方法的缺點(diǎn)在于較難找到全局最優(yōu)解.
二是全局觀念,使各個(gè)數(shù)據(jù)點(diǎn)和直線的“距離”都較小.“距離”之和的定義方式有很多種,如:殘差和,,但殘差正負(fù)會(huì)抵消,效果不佳;殘差絕對(duì)值之和,引出最小一乘法;為了使目標(biāo)函數(shù)具有光滑性以便于計(jì)算,引入殘差平方和,即最小二乘法.最小一乘法較難得到參數(shù)a和b的顯性表達(dá)式,通常需要采用迭代算法得到參數(shù)的估計(jì)值.因此,推導(dǎo)最小二乘法的參數(shù)估計(jì)公式是一個(gè)關(guān)鍵的問題.本文對(duì)比了我國(guó)各版本新教材及課堂優(yōu)化實(shí)踐總結(jié)出五種推導(dǎo)最小二乘法公式的方法,并探究估計(jì)的斜率參數(shù)與樣本相關(guān)系數(shù)之間的關(guān)系.
評(píng)析充分利用對(duì)隨機(jī)誤差e的假設(shè)E(e)=0,得到a和b的關(guān)系,再求σ2的最小值,轉(zhuǎn)化為一元二次函數(shù)求最小值的問題.
將上述a代入Q(a,b)的表達(dá)式中,則Q(a,b)是關(guān)于b的二次函數(shù),求解方法與解法一類似.
評(píng)析蘇教版新教材選擇性必修二P149 和鄂教版新教材選擇性必修三P83 給出了配方法,技巧性強(qiáng),學(xué)生較難想到.配方法的本質(zhì)是將Q(a,b)拆成幾個(gè)平方式之和,將參數(shù)a和b盡可能地拆分,從而求解每一部分的最小值,進(jìn)而得到參數(shù)的估計(jì)值.解法二是對(duì)配方法的優(yōu)化,面對(duì)棘手的二元問題,我們可以先處理主元,將另一個(gè)變量看成“常量”.先求出一個(gè)參數(shù)的估計(jì)值,代入Q(a,b)的表達(dá)式化簡(jiǎn),將二元問題轉(zhuǎn)化為一元問題處理,利用了降維的思想.
要使Q(a,b)取最小值,最后一項(xiàng)應(yīng)為零,即此時(shí)Q(a,b)是關(guān)于b的二次函數(shù),求解方法與解法一類似.
評(píng)析人教A 版新教材選擇性必修三P71 習(xí)題中證明了方差的性質(zhì)E(Z ?E(Z))2≤E(Z ?a)2.解法三的推導(dǎo)方法用到了方差性質(zhì)的證明,不妨設(shè)zi=yi ?bxi ?a,則E(Z)=所以對(duì)平方和Q(a,b) 拆分時(shí)引入了通過計(jì)算,發(fā)現(xiàn)中間的項(xiàng)為零,則Q(a,b)可以寫成一個(gè)完全平方式和關(guān)于b的二次函數(shù),后續(xù)解法同解法一.
用高等數(shù)學(xué)的方法,Q(a,b)的最小值問題可以用求偏導(dǎo)的方式得到.Q(a,b)分別對(duì)a和b求偏導(dǎo),并令導(dǎo)數(shù)分別等于零,求出的極小值點(diǎn)a和b是最小值點(diǎn),即參數(shù)的最小二乘估計(jì)值.
評(píng)析Q(a,b)對(duì)a求偏導(dǎo)相當(dāng)于將b看成“常量”,對(duì)b求偏導(dǎo)相當(dāng)于將a看成“常量”,類似于解法二中主元的思想.
求Q(a,b) 的最小值等價(jià)于:求a,b的值,使向量(y1?bx1?a,y2?bx2?a,···,yn ?bxn ?a) 的長(zhǎng)度最小.不妨記向量
圖1
評(píng)析此解法基于北師大版新教材選擇性必修一[2],將取Q(a,b)最小值的情形轉(zhuǎn)化為幾何直觀的垂直問題,進(jìn)而用向量表征和求解.
當(dāng)|r| →1 時(shí),兩組變量的相關(guān)性越強(qiáng),Q(a,b)的值越小,即擬合得越精確.對(duì)于一元線性回歸模型,通過計(jì)算也可以發(fā)現(xiàn),決定系數(shù)R2=r2.
在統(tǒng)計(jì)學(xué)飛速發(fā)展的時(shí)代,最小二乘法是一種在誤差估計(jì)、系統(tǒng)辨識(shí)及預(yù)測(cè)推斷等諸多領(lǐng)域得到廣泛應(yīng)用的數(shù)學(xué)工具.本文通過對(duì)最小二乘估計(jì)多層次的理解和多維度的解法,有助于讀者熟練掌握最小二乘法,提升學(xué)生的數(shù)學(xué)核心素養(yǎng).