吳劍 錢進(jìn)
摘 要:智能制造是工業(yè)發(fā)展方向,為了適應(yīng)“大數(shù)據(jù)”時(shí)代人才培養(yǎng)的需求,在學(xué)習(xí)《概率論與數(shù)理統(tǒng)計(jì)》的理論知識(shí)之外,讓工科本科生具有基本數(shù)據(jù)分析的能力,使用R軟件對(duì)概率論與數(shù)理統(tǒng)計(jì)部分的理論進(jìn)行模擬,對(duì)數(shù)理統(tǒng)計(jì)的數(shù)據(jù)進(jìn)行可視化,對(duì)學(xué)生理解理論、培養(yǎng)學(xué)生讀懂?dāng)?shù)據(jù)有重要的意義。因此本文初步探討使用R軟件進(jìn)行概率論數(shù)理統(tǒng)計(jì)的輔助教學(xué),為進(jìn)一步課程的深化改革提供參考,目的是把《概率論與數(shù)理統(tǒng)計(jì)》打造成有難度的“金課”。
關(guān)鍵詞:R語(yǔ)言;回歸;數(shù)理統(tǒng)計(jì)
一、 引言
概率論的理論基礎(chǔ)可以按照其他大學(xué)數(shù)學(xué)課程的學(xué)習(xí)方法進(jìn)行學(xué)習(xí),而數(shù)理統(tǒng)計(jì)是應(yīng)用科學(xué)的基礎(chǔ),當(dāng)數(shù)據(jù)較大時(shí),需要借助統(tǒng)計(jì)軟件去模擬,及實(shí)現(xiàn)數(shù)據(jù)的可視化,因此使用統(tǒng)計(jì)軟件輔助概率論與數(shù)理統(tǒng)計(jì)教學(xué),讓工科的學(xué)生更好地掌握概率論的理論,懂得統(tǒng)計(jì)學(xué)的方法及簡(jiǎn)單的應(yīng)用是重要的。
R語(yǔ)言是專業(yè)的統(tǒng)計(jì)軟件,是統(tǒng)計(jì)計(jì)算、數(shù)據(jù)可視化的優(yōu)秀工具,同時(shí)R也是免費(fèi)開(kāi)源的軟件,其官網(wǎng)和鏡像網(wǎng)站中可以下載安裝程序、源代碼和程序包等,它可以提供一些集成的統(tǒng)計(jì)工具,但更大量的是它提供各種數(shù)學(xué)計(jì)算、統(tǒng)計(jì)計(jì)算的函數(shù),從而使使用者能靈活地利用這些函數(shù)進(jìn)行數(shù)據(jù)分析,甚至可以通過(guò)不同方法的組合,創(chuàng)造出符合需要的新統(tǒng)計(jì)計(jì)算方法。
使用計(jì)算機(jī)語(yǔ)言輔助大學(xué)數(shù)學(xué)的教學(xué)相關(guān)研究較多,韓海燕介紹了使用Matlab軟件對(duì)《概率論與數(shù)理統(tǒng)計(jì)》課程進(jìn)行輔助教學(xué),它主要利用進(jìn)行圖形可視化和數(shù)學(xué)運(yùn)算。江海峰研究了蒙特卡洛模擬在概率論與統(tǒng)計(jì)教學(xué)中的應(yīng)用,作者分析了該算法的應(yīng)用,并沒(méi)有介紹如何實(shí)現(xiàn),也沒(méi)有介紹使用的軟件。劉宣研究了R語(yǔ)言在大學(xué)數(shù)學(xué)教學(xué)中的應(yīng)用。因此對(duì)于工科概率論與數(shù)理統(tǒng)計(jì)課程的教學(xué)者,亟須把統(tǒng)計(jì)軟件應(yīng)用到教學(xué)中,并發(fā)展案例教學(xué)的方法,讓學(xué)習(xí)者更好的理解統(tǒng)計(jì)學(xué)的基本概念,懂得如何進(jìn)行數(shù)據(jù)處理。
二、 R軟件的模擬應(yīng)用
工科的《概率論與數(shù)理統(tǒng)計(jì)》課程中,中心極限定理是概率論中重要的定理之一,其定理敘述如下:
x1,x2,…,xn是獨(dú)立同分布的隨機(jī)變量,期望μ與方差σ2都存在,設(shè)部分和序列為
Sn=∑ni=1xi,ESn=nμ,DSn=nσ2,則對(duì)于任意的實(shí)數(shù)x,標(biāo)準(zhǔn)化部分和序列的分布函數(shù)
Fn(x)收斂到標(biāo)準(zhǔn)正態(tài)分布的分布函數(shù),
PSn-nμnσ≤x→φ(x)=∫x-∞12πe-t22dt
該定理文字解釋很直觀,即某個(gè)隨機(jī)現(xiàn)象由大量隨機(jī)因素組成,各個(gè)因素起到的作用均勻且可忽略,則這個(gè)隨機(jī)現(xiàn)象可以用正態(tài)分布去描述,但是學(xué)生很難理解為什么隨機(jī)變量序列只要求獨(dú)立同分布,而不要求服從具體的分布,即無(wú)論服從什么分布,標(biāo)準(zhǔn)化部分和序列都服從正態(tài)分布,因此我們使用蒙特卡洛模擬,給學(xué)生直觀的認(rèn)識(shí)。
假設(shè)x1,x2,…,xn服從參數(shù)為2的泊松分布,n=10000,計(jì)算其前n項(xiàng)部分和,并中心標(biāo)準(zhǔn)化,計(jì)算
Sn-ESnDSn,并模擬100000次,利用這些數(shù)據(jù)生成概率密度函數(shù)的估計(jì),模擬的結(jié)果可視化的形式呈現(xiàn)給學(xué)生。
使用核概率密度函數(shù)估計(jì),可以看出雖然給定的變量是泊松分布,但是標(biāo)準(zhǔn)化部分和序列的概率密度與標(biāo)準(zhǔn)正態(tài)的密度的形狀相似。
三、 R軟件線性回歸的演示
在線性回歸中,最小二乘法及回歸的計(jì)算相對(duì)復(fù)雜,解釋困難,因此利用實(shí)際數(shù)據(jù),配合圖形講解回歸的方法是讓學(xué)生快速掌握方法的較好途徑,采用如下的模擬方式,假設(shè)真實(shí)的模型為
Yi=a+bxi+εi,i=1,2,…,100,εi~N(0,σ2),取σ2=1,2,3三個(gè)不同噪聲等級(jí)下,
a=2,b=3觀察回歸的效果。再取誤差服從t(4),觀察在有異常數(shù)據(jù)點(diǎn)下最小二乘的效果,利用一條直線擬合這些數(shù)據(jù),使得這些數(shù)據(jù)距離直線的平方和最小,即是最小二乘的思想,隨著信噪比不斷地增加,數(shù)據(jù)的離散程度越來(lái)越大,模擬中還引入了厚尾的t分布,探索最小二乘估計(jì)的穩(wěn)健性,從表1中可以看到,隨著數(shù)據(jù)的離散程度越來(lái)越大,估計(jì)10000次的中位數(shù)與真值的距離越來(lái)越大,同時(shí)也關(guān)注R2
的取值越來(lái)越小,意味著擬合效果越來(lái)越差。從誤差為t分布的模擬結(jié)果和回歸直線可以看到,最小二乘回歸對(duì)異常數(shù)據(jù)點(diǎn)的影響是敏感的,因此可以適當(dāng)探索其他的回歸估計(jì)方法。
四、 總結(jié)
由于工科學(xué)生動(dòng)手能力較強(qiáng),抽象思維能力相對(duì)理科學(xué)生較弱,因此適當(dāng)?shù)睦媒y(tǒng)計(jì)軟件進(jìn)行模擬研究,把結(jié)果直觀演示給學(xué)生,對(duì)學(xué)生掌握該方法提供了直觀的解釋。對(duì)于統(tǒng)計(jì)軟件的輔助作用就是更直觀地把數(shù)據(jù)及統(tǒng)計(jì)方法呈現(xiàn)給學(xué)生,更好地理解理論的推導(dǎo)和應(yīng)用,理論和應(yīng)用相結(jié)合,培養(yǎng)工科學(xué)生實(shí)踐能力和創(chuàng)新能力。
參考文獻(xiàn):
[1]韓海燕.MATLAB軟件和概率論與數(shù)理統(tǒng)計(jì)教學(xué)的整合研究[J].科技信息,2011(14):202.
[2]江海峰.MCS在概率論與數(shù)理統(tǒng)計(jì)教學(xué)中的應(yīng)用研究[J].數(shù)理統(tǒng)計(jì)與管理,2008,27(4):740-747.
[3]劉宣.基于R語(yǔ)言的大學(xué)數(shù)學(xué)教學(xué)初探[N].福建師大福清分校學(xué)報(bào),2015(5):45-48.
作者簡(jiǎn)介:吳劍,錢進(jìn),遼寧省沈陽(yáng)市,東北大學(xué)。