王麗麗 趙 娟
(合肥學院<人工智能與大數(shù)據(jù)學院數(shù)學與統(tǒng)計系,安徽 合肥 230601)
數(shù)理統(tǒng)計是理工科院校數(shù)學與統(tǒng)計專業(yè)的必修專業(yè)課,是一門從隨機數(shù)據(jù)中獲取信息、發(fā)現(xiàn)規(guī)律并指導決策的科學。 數(shù)理統(tǒng)計以概率論為基礎,研究大量隨機現(xiàn)象的統(tǒng)計規(guī)律, 其主要內容有參數(shù)估計、假設檢驗、方差分析和回歸分析。由于計算機的應用,數(shù)理統(tǒng)計在自然科學、工程技術、管理科學及人文社會科學中的應用越來越廣泛和深入,而傳統(tǒng)的“理論+推導+例題講解” 的上課方式已經(jīng)無法滿足數(shù)理統(tǒng)計的教學要求。 隨著大數(shù)據(jù)時代的到來,計算機技術的普及和各種統(tǒng)計軟件的廣泛應用,減少數(shù)理統(tǒng)計教學中復雜理論知識的講解和繁復的證明,著重介紹模型的應用背景和應用實例, 并介紹一款統(tǒng)計軟件工具,力爭每個實例都能以算法實現(xiàn),就顯得尤為重要了。
統(tǒng)計軟件R 是以一種S 語言的擴展實現(xiàn)作圖和數(shù)據(jù)分析的系統(tǒng),是一個優(yōu)秀的統(tǒng)計計算和可視化的軟件。 相對于目前廣泛使用的商業(yè)統(tǒng)計SAS、SPSS 軟件而言,統(tǒng)計軟件R 最大的特點是:開源,版本更新快,有大量的用于各種任務的庫。 尤其是有許多使用統(tǒng)計軟件R 的各領域的學者源源不斷地提供最新和最前沿的開源軟件包可供使用。本文著重介紹統(tǒng)計軟件R 在數(shù)理統(tǒng)計教學中的探索與應用。
用戶可根據(jù)自己計算機所用的操作系統(tǒng), 從R 官方網(wǎng)站或其遍及各國的CRAN 鏡像站點選擇對應的版本下載。目前R 最新版文件命名形式已統(tǒng)一為R-x.x.xwin.exe,直接運行,并選擇安裝目錄及選裝內容即可。
R 是一種解釋型語言,輸入的指令可以直接被執(zhí)行。在提示符后可以以交互式的行命令方式一個個地輸入指令,也可以創(chuàng)建一個腳本文件并以此方式運行所寫的腳本文件。許多擴展的、新的開發(fā)包可以在“程序包”選單選擇安裝加載。
常用函數(shù):max(),min(),which.max(),which.min(),length(),sum(),prod(),mean(),median(),var(),cov(),cor(),std(),quantile(),summary(),rev(),sort(),order(),rank()常與統(tǒng)計函數(shù)聯(lián)用的兩個重要的函數(shù):apply(),sweep()
表1 R 中常用的分布函數(shù)
R 軟件在統(tǒng)計分析時為處理方便準確,提供了更為細致的有關概率函數(shù)。 這些函數(shù)包括四類:d(密度函數(shù)),p(分布函數(shù)),q(分位數(shù)函數(shù)),r(隨機數(shù)生成函數(shù))。
數(shù)理統(tǒng)計第一章主要介紹基本概念理論,包括常見統(tǒng)計量如樣本均值、方差、樣本矩的計算;散點圖、餅圖、直方圖、盒裝圖、莖葉圖等的繪制;抽樣分布、經(jīng)驗分布函數(shù)等的直觀展示。 R 具有便捷的數(shù)據(jù)可視化系統(tǒng),除了常規(guī)的圖形之外,還可作出美觀、個性化的圖案,如小提琴圖,臉譜圖等。 在上課過程中,結合學生參加全國大學生市場調查與分析大賽的題目和調查問卷收集的數(shù)據(jù),作出臉譜圖,引起了學生極大的興趣。 附R-語言程序及執(zhí)行結果如下:
圖1 臉譜圖
在臉譜圖中,臉的長度、寬度、臉型及嘴的高度、寬度分別代表著品牌的高端、性價比高、安全可靠、智能及方便。
數(shù)理統(tǒng)計第二章主要介紹的是參數(shù)估計,包括點估計中的矩估計和極大似然估計、區(qū)間估計、估計量的評價標準和克拉默-拉奧不等式。
例:已知某人分別搭乘公共汽車和地鐵上班所需的時間數(shù)據(jù),假設其服從正態(tài)分布。假設分別有65 分鐘和58 分鐘可用,問應選取哪種交通工具上班?
解:輸入數(shù)據(jù),R-語言程序及計算結果如下:
時間限制 65 時 P(x<=65)的估計:乘公汽 0.7233102;乘地鐵0.7699699
時間限制 58 時 P(x<=58)的估計:乘公汽 0.5295298;乘地鐵0.1969957
所以,假設有65 分鐘可用,應乘地鐵上班;假設有58 分鐘可用,應乘公交車上班。
數(shù)理統(tǒng)計第三章主要介紹的是假設檢驗。假設檢驗是統(tǒng)計推斷的一個重要方面,包括參數(shù)假設檢驗和非參數(shù)假設檢驗。
例:廠家A、B、C 是生產(chǎn)某一產(chǎn)品的知名企業(yè),在過去的一年里,它們的市場占有率分別是15%、35%、25%。 廠家A 為了提高市場占有率,對該產(chǎn)品進行了改進。 現(xiàn)進行抽樣調查,對銷售出的200 件調查的結果如表2 所示:
表2 廠商銷售量數(shù)據(jù)
依據(jù)調查數(shù)據(jù)對該產(chǎn)品的市場占有率是否發(fā)生變化做出判斷,以便為廠家A 下一步的決策提供依據(jù)(顯著性水平0.05)
解: 設 p1,p2,p3分別為廠家 A、B、C 的市場占有率, 現(xiàn)進行非參數(shù)假設檢驗:H0∶p1=0.15,p2=0.35,p3=0.25 R-語言程序及計算結果如下:
所以,不拒絕H0,即現(xiàn)有數(shù)據(jù)不拒絕“市場占有率未變”這一論斷。
數(shù)理統(tǒng)計第四章介紹的是兩種非常重要的統(tǒng)計方法:方差分析和回歸分析。
例:某企業(yè)逐年用于技術改造資金x(單位:萬元)與產(chǎn)品銷售利潤的增加額y(單位:萬元)資料如下:
表3 某企業(yè)技術改造投入與銷售利潤數(shù)據(jù)
若使利潤增加額以95%的概率在100 萬~150 萬元之間,利用一元線性回歸預測,技術改造資金應在何范圍內?
解:①建立一元回歸方程;②預測。R-語言程序及計算結果如下:
通過觀察t 檢驗和F 檢驗的p 值,可判斷自變量和整個模型都是顯著的。 技術改造資金應在38.87萬~42.89 萬之間,才能使利潤增加額以95%的概率在100 萬~150 萬之間。
數(shù)理統(tǒng)計是一門應用性非常強的學科,在近幾年的教學過程中, 我們突出了數(shù)理統(tǒng)計基本思想的介紹,適當略去了復雜的公式推導和定理證明。 著重介紹統(tǒng)計方法和模型的應用背景和應用實例,并引入統(tǒng)計軟件R,力爭每個實例都能以算法實現(xiàn),以期全面改善教學效果。
通過兩個學期的教學實踐,我們發(fā)現(xiàn)使用R 軟件后, 學生擺脫了煩瑣的計算,R 強大的互動性極大地激發(fā)了學生的學習興趣。 未來,我們將進一步探索R在教學中的應用,使學生能夠在領會各種統(tǒng)計方法的基本思想的基礎上,自覺地、得心應手地借助R 軟件來解決遇到的各種實際問題。