汪政紅,郭仲凱
(中南民族大學數(shù)學與統(tǒng)計學學院,湖北 武漢 430074)
課程思政是指將各類課程與思想政治理論課同向同行,形成協(xié)同效應,把“立德樹人”作為教育的根本任務的一種綜合教育理念。2019年10月教育部發(fā)布的《關于一流本科課程建設的實施意見》中,對教師在教書育人與課程思政方面提出了具體要求:“推動課程思政的理念形成廣泛共識,構建全員全程全方位育人大格局。確立以學生為中心、產出導向、持續(xù)改進的理念,提升課程的高階性,突出課程的創(chuàng)新性,增加課程的挑戰(zhàn)度?!弊鳛橐幻砉た普n程教師,做好課程思政是我們的責任和使命,實施好課程思政是我們面臨的挑戰(zhàn)。本文將以非參數(shù)統(tǒng)計課程為例,進行理工類課程思政的實踐探索。
非參數(shù)統(tǒng)計是應用統(tǒng)計專業(yè)的一門主干課程,是統(tǒng)計學的一個重要分支,以數(shù)理統(tǒng)計為先修課程,數(shù)理統(tǒng)計的先修課程是概率論,概率論的先修課程是數(shù)學分析、高等代數(shù),依照序貫原則,非參數(shù)統(tǒng)計常在高年級或研究生階段開設。作為參數(shù)統(tǒng)計方法的重要補充,非參數(shù)統(tǒng)計對總體分布沒有任何假定前提,更接近真實數(shù)據(jù),因而方法靈活多樣,適用范圍廣,應用性強,但理論推導相對復雜,是一門教學難度偏大的課程。因此挖掘和探索生動有趣的教學元素,成為落實課程思政的迫切需求。
關于課程思政的一般論述在網(wǎng)上有很多資源,包括論文、講座等,其中葉志明等(2020,2021)[1-2]在論文中均給出了教師在教書育人與課程思政等方面可借鑒的理念、方法與案例,言簡意賅、發(fā)人深省。周茂袁等(2021)[3]一文結合非參數(shù)統(tǒng)計課程利用正能量擬人化的方式講解枯燥的知識點(核密度估計),同時將“學會分享”的思政思想融入其中,使我深受啟發(fā),遂結合本人多年從事《非參數(shù)統(tǒng)計》課程教學的經(jīng)驗,對課程思政的案例進行深入挖掘和探索。
1940年代,Wilcoxon[4]是美國氰胺公司的一個化學家,使用當時的標準方法即t檢驗和Fisher的方差分析分析實驗數(shù)據(jù)時,發(fā)現(xiàn)由于“極端值”或樣本太大太小的影響,結果產生了異常,他基于他所接收到的最新的統(tǒng)計理念:科學研究或測量得到的所有觀測具有同等效力,認為不能人為地刪除“異常值”,為了得到一個好的分析結果而去挑選看上去正確的數(shù)據(jù)。因此他試圖找到一種新的方法分析實驗數(shù)據(jù),降低“異常值”對結果的影響。Wilcoxon首先嘗試搜索相關文獻,沒有找到;然后他被迫按照自己的想法進行基于排列組合的計算,寫了一篇論文,投稿到Biometrics期刊,他投稿的目的是希望審稿人能告訴他之前哪里發(fā)過這樣的論文,這樣他可以驗證一下自己的計算是否有誤,因為他覺得自己這篇論文不可能是原創(chuàng)。但是,事與愿違,審稿人和編輯判斷這是原創(chuàng)性工作,并在1945年將論文發(fā)布。
緊接著,1947年,一位經(jīng)濟學家HenryB.Mann和一位統(tǒng)計學研究生Whitney發(fā)表了一篇論文,論文中提出了一種排序法,涉及一系列簡單但冗長的計數(shù)方法,用于確認1940年的工資分布比1944年的工資分布低。很快人們發(fā)現(xiàn)Wilcoxon檢驗與Mann-Whitney檢驗關系密切,并證明了二者的等價性。這種檢驗的特點是沒有對任何總體參數(shù)進行估計,這是一種非參數(shù)檢驗!Wilcoxon的開創(chuàng)性工作帶來了一個新的學科分支──非參數(shù)統(tǒng)計的蓬勃發(fā)展,這一學科到20世紀60年代成為學術界的研究熱點。
化學家Wilcoxon發(fā)現(xiàn)自己的工作開創(chuàng)了一個新的統(tǒng)計分支,大受鼓舞,對其產生濃厚的熱情,逐漸離開了化學領域,進入統(tǒng)計領域,1960年開始進入佛羅里達州立大學統(tǒng)計系,擔任統(tǒng)計教員,培養(yǎng)統(tǒng)計系研究生,直至去世。
這樣的故事每次都能極大地吸引學生的注意力,屢試不爽,同時故事中的科學家充滿正能量,具有很好的育人價值。Wilcoxon先生尊重每一個真實的實驗數(shù)據(jù),謹慎對待分析結果,是我們每一個統(tǒng)計專業(yè)人士必備的素養(yǎng);Wilc oxon先生謙虛、嚴謹、低調的治學態(tài)度,是我們每一個研究者應該學習的素質。Wilcoxon先生因為興趣從化學領域轉行到統(tǒng)計領域,職業(yè)生涯發(fā)生了巨大改變,是以最佳的方式詮釋了愛因斯坦的名言──“興趣是最好的老師”。我們可以借機引導學生在選擇就業(yè)或深造方向時,一定要結合自身的興趣,做自己喜歡、擅長的事情,將時間投入到熱愛的工作中,我們才能感到自我滿足,煥發(fā)出難以估量的力量。
此外,這個故事還可以將教學環(huán)節(jié)中四個很重要的知識點[5]串聯(lián)起來,單樣本符號秩檢驗、兩獨立樣本秩和檢驗、多個獨立樣本的 Kruskal-Wallis檢驗和 Jonckheere-Terpstra檢驗,見圖1。涉及第①、②個知識點的教學時,教師可以以小樣本為例重現(xiàn)歷史故事中的困境,手工計算展示這其中的排列組合的技巧。隨著樣本增大,計算復雜度增加,鼓勵大家借助現(xiàn)代軟件技術編程實現(xiàn)其中的計算和圖形化展示。從簡單到復雜,同學們不僅理解和掌握了這兩種方法的原理和思想,同時體驗到學科探索的過程。
圖1 非參數(shù)統(tǒng)計知識點思維導圖
第②個知識點的名稱來源于學科起源故事中的人物名稱,Wilcoxon和Mann-Whitney是對同一個問題從兩個不同的角度構造檢驗統(tǒng)計量,前者是對數(shù)據(jù)排序,取秩代替原始數(shù)據(jù),從而減少“異常值”的影響,構造秩統(tǒng)計量,后來被發(fā)展為非參數(shù)統(tǒng)計里重要的“秩方法”;后者是將兩個樣本的觀測值兩兩做比較,取所有可能對子中滿足“<”或“>”關系的對子個數(shù)為檢驗統(tǒng)計量,后來發(fā)展為“U統(tǒng)計量方法”。將這兩種方法分別推廣至多樣本位置檢驗,就是后面所學的Kruskal-Wallis檢驗和Jonckheere-Terpstra檢驗,即第③、④個知識點。Kruskal-Wallis檢驗統(tǒng)計量是結合了秩方法和 Fisher的方差分析的思想而構造出來的秩統(tǒng)計量,可以看做是Wilcoxon秩和檢驗從兩樣本到多樣本的推廣;J-T檢驗延續(xù)了U統(tǒng)計量的思想,可以看作是Mann-Whitney檢驗從兩樣本到多樣本的推廣。再將細節(jié)講清楚,同學們就可以感受到原創(chuàng)思想是科學創(chuàng)作的靈魂,如何一步步從簡單到復雜創(chuàng)造出許多新的方法。這個故事是非參數(shù)統(tǒng)計歷史上最有名的故事之一,講好它用好它,能將專業(yè)課程教學講活的同時實現(xiàn)育人于潤物細無聲中,可謂一舉兩得。
到了20世紀90年代,非參數(shù)統(tǒng)計的研究和應用主要集中在非參數(shù)密度估計和非參數(shù)回歸,代表人物有Silverman和美籍華人范劍青,提到這段歷史,我通常會濃墨重彩地介紹華人統(tǒng)計學家范劍青,被譽為統(tǒng)計學界的傳奇人物。他是非參數(shù)建模與高維復雜數(shù)據(jù)建模等方面的國際權威,有著巨大的貢獻和國際影響。他首創(chuàng)了局部建模法、非漸近替代方法、非凹性懲罰似然法、獨立篩選法等等為非參數(shù)統(tǒng)計的研究開創(chuàng)了廣闊的研究領域,并廣泛應用于經(jīng)濟、金融、醫(yī)學、資訊、生物科技及社會科學領域,如金融資產定價、風險管理、機器學習、生物統(tǒng)計等。范教授發(fā)表了一百多篇論文,其中大多刊登在統(tǒng)計學、金融學及其他科學的頂尖刊物,出版兩本權威性專著。他的文章引用次數(shù)從2001年第一次排名以來,一直位列世界數(shù)學家排名榜的前十名。2000年時年僅38歲的他憑借首創(chuàng)的“非參數(shù)建?!鲍@得COPSS總統(tǒng)獎,是第一位獲此殊榮的中國大陸學者,該獎為國際統(tǒng)計學領域最高獎項之一。
百度很容易查到范老師的生平,1982年畢業(yè)于復旦大學數(shù)學系,隨后考入中國科學院應用數(shù)學所攻讀碩士,1986年進入美國加州伯克利大學攻讀博士學位,2003年起任普林斯頓大學金融工程終身教授。范老師一直活躍在學術界,并不斷往返于國內外,熱心推動中國統(tǒng)計學、金融學和大數(shù)據(jù)的教育和科研工作,長期與國內保持密切的科研工作。范老師能取得如此偉大的成就,一是興趣使然,二是愛國情懷使然,從人民日報記者對他的采訪中[6]可以窺見?!斑@么多年堅持下來,是因為我對統(tǒng)計事業(yè)有著特殊的情懷。”這種特殊的情懷就是要做對社會有用的科學,“我覺得數(shù)學跟社會的溝通是通過統(tǒng)計學來完成的?!痹诤M庥螌W多年,他看到了中國在統(tǒng)計學研究方面與國際的差距,“希望統(tǒng)計學在中國能夠得到承認和發(fā)展”,“為國家做事,這是我對祖國的感情?!?/p>
在課堂上我們可以截取范老師的講座片段給同學們觀看,一來目睹學者容顏,感受學者的謙遜氣質,二來可以從范老師的講座中了解統(tǒng)計學的前沿研究內容、研究方法和觀點等,這對擴充同學們的知識面、提升專業(yè)學習興趣幫助很大。講述中國科學家故事,借助范老師的研究內容向同學們展望非參數(shù)統(tǒng)計學科發(fā)展的未來,同時傳達愛國主義情懷,發(fā)揚科學家精神,如果每個同學都有如此情懷,偉大中國的復興夢必定能實現(xiàn)。
根據(jù)實踐經(jīng)驗,若已知數(shù)據(jù)的總體服從某種分布,例如正態(tài)分布,只是其中的幾個參數(shù)未知,如均值或方差未知,這種類型假設條件下使用參數(shù)方法非常有效,因為既利用了數(shù)據(jù)的信息,又利用了產生數(shù)據(jù)的總體的信息。但在實踐中,若難以假設總體具有某種分布,這時仍采用參數(shù)數(shù)據(jù)分析方法,其統(tǒng)計結果是不可信的,甚至有可能是錯的。此時,舉個例子演示可以達到事半功倍的效果。
引例1:有兩組學生的成績,第一組為10名,成績?yōu)椋?個100分,4個99分,第二組為兩名,成績?yōu)?0分和0分,試分別對這兩組同學的平均分是否為100分進行假設檢驗。
如果分別對兩組數(shù)據(jù)采用參數(shù)統(tǒng)計方法,即單樣本t檢驗,則第一組數(shù)據(jù)會拒絕均值為100分的零假設,而第二組數(shù)據(jù)則會接受均值為100分的零假設,這看起來十分荒謬,出錯的原因在哪里呢?在于數(shù)據(jù)并不滿足參數(shù)檢驗方法所要求的假設。
引例2[7]:哪一個企業(yè)職工的工資高?這里有22名職工的工資,其中的12名來自企業(yè)1,另外10名來自企業(yè)2,數(shù)據(jù)如下:
企業(yè)1 11 12 13 14 15 16 17 18 19 20 40 60企業(yè)2 3 4 5 6 7 8 9 10 30 50
如果采用參數(shù)統(tǒng)計方法,即兩獨立樣本t檢驗,則不能拒絕這兩個企業(yè)職工工資沒有顯著差異的原假設,與直觀判斷相互矛盾,原因就在于假設兩個企業(yè)的職工工資服從正態(tài)分布,而實際上工資數(shù)據(jù)一般是非對稱的右拖尾數(shù)據(jù),不能滿足正態(tài)假設。那么正確的解決思路呢?學習非參數(shù)統(tǒng)計的方法,勢在必行。
通過這些簡單的引例,借助R軟件,圖文并茂地向同學們展示參數(shù)統(tǒng)計的結論以及參數(shù)方法遇到的困境,展示非參數(shù)統(tǒng)計的魅力,激發(fā)同學們的學習興趣。
“紙上得來終覺淺,絕知此事要躬行”,講完各種方法的理論框架和原理之后,就是利用統(tǒng)計軟件驗證我們的結論了,也就涉及非參數(shù)統(tǒng)計的實踐教學了。首先,筆者推薦大家使用開源免費的R軟件,R是一套開源的數(shù)據(jù)分析解決方案,由一個龐大、活躍的全球性研究型社區(qū)維護。學者們將自己論文中使用的代碼打包存放在社區(qū)網(wǎng)站并定期更新,我們遇到類似問題則可以免費下載使用,用完之后,作為回饋,我們也可以把自己寫得好的程序打包放到共享社區(qū),正是由于千千萬萬貢獻者的免費共享,加上國際志愿者團隊的工作,R語言社區(qū)實現(xiàn)了共建自治和蓬勃發(fā)展。此外,筆者一直在教學中秉承學以致用的理念,鼓勵大家將非參數(shù)統(tǒng)計的豐富思想靈活應用到實踐中。在今年的統(tǒng)計建模大賽中,就有兩位同學將非參數(shù)統(tǒng)計中的方法──游程檢驗和 Kendall W 協(xié)同系數(shù)檢驗應用到自己的論文寫作中,使論文增色不少。游程檢驗用于檢驗一個二元序列如000101001111的隨機性,一位同學在驗證問卷調查數(shù)據(jù)的隨機性時,將收集的問卷中的二元變量如性別的取值列出來得到一列0、1序列值,使用游程檢驗說明這個序列是隨機的,從而從側面說明這個調查問卷的數(shù)據(jù)收集是隨機的。另一位同學在研究中國沿海地區(qū)高質量發(fā)展水平測度時,使用了三種不同的方法對各沿海城市進行綜合評價,得到了三組不同的排序結果,她創(chuàng)新性地采用了 Kendall W 協(xié)同系數(shù)及相關檢驗對這三種方法的一致性進行了檢測,結果發(fā)現(xiàn)三種不同測度方法得出的評價結果一致性程度很高,從而驗證了文中使用的評價測度的合理性。
通過以上案例,希望可以幫助大家在將專業(yè)知識點講得生動有趣的同時,將學科思維、探索奮進、開放共享的理念傳遞給學生,從而落實非參數(shù)統(tǒng)計的課程思政。