李瑞閣 萬冰蓉 張恒 曠永鑫
摘 要:多元統(tǒng)計分析是統(tǒng)計學(xué)專業(yè)的核心課程之一,該課程實踐性極強(qiáng),需要學(xué)生多學(xué)、多練,多實踐、多總結(jié)。文章針對該課程案例教學(xué)中若干統(tǒng)計分析方法存在的一些誤區(qū),教師在反思學(xué)生出錯的原因是概念問題,軟件使用問題,還是對實際問題背景理解的偏差問題的基礎(chǔ)上,有針對性地引導(dǎo)學(xué)生走出誤區(qū),學(xué)會不斷反思,提出問題;不斷創(chuàng)新實踐,發(fā)散式研究學(xué)習(xí),多渠道解決問題等方面展開探討。
關(guān)鍵詞:教學(xué)實踐誤區(qū);方差分析;主成分分析;對應(yīng)分析
中圖分類號:G642 文獻(xiàn)標(biāo)志碼:A 文章編號:2096-000X(2018)05-0097-03
Abstract: The multivariate statistical analysis is one of the professional core courses of statistics. As the most practical course, it needs students to learn, practice and summary. Based on the case teaching of some misunderstanding in some of the statistical analysis method, the teacher should reflect firstly whether the cause of the error of students is the problem of concept, of using software, or understanding deviation problem to the actual problem. Teacher should aim at leading students to walk out of the erroneous zone, and teaching them to think, ask question, practice innovatively, study by divergent thinking, and solve the problem through various channels.
Keywords: teaching practice myth; analysis of variance; principle component analysis; correspondence analysis
前言
多元統(tǒng)計分析是統(tǒng)計學(xué)專業(yè)的核心課程之一,包含諸多多維數(shù)據(jù)統(tǒng)計分析的方法,案例教學(xué)實踐中要求學(xué)生依據(jù)問題采取適當(dāng)?shù)姆椒?,做出合理分析、推斷、預(yù)策等。由于案例的復(fù)雜性,教學(xué)實踐中常存在一些誤區(qū)。出現(xiàn)問題時教師首先應(yīng)反思,學(xué)生出錯的原因是什么?是概念問題,軟件使用問題,還是對實際問題背景理解的偏差問題?然后有針對性地采取有效的策略解決問題。以下就如何有針對性地引導(dǎo)學(xué)生走出誤區(qū),學(xué)會自主學(xué)習(xí)、創(chuàng)新實踐、提出問題并解決問題做些嘗試性探討。
一、有交互方差分析中單因素水平間的均值比較誤區(qū)
教學(xué)過程中教學(xué)時間長度有限,但課堂中教會學(xué)生學(xué)習(xí)的方法,養(yǎng)成良好的學(xué)習(xí)習(xí)慣將終生受用。同樣教科書和軟件教材內(nèi)容有限,不可能解決所有的問題,比如,SPSS軟件的菜單操作命令簡單且實用,但教學(xué)中僅要求學(xué)生會操作是不夠的,同時還要求學(xué)生了解程序命令甚至自覺學(xué)習(xí)編程,這是培養(yǎng)學(xué)生創(chuàng)新思維的有效途徑。比如在解決兩因素有交互效應(yīng)的方差分析問題時,固定一因素水平,另一因素水平間的均值比較問題,一般SPSS軟件教材,會給出判斷交互效應(yīng)顯著性判斷,但交互比較就沒有現(xiàn)成答案。為此向?qū)W生提出問題,提醒并鼓勵學(xué)生查資料,一方面要弄清概念,另一方面通過自己編程去解決。
案例1 有三種降低轉(zhuǎn)氨酶的藥物,為了考察他們對甲型肝炎和乙型肝炎患者轉(zhuǎn)氨酶降低程度之間的差異是否有統(tǒng)計學(xué)意義,收集試驗數(shù)據(jù)(略),即從兩型患者的總體中各隨機(jī)抽取30例,然后分別隨機(jī)分到3個藥物組中。假定資料滿足參數(shù)檢驗的條件,問不同藥物種類之間是否有顯著差異?不同的肝炎類型之間是否有顯著差異?不同藥物與肝炎類型之間的交互作用是否顯著?教材文獻(xiàn)[1]中使用SAS軟件,課堂上鼓勵學(xué)生用多種軟件解題。如利用SPSS解決前兩個問題很容易,最后一個問題不易,有學(xué)生查到文獻(xiàn)[2-4],通過學(xué)習(xí)用SPSS方法編寫程序;也有學(xué)生用MATLAB編程的辦法解決,最終將結(jié)果公之于眾,讓學(xué)生討論,起到很好的教學(xué)示范效應(yīng)。然而學(xué)生在訓(xùn)練的過程中,仍會出現(xiàn)運行的問題,進(jìn)一步讓大家共同查找原因,并總結(jié)程序輸入的兩條注意事項:
(1)語句編寫應(yīng)為全英文符號,若有中文符號輸入算錯誤指令,代碼不會變色。
(2)所有代碼輸入完成后應(yīng)在語句結(jié)尾劃上英文句號,若沒有句號,表示該腳本不完整,SPSS會不承認(rèn)這個函數(shù)結(jié)構(gòu),代碼開頭會是紅色,正常應(yīng)是藍(lán)色等。其中編寫的SPSS程序如下:
UNIANOVA 緩解時間 BY 成分A 成分B
/METHOD=SSTYPE(3)
/INTERCEPT=INCLUDE
/PLOT=PROFILE(成分A*成分B 成分B*成分A)
/POSTHOC =成分A(BONFERRON)
/EMMEANS=TABLES(成分A)COMPARE ADJ(LSD)
/EMMEANS=TABLES(成分B)COMPARE ADJ(LSD)
/EMMEANS=TABLES(成分A*成分B)
/EMMEANS=TABLES(成分A*成分B)COMPARE (成分A)ADJ(BONFERRON)
/EMMEANS=TABLES(成分A*成分B)COMPARE(成分A)ADJ(BONFERRON)
/PRINT=HOMOGENEITY DESCRIPTIVE PARAMETE
R
/CRITERIA=ALPHA(0.05)
/DESIGN=成分A 成分B 成分A*成分B.
二、主成分分析中主成分表達(dá)誤區(qū)
主成分分析中,SPSS軟件輸出的Component Matrix陣,往往被學(xué)生誤讀為主成分系數(shù)陣,直接以此為依據(jù)寫出樣本的主成分,實際上它是因子載荷陣,寫主成分時,需在原系數(shù)的基礎(chǔ)上除以相應(yīng)特征根的平方根,得真正的主成分系數(shù)。針對這一情況,教學(xué)中,如何強(qiáng)調(diào)?才能引起學(xué)生重視?一方面課堂上應(yīng)講清楚概念,另一方面有意識讓學(xué)生暴露問題,發(fā)現(xiàn)問題后讓學(xué)生研討,并通過MATLAB等軟件實踐確定特征根及特征向量的辦法驗證結(jié)果。
案例2某研究單位測得20名肝病患者的4項肝功能指標(biāo)數(shù)據(jù)(略):轉(zhuǎn)氨酶,肝大指數(shù),硫酸鋅濁度,甲胎球蛋白,試做主成分分析。
利用菜單命令,分析(Analyze)→降維(Data Reduction)→因子(Factor),按shift 鍵將x1至x4全部選入因子分析對話框,單擊抽?。‥xtraction)選項,默認(rèn)公因子提取方法(Principal components),默認(rèn)相關(guān)陣(Correlation matrix)出發(fā)做主成分分析,因子數(shù)按特征根大于(Eigenvalues over)0.9保留,確定(OK)。得到輸出部分結(jié)果如下表1-2:
從表1可見前三個主成分的方差解釋率為94.828%,盡管第三個特征根小于1,但接近1,于是可選取前三個主成分,僅損失較少的方差信息。表2可見第一個主成分主要包含原變量轉(zhuǎn)氨酶及肝大指數(shù)的信息,可作為急性肝炎的診斷指標(biāo);第二主成分主要包含硫酸辛濁度的信息,可作為慢性肝炎的診斷指標(biāo);第三個主成分主要包含甲胎球蛋白的信息,可作為原發(fā)性肝炎的診斷指標(biāo)。根據(jù)表2可寫出選取的三個主成分分別為:
然而也有同學(xué)選取的三個主成分均未除以相應(yīng)特征根的算術(shù)平方根。哪個主成分表達(dá)式正確?鑒于此,提出問題,讓學(xué)生自己去找答案,一方面查找教材或文獻(xiàn)弄清概念做出判斷,另一方面可通過編程,或用其他軟件來加以驗證。
本題中采用相關(guān)矩陣出發(fā)進(jìn)行主成分分析,為什么呢?為此引導(dǎo)學(xué)生總結(jié)三種情形:各指標(biāo)變量的量綱不同;各指標(biāo)變量類型不同,如絕對指標(biāo),相對指標(biāo)等;各指標(biāo)變量的方差差異過大,前兩種情形比較明顯,第三種情形就需先確定協(xié)方差陣,再做決定。如何求協(xié)方差陣?鼓勵學(xué)生積極思考,踴躍回答。有學(xué)生利用可靠性分析法,工具欄分析→尺度→可靠性分析,點選變量,點擊設(shè)置統(tǒng)計,選擇項間組內(nèi)的選項,包含輸出項間相關(guān)矩陣和項間協(xié)方差矩陣;也有同學(xué)任給分類,利用判別分析選項確定協(xié)方差矩陣。
為了訓(xùn)練學(xué)生,提出問題,能否通過編程直接求出呢?于是有學(xué)生幾經(jīng)嘗試,修改,編出如下程序:
(1)打開文獻(xiàn)[5]中案例6.1數(shù)據(jù)集,復(fù)制下面第一語句粘貼至打開數(shù)據(jù)集的新建語法窗口,運行下列程序生成相關(guān)矩陣(以數(shù)據(jù)集的形式存在)
CORRELATION MATRIX OUT('C:\Documents and Settings\Administrator\桌面\相關(guān)矩陣.sav')/VARIABLES=x1 x2 x3 x4。
(2)打開已生成相關(guān)矩陣數(shù)據(jù)集,再復(fù)制粘貼下述語句至語法窗口,運行,生成協(xié)方差陣,打開已有的相關(guān)陣數(shù)據(jù)集可見。
GET
FILE='C:\Documents and Settings\Administrator\桌面\相關(guān)矩陣.sav'。
MCONVERT/MATRIX=OUT('C:\Documents and Settin
gs\Administrator\桌面\協(xié)方差矩陣.sav')。
從輸出的相關(guān)系數(shù)矩陣可見,各變量的相關(guān)性較強(qiáng);從協(xié)方差陣可見,四個變量的方差差異很大,適合于從相關(guān)矩陣出發(fā)做主成分。
三、對應(yīng)分析圖中對應(yīng)關(guān)系表達(dá)誤區(qū)
對應(yīng)分析圖識別問題,主要是軟件使用問題。課堂上利用論文健康教育與兒童呼吸道感染的關(guān)聯(lián)性研究,研究兒童類(A類)受教育頻次與住院頻次的關(guān)聯(lián)分析,采用的對應(yīng)分析的操作步驟為:單擊數(shù)據(jù)(Data)→加權(quán)(Weight Cases)→選入頻數(shù)(num)加權(quán),確定(OK)。接著單擊分析(Analyze)→降維(Data Reduction)→對應(yīng)分析(Correspondence Analysi
s),將兒童住院頻次選入行,定義范圍1到4,兒童受教育頻次選入列,定義范圍1到3,更新(Update),確定(OK)。對應(yīng)分析圖如下。
對應(yīng)分析圖1中兒童住院頻次與兒童受教育頻次對應(yīng)的二維點除了顏色區(qū)別外,形狀無區(qū)別,標(biāo)識數(shù)字的類別關(guān)系不明朗,于是啟發(fā)學(xué)生從多角度,多層面嘗試實踐,改變點的標(biāo)識、形狀,大小等。具體可點擊圖形區(qū)域,右擊編輯內(nèi)容Edit Content,或雙擊該窗口,選中特殊窗口In Separate Window,在編輯窗口中,分別點擊兒童住院頻次、兒童受教育頻次,在新窗口中選擇圖標(biāo)的形狀、大小、寬度等,甚至可畫出坐標(biāo)軸方便找對應(yīng)關(guān)系。數(shù)字替換為文字稍顯復(fù)雜。引導(dǎo)學(xué)生從數(shù)據(jù)集的變量視圖入手,定義變量兒童住院頻次、兒童受教育頻次的各個分類取值及名稱,添加,確定形成圖2,標(biāo)識既清楚、醒目,可視化效果又好。
總之,多元統(tǒng)計分析是統(tǒng)計專業(yè)課中的教學(xué)實踐性很強(qiáng)的課程,需要在案例教學(xué)實踐過程中及時發(fā)現(xiàn)問題,分析原因,針對不同類型采取措施引導(dǎo)學(xué)生走出誤區(qū),及時糾偏并解決問題,有意識培養(yǎng)學(xué)生自主學(xué)習(xí),創(chuàng)新實踐能力,提升學(xué)生的綜合素質(zhì)。
參考文獻(xiàn):
[1]梅長林,范金城.數(shù)據(jù)分析方法[M].北京:高等教育出社,2012:111-112.
[2]傅德印.應(yīng)用多元統(tǒng)計分析[M].北京:高等教育出版社,2008:159-161,130-134,212-220.
[3]項涇渭,傅德印.基于SPSS的二次開發(fā)直接求解主成分[J].統(tǒng)計研究,2006(4):73-75.
[4]宇傳華.SPSS與統(tǒng)計分析[M].北京:電子工業(yè)出版社,2014:617-619.
[5]張文彤,董偉.SPSS統(tǒng)計分析高級教程[M].北京:高等教育出版社,2004:277-290.
[6]李瑞閣,連冬艷,柳德學(xué).健康教育與兒童呼吸道感染的關(guān)聯(lián)性研究[J].南陽理工學(xué)院學(xué)報,2015,7(2):108-110.
[7]王芬.案例教學(xué)法在概率論與數(shù)理統(tǒng)計教學(xué)中的應(yīng)用[J].高教學(xué)刊,2016(20):74-75.