丁雪梅,張曉君,白春艷,孫藝學,徐向紅,叢彥龍,官 員,李心慰,包國章,丁洪浩
(1.吉林大學 動物科學學院,吉林 長春 130062;2.吉林大學 教育技術(shù)中心,吉林 長春 130012; 3.吉林省畜牧獸醫(yī)研究院,吉林 長春130062;4.吉林大學 數(shù)學學院,吉林 長春 130012;5.吉林大學 動物醫(yī)學學院,吉林 長春 130062;6.吉林大學 新能源與環(huán)境學院,吉林 長春 130012;7.吉林大學 教務(wù)處,吉林 長春 130012)
試驗結(jié)果的統(tǒng)計分析是科學研究中至關(guān)重要的一個環(huán)節(jié),統(tǒng)計分析方法通常利用SPSS軟件來實現(xiàn)[1-3]。選擇不合適的統(tǒng)計分析方法,不僅會使前期的試驗設(shè)計和實施的試驗方案功虧一簣,可能還會得出錯誤的結(jié)論。統(tǒng)計分析方法的選擇要考慮分析目的、因素和水平數(shù)量、試驗設(shè)計類型、資料類型等,這一直是從事動物科學和動物醫(yī)學實驗的研究人員,特別是初學者最為困惑的問題。本研究將統(tǒng)計分析方法的選擇以流程圖的形式進行簡明總結(jié),方便動物科學、動物醫(yī)學等非統(tǒng)計專業(yè)人員了解和掌握,并就統(tǒng)計分析方法如何在SPSS上的實現(xiàn)等進行詳解。
1.1 統(tǒng)計分析方法應在試驗前確定統(tǒng)計分析與試驗設(shè)計密不可分。采用何種統(tǒng)計分析方法,在進行試驗設(shè)計時就應該考慮到。例如,研究3種飼料對烏雞體質(zhì)量的影響,如果烏雞的性別、籠舍擺放位置等都相同,體質(zhì)量相近,則試驗有1個試驗因素3個水平,可采用單因素多水平設(shè)計或稱為完全隨機設(shè)計,將30只烏雞隨機分成3組,隨機喂3種不同飼料,飼養(yǎng)30 d,烏雞的體質(zhì)量是計量資料,為單變量計量資料,經(jīng)過總體分布類型的判斷與檢驗后,若服從正態(tài)分布,且獨立、等方差,可選擇單因素方差分析。這里,單因素方差分析的前提條件之一是獨立性,體現(xiàn)在試驗設(shè)計和實施方案中就是烏雞在各組中的分配是隨機的。如果想進一步考察其中某一種飼料飼養(yǎng)的10只烏雞體斜長與體質(zhì)量之間的直線回歸關(guān)系,1個試驗因素1個水平,單組設(shè)計,體斜長和體質(zhì)量是計量資料,為雙變量計量資料,若自變量體斜長和因變量體質(zhì)量皆呈正態(tài)分布,可采用直線回歸分析。
1.2 統(tǒng)計分析方法選擇的思路統(tǒng)計分析方法的選擇可遵循下面的思路:分析目的→因素和水平數(shù)量→試驗設(shè)計類型→資料類型→變量數(shù)量和類型→統(tǒng)計分析方法的前提條件→統(tǒng)計分析方法的選擇。
2.1 分析目的與統(tǒng)計分析方法選擇合適的統(tǒng)計分析方法,首先要考慮分析目的。歸納起來,分析目的及統(tǒng)計分析方法見表1。
表1 分析目的與統(tǒng)計分析方法
2.2 因素和水平數(shù)量、試驗設(shè)計類型、資料類型與統(tǒng)計分析方法按供試因素的多少,試驗可分為只有1個因素的單組設(shè)計、配對設(shè)計、成組設(shè)計和單因素多水平設(shè)計的單因素試驗以及隨機區(qū)組設(shè)計、拉丁方設(shè)計、交叉設(shè)計、析因設(shè)計、重復測量設(shè)計等2個或2個以上因素的多因素試驗。此外,還有完全隨機設(shè)計方法,是將全部受試對象隨機地分配到各個處理組中,分別接受不同的處理,然后對其效應進行比較[4]。這里,處理有2個或2個以上水平,分別相當于成組設(shè)計和單因素多水平設(shè)計。每種試驗設(shè)計方法,至少有1個試驗因素。多因素試驗,只有星點設(shè)計是5個水平,其他試驗設(shè)計的水平數(shù)2個或2個以上。根據(jù)試驗設(shè)計開展試驗的結(jié)果,按變量屬于定量或定性,可將資料分為3種類型[5](表2)。盡管計量資料可以轉(zhuǎn)換成二分類計數(shù)資料和等級資料,但首選的還是計量資料的統(tǒng)計分析方法。常用的試驗設(shè)計方法和統(tǒng)計分析方法見表3。
2.2.1計量資料統(tǒng)計分析方法的選擇及在SPSS19.0上的實現(xiàn) 計量資料統(tǒng)計分析方法的選擇需要考慮分析目的、因素數(shù)、水平數(shù)、試驗設(shè)計方法、前提條件等。如果隨機樣本服從正態(tài)分布,可選用t檢驗、方差分析、協(xié)方差分析等,否則需選用非參數(shù)檢驗,或者通過變量轉(zhuǎn)換服從正態(tài)分布后再進行方差分析(圖1~3,表4)。
因素既包括試驗因素也包括區(qū)組因素(重要的非試驗因素)。做為試驗對象的動物往往在性別、年齡、體質(zhì)量等很多方面存在差異,這些差異對試驗結(jié)果有不可忽視的影響,在試驗設(shè)計時必須將其作為區(qū)組因素加以考慮。因素取不同的值或狀態(tài),即為水平。例如研究飼料對烏雞體質(zhì)量的影響,粗蛋白含量15%,17%,19%為試驗因素“飼料”的3個水平。如果烏雞僅體質(zhì)量差別較大,為了降低體質(zhì)量對試驗結(jié)果的影響,按照體質(zhì)量的不同劃分成若干個區(qū)組。
表2 資料類型、分類及舉例
表3 常用的試驗設(shè)計方法及統(tǒng)計分析方法
續(xù)表3
圖1 計量資料統(tǒng)計分析方法選擇流程圖
圖2 協(xié)方差分析方法選擇步驟圖
圖3 不滿足方差分析前提條件的計量資料的數(shù)據(jù)轉(zhuǎn)換
表4 計量資料統(tǒng)計分析方法的選擇及在SPSS19.0上的實現(xiàn)
如果性別、籠舍擺放位置等都相同,隨機選定的30只烏雞體質(zhì)量也相近,只考察1種飼料飼養(yǎng)30 d后,與散養(yǎng)相同天數(shù)的烏雞增質(zhì)量的平均值(或中位數(shù))比較是否有差異,就是單組設(shè)計,1個因素1個水平,若增質(zhì)量服從正態(tài)分布,采用單樣本t檢驗,非正態(tài)可采用單個樣本的符號檢驗;如果考察兩種飼料之間烏雞增質(zhì)量是否有差異,將烏雞隨機分成2組,隨機喂2種不同飼料,就是成組設(shè)計,1個因素2個水平,獲得2個獨立樣本,若增質(zhì)量服從正態(tài)分布,采用獨立樣本t檢驗,非正態(tài)可采用兩個獨立樣本比較的Wilcoxon秩和檢驗;如果考察3種飼料對烏雞增質(zhì)量是否有影響,將烏雞隨機分成3組,隨機喂3種不同飼料,就是單因素多水平設(shè)計(完全隨機設(shè)計),1個因素至少3個水平,若增質(zhì)量正態(tài)、等方差,采用單因素方差分析,非正態(tài)可采用Kruskal-WallisH檢驗。如果要考察3種飼料和2個溫度對烏雞增質(zhì)量是否有影響,將6只烏雞隨機分成2組,1組飼養(yǎng)溫度為25℃,另外1組為30℃,每組隨機喂3種不同飼料,這就是雙因素無重復設(shè)計,有2個試驗因素,水平數(shù)至少2個且無重復,不能考察因素間的交互作用,若增質(zhì)量正態(tài)、等方差,采用兩因素方差分析,非正態(tài)或正態(tài)但方差不齊可采用FriedmanM檢驗。
上述的單組設(shè)計、成組設(shè)計、單因素多水平設(shè)計(完全隨機設(shè)計)和雙因素無重復設(shè)計增加時間因素,如考察30,60,90 d的烏雞增質(zhì)量,就是重復測量設(shè)計,至少具有1個重復測量因素,從類型上劃分,第1種為具有1個重復測量因素的單因素設(shè)計,中間的2種為具有1個重復測量因素的兩因素設(shè)計,最后1種為具有1個重復測量因素的3因素設(shè)計,第1種類型不能夠考察交互作用,其他2種類型可以考察因素間的交互作用,若增質(zhì)量正態(tài)、等方差、又滿足球?qū)ΨQ,可采用多因素方差分析。
其他因素都相同,僅烏雞體質(zhì)量差別較大,如果想比較30只烏雞飼養(yǎng)30 d增質(zhì)量在2種飼料之間是否有差異,按照體質(zhì)量的不同劃分成2個區(qū)組,每1個區(qū)組隨機分配2種不同飼料,獲得2個配對樣本,若增質(zhì)量正態(tài),采用配對樣本t檢驗,非正態(tài)可采用配對樣本比較的Wilcoxon符號秩檢驗;如果想比較3種飼料對烏雞增質(zhì)量的影響,將9只烏雞按照體質(zhì)量的不同劃分成3個區(qū)組,試驗有2個因素(飼料為試驗因素,體質(zhì)量為區(qū)組因素)3個水平,每1個區(qū)組隨機分配3種不同飼料,即進行隨機區(qū)組設(shè)計,2個因素,1個試驗因素、1個區(qū)組因素,至少2個水平且無重復,不能考察因素間的交互作用,若增質(zhì)量正態(tài)、等方差,可選擇2因素方差分析,非正態(tài)或正態(tài)但方差不齊可采用非參數(shù)檢驗的FriedmanM檢驗;如果再增加1個區(qū)組因素,籠舍擺放位置,即3個因素,2個區(qū)組因素(體質(zhì)量、籠舍擺放位置)、1個試驗因素(飼料)對烏雞增質(zhì)量是否有影響,將9只烏雞按照體質(zhì)量的不同劃分成3個區(qū)組,采用3×3階拉丁方,每個區(qū)組隨機分配3種不同飼料,隨機分配上、中、下籠舍擺放位置,這是拉丁方設(shè)計,要求橫行單位組數(shù)、直列單位組數(shù)、試驗處理數(shù)與試驗處理的重復數(shù)必須相等,不能考察因素間的交互作用,若增質(zhì)量正態(tài)、等方差,可選擇多因素方差分析。
想考察2種瘤株的生瘤效果和2種藥物的抑瘤作用,如果其他因素都相同,僅烏雞體質(zhì)量差別較大,按照體質(zhì)量不同將20只烏雞分成5個區(qū)組,每個區(qū)組內(nèi)的4只烏雞隨機分成2組,每組隨機接種2種不同瘤株,觀察腫瘤生長情況,1 d后,每組的2只烏雞分別注射2種不同藥物,連續(xù)用藥10 d,停藥1 d后解剖測定腫瘤直徑,就是裂區(qū)設(shè)計,對時段(或區(qū)域)進行了分割,因素施加有時間先后,有重復的裂區(qū)設(shè)計可以考察因素間的交互作用,若腫瘤直徑正態(tài)、等方差,可采用多因素方差分析;將20只患腫瘤烏雞隨機分成2組,1組先用A藥,后用B藥,另1組先用B藥,后用A藥,考察2種藥物的療效,就是交叉設(shè)計,3個因素,1個試驗因素,2個區(qū)組因素,受試對象可以接受因素的多個水平,不能考察因素間的交互作用,若腫瘤直徑正態(tài)、等方差,可采用多因素方差分析;要考察兩種藥物的療效,A藥濃度的數(shù)值為20,25,B藥濃度的數(shù)值為5,10,15,將20只患腫瘤烏雞隨機分成5組,隨機分配1種藥物的某個濃度,從專業(yè)上講,藥物種類的作用大于濃度的作用,即濃度的作用嵌套在藥物中,而且不同藥物所用的濃度即水平數(shù)量和數(shù)值也不相同,這就是系統(tǒng)分組設(shè)計,因素之間具有自然屬性上的嵌套關(guān)系或因素對指標的影響存在主次關(guān)系,不能考察因素間的交互作用,若腫瘤直徑正態(tài)、等方差,可采用多因素方差分析。
分析飼料、溫度等試驗因素或體質(zhì)量、性別、籠舍擺放位置等區(qū)組因素對烏雞增質(zhì)量的影響,只要因素和水平都2個或2個以上,因素的各水平之間交叉組合,且至少有2次重復,就是析因設(shè)計,因素同時施加,有重復的析因設(shè)計可以考察因素間的交互作用,若增質(zhì)量正態(tài)、等方差就可以選擇多因素方差分析。研究飼料、溫度、微量元素銅的添加量等多因素多水平對烏雞增重的影響,可采用析因設(shè)計、正交設(shè)計、均勻設(shè)計、星點設(shè)計,增質(zhì)量正態(tài)、等方差就可以選擇多因素方差分析。若想進行全面試驗,可進行析因設(shè)計,但試驗次數(shù)較多,可采用其他3種部分試驗,要求是試驗因素,自變量是連續(xù)變量,則3種試驗設(shè)計方法都可以采用,其中星點設(shè)計精度高、預測性強,若有非連續(xù)變量,只能采用正交設(shè)計和均勻設(shè)計,均勻設(shè)計比正交設(shè)計試驗次數(shù)少,但只具有均衡分散的特點而缺少了正交設(shè)計整齊可比的特點。正交設(shè)計、均勻設(shè)計、星點設(shè)計分別按照有交互作用的正交設(shè)計表、有交互作用的均勻設(shè)計表、星點設(shè)計表開展試驗,無重復也可以考察因素間的交互作用。
在實際科學研究中,烏雞的初始體質(zhì)量或多或少都會有一些差異,為了降低初始體質(zhì)量對試驗結(jié)果的影響,可以考慮采用協(xié)方差分析,在實施單因素多水平設(shè)計(完全隨機設(shè)計)、隨機區(qū)組設(shè)計、雙因素無重復設(shè)計、析因設(shè)計時,將烏雞的初始體質(zhì)量作為協(xié)變量,可以同時考察飼料和初始體質(zhì)量對烏雞增的影響,初始體質(zhì)量和增質(zhì)量是連續(xù)型計量資料,若增質(zhì)量獨立、正態(tài)、等方差,就可以采用協(xié)方差分析。
多因素試驗設(shè)計的方差分析,單變量計量資料除了滿足獨立、正態(tài)、等方差,重復測量設(shè)計還要滿足球?qū)ΨQ;利用SPSS軟件進行多因素方差分析,系統(tǒng)分組設(shè)計在“模型”模塊中的“平方和類型”選擇“類型Ⅰ”,而其他多因素試驗設(shè)計皆選擇系統(tǒng)默認的“類型Ⅲ”;兩因素方差分析和多因素方差分析,都能夠比較因素影響的大小關(guān)系。除了星點設(shè)計,其他多因素試驗設(shè)計方法都可利用SPSS軟件直接輸出兩因素方差分析和多因素方差分析結(jié)果。星點設(shè)計也可利用SPSS軟件進行統(tǒng)計分析,但需要通過不斷地剔除無意義的交互項和高次項,最終得到一個最佳的簡化方程[6]。對于星點設(shè)計的統(tǒng)計分析,經(jīng)常采用Design-Expert軟件,因為可直接得到全部結(jié)果,即方差分析結(jié)果、極值點、最佳工藝,繪制三維效應面和等高線圖等。
2.2.2計數(shù)資料或等級資料統(tǒng)計分析方法的選擇及在SPSS19.0上的實現(xiàn) 計數(shù)資料或等級資料統(tǒng)計分析方法的選擇需要考慮分析目的、因素數(shù)、水平數(shù)、試驗設(shè)計方法、樣本數(shù)量、列聯(lián)表類型(前提條件)等(表3,5~7)。利用SPSS軟件對計數(shù)資料或等級資料進行統(tǒng)計分析時,都要先對“頻數(shù)”進行加權(quán),操作步驟:數(shù)據(jù)→加權(quán)個案,加權(quán)個案(W)→頻率變量(F):頻數(shù)→確定。一個屬性分類時通??蛇x擇3種統(tǒng)計分析方法(表4)。2個或更多屬性分類時,常將資料整理成列聯(lián)表形式,可分為4大類13型[7-8],統(tǒng)計分析方法見表5~7。其中,SPSS軟件對2×2四格表進行CMH檢驗(分層卡方檢驗),也稱為k×2×2表格數(shù)據(jù)的CMH檢驗,即Mantel-Haenszel分層卡方檢驗,控制混雜因素,考察分層因素(分層變量或控制變量)的影響[9]。R×C單向有序分為2種,1種是分組有序,指標無序;1種是分組無序,指標有序。
表5 1個屬性分類時可選擇的統(tǒng)計分析方法及在SPSS19.0上的實現(xiàn)
表6 列聯(lián)表的類型和舉例
2.3 變量數(shù)量和類型與統(tǒng)計分析方法單變量、雙變量、多變量的統(tǒng)計分析方法見表8。
2.3.1雙變量資料統(tǒng)計分析方法的選擇 根據(jù)分析目的、資料類型、前提條件等選擇雙變量資料統(tǒng)計分析方法(圖4)。例如,考察葡萄糖溶液質(zhì)量濃度(0,40,80,120,160,200 mg/L)與對應的光密度值(因變量,為計量資料)之間的直線回歸關(guān)系,光密度值獨立、正態(tài),可采用Ⅰ型直線回歸分析。如果想考察某一種飼料飼養(yǎng)的30只烏雞胸圍與體質(zhì)量之間的直線回歸關(guān)系,兩者都是計量資料,若自變量胸圍和因變量體質(zhì)量皆呈正態(tài)分布,可采用Ⅱ型直線回歸分析;如果想考察體斜長與胸圍的相關(guān)關(guān)系,若這2個變量都服從正態(tài)分布,可采用Pearson直線相關(guān)分析,如果非正態(tài),可采用Spearman或kendall等級相關(guān)分析。兩個變量間并非都呈直線形式,例如,火箭電泳實驗中,對自變量免疫球蛋白濃度和因變量火箭高度作散點圖,顯示兩者不呈線性關(guān)系,分別用對數(shù)函數(shù)、指數(shù)函數(shù)等曲線擬合,通過P值最終確定兩者存在對數(shù)曲線關(guān)系。如果含有等級資料,例如研究20頭患病狗的血小板數(shù)量(計量資料)與出血狀況(等級資料,分為4個等級:明顯、較明顯、個別血點、無)的關(guān)系,可采用Kendall等級相關(guān)分析。
2.3.2多變量資料統(tǒng)計分析方法的選擇及在SPSS19.0上的實現(xiàn) 按統(tǒng)計研究設(shè)計的功能劃分,一種是試驗設(shè)計,一種是調(diào)查設(shè)計[10]。試驗設(shè)計是根據(jù)研究目的,通過具體的試驗去探測未知事物或現(xiàn)象的本質(zhì)規(guī)律,研究者主動去安排試驗,為了使試
表7 列聯(lián)表中計數(shù)資料和等級資料常用的統(tǒng)計分析方法的選擇及在SPSS19.0上的實現(xiàn)
續(xù)表7
表8 變量數(shù)量與類型與統(tǒng)計分析方法
圖4 雙變量資料統(tǒng)計分析方法選擇的流程圖
驗因素的試驗效應能更加充分地顯露出來,除了試驗因素之外的其他試驗條件盡可能一致,或者嚴格控制區(qū)組因素,例如表3中的15種試驗設(shè)計方法;調(diào)查設(shè)計是為了某種目的而進行的調(diào)查研究,對客觀存在的事物或者現(xiàn)象進行被動觀察,包括詢問相關(guān)情況和測定一些指標,以便弄清楚引起某種結(jié)果的原因和已產(chǎn)生的影響或關(guān)于未來情況的預測。
多變量資料統(tǒng)計分析,即多元統(tǒng)計分析。通常對調(diào)查設(shè)計和試驗設(shè)計中的單組設(shè)計進行多元統(tǒng)計分析,對于其他試驗設(shè)計的某一水平也可以進行多元統(tǒng)計分析,例如,考察某一種飼料飼養(yǎng)的肉用型豬眼肌面積、胴體長、背膘厚等與瘦肉量之間的線性關(guān)系,可采用多元線性回歸分析。調(diào)查設(shè)計的統(tǒng)計分析,例如,為了更加科學地指導學生選擇文科和理科,調(diào)查了600名學生的數(shù)學、物理、化學、語文、歷史、英語成績,進行主成分分析。
多變量資料統(tǒng)計分析方法的選擇需要考慮變量間的關(guān)系、分析目的、變量類型、前提條件等(圖5、表9)。例如想考察某一種飼料飼養(yǎng)的30只烏雞體質(zhì)量與體斜長、胸深、胸寬、胸圍、胸骨長、髖寬、脛長與體質(zhì)量的線性關(guān)系,變量皆是計量資料,為多變量連續(xù)型計量資料,其他變量為自變量,若因變量體質(zhì)量獨立、正態(tài)、線性、齊性,可采用多元線性回歸分析。
多元線性回歸是研究一個變量(因變量)和另一些變量(自變量)間的線性關(guān)系,通徑分析是在多元線性回歸的基礎(chǔ)上將相關(guān)系數(shù)分解為直接通徑系數(shù)和間接通徑系數(shù)[11]。多元線性回歸、逐步回歸分析、通徑分析之間的關(guān)系:多元線性回歸分析能夠建立因變量與自變量間的線性關(guān)系,但并非所有的自變量都對因變量有顯著效應,逐步回歸分析是從多元線性回歸方程式中剔除對因變量作用不顯著的自變量,保留作用顯著的變量,通徑分析不僅可以建立自變量與因變量之間的線性關(guān)系,可以考察某一個自變量對因變量的直接作用,還可以考察該自變量通過其他自變量對因變量的間接作用。3種統(tǒng)計分析方法要求因變量為連續(xù)型計量數(shù)據(jù),且滿足獨立(觀測間獨立)、正態(tài)(殘差服從正態(tài)分布)、線性(自變量與因變量之間是線性關(guān)系)、齊性(殘差的方差齊性)。
研究多個變量之間相關(guān)關(guān)系時,常常用到偏相關(guān)分析。偏相關(guān)分析在研究其中兩個變量之間的相關(guān)關(guān)系時控制可能對其產(chǎn)生影響的其他變量[12]。進行SPSS操作時,把要比較的兩個變量放在“變量”中,將其余的變量放在“控制”中。
多元線性回歸模型適用于分析一個連續(xù)型因變量與一組自變量之間的關(guān)系,但如果因變量為分類變量,則喪失了線性關(guān)系,不適用線性回歸分析,可采用Logistic回歸分析。Logistic回歸按因變量類型劃分為二分類Logistic回歸、無序多分類Logistic回歸、有序Logistic回歸,按研究設(shè)計類型劃分為條件Logistic回歸、非條件Logistic回歸。其中,非條件Logistic回歸通常采用成組設(shè)計,例如,為了研究糖尿病腎病患者死亡的影響因素,用成組設(shè)計研究600名糖尿病腎病患者性別、年齡、心衰(是與否)、呼衰(是與否)、感染(是與否)對死亡(是與否)的影響。若想研究糖尿病的危險因素,要采用配對設(shè)計,病例與對照需要按照一定的配比方式(1∶M),例如1∶2或1∶3,調(diào)查患者和正常人的性別、年齡、心衰(是與否)、呼衰(是與否)、感染(是與否)對死亡(是與否)的影響,統(tǒng)計分析方法采用條件Logistic回歸。同為配對設(shè)計和成組設(shè)計,這里的變量多變量,而表3中相同名稱的兩種試驗設(shè)計方法分別獲得2個配對樣本和2個獨立樣本,按照表8中變量數(shù)量劃分則是單變量。
圖5 多變量資料統(tǒng)計分析方法(多元統(tǒng)計分析方法)選擇流程圖
表9 常用的多變量資料統(tǒng)計分析方法(多元統(tǒng)計分析方法)、舉例及在SPSS19.0上的實現(xiàn)
主成分分析,精選少數(shù)有代表性的綜合指標,來反應原來眾多指標中所含的大部分信息,用較少的變量去解釋原始數(shù)據(jù)中的大部分變異[12]。主成分分析和因子分析適用于變量之間存在較強相關(guān)性的數(shù)據(jù)。SPSS操作時,除了點擊“描述”、“抽取”、“得分”、“選項”模塊,因子分析只比主成分分析多點擊一個模塊即“旋轉(zhuǎn)”模塊,“方法”通常選擇“最大方差法”。
判別分析,首先要有一批分類明確的樣品,根據(jù)這些樣品制定出一個分類標準來指導以后對新樣品的歸類[13]。聚類分析是根據(jù)對象的特征,按照一定的標準對研究對象進行分類[14]。判別分析和聚類分析都是按照“物以類推”的原則來研究事物分類。不同點:聚類分析有別于判別分析的是事先不知道事物的分類,需要根據(jù)事物的數(shù)量表現(xiàn)來聚類。聚類分析,若變量是計量資料,要求多元正態(tài)性、方差齊性。
2.4 樣本數(shù)量和樣本量大小與統(tǒng)計分析方法的檢驗效能若樣本數(shù)量過小,會影響正態(tài)性檢驗、t檢驗、直線回歸分析等的檢驗效能。Logistic回歸樣本量至少>100,>500 比較合適,一般每1個自變量至少需要10例結(jié)局,變量的個數(shù)越多需要的例數(shù)相應也越大[9,15],樣本量過小也會影響其檢驗效能。
3.1 數(shù)據(jù)錄入形式很重要例如,利用Logistic 回歸研究不同因素如組別(試驗組:采用翻轉(zhuǎn)課堂教學模式,對照組:采用傳統(tǒng)教學模式)、專業(yè)(動物科學,動物醫(yī)學)、性別(男,女)與學生對《生物統(tǒng)計學》教學滿意度(因變量)之間的關(guān)系。若因變量為二分類計數(shù)資料(滿意程度分為滿意和不滿意),采用二分類Logistic 回歸,若考察因素間的交互作用,必須點擊“分類”,系統(tǒng)默認“最后一個”為參考類別,賦值時,組別變量1應為試驗組,2為對照組;若不考察交互作用,則不需要點擊“分類”,系統(tǒng)默認“第1個”為參考類別,則組別變量1應為對照組,2為試驗組。若因變量為等級資料(滿意程度分為滿意、一般和不滿意),需采用有序Logistic 回歸,系統(tǒng)默認“最后一個”為參考類別,則組別變量1應為試驗組,2為對照組。
3.2 個別統(tǒng)計分析方法不能輸出全部重要結(jié)果例如,主成分分析中的綜合得分,通徑分析中1個變量通過另1個變量對因變量影響的間接通徑系數(shù),有序分類Logistic回歸分析中OR值(優(yōu)勢比),但都可根據(jù)輸出的部分結(jié)果利用SPSS或Excel數(shù)據(jù)轉(zhuǎn)換間接獲得。
因此,在進行統(tǒng)計分析時,除了要掌握SPSS或Design-Expert軟件操作步驟、數(shù)據(jù)的錄入形式和能夠解讀輸出結(jié)果,更要理解SPSS背后的統(tǒng)計學基本理論,知其然,更知其所以然。
統(tǒng)計分析方法的選擇要考慮分析目的、因素和水平數(shù)量、試驗設(shè)計類型、資料類型、變量類型和數(shù)量、統(tǒng)計分析方法的前提條件、樣本數(shù)量和樣本量等,在開展實際科學試驗工作前,還要反復斟酌測定指標的類型、必要性、數(shù)量、重復次數(shù)、受限條件等,在專業(yè)知識和統(tǒng)計學原理基礎(chǔ)上,在綜合考慮人力、物力、財力、精力、時間等方面的承受能力后再靈活地選擇試驗設(shè)計方法和統(tǒng)計分析方法。