戴金輝,韓存
(山東工商學(xué)院a.統(tǒng)計(jì)學(xué)院;b.價(jià)格指數(shù)研究中心,山東煙臺(tái)264005)
考慮兩個(gè)類別自變量對數(shù)值因變量影響的方差分析稱為雙因素方差分析。在進(jìn)行分析時(shí)有兩種情況:一是只考慮兩個(gè)影響因素對因變量的單獨(dú)影響,這時(shí)的方差分析稱為無交互效應(yīng)的雙因素方差分析;二是除了兩個(gè)影響因素外,還考慮兩個(gè)影響因素的搭配對因變量產(chǎn)生的交互效應(yīng),這時(shí)的方差分析稱為有交互效應(yīng)的雙因素方差分析。經(jīng)常有人把有交互效應(yīng)的雙因素方差分析或者無交互效應(yīng)的雙因素方差分析模型直接應(yīng)用,本文探討有交互效應(yīng)雙因素方差分析與無交互效應(yīng)的雙影響因素方差分析在應(yīng)用上的區(qū)別。
雙因素方差分析的數(shù)據(jù)結(jié)構(gòu)見表1。
表1 雙因素方差分析數(shù)據(jù)結(jié)構(gòu)表
設(shè)影響因素A有I個(gè)水平,影響因素B有J個(gè)水平。兩個(gè)影響因素共有IJ種不同的水平組合。如果每種水平組合只測得一個(gè)觀測值,則有IJ個(gè)觀測值,這樣的測量屬于無重復(fù)測量(無重復(fù)實(shí)驗(yàn))。如果每種水平組合測得多個(gè)觀測值,這樣的測量就是重復(fù)測量(重復(fù)實(shí)驗(yàn))。如果每種水平組合重復(fù)測量的次數(shù)相同,那么將重復(fù)次數(shù)記為K(K≥2),這時(shí)兩個(gè)影響因素的IJ種不同水平組合共有IJK個(gè)觀測值。
為方便接下來的表述,引進(jìn)下列表示符號(hào):
μ:總均值,它是所有水平的均值μij的平均。
αi:影響因素A的效應(yīng)。它衡量的是影響因素A的第i個(gè)水平均值與總均值的差異程度,即αi=-μ。
βj:影響因素B的效應(yīng)。它衡量的是影響因素B的第j個(gè)水平均值與總均值的差異程度,即βj=-μ。
γij:影響因素A的第i個(gè)水平和影響因素B的第j個(gè)水平搭配產(chǎn)生的交互效應(yīng)。它衡量的是影響因素A的第i個(gè)水平和影響因素B的第j個(gè)水平搭配(共有IJ個(gè))對因變量產(chǎn)生的效應(yīng)。
εijk:隨機(jī)誤差。反映隨機(jī)因素對因變量的影響。
這樣,對于任何一個(gè)觀測值yijk,都可以表達(dá)成下面的線性組合,即:
yijk=μ+αi+βj+γij+εijk
其中i=1,2,…,I;j=1,2,…,J;k=1,2,…,K
yijk表示影響因素A的第i個(gè)水平和影響因素B的第j個(gè)水平組合的第k個(gè)觀測值;μ表示不考慮影響因素A和影響因素B的影響時(shí),觀測值總的平均值,它是模型的常數(shù)項(xiàng)(截距);αi表示影響因素A的水平為i時(shí)對觀測數(shù)據(jù)的附加效應(yīng),它所對應(yīng)的就是影響因素A的水平誤差;βj表示影響因素B的水平為j時(shí)對觀測數(shù)據(jù)的附加效應(yīng),它所對應(yīng)的就是影響因素B的水平誤差;γij表示影響因素A的第i個(gè)水平和影響因素B的第j個(gè)水平搭配產(chǎn)生的交互效應(yīng);εijk表示影響因素A的第i個(gè)水平和影響因素B的第j個(gè)水平組合中的第k個(gè)觀測值的隨機(jī)誤差,同時(shí)假定εijk服從均值為0,方差為常數(shù)的正態(tài)分布。
有交互作用方差分析過程:
(1)對于影響因素A的I種水平和影響因素B的J種水平,要檢驗(yàn)影響因素A的效應(yīng),影響因素B的效應(yīng)、兩個(gè)影響因素的交互效應(yīng),也就是檢驗(yàn)下面的假設(shè):
H0A:αi=0(i=1,2,…,I)(影響因素A的水平效應(yīng)不顯著)
H1A:αi(i=1,2,…,I)至少有一個(gè)不等于0(影響因素A的水平效應(yīng)顯著)
檢驗(yàn)影響因素B的假設(shè):
H0B:βj=0(j=1,2,…,J)(影響因素B的水平效應(yīng)不顯著)
H1B:βj(j=1,2,…,J)至少有一個(gè)不等于0(影響因素B的水平效應(yīng)顯著)
檢驗(yàn)交互效應(yīng)的假設(shè):
H0AB:γij=0(i=1,2,…,I;j=1,2,…,J)(影響因素A與影響因素B交互效應(yīng)不顯著)
H1AB:γij(i=1,2,…,I;j=1,2,…,J)至少有一個(gè)不等于0(影響因素A與影響因素B交互效應(yīng)顯著)
(2)檢驗(yàn)上述假設(shè)時(shí),與模型yijk=μ+αi+βj+γij+εijk相應(yīng)的誤差分解示意圖,見圖1。
圖1 有交互作用的雙因素方差分析誤差分解
根據(jù)上述誤差分解原理,可以構(gòu)建用于檢驗(yàn)的統(tǒng)計(jì)量FA,F(xiàn)B,F(xiàn)AB。
設(shè)yijk表示影響因素A的第i個(gè)水平和影響因素B的第j個(gè)水平組合的第k個(gè)觀測值,表示影響因素A的第i個(gè)水平的樣本均值表示影響因素B的第j個(gè)水平的樣本均值,表示影響因素A的第i個(gè)水平和影響因素B的第j個(gè)水平組合的樣本均值,為全部IJK個(gè)觀察值的總均值。
各平方和的計(jì)算公式如下:
將各平方和除以相應(yīng)的自由度df,得到各均方,再將各水平均方分別除以誤差均方,即得到用于檢驗(yàn)影響因素A、影響因素B、影響因素AB的統(tǒng)計(jì)量FA、FB、FAB,見表2所示。
表2 有交互作用的雙因素方差分析表
多重判定系數(shù)R2,它度量了影響因素A、影響因素B和兩者交互作用AB對因變量的聯(lián)合影響程度,R2的計(jì)算公式為:
R2數(shù)值越大,說明影響因素A、影響因素B和其交互作用AB對因變量的聯(lián)合影響越大,隨機(jī)誤差平方和占總平方和的比例越小,說明影響因素A、影響因素B和其交互作用AB中的一個(gè)或者多個(gè)對因變量的變動(dòng)有顯著性的影響。
多重判定系數(shù)R2的平方根r(復(fù)相關(guān)系數(shù))則反映了影響因素A、影響因素B和其交互作用AB聯(lián)合起來與因變量之間的關(guān)系強(qiáng)度,r取值越大,說明影響因素A、影響因素B和其交互作用AB與因變量之間有較強(qiáng)的關(guān)系。
(3)根據(jù)給定的顯著性水平α,查表,確定臨界值Fα。(4)做出統(tǒng)計(jì)決策。
如果FA>Fα,則拒絕原假設(shè)H0A,表明影響因素A對因變量的影響是顯著的;反之,若FA<Fα,則不拒絕原假設(shè)H0A,表明影響因素A對因變量無顯著影響。
若FB>Fα,則拒絕原假設(shè)H0B,表明影響因素B對因變量的影響是顯著的;反之,若FB<Fα,則不拒絕原假設(shè)H0B,表明影響因素B對因變量無顯著影響。
若FAB>Fα,則拒絕原假設(shè)H0AB,表明影響因素AB交互作用對因變量的影響是顯著的;反之,若FAB<Fα,則不拒絕原假設(shè)H0AB,表明影響因素AB交互作用對因變量無顯著影響。
當(dāng)交互效應(yīng)γij為0時(shí),有交互作用的雙因素方差分析模型就變?yōu)椋?/p>
這是無交互效應(yīng)雙因素方差分析的數(shù)學(xué)模型,顯然它是有交互效應(yīng)的方差分析模型的一個(gè)特例。無交互作用方差分析過程:
(1)以前面對有交互作用雙因素方差分析過程為基礎(chǔ),對于無交互作用的雙因素方差分析就相對要簡單了。對于影響因素A的I種水平和影響因素B的J種水平,要檢驗(yàn)影響因素A的效應(yīng)、影響因素B的效應(yīng),也就是檢驗(yàn)下面的假設(shè):
H0A:αi=0(i=1,2,…,I)(影響因素A的水平效應(yīng)不顯著)
H1A:αi(i=1,2,…,I)至少有一個(gè)不等于0(影響因素A的水平效應(yīng)顯著)
檢驗(yàn)影響因素B的假設(shè):
H0B:βj=0(j=1,2,…,J)(影響因素B的水平效應(yīng)不顯著)
H1B:βj(j=1,2,…,J)至少有一個(gè)不等于0(影響因素B的水平效應(yīng)顯著)
與有交互作用雙因素方差分析的三種假設(shè)相比,變?yōu)閮煞N假設(shè)。
(2)與有交互作用雙因素方差分析的誤差分析相比,無交互作用的雙因素方差分析誤差分解過程也變得簡單,見圖2。
圖2 無交互作用的雙因素方差分析誤差分解
根據(jù)上述誤差分解原理,可以構(gòu)建用于檢驗(yàn)的統(tǒng)計(jì)量FA,F(xiàn)B(見表3)。
表3 無交互作用的雙因素方差分析表
多重判定系數(shù)R2,它度量了影響因素A和影響因素B對因變量的聯(lián)合影響程度,R2的計(jì)算公式為:
R2數(shù)值越大,說明影響因素A和影響因素B對因變量的聯(lián)合影響越大,隨機(jī)誤差平方和占總平方和的比例越小,說明影響因素A和影響因素B有一個(gè)或者兩個(gè)對因變量的變動(dòng)有顯著性的影響。
多重判定系數(shù)R2的平方根r(復(fù)相關(guān)系數(shù))則反映了影響因素A和影響因素B與因變量之間的關(guān)系強(qiáng)度,r取值越大,說明影響因素A和影響因素B與因變量之間有較強(qiáng)的關(guān)系。
(3)根據(jù)給定的顯著性水平α,查表,確定臨界值Fα。
(4)做出統(tǒng)計(jì)決策。
如果FA>Fα,則拒絕原假設(shè)H0A,表明影響因素A對因變量的影響是顯著的;反之,若FA<Fα,則不拒絕原假設(shè)H0A,表明影響因素A對因變量無顯著影響。
若FB>Fα,則拒絕原假設(shè)H0B,表明影響因素B對因變量的影響是顯著的;反之,若FB<Fα,則不拒絕原假設(shè)H0B,表明影響因素B對因變量無顯著影響。
假定有甲、乙兩種施肥方式,3種小麥品種,搭配共有6種組合。如果選擇30塊地進(jìn)行試驗(yàn),則每種搭配進(jìn)行5次試驗(yàn),實(shí)驗(yàn)數(shù)據(jù)見表4。
表4 小麥品種和施肥方式的實(shí)驗(yàn)數(shù)據(jù)
檢驗(yàn)小麥品種、施肥方式和小麥品種與施肥方式交互作用對產(chǎn)量的影響。
解:這是一個(gè)雙因素(2×3水平)的實(shí)驗(yàn)問題,并且每個(gè)因素的搭配各做了5次觀察,所以是等重復(fù)的雙因素方差分析。
提出假設(shè):
H0A:施肥方式對小麥產(chǎn)量無顯著影響
H1A:施肥方式對小麥產(chǎn)量有顯著影響
H0B:小麥品種對小麥產(chǎn)量無顯著影響
H1B:小麥品種對小麥產(chǎn)量有顯著影響
H0AB:施肥方式和小麥品種搭配對小麥產(chǎn)量無顯著影響
H1AB:施肥方式和小麥品種搭配對小麥產(chǎn)量有顯著影響
數(shù)據(jù)經(jīng)過統(tǒng)計(jì)分析軟件SPSS計(jì)算后(與統(tǒng)計(jì)分析軟件EXCEL計(jì)算結(jié)果會(huì)有一定差異),結(jié)果見表5。
表5 有交互效應(yīng)的雙因素方差分析結(jié)果
有交互效應(yīng)的雙因素方差分析結(jié)果表明:施肥方式和品種兩個(gè)因素對實(shí)驗(yàn)結(jié)果的影響是顯著的,而施肥方式與品種的交互作用對實(shí)驗(yàn)結(jié)果的影響是不顯著的。既然施肥方式與品種的交互作用對實(shí)驗(yàn)結(jié)果的影響是不顯著的,可以對施肥方式與品種進(jìn)行無交互作用的雙因素方差分析,結(jié)果如表6所示。
表6 無交互效應(yīng)的雙因素方差分析結(jié)果
無交互效應(yīng)的雙因素方差分析結(jié)果表明:施肥方式和品種兩個(gè)因素對實(shí)驗(yàn)結(jié)果的影響都是顯著的。
比較表5和表6,在有交互效應(yīng)的雙因素方差分析與無交互效應(yīng)的雙因素方差分析結(jié)果表明:施肥方式和品種在兩種情況下的Ⅲ型平方和沒有變,但是在有交互作用的雙因素方差分析中,隨機(jī)誤差比無交互作用的雙因素方差分析要小,并且有交互作用的雙因素方差分析中,隨機(jī)誤差與交互作用平方和等于無交互作用的雙因素方差分析中的隨機(jī)誤差,相應(yīng)的F值會(huì)有稍許變化,但是不影響計(jì)算結(jié)果。
根據(jù)方差分析表可知,施肥方式對小麥產(chǎn)量影響顯著;小麥品種對小麥產(chǎn)量影響顯著;施肥方式和小麥品種搭配對小麥產(chǎn)量影響不顯著。如果考慮施肥方式、小麥品種和兩者的交互作用,判定系數(shù)R2=89.47%,而如果忽略了兩者的交互作用,則判定系數(shù)為R2=88.59%,沒有出現(xiàn)明顯的降低。在經(jīng)過檢驗(yàn)施肥方式和小麥品種搭配對小麥產(chǎn)量無顯著影響后,此題可以按照無交互作用的雙因素方差分析進(jìn)行解答。
總結(jié)有兩個(gè)影響因素時(shí),考慮交互效應(yīng)的方差分析與分別對兩個(gè)影響因素做單因素方差分析是不同的。兩個(gè)單因素方差分析實(shí)際上是假定兩個(gè)影響因素間不存在交互效應(yīng),在兩個(gè)影響因素間存在交互效應(yīng)時(shí)可能會(huì)得出錯(cuò)誤結(jié)論。因此,當(dāng)有兩個(gè)影響因素時(shí),應(yīng)首先考慮使用有交互效應(yīng)的方差分析模型,當(dāng)經(jīng)過統(tǒng)計(jì)檢驗(yàn),交互效應(yīng)不顯著時(shí),再考慮使用兩個(gè)影響因素的單影響因素方差分析模型。
[1] 賈俊平.統(tǒng)計(jì)學(xué)——基于SPSS[M].北京:中國人民大學(xué)出版社,2014.
[2] 茆詩松,周紀(jì)薌.概率論與數(shù)理統(tǒng)計(jì)[M].北京:中國統(tǒng)計(jì)出版社,2007.
[3] 戴金輝,袁靜.單因素方差分析與多元線性回歸分析檢驗(yàn)方法比較[J].統(tǒng)計(jì)與決策,2016,(9).
[4] 戴金輝,代金輝.方差分析在跳水運(yùn)動(dòng)員成績管理中的應(yīng)用[J].統(tǒng)計(jì)與決策,2016,(22).
[5] 戴金輝.單因素方差分析中異方差的檢驗(yàn)與修正[J].統(tǒng)計(jì)與決策,2017,(8).