黎光明 張敏強(qiáng)
(1華南師范大學(xué)心理應(yīng)用研究中心,廣州 510631) (2廣州大學(xué)教育學(xué)院心理系,廣州 510006)
概化理論,又稱為方差分量模型,在心理與教育測量實踐中有著廣泛的應(yīng)用。Bootstrap方法,也稱“自助法”,是一種有放回的再抽樣方法,可用于概化理論的方差分量及其變異量估計(Brennan,2001)。
Bootstrap方法是美國斯坦福大學(xué)統(tǒng)計系Efron(1979)提出的一種統(tǒng)計方法。這種方法是統(tǒng)計學(xué)上的新突破之一(Fan,2003),其實質(zhì)是模擬了從原始數(shù)據(jù)(把它看作“總體”)中隨機(jī)抽取大量樣本的過程,既可以用于參數(shù)估計,也可用于非參數(shù)估計(Cui &Kolen,2008)。使用Bootstrap 方法的基本程序是:以原始數(shù)據(jù)(樣本容量為n
) 為基礎(chǔ),在保證每個觀察單位每次被抽到的概率相等(1/n
)的情況下,作有放回的重復(fù)抽樣,所得樣本被稱為Bootstrap樣本。根據(jù)一個 Bootstrap樣本計算出相應(yīng)的統(tǒng)計量,就得到參數(shù)的一個估計值。這樣重復(fù)若干次(記為 B,常設(shè) B = 1000),就形成了一個參數(shù)的近似抽樣分布。根據(jù)這個抽樣分布,可以估計出平均值、標(biāo)準(zhǔn)差、相應(yīng)的百分位數(shù),進(jìn)而獲得參數(shù)的標(biāo)準(zhǔn)誤和置信區(qū)間。在這個過程中,如果頻數(shù)分布是正態(tài)的,可以用參數(shù)的標(biāo)準(zhǔn)誤直接計算其95%置信區(qū)間。如果頻數(shù)分布不是正態(tài)的,可以用第 2.5百分位數(shù)和第97.5百分位數(shù)來估計其95%置信區(qū)間。雖然上述 Bootstrap方法過程比較簡單,但是如何進(jìn)行 Bootstrap方法再抽樣卻是個問題。這是因為對于完全隨機(jī)的p×i設(shè)計存在多種抽樣,不同的抽樣方法抽取樣本不同,可能導(dǎo)致計算出的統(tǒng)計量(如標(biāo)準(zhǔn)誤)有別。因此,需要對 Bootstrap方法再抽樣進(jìn)行考慮,包括再抽樣策略和未校正與校正策略。
第一,再抽樣策略。因為是完全隨機(jī)的 p×i設(shè)計,進(jìn)行再抽樣既要考慮p和i,也要考慮殘差項r。根據(jù) Bootstrap再抽樣原則,可供考慮的 Bootstrap策略有10種(Wiley,2001),分別是boot-p、boot-i、boot-pi、boot-pr、boot-ir、boot-pir、boot-effects、boot-oneway、boot-individual和 boot-main。前 7種再抽樣策略是“單一”的再抽樣策略,后3種再抽樣策略是“綜合”的再抽樣策略。其中boot-p表示固定i和r,僅考慮對p抽樣; boot-i表示固定p和r,僅考慮對i抽樣; Boot-pi表示固定r,對p和i同時抽樣; Boot-pr表示固定i,考慮對p和r抽樣; boot-ir表示固定p,考慮對i和r抽樣; boot-pir表示考慮對p、i和r同時抽樣; Boot-effects表示用“概率機(jī)制”P來抽取隨機(jī)效應(yīng)樣本的一種方法(Efron & Tibshrani,1993; Wiley,2001; Othman,1995); boot-oneway是一種再抽樣策略,要求對比 p和 i的樣本容量,按照較大者進(jìn)行“單一”的再抽樣策略,如 boot-p或boot-i,但不可能是boot-pi (Leucht & Simth,1989)。boot-individual表示對 p使用 boot-p,對 i使用boot-i,對pi使用boot-pi,而boot-main則表示對p和pi使用boot-p,對 i使用 boot-i (Othman,1995)。Wiley (2001)認(rèn)為boot-effects對于不平衡的數(shù)據(jù)不適合,因此這種再抽樣策略在實踐中受到限制。在考慮殘差抽樣的幾種策略(boot-pr、boot-ir、boot-pir)中,r被作為一個隨機(jī)因素。
公式(5)和(6)其實與Brennan等人(1987)乘以校正系數(shù)估計方差分量等價。
Brennan,Leucht和Othman等人均認(rèn)為對概化理論方差分量的估計存在“最佳”的Bootstrap策略。但是,Wiley (2001)給出了完全隨機(jī)的p×i設(shè)計下各種再抽樣策略下的校正公式推導(dǎo),否定了這種說話,即對于方差分量估計不存在“最佳”情況。也就是說,如果對原來 Bootstrap方法再抽樣策略進(jìn)行校正,那么所有再抽樣策略都能夠準(zhǔn)確估計方差分量。Wiley (2001)的研究具有極其重要的意義,Wiley從理論上推導(dǎo)出如何對各種再抽樣策略進(jìn)行有效校正。Wiley (2001)認(rèn)為在完全隨機(jī)的p×i設(shè)計下,雖然 Bootstrap方法進(jìn)行方差分量點(diǎn)估計不存在“最佳”策略,但對于方差分量變異量的估計情況就不同了。因此,需要探討未校正的Bootstrap方法和校正的 Bootstrap方法對于估計方差分量標(biāo)準(zhǔn)誤和置信區(qū)間之間存在的差別。本研究借鑒和改進(jìn)了Wiley的成果,進(jìn)一步采用了校正的Bootstrap方法來估計概化理論方差分量的變異量。
根據(jù) Bootstrap方法的實現(xiàn)過程,一些學(xué)者(Leucht & Smith,1989; Othman,1995; Brennan,2001; Wiley,2001)已注意到,雖然Bootstrap方法乘以一定校正系數(shù)后對方差分量估計有所改善,但存在以下問題:
第一,未見學(xué)者對于校正的 Bootstrap方法是否改善概化理論方差分量變異量估計,作出詳細(xì)討論。Wiley (2001)注意到校正的Bootstrap方法對于方差分量估計具有等價性(equivalence),這種等價性表現(xiàn)在各種校正的Bootstrap策略估計的方差分量相當(dāng)一致。但這卻不能拓廣至方差分量變異量。然而,Wiley的研究僅是比較了各種Bootstrap策略,卻沒有對校正的與未校正的Bootstrap方法進(jìn)行比較。
第二,鮮有學(xué)者真正意義上對非正態(tài)分布數(shù)據(jù)進(jìn)行過比較,特別是對校正的和未校正的Bootstrap方法。Brennan、Leucht、Othman和 Wiley等人的研究,用模擬數(shù)據(jù)進(jìn)行方法之間的比較,僅限于正態(tài)分布數(shù)據(jù)。但是,非正態(tài)分布數(shù)據(jù)具有常見性,一些考試數(shù)據(jù),如選擇題,就是0或1記分,是二項分布數(shù)據(jù),一些心理測驗數(shù)據(jù),用Likert形式評分,如 0~4分,就是多項分布數(shù)據(jù),缺乏探討非正態(tài)分布數(shù)據(jù)形式下方法之間的比較,顯得不足。
第三,一些學(xué)者的研究仍不充分。黎光明和張敏強(qiáng)(2009a)認(rèn)為,數(shù)據(jù)分布對概化理論方差分量變異量估計有影響,與 Traditional、Jackknife、MCMC三種方法相比,Bootstrap方法具有方法的“跨分布性”,但是這種性質(zhì)是建立在 Bootstrap方法“分而治之”策略之下,boot-p、boot-pi、boot-i策略分別估計p、i、pi的方差分量變異量最佳。然而,boot-p、boot-pi、boot-i策略是使用校正的方法好,還是使用未校正的方法好,未作出進(jìn)一步的討論和說明。
即使 Bootstrap方法具有方法的“跨分布性”,且具有統(tǒng)一規(guī)則,也僅僅解釋了如何使用Bootstrap方法的問題。對于Bootstrap的 boot-p、boot-pi、boot-i策略如何選擇方差分量標(biāo)準(zhǔn)誤和置信區(qū)間估計方法,卻是一個值得更為深入討論的問題。Wiley (2001)認(rèn)為,未校正的Bootstrap方法與校正的 Bootstrap方法在變異量估計上相當(dāng)。這個結(jié)論是粗糙的,從整體而言,并沒有完全針對某一種 Bootstrap策略進(jìn)行深入研究,更忽略了兩種方法在方差分量變異量估計上的精確比較。因此,需要更為深入地探討,在多種數(shù)據(jù)分布下(如正態(tài)分布、二項分布、多項分布和偏態(tài)分布),校正的Bootstrap方法估計概化理論方差分量及其變異量是否優(yōu)于未校正的Bootstrap方法?;蛘哒f,跨越不同數(shù)據(jù)分布,相比于未校正的Bootstrap方法,校正的 Bootstrap方法是否對概化理論方差分量及其變異量估計有所改善。
基于 p×i設(shè)計概化理論模型,運(yùn)用蒙特卡洛數(shù)據(jù)模擬技術(shù)產(chǎn)生各種分布數(shù)據(jù)。數(shù)據(jù)模擬所使用的軟件為R軟件,產(chǎn)生的模擬數(shù)據(jù)包括:正態(tài)分布、二項分布、多項分布和偏態(tài)分布數(shù)據(jù)。
分析工具為R軟件和HyperbolicDist軟件包。借助這些軟件或軟件包,自編完成研究程序。通過自編的R程序,產(chǎn)生1000批次的模擬數(shù)據(jù),直接實現(xiàn) Bootstrap方法對方差分量及其變異量的估計,HyperbolicDist軟件包的作用在于生成服從一定偏度的偏態(tài)分布數(shù)據(jù)。
對正態(tài)、二項、多項和偏態(tài)分布模擬數(shù)據(jù),分別計算校正的和未校正的Bootstrap方法的boot-p、boot-i、boot-pi策略估計的三個方差分量偏差(如表1)。通過比較估計的方差分量偏差,可以看出不同數(shù)據(jù)分布下不同方法估計方差分量的性能差異。
表1中 vc.p_bias、vc.i_bias、vc.pi_bias分別表示人的方差分量偏差、題目的方差分量偏差、人與題目交互作用(包括殘差)的方差分量偏差。adjust和non-adjust分別表示校正的和未校正的Bootstrap方法。boot-p、boot-i、boot-pi表示 Bootstrap方法的三種策略。Normal、Dichotomous、Polytomous、Skewnessed分別表示正態(tài)分布、二項分布、多項分布和偏態(tài)分布數(shù)據(jù)。表 1中的數(shù)值表示使用Bootstrap方法所得的方差分量偏差,這些偏差是將估計值與參數(shù)值相減后獲得的,例如,0.0289表示對正態(tài)分布數(shù)據(jù)使用校正的 Bootstrap方法的boot-p策略估計的方差分量為 4.2089,參數(shù)值為4.000,兩者相減后即為0.0289。又如,?0.0114表示對正態(tài)分布數(shù)據(jù)使用未校正的 Bootstrap方法的boot-p策略估計的方差分量為 3.9886,參數(shù)值為4.000,兩者相減后即為?0.0114,其它類似解釋。
對正態(tài)、二項、多項和偏態(tài)分布模擬數(shù)據(jù),分別計算校正的和未校正的Bootstrap方法的boot-p、boot-i 、boot-pi策略估計的三個方差分量標(biāo)準(zhǔn)誤偏差(如表 2)。通過比較估計的方差分量標(biāo)準(zhǔn)誤偏差,可以看出不同數(shù)據(jù)分布下不同方法估計方差分量標(biāo)準(zhǔn)誤的性能差異。
表2中 SE (vc.p)_bias、SE (vc.i)_bias、SE(vc.pi)_bias分別表示人的方差分量標(biāo)準(zhǔn)誤偏差、題目的方差分量標(biāo)準(zhǔn)誤偏差、人與題目交互作用(包括殘差)的方差分量標(biāo)準(zhǔn)誤偏差。其它解釋同表1。例如,?0.0192表示對正態(tài)分布數(shù)據(jù)使用未校正的Bootstrap方法的 boot-p策略估計的方差分量標(biāo)準(zhǔn)誤為 1.0095,參數(shù)值為 1.0287,兩者相減后即為?0.0192,其它類似解釋。
對正態(tài)、二項、多項和偏態(tài)分布模擬數(shù)據(jù),分別計算校正的和未校正的Bootstrap方法的boot-p、boot-i、boot-pi策略估計的三個方差分量置信區(qū)間包含率(如表 3)。通過比較估計的方差分量置信區(qū)間包含率,可以看出不同數(shù)據(jù)分布下不同方法估計方差分量置信區(qū)間的性能差異。
表3中 CI (vc.p)、CI (vc.i)、CI (vc.pi)分別表示人的方差分量置信區(qū)間包含率、題目的方差分量置信區(qū)間包含率、人與題目交互作用(包括殘差)的方差分量置信區(qū)間包含率。其它解釋同表 1。例如,0.769表示對正態(tài)分布數(shù)據(jù)使用未校正的Bootstrap方法的 boot-p策略估計的方差分量置信區(qū)間包含率,其它類似解釋。計算80%置信區(qū)間包含率的方法是:通過判斷參數(shù)是否落入10%到90%兩分位點(diǎn)對應(yīng)的方差分量之間,如果某次成功,則包含次數(shù)加 1,最后計算落入的總次數(shù),并除以 1000,即為最后的包含率。
表1 不同分布數(shù)據(jù)Bootstrap方法估計的方差分量偏差
表2 不同分布數(shù)據(jù)Bootstrap方法估計的方差分量標(biāo)準(zhǔn)誤偏差
表3 不同分布數(shù)據(jù)Bootstrap方法估計的方差分量置信區(qū)間包含率
根據(jù)表 1中四種分布數(shù)據(jù) Bootstrap方法的boot-p、boot-i 、boot-pi策略估計的三個方差分量偏差,可以繪出它們對應(yīng)的偏差圖,如圖1(a)~(d)所示。
從圖 1(a)可以看出,對于正態(tài)分布數(shù)據(jù),在人的方差分量偏差上,未校正的boot-pi和boot-i策略偏差分別為3.2265和3.1563,相對較大,遠(yuǎn)離橫軸,未校正的boot-p策略偏差為-0.0114,相對較小,幾乎接近橫軸,校正的boot-p、boot-i、boot-pi策略偏差分別為 0.0289、0.0291、0.0310,相對較小。在題目的方差分量偏差上,未校正的 boot-pi策略偏差相對較小,未校正的boot-i和boot-p策略偏差相對較大,校正的boot-p、boot-i 、boot-pi策略偏差相對較小。在人與題目交互作用(包括殘差)的方差分量偏差上,未校正的boot-p、boot-i、boot-pi策略偏差相對較大,校正的boot-p、boot-i、boot-pi策略偏差相對較小。對圖 1(a)的分析可知,對于正態(tài)分布數(shù)據(jù),校正的 Bootstrap方法各種策略估計方差分量較為接近,策略間具有“等價性”,這與 Wiley(2001)的結(jié)論一致。
圖1 正態(tài)、二項、多項和偏態(tài)分布數(shù)據(jù)Bootstrap方法估計的方差分量偏差圖
從圖 1(b)可以看出,對于二項分布數(shù)據(jù),在人的方差分量偏差上,未校正的 boot-p、boot-i、boot-pi策略方差分量偏差相對較大,校正的boot-p、boot-i、boot-pi策略方差分量偏差相對較小。在題目的方差分量偏差上,校正的和未校正的boot-p、boot-i、boot-pi策略方差分量偏差相當(dāng),相對較小。在人與題目交互作用(包括殘差)的方差分量偏差上,校正的boot-p、boot-i、boot-pi策略方差分量偏差相對較大,校正的boot-p、boot-i、boot-pi策略偏差相對較小。
從圖 1(c)可以看出,對于多項分布數(shù)據(jù),其解釋可參考圖1(a)。
從圖 1(d)可以看出,對于偏態(tài)分布數(shù)據(jù),在人的方差分量偏差上,未校正的 boot-p、boot-i、boot-pi策略方差分量偏差相對較大,校正的boot-p、boot-i、boot-pi策略方差分量偏差相對較小。在題目的方差分量偏差上,未校正的 boot-pi策略方差分量偏差相對較大,未校正的boot-p和boot-i策略方差分量偏差相當(dāng),校正的 boot-p、boot-i、boot-pi策略方差分量偏差相當(dāng),表現(xiàn)出 Wiley(2001)提出的“等價性”。但是,值得注意的是,偏差并沒有接近橫軸,這與圖 1(a)~(c)結(jié)果不一致,這說明數(shù)據(jù)的“偏態(tài)性”會影響數(shù)據(jù)的方差分量估計精度,這是一些研究未注意到的地方(Othman,1995; Wiley,2001; Tong & Brennan,2007),對比校正的和未校正的 boot-p、boot-i、boot-pi在題目上的方差分量偏差,前者仍然小于后者。在人與題目交互作用(包括殘差)的方差分量偏差上,未校正的boot-p、boot-i、boot-pi策略偏差相對較大,校正的boot-p、boot-i、boot-pi策略方偏差相對較小。
t
=2.021,p
=0.051,表明差異顯著性檢驗相伴概率處于邊緣顯著水平(0.050 <p
< 0.100),從總體趨勢看,可以認(rèn)為校正的和未校正的 boot-p、boot-i、boot-pi策略在三個方差分量的標(biāo)準(zhǔn)誤偏差存在差異,前者的偏差小于后者的偏差。從表 2可以看出,對于正態(tài)分布數(shù)據(jù),校正的和未校正的 boot-p策略估計人的方差分量標(biāo)準(zhǔn)誤偏差分別為-0.0192和-0.0293,絕對偏差相對較小,而校正的和未校正的boot-i策略估計人的方差分量標(biāo)準(zhǔn)誤偏差分別為0.4687和0.4204,校正的和未校正的 boot-pi策略估計人的方差分量標(biāo)準(zhǔn)誤偏差分別為 1.0676和 1.0024,絕對偏差相對較大。因此,可以認(rèn)為,對于正態(tài)分布數(shù)據(jù),boot-p策略估計人的方差分量標(biāo)準(zhǔn)誤最佳。同理,boot-pi策略估計題目的方差分量標(biāo)準(zhǔn)誤最佳,boot-p策略估計人與題目交互作用(包括殘差)的方差分量標(biāo)準(zhǔn)誤最佳,boot-i策略次佳。
在表 2中,依照正態(tài)分布數(shù)據(jù)的分析方法,對于二項和多項分布數(shù)據(jù),boot-p策略估計人的方差分量標(biāo)準(zhǔn)誤最佳,boot-pi策略估計題目的方差分量標(biāo)準(zhǔn)誤最佳,boot-i策略估計人與題目交互作用(包括殘差)的方差分量標(biāo)準(zhǔn)誤最佳。對于偏態(tài)分布數(shù)據(jù),boot-pi策略估計人的方差分量標(biāo)準(zhǔn)誤最佳,boot-p策略次佳,boot-pi策略估計題目的方差分量標(biāo)準(zhǔn)誤最佳,boot-i策略估計人與題目交互作用(包括殘差)的方差分量標(biāo)準(zhǔn)誤最佳。
根據(jù)以上分析,整合四種分布數(shù)據(jù),boot-p策略估計SE (vc.p)最佳,boot-pi策略估計SE (vc.i)最佳,boot-i策略估計 SE (vc.pi)最佳,這符合Bootstrap方法“分而治之”策略規(guī)則。根據(jù)這種“分而治之”策略規(guī)則,對于概化理論方差分量標(biāo)準(zhǔn)誤估計,應(yīng)該探索是否校正的方法優(yōu)于未校正的方法,如果前者更好,應(yīng)該采用校正的方法。接下來,按照“分而治之”策略規(guī)則,使用校正的和未校正的方法,分別分析boot-p策略估計SE (vc.p),boot-pi策略估計SE (vc.i),boot-i策略估計SE (vc.pi),結(jié)果如圖2(a)~(c)所示。
從圖 2(a)可以看出,未校正的和校正的 boot-p策略估計p的方差分量標(biāo)準(zhǔn)誤偏差不一致,表明兩種方法估計 p的方差分量標(biāo)準(zhǔn)誤有差別,校正的boot-p策略的標(biāo)準(zhǔn)誤偏差更小。與未校正的方法相比,校正的boot-p策略估計p的方差分量標(biāo)準(zhǔn)誤相對更為準(zhǔn)確。跨越不同分布,發(fā)現(xiàn)偏態(tài)分布數(shù)據(jù)估計的標(biāo)準(zhǔn)誤偏差最大,然后是正態(tài)分布和多項分布,標(biāo)準(zhǔn)誤最小是二項分布??缭讲煌植脊烙嫷臉?biāo)準(zhǔn)誤偏差不同,其原因與數(shù)據(jù)本身有關(guān),例如,正態(tài)分布數(shù)據(jù)與二項分布數(shù)據(jù),其標(biāo)準(zhǔn)誤是不同的,二項分布數(shù)據(jù)是1或0的形式,數(shù)據(jù)本身較小,求出的方差分量較小,其標(biāo)準(zhǔn)誤偏差自然也較小。但是,正態(tài)分布則不同,它的數(shù)據(jù)可能較大(如 20),這樣的數(shù)據(jù)產(chǎn)生的方差分量較大,其標(biāo)準(zhǔn)誤偏差也較大,其它分布情況類似。
從圖2(b)可以看出,未校正的和校正的boot-pi策略估計 i的方差分量標(biāo)準(zhǔn)誤偏差存在差別,特別是正態(tài)分布數(shù)據(jù)(Normal),校正的和未校正的boot-pi策略估計 i的方差分量標(biāo)準(zhǔn)誤偏差分別是?0.0023和?0.2720,前者絕對偏差值明顯小于后者,其它結(jié)果與圖 2(a)近似,表明未校正的和校正的boot-pi策略估計i的方差分量標(biāo)準(zhǔn)誤偏差表現(xiàn)出不一致,從整體上看,校正的方法要優(yōu)于未校正的方法。在圖 2(c)中,不同數(shù)據(jù)分布下估計的方差分量標(biāo)準(zhǔn)誤偏差也存在差別,正態(tài)分布數(shù)據(jù)兩種方法差異較大,其它分布差異則不顯著。
未校正的和校正的 boot-p、boot-i、boot-pi策略在估計p、i、pi的方差分量標(biāo)準(zhǔn)誤時,結(jié)果存在差異,校正的方法相對較好,也考慮到校正的boot-p、boot-i、boot-pi策略在方差分量點(diǎn)估計上要優(yōu)于未校正的boot-p、boot-i、boot-pi策略。因此,不同的數(shù)據(jù)分布下使用校正的 boot-p、boot-i、boot-pi策略來估計p、i、pi的方差分量標(biāo)準(zhǔn)誤,更為妥當(dāng)些。
本研究Bootstrap使用了PC方法來估計方差分量置信區(qū)間,并用包含率的大小來估價各種Bootstrap策略的準(zhǔn)確性,boot-p、boot-i、boot-pi策略隸屬于Bootstrap策略,也是采用了PC方法來估計方差分量置信區(qū)間。如果包含率越接近0.800,那么結(jié)果越準(zhǔn)確。
根據(jù)表3的結(jié)果,為了對比校正的和未校正的Bootstrap方法在估計方差分量置信區(qū)間包含率時的差異,我們作了兩種方法方差分量置信區(qū)間包含率散點(diǎn)圖,如圖3(a)~(c)所示。
從圖 3(a)和圖 3(c)可以看出,校正的和未校正的 Bootstrap方法散點(diǎn)無規(guī)律性,表明兩種方法數(shù)據(jù)等級之間存在不一致性,兩種方法存在差異。從圖3(b)可以看出,校正的和未校正的Bootstrap方法散點(diǎn)幾乎在一條直線上,兩種方法估計題目的方差分量置信區(qū)間包含率差異較小。跨越四種分布數(shù)據(jù),分別計算CI (vc.p)、CI (vc.i)、CI (vc.pi)校正的和未校正的 Bootstrap方法的相關(guān)系數(shù),其值分別為?0.112 (p
=0.729)、0.996 (p
=0.000)、0.174 (p
=0.589),表明校正的和未校正的Bootstrap方法在CI (vc.p)和 CI (vc.pi)存在差異,與上述散點(diǎn)圖結(jié)果一致。將校正的和未校正的 Bootstrap方法在 CI(vc.p)、CI (vc.i)和CI (vc.pi)的包含率與0.800相減,所得值表示偏差值,偏差越大,表示偏離參數(shù)越大,結(jié)果越不可靠。用配對樣本T檢驗比較校正的和未校正的 Bootstrap方法包含率的偏差差異,結(jié)果如表4所示。
從表4可知,校正的和未校正的Bootstrap方法在CI (vc.p)、CI (vc.i)和CI (vc.pi)的包含率偏差存在顯著性差異且效果量相對較大(t
=3.693,p
≤0.001,d
=0.764),與未校正的方法相比,校正方法的包含率偏差更小,這表明從總體上看,校正的Bootstrap方法在估計方差分量置信區(qū)間時,優(yōu)勢更為明顯。類似于分析方差分量標(biāo)準(zhǔn)誤,對于置信區(qū)間估計,Bootstrap方法仍然遵循“分而治之”策略。分析這些策略目的是在分析總(整)體結(jié)果之后,對局部的考慮,探討這些策略是否也服從總體所得到的結(jié)果。
表4 校正的和未校正的 Bootstrap方法包含率偏差的差異顯著性檢驗
與對表2的分析類似,對于表3中的正態(tài)和偏態(tài)分布數(shù)據(jù),boot-p估計CI (vc.p)最佳,boot-pi估計CI (vc.i)最佳,boot-p 估計 CI (vc.pi)最佳,boot-i次佳。對于表3中的二項和多項分布數(shù)據(jù),boot-p估計CI (vc.p)最佳,boot-pi估計CI (vc.i)最佳,boot-i估計CI (vc.pi)最佳。綜合考慮可認(rèn)為,跨越四種分布數(shù)據(jù),boot-p估計CI (vc.p)最佳,boot-pi估計CI(vc.i)最佳,boot-i估計CI (vc.pi)最佳。
與上述標(biāo)準(zhǔn)誤偏差分析類似,在整體分析之后,再考慮“局部”,即根據(jù)這種“分而治之”策略規(guī)則,對于概化理論方差分量置信區(qū)間估計,應(yīng)該探索是否校正的方法優(yōu)于未校正的方法,如果前者更好,表明應(yīng)該采用校正的方法。接下來,按照“分而治之”策略規(guī)則,使用校正的和未校正的方法,分別分析boot-p策略估計CI (vc.p),boot-pi策略估計CI(vc.i),boot-i策略估計CI (vc.pi),結(jié)果如圖4(a)~(c)所示。
從圖4(a)可以看出,boot-p策略估計CI (vc.p),在正態(tài)和二項分布數(shù)據(jù)下,校正的方法與未校正的方法相比,包含率更接近參數(shù)值 0.800,表明校正的方法略優(yōu)于未校正的方法; 在多項分布下,兩種方法相當(dāng); 在偏態(tài)分布下,未校正的方法略優(yōu)于校正的方法。
從圖4(b)可以看出,boot-pi策略估計CI (vc.i),在正態(tài)、二項和偏態(tài)分布數(shù)據(jù)下,校正的方法與未校正的方法相比,包含率更接近參數(shù)值 0.800,表明校正的方法略優(yōu)于未校正的方法; 在多項分布下,兩種方法相當(dāng)。
從圖4(c)可以看出,boot-i策略估計CI (vc.pi),在正態(tài)、二項、多項和偏態(tài)分布數(shù)據(jù)下,校正的方法與未校正的方法相比,包含率更接近參數(shù)值0.800,而未校正的方法明顯遠(yuǎn)離參數(shù)值 0.800,表明校正的方法明顯優(yōu)于未校正的方法。
(1)對于方差分量(點(diǎn))估計,跨越四種分布數(shù)據(jù),與未校正的 Bootstrap方法相比,校正的 Bootstrap方法各種策略估計方差分量較為接近,策略間具有“等價性”,估計的方差分量偏差相對較小。
(2)對于方差分量標(biāo)準(zhǔn)誤估計,跨越四種分布數(shù)據(jù),從整體趨勢看,校正的Bootstrap方法與未校正的 Bootstrap方法估計三個方差分量標(biāo)準(zhǔn)誤偏差存在差異,前者的偏差小于后者的偏差。從“分而治之”策略局部看,與未校正的 boot-p、boot-pi和boot-i策略分別估計p、i、pi的方差分量標(biāo)準(zhǔn)誤相比,校正的方法相對較好。
(3)對于方差分量置信區(qū)間估計,跨越四種分布數(shù)據(jù),校正的 Bootstrap方法和未校正的Bootstrap方法包含率偏差存在顯著性差異,校正的方法包含率偏差更小,從整體上看,校正的Bootstrap方法優(yōu)勢更為明顯。從“分而治之”策略局部看,校正的方法也較好。
(4)對上述結(jié)論進(jìn)一步推論:跨越四種分布數(shù)據(jù),從“整體”到“局部”,不論是“點(diǎn)估計”還是“變異量估計”,一致表明:校正的Bootstrap方法要優(yōu)于未校正的Bootstrap方法,校正的Bootstrap方法改善了概化理論方差分量及其變異量估計。
Brennan,R.L.(2001).Generalizability theory.
New York:Springer-Verlag.Brennan,R.L.(2007).Unbiased estimates of variance components with bootstrap procedures.Educational and Psychological Measurement,67
(5),784–803.Brennan,R.L.,Harris,D.J.,& Hanson,B.A.(1987).The
bootstrap and other procedures for examining the variability of estimated variance components in testing contexts
(ACT Research Report Series87-7).
Iowa City,IA:American College Testing Program.Cui,Z.M.,& Kolen,M.J.(2008).Comparison of parametric and nonparametric bootstrap methods for estimating random error in equipercentile equating.Applied Psychological Measurement,32
(4),334–347.Efron,B.(1979).Bootstrap method:Another look at the jackknife.Annals of Statistics
,7
,1–26.Efron,B.(1982).The jackknife,the bootstrap and other resampling plans
.SIAM CBMS-NSF Monograph 38.Efron,B.,& Tibshrani,R.J.(1986).Bootstrap methods for standard errors,confidence intervals,and other measures of statistical accuracy.Statistical Science,1
, 54–57.Efron,B.,& Tibshrani,R.J.(1993).An introduction to the Bootstrap
.New York.Chapman and Hall.Fan,X.T.(2003).Using commonly available software for bootstrapping in both substantive and measurement analyses.Educational and Psychological Measurement,63
(1),24–50.Gao,X.H.(1992).Generalizability of a state-wide science performance assessment.
Unpublished doctorial dissertation.University of California.Leucht,R.M.,& Smith,P.L.(1989).The effects of bootstrapping strategies on the estimation of variance components.
Paper presented at the annual meeting of the American Educational Research Association,San Francisco,CA.Li,G.M.,& Zhang,M.Q.(2009a).A Cross-distribution study:Estimating the variability of estimated variance components for Generalizability Theory.InThe 1st psychology doctoral forum of china collection of summaries
(pp.290–294).Beijing:Beijing Normal University.[黎光明,張敏強(qiáng).(2009a).一項跨分布研究:基于概化理論的方差分量變異量估計.見首屆全國心理學(xué)博士學(xué)術(shù)論壇論文集(pp.290–294).北京:北京師范大學(xué).]
Li,G.M.,& Zhang,M.Q.(2009b).Estimating the variability of estimated variance components for Generalizability Theory.Acta Psychologica Sinica,41
(9),889–901.[黎光明,張敏強(qiáng).(2009b).基于概化理論的方差分量變異量估計.心理學(xué)報,41(9),889–901.]
Othman,A.R.(1995).Examining task sampling variability in science performance assessments.
Unpublished doctoral dissertation,University of California,Santa Barbara.Tong,Y.,& Brennan,R.L.(2007).Bootstrap estimates of standard errors in generalizability theory.Educational and Psychological Measurement,67
(5),804–817.Wiley,E.W.(2001).Bootstrap strategies for variance component estimation:Theoretical and empirical results.
Unpublished doctoral dissertation,Stanford University,Stanford,CA.Zhang,H.C.,& Xu,J.P.(2004).Modern psychological and educational statistics.
Beijing,China:Beijing Normal University Press.[張厚粲,徐建平.(2004).現(xiàn)代心理與教育統(tǒng)計學(xué).北京:北京師范大學(xué)出版社.]