黎光明
(1.華南師范大學(xué)心理學(xué)院,心理應(yīng)用研究中心,廣州 510631;2.心理健康與認知科學(xué)廣東省重點實驗室,廣州 510631)
?
概化理論G研究方差分量及其變異量估計影響因素*
黎光明1,2
(1.華南師范大學(xué)心理學(xué)院,心理應(yīng)用研究中心,廣州 510631;2.心理健康與認知科學(xué)廣東省重點實驗室,廣州 510631)
概化理論是關(guān)于行為測量可靠性的統(tǒng)計理論。G研究是進行概化理論分析的關(guān)鍵步驟,其主要目的是進行方差分量及其變異量估計??偨Y(jié)了影響概化理論G研究方差分量及其變異量估計的多種因素,包括估計方法、數(shù)據(jù)分布、研究設(shè)計、樣本容量、模型效應(yīng)和數(shù)據(jù)形態(tài)等,并指出了相關(guān)研究存在的六方面不足,如缺乏估計方法的綜合比較、較少考察非正態(tài)分布數(shù)據(jù)、較少考慮不平衡或缺失數(shù)據(jù)等。
概化理論;G研究;方差分量;方差分量變異量估計
概化理論(Generalizability Theory,GT)是關(guān)于行為測量可靠性(dependability)的統(tǒng)計理論(Shavelson & Webb,1991,p.1)。Cronbach,Gleser,Nanda和Rajartnam(1972,p.15)構(gòu)建了可靠性的概念:來自于一次測驗或其它測量用作決策的分數(shù),僅僅是許多分數(shù)中的一個,這些分數(shù)可能起著相同目的,決策者從來不對在特定刺激物、問題、測驗者、測驗時間等條件下產(chǎn)生的(這些)分數(shù)感興趣,因為一些測驗條件容易改變,而用于決策的理想分數(shù)是包含所有條件下獲得的觀察分數(shù)。根據(jù)Cronbach等人構(gòu)建的可靠性概念,可靠性被定義為:將一次測量(如心理測驗、行為觀察、民意調(diào)查等)所得的觀察分數(shù)概化到包含所有可能條件下平均分的精確度,這些可能的條件是測驗者愿意接受的??煽啃愿拍畹那疤峒僭O(shè)是人的知識、態(tài)度、技能等都處于穩(wěn)定狀態(tài),僅僅是不同來源的誤差造成了個體之間的分數(shù)差異。
概化理論可用于分析多側(cè)面測量誤差(multifaceted measurement error),將測量的情境關(guān)系(context of measurement situation)分為測量目標和測量側(cè)面兩部分(Shavelson & Webb,1991)。測量目標(object of measurement)是欲考察的實際特質(zhì),而測量側(cè)面(facet of measurement)是影響測量目標的各種因素。根據(jù)測量的情境關(guān)系,在測量目標確定的條件下,測量側(cè)面可以來自多方面,例如,學(xué)生評價教師教學(xué)水平,測量目標是教師教學(xué)水平,測量側(cè)面可以是學(xué)生、班級、專業(yè)、課程、項目以及教學(xué)水平維度(如教學(xué)態(tài)度、教學(xué)內(nèi)容、教學(xué)方法、教學(xué)效果等)(Meyer,Liu,& Mashburn,2014;Casabianca,Lockwood,& McCaffrey,2015)。針對某個測量目標,如果測量側(cè)面僅一個,稱之為單側(cè)面設(shè)計,如p×i設(shè)計。對于p×i設(shè)計,如果i為隨機側(cè)面,可稱為單側(cè)面隨機設(shè)計,相應(yīng)地,如果i為固定側(cè)面,可稱為單側(cè)面固定設(shè)計。如果測量側(cè)面超過一個,稱之為多側(cè)面設(shè)計,設(shè)計類型可以是交叉、嵌套,也可以是混合。
概化理論也可以分析多個測量目標與測量側(cè)面的情境關(guān)系,這就是多元概化理論(Multivariate Generalizability Theory,MGT)(Brennan,2001)。MGT是在單變量概化理論(Univariate Generalizability Theory,UGT)的基礎(chǔ)上發(fā)展起來的。MGT是UGT的深化和發(fā)展。與UGT一樣,MGT同時吸收了經(jīng)典測量理論、實驗設(shè)計和方差分析的思想。
2.1 概化理論G研究方差分量估計
進行GT分析主要包括G研究和D研究兩個過程,G研究是概化研究,D研究是決策研究。G研究的主要任務(wù)是在觀測全域(universe of admissible observations)上盡可能地“挖掘”出研究設(shè)計中各種潛在的測量誤差來源,并估計這些誤差來源的方差分量(variance component)。D研究的主要任務(wù)是在概化全域(universe of generalizability)上,為了某種特殊的決策需要,以G研究所得到的方差分量估計值為基礎(chǔ),通過調(diào)整測量過程中的各種關(guān)系(如調(diào)整各個側(cè)面樣本水平數(shù)、調(diào)整各個側(cè)面之間的關(guān)系或權(quán)重等),來探索如何控制和調(diào)節(jié)測量誤差。G研究是D研究的基礎(chǔ),D研究是G研究的深化。從G研究和D研究分析過程看,方差分量估計是進行概化理論分析的關(guān)鍵,這是因為,要得到D研究的相關(guān)統(tǒng)計量,如信噪比(S/N)、概化系數(shù)(Eρ2)、可靠性指數(shù)(φ)等都依賴于G研究所估出的方差分量。方差分量估計是概化理論的必用技術(shù),是進行概化理論分析的關(guān)鍵。概化理論借用實驗設(shè)計與方差分析技術(shù),對心理與教育測量中產(chǎn)生的總變異進行分解。測量側(cè)面在多大程度上影響了測量目標,即在總變異中,測量目標和測量側(cè)面的方差分量各占多少,是概化理論分析關(guān)心的問題。因此,需要探測測量側(cè)面在多大程度上影響到測量目標,并對其產(chǎn)生的誤差進行有效控制。
結(jié)合測量的情境關(guān)系,概化理論對經(jīng)典測量理論給出的籠統(tǒng)誤差進行探查和分解,辨明誤差的不同來源,并且在一定范圍內(nèi)變動測量的情境關(guān)系,以考察這種變動引起的誤差的相對變化,從而達到對誤差方差進行控制(Shavelson & Webb,1991)。因此,概化理論又稱為方差分量模型(variance component model)(Brennan,2000)。
2.2 概化理論G研究方差分量變異量估計
與其它統(tǒng)計量一樣,概化理論下估計出的方差分量受限于抽樣,不同的抽樣樣本,所估計的方差分量可能不一樣,這就要求進行方差分量估計時需要對其變異量進行探討。一般地,僅根據(jù)一個樣本的統(tǒng)計量來估計總體參數(shù),可能存在偏差。在樣本統(tǒng)計量研究中,僅用一個(次)樣本平均數(shù)來估計總體均值,存在較大的風險,因為樣本平均數(shù)容易受抽樣的影響。探討方差分量變異量具有重要意義,這是因為,報告這些變異量可以在一定程度上說明方差分量測量的可靠性。概化理論G研究方差分量變異量主要包括標準誤和置信區(qū)間估計(Brennan,2001;Shin & Raudenbush,2012)。
進行概化理論G研究方差分量及其變異量估計,需要考慮較多條件(影響因素),如估計方法、數(shù)據(jù)分布、研究設(shè)計、樣本容量、模型效應(yīng)及數(shù)據(jù)形態(tài)等。
3.1 估計方法
《教育與心理測試標準》(Standards for Educational and Psychological Testing,AERA,APA,& NCME,1999,p.27)和Brennan(2001,p.180)指出,為了獲得準確的方差分量變異量,理想的做法是進行多次獨立的重復(fù)測量。Brennan(2001,p.181)對9個ACT數(shù)學(xué)平行測驗進行了方差分量及其標準誤估計,結(jié)果如表1所示。
表1 九個ACT數(shù)學(xué)平行測驗估計的方差分量及其標準誤
3.2 數(shù)據(jù)分布
不同數(shù)據(jù)分布下不同方法對方差分量變異量估計可能產(chǎn)生不同的影響。特別地,當數(shù)據(jù)為非正態(tài)分布時,如二項分布、多項分布和偏態(tài)分布,適合于正態(tài)分布數(shù)據(jù)的方差分量變異量估計方法不一定適合于非正態(tài)分布數(shù)據(jù)。因此,也需要探討和比較基于不同非正態(tài)分布數(shù)據(jù)下不同方差分量變異量估計方法的優(yōu)劣。非正態(tài)分布數(shù)據(jù)在心理與教育測量實踐中具有常見性。例如,一些考試中的選擇題、是非題等,僅有兩種分數(shù)(錯和對):0和1,就是二項分布數(shù)據(jù)。又如,一些心理與教育測驗中的等級評分,具有多個數(shù)據(jù)點,存在多種分數(shù),如0~4分,則表示分數(shù)可取五個點,分別是0、1、2、3和4分,就是多項分布數(shù)據(jù)。而對于偏態(tài)分布數(shù)據(jù),在實踐中也具有常見性,這是因為隨著社會的發(fā)展,心理與教育測量的應(yīng)用領(lǐng)域發(fā)生了較大變化,被測群體的知識和能力等特質(zhì)在一定程度上不再服從偏度為0的分布。
3.3 研究設(shè)計
常見的概化理論研究設(shè)計包括p×i、i:p、p×i×r、p×(i:r)、i:(p×r)、i:p:r等。其中對概化理論單側(cè)面隨機p×i設(shè)計研究最多,這種設(shè)計屬于單變量概化理論的交叉設(shè)計,p為測量目標,i為測量側(cè)面,p和i都隨機,p和i具有交叉關(guān)系(Brennan,2001,p.5)。
但是,隨著研究設(shè)計側(cè)面數(shù)和復(fù)雜度的增加,G研究難度加大。Smith(1981)指出,概化理論G研究方差分量估計的穩(wěn)定性受研究設(shè)計復(fù)雜度(側(cè)面數(shù))和研究設(shè)計構(gòu)成(設(shè)計中嵌套的程度)影響。Smith認為使用多側(cè)面(multiple)設(shè)計所得方差分量的方差更小,因為用來估計方差分量方差的均方在多側(cè)面設(shè)計中比在單個復(fù)雜(singlecomprehensive)設(shè)計中要小。例如,學(xué)生(p)嵌套在學(xué)校(s)中,施測若干個項目(i),項目嵌套在測驗(f)中,那么這個設(shè)計可表達成(p:s)×(i:f)。這個設(shè)計是多側(cè)面復(fù)雜設(shè)計,來自于每個學(xué)校的學(xué)生都被施測每個測驗的項目。對于(p:s)×(i:f),還有可供替代的單個復(fù)雜設(shè)計,如p:[s×(i:f)]和i:[f×(p:s)],前者表示每個學(xué)校不同組的學(xué)生被施測不同測驗的每個項目(也就是說,對于每個學(xué)校的學(xué)生有“學(xué)生-項目”形式),后者表示對于每個學(xué)校每個測驗的項目施測于一個學(xué)生樣本(也就是說,對于每個測驗的項目有“項目-學(xué)生”形式)。與(p:s)×(i:f)設(shè)計相比,p:[s×(i:f)]設(shè)計和i:[f×(p:s)]設(shè)計估計的方差分量均方更大,所以產(chǎn)生的誤差也更大。雖然p:[s×(i:f)]和i:[f×(p:s)]設(shè)計也可以將所有的方差分量都估計出來,但Smith指出,多側(cè)面設(shè)計與單個復(fù)雜設(shè)計相比,G研究估計的方差分量更為穩(wěn)定,前者通常使用隨機觀察數(shù),而后者通常使用固定觀察數(shù)。
3.4 樣本容量
樣本容量對G研究方差分量及其變異量估計有影響。Cronbach,Gleser,Nanda和Rajaratnam(1972)認識到教育和社會背景中準確估計方差分量對決策的重要性,認為研究者利用小樣本數(shù)據(jù)估計G研究方差分量,有時是站不住腳的,需要考察方差分量的變異量。Gao和Brennan(2001)認為,估計的方差分量因不同樣本存在差別,特別是當樣本較小時這種差異更加明顯,準確估計方差分量對于解釋評價結(jié)果至關(guān)重要,在其它條件相等的情況下,大樣本有助于獲得更為準確的估計結(jié)果,因為大樣本所估計的標準誤更小。
對于一個p×i設(shè)計,樣本容量可以是30×5、30×20、600×5、600×20等,p和i因素可能存在“樣本水平不一致性”(disproportionality),表示一個因素的樣本容量與另一個因素的樣本容量不相一致?!皹颖舅讲灰恢滦浴痹诒憩F(xiàn)性評價中比較普遍,因為表現(xiàn)性評價經(jīng)常是較多的人作答較少的題目,即人多題少(Othman,1995)?!皹颖舅讲灰恢滦浴睂研究方差分量及其變異量估計有影響。Brennan,Harris和Hanson(1987)的研究表明,“樣本水平不一致性”較大時,Satterthwaite方法估計G研究方差分量置信區(qū)間不理想。Leucht和Smith(1989)認為,“樣本水平不一致性”存在時,使用水平數(shù)較大者作為Bootstrap再抽樣策略,更為合理,如人的樣本容量超過了題目的樣本容量,那么再抽樣人,采用boot-p策略,反之,采用boot-i策略。Othman(1995)研究發(fā)現(xiàn),“樣本水平不一致性”對Satterthwaite、TBGJL和Bootstrap方法估計正態(tài)分布數(shù)據(jù)和二項分布數(shù)據(jù)方差分量及其變異量有影響,“樣本水平不一致性”越大,這種影響越大。
3.5 模型效應(yīng)
概化理論模型可以分為隨機效應(yīng)模型、固定效應(yīng)模型和混合效應(yīng)模型三種(Brennan,2001;Chien,2008)。隨機效應(yīng)模型是最常見的一種,假定測量目標和測量側(cè)面都是隨機,即樣本來自于一個較大容量總體,且是隨機抽取出來的。例如,對于一個樣本容量20×8的隨機效應(yīng)p×i設(shè)計,測量目標是學(xué)生(p),測量側(cè)面是項目(i),p和i都隨機,構(gòu)成測量的情境關(guān)系。測量目標對應(yīng)的總體是測量總體(populationofmeasurement),假定為無限,那么這20個人表示是從一個無限學(xué)生總體中隨機抽樣出來的。測量側(cè)面對應(yīng)的總體是測量全域(universeofmeasurement),假定為無限,那么這8個題目是從一個無限題目全域中隨機抽樣出來的。
判斷概化理論模型屬于隨機效應(yīng)模型,測量側(cè)面必須滿足下列三個條件(Shavelson&Webb,1991,p.11):一是當樣本的大小比全域要小得多;二是樣本被認為是隨機抽取的;三是所抽取的樣本與從同一全域抽出另外的樣本是可以相互交換。如果這些條件難以滿足,那么測量側(cè)面是固定側(cè)面,概化理論模型則屬于固定效應(yīng)模型。如果這些條件部分得到滿足,既有隨機側(cè)面又有固定側(cè)面,那么概化理論模型則屬于混合效應(yīng)模型。Brennan(2001,pp.86-94)對三種模型效應(yīng)的G研究方差分量估計進行了介紹。不同的模型效應(yīng)對G研究方差分量及其變異量估計有影響。Brennan,Harris和Hanson(1987)認為,G研究方差分量估計應(yīng)該考慮總體是來自于有限總體還是無限總體,全域是來自于有限全域還是無限全域。Mislevy(2001)運用MCMC方法同時估計隨機效應(yīng)模型和固定效應(yīng)模型G研究方差分量變異量,對所得結(jié)果進行比較,發(fā)現(xiàn)不同的模型效應(yīng)對G研究方差分量變異量估計也有影響。
3.6 數(shù)據(jù)形態(tài)
這里,數(shù)據(jù)形態(tài)是指平衡與不平衡、有缺失與無缺失等形態(tài)。在概化理論中,缺失數(shù)據(jù)(sparsedata)屬于不平衡數(shù)據(jù)(unbalanceddata)的一種特殊情況(Chiu&Wolfe,2002)。
概化理論平衡設(shè)計方差分量估計多采用ANOVA方法或T方法(Tterms),不平衡設(shè)計多采用類似ANOVA方法(AnalogousANOVA)或類似T方法(AnalogousTterms)。概化理論平衡與不平衡數(shù)據(jù)方差分量估計方法(Brennan,2001),如表2所示。
表2 概化理論平衡與不平衡數(shù)據(jù)方差分量估計方法
缺失數(shù)據(jù)是相對于完整(無缺失)數(shù)據(jù)而言的,缺失的原因可能是多方面的,如測評時的遺漏等。對于缺失數(shù)據(jù)G研究方差分量估計,Brennan(2001)提出了估計概化理論缺失數(shù)據(jù)方差分量的公式,針對單側(cè)面交叉設(shè)計,在數(shù)據(jù)少量缺失的情況下可以得出方差分量的無偏估計。Chiu 和Wolfe(2002)認為,也可以采用MBIB方法(Modified Balanced Incomplete Block)估計概化理論缺失數(shù)據(jù)方差分量。
概化理論G研究,是進行概化理論分析關(guān)鍵的一步,G研究是D研究的基礎(chǔ),主要任務(wù)是進行方差分量及其變異量估計。G研究方差分量估計和方差分量變異量估計受到許多因素影響。當前,對于概化理論G研究方差分量及其變異量估計影響因素,一些研究進行過探討,但存在以下不足:
第一,缺乏估計方法的綜合比較。多數(shù)研究僅限于一種或兩種估計方法,缺少將Traditional、Bootstrap、Jackknife和MCMC四種方法一同比較的研究,特別是有關(guān)MCMC方法估計概化理論方差分量及其變異量方面的研究較少,這就導(dǎo)致了所得結(jié)果僅是“片斷”方法的研究結(jié)果,無法進行方法的綜合比較,所得結(jié)果在不同數(shù)據(jù)分布下也缺乏進一步的推廣性。
第二,較少考察非正態(tài)分布數(shù)據(jù)。一些研究所考慮的非正態(tài)分布數(shù)據(jù)也僅限于二項分布數(shù)據(jù)或多項分布數(shù)據(jù),缺少對偏態(tài)分布數(shù)據(jù)進行探討,雖然Othman(1995)已經(jīng)考慮到數(shù)據(jù)分布具有(弱)偏態(tài),但是并沒有進行偏態(tài)分布數(shù)據(jù)方差分量及其變異量估計的研究,顯得不足。
第三,對多側(cè)面設(shè)計關(guān)注不足。關(guān)注單側(cè)面設(shè)計的研究居多,對多側(cè)面設(shè)計關(guān)注不足。測量目標可能受到多個因素影響,僅關(guān)注一個測量側(cè)面,存在局限。關(guān)注多側(cè)面設(shè)計是一種趨勢,因為隨著測量側(cè)面數(shù)的增加,能夠分解出更多的方差分量,有助于增強測量控制誤差的能力。
第四,抽取的樣本不具代表性。概化理論是隨機抽樣理論(漆書青,戴海崎,丁樹良,2002),要求測量的數(shù)據(jù)具有代表性,樣本過少,將導(dǎo)致估計的方差分量不穩(wěn)定。另外,也有一些研究缺少考察“樣本水平不一致性”,往往僅考察一種樣本水平,如100×20,這將導(dǎo)致所得的結(jié)論難以拓廣至其它樣本情形。
第五,使用隨機效應(yīng)模型居多。特別地,對于G研究方差分量變異量估計,較少學(xué)者真正意義上探討過固定效應(yīng)模型和混合效應(yīng)模型。根據(jù)Mislevy(2001)建議,可以使用MCMC方法估計固定效應(yīng)模型和混合效應(yīng)模型G研究的方差分量及其變異量。
第六,較少考慮不平衡或缺失數(shù)據(jù)。大多數(shù)研究設(shè)計僅考慮平衡設(shè)計,較少考慮不平衡設(shè)計,而這種設(shè)計在實踐中經(jīng)常存在。鮮有學(xué)者用MCMC方法估計過缺少數(shù)據(jù)的方差分量及其變異量,實際上MCMC方法通過運用Bayes先驗分布,可以對“缺失”數(shù)據(jù)進行有效處理,避免了舍棄部分數(shù)據(jù)丟失大量信息的尷尬局面。
漆書青,戴海崎,丁樹良.(2002).現(xiàn)代教育與心理測量學(xué)原理(pp.42-78).北京:高等教育出版社.
American Educational Research Association,American Psychological Association,National Council on Measurement in Education.(1999).Standardsforeducationalandpsychologicaltesting(Rev.ed.).Washington,DC:Author.
Brennan,R.L.,Harris,D.J.,& Hanson,B.A.(1987).Thebootstrapandotherproceduresforexaminingthevariabilityofestimatedvariancecomponentsintestingcontexts(ACT Research Report Series87-7).Iowa City,IA:American College Testing Program.
Brennan,R.L.(2000).(Mis)conceptions about generalizability theory.EducationalMeasurement:IssuesandPractice,19(1),5-10.
Brennan,R.L.(2001).Generalizabilitytheory.New York:Springer-Verlag.
Briggs,D.C.,& Wilson,M.(2007).Generalizability in item response modeling.JournalofEducationalMeasurement,44(2),131-155.
Casabianca,J.M.,Lockwood,J.R.,& McCaffrey,D.F.(2015).Trends in classroom observation scores.EducationalandPsychologicalMeasurement,75(2),311-337.
Chien,Y.M.(2008).Aninvestigationoftestlet-baseditemresponsemodelswitharandomfacetsdesigningeneralizabilitytheory.Unpublished doctoral dissertation.University of Iowa.
Chiu,C.W.T.,& Wolfe,E.W.(2002).A method for analyzing sparse data matrices in the generalizability theory framework.AppliedPsychologicalMeasurement,26(3),321-338.
Cronbach,L.J.,Gleser,G.C.,Nanda,H.,& Rajaratnam,N.(1972).Thedependabilityofbehavioralmeasurements:Theoryofgeneralizabilityforscoresandprofiles.New York:Wiley.
Feng,W.C.(2002).ApplicabilityofthejackknifeprocedureforestimatingstandarderrorsofvariancecomponentestimatesinselectedrandomeffectsGstudydesigns.Unpublished doctoral dissertation.University of Iowa.
Gao,X.H.,& Brennan,R.L.(2001).Variability of estimated variance components and related statistics in a performance assessment.AppliedMeasurementinEducation,14(2),191-203.
Leucht,R.M.,& Smith,P.L.(1989).Theeffectsofbootstrappingstrategiesontheestimationofvariancecomponents.Paper presented at the annual meeting of the American Educational Research Association,San Francisco,CA.
Li,F(xiàn).F.(2009).Aninformationcorrectionmethodfortestlet-basedtestanalysis:Fromtheperspectivesofitemresponsetheoryandgeneralizabilitytheory.Unpublished doctoral dissertation.University of Maryland.
Mao,X.,Shin,D.,& Brennan,R.L.(2005).EstimatingthevariabilityofestimatedvariancecomponentsandrelatedstatisticsusingtheMCMCprocedure:Anexploratorystudy.Paper presented at the annual meeting of the National Council on Measurement in Education,Montreal.
Meyer,J.P.,Liu,X.,& Mashburn,A.J.(2014).A practical solution to optimizing the reliability of teaching observation measures under budget constraints.EducationalandPsychologicalMeasurement,74(2),280-291.
Mislevy,R.J.(2001).Generalizabilitytheory:AbriefintroductiontoBayesianinferenceing-theory.Available from http://www.education.umd.edu/EDMS
Othman,A.R.(1995).Examiningtasksamplingvariabilityinscienceperformanceassessments.Unpublished doctoral dissertation.University of California,Santa Barbara.
Shavelson,R.J.,& Webb,N.M.(1991).Generalizabilitytheory:Aprimer.Newbury Park,CA:Sage.
Shin,Y.,& Raudenbush,S.W.(2012).Confidence bounds and power for the reliability of observational measures on the quality of a social setting.Psychometrika,77(3),543-560.
Smith,P.L.(1981).Gaining accurancey in generalizability theory:Using mulitiple designs.JournalofEducationalMeasurement,18,147-154.
Tong,Y.,& Brennan,R.L.(2007).Bootstrap estimates of standard errors in generalizability theory.EducationalandPsychologicalMeasurement,67(5),804-817.
Influence Factors of Estimating of Variance Components and Their Variability for Generalizability Study in Generalizability Theory
Li Guangming1,2
(1.School of Psychology,Center for Studies of Psychological Application,South China Normal University,Guangzhou 510631;2.Key Lab of Mental Health and Cognitive Science of Guangdong Province,Guangzhou 510631)
Generalizability theory is a statistical theory about the dependability of behavioral measurements.Generalizability studies,which focus on estimating the variance components and the variability of estimated variance components,is a crucial step of performing the generalizability analyses for generalizability theory.Estimation of variance components and their variability for generalizability study was influenced by some factors such as estimation procedure,data distribution,research design,sample size,model effect and data mode and so on.There was some deficiency in some researches about the influence factors for generalizability study such as lack of synthetic research about estimation procedures,less researches about non-normal data distribution,little focus on multifaceted design,only using random effect model,relatively less researches of unbalanced and sparse data.
Generalizability theory;Generalizability study;Variance component;Estimating the variability of estimated variance components
2014年國家自然科學(xué)基金面上項目(31470050),廣州市教育科學(xué)“十二五”規(guī)劃2012年度面上一般課題(12AO19),廣州市教育科學(xué)“十二五”規(guī)劃2014年重大課題(1201411413),廣東省2015年度高等教育改革項目(粵教高函[2015]173號),華南師范大學(xué)2014年度校級高等教育教學(xué)研究和改革項目(教學(xué)[2014]52號)。
黎光明,E-mail:Lgm2004100@sina.com。
B841.2
A
1003-5184(2016)05-0458-06