(華南師范大學心理學院、心理應用研究中心,廣州 510631)
概化理論(generalizability theory,GT)和項目反應理論(item response theory,IRT)都是現(xiàn)代心理與教育測量理論,廣泛應用于心理與教育測評實踐中。概化理論和項目反應理論可以對劃界分數(shù)的標準誤進行估計(Lee & Lewis,2008;Christ,Riley-Tillman,Chafouleas,& Boice,2010;Wu & Tzou,2015),也可以應用于表現(xiàn)性評價(Clauser,Harik,& Margolis,2006;Casabianca,Mccaffrey,Gitomer,Bell,Hamre,& Pianta,2013;Meyer & Mashburn,2014)、體育測試(Coleman & Epstein,1998)、評分考試(Lakin& Lai,2012;朱宇,馮瑞龍,辛濤,2013;Clauser,Margolis,& Clauser,2014)、認知評估(Yin & Shavelson,2004,2008;余嘉元,2011)、學生評價(Casabianca,Lockwood,& Mccaffrey,2014)、教師評價(黎光明,張敏強,2017;王幸君,黎光明,張敏強,蔣欣,梁正妍,楚肖依,2016)、情緒測量(Tobar,Stegner,& Kane,1999;魏歡,陳維,韋嘉,張進輔,2017)、人格測驗(Salter,Forney,& Evans,2005)及評價者“漂移”(rater drift)(Harik,Clauser,Grabovsky,Nungester,Swanson,& Nandakumar,2009)等。
然而,概化理論和項目反應理論都存在著一些不足:一是概化理論微觀分析能力不強,對于不平衡數(shù)據(jù)和不完整數(shù)據(jù)處理能力有限(Brennan,2001;Choi,Briggs,& Wilson,2009);二是項目反應理論的強假設(shè)(單維性、局部獨立性和單調(diào)性)在實際中難以滿足,在一定程度上限制了其在心理與教育實踐中的應用(Choi,Briggs,& Wilson,2009;戴步云,張敏強,焦璨,黎光明,朱華偉,張文怡,2015)。概化理論更多關(guān)注宏觀層面的技術(shù)(如對信度和效度的探討等),較少關(guān)注微觀分析(如對項目質(zhì)量進行分析等),這不利于心理與教育測量進行更為具體的微觀分析,如分析某些評價者過嚴、某些項目過難等。項目反應理論則要求所考察的特質(zhì)具有單維性、獨立性和單調(diào)性等,這些都在一定層面抑制了它的宏觀應用。
為了兼顧宏觀層面和微觀層面的應用,概化理論和項目反應理論宜從以下兩方面進行改進:一是兩種理論相互補充、相互整合,互相吸收各自的微觀技術(shù)和宏觀技術(shù),如項目反應理論可吸收概化理論宏觀技術(shù),而概化理論可吸收項目反應理論的微觀技術(shù)等;二是對概化理論和項目反應理論進行有效整合,從而確立一種更加廣義的概化理論和項目反應理論,并兼有概化理論和項目反應理論兩種理論優(yōu)勢,博采眾長,融合成一種新的理論或模型。
促成概化理論與項目反應理論進行整合,有兩種途徑可以實現(xiàn):一是同時對一批數(shù)據(jù)進行概化理論分析和項目反應理論分析,得出一些具體指標(Lee & Lewis,2008;Lee & Park,2012;Smith & Kulikowich,2004;Zhong,Kang,& Chen,2013;俞宗火,唐小娟,王登峰,2009;徐思,張敏強,黎光明,2009),可稱為“黏合”;二是將概化理論與項目反應理論進行實質(zhì)性地整合,可稱為“融合”,產(chǎn)生一種新的理論或方法或模型對一批數(shù)據(jù)進行概化理論分析(Marcoulides,1999;Briggs & Wilson,2007;Chien,2008;Choi,Briggs,& Wilson,2009;Li,2009;Choi,2013)。
概化理論與項目反應理論的“黏合”與“融合”的區(qū)別在于:前者并非實質(zhì)性整合,僅僅是兩種理論分開來對數(shù)據(jù)分別進行分析;后者是實質(zhì)性整合,需要誕生出新的融合模型。
第一,將概化理論與項目反應理論進行“融合”,有利于深化概化理論和項目反應理論的研究,能夠為創(chuàng)造性地產(chǎn)生一種新理論或新模型奠定基礎(chǔ)。概化理論是一種線性模型,其原理是通過分解總方差分量來探討不同測量側(cè)面對測量目標的影響,是一種宏觀層次的理論(Fan & Hansmann,2015;Wan,Fan,Yang,Pan,& Chen,2014;Ziegler,Poropat,& Mell,2014)。項目反應理論是一種量表化模型,是一種微觀理論,重在對題目參數(shù)和能力參數(shù)進行估計。項目反應理論涉及一些復雜的統(tǒng)計計算,如參數(shù)估計等,還面臨著一些不能處理的假設(shè)條件。如何將項目反應理論的適用范圍進一步擴大,是項目反應理論必須解決的問題。
第二,將概化理論與項目反應理論相結(jié)合,可以深化概化理論和項目反應理論研究,為兩種現(xiàn)代測量理論走向大統(tǒng)一提供重要的方法指導,也可以為概化理論和項目反應理論融合后產(chǎn)生新模型進行后續(xù)方法研究提供基本保障。在項目反應理論模型中,第一層描述的是項目的log-odds和正確反應,第二層則定義了考生的能力,可以是多級效應模型。概化理論沿著隨機樣本理論和線性模型的思路向前發(fā)展,著重討論實測時的測量條件與結(jié)論推廣應用范圍之間的關(guān)系,也可以是多級效應模型。鑒于概化理論和項目反應理論都可以是多級隨機效應模型,抽樣模型概化理論可以被納入擴展至項目反應理論量表化模型中。
第三,將概化理論和項目反應理論進行有效的“融合”,更具技術(shù)性,實現(xiàn)起來相對困難,但卻代表未來現(xiàn)代測量理論的發(fā)展趨勢。一些學者已將概化理論與項目反應理論進行了有效整合,并產(chǎn)生了概化理論與項目反應理論的融合模型(Kolen & Harris,1987;Briggs & Wilson,2007;Chien,2008;Choi,Briggs,& Wilson,2009;Li,2009;Choi,2013)。概化理論與項目反應理論的融合模型,使得兩種理論能夠取長補短,并使得概化理論和項目反應理論的應用前景更加光明。
目前,一些學者對概化理論與項目反應理論實質(zhì)性結(jié)合的“融合”模型進行了介紹,總結(jié)文獻,可分為以下幾類:
第一,多變量建模方法(MM)。Kolen和Harris(1987)提出了多變量建模方法(multivariate modeling,MM),該方法假定所觀察到的測試成績方差在GT中可以分解成不同方面的貢獻,而方差分量模型為IRT的條件概率密度函數(shù)。Kolen和Harris指定MM方法項目特征函數(shù)為p(ypi=1|θp,ζi)。p(ypi=1|θp,ζi),為一個三參數(shù)logistic項目反應模型,如下。
(1)
在公式(1)中,Kolen和Harris假定θp與ζi服從正態(tài)分布,而判別參數(shù)ai和猜測參數(shù)c遵循β分布。為了簡化計算,Kolen和Harris將分布的項目和個人參數(shù)進行離散化,用離散分布替代積分求和,并使用方差分量來估計概化系數(shù)。不像概化理論模型,Kolen和Harris提出,可以用多變量建模方法將概化理論與項目反應理論相融合,多變量建模方法是在人和項目參數(shù)局部獨立性假設(shè)條件下進行的。MM方法既吸收了概化理論的假設(shè)條件,也吸收了項目反應理論的假設(shè)條件。MM方法所建立的數(shù)學模型類似于概化理論方差分量模型。MM適合于一般形式的測驗,測驗的題型僅包括二值記分題,且題目之間是相互獨立的,如某些學績測驗(僅包含選擇題題型)、智力測驗(如瑞文漸進測驗)等。
第二,等級評分模型方法(HRM)。Patz,Junker,Johnson和Mariano(2002)提出了一種融合GT和IRT的新模型,即等級評分模型(hierarchical rater model,HRM)。Patz等人關(guān)注的是p×i×r研究設(shè)計下的GT模型與IRT中FACETS模型的融合。當多個評定等級存在一個項目反應時,HRM方法的關(guān)鍵特征是獲得“理想的評級”ζpi。ζpi將p和i的真實分數(shù)對應在GT中。該模型假定所觀察到的數(shù)據(jù)是由兩階段隨機過程產(chǎn)生的,如下:
第一階段,構(gòu)建IRT模型:
logit(p(ζpi=ζ|θp,βi,τiζ,Xpik{ζ,ζ-1}))=θp-βi-τiζ
(2)
在公式(2)中,HRM方法假定人的能力θp和難度βi服從正態(tài)分布,τiζ表示第ζ步第i個項目的分部評分,其中βi-τiζ的均值被限制為零。
第二階段,構(gòu)建GT模型:
ppikζs=p(Xpik=s|ζpi=ζ)∝exp
(3)
在公式(3)中,ppikζs表示第ζ步i項目中的p的反應概率函數(shù)。ppikζs構(gòu)建出GT的模型,包括測量誤差的不同來源。模型參數(shù)估計使用馬爾可夫鏈蒙特卡洛方法(Markov Chain Monte Carlo),即MCMC方法。當項目的影響被認為是固定在人和評分者中時,HRM是有用的。然而,HRM不能提供估計的概化系數(shù),因為方差分量的大小變化取決于潛在的熟練程度和理想的評定等級。HRM適合于具有等級評定的測驗,如心理評定量表等,評定的等級可以是二級,也可以是多級,但題目之間是相互獨立的。
第三,項目反應下的概化模型方法(GIRM)。Briggs和Wilson(2007)通過對概化理論中的測量側(cè)面進行分布假設(shè),提出了GT和IRT相融合的項目反應下的概化模型(generalizability in item response modeling,GIRM)。與傳統(tǒng)GT方法使用觀測分數(shù)矩陣(observed response matrix)計算方差分量不同,GIRM模型使用MCMC方法來估計IRT中的參數(shù),并使用期望分數(shù)矩陣(expected response matrix)來估計各種方差分量。Briggs和Wilson的研究結(jié)果顯示,GT和IRT結(jié)合的技術(shù)能夠?qū)Ψ讲罘至窟M行準確的估計。另外,因為GIRM模型是在期望分數(shù)矩陣的基礎(chǔ)上估計各個方差分量,所以GIRM模型可以分離交互效應和殘余效應。GIRM模型不受缺失數(shù)據(jù)的影響。GIRM模型諸多性能是傳統(tǒng)GT和IRT方法所不能及的。Briggs和Wilson在模擬數(shù)據(jù)和實測數(shù)據(jù)的研究結(jié)果顯示,GIRM模型和傳統(tǒng)GT方法計算所得的各項結(jié)果都非常接近,包括對方差分量的估計、概化系數(shù)以及可靠性指數(shù)的計算。另外,Briggs和Wilson的研究結(jié)果還發(fā)現(xiàn),運用不同參數(shù)分布形態(tài)生成的數(shù)據(jù)對研究結(jié)果并不造成影響。GIRM適合于一般形式的測驗,測驗的題型可以較多,包括二值記分題,也包括非二值記分題,但題目之間是相互獨立的,如某些智力測驗、特殊能力測驗等。
第四,題組項目反應下的概化模型方法(GIRMT)。在Briggs和Wilson(2007)研究的基礎(chǔ)上,一些學者(Chien,2008;Choi,Briggs & Wilson,2009;Li,2009)將GIRM擴展到題組情形中,發(fā)展出題組項目反應下的概化模型(generalizability in item response modeling for testlet,GIRMT)。Choi,Briggs和Wilson所構(gòu)建的GIRMT假定題組具有一定的相互關(guān)聯(lián),不再遵從IRT獨立性假設(shè),但基本思想和算法仍同GIRM方法。GIRMT方法拓展了GIRM方法,其數(shù)學模型不再是單維IRT模型,而是多維IRT模型。基于p·×i。設(shè)計,GIRMT利用多元概化理論估計方差分量及概化系數(shù)。Chien(2008)在其博士論文中提出,可以將GIRMT從p×i設(shè)計擴展到p×(i∶h)設(shè)計。Chien認為,由于被試的正確作答概率可以被定義為被試的期望分數(shù),也就相當于經(jīng)典測量理論中的真分數(shù)以及GT中的總均值,基于此便可把IRT和GT聯(lián)系起來。Li(2009)基于項目反應理論和概化理論也提出了題組測試分析的信息矯正方法,這也算是對兩種測量理論相融合技術(shù)的探索。GIRMT適合于題組形式的測驗,如包含有英語閱讀理解題的英語水平測驗,英語閱讀理解題的內(nèi)容下面可能有較多道題目,題目之間不是相互獨立的,是相互關(guān)聯(lián)的。
第五,其他方法。Linacre(1989,1993)建議GT和IRT進行分析時,有必要進行互相補充。Linacre例舉了一個包含三側(cè)面的例子,說明了在使用GT的原始評分表和IRT的FACETS模型的Logit量表時,GT和IRT可以同時進行分析。Linacre建議,研究人員選擇GT或IRT,或兩種都選,需要取決于分析的目的,有兩種情況可供選擇:一是使用GT的興趣更多在于獲取組別的水平在原始分數(shù)量表的分數(shù)拓廣;二是使用IRT的興趣則更多在于從側(cè)面的特殊性和從固定的實驗設(shè)計中獨立地估計被試水平。許多研究者遵從Linacre的建議,既使用GT模型分析數(shù)據(jù),也使用FACETS模型分析數(shù)據(jù)(Verhelst & Glas,1993;Bock,Brennan,& Muraki,2002;Lee & Lewis,2008;Smith & Kulikowich,2004;俞宗火,唐小娟,王登峰,2009;徐思,張敏強,黎光明,2009)。Bock,Brennan和Muraki(2002)建議,進行GT和IRT整合分析時,需要注意兩種理論對相同定義的不同理解。
根據(jù)上述對這些模型方法的介紹,可以對它們的特點進行加以比較,其結(jié)果如表1所示。
表1 MM、HRM、GIRM、GIRMT及其他方法模型比較
從表1可知,MM考慮了二項分布數(shù)據(jù),研究設(shè)計為p×i設(shè)計,數(shù)學模型為Logistic模型,估計方法為ML方法,輸出結(jié)果只有方差分量。HRM考慮了多項分布數(shù)據(jù),研究設(shè)計為p×i×r設(shè)計,數(shù)學模型為GR模型,估計方法包括REML和EM方法,輸出結(jié)果只有被試能力。GIRM考慮了二項分布數(shù)據(jù),研究設(shè)計為p×i設(shè)計,數(shù)學模型為Logistic模型,估計方法僅包括MCMC方法,輸出結(jié)果包括方差分量、被試能力和概化系數(shù)。GIRMT考慮了二項分布數(shù)據(jù),研究設(shè)計包括p·×i。和p×(i∶r)設(shè)計,數(shù)學模型為GR模型,估計方法為MCMC方法,輸出結(jié)果有方差分量、被試能力和概化系數(shù)。對于其他方法,考慮了二項分布數(shù)據(jù),研究設(shè)計僅囿于三側(cè)面交叉設(shè)計,所使用的方法為ML方法,數(shù)學模型為Logistic模型,輸出結(jié)果包括方差分量、被試能力和概化系數(shù)。
目前,國內(nèi)外有關(guān)概化理論與項目反應理論融合模型的研究仍存在著一些問題,如下:
第一,所考慮的數(shù)據(jù)分布或數(shù)據(jù)類型較為有限。一些提出的概化理論與項目反應理論融合模型及方法所考慮的數(shù)據(jù)分布或數(shù)據(jù)類型較為有限,有些研究僅考慮二分數(shù)據(jù)(Kolen & Harris,1987;Briggs & Wilson,2007;Chien,2008;Choi,Briggs,& Wilson,2009),有些研究僅考慮非二分數(shù)據(jù)(Linacre,1993;Bock,Brennan & Muraki,2002;Patz,Junker,Johnson & Mariano,2002)。Kolen和Harris(1987)認為,將GT和IRT進行融合的基石是利用GT的方差分量和IRT的反應函數(shù)進行建模,數(shù)據(jù)類型只能限制于二分數(shù)據(jù),不太適合多級數(shù)據(jù)。Kolen和Harris提出,宜將多級數(shù)據(jù)進行離散化,把多級數(shù)據(jù)變成二級數(shù)據(jù)。另外,Briggs和Wilson(2007)、Chien(2008)以及Choi,Briggs和Wilson(2009)對數(shù)據(jù)的類型也是二分數(shù)據(jù)(二項分布數(shù)據(jù))。但是,有些學者也認為將GT和IRT進行融合,數(shù)據(jù)也可以是多級數(shù)據(jù)(Bock,Brennan & Muraki,2002;Patz,Junker,Johnson & Mariano,2002)。例如,Patz,Junker,Johnson和Mariano等人(2002)認為,將GT和IRT進行融合的數(shù)據(jù)類型(或數(shù)據(jù)分布),不僅可以是二分數(shù)據(jù),也可以是多級數(shù)據(jù)。目前,國外學者提出的將概化理論與項目反應理論融合的大多數(shù)模型及方法,仍然沒有發(fā)展出能夠同時處理連續(xù)變量和離散變量的方法,也沒考慮如何處理缺失數(shù)據(jù)和不平衡數(shù)據(jù)。然而,缺失數(shù)據(jù)和不平衡數(shù)據(jù)也是數(shù)據(jù)類型或數(shù)據(jù)分布需要考慮的一個重要方向,這是因為在日常生活及各種心理調(diào)查、心理實驗中,不平衡數(shù)據(jù)和缺失數(shù)據(jù)隨處可見(Allison,2002)。
第二,所建構(gòu)的數(shù)學模型不夠全面。將概化理論與項目反應理論進行融合的模型及方法所建構(gòu)的數(shù)學模型不夠全面,主要表現(xiàn)在大多數(shù)研究所建構(gòu)的數(shù)學模型僅囿于IRT的二值模型(Logistic模型)(Kolen & Harris,1987;Briggs & Wilson,2007;Chien,2008;Choi,Briggs,& Wilson,2009),僅有少數(shù)研究構(gòu)建了IRT的多值模型(Bock,Brennan& Muraki,2002;Patz,Junker,Johnson &Mariano,2002)。Patz,Junker,Johnson和Mariano(2002)考察了IRT的等級反應模型(Graded Response model,GR),而Bock,Brennan和Muraki(2002)考察了IRT的分步部分模型(Partial Credit Model,PCM)。Patz等人的等級評分模型方法(HRM),被看作是一個改良的GT模型和一個改進的IRT模型相融合,模型適合等級反應模型,評定等級定義在一個理想的有序空間的量尺上,并采用預先設(shè)定的等級概率估計被試能力。但是,Patz等人所建構(gòu)的HRM數(shù)學模型不夠全面,沒有考慮其他IRT模型的適用性。Bock,Brennan和Muraki(2002)基于分數(shù)評分的階段性,考察了GT研究設(shè)計下的IRT的分步部分模型,但沒有考察其他IRT模型的適用性。
第三,所進行的研究設(shè)計相對單一。國外學者提出的將概化理論與項目反應理論融合的模型及方法所進行的研究設(shè)計相對單一,有些研究僅考慮單側(cè)面設(shè)計p×i設(shè)計或p·×i。設(shè)計(Kolen & Harris,1987;Briggs & Wilson,2007;Choi,Briggs,& Wilson,2009),有些研究雖然考慮了多側(cè)面設(shè)計,如Chien(2008)考慮了雙側(cè)面設(shè)計p×(i∶h)設(shè)計,但沒有考慮其他設(shè)計,顯得不足。常見的概化理論研究設(shè)計既包括交叉設(shè)計,也包括嵌套設(shè)計,還包括混合設(shè)計,既可以考慮一個側(cè)面,也可以考慮多個側(cè)面,如p×i、i∶p、p×i×r、p×(i∶r)、i∶(p×r)、i∶p∶r等(Feng,2002;Feng & Ankenmann,2003)。由于國外學者提出的將概化理論與項目反應理論融合的模型及方法僅僅包含某一二種研究設(shè)計,顯得比較單一,不能滿足概化理論與項目反應理論研究設(shè)計的要求。另外,大多數(shù)將概化理論與項目反應理論相融合的研究僅囿于題目側(cè)面,較少考慮評分者側(cè)面,顯得不足。實際上,Wilson和Hoskens(2001)評分者捆綁模式以及Verhelst和Verstralen(2001)多個評分IRT等模型,也是概化理論與項目反應理論進行融合時適合考慮的評分者側(cè)面模式。
第四,所使用的估計方法缺乏綜合比較。一些學者提出的將概化理論與項目反應理論融合的模型及方法所使用的參數(shù)估計方法缺乏綜合比較,主要表現(xiàn)在:有些研究基于極大似然估計法(Maximum Likelihood Estimation,ML);有些研究基于限制極大似然估計法(Restricted Maximum Likelihood Estimation,REML);有些研究則基于期望最大法(Expectation Maximization,EM);還有些研究則基于MCMC方法(Briggs & Wilson,2007;Li,2009)。Kolen和Harris(1987)使用極大似然估計法給出了一套兼容GT和IRT的方差分量以及人和項目參數(shù)估計方法。Patz,Junker,Johnson和Mariano(2002)則使用了限制極大似然估計法和EM算法同時估計概化理論與項目反應理論融合模型HRM的被試能力。由此看來,大多數(shù)研究僅僅使用某一二種方法來估計模型參數(shù),缺乏同時用多種估計方法估計模型參數(shù),也缺乏對多種估計方法的性能進行綜合比較。例如,ML、REML、EM和MCMC四種方法,可以同時估計模型參數(shù),到底哪種方法更加適合概化理論與項目反應理論的融合模型?是應該基于不同情況不同方法進行綜合比較和探討的。
第五,所輸出結(jié)果的性能指標難以比較。國外學者提出的將概化理論與項目反應理論融合的模型及方法所輸出結(jié)果的性能指標難以比較,主要表現(xiàn)在:有些研究僅給出了方差分量估計(Kolen & Harris,1987);有些研究僅給出了被試能力估計(Patz,Junker,Johnson,& Mariano,2002);還有些研究則僅給出了概化系數(shù)估計(Li,2009)。鮮有研究同時給出方差分量估計、被試能力估計和概化系數(shù)估計等三種性能指標。例如,Kolen和Harris(1987)的MM方法輸出結(jié)果只能提供了方差分量估計,不能提供被試能力和概化系數(shù)估計,輸出的結(jié)果指標有限。Patz,Junker,Johnson和Mariano(2002)提出的HRM方法輸出結(jié)果僅能夠估算被試能力,但不能估算方差分量和概化系數(shù)等指標,輸出的結(jié)果指標也較為有限。Li(2009)僅給出了方差分量估計和概化系數(shù)估計,卻沒有給出被試能力估計等輸出結(jié)果,輸出的結(jié)果指標有限。由此看來,大多數(shù)研究僅僅給出一二種輸出結(jié)果指標,顯得不夠全面。
將概化理論與項目反應理論相融合,可以深化概化理論和項目反應理論研究,為兩種現(xiàn)代測量理論走向大統(tǒng)一提供了重要的方法指導,也可以為概化理論和項目反應理論融合后產(chǎn)生新模型進行后續(xù)方法研究提供基本保障。目前,有學者初步提出廣義項目反應下的概化模型(Generalized Generalizability in Item Response Modeling)的基本思路(Choi,2013),這種模型既結(jié)合了概化理論與項目反應理論的優(yōu)勢,也考慮了MM、HRM、GIRM、GIRMT等模型的特點,在數(shù)據(jù)分布(數(shù)據(jù)類型)、研究設(shè)計、數(shù)學模型、估計方法和輸出結(jié)果上考慮得更加全面。融合概化理論和項目反應理論是現(xiàn)代測量理論發(fā)展的趨勢,也將成為當前心理測量學研究的熱點。