李久亮
(北京服裝學(xué)院 外語(yǔ)系, 北京 100029)
?
Rasch模型在中國(guó)應(yīng)用研究回顧
李久亮
(北京服裝學(xué)院外語(yǔ)系, 北京100029)
摘要:自提出至今,Rasch模型已經(jīng)歷了半個(gè)多世紀(jì)的發(fā)展,在教育與心理測(cè)量學(xué)領(lǐng)域發(fā)揮著重要作用。通過對(duì)中國(guó)應(yīng)用語(yǔ)言學(xué)界利用Rasch模型開展的相關(guān)研究進(jìn)行回顧總結(jié),發(fā)現(xiàn)該模型主要用于語(yǔ)言測(cè)試研究與應(yīng)用,研究方向包括測(cè)驗(yàn)等值和測(cè)試信效度等。與國(guó)際同行相比,中國(guó)在Rasch模型的應(yīng)用研究方面還存在一定差距。通過分析與總結(jié)該模型的應(yīng)用研究現(xiàn)狀,希望對(duì)中國(guó)應(yīng)用語(yǔ)言學(xué)界有所啟示,并為有興趣利用Rasch模型開展研究的讀者提供參考與借鑒。
關(guān)鍵詞:Rasch模型; 應(yīng)用語(yǔ)言學(xué); 語(yǔ)言測(cè)試; 研究方法
引言
Rasch模型是項(xiàng)目反應(yīng)理論的模型之一,是二參數(shù)、三參數(shù)模型的一個(gè)特例(劉建達(dá)、呂劍濤,2012)。在中國(guó),羅冠中于1992年在《教育研究與實(shí)驗(yàn)》發(fā)表了一篇文章,對(duì)Rasch模型做了較為全面的介紹。此后,基于該模型的論著與研究報(bào)告逐漸開始在學(xué)界出現(xiàn),并在多個(gè)研究領(lǐng)域內(nèi)發(fā)揮著重要作用。該模型對(duì)中國(guó)應(yīng)用語(yǔ)言學(xué)界也產(chǎn)生了深遠(yuǎn)的影響,尤其在新千年之后,與之相關(guān)的學(xué)術(shù)論文發(fā)表數(shù)量上升較快,而且總體來看呈逐年遞增的趨勢(shì)。鑒于該模型對(duì)學(xué)界的重要意義,有必要對(duì)中國(guó)應(yīng)用語(yǔ)言學(xué)界的研究與應(yīng)用進(jìn)行回顧總結(jié),以期對(duì)有興趣采用Rasch模型開展相關(guān)研究的人員提供參考與借鑒。
一、Rasch模型基本理論及發(fā)展歷程
起源于20世紀(jì)初的經(jīng)典測(cè)試?yán)碚撘哉娣謹(jǐn)?shù)理論為基礎(chǔ)建立數(shù)學(xué)模型,到目前已發(fā)展成為體系成熟的測(cè)試?yán)碚?,在各行各業(yè)的應(yīng)用取得了很大成功。但在實(shí)際測(cè)評(píng)過程中,研究人員發(fā)現(xiàn)其在理論假設(shè)和實(shí)際應(yīng)用方面存在很多缺點(diǎn),例如項(xiàng)目統(tǒng)計(jì)量嚴(yán)重依賴被試樣本等,其理論最大的缺點(diǎn)在于對(duì)測(cè)量誤差分析太過籠統(tǒng)。與經(jīng)典真分?jǐn)?shù)理論相比,項(xiàng)目反應(yīng)理論(IRT)在模擬被試能力與測(cè)試題目之間的相互作用上有明顯的優(yōu)勢(shì),如樣本獨(dú)立性、多重信度評(píng)估等,因而能夠在很大程度上彌補(bǔ)經(jīng)典測(cè)試?yán)碚撛跍y(cè)驗(yàn)信度和效度處理上的不足。
丹麥數(shù)學(xué)家George Rasch在1960年提出了單參數(shù)IRT模型,即Rasch模型。作為一種潛在特質(zhì)模型, Rasch模型通過個(gè)體在題目上的表現(xiàn)(通常表示為原始分?jǐn)?shù))來測(cè)量不可直接觀察的、潛在的變量。根據(jù)Rasch模型原理, 特定的個(gè)體對(duì)特定的題目作出特定反應(yīng)的概率可以用個(gè)體能力與該題目難度的一個(gè)簡(jiǎn)單函數(shù)來表示。個(gè)體回答某一題目正確與否完全取決于個(gè)體能力和題目難度之間的比較。Rasch模型是一個(gè)理想化的數(shù)學(xué)模型。它要求所收集的實(shí)證數(shù)據(jù)必須滿足事先規(guī)定的標(biāo)準(zhǔn)和結(jié)構(gòu), 才能實(shí)現(xiàn)客觀測(cè)量。Rasch模型對(duì)于客觀測(cè)量有兩個(gè)要求,即: (1)對(duì)任何題目, 能力高的個(gè)體應(yīng)該比能力低的個(gè)體有更大可能作出正確回答; (2)任何個(gè)體在容易題目上的表現(xiàn)應(yīng)該始終好過在困難題目上的表現(xiàn)。Rasch分析提供的擬合度指標(biāo)可以檢驗(yàn)實(shí)證數(shù)據(jù)與Rasch模型的擬合程度。題目的擬合度指標(biāo)不好, 說明可能存在目標(biāo)特質(zhì)之外的其他變量, 或者對(duì)所測(cè)量特質(zhì)的定義不恰當(dāng)。
在Rasch模型分析中,被試能力與試題參數(shù)完全獨(dú)立,這是它區(qū)別并優(yōu)于經(jīng)典測(cè)量理論的突出特性。此外,它允許對(duì)類型選擇進(jìn)行評(píng)估,測(cè)量絕大部分類別是否得到了妥善利用。并且,Rasch模型不同于經(jīng)典真分?jǐn)?shù)理論和概化理論,具有可推翻性(何蓮珍,等,2008)。自提出后,Rasch模型經(jīng)歷了快速發(fā)展,在教育與心理測(cè)量學(xué)領(lǐng)域有著深入、廣泛的研究與應(yīng)用。不過,也有學(xué)者指出Rasch模型存在不足(Hambleton, 1979)。例如,它只將項(xiàng)目難度這個(gè)因素考慮在內(nèi),不能解釋多種誤差的來源。而在含有主觀評(píng)判的測(cè)試活動(dòng)中,最終的分?jǐn)?shù)會(huì)受到多方面因素的影響,如考官嚴(yán)厲度、任務(wù)難度、評(píng)分標(biāo)準(zhǔn)等。為了提高測(cè)試結(jié)果的公平與準(zhǔn)確,就必須對(duì)影響測(cè)試結(jié)果的各種差異來源進(jìn)行妥善處理。為了彌補(bǔ)項(xiàng)目反應(yīng)理論及其模型的不足,Linacre(1989)在Rasch模型的基礎(chǔ)上,提出了一個(gè)新的評(píng)估框架,將多個(gè)層面納入分析中,即多層面Rasch模型(MFRM)。MFRM將考生能力、題目難度、評(píng)分員嚴(yán)厲度、評(píng)分量表中相鄰等級(jí)的階梯難度等多個(gè)層面納入同一個(gè)數(shù)學(xué)模型,共同決定考生取得某一分值的概率大小。
這樣做的優(yōu)勢(shì)是:1)分離其它層面(facet)的影響,用同一個(gè)洛基(logit)尺度來估算各層面(如考生能力、評(píng)分員嚴(yán)厲度、試題難度)的真實(shí)測(cè)量值;2)判斷評(píng)分量表的準(zhǔn)確性;3)判斷層面內(nèi)部成分之間是否有顯著差異,例如,判斷考生能力差異是否顯著;4)檢驗(yàn)各層面間是否有偏性交互作用,例如,檢驗(yàn)評(píng)分員嚴(yán)厲度是否偏向于某一群體的考生;5)進(jìn)行配對(duì)比較(paired comparison)。例如,比較兩組考生對(duì)同一考試任務(wù)的表現(xiàn)?;谏鲜鎏攸c(diǎn),MFRM非常適合用于研究寫作評(píng)分、檔案袋評(píng)估等其它類型的主觀評(píng)判測(cè)試活動(dòng)(Linacre,2011)。
二、Rasch模型在中國(guó)應(yīng)用研究現(xiàn)狀
本文主要基于中國(guó)已公開發(fā)表的Rasch模型應(yīng)用研究報(bào)告,通過在中國(guó)知網(wǎng)進(jìn)行文獻(xiàn)搜索獲得相關(guān)資料與數(shù)據(jù)。結(jié)果發(fā)現(xiàn),國(guó)內(nèi)對(duì)Rasch模型的應(yīng)用研究主要集中在教育心理測(cè)量領(lǐng)域(曹亦薇,等,2008;常蕤,2008;徐思,等,2009)。在應(yīng)用語(yǔ)言學(xué)界目前已發(fā)表了40余篇利用該模型開展研究的論文。經(jīng)過總結(jié)歸類,Rasch模型在學(xué)界的應(yīng)用研究主要集中在測(cè)試等值研究、測(cè)試信效度研究、層面功能差異、題庫(kù)建設(shè)、計(jì)算機(jī)自適應(yīng)測(cè)試等。下面簡(jiǎn)要介紹這些領(lǐng)域的研究情況,對(duì)應(yīng)用Rasch模型開展研究的思路、方法及實(shí)際操作進(jìn)行梳理。
(一)測(cè)試等值研究
Rasch模型對(duì)中國(guó)應(yīng)用語(yǔ)言學(xué)界做出的一項(xiàng)重要貢獻(xiàn)是在大規(guī)模外語(yǔ)測(cè)試中(如高考英語(yǔ)、全國(guó)大學(xué)英語(yǔ)四、六級(jí)(CET4/6))的等值研究與應(yīng)用。以CET4/6為例,自1987年第一次實(shí)施起,Rasch模型就已應(yīng)用在該考試的分?jǐn)?shù)等值研究中(朱正才,等,2003;朱正才、楊惠中,2004),并且取得了令人滿意的效果。分?jǐn)?shù)等值研究對(duì)大規(guī)??荚嚲哂兄匾饬x,這是因?yàn)榇笠?guī)??荚嚱?jīng)常同時(shí)使用多套試卷。為保證考試的公平性與信效度,試卷之間的等值非常重要。而Rasch模型是開展分?jǐn)?shù)等值研究的有效工具,這主要是因?yàn)樵撃P途哂羞m合以上用途的特性。Rasch模型能夠反映考生能力與題目難度之間的關(guān)系,這為分?jǐn)?shù)等值研究提供了重要的數(shù)據(jù)。此外,該模型數(shù)學(xué)形式簡(jiǎn)潔,屬標(biāo)準(zhǔn)指數(shù)族函數(shù),因而數(shù)學(xué)基礎(chǔ)更堅(jiān)實(shí);在參數(shù)估計(jì)過程中,由于有充分統(tǒng)計(jì)量的存在,計(jì)算結(jié)果穩(wěn)定可靠。例如,劉建達(dá)、呂劍濤(2012)使用Rasch模型等值 10 套設(shè)有錨題的英語(yǔ)試卷。他們先將這10 套試卷通過NEAT(nonequivalent groups with an anchor test)設(shè)計(jì)銜接起來,再通過卡方檢驗(yàn)和 mean/sigma 轉(zhuǎn)換法算出的常數(shù)值剔除質(zhì)量差的錨題,最后用保留的錨題確定等值函數(shù)。對(duì)Rasch模型的適用性檢驗(yàn)表明,10 套試卷的數(shù)據(jù)符合Rasch模型的假設(shè)。等值結(jié)果分析顯示,銜接各試卷的錨題在統(tǒng)計(jì)意義上均有效,基于Rasch模型的等值結(jié)果能校正試卷間的難度差異。除在大規(guī)模語(yǔ)言測(cè)試中的分?jǐn)?shù)等值研究外,Rasch模型還用于香港中學(xué)會(huì)考中、英文科的水平參照等級(jí)評(píng)定(羅冠中,2008)。
(二)測(cè)試信效度研究
已公開發(fā)表的基于Rasch模型的學(xué)術(shù)論文大多探討語(yǔ)言測(cè)試信效度問題(江進(jìn)林,等,2010;王初明,等,2013)。彭康洲(2010)利用Rasch模型對(duì)2007年TEM4聽力理解項(xiàng)目進(jìn)行研究分析。作者首先確定題目的難度和考生的能力水平分布,建立TEM4聽力行為錨定量表,從標(biāo)準(zhǔn)參照測(cè)試角度做項(xiàng)目分析和信度估算,以考察項(xiàng)目的標(biāo)準(zhǔn)參照屬性。根據(jù)Rasch模型分析結(jié)果,作者得出結(jié)論,2007年TEM4聽力理解項(xiàng)目難度分布較為均勻,題目總體難度處于中等水平,區(qū)分度也較為合理。
需要指出的是,Rasch模型應(yīng)用研究中所指的效度并非廣義上的,通常情況下它具有如下層面的意義:如果Rasch分析顯示沒有非擬合情況,那就證明某測(cè)試方法具有一定的構(gòu)念效度(construct validity)(劉建達(dá),2005)。例如,趙南、董燕萍(2013)對(duì)一次交替?zhèn)髯g測(cè)試結(jié)果進(jìn)行多面Rasch模型檢驗(yàn)以驗(yàn)證測(cè)試的效度。擬合檢驗(yàn)顯示,模型中各個(gè)層面變量的擬合值都接近期望值1.00,而被試的平均擬合值更是達(dá)到了1.00的期望值,說明結(jié)果完全符合模型預(yù)測(cè)。作者因此得出結(jié)論,交替?zhèn)髯g測(cè)試的效度得到了證實(shí)。
很多Rasch模型研究論文利用MFRM(多層面Rasch模型)開展主觀測(cè)試題型的研究,主要涉及寫作(李清華、孔文,2010;劉建達(dá),2010)、口語(yǔ)(何蓮珍,等,2008;白英,2009)、翻譯(江進(jìn)林,等,2010;江進(jìn)林,等,2011)、話語(yǔ)填充語(yǔ)用測(cè)試(劉建達(dá),2005,2007)等。這些MFRM研究大多采用四個(gè)層面的設(shè)計(jì),即考生、評(píng)分員、任務(wù)、評(píng)分標(biāo)準(zhǔn)。通過相關(guān)數(shù)據(jù)觀察各個(gè)層面因素與模型間的擬合情況,對(duì)考試的總體效度進(jìn)行評(píng)價(jià)。例如張新玲等(2010)運(yùn)用MFRM對(duì)廣東省高考英語(yǔ)試卷中讀寫結(jié)合寫作題型進(jìn)行構(gòu)念效度驗(yàn)證,目的是通過考察考試成績(jī)中的異常數(shù)據(jù),觀察該任務(wù)能否有效測(cè)量考生的讀寫綜合能力。在考生層面上,分隔指數(shù)信度和卡方檢驗(yàn)結(jié)果表明,受試作文成績(jī)存在顯著差異,且該差異主要源自所測(cè)考生能力上的差別。因此,此類考試任務(wù)總體上能夠有效區(qū)分考生這方面的能力水平。在任務(wù)層面上,概要和短文兩項(xiàng)任務(wù)的難度有顯著差異,且兩者的InfitMnSq值都在可接受范圍內(nèi)。在評(píng)分員層面上,分隔信度和卡方檢驗(yàn)說明評(píng)分員之間在嚴(yán)厲度上有顯著差異,但他們的前后一致性較好。評(píng)分標(biāo)準(zhǔn)層面,內(nèi)容、語(yǔ)言和連貫性的InfitMnsq值說明后兩個(gè)子項(xiàng)與模型擬合較好。據(jù)此,研究者得出結(jié)論,該任務(wù)能夠有效考察考生的讀寫綜合技能,評(píng)分員總體寬嚴(yán)適度,評(píng)分量表使用合理。
對(duì)相關(guān)文獻(xiàn)進(jìn)行分析可以看出,MFRM在做事測(cè)試(performance test)領(lǐng)域的研究主要集中在以下兩個(gè)方面:第一,評(píng)分標(biāo)準(zhǔn)和評(píng)分過程研究;第二,考試應(yīng)答數(shù)據(jù)與模型擬合度的綜合分析,以此進(jìn)行效度驗(yàn)證。我國(guó)學(xué)者因此也利用Rasch模型開展考試評(píng)分質(zhì)量控制(王躍武,等,2006)。MFRM對(duì)研究評(píng)分員效應(yīng)十分有效(Xi, 2008),國(guó)內(nèi)學(xué)者利用此法開展了多項(xiàng)研究(劉建達(dá),2007,2010;戴朝暉,等,2010)。結(jié)果發(fā)現(xiàn),評(píng)卷嚴(yán)厲度不一的問題普遍存在(譚智,2008;戴朝暉,2010),評(píng)分員和評(píng)分標(biāo)準(zhǔn)的各個(gè)方面相互影響顯著(何蓮珍,等,2008),等等。在評(píng)分員效應(yīng)的討論上,劉建達(dá)(2010)進(jìn)一步拓展了研究思路,綜合采用多種評(píng)價(jià)指標(biāo),從評(píng)卷人的總體嚴(yán)厲程度、集中趨勢(shì)、隨機(jī)效應(yīng)、暈輪效應(yīng)、區(qū)分性嚴(yán)厲度等多角度入手,探討如何利用多層面Rasch模型來分析評(píng)分員效應(yīng)。這些研究發(fā)現(xiàn)對(duì)評(píng)分質(zhì)量控制、評(píng)分標(biāo)準(zhǔn)設(shè)計(jì)和評(píng)分員培訓(xùn)都很有意義。
須指出的是,MFRM并非是評(píng)分信度研究可使用的唯一方法,學(xué)界中的另外一個(gè)研究范式是采用概化理論,兩者各有所長(zhǎng)。MFRM比較適合研究個(gè)體評(píng)分員和任務(wù),以及評(píng)分員、任務(wù)和考生不同組合方式對(duì)總體評(píng)分信度的影響,而對(duì)于整體層面以及層面間交互作用的研究則可采用概化理論(Xi,2008)。兩種方法形成優(yōu)勢(shì)互補(bǔ),因此研究者提議對(duì)二者進(jìn)行綜合應(yīng)用(Bachman,1995;Lynch,1998)。國(guó)內(nèi)也有學(xué)者同時(shí)采用這兩種方法開展評(píng)分信度研究(李航,2011;孫海洋,2011)。李航采用概化理論和多層面Rasch模型對(duì)CET6作文評(píng)分信度進(jìn)行了研究。概化理論的分析發(fā)現(xiàn),評(píng)分員層面以及包含評(píng)分員與考生間交互作用的殘差的方差在總方差中占有一定比重。而MFRM分析則發(fā)現(xiàn)評(píng)分員在嚴(yán)厲度上存在較大差異;評(píng)分員與考生間偏性交互分析表明,評(píng)分員對(duì)能力較高的考生標(biāo)準(zhǔn)偏嚴(yán),而對(duì)能力較差的考生偏松。由此可見,概化理論和多層面Rasch模型具有良好的互補(bǔ)性,能對(duì)測(cè)試信度做出點(diǎn)面結(jié)合的豐富說明。
(三)層面功能差異(DFF)研究
利用MFRM還可以研究層面內(nèi)個(gè)體特質(zhì)對(duì)評(píng)分產(chǎn)生的影響,稱為層面功能差異(differential facet functioning或DFF)研究(Engelhard,1992)。例如考生特質(zhì)可以包括性別、年齡、民族、種族、社會(huì)階層以及學(xué)習(xí)能力等。這些特質(zhì)造成的偏差效應(yīng)可待層面校標(biāo)之后加以考察。DFF研究在概念上類似于當(dāng)前研究項(xiàng)目功能差異(Differential Item Functioning或DIF)所使用的方法。例如,寫作測(cè)試中考生這一層面可以分別為男性和女性校標(biāo),這些估算值之間的對(duì)應(yīng)性就可以用來發(fā)現(xiàn)DFF。在做事測(cè)試中,層面之間的交互作用也可作為潛在的偏差來源加以檢測(cè)。該測(cè)量模型還可拓展以分析為何評(píng)分員嚴(yán)厲度不一,以及為何題目難度不同等問題。DFF研究在我國(guó)應(yīng)用語(yǔ)言學(xué)界開展的不多(劉洋,2008;白英,2009),且多是利用FACETS計(jì)算出的層面內(nèi)個(gè)體能力或難度估值進(jìn)行不同特質(zhì)間的對(duì)比,很少?gòu)膶用骈g的交互作用來觀察偏差的來源。
白英(2009)研究了考生間熟識(shí)性對(duì)口語(yǔ)群測(cè)模式下考生成績(jī)產(chǎn)生的影響。31位同學(xué)三人為一組,分成十組,分別參加兩次口語(yǔ)群測(cè)考試。第一次口語(yǔ)考試中,同組有兩人熟識(shí),一人陌生;第二次口語(yǔ)考試中,同組三人彼此均不認(rèn)識(shí)。結(jié)果發(fā)現(xiàn),考生間熟識(shí)性對(duì)考生的成績(jī)有正面影響,即熟人討論組考生的成績(jī)高于生人討論組的,但兩種情況下測(cè)試的難度差異并不顯著。
除上述外,Rasch模型在學(xué)界其它領(lǐng)域的應(yīng)用相對(duì)較少。在題庫(kù)建設(shè)、計(jì)算機(jī)自適應(yīng)測(cè)試方面,王蕾、黃曉婷(2006)提出利用該模型構(gòu)建我國(guó)少兒英語(yǔ)遠(yuǎn)程計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)題庫(kù)的設(shè)想。此外,她們還嘗試將該模型應(yīng)用到量表編制過程中(王蕾、黃曉婷,2012)。
三、存在問題
Rasch模型為中國(guó)應(yīng)用語(yǔ)言學(xué)界提供了有效的研究方法與手段,使我們對(duì)相關(guān)問題有了進(jìn)一步的理解與認(rèn)識(shí)。然而從本文所收集的論文資料來看,目前有關(guān)該模型的應(yīng)用研究尚存在一些局限。首先在應(yīng)用范圍上,主要是從事語(yǔ)言測(cè)試專業(yè)的研究人員在利用它開展測(cè)試的信效度研究,在語(yǔ)言學(xué)的其它領(lǐng)域尚不多見?,F(xiàn)有研究主要利用MFRM來分析主觀測(cè)試題,其中絕大多數(shù)使用FACETS軟件。其次,觀察問題的角度也比較有限,涉及最多的是評(píng)分嚴(yán)厲度。模型中各層面間的偏性交互作用也多是局限于評(píng)分員和考生之間的,思路有待進(jìn)一步拓展,比如觀察考生和任務(wù)類型間的交互,以分析不同特征的任務(wù)是否、以及如何對(duì)考生構(gòu)成不同的挑戰(zhàn)(李久亮,2014)。從另一側(cè)面來看,這也反映出我們對(duì)與Rasch模型有關(guān)應(yīng)用還不夠成熟。由于參數(shù)估計(jì)方法較為復(fù)雜,導(dǎo)致模型在使用中不甚方便,對(duì)于語(yǔ)言學(xué)研究人員有些數(shù)據(jù)甚至難以理解。欲善其事,先利其器,重視Rasch模型應(yīng)用方面的學(xué)習(xí)與探索可以幫助我們?nèi)娑钊氲亓私庋芯繂栴}中各個(gè)變量之間的關(guān)系,進(jìn)而將我們的研究水平提升到更高的層次。另外,現(xiàn)有研究在方法上過于依賴定量方法,只有少數(shù)研究結(jié)合采用定性方法(張潔,2012)。今后的研究可考慮綜合應(yīng)用這兩種研究范式,從多個(gè)角度研究測(cè)試信效度問題,比如利用有聲思維剖析評(píng)分員的評(píng)判過程。在語(yǔ)言研究日趨多元化、綜合化、科學(xué)化的今天,深入了解與應(yīng)用各種研究方法對(duì)于中國(guó)應(yīng)用語(yǔ)言學(xué)的發(fā)展有著深刻的意義。
四、前景展望
過去幾十年里,教育與心理測(cè)量領(lǐng)域在理論與實(shí)踐層面都經(jīng)歷了快速的發(fā)展,其中,Rasch模型的出現(xiàn)大大提高了研究人員對(duì)相關(guān)問題認(rèn)識(shí)的廣度與深度。其堅(jiān)實(shí)的理論基礎(chǔ)及簡(jiǎn)單的數(shù)學(xué)表述確保了它廣泛的應(yīng)用前景。在當(dāng)今國(guó)際心理和教育測(cè)量學(xué)的舞臺(tái)上,Rasch模型仍然扮演著十分重要的角色,幫助研究人員在各個(gè)領(lǐng)域開展廣泛而深入的科學(xué)研究。同時(shí),Rasch模型自身也有了新的發(fā)展。對(duì)于其在實(shí)現(xiàn)客觀測(cè)量中的作用,除了持續(xù)不斷的理論探討之外, 也越來越多地得到了實(shí)際應(yīng)用的佐證。此外,學(xué)界還創(chuàng)立了有關(guān)Rasch模型研究的專業(yè)性學(xué)術(shù)期刊TheJournalofAppliedMeasurement,并且每年在全球范圍內(nèi)舉辦以該模型為核心內(nèi)容的論壇、研討會(huì)。Rasch模型開辟了一片新的研究領(lǐng)域,也向我們提出了許多具有挑戰(zhàn)性的課題,與之相關(guān)的研究在世界范圍內(nèi)蓬勃發(fā)展,并且加快了成果向?qū)嶋H轉(zhuǎn)化的步伐。自引介以來,Rasch模型在中國(guó)應(yīng)用語(yǔ)言學(xué)界產(chǎn)生了持續(xù)而深遠(yuǎn)的影響,使得學(xué)界在相關(guān)領(lǐng)域的研究取得了一定的成果。然而毋庸諱言,與世界同行相比,我們?cè)趹?yīng)用該模型開展研究的理論和方法層面仍然存在一定差距和局限。但只要潛心鉆研,刻苦學(xué)習(xí),積極倡導(dǎo)國(guó)際、國(guó)內(nèi)學(xué)術(shù)合作與交流,我們也一定能在這塊充滿機(jī)遇的領(lǐng)域里收獲豐富的成果。
參考文獻(xiàn):
白英. 2009. 熟識(shí)性對(duì)口語(yǔ)群測(cè)模式的影響[J].Teaching English in China(2):114-125, 127.
曹亦薇,毛成美. 2008. 縱向Rasch模型在大學(xué)新生適應(yīng)性追蹤研究中的應(yīng)用[J].心理學(xué)報(bào),40(4): 427-435.
常蕤.2008.一種基于Rasch模型的Angoff方法及其應(yīng)用[J].心理學(xué)探新(4):76-79.
戴朝暉,尤其達(dá). 2010.大學(xué)英語(yǔ)計(jì)算機(jī)口語(yǔ)考試評(píng)分者偏差分析[J].外語(yǔ)界(5):87-95.
何蓮珍,閔尚超.2008.寫作測(cè)試的主要實(shí)證研究方法及其發(fā)展趨勢(shì)[J].中國(guó)外語(yǔ),5(6):42-46.
何蓮珍,張潔. 2008.多層面Rasch模型下大學(xué)英語(yǔ)四、六級(jí)考試口語(yǔ)考試(CET-SET)信度研究[J].現(xiàn)代外語(yǔ)(4):388-398, 437.
江進(jìn)林,文秋芳. 2010.基于Rasch模型的翻譯測(cè)試效度研究[J].外語(yǔ)電化教學(xué)(1):14-18.
江進(jìn)林,王立非,馬曉雷. 2011.英譯漢任務(wù)中的評(píng)分員效應(yīng)研究[J].解放軍外國(guó)語(yǔ)學(xué)院學(xué)報(bào)(6):97-101, 128.
李航. 2011.基于概化理論和多層面Rasch模型的CET-6作文評(píng)分信度研究[J].外語(yǔ)與外語(yǔ)教學(xué)(5):51-56.
李久亮. 2014. 不同文章體裁概要寫作任務(wù)的Rasch模型分析[J].外語(yǔ)與外語(yǔ)教學(xué)(5):30-35.
李清華,孔文. 2010.TEM-4寫作新分項(xiàng)式評(píng)分標(biāo)準(zhǔn)的多層面Rasch模型分析[J].外語(yǔ)電化教學(xué)(1):19-25.
劉建達(dá). 2005.話語(yǔ)填充測(cè)試方法的多層面Rasch模型分析[J].現(xiàn)代外語(yǔ)(2):157-169, 220.
劉建達(dá). 2007.語(yǔ)用能力測(cè)試的評(píng)卷對(duì)比研究[J].現(xiàn)代外語(yǔ)(4):395-404, 438.
劉建達(dá). 2010.評(píng)卷人效應(yīng)的多層面Rasch模型研究[J].現(xiàn)代外語(yǔ)(2):185-193, 220.
劉建達(dá),呂劍濤. 2012.Rasch模型等值多套英語(yǔ)試卷的可行性研究[J].現(xiàn)代外語(yǔ)(4): 401-408.
劉洋.2008.測(cè)試方法對(duì)于寫作的影響[J].Teaching English in China(4):50-65, 128.
羅冠中. 1992.Rasch模型及其發(fā)展[J].教育研究與實(shí)驗(yàn)(2):18-32.
羅冠中. 2008.Rasch模型及其在香港中學(xué)會(huì)考水平參照等級(jí)評(píng)定中的應(yīng)用[J].考試研究(2):18-32.
彭康洲. 2010.TEM4聽力理解項(xiàng)目的行為錨定分析及標(biāo)準(zhǔn)參照屬性[J].外語(yǔ)電化教學(xué)(1):42-47.
彭康洲. 2011.競(jìng)教比賽的多層面Rasch模型分析[J].重慶郵電大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版)(6):111-116.
孫海洋. 2011.概化理論和多層面Rasch模型在建立“職前中學(xué)英語(yǔ)教師口語(yǔ)考試模型”中的應(yīng)用[J].外語(yǔ)與外語(yǔ)教學(xué)(5):57-62.
譚智. 2008.應(yīng)用Rasch模型分析英語(yǔ)寫作評(píng)分行為[J].外語(yǔ)教學(xué)理論與實(shí)踐(1):26-31.
王初明,亓魯霞. 2013. 讀后續(xù)寫題型研究[J].外語(yǔ)教學(xué)與研究(5):707-718.
王蕾,黃曉婷. 2006.構(gòu)建我國(guó)少兒英語(yǔ)遠(yuǎn)程計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)題庫(kù)的設(shè)想[J].考試研究(3):72-86.
王蕾,黃曉婷. 2012.高中英語(yǔ)學(xué)習(xí)策略量表編制與Rasch多維度分析[J].心理學(xué)探新(1):72-76.
王躍武,朱正才,楊惠中. 2006.作文網(wǎng)上評(píng)分信度的多面Rasch測(cè)量分析[J].外語(yǔ)界(1):69-76.
張艷莉,彭康洲. 2012.TEM8寫作考試評(píng)分員差異性研究[J].外語(yǔ)電化教學(xué)(1):42-46.
徐思,張敏強(qiáng),黎光明. 2009.基于GT和多面Rasch模型的結(jié)構(gòu)化面試分析[J].心理學(xué)探新(5):77-82.
張潔. 2012.PETS三級(jí)口語(yǔ)考試評(píng)分誤差研究——結(jié)合定量統(tǒng)計(jì)和定性描述的方法[J].外語(yǔ)測(cè)試與教學(xué)(2):33-42.
張新玲,曾用強(qiáng),張潔. 2010.對(duì)大規(guī)模讀寫結(jié)合寫作任務(wù)的效度驗(yàn)證[J].解放軍外國(guó)語(yǔ)學(xué)院學(xué)報(bào)(2):50-54, 128.
趙南,董燕萍. 2013.基于多面Rasch模型的交替?zhèn)髯g測(cè)試效度驗(yàn)證[J].解放軍外國(guó)語(yǔ)學(xué)院學(xué)報(bào)(1):86-90.
朱正才,楊惠中. 2004.大學(xué)英語(yǔ)四、六級(jí)考試分?jǐn)?shù)的機(jī)助百分位等值研究[J].現(xiàn)代外語(yǔ) (1):70-75.
朱正才,楊惠中,楊浩然. 2003.Rasch模型在CET考試分?jǐn)?shù)等值中的應(yīng)用[J]. 現(xiàn)代外語(yǔ)(1):69-75.
BACHMAN L F, LYNCH B K, MASON M. 1995. Investigating Variability in Tasks and Rater Judgments in a Performance Test of Foreign Language Speaking[J]. Language Testing, 12(2): 238-257.
ENGELHARD G. 1992. The Measurement of Writing Ability With a Many-Faceted Rasch Model[J].Applied Measurement in Education 5, (3): 171-191.
HAMBLETON R K. 1979.Latent Trait Models and Their Applications[C]∥TRAUB R (eds.). Computer-assisted Instruction, Testing, and Guidance. New York: Harper & Row.
LINACRE J M.1989. Many-facted Rasch Measurement[M].Chicago:MESA Press.
LINACRE J M. 2011. A User’s Guide to FACETS[Z].Computer Software Manual. Chicago: Winsteps. com.
LYNCH B K, MCNAMARA T F. 1998.Using G-theory and Many-facet Rasch Measurement in The Development of Performance Assessments of the ESL Speaking Skills of Immigrants[J]. Language Testing, 15(2): 158-180.
MCNAMARA T.1996.Measuring Second Language Performance[M]. New York: Addison Wesley Longman Limited.
XI X.2008.Methods of Test Validation[M].Encyclopedia of Language and Education: Vol. 7. Language Testing and Assessment(2nd ed.). New York: Springer Science+Business Media LLC:177-196.
[責(zé)任編輯:許蓮華]
A Review of Rasch-based Applied Linguistics Research in China
LI Jiuliang
(DepartmentofForeignLanguages,BeijingInstituteofFashionTechnology,Beijing100029,China)
Abstract:It has been more than a half century since Rasch model had been developed. From then on, the model has exerted great impact on educational and psychometric research. This paper reviews Rasch-related studies completed by scholars in domestic applied linguistic circle. It is found that the said model has been mainly used for purposes of language testing practice and research in test equating, test validity and reliability, etc. Compared with the rest of the world, the domestic linguistic studies have some limitations in using this model. It is intended that this review would inform scholars who are interested in doing research with Rasch.
Key words:Rasch model; applied linguistics; language testing; research method
收稿日期:2015-09-24
基金項(xiàng)目:北京高等學(xué)校教育教學(xué)改革重點(diǎn)聯(lián)合委托項(xiàng)目“三位一體市屬高校大學(xué)英語(yǔ)教育改革模式研究”(2014-Ih03)。
作者簡(jiǎn)介:李久亮(1975-),男,北京人,博士,北京服裝學(xué)院外語(yǔ)系副教授,研究方向?yàn)檎Z(yǔ)言測(cè)試與評(píng)估、外語(yǔ)教學(xué)。
中圖分類號(hào):H08
文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1672-0962(2016)02-0073-06