• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    教育測(cè)量理論新進(jìn)展及發(fā)展趨勢(shì)

    2012-01-28 13:09:00樂美玲張佳慧
    中國(guó)考試 2012年5期
    關(guān)鍵詞:計(jì)算機(jī)化測(cè)驗(yàn)標(biāo)定

    辛 濤 樂美玲 張佳慧

    教育測(cè)量理論新進(jìn)展及發(fā)展趨勢(shì)

    辛 濤 樂美玲 張佳慧

    以多維項(xiàng)目反應(yīng)理論和認(rèn)知診斷理論為代表的現(xiàn)代教育測(cè)量理論的興起反映了人們不滿足于單一的測(cè)量分?jǐn)?shù)、希望得到更加詳細(xì)的診斷信息的現(xiàn)實(shí)情況。將測(cè)量理論與教育評(píng)價(jià)和考試等實(shí)踐領(lǐng)域相結(jié)合產(chǎn)生了增值性評(píng)價(jià)、自適應(yīng)測(cè)驗(yàn)以及計(jì)算機(jī)化自適應(yīng)多階段考試等應(yīng)用研究。目前大多數(shù)前沿領(lǐng)域,如認(rèn)知診斷和計(jì)算機(jī)化認(rèn)知診斷測(cè)驗(yàn),還處于理論研究的階段,尚未在大規(guī)模測(cè)評(píng)項(xiàng)目中應(yīng)用;但隨著研究的不斷深化以及實(shí)踐領(lǐng)域的迫切需求,新一代測(cè)量理論勢(shì)必在教育等領(lǐng)域發(fā)揮重要的作用。

    多維項(xiàng)目反應(yīng)理論;認(rèn)知診斷理論;垂直標(biāo)定;增值評(píng)價(jià);計(jì)算機(jī)化自適應(yīng)測(cè)驗(yàn)

    20世紀(jì)50年代至今,除了經(jīng)典測(cè)量理論(Clas?sical Test Theory,CTT)外,項(xiàng)目反應(yīng)理論(Item Re?sponse Theory,IRT)、概化理論(Generalizability The?ory,GT)以及認(rèn)知診斷理論(Cognitive Diagnostic Theory,CDT)并存于心理與教育測(cè)量領(lǐng)域?,F(xiàn)代測(cè)量理論大多是在經(jīng)典測(cè)量理論的基礎(chǔ)上,針對(duì)其某方面的不足發(fā)展起來(lái)的,以解決實(shí)踐中的問(wèn)題。目前,隨著教育以及各領(lǐng)域的發(fā)展,新的需求不斷涌現(xiàn),對(duì)測(cè)量理論提出新的挑戰(zhàn)。因此,測(cè)量研究者繼續(xù)傳承這種理念,進(jìn)一步完善、發(fā)展測(cè)量理論;同時(shí),研究者將測(cè)量理論應(yīng)用于教育等領(lǐng)域的考試實(shí)踐中,取得了豐富的成果。

    目前,以IRT為核心的現(xiàn)代測(cè)量理論取代了CTT的核心地位,在現(xiàn)代測(cè)量實(shí)踐中發(fā)揮著重要的作用。然而,IRT的強(qiáng)假設(shè)(單維性、局部獨(dú)立性和單調(diào)性)在很大程度上限制了其在考試實(shí)踐中的應(yīng)用。隨著認(rèn)知科學(xué)、計(jì)算機(jī)科學(xué)及數(shù)理統(tǒng)計(jì)學(xué)等學(xué)科滲入到心理與教育測(cè)量學(xué)領(lǐng)域,教育測(cè)量與評(píng)價(jià)活動(dòng)正經(jīng)歷著深刻的變化。傳統(tǒng)的教育測(cè)驗(yàn)只給出一個(gè)籠統(tǒng)的考生測(cè)驗(yàn)分?jǐn)?shù),然而當(dāng)今人們更希望通過(guò)教育測(cè)驗(yàn)提供更為詳細(xì)的診斷信息從而更深入地了解學(xué)生的認(rèn)知結(jié)構(gòu)與水平。此外,教育決策者希望建立起教育監(jiān)測(cè)系統(tǒng),更好地了解學(xué)生學(xué)業(yè)成就的發(fā)展情況,并且對(duì)教師和學(xué)校的效能進(jìn)行相對(duì)客觀的評(píng)估。同時(shí),隨著科技的進(jìn)步與發(fā)展,越來(lái)越多的考試不再采用紙筆測(cè)試,而是借助于計(jì)算機(jī)來(lái)實(shí)現(xiàn),如此各種新題型得以引進(jìn)到各類測(cè)試中。新題型的出現(xiàn)也給測(cè)量理論提出了新的要求,由于大多數(shù)模型都是針對(duì)0-1評(píng)分的項(xiàng)目建立的,因此需要進(jìn)一步拓展到多級(jí)評(píng)分的條件下。

    仔細(xì)梳理近年來(lái)有關(guān)現(xiàn)代測(cè)量理論的研究,可以看出,測(cè)量理論的研究進(jìn)展主要體現(xiàn)在三個(gè)方面:一是多維項(xiàng)目反應(yīng)理論的研究,二是認(rèn)知診斷理論的發(fā)展,三是對(duì)垂直標(biāo)定的探討。將測(cè)量理論應(yīng)用于考試實(shí)踐的研究包括增值評(píng)價(jià),計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)以及計(jì)算機(jī)自適應(yīng)序列考試。

    1 測(cè)量理論的研究進(jìn)展

    1.1 多維項(xiàng)目反應(yīng)理論的研究

    多維項(xiàng)目反應(yīng)理論(Multidimensional Item Re?sponse Theory,MIRT)將知識(shí)解構(gòu)成多個(gè)維度,通過(guò)估計(jì)每個(gè)維度的能力值實(shí)現(xiàn)知識(shí)結(jié)構(gòu)的診斷(余娜,辛濤,2009)。多維項(xiàng)目反應(yīng)理論為測(cè)驗(yàn)中所涉及的每個(gè)維度引入能力和項(xiàng)目區(qū)分度參數(shù),相當(dāng)于將測(cè)驗(yàn)題目和考生之間的交互作用模型化(Reckase,1997)。它通過(guò)一個(gè)非線性的函數(shù)表征題目參數(shù)、考生的多維潛在能力以及其正確作答概率之間關(guān)系(康春花,辛濤,2010)。通過(guò)這個(gè)模型可以使我們對(duì)考生的多個(gè)特質(zhì)進(jìn)行分別的推斷,因此MIRT對(duì)心理測(cè)驗(yàn)的分析比單維IRT能提供更為精確和細(xì)致的信息,對(duì)心理測(cè)驗(yàn)的編制、開發(fā)及評(píng)價(jià)具有重要的指導(dǎo)和參考價(jià)值。

    目前,MIRT已經(jīng)被成功地應(yīng)用于檢測(cè)測(cè)驗(yàn)項(xiàng)目所需屬性/技能的詳細(xì)結(jié)構(gòu)(Ackerman,Gierl,&Walker,2003;Embretson,2007;Gorin&Embret?son,2006;Walker&Beretvas,2003)。維度增加給MIRT的參數(shù)估計(jì)造成了較大的困難,在一定程度上限制了MIRT的發(fā)展和應(yīng)用,因此MIRT的參數(shù)估計(jì)仍然是當(dāng)前研究的重心(Cai,2010a,2010b;De?mars,2006;de la Torre,2008,2009;Jiang,2005;Zhang&Stone,2004;涂冬波,蔡艷,戴海崎,丁樹良,2011)。蔡力等(Cai,Yang,&Hansen,2011)提出了一個(gè)靈活的多組項(xiàng)目雙因子分析框架,支持多種多維項(xiàng)目反應(yīng)模型。擴(kuò)展的雙因子模型允許估計(jì)來(lái)自不同組的數(shù)據(jù)的潛變量均值和方差。此外,還有研究者探索MIRT的計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)研究(Finkelman,Nering,&Rossos,2009;Li&Schafer,2005)以及MIRT在心理測(cè)驗(yàn)中的應(yīng)用(Kacmar,F(xiàn)armer, Zivnuska, &Witt, 2006; te Marveled,Glas,van Landeghem&van Dammek,2006)。還有研究者探索了多級(jí)評(píng)分的MIRT模型(Ferrando,2009;涂冬波等,2011),但是現(xiàn)有的多級(jí)評(píng)分?jǐn)?shù)據(jù)的MIRT模型描述潛在結(jié)構(gòu)的程度如何,還未見足夠多的研究(康春花,辛濤,2010)。此外,對(duì)于多維度測(cè)驗(yàn)等值(如van der Linden,2000,2010)的方案也是值得研究者繼續(xù)深入的方向。

    1.2 認(rèn)知診斷模型的發(fā)展

    早期人們通過(guò)MIRT進(jìn)行“認(rèn)知診斷”的嘗試,但這種建立診斷模型的方法存在一定局限性:一方面,不同的能力維度用屬性進(jìn)行概括時(shí),屬性的定義無(wú)法深入到認(rèn)知過(guò)程的細(xì)節(jié);另一方面,模型中屬性的數(shù)量是有限的,否則會(huì)造成模型參數(shù)估計(jì)的困難(余娜,辛濤,2009)。為了克服這些問(wèn)題,后續(xù)發(fā)展的診斷模型采用二分的屬性向量組表征知識(shí)結(jié)構(gòu)。目前,認(rèn)知診斷模型的研究在以下兩個(gè)方面有較多進(jìn)展:一是對(duì)認(rèn)知診斷模型(Cognitive Diagnostic Model,CDM)的整合以及模型—數(shù)據(jù)擬合的研究;二是從0-1評(píng)分到多級(jí)評(píng)分模型的拓展。

    據(jù)統(tǒng)計(jì),認(rèn)知診斷模型發(fā)展至今已達(dá)100多種。由于CDM數(shù)量眾多,研究者們?cè)噲D提出一般的模型框架對(duì)模型進(jìn)行整合,具體的模型可看作是一般模型的特例,例如von Davier(2008)的一般診斷模 型(General Diagnostic Model,GDM),Rupp,Templin和Henson(2010)的對(duì)數(shù)線性模型(Log-Linear CDM,LCDM)以及de la Torre(2011)的G-DINA模型框架。雖然一般認(rèn)知診斷模型可以整合多個(gè)模型,但由于參數(shù)估計(jì)的復(fù)雜性,其使用很有限。在具體應(yīng)用時(shí),還是要涉及具體模型間的比較與選擇(Rupp,Templin&Henson,2010),其核心問(wèn)題是對(duì)模型—數(shù)據(jù)擬合情況的評(píng)價(jià)。de la Torre和Douglas(2004)通過(guò)比較題目的邊際分布以及成對(duì)題目的聯(lián)合分布的期望特征和觀測(cè)特征,計(jì)算三個(gè)模型擬合指標(biāo),但沒有給出用以檢驗(yàn)?zāi)P蛿M合的p值。Templin和Henson(2006)在de la Torre和Douglas(2004)的指標(biāo)基礎(chǔ)上,結(jié)合Lange?heine,Pannekoek和van de Pol(1996)的Monte Car?lo擬合優(yōu)度檢驗(yàn)方法,提出Monte Carlo重新抽樣(Re-Sampling)技術(shù)。de la Torre(2011)的G-DINA模型框架還提供比較全模型與簡(jiǎn)化模型擬合情況的Wald檢驗(yàn)??梢姡壳霸谡J(rèn)知診斷中,模型—數(shù)據(jù)擬合評(píng)價(jià)方法的研究還處于探索階段,還沒有一個(gè)公認(rèn)的方法,將來(lái)的研究須在計(jì)算繁瑣的方法和較簡(jiǎn)單的啟發(fā)式方法之間尋找平衡(Templin&Henson,2006)。

    當(dāng)前絕大多數(shù)認(rèn)知診斷計(jì)量模型僅適用于0-1評(píng)分?jǐn)?shù)據(jù)資料,大大限制了認(rèn)知診斷在實(shí)際中的應(yīng)用。近年來(lái),研究者已經(jīng)開始將一些CDMs擴(kuò)展到多級(jí)評(píng)分題目中。Bolt和Fu(2004)將融合模型(Fusion Model,F(xiàn)M)擴(kuò)展到多級(jí)評(píng)分情形,但是FM中未知參數(shù)估計(jì)特別復(fù)雜且診斷準(zhǔn)確率也不高。國(guó)內(nèi)學(xué)者在CDM的擴(kuò)展方面也做出許多貢獻(xiàn):如祝玉芳和丁樹良(2009)對(duì)屬性層級(jí)方法(Attribute Hierarchy Methodology,AHM)進(jìn)行多級(jí)評(píng)分的擴(kuò)展,并提出多級(jí)評(píng)分的AHM。田偉和辛濤(2012)對(duì)規(guī)則空間方法(Rule Space Methodology,RSM)進(jìn)行了基于多級(jí)評(píng)分項(xiàng)目的擴(kuò)展,還開發(fā)了基于MAT?LAB的規(guī)則空間模型軟件。涂冬波等(2010)基于等級(jí)反應(yīng)模型(Graded Response Model,GRM)的思想對(duì)DINA模型進(jìn)行拓展,開發(fā)出適合多級(jí)評(píng)分(含0-1評(píng)分)數(shù)據(jù)的多級(jí)評(píng)分DINA模型(Polytomous DINA,P-DINA)。

    此外,基于認(rèn)知診斷模型的等值(de la Torre&Lee,2010;Roussos,Templin,&Henson,2005;Roussos&Xu,2003 in Roussos,Templin,&Hen?son,2007;Xu&von Davier,2008;李峰,2009)、Q矩陣的自動(dòng)估計(jì)(Chen,Xin,Wang,&Chang,in press)、DINA模型的擴(kuò)展(de la Torre,2009)、多級(jí)屬性的CDM(Templin,2004;von Davier,2008)、屬性不等權(quán)重的CDM(de la Torre,2011;羅歡等,2010)等都是新興的研究領(lǐng)域,還需要進(jìn)一步研究。

    1.3 垂直標(biāo)定的研究

    對(duì)于很多的教育應(yīng)用,評(píng)測(cè)學(xué)生成就或能力傾向從某一年到下一年(以及在學(xué)校教育課程的不同階段上)的發(fā)展程度是非常重要的。這種發(fā)展可以通過(guò)給各年級(jí)學(xué)生施測(cè)同一測(cè)驗(yàn)來(lái)評(píng)測(cè),然而這種做法的問(wèn)題在于同一測(cè)驗(yàn)不可能準(zhǔn)確測(cè)量所有年級(jí)學(xué)生的學(xué)業(yè)成就水平。為了解決這個(gè)問(wèn)題,一般通過(guò)使用多個(gè)測(cè)驗(yàn)水平以構(gòu)建教育成就和能力傾向成套測(cè)驗(yàn),其中每個(gè)測(cè)驗(yàn)水平適合于某個(gè)特定年級(jí)或年齡的學(xué)生。這就需要使用垂直標(biāo)定(vertical scaling)(也稱為垂直等值)方法,將多個(gè)測(cè)驗(yàn)水平上的分?jǐn)?shù)與發(fā)展的分?jǐn)?shù)量尺(developmental score scale)聯(lián)系起來(lái)(Kolen,2006)。

    垂直標(biāo)定有三種基本的設(shè)計(jì):共同題設(shè)計(jì)(com?mon item design)、等組設(shè)計(jì)(equivalent group design)和標(biāo)定測(cè)驗(yàn)設(shè)計(jì)(scaling test design)。其中標(biāo)定測(cè)驗(yàn)設(shè)計(jì)最難實(shí)施,因?yàn)樗粌H要求針對(duì)各個(gè)年級(jí)編制一份單獨(dú)的測(cè)驗(yàn),還需進(jìn)行標(biāo)定測(cè)驗(yàn)的測(cè)試。共同題設(shè)計(jì)最容易實(shí)施,但容易產(chǎn)生情境效應(yīng):共同題處于相鄰年級(jí)中低測(cè)驗(yàn)的末尾和高年級(jí)測(cè)驗(yàn)的開始位置,如果錨題在這兩個(gè)不同的位置發(fā)揮的作用不同,產(chǎn)生了項(xiàng)目漂移(item drift),可能會(huì)嚴(yán)重影響垂直等值的效果(Michael,2006;Michael&Brenner, 2004; Wells, Subkoviak, & Serlin,2002)。其他兩種方法沒有這個(gè)問(wèn)題,因?yàn)榈冉M設(shè)計(jì)中各年級(jí)的鏈接通過(guò)隨機(jī)組實(shí)現(xiàn),標(biāo)定測(cè)驗(yàn)設(shè)計(jì)中各年級(jí)的鏈接通過(guò)由所有學(xué)生完成一份共同的標(biāo)定測(cè)驗(yàn)實(shí)現(xiàn)。

    目前,垂直標(biāo)定研究有一些新的進(jìn)展,Patz和Yao(2007)提出了廣義分層IRT模型(general hier?archical IRT model,簡(jiǎn)稱嵌套模型)用于構(gòu)建發(fā)展性量尺。該研究將多維IRT引入到垂直等值中,希望通過(guò)解決不同年級(jí)水平的測(cè)驗(yàn)構(gòu)念的多維性問(wèn)題,提高垂直等值結(jié)果的準(zhǔn)確性。Martineau(2006,2007)的研究表明,不同年級(jí)水平的測(cè)驗(yàn)在結(jié)構(gòu)上的變化(cross-grade construct shift)顯著影響垂直標(biāo)定結(jié)果的準(zhǔn)確性,因此將MIRT引入到垂直標(biāo)定中,是解決測(cè)驗(yàn)結(jié)構(gòu)變化的一個(gè)可能的方法(Lin,2006;Kim,2008)。垂直標(biāo)定從理論基礎(chǔ)、方法到測(cè)驗(yàn)領(lǐng)域中的應(yīng)用都還需要大量的深入研究,將理論切實(shí)地運(yùn)用到實(shí)踐當(dāng)中也將成為研究者今后努力的一個(gè)重要方向。

    2 測(cè)量理論的應(yīng)用研究

    2.1 增值模型的發(fā)展與應(yīng)用

    在傳統(tǒng)教育評(píng)價(jià)領(lǐng)域,對(duì)學(xué)校和教師的評(píng)價(jià)多是一種終結(jié)性評(píng)價(jià),即以學(xué)生測(cè)驗(yàn)成績(jī)的均值為標(biāo)準(zhǔn)進(jìn)行評(píng)價(jià)。這種單一的評(píng)價(jià)方法反映的信息并不準(zhǔn)確,受到各方面的批評(píng)。增值評(píng)價(jià)(Value-add?ed Assessment)作為一種新的教育評(píng)價(jià)思路,近年來(lái)得到越來(lái)越廣泛的關(guān)注,并引發(fā)了大量的相關(guān)研究,它為傳統(tǒng)的教育測(cè)驗(yàn)分?jǐn)?shù)的分析提供了新的視角,能夠?qū)崿F(xiàn)對(duì)學(xué)校和教師效能的客觀評(píng)價(jià)。對(duì)教師進(jìn)行增值評(píng)價(jià)的基本做法是,考慮影響學(xué)生學(xué)業(yè)成績(jī)的種種因素,如學(xué)生的個(gè)人情況(性別、智力、起點(diǎn)學(xué)習(xí)水平等)、家庭背景信息(師資、辦學(xué)條件之類)等,借助適當(dāng)?shù)臏y(cè)量理論與模型,把教師對(duì)學(xué)生學(xué)業(yè)成績(jī)的影響從其他種種因素的影響中分離出來(lái),準(zhǔn)確計(jì)算其對(duì)學(xué)生年度學(xué)業(yè)成績(jī)退化的具體影響程度,由此而評(píng)估其給學(xué)生帶來(lái)的成績(jī)“增值”幅度(辛濤,張文靜,李雪燕,2009)。

    增值評(píng)價(jià)的統(tǒng)計(jì)模型一般以多水平回歸模型為基礎(chǔ),隨著研究的不斷深入,采用的模型表現(xiàn)出復(fù)雜化的趨勢(shì)。一般的增值模型假設(shè)某學(xué)?;蚪處煹男?yīng)對(duì)所有學(xué)生來(lái)說(shuō)都是相同的,但最近有研究者(Dokumaci&Meyer,2010)認(rèn)為,學(xué)?;蚪處煂?duì)不同群體學(xué)生的增值影響可能是不同的,據(jù)此提出了增值效應(yīng)差異模型(differential effect val?ue-added model)。有研究者探討了不同年級(jí)測(cè)驗(yàn)間的垂直鏈接對(duì)增值模型中教師效應(yīng)或?qū)W校效應(yīng)估計(jì)結(jié)果的影響(Briggs&Weeks,2009)。此外還有一些研究者進(jìn)行了教師效應(yīng)增值估計(jì)的效度研究(Harris&Sass,2007;Jacob&Lefgren,2008;Kane&Staiger,2008)。

    我國(guó)學(xué)校效能研究起步較晚,相關(guān)實(shí)證研究大概起源于20世紀(jì)90年代,已經(jīng)進(jìn)入了學(xué)校效能評(píng)價(jià)研究的末期,研究?jī)?nèi)容主要集中在對(duì)學(xué)校效能一致性的研究上,很少關(guān)注學(xué)校效能的穩(wěn)定性。邊玉芳與林志紅(2007)以浙江省金華市39所高中學(xué)校2006年參加高考的15649名考生作為樣本,通過(guò)增值模型分析得出不同區(qū)域、類型的學(xué)校增值情況存在差異的結(jié)論。張文靜等(2010)以房山區(qū)42所小學(xué)的1238名四年級(jí)學(xué)生42名數(shù)學(xué)教師為研究對(duì)象,以四年級(jí)下學(xué)期的數(shù)學(xué)測(cè)驗(yàn)成績(jī)?yōu)橐蜃兞?,四年?jí)上學(xué)期的數(shù)學(xué)測(cè)驗(yàn)成績(jī)作為協(xié)變量加入兩水平線性模型中建立基礎(chǔ)增值模型,結(jié)果顯示,教師的特征變量中,教師的性別、年齡、教齡和學(xué)歷專業(yè)對(duì)學(xué)生學(xué)業(yè)成績(jī)的增長(zhǎng)無(wú)顯著影響,而教師的職稱和最終受教育水平則對(duì)學(xué)生學(xué)業(yè)成績(jī)的增長(zhǎng)有顯著影響;與教學(xué)相關(guān)的變量中,是否參加過(guò)新課程培訓(xùn)這一變量對(duì)學(xué)生學(xué)業(yè)成績(jī)的增長(zhǎng)有顯著影響。曹健等人(2010)運(yùn)用增值排序法和協(xié)方差分析法通過(guò)對(duì)1237名學(xué)生進(jìn)行分析,首次證實(shí)了學(xué)生學(xué)業(yè)成績(jī)?cè)鲋挡町愄卣鳎骸癠形曲線”的存在,即起點(diǎn)水平較低和起點(diǎn)水平較高的兩部分學(xué)生,其增值幅度高于中間水平學(xué)生。

    2.2 計(jì)算機(jī)化自適應(yīng)測(cè)驗(yàn)的進(jìn)展

    隨著計(jì)算機(jī)技術(shù)和測(cè)量理論的飛速發(fā)展,計(jì)算機(jī)化自適應(yīng)測(cè)驗(yàn)(Computerized Adaptive Testing,CAT)自20世紀(jì)70年代早期被引入測(cè)驗(yàn)領(lǐng)域,目前已經(jīng)成為一種非常流行的測(cè)驗(yàn)?zāi)J剑–heng,2008)。CAT的基本思路是讓計(jì)算機(jī)模仿聰明主考官的做法,每次都呈現(xiàn)難度與考生能力水平接近的題目。因此,較傳統(tǒng)紙筆測(cè)驗(yàn)(Paper-and-Pencil,P&P),CAT使用較少的題目就能夠更準(zhǔn)確地估計(jì)考生的潛在特質(zhì)(心理測(cè)量學(xué)領(lǐng)域一般稱為能力θ)(Wainer,1990;Weiss,1982)。CAT還有很多優(yōu)點(diǎn):(1)當(dāng)題庫(kù)得到良好維護(hù)時(shí),它可以提供可靠的、連續(xù)的測(cè)驗(yàn);(2)整個(gè)測(cè)驗(yàn)過(guò)程都是由計(jì)算機(jī)完成,因此測(cè)驗(yàn)公平、公正和高效;(3)與多媒體技術(shù)結(jié)合可以提供包括音頻剪輯和視頻剪輯在內(nèi)的新題目類型。這些優(yōu)點(diǎn)使得CAT成為很多大規(guī)模教育評(píng)估項(xiàng)目的首選(陳平,辛濤,2011a)。

    認(rèn)知診斷計(jì)算機(jī)化自適應(yīng)測(cè)驗(yàn)(Cognitive Diag?nostic Computerized Adaptive Testing,CD-CAT)將CAT與認(rèn)知診斷結(jié)合起來(lái),勢(shì)必成為CAT發(fā)展的一個(gè)新方向。CD-CAT是對(duì)CAT的擴(kuò)展,它不僅可以提供關(guān)于考生優(yōu)缺點(diǎn)的診斷反饋,還可以提高診斷測(cè)量的準(zhǔn)確性與效率。因此,CD-CAT近年來(lái)在教育測(cè)量領(lǐng)域得到廣泛關(guān)注(e.g.,Chen,Xin,Wang,&Chang,in press;Cheng,2009;McGlohen&Chang,2008;Xu,Chang,&Douglas,2003;陳平,辛濤,2011a,2011b;毛秀珍,辛濤,2011;林海菁,丁樹良,2007;汪文義,丁樹良,游曉鋒,2011)。目前相關(guān)研究還剛剛起步,研究者探討了CD-CAT選題策略的研發(fā)和比較(如Xu,Chang和Douglas,2003;McGlohen 和 Chang,2008;Cheng,2009;Wang,Chang,&Huebner,2011;陳平,李珍,辛濤,2011;毛秀珍,辛濤,2011),以及CD-CAT中新題校準(zhǔn)和Q矩陣自動(dòng)估計(jì)的問(wèn)題(Liu,Xu,&Ying,2011;陳平,辛濤,2011a,2011b)。

    2.3 計(jì)算機(jī)化自適應(yīng)多階段考試

    雖然理想化的計(jì)算機(jī)化自適應(yīng)測(cè)驗(yàn)有眾多優(yōu)點(diǎn),但在實(shí)踐中其對(duì)題庫(kù)的高要求以及測(cè)驗(yàn)安全的隱患迫使我們重新評(píng)估CAT的有效性。結(jié)構(gòu)化的計(jì)算機(jī)化自適應(yīng)多階段考試(Computer-Adaptive Multistage Testing,ca-MST)是使用題組(testlet)的自適應(yīng)測(cè)驗(yàn)(Drasgow,Luecht,&Bennett,2006)。ca-MST最初由Luecht和Nungester(1998)提出,當(dāng)時(shí)稱為計(jì)算機(jī)自適應(yīng)序列測(cè)驗(yàn)(Computer-Adaptive Sequential Testing,CAST),而目前ca-MST的縮寫更為人熟知。近年來(lái),ca-MST逐漸受到重視,被看作是介于線性測(cè)驗(yàn)與自適應(yīng)測(cè)驗(yàn)之間的一種測(cè)驗(yàn)形式(Armstrong&Little,2003;Hambleton&Xing,2002;Jodoin,Zenisky,&Hambleton,2002;Lu?echt, 2000; Luecht, Brumfield, & Breithaupt,2002;Luecht&Burgin,2003;Patsula&Hamble?ton,1999)。從ca-MST是一個(gè)事先構(gòu)建的多階段自適應(yīng)題組模型,該模型結(jié)合多階段自適應(yīng)技術(shù)與自動(dòng)組卷(Automated Test Assembly,ATA),允許測(cè)驗(yàn)開發(fā)者在較大程度上控制題冊(cè)以及數(shù)據(jù)的質(zhì)量。ca-MST具有自適應(yīng)的性質(zhì),因此比紙筆測(cè)驗(yàn)或計(jì)算機(jī)化的線性測(cè)驗(yàn)更加有效;ca-MST在內(nèi)容效度、題冊(cè)質(zhì)量以及測(cè)驗(yàn)材料曝光等的控制上比CAT更有優(yōu)勢(shì)(Luecht,2000;Luecht&Burgin,2003)。正因?yàn)閏a-MST在測(cè)驗(yàn)實(shí)踐中表現(xiàn)出的許多優(yōu)點(diǎn),美國(guó)的一些大型測(cè)驗(yàn)項(xiàng)目,例如注冊(cè)會(huì)計(jì)師統(tǒng)一考試(Uniform CPA Examination)和研究生入學(xué)考試(Graduate Record Examination,GRE)都 開 始 用ca-MST替代CAT。因此,ca-MST也成為了研究的熱點(diǎn)之一(e.g.Breithaupt&Hare,2007;Gierl et al.,2011;Sireci et al.,2008),在《教育測(cè)量》(第四版)中也有詳細(xì)的介紹,也可參見Luecht和Sireci(2011)向大學(xué)理事會(huì)提交的綜述報(bào)告。

    3 展望

    隨著人們不斷對(duì)測(cè)量結(jié)果提出更高的要求,測(cè)量理論和測(cè)量模型表現(xiàn)出復(fù)雜化的趨勢(shì),這在一定程度上反映出教育測(cè)量等領(lǐng)域的現(xiàn)實(shí)情況的復(fù)雜性。然而,研究者和實(shí)踐者們也逐漸開始反思開發(fā)復(fù)雜模型的必要性,如何整合不同的測(cè)量理論和模型等技術(shù)性問(wèn)題;以及如何將測(cè)量的結(jié)果有效地應(yīng)用于教育評(píng)價(jià)和教育問(wèn)責(zé),如何向不具有統(tǒng)計(jì)或測(cè)量學(xué)專業(yè)知識(shí)的相關(guān)利益群體報(bào)告和解釋測(cè)量的結(jié)果等實(shí)踐中的問(wèn)題。

    目前,無(wú)論是多維IRT、認(rèn)知診斷還是垂直標(biāo)定都還處于理論研究的階段,較少應(yīng)用于實(shí)際的測(cè)評(píng)項(xiàng)目。如何在考試實(shí)踐中應(yīng)用這些新的測(cè)量理論和模型,以及在實(shí)踐中會(huì)遇到什么問(wèn)題,還有待進(jìn)一步探索。但可以肯定的是,根據(jù)教育測(cè)評(píng)的發(fā)展趨勢(shì),認(rèn)知診斷和CD-CAT有很好的發(fā)展前景,例如,我國(guó)《國(guó)家中長(zhǎng)期教育改革和發(fā)展規(guī)劃綱要(2010—2020年)》明確提出要改革教育質(zhì)量評(píng)價(jià)制度,完善教育質(zhì)量監(jiān)測(cè)評(píng)估體系,定期發(fā)布測(cè)評(píng)結(jié)果,建立學(xué)生發(fā)展指導(dǎo)制度,加強(qiáng)對(duì)學(xué)生的理想、心理和學(xué)業(yè)等多方面指導(dǎo);美國(guó)奧巴馬政府通過(guò)的新聯(lián)邦資助方案“卓越競(jìng)爭(zhēng)”(Race to the Top,RTTT)強(qiáng)調(diào)評(píng)價(jià)的目的應(yīng)該是了解學(xué)生的學(xué)習(xí)與進(jìn)步,而不僅僅是對(duì)學(xué)生的學(xué)習(xí)情況進(jìn)行監(jiān)督和排名。

    認(rèn)知診斷和CAT的結(jié)合產(chǎn)生了具有較大發(fā)展前景的CD-CAT,可以預(yù)見如果將增值評(píng)價(jià)的思想與CTT以外的其他測(cè)量理論相結(jié)合,如多維IRT、認(rèn)知診斷理論和垂直標(biāo)定,將產(chǎn)生更大的價(jià)值。隨著我國(guó)加大對(duì)教育監(jiān)測(cè)、教育評(píng)價(jià)的重視程度,增值評(píng)價(jià)和CD-CAT等將在未來(lái)的教育實(shí)踐中發(fā)揮重要的作用。

    [1]Ackerman,T.A.,Gierl,M.J.,&Walker,C.M.Using multidimen?sional item response theory to evaluate educational and psychologi?cal Tests.MIRT Instructional Module/Educational Measurement:Issues and Practice,2003:37–53.

    [2]Armstrong,R.D.,&Little,J.The assembly of multiple form struc?tures.Paper presented at the annual meeting of the National Coun?cil on Measurement in Education.2003,April.

    [3]Breithaupt,K.,&Hare,D.R.Automated simultaneous assembly of multistage testlets for a high-stakes licensing exam.Educational and Psychological Measurement,2007:67,5-20.

    [4]Briggs,D.C.,&Weeks,J.P.The sensitivity of value-added model?ing to the creation of a vertical score scale.Education Finance and Policy,2009,4(4),384-414.

    [5]Cai,L.High-dimensional exploratory item factor analysis by a Me?tropolis–Hastings Robbins–Monro algorithm.Psychometrika,2010a,75(1),33-57.

    [6]Cai,L.Metropolis-Hastings Robbins-Monro algorithm for confir?matory item factor analysis.Journal of Educational and Behavioral Statistics,2010b,35(3),307-335.

    [7]Cai,L.,Yang,J.S.,&Hansen,M.Generalized full-information item bifactor analysis.Psychological Methodsm,2011,16(3),221-248.

    [8]Cheng,Y.Computerized adaptive testing—new developments and applications.Unpublished doctoral thesis,University of Illinois at Urbana-Champaign.2008.

    [9]Cheng,Y.When cognitive diagnosis meets computerized adaptive testing:CD-CAT.Psychometrika,2009,74,619-632.

    [10]de la Torre,J.Multidimensional scoring of abilities:The ordered polytomous response case.Applied Psychological Measurement,2008,32(5),355-370.

    [11]de la Torre,J.Improving the quality of ability estimates through multidimensional scoring and incorporation of ancillary variables.Applied Psychological Measurement,2009,33(6),465-485.

    [12]de la Torre,J.The generalized DINA model framework.Psy?chometrika,2011,76,179-199.

    [13]de la Torre,J.,&Douglas,J.A.Higher-order latent trait models for cognitive diagnosis.Psychometrika,2004,69,333-353.

    [14]de la Torre,J.,&Lee,Y.S.A note on the invariance of the DINA model parameters.Journal of Educational Measurement,2010,47,115-127.

    [15]DeMars,C.E.Application of the bi-factor multidimensional item response theory model to testlet-based tests.Journal of Education?al Measurement,2006,43(2),145–168.

    [16]Drasgow,F.,Luecht,R.M.,&Bennett,R.Technology and Test?ing.In R.L.Brennan(Ed.),Educational measurement(4th ed.,pp.471–515).Washington,DC:American Council on Education/Praeger Publishers.2006.

    [17]Embretson,S.E.Construct Validity:A Universal Validity System or Just Another Test Evaluation Procedure?Educational Research?er,2007,36(8),449–455.

    [18]Ferrando,P.J.Difficulty,Discrimination,and Information Indices in the Linear Factor Analysis Model for Continuous Item Respons?es.Applied Psychological Measurement,2009,33(1):9–24.

    [19]Finkelman,M.,Nering,M.L.,&Roussos,L.A.A conditional expo?sure control method for multidimensional adaptive testing.Journal of Educational Measurement,2009,46(1),84–103.

    [20]Fu,J.,&Li,Y.Cognitively diagnostic psychometric models:An in?tegrative review.Paper presented at the Annual Meeting of the Na?tional Council on Measurement in Education,Chicago,IL.2007.

    [21]Gierl,M.J.,Lai,H.,Li,J.,&Breithaupt,K.Evaluating the Perfor?mance of CATSIB in a Multi-Stage Adaptive Testing Environment.Manuscript submitted for publication.2011.

    [22]Gorin,J.S.,&Embretson,S.E.Item Diffficulty Modeling of Para?graph Comprehension Items.Applied Psychological Measurement,2006,30(5),394.

    [23]Hambleton,R.K.,&Xing,D.Comparative analysis of optimal and non-optimal computer-based test designs for makingpass-fail de?cisions(Center for Educational Assessment Research Report No.457).Amherst,MA:University of Massachusetts,School of Educa?tion.2002.

    [24]Harris,D.N.,&Sass,T.R.Teacher training,teacher quality,and student achievement.National Center for the Analysis of Longitu?dinal Data in Education Research(CALDER).Working Paper,2007,3.

    [25]Jacob,B.A.,&Lefgren,L.Can principals identify effective teach?ers?Evidence on subjective performance evaluation in education.Journal of Labor Economics,2008,26(1),101-136.

    [26]Jiang,Y.L.Estimating parameters for multidimensional item re?sponse theory models by MCMC methods.Unpublished doctoral dissertation,Michigan State University.2005.

    [27]Jodoin,M.,Zenisky,A.,&Hambleton,R.K.Comparison of the psychometric properties of several computerbased test designs for credentialing exams.Paper presented at the annual meeting of the National Council on Measurement in Education,New Orleans,LA.2002,April.

    [28]Kacmar,K.M.,Farmer,W.L,Zivnuska,S.,&Witt,L.A.Apply?ing multidimensional item response theory analysis to a measure of meta-perspective performance.The Electronic Journal of Business Research Methods,2006,4(1),23–30.

    [29]Kane,T.J.,&Staiger,D.O.Estimating teacher impacts on student achievement:An experimental evaluation:National Bureau of Eco?nomic Research.2008.

    [30]Kim Y.Y.Effects of test linking methods on proficiency classifica?tion,UIRT versus MIRT liking.Unpublished doctorial dissertation.Michigan State University,East Lansing,U.S.2008.

    [31]Kolen,M.J.Scaling and norming.In R.L.Brennan(Ed.),Educa?tional measurement(4th ed.,pp.156–186).Washington,DC:American Council on Education/Praeger Publishers.2006.

    [32]Kolen.M.J.,&Brennan,R.L.Testing equating,scaling,and lingk?ing,methods and Practices.New York,Springer.2004.

    [33]Langeheine,R.,Pannekoek,J.,&van de Pol,F.Bootstrapping goodness-of-fit measures in categorical data analysis.Sociological Methods and Research,1996,24,492–516.

    [34]Li T.The effect of dimensionality on vertical scaling.Unpublished doctorial dissertation.Michigan State University,East Lansing,U.S.2006.

    [35]Li,Y.H.,&Schafer,W.D.Trait parameter recovery using multi?dimensional computerized adaptive testing in reading and mathe?matics.Applied Psychological Measurement,2005,29(1),3–25.

    [36]Liu,J.C.,Xu,G.J.,&Ying,Z.L.Statistical inference of the Q-matrix in diagnostic classification models.Paper presented at the 76th Meeting of the Psychometric Society,Hong Kong,China.2011,July.

    [37]Luecht,R.M.Implementing the computer-adaptive sequential testing(CAST)framework to mass produce high-quality comput?er-adaptive and mastery tests.Paper presented at the Annual Meeting of the National Council on Measurement in Education,New Orleans,LA.2000,April.

    [38]Luecht,R.M.,Brumfi eld,T.,&Breithaupt,K.A testlet assembly design for the uniform CPA examination.Paper presented at the annual meeting of the National Council on Measurement in Educa?tion,New Orleans,LA.2002,April.

    [39]Luecht,R.M.,&Burgin,W.Matching test design to decisions:Test specifications and use of automated test assembly for adap?tive multi-stage testlets.Paper presented at the Annual Meeting of the National Council on Measurement in Education,Chicago,IL.Retrieved from http://www.psych.umn.edu/psylabs/catcentral.April,2003.

    [40]Luecht,R.M.,&Nungester,R.J.Some practical examples of com?puter-adaptive sequential testing.Journal of Educational Measure?ment,1998,35,229–249.

    [41]Luecht,R.M.,&Sireci,S.G.A Review of Models for Comput?er-Based Testing.Research Report for College Board.2011

    [42]Martineau J A.The effects of construct shift on growth and ac?countability models.Unpublished doctorial dissertation disserta?tion.Michigan State University,East Lansing,U.S.2004.

    [43]Martineau J A.A distorting value added,the use of longitudinal,vertically scaled student achievement data for growth-based,val?ue-added accountability.Journal of Educational and Behavioral Statistics,2006,31:35-62.

    [44]Mcglohen,M.,&Chang,H.H.Combining computer adaptive test?ing technology with cognitive diagnostic assessment.Behavior Re?search Methods,2008,40,808-821.

    [45]Patsula,L.N.,&Hambleton,R.K.A comparative study of ability estimates obtained from computer-adaptive and multi-stage test?ing.Paper presented at the annual meeting of the National Council on Measurement in Education,Montreal,Quebec,Canada.1999,April.

    [46]Patz R J,Yao L.Vertical scaling:statistical models for measuring growth and achievement.In:Rao C R,Sinharay S.Eds.Handbook of statistics.Ameterdam,Netherlands:Elsevier,2007,955-975.

    [47]Reckase,M.D.The past and future of multidimensional item re?sponse theory.Applied Psychological Measurement,1997,21,25-36.

    [48]Robert H.Meyer&Emin Dokumaci.Value-Added Models and the Next Generation of Assessments.Exploratory Seminar:Measure?ment challenges within the race to the top agenda center for K-12 assessment&performance management.2010,3-43.

    [49]Roussos,L.,Templin,J.,&Henson,R.Theoretically grounded linking and equating for mastery/non-mastery skills diagnosis models.Unpublished ETS Project Report,Princeton,NJ.2005.

    [50]Roussos,L.A.,Templin,J.L.,&Henson,R.A.Skills diagnosis using IRT-Based latent class models.Journal of Educational Mea?surement,2007,44(4),293-311.

    [51]Rupp,A.A.,Templin,J.,&Henson,R.A.Diagnostic measure?ment:Theory,methods,and applications.The Guilford Press.2010.

    [52]Sireci,S.G,Baldwin,P.,Martone,A.,Zenisky,A.,Kaira,L.,Lam,W.,Shea,C.,Han,K.T.,Deng,N.,Delton,J.,&Hambleton,R.K.Massachusetts adult proficiency tests technical manual:Version 2.Amherst,MA:Center for Educational Assessment.April,2008.

    [53]te Marveled,J.M.,Glas,C.A.W.,van Landeghem,G.,&van Damme,J.Application of multidimensional item response theory models to longitudinal data.Educational and Psychological Mea?surement,2006,66(1),5–34.

    [54]Templin,J.Generalized linear mixed proficiency models for cogni?tive diagnosis.Unpublished doctoral dissertation,University of Illi?nois at Urbana-Champaign.2004.

    [55]Templin,J.L.,&Henson,R.A.Measurement of psychological dis?orders using cognitive diagnosis models.Psychological methods,2006,11,287-305.

    [56]van der Linden,W.J.A test-theoretic approach to observed-score equating.Psychometrika,2000,65,437-456.

    [57]van der Linden,W.J.Local observed-score equating.In A.A.von Davier(Ed.),Statistical models for equating,scaling,and linking.New York:Springer.2010.

    [58]von Davier,M.A general diagnostic model applied to language testing data.British Journal of Mathematical and Statistical Psy?chology,2008,61,287-307.

    [59]Wainer,H.Computerized adaptive testing:A primer.Hillsdale,NJ:Erlbaum.1990.

    [60]Walker,C.M.,Beretvas,S.N.Comparing Multidimensional and Unidimensional Proficiency Classifications:Multidimensional IRT as a Diagnostic Aid.Journal of Educational Measurement,2003,40(3),255–275.

    [61]Wang,C.,Chang,H.,&Huebner,A.Restrictive stochastic item se?lection methods in cognitive diagnostic CAT.Journal of Education?al Measurement,2011,48,255-273.

    [62]Weiss,D.J.Improving measurement quality and efficiency with adaptive testing.Applied PsychologicalMeasurement,1982,6,473-492.

    [63]Wells,C.S.,Subkoviak,M.J.,&Serlin,R.C.The effect of item parameter drift on examinee ability estimates.Applied Psychologi?cal Measurement,2002,26(1),77-87.

    [64]Xu,X.,Chang,H.,&Douglas,J.A simulation study to compare CAT strategies for cognitive diagnosis.Paper presented at the an?nual meeting of National Council on Measurement in Education,Montreal,Canada.2003.

    [65]Xu,X.,&von Davier,M.Linking for the general diagnostic model.Issues and Methodologies in Large-Scale Assessments,IEA-ETS Research Institute,Hamburg,2008,1,99-113.

    [66]Zhang,B.,&Stone,C.A.Direct and indirect estimation of three-parameter compensatory multidimensional item response models.Paper presented at the annual meeting of the American Educational Research Association,San Diego,CA.2004.

    [67]邊玉芳,林志紅.增值評(píng)價(jià):一種綠色升學(xué)率理念下的學(xué)校評(píng)價(jià)模式.北京師范大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2007,204:11-17.

    [68]曹健,惠善康,李慶龍.兩種增值評(píng)價(jià)方法在基礎(chǔ)教育評(píng)價(jià)中的應(yīng)用.教育測(cè)量與評(píng)價(jià),2010,4-7.

    [69]陳平,李珍,辛濤.認(rèn)知診斷計(jì)算機(jī)化自適應(yīng)測(cè)驗(yàn)的題庫(kù)使用均勻性初探.心理與行為研究,2011,9(2),125-132.

    [70]陳平,辛濤.認(rèn)知診斷計(jì)算機(jī)化自適應(yīng)測(cè)驗(yàn)中的項(xiàng)目增補(bǔ).心理學(xué)報(bào),2011a,43(7),836-850.

    [71]陳平,辛濤.認(rèn)知診斷計(jì)算機(jī)化自適應(yīng)測(cè)驗(yàn)中在線校準(zhǔn)方法的開發(fā).心理學(xué)報(bào),2011b,43(6),710-724.

    [72]康春花,辛濤.測(cè)驗(yàn)理論的新發(fā)展:多維項(xiàng)目反應(yīng)理論.心理科學(xué)進(jìn)展,2010,18(3):530-536.

    [73]李峰.無(wú)錨題測(cè)驗(yàn)的鏈接——規(guī)則空間模型的途徑.博士畢業(yè)論文[D],北京師范大學(xué).2009.

    [74]羅歡,丁樹良,汪文義,喻曉鋒,曹慧媛.屬性不等權(quán)重的多級(jí)評(píng)分屬性層級(jí)方法.心理學(xué)報(bào),2010,42(4),528-538.

    [75]林海菁,丁樹良.具有認(rèn)知診斷功能的計(jì)算機(jī)化自適應(yīng)測(cè)驗(yàn)的研究與實(shí)現(xiàn).心理學(xué)報(bào),2007,39(4),747-753.

    [76]毛秀珍,辛濤.認(rèn)知診斷CAT中選題策略的改進(jìn).北京師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2011,47(3),326-330.

    [77]田偉,辛濤.基于等級(jí)反應(yīng)模型的規(guī)則空間方法.心理學(xué)報(bào),2012,44(1),249-262.

    [78]涂冬波,蔡艷,戴海琦,丁樹良.一個(gè)多級(jí)評(píng)分的認(rèn)知診斷模型:P-DINA模型的加法.心理學(xué)報(bào),2010,42(10),1011–1020.

    [79]涂冬波,蔡艷,戴海琦,丁樹良.多維項(xiàng)目反應(yīng)理論:參數(shù)估計(jì)及其在心理測(cè)驗(yàn)中的應(yīng)用.心理學(xué)報(bào),2011,43(11),1329-1340.

    [80]汪文義,丁樹良,游曉鋒.計(jì)算機(jī)化自適應(yīng)診斷測(cè)驗(yàn)中原始題的屬性標(biāo)定.心理學(xué)報(bào),2011,43(8),964-976.

    [81]辛濤,張文靜,李雪燕.增值性評(píng)價(jià)的回顧與前瞻.中國(guó)教育學(xué)刊,2009(4):40-43.

    [82]余娜,辛濤.認(rèn)知診斷理論的新進(jìn)展.考試研究,2009,5(3),22-34.

    [83]祝玉芳,丁樹良.基于等級(jí)反應(yīng)模型的屬性層級(jí)方法.心理學(xué)報(bào),2009,41(3),267–275.

    [84]張文靜,辛濤,康春花.教師變量對(duì)小學(xué)四年級(jí)數(shù)學(xué)成績(jī)的影響:一個(gè)增值性研究.教育學(xué)報(bào),20106(2):69-76.

    New Progress and Trends of Measurement Theory

    XIN Tao,LE Meiling and ZHANG Jiahui

    The rising of modern measurement theory,represented by multidimensional item response theory and cognitive diagnostic theory,reflects the fact that people are no longer content with a single test score,but demand more specific diagnostic information.The combination of measurement theory and education assessment sparks the research on value-added assessment,computerized adaptive testing and computer-adaptive multistage testing.Most of the advanced research including cognitive diagnosis models and cognitive diagnostic computerized adaptive testing,still remain in the stage of theoretic research;but it is unquestionable that with the progress in research as well as the ever increasing need in practice,this new generation of measurement theory would soon play a crucial role in education and other fields.

    Multidimensional Item Response Theory;Cognitive Diagnostic Theory;Vertical Scaling;Value-added Assessment;Computerized Adaptive Testing

    G405

    A

    1005-8427(2012)05-0003-9

    北京師范大學(xué)

    猜你喜歡
    計(jì)算機(jī)化測(cè)驗(yàn)標(biāo)定
    兩種新的多維計(jì)算機(jī)化分類測(cè)驗(yàn)終止規(guī)則*
    使用朗仁H6 Pro標(biāo)定北汽紳寶轉(zhuǎn)向角傳感器
    《新年大測(cè)驗(yàn)》大揭榜
    基于勻速率26位置法的iIMU-FSAS光纖陀螺儀標(biāo)定
    遠(yuǎn)程自動(dòng)抄表系統(tǒng)的研究與開發(fā)
    論計(jì)算機(jī)化考試質(zhì)量評(píng)估
    電子制作(2017年2期)2017-05-17 03:55:04
    兩個(gè)處理t測(cè)驗(yàn)與F測(cè)驗(yàn)的數(shù)學(xué)關(guān)系
    考試周刊(2016年88期)2016-11-24 13:30:50
    船載高精度星敏感器安裝角的標(biāo)定
    凍干系統(tǒng)設(shè)備的計(jì)算機(jī)化系統(tǒng)驗(yàn)證研究
    你知道嗎?
    欧美精品高潮呻吟av久久| 99久久精品国产亚洲精品| 精品第一国产精品| 亚洲av片天天在线观看| 久久精品国产a三级三级三级| 宅男免费午夜| 十八禁人妻一区二区| 色综合欧美亚洲国产小说| 91精品国产国语对白视频| 一区二区三区激情视频| 久久av网站| 国产伦人伦偷精品视频| 十分钟在线观看高清视频www| 中文字幕高清在线视频| 老熟妇仑乱视频hdxx| 男女床上黄色一级片免费看| 久久性视频一级片| 国产精品一区二区免费欧美| 不卡一级毛片| 啦啦啦 在线观看视频| 日本av免费视频播放| 最新美女视频免费是黄的| 亚洲专区国产一区二区| 国产不卡av网站在线观看| cao死你这个sao货| 久久久久国产一级毛片高清牌| 天天躁日日躁夜夜躁夜夜| 久久久久久久国产电影| 露出奶头的视频| 亚洲一卡2卡3卡4卡5卡精品中文| 男男h啪啪无遮挡| 飞空精品影院首页| 日韩熟女老妇一区二区性免费视频| 成年人黄色毛片网站| 最近最新中文字幕大全电影3 | 真人做人爱边吃奶动态| 男人舔女人的私密视频| 国产午夜精品久久久久久| 欧美成狂野欧美在线观看| 国产aⅴ精品一区二区三区波| 国产精品99久久99久久久不卡| 国产又色又爽无遮挡免费看| 中亚洲国语对白在线视频| 免费久久久久久久精品成人欧美视频| 国产精品99久久99久久久不卡| 精品视频人人做人人爽| 一边摸一边抽搐一进一小说 | 麻豆成人av在线观看| 成年动漫av网址| 男女下面插进去视频免费观看| 大码成人一级视频| 国产精品1区2区在线观看. | 午夜福利在线免费观看网站| 久久精品国产99精品国产亚洲性色 | 搡老熟女国产l中国老女人| 成人国产一区最新在线观看| 日韩熟女老妇一区二区性免费视频| 女警被强在线播放| 亚洲av片天天在线观看| 精品一区二区三卡| 最新的欧美精品一区二区| 男女高潮啪啪啪动态图| 亚洲欧美日韩另类电影网站| 亚洲久久久国产精品| 久久九九热精品免费| 久久国产精品人妻蜜桃| 老熟妇仑乱视频hdxx| 国产亚洲欧美在线一区二区| 久久久久久亚洲精品国产蜜桃av| 一边摸一边抽搐一进一出视频| 男女无遮挡免费网站观看| 亚洲av日韩在线播放| 91麻豆av在线| 午夜两性在线视频| 国产在线免费精品| 国产单亲对白刺激| 在线观看66精品国产| 国产欧美日韩一区二区三| 国产成人影院久久av| 成人影院久久| 亚洲全国av大片| 日韩熟女老妇一区二区性免费视频| 精品国产一区二区久久| 色播在线永久视频| 国产又色又爽无遮挡免费看| 一级片免费观看大全| 国产精品欧美亚洲77777| 一级a爱视频在线免费观看| 在线永久观看黄色视频| 国产欧美日韩一区二区精品| 欧美日韩国产mv在线观看视频| 97在线人人人人妻| 中文字幕人妻丝袜制服| 欧美精品av麻豆av| 18禁观看日本| 极品教师在线免费播放| 免费av中文字幕在线| 又紧又爽又黄一区二区| 国产在线免费精品| 一本色道久久久久久精品综合| 我要看黄色一级片免费的| 巨乳人妻的诱惑在线观看| 交换朋友夫妻互换小说| 正在播放国产对白刺激| www.自偷自拍.com| 亚洲性夜色夜夜综合| 可以免费在线观看a视频的电影网站| 国产精品国产高清国产av | 1024视频免费在线观看| 久久 成人 亚洲| 亚洲精品在线观看二区| 一级,二级,三级黄色视频| 国产不卡一卡二| 99国产精品一区二区蜜桃av | 又紧又爽又黄一区二区| 国产精品二区激情视频| 18禁裸乳无遮挡动漫免费视频| 在线十欧美十亚洲十日本专区| 国产淫语在线视频| 久久久国产成人免费| 热re99久久国产66热| 日韩成人在线观看一区二区三区| 丝袜人妻中文字幕| 美女福利国产在线| 日韩成人在线观看一区二区三区| 一区二区三区精品91| 日日夜夜操网爽| 午夜免费成人在线视频| 啪啪无遮挡十八禁网站| 亚洲色图综合在线观看| 99re在线观看精品视频| 国产欧美日韩一区二区精品| 老司机亚洲免费影院| 国产高清激情床上av| 久久精品91无色码中文字幕| 亚洲中文日韩欧美视频| 久久天堂一区二区三区四区| 操美女的视频在线观看| 亚洲精品成人av观看孕妇| 亚洲精品美女久久久久99蜜臀| 18禁黄网站禁片午夜丰满| 一本久久精品| 久久精品国产亚洲av香蕉五月 | 黄色a级毛片大全视频| 日韩制服丝袜自拍偷拍| 中亚洲国语对白在线视频| 50天的宝宝边吃奶边哭怎么回事| www.自偷自拍.com| 狠狠狠狠99中文字幕| 久久ye,这里只有精品| 久久久久久久大尺度免费视频| 午夜福利在线免费观看网站| 搡老乐熟女国产| 亚洲国产成人一精品久久久| 天天添夜夜摸| 欧美精品av麻豆av| 精品亚洲成国产av| 国产色视频综合| 真人做人爱边吃奶动态| 国产欧美日韩一区二区三| 亚洲人成电影免费在线| 色老头精品视频在线观看| 久久中文看片网| 无人区码免费观看不卡 | 国产精品成人在线| 欧美 亚洲 国产 日韩一| 国产欧美日韩一区二区三| 女警被强在线播放| 一边摸一边做爽爽视频免费| 免费高清在线观看日韩| 天堂8中文在线网| 99国产极品粉嫩在线观看| 在线看a的网站| 天堂8中文在线网| 涩涩av久久男人的天堂| 国产av又大| 在线观看舔阴道视频| 精品人妻在线不人妻| 成人黄色视频免费在线看| 美国免费a级毛片| 另类亚洲欧美激情| 亚洲一卡2卡3卡4卡5卡精品中文| 亚洲精品一卡2卡三卡4卡5卡| 老汉色av国产亚洲站长工具| 免费久久久久久久精品成人欧美视频| 亚洲精品在线观看二区| 香蕉国产在线看| 女人爽到高潮嗷嗷叫在线视频| 欧美黑人精品巨大| 亚洲成a人片在线一区二区| 777久久人妻少妇嫩草av网站| 亚洲精品美女久久av网站| 首页视频小说图片口味搜索| 久久久久久久大尺度免费视频| 男女免费视频国产| 我的亚洲天堂| 久久久精品免费免费高清| 日韩有码中文字幕| 曰老女人黄片| 黄色视频,在线免费观看| 国产片内射在线| 国产在线一区二区三区精| 交换朋友夫妻互换小说| 天天躁日日躁夜夜躁夜夜| 国产不卡av网站在线观看| 国产一区二区在线观看av| 国产精品99久久99久久久不卡| 国产一区二区激情短视频| 亚洲avbb在线观看| 悠悠久久av| 男女下面插进去视频免费观看| 免费在线观看日本一区| 久久天堂一区二区三区四区| 日本vs欧美在线观看视频| 亚洲欧美日韩另类电影网站| 亚洲七黄色美女视频| 青青草视频在线视频观看| tube8黄色片| 欧美日韩成人在线一区二区| 国产精品熟女久久久久浪| 91精品三级在线观看| 大码成人一级视频| 精品亚洲乱码少妇综合久久| 免费观看a级毛片全部| 欧美精品啪啪一区二区三区| 国产免费现黄频在线看| 国产成人av激情在线播放| 国产精品麻豆人妻色哟哟久久| 黄片大片在线免费观看| 9热在线视频观看99| 国产亚洲欧美在线一区二区| 国产成人av激情在线播放| 国产xxxxx性猛交| 最黄视频免费看| 九色亚洲精品在线播放| 性色av乱码一区二区三区2| 高潮久久久久久久久久久不卡| 精品一区二区三卡| 国产区一区二久久| 好男人电影高清在线观看| 一级片免费观看大全| netflix在线观看网站| a级片在线免费高清观看视频| 亚洲免费av在线视频| 精品国产超薄肉色丝袜足j| 日本a在线网址| 久久青草综合色| 成年动漫av网址| 亚洲伊人久久精品综合| 老司机靠b影院| 久久亚洲真实| 热99国产精品久久久久久7| 日韩三级视频一区二区三区| 成人18禁高潮啪啪吃奶动态图| 国产在线观看jvid| aaaaa片日本免费| 不卡一级毛片| 超色免费av| 免费日韩欧美在线观看| 精品久久久久久久毛片微露脸| 久久人妻av系列| 国产又爽黄色视频| 亚洲免费av在线视频| 老汉色∧v一级毛片| 一级片免费观看大全| 天天躁日日躁夜夜躁夜夜| 男女床上黄色一级片免费看| 91大片在线观看| 美女午夜性视频免费| 日本vs欧美在线观看视频| 亚洲精品在线美女| 国产黄色免费在线视频| 欧美国产精品va在线观看不卡| 国产欧美亚洲国产| 91老司机精品| 另类亚洲欧美激情| √禁漫天堂资源中文www| videos熟女内射| 午夜精品久久久久久毛片777| av免费在线观看网站| 丝袜美腿诱惑在线| 亚洲成人手机| 视频区欧美日本亚洲| 青青草视频在线视频观看| 欧美黑人精品巨大| 日韩中文字幕视频在线看片| 黑人巨大精品欧美一区二区蜜桃| 中文字幕人妻熟女乱码| 蜜桃国产av成人99| tocl精华| 另类精品久久| 大香蕉久久成人网| 亚洲欧美激情在线| 中国美女看黄片| 老司机亚洲免费影院| 老司机影院毛片| 亚洲色图综合在线观看| 亚洲精品美女久久av网站| 欧美精品av麻豆av| 国产不卡av网站在线观看| 大片电影免费在线观看免费| 国产成人系列免费观看| 国产精品亚洲av一区麻豆| 欧美日韩亚洲高清精品| 99香蕉大伊视频| 丰满饥渴人妻一区二区三| 母亲3免费完整高清在线观看| 亚洲av成人一区二区三| 乱人伦中国视频| 久久免费观看电影| 在线十欧美十亚洲十日本专区| 日韩熟女老妇一区二区性免费视频| 国产精品一区二区免费欧美| 涩涩av久久男人的天堂| 亚洲人成电影观看| 国产精品99久久99久久久不卡| 国产一区二区三区综合在线观看| 中文字幕色久视频| 国产日韩欧美亚洲二区| 国产成人免费观看mmmm| 国产野战对白在线观看| 桃花免费在线播放| 涩涩av久久男人的天堂| 最新在线观看一区二区三区| 在线观看人妻少妇| 国产成人免费观看mmmm| 久久久国产欧美日韩av| 亚洲免费av在线视频| 韩国精品一区二区三区| 国产一区二区在线观看av| 中文字幕制服av| 欧美乱妇无乱码| 麻豆乱淫一区二区| 国产黄色免费在线视频| 一边摸一边做爽爽视频免费| 麻豆av在线久日| 亚洲午夜精品一区,二区,三区| 久久人妻熟女aⅴ| 午夜91福利影院| 女人久久www免费人成看片| 午夜免费鲁丝| 久久久水蜜桃国产精品网| 最新美女视频免费是黄的| 热99久久久久精品小说推荐| 国产高清videossex| 久久精品aⅴ一区二区三区四区| av又黄又爽大尺度在线免费看| 亚洲成人免费av在线播放| 日本撒尿小便嘘嘘汇集6| 丝瓜视频免费看黄片| 日韩有码中文字幕| 人成视频在线观看免费观看| 757午夜福利合集在线观看| 免费女性裸体啪啪无遮挡网站| 一区二区三区乱码不卡18| av有码第一页| 国产成人精品久久二区二区免费| 亚洲人成77777在线视频| 少妇猛男粗大的猛烈进出视频| 亚洲精品粉嫩美女一区| 一区二区三区国产精品乱码| 欧美日韩中文字幕国产精品一区二区三区 | 亚洲三区欧美一区| 国产黄频视频在线观看| 蜜桃国产av成人99| 国产精品美女特级片免费视频播放器 | 国产精品亚洲av一区麻豆| 亚洲精品美女久久av网站| 后天国语完整版免费观看| 黄色视频在线播放观看不卡| 一个人免费在线观看的高清视频| 成人三级做爰电影| 纯流量卡能插随身wifi吗| 欧美日韩成人在线一区二区| 两性午夜刺激爽爽歪歪视频在线观看 | 一边摸一边抽搐一进一出视频| 国产精品.久久久| 国产精品久久电影中文字幕 | 欧美性长视频在线观看| 精品国产一区二区三区久久久樱花| 国产高清国产精品国产三级| 老熟妇仑乱视频hdxx| a级毛片在线看网站| 国产成+人综合+亚洲专区| 人人妻人人爽人人添夜夜欢视频| 中亚洲国语对白在线视频| 老司机深夜福利视频在线观看| 女人久久www免费人成看片| 2018国产大陆天天弄谢| 亚洲精品中文字幕在线视频| 国产亚洲精品久久久久5区| 丝袜美足系列| 久久av网站| svipshipincom国产片| 男女无遮挡免费网站观看| 久久精品国产99精品国产亚洲性色 | 欧美另类亚洲清纯唯美| 免费在线观看影片大全网站| 性色av乱码一区二区三区2| 男女高潮啪啪啪动态图| 欧美 日韩 精品 国产| 日韩人妻精品一区2区三区| 中文字幕高清在线视频| 宅男免费午夜| 夫妻午夜视频| 免费少妇av软件| 欧美乱妇无乱码| 老司机亚洲免费影院| 国产精品香港三级国产av潘金莲| 两人在一起打扑克的视频| 伊人久久大香线蕉亚洲五| 后天国语完整版免费观看| 中文亚洲av片在线观看爽 | 久久九九热精品免费| 岛国在线观看网站| 视频区欧美日本亚洲| 我的亚洲天堂| 日韩 欧美 亚洲 中文字幕| 国产区一区二久久| 韩国精品一区二区三区| 欧美成狂野欧美在线观看| 黑人巨大精品欧美一区二区mp4| 精品国产一区二区三区久久久樱花| 丰满人妻熟妇乱又伦精品不卡| 看免费av毛片| 日韩精品免费视频一区二区三区| 亚洲伊人久久精品综合| 另类精品久久| 免费看十八禁软件| 亚洲va日本ⅴa欧美va伊人久久| av有码第一页| 久久久精品94久久精品| 亚洲精品在线观看二区| 高清毛片免费观看视频网站 | 久久精品国产亚洲av香蕉五月 | 飞空精品影院首页| 丝袜美腿诱惑在线| 丰满迷人的少妇在线观看| 日韩精品免费视频一区二区三区| 午夜精品久久久久久毛片777| 国产不卡一卡二| 久9热在线精品视频| 777久久人妻少妇嫩草av网站| 91av网站免费观看| 热re99久久国产66热| 国产一区二区三区综合在线观看| 午夜免费鲁丝| 黄色视频,在线免费观看| 岛国在线观看网站| 久久精品亚洲av国产电影网| 亚洲av成人不卡在线观看播放网| 大码成人一级视频| 欧美激情 高清一区二区三区| 国产99久久九九免费精品| 国产精品一区二区在线观看99| 热99国产精品久久久久久7| 在线看a的网站| 日韩免费高清中文字幕av| 国产免费现黄频在线看| 国产片内射在线| 国产不卡一卡二| 色婷婷av一区二区三区视频| 自线自在国产av| 一区二区av电影网| 伊人久久大香线蕉亚洲五| 菩萨蛮人人尽说江南好唐韦庄| 亚洲伊人色综图| 最黄视频免费看| 欧美日韩亚洲高清精品| 亚洲熟女精品中文字幕| 欧美亚洲日本最大视频资源| 中亚洲国语对白在线视频| 国产精品亚洲一级av第二区| 久久精品成人免费网站| 久久精品亚洲熟妇少妇任你| 国产精品九九99| 久久人人爽av亚洲精品天堂| 人妻 亚洲 视频| 午夜激情久久久久久久| 欧美精品高潮呻吟av久久| 国产成人免费观看mmmm| 精品亚洲乱码少妇综合久久| 一区二区av电影网| 男人舔女人的私密视频| 视频区图区小说| 三上悠亚av全集在线观看| a在线观看视频网站| 久久国产精品影院| 电影成人av| 黄色视频在线播放观看不卡| 久久久久久久精品吃奶| 不卡av一区二区三区| 国产亚洲精品久久久久5区| 欧美乱码精品一区二区三区| 一个人免费在线观看的高清视频| 男男h啪啪无遮挡| 国产一区二区激情短视频| 国产av国产精品国产| 五月开心婷婷网| 一区二区三区国产精品乱码| 一个人免费在线观看的高清视频| 精品卡一卡二卡四卡免费| 免费女性裸体啪啪无遮挡网站| a级毛片黄视频| a级毛片在线看网站| 亚洲色图av天堂| 国产色视频综合| 涩涩av久久男人的天堂| 亚洲精品国产色婷婷电影| 欧美日韩中文字幕国产精品一区二区三区 | 亚洲 国产 在线| 欧美另类亚洲清纯唯美| 亚洲精品粉嫩美女一区| 曰老女人黄片| 国产欧美日韩综合在线一区二区| 日韩 欧美 亚洲 中文字幕| 怎么达到女性高潮| 亚洲av日韩在线播放| 超碰97精品在线观看| 一本—道久久a久久精品蜜桃钙片| 亚洲精品一二三| 午夜91福利影院| 久久久久国内视频| 国产在线一区二区三区精| 多毛熟女@视频| 国产精品.久久久| 黄色视频在线播放观看不卡| 国产国语露脸激情在线看| h视频一区二区三区| 国精品久久久久久国模美| 国产成人精品久久二区二区91| 超碰97精品在线观看| 中文字幕色久视频| 中文字幕人妻丝袜一区二区| 国产精品久久久久成人av| 亚洲人成电影观看| 精品亚洲成国产av| 人人澡人人妻人| 欧美激情高清一区二区三区| 另类精品久久| 精品欧美一区二区三区在线| 国产一区二区三区综合在线观看| 欧美激情久久久久久爽电影 | 久久国产精品男人的天堂亚洲| 人人妻人人添人人爽欧美一区卜| 亚洲七黄色美女视频| 每晚都被弄得嗷嗷叫到高潮| 亚洲精品国产一区二区精华液| 亚洲精品国产精品久久久不卡| 美女国产高潮福利片在线看| 国产极品粉嫩免费观看在线| 两个人免费观看高清视频| 色播在线永久视频| 欧美亚洲 丝袜 人妻 在线| 精品人妻1区二区| 国产日韩一区二区三区精品不卡| 国产有黄有色有爽视频| 国产无遮挡羞羞视频在线观看| 精品久久蜜臀av无| 国产一区二区三区综合在线观看| 手机成人av网站| 国产成人一区二区三区免费视频网站| 久久天堂一区二区三区四区| av电影中文网址| 中文欧美无线码| 国产真人三级小视频在线观看| 日日爽夜夜爽网站| 日韩人妻精品一区2区三区| 国产在线一区二区三区精| 国产aⅴ精品一区二区三区波| 中文字幕人妻丝袜制服| 老汉色∧v一级毛片| 免费久久久久久久精品成人欧美视频| 亚洲av日韩精品久久久久久密| 麻豆成人av在线观看| 十分钟在线观看高清视频www| 中文字幕人妻丝袜一区二区| 曰老女人黄片| 国产一区二区在线观看av| 精品乱码久久久久久99久播| www日本在线高清视频| 女警被强在线播放| 91麻豆精品激情在线观看国产 | 久久 成人 亚洲| 中国美女看黄片| 免费黄频网站在线观看国产| av国产精品久久久久影院| 欧美精品人与动牲交sv欧美| 亚洲精品在线观看二区| 久久人人爽av亚洲精品天堂| 纵有疾风起免费观看全集完整版| 成人国产一区最新在线观看| 丰满迷人的少妇在线观看| 狠狠狠狠99中文字幕| 好男人电影高清在线观看| 成人18禁高潮啪啪吃奶动态图| 亚洲欧美一区二区三区黑人| 久久人人97超碰香蕉20202| 久久影院123| 一夜夜www| 999久久久国产精品视频| 一级毛片电影观看| 少妇裸体淫交视频免费看高清 | 少妇猛男粗大的猛烈进出视频| 日韩大码丰满熟妇| 国产又爽黄色视频| 丝袜美足系列| 香蕉国产在线看| 久热这里只有精品99| 一本久久精品| 欧美日韩一级在线毛片| 热99久久久久精品小说推荐| av不卡在线播放| 国产极品粉嫩免费观看在线| 99精国产麻豆久久婷婷|