• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    復(fù)雜決策規(guī)則下MIRT的分類準(zhǔn)確性和分類一致性*

    2016-02-01 22:11:12汪文義宋麗紅丁樹良
    心理學(xué)報(bào) 2016年12期
    關(guān)鍵詞:測(cè)驗(yàn)準(zhǔn)確性一致性

    汪文義 宋麗紅 丁樹良

    (1江西師范大學(xué)計(jì)算機(jī)信息工程學(xué)院; 2江西師范大學(xué)初等教育學(xué)院, 南昌 330022)

    1 引言

    標(biāo)準(zhǔn)參照測(cè)驗(yàn)(CRT)關(guān)注學(xué)生具體知識(shí)或技能的掌握情況及達(dá)到的水平。CRT有助于發(fā)揮考試的診斷功能和促進(jìn)學(xué)生發(fā)展, 從而對(duì)教育評(píng)價(jià)產(chǎn)生了深刻影響(戴海琦, 2010)。CRT的廣泛應(yīng)用或需求,很好地體現(xiàn)了其在教育評(píng)價(jià)中的重要性:教育部基礎(chǔ)教育質(zhì)量監(jiān)測(cè)(NAEQ)中心開發(fā)的監(jiān)測(cè)工具采用了CRT; 美國(guó)的“力爭(zhēng)上游”教改計(jì)劃中強(qiáng)調(diào)采用新型標(biāo)準(zhǔn)和評(píng)價(jià), 促使學(xué)生在大學(xué)或工作崗位上取得成功, 在全球范圍內(nèi)具備更好的人才競(jìng)爭(zhēng)力; 美國(guó)前教育部長(zhǎng)阿恩·鄧肯(Arne Duncan)曾表示“一旦建立和采用新標(biāo)準(zhǔn), 就需要?jiǎng)?chuàng)建新測(cè)試, 測(cè)量學(xué)生是否滿足這些標(biāo)準(zhǔn)” (Duncan, 2009)。CRT已經(jīng)廣泛應(yīng)用于水平和資格考試等, 如國(guó)際學(xué)生評(píng)估項(xiàng)目(PISA)、國(guó)際閱讀素養(yǎng)進(jìn)步研究項(xiàng)目(PIRLS)、國(guó)際數(shù)學(xué)和科學(xué)成就趨勢(shì)研究(TIMSS)、美國(guó)教育進(jìn)步評(píng)價(jià)(NAEP)、美國(guó)研究生入學(xué)考試(GRE)、美國(guó)大學(xué)水平考試(CLEP)和NAEQ等(甘良梅, 余嘉元,2006; 辛濤, 李勉, 任曉瓊, 2015)。

    CRT一般將被試分為“掌握、未掌握”或“初級(jí)、中級(jí)、高級(jí)”等表現(xiàn)水平, 測(cè)量結(jié)果直接決定學(xué)習(xí)進(jìn)程、被試選拔和教學(xué)質(zhì)量評(píng)價(jià)等。而測(cè)量往往存在測(cè)量誤差, 如何根據(jù)標(biāo)準(zhǔn)和綜合各種測(cè)驗(yàn)分?jǐn)?shù)對(duì)被試表現(xiàn)水平給出可靠而有效地評(píng)價(jià), 以及如何量化評(píng)價(jià)分類結(jié)果的一致性和準(zhǔn)確性, 成為研究者關(guān)注的重點(diǎn)(Douglas & Mislevy, 2010; 陳平, 李珍, 辛濤,高慧健, 2011)。

    分類一致性是指兩次平行測(cè)驗(yàn)中被試觀察分類相同的概率, 主要反映測(cè)驗(yàn)信度; 分類準(zhǔn)確性是指被試觀察與真實(shí)分類相同的概率, 主要反映測(cè)驗(yàn)效度(Lee, Brennan, & Wan, 2009; 陳平等, 2011)。分類一致性和準(zhǔn)確性指標(biāo)的發(fā)展趨勢(shì)為:從平行測(cè)驗(yàn)過渡到單個(gè)測(cè)驗(yàn)指標(biāo)估計(jì); 從經(jīng)典測(cè)驗(yàn)理論(CTT)過渡到項(xiàng)目反應(yīng)理論(IRT)下指標(biāo)估計(jì)。本文關(guān)注IRT下單個(gè)測(cè)驗(yàn)指標(biāo)估計(jì), 這是該領(lǐng)域的研究熱點(diǎn)之一(Guo, 2006; Lathrop & Cheng, 2013; Lee, 2010;Rudner, 2005; Wyse & Hao, 2012)。指標(biāo)主要分為兩類:一類是以Lee方法為代表的基于觀察分?jǐn)?shù)(測(cè)驗(yàn)總分)的決策指標(biāo); 另一類是以Rudner方法為代表的基于能力分?jǐn)?shù)的決策指標(biāo)(Lathrop & Cheng,2013; Rudner, 2005)。Guo方法作為Rudner方法的改良, 不像Rudner方法需要借助正態(tài)性假設(shè)(Guo,2006; Wyse & Hao, 2012), 因此本研究中暫不考慮Rudner方法。

    這些研究?jī)H從模擬或?qū)嵶C角度比較Lee和Guo指標(biāo)表現(xiàn), 本研究嘗試從理論上尋求兩類指標(biāo)之間的內(nèi)在關(guān)系。相關(guān)研究主要集中于單維IRT (UIRT)下指標(biāo)估計(jì), 而隨著測(cè)量學(xué)研究的深入, 眾多研究表明, 許多教育或心理測(cè)驗(yàn), 如NAEP, PISA, TIMSS,NAEQ和西方五因素人格問卷(如NEO-PI-R), 都是多維測(cè)驗(yàn)(Debeer, Buchholz, Hartig, & Janssen, 2014;Makransky, Mortensen, & Glas, 2013; Rijmen, Jeon,von Davier, & Rabe-Hesketh, 2014; Yao & Boughton,2007; Zhang, 2012)。用于多維測(cè)驗(yàn)分析的多維IRT(MIRT)涌現(xiàn)了許多研究成果, 涉及模型、估計(jì)、等值、自適應(yīng)測(cè)驗(yàn)和應(yīng)用等方面(Cai, 2010; Reckase,2009; Wang, 2015; 劉紅云, 駱方, 王玥, 張玉,2012; 杜文久, 肖涵敏, 2012; 康春花, 辛濤, 2010;毛秀珍, 辛濤, 2015; 涂冬波, 蔡艷, 戴海琦, 丁樹良,2011; 許志勇, 丁樹良, 鐘君, 2013; 詹沛達(dá), 王文中,王立君, 李曉敏, 2014)。

    伴隨著MIRT的發(fā)展, 近年來有研究將Lee方法推廣用于估計(jì)多維測(cè)驗(yàn)的分類一致性和準(zhǔn)確性,如Grima和Yao (2011)、Yao (2016)將Lee方法從UIRT推廣到MIRT, 并指出使用UIRT分析多維數(shù)據(jù)會(huì)導(dǎo)致指標(biāo)估計(jì)有偏; LaFond (2014)將Lee方法應(yīng)用于雙因子模型和題組模型。這兩項(xiàng)研究均是基于Lee方法計(jì)算觀察分?jǐn)?shù)的分類一致性和準(zhǔn)確性。而最近有研究表明, 在兩或三參數(shù)邏輯斯蒂克模型和等級(jí)反應(yīng)模型下, 基于能力分?jǐn)?shù)的決策指標(biāo)要優(yōu)于基于觀察分?jǐn)?shù)的決策指標(biāo)(Lathrop & Cheng,2013)。因此, 如何計(jì)算各內(nèi)容、技能或能力分?jǐn)?shù)上的分類一致性和準(zhǔn)確性, 能否將基于能力分?jǐn)?shù)的Guo方法推廣到MIRT, UIRT下得出的結(jié)論在MIRT下是否仍成立, Guo與Lee方法在什么條件下等價(jià),Guo或Lee方法是否具有獨(dú)特的優(yōu)勢(shì)?這些是本文要探討的主要問題。

    對(duì)學(xué)生有重要影響(如影響受教育機(jī)會(huì))的決策,教育與心理測(cè)量標(biāo)準(zhǔn)要求不能僅基于單個(gè)測(cè)驗(yàn)分?jǐn)?shù)(Henderson-Montero, Julian, & Yen, 2003), 而要求使用多重測(cè)量結(jié)果做決策, 以提高測(cè)量信度、效度、公平性等(Chester, 2003; McBee, Peters, &Waterman, 2014)。在“中小學(xué)教育修正法”和“不讓一個(gè)孩子掉隊(duì)”法案推動(dòng)下, 一般采用合成分?jǐn)?shù)合成多重測(cè)量結(jié)果。合成方法常采用聯(lián)合、補(bǔ)償、聯(lián)合?補(bǔ)償混合和驗(yàn)證規(guī)則, 并應(yīng)用于英語水平考試、通識(shí)教育發(fā)展考試和學(xué)業(yè)水平評(píng)價(jià)等(Abedi, 2004;Carroll & Bailey, 2015; Chester, 2003; Henderson-Montero et al., 2003)。以上關(guān)于決策規(guī)則的研究基本是集中于CTT。雖然MIRT非常適合分析多重測(cè)量結(jié)果, 如能反饋學(xué)生各方面內(nèi)容、技能和能力的診斷信息(Chang, 2012; 康春花, 辛濤, 2010), 但是至今尚沒有研究在MIRT框架下比較各種決策規(guī)則下的分類一致性和準(zhǔn)確性。

    基于以上文獻(xiàn)回顧和分析, 提出如下實(shí)驗(yàn)假設(shè):基于能力分?jǐn)?shù)的Guo指標(biāo)比基于觀察分?jǐn)?shù)的Lee指標(biāo)更為靈活, 可方便計(jì)算各能力維度、聯(lián)合和補(bǔ)償?shù)葟?fù)雜規(guī)則下指標(biāo); 在計(jì)算多重積分方面具有獨(dú)特優(yōu)勢(shì)的蒙特卡羅方法, 可較好地估計(jì)Guo和Lee指標(biāo)。

    2 多維等級(jí)反應(yīng)模型和Lee方法

    2.1 多維等級(jí)反應(yīng)模型

    給定觀察數(shù)據(jù)y、項(xiàng)目參數(shù)α和β, 可基于極大似然法或其他方法(Wang, 2015)估計(jì)被試能力。能力為θ的似然函數(shù)為:

    其中示性函數(shù)定義如下:

    2.2 多維模型下Lee方法

    2.2.1 基于Lee方法的分類一致性指標(biāo)

    該式表示總分為

    x

    的各個(gè)得分向量y的聯(lián)合概率之和。根據(jù)

    X

    的條件分布和劃界分?jǐn)?shù), 可計(jì)算能力為θ的被試位于或被分到第

    h

    類的概率:

    2.2.2 基于Lee方法的分類準(zhǔn)確性指標(biāo)

    先計(jì)算能力的期望總分或真分?jǐn)?shù):

    3 決策規(guī)則和新指標(biāo)

    3.1 決策規(guī)則

    決策規(guī)則直接影響測(cè)驗(yàn)分類結(jié)果的信度和效度, 決策規(guī)則可分為聯(lián)合、補(bǔ)償及混合型等(Douglas& Mislevy, 2010)。如研究生入學(xué)考試要求考生在單科分?jǐn)?shù)和總分均達(dá)到分?jǐn)?shù)線, 這屬于一種混合型規(guī)則。下面介紹三種多維潛在能力下的決策規(guī)則, 決策區(qū)域示意圖見圖1。

    (1)基于各個(gè)能力分?jǐn)?shù)的決策規(guī)則, 第

    k

    維能力上決策區(qū)域?yàn)椋?p>

    (2)基于合成能力分?jǐn)?shù)的決策規(guī)則, 決策區(qū)域?yàn)椋?/p>

    (3)基于各個(gè)能力和合成分?jǐn)?shù)的決策規(guī)則, 決策區(qū)域?yàn)椋?/p>

    圖1 三種決策規(guī)則對(duì)應(yīng)的決策區(qū)域示意圖(H=3, d=2)

    3.2 基于Guo方法的分類一致性和準(zhǔn)確性指標(biāo)

    根據(jù)Guo方法思想, 給定被試觀察數(shù)據(jù)y、項(xiàng)目參數(shù)α和β, 可基于似然函數(shù)計(jì)算被試

    i

    分到第

    h

    類的期望概率為:

    3.3 Guo方法和Lee方法下分類準(zhǔn)確性指標(biāo)的關(guān)系

    4 模擬研究

    4.1 研究目的

    通過模擬研究探討基于Guo方法估計(jì)的分類一致性和準(zhǔn)確性是否可以準(zhǔn)確地評(píng)價(jià)測(cè)驗(yàn)的模擬分類一致性和準(zhǔn)確性。模擬分類一致性, 又稱為重測(cè)一致性, 是通過模擬同一批被試在同一份測(cè)驗(yàn)上的獨(dú)立作答兩次, 然后計(jì)算兩次測(cè)驗(yàn)上估計(jì)能力所在相同類的比率; 模擬分類準(zhǔn)確性, 是指所有被試中模擬能力與估計(jì)能力屬于同一類的比率。

    4.2 研究設(shè)計(jì)

    借鑒多維模型下模擬研究的實(shí)驗(yàn)設(shè)計(jì)(Wang,2015; Yao & Boughton, 2007), 為了評(píng)價(jià)測(cè)驗(yàn)長(zhǎng)度、維度、相關(guān)和樣本量的影響。采用四因素完全隨機(jī)設(shè)計(jì), 由于單維測(cè)驗(yàn)不能考慮能力間相關(guān), 共28種實(shí)驗(yàn)條件。表1給出了固定樣本量(1000和3000)水平下其他因素的條件組合。

    表1 固定樣本量水平下三個(gè)因素的實(shí)驗(yàn)條件

    4.3 數(shù)據(jù)模擬

    模擬研究中使用了R軟件和Matlab R2015a軟件, 其中MGRM的參數(shù)估計(jì)算法采用的是MH-RM算法(Cai, 2010)。因?yàn)橛醒芯匡@示個(gè)體方法與分布方法結(jié)果類似(Lee, 2010), 因此本文中Lee方法指標(biāo)均是基于個(gè)體方法計(jì)算, 即公式(8)和(13)采用樣本中個(gè)體指標(biāo)的平均, 即使用估計(jì)能力代替能力,并對(duì)所有被試指標(biāo)求均值代替加權(quán)積分。因?yàn)殡S著測(cè)驗(yàn)項(xiàng)目數(shù)和等級(jí)數(shù)較多, 可能的項(xiàng)目反應(yīng)模式數(shù)量非常大, 公式(6)采用蒙特卡羅方法模擬作答反應(yīng)進(jìn)行近似計(jì)算。采用馬爾柯夫蒙特卡羅方法之Metropolis-Hastings構(gòu)造獨(dú)立鏈抽樣并近似計(jì)算公式(17)的多重積分。

    4.4 決策規(guī)則

    將被試分為三類, 采用三種決策規(guī)則:(1)基于測(cè)驗(yàn)原始總分的決策規(guī)則, 劃界分?jǐn)?shù)設(shè)置為滿分的50%和80%。當(dāng)測(cè)驗(yàn)長(zhǎng)度為15且所有項(xiàng)目的最高等級(jí)分為2時(shí), 測(cè)驗(yàn)滿分為30, 劃界分?jǐn)?shù)為15和24分; (2)基于各維度能力分?jǐn)?shù)的決策規(guī)則, 各劃界分?jǐn)?shù)采用各能力維度下子測(cè)驗(yàn)滿分的50%和80%。如四維模型下測(cè)驗(yàn)長(zhǎng)度為30的測(cè)驗(yàn), 每個(gè)能力維度上有10個(gè)項(xiàng)目(含測(cè)量?jī)蓚€(gè)維度的項(xiàng)目), 劃界分?jǐn)?shù)為10和16分; (3)基于合成能力分?jǐn)?shù)的決策規(guī)則。公式(15)和(16)中能力權(quán)重設(shè)為維度的倒數(shù), 而劃界分?jǐn)?shù)設(shè)為0和0.75。在前兩種決策規(guī)則下, 可計(jì)算Lee和Guo方法指標(biāo)。而在第三種決策規(guī)則下,由于不能建立能力子空間與總分子區(qū)間的一一對(duì)應(yīng)關(guān)系, 只計(jì)算Guo方法指標(biāo)。

    表2 兩維模型下的項(xiàng)目參數(shù)(Cai, 2010)

    5 實(shí)驗(yàn)結(jié)果

    5.1 總分決策規(guī)則下的指標(biāo)誤差評(píng)價(jià)

    在總分決策規(guī)則下, 本部分主要給出指標(biāo)誤差的結(jié)果。指標(biāo)誤差來源主要有項(xiàng)目參數(shù)估計(jì)誤差和蒙特卡羅方法近似計(jì)算誤差。這是因?yàn)椋涸谡鎸?shí)測(cè)驗(yàn)情景下, 并沒有真實(shí)項(xiàng)目參數(shù), 而只能基于參數(shù)估計(jì)軟件估計(jì)項(xiàng)目參數(shù), 再進(jìn)行指標(biāo)計(jì)算, 這個(gè)過程當(dāng)中就存在項(xiàng)目參數(shù)的估計(jì)誤差; 已知真實(shí)或估計(jì)的項(xiàng)目參數(shù), 在指標(biāo)計(jì)算過程中, 為避免維數(shù)災(zāi)難問題或樣本空間特別大問題, 需要采用蒙特卡羅方法計(jì)算多重積分或獲得估計(jì)能力條件下總分的經(jīng)驗(yàn)分布, 此時(shí), 蒙特卡羅方法中樣本的抽樣數(shù)量將影響近似計(jì)算精度。下面主要考慮真實(shí)或估計(jì)項(xiàng)目參數(shù)和三種抽樣數(shù)量(1000,3000,9000)對(duì)指標(biāo)誤差的影響。

    使用偏差(

    bias

    )、絕對(duì)偏差(

    abs

    )和誤差均方根(

    RMSE

    )來反映真值與估計(jì)值差異大小。給定模擬項(xiàng)目參數(shù), 由極大似然法估計(jì)被試能力, 然后分別計(jì)算估計(jì)能力、觀測(cè)總分與模擬能力所在類相同的比率, 分別得到Guo或Lee方法的模擬分類準(zhǔn)確性(Lathrop & Cheng, 2013):

    由模擬或估計(jì)的項(xiàng)目參數(shù)使用極大似然法估計(jì)被試能力, 再使用公式(13)和(19)估計(jì)分類準(zhǔn)確性。

    表3給出了在真實(shí)或估計(jì)項(xiàng)目參數(shù)、三種抽樣數(shù)量條件下兩類分類準(zhǔn)確性指標(biāo)的誤差。結(jié)果顯示:(1)對(duì)于分類準(zhǔn)確性指標(biāo)精度, 真實(shí)項(xiàng)目參數(shù)下精度好于估計(jì)項(xiàng)目參數(shù)下精度; (2)基于Lee方法的分類準(zhǔn)確性指標(biāo)精度已經(jīng)基本上不受抽樣數(shù)量影響, 這是因?yàn)榭偡蛛S機(jī)變量的樣本空間可數(shù)而能力空間不可數(shù); (3)基于Guo方法的分類準(zhǔn)確性指標(biāo)精度隨著抽樣數(shù)量增加而提高。當(dāng)抽樣數(shù)量從1000增加到3000時(shí),

    RMSE

    減少0.0035或0.001, 而當(dāng)抽樣數(shù)量增加到9000時(shí), 估計(jì)精度增幅非常小; (4)精度并不完全隨抽樣數(shù)量增加而提高, 可能由于取樣隨機(jī)性引起?;谝陨辖Y(jié)果, 下面只對(duì)估計(jì)項(xiàng)目參數(shù)和抽樣數(shù)量為3000的結(jié)果進(jìn)行分析。

    5.2 總分決策規(guī)則下的指標(biāo)估計(jì)

    表4給出真實(shí)項(xiàng)目參數(shù)下分類準(zhǔn)確性指標(biāo)的模擬值、估計(jì)項(xiàng)目參數(shù)下的分類準(zhǔn)確性指標(biāo)估計(jì)值及其對(duì)應(yīng)的Kappa (兩維模型和四維模型結(jié)果類似,為節(jié)省篇幅, 故兩維模型結(jié)果未列出)。結(jié)果顯示:(1)兩類方法估計(jì)的分類準(zhǔn)確性指標(biāo)返真性好, 均可以準(zhǔn)確地估計(jì)模擬分類準(zhǔn)確性; (2)單維、兩維和四維模型下, 分類準(zhǔn)確性隨著測(cè)驗(yàn)長(zhǎng)度增加而嚴(yán)格遞增; (3)單維模型下, 分類準(zhǔn)確性并沒有隨樣本量增加而提高, 存在一定的差異, 可能主要由于得分矩陣的隨機(jī)性引起。另外, 樣本量1000已經(jīng)基本達(dá)到了單維模型下準(zhǔn)確估計(jì)項(xiàng)目參數(shù)的要求, 并且分類準(zhǔn)確性指標(biāo)對(duì)項(xiàng)目參數(shù)估計(jì)誤差不是太敏感(見表3); (4)兩維模型和四維模型下, 分類準(zhǔn)確性多數(shù)隨樣本量增加而有所提高。直觀上, 維數(shù)越大需要估計(jì)的項(xiàng)目參數(shù)數(shù)量更多, 對(duì)樣本量有更高要求;(5)兩類方法的分類準(zhǔn)確性均隨著能力間相關(guān)增加而嚴(yán)格遞增, 并且四維模型與兩維模型的結(jié)果類似;(6)單維模型和兩維模型下, Guo方法下的模擬或估計(jì)的分類準(zhǔn)確性指標(biāo)均稍高于Lee方法相應(yīng)指標(biāo)(但是兩者相當(dāng)接近, 與理論結(jié)果相符), 兩種方法得到的估計(jì)值對(duì)應(yīng)的Kappa有類似的趨勢(shì)。而在四維模型下, 結(jié)果有所不同, 僅在相關(guān)為0.8時(shí), Guo方法下分類準(zhǔn)確性指標(biāo)估計(jì)值的Kappa較明顯高于Lee方法的Kappa; (7)相同條件下, 兩類指標(biāo)值差異相當(dāng)小。表5給出了分類一致性, 結(jié)果類似于分類準(zhǔn)確性, 在此不詳細(xì)說明。

    表3 模擬研究所有條件下兩類分類準(zhǔn)確性指標(biāo)的三類誤差指標(biāo)的平均值

    5.3 各能力維度決策規(guī)則下的指標(biāo)估計(jì)

    單維模型的維數(shù)為1, 能力維度決策規(guī)則與總分決策規(guī)則相同, 對(duì)應(yīng)的指標(biāo)估計(jì)相同, 結(jié)果不重復(fù)列出。由于設(shè)計(jì)的測(cè)驗(yàn)考慮了各能力維度上的項(xiàng)目數(shù)平衡, 各能力維度上的分類準(zhǔn)確性十分接近,下面僅考慮第一個(gè)能力維度下指標(biāo)的結(jié)果(其他結(jié)果未列出)。表6僅給出四維模型的真實(shí)項(xiàng)目參數(shù)下分類準(zhǔn)確性指標(biāo)的模擬值、估計(jì)項(xiàng)目參數(shù)下的分類準(zhǔn)確性指標(biāo)估計(jì)值及其對(duì)應(yīng)的Kappa。

    表6結(jié)果顯示:(1)兩類方法估計(jì)的分類準(zhǔn)確性指標(biāo)返真性好, Guo方法返真性稍好; (2)分類準(zhǔn)確性隨著測(cè)驗(yàn)長(zhǎng)度增加而提高; (3)分類準(zhǔn)確性并不隨著樣本量增加而提高, 可能由于相應(yīng)子測(cè)驗(yàn)長(zhǎng)度較短和得分陣中隨機(jī)性導(dǎo)致; (4)分類準(zhǔn)確性隨著能力間相關(guān)增加而提高; (5)平均而言, Lee方法比Guo方法的分類準(zhǔn)確性高; (6)相同條件下, 各能力維度決策規(guī)則比總分決策規(guī)則所得到的分類準(zhǔn)確性要小, 這意味著, 在實(shí)際應(yīng)用中報(bào)告各能力維度分?jǐn)?shù)或內(nèi)容領(lǐng)域分?jǐn)?shù)時(shí), 需要考慮其分類準(zhǔn)確性是否達(dá)到指定的精度。該決策規(guī)則下的分類一致性指標(biāo)與總分決策規(guī)則的分類一致性指標(biāo)變化趨勢(shì)相似, 只是值要小一些, 故結(jié)果省略。

    表4 總分決策規(guī)則下分類準(zhǔn)確性指標(biāo)及估計(jì)值對(duì)應(yīng)的Kappa (抽樣數(shù)量為3000)

    表5 總分決策規(guī)則下分類一致性指標(biāo)及估計(jì)值對(duì)應(yīng)的Kappa (抽樣數(shù)量為3000)

    表6 第一個(gè)能力維度決策規(guī)則下分類準(zhǔn)確性指標(biāo)及估計(jì)值對(duì)應(yīng)的Kappa (抽樣數(shù)量為3000)

    5.4 合成能力決策規(guī)則下的指標(biāo)估計(jì)

    表7給出真實(shí)項(xiàng)目參數(shù)下分類一致性和準(zhǔn)確性指標(biāo)模擬值、估計(jì)項(xiàng)目參數(shù)下分類一致性和準(zhǔn)確性指標(biāo)估計(jì)值及其對(duì)應(yīng)的Kappa (兩維模型結(jié)果未列出)。結(jié)果顯示:(1)兩維模型和四維模型下, 推廣的Guo方法能很好地估計(jì)合成能力規(guī)則下的分類一致性和準(zhǔn)確性; (2)在單維模型下, 由于并沒有其他能力維度參與合成, 其實(shí)就只有單個(gè)能力參與決策,但是基于能力量尺劃界分?jǐn)?shù)與總分決策規(guī)則的劃界分?jǐn)?shù)稍微有所差異。劃界分?jǐn)?shù)為滿分50%基本上對(duì)應(yīng)能力劃界分?jǐn)?shù)0, 而若總分服從正態(tài)分布, 可計(jì)算劃界分?jǐn)?shù)為滿分80%對(duì)應(yīng)的Z分?jǐn)?shù)約為0.84,這與能力劃界分?jǐn)?shù)0.75稍有差異。劃界分?jǐn)?shù)對(duì)應(yīng)的能力值也可以通過已知總分量尺上的劃界分?jǐn)?shù), 由真分?jǐn)?shù)計(jì)算公式迭代估計(jì)出對(duì)應(yīng)的能力值(可參見戴海琦, 2010)。因此, 單維模型下的分類一致性和準(zhǔn)確性指標(biāo)與表4和表5中結(jié)果稍有差異。

    表7 合成能力決策規(guī)則下分類一致性和準(zhǔn)確性指標(biāo)(抽樣數(shù)量為3000)

    6 討論

    6.1 新方法提出的背景和意義

    CRT一般將被試分成少數(shù)幾個(gè)表現(xiàn)水平, 從而可以較短測(cè)驗(yàn)長(zhǎng)度獲得較高的測(cè)量精度, 特別適合于大尺度教育評(píng)估等, 并且CRT有利于提高教學(xué)(戴海琦, 2010; Chang, 2012)。許多大尺度評(píng)估具有多維性, 為了更好地利用維度間的相關(guān)信息, MIRT成為分析這類測(cè)驗(yàn)的重要選擇。信度和效度是評(píng)價(jià)測(cè)量工具質(zhì)量的重要指標(biāo), 因此, 非常有必要開發(fā)分類信度和效度的評(píng)價(jià)指標(biāo)。本研究正是在這樣的背景之下, 探討MIRT下CRT的分類一致性和準(zhǔn)確性指標(biāo)。

    本研究在MIRT下推廣分類一致性和準(zhǔn)確性指標(biāo), 采用蒙特卡羅方法計(jì)算多重積分值, 實(shí)現(xiàn)復(fù)雜決策規(guī)則下指標(biāo)計(jì)算, 并從數(shù)學(xué)上證明分類準(zhǔn)確性兩類估計(jì)量在總分決策規(guī)則和均勻先驗(yàn)下依概率收斂于同一真值。綜合考慮測(cè)驗(yàn)長(zhǎng)度、維度、相關(guān)、樣本量和決策規(guī)則等對(duì)指標(biāo)估計(jì)的影響, 研究表明,新指標(biāo)及其估計(jì)方法表現(xiàn)不錯(cuò), 可以在復(fù)雜決策規(guī)則下評(píng)價(jià)CRT分類信度和效度。如果劃界分?jǐn)?shù)直接定義在能力分?jǐn)?shù)量尺之上, 相比Lee方法, Guo方法更適合于各個(gè)能力維度、聯(lián)合和補(bǔ)償?shù)葟?fù)雜規(guī)則下指標(biāo)估計(jì)。

    6.2 分類一致性和準(zhǔn)確性的用處

    分類一致性和準(zhǔn)確性的估計(jì)方法的實(shí)際用處到底是什么、是否有替代方法、這些方法如何應(yīng)用于真實(shí)測(cè)驗(yàn)情景和是否已經(jīng)有應(yīng)用的例子、以及在什么情景下需要使用新方法?這些問題十分重要,直接決定這類方法或新方法的推廣性。為了清晰地闡明分類一致性和準(zhǔn)確性或新方法的用處, 下面對(duì)這些問題分別進(jìn)行說明。

    第一, 新方法可用于估計(jì)單個(gè)測(cè)驗(yàn)的分類一致性和準(zhǔn)確性, 無需進(jìn)行重測(cè)、能力模擬和估計(jì)。一方面, 盡管測(cè)驗(yàn)的分類一致性可以通過重測(cè)得到,但是由于重測(cè)條件十分苛刻而要獲得重測(cè)數(shù)據(jù)不太可能(Lee, 2010), 因此, 實(shí)際應(yīng)用中較難直接通過重測(cè)獲得分類一致性。另一方面, 由于在實(shí)際應(yīng)用中真實(shí)能力并不知道, 估計(jì)分類準(zhǔn)確性的模擬方法需要模擬并估計(jì)能力。即先根據(jù)估計(jì)能力和項(xiàng)目參數(shù), 模擬作答數(shù)據(jù)再估計(jì)能力并比較兩者分類相同的比率, 即模擬的分類準(zhǔn)確性。由于估計(jì)能力并非被試的真實(shí)能力, 該模擬方法仍有不足之處。以上兩方面的考慮, 正是眾多研究者提出了其他方法估計(jì)單個(gè)測(cè)驗(yàn)的分類一致性和準(zhǔn)確性的初衷。

    第二, 條件標(biāo)準(zhǔn)誤指標(biāo)并不能直接反映測(cè)驗(yàn)的分類準(zhǔn)確性。盡管CRT分類誤差還可通過其他指標(biāo)來衡量, 如條件標(biāo)準(zhǔn)誤等指標(biāo)(戴海琦, 2010)。由于條件標(biāo)準(zhǔn)誤只能反映能力估計(jì)與“真值”之間的一種差異, 并不能直接以“百分比”的形式反映測(cè)驗(yàn)上所有被試的分類準(zhǔn)確率。不過, 在UIRT和誤差分布為正態(tài)分布條件下, 有研究者發(fā)現(xiàn)能力估計(jì)的標(biāo)準(zhǔn)誤與分類準(zhǔn)確性指標(biāo)存在著一種較為復(fù)雜的非線性轉(zhuǎn)換關(guān)系(Cheng, Liu, & Behrens, 2015)。理論上這種關(guān)系應(yīng)該可以推廣到MIRT, 但仍需要進(jìn)行相關(guān)研究。

    第三, 新方法或指標(biāo)并不僅僅能用于模擬研究,更為重要是可以應(yīng)用于實(shí)證研究。首先, 在真實(shí)測(cè)驗(yàn)情景下, 由于被試真實(shí)能力未知, 無法得到分類準(zhǔn)確性真值, 本文開展的模擬研究只是為了驗(yàn)證新指標(biāo)的表現(xiàn)。一般來講, 模擬研究的邏輯是, 如果模擬條件下結(jié)果不好, 那么在錯(cuò)綜復(fù)雜的真實(shí)情況下結(jié)果一般更加差, 即模擬研究至少可以起到淘汰作用。結(jié)合本文來說, 如果在相當(dāng)理想的模擬條件下, 新指標(biāo)不能很好地估計(jì)真實(shí)的分類一致性和準(zhǔn)確性, 那么在更加復(fù)雜的實(shí)際情況中, 新指標(biāo)就不可用。其次, 從文中敘述的方法和條件來看, 新方法或指標(biāo)完全可用于真實(shí)測(cè)驗(yàn)情景。本文敘述的復(fù)雜決策規(guī)則下MIRT的分類一致性和準(zhǔn)確性估計(jì)方法, 只要將相關(guān)算法嵌入到相應(yīng)的MIRT參數(shù)估計(jì)程序中, 基于測(cè)驗(yàn)作答數(shù)據(jù)、參數(shù)估計(jì)結(jié)果和決策規(guī)則, 就可估計(jì)真實(shí)測(cè)驗(yàn)的分類一致性和準(zhǔn)確性。相關(guān)研究顯示, 有些分類一致性和準(zhǔn)確性估計(jì)方法已應(yīng)用于真實(shí)測(cè)驗(yàn), 如在UIRT或其他模型下,Lathrop和Cheng (2014)在其文中的引言中提到(pp.318?319), 前人提出的分類一致性和準(zhǔn)確性估計(jì)方法, 包括本文中用到的Lee方法, 已用于評(píng)價(jià)許多實(shí)際測(cè)驗(yàn)的分類結(jié)果質(zhì)量, 并且已經(jīng)開發(fā)可供用戶使用的專門商業(yè)或免費(fèi)軟件。

    第四, 新方法或指標(biāo)可用于復(fù)雜決策規(guī)則下多維測(cè)驗(yàn)的領(lǐng)域分?jǐn)?shù)報(bào)告質(zhì)量評(píng)價(jià)。領(lǐng)域分?jǐn)?shù)主要反映學(xué)生在一組代表某個(gè)內(nèi)容和技能的試題(領(lǐng)域)上的表現(xiàn), 這比量表分或測(cè)驗(yàn)總分更直接, 更能被大眾理解和接受(辛濤, 謝敏, 2010)?;贗RT的領(lǐng)域分?jǐn)?shù)更具有優(yōu)勢(shì)。根據(jù)題目與潛在維度之間的關(guān)系,多維模型或測(cè)驗(yàn)主要分為兩類:“題目間多維”和“題目?jī)?nèi)多維”, 其中題目間多維測(cè)驗(yàn)的各個(gè)題目?jī)H能測(cè)量多個(gè)潛在維度中一個(gè); 而題目?jī)?nèi)多維測(cè)驗(yàn)允許每個(gè)題目考察多個(gè)潛在維度(Adams, Wilson, &Wang, 1997)。題目間多維測(cè)驗(yàn)的領(lǐng)域分?jǐn)?shù)報(bào)告研究較多(Yao, 2016; Yao & Boughton, 2007), 而題目?jī)?nèi)多維測(cè)驗(yàn)僅有報(bào)告能力領(lǐng)域分?jǐn)?shù)(Yao, 2010)。在復(fù)雜決策規(guī)則下, 新指標(biāo)可用于評(píng)估這兩類測(cè)驗(yàn)的分類準(zhǔn)確率和一致性, 從而豐富分?jǐn)?shù)報(bào)告內(nèi)容。

    6.3 研究不足和有待進(jìn)一步探討的問題

    基于Guo方法的新指標(biāo)可根據(jù)不同決策規(guī)則計(jì)算分類一致性和準(zhǔn)確性, 不需要復(fù)雜的計(jì)算程序。Guo方法不像Rudner指標(biāo)(Rudner, 2005; Wyse& Hao, 2012)需要借助正態(tài)性假設(shè)(Guo, 2006), 可適合于非正態(tài)性數(shù)據(jù), 同時(shí)可避免分?jǐn)?shù)分布正態(tài)性轉(zhuǎn)換可能帶來分類結(jié)果的不同(Douglas & Mislevy,2010)。但是本研究并沒有模擬非正態(tài)分布能力, 以檢驗(yàn)Guo指標(biāo)對(duì)于非正態(tài)數(shù)據(jù)的穩(wěn)健性。能力分布為非正態(tài)分布條件下, 指標(biāo)表現(xiàn)如何?有待研究。

    盡管Guo方法并不需要能力誤差具有正態(tài)性假設(shè), 但是需要利用IRT下的似然函數(shù), 因此Guo方法的表現(xiàn)依賴于模型-資料擬合情況。如果模型-資料擬合不好, 對(duì)Guo方法的影響如何?是否有更好的替代方法?最近有研究基于非參數(shù)統(tǒng)計(jì)中假設(shè)更弱的密度估計(jì)方法用于估計(jì)總分的平滑分布, 并用于估計(jì)分類一致性和準(zhǔn)確性(Lathrop &Cheng, 2014)。非參數(shù)方法, 能否用于多維情形下各種決策規(guī)則下的分類一致性和準(zhǔn)確性估計(jì), 仍有待考慮。

    MIRT下, 如何基于Rudner方法(Rudner, 2005;Wyse & Hao, 2012)估計(jì)分類一致性和準(zhǔn)確性?值得研究。Rudner指標(biāo)需要借助能力估計(jì)的誤差矩陣或信息矩陣來計(jì)算, 能力的信息矩陣的不同估計(jì)方法也將影響指標(biāo)的結(jié)果。信息矩陣哪一種估計(jì)方法更有利于估計(jì)分類一致性和準(zhǔn)確性, 仍值得研究。如果在測(cè)驗(yàn)長(zhǎng)度較長(zhǎng)時(shí), 極大似然法估計(jì)的能力誤差漸近服從多元正態(tài)分布。而多元正態(tài)分布隨機(jī)向量落在任意區(qū)域的概率的計(jì)算相對(duì)容易, 或可為分類一致性和準(zhǔn)確性的計(jì)算帶來一定的方便。

    本研究采用了內(nèi)容平衡技術(shù)生成多維測(cè)驗(yàn), 因此采用了相同權(quán)重得到合成分?jǐn)?shù), 并計(jì)算其分類一致性和準(zhǔn)確性。若以合成能力分?jǐn)?shù)信息量最大的方式求取權(quán)重(Yao, 2010), 這樣合成能力分?jǐn)?shù)的分類一致性和準(zhǔn)確性如何值得探討?;诟鲀?nèi)容領(lǐng)域的觀察分?jǐn)?shù)的如何合成, 及其分類一致性和準(zhǔn)確性評(píng)價(jià)也值得考慮。在特定應(yīng)用領(lǐng)域, 使用哪種決策規(guī)則, 需要綜合考慮決策目的、信度、效度、公平性和風(fēng)險(xiǎn)等因素。另外, 有待開展新指標(biāo)在真實(shí)的CRT或計(jì)算機(jī)分類測(cè)驗(yàn)中的應(yīng)用。

    7 結(jié)論

    本研究探討了MGRM下的分類一致性和準(zhǔn)確性指標(biāo), 并采用蒙特卡羅方法模擬樣本進(jìn)行指標(biāo)估計(jì)。研究表明:

    (1)基于Guo方法(Guo, 2006; Wyse & Hao,2012)提出的多維模型下的分類一致性和準(zhǔn)確性指標(biāo), 可準(zhǔn)確地評(píng)價(jià)多維CRT的分類信度和效度;

    (2)相比Lee方法, Guo方法更加靈活, 適用于多種決策規(guī)則指標(biāo)估計(jì), 不僅可用于觀察總分、各個(gè)內(nèi)容或技能分?jǐn)?shù)指標(biāo)估計(jì), 還適宜于合成分?jǐn)?shù)等復(fù)雜決策規(guī)則下分類一致性和準(zhǔn)確性指標(biāo)估計(jì);

    (3)多維模型下基于能力分?jǐn)?shù)的Guo方法比基于觀察總分的Lee方法得到的分類一致性略高, 分類準(zhǔn)確性在能力間相關(guān)較大時(shí)更高。因此, 如果IRT擬合測(cè)驗(yàn)數(shù)據(jù), 更適合基于能力做決策。單維等級(jí)反應(yīng)模型下的基于能力分?jǐn)?shù)的決策更準(zhǔn)確,Lathrop和Cheng (2013)在比較Lee方法和Rudner方法, 也有相同的發(fā)現(xiàn)。

    (4)在總分決策規(guī)則和無信息先驗(yàn)分布下(即先驗(yàn)分布為均勻分布), 從數(shù)學(xué)上證明了兩種方法下分類準(zhǔn)確性指標(biāo)估計(jì)量依概率收斂于同一真值。

    Abedi, J. (2004). The No Child Left Behind Act and English language learners: Assessment and accountability issues.

    Educational Researcher, 33

    (1), 4–14.Adams, R. J., Wilson, M., & Wang, W. C. (1997). The multidimensional random coefficients multinomial logit model.

    Applied Psychological Measurement, 21

    (1), 1–23.Cai, L. (2010). High-dimensional exploratory item factor analysis by a Metropolis–Hastings Robbins–Monro algorithm.

    Psychometrika, 75

    (1), 33–57.Carroll, P. E., & Bailey, A. L. (2016). Do decision rules matter?A descriptive study of English language proficiency assessment classifications for English-language learners and native English speakers in fifth grade.

    Language Testing, 33

    (1), 23–52.Chang, H. H. (2012). Making computerized adaptive testing diagnostic tools for schools. In R. W. Lissitz & H. Jiao(Eds.),

    Computers an d their impact on st ate as sessment:Recent history and predictions for the future

    (pp. 195–226.).Charlotte, NC: Information Age.Chen, P., Li, Z., Xin, T., & Gao, H. J. (2011). A review of decision consistency indices of criteria-reference test.

    Psychological Development and Education, 27

    (2), 210–215.[陳平, 李珍, 辛濤, 高慧健. (2011). 標(biāo)準(zhǔn)參照測(cè)驗(yàn)決策一致性指標(biāo)研究的總結(jié)與展望.

    心理發(fā)展與教育, 27

    (2),210–215.]Cheng, Y., Liu, C., & Behrens, J. (2015). Standard error of ability estimates and the classification accuracy and consistency of binary decisions.

    Psychometrika, 8 0

    (3),645–664.Chester, M. D. (2003). Multiple measures and high-stakes decisions: A framework for combining measures.

    Educational Measurement: Issues and Practice, 22

    (2), 32–41.Dai, H. Q. (2010).

    Psychometrics

    . Beijing, China: Higher Education Press.[戴海琦. (2010).

    心理測(cè)量學(xué)

    . 北京: 高等教育出版社.]Du, W. J., & Xiao, H. M. (2012). Multidimensional grade response model.

    Acta Psychologica Sinica, 44

    (10), 1402–1407.[杜文久, 肖涵敏. (2012). 多維項(xiàng)目反應(yīng)理論等級(jí)反應(yīng)模型.

    心理學(xué)報(bào), 44

    (10), 1402–1407.]Debeer, D., Buchholz, J., Hartig, J., & Janssen, R. (2014).Student, school, and country differences in sustained test-taking effort in the 2009 PISA reading assessment.

    Journal of Ed ucational and Be havioral Statistics, 39

    (6),502–523.Douglas, K. M., & Mislevy, R. J. (2010). Estimating classification accuracy for complex decision rules based on multiple scores.

    Journal o f E ducational an d B ehavioral Statistics, 35

    (3), 280–306.

    Duncan, A. (2009, June 14). Address by the secretary of education at the 2009 governors education symposium:States will lead the way towards reform. Washington, DC:U.S. Department of Education. Retrieved May 10, 2016,from http://www2.ed.gov/news/speeches/2009/06/06142009.pdf

    Gan, L. M., & Yu, J. Y. (2006). The study of criterion referenced test's score system.

    Psychological Exploration,26

    (3), 79–83.[甘良梅, 余嘉元. (2006). 標(biāo)準(zhǔn)參照測(cè)驗(yàn)分?jǐn)?shù)體系的探討研究.

    心理學(xué)探新, 26

    (3), 79–83.]Grima, A., & Yao, L. H. (2011).

    Classification consistency and accuracy fo r test of mix ed item ty pes: U nidimensional versus multidimensional IRT procedures

    . Paper presented at the annual meeting of National Council on Measurement in Education, New Orleans, LA.Guo, F. M. (2006). Expected classification accuracy using the latent distribution.

    Practical A ssessment, Res earch &Evaluation, 11

    (6), 1–6.Henderson-Montero, D., Julian, M. W., & Yen, W. M. (2003).Multiple measures: alternative design and analysis models.

    Educational Measurement: Is sues a nd Pr actice, 22

    (2),7–12.Kang, C. H., & Xin, T. (2010). New development in test theory:Multidimensional item response theory.

    Advances i n Psychological Science, 18

    (3), 530–536[康春花, 辛濤. (2010). 測(cè)驗(yàn)理論的新發(fā)展: 多維項(xiàng)目反應(yīng)理論.

    心理科學(xué)進(jìn)展, 18

    (3), 530–536.]Kroehne, U., Goldhammer, F., & Partchev, I. (2014).Constrained multidimensional adaptive testing without intermixing items from different dimensions.

    Psychological Test and Assessment Modeling, 56

    (4), 348–367.LaFond, L. J. (2014).

    Decision co nsistency and ac curacy indices for the bifactor and testlet response theory models

    (Unpublished doctorial dissertation). University of Iowa.Lathrop, Q. N., & Cheng, Y. (2013). Two approaches to estimation of classification accuracy rate under item response theory.

    Applied Ps ychological M easurement,37

    (3), 226–241.Lathrop, Q. N., & Cheng, Y. (2014). A nonparametric approach to estimate classification accuracy and consistency.

    Journal of Educational Measurement, 51

    (3), 318–334.Lee, W. C. (2010). Classification consistency and accuracy for complex assessments using item response theory.

    Journal of Educational Measurement, 47

    (1), 1–17.Lee, W. C., Brennan, R. L., & Wan, L. (2009). Classification consistency and accuracy for complex assessments under the compound multinomial model.

    Applied Psy chological Measurement, 33

    (5), 374–390.Liu, H. Y., Luo, F., Wang, Y., & Zhang, Y. (2012). Item parameter estimation for multidimensional measurement:Comparisons of SEM and MIRT based methods.

    Acta Psychologica Sinica, 44

    (1), 121–132.[劉紅云, 駱方, 王玥, 張玉. (2012). 多維測(cè)驗(yàn)項(xiàng)目參數(shù)的估計(jì): 基于SEM與MIRT方法的比較.

    心理學(xué)報(bào), 44

    (11),121–132.]Makransky, G., Mortensen, E. L., & Glas, C. A. W. (2013).Improving personality facet scores with multidimensional computer adaptive testing: An illustration with the Neo Pi-R.

    Assessment, 20

    (1), 3–13.Mao, X. Z., & Xin, T. (2015). Multidimensional computerized adaptive testing: Model, techniques and methods.

    Advances in Psychological Science, 23

    (5), 907–918.[毛秀珍, 辛濤. (2015). 多維計(jì)算機(jī)化自適應(yīng)測(cè)驗(yàn): 模型、技術(shù)和方法.

    心理科學(xué)進(jìn)展, 23

    (5), 907–918.]McBee, M. T., Peters, S. J., & Waterman, C. (2014).Combining scores in multiple-criteria assessment systems:The impact of combination rule.

    Gifted Ch ild Q uarterly,58

    (1), 69–89.Reckase, M. D. (2009).

    Multidimensional item response theory

    .New York: Springer.Rijmen, F., Jeon, M., von Davier, M., & Rabe-Hesketh, S.(2014). A third-order item response theory model for modeling the effects of domains and subdomains in large-scale educational assessment surveys.

    Journal o f Educational and Behavioral Statistics, 39

    (4), 235–256.Rudner, L. M. (2005). Expected classification accuracy.

    Practical Assessment, Research & Evaluation, 10

    (13), 1–4.Tu, D. B., Cai, Y., Dai, H. Q., & Ding, S. L. (2011).Parameters estimation of MIRT model and its application in psychological tests.

    Acta Ps ychologica Si nica, 43

    (11),1329–1340.[涂冬波, 蔡艷, 戴海琦, 丁樹良. (2011). 多維項(xiàng)目反應(yīng)理論:參數(shù)估計(jì)及其在心理測(cè)驗(yàn)中的應(yīng)用.

    心理學(xué)報(bào), 43

    (11),1329–1340.]Wang, C. (2015). On latent trait estimation in multidimensional compensatory item response models.

    Psychometrika, 80

    (2),428–449.Wyse, A. E., & Hao, S. Q. (2012). An evaluation of item response theory classification accuracy and consistency indices.

    Applied Psychological Measurement, 36

    (7), 602–624.Xin, T., Li, M., & Ren, X. Q. (2015).

    Reporting and using the results of national assessment of education quality

    . Beijing,China: Beijing Normal University Publishing Group.[辛濤, 李勉, 任曉瓊. (2015).

    基礎(chǔ)教育質(zhì)量監(jiān)測(cè)報(bào)告撰寫與結(jié)果應(yīng)用

    . 北京: 北京師范大學(xué)出版集團(tuán).]Xin, T., & Xie, M. (2010). Group-level domain score and its estimation methods.

    Psychological D evelopment and Education, 26

    (4), 416–422.[辛濤, 謝敏. (2010). 群體水平領(lǐng)域分?jǐn)?shù)及其估計(jì)方法.

    心理發(fā)展與教育, 26

    (4), 416–422.]Xu, Z. Y., Ding, S. L., & Zhong, J. (2013). The analysis and application of MIRT in mathematics paper in college entrance examination.

    Psychological Ex ploration, 33

    (5),438–443.[許志勇, 丁樹良, 鐘君. (2013). 高考數(shù)學(xué)試卷多維項(xiàng)目反應(yīng)理論的分析及應(yīng)用.

    心理學(xué)探新, 33

    (5), 438– 443.]Xu, W. N., Wang, P. X., Han, P., Yan, T. L., & Zhang, S. Y.(2011). Application of Kappa coefficient to accuracy assessments of drought forecasting model: A case study of guanzhong plain.

    Journal of Natural Disasters, 20

    (6), 81–86.[許文寧, 王鵬新, 韓萍, 嚴(yán)泰來, 張樹譽(yù). (2011). Kappa系數(shù)在干旱預(yù)測(cè)模型精度評(píng)價(jià)中的應(yīng)用——以關(guān)中平原的干旱預(yù)測(cè)為例.

    自然災(zāi)害學(xué)報(bào), 20

    (6), 81–86.]Yao, L. H. (2010). Reporting valid and reliable overall scores and domain scores.

    Journal of Educational Measurement,47

    (3), 339–360.Yao, L. H. (2012). Multidimensional CAT item selection methods for domain scores and composite scores: Theory and applications.

    Psychometrika, 77

    (3), 495–523.

    Yao, L. H. (2016). The BMIRT toolkit. Retrieved August 8,2016, from http://www.bmirt.com/media/f5abb5352d553d5fffff807cffff d524.pdf

    Yao, L. H., & Boughton, K. A. (2007). A multidimensional item response modeling approach for improving subscale proficiency estimation and classification.

    Applied Psychological Measurement, 31

    (2), 83–105.Zhan, P. D., Wang, W. C., Wang, L. J., & Li, X. M. (2014).The multidimensional testlet-effect Rasch model.

    Acta Psychologica Sinica, 46

    (8), 1208–1222.[詹沛達(dá), 王文中, 王立君, 李曉敏. (2014). 多維題組效應(yīng)Rasch模型.

    心理學(xué)報(bào), 46

    (8), 1208–1222.]Zhang, J. M. (2012). Calibration of response data using MIRT models with simple and mixed structures.

    Applied Psychological Measurement, 36

    (5), 375–398.

    猜你喜歡
    測(cè)驗(yàn)準(zhǔn)確性一致性
    關(guān)注減污降碳協(xié)同的一致性和整體性
    公民與法治(2022年5期)2022-07-29 00:47:28
    注重教、學(xué)、評(píng)一致性 提高一輪復(fù)習(xí)效率
    IOl-master 700和Pentacam測(cè)量Kappa角一致性分析
    淺談如何提高建筑安裝工程預(yù)算的準(zhǔn)確性
    《新年大測(cè)驗(yàn)》大揭榜
    趣味(語文)(2018年7期)2018-06-26 08:13:48
    兩個(gè)處理t測(cè)驗(yàn)與F測(cè)驗(yàn)的數(shù)學(xué)關(guān)系
    考試周刊(2016年88期)2016-11-24 13:30:50
    美劇翻譯中的“神翻譯”:準(zhǔn)確性和趣味性的平衡
    論股票價(jià)格準(zhǔn)確性的社會(huì)效益
    基于事件觸發(fā)的多智能體輸入飽和一致性控制
    你知道嗎?
    久久草成人影院| 欧美bdsm另类| 国产亚洲精品久久久久久毛片| 欧美三级亚洲精品| 熟女电影av网| 又粗又爽又猛毛片免费看| 亚洲av中文av极速乱| 不卡一级毛片| 久久99蜜桃精品久久| 成人三级黄色视频| 自拍偷自拍亚洲精品老妇| 国产亚洲5aaaaa淫片| 亚洲成人中文字幕在线播放| 国产精品免费一区二区三区在线| 国产精品免费一区二区三区在线| 有码 亚洲区| 国产一区二区激情短视频| 亚洲内射少妇av| 久久久精品欧美日韩精品| 少妇裸体淫交视频免费看高清| 我要搜黄色片| 18禁在线播放成人免费| 男女边吃奶边做爰视频| 日本免费a在线| а√天堂www在线а√下载| 亚洲欧美日韩卡通动漫| 亚洲无线在线观看| 成年女人永久免费观看视频| 国产黄色小视频在线观看| 99国产精品一区二区蜜桃av| 国产精品久久久久久av不卡| 99国产精品一区二区蜜桃av| 日韩中字成人| 不卡一级毛片| 啦啦啦啦在线视频资源| 一区二区三区免费毛片| 好男人在线观看高清免费视频| 人妻少妇偷人精品九色| 麻豆av噜噜一区二区三区| 国产乱人偷精品视频| 天天一区二区日本电影三级| 亚洲成人精品中文字幕电影| 成人午夜高清在线视频| 嘟嘟电影网在线观看| 欧美日韩国产亚洲二区| av免费观看日本| 一级毛片久久久久久久久女| 嘟嘟电影网在线观看| 内射极品少妇av片p| 2021天堂中文幕一二区在线观| 成人漫画全彩无遮挡| 久久精品夜色国产| av在线亚洲专区| 波多野结衣高清无吗| 亚洲无线在线观看| 晚上一个人看的免费电影| 搞女人的毛片| 日韩中字成人| 午夜福利视频1000在线观看| 成人美女网站在线观看视频| 亚洲精品日韩在线中文字幕 | 午夜激情欧美在线| 亚洲无线观看免费| 26uuu在线亚洲综合色| а√天堂www在线а√下载| 中出人妻视频一区二区| 夫妻性生交免费视频一级片| 91麻豆精品激情在线观看国产| 国模一区二区三区四区视频| 一本精品99久久精品77| 两个人的视频大全免费| a级毛片免费高清观看在线播放| 可以在线观看的亚洲视频| 国产av麻豆久久久久久久| 天天躁夜夜躁狠狠久久av| 男女边吃奶边做爰视频| 蜜桃亚洲精品一区二区三区| 亚洲经典国产精华液单| 国产成年人精品一区二区| 男插女下体视频免费在线播放| 丝袜喷水一区| 国产极品精品免费视频能看的| 99热只有精品国产| 国产美女午夜福利| 日韩成人伦理影院| 2022亚洲国产成人精品| 女人十人毛片免费观看3o分钟| 麻豆精品久久久久久蜜桃| 欧美极品一区二区三区四区| 亚洲人成网站在线播放欧美日韩| 精品人妻视频免费看| 国产一区二区亚洲精品在线观看| 国产一级毛片在线| 人体艺术视频欧美日本| 男女边吃奶边做爰视频| 亚洲一区高清亚洲精品| 变态另类成人亚洲欧美熟女| 床上黄色一级片| 成人av在线播放网站| 日韩一区二区视频免费看| 大型黄色视频在线免费观看| 午夜亚洲福利在线播放| 久久精品国产99精品国产亚洲性色| 91狼人影院| 国产 一区精品| 久久6这里有精品| 久久久久久久久久久丰满| 欧美区成人在线视频| 国产精品国产三级国产av玫瑰| 久久九九热精品免费| 中文在线观看免费www的网站| 中文亚洲av片在线观看爽| 亚洲一级一片aⅴ在线观看| 亚洲四区av| 青春草视频在线免费观看| ponron亚洲| 亚洲无线在线观看| 亚洲图色成人| 国内少妇人妻偷人精品xxx网站| 日韩强制内射视频| 免费黄网站久久成人精品| 在线a可以看的网站| 一本—道久久a久久精品蜜桃钙片 精品乱码久久久久久99久播 | 国产免费男女视频| 91麻豆精品激情在线观看国产| 老司机影院成人| 午夜免费男女啪啪视频观看| 一区福利在线观看| 亚洲va在线va天堂va国产| 免费人成在线观看视频色| 久久99精品国语久久久| 一级毛片我不卡| 日韩视频在线欧美| 欧美bdsm另类| 毛片女人毛片| 亚洲欧美成人精品一区二区| 久久婷婷人人爽人人干人人爱| 一本久久中文字幕| 欧美+日韩+精品| 亚洲欧洲国产日韩| 久久九九热精品免费| 午夜免费男女啪啪视频观看| 亚洲av.av天堂| av女优亚洲男人天堂| 日韩在线高清观看一区二区三区| 午夜a级毛片| 午夜老司机福利剧场| 精品久久久噜噜| 日本五十路高清| 69av精品久久久久久| 一本精品99久久精品77| 亚洲欧美日韩无卡精品| 99久国产av精品国产电影| 波多野结衣巨乳人妻| 亚洲欧美日韩无卡精品| 日本欧美国产在线视频| 亚洲国产日韩欧美精品在线观看| 亚洲av男天堂| 青春草国产在线视频 | 黄色视频,在线免费观看| 国产精品蜜桃在线观看 | 精品免费久久久久久久清纯| 亚洲国产精品久久男人天堂| 亚洲精品亚洲一区二区| 卡戴珊不雅视频在线播放| 乱码一卡2卡4卡精品| 男的添女的下面高潮视频| 激情 狠狠 欧美| 亚洲不卡免费看| 悠悠久久av| 午夜福利高清视频| 美女内射精品一级片tv| 中国美白少妇内射xxxbb| 男女做爰动态图高潮gif福利片| 精品久久久久久久末码| 亚洲精华国产精华液的使用体验 | 久久久a久久爽久久v久久| 亚洲激情五月婷婷啪啪| 欧美xxxx黑人xx丫x性爽| 国产伦精品一区二区三区四那| 欧美日韩在线观看h| 国产精品久久视频播放| 国产亚洲精品av在线| 国产高清激情床上av| 1024手机看黄色片| 亚洲色图av天堂| 亚洲熟妇中文字幕五十中出| 午夜精品国产一区二区电影 | 美女内射精品一级片tv| 伦精品一区二区三区| 高清日韩中文字幕在线| 又爽又黄无遮挡网站| 99视频精品全部免费 在线| 日韩强制内射视频| 精品久久久噜噜| 亚洲精品日韩av片在线观看| 欧美xxxx性猛交bbbb| 亚洲国产精品合色在线| 欧美精品国产亚洲| 内地一区二区视频在线| 精品人妻偷拍中文字幕| 国产成人影院久久av| 中国美白少妇内射xxxbb| 久久精品国产清高在天天线| 一级av片app| 天堂中文最新版在线下载 | 青春草视频在线免费观看| 免费观看a级毛片全部| 日本一二三区视频观看| 欧美激情国产日韩精品一区| 久久久久久久午夜电影| 国产又黄又爽又无遮挡在线| 日本与韩国留学比较| 一边摸一边抽搐一进一小说| 看免费成人av毛片| 青春草亚洲视频在线观看| 99久久人妻综合| 日韩av不卡免费在线播放| 天天躁日日操中文字幕| 国产成人一区二区在线| 国产男人的电影天堂91| 直男gayav资源| 国产乱人视频| 春色校园在线视频观看| 亚洲国产精品合色在线| 美女xxoo啪啪120秒动态图| 级片在线观看| 日韩精品有码人妻一区| a级毛色黄片| 国产高清不卡午夜福利| 日本av手机在线免费观看| 99热这里只有是精品50| 国产伦精品一区二区三区视频9| 乱系列少妇在线播放| 人人妻人人澡人人爽人人夜夜 | 日本五十路高清| 美女cb高潮喷水在线观看| 精品少妇黑人巨大在线播放 | 日韩 亚洲 欧美在线| 人人妻人人澡人人爽人人夜夜 | 亚洲乱码一区二区免费版| 在线观看午夜福利视频| 99久久九九国产精品国产免费| 久久久久久久午夜电影| 青春草视频在线免费观看| 久久亚洲精品不卡| 女的被弄到高潮叫床怎么办| 此物有八面人人有两片| 老司机影院成人| 三级经典国产精品| 欧美日韩乱码在线| 国产在线男女| av又黄又爽大尺度在线免费看 | 大又大粗又爽又黄少妇毛片口| 亚洲精品日韩av片在线观看| a级毛色黄片| 麻豆久久精品国产亚洲av| 久久韩国三级中文字幕| 伊人久久精品亚洲午夜| 欧美一区二区亚洲| 午夜视频国产福利| 国产男人的电影天堂91| 久久人妻av系列| 少妇被粗大猛烈的视频| 国产单亲对白刺激| 国产乱人视频| 成人av在线播放网站| 在线a可以看的网站| 天美传媒精品一区二区| 看片在线看免费视频| 久久99热这里只有精品18| 少妇熟女欧美另类| 亚洲激情五月婷婷啪啪| 可以在线观看的亚洲视频| 国产熟女欧美一区二区| av卡一久久| 在线播放无遮挡| 黑人高潮一二区| 成人亚洲精品av一区二区| 欧美+亚洲+日韩+国产| 国产亚洲精品久久久com| 少妇熟女aⅴ在线视频| 国产一区二区亚洲精品在线观看| 大又大粗又爽又黄少妇毛片口| 久久精品国产亚洲av香蕉五月| 欧美xxxx性猛交bbbb| 亚洲第一区二区三区不卡| 欧美激情在线99| 人人妻人人看人人澡| 一本—道久久a久久精品蜜桃钙片 精品乱码久久久久久99久播 | 欧美一级a爱片免费观看看| 18禁黄网站禁片免费观看直播| 六月丁香七月| 色综合色国产| 综合色av麻豆| 美女被艹到高潮喷水动态| 国产高清激情床上av| 非洲黑人性xxxx精品又粗又长| 国产高清不卡午夜福利| 亚洲av第一区精品v没综合| 日韩视频在线欧美| 91麻豆精品激情在线观看国产| 日本黄色片子视频| 又粗又爽又猛毛片免费看| 最后的刺客免费高清国语| 日韩成人伦理影院| 国国产精品蜜臀av免费| av在线老鸭窝| 精品国产三级普通话版| 美女高潮的动态| 12—13女人毛片做爰片一| 欧美激情在线99| 久久久欧美国产精品| 一区福利在线观看| 久久精品国产99精品国产亚洲性色| 国产免费一级a男人的天堂| 亚洲av熟女| 欧美日本视频| 亚洲精品粉嫩美女一区| 国产大屁股一区二区在线视频| 国产亚洲5aaaaa淫片| 18禁裸乳无遮挡免费网站照片| av在线亚洲专区| 99在线人妻在线中文字幕| 女人十人毛片免费观看3o分钟| 99热这里只有是精品50| 免费av毛片视频| 女人被狂操c到高潮| 欧美一区二区精品小视频在线| 在线观看午夜福利视频| av天堂中文字幕网| 一区二区三区四区激情视频 | 久久久久久大精品| 久久久精品大字幕| 我的女老师完整版在线观看| 亚洲精品乱码久久久v下载方式| 蜜臀久久99精品久久宅男| 禁无遮挡网站| 成年版毛片免费区| av在线播放精品| 国产在线男女| 精品久久国产蜜桃| 久久久久久久亚洲中文字幕| 免费av毛片视频| 亚洲精品456在线播放app| 男的添女的下面高潮视频| 性插视频无遮挡在线免费观看| 看片在线看免费视频| 亚洲av成人av| 一本精品99久久精品77| 日韩欧美一区二区三区在线观看| 女的被弄到高潮叫床怎么办| 日韩欧美精品v在线| 国产黄色视频一区二区在线观看 | av天堂在线播放| 在现免费观看毛片| 免费观看在线日韩| 高清毛片免费观看视频网站| 在线观看66精品国产| 日本免费a在线| 午夜视频国产福利| 狂野欧美激情性xxxx在线观看| 久久这里有精品视频免费| 国产成人精品婷婷| 欧美最黄视频在线播放免费| 亚洲国产欧美在线一区| 久久久精品大字幕| 亚洲国产欧美人成| 中文资源天堂在线| 综合色丁香网| 亚洲欧美日韩东京热| 观看美女的网站| 日日摸夜夜添夜夜添av毛片| 搡老妇女老女人老熟妇| 九草在线视频观看| videossex国产| 女同久久另类99精品国产91| 春色校园在线视频观看| 99久久久亚洲精品蜜臀av| 99久国产av精品国产电影| 亚洲电影在线观看av| 国产精品一及| 高清在线视频一区二区三区 | 国产一区二区亚洲精品在线观看| 国产精品人妻久久久久久| 最近视频中文字幕2019在线8| 少妇的逼水好多| or卡值多少钱| 亚洲精华国产精华液的使用体验 | av福利片在线观看| 国产亚洲av嫩草精品影院| 日本黄大片高清| 精品欧美国产一区二区三| 日韩中字成人| 九九爱精品视频在线观看| 国产蜜桃级精品一区二区三区| 日本在线视频免费播放| 国产成年人精品一区二区| 啦啦啦观看免费观看视频高清| АⅤ资源中文在线天堂| 麻豆一二三区av精品| 国国产精品蜜臀av免费| 亚洲性久久影院| 天美传媒精品一区二区| 人人妻人人澡人人爽人人夜夜 | 黑人高潮一二区| 青春草视频在线免费观看| 国产一区二区激情短视频| 久久久久久久久中文| 99九九线精品视频在线观看视频| 久久鲁丝午夜福利片| 69av精品久久久久久| av福利片在线观看| 亚洲欧美日韩高清专用| 久久欧美精品欧美久久欧美| 99久国产av精品| 搡女人真爽免费视频火全软件| 别揉我奶头 嗯啊视频| 免费电影在线观看免费观看| 啦啦啦韩国在线观看视频| 久久久久久久午夜电影| 亚洲在久久综合| 亚洲国产精品成人综合色| 欧美不卡视频在线免费观看| 国产精品久久久久久av不卡| 国产午夜福利久久久久久| 久久久久网色| 日韩精品青青久久久久久| 亚洲一区高清亚洲精品| 国产伦精品一区二区三区视频9| 国产亚洲av片在线观看秒播厂 | 国产精品一区二区性色av| 国产成人aa在线观看| 国产精品久久久久久亚洲av鲁大| 99久国产av精品| 国产蜜桃级精品一区二区三区| 亚洲人成网站高清观看| 综合色av麻豆| 国产精品国产高清国产av| 六月丁香七月| 悠悠久久av| 久久精品国产亚洲网站| avwww免费| av在线老鸭窝| or卡值多少钱| 国产精品.久久久| 禁无遮挡网站| 2022亚洲国产成人精品| 国产91av在线免费观看| 国产高清视频在线观看网站| 国产午夜精品一二区理论片| av视频在线观看入口| 波野结衣二区三区在线| 在现免费观看毛片| 自拍偷自拍亚洲精品老妇| 校园春色视频在线观看| 国产一区亚洲一区在线观看| 在线播放无遮挡| 亚洲在线观看片| 91久久精品电影网| 久久99热6这里只有精品| 最好的美女福利视频网| 欧美高清性xxxxhd video| 亚洲av免费在线观看| 亚洲av中文字字幕乱码综合| 两个人视频免费观看高清| 亚洲人成网站在线播放欧美日韩| 日韩 亚洲 欧美在线| 美女大奶头视频| 天堂影院成人在线观看| 国产一区二区在线av高清观看| 亚洲性久久影院| 天天躁日日操中文字幕| 边亲边吃奶的免费视频| 色视频www国产| 最新中文字幕久久久久| 免费观看精品视频网站| 日韩成人av中文字幕在线观看| h日本视频在线播放| 综合色丁香网| 一级黄色大片毛片| 简卡轻食公司| 国产一区二区三区av在线 | 国产一区二区在线av高清观看| 91狼人影院| 亚洲婷婷狠狠爱综合网| 边亲边吃奶的免费视频| 国产精品久久久久久久久免| 国产精品一及| 亚洲成av人片在线播放无| 久久韩国三级中文字幕| 国产高潮美女av| 99热这里只有是精品在线观看| 色噜噜av男人的天堂激情| 国产成人a区在线观看| 欧美性猛交黑人性爽| 伊人久久精品亚洲午夜| 久久九九热精品免费| 只有这里有精品99| 久久精品国产亚洲av天美| 国产黄a三级三级三级人| 国产伦理片在线播放av一区 | 少妇熟女aⅴ在线视频| 禁无遮挡网站| 91aial.com中文字幕在线观看| 尤物成人国产欧美一区二区三区| 久久久精品94久久精品| 国产精品国产高清国产av| 一本一本综合久久| 免费观看a级毛片全部| 又黄又爽又刺激的免费视频.| 久久久久久大精品| .国产精品久久| 最近2019中文字幕mv第一页| eeuss影院久久| 99热这里只有是精品50| 午夜亚洲福利在线播放| 国产成人精品久久久久久| 日韩一区二区三区影片| 菩萨蛮人人尽说江南好唐韦庄 | 伊人久久精品亚洲午夜| 一本一本综合久久| 精华霜和精华液先用哪个| 久久久a久久爽久久v久久| 国产精品精品国产色婷婷| 波野结衣二区三区在线| 中文字幕精品亚洲无线码一区| 久久这里只有精品中国| 一级毛片aaaaaa免费看小| 日本爱情动作片www.在线观看| 日本熟妇午夜| 国产高清有码在线观看视频| 白带黄色成豆腐渣| 少妇猛男粗大的猛烈进出视频 | 欧美性感艳星| 欧美一区二区精品小视频在线| 超碰av人人做人人爽久久| 日韩成人av中文字幕在线观看| 中文在线观看免费www的网站| 成人毛片60女人毛片免费| 亚洲aⅴ乱码一区二区在线播放| 日韩成人伦理影院| 色哟哟·www| 精品99又大又爽又粗少妇毛片| 亚洲精品久久久久久婷婷小说 | 日本五十路高清| 一级毛片我不卡| 九草在线视频观看| 日韩成人av中文字幕在线观看| 97超碰精品成人国产| 国产一区二区激情短视频| 国产精品麻豆人妻色哟哟久久 | 亚洲久久久久久中文字幕| 99国产极品粉嫩在线观看| 亚洲国产精品成人久久小说 | 亚洲av第一区精品v没综合| 国产激情偷乱视频一区二区| 日韩制服骚丝袜av| 干丝袜人妻中文字幕| 男人舔奶头视频| 99在线视频只有这里精品首页| 变态另类成人亚洲欧美熟女| 免费观看人在逋| 久久久精品大字幕| 国产精品,欧美在线| 免费黄网站久久成人精品| 欧美又色又爽又黄视频| 18禁裸乳无遮挡免费网站照片| 免费无遮挡裸体视频| 久久综合国产亚洲精品| 国产精品电影一区二区三区| 久久精品国产清高在天天线| 亚洲国产精品久久男人天堂| 久久国产乱子免费精品| 干丝袜人妻中文字幕| 国内少妇人妻偷人精品xxx网站| 亚洲国产色片| 国内精品美女久久久久久| 禁无遮挡网站| 亚洲第一区二区三区不卡| 日本一二三区视频观看| 亚洲色图av天堂| 最近视频中文字幕2019在线8| 国产乱人偷精品视频| 只有这里有精品99| 亚洲精品久久国产高清桃花| 色5月婷婷丁香| 久久久久久久久久黄片| 午夜福利成人在线免费观看| ponron亚洲| 美女cb高潮喷水在线观看| 亚洲最大成人中文| 久久人人爽人人爽人人片va| 欧美极品一区二区三区四区| 村上凉子中文字幕在线| 亚洲欧美中文字幕日韩二区| 久久鲁丝午夜福利片| 淫秽高清视频在线观看| 国产乱人偷精品视频| 国产午夜精品久久久久久一区二区三区| 亚洲欧美日韩高清专用| 一个人看的www免费观看视频| 久久久久久国产a免费观看| 老师上课跳d突然被开到最大视频| 黄片无遮挡物在线观看| 熟女人妻精品中文字幕| 夜夜看夜夜爽夜夜摸| 日日干狠狠操夜夜爽| 国产午夜精品论理片| 国产成人精品婷婷| 中文在线观看免费www的网站| www日本黄色视频网| 在线免费观看不下载黄p国产| 国产高清不卡午夜福利| 女人十人毛片免费观看3o分钟|