• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    多維計(jì)算機(jī)化自適應(yīng)測(cè)驗(yàn):模型、技術(shù)和方法*

    2015-02-01 03:47:54毛秀珍
    心理科學(xué)進(jìn)展 2015年5期
    關(guān)鍵詞:題庫(kù)測(cè)驗(yàn)選題

    毛秀珍 辛 濤

    (1四川師范大學(xué)教育科學(xué)學(xué)院, 成都 610066) (2北京師范大學(xué)發(fā)展心理研究所, 北京 100875)

    1 引言

    多維項(xiàng)目反應(yīng)理論(multidimensional item response theory, MIRT)引入多維能力、多維項(xiàng)目區(qū)分度以及多個(gè)步驟難度參數(shù)模擬測(cè)驗(yàn)項(xiàng)目和被試間的相互作用, 采用概率模型來(lái)表征具有特定多維能力水平的被試正確答對(duì)特定項(xiàng)目的概率(Reckase, 2009)。一方面, MIRT能同時(shí)估計(jì)被試在測(cè)驗(yàn)每個(gè)維度上的能力水平, 實(shí)現(xiàn)測(cè)驗(yàn)的認(rèn)知診斷功能(Zhang & Stone, 2008)。于是, MIRT的應(yīng)用順應(yīng)了從 2001年美國(guó)法案“No Child Left Behind” (NCLB)到 2011“Race to the top”早期學(xué)習(xí)挑戰(zhàn)經(jīng)費(fèi)的設(shè)立, 再到我國(guó)《國(guó)家中長(zhǎng)期教育改革和發(fā)展規(guī)劃綱要(2010?2020)年》對(duì)教育認(rèn)知診斷功能的要求。另一方面, MIRT比項(xiàng)目反應(yīng)理論(item response theory, IRT)更適用于分析許多新形式的測(cè)驗(yàn)如認(rèn)知診斷測(cè)驗(yàn)、公務(wù)員考試、表現(xiàn)性評(píng)估以及寫作測(cè)驗(yàn)的項(xiàng)目和被試特征(van der Linden & Hambleton, 1997)。例如, Yao和Schwarz(2006)運(yùn)用 MIRT分析五年級(jí)學(xué)生寫作測(cè)驗(yàn)的二維結(jié)構(gòu)和項(xiàng)目特征; 涂冬波、蔡艷、戴海琦和丁樹(shù)良(2011)運(yùn)用 MIRT獲得瑞文高級(jí)推理測(cè)驗(yàn)的項(xiàng)目參數(shù)和被試的能力水平; 張軍(2011)運(yùn)用MIRT分析漢語(yǔ)水平考試(HSK)閱讀部分的潛在多維度結(jié)構(gòu); 許志勇、丁樹(shù)良和鐘君(2013)應(yīng)用MIRT分析2010年某省市高考數(shù)學(xué)理工試卷考查的五個(gè)能力維度, 并獲得各維度之間的相關(guān)系數(shù)和考生的多維能力水平。由此可見(jiàn), MIRT具有廣闊的應(yīng)用前景,是現(xiàn)代心理測(cè)量學(xué)的重點(diǎn)研究方向。

    計(jì)算機(jī)化自適應(yīng)測(cè)驗(yàn)(computerized adaptive testing, CAT)的核心是基于被試在已作答項(xiàng)目上的反應(yīng)估計(jì)其能力水平, 然后根據(jù)選題策略從剩余題庫(kù)中選擇最適合被試作答的項(xiàng)目施測(cè)被試,重復(fù)上述步驟直到測(cè)驗(yàn)結(jié)束。它包括采用的項(xiàng)目反應(yīng)模型、題庫(kù)、初始項(xiàng)目的選擇、選題策略、能力估計(jì)方法和測(cè)驗(yàn)終止規(guī)則幾個(gè)部分。根據(jù)CAT采用的測(cè)量模型, 可將其劃分為基于IRT的單維CAT (unidimensional CAT, UCAT); 基于MIRT的多維 CAT (multidimensional CAT, MCAT)以及以認(rèn)知診斷理論為基礎(chǔ)的認(rèn)知診斷 CAT (cognitive diagnostic CAT, CD-CAT)。

    MCAT與UCAT相比, 除了能同時(shí)分析被試在測(cè)驗(yàn)每個(gè)維度上的表現(xiàn)獲得更多診斷信息外,它還具有如下優(yōu)點(diǎn)。第一, Segall (1996)和Luecht(1996)研究表明, 在達(dá)到相同甚至更高測(cè)量精度時(shí), MCAT需要的項(xiàng)目比UCAT少1/3左右。第二,Frey和Seitz (2011)指出只有MCAT可用于多維測(cè)驗(yàn), UCAT不能用于這類測(cè)驗(yàn)。第三, MCAT不需要內(nèi)容平衡策略就能自動(dòng)滿足各個(gè)內(nèi)容領(lǐng)域的測(cè)量要求(Wang, Chang, & Boughton, 2011)。另外,雖然 MCAT提供的診斷信息不及 CD-CAT豐富,但它與CD-CAT相比具有以下特點(diǎn)。第一, MCAT有成熟的、可適用于二級(jí)和多級(jí)評(píng)分項(xiàng)目的反應(yīng)模型(Reckase, 2009), CD-CAT還將在一定時(shí)期內(nèi)受到多級(jí)評(píng)分項(xiàng)目認(rèn)知診斷模型研究的限制而局限于二級(jí)評(píng)分項(xiàng)目的研究。第二, MCAT根據(jù)數(shù)據(jù)與模型的擬合度分析測(cè)驗(yàn)維度, 而不需要分析表征項(xiàng)目與屬性間關(guān)系的Q矩陣(這正是認(rèn)知診斷評(píng)估的難點(diǎn)之一)。第三, MCAT中每個(gè)維度涵蓋的內(nèi)容通常比CD-CAT中屬性包含的內(nèi)容更多。一般地, 測(cè)驗(yàn)考查的屬性越多, CD-CAT的測(cè)量準(zhǔn)確性越低。因此, MCAT適用范圍比CD-CAT更廣。

    MCAT兼具M(jìn)IRT和CAT的優(yōu)點(diǎn), 其在實(shí)踐中突顯了測(cè)驗(yàn)的高效、快捷和診斷功能, 必將成為研究者關(guān)注的重點(diǎn)內(nèi)容之一。自Bloxom和Vale(1987)將UCAT推廣到多維以來(lái), MCAT的相關(guān)研究在最近幾年才有了突破性進(jìn)展。下面分別對(duì)MCAT的模型基礎(chǔ)、能力估計(jì)方法、選題策略和終止規(guī)則進(jìn)行介紹和評(píng)價(jià), 然后對(duì)今后的研究方向提出幾點(diǎn)思考和建議。

    2 MCA T的模型基礎(chǔ)

    測(cè)量模型貫穿CAT的始終, 決定分?jǐn)?shù)報(bào)告的形式也是影響測(cè)評(píng)結(jié)果準(zhǔn)確性和有效性的重要因素之一。根據(jù)項(xiàng)目記分方式可將多維項(xiàng)目反應(yīng)模型(multidimensional item response model, MIRM)劃分為二級(jí)評(píng)分項(xiàng)目反應(yīng)模型和多級(jí)評(píng)分項(xiàng)目反應(yīng)模型; 按完成任務(wù)時(shí)某一能力維度上的不足是否可以被其它優(yōu)勢(shì)能力所補(bǔ)償可將MIRM分為補(bǔ)償和非補(bǔ)償模型。Bolt和Lall (2003)指出(1)非補(bǔ)償模型產(chǎn)生的數(shù)據(jù), 補(bǔ)償模型和非補(bǔ)償模型具有相似擬合度; (2)由補(bǔ)償模型產(chǎn)生的數(shù)據(jù), 非補(bǔ)償模型的擬合度不高。于是, 本文僅討論補(bǔ)償MIRM。

    2.1 二級(jí)評(píng)分項(xiàng)目的MIRM

    針對(duì)二級(jí)評(píng)分項(xiàng)目, 下面主要介紹 logistic MIRM 和正態(tài)肩形 MIRM。另外, 全文中同一字母的含義相同, 且僅在首次出現(xiàn)時(shí)給予說(shuō)明。

    2.1.1 logi stic MIRM

    假設(shè)測(cè)驗(yàn)考查M個(gè)能力維度。向量標(biāo)量和ci分別表示項(xiàng)目i的區(qū)分度、斜率(截距)參數(shù)以及猜測(cè)參數(shù), 且T表示轉(zhuǎn)置。那么, 能力為的被試p正確作答項(xiàng)目i的概率用三參數(shù) logistic MIRM(multidimensional extension of three-parameter logistic model, M3PL)表示如下(Reckase, 1985):

    此外, MIRT還定義原點(diǎn)到項(xiàng)目反應(yīng)曲面上點(diǎn)的連線中的最大斜率值為多維項(xiàng)目區(qū)分度(multidimensional discrimination, MDISC),用以評(píng)價(jià)項(xiàng)目的整體區(qū)分度; 原點(diǎn)到項(xiàng)目反應(yīng)曲面上點(diǎn)的連線中具有最大斜率的點(diǎn)之間的距離Bi表示多維項(xiàng)目難度(multidimensional difficulty,MDIFF), 且

    2.1.2 正態(tài)肩形MIRM

    正態(tài)肩形 MIRM 的一般形式是(Samejima,1974):

    2.2 多級(jí)評(píng)分項(xiàng)目的MIRM

    2.2.1 Rasc h模型的多維推廣

    將Rasch模型推廣到多維能力空間沒(méi)有l(wèi)ogistic模型的推廣那么容易。因?yàn)? 如果 M2PL中的各個(gè)分量等于 1, 則于是,除能力參數(shù)等于各個(gè)維度能力值之和外, 它和Rasch模型沒(méi)有任何區(qū)別。Adams, Wilson和Wang(1997)推廣了Adams和Wilson (1996)提出的廣義Rasch模型, 得到適用于二分和多分項(xiàng)目的多維廣義Rasch模型, 又稱為多維隨機(jī)系數(shù)多項(xiàng)logit模型(multidimensional random coefficient multinomial logit model, MRCMLM) (Wang, 2014b)。Kelderman和 Rijkes (1994)還給出另一個(gè)非常相似的多分Rasch MIRM。假設(shè)項(xiàng)目i的個(gè)反應(yīng)類別分別對(duì)應(yīng)的得分為0,1,..,Ki, 被試p在項(xiàng)目i上得k(0,1,...,Ki)分的概率用MRCMLM表示為:

    其中,M維列向量表示第i題第k+1個(gè)反應(yīng)類別上的計(jì)分向量, 它反映影響項(xiàng)目i得k分的能力維度; 列向量稱為第i題在第k+1個(gè)反應(yīng)類別的設(shè)計(jì)向量; 列向量表示試題參數(shù)向量。的行數(shù)與的行數(shù)相等, 等于所有項(xiàng)目的Ki之和。舉例來(lái)說(shuō), 若一份測(cè)驗(yàn)包含2個(gè)項(xiàng)目考查2個(gè)維度。其中, 第一題是二級(jí)計(jì)分項(xiàng)目, 考查第一個(gè)能力維度。第二題有三種反應(yīng)類別, 得1分受到第二個(gè)能力維度的影響, 于是得2分受到兩個(gè)能力維度的影響, 則因此,對(duì)第二個(gè)項(xiàng)目第2個(gè)反應(yīng)類別而言, 有通過(guò)(4)式即可求被試p在第2題得1分的概率。更多參數(shù)設(shè)置的例子請(qǐng)參見(jiàn)許志勇等(2013)。特別地, 對(duì)二分項(xiàng)目中k=0時(shí), (4)式分母對(duì)應(yīng)的指數(shù)部分等于1。于是,對(duì)二級(jí)評(píng)分項(xiàng)目的多維Rasch模型表示如下:

    2.2.2 多維分部評(píng)分模型(multidimensional partial credit model, MPCM)

    如果項(xiàng)目各個(gè)維度的區(qū)分度不相等, 被試p在項(xiàng)目i上得k(k=0,1,...,Ki)分的概率可用多維兩參數(shù)分部評(píng)分模型(multidimensional two parameter partial credit model, M-2PPC)計(jì)算(Yao & Schwarz,2006)。M-2PPC的模型表達(dá)式為:

    上式中δiu(u=0,1,...,Ki)表示得u分的閾值參數(shù), 且。此外, 他們還推導(dǎo)了M-2PPC模型中項(xiàng)目難度、區(qū)分度以及信息量的計(jì)算方法, 為該模型的廣泛應(yīng)用奠定了基礎(chǔ)。

    2.2.3 多維等級(jí)反應(yīng)模型(multidimensional grade d response model, MGRM)

    當(dāng)完成項(xiàng)目i需要多個(gè)步驟, 并且完成第k步需要完成前面k-1步時(shí), 一般用MGRM模擬正確作答概率。令得分大于等于分的概率為于是且那么被試恰好得k分的概率表示為:

    Muraki和 Carlson (1993)采用正態(tài)肩形模型得到其中標(biāo)量被定義為被試達(dá)到第k個(gè)等級(jí)的類別參數(shù), 它表示被試答對(duì)第k步的“難度參數(shù)”,等級(jí)越高, 其值越大, 且和只有從數(shù)據(jù)估計(jì)而得。為避免積分運(yùn)算的復(fù)雜性, 杜文久和肖涵敏(2012)用logistic函數(shù)表示得到 logistic形式的MGRM。他們還以二維 MGRM 為例分析其數(shù)學(xué)函數(shù)圖象和性質(zhì)并推導(dǎo)項(xiàng)目信息函數(shù)的計(jì)算。

    2.3 MIRM簡(jiǎn)評(píng)

    大部分 MIRM 直接從對(duì)應(yīng)項(xiàng)目反應(yīng)模型(item response model, IRM)推廣而得, 具有類似于IRM的特點(diǎn)。例如(5)式所示的二分MRCMLM模型中能力的充分統(tǒng)計(jì)量是對(duì)被試在每個(gè)項(xiàng)目i(i=1,2,...,L,L表示被試作答的所有項(xiàng)目數(shù))上的得分與向量之積求和, 即被試正確作答的項(xiàng)目i(i=1,2,...,L)的向量之和; 項(xiàng)目的參數(shù)的充分統(tǒng)計(jì)量是對(duì)所有被試在該項(xiàng)目上的得分與向量之積求和, 即正確作答該項(xiàng)目的被試人數(shù)乘以向量(Reckase, 2009)。又如 MGRM中步驟難度參數(shù)遞增, 而MPCM中步驟難度參數(shù)不一定遞增。再如, MGRM 中“難度參數(shù)”bi,k與GRM 中等級(jí)難度的意義一致。MIRM, 特別是多分MIRM描述實(shí)際數(shù)據(jù)潛在維度結(jié)構(gòu)的程度如何,MIRM 的項(xiàng)目統(tǒng)計(jì)特征、測(cè)驗(yàn)特征等都還有待深入研究。此外, 康春花和辛濤(2010)還強(qiáng)調(diào)今后需要開(kāi)發(fā)更多程序估計(jì)高維多級(jí)評(píng)分項(xiàng)目MIRM的模型參數(shù)。

    3 MCAT的能力估計(jì)方法

    Bloxom和 Vale (1987)將 Owen (1975)的序列更新程序推廣到 MCAT, 通過(guò)一系列正態(tài)逼近獲得能力的點(diǎn)估計(jì)。Tam (1992)針對(duì)二維正態(tài)肩形模型推導(dǎo)了迭代極大似然能力估計(jì)方法, Segall(1996)推導(dǎo)了 M3PL中能力的極大似然估計(jì)和貝葉斯估計(jì)算法, Yao (2014a)還給出M-2PPC的相應(yīng)算法。具體而言, 記包含已施測(cè)的k-1個(gè)項(xiàng)目, 項(xiàng)目反應(yīng)記為

    3.1 極大似然估計(jì)方法(maximum li kelihood estimation, MLE)

    一般采用 Newton-Raphson迭代算法求其近似解。令的第h次和h+1次逼近分別記為和為保證算法收斂, 實(shí)際采用如下 Newton-Raphson程序:

    3.2 貝葉斯估計(jì)方法

    貝葉斯能力估計(jì)方法通常指最大后驗(yàn)估計(jì)(maximum a posterior estimation, MAP)和期望后驗(yàn)估計(jì)(expected a posterior estimation, EAP)。前者求后驗(yàn)概率密度的最大值, 后者對(duì)其求期望。

    3.2.1 MAP

    基于貝葉斯定理, 令的先驗(yàn)密度服從均值為0μ, 協(xié)方差矩陣為Σ0的多變量正態(tài)分布。基于的邊際概率可得的后驗(yàn)密度為欲求等價(jià)于求下述非線性方程組的解。

    類似于 MLE方法, 實(shí)際上 Newton-Raphson迭代程序用代替(9)式中W的r行s列元素等于

    3.2.2 E AP

    EAP方法通過(guò)高斯-埃爾米特求積公式或Monte Carlo積分求能力維度l(l=1,2,…,M)的后驗(yàn)邊際期望估計(jì)值, 即進(jìn)而獲得

    3.3 能力估計(jì)方法簡(jiǎn)評(píng)

    上述方法具有以下特點(diǎn)。首先, MLE在測(cè)驗(yàn)之初對(duì)全部正確(錯(cuò)誤)回答項(xiàng)目的被試不能得到有限估計(jì)值, 但其估計(jì)偏差小于貝葉斯方法。其次, 貝葉斯方法中后驗(yàn)分布的返真性極大地受到先驗(yàn)分布的影響從而使其估計(jì)值往往趨于先驗(yàn)分布的均值, 但它們的估計(jì)均方根誤差小于MLE方法。再次, 與MAP方法相比, EAP方法的估計(jì)方差更小更穩(wěn)健, 但其計(jì)算量更大、計(jì)算時(shí)間更長(zhǎng)。一般地, 隨著測(cè)驗(yàn)項(xiàng)目的增多, MLE、EAP和MAP的估計(jì)值越來(lái)越接近(Reckase, 2009)。因此, 大部分研究都采用MLE或者M(jìn)AP方法。另外, van der Linden (1999)還推導(dǎo)估計(jì)線性組合能力的MLE方法, Wang (2014b)介紹了基于單維加權(quán)似然估計(jì)方法(Warm, 1989)推廣而得的多變量加權(quán)MLE方法。

    MCAT的測(cè)驗(yàn)條件通常比較復(fù)雜。它不僅需要考慮各個(gè)維度之間的相關(guān), 還需要考慮測(cè)驗(yàn)是項(xiàng)目間多維還是項(xiàng)目?jī)?nèi)多維。所謂項(xiàng)目間多維是指測(cè)驗(yàn)考查多種能力, 但是每個(gè)項(xiàng)目只考查一種能力; 項(xiàng)目?jī)?nèi)多維是指測(cè)驗(yàn)至少包含一個(gè)同時(shí)考查多種能力的項(xiàng)目。除此之外, 測(cè)驗(yàn)長(zhǎng)度、每個(gè)量表的項(xiàng)目數(shù)、總體分布也都是影響估計(jì)準(zhǔn)確性的重要因素。于是, 在不同測(cè)驗(yàn)條件下探討各種能力估計(jì)方法的特點(diǎn)、比較它們的表現(xiàn)對(duì) MCAT實(shí)踐具有重要意義。

    4 MCA T的選題策略

    選題策略決定被試作答的測(cè)驗(yàn)項(xiàng)目, 關(guān)系到測(cè)驗(yàn)結(jié)果的準(zhǔn)確性、測(cè)驗(yàn)安全和測(cè)驗(yàn)信、效度, 是MCAT的重要環(huán)節(jié)之一。

    4.1 提高測(cè)量精度的選題策略

    MCAT與UCAT在選題方面存在兩點(diǎn)顯著差異。第一, UCAT要求在一個(gè)維度上達(dá)到最優(yōu)估計(jì),而MCAT要求同時(shí)在多個(gè)維度上達(dá)到最優(yōu)估計(jì)。第二, UCAT中單一的測(cè)驗(yàn)維度是測(cè)驗(yàn)考查的目標(biāo), 而MCAT中項(xiàng)目敏感的維度不一定都是研究者關(guān)注的目標(biāo)。換句話說(shuō), 研究者可能不同程度地關(guān)注MCAT考查的各個(gè)維度。以下用R表示題庫(kù), 其中的項(xiàng)目記為表示作答k-1個(gè)項(xiàng)目后的能力估計(jì)值,ik表示將施測(cè)的第k個(gè)項(xiàng)目, 它選自剩余題庫(kù)

    4.1.1 基于項(xiàng)目信息量的選題方法

    研究者不僅將 Fisher信息、Kullback-Leibler(KL)信息、shannon熵和互信息推廣到多維能力空間, 而且深入探討了各種方法之間的關(guān)系。

    4.1.1.1 基于Fisher信息矩陣的選題方法

    MIRT中Fisher信息量不再是一個(gè)實(shí)數(shù), 而是一個(gè)矩陣。例如, 以M3PL為例, 項(xiàng)目i的Fisher信息矩陣等于施測(cè)k-1個(gè)項(xiàng)目后, 能力區(qū)間估計(jì)構(gòu)成一個(gè)橢圓(橢球體), 其面積(體積)的方差-協(xié)方差矩陣的行列式成正比, 且于是,為使施測(cè)第k個(gè)項(xiàng)目后Vk下降最快, Segall (1996,2010)提出選擇使測(cè)驗(yàn)Fisher信息矩陣行列式值最大的方法, 又稱為D-優(yōu)化方法(Mulder & van der Linden, 2009)。具體而言, 該方法依據(jù)下式

    選擇項(xiàng)目ik。其中, det表示求行列式的值,和分別表示項(xiàng)目集Sk?1和項(xiàng)目j在處的信息矩陣。當(dāng)考慮能力先驗(yàn)分布時(shí)可得貝葉斯 D-優(yōu)化方法的項(xiàng)目選擇標(biāo)準(zhǔn)劉發(fā)明和丁樹(shù)良(2006)還推導(dǎo)了與貝葉斯 D-優(yōu)化規(guī)則等價(jià)的項(xiàng)目選擇方法。

    另外, Mulder和van der Linden (2009)從能力估計(jì)橢圓(橢球體)的最大軸與能力估計(jì)誤差的關(guān)系出發(fā)提出最小化能力極大似然估計(jì)的漸近抽樣方差的和, 稱為A-優(yōu)化方法。

    該方法與Wang, Chang和Boughton (2013)采用的T-規(guī)則選題方法本質(zhì)上是相同的。上述方法的表現(xiàn)均依賴中間能力估計(jì)與能力真值的接近程度, 而測(cè)驗(yàn)初期二者往往相差很大。類似于UCAT, MCAT中一種弱化此條件的方法就是KL方法。

    4.1.1.2 基于KL信息量的選題方法

    KL與Fisher信息一樣具有可加性, 即測(cè)驗(yàn)信息等于項(xiàng)目信息之和。項(xiàng)目i的KL信息表示為

    由于真實(shí)能力未知, 通常計(jì)算全局 KL信息量指標(biāo)(記為KI), 即

    其中r通常取值3, 進(jìn)而KI方法選擇使KI值最大的項(xiàng)目。van der Linden等人還基于KL信息提出以下三種項(xiàng)目選擇方法。

    (1)后驗(yàn)期望KL信息方法(B K)

    Veldkamp和van der Linden (2002)提出以能力后驗(yàn)分布為權(quán)重對(duì)項(xiàng)目 KL距離求期望的B K方法, 其項(xiàng)目選擇指標(biāo)為:

    研究證明, 該方法與貝葉斯 D-優(yōu)化方法具有相似的測(cè)量精度, 但B K方法更適用于具有內(nèi)容約束的測(cè)驗(yàn)(Mulder & van der Linden, 2010)。

    (2)能力后驗(yàn)分布的KL距離方法(P K)

    適應(yīng)性測(cè)驗(yàn)中, 每施測(cè)一個(gè)項(xiàng)目后都會(huì)更新能力的后驗(yàn)分布。然而, 如果施測(cè)一個(gè)不恰當(dāng)?shù)捻?xiàng)目將使的后驗(yàn)密度變化不大。于是, Mulder和van der Linden (2010)建議選擇在兩個(gè)連續(xù)后驗(yàn)分布之間具有最大 KL距離的項(xiàng)目, 記為KP方法。其項(xiàng)目選擇標(biāo)準(zhǔn)為:

    (3)互信息(mutual information)方法(IM)

    互信息表示隨機(jī)變量X,Y的聯(lián)合分布f(x,y)和邊際分布積的KL距離。若X和Y表示連續(xù)變量, 則特別地, 令則IM項(xiàng)目選擇指標(biāo)表示為

    Mulder和van der Linden (2010)證明互信息等價(jià)于與之間KL信息量的均值, 而P K等價(jià)于之間KL信息量的均值。由于KL具有非對(duì)稱性, 因此P K和IM本質(zhì)上并不相同。

    KB、均定義了兩個(gè)概率分布間的KL距離。對(duì)應(yīng)反應(yīng)分布間 KL距離以為權(quán)重的期望。KP和IM則從不同角度定義兩個(gè)連續(xù)后驗(yàn)分布的 KL距離。另外, 根據(jù) Mulder和 van der Linden (2010)及Wang (2014a), 可知Wang和Chang (2011)與Wang(2014a)中提到的基于貝葉斯更新的KL信息(KLB)方法實(shí)質(zhì)上與IM方法等價(jià)。

    4.1.1.3 連續(xù)熵方法(continuous entropy method, CEM)

    香農(nóng)熵(Shannon entropy)測(cè)量隨機(jī)變量分布內(nèi)在不確定性程度。當(dāng)隨機(jī)變量X服從連續(xù)分布時(shí), 香農(nóng)熵就是連續(xù)熵, 也稱為微分熵。Wang和Chang (2011)指出在作答k-1個(gè)項(xiàng)目之后后驗(yàn)分布的連續(xù)熵為:若選擇第k個(gè)項(xiàng)目之前對(duì)項(xiàng)目j的反應(yīng)求期望, 便得到如下期望后驗(yàn)連續(xù)熵:

    CEM 方法將選擇Rk中使期望后驗(yàn)連續(xù)熵最小的項(xiàng)目。

    4.1.1.4 基于項(xiàng)目信息量選題方法簡(jiǎn)評(píng)

    總結(jié)相關(guān)研究, 不難發(fā)現(xiàn)上述方法具有如下關(guān)系。第一, KI方法等價(jià)于最大化Fisher信息矩陣的跡(即其特征值之和), 盡管它更傾向于選擇所有維度具有高區(qū)分度的項(xiàng)目, 它也選擇各維度區(qū)分度參數(shù)差異較大的項(xiàng)目??傊? KI方法嚴(yán)重依賴MDISC值選擇項(xiàng)目。D-優(yōu)化方法等價(jià)于最大化Fisher信息矩陣行列式的值, 傾向于選擇在某一維度具有高區(qū)分度的項(xiàng)目(Wang, Chang, & Boughton,2011)。第二, KL與Fisher信息都很容易從單維推廣到多維。無(wú)論能力維度多大,都是一個(gè)數(shù)量值, 而基于 Fisher信息矩陣選題需要將信息矩陣約減為一個(gè)單維指標(biāo)值。第三, CEM試圖極大地降低的后驗(yàn)熵, 間接使從下面項(xiàng)目中獲得關(guān)于能力的信息最大化, 而IM則直接使獲得的信息最大化, 二者的不同在于熵的基線不同。第三, 當(dāng)題庫(kù)項(xiàng)目各維度的區(qū)分度參數(shù)分布一致時(shí),IM和 D-優(yōu)化方法所選項(xiàng)目的重疊率最大, 其次是KI方法和D-優(yōu)化方法,IM與CEM或與KI方法所選項(xiàng)目的重疊率都更低。最后, 無(wú)論題庫(kù)項(xiàng)目各維度區(qū)分度參數(shù)分布是否一致,IM方法的測(cè)量精度最高, D-優(yōu)化和CEM方法的測(cè)量精度次之, KI方法的測(cè)量精度最低(Wang & Chang,2011)。

    4.1.2 基于項(xiàng)目參數(shù)選題

    基于項(xiàng)目信息量選題方法的計(jì)算量通常很大,而項(xiàng)目選擇標(biāo)準(zhǔn)總離不開(kāi)項(xiàng)目特征參數(shù)。于是,研究者還根據(jù)項(xiàng)目參數(shù)提出一些簡(jiǎn)便的選題方法。例如, Bloxom和Vale (1987), Tam (1992)以難度和能力匹配來(lái)選擇項(xiàng)目; Wang等(2011)基于二維能力空間中 KI方法的選題特征提出兩種簡(jiǎn)化的KL信息指標(biāo)這兩種方法與 KI方法相比極大地降低了計(jì)算復(fù)雜度、縮短了計(jì)算時(shí)間的同時(shí)沒(méi)有明顯降低測(cè)量精度。對(duì)高維測(cè)驗(yàn),可由代替, 其中i,j=1,2,…,M,且i≠j。但是它們?cè)谌S及更高維能力空間的表現(xiàn)還有待進(jìn)一步研究證實(shí)。

    4.1.3 復(fù)合能力的項(xiàng)目選擇方法

    當(dāng)測(cè)驗(yàn)考查的各個(gè)維度的重要程度不同時(shí),MCAT通常要求在能力線性組合處達(dá)到最優(yōu)。van der Linden (1999)以二維能力空間為例, 給出估計(jì)復(fù)合能力分?jǐn)?shù)方差的計(jì)算方法后提出第k個(gè)項(xiàng)目應(yīng)使復(fù)合分?jǐn)?shù)具有最小誤差方差, 即

    研究表明, 復(fù)合分?jǐn)?shù)中權(quán)重λ的值對(duì)測(cè)量精度影響不大。復(fù)合能力值處于極端水平被試的估計(jì)誤差比中等水平被試的估計(jì)誤差更大, 但如果增加測(cè)驗(yàn)長(zhǎng)度可以提高測(cè)量精度。

    另外, Mulder和van der Linden (2009, 2010)針對(duì)測(cè)驗(yàn)考查無(wú)關(guān)能力維度和復(fù)合能力分?jǐn)?shù)的情況, 分別給出給出D-優(yōu)化和A-優(yōu)化,和的相應(yīng)變式。他們指出大部分條件下 D-優(yōu)化和A-優(yōu)化的表現(xiàn)類似, A-優(yōu)化指標(biāo)的表現(xiàn)有時(shí)候比 D-優(yōu)化更好, 但其計(jì)算也更復(fù)雜;K P與IM比方法更適合這類測(cè)驗(yàn)。

    上述研究中復(fù)合分?jǐn)?shù)的權(quán)重由研究者或考試機(jī)構(gòu)決定。Yao (2012)通過(guò)數(shù)理論證得到使復(fù)合能力的測(cè)量標(biāo)準(zhǔn)誤最小時(shí)權(quán)重的計(jì)算方法。在此基礎(chǔ)上, 她提出在最優(yōu)權(quán)重復(fù)合分?jǐn)?shù)處具有最小誤差的選題方法(記為 V2), 即

    然后, 比較了 V2與等權(quán)重復(fù)合分?jǐn)?shù)處具有最小誤差方差的選題方法(記為 V1)、B K、D-優(yōu)化方法以及使在已施測(cè)項(xiàng)目處具有最小信息量的方向上具有最大信息量的項(xiàng)目選擇方法(記為 Ag)(Reckase, 2009)的選題表現(xiàn)。結(jié)果表明 D-優(yōu)化和Ag方法的表現(xiàn)類似, 均能平衡各個(gè)維度的測(cè)量精度; V1, V2和B K方法在復(fù)合能力和各個(gè)能力維度都達(dá)到了較高測(cè)量精度, 新方法 V2還提高了題庫(kù)利用率。Yao (2012)不僅關(guān)注復(fù)合能力, 而且關(guān)注各個(gè)能力維度的測(cè)量精度, 體現(xiàn)了MCAT不僅可用于預(yù)測(cè)將來(lái)表現(xiàn), 還可用于提供診斷信息的雙重目的。

    4.2 滿足內(nèi)容約束的選題策略

    CAT通常要求測(cè)驗(yàn)所考查的各個(gè)內(nèi)容域具有恰當(dāng)比例, 項(xiàng)目呈現(xiàn)的順序合理, 正確答案選項(xiàng)的分布平衡、項(xiàng)目的長(zhǎng)度適當(dāng), 等等。如果違反這些約束將影響被試作答, 從而降低測(cè)量準(zhǔn)確性和有效性。因而, 滿足內(nèi)容約束是MCAT實(shí)踐需要考慮的問(wèn)題之一。

    4.2.1 影子測(cè)驗(yàn)方法

    影子測(cè)驗(yàn)方法的核心是選擇第k個(gè)項(xiàng)目之前組合一個(gè)在處具有最大測(cè)驗(yàn)信息量、包括已施測(cè)項(xiàng)目且滿足內(nèi)容約束的完整測(cè)驗(yàn), 然后將影子測(cè)驗(yàn)中具有最大信息量的項(xiàng)目施測(cè)給被試。Veldkamp和van der Linden (2002)在五種測(cè)驗(yàn)條件下運(yùn)用線性規(guī)劃方法組合影子測(cè)驗(yàn), 證明影子測(cè)驗(yàn)方法可滿足MCAT多種內(nèi)容約束。

    4.2.2 最大優(yōu)先指標(biāo)方法

    Yao (2013)借鑒最大優(yōu)先指標(biāo)方法(Cheng &Chang, 2009)定義MCAT中項(xiàng)目i的優(yōu)先指標(biāo)為

    UCAT中, Belov, Armstrong和Weissman (2008)指出影子測(cè)驗(yàn)方法可以滿足多種內(nèi)容約束, 但它降低了測(cè)量精度并導(dǎo)致項(xiàng)目曝光不均衡。最大優(yōu)先指標(biāo)方法則將約束條件轉(zhuǎn)化為目標(biāo)值并結(jié)合已施測(cè)項(xiàng)目的信息構(gòu)建選題指標(biāo), 避免了計(jì)算的復(fù)雜性和不可解問(wèn)題。但是它采用序列選題的方式,不但不能保證滿足所有約束條件也不一定能選到最優(yōu)項(xiàng)目, 因而可能會(huì)降低測(cè)量準(zhǔn)確性(Cheng &Chang, 2009)。對(duì)于MCAT, 情況是否如此, 是否還有更好的選題方法都值得進(jìn)一步研究。

    4.3 平衡項(xiàng)目曝光率的選題策略

    項(xiàng)目曝光率即項(xiàng)目的使用頻率。曝光率越大,項(xiàng)目使用的次數(shù)越多, 則考生之間越可能分享試題信息, 從而影響測(cè)驗(yàn)安全和測(cè)量準(zhǔn)確性。反之,當(dāng)大部分項(xiàng)目都曝光過(guò)低甚至沒(méi)有使用時(shí), 意味著項(xiàng)目沒(méi)有得到充分利用, 這將嚴(yán)重影響題庫(kù)建設(shè)。因而, 項(xiàng)目曝光均勻性是評(píng)價(jià)選題方法優(yōu)劣的重要標(biāo)準(zhǔn)之一。

    4.3.1 分層方法

    Lee, Ip和Fuh (2008)借鑒UCAT中a-分層方法的思想, 基于 M2PL提出按區(qū)分度向量的函數(shù)的值從小到大的順序?qū)㈩}庫(kù)分為F層, 并將測(cè)驗(yàn)分成F個(gè)階段, 然后第k個(gè)項(xiàng)目選擇對(duì)應(yīng)題庫(kù)層中項(xiàng)目參數(shù)b與最接近的項(xiàng)目, 以達(dá)到控制項(xiàng)目曝光率的目的。結(jié)果表明, 該方法與 a-分層方法在控制項(xiàng)目曝光率方面具有相似特點(diǎn)。另外, 它與 D-優(yōu)化方法相比, 能顯著提高項(xiàng)目曝光均勻性, 但也適當(dāng)降低了測(cè)量精度。測(cè)驗(yàn)越長(zhǎng),它們的測(cè)量精度相差越小。但該方法僅適用于二維測(cè)驗(yàn), 能否直接推廣到三維或更高維能力空間還有待研究證實(shí)。

    4.3.2 曝光率參數(shù)控制方法

    另外, Finkelman, Nering和Roussos (2009)首先將Sympson-Hetter方法(SH) (Sympson & Hetter,1985)應(yīng)用到MCAT (記為GSH方法), 然后基于能力點(diǎn)控制項(xiàng)目曝光率的思想在 Stocking-Lewis方法(SL) (Stocking & Lewis, 1998)的基礎(chǔ)上簡(jiǎn)化得到GSL方法, 最后比較了GSH、GSL和KB方法的表現(xiàn)。結(jié)果表明:GSL方法與KB的測(cè)量精度差不多, 且高于GSH方法; GSL的最大項(xiàng)目曝光率和項(xiàng)目曝光率的標(biāo)準(zhǔn)差都最小, 其項(xiàng)目曝光率比GSH和KB方法更均勻??傮w上, GSH和GSL方法能較好地控制最大項(xiàng)目曝光率, 但仍有大部分項(xiàng)目曝光過(guò)低, 而且它們都需要事先模擬決定曝光率控制參數(shù)。此外, GSL方法從基于能力分布網(wǎng)格中能力點(diǎn)的思想控制項(xiàng)目曝光率, 當(dāng)測(cè)驗(yàn)增加到三維及以上時(shí), GSL方法也將變得非常復(fù)雜甚至不可用。

    另外, Yao (2014b)在滿足各個(gè)內(nèi)容域項(xiàng)目個(gè)數(shù)要求的條件下將 Yao (2012)的五種項(xiàng)目選擇方法分別與最大優(yōu)先指標(biāo)方法和S-H方法相結(jié)合選題以控制最大項(xiàng)目曝光率。結(jié)果表明, 結(jié)合 S-H方法選題比結(jié)合最大優(yōu)先指標(biāo)方法選題的測(cè)量精度更高, 但是題庫(kù)利用率更低, 運(yùn)行時(shí)間更長(zhǎng)。

    4.4 對(duì)MCAT選題策略的綜合評(píng)價(jià)

    針對(duì)二級(jí)評(píng)分項(xiàng)目, 以提高測(cè)量精度為主要目標(biāo)的選題方法具有幾個(gè)顯著特點(diǎn)。第一, 研究將UCAT和CD-CAT中各類信息量指標(biāo)推廣到多維能力空間, 并論證它們之間的關(guān)系。從中不難發(fā)現(xiàn) D-優(yōu)化和 A-優(yōu)化方法需要將信息矩陣簡(jiǎn)化為一個(gè)單一維度指標(biāo), 其它方法均包含積分運(yùn)算。于是, 隨著能力維度的增加, 基于項(xiàng)目信息量選題的計(jì)算量將隨之增大。第二, 基于項(xiàng)目參數(shù)選題在不明顯降低測(cè)量精度的同時(shí)極大地降低了計(jì)算復(fù)雜度, 具有廣泛的應(yīng)用前景。但它們僅適用于二維測(cè)驗(yàn), 因而有待將它們推廣到更高維能力空間。除此之外, 針對(duì)測(cè)驗(yàn)考查無(wú)關(guān)維度和復(fù)合分?jǐn)?shù)的情形, 研究者還全面探討了各種項(xiàng)目信息量方法在這些情況下的變式及表現(xiàn)。

    另外, 參加CAT的考生一般在不同時(shí)間、地點(diǎn)作答不完全相同的項(xiàng)目。因此, 如何使不同被試作答的測(cè)驗(yàn)具有相同結(jié)構(gòu)以保證測(cè)驗(yàn)的信、效度和測(cè)驗(yàn)公平是CAT選題面臨的又一實(shí)際問(wèn)題。而對(duì)具有內(nèi)容約束的選題方法, MCAT相關(guān)研究還涉足不深。今后一方面可借鑒UCAT和CD-CAT的相關(guān)方法, 另一方面從MCAT自身特點(diǎn)出發(fā)探索滿足內(nèi)容約束的選題方法。

    最后, 針對(duì)MCAT中項(xiàng)目曝光控制的研究表明, 按區(qū)分度函數(shù)值分層的選題方法能提高曝光不足項(xiàng)目的使用率, 但不能明顯降低最大項(xiàng)目曝光率; GSH和GSL方法能有效控制最大項(xiàng)目曝光率, 但不能提高曝光不足項(xiàng)目的使用率; 最大優(yōu)先指標(biāo)方法能很好地控制最大項(xiàng)目曝光率, 并提高題庫(kù)利用率。值得注意的是, D-優(yōu)化方法和IM方法傾向于選擇某一個(gè)維度具有高區(qū)分度的項(xiàng)目,而 KI 傾向于選擇所有維度具有高區(qū)分度的項(xiàng)目,于是, 為保證測(cè)量精度并提高題庫(kù)利用率, 不妨結(jié)合多種方法選題。一般地, 項(xiàng)目曝光控制不僅要降低過(guò)度曝光項(xiàng)目的使用率而且應(yīng)提高曝光過(guò)低項(xiàng)目的使用率。因此, MCAT中如何進(jìn)一步提高項(xiàng)目曝光均勻性仍有待深入研究。

    5 MCA T的終止規(guī)則

    同UCAT一樣, MCAT要么固定測(cè)驗(yàn)長(zhǎng)度, 要么固定測(cè)量精度作為測(cè)驗(yàn)結(jié)束準(zhǔn)則。目前, 幾乎所有定長(zhǎng)MCAT的測(cè)驗(yàn)長(zhǎng)度都不小于25, 針對(duì)變長(zhǎng) MCAT, Yao (2013)、Wang 等(2013)和 Wang(2014a)從不同角度度量測(cè)量精度, 提出以下幾種終止規(guī)則。

    5.1 基于能力估計(jì)誤差的終止規(guī)則

    5.1.1 D-規(guī)則和E-規(guī)則

    在α顯著性水平下能力估計(jì)置信橢圓(橢球體)S 的面積(體積)V 等于其中, Γ(?) 表 示Gamma函數(shù)。若限制V的最大值為c或S的最大軸長(zhǎng)度為 2q以滿足某一測(cè)量精度, 便得到如下D-規(guī)則和 E-規(guī)則。具體而言, D-規(guī)則表示為即滿足j≥1和的最小整數(shù)j時(shí)停止測(cè)驗(yàn)。E規(guī)則表示為表示廣義Fisher信息矩陣的最小特征值。

    5.1.2 T-規(guī)則

    T-規(guī)則規(guī)定當(dāng)能力估計(jì)的總方差小于x時(shí)結(jié)束測(cè)驗(yàn), 即值得注意的是, 當(dāng)題庫(kù)項(xiàng)目在各個(gè)維度的區(qū)分度參數(shù)分布不均衡時(shí), 盡管總方差低于閾值x, 仍可能在某些維度具有較大方差。于是, 為保證每個(gè)維度的最大方差小于預(yù)設(shè)值e, T-規(guī)則通常修改為:T-規(guī)則涉及信息矩陣的逆矩陣, 因此無(wú)論實(shí)踐還是模擬研究都應(yīng)考慮信息矩陣是否為奇異矩陣。

    5.1.3 基于測(cè)量標(biāo)準(zhǔn)誤規(guī)則

    Yao (2013)在滿足內(nèi)容約束和控制最大項(xiàng)目曝光率的條件下比較了變長(zhǎng)MCAT中基于測(cè)量標(biāo)準(zhǔn)誤(standard error, SE)方法和預(yù)測(cè)標(biāo)準(zhǔn)誤減少量(predicted standard error reduction, PSER)終止規(guī)則的表現(xiàn)。結(jié)果發(fā)現(xiàn), PSER方法的測(cè)量精度略低于SE方法, 但它的測(cè)驗(yàn)長(zhǎng)度更短。Yao (2013)不僅考察了變長(zhǎng) MCAT的終止規(guī)則, 而且在變長(zhǎng)MCAT中實(shí)現(xiàn)了內(nèi)容約束, 這是研究的亮點(diǎn), 也是今后深入研究的方向。

    5.2 基于項(xiàng)目信息量的終止規(guī)則

    和CEM-規(guī)則:

    5.3 MCA T終止規(guī)則簡(jiǎn)評(píng)

    上述方法都能在達(dá)到預(yù)定測(cè)量精度時(shí)結(jié)束測(cè)驗(yàn), 它們還具有如下關(guān)系。第一, D、T和E規(guī)則從不同角度度量能力估計(jì)標(biāo)準(zhǔn)誤, 類似于 UCAT中 SE規(guī)則, 而 K-規(guī)則通過(guò)控制候選項(xiàng)目有用信息量的大小來(lái)結(jié)束測(cè)驗(yàn)。第二, 對(duì)D, E和T規(guī)則,具有極端能力值被試的測(cè)驗(yàn)長(zhǎng)度近似是那些中等能力水平被試測(cè)驗(yàn)長(zhǎng)度的2倍以上, 而K規(guī)則中測(cè)驗(yàn)長(zhǎng)度的差異不明顯。但K規(guī)則受先驗(yàn)密度的影響, 先驗(yàn)密度的信息量越大, 測(cè)驗(yàn)越短。于是,將來(lái)可考察不同先驗(yàn)分布對(duì)K規(guī)則的影響模式。第三, 當(dāng)能力后驗(yàn)分布服從多變量正態(tài)分布時(shí),CEM-規(guī)則與D-規(guī)則等價(jià)。第四, 終止規(guī)則往往包括統(tǒng)計(jì)表達(dá)式和臨界值。臨界值與測(cè)量精度息息相關(guān), 其值需要根據(jù)期望測(cè)量精度、能力維度、題庫(kù)特征進(jìn)行調(diào)整。因此, 今后不僅需要探討臨界值的設(shè)置方法, 而且有待在不同測(cè)驗(yàn)條件(如各維度之間的相關(guān)、項(xiàng)目質(zhì)量?jī)?yōu)劣等等)下深入比較終止規(guī)則的表現(xiàn)。

    6 問(wèn)題與展望

    MIRT、認(rèn)知診斷理論和 CAT是現(xiàn)代心理測(cè)量學(xué)發(fā)展的三大主要方向。MIRT是近期的研究熱點(diǎn), CAT是一種新興的、有前途的測(cè)驗(yàn)形式, 將兩者結(jié)合在一起的MCAT勢(shì)必成為CAT研究的一個(gè)新方向。本文對(duì)MCAT的相關(guān)研究做了比較系統(tǒng)的介紹和評(píng)價(jià)??v觀其發(fā)展趨勢(shì), 我們認(rèn)為還有待從以下幾個(gè)方面研究MCAT。

    6.1 基于多種MIRM的MCAT

    迄今為止, 大部分MCAT都以M2PL或M3PL為模型基礎(chǔ), 也有極少研究基于其它 MIRM。例如, Wang和Chen (2004)以MRCMLM為基礎(chǔ)的研究表明MCAT在高維測(cè)驗(yàn)、各個(gè)維度高相關(guān)、評(píng)分水平數(shù)較多的情況下同樣具有較高測(cè)驗(yàn)效率。今后首先應(yīng)更加深入探討各類MIRM的模型特點(diǎn)和數(shù)學(xué)函數(shù)圖象等各種統(tǒng)計(jì)特征, 然后以多維Rasch模型和多級(jí)評(píng)分項(xiàng)目 MIRM 為基礎(chǔ)開(kāi)展MCAT研究。

    6.2 MCA T選題策略的發(fā)展動(dòng)態(tài)

    6.2.1 MCA T中二級(jí)評(píng)分項(xiàng)目的選題策略

    隨著能力維度的增加, 基于項(xiàng)目信息量選題的計(jì)算都愈加復(fù)雜。因此, 三維甚至更高維度的情況下, 如何在各種信息量指標(biāo)基礎(chǔ)上簡(jiǎn)化選題策略將是今后的重點(diǎn)研究?jī)?nèi)容。其次, MCAT中項(xiàng)目曝光控制方法要么能有效控制最大項(xiàng)目曝光率,要么能提高曝光不足項(xiàng)目的使用率。于是, 今后研究一方面可借鑒UCAT和CD-CAT中表現(xiàn)較好的隨機(jī)程序法及變式(Barrada Olea, Ponsoda, &Abad, 2008; Wang, Chang, & Huebner, 2011), 另一方面可結(jié)合運(yùn)用多種項(xiàng)目曝光控制方法以進(jìn)一步提高項(xiàng)目曝光均勻性。再次, 雖然MCAT可保證各個(gè)內(nèi)容域的測(cè)量精度, 但如何選題以滿足多種約束條件也是今后的研究問(wèn)題之一。例如, 考察UCAT和CD-CAT中表現(xiàn)較好的Monte Carlo方法(Belov et al., 2008; Mao & Xin, 2013)在MCAT中的表現(xiàn),將測(cè)驗(yàn)組卷中滿足約束的 0-1線性規(guī)劃(binary programming, BP)和遺傳算法(genetic algorithm,GA) (Finkelman, Kim, Roussos, & Verschoor, 2010)等用到具有多種約束的MCAT選題, 或者探索滿足約束的測(cè)驗(yàn)組卷算法都是有價(jià)值的研究問(wèn)題。最后, 盡管針對(duì) MCAT提出了多種選題方法, 但沒(méi)有全面比較各種方法的表現(xiàn)。因此, 在不同測(cè)驗(yàn)條件下比較它們的表現(xiàn)同樣具有重要實(shí)踐意義。

    6.2.2 MCA T中多分項(xiàng)目的選題策略

    隨著多級(jí)評(píng)分項(xiàng)目復(fù)雜評(píng)分算法的出現(xiàn)使得問(wèn)答題、題組和結(jié)構(gòu)反應(yīng)項(xiàng)目逐漸出現(xiàn)在CAT中(Clauser, Margolis, Clyman, & Ross, 1997), 多級(jí)評(píng)分項(xiàng)目的應(yīng)用將越來(lái)越受到重視。例如, 美國(guó)醫(yī)學(xué)院學(xué)會(huì)已設(shè)立專項(xiàng)經(jīng)費(fèi)用于研究醫(yī)大入學(xué)考試的語(yǔ)文推理部分采用題組評(píng)分項(xiàng)目的 CAT; 美國(guó)國(guó)立衛(wèi)生研究院 2003年申請(qǐng)數(shù)百萬(wàn)美元用于開(kāi)發(fā)根據(jù)病人的臨床報(bào)告進(jìn)行診斷的CAT系統(tǒng)。然而, 迄今為止未曾見(jiàn)到多級(jí)評(píng)分項(xiàng)目MCAT的相關(guān)研究。因此, 針對(duì)測(cè)量精度、項(xiàng)目曝光控制和內(nèi)容約束問(wèn)題探索多級(jí)評(píng)分項(xiàng)目MCAT的選題策略無(wú)疑是今后研究的趨勢(shì)與重點(diǎn)內(nèi)容之一。

    6.3 MCA T題庫(kù)的研究

    MCAT要付諸實(shí)踐關(guān)鍵要有由大量質(zhì)量合格、參數(shù)已標(biāo)定的項(xiàng)目構(gòu)成的題庫(kù)。隨著時(shí)間的推移, 題庫(kù)中的一些項(xiàng)目會(huì)因?yàn)榇嬖谌毕?、過(guò)時(shí)或過(guò)度曝光等原因需要用新題去替換或進(jìn)行增補(bǔ)(陳平, 2011)。于是, 項(xiàng)目增補(bǔ)對(duì)MCAT題庫(kù)的維護(hù)和開(kāi)發(fā)至關(guān)重要。UCAT和CD-CAT中在線校準(zhǔn)技術(shù)常用于估計(jì)新題的項(xiàng)目參數(shù)。因此, 借鑒已有研究探索MCAT中基于被試在項(xiàng)目上的作答反應(yīng)準(zhǔn)確地、聯(lián)合地估計(jì)項(xiàng)目參數(shù)將具有不言而喻的意義。

    6.4 MCA T的實(shí)證研究

    MCAT理論研究不僅需要實(shí)踐來(lái)檢驗(yàn)其實(shí)踐效能, 其理論研究成果反過(guò)來(lái)又推動(dòng)實(shí)踐進(jìn)步。因此, 如何在 MIRT理論指導(dǎo)下編寫測(cè)驗(yàn)項(xiàng)目、分析項(xiàng)目特征完成題庫(kù)建構(gòu); 探索多級(jí)評(píng)分項(xiàng)目在線自動(dòng)評(píng)分算法; 開(kāi)發(fā) MCAT考試系統(tǒng)都是MCAT實(shí)踐的必要前提。

    陳平. (2011).認(rèn)知診斷計(jì)算機(jī)化自適應(yīng)測(cè)驗(yàn)的項(xiàng)目增補(bǔ)——以DINA模型為例(博士學(xué)位論文), 北京師范大學(xué).

    杜文久, 肖涵敏. (2012). 多維項(xiàng)目反應(yīng)理論等級(jí)反應(yīng)模型.心理學(xué)報(bào), 44, 1402–1407.

    劉發(fā)明, 丁樹(shù)良. (2006). 多維自適應(yīng)測(cè)驗(yàn)初探.江西師范大學(xué)學(xué)報(bào)(自然科學(xué)版), 30, 428–430.

    康春花, 辛濤. (2010). 測(cè)驗(yàn)理論的新發(fā)展: 多維項(xiàng)目反應(yīng)理論.心理科學(xué)進(jìn)展, 18, 530–536.

    涂冬波, 蔡艷, 戴海琦, 丁樹(shù)良. (2011). 多維項(xiàng)目反應(yīng)理論: 參數(shù)估計(jì)及其在心理測(cè)驗(yàn)中的應(yīng)用.心理學(xué)報(bào), 43,1329–1340.

    許志勇, 丁樹(shù)良, 鐘君. (2013). 高考數(shù)學(xué)試卷多維項(xiàng)目反應(yīng)理論的分析及應(yīng)用.心理學(xué)探新, 33, 438–443.

    張軍. (2011). HSK潛在維度的探索性分析——多維項(xiàng)目反應(yīng)理論的應(yīng)用.考試研究, 29, 47–58.

    Adams, R. J., & Wilson, M. (1996). A random coefficients multinomial logit: A generalized approach to fitting Rasch models. In G. Engelhard & M. Wilson (Eds.),Objective measurement III: Theory into practice(pp. 142–166).Norwood, NJ: Ablex.

    Adams, R. J., Wilson, M., & Wang, W. (1997). The multidimensional random coefficients multinomial logit model.Applied Psychological Measurement, 21, 1–24.

    Barrada, J. R., Olea, J., Ponsoda, V., & Abad, F. J. (2008).Incorporating randomness in the Fisher information for improving item-exposure control in CATs.British Journal of Mathematical and Statistical Psychology, 61, 493–513.

    Belov, D. I., Armstrong, R. D., & Weissman, A. (2008). A Monte Carlo approach for adaptive testing with content constraints.Applied Psychological Measurement, 32, 431–446.

    Bloxom, B. M., & Vale, C. D. (1987).Multididmensional adaptive testing: A procedure for sequential estimation of the posterior centriod and dispersion of theta. Paper presented at the meeting of the Psychometric society, Montreal, Canada.

    Bolt, D. M., & Lall, V. F. (2003). Estimation of compensatory and noncompensatory multidimensional item response models using Markov chain Monte Carlo.Applied Psychological Measurement, 27, 395–414.

    Cheng, Y., & Chang, H. H. (2009). The maximum priority index method for severely constrained item selection in computerized adaptive testing.British Journal of Mathematical and Statistical Psychology, 62, 369–383.

    Clauser, B. E., Margolis, M. J., Clyman, S. G., & Ross, L. P.(1997). Development of automated scoring algorithms for complex performance assessments: A comparison of two approaches.Journal of Educational Measurement, 34,141–161.

    Finkelman, M. D., Kim, W., Roussos, L., & Verschoor, A.(2010). A binary programming approach to automated test assembly for cognitive diagnosis models.Applied Psychological Measurement, 34, 310–326.

    Finkelman, M., Nering, M. L., & Roussos, L. A. (2009). A conditional exposure control method for multidimensional adaptive testing.Journal of Educational Measurement, 46,84–103.

    Frey, A., & Seitz, N. N. (2011). Hypothetical use of multidimensional adaptive testing for the assessment of student achievement on the programme for international student assessment.Educational and Psychological Measurement, 71, 503–522.

    Kelderman, H., & Rijkes, C. E. M. (1994). Loglinear multidimensional IRT models for polytomously scored items.Psychometrika, 59, 149–176.

    Lee, Y. H., Ip, E. H., & Fuh, C. D. (2008). A strategy for controlling item exposure in multidimensional computerized adaptive testing.Educational and Psychological Measurement,68, 215–232.

    Luecht, R. M. (1996). Multidimensional computerized adaptive testing in a certification or licensure context.Applied Psychological Measurement, 20, 389–404.

    Mao, X. Z., & Xin, T. (2013). The application of the monte carlo approach to cognitive diagnostic computerized adaptive testing with content constraints.Applied Psychological Measurement, 37, 482–496.

    McKinley, R. L., & Reckase, M. D. (1982).The use of the general Rasch model with multidimensional item response data(Research Report ONR 82–1). American College Testing, Iowa City, IA.

    Mulder, J., & van der Linden, W. J. (2009). Multidimensional adaptive testing with optimal design criteria for item selection.Psychometrika, 74, 273–296.

    Mulder, J., & van der Linden, W. J. (2010). Multidimensional adaptive testing with Kullback-Leibler information item selection. In W. J. van der Linden & C. A. W. Glas (Eds.),Elements of adaptive testing, statistics for social and behaviroal sciences.New-York: Springer Science+Business Media.

    Muraki, E., & Carlson, J. E. (1993).Full-information factor analysis for polytomous item responses.Paper presented at the annual meeting of the American Educational Research Association, Atlanta.

    Owen, R. J. (1975). A bayesian sequential procedure for quantal response in the context of adaptive mental testing.Journal of the American Statistical Association, 70, 351–356.

    Reckase, M. D. (1985). The difficulty of test items that measure more than one ability.Applied Psychological Measurement,9, 401–412.

    Reckase, M. D. (2009).Multidimensional item response theory. New York: Springer.

    Samejima, F. (1974). Normal ogive model on the continuous response level in the multidimensional latent space.Psychometrika, 39, 111–121.

    Segall, D. O. (1996). Multidimensional adaptive testing.Psychometrika, 61, 331–354.

    Segall, D. O. (2010). Principles of multidimensional adaptive testing. In W. J. van der Linden & C. A. W. Glas (Eds.),Elements of adaptive testing, statistics for social and behavioral sciences.New York: Springer Science+Business Media.

    Stocking, M. L., & Lewis, C. (1998). Controlling item exposure conditional on ability in computerized adaptive testing.Journalof Educational and Behavioral Statistics, 23, 57–75.

    Sympson, J. B., & Hetter, R. D. (1985).Controlling item-exposure rates in computerized adaptive testing.In Proceedings of the 27th annual meeting of the Military Testing Association (pp. 973–977). San Diego, CA: Navy Personnel Research and Development Center.

    Tam, S. S. (1992).A comparison of methods for adaptive estimation of a multidimensional trait(Unpublished doctoral dissertation). Columbia University, New York.

    van der Linden, W. J. (1999). Multidimensional adaptive testing with a minimum error-variance criterion.Journal of Educational and Behavioral Statistics, 24, 398–412.

    van der Linden, W. J., & Hambleton, R. K. (1997).Handbook of modern item response theory. New York: Springer-Verlag.

    Veldkamp, B. P., & van der Linden, W. J. (2002).Multidimensional adaptive testing with constraints on test content.Psychometrika, 67, 575–588.

    Wang, C. (2014a). Multidimensional computerized adaptive testing: Early development and recent advancements. In Y.Cheng & H.-H. Chang (Eds.),Advances in modern international testing: Transition from summative to formative assessment. Charlotte, NC: Information Age.

    Wang, C., & Chang, H. H. (2011). Item selection in multidimensional computerized adaptive testing-gaining information from different angles.Psychometrika, 76, 363–384.

    Wang, C., Chang, H. H., & Boughton, K. A. (2011).Kullback-Leibler information and its applications in multidimensional adaptive testing.Psychometrika, 76, 13–39.

    Wang, C., Chang, H. H., & Boughton, K. A. (2013). Deriving stopping rules for multidimensional computerized adaptive testing.Applied Psychological Measurement, 37, 99–122.

    Wang, C., Chang, H. H., & Huebner, A. (2011). Restrictive stochastic item selection methods in cognitive diagnostic computerized adaptive testing.Journal of Educational Measurement, 48, 255–273.

    Wang, W. C. (2014b). Multidimensional Rasch models:Theories and applications. In Y. Cheng & H.-H. Chang(Eds.),Advances in modern international testing: Transition from summative to formative assessment. Charlotte, NC:Information Age.

    Wang, W. C., & Chen, P. H. (2004). Implementation and measurement efficiency of multidimensional computerized adaptive testing.Applied Psychological Measurement, 28,295–316.

    Warm, T. A. (1989). Weighted likelihood estimation of ability in item response theory.Psychometrika, 54, 427–450.

    Yao, L. H. (2012). Multidimensional CAT item selection methods for domain scores and composite scores: Theory and applications.Psychometrika, 77, 495–523.

    Yao, L. H. (2013). Comparing the performance of five multidimensional CAT selection procedures with different stopping rules.Applied Psychological Measurement, 37, 3–23.

    Yao, L. H. (2014a). Multidimensional item response theory for score reporting. In Y. Cheng & H.-H. Chang (Eds.),Advances in modern international testing: Transition from summative to formative assessment.Charlotte, NC:Information Age.

    Yao, L. H. (2014b). Multidimensional CAT item selection methods for domain scores and composite scores with item exposure control and content constrains.Journal of Educational Measurement, 51, 18–38.

    Yao, L. H., & Schwarz, R. D. (2006). A multidimensional partial credit model with associated item and test statistics:An application to mixed-format tests.Applied Psychological Measurement, 30, 469–492.

    Zhang, B., & Stone, C. A. (2008). Evaluating item fit for multidimensional item response models.Educational and Psychological Measurement, 68(2), 181–196.

    猜你喜歡
    題庫(kù)測(cè)驗(yàn)選題
    “勾股定理”優(yōu)題庫(kù)
    “軸對(duì)稱”優(yōu)題庫(kù)
    本刊誠(chéng)征“獨(dú)唱團(tuán)”選題
    “軸對(duì)稱”優(yōu)題庫(kù)
    “整式的乘法與因式分解”優(yōu)題庫(kù)
    談詩(shī)詞的選題
    本刊誠(chéng)征“獨(dú)唱團(tuán)”選題
    本刊誠(chéng)征“獨(dú)唱團(tuán)”選題
    《新年大測(cè)驗(yàn)》大揭榜
    兩個(gè)處理t測(cè)驗(yàn)與F測(cè)驗(yàn)的數(shù)學(xué)關(guān)系
    考試周刊(2016年88期)2016-11-24 13:30:50
    免费观看无遮挡的男女| 亚洲精品乱久久久久久| 久久韩国三级中文字幕| 狠狠精品人妻久久久久久综合| 国产精品不卡视频一区二区| 街头女战士在线观看网站| 丰满乱子伦码专区| 国产精品国产三级国产专区5o| 精品一品国产午夜福利视频| 男的添女的下面高潮视频| 日韩三级伦理在线观看| 男人和女人高潮做爰伦理| 亚洲国产精品国产精品| 精品国产露脸久久av麻豆| 国产伦精品一区二区三区视频9| 一区二区三区四区激情视频| 九九爱精品视频在线观看| 亚洲国产日韩一区二区| 午夜av观看不卡| 中国国产av一级| 少妇人妻精品综合一区二区| 赤兔流量卡办理| 国产精品一区二区性色av| 色吧在线观看| 麻豆成人午夜福利视频| 80岁老熟妇乱子伦牲交| 欧美亚洲 丝袜 人妻 在线| 欧美少妇被猛烈插入视频| 男人爽女人下面视频在线观看| 午夜影院在线不卡| 精品人妻偷拍中文字幕| 国产精品免费大片| a级毛色黄片| 日韩在线高清观看一区二区三区| 亚洲真实伦在线观看| 国产视频首页在线观看| 建设人人有责人人尽责人人享有的| 国产成人午夜福利电影在线观看| 这个男人来自地球电影免费观看 | 久久6这里有精品| 成人二区视频| 亚洲av二区三区四区| 亚洲欧洲国产日韩| 久久午夜福利片| 久久精品国产亚洲av天美| 国产黄片美女视频| 亚洲国产av新网站| 好男人视频免费观看在线| 黑人巨大精品欧美一区二区蜜桃 | 97超碰精品成人国产| freevideosex欧美| 亚洲欧美日韩卡通动漫| 午夜精品国产一区二区电影| 插逼视频在线观看| 大片电影免费在线观看免费| 亚洲国产精品成人久久小说| 蜜桃在线观看..| 亚洲精品久久久久久婷婷小说| 久久ye,这里只有精品| 51国产日韩欧美| 久久久精品免费免费高清| 日韩av不卡免费在线播放| 有码 亚洲区| 最近2019中文字幕mv第一页| 亚洲在久久综合| 美女主播在线视频| 欧美日韩亚洲高清精品| 成年女人在线观看亚洲视频| 美女cb高潮喷水在线观看| 精品一区二区三区视频在线| 国产成人精品一,二区| 看十八女毛片水多多多| 五月伊人婷婷丁香| 免费av中文字幕在线| 国模一区二区三区四区视频| 啦啦啦啦在线视频资源| 日韩欧美一区视频在线观看 | 啦啦啦中文免费视频观看日本| 麻豆乱淫一区二区| 黄色欧美视频在线观看| 国产熟女欧美一区二区| 国产一区二区三区av在线| 欧美精品国产亚洲| 欧美日韩视频高清一区二区三区二| 亚洲,一卡二卡三卡| 亚洲精品国产av成人精品| 少妇熟女欧美另类| 国产精品蜜桃在线观看| 国产高清三级在线| 国产伦理片在线播放av一区| 成年人免费黄色播放视频 | 2018国产大陆天天弄谢| 国产精品一区二区在线不卡| 国产成人精品一,二区| 欧美激情国产日韩精品一区| 我的老师免费观看完整版| 色哟哟·www| 麻豆乱淫一区二区| 欧美人与善性xxx| 国产真实伦视频高清在线观看| 日日摸夜夜添夜夜爱| 亚洲国产精品国产精品| 日韩av在线免费看完整版不卡| 中国国产av一级| 国产精品伦人一区二区| 国产熟女欧美一区二区| 黑人猛操日本美女一级片| 人妻系列 视频| 在线精品无人区一区二区三| 桃花免费在线播放| av女优亚洲男人天堂| av视频免费观看在线观看| 亚洲精品,欧美精品| 视频中文字幕在线观看| 高清在线视频一区二区三区| 久久免费观看电影| 啦啦啦视频在线资源免费观看| 精品亚洲乱码少妇综合久久| 一级,二级,三级黄色视频| 久久人人爽av亚洲精品天堂| 十八禁高潮呻吟视频 | 人妻系列 视频| 免费看光身美女| 99久久精品热视频| 亚洲欧美中文字幕日韩二区| 国产成人freesex在线| 极品人妻少妇av视频| 日本欧美国产在线视频| kizo精华| 日本vs欧美在线观看视频 | 自拍偷自拍亚洲精品老妇| 天堂8中文在线网| 亚洲不卡免费看| 亚洲电影在线观看av| xxx大片免费视频| 亚洲精品成人av观看孕妇| 日韩,欧美,国产一区二区三区| 国产精品秋霞免费鲁丝片| 在现免费观看毛片| 国产精品不卡视频一区二区| 亚洲一级一片aⅴ在线观看| 久久久久网色| 五月开心婷婷网| 国产一区亚洲一区在线观看| 嘟嘟电影网在线观看| 国产精品一区二区在线观看99| 中文精品一卡2卡3卡4更新| 少妇熟女欧美另类| 在线天堂最新版资源| 欧美国产精品一级二级三级 | 一本色道久久久久久精品综合| 国产 精品1| 欧美+日韩+精品| 少妇人妻 视频| 在线 av 中文字幕| 亚洲中文av在线| 免费不卡的大黄色大毛片视频在线观看| 日韩 亚洲 欧美在线| 欧美日本中文国产一区发布| 有码 亚洲区| 嘟嘟电影网在线观看| 国产熟女欧美一区二区| 人人妻人人添人人爽欧美一区卜| 日本欧美视频一区| av免费观看日本| 日韩免费高清中文字幕av| 久久毛片免费看一区二区三区| 精品久久久久久久久亚洲| 欧美 亚洲 国产 日韩一| kizo精华| 美女国产视频在线观看| 久久99热6这里只有精品| .国产精品久久| 一级毛片 在线播放| 亚洲精品久久午夜乱码| 久久精品国产a三级三级三级| 日韩成人伦理影院| 日韩中字成人| 最近2019中文字幕mv第一页| 国产有黄有色有爽视频| av国产精品久久久久影院| 丝袜喷水一区| 26uuu在线亚洲综合色| 99久国产av精品国产电影| 色5月婷婷丁香| 日日撸夜夜添| 晚上一个人看的免费电影| 亚洲电影在线观看av| 狂野欧美激情性xxxx在线观看| 91精品国产九色| 国产精品久久久久久久电影| 日韩成人av中文字幕在线观看| 一个人免费看片子| 69精品国产乱码久久久| 在线免费观看不下载黄p国产| 三级经典国产精品| 亚洲情色 制服丝袜| 国产日韩欧美亚洲二区| 国产一区二区三区av在线| 夜夜骑夜夜射夜夜干| 国产精品人妻久久久久久| 精品一区二区免费观看| 一级av片app| 免费观看av网站的网址| 午夜福利视频精品| 亚洲久久久国产精品| 久久久久视频综合| 丝瓜视频免费看黄片| 亚洲激情五月婷婷啪啪| 高清欧美精品videossex| 中文资源天堂在线| 久久人人爽人人爽人人片va| 在线亚洲精品国产二区图片欧美 | 色哟哟·www| 熟妇人妻不卡中文字幕| 亚洲精品,欧美精品| 午夜福利影视在线免费观看| 亚洲国产日韩一区二区| 我要看日韩黄色一级片| 美女中出高潮动态图| 最黄视频免费看| 成年人午夜在线观看视频| 九草在线视频观看| 久久久精品94久久精品| videos熟女内射| 国产真实伦视频高清在线观看| 热99国产精品久久久久久7| 亚洲在久久综合| 国产国拍精品亚洲av在线观看| 18禁动态无遮挡网站| 91久久精品电影网| 国产在视频线精品| 久久女婷五月综合色啪小说| 国产综合精华液| 欧美一级a爱片免费观看看| 五月伊人婷婷丁香| 久久精品久久久久久久性| 亚洲欧美精品自产自拍| 99九九在线精品视频 | 午夜老司机福利剧场| 午夜免费男女啪啪视频观看| 少妇的逼好多水| 久久久久久人妻| 亚洲精品乱码久久久久久按摩| 高清在线视频一区二区三区| 69精品国产乱码久久久| 丰满饥渴人妻一区二区三| 制服丝袜香蕉在线| 日韩欧美精品免费久久| 女性生殖器流出的白浆| 久久青草综合色| h视频一区二区三区| 国产一区二区在线观看av| 性色av一级| 男女免费视频国产| 亚洲va在线va天堂va国产| 久久精品国产亚洲av涩爱| 日韩av免费高清视频| 亚洲精品一区蜜桃| 日韩伦理黄色片| 免费在线观看成人毛片| 日韩一本色道免费dvd| 一区二区三区乱码不卡18| 精品人妻熟女毛片av久久网站| 一边亲一边摸免费视频| 国产日韩欧美在线精品| 成人国产av品久久久| 中文字幕人妻熟人妻熟丝袜美| 一级毛片黄色毛片免费观看视频| 一边亲一边摸免费视频| 亚洲欧美日韩卡通动漫| 毛片一级片免费看久久久久| 日本欧美视频一区| 高清午夜精品一区二区三区| 九色成人免费人妻av| 久久人人爽人人片av| 国产欧美亚洲国产| 国产男人的电影天堂91| a级毛色黄片| .国产精品久久| 国产高清国产精品国产三级| 精品亚洲乱码少妇综合久久| 国内少妇人妻偷人精品xxx网站| 亚州av有码| 亚洲国产色片| av视频免费观看在线观看| 亚洲av国产av综合av卡| 国产日韩一区二区三区精品不卡 | 亚洲国产精品一区三区| 啦啦啦啦在线视频资源| 岛国毛片在线播放| 中国三级夫妇交换| 久久国内精品自在自线图片| 99久久精品一区二区三区| 婷婷色麻豆天堂久久| 国精品久久久久久国模美| videos熟女内射| 两个人的视频大全免费| 一级毛片电影观看| 亚洲国产欧美日韩在线播放 | 国产精品久久久久久精品古装| 国产永久视频网站| 国产精品一区www在线观看| 你懂的网址亚洲精品在线观看| 91精品伊人久久大香线蕉| 日韩成人伦理影院| 美女xxoo啪啪120秒动态图| 久久久精品免费免费高清| 亚洲国产欧美在线一区| 精品久久久噜噜| 日日撸夜夜添| 久久精品国产亚洲av天美| 五月伊人婷婷丁香| 18禁动态无遮挡网站| 国产一区二区三区av在线| 一级黄片播放器| 22中文网久久字幕| 国产精品99久久99久久久不卡 | 多毛熟女@视频| 国产色婷婷99| 免费久久久久久久精品成人欧美视频 | 少妇被粗大猛烈的视频| 国产精品久久久久久久久免| 欧美日韩精品成人综合77777| 啦啦啦啦在线视频资源| 久久国产乱子免费精品| 女的被弄到高潮叫床怎么办| 日韩伦理黄色片| 极品教师在线视频| 看非洲黑人一级黄片| 成人二区视频| 国产一区二区在线观看日韩| 女的被弄到高潮叫床怎么办| 国产一区二区在线观看日韩| 久久久久久人妻| 国产一区二区在线观看日韩| 蜜桃久久精品国产亚洲av| 最黄视频免费看| 一级av片app| 国产精品福利在线免费观看| 妹子高潮喷水视频| 国产精品国产三级专区第一集| 免费黄色在线免费观看| 只有这里有精品99| 一级av片app| 黄片无遮挡物在线观看| 91精品国产九色| 亚洲熟女精品中文字幕| 国产欧美日韩一区二区三区在线 | 亚洲,一卡二卡三卡| 不卡视频在线观看欧美| 久久精品久久精品一区二区三区| 国产精品一区二区三区四区免费观看| 久久国产亚洲av麻豆专区| 九草在线视频观看| 美女内射精品一级片tv| 亚洲成人av在线免费| 国产免费一区二区三区四区乱码| 国产熟女欧美一区二区| 国产精品嫩草影院av在线观看| 高清午夜精品一区二区三区| 国产精品熟女久久久久浪| 欧美xxⅹ黑人| 乱系列少妇在线播放| 成人毛片a级毛片在线播放| 男人爽女人下面视频在线观看| 高清黄色对白视频在线免费看 | 国产一区二区三区av在线| 啦啦啦啦在线视频资源| av福利片在线| 欧美成人午夜免费资源| 色吧在线观看| 国产淫语在线视频| 精品一区在线观看国产| 色5月婷婷丁香| 国产精品女同一区二区软件| 国产在线视频一区二区| 精品少妇内射三级| 国产av精品麻豆| 夜夜骑夜夜射夜夜干| 色网站视频免费| 国产在视频线精品| 亚洲精品aⅴ在线观看| 成年人午夜在线观看视频| 日韩欧美 国产精品| 欧美精品亚洲一区二区| 亚洲精品久久久久久婷婷小说| 国产乱来视频区| 国产精品成人在线| 国产91av在线免费观看| av免费在线看不卡| 亚洲三级黄色毛片| 狂野欧美激情性xxxx在线观看| 91精品一卡2卡3卡4卡| 久久人人爽av亚洲精品天堂| 黄色一级大片看看| 人妻人人澡人人爽人人| 纵有疾风起免费观看全集完整版| 免费黄色在线免费观看| 亚洲天堂av无毛| 国产精品蜜桃在线观看| 亚洲国产精品专区欧美| 日韩视频在线欧美| 噜噜噜噜噜久久久久久91| 伦精品一区二区三区| 免费观看性生交大片5| 黄色一级大片看看| 日韩免费高清中文字幕av| 亚洲国产精品一区二区三区在线| 免费黄色在线免费观看| 亚洲精品日韩av片在线观看| 亚洲精品一区蜜桃| 又粗又硬又长又爽又黄的视频| 男人添女人高潮全过程视频| 岛国毛片在线播放| 91精品国产国语对白视频| 国产男女超爽视频在线观看| 日韩亚洲欧美综合| 国产极品天堂在线| 18禁动态无遮挡网站| 国产精品秋霞免费鲁丝片| videos熟女内射| 久久人人爽人人爽人人片va| 91精品一卡2卡3卡4卡| 人人妻人人添人人爽欧美一区卜| 波野结衣二区三区在线| 男人和女人高潮做爰伦理| 天天躁夜夜躁狠狠久久av| 久久人人爽人人片av| 深夜a级毛片| 中文字幕免费在线视频6| 亚洲综合色惰| av专区在线播放| 欧美性感艳星| 国产精品一区二区在线观看99| 我要看黄色一级片免费的| 纵有疾风起免费观看全集完整版| 建设人人有责人人尽责人人享有的| 国产熟女午夜一区二区三区 | 国产av精品麻豆| 亚洲精品日本国产第一区| 亚洲精品视频女| 国产无遮挡羞羞视频在线观看| 99热国产这里只有精品6| 涩涩av久久男人的天堂| 国产亚洲欧美精品永久| 国产精品不卡视频一区二区| 久久韩国三级中文字幕| 亚洲av日韩在线播放| 亚洲精品第二区| 哪个播放器可以免费观看大片| 国产在线一区二区三区精| 成人国产av品久久久| 99视频精品全部免费 在线| 国产综合精华液| 国产在线视频一区二区| 亚洲精品国产av成人精品| 久久久久久久久久久久大奶| 啦啦啦啦在线视频资源| 亚洲国产精品专区欧美| 久热这里只有精品99| 久久影院123| 国产白丝娇喘喷水9色精品| 日韩免费高清中文字幕av| 伊人亚洲综合成人网| 啦啦啦啦在线视频资源| 亚洲av.av天堂| 午夜免费观看性视频| 观看美女的网站| 成人亚洲欧美一区二区av| 简卡轻食公司| 五月伊人婷婷丁香| 在线观看一区二区三区激情| 成人漫画全彩无遮挡| 色94色欧美一区二区| 久久久久网色| 亚洲天堂av无毛| 精品亚洲成国产av| 亚洲精品国产色婷婷电影| 国产一区二区三区综合在线观看 | 日日爽夜夜爽网站| 日本免费在线观看一区| 99热这里只有是精品在线观看| 成人国产麻豆网| 中文字幕久久专区| 人人澡人人妻人| 国产精品一区二区在线观看99| 亚洲国产色片| 欧美日韩精品成人综合77777| 免费黄频网站在线观看国产| 久久影院123| av天堂中文字幕网| 国产成人aa在线观看| 美女主播在线视频| 国产免费又黄又爽又色| 色视频在线一区二区三区| 美女脱内裤让男人舔精品视频| 欧美xxxx性猛交bbbb| 26uuu在线亚洲综合色| 夜夜爽夜夜爽视频| 嫩草影院新地址| 久久人妻熟女aⅴ| 国产乱来视频区| 99久久精品热视频| 久久毛片免费看一区二区三区| 91久久精品国产一区二区成人| 久久99一区二区三区| 亚洲成人一二三区av| 十分钟在线观看高清视频www | 国产亚洲91精品色在线| 国产探花极品一区二区| 国产精品熟女久久久久浪| 黄片无遮挡物在线观看| av在线老鸭窝| 国产综合精华液| 肉色欧美久久久久久久蜜桃| 啦啦啦啦在线视频资源| 亚州av有码| 高清视频免费观看一区二区| 国产精品久久久久成人av| 国产黄频视频在线观看| 少妇精品久久久久久久| 欧美性感艳星| 精品熟女少妇av免费看| 国产69精品久久久久777片| 十分钟在线观看高清视频www | 精品久久国产蜜桃| 女性生殖器流出的白浆| 国产黄色视频一区二区在线观看| 少妇人妻 视频| 成人午夜精彩视频在线观看| 黄色毛片三级朝国网站 | 18禁动态无遮挡网站| 又粗又硬又长又爽又黄的视频| 不卡视频在线观看欧美| 男人爽女人下面视频在线观看| 婷婷色综合大香蕉| 久久精品熟女亚洲av麻豆精品| 国产高清有码在线观看视频| 中文天堂在线官网| 国产爽快片一区二区三区| 国产精品欧美亚洲77777| 久久久国产精品麻豆| 日韩亚洲欧美综合| 久久精品国产自在天天线| 大又大粗又爽又黄少妇毛片口| 久久精品久久精品一区二区三区| 天天操日日干夜夜撸| 99热这里只有精品一区| 成人特级av手机在线观看| 老司机影院毛片| 国产精品国产三级国产专区5o| av免费在线看不卡| 久久久久久久久久成人| 国产亚洲精品久久久com| 亚洲熟女精品中文字幕| 精品视频人人做人人爽| 国产精品久久久久久av不卡| 男人舔奶头视频| 91成人精品电影| 视频中文字幕在线观看| 国产女主播在线喷水免费视频网站| 国产91av在线免费观看| 亚洲精品国产色婷婷电影| 精品国产一区二区三区久久久樱花| 丰满饥渴人妻一区二区三| 国产一区亚洲一区在线观看| 岛国毛片在线播放| 亚洲精品第二区| 亚洲一级一片aⅴ在线观看| 精品少妇黑人巨大在线播放| 国产片特级美女逼逼视频| 视频区图区小说| kizo精华| 日本欧美国产在线视频| 日韩伦理黄色片| 人人妻人人看人人澡| 亚洲国产最新在线播放| 亚洲精品,欧美精品| 精品久久久噜噜| 一二三四中文在线观看免费高清| 亚洲一区二区三区欧美精品| 久久久a久久爽久久v久久| 久久精品久久精品一区二区三区| 国产永久视频网站| 新久久久久国产一级毛片| 天美传媒精品一区二区| 久久热精品热| 中文在线观看免费www的网站| 亚洲精品久久午夜乱码| 久久久久久久久久久久大奶| 精品亚洲成a人片在线观看| 精品少妇久久久久久888优播| 成人毛片60女人毛片免费| 99久久人妻综合| 在线观看美女被高潮喷水网站| 国产成人精品无人区| 国产在线一区二区三区精| 欧美日韩视频高清一区二区三区二| 天天操日日干夜夜撸| av在线app专区| 欧美日韩视频高清一区二区三区二| 中文天堂在线官网| videos熟女内射| 亚洲,一卡二卡三卡| 2022亚洲国产成人精品| 成人综合一区亚洲| 热re99久久国产66热| 黄片无遮挡物在线观看| 乱系列少妇在线播放| 久久 成人 亚洲| 在线看a的网站| 99久久人妻综合| 日本av手机在线免费观看| 美女大奶头黄色视频|