• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    題目位置效應(yīng)的概念及檢測(cè)*

    2018-02-04 13:02:08聶旭剛張纓斌何引紅
    心理科學(xué)進(jìn)展 2018年2期
    關(guān)鍵詞:效應(yīng)情境影響

    聶旭剛 陳 平 張纓斌 何引紅

    (1北京師范大學(xué)中國(guó)基礎(chǔ)教育質(zhì)量監(jiān)測(cè)協(xié)同創(chuàng)新中心; 2北京師范大學(xué)教育學(xué)部;3北京師范大學(xué)數(shù)學(xué)科學(xué)學(xué)院, 北京 100875)

    1 引言

    在1984年至1986年的美國(guó)教育進(jìn)展評(píng)估項(xiàng)目(The National Assessment of Educational Progress,NAEP)中, 9歲和17歲受測(cè)群體的閱讀成績(jī)出現(xiàn)難以置信的異常下降, 這一事件引發(fā)一項(xiàng)為期 3年的調(diào)查研究, 也即后來被大家所熟知的“1986年NAEP閱讀異常研究” (詳見Beaton et al., 1988;Beaton & Zwick, 1990)。后續(xù)研究表明:導(dǎo)致這一現(xiàn)象的主要原因是NAEP中題冊(cè)間錨題位置與情境的變化(Zwick, 1991)。這一現(xiàn)象作為測(cè)量領(lǐng)域的一個(gè)警鐘, 提醒研究者們:題目位置和情境的變化會(huì)對(duì)受測(cè)者的作答反應(yīng)產(chǎn)生不容忽視的影響,尤其是在測(cè)驗(yàn)等值設(shè)計(jì)中。

    目前, 測(cè)驗(yàn)中因題目位置變化所產(chǎn)生的影響,主要是從題目位置變化如何影響題目參數(shù)的角度進(jìn)行探究。在此背景下, 本文將題目位置效應(yīng)(Item Position Effect, IPE)定義為:在剔除隨機(jī)誤差的影響之后, 同一個(gè)題目在不同測(cè)驗(yàn)間因題目位置的變化而導(dǎo)致題目參數(shù)的變化。由上述定義并結(jié)合以往研究, 可以看出 IPE會(huì)對(duì)依賴于項(xiàng)目反應(yīng)理論(Item Response Theory, IRT)參數(shù)不變性(parameter invariance)1特征的相關(guān)應(yīng)用、測(cè)驗(yàn)公平性以及考生的作答心理等方面造成不利影響。

    首先, 在心理與教育測(cè)量中, 參數(shù)不變性特征是IRT的最大優(yōu)點(diǎn)(羅照盛, 2012)。IRT正是由于具備這一特性, 才使得它在指導(dǎo)題庫(kù)建設(shè)、計(jì)算機(jī)化自適應(yīng)測(cè)驗(yàn)(Computerized Adaptive Testing,CAT)中發(fā)揮著無法比擬的作用。同時(shí), 參數(shù)不變性特征也是測(cè)驗(yàn)等值技術(shù)得以實(shí)現(xiàn)的前提條件;在多種等值設(shè)計(jì)中, 非等組錨測(cè)驗(yàn)設(shè)計(jì)(Kolen,2006)是最常見的等值數(shù)據(jù)搜集方法, 這種設(shè)計(jì)通過一組內(nèi)嵌在兩個(gè)平行測(cè)驗(yàn)中的錨題來實(shí)現(xiàn)兩個(gè)測(cè)驗(yàn)間的等值。而且該設(shè)計(jì)有一個(gè)關(guān)鍵假設(shè):錨題的統(tǒng)計(jì)學(xué)特性在不同的測(cè)驗(yàn)間應(yīng)該是穩(wěn)定的,即錨題參數(shù)不變性假設(shè)。另外, 在矩陣取樣(matrix sampling)技術(shù)中, 為了實(shí)現(xiàn)不同學(xué)生之間成績(jī)的比較, 需要在不同題冊(cè)間設(shè)置相同的組塊(block)加以鏈接, 并且組塊的位置在各個(gè)題冊(cè)間也是不同的。此時(shí), 鏈接所使用題目的參數(shù)穩(wěn)定性, 對(duì)于矩陣取樣設(shè)計(jì)的有效性具有決定性影響。然而, IPE恰恰是對(duì)IRT參數(shù)不變性特征的一種違反。所以, 系統(tǒng)研究 IPE的影響, 對(duì)于確保IRT應(yīng)用優(yōu)勢(shì)的發(fā)揮、降低等值誤差、優(yōu)化矩陣取樣技術(shù)在大規(guī)模測(cè)評(píng)領(lǐng)域的應(yīng)用, 都具有十分重要的意義。

    其次, 從測(cè)驗(yàn)公平性角度來看, 一個(gè)公平的題目應(yīng)該能夠給受測(cè)者提供平等的機(jī)會(huì), 來反映他們已掌握的與測(cè)驗(yàn)?zāi)康南嚓P(guān)的技能和知識(shí)(Roever, 2005)。然而在實(shí)踐中, 題目或者測(cè)驗(yàn)水平的公平性很可能會(huì)受到題目位置、性別以及種族等因素的影響, 從而導(dǎo)致題目偏差(item bias),并最終對(duì)受測(cè)者的作答表現(xiàn)產(chǎn)生影響(Zumbo, 1999)。傳統(tǒng)的做法是從題目功能差異(Differential Item Functioning, DIF) (即題目參數(shù)值在不同子群體間存在變化)的角度來對(duì)這種偏差進(jìn)行分析, 但是也可以從IPE的角度來分析。IPE和DIF一樣都會(huì)對(duì)測(cè)驗(yàn)的公平性產(chǎn)生不利影響。但是相比較而言,DIF是從被試特征的差異來探究具有相同目標(biāo)測(cè)量結(jié)構(gòu)的個(gè)體在題目參數(shù)上的差異, 即考查題目功能所導(dǎo)致的偏差; 這種偏差是由于題目本身功能性特征所決定的, 是由于題目開發(fā)過程, 即題目設(shè)計(jì)所導(dǎo)致的; 而 IPE則是從題目特征的差異來探究題目參數(shù)穩(wěn)定性的影響, 即考查題目情境(即位置)所導(dǎo)致的偏差; 此偏差是由于題目外在情境特征所決定的, 是由于測(cè)驗(yàn)設(shè)計(jì)所導(dǎo)致的。所以, 從偏差產(chǎn)生原因的角度來看, IPE又有別于DIF, 也有國(guó)內(nèi)研究者將其歸屬為參數(shù)漂移(Item Parameter Drift, IPD)產(chǎn)生的原因, 并對(duì) IPD 與DIF進(jìn)行了系統(tǒng)地區(qū)分(葉萌, 辛濤, 2015)。

    總的來說, IPE對(duì)測(cè)驗(yàn)的公平性的不利影響主要體現(xiàn)在依據(jù)考生作答反應(yīng)對(duì)其進(jìn)行分類、選拔等政策性的決策中, 進(jìn)而會(huì)對(duì)個(gè)人錄取、學(xué)校資助、地區(qū)課程的調(diào)整產(chǎn)生較大影響(Hill, 2008;Meyers, Miller, & Way, 2009; Wise, Chia, & Park,1989)。特別是在高利害考試中, 減少這種不利因素, 可以為考生提供相同的機(jī)會(huì)、維持高水準(zhǔn)分類的準(zhǔn)確性。

    此外, 在認(rèn)知領(lǐng)域的實(shí)驗(yàn)研究中, Weinstein和 Roediger (2010)對(duì)測(cè)驗(yàn)表現(xiàn)中回顧性偏差(retrospective bias)的研究也表明:題目排列方式的不同, 會(huì)使得被試在作答動(dòng)機(jī)、自信心水平以及受測(cè)后自我成就評(píng)價(jià)等方面存在顯著的差異。這說明題目位置的變化的確關(guān)系到被試的作答心理, 進(jìn)而會(huì)影響被試的作答表現(xiàn)??荚嚤旧砭褪且环N會(huì)引起受測(cè)者應(yīng)激反應(yīng)的事件, 所以在將考試結(jié)果作為決策依據(jù)使用之前, 任何對(duì)被試的作答心理造成差異性影響的因素, 都值得對(duì)其進(jìn)行慎重且全面的考查。

    基于這一研究主題的重要性, 本文旨在對(duì)IPE進(jìn)行系統(tǒng)概括和總結(jié), 以期為測(cè)量研究者與實(shí)踐者了解IPE的研究進(jìn)展以及主要研究思路提供幫助。本文首先對(duì)IPE的相關(guān)概念(比如參數(shù)不變性、題目情境效應(yīng)、題目順序效應(yīng))進(jìn)行梳理; 然后系統(tǒng)總結(jié)檢測(cè) IPE的方法以及相應(yīng)的模型, 同時(shí)從兩個(gè)角度對(duì) IPE的解釋進(jìn)行概括; 最后, 從四個(gè)方面對(duì)今后的研究方向進(jìn)行展望。

    2 IPE的相關(guān)概念

    關(guān)于IPE的研究集中于探討其對(duì)IRT參數(shù)不變性特征違反所造成的影響, 所以本章節(jié)首先對(duì)IRT參數(shù)不變性特征進(jìn)行簡(jiǎn)要介紹。另外, 關(guān)于IPE的研究也是隨著測(cè)量技術(shù)的發(fā)展以及測(cè)量領(lǐng)域問題關(guān)注點(diǎn)的變化而不斷變化的, 所以結(jié)合這一主題的研究進(jìn)程, 我們也對(duì)這期間所涉及的與IPE相似或相關(guān)的概念進(jìn)行區(qū)分。

    2.1 IRT參數(shù)不變性特征

    參數(shù)不變性特征是IRT在測(cè)驗(yàn)領(lǐng)域最實(shí)用的特征, 等值、DIF和 IPD等研究主題都是基于參數(shù)不變性遭到違反以及由此產(chǎn)生的影響來開展相關(guān)研究的。對(duì)于參數(shù)不變性, 可以從兩個(gè)角度進(jìn)行理解:第一, 從同一總體的角度進(jìn)行理解, 即根據(jù)來自同一總體的不同樣本所估計(jì)得到的參數(shù)值不變。比如, 來自同一總體的兩批被試樣本作答同一批題目, 通過作答反應(yīng)估計(jì)得到的兩批題目參數(shù)值近似相同; 第二, 從不同總體的角度進(jìn)行理解, 即根據(jù)來自不同總體的樣本所估計(jì)得到的參數(shù)值是存在變化的(Rupp & Zumbo, 2006)。但是它們之間存在某種線性關(guān)系, 可以通過等值來進(jìn)行轉(zhuǎn)換比較。所以總的來說, 參數(shù)不變性是指:使用同一總體內(nèi)不同樣本(題目或被試樣本)所估計(jì)得到的相同被試或相同題目的參數(shù)是不變的。

    Hambleton和 Swaminathan (1985)明確表達(dá)“能力參數(shù)的估計(jì)獨(dú)立于特定的選項(xiàng)與題目”是IRT的主要特征, 也是被試間能夠進(jìn)行比較的基礎(chǔ)。Meyers等人(2009)認(rèn)為基于參數(shù)不變性特征,研究者可以將 IRT應(yīng)用到 CAT和預(yù)等值(preequating)??梢哉f, 近年來幾乎所有被記錄的、對(duì)測(cè)驗(yàn)實(shí)踐有益的發(fā)展, 都是伴隨著 IRT, 或者更確切地說, 是隨著參數(shù)不變性特征一起出現(xiàn)的(Store, 2013)。但 IPE恰恰是對(duì)這一特征的違反(Hill, 2008; Meyers et al., 2009; Wise et al., 1989),所以從這一特征在 IRT應(yīng)用中的重要地位來看,關(guān)于IPE的研究應(yīng)該引起測(cè)量領(lǐng)域相關(guān)學(xué)者的高度重視。

    2.2 IPE概念的演進(jìn)

    IPE是在剔除隨機(jī)誤差的影響之后, 同一個(gè)題目在不同測(cè)驗(yàn)間因題目位置的變化而導(dǎo)致題目參數(shù)的變化。事實(shí)上, 這一概念囊括了關(guān)于題目位置變化的所有可能情況, 其中包括單個(gè)題目的位置變化以及多個(gè)題目整體和部分的位置變化(即題目順序或情境)。常見的兩種IPE分別是練習(xí)效應(yīng)(learning effect)和疲勞效應(yīng)(fatigue effect)(Kingston & Dorans, 1984)。在非速度型測(cè)驗(yàn)2在 IPE相關(guān)研究領(lǐng)域里涉及的非速度型測(cè)驗(yàn) (unspeeded tests), 都是按照大型測(cè)評(píng)公司的經(jīng)驗(yàn)法則進(jìn)行定義:可以滿足100%被試完成75%的題目, 或者不少于80%的被試完成100%的測(cè)驗(yàn)題目。中,存在的疲勞效應(yīng), 會(huì)使得位于測(cè)驗(yàn)尾部的題目難度增大; 反之, 練習(xí)效應(yīng)會(huì)使得位于測(cè)驗(yàn)尾部的題目難度降低。

    對(duì)以往研究進(jìn)行梳理發(fā)現(xiàn), 題目情境效應(yīng)(item context effect)與題目順序效應(yīng)(item order effect)本質(zhì)上都是研究題目位置改變所產(chǎn)生的影響, 所以兩者都可以歸屬于 IPE的概念范疇, 接下來對(duì)它們以及彼此的關(guān)系進(jìn)行簡(jiǎn)要說明。

    2.2.1 題目情境效應(yīng)

    Leary和 Dorans (1985)以及 Davey和 Lee(2010, 引自 Store, 2013)等人將題目情境效應(yīng)定義為:受測(cè)者在題目上的作答反應(yīng)直接或間接地受除“測(cè)驗(yàn)想要測(cè)量的主要特質(zhì)或構(gòu)念”以外一些因素的影響而發(fā)生變化。這些影響因素具體包括:題目在測(cè)驗(yàn)中的位置(Hill, 2008; Meyers et al.,2009; Whitely & Dawis, 1976; Yen, 1980)、措辭、內(nèi)容、格式(Kingston & Dorans, 1984; Zwick, 1991)以及該題目周圍的其他題目的特殊特征(Davis &Ferdous, 2005; Haladyna, 1992)。由于題目的位置是題目所在情境的一部分, 因而, IPE可以被看作是題目情境效應(yīng)的特例。

    但是, 研究表明:在因情境變化而對(duì)被試能力估計(jì)產(chǎn)生影響的各種因素中, 題目位置變化的影響是最為顯著的(Leary & Dorans, 1985), 因而研究者也集中于探討位置因素的影響。所以本文認(rèn)為在心理與教育測(cè)量情境下, 關(guān)于題目情境效應(yīng)的研究, 如果主要討論的是題目情境因素中位置因素對(duì)被試作答表現(xiàn)的影響, 題目情境效應(yīng)就是特指IPE。

    2.2.2 題目順序效應(yīng)

    早期的成就測(cè)驗(yàn)中, 經(jīng)常通過保持測(cè)驗(yàn)內(nèi)容不變而改變題目順序的方式, 來防止考生抄襲,提高考試安全性。自Mollenkopf (1951)發(fā)現(xiàn)題目順序的變化會(huì)對(duì)題目難度、區(qū)分度有顯著影響后,很多研究者都開始探究不同題目排列方式對(duì)測(cè)驗(yàn)總分的影響(Brenner, 1964; Hanson, 1996; Monk &Stallings, 1970; Moses, Yang, & Wilson, 2007)。題目順序效應(yīng)是指一組題目由于題目間順序的變化所帶來的對(duì)受測(cè)者作答結(jié)果的影響。即同一組題目以不同的順序呈現(xiàn)給同一總體內(nèi)兩組不同的被試作答, 考察兩組被試在同一組題目上作答結(jié)果的差異。

    綜合以往的文獻(xiàn)描述, 可以將題目順序和題目位置的研究問題都?xì)w為題目排列(item arrangement)方式的研究范疇3題目排列方式即對(duì)題目組合設(shè)計(jì)(如題目順序、題目位置)的總稱, 表示按照某種設(shè)計(jì)對(duì)題目進(jìn)行編排和安放。進(jìn)一步細(xì)分, 題目排列方式還包含:題目的難易排列、按照課程教學(xué)順序排列等。在本文中, 我們統(tǒng)一將其納入題目順序效應(yīng)的范疇內(nèi)。因?yàn)橐酝诳疾槠溆绊憰r(shí), 都是以多個(gè)題目間順序改變的形式, 從測(cè)驗(yàn)整體層面上來考察其對(duì)被試作答的影響。。本質(zhì)上, 題目順序效應(yīng)是 IPE在測(cè)驗(yàn)層面的概念, 是同一研究問題在不同研究階段的名稱, 兩者可以統(tǒng)稱為IPE。兩者的關(guān)系詳見表1。

    事實(shí)上, 這一研究主題下的研究視角由測(cè)驗(yàn)整體層面過渡到單個(gè)題目層面的轉(zhuǎn)換, 得益于 70年代末等值技術(shù)的應(yīng)用——由于在等值設(shè)計(jì)中涉及錨題的使用, 所以在基于 IRT的等值設(shè)計(jì)中,錨題參數(shù)穩(wěn)定性的相關(guān)研究, 使得關(guān)于題目排列順序?qū)忌鞔鸨憩F(xiàn)影響的探究從多個(gè)題目順序?qū)用孓D(zhuǎn)換到單個(gè)題目層面。此后, 越來越多的研究者(Debeer & Janssen, 2013; Hartig & Buchholz,2012; Hecht, Weirich, Siegle, & Frey, 2015; Meyers et al., 2009; Qian, 2014; Weirich, Hecht, Penk,Roppelt, & B?hme, 2017), 開始從題目層面上考察單個(gè)題目位置的改變對(duì)測(cè)驗(yàn)題目或者被試作答造成的影響。

    總的來說, 以往基于測(cè)驗(yàn)總體層面對(duì)題目順序效應(yīng)的研究, 存在以下的問題:首先, 這些研究?jī)H僅是對(duì)某一組特殊的題目進(jìn)行題目順序效應(yīng)的研究, 其結(jié)論很難推論到其他測(cè)驗(yàn)形式中; 其次,對(duì)于題目順序效應(yīng)的研究被限定在:不同題冊(cè)間題目相同只有題目順序不同的等組設(shè)計(jì)中; 最后,這些研究?jī)H僅關(guān)注題目順序效應(yīng)對(duì)測(cè)驗(yàn)總分的影響, 限制了對(duì)這種效應(yīng)的進(jìn)一步解釋, 從而導(dǎo)致IPE可能會(huì)在不同的測(cè)驗(yàn)間相互抵消, 進(jìn)而無法得到檢測(cè)。

    表1 題目位置效應(yīng)和題目順序效應(yīng)的區(qū)別和聯(lián)系

    3 題目位置效應(yīng)的檢測(cè)和解釋

    IPE的一般研究思路是:首先, 所考查的測(cè)驗(yàn)必須包括兩個(gè)或多個(gè)題冊(cè), 部分或所有題目在不同題冊(cè)中的位置不同。然后, 將不同題冊(cè)隨機(jī)分配給不同的被試作答, 獲得數(shù)據(jù)后進(jìn)行參數(shù)估計(jì),再考察題目參數(shù)與題目位置的關(guān)系??偨Y(jié)以往研究對(duì) IPE建模的程序, 可以將IPE的研究方法分為兩步法和一步法。

    3.1 兩步法

    兩步法是先對(duì)同一題目在不同題冊(cè)中的參數(shù)值分別進(jìn)行估計(jì), 再通過t檢驗(yàn)、方差分析、相關(guān)分析或回歸分析等統(tǒng)計(jì)方法檢驗(yàn)相同題目在不同位置時(shí)的參數(shù)是否有差異, 據(jù)此來判斷 IPE是否存在以及其對(duì)題目參數(shù)的影響(e.g., Meyers et al.,2009; Whitely & Dawis, 1976; Yen, 1980)。以往基于兩步法的研究主要在以下三個(gè)情境下對(duì)IPE進(jìn)行研究:

    首先, 在一般的測(cè)驗(yàn)情境下。Kingston和Dorans(1982, 1984)、Whitely 和 Dawis (1976)、Yen (1980)通過相關(guān)分析考查了題目位置的改變對(duì)經(jīng)典測(cè)驗(yàn)理論(Classical Test Theory, CTT)中的通過率, 以及IRT中Rasch難度參數(shù)的影響。這些研究都比較一致地發(fā)現(xiàn)疲勞效應(yīng), 其中 Yen (1980)進(jìn)一步分析后認(rèn)為:相對(duì)于測(cè)驗(yàn)尾部的題目考生會(huì)更認(rèn)真對(duì)待位于測(cè)驗(yàn)前端的題目, 因而將疲勞效應(yīng)解釋為受測(cè)者缺乏耐心。這種對(duì)于疲勞效應(yīng)的理解很具前瞻性, 與近期將 IPE理解為考生努力或者毅力的思路相一致(Debeer, Buchholz, Hartig &Janssen, 2014; Hartig & Buchholz, 2012), 這也進(jìn)一步佐證了在下一步研究中可以將IPE看作為獨(dú)立于目標(biāo)考查維度之外的新維度。

    其次, 在測(cè)驗(yàn)等值情境下。Davis和 Ferdous(2005)、Eignor和 Cook (1983) 以及Meyers等人(2009)分別考查預(yù)試測(cè)驗(yàn)(field testing)和正式測(cè)驗(yàn)(living testing)中錨題位置變化對(duì)其題目參數(shù)的影響。研究一致發(fā)現(xiàn)當(dāng)錨題位于預(yù)試和正式測(cè)驗(yàn)的不同位置時(shí), 錨題的 Rasch難度參數(shù)值不同; 而且當(dāng)預(yù)試測(cè)驗(yàn)中的題目, 在正式測(cè)驗(yàn)中的位置越往測(cè)驗(yàn)尾部變化時(shí), 其難度估計(jì)值越大。Meyers等人(2009)認(rèn)為當(dāng)預(yù)試中難度值較小的題目位于正式測(cè)驗(yàn)的前端位置、難度值較大的題目位于正式測(cè)驗(yàn)的尾部時(shí), 存在顯著的與測(cè)驗(yàn)等值設(shè)計(jì)相關(guān)的IPE。這說明IPE的確會(huì)對(duì)以IRT為基礎(chǔ)的等值設(shè)計(jì)的實(shí)現(xiàn)有不利影響, 而且這種不利影響對(duì)低能力水平的被試更為明顯。

    最后, 在CAT情境下。Wise等(1989)分析軍隊(duì)計(jì)算機(jī)化自適應(yīng)選拔測(cè)試(Army's Computerized Adaptive Screening Test, CAST)中的詞匯知識(shí)和算術(shù)推理測(cè)驗(yàn)。研究結(jié)果表明同一個(gè)題目位于測(cè)驗(yàn)后半部分時(shí)比位于前半部分時(shí)的通過率更低、難度估計(jì)值更大, 即題目位置的改變會(huì)產(chǎn)生疲勞效應(yīng); 并且平均通過率達(dá) 75%及以上的題冊(cè)中疲勞效應(yīng)并不顯著, 而平均通過率只有 50%的題冊(cè)中疲勞效應(yīng)顯著, 即低能力水平的被試更易受疲勞效應(yīng)的影響。

    在兩步法的研究方法下, 也有少部分研究考查 IPE對(duì)題目區(qū)分度的影響, 結(jié)果表明在教育測(cè)驗(yàn)中相對(duì)于對(duì)題目區(qū)分度參數(shù)的影響, IPE對(duì)題目難度參數(shù)的影響更為明顯(Kingston & Dorans, 1982;Yen, 1980)??傮w上, 兩步法下的研究結(jié)果都一致地發(fā)現(xiàn)了疲勞效應(yīng), 但是針對(duì)這一發(fā)現(xiàn)研究者們也指出, 必須要首先明晰速度型測(cè)驗(yàn)或者測(cè)驗(yàn)長(zhǎng)度對(duì)受測(cè)者的作答反應(yīng)有怎樣的影響(Davis &Ferdous, 2005; Yen, 1980)。

    兩步法的最大優(yōu)勢(shì)是數(shù)據(jù)分析時(shí)的簡(jiǎn)便性,甚至可以在CTT的框架下通過比較同一題目在不同位置時(shí)的通過率、題總相關(guān)系數(shù)等檢測(cè)測(cè)驗(yàn)中是否存在 IPE。但是, 兩步法也有一些不足:(1)為了將不同題冊(cè)中的題目參數(shù)鏈接到同一量尺上, 錨題在不同題冊(cè)中需要處于相同的位置; (2)沒有考慮題目參數(shù)的測(cè)量誤差。具體來說, 兩步法將參數(shù)估計(jì)和IPE檢測(cè)分開進(jìn)行:第一步得到題目參數(shù)估計(jì)值, 第二步將參數(shù)估計(jì)值和題目位置分別看成因變量和自變量, 并通過方差分析、回歸分析等統(tǒng)計(jì)方法檢測(cè) IPE的存在。這樣, 在第二步分析位置對(duì)題目參數(shù)的影響時(shí)假定題目參數(shù)估計(jì)值不含測(cè)量誤差, 這樣很可能使得分析結(jié)果出現(xiàn)偏差; (3)易受樣本量的影響。Li, Cohen和 Shen(2012)指出, 當(dāng)不同題冊(cè)上的樣本量較小時(shí), 使用兩步法是不切實(shí)際的(尤其是對(duì)于 CAT而言),因?yàn)闃颖玖刻?huì)導(dǎo)致題目參數(shù)估計(jì)值存在較大誤差, 使得對(duì)IPE的檢測(cè)存在困難。

    3.2 一步法

    一步法是直接對(duì) IPE進(jìn)行建模, 即在模型中加入“位置效應(yīng)參數(shù)”, 并將被試在所有題冊(cè)上的作答數(shù)據(jù)放在一起進(jìn)行參數(shù)估計(jì)。通過比較包含與不包含“位置效應(yīng)參數(shù)”的模型的擬合度, 以及檢驗(yàn)“位置效應(yīng)參數(shù)”是否顯著不為零, 來判斷是否存在 IPE。相對(duì)于兩步法, 一步法具有以下優(yōu)勢(shì):(1)在模型中加入了量化位置效應(yīng)的參數(shù), 可以實(shí)現(xiàn)題目本身的難度參數(shù)和題目位置參數(shù)的分離, 進(jìn)而實(shí)現(xiàn)對(duì) IPE更精確的分析; (2)在實(shí)現(xiàn)對(duì)題目參數(shù)和位置參數(shù)進(jìn)行分離的同時(shí), 也可以實(shí)現(xiàn)對(duì)二者的同時(shí)估計(jì); 同時(shí)估計(jì)考慮了參數(shù)的測(cè)量誤差, 分析結(jié)果更為精確。此外, 一步法主要是在解釋性項(xiàng)目反應(yīng)理論(Explanatory Item Response Theory, EIRT) (De Boeck & Wilson, 2004)的框架下構(gòu)建各類模型以實(shí)現(xiàn)對(duì) IPE的檢測(cè), 這一框架下的模型不僅可以用于實(shí)現(xiàn)對(duì) IPE的檢測(cè), 也可以用于下一步的研究中實(shí)現(xiàn)對(duì) IPE的解釋(比如Debeer & Janssen, 2013)。

    已有研究主要是基于將Rasch模型4關(guān)于 IPE對(duì)于題目區(qū)分度參數(shù)影響的研究主要集中于人格測(cè)驗(yàn)中(Hamilton & Shuminsky, 1990; Steinberg, 1994)。而在成就測(cè)驗(yàn)領(lǐng)域中, 這種影響只在極少數(shù)研究中得到證實(shí)。而本文所討論的情境主要集中于成就測(cè)驗(yàn)領(lǐng)域, 因而所考慮的模型主要基于Rasch模型。進(jìn)行擴(kuò)展后的模型對(duì) IPE進(jìn)行建模, 主要關(guān)注位置效應(yīng)對(duì)題目難度參數(shù)的影響。公式(1)所示的模型(即模型1。注:以下每個(gè)公式都代表一種特定的模型)是對(duì)Rasch模型進(jìn)行l(wèi)ogit變換后的形式, 其中l(wèi)ogit(Ypik=1)即 ln{ P (Ypik=1)/[1-P (Ypik=1)]},表示發(fā)生比的自然對(duì)數(shù),Ypik表示被試p在位于k位置的題目i上的作答反應(yīng),θp表示被試p的能力水平,βik表示題目i的難度參數(shù)5常見的 Rasch模型其難度參數(shù) βi在 IPE的研究情境下可以表示βik, 即題目i在位置k時(shí)的難度, 只是在一般情境下,題目的位置不變或者忽略IPE的影響, 于是將βik 簡(jiǎn)寫成βi 。。在模型1中加入“位置效應(yīng)參數(shù)”——f(p,i,k)后得到模型2, 模型2是位置效應(yīng)模型的統(tǒng)一表達(dá),f(p,i,k)代表位置效應(yīng)參數(shù)是關(guān)于題目i、被試p以及位置k的函數(shù)。

    根據(jù)研究假設(shè)或f(p,i,k)表達(dá)形式的不同,可以將一步法范式下的位置效應(yīng)模型分為三類:第一類模型假設(shè)位置效應(yīng)只與題目位置有關(guān), 而與題目和被試無關(guān), 即f(p,i,k)=f(k); 第二類模型假設(shè)位置效應(yīng)取決于題目位置與題目的交互作用, 即f(p,i,k)=f(i,k); 第三類模型假設(shè)位置效應(yīng)取決于題目位置與被試能力的交互作用, 即f(p,i,k)=f(p,k)。

    3.2.1 第一類模型——主效應(yīng)模型

    第一類模型假設(shè)題目位置效應(yīng)獨(dú)立于題目和被試, 只取決于題目位置。也即同一測(cè)驗(yàn)中的所有題目在同一位置上的位置效應(yīng)值相同。

    Kubinger (2008, 2009)和Hohensinn, Kubinger,Reif, Schleich和Khorramdel (2011)等人詳述了如何基于線性邏輯斯蒂克模型(Linear Logistic Test Model, LLTM)實(shí)現(xiàn)對(duì) IPE的一步法檢測(cè)。LLTM是將 Rasch模型里的題目難度參數(shù)分解為多種基本認(rèn)知成分的線性組合而得到的(Fischer, 1973),即。其中βik表示 Rasch模型中第i個(gè)題目在第k個(gè)位置時(shí)的難度參數(shù),ηj表示第j個(gè)基本認(rèn)知成分的估計(jì)難度,qij表示在一定理論基礎(chǔ)上每個(gè)認(rèn)知成分j影響題目i解答的假定概率,即認(rèn)知成分ηj在題目i上的權(quán)重。若將分解為令(r表示基線成分或目標(biāo)特質(zhì))表示當(dāng)題目i在各測(cè)驗(yàn)或題冊(cè)中位置不變時(shí)其基準(zhǔn)難度值(或者稱在參考位置時(shí)的難度值)。而令(k表示位置成分)用來量化 IPE, 表示由于位置改變所構(gòu)成的難度值, 即題目在位置k時(shí)相較于參考位置其難度值的變化量。此時(shí),可看作總題目難度值, 即可得到模型3:

    將模型 3進(jìn)行 logit轉(zhuǎn)換可得到模型 4-1, 此時(shí)f(p,i,k)=f(k)=δk。

    由于模型4-1中并沒有添加任何關(guān)于IPE的實(shí)質(zhì)結(jié)構(gòu), 所以對(duì)模型進(jìn)行進(jìn)一步限定, 將 IPE的值看作是關(guān)于題目位置的函數(shù), 即將題目位置當(dāng)作一個(gè)解釋性的題目特征加入作答反應(yīng)函數(shù)(De Boeck & Wilson, 2004)。所以在Rasch 模型下,假定難度變化量隨題目位置k線性變化, 即可得到模型 4-2, 其中γ表示位置效應(yīng)的單位改變量,即題目相對(duì)于參考位置每變化1個(gè)題目位置其難度的變化量。若γ顯著不為零, 即表明測(cè)驗(yàn)中IPE的存在。進(jìn)一步來講, 當(dāng)γ>0時(shí), 表示存在疲勞效應(yīng);γ<0時(shí), 則表示存在練習(xí)效應(yīng)。此時(shí)f(k)=γ(k?1)。

    如果難度變化量隨位置k非線性變化, 則f(k)可以表示為k的二次函數(shù)、指數(shù)函數(shù)等。以二次函數(shù)為例,f(k)=γ1(k–1)+ γ2(k–1)2, 即可得模型4-3 (Kang, 2014):

    值得注意的是, 在實(shí)際問題中, 如果直接在模型中加入二次項(xiàng)系數(shù)來模擬難度變化量隨位置的非線性變化關(guān)系, 則很難對(duì)該系數(shù)進(jìn)行解釋。

    第一類模型假設(shè)位置效應(yīng)的產(chǎn)生獨(dú)立于題目和被試, 僅受題目位置的影響, 以此來對(duì) IPE進(jìn)行直接建模。這時(shí)得到的位置參數(shù)反映了IPE在所有考生、所有題目上的平均效應(yīng), 也只能獲悉考生能力在測(cè)試過程中的一般變化規(guī)律, 而無法對(duì)不同題目的位置效應(yīng)情況以及IPE在個(gè)體間的差異進(jìn)行探究。此外, Kubinger (2008, 2009)提出基于 LLTM 來檢測(cè) IPE, 實(shí)際上是從題目角度出發(fā)來對(duì)IPE進(jìn)行研究, 可以看作是在EIRT框架下進(jìn)行IPE檢測(cè)以及解釋性研究的起點(diǎn)。但是這一方法下的研究存在一個(gè)明顯的悖論, 即從題目角度模擬IPE, 但從被試角度來解釋IPE (如疲勞效應(yīng))。

    3.2.2 第二類模型——題目位置與題目間的交互作用

    第二類模型假設(shè)位置效應(yīng)受題目位置與題目交互作用的影響, 即不同題目在參照位置和k位置之間的難度變化不同。

    若模型 4-1和 4-2的位置效應(yīng)參數(shù)與題目i有關(guān), 即f(p,i, k)=f(i,k)=δik以及f(p,i,k)=γi(k–1), 即可得到模型5-1和5-2 (Debeer & Janssen,2013):

    值得注意的是模型5-1中δik與模型4-1中δk的區(qū)別, 他們分別表示不同題目i在參照位置和k位置之間的難度變化是不同以及相同的, 即難度的變化受到以及不受到題目?jī)?nèi)容的影響。此時(shí)可以令δik=δk + δik', 其中δk即模型 4-1 中位置的主效應(yīng), 也可以理解為平均的位置效應(yīng),δik'則是位置k與題目i交互作用的效應(yīng)值。相應(yīng)地, 在模型5-2 中令γi=γ + γi', 代入公式后γ(k?1)即模型 4-2中位置的主效應(yīng),γi' (k?1)是題目i與位置交互作用的位置效應(yīng)值。若此時(shí)γi顯著不為零, 則表明IPE的確存在; 且可以通過比較模型5-2和4-2對(duì)同一測(cè)驗(yàn)結(jié)果的擬合度(如AIC、BIC值)是否存在差異, 來判斷是否存在題目位置與題目的交互效應(yīng)。此外, Kang (2014) 還給出交互效應(yīng)的二次函數(shù)表達(dá)式, 即模型5-3:

    Albano (2013)使用模型5-1和5-2研究GRE詞匯和數(shù)學(xué)測(cè)試, 發(fā)現(xiàn)位置與題目間存在顯著的交互作用, 從而證實(shí) IPE在不同題目間存在顯著的差異。另外, Kingston和Dorans (1984)對(duì)不同題目類型中 IPE的差異性進(jìn)行研究, 結(jié)果表明:在語(yǔ)文題(verbal items)、數(shù)學(xué)題(quantitative items)以及分析題(analytical items)三種題型中, 分析題受到題目位置的影響最大, 其次是數(shù)學(xué)題, 而且都是練習(xí)效應(yīng)。這也說明第二類模型假設(shè)位置效應(yīng)受題目位置與題目的交互作用影響的合理性。

    雖然第二類模型在第一類模型的基礎(chǔ)上考慮了題目位置與題目交互作用的影響, 使得每個(gè)題目都有一個(gè)位置參數(shù)。但是, 第二類模型也是從題目角度來對(duì) IPE進(jìn)行解釋性研究, 仍存在模擬和解釋IPE不一致的問題。

    3.2.3 第三類模型——題目位置與被試間的交互作用

    第三類模型假設(shè)位置效應(yīng)受題目位置與被試交互作用的影響, 即不同位置的題目其難度的變化受個(gè)體差異的影響。

    由于不能直接對(duì)模型4-1的位置效應(yīng)參數(shù)加上被試p下標(biāo), 所以此處我們只討論基于模型4-2得到的交互作用模型, 即f(p,i,k)=f(p,k)=γp(k–1)時(shí)的模型(Hartig & Buchholz, 2012):

    其中γp服從正態(tài)分布, 表示對(duì)于被試p, 題目相對(duì)于參考位置每變化1個(gè)題目位置其難度的變化量。相應(yīng)地, 可以令γp=γ+γp¢, 代入公式 6 后γ(k?1)表示所有被試每答完一道題的平均能力變化量。同樣, 若γp顯著不為零, 則表明 IPE的確存在; 也可以計(jì)算γp與θp的相關(guān)系數(shù), 以此來判斷 IPE 在個(gè)體間的差異。γp¢ (k?1)表示被試p與位置交互作用的位置效應(yīng)值, 反映被試p每答完一道題其能力在多大程度上(即γp¢絕對(duì)值的大小)、往何種方向(即γp¢的正、負(fù)號(hào))偏離所有被試的平均能力變化量; 而且γp¢可以看作獨(dú)立于目標(biāo)考查維度之外的新維度, 如考生毅力(persistence)或考生努力(examinee effort) (Hartig & Buchholz, 2012;Debeer et al., 2014 )。

    IPE的本質(zhì)是被試在測(cè)驗(yàn)過程中能力的變化,不同被試在測(cè)驗(yàn)過程中的能力變化必然存在個(gè)體差異。因而第三類模型是最符合實(shí)際情況的, 即模型中每個(gè)被試都有位置參數(shù), 可以得到位置效應(yīng)對(duì)不同被試的影響。此外, Debeer和 Janssen(2013)還對(duì)一步法下的三種建模方法進(jìn)行比較研究, 著重強(qiáng)調(diào)了“IPE應(yīng)被解釋為與被試相關(guān)的某種特質(zhì)”, 并指出下一步的研究重點(diǎn)是“對(duì)檢測(cè)出的效應(yīng)進(jìn)行進(jìn)一步的解釋”, 即對(duì)IPE所代表的新維度進(jìn)行解釋。

    總的來說, 基于 IRT框架的一步法在檢測(cè)IPE時(shí)有以下優(yōu)勢(shì):(1)可以將題目位置與設(shè)計(jì)中的其他題目特征區(qū)分開來, 這樣就可以得到不同的模型, 比如前面討論的三類模型; (2)只要兩個(gè)測(cè)驗(yàn)之間存在錨題, 就可將 IPE當(dāng)作題目本身的屬性進(jìn)行考查, 即模型并不局限于等組設(shè)計(jì), 在復(fù)雜的非等組設(shè)計(jì)中同樣適用; (3)將IPE對(duì)測(cè)驗(yàn)總分的影響, 看作其對(duì)單個(gè)題目分?jǐn)?shù)影響的總和,從而實(shí)現(xiàn)在測(cè)驗(yàn)分?jǐn)?shù)水平對(duì)IPE的考查。比如, 通過測(cè)驗(yàn)特征曲線可以概述IPE對(duì)測(cè)驗(yàn)總分期望值的影響(Debeer & Janssen, 2013); (4)在題目水平模擬 IPE有助于對(duì)所發(fā)現(xiàn)效應(yīng)的解釋, 比如個(gè)體協(xié)變量(如性別和測(cè)驗(yàn)動(dòng)機(jī)等)可用于解釋 IPE所代表的新維度。

    除了上述基于 Rasch模型的擴(kuò)展模型進(jìn)行建模的方法外, 一步法下的建模思路還可以基于多水平 IRT的視角, 對(duì)題目位置的主效應(yīng)和交互效應(yīng)進(jìn)行探究, 即將題目位置作為題目水平的預(yù)測(cè)變量加入第一水平, 通過定義其第二水平的隨機(jī)性來確定IPE的類型。

    3.2.4 多水平IRT的視角

    實(shí)質(zhì)上, 這一研究視角是EIRT框架下研究方法的一種變式。兩水平的IRT模型即多水平線性模型中的零模型(劉紅云, 駱方, 2008) 如下所示:

    其中p表示被試,i表示題目,k表示位置,N是題目數(shù);Xqip是第p個(gè)被試對(duì)應(yīng)的第q個(gè)虛擬變量(q=1, 2, …,N-1), 當(dāng)q=i時(shí),Xqip=1, 否則Xqip=0。u0p服從均值為0的正態(tài)分布, 可視為被試p的能力值;γ00可視為第N個(gè)題目的容易度(easiness),γq0可視為第q個(gè)題目與第N個(gè)題目容易度的差值。根據(jù)混合模型(mixed models), 可以得到第i個(gè)題目的 Rasch 難度值:– γq0– γ00。

    Albano (2013)詳述了如何根據(jù)多水平IRT從主效應(yīng)和交互效應(yīng)角度檢測(cè) IPE。如果位置效應(yīng)獨(dú)立于題目和被試, 在模型 7的水平 1中加入位置效應(yīng)參數(shù)作為預(yù)測(cè)變量, 即可得主效應(yīng)模型8:

    其中βNp是位置的主效應(yīng),kip(kip=1, 2,…,N)是被試p作答的題目i(也即q=i)所處的位置,γN0為位置的固定效應(yīng), 表示所有位置間成績(jī)得分的總平均變化。模型8與模型4-2相對(duì)應(yīng)。另外, 如果位置與題目有交互作用, 則在模型 8的水平 1中再加入(N–1)個(gè)題目與位置的交互作用參數(shù), 即可得到交互效應(yīng)模型9:

    其中β(N+q)p表示題目與位置交互作用下的位置效應(yīng)。模型9與模型5-2相對(duì)應(yīng)。類似的, 如果位置與被試有交互作用, 則在模型 8中加入位置與被試交互作用參數(shù), 得到交互效應(yīng)模型10。

    此時(shí)位置效應(yīng)βNp包括兩部分:固定效應(yīng)——位置的主效應(yīng)γN0和隨機(jī)效應(yīng)——位置與被試的交互作用u1p, 而且u1p服從均值為零的正態(tài)分布。模型10與模型6相對(duì)應(yīng)。Debeer等人(2014)從多水平 IRT的視角出發(fā), 在模型中加入組水平變量來探究IPE在不同學(xué)校、國(guó)家間的差異。

    目前關(guān)于 IPE的檢測(cè)模型, 都可以看作是基于EIRT的框架下探討題目位置的主效應(yīng)、交互效應(yīng)模型。表2對(duì)檢測(cè)IPE的一步法模型進(jìn)行了詳細(xì)對(duì)比。

    表2 檢測(cè)IPE一步法的匯總

    3.2.5 參數(shù)估計(jì)

    以上模型都可歸為廣義線性混合模型(generalized linear mixed model), 可用一般的統(tǒng)計(jì)軟件實(shí)現(xiàn)模型的參數(shù)估計(jì), 比如R軟件lme4包中的lmer函數(shù)(Debeer & Janssen, 2013)以及HLM7(Hartig & Buchholz, 2012; Albano, 2013)。如果在以上模型中加入?yún)^(qū)分度, 這些模型則屬于非線性混合模型(De Boeck & Wilson, 2004), 此時(shí)可使用SAS軟件中的 NLMIXED程序包估計(jì)模型參數(shù)(Debeer & Janssen, 2013)。

    3.3 對(duì)IPE的解釋

    以往的研究主要是從題目和被試兩個(gè)角度對(duì)IPE進(jìn)行解釋。第一, 從題目角度對(duì) IPE 進(jìn)行解釋時(shí)會(huì)將題目難度參數(shù)看成多種認(rèn)知成分的線性組合(Kubinger, 2008, 2009)?;谶@一角度的研究主要從測(cè)驗(yàn)的整體層面或者單個(gè)題目層面探究題目位置改變對(duì)被試作答結(jié)果的影響, 并且根據(jù)被試作答結(jié)果的變化趨勢(shì), 將 IPE概括為練習(xí)效應(yīng)或疲勞效應(yīng)。但是這一角度的研究思路會(huì)產(chǎn)生一個(gè)悖論, 即模擬時(shí)從題目角度出發(fā), 但解釋時(shí)是從被試角度來解釋, 比如疲勞效應(yīng)。這一悖論會(huì)使得研究者不能清楚理解IPE或其所指代的真正含義。

    第二, 從被試角度對(duì)IPE進(jìn)行解釋, 即將IPE看作獨(dú)立于目標(biāo)考查維度之外的新維度。Hartig和Buchholz (2012)提出的被試和題目的交互效應(yīng)模型, 首次將 IPE看作獨(dú)立于能力維度之外的新維度, 并且標(biāo)記為毅力。另外, Debeer等人(2014)在Hartig和Buchholz (2012)的研究基礎(chǔ)上, 將位置效應(yīng)維度理解為考生努力, 并且使用多水平IRT對(duì) IPE進(jìn)行校際、國(guó)家之間的比較。雖然這些研究將 IPE看成新維度, 但是對(duì)新維度的定義缺乏相應(yīng)的理論支持; 而且研究者往往基于個(gè)人經(jīng)驗(yàn)和實(shí)際研究中的方便, 將 IPE所代表的新維度定義為考生毅力或考生努力, 仍沒有研究加入與個(gè)體有關(guān)的預(yù)測(cè)變量來對(duì) IPE進(jìn)行解釋。同時(shí),他們也指出這一新維度還可以從動(dòng)機(jī)、測(cè)驗(yàn)過程中的學(xué)習(xí)能力等特質(zhì)因素來理解(Hartig & Buchholz,2012)。所以, 目前這一新維度表示什么特質(zhì)尚未有定論。

    4 討論與展望

    IRT依賴其參數(shù)不變性特征, 在測(cè)驗(yàn)等值、CAT、題庫(kù)建設(shè)以及大規(guī)模測(cè)評(píng)中的抽樣設(shè)計(jì)等方面做出突出的貢獻(xiàn), 大大豐富了測(cè)驗(yàn)理論及其在實(shí)踐中的應(yīng)用。在這些應(yīng)用過程中, 也需要不斷檢驗(yàn)參數(shù)不變性特征是否能夠得到滿足。而IPE是對(duì) IRT參數(shù)不變性的直接違反, 因而會(huì)對(duì)基于該特征的相關(guān)應(yīng)用產(chǎn)生直接的影響。本文首先對(duì)IRT參數(shù)不變性特征的具體含義進(jìn)行了介紹, 然后對(duì)與 IPE相關(guān)或相似的概念進(jìn)行區(qū)分, 希望能夠幫助研究者今后更全面地理解IPE的含義、了解這一主題的發(fā)展過程。本文在第三部分重點(diǎn)總結(jié)了檢測(cè) IPE的兩種主要方法——兩步法和一步法, 特別對(duì)當(dāng)前主要使用的一步法的三類建模思路進(jìn)行詳細(xì)總結(jié)。從解釋性 IRT的角度來看, 這三類建模思路實(shí)質(zhì)上也對(duì)應(yīng)著不同的IPE解釋角度, 即從題目角度或從被試角度對(duì)IPE進(jìn)行解釋。綜合以往研究的結(jié)論和局限性, IPE今后的研究方向包括以下四個(gè)方面:

    4.1 探究和開發(fā)檢測(cè)IPE的新模型、新方法

    如上文所總結(jié)的, 基于 IRT框架的一步法主要包括三類模型, 其中第一類模型所能提供的信息后兩類模型都能提供。使用第二類模型得到的結(jié)果有助于剔除那些受位置效應(yīng)影響大的題目,從而提高測(cè)試的信效度。使用第三類模型得到的結(jié)果則有助于明晰位置效應(yīng)對(duì)不同被試的作用;這也是最符合實(shí)際的一類模型, 因?yàn)?IPE的本質(zhì)是被試在測(cè)驗(yàn)過程中的能力波動(dòng), 不同被試在測(cè)驗(yàn)過程中的能力波動(dòng)理應(yīng)不同。

    一步法下的這三類模型雖然考慮了題目參數(shù)的測(cè)量誤差, 相比兩步法更精確, 但是仍存在以下不足:(1)將IPE限定在“個(gè)體對(duì)于題目的作答反應(yīng)是獨(dú)立的”, 即題目間的作答結(jié)果是相互獨(dú)立、互不影響的。但是在實(shí)際情形中該限定條件容易被違反, 比如在練習(xí)效應(yīng)中, 成功的作答相對(duì)于錯(cuò)誤的作答會(huì)產(chǎn)生更大的練習(xí)效應(yīng)。所以, 需要使用諸如動(dòng)態(tài)(dynamic) IRT模型等特殊的模型處理這類情境; (2)不能考查由一個(gè)題目先于另一個(gè)題目(比如一個(gè)難題位于一個(gè)簡(jiǎn)單題目的前面)所產(chǎn)生的效應(yīng), 這種序列效應(yīng)(sequencing effects)也是關(guān)于題目位置的函數(shù), 但是這種效應(yīng)涉及的是某題目的子集(比如一對(duì)題目), 然而目前基于IRT框架的一步法僅僅關(guān)注一個(gè)題冊(cè)內(nèi)的某個(gè)題目;(3)現(xiàn)有研究主要集中于偵查和模擬 IPE, 沒有引入與個(gè)體有關(guān)的變量對(duì)IPE進(jìn)行解釋性研究。

    鑒于以往研究已經(jīng)證明IPE可以看作是獨(dú)立于被試能力維度之外的新維度(Debeer & Janssen,2013; Hartig & Buchholz, 2012), 所以在今后的研究中可以使用多維模型來進(jìn)一步模擬和檢測(cè) IPE;還可以借鑒追蹤數(shù)據(jù)的分析方法, 將每個(gè)被試在每個(gè)題目位置的測(cè)量, 看作是追蹤研究中每個(gè)被試在每個(gè)時(shí)間點(diǎn)的測(cè)量, 并借助相關(guān)的縱向 IRT模型(Embretson, 1991; Paek, Baek, & Wilson, 2012;Roberts & Ma, 2006; Von Davier, Xu, & Carstensen,2011)進(jìn)行分析。值得注意的是, 針對(duì)一步法的建模范式, 除了 IRT的視角也可以從驗(yàn)證性因子分析的視角探究 IPE, 感興趣的讀者可以參考 Schweizer,Schreiner和 Gold (2009)以及 Schweizer, Troche和Rammsayer (2011)等。

    4.2 對(duì)檢測(cè)到的IPE進(jìn)行進(jìn)一步的解釋

    就像DIF的研究進(jìn)程一樣(Zumbo, 2007), 在檢測(cè) IPE并探究其影響之后, 下一步需要對(duì)所發(fā)現(xiàn)效應(yīng)進(jìn)行解釋(Debeer & Janssen, 2013)。研究者可以根據(jù)EIRT中的個(gè)體解釋性模型(person explanatory models) (De Boeck & Wilson, 2004), 對(duì)所發(fā)現(xiàn)的結(jié)果進(jìn)行進(jìn)一步的解釋。例如, 已有研究已經(jīng)證實(shí), 在低利害的測(cè)評(píng)中受測(cè)者會(huì)在測(cè)驗(yàn)動(dòng)機(jī)上存在顯著差異, 因此可以考慮將對(duì)被試動(dòng)機(jī)水平的自我報(bào)告測(cè)量(比如Wise & DeMars, 2005), 或者反應(yīng)時(shí)(比如Wise & Kong, 2005)加入到IRT模型中, 作為額外的被試預(yù)測(cè)變量對(duì) IPE進(jìn)行進(jìn)一步解釋。另外, Borgonovi和Biecek (2016)認(rèn)為目前在低利害的國(guó)際測(cè)評(píng)中, 所測(cè)量的實(shí)際是個(gè)體技能(skill)與意志(will)的組合, 其研究結(jié)果表明:考試毅力可以看作是學(xué)生在測(cè)驗(yàn)過程中運(yùn)用自我控制能力的函數(shù), 而且這種能力依賴于考試動(dòng)機(jī)。因而他們認(rèn)為, 考試毅力也應(yīng)該是低利害測(cè)評(píng)中所測(cè)量的維度之一。因此, 下一步的解釋性研究可以從考試毅力的角度出發(fā), 在模型中引入與個(gè)體有關(guān)的變量, 探究 IPE在個(gè)體間的差異或者個(gè)體變量對(duì)IPE的預(yù)測(cè)作用, 進(jìn)而實(shí)現(xiàn)對(duì) IPE的進(jìn)一步解釋。

    4.3 在特定情境下考察IPE

    鑒于 IPE影響的廣泛性, 以往研究結(jié)合特定的研究情境對(duì)IPE進(jìn)行多視角的探究。這些研究包括:

    首先, Talento-Miller, Rudner, Han和 Guo(2012,引自 Store,2013)在 CAT中研究 IPE, 結(jié)果表明位置的變化會(huì)對(duì)被試的作答表現(xiàn)產(chǎn)生影響(比如疲勞效應(yīng))。另外, 因題目位置變化而導(dǎo)致的參數(shù)差異值的大小, 會(huì)因具有不同反應(yīng)時(shí)的題型而變化。

    再者, 在等值設(shè)計(jì)中, Store (2013)在其博士論文中對(duì)該領(lǐng)域內(nèi)有關(guān)IPE的研究進(jìn)行了詳細(xì)論述, 并進(jìn)一步探究不同的等值設(shè)計(jì)是否會(huì)加劇或減弱 IPE。大量的研究表明:錨題位置的變化會(huì)對(duì)等值結(jié)果產(chǎn)生顯著的影響(Whitely & Dawis,1976; Yen, 1980; Davis & Ferdous, 2005; He, Gao,& Ruan, 2009)。在等值設(shè)計(jì)中, 錨題在各個(gè)題冊(cè)中都不應(yīng)該存在 DIF, 而且在各個(gè)題冊(cè)中也應(yīng)該被安排在相同的位置上(Cook & Petersen, 1987)。甚至有研究者認(rèn)為, 錨題題目選項(xiàng)的位置都不應(yīng)該被改變(Cizek, 1994)。IPE的存在會(huì)對(duì)等值技術(shù)的有效性構(gòu)成許多挑戰(zhàn)。Weirich, Hecht和B?hme (2014)還認(rèn)為在進(jìn)行任何基于錨題的鏈接設(shè)計(jì)之前, 都必須首先確定IPE在所有的樣本上是一致的。

    正如Kolen和Brennan (2004)所指出的:測(cè)驗(yàn)的開發(fā)和等值是密不可分的。我們不應(yīng)該再繼續(xù)忽略等值過程中因題目設(shè)計(jì)或測(cè)驗(yàn)開發(fā)所帶來的問題, 而應(yīng)該盡量去克服這些設(shè)計(jì)所帶來的問題。以往的研究也表明:不論題目的位置產(chǎn)生怎樣的變化(向前、向后或者向中間位置移動(dòng))都會(huì)帶來一定的影響; 從這一角度看, 建議研究者今后可以考慮更深層次的等值方法, 比如可以考慮用相同的因子載荷來代替錨題等。

    另外, 在表現(xiàn)性評(píng)價(jià)(performance assessments)中, 比如建構(gòu)反應(yīng)性試題、短文以及口頭表述等,相較于傳統(tǒng)的選擇題能更好地測(cè)量出學(xué)生在真實(shí)世界中的復(fù)雜成就和情意表現(xiàn), 因而逐漸受到各領(lǐng)域的青睞(趙德成, 2013)。但是, 對(duì)其進(jìn)行等值設(shè)計(jì)或者對(duì)不同時(shí)間段的測(cè)評(píng)結(jié)果進(jìn)行比較時(shí),則存在很大的挑戰(zhàn), 這其中就包含因題目順序變化所帶來的偏差問題(Muraki, Hombo & Lee, 2000)。

    因此, 下一步研究者除了可以繼續(xù)在這些研究主題下進(jìn)一步深化之前的研究, 也可以在其他研究情境下探討 IPE的影響。比如, 由于題組(testlet)的使用越來越普遍, 針對(duì)題組的等值和DIF都得到相應(yīng)的研究。所以相應(yīng)地, 也可以對(duì)題組位置變化的影響進(jìn)行探究。

    4.4 探究平衡或消除IPE的方法

    無論在基礎(chǔ)研究領(lǐng)域還是實(shí)踐應(yīng)用領(lǐng)域, IPE的研究都具有很大的必要性。如果忽略這一效應(yīng),將會(huì)對(duì)研究本身和實(shí)際工作產(chǎn)生一系列的不利影響(Wu, 2010; Meyers, Murphy, Goodman, & Turhan,2012; Debeer & Janssen, 2013)。所以, 探究平衡或消除IPE的方法也應(yīng)該引起研究者的關(guān)注。

    首先, 測(cè)驗(yàn)設(shè)計(jì)方面的研究表明:可以通過題目位置平衡設(shè)計(jì)的方法降低由IPE導(dǎo)致的參數(shù)變化。其基本設(shè)計(jì)是:令題目在每個(gè)位置上的呈現(xiàn)次數(shù)完全相同, 此時(shí)由于題目位置變化所產(chǎn)生的效應(yīng)量對(duì)于所有題目是相同的, 從而消除 IPE帶來的不利影響(Hecht et al., 2015; Weirich et al.,2014)。再者, 也有研究結(jié)果表明:整體移動(dòng)包含多個(gè)題目的閱讀理解題目(即題組), IPE對(duì)題目參數(shù)的影響不明顯(Haladyna, 1992)。對(duì)此有研究者分析認(rèn)為, 這主要是由于題組的移動(dòng)是按照一組題目整體移動(dòng)的, 所以這其中的單個(gè)題目就其周圍的題目而言其位置是相對(duì)不變的, 所以位置變化的影響不明顯(Store, 2013), 但這一觀點(diǎn)有待進(jìn)一步確定。

    致謝:感謝美國(guó)明尼蘇達(dá)大學(xué)王純(Chun Wang)博士和加拿大阿爾伯塔大學(xué)崔迎(Ying Cui)博士對(duì)本文的英文摘要進(jìn)行修改和潤(rùn)色, 感謝北京師范大學(xué)中國(guó)基礎(chǔ)教育質(zhì)量監(jiān)測(cè)協(xié)同創(chuàng)新中心的高一珠同學(xué)和陳冠宇同學(xué)對(duì)文章行文結(jié)構(gòu)的建議。

    劉紅云, 駱方.(2008).多水平項(xiàng)目反應(yīng)理論模型在測(cè)驗(yàn)發(fā)展中的應(yīng)用.心理學(xué)報(bào), 40(1), 92–100.

    羅照盛.(2012).項(xiàng)目反應(yīng)理論基礎(chǔ).北京: 北京師范大學(xué)出版社.

    葉萌, 辛濤.(2015).題目參數(shù)漂移: 概念厘定及相關(guān)研究.心理科學(xué)進(jìn)展, 23(10), 1859–1868.

    趙德成.(2013).表現(xiàn)性評(píng)價(jià): 歷史、實(shí)踐及未來.課程.教材.教法,(2), 97–103.

    Albano, A.D.(2013).Multilevel modeling of item position effects.Journal of Educational Measurement, 50(4),408–426.

    Beaton, A.E., Ferris, J.J., Johnson, E.G., Johnson, J.R.,Mislevy, R.J., & Zwick, R.(1988).The NAEP 1985–86 reading anomaly: A technical report.Princeton, NJ:Educational Testing Service.

    Beaton, A.E., & Zwick, R.(1990).The effect of changes in the national assessment: Disentangling the NAEP 1985–86 reading anomaly.Princeton, NJ: Educational Testing Service.

    Borgonovi, F., & Biecek, P.(2016).An international comparison of students' ability to endure fatigue and maintain motivation during a low-stakes test.Learning and Individual Differences, 49, 128–137.

    Brenner, M.H.(1964).Test difficulty, reliability, and discrimination as functions of item difficulty order.Journal of Applied Psychology, 48(2), 98–100.

    Cizek, G.J.(1994).The effect of altering the position of options in a multiple-choice examination.Educational and Psychological Measurement, 54(1), 8–20.

    Cook, L.L., & Petersen, N.S.(1987).Problems related to the use of conventional and item response theory equating methods in less than optimal circumstances.Applied Psychological Measurement, 11(3), 225–244.

    Davis, J., & Ferdous, A.(2005).Using item difficulty and item position to measure test fatigue.Paper presented at the annual meeting of the American Educational Research Association, Montreal, Quebec.

    Debeer, D., Buchholz, J., Hartig, J., & Janssen, R.(2014).Student, school, and country differences in sustained test-taking effort in the 2009 PISA reading assessment.Journal of Educational and Behavioral Statistics, 39(6),502–523.

    Debeer, D., & Janssen, R.(2013).Modeling item-position effects within an IRT framework.Journal of Educational Measurement, 50(2), 164–185.

    De Boeck, P., & Wilson, M.(2004).Explanatory item response models: A generalized linear and nonlinear approach.New York, NY: Springer.

    Eignor, D.R., & Cook, L.L.(1983).An investigation of the feasibility of using item response theory in the pre-equating of aptitude tests.Paper presented at the annual meeting of the American Educational Research Association, Montreal, Quebec.

    Embretson, S.E.(1991).A multidimensional latent trait model for measuring learning and change.Psychometrika,56(3), 495–515.

    Fischer, G.H.(1973).The linear logistic test model as an instrument in educational research.Acta Psychologica,37(6), 359–374.

    Haladyna, T.M.(1992).Context-dependent item sets.Educational Measurement: Issues and Practice, 11(1),21–25.

    Hambleton, R.K., & Swaminathan, H.(1985).Item response theory: Principles and Applications(Vol.7).Boston:Kluwer Academic Pub.

    Hamilton, J.C., & Shuminsky, T.R.(1990).Self-awareness mediates the relationship between serial position and item reliability.Journal of Personality & Social Psychology,59(6), 1301–1307.

    Hartig, J., & Buchholz, J.(2012).A multilevel item response model for item position effects and individual persistence.Psychological Test and Assessment Modeling, 54(4), 418–431.

    He, W., Gao, R., & Ruan, C.Y.(2009).Does pre-equating work? An investigation into pre-equated testlet-based college placement exam using post administration data.Paper presented at the annual meeting of the National Council on Measurement in Education, San Diego, California.

    Hecht, M., Weirich, S., Siegle, T., & Frey, A.(2015).Effects of design properties on parameter estimation in large-scale assessments.Educational and Psychological Measurement,75(6), 1021–1044.

    Hill, R.(2008).Using P-value statistics to determine the believability of equating results.Paper presented at the National Conference on student assessment, Orlando,Florida.

    Hohensinn, C., Kubinger, K.D., Reif, M., Schleicher, E., &Khorramdel, L.(2011).Analysing item position effects due to test booklet design within large-scale assessment.Educational Research and Evaluation, 17(6), 497–509.

    Hanson, B.A.(1996).Testing for differences in test score distributions using loglinear models.Applied Measurement in Education, 9(4), 305–321.

    Kang, C.(2014).Linear and nonlinear modeling of item position effects(Unpublished master’s thesis).University of Nebraska-Lincoln.

    Kingston, N.M., & Dorans, N.J.(1982).The effect of the position of an item within a test on item responding behavior: An analysis based on item response theory.Research Report RR-82–22.Princeton, NJ: Educational Testing Service.

    Kingston, N.M., & Dorans, N.J.(1984).Item location effects and their implications for IRT equating and adaptive testing.Applied Psychological Measurement,8(2), 147–154.

    Kolen, M.J.(2006).The kernel method of test equating.Psychometrika, 71(1), 211–214.

    Kolen, M.J., & Brennan, R.L.(2004).Test equating, scaling,and linking: Methods and practices.New York: Springer.

    Kubinger, K.D.(2008).On the revival of the Rasch model-based LLTM: From constructing tests using item generating rules to measuring item administration effects.Psychology Science Quarterly, 50(3), 311–327.

    Kubinger, K.D.(2009).Applications of the linear logistic test model in psychometric research.Educational and Psychological Measurement, 69(2), 232–244.

    Leary, L.F., & Dorans, N.J.(1985).Implications for altering the context in which test items appear: A historical perspective on an immediate concern.Review of Educational Research, 55(3), 387–413.

    Li, F.M., Cohen, A., & Shen, L.J.(2012).Investigating the effect of item position in computer–based tests.Journal of Educational Measurement, 49(4), 362–379.

    Meyers, J.L., Miller, G.E., & Way, W.D.(2009).Item position and item difficulty change in an IRT-Based common item equating design.Applied Measurement in Education, 22(1), 38–60.

    Meyers, J.L., Murphy, S., Goodman, J., & Turhan, A.(2012).The impact of item position change on item parameters and common equating results under the 3PL model.Paper presented at the annual meetings of the National Council on Measurement in Education,Vancouver, British Columbia.

    Mollenkopf, W.G.(1951).Prediction of second-year and third-year grade-point averages at the U.S.naval postgraduate school.ETS Research Bulletin, 1951(2), i–36.

    Monk, J.J., & Stallings, W.M.(1970).Effects of item order on test scores.Journal of Educational Research, 63(10),463–465.

    Moses, T., Yang, W.L., & Wilson, C.(2007).Using kernel equating to assess item order effects on test scores.Journal of Educational Measurement, 44(2), 157–178.

    Muraki, E., Hombo, C.M., & Lee, Y.W.(2000).Equating and linking of performance assessments.Applied Psychological Measurement, 24(4), 325–337.

    Paek, I., Baek, S.G., & Wilson, M.(2012).An IRT modeling of change over time for repeated measures item response data using a random weights linear logistic test model approach.Asia Pacific Education Review, 13(3), 487–494.

    Qian, J.H.(2014).An investigation of position effects in large-scale writing assessments.Applied Psychological Measurement, 38(7), 518–534.

    Roberts, J.S., & Ma, Q.(2006).IRT models for the assessment of change across repeated measurements.In R.W.Lissitz (Ed.),Longitudinal and value added models of student performance(pp.100–127).Maple Grove, MN:JAM Press.

    Roever, C.(2005).“That’s not fair!” Fairness, bias and differential item functioning inlanguage testing.Retrieved February 10, 2012, from http://www2.hawaii.edu/~roever/brownbag.pdf

    Rupp, A.A., & Zumbo, B.D.(2006).Understanding parameter invariance in unidimensional IRT models.Educational and Psychological Measurement, 66(1), 63–84.

    Schweizer, K., Schreiner, M., & Gold, A.(2009).The confirmatory investigation of APM items with loadings as a function of the position and easiness of items: A two–dimensional model of APM.Psychology Science Quarterly, 51(1), 47–64.

    Schweizer, K., Troche, S.J., & Rammsayer, T.H.(2011).On the special relationship between fluid and general intelligence: New evidence obtained by considering the position effect.Personality and Individual Differences,50(8), 1249–1254.

    Steinberg, L.(1994).Context and serial-order effects in personality measurement: Limits on the generality of measuring changes the measure.Journal of Personality &Social Psychology, 66(2), 341–349.

    Store, D.(2013).Item parameter changes and equating: An examination of the effects of lack of item parameter invariance on equating and score accuracy for different proficiency levels(Unpublished doctorial dissertations).The University of North Carolina at Greensboro.

    Von Davier, M., Xu, X.L., & Carstensen, C.H.(2011).Measuring growth in a longitudinal large-scale assessment with a general latent variable model.Psychometrika, 76(2),318–336.

    Weinstein, Y., & Roediger, H.L.(2010).Retrospective bias in test performance: Providing easy items at the beginning of a test makes students believe they did better on it.Memory & Cognition, 38(3), 366–376.

    Weirich, S., Hecht, M., & B?hme, K.(2014).Modeling item position effects using generalized linear mixed models.Applied Psychological Measurement, 38(7), 535–548.

    Weirich, S., Hecht, M., Penk, C., Roppelt, A., & B?hme, K.(2017).Item position effects are moderated by changes in test-taking effort.Applied Psychological Measurement,41(2), 115–129.

    Whitely, S.E., & Dawis, R.V.(1976).The influence of test context on item difficulty.Educational and Psychological Measurement, 36(2), 329–337.

    Wise, L., Chia, W., & Park, R.(1989).Item position effects for test of word knowledge and arithmetic reasoning.Paper presented at the annual meeting of the American Educational Research Association, San Francisco, California.

    Wise, S.L., & DeMars, C.E.(2005).Low examinee effort in low-stakes assessment: Problems and potential solutions.Educational Assessment, 10(1), 1–17.

    Wise, S.L., & Kong, X.J.(2005).Response time effort: A new measure of examinee motivation in computer–based tests.Applied Measurement in Education, 18(2), 163–183.

    Wu, M.(2010).Measurement, sampling, and equating errors in large-scale assessments.Educational Measurement:Issues and Practice, 29(4), 15–27.

    Yen, W.M.(1980).The extent, causes and importance of context effects on item parameters for two latent trait models.Journal of Educational Measurement, 17(4), 297–311.

    Zumbo, B.D.(1999).A handbook on the theory and methods of differential item functioning (DIF): Logistic regression modeling as a unitary framework for binary and Likerttype (ordinal) item scores. Ottawa ON: Directorate of Human Resources Research and Evaluation, Department of National Defense.

    Zumbo, B.D.(2007).Three generations of DIF analyses:Considering where it has been, where it is now, and where it is going.Language Assessment Quarterly, 4(2), 223–233.

    Zwick, R.(1991).Effects of item order and context on estimation of NAEP reading proficiency.Educational Measurement: Issues and Practice, 10(3), 10–16.

    猜你喜歡
    效應(yīng)情境影響
    情境引領(lǐng)追問促深
    不同情境中的水
    是什么影響了滑動(dòng)摩擦力的大小
    鈾對(duì)大型溞的急性毒性效應(yīng)
    哪些顧慮影響擔(dān)當(dāng)?
    懶馬效應(yīng)
    應(yīng)變效應(yīng)及其應(yīng)用
    護(hù)患情境會(huì)話
    特定情境,感人至深
    擴(kuò)鏈劑聯(lián)用對(duì)PETG擴(kuò)鏈反應(yīng)與流變性能的影響
    久久精品久久久久久久性| 欧美日韩成人在线一区二区| 大码成人一级视频| 王馨瑶露胸无遮挡在线观看| 久久精品国产a三级三级三级| kizo精华| 男女啪啪激烈高潮av片| 激情五月婷婷亚洲| 熟女人妻精品中文字幕| 亚洲精品久久成人aⅴ小说 | 26uuu在线亚洲综合色| 一级a做视频免费观看| 一本久久精品| 91精品国产九色| 久久亚洲国产成人精品v| 中文天堂在线官网| 亚洲国产欧美在线一区| 简卡轻食公司| 久久久久久久亚洲中文字幕| 色网站视频免费| 日韩伦理黄色片| 国产成人av激情在线播放 | 夜夜看夜夜爽夜夜摸| 日本wwww免费看| 91在线精品国自产拍蜜月| 欧美3d第一页| 国产成人一区二区在线| 亚洲精品日韩av片在线观看| 一二三四中文在线观看免费高清| 亚洲精品国产av成人精品| 18禁在线无遮挡免费观看视频| 久久国内精品自在自线图片| 另类亚洲欧美激情| 久久国内精品自在自线图片| 超碰97精品在线观看| 久久精品国产亚洲av天美| h视频一区二区三区| 国产av一区二区精品久久| 国产不卡av网站在线观看| 少妇的逼水好多| 国产探花极品一区二区| 久久精品人人爽人人爽视色| 女人久久www免费人成看片| 狠狠婷婷综合久久久久久88av| av.在线天堂| 国产成人精品无人区| 永久免费av网站大全| 男女边摸边吃奶| 国产精品无大码| 69精品国产乱码久久久| 一区二区av电影网| 一本色道久久久久久精品综合| 18禁在线播放成人免费| 久久97久久精品| 一边亲一边摸免费视频| 久久久久久久亚洲中文字幕| 亚洲av综合色区一区| 午夜影院在线不卡| 国产av码专区亚洲av| 婷婷色麻豆天堂久久| 亚洲一级一片aⅴ在线观看| 免费大片18禁| 五月天丁香电影| 蜜桃国产av成人99| 成年av动漫网址| 国产在线一区二区三区精| 久久久精品免费免费高清| 国产不卡av网站在线观看| 十八禁网站网址无遮挡| 亚洲成人av在线免费| 精品人妻偷拍中文字幕| 国产 一区精品| 最近最新中文字幕免费大全7| 免费av中文字幕在线| 国产免费视频播放在线视频| 在线 av 中文字幕| 丝袜在线中文字幕| 亚洲国产毛片av蜜桃av| av专区在线播放| 一个人看视频在线观看www免费| 亚洲人成77777在线视频| 亚洲精品自拍成人| 成人国产麻豆网| 精品少妇久久久久久888优播| 简卡轻食公司| av黄色大香蕉| 大话2 男鬼变身卡| 久久午夜综合久久蜜桃| 青春草国产在线视频| 在线播放无遮挡| 国产精品国产三级专区第一集| 青春草亚洲视频在线观看| 日本黄色片子视频| 国产精品一区二区在线观看99| 极品人妻少妇av视频| 精品国产国语对白av| 涩涩av久久男人的天堂| 男女啪啪激烈高潮av片| av在线播放精品| 黑人巨大精品欧美一区二区蜜桃 | 在线看a的网站| 又粗又硬又长又爽又黄的视频| 久久久久精品性色| 久久久久久久久久成人| 视频区图区小说| 一级毛片我不卡| 国产精品麻豆人妻色哟哟久久| 日本-黄色视频高清免费观看| 日韩av免费高清视频| 最近2019中文字幕mv第一页| 国产成人一区二区在线| 亚洲av男天堂| 一级黄片播放器| 麻豆成人av视频| 久久精品国产自在天天线| 18禁在线无遮挡免费观看视频| 午夜福利视频在线观看免费| 亚洲精品自拍成人| 美女内射精品一级片tv| 亚洲第一av免费看| 久久99蜜桃精品久久| av国产精品久久久久影院| 亚洲图色成人| 亚洲激情五月婷婷啪啪| 久久综合国产亚洲精品| 亚洲不卡免费看| 制服丝袜香蕉在线| 在线观看美女被高潮喷水网站| 午夜精品国产一区二区电影| 一级毛片黄色毛片免费观看视频| 久久久久人妻精品一区果冻| 久久久久久人妻| 日日摸夜夜添夜夜添av毛片| 成人综合一区亚洲| 精品亚洲成a人片在线观看| 日韩一区二区视频免费看| 免费高清在线观看日韩| 国产一区二区在线观看日韩| 美女xxoo啪啪120秒动态图| 最近的中文字幕免费完整| 久久久精品免费免费高清| 黄色配什么色好看| 日本-黄色视频高清免费观看| 婷婷色综合大香蕉| 日韩av免费高清视频| 91精品伊人久久大香线蕉| 欧美精品亚洲一区二区| 极品人妻少妇av视频| 丰满乱子伦码专区| 热re99久久国产66热| 久久久精品区二区三区| 亚洲av成人精品一区久久| 免费高清在线观看日韩| 69精品国产乱码久久久| 亚洲情色 制服丝袜| 高清欧美精品videossex| 一边摸一边做爽爽视频免费| 熟妇人妻不卡中文字幕| kizo精华| 欧美xxⅹ黑人| 国产精品无大码| 一级片'在线观看视频| 一区二区三区免费毛片| 亚洲不卡免费看| 成年人免费黄色播放视频| 国产免费福利视频在线观看| 午夜av观看不卡| 久久午夜综合久久蜜桃| 免费看av在线观看网站| 日韩,欧美,国产一区二区三区| 中文天堂在线官网| 一级二级三级毛片免费看| 国产无遮挡羞羞视频在线观看| 免费人成在线观看视频色| 久久女婷五月综合色啪小说| 亚洲美女视频黄频| 高清欧美精品videossex| 九九爱精品视频在线观看| 国产一区二区三区综合在线观看 | 精品人妻偷拍中文字幕| 午夜久久久在线观看| 丝袜脚勾引网站| 国产精品国产av在线观看| 成人亚洲欧美一区二区av| 视频在线观看一区二区三区| 日本wwww免费看| xxxhd国产人妻xxx| 欧美xxxx性猛交bbbb| 美女中出高潮动态图| 永久免费av网站大全| 国产精品免费大片| 熟女人妻精品中文字幕| 80岁老熟妇乱子伦牲交| 欧美三级亚洲精品| 哪个播放器可以免费观看大片| 极品人妻少妇av视频| xxxhd国产人妻xxx| 亚洲国产成人一精品久久久| 黄色一级大片看看| 免费播放大片免费观看视频在线观看| 少妇猛男粗大的猛烈进出视频| 99热这里只有精品一区| 色5月婷婷丁香| 免费高清在线观看视频在线观看| 男女边吃奶边做爰视频| 国产老妇伦熟女老妇高清| 在线观看人妻少妇| 99国产综合亚洲精品| 91aial.com中文字幕在线观看| 成人漫画全彩无遮挡| 简卡轻食公司| 国产乱人偷精品视频| 伦理电影大哥的女人| 视频在线观看一区二区三区| 亚洲国产欧美在线一区| 午夜老司机福利剧场| 伊人久久国产一区二区| 国产永久视频网站| 久久国内精品自在自线图片| 亚洲经典国产精华液单| 国产成人av激情在线播放 | 69精品国产乱码久久久| 国产精品99久久99久久久不卡 | 亚洲欧美中文字幕日韩二区| 熟女电影av网| 亚洲,一卡二卡三卡| 日韩电影二区| 成人国语在线视频| 啦啦啦啦在线视频资源| 久久热精品热| 老司机亚洲免费影院| 国产欧美亚洲国产| 欧美国产精品一级二级三级| av在线老鸭窝| 国产伦精品一区二区三区视频9| 欧美精品亚洲一区二区| 国产成人精品在线电影| 久久久久久久精品精品| 欧美老熟妇乱子伦牲交| 高清av免费在线| 精品99又大又爽又粗少妇毛片| 国产永久视频网站| 大香蕉97超碰在线| 国产精品一区二区在线观看99| 桃花免费在线播放| 一级毛片我不卡| tube8黄色片| 久久免费观看电影| 日韩亚洲欧美综合| 人体艺术视频欧美日本| 91久久精品国产一区二区三区| 中文字幕人妻熟人妻熟丝袜美| 国产精品国产三级专区第一集| 高清欧美精品videossex| 成年人免费黄色播放视频| 色哟哟·www| 亚洲国产精品国产精品| 国产午夜精品久久久久久一区二区三区| 中文字幕精品免费在线观看视频 | 久久精品国产自在天天线| 久久精品夜色国产| 男的添女的下面高潮视频| 欧美日韩国产mv在线观看视频| 国产精品99久久久久久久久| 狂野欧美激情性xxxx在线观看| 久久久a久久爽久久v久久| 婷婷色综合大香蕉| 一级黄片播放器| 日本-黄色视频高清免费观看| 啦啦啦视频在线资源免费观看| av视频免费观看在线观看| 我的女老师完整版在线观看| 久久久久久久久久久丰满| 日韩人妻高清精品专区| 制服人妻中文乱码| 午夜激情av网站| 不卡视频在线观看欧美| 日韩精品有码人妻一区| 最近中文字幕高清免费大全6| 国产视频内射| 国产精品99久久久久久久久| 国产一区二区三区av在线| 精品少妇久久久久久888优播| 欧美激情国产日韩精品一区| 免费高清在线观看视频在线观看| 视频中文字幕在线观看| 日韩一区二区三区影片| 免费看光身美女| 国产午夜精品久久久久久一区二区三区| 美女xxoo啪啪120秒动态图| 亚洲av综合色区一区| 免费av不卡在线播放| 久久人人爽人人爽人人片va| 免费看av在线观看网站| 欧美日韩综合久久久久久| 国产精品欧美亚洲77777| 在线观看www视频免费| 日韩,欧美,国产一区二区三区| 人人妻人人澡人人看| 插阴视频在线观看视频| 新久久久久国产一级毛片| 全区人妻精品视频| 2018国产大陆天天弄谢| 久久精品夜色国产| 国产精品国产av在线观看| 日本色播在线视频| 好男人视频免费观看在线| 国产成人精品一,二区| 久久热精品热| 久久青草综合色| 中文字幕免费在线视频6| 国产精品一区二区在线观看99| 一区二区av电影网| 五月天丁香电影| 国产精品不卡视频一区二区| 久久精品久久久久久噜噜老黄| 日韩亚洲欧美综合| 在线看a的网站| 国语对白做爰xxxⅹ性视频网站| 大香蕉久久网| 久久韩国三级中文字幕| 女人久久www免费人成看片| 人人妻人人添人人爽欧美一区卜| 久久久久久久久久成人| 日韩成人av中文字幕在线观看| kizo精华| 18禁在线播放成人免费| 国产成人一区二区在线| 综合色丁香网| 国产探花极品一区二区| 久久久久人妻精品一区果冻| 赤兔流量卡办理| 久久久国产一区二区| av在线老鸭窝| 777米奇影视久久| 亚洲国产精品国产精品| 美女国产视频在线观看| 老女人水多毛片| 少妇人妻久久综合中文| 91成人精品电影| www.色视频.com| 热re99久久精品国产66热6| 一级毛片黄色毛片免费观看视频| 91午夜精品亚洲一区二区三区| a级毛片在线看网站| 在线观看美女被高潮喷水网站| tube8黄色片| 精品久久久久久久久亚洲| 亚洲四区av| 国产精品99久久久久久久久| 精品国产乱码久久久久久小说| av国产久精品久网站免费入址| 久久久精品免费免费高清| 国产一区二区三区av在线| 五月天丁香电影| 亚洲久久久国产精品| 桃花免费在线播放| 99热6这里只有精品| 插逼视频在线观看| 伦理电影免费视频| 黑人巨大精品欧美一区二区蜜桃 | 国产男女超爽视频在线观看| 午夜激情久久久久久久| 美女视频免费永久观看网站| 制服丝袜香蕉在线| 久久99热这里只频精品6学生| 国产色婷婷99| 亚洲欧洲国产日韩| 99热6这里只有精品| 亚洲精品自拍成人| 建设人人有责人人尽责人人享有的| 汤姆久久久久久久影院中文字幕| 热re99久久精品国产66热6| 亚洲精品,欧美精品| 青春草国产在线视频| 亚洲精品,欧美精品| 久久精品久久久久久久性| 亚洲美女黄色视频免费看| 婷婷色av中文字幕| 26uuu在线亚洲综合色| 亚洲人成网站在线播| 又大又黄又爽视频免费| 久久久久久久久久久丰满| 亚洲伊人久久精品综合| 日本91视频免费播放| 七月丁香在线播放| 国产免费又黄又爽又色| 久久久精品94久久精品| 色5月婷婷丁香| 黄色怎么调成土黄色| 91精品三级在线观看| 日本av手机在线免费观看| 免费大片黄手机在线观看| 国产免费视频播放在线视频| 99精国产麻豆久久婷婷| av不卡在线播放| 国产免费现黄频在线看| 欧美国产精品一级二级三级| 欧美 亚洲 国产 日韩一| 在线免费观看不下载黄p国产| 日日摸夜夜添夜夜添av毛片| 极品人妻少妇av视频| 熟女人妻精品中文字幕| 波野结衣二区三区在线| 夫妻午夜视频| 九九爱精品视频在线观看| a级毛片在线看网站| 国模一区二区三区四区视频| 成人午夜精彩视频在线观看| 亚洲伊人久久精品综合| 建设人人有责人人尽责人人享有的| 久久久久久久久久久免费av| 黑人猛操日本美女一级片| 精品亚洲乱码少妇综合久久| av播播在线观看一区| 美女国产高潮福利片在线看| 日韩熟女老妇一区二区性免费视频| 99九九线精品视频在线观看视频| av专区在线播放| 91久久精品国产一区二区三区| 亚洲国产精品999| 久久青草综合色| 色94色欧美一区二区| 一本久久精品| 久久热精品热| 韩国高清视频一区二区三区| 大香蕉久久成人网| 精品人妻熟女av久视频| 亚洲av二区三区四区| 久久ye,这里只有精品| 亚洲欧美色中文字幕在线| 成人国产麻豆网| 嘟嘟电影网在线观看| 亚洲精品视频女| 亚洲av免费高清在线观看| 免费av不卡在线播放| 最近中文字幕高清免费大全6| 80岁老熟妇乱子伦牲交| 亚州av有码| 中文字幕免费在线视频6| av在线观看视频网站免费| 下体分泌物呈黄色| 国产探花极品一区二区| 国产精品三级大全| 欧美成人午夜免费资源| 欧美亚洲 丝袜 人妻 在线| 夜夜骑夜夜射夜夜干| 国产一区二区三区综合在线观看 | 麻豆精品久久久久久蜜桃| 精品熟女少妇av免费看| av在线播放精品| 亚洲人成网站在线观看播放| 亚洲av.av天堂| 亚洲精品国产av蜜桃| 国产极品天堂在线| 亚洲国产欧美在线一区| 女的被弄到高潮叫床怎么办| 国产极品天堂在线| 九色亚洲精品在线播放| 亚洲欧美一区二区三区黑人 | 国产精品无大码| 免费黄色在线免费观看| 我的老师免费观看完整版| 一区二区三区免费毛片| 黄色一级大片看看| 久久久久久久精品精品| 日日摸夜夜添夜夜添av毛片| 国产精品欧美亚洲77777| 亚洲第一av免费看| 一本色道久久久久久精品综合| 亚洲不卡免费看| av福利片在线| 啦啦啦啦在线视频资源| 久久久午夜欧美精品| 亚洲国产精品成人久久小说| 日本黄大片高清| 欧美 亚洲 国产 日韩一| av.在线天堂| videossex国产| 色94色欧美一区二区| 久久 成人 亚洲| 99国产精品免费福利视频| 成人漫画全彩无遮挡| 热99久久久久精品小说推荐| a级毛片免费高清观看在线播放| 亚洲av成人精品一区久久| 99热网站在线观看| 黑人巨大精品欧美一区二区蜜桃 | 爱豆传媒免费全集在线观看| 高清在线视频一区二区三区| 草草在线视频免费看| 免费黄网站久久成人精品| 久久精品国产自在天天线| 亚洲国产欧美日韩在线播放| 成人手机av| 热re99久久精品国产66热6| 免费高清在线观看视频在线观看| 免费黄色在线免费观看| 91午夜精品亚洲一区二区三区| 简卡轻食公司| 美女大奶头黄色视频| 曰老女人黄片| 亚洲国产精品一区二区三区在线| 高清欧美精品videossex| 美女脱内裤让男人舔精品视频| 王馨瑶露胸无遮挡在线观看| 亚洲成色77777| 能在线免费看毛片的网站| 久久精品人人爽人人爽视色| 国产精品久久久久久av不卡| 久久精品人人爽人人爽视色| 久久国产亚洲av麻豆专区| 大香蕉久久网| 卡戴珊不雅视频在线播放| 国产在线免费精品| 免费大片18禁| 91精品三级在线观看| 国产黄片视频在线免费观看| 久久精品国产亚洲av涩爱| 视频中文字幕在线观看| 99re6热这里在线精品视频| 18禁在线播放成人免费| 日日摸夜夜添夜夜添av毛片| 搡老乐熟女国产| 国产成人精品一,二区| 国产一区亚洲一区在线观看| 丁香六月天网| 国产精品国产三级国产av玫瑰| 国产色爽女视频免费观看| 国产一区亚洲一区在线观看| 久久精品熟女亚洲av麻豆精品| 国产男女内射视频| 国产av一区二区精品久久| 国产亚洲最大av| 欧美激情 高清一区二区三区| 丰满迷人的少妇在线观看| 99re6热这里在线精品视频| 一区二区三区四区激情视频| 五月开心婷婷网| 日韩欧美精品免费久久| 99视频精品全部免费 在线| 我要看黄色一级片免费的| 亚洲欧美精品自产自拍| av女优亚洲男人天堂| 人妻夜夜爽99麻豆av| 人妻少妇偷人精品九色| 日韩一本色道免费dvd| 一边摸一边做爽爽视频免费| 亚洲精品,欧美精品| 欧美亚洲日本最大视频资源| 观看av在线不卡| 纯流量卡能插随身wifi吗| 日韩不卡一区二区三区视频在线| 久久久久久久久久久丰满| 成人国产av品久久久| 亚洲欧美清纯卡通| 亚洲第一区二区三区不卡| 最近手机中文字幕大全| av.在线天堂| 精品一区二区三区视频在线| 国产精品 国内视频| 精品人妻熟女av久视频| 国产免费福利视频在线观看| 免费观看的影片在线观看| 亚洲第一区二区三区不卡| 高清欧美精品videossex| 精品国产一区二区三区久久久樱花| 日本欧美国产在线视频| 男的添女的下面高潮视频| 99热全是精品| 日本午夜av视频| 国产深夜福利视频在线观看| 国产精品国产三级国产av玫瑰| 大又大粗又爽又黄少妇毛片口| a级毛片免费高清观看在线播放| 亚洲国产精品999| 啦啦啦中文免费视频观看日本| 亚洲经典国产精华液单| 我要看黄色一级片免费的| 美女大奶头黄色视频| a级毛色黄片| 国产极品粉嫩免费观看在线 | 你懂的网址亚洲精品在线观看| a级毛片黄视频| 亚洲av国产av综合av卡| 嘟嘟电影网在线观看| 亚洲伊人久久精品综合| 日本欧美视频一区| 精品一区在线观看国产| 国产在线视频一区二区| 王馨瑶露胸无遮挡在线观看| 亚洲第一区二区三区不卡| 国产黄色视频一区二区在线观看| 日本与韩国留学比较| 国产欧美日韩一区二区三区在线 | 精品亚洲成国产av| 国产精品免费大片| 国产精品99久久久久久久久| 精品卡一卡二卡四卡免费| 天堂中文最新版在线下载| 丝袜脚勾引网站| 亚洲精品,欧美精品| 久久精品国产a三级三级三级| 亚洲国产欧美在线一区| 日韩在线高清观看一区二区三区| 啦啦啦中文免费视频观看日本| 色网站视频免费| 人妻少妇偷人精品九色| 如日韩欧美国产精品一区二区三区 | 国产精品一区www在线观看| 国产黄频视频在线观看| 99热这里只有精品一区| 五月玫瑰六月丁香| 亚洲国产精品999| 好男人视频免费观看在线|