• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    無需先驗信息的兩步項目功能差異檢驗方法

    2024-07-20 00:00:00韓雨婷袁克海劉紅云
    心理科學(xué) 2024年3期
    關(guān)鍵詞:檢驗法

    摘 要 傳統(tǒng)的項目功能差異檢驗方法依賴先驗信息設(shè)定錨題,誤設(shè)錨題可能產(chǎn)生誤導(dǎo)性結(jié)果。研究提出以數(shù)據(jù)驅(qū)動的難度差異QQ 圖(D-QQ 圖)選擇錨題,再結(jié)合傳統(tǒng)方法檢驗DIF 的兩步DIF 檢驗法。兩個實證研究說明了新方法在實際測驗公平性檢驗中的適用性及可視化優(yōu)勢。模擬研究進一步表明當(dāng)測驗中有一半試題存在DIF 時,若DIF 試題僅偏向一組,則兩步法兼具高統(tǒng)計檢驗力和低I 類錯誤的優(yōu)勢;若DIF 試題分別有利于兩組,則其在I 類錯誤控制上優(yōu)于RCD 方法。

    關(guān)鍵詞 項目功能差異 D-QQ 圖 圖形檢驗 兩步DIF 檢驗法

    1 引言

    在大規(guī)模心理與教育評估中,測試公平性是重要關(guān)注點。當(dāng)能力相似的考生群體在某一試題上表現(xiàn)出系統(tǒng)性差異時,則稱該試題存在項目功能差異(differential item functioning,DIF)(AmericanEducational Research Association et al., 2014)。為確保測試公平,研究者提出了多種檢測DIF 的方法,如Lord 卡方檢驗(Lord, 1980)、似然比檢驗(Thissenet al., 1986, 1993)、Wald 檢驗(Cao et al., 2017; Fischeramp; Molenaar, 1995; Tay et al., 2015; Woods et al., 2013)、MH方法(Holland amp; Thayer, 1988)、SIBTEST(Shealyamp; Stout, 1993)、Lp 方法(余躍等, 2016)、貝葉斯方法(May, 2006; Sinharay et al., 2006; Soares et al.,2009; Zwick et al., 2000; Zwick amp; Thayer, 2002)、混合建模(Frick et al., 2015)、MIMIC 模型(J?reskogamp; Goldberger, 1975; Muthén, 1985)等,并已廣泛應(yīng)用于各類心理與教育測驗的跨文化或城鄉(xiāng)公平性檢驗中(曹亦薇, 2003; 關(guān)丹丹等, 2019; 劉文等, 2010;鄭蟬金等, 2011)。

    大部分DIF 檢驗需要預(yù)設(shè)無DIF 的錨題,錨題的正確設(shè)定對于DIF 檢驗至關(guān)重要。誤設(shè)錨題可能會對分析結(jié)果產(chǎn)生誤導(dǎo)(Kopf et al., 2015a),如導(dǎo)致I 類錯誤增大和統(tǒng)計檢驗力下降(Finch, 2005;Kopf et al., 2015b; Navas-Ara amp; Gómez-Benito, 2002;Wang amp; Su, 2004)。然而,設(shè)定錨題的先驗知識難以獲得(Bechger amp; Maris, 2015; Shih amp; Wang, 2009;Tutz amp; Schauberger, 2015)。為此,研究者提出使用迭代提純程序(Candell amp; Drasgow, 1988; Clauser etal.,1993; Fidalgo et al., 2000; Magis et al., 2010; Wang amp;Su, 2004; Wang et al., 2009)。但即使提純后,也不能保證剩余試題均不含DIF,尤其當(dāng)測驗中多個試題包含DIF 時,項目提純會受到掩蓋和淹沒效應(yīng)的影響(Barnett amp; Lewis, 1994; Yuan et al., 2021)。研究表明,項目提純與I 類錯誤膨脹有關(guān),對各組之間平均能力差異非常敏感(Magis amp; De Boeck, 2012;Magis amp; Facon, 2013)。綜上所述,如何選擇不含DIF 的錨題仍然是一個挑戰(zhàn)(Kopf et al., 2015b)。

    Yuan 等(2021)提出了無需先驗信息設(shè)定錨題的可視化DIF 檢驗方法——RCD 方法。該方法首先通過難度差異的QQ 圖(簡稱D-QQ 圖)選擇參照點,再通過構(gòu)造難度差異相對變化(relative changeof difficulty difference, RCD)的置信區(qū)間來判斷試題是否存在DIF。在大多數(shù)試題具有DIF 的情況下,該方法也同樣適用。但當(dāng)測驗中存在同時有利于參照組和目標(biāo)組的試題時,RCD 方法可能會出現(xiàn)I 類錯誤的膨脹。Yuan 等提出的D-QQ 圖是一種理論可行的錨題選擇方法,但研究未解決I 類錯誤膨脹問題。本研究擬將D-QQ 圖與傳統(tǒng)DIF 檢測方法結(jié)合,改進傳統(tǒng)方法選擇錨題的表現(xiàn),同時對I 類錯誤加以控制。

    綜上,本研究旨在提出一種將D-QQ 圖與傳統(tǒng)DIF 檢測方法結(jié)合的兩步DIF 檢測方法,通過實證研究說明其在實際數(shù)據(jù)分析中的可行性與優(yōu)勢,并進一步采用模擬研究評估更多條件下新方法的性能。本文內(nèi)容包括基于D-QQ 圖的兩步DIF 檢測法的提出、實際數(shù)據(jù)的DIF 檢測結(jié)果對比、在模擬研究中與其他常用方法的性能比較以及對未來研究的展望。

    2 基于D-QQ 圖的兩步DIF 檢測方法

    2.1 D-QQ 圖

    D-QQ 圖是一種散點圖,適用于有兩組被試時對無DIF 錨題的選擇,其橫軸是測驗中不存在DIF試題的虛無假設(shè)下參照組與目標(biāo)組試題難度的理論差異,縱軸是兩組數(shù)據(jù)分開估計時試題難度的實際差異。如果測試中不存在DIF 試題,那么每個試題在參照組和目標(biāo)組上的實際難度差異與理論難度差異應(yīng)該一致,并且散點將落在一條的直線上。下面詳細(xì)介紹使用Rasch 模型繪制D-QQ圖的步驟。

    (1)分別估計兩組數(shù)據(jù)的模型參數(shù),計算兩組難度參數(shù)差異排序值。

    對參照組和目標(biāo)組的數(shù)據(jù),分別擬合Rasch模型進行參數(shù)估計, 限定兩組能力均值為0,得到參照組與目標(biāo)組的試題難度估計值b1,j和b2,j(j=1,2,…,M),M 為試題個數(shù),以及能力方差估計值σ21和σ22。計算參照組與目標(biāo)組的試題難度估計值之差,記為dj=b2,j-b1,j,然后將dj按照由小到大的順序排序:d(1)<d(2)<…<d(j)<…<d(M),其中下標(biāo)代表難度差異的秩。注意難度差異包括了能力差異的影響。

    (2)使用Monte Carlo 方法獲得測驗中不存在DIF 試題的虛無假設(shè)成立條件下難度差異排序值。

    分別從θ(1)~N(0,σ21)和θ(2)~N(0,σ22)中隨機抽取樣本量為和的能力參數(shù),以b1,j(j=1,2,…,M)為試題難度,利用Rasch 模型模擬生成兩組數(shù)據(jù)。這時生成的數(shù)據(jù)是不含DIF 試題時的兩組作答反應(yīng)數(shù)據(jù)。再分別估計這兩個模擬樣本的難度,計算難度差異值并排序。將上述過程重復(fù)K 次(為保證結(jié)果穩(wěn)定性,建議重復(fù)次數(shù)取1000 及以上),則可以獲得K 組難度差異值,把第k(k=1,2,…K)次重復(fù)中,排序后的難度差異表示為d(k)(j)。則對于每一個秩次,可以獲得K 次重復(fù)的平均難度差值:d(H0)(j)=∑K k=1 d(k)(j)/K其中上標(biāo)H0表示這一均值是在“虛無假設(shè)H0:測驗中不存在DIF 題目”成立的條件下得到的。

    (3)基于第一步和第二步的難度差異排序值繪制D-QQ 圖。

    以第一步用實際數(shù)據(jù)分析獲得的難度差異排序值d(j)為縱軸,以第二步由模擬數(shù)據(jù)計算得到的虛無假設(shè)下平均難度差值d(H0)(j)為橫軸繪制散點圖,即為D-QQ 圖。

    2.2 兩步DIF 檢測方法

    本研究提出首先利用D-QQ 圖選定錨題,再使用傳統(tǒng)方法檢驗DIF 的兩步DIF 檢驗方法。具體如下:

    第一步:利用D-QQ 圖選定錨題。

    實際中D-QQ 圖可能存在以下幾種情況:

    (1)測驗中大部分的試題都落在y=x的直線上,意味著測驗中大部分試題都不存在DIF,只有少數(shù)偏離直線較遠(yuǎn)的試題存在DIF,此時可以選擇落在直線上的最保守的幾道試題作為錨題;

    (2)測驗中只有少部分的試題落在y=x的直線上,意味著測驗中可能只有一小部分試題不存在DIF,這時依然可以選擇比較保險的幾道試題作為錨題;

    (3)若測驗中沒有試題落在y=x的直線上,則可能所有試題均存在DIF,試題質(zhì)量整體不高,建議終止DIF 檢驗,重新回到測驗設(shè)計階段,由領(lǐng)域?qū)<覐脑囶}內(nèi)容上討論測驗試題可能帶來的偏差;

    (4)若測驗中的試題分別落在多條y=x的直線上,則每條斜線上試題的DIF 大小均一致,需要額外信息判斷究竟哪一組試題不含DIF,并從中選擇錨題。

    上述第一種情況是實際測驗中比較常見的,而其余三種情況均屬于比較特殊的情形。在這三種特殊情況下,傳統(tǒng)DIF 檢驗方法(如MH,Wald等)均有可能帶來DIF 檢驗的掩蓋和淹沒效應(yīng),導(dǎo)致檢驗結(jié)果錯誤(Barnett amp; Lewis, 1994; Yuan et al.,2021)①。此外,還可以通過比較D-QQ 圖中散點在橫軸和縱軸的取值范圍大致判斷測驗中是否包含DIF 試題。當(dāng)D-QQ 圖中縱軸(實際數(shù)據(jù)中的兩組難度差值)上散點的取值范圍與橫軸(零假設(shè)下的平均難度差異)上散點的取值范圍相近時,測試中一般不包含DIF 試題。

    第二步:固定第一步選出的錨題,采用傳統(tǒng)DIF 檢測方法進一步檢測剩余試題是否存在DIF。

    第一步選擇出來的錨題,可以作為固定錨題,采用傳統(tǒng)方法檢驗剩余試題是否存在DIF,并對DIF 效應(yīng)的大小作出解釋。本文提出的兩步DIF 檢測法包含一簇方法,若將第一步選出的錨題與MH法結(jié)合,則稱兩步MH 法,若與Wald 方法結(jié)合則稱兩步Wald 方法。本研究中我們將其與MH 和Wald 方法結(jié)合,這兩種方法可以看作是非參數(shù)方法和項目反應(yīng)理論方法的典型代表(Cao et al., 2017;Holland amp; Thayer, 1986)。

    需要說明的是,Yuan 等(2021)提出的RCD方法也可以被視為一種兩步DIF 檢驗法。其基本思路如下:在采用D-QQ圖選定參照點(錨題)后,對于實際數(shù)據(jù),計算相對難度差異δ(j)=d(j)-d(ref),其中是所選參照點在兩組實際數(shù)據(jù)上難度差異d(ref)的均值;對于模擬數(shù)據(jù),同樣計算相對難度差異δ(k)(j)=d(k)(j)-d(H0)(ref),其中d(H0)(ref)是所選參照點在K 次重復(fù)中的兩組平均難度差異的均值。則對于每個試題有K 個δ(k)(j),分別統(tǒng)計其均值δ(H0)(j)=∑K k=1 δ(k)(j)/K,2.5% 分位點L(H0)(j)和97.5% 分位點U(H0)(j)。最后,比較由實際數(shù)據(jù)獲得的δ(j)和由模擬數(shù)據(jù)獲得的95% 置信區(qū)間(L(H0)(j),U(H0)(j)),若δ(j)落在區(qū)間外,則判斷第道試題存在DIF,反之,無充分理由說明第道試題存在DIF。為了對新方法進行區(qū)分,本研究中的兩步DIF 檢驗法特指兩步MH 法和兩步Wald 方法。

    3 實證研究1

    3.1 研究對象與方法

    為了評估兩步DIF 檢驗方法的實際應(yīng)用價值,本研究首先在2012 年國際學(xué)生評估項目(OECD,2014)的數(shù)學(xué)領(lǐng)域進行了實證研究。選擇來自加拿大和西班牙的1466 名和688 名學(xué)生的數(shù)據(jù),使用兩步MH、兩步Wald、MH、Wald 和RCD 方法對第4 個題冊②中的34 道0~1 計分的試題進行了DIF 檢驗。具體的,MH 方法使用R 語言difR 包(Magiset al., 2010)實現(xiàn),使用試題提純程序(Clauser amp;Mazor, 1998; French amp; Maller, 2007)。Wald 方法采用flexMIRT(Cai, 2017)軟件實現(xiàn),首先用Wald2算法尋找錨題,然后用Wald1 算法逐題檢驗DIF(Caoet al., 2017)。RCD 方法采用Yuan 等(2021)提供的R 語言代碼實現(xiàn)。兩步MH 方法首先選擇D-QQ圖中位于y=x直線最中間的4 題作為錨題,再使用“difR” 軟件包實現(xiàn)MH 檢驗;兩步Wald 以同樣的方式判斷錨題,再使用flexMIRT 軟件中Wald1 算法逐題檢驗DIF。需要說明的是,Yuan 等(2021)的研究中指出,由D-QQ 圖中選擇 2 題,4 題或10題作為參照點不會導(dǎo)致RCD 結(jié)果的差異。

    研究還對采用Rasch 模型進行分析的前提進行了檢驗,結(jié)果發(fā)現(xiàn),兩組數(shù)據(jù)在采用Rasch 模型進行分析時,在測驗擬合優(yōu)度、試題擬合優(yōu)度、試題間獨立性以及數(shù)據(jù)單維性方面均滿足要求。

    3.2 研究結(jié)果

    圖1 是兩步DIF 檢驗方法以及RCD 方法用來選擇錨題的D-QQ 圖,其中斜線是x=y的輔助觀察線,落在輔助線中間的4 題(t3、t14、t18 和t26)被選為錨題。由于D-QQ 圖中散點在橫軸的取值范圍接近.6,而在縱軸的取值范圍接近2,可以初步判斷測驗中可能有試題存在DIF。并且,D-QQ 圖兩端的散點分別落在輔助線的不同側(cè),可進一步判斷測驗中可能同時存在分別有利于兩組學(xué)生的試題。

    表1 中呈現(xiàn)了五種DIF 檢驗方法的結(jié)果以及用ETS Δ 作為衡量效應(yīng)大小的指標(biāo)(DeMars, 2011)。其判斷標(biāo)準(zhǔn)為:|Δ| lt; 1 為可忽略的,1 lt; |Δ| lt; 1.5 為中等的,而|Δ| gt; 1.5 為大的效應(yīng)(Zieky, 1993)。對于Wald 方法,兩步Wald 方法和RCD 方法,用Δ =4δ可以計算ETSΔ,其中δ等于兩組難度差異(Roussoset al., 1999)。

    表1 中的試題按照其在兩組中的難度差異值從小到大排序。所有方法對于DIF 試題的檢驗結(jié)果基本一致:所有方法都將試題分為三組——偏向加拿大學(xué)生、偏向西班牙學(xué)生和DIF 檢驗不顯著組,并且這些被評估為存在DIF 的試題大多分布在兩組試題難度差異值的最小和最大值兩端,這與D-QQ 圖中呈現(xiàn)的模式相匹配。例如,位于表1 頂部的試題t19, t17, t21 被所有方法評估為有利于西班牙組,且具有中等以上的效應(yīng);而位于表1 底部的試題t30和t23 被所有方法判斷為有利于加拿大組,且具有中等以上的效應(yīng)。在所比較的方法中,RCD 方法檢測出最多的試題存在DIF,這可能是由于當(dāng)測驗中同時存在有利于兩組被試的試題時,該方法可能出現(xiàn)I 類錯誤的膨脹(Yuan et al., 2021)。不過,盡管RCD 方法在兩組難度差異值較小那一端(表1 頂部)判斷試題t22、t5、t27、t6、t25、t8、t34 可能存在DIF,但從效應(yīng)量來看,其DIF 大小是可以忽略不記的。相對而言,兩步MH 方法比MH 方法略為保守(未判斷出第5 題存在DIF),這也與模擬研究中樣本量不足2000 人時,平衡DIF 模式下兩步MH方法的統(tǒng)計檢驗力略低于MH 方法的模擬研究結(jié)果相符。兩步Wald 方法與Wald 方法的評估結(jié)果也不完全一致,對于真實數(shù)據(jù),DIF 和非DIF 題的真實參數(shù)是未知的,因此無法斷言哪種方法表現(xiàn)最佳。

    不過,D-QQ 圖可用來輔助判斷DIF 檢驗結(jié)果的合理性。在D-QQ 圖中,試題離參考線越遠(yuǎn),就越有可能存在DIF。例如,在實際的DIF 分析工作中,如果結(jié)合試題原意判斷出第21 題存在DIF,那么比它距離參考線更遠(yuǎn)的第9 題也是值得關(guān)注的,為保證測驗公平性,應(yīng)重新審視該題。

    4 實證研究2

    4.1 研究對象與方法

    為進一步比較幾種DIF 檢驗方法在實證數(shù)據(jù)分析中的表現(xiàn),本研究對我國某地區(qū)初中一年級學(xué)生入學(xué)語文能力測驗的實測數(shù)據(jù)進行了DIF 分析。該數(shù)據(jù)集包含42024 名男生和39932 名女生在25 個0-1計分試題上的作答。

    研究首先對Rasch模型的分析前提進行了檢驗,分析過程與實證研究1 相同。分別使用兩步MH、兩步Wald、MH、Wald 和RCD 方法對試題關(guān)于性別的DIF 進行了評估。

    4.2 研究結(jié)果

    數(shù)據(jù)集根據(jù)性別分組的D-QQ 圖如圖2 所示,其中斜線是輔助觀察線,恰好落在輔助線上的4 題(t20、t4、t3 和t9)被選為錨題。由于D-QQ 圖中散點在縱軸的取值范圍(接近1)大于其在橫軸上的取值范圍(接近.06),可以初步判斷測驗中存在DIF 試題。并且,D-QQ 圖兩端的散點分別落在輔助線的不同側(cè),說明測驗中可能同時存在分別有利于兩組學(xué)生的試題。

    表2 中匯總了五種DIF 檢驗方法的結(jié)果,其中試題按照兩組實際難度差異值從小到大排序,越靠表格頂部的試題越有利于女生,越靠底部的試題越有利于男生。需要注意的是,由于樣本數(shù)量巨大,大部分試題的DIF 檢驗結(jié)果都顯著,應(yīng)進一步關(guān)注DIF 檢驗的效應(yīng)量大小。整體來看,5 種方法的DIF檢驗結(jié)果較為一致,所有方法檢測出具有中等或較大DIF 的試題均位于表2 的兩端。首先,MH 和兩步MH 的DIF 檢驗結(jié)果完全一致,都檢測出t13、t16、t25 這3 道試題具有中等效應(yīng)的DIF。其次,兩步Wald 方法除了檢驗出以上3 道試題具有較大的DIF 外,還檢測出t10 具有中等的DIF;而Wald最保守,僅檢測出t13 具有中等效應(yīng)的DIF。最后,RCD 方法檢驗出可能存在DIF 的試題數(shù)量最多,包括具有較大DIF 的t13、t16、t25 以及具有中等DIF的t10 和t12,比MH和兩步MH方法多檢測出2 題,比兩步Wald 方法多1 題。也就是說,Wald 方法最保守,而RCD 方法最敏感。

    從錨題的選擇來看,兩步MH、兩步Wald 方法和RCD 方法均采用D-QQ 圖選擇錨題,MH 方法在這4 題上DIF 檢驗結(jié)果均不顯著,Wald 方法在這4道錨題上僅檢驗出可忽略的DIF。此外,Wald 方法選擇了5 道錨題,分別是t19、t14、t5、t17 和t3,它們都位于D-QQ 圖較中間的部分,其中t3 與D-QQ圖選擇的錨題重合,而另外四題也均被其他方法檢測為存在可忽略的DIF。因此,在本實證研究中使用D-QQ 圖選擇的錨題與其他方法較為一致,但采用D-QQ 圖具有可視化的優(yōu)勢。

    表3 中列舉了被檢測出具有中等以上DIF 的試題的信息。首先,除了Wald 方法以外,其余四種方法都檢驗出t25 更有利于男生。該題考查了學(xué)生對于成語背后典故的了解,由于男生可能更喜歡與戰(zhàn)爭歷史相關(guān)的典故,從而更傾向于記住與這些主題相關(guān)的成語和歷史人物,因而男生在作答這道題目時可能比女生更具優(yōu)勢,Wald 方法在此題上可能出現(xiàn)了漏判。其次,表3 中其余試題均被至少一種DIF 檢驗方法評估為有利于女生。其中t13 和t12 測試了學(xué)生對關(guān)聯(lián)詞的理解和運用能力,t10 考查了句式變換,這些題目涉及到語法知識的運用和邏輯推理能力,盡管這些能力不一定與性別有直接關(guān)系,但許多研究證明女生在語言表達(dá)和理解方面表現(xiàn)出更高的敏感性和優(yōu)勢(Halpern, 2000; Hyde amp; Linn,1988; Shaywitz et al., 1995),可能更容易理解和掌握語言的細(xì)微差別和邏輯結(jié)構(gòu),從而造成與男生不同的作答分布。最后,第16 題考察了諺語解釋,通常認(rèn)為女生更感興趣于文學(xué)和語文學(xué)習(xí),從而可能在諺語上具有更豐富的知識積累,在答對該題目上具備了可能的優(yōu)勢。盡管我們能為這些檢驗結(jié)果找到一些合理的解釋,但在實際的大規(guī)模測驗命題工作中,在進行DIF 檢驗之后,仍需要學(xué)科、領(lǐng)域?qū)<疫M一步判斷試題是否需要進一步修改以及如何修改。結(jié)合本例來看,傳統(tǒng)的Wald 方法并未檢測出較有可能有利于男生的t25(該題在D-QQ 圖中也偏離其他試題最遠(yuǎn)),存在漏判的風(fēng)險;而RCD 方法檢驗得到最多數(shù)量的可能存在中等以上DIF 的試題,若其中存在誤判,則會增加進一步分析的成本;相對而言,MH、兩步MH 和兩步Wald 方法得到了相對適中的結(jié)果。此外,在本例中,無論是錨題選擇還是DIF 結(jié)果分析階段,D-QQ 圖都提供了有益的輔助信息。

    5 模擬研究

    為了彌補實證研究中DIF 真實值未知的局限,同時在更多的測驗條件下對DIF 檢驗方法進行比較,采用Monte Carlo 模擬研究對不同樣本量、測驗長度、DIF 模式以及DIF 真值條件下,D-QQ 圖的形態(tài)進行了描述與探討,并對各種方法的統(tǒng)計檢驗力和經(jīng)驗I 類錯誤進行了比較。

    6 結(jié)論與討論

    針對測驗公平性分析中選擇不含DIF 的錨題的挑戰(zhàn),本研究提出了先采用D-QQ 圖選擇錨題再使用傳統(tǒng)DIF 檢驗方法進行分析的兩步DIF 檢驗法。利用兩個實證研究,說明了兩步DIF 檢驗法在實際數(shù)據(jù)分析中的步驟及可行性,探討了D-QQ 圖以可視化方式選擇錨題、判斷DIF 模式以及初判測驗是否含DIF 試題上的適用性,并對不同DIF 檢驗方法的結(jié)果進行了比較。此外,采用模擬研究在不同樣本量、測驗長度、DIF 模式和DIF 值條件下對MH方法、Wald 方法以及使用D-QQ 圖選擇錨題的兩步MH 方法、兩步Wald 方法和RCD 方法進行了綜合比較。首先,借助D-QQ 圖不但可以輔助選擇錨題,還可直觀判斷測驗是否包含DIF 試題以及DIF 的模式。其次,樣本量和實際DIF 水平對于各種DIF 檢驗方法的平均經(jīng)驗I 類錯誤率的影響并不明顯,但對統(tǒng)計檢驗力有較大影響,即樣本量越大,DIF 值越高,DIF 檢驗方法的平均統(tǒng)計檢驗力也越高。最后,基于D-QQ 圖的兩步MH 和Wald 方法在各種條件下表現(xiàn)優(yōu)異,在測驗中有一半題目包含DIF 的條件下相較其他方法表現(xiàn)更佳:在平衡DIF 模式下對經(jīng)驗I 類錯誤的控制優(yōu)于RCD 方法,在非平衡DIF 模式下對經(jīng)驗I 類錯誤的控制明顯優(yōu)于原MH 和Wald方法,且統(tǒng)計檢驗力也高于原MH 和Wald 方法。不過,當(dāng)各組樣本量不足2000 人時,在平衡條件下兩步法的統(tǒng)計檢驗力也可能略低于原MH 和Wald方法??傊狙芯刻岢龅膬刹紻IF 檢驗方法借助D-QQ 圖有效識別了無DIF 試題,在大部分條件下改善了原有檢驗方法的表現(xiàn)。本研究仍有一些需要討論的地方。

    首先,D-QQ 圖可以用來識別無DIF 的錨題,一般選擇近似落在直線上的試題即可。但若有多組試題分別落在多條斜線上,則需要額外信息來確定哪組包含DIF。不過這在現(xiàn)實情況中比較罕見,一般不會出現(xiàn)所有題目的DIF 值都相同。若沒有試題落在斜線上,可進一步通過比較縱軸和橫軸的散點取值范圍來判斷測試是否包含DIF 試題,如果縱軸的取值范圍遠(yuǎn)大于橫軸的,則說明測試整體質(zhì)量欠佳,需要重新設(shè)計。

    其次,本研究將D-QQ 圖與MH 和Wald 方法相結(jié)合,在大多數(shù)條件下,對于I 類錯誤的控制和統(tǒng)計檢驗力表現(xiàn)均優(yōu)于傳統(tǒng)的MH、Wald 方法以及RCD 方法。這可能是由于MH 和Wald 方法在參數(shù)估計或試題提純過程中直接或間接地用到了含有DIF 的錨試題所致。而RCD 在平衡條件下的經(jīng)驗I類錯誤會超出7.5%,可能是由于在RCD 算法內(nèi)采用重復(fù)抽樣方法構(gòu)建無DIF 的難度差異分布時,受到參數(shù)估計準(zhǔn)確性的影響,而導(dǎo)致置信區(qū)間上下限的收縮或擴張,從而影響邊界點判斷的準(zhǔn)確性。

    最后,本研究所提出的兩步法具有一定的拓展性。首先,其思想可以拓展到更復(fù)雜的模型與測驗設(shè)計之中,如采用兩參數(shù)Logistic 模型、多級評分試題(駱方, 張厚粲, 2006; 張龍, 涂冬波, 2015),或在多維測驗(魏丹等, 2020)、題組設(shè)計下(郭聰穎,邊玉芳, 2013)進行DIF 檢驗,但其拓展方式與表現(xiàn)仍需要進一步研究。其次,本文僅考慮了兩組被試的DIF 檢驗,若要擴展到多組,可以將兩步DIF檢測法的第一步改進為兩兩比較求交集選擇錨題的過程。最后,兩步DIF 檢測法的第二步可以結(jié)合多種DIF 檢測方法,本研究僅考慮了MH法和Wald 法,后續(xù)研究可以探討結(jié)合更多方法的表現(xiàn)。

    參考文獻

    曹亦薇. (2003). 項目功能差異在跨文化人格問卷分析中的應(yīng)用. 心理學(xué)報,35 (1), 120-126.

    關(guān)丹丹, 喬輝, 陳康, 韓奕帆. (2019). 全國高考英語試題的城鄉(xiāng)項目功能差異分析. 心理學(xué)探新, 39 (1), 64-69.

    郭聰穎, 邊玉芳. (2013). 題組項目功能差異(DIF) 檢驗方法的應(yīng)用探索.心理學(xué)探新, 33 (5), 423-429.

    林岳卿, 方積乾. (2011). 多維IRT 與單維IRT 在多維量表中應(yīng)用的差異.中國衛(wèi)生統(tǒng)計, 28 (3), 226-228.

    劉文, 邊玉芳, 陳玲麗, 馬文超. (2010). 馬洛- 克羅恩社會贊許性量表在跨文化研究中的項目功能差異檢驗. 心理科學(xué), 33 (6), 1473-1476.

    駱方, 張厚粲. (2006). 檢驗項目功能差異的兩類方法——CFA 和IRT 的比較. 心理學(xué)探新, 26 (1), 74-78.

    漆書青, 戴海崎, 丁樹良. (2002). 現(xiàn)代教育與心理測量學(xué)原理. 高等教育出版社.

    魏丹, 張丹慧, 劉紅云. (2020). 基于多維題組反應(yīng)模型的項目功能差異檢驗探究. 心理科學(xué), 43 (1), 206-214.

    余躍, 杜文久, 周娟, 秦菊香. (2016). LP 方法及其與三種常用DIF 檢測方法的比較. 心理科學(xué), 39 (3), 720-726.

    張龍, 涂冬波. (2015). 多級計分題項目功能差異常用檢測方法及比較. 江西師范大學(xué)學(xué)報( 自然科學(xué)版), 39 (5), 441-448.

    鄭蟬金, 郭聰穎, 邊玉芳. (2011). 變通的題組項目功能差異檢驗方法在篇章閱讀測驗中的應(yīng)用. 心理學(xué)報, 43 (7), 830-835.

    American Educational Research Association, American Psychological Association,amp; National Council on Measurement in Education. (2014). Standards for"educational and psychological testing: National council on measurement in education. Author.

    Barnett, V., amp; Lewis, T. (1994). Outliers in statistical data. Wiley.

    Bechger, T. M., amp; Maris, G. (2015). A statistical test for differential item pair functioning. Psychometrika, 80 (2), 317-340.

    Bond, T. G., amp; Fox, C. M. (2013). Applying the rasch model: Fundamental"measurement in the human sciences. Psychology Press.

    Bradley, J. V. (1978). Robustness? British Journal of Mathematical and Statistical Psychology, 31 (2), 144-152.

    Cai, L. (2017). flexMIRT? Version 3.51: Flexible multilevel multidimensional item"analysis and test scoring . Vector Psychometric Group.

    Candell, G. L., amp; Drasgow, F. (1988). An iterative procedure for linking metrics"and assessing item bias in item response theory. Applied Psychological"Measurement, 12 (3), 253-260.

    Cao, M. Y., Tay, L., amp; Liu, Y. W. (2017). A Monte Carlo study of an iterative Wald test procedure for DIF analysis. Educational and Psychological Measurement,77 (1), 104-118.

    Clauser, B., Mazor, K., amp; Hambleton, R. K. (1993). The effects of purification of matching criterion on the identification of DIF using the Mantel-Haenszel"procedure. Applied Measurement in Education, 6(4), 269-279.

    Clauser, B. E., amp; Mazor, K. M. (1998). Using statistical procedures to identify differentially functioning test items. Educational Measurement: Issues and"Practice, 17 (1), 31-44.

    DeMars, C. E. (2011). An analytic comparison of effect sizes for differential item functioning. Applied Measurement in Education, 24(3), 189-209.

    Fidalgo, A. M., Mellenbergh, G. J., amp; Mu?iz, J. (2000). Effects of amount of DIF,test length, and purification type on robustness and power of Mantel-Haenszel"procedures. Methods of Psychological Research, 5(3), 43-53.

    Finch, H. (2005). The MIMIC model as a method for detecting DIF: Comparison with Mantel-Haenszel, SIBTEST, and the IRT likelihood ratio. Applied"Psychological Measurement, 29 (4), 278-295.

    Fischer, G. H., amp; Molenaar, I. W. (1995). Rasch models: Foundations, recent developments, and applications. Springer.

    French, B. F., amp; Maller, S. J. (2007). Iterative purification and effect size use with logistic regression for differential item functioning detection. Educational and"Psychological Measurement, 67 (3), 373-393.

    Frick, H., Strobl, C., amp; Zeileis, A. (2015). Rasch mixture models for DIF detection: A comparison of old and new score specifications. Educational and"Psychological Measurement, 75 (2), 208-234.

    Halpern, D. F. (2000). Sex differences in cognitive abilities . Lawrence Erlbaum Associates Publishers.

    Hansen, M., Cai, L., Monroe, S., amp; Li, Z. (2016). Limited-information goodnessof-fit testing of diagnostic classification item response models. British Journal"of Mathematical and Statistical Psychology, 69(3), 225-252.

    Holland, P. W., amp; Thayer, D. T. (1986). Differential item performance and the Mantel-Haenszel statistic. Paper presented at the annual meeting of the"American Educational Research Association, San Francisco, CA.

    Holland, P. W., amp; Thayer, D. T. (1988). Differential item performance and the Mantel-Haenszel procedure. In H. Wainer amp; H. I. Braun (Eds.), Test validity"(pp. 129-145). Lawrence Erlbaum Associates.

    Hyde, J. S., amp; Linn, M. C. (1988). Gender differences in verbal ability: A metaanalysis. Psychological Bulletin, 104 (1), 53-69.

    J?reskog, K. G., amp; Goldberger, A. S. (1975). Estimation of a model with multiple"indicators and multiple causes of a single latent variable. Journal of the"American Statistical Association, 70 (351), 631-639.

    Kopf, J., Zeileis, A., amp; Strobl, C. (2015a). A framework for anchor methods and an iterative forward approach for DIF detection. Applied Psychological"Measurement, 39 (2), 83-103.

    Kopf, J., Zeileis, A., amp; Strobl, C. (2015b). Anchor selection strategies for DIF analysis: Review, assessment, and new approaches. Educational and"Psychological Measurement, 75 (1), 22-56.

    Lord, F. M. (1980). Applications of item response theory to practical testing problems IRT. Lawrence Erlbaum Associates.

    Magis, D., Béland, S., Tuerlinckx, F., amp; De Boeck, P. (2010). A general"framework and an R package for the detection of dichotomous differential item"functioning. Behavior Research Methods, 42 (3), 847-862.

    Magis, D., amp; De Boeck, P. (2012). A robust outlier approach to prevent type I error inflation in differential item functioning. Educational and Psychological"Measurement, 72 (2), 291-311.

    Magis, D., amp; Facon, B. (2013). Item purification does not always improve DIF detection: A counterexample with Angoff's delta plot. Educational and"Psychological Measurement, 73 (2), 293-311.

    May, H. (2006). A multilevel Bayesian item response theory method for scaling socioeconomic status in international studies of education. Journal of"Educational and Behavioral Statistics, 31(1), 63-79.

    Muthén, B. (1985). A method for studying the homogeneity of test items with respect to other relevant variables. Journal of Educational Statistics, 10 (2),121-132.

    Navas-Ara, M. J., amp; Gómez-Benito, J. (2002). Effects of ability scale purification on the identification of dif. European Journal of Psychological Assessment,18 (1), 9-15.

    OECD. (2014). PISA 2012 Technical Report. OECD Publishing.

    Roussos, L. A., Schnipke, D. L., amp; Pashley, P. J. (1999). A generalized formula for the Mantel-Haenszel differential item functioning parameter. Journal of"Educational and Behavioral Statistics, 24(3), 293-322.

    Shaywitz, B. A., Shaywltz, S. E., Pugh, K. R., Constable, R. T., Skudlarski, P.,F(xiàn)ulbright, R. K., amp; Gore, J. C. (1995). Sex differences in the functional organization of the brain for language. Nature, 373 (6515), 607-609.

    Shealy, R., amp; Stout, W. (1993). A model-based standardization approach that separates true bias/DIF from group ability differences and detects test bias/DTF as well as item bias/DIF. Psychometrika, 58 (2), 159-194.

    Shih, C. L., amp; Wang, W. C. (2009). Differential item functioning detection using the multiple indicators, multiple causes method with a pure short anchor. Applied"Psychological Measurement, 33 (3), 184-199.

    Sinharay, S., Dorans, N. J., Grant, M. C, Blew, E. O., amp; Knorr, C. M. (2006). Using past data to enhance small-sample DIF estimation: A Bayesian approach.ETS Research Report, 2006 (1), i-38.

    Soares, T. M., Gon?alves, F. B., amp; Gamerman, D. (2009). An integrated Bayesian model for DIF analysis. Journal of Educational and Behavioral Statistics,34 (3), 348-377.

    Steiger, J. H., amp; Lind, J. C. (1980). Statistically based tests for the number of common factors. Paper presented at the Annual Meeting of the Psychometric"Society, Iowa City, IA.

    Tay, L., Meade, A. W., amp; Cao, M. Y. (2015). An overview and practical guide to IRT measurement equivalence analysis. Organizational Research Methods,18 (1), 3-46.

    Thissen, D., Steinberg, L., amp; Gerrard, M. (1986). Beyond group-mean differences:The concept of item bias. Psychological Bulletin, 99 (1), 118-128.

    Thissen, D., Steinberg, L., amp; Wainer, H. (1993). Detection of differential item functioning using the parameters of item response models. In P. W. Holland"amp; H. Wainer (Eds.), Differential item functioning (pp. 67-113). Lawrence Erlbaum Associates.

    Tutz, G., amp; Schauberger, G. (2015). A penalty approach to differential item"functioning in Rasch models. Psychometrika, 80 (1), 21-43.

    Wang, W. C., Shih, C. L., amp; Yang, C. C. (2009). The MIMIC method with scale purification for detecting differential item functioning. Educational and"Psychological Measurement, 69 (5), 713-731.

    Wang, W. C., amp; Su, Y. H. (2004). Effects of average signed area between two item characteristic curves and test purification procedures on the DIF detection"via the Mantel-Haenszel method. Applied Measurement in Education, 17 (2),113-144.

    Woods, C. M., Cai, L., amp; Wang, M. (2013). The Langer-improved Wald test for DIF testing with multiple groups: Evaluation and comparison to two-group"IRT. Educational and Psychological Measurement, 73(3), 532-547.

    Xu, J., Paek, I., amp; Xia, Y. (2017). Investigating the behaviors of M2 and RMSEA2 in fitting a unidimensional model to multidimensional data. Applied"Psychological Measurement, 41 (8), 632-644.

    Yen, W. M. (1984). Effects of local item dependence on the fit and equating performance of the three-parameter logistic model. Applied Psychological"Measurement, 8 (2), 125-145.

    Yuan, K. H., Liu, H. Y., amp; Han, Y. T. (2021). Differential item functioning analysis without a priori information on anchor items: QQ plots and graphical test.Psychometrika, 86 (2), 345-377.

    Zieky, M. (1993). Practical questions in the use of DIF statistics in test development. In P. W. Holland amp; H. Wainer (Eds.), Differential item functioning (pp. 337-347). Routledge.

    Zwick, R., amp; Thayer, D. T. (2002). Application of an empirical Bayes enhancement of Mantel-Haenszel differential item functioning analysis to a computerized"adaptive test. Applied Psychological Measurement, 26 (1), 57-76.

    Zwick, R., Thayer, D. T., amp; Lewis, C. (2000). Using loss functions for DIF detection:An empirical Bayes approach. Journal of Educational and Behavioral"Statistics, 25 (2), 225-247.

    本研究得到北京市社會科學(xué)基金項目(23JYC019)的資助。

    猜你喜歡
    檢驗法
    疫情時期我國房地產(chǎn)價格泡沫的測度以及應(yīng)對措施
    梧州市高溫事件氣候特征分析
    用尿液干化學(xué)檢驗法聯(lián)合尿沉渣檢驗法進行尿常規(guī)檢驗的效果分析
    藥品檢驗中細(xì)菌內(nèi)毒素檢驗法的作用探討
    國際法中的“反事實推理”:作用與局限
    PCR 檢驗法和細(xì)菌培養(yǎng)法用于陰道細(xì)菌檢驗的效果
    混合χ2檢測法在組合導(dǎo)航系統(tǒng)故障檢測中的應(yīng)用
    論TRIPS協(xié)議中“三步檢驗法”存廢之爭和解決途徑
    昭覺縣氣候變化對農(nóng)業(yè)生產(chǎn)的影響
    關(guān)于協(xié)方差的U統(tǒng)計量檢驗法
    aaaaa片日本免费| 色av中文字幕| 国产成人精品久久二区二区免费| 欧美亚洲日本最大视频资源| 久久99热这里只有精品18| 国内毛片毛片毛片毛片毛片| 亚洲人成伊人成综合网2020| 色播在线永久视频| 日韩免费av在线播放| 精品乱码久久久久久99久播| 亚洲aⅴ乱码一区二区在线播放 | 99久久精品国产亚洲精品| 夜夜躁狠狠躁天天躁| 婷婷亚洲欧美| 男人舔女人下体高潮全视频| 欧美zozozo另类| 亚洲一区高清亚洲精品| 国产精品电影一区二区三区| 老熟妇仑乱视频hdxx| 黄片小视频在线播放| 两个人视频免费观看高清| 日韩一卡2卡3卡4卡2021年| 怎么达到女性高潮| 国产高清视频在线播放一区| 亚洲第一青青草原| 香蕉国产在线看| 国内久久婷婷六月综合欲色啪| 日韩国内少妇激情av| 大型黄色视频在线免费观看| 亚洲无线在线观看| 99热6这里只有精品| 啦啦啦韩国在线观看视频| 日韩中文字幕欧美一区二区| 日韩欧美一区二区三区在线观看| 久久久久国内视频| 日本一本二区三区精品| 欧美亚洲日本最大视频资源| 啦啦啦 在线观看视频| 午夜福利视频1000在线观看| 久久午夜综合久久蜜桃| 夜夜看夜夜爽夜夜摸| 久久狼人影院| 99国产精品一区二区蜜桃av| 在线观看日韩欧美| 精品久久久久久久人妻蜜臀av| 亚洲一区二区三区色噜噜| 久久天堂一区二区三区四区| 91国产中文字幕| 中文字幕最新亚洲高清| 不卡一级毛片| 久久久久久国产a免费观看| 欧美成人一区二区免费高清观看 | 免费在线观看黄色视频的| 淫妇啪啪啪对白视频| 亚洲三区欧美一区| 精品乱码久久久久久99久播| 在线观看免费午夜福利视频| 人人妻人人看人人澡| 国内少妇人妻偷人精品xxx网站 | 久久精品国产清高在天天线| 1024手机看黄色片| 成人精品一区二区免费| 99国产极品粉嫩在线观看| 成人免费观看视频高清| av片东京热男人的天堂| 又黄又爽又免费观看的视频| 天天躁夜夜躁狠狠躁躁| 欧美午夜高清在线| a在线观看视频网站| 成人18禁在线播放| 欧美 亚洲 国产 日韩一| 黑人巨大精品欧美一区二区mp4| 美女大奶头视频| 亚洲精品久久成人aⅴ小说| 极品教师在线免费播放| 精品久久蜜臀av无| av免费在线观看网站| 一区福利在线观看| 一区二区三区精品91| 最近最新中文字幕大全电影3 | 18禁美女被吸乳视频| 国产单亲对白刺激| 久久国产精品影院| 亚洲久久久国产精品| 国产av又大| 夜夜躁狠狠躁天天躁| 免费在线观看影片大全网站| 99国产综合亚洲精品| 亚洲成a人片在线一区二区| 久久精品亚洲精品国产色婷小说| 欧美av亚洲av综合av国产av| 久久精品91无色码中文字幕| 日韩大尺度精品在线看网址| 午夜免费成人在线视频| 国产成人精品久久二区二区91| 人妻久久中文字幕网| 亚洲国产精品合色在线| 深夜精品福利| x7x7x7水蜜桃| 在线十欧美十亚洲十日本专区| 97人妻精品一区二区三区麻豆 | 看片在线看免费视频| 天天躁夜夜躁狠狠躁躁| 51午夜福利影视在线观看| 成人三级做爰电影| 日韩中文字幕欧美一区二区| www.999成人在线观看| 后天国语完整版免费观看| 脱女人内裤的视频| 日韩欧美国产一区二区入口| 99国产精品一区二区蜜桃av| 国产aⅴ精品一区二区三区波| 亚洲熟女毛片儿| 男女床上黄色一级片免费看| 在线看三级毛片| 久久国产亚洲av麻豆专区| 精品人妻1区二区| 久久中文字幕一级| 久久久久国产一级毛片高清牌| 免费无遮挡裸体视频| 久久精品国产清高在天天线| 国内精品久久久久久久电影| 又黄又粗又硬又大视频| 午夜免费观看网址| 精品熟女少妇八av免费久了| www日本在线高清视频| 久久精品夜夜夜夜夜久久蜜豆 | 国产熟女午夜一区二区三区| 色综合婷婷激情| 国产野战对白在线观看| www.www免费av| 日本一本二区三区精品| 久久久国产欧美日韩av| 琪琪午夜伦伦电影理论片6080| 俺也久久电影网| 欧美丝袜亚洲另类 | 久久婷婷人人爽人人干人人爱| 欧美日韩乱码在线| 最新在线观看一区二区三区| 一级毛片女人18水好多| 色哟哟哟哟哟哟| 天堂动漫精品| 欧美成人一区二区免费高清观看 | 男女做爰动态图高潮gif福利片| 一个人免费在线观看的高清视频| 中国美女看黄片| 国产成人一区二区三区免费视频网站| 亚洲avbb在线观看| 精品高清国产在线一区| 一区二区三区激情视频| 美女大奶头视频| 在线天堂中文资源库| 亚洲aⅴ乱码一区二区在线播放 | 亚洲免费av在线视频| 国产成人av激情在线播放| 成年版毛片免费区| 午夜影院日韩av| 琪琪午夜伦伦电影理论片6080| 国产区一区二久久| 美女国产高潮福利片在线看| 免费av毛片视频| 国产真实乱freesex| 国产亚洲精品综合一区在线观看 | 欧美成人性av电影在线观看| 国产成人av激情在线播放| 欧美又色又爽又黄视频| 日本免费一区二区三区高清不卡| 午夜亚洲福利在线播放| 国产在线精品亚洲第一网站| 搡老岳熟女国产| 视频在线观看一区二区三区| 波多野结衣巨乳人妻| 亚洲成人精品中文字幕电影| 中亚洲国语对白在线视频| 精品一区二区三区av网在线观看| 国产在线观看jvid| 色精品久久人妻99蜜桃| 色综合婷婷激情| 日本五十路高清| 深夜精品福利| 91麻豆av在线| 韩国精品一区二区三区| 18禁裸乳无遮挡免费网站照片 | 久久精品国产清高在天天线| 最新在线观看一区二区三区| 欧美亚洲日本最大视频资源| 日本a在线网址| 午夜久久久久精精品| 12—13女人毛片做爰片一| 日本免费a在线| 国产av一区在线观看免费| 亚洲成人久久性| 少妇裸体淫交视频免费看高清 | 亚洲中文日韩欧美视频| 精品国产美女av久久久久小说| 欧美日韩一级在线毛片| 一级黄色大片毛片| 国产精品av久久久久免费| 日本三级黄在线观看| 老司机靠b影院| 香蕉丝袜av| 制服人妻中文乱码| 精品久久久久久,| 人成视频在线观看免费观看| 9191精品国产免费久久| 一进一出好大好爽视频| 久久草成人影院| 欧美三级亚洲精品| 搡老妇女老女人老熟妇| 波多野结衣巨乳人妻| 国内揄拍国产精品人妻在线 | 久热爱精品视频在线9| 美女高潮到喷水免费观看| 一卡2卡三卡四卡精品乱码亚洲| 丝袜在线中文字幕| 18美女黄网站色大片免费观看| 丁香六月欧美| 宅男免费午夜| 精品久久久久久成人av| 国产精品久久久久久亚洲av鲁大| 欧美成狂野欧美在线观看| 国产亚洲精品一区二区www| 免费av毛片视频| 日韩一卡2卡3卡4卡2021年| 日本成人三级电影网站| 免费看美女性在线毛片视频| 精品国内亚洲2022精品成人| 黄色女人牲交| 久久久国产成人精品二区| 欧美成人午夜精品| 欧美成人性av电影在线观看| 国产亚洲精品av在线| 精品国产美女av久久久久小说| 99热6这里只有精品| 精品少妇一区二区三区视频日本电影| 制服丝袜大香蕉在线| 亚洲天堂国产精品一区在线| 美女午夜性视频免费| 1024手机看黄色片| 女同久久另类99精品国产91| 99国产精品一区二区蜜桃av| 久久精品亚洲精品国产色婷小说| 国产一区二区在线av高清观看| 美女扒开内裤让男人捅视频| 亚洲欧美日韩无卡精品| 欧美日韩福利视频一区二区| 久热爱精品视频在线9| 欧美性猛交╳xxx乱大交人| 日韩欧美国产在线观看| 97人妻精品一区二区三区麻豆 | 不卡av一区二区三区| 亚洲男人天堂网一区| 成人国语在线视频| 神马国产精品三级电影在线观看 | 亚洲第一欧美日韩一区二区三区| 国产成人欧美| 免费看十八禁软件| 女人爽到高潮嗷嗷叫在线视频| 国产精品免费一区二区三区在线| 免费在线观看成人毛片| 亚洲精品在线美女| 视频在线观看一区二区三区| www日本在线高清视频| 女性生殖器流出的白浆| 久久热在线av| 男女下面进入的视频免费午夜 | 白带黄色成豆腐渣| 男女之事视频高清在线观看| 国产亚洲精品av在线| 中文字幕人妻丝袜一区二区| www.熟女人妻精品国产| 久久国产乱子伦精品免费另类| 桃红色精品国产亚洲av| 婷婷亚洲欧美| 亚洲无线在线观看| 国产又黄又爽又无遮挡在线| 日韩欧美一区二区三区在线观看| 精品久久久久久成人av| 巨乳人妻的诱惑在线观看| 人人妻人人澡人人看| 久久香蕉精品热| 两个人视频免费观看高清| 色综合婷婷激情| 国产精品二区激情视频| 天堂影院成人在线观看| 欧美黑人精品巨大| 精品日产1卡2卡| 大型黄色视频在线免费观看| 国产真实乱freesex| 在线观看免费视频日本深夜| 人成视频在线观看免费观看| 美国免费a级毛片| 欧美激情极品国产一区二区三区| 我的亚洲天堂| 日韩欧美三级三区| 成人18禁高潮啪啪吃奶动态图| 亚洲第一av免费看| 久久精品国产99精品国产亚洲性色| 麻豆久久精品国产亚洲av| 中国美女看黄片| 亚洲最大成人中文| 51午夜福利影视在线观看| 亚洲av片天天在线观看| 久久久久久大精品| 精品国内亚洲2022精品成人| 亚洲精品美女久久久久99蜜臀| 黄色丝袜av网址大全| www日本黄色视频网| 99热6这里只有精品| 麻豆久久精品国产亚洲av| 免费看十八禁软件| 国产乱人伦免费视频| 久久中文字幕一级| 看黄色毛片网站| 天堂动漫精品| 黑人欧美特级aaaaaa片| 久久精品国产清高在天天线| 中文字幕最新亚洲高清| 午夜免费观看网址| 久久午夜综合久久蜜桃| 精品国产美女av久久久久小说| 国产亚洲欧美精品永久| 美女免费视频网站| 欧美成人免费av一区二区三区| 久久欧美精品欧美久久欧美| 午夜激情福利司机影院| 国产成人欧美| 午夜精品久久久久久毛片777| 亚洲熟女毛片儿| 最近最新免费中文字幕在线| 变态另类成人亚洲欧美熟女| 欧美黑人巨大hd| 老司机深夜福利视频在线观看| 欧美性猛交黑人性爽| 窝窝影院91人妻| 免费高清视频大片| 国产激情欧美一区二区| 波多野结衣高清作品| www.精华液| 亚洲第一av免费看| 久久草成人影院| 村上凉子中文字幕在线| 首页视频小说图片口味搜索| 国产成人系列免费观看| 少妇的丰满在线观看| 亚洲精品在线观看二区| 欧美人与性动交α欧美精品济南到| 国产1区2区3区精品| 一区二区日韩欧美中文字幕| 久久这里只有精品19| 日本成人三级电影网站| 精品久久久久久久毛片微露脸| 亚洲男人的天堂狠狠| av免费在线观看网站| 亚洲熟妇中文字幕五十中出| 日本撒尿小便嘘嘘汇集6| 又黄又爽又免费观看的视频| 长腿黑丝高跟| 久久久久久亚洲精品国产蜜桃av| 成人国产综合亚洲| 黄色视频不卡| 欧美成人免费av一区二区三区| 动漫黄色视频在线观看| 国产精品av久久久久免费| 国产精品 欧美亚洲| 午夜福利高清视频| 最近最新中文字幕大全免费视频| svipshipincom国产片| 日韩免费av在线播放| 免费人成视频x8x8入口观看| 日日爽夜夜爽网站| 一区二区日韩欧美中文字幕| 亚洲国产精品久久男人天堂| 久久精品国产清高在天天线| 91老司机精品| 男女床上黄色一级片免费看| 精品久久久久久久久久免费视频| 亚洲国产欧洲综合997久久, | 国产一区二区激情短视频| 天堂影院成人在线观看| 亚洲激情在线av| 亚洲欧洲精品一区二区精品久久久| 一a级毛片在线观看| 校园春色视频在线观看| 日韩欧美一区二区三区在线观看| 久久热在线av| 哪里可以看免费的av片| 午夜日韩欧美国产| 久久中文字幕人妻熟女| www日本在线高清视频| 成人午夜高清在线视频 | 精品欧美国产一区二区三| 一区二区三区激情视频| 麻豆成人午夜福利视频| 神马国产精品三级电影在线观看 | 波多野结衣巨乳人妻| 国产精品九九99| 久久 成人 亚洲| 天堂动漫精品| 黄色毛片三级朝国网站| 亚洲无线在线观看| 又黄又粗又硬又大视频| 99久久无色码亚洲精品果冻| 一级黄色大片毛片| 国产亚洲av嫩草精品影院| 老汉色∧v一级毛片| 成人手机av| 在线观看66精品国产| 免费看十八禁软件| 亚洲 欧美 日韩 在线 免费| 99精品久久久久人妻精品| 日韩免费av在线播放| 免费在线观看成人毛片| 巨乳人妻的诱惑在线观看| 美女扒开内裤让男人捅视频| 宅男免费午夜| 中文字幕av电影在线播放| 亚洲av日韩精品久久久久久密| 中文字幕av电影在线播放| 淫秽高清视频在线观看| 一本大道久久a久久精品| 狠狠狠狠99中文字幕| 亚洲色图av天堂| 日韩高清综合在线| 999精品在线视频| 国产精品美女特级片免费视频播放器 | 国产熟女午夜一区二区三区| 久久久久亚洲av毛片大全| e午夜精品久久久久久久| 97人妻精品一区二区三区麻豆 | 久久人人精品亚洲av| 国产97色在线日韩免费| 啦啦啦免费观看视频1| 欧美国产日韩亚洲一区| 亚洲av成人av| 黄色毛片三级朝国网站| 制服丝袜大香蕉在线| 老熟妇乱子伦视频在线观看| 午夜免费激情av| 亚洲国产欧美日韩在线播放| x7x7x7水蜜桃| 国产在线观看jvid| 级片在线观看| 国产一区二区激情短视频| 91九色精品人成在线观看| 国产av一区在线观看免费| 香蕉av资源在线| 一级毛片女人18水好多| av在线天堂中文字幕| 色婷婷久久久亚洲欧美| 18禁裸乳无遮挡免费网站照片 | 99久久无色码亚洲精品果冻| 国产午夜福利久久久久久| 欧美日韩福利视频一区二区| 少妇粗大呻吟视频| 日本撒尿小便嘘嘘汇集6| www日本黄色视频网| 日韩欧美在线二视频| 久久久久久久久久黄片| 9191精品国产免费久久| 免费搜索国产男女视频| 身体一侧抽搐| 99久久精品国产亚洲精品| 中文字幕人成人乱码亚洲影| 黑人欧美特级aaaaaa片| 亚洲人成77777在线视频| www日本在线高清视频| 久久久久国内视频| 好男人电影高清在线观看| 国产精品亚洲av一区麻豆| 18禁黄网站禁片免费观看直播| 亚洲第一电影网av| av有码第一页| 女性被躁到高潮视频| 视频在线观看一区二区三区| 18禁观看日本| 成人三级做爰电影| 岛国视频午夜一区免费看| 精品高清国产在线一区| 69av精品久久久久久| 侵犯人妻中文字幕一二三四区| 久久九九热精品免费| 亚洲全国av大片| 性欧美人与动物交配| 日韩欧美一区视频在线观看| 中文字幕久久专区| 黄频高清免费视频| 成人特级黄色片久久久久久久| 18禁黄网站禁片午夜丰满| 美女大奶头视频| 亚洲天堂国产精品一区在线| a级毛片a级免费在线| 日韩精品中文字幕看吧| 成年人黄色毛片网站| www.自偷自拍.com| 成人三级做爰电影| www.999成人在线观看| 好看av亚洲va欧美ⅴa在| 亚洲黑人精品在线| 一进一出抽搐gif免费好疼| 久久精品国产99精品国产亚洲性色| 精品国产美女av久久久久小说| 丁香六月欧美| cao死你这个sao货| 99久久久亚洲精品蜜臀av| 狂野欧美激情性xxxx| 亚洲第一青青草原| 亚洲av片天天在线观看| 最近最新免费中文字幕在线| 久久精品人妻少妇| 美女扒开内裤让男人捅视频| 黄色视频不卡| 美女国产高潮福利片在线看| 别揉我奶头~嗯~啊~动态视频| 久久人人精品亚洲av| 中文字幕最新亚洲高清| 制服诱惑二区| 精品人妻1区二区| 国内久久婷婷六月综合欲色啪| 欧美激情极品国产一区二区三区| 亚洲一区中文字幕在线| 午夜精品久久久久久毛片777| 美女大奶头视频| 久久热在线av| 丝袜美腿诱惑在线| 亚洲成人免费电影在线观看| e午夜精品久久久久久久| 国产欧美日韩一区二区三| 看片在线看免费视频| 亚洲国产精品成人综合色| 每晚都被弄得嗷嗷叫到高潮| 老司机福利观看| 亚洲精品美女久久av网站| 搡老熟女国产l中国老女人| 午夜福利在线观看吧| 国产一区二区三区视频了| 成年免费大片在线观看| 最好的美女福利视频网| 亚洲人成伊人成综合网2020| 每晚都被弄得嗷嗷叫到高潮| 久久香蕉激情| 久久久久亚洲av毛片大全| av片东京热男人的天堂| 久久国产精品影院| 亚洲av电影在线进入| 色尼玛亚洲综合影院| 久热这里只有精品99| 欧美中文综合在线视频| 大型黄色视频在线免费观看| 亚洲aⅴ乱码一区二区在线播放 | 久久婷婷成人综合色麻豆| 精品熟女少妇八av免费久了| 亚洲成人精品中文字幕电影| 日本三级黄在线观看| 99精品欧美一区二区三区四区| 看黄色毛片网站| 51午夜福利影视在线观看| 变态另类成人亚洲欧美熟女| 99在线视频只有这里精品首页| 亚洲精品中文字幕在线视频| 精品一区二区三区四区五区乱码| 国产精品久久久久久亚洲av鲁大| 色综合欧美亚洲国产小说| 欧美激情 高清一区二区三区| 级片在线观看| 老汉色av国产亚洲站长工具| 一级毛片精品| 国产精品自产拍在线观看55亚洲| 久久久久精品国产欧美久久久| 两个人免费观看高清视频| 久久国产精品人妻蜜桃| 天堂动漫精品| 亚洲av片天天在线观看| 国产亚洲精品久久久久5区| 国产黄片美女视频| 亚洲五月婷婷丁香| 午夜视频精品福利| 国产精品亚洲av一区麻豆| 亚洲片人在线观看| 黄色a级毛片大全视频| 黄色视频,在线免费观看| 婷婷亚洲欧美| 又大又爽又粗| 一进一出抽搐gif免费好疼| 久久精品国产99精品国产亚洲性色| 久久婷婷人人爽人人干人人爱| 国产精品电影一区二区三区| 精品免费久久久久久久清纯| 久久国产精品影院| 亚洲成av人片免费观看| ponron亚洲| 欧美色欧美亚洲另类二区| 国产不卡一卡二| www.精华液| 精品久久久久久,| 亚洲国产精品久久男人天堂| 久久久久久久久久黄片| 久久国产亚洲av麻豆专区| 欧美激情高清一区二区三区| 欧美乱色亚洲激情| 免费搜索国产男女视频| 777久久人妻少妇嫩草av网站| 中国美女看黄片| 悠悠久久av| 国产视频内射| 在线观看一区二区三区| 国产人伦9x9x在线观看| 国产午夜精品久久久久久| 女人爽到高潮嗷嗷叫在线视频| 色播亚洲综合网| 亚洲精品国产区一区二| 人人妻人人澡人人看| 精华霜和精华液先用哪个| 成人18禁高潮啪啪吃奶动态图| 亚洲中文av在线|