• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    CAT模擬結(jié)果的分析模式與評價指標

    2016-06-05 14:14:54簡小珠戴步云
    中國考試 2016年12期
    關(guān)鍵詞:估計值題庫測驗

    簡小珠 戴步云 陳 平

    CAT模擬結(jié)果的分析模式與評價指標

    簡小珠 戴步云 陳 平

    計算機化自適應(yīng)測驗(CAT)模擬是CAT研究的主要方法之一。CAT模擬結(jié)果的評價分析內(nèi)容主要包括三個方面:被試能力估計與被試能力分類分析、題庫試題使用情況分析和CAT測驗作答過程分析。CAT模擬結(jié)果的分析模式主要分為整體分析和細化分析兩種模式。本研究從測驗?zāi)M返真性能、測驗準確性、題庫安全性、題庫使用率、測驗分類效率與準確性、多測驗?zāi)繕思s束控制的實現(xiàn)程度等角度概述CAT模擬結(jié)果的各類評價指標。CAT模擬結(jié)果的評價角度和評價指標需要根據(jù)CAT研究目標和測驗情境要求加以確定。

    CAT;CAT模擬;分析模式;評價指標

    1 CAT模擬結(jié)果的分析模式

    計算機化自適應(yīng)測驗(Computerized Adaptive Testing,CAT)模擬是CAT測驗技術(shù)研究的主要手段。從分析內(nèi)容角度來看,CAT測驗技術(shù)研究主要從三個方面對CAT模擬結(jié)果進行分析:一是被試能力估計和被試能力分類情況;二是題庫中試題使用情況,包括試題曝光率情況、題庫使用率和試題內(nèi)容平衡等;三是CAT作答過程,包括在CAT作答過程中被試能力估計值變化情況、試題曝光率情況等。從分析模式角度來看,CAT模擬結(jié)果的分析大致可以分為兩種模式:一種為整體分析模式,對所有被試在測驗上的模擬結(jié)果進行整體評價分析;另一種為細化分析模式,即依據(jù)CAT分析內(nèi)容的三個角度,或者從被試能力量尺的各個水平上對被試能力水平進行細化分析,或者從試題難度量尺水平上對題庫試題利用情況、曝光情況進行細化分析,或者對CAT的每一步作答過程進行細化分析。

    1.1 從被試能力水平方面分析CAT模擬結(jié)果

    對被試能力進行準確估計和正確分類是CAT測驗過程中的最主要目標,因而幾乎所有CAT研究都包含對被試能力估計結(jié)果的分析。被試能力估計結(jié)果的分析模式可以分為三種:整體分析模式、細化分析模式和介于二者之間的分段分析模式。

    (1)整體分析模式。使用整體分析模式時,被試群體能力往往設(shè)計為服從正態(tài)分布或均勻分布。在每一種測驗情境下,在每一評價指標上,所有被試的CAT模擬結(jié)果只使用一個數(shù)據(jù)來評價。大部分CAT研究都是使用這種整體分析模式。但是,這種分析模式只能反映被試整體的模擬返真情況,而不能反映處于不同能力水平的被試在模擬測驗結(jié)果上的差異情況。例如,Chang和Ying在比較α分層與其他選題策略時,使用整體分析模式對每種測驗情境下被試能力估計的MSE和Bias指標進行計算分析[1]。再如,Revuelta和Ponsoda在比較試題曝光率控制方法時,使用整體分析模式分析被試能力模擬返真性能[2]。

    (2)細化分析模式。此種分析模式是在能力量尺上抽取各個對應(yīng)不同能力被試群體的代表性能力點進行模擬結(jié)果分析。很多研究采用代表性能力真值進行CAT模擬分析。例如,Bock和Mislevy選取了從-2.8至+2.8之間各個能力水平的被試,分析期望后驗?zāi)芰烙嫹椒ǎ‥AP)在CAT能力估計中的應(yīng)用特性[3]。Sympson和Hetter模擬了能力被平均分配在7個水平點(-3、-2、-1、0、1、2和3)上的7 000名被試,以分析被試能力估計情況和試題曝光率情況[4]。Chang和Ansley選取了固定在-3.2至+3.2之間的17個能力點,以估算各水平段被試的能力的條件標準誤[5]。陳平和丁樹良在-3.2至+3.2之間選取17個代表性能力點,每個點模擬100名被試[6]。Magis以0.5為間隔距離在-3至+3之間選取了13個代表性能力點[7]。

    (3)分段分析模式。此模式介于前兩種模式之間,對CAT模擬結(jié)果按能力水平進行分段計算分析,要求被試群體的能力服從正態(tài)分布或均勻分布。例如Rulison和Loken計算了全體被試、前10%的高能力被試和最末10%低能力被試的Bias、RMES等[8]。Lin在分析被試群體的整體被試分類準確性時,還單獨對能力初始值大于-1的被試群體進行分析[9]。

    1.2 從題庫的試題使用情況方面分析CAT模擬結(jié)果

    題庫試題使用情況主要指試題曝光率和題庫使用率。題庫試題使用情況的分析模式主要有兩種。一種是整體分析模式,即對題庫中所有試題的曝光率等指標進行評價分析,例如Chang和Ying提出α分層選題策略,在各種測驗情境下對題庫中所有試題的使用情況(包括分析測驗重疊率、卡方統(tǒng)計量、曝光率低于0.2的試題數(shù)量等評價指標)進行分析評價[1]。由于整體模式使用評價指標值來評價題庫整體使用情況,往往較為籠統(tǒng),難以細化整個題庫的試題使用情況。一些研究者便采取另外一種題庫分析模式——細化分析模式。細化分析模式又分為兩種情況。

    第一種情況是以題庫容量為橫坐標分析題庫使用情況。Chang和Ying以題庫試題序號為橫坐標(試題按區(qū)分度由小到大進行排序)、以試題曝光率為縱坐標描繪整個題庫的試題曝光率情況,較為全面詳盡地比較了α分層選題策略和其他幾種選題策略對試題曝光率的影響[1]。Leung,Chang和Hau在分析采用α分層與最大題目信息量相結(jié)合的選題策略對試題曝光率的影響時,也采用類似的方法[10]。van der Linden和Veldkamp在對幾種傳統(tǒng)的試題曝光率控制方法與項目合格法進行比較時,以題庫容量作為橫坐標的最大坐標,按照每一道試題曝光率由大到小依次排序形成線圖,較好地展示了試題曝光率的整體情況以及各個試題曝光率控制方法的對比情況[11]。

    第二種情況是一些研究者對試題使用情況進行分段統(tǒng)計,并運用表格或圖形來更清晰地反映試題使用的細節(jié)。例如,Revuelta和Ponsoda使用表格統(tǒng)計曝光率水平分別為0、1%~10%、11%~20%直至91%~99%和100%的試題的數(shù)量,從而反映題庫在不同曝光率水平上試題使用的整體情況[12]。Thompson以題庫中的試題使用頻數(shù)作為分段標準,使用表格分段的方式來統(tǒng)計分析在各個分段內(nèi)的試題數(shù)量[13]。Han在研究中也使用類似表格形式來分析題庫整體曝光率情況[14]。同時,Han以試題序號為橫坐標,以試題曝光率為縱坐標,使用圖形描繪整個題庫中試題曝光率的散點圖[14]。

    1.3 從CAT測驗過程的角度來分析CAT模擬結(jié)果

    大多數(shù)CAT研究往往只分析評價CAT模擬測驗結(jié)束時的被試能力估計、題庫試題選擇使用情況以及被試作答信息,而沒有關(guān)注CAT測驗過程中每一步作答的測驗信息及其變化情況。一部分研究者為了進一步探討CAT測驗過程中對試題曝光率和測驗交疊率的控制情況,分析被試能力和試題選擇的參數(shù)變化等情況,對CAT測驗過程中的每一步選題、能力估計等測驗信息均進行記錄,從而實現(xiàn)對CAT測驗過程中的各項測量指標的分析評估以及對試題曝光率和區(qū)分度的控制。對CAT測驗過程進行分析評價的代表性研究有:(1)Cheng和Liou依據(jù)測驗開始至第30題被試估計值的Bias變化情況,分析比較了幾種選題策略對被試能力估計準確性的影響[15]。(2)Barrada,Veldkamp和Olea在CAT測驗過程中的每一步都設(shè)置當(dāng)前位置的最大曝光率水平和累計最大曝光率水平,提出多重曝光率的控制方法。他們以最大曝光率為縱坐標,以CAT測驗過程(從第1題到第25題)為橫坐標,繪制了CAT測驗過程中題庫試題曝光率的變化趨勢[16]。(3)Gnambs和Batinic計算了CAT測驗過程每一步驟的被試能力分類情況信息,包括被試分類準確性的數(shù)量和百分比,并由模擬結(jié)果的比較分析得出,刪節(jié)的序列概率比檢驗終止策略(SCSPRT)要優(yōu)于序列概率比檢驗(SPRT)終止策略[17]。(4)簡小珠計算被試在CAT測驗過程中每一步的能力估計值,據(jù)此計算多次模擬測驗的能力估計值的平均值,并以能力估計值為縱坐標,以測驗長度為橫坐標,較好地描繪了CAT測驗過程中被試能力估計值的變化趨勢[18]。(5)Olea等分析第5題至第40題的CAT測驗過程中,根據(jù)選題策略所選擇試題的參數(shù)變化情況,發(fā)現(xiàn)所選擇的試題a參數(shù)估計值和初始值的平均值都是隨著CAT測驗進程逐漸變小,所選擇的b參數(shù)估計值和初始值之間的差異均值隨著CAT測驗進程也逐漸變小[19]。

    此外,CAT過程分析也有一種分階段分析的模式,即在CAT測驗過程中分兩個階段進行分析。Cheng、Chang和Yi在比較4種內(nèi)容模塊的選題策略時,提出在第一階段采用指定內(nèi)容選擇的選題方法,在第二階段則從指定內(nèi)容選擇和非指定內(nèi)容選擇(又稱內(nèi)容彈性選擇)兩種選題方法中任選其一。結(jié)果表明,兩階段均采用內(nèi)容彈性選擇的選題策略能夠?qū)崿F(xiàn)較好的題庫曝光率控制和題庫使用率[20]。Cheng、Chang和Douglas等在探討分析約束加權(quán)控制的α分層策略時,使用的也是分段分析模式[21]。目前這種分階段研究相對很少,但對于那些需要實現(xiàn)多測驗?zāi)繕思s束控制的測驗來說,在CAT測驗過程中進行分階段的控制分析是較為理想的一種模式。

    2 CAT模擬結(jié)果的評價指標

    根據(jù)CAT測驗情境要求,研究者已經(jīng)從多個角度提出對CAT模擬結(jié)果進行評價的指標?;诓煌难芯磕康?,往往需要使用不同的評價角度和評價指標。本文歸納主要有6個評價角度:側(cè)重評價測驗?zāi)M返真性能,側(cè)重分析測驗的測量準確性,側(cè)重評價分析題庫安全性,反映分析題庫的利用率,評價分析測驗分類效率、分類準確性,綜合評價測驗多目標約束控制的實現(xiàn)程度。在這6個評價角度下又分別有多個評價指標,以下分別論述。

    2.1 評價模擬返真性能方面的指標

    反映測驗題目參數(shù)或被試能力參數(shù)的模擬返真性能指標有:均方根誤差RMSE(或均方誤差MSE)、偏差Bias、平均絕對值誤差A(yù)BS、能力真值與能力估計值的皮爾遜積差相關(guān)系數(shù)以及標準誤等。

    (1)均方根誤差(RMSE),是各個測量值離均差的平方和均值的平方根。它是對一組測量數(shù)據(jù)可靠性的估計。均方根誤差小,測量的可靠性大一些,反之,測量就不大可靠。計算公式為其中,N為被試(或測驗試題)總數(shù),M為模擬次數(shù),xjk是第j個參數(shù)(此參數(shù)可以是題目參數(shù),也可以是被試能力參數(shù))在第k次模擬時的估計值,x0j是第j個參數(shù)的模擬初始值或模擬真值,以下公式中的符號含義與此相同。RMSE是CAT模擬研究中最常用的指標,也是其他教育與心理測量模擬研究中最常用的指標。

    當(dāng)然在有些研究中使用均方誤差(MSE),MSE是均方根誤差的平方。Chang和van der Linden進一步提出條件Bias和條件MSE或RMSE,條件Bias和條件MSE是指針對某一被試或某一單獨被試群體而計算的Bias和RMSE,條件Bias和條件MSE與Bias和MSE對CAT模擬返真性能評價意義是一樣的[22]。簡小珠對在-3至+3區(qū)間19個代表性被試分別計算每個被試的Bias和RMSE[18]。Rulison和Loken計算成績前10%的群體和成績最后10%群體的Bias和RMSE[8]。

    (2)絕對值平均偏差(ABS)是數(shù)據(jù)估計值與模擬真值的絕對平均偏差,反映估計值與真值的絕 對 距 離 的大 小 ,計 算 公式 為 ABSE=

    (3)偏差(Bias)是參數(shù)估計值與模擬真值平均偏差程度的反映,表示測量估計值距離模擬真值的偏離的程度,可反映估計值是否存在整體偏差。計算公式為如果需要反映參數(shù)估計值的偏離方向是正向還是負向,就可以選擇Bias。例如,依據(jù)Rulison和Loken的研究,在三參數(shù)模型下,高能力被試答錯前兩題后,使用Bias指標分析模擬初始值和被試估計值,可以反映被試能力被低估的程度[8]。

    (4)皮爾遜積差相關(guān)系數(shù),即求取題目參數(shù)或能力參數(shù)真值與估計值的皮爾遜積差相關(guān)系數(shù)ρ。由以往的研究結(jié)果發(fā)現(xiàn),皮爾遜積差相關(guān)系數(shù)ρ往往對真值與估計值相關(guān)性不靈敏,數(shù)值往往都在0.90以上,有些甚至為0.99或接近1,而且在不同的測驗情境下皮爾遜積差相關(guān)系數(shù)ρ的變化都很小[22-23]。

    RMSE、ABSE與SE這些指標值越小,或Bias的絕對值越接近于零,或皮爾遜積差相關(guān)系數(shù) ρ越大,說明測驗?zāi)M結(jié)果越準確。此5項指標中,RMSE和Bias最為常用。

    2.2 評價測驗測量精度方面的指標

    反映CAT模擬測驗的測量精度的指標有覆蓋百分率、測驗信息量(測量誤差)和平均試題信息量。指標值越大,說明模擬測驗的測量結(jié)果越準確。

    (1)覆蓋百分率(percentage coverage of 95% confidence intervals,PCC)是指根據(jù)模擬測驗的參數(shù)估計值和測驗標準誤,計算第j個參數(shù)在第k次測驗?zāi)M時的參數(shù)估計值xjk的95%置信區(qū)間,觀測第j個參數(shù)的模擬真值在第k次模擬時是否落入這個置信區(qū)間。如果落入此區(qū)間則αjk=1,否者αjk=0,則由N個被試(試題)M次模擬得到的能力估計值落入置信區(qū)間的次數(shù),再除以N×M,即可得到覆蓋百分率。計算公式為也就是說,覆蓋百分率可以反映能力參數(shù)初始值能否落入試題參數(shù)、能力參數(shù)估計值的置信區(qū)間的次數(shù)百分比,也是測驗參數(shù)估計穩(wěn)定性的指標。如Rulison和Loken使用覆蓋百分率衡量被試能力估計的測量精度[8]。

    (2)測驗信息量(test information)。測驗信息量反映的是CAT測驗對估計被試能力所提供的信息多少,也是測量誤差大小的反映。Kingsbury和Zara在增加內(nèi)容模塊設(shè)計的CAT研究中,計算了被試在CAT過程中每一步的測驗信息量[28]。

    (3)測驗試題的平均信息量,即計算CAT測驗中所有被試在測驗過程中的所有試題的測驗信息量的平均值,反映了測驗效率(與測驗長度有關(guān)),也側(cè)面反映了測驗測量誤差,其計算公式為以及程小揚等在分析CAT結(jié)果時都使用了試題平均信息量指標來反映被試能力的測量精度[29-31]。Revuelta和Ponsoda在比較幾種試題曝光率的研究中,使用圖形方式呈現(xiàn)了CAT測驗過程中試題平均信息量的變化趨勢[2]。

    2.3 評價測驗安全控制方面的指標

    評價測驗安全和試題曝光率控制方面的指標包括觀察到的試題最大曝光率、測驗重疊率、試題使用頻數(shù)的卡方統(tǒng)計量χ2以及過度曝光試題的數(shù)量。其中,最大曝光率觀測值、測驗重疊率以及卡方統(tǒng)計量這三項指標使用較多。

    最大曝光率觀測值(observed maximum exposure rates)。題目曝光率是指某一試題被調(diào)用的次數(shù)與參加測驗總?cè)藬?shù)之比。觀察題庫中試題的最大曝光率以及所有題目的曝光率是否都控制在某一預(yù)設(shè)值rmax之下,是評價測驗安全性的一個標準要求,是所有CAT曝光率控制研究中都需要考慮的指標。

    測驗重疊率(test overlap rate)。測驗重疊率是指任意兩個被試間作答相同題目的比例,也是衡量測驗安全性的一個重要指標,Chen、Ankenmann和Spray推導(dǎo)了測驗重疊率與題目曝光率(item exposure rate)之間的關(guān)系[32]:

    卡方統(tǒng)計量(χ2statistic)。Chang和Ying提出χ2統(tǒng)計量用于反映曝光率分布的觀測值與理想值之間的差距,認為題庫中題目曝光率的一致分布也是比較測驗安全控制方法的一個指標[1]。若題庫容量為N,測驗長度為L,則題庫中題目曝光率的最一致的分布為,所以 χ2統(tǒng)計量的公式表示為其中erj是題目j的曝光率。χ2統(tǒng)計量越小,說明題庫的使用越均勻,題庫中所有試題的曝光率就相對較小。如果某種選題方法得到的χ2值較低,則說明題庫中絕大多數(shù)的題目都得到充分利用。在比較不同的選題策略的曝光率結(jié)果時,可以比較它們的χ2。對兩種不同選題方法得到的χ2求F值,表示為:F方法1,方法2=χ2方法1/χ2方法2。如果F方法1,方法2<1,那么可以認為方法1在題目曝光率的平衡方面要好于方法2。

    試題曝光率在CAT測驗過程中的分布均勻性。Barrada、Olea、Ponsoda和Abad以及Barrada、Veldkamp和Olea都提出在CAT測驗過程的各個位置上設(shè)置最大試題曝光率閾限值,并分析題庫試題在CAT測驗從開始到結(jié)束時各個測試位置上的試題曝光率分布[16,33]。Barrada、Veldkamp和Veldkamp以及Olea提出的多重曝光率控制方法有助于使得整個題庫試題曝光率均勻化。

    過度曝光的試題數(shù)量(number of overexposed items)。當(dāng)某一試題實際曝光率超過曝光率限制值0.25(0.2或0.3),那么該試題就被認為是過度曝光了。題庫中過度曝光的試題量越多,則題庫安全性就越差[34]。

    2.4 評價題庫使用方面的指標

    反映題庫使用情況的指標包括題庫使用率、題目使用均勻性、從未調(diào)用試題的數(shù)量或者曝光率低于0.02的試題量、高使用率試題的比例與低使用率試題的比例。

    題庫使用率(utilization rate of item bank)是使用最多的評價指標。題庫使用率是指在題庫中被調(diào)用試題所占全庫容量的比例(試題使用的數(shù)量與題庫容量之比)。Chang、Qian和Ying認為在不降低測驗效率的前提下,題庫中的中、低區(qū)分度試題的使用情況是題庫使用率的衡量標準[35]。

    題目使用均勻性,即計算題庫中所有題目調(diào)用次數(shù)的標準差,該指標也間接反映了題庫使用率。題目調(diào)用次數(shù)的標準差越小,則說明試題使用越均勻,也間接說明題庫使用率較高。程小揚和丁樹良使用該指標分析題庫試題利用率的均勻性[36]。

    從未調(diào)用試題的數(shù)量或者曝光率低于0.02的試題數(shù)量,反映題庫中試題未被使用的情況。Lin在比較計算機化分類測驗中的選題策略時,使用從未調(diào)用試題的數(shù)量這一指標[9]。Chang和Ying使用曝光率低于0.02的試題數(shù)量這一指標比較多種選題策略,發(fā)現(xiàn)使用α分層選題策略時曝光率低于0.02的試題數(shù)量最少[1]。

    高使用率試題的比例與低使用率試題的比例。高使用率試題的比例是指被超過20%的被試用于測試的試題數(shù)量占整個題庫試題量的比例。低使用率試題的比例是指被少于2%的被試用于測試的試題數(shù)量占整個題庫試題量的比例。Huebner和Li在研究中使用了高使用率試題的比例與低使用率試題的比例這兩個指標[37]。曝光率低于0.02的試題數(shù)量這一指標僅僅是反映題庫使用的絕對數(shù)量;而低使用率試題的比例這一指標反映了題庫使用的相對程度,因而要優(yōu)于曝光率低于0.02的試題數(shù)量這一指標。

    此外,題庫中的中等和低等區(qū)分度的題目使用情況也用來作為評價選題策略的重要標準之一。Hau和Chang發(fā)現(xiàn)在不降低測驗效率的前提下,如果中等和低等區(qū)分度的題目被充分利用,則說明這種選題策略的效果較好,較容易避免高區(qū)分度題目過分曝光導(dǎo)致的測驗安全問題和測驗題目的維護與補充帶來的高成本問題[34]。

    2.5 評價被試分類效率和分類準確性方面的指標

    在計算機化分類測驗(或掌握性自適應(yīng)測驗)中需要評價測驗對被試的分類情況,可以從兩個方面進行評價:一是被試分類效率的評價指標,包括平均測驗長度和人均用題量。Lin在計算機化分類測驗中使用了平均測驗長度指標[9]。陳平等在選題策略分析比較時使用了人均用題量指標[38]。 二是被試分類準確性的評價指標,包括被試正確分類的百分比(percentage of correct decision)和被試強制分類的百分率(forced classi fi cation rates)。Lin在計算機化分類測驗中提出并使用被試正確分類的百分比這一評價指標,用于比較各種選題策略方法的優(yōu)劣[9]。Wang和Huang在基于能力的猜測模型下,在計算機化分類測驗研究中提出并使用被試強制分類的百分率這一指標[39]。

    2.6 評價多測驗?zāi)繕思s束控制有效性方面的指標

    在多測驗?zāi)繕思s束控制的CAT模擬研究中,要求CAT模擬設(shè)計要同時達到多個測驗?zāi)繕?,此時需要三種評價指標:一是He,Diao和Hauser使用的達到約束條件要求的測驗百分比這一指標[40];二是Cheng和Chang在比較分析最大優(yōu)先指標與其他選題策略時提出并使用的約束條件違背的平均測驗數(shù)量這一指標[41];三是潘奕嬈、丁樹良和尚志勇、湯楠和丁樹良以及湯楠、丁樹良和余丹等在CAT選題策略研究中提出的被試平均違規(guī)次數(shù)這一指標[42-44]。其中,達到約束條件要求的測驗百分比是相對指標,更能在整個測驗情境中比較各種選題策略的優(yōu)劣;而約束條件違背的平均測驗數(shù)量、被試平均違規(guī)次數(shù)是絕對指標,只能局部地橫向比較各個選題策略。

    2.7 其他評價指標

    評價CAT的模擬結(jié)果還有一些其他指標,包括正確作答的題量、選題的耗時時長等。例如Chang和Ying使用正確作答的平均題量來分析CAT初始值位置對被試能力估計的影響[45]。在一些選題策略方法的研究中,需要考慮選題過程的耗時問題,因為CAT往往需要即時為被試選擇和呈現(xiàn)下一道試題,以進行下一步作答。例如,van der Linden報告了CAT選題時每選擇一道試題的平均耗時[46]。Passos、Berger和Tan的研究也報告了選題策略的選題時間情況[47]。

    研究者還提出統(tǒng)一量綱方法,將各個評價指標綜合計算成一個指標,以作為選題策略的綜合評價指標[30,48]。但統(tǒng)一量綱方法容易受到權(quán)重系數(shù)、評價指標的實際數(shù)值的影響,需要研究者慎重確定權(quán)重系數(shù)的大小。

    2.8 各個評價角度之間關(guān)系的分析

    以上概括了CAT模擬結(jié)果的6個評價角度與評價指標。在不同研究中,一些評價指標會有不同的變式,或者不同研究者對某個評價指標會使用不同的名稱,但本質(zhì)上是同一個指標。

    6個評價角度的基本關(guān)系可以概況如下:(1)測量準確性(包括模擬返真性能指標、測驗精度指標、被試分類準確性)與測驗安全性、題庫使用、多測驗?zāi)繕思s束控制等其他評價角度的指標存在著此消彼長的反向關(guān)系。如果CAT測驗過程中選擇測量準確性較高的選題策略和試題曝光率控制方法,那么題庫使用率將下降,測驗安全性下降,多測驗?zāi)繕思s束控制的實現(xiàn)程度將下降;反之,如果要提高測驗安全性、題庫使用率和多測驗?zāi)繕思s束控制的實現(xiàn)程度,則需要選擇測量準確性較低的選題策略和試題曝光率控制方法;(2)題庫使用情況與測驗安全這兩個角度的指標評價性能是基本一致的:如果題庫使用情況較為全面且均勻,那么測驗安全性就相對較高;如果題庫使用情況較為不均勻,那么部分試題曝光率就相對過高,測驗安全性就相對較低。

    如何選擇合適的評價角度與評價指標呢?余嘉元和汪存友提出,需要根據(jù)CAT具體測驗情境以及評價指標的敏感性來選擇適當(dāng)?shù)腃AT評價指標[49]。 筆者根據(jù)以往研究概括為以下幾點:(1)如果CAT測驗是選拔性、高利害關(guān)系的入學(xué)考試、職業(yè)資格考試等,就需要提高測驗安全控制方面的要求,需要選擇測驗安全性能評價指標值較好的試題曝光率控制方法;(2)如果是低利害關(guān)系的練習(xí)性、診斷性的CAT測驗,則不需要考慮測驗安全性這方面的性能要求,主要側(cè)重于被試能力估計的準確性;(3)被試分類效率與分類準確性方面的評價指標主要用于計算機化分類測驗中評價被試分類情況;(4)多測驗?zāi)繕思s束控制指標(如達到約束條件要求的測驗百分比、被試平均違規(guī)次數(shù)等)主要是在需要多個測驗條件約束控制的CAT測驗中使用。

    2.9 測驗準確性與測驗安全性兩個評價角度的綜合評價

    具有較高的測驗準確性以及題庫試題被充分有效使用是所有CAT研究的測驗?zāi)繕嘶蛟u價要求。然而,許多研究表明,CAT研究結(jié)果在測驗準確性與測驗安全性上往往出現(xiàn)此消彼長的現(xiàn)象。有些選題策略(或終止策略)測量準確性較高,但試題曝光率也高(即測驗安全性低),如最大Fisher信息量方法;有些選題策略試題曝光率較低(即測驗安全性較高),而測量精度也較低,如α分層法。在測量準確性與測驗安全性之間,如何比較與選擇較好的選題策略?Barrada、Olea、Ponsoda和Abad提出一種綜合比較的新方式,以控制最大試題曝光率為自變量,分析其對測驗的精度(以RMSE為指標)和安全性(以測驗交疊率Overlap為指標)的影響,并以圖形方式呈現(xiàn)測驗準確性與測驗安全性之間的相對變化關(guān)系[50-51]。Barrada等比較了最大Fisher信息量(PFI)、似然函數(shù)加權(quán)Fisher信息量(FI-L)、似然函數(shù)KL信息函數(shù)法(KL-L)、最大項目信息量分層法(MIS-B)、過程法(progressive method,PG)和概率法(proportional method,PP)6種選題策略。結(jié)果顯示,在測驗安全性方面,6種選題策略的重疊率依次升高的順序(測驗安全性下降)是MIS-B、PP、PG、PFI、FI-L和KL-L;在測驗精度方面,依次增大的順序恰好相反。RMSE與Overlap的反函數(shù)關(guān)系圖可以為CAT選題策略的選擇提供較好的參考依據(jù),例如:當(dāng)需要最大化的測驗精度,而可以容忍相對較低的測驗安全性時,可以選擇使用KL-L、FI-L、PFI及其選題策略方法;如果需要盡可能高的測驗安全性,同時又只能允許測驗精度下降一點時,可以選擇使用PP選題策略方法;如果要追求測驗安全性的最大化時,可以根據(jù)測驗的長度和題庫的大小,使用MIS-B方法。

    3 小結(jié)

    CAT測量技術(shù)研究是近年來心理與教育測量的熱點領(lǐng)域之一,在教育入學(xué)考試、職業(yè)資格認證、認知診斷等領(lǐng)域有較廣泛的應(yīng)用。本研究概述了CAT研究評價可以分為被試能力估計、題庫試題使用情況、CAT測驗過程三方面內(nèi)容,并且都有整體分析、細化分析兩種分析模式。CAT模擬結(jié)果的評價分析角度包括被試能力模擬返真性能、測驗測量準確性、測驗安全性、題庫使用率、被試分類有效性與分類準確性、多測驗?zāi)繕思s束控制的有效性6個角度,每個角度又包含多個評價指標。對CAT模擬結(jié)果分析模式與評價指標的概括與總結(jié)可為今后CAT模擬研究的設(shè)計與評價提供參考依據(jù)。

    [1]CHANG H,YING Z.α-Stratified multistage computerized adaptive testing[J].Applied Psychological Measurement,1999,23(3):211-222.

    [2]REVUELTA J,PONSODA V.A comparison of item exposure control methods in computerized adaptive testing[J].Journal of Educational Measurement,1998,35(4):311-327.

    [3]BOCK R J,MISLEVY R D.Adaptive EAP estimation of ability in a microcomputer environment[J].Applied Psychological Measurement,1982,6(4):431-444.

    [4]SYMPSON J B,HETTER R D.Controlling item exposure rates in computerized adaptive testing[C]//Proceedings of the 27th annual meeting of the Military Testing Association.San Diego,CA:Navy Personnel Research and Development,1985.

    [5]CHANG S W,ANSLEY T N.A comparative study of item exposure control methods in computerized adaptive testing[J].Journal of Educational Measurement,2003,40(1):71-103.

    [6]陳平,丁樹良.允許檢查并修改答案的計算機化自適應(yīng)測驗[J].心理學(xué)報,2008,40(6):737-747.

    [7]MAGIS D.Efficient standard error formulas of ability estimators with dichotomous item response models[J].Psychometrika,2015,81(1): 184-200.

    [8]RULISON K,LOKEN E.I’ve fallen and I can’t get up:can highability students recover from early mistakes in CAT?[J].Applied Psychological Measurement,2009,33(2):83-101.

    [9]LIN C.Item selection criteria with practical constraints for computerized classification testing[J].Educational and Psychological Measurement,2011,71(1):20-36.

    [10]LEUNG C,CHANG H,HAU K.Computerized adaptive testing:A mixture item selection approach for constrained situations[J].British Journal of Mathematical and Statistical Psychology,2005,58(2):239-257.

    [11]VAN DER LINDEN W J,VELDKAMP B P.Conditional item-exposure control in adaptive testing using item-ineligibility probabilities [J].Journal of Educational and Behavioral Statistics,2007,32(4): 398-418.

    [12]REVUELTA J,PONSODA V.A comparison of item exposure control methods in computerized adaptive testing[J].Journal of Educational Measurement,1998,35(4):311-327.

    [13]THOMPSON N A.Item selection in computerized classification testing[J].Educational and Psychological Measurement,2011,71(1):114-128.

    [14]HAN K T.A gradual maximum information ratio approach to item selection in computerized adaptive testing//Weiss D J.Proceedings of the 2009 GMAC Conference on Computerized Adaptive Testing, 2009.[2016-08-01].www.psych.umn.edu/psylabs/CATCentral/.

    [15]CHENG P E,LIOU M.Estimation of Trait Level in Computerized Adaptive Testing[J].Applied Psychological Measurement,2000,24(3):257-265.

    [16]BARRADA J R,VELDKAMP B P,OLEA J.Multiple maximum exposure rates in Computerized Adaptive Testing[J].Applied Psychological Measurement,2009,33(1):58-73.

    [17]GNAMBS T,BATINIC B.Polytomous adaptive classification testing:effects of item pool size,test termination criterion,and number of cutscores[J].Educational and Psychological Measurement,2011, 71(6):1006-1022.

    [18]簡小珠.IRT模型中c、γ參數(shù)對被試能力高估和低估現(xiàn)象的糾正[D].廣州:華南師范大學(xué),2011.

    [19]OLEA J,BARRADA J R,ABAD F J,et al.Computerized adaptive testing:the capitalization on chance problem[J].Spanish Jouranl of Psychology,2012,15(1):424-441.

    [20]CHENG Y,CHANG H,YI Q.Two-Phase Item Selection Procedure for Flexible Content Balancing in CAT[J].Applied Psychological Measurement,2007,31(6):467-482.

    [21]CHENG Y,CHANG H H,DOUGLAS J,et al.Constraint-weighted α-stratification for computerized adaptive testing with nonstatistical constraints:Balancing measurement efficiency and exposure control[J].Educational and Psychological Measurement,2009,69(1):35-49.

    [22]CHANG H,VAN DER LINDEN W J.Optimal Stratification of Item Pools in α-Stratified Computerized Adaptive Testing[J].Applied Psychological Measurement,2003,27(4):262-274.

    [23]HE W,RECKASE M D.Item pool design for an operational variable-length computerized adaptive test[J].Educational and Psychological Measurement,2014,74(3):473-494.

    [24]WANG T,VISPOEL W P.Properties of ability estimation methods in computerized adaptive testing[J].Journal of Educational Measurement,1998,35(2):109-135.

    [25]SCHUSTER C,YUAN K.Robust estimation of latent ability in item response models[J].Journal of Educational and Behavioral Statistics,2011,36(6):720-735.

    [26]RA?CHE G,BLAIS J G,MAGIS D,et al.Adaptive estimators of trait level in adaptive testing:Some proposals[Z].Graduate Management Admission Council Conference on Computerized Adaptive Testing(GMAC),2007.

    [27]CHEN S,ANKENMANN R D,CHANG H.A Comparison of Item Selection Rules at the Early Stages of Computerized Adaptive Testing[J].Applied Psychological Measurement,2000,24(3):241-255.

    [28]KINGSBURY C G,ZARA A R.A Comparison of Procedures for Content-Sensitive Item Selection in Computerized Adaptive Tests [J].Applied Measurement in Education,1991,4(3):241-261.

    [29]ZHANG J.The Impact of Variability of Item Parameter Estimators on Test Information Function[J].Journal of Educational and Behavioral Statistics,2012,37(6):737-757.

    [30]程小揚,丁樹良,嚴深海,等.引入曝光因子的計算機化自適應(yīng)測驗選題策略[J].心理學(xué)報,2011(43):203-212.

    [31]程小揚,丁樹良,巫華芳,等.多級評分模型下的題庫結(jié)構(gòu)對CAT的影響分析[J].心理學(xué)探新,2014(34):452-456.

    [32]CHEN S,ANKENMANN R D,SPRAY J A.The Relationship between Item Exposure and Test Overlap in Computerized Adaptive Testing[J].Journal of Educational Measurement,2003,40(2):129-145.

    [33]BARRADA J R,OLEA J,PONSODA V,et al.Test Overlap Rate and Item Exposure Rate as Indicators of Test Security in CATs[C]// Weiss D J.Proceedings of the 2009 GMAC Conference on Computerized Adaptive Testing,2009.[2016-08-01].www.psych.umn. edu/psylabs/CATCentral/.

    [34]HAU K,CHANG H.Item selection in computerized adaptive testing:should more discriminating items be used first?[J].Journal of Educational Measurement,2001,38(3):249-266.

    [35]CHANG H,QIAN J,YING Z.α-Stratified multistage computerized adaptive testing with b blocking[J].Applied Psychological Measurement,2001,25(4):333-341.

    [36]程小揚,丁樹良.子題庫題量不平衡的按α分層選題策略[J].江西師范大學(xué)學(xué)報(自然科學(xué)版),2011,35(1):5-9.

    [37]HUEBNER A,LI Z.A stochastic method for balancing item exposure rates in computerized classification tests[J].Applied Psychological Measurement,2012,36(3):181-188.

    [38]陳平,丁樹良,林海菁,等.等級反應(yīng)模型下計算機化自適應(yīng)測驗選題策略[J].心理學(xué)報,2006,38(3):461-467.

    [39]WANG W,HUANG S.Response model with ability-based guessing computerized classification testing under the one-parameter logistic[J].Educational and Psychological Measurement,2011,71(6):925-941.

    [40]HE W,DIAO Q,HAUSER C.A Comparison of Four Item-Selection Methods for Severely Constrained CATs[J].Online Submission,2014,74(4):27.

    [41]CHENG Y,CHANG H.The maximum priority index method for severely constrained item selection in computerized adaptive testing[J]. British Journal of Mathematical and Statistical Psychology,2009,62(2):369-383.

    [42]潘奕嬈,丁樹良,尚志勇.改進的最大優(yōu)先級指標方法[J].江西師范大學(xué)學(xué)報(自然科學(xué)版),2011,35(2):213-215.

    [43]湯楠,丁樹良.一階段選題的最大優(yōu)先級指標的修正[J].江西師范大學(xué)學(xué)報(自然科學(xué)版),2012,36(5):452-455.

    [44]湯楠,丁樹良,余丹.結(jié)合優(yōu)先級指標和曝光因子的多級評分選題策略[J].江西師范大學(xué)學(xué)報(自然科學(xué)版),2011,35(6):646-650.

    [45]CHANG H H,YING Z.To weight or not to weight?Balancing influence of initial items in adaptive testing[J].Psychometrika,2008,73(3):441-450.

    [46]VAN DER LINDEN W J.Bayesian item selection criteria for adaptive testing[J].Psychometrika,1998,63(2):201-216.

    [47]PASSOS V L,BERGER M P F,TAN F E S.The D-optimality item selection criterion in the early stage of cat:a study with the Graded Response Model[J].Journal of Educational and Behavioral Statistics,2008,33(1):88-110.

    [48]戴海琦,陳德枝,丁樹良,等.多級評分題計算機自適應(yīng)測驗選題策略比較[J].心理學(xué)報,2006,38(5):778-783.

    [49]余嘉元,汪存友.項目反應(yīng)理論參數(shù)估計研究中的蒙特卡羅方法[J].南京師大學(xué)報(社會科學(xué)版),2007(1):87-91.

    [50]BARRADA J R,OLEA J,PONSODA V,et al.Incorporating randomness in the Fisher information for improving item-exposure control in CATs[J].British Journal of Mathematical and Statistical Psychology,2008,61(2):493-513.

    [51]BARRADA J R,OLEA J,PONSODA V,et al.A Method for the Comparison of Item Selection Rules in Computerized Adaptive Testing[J].Applied Psychological Measurement,2010,34(6):438-452.

    Analysis Models and Evaluation Indexes of Computerized Adaptive Testing Simulation Results

    JIAN Xiaozhu,DAI Buyun&CHEN Ping

    Computerized Adaptive Testing(CAT)simulation is one of the main methods of CAT research. Evaluation and analysis of CAT simulation results mainly includes three aspects:estimation and classification analysis of examinee ability,analysis of the utilization of the test items from the item bank and analysis of the CAT response process.Analysis of CAT simulation results mainly involves a holistic approach and a fine-grained approach.This study provides an overview of the various evaluation indexes involved in evaluating CAT simulation results from the perspectives of simulation recovery,measurement accuracy,item security,item utilization rates, examinee classification efficiency and accuracy,and control of multiple test objectives.The perspectives and evaluation indexes required for a CAT simulation study have yet to depend on the purpose and context of that study.

    Computerized Adaptive Testing;CAT Simulation;Analysis Model;Evaluation Index

    G405

    A

    1005-8427(2016)12-0019-10

    (責(zé)任編輯:陳寧)

    本文系江西省高校人文社會科學(xué)研究青年項目“計算機化自適應(yīng)測驗(CAT)測量技術(shù)與評價分析”(項目編號:XL1515)的研究成果之一。

    簡小珠,男,井岡山大學(xué)教師教育中心,副教授,江西師范大學(xué)心理學(xué)院,江西省心理與認知科學(xué)重點實驗室,博士后(江西吉安 343009)

    戴步云,男,江西師范大學(xué)心理學(xué)院,江西省心理與認知科學(xué)重點實驗室,博士后(南昌 330022)

    陳平(通訊作者),男,北京師范大學(xué)中國基礎(chǔ)教育質(zhì)量監(jiān)測協(xié)同創(chuàng)新中心,副教授(北京 100875)

    猜你喜歡
    估計值題庫測驗
    “勾股定理”優(yōu)題庫
    “軸對稱”優(yōu)題庫
    一道樣本的數(shù)字特征與頻率分布直方圖的交匯問題
    “軸對稱”優(yōu)題庫
    “整式的乘法與因式分解”優(yōu)題庫
    統(tǒng)計信息
    2018年4月世界粗鋼產(chǎn)量表(續(xù))萬噸
    《新年大測驗》大揭榜
    趣味(語文)(2018年7期)2018-06-26 08:13:48
    兩個處理t測驗與F測驗的數(shù)學(xué)關(guān)系
    考試周刊(2016年88期)2016-11-24 13:30:50
    你知道嗎?
    欧美潮喷喷水| 丰满少妇做爰视频| 亚洲av成人精品一区久久| 一级毛片电影观看| 精品国产露脸久久av麻豆 | 男女边摸边吃奶| 天堂av国产一区二区熟女人妻| 亚洲精品影视一区二区三区av| 97超视频在线观看视频| 婷婷色麻豆天堂久久| 内射极品少妇av片p| 日本欧美国产在线视频| 久久99蜜桃精品久久| ponron亚洲| 91午夜精品亚洲一区二区三区| 午夜福利高清视频| 男的添女的下面高潮视频| 国产永久视频网站| 午夜福利高清视频| 亚洲精品久久久久久婷婷小说| av在线观看视频网站免费| 日韩av在线免费看完整版不卡| 久久精品人妻少妇| 久久99蜜桃精品久久| 精华霜和精华液先用哪个| 亚洲美女视频黄频| 亚洲精品成人久久久久久| 亚洲精品,欧美精品| 国产不卡一卡二| 国产精品国产三级国产av玫瑰| a级毛片免费高清观看在线播放| 久久久精品94久久精品| 国产精品爽爽va在线观看网站| 国产成人福利小说| 嫩草影院精品99| 国产综合精华液| 久久6这里有精品| 欧美xxxx黑人xx丫x性爽| 国产精品久久视频播放| 国产精品久久视频播放| 两个人视频免费观看高清| 美女xxoo啪啪120秒动态图| 久久综合国产亚洲精品| 久久99热这里只频精品6学生| 97超视频在线观看视频| 熟妇人妻久久中文字幕3abv| 中文资源天堂在线| 特级一级黄色大片| 国产白丝娇喘喷水9色精品| 国产午夜精品论理片| 99久久精品一区二区三区| 真实男女啪啪啪动态图| 99久久人妻综合| 高清毛片免费看| 亚洲精品乱码久久久v下载方式| 极品教师在线视频| 插阴视频在线观看视频| 99九九线精品视频在线观看视频| 国产成人91sexporn| 日韩人妻高清精品专区| 成年版毛片免费区| 精品久久久久久久人妻蜜臀av| 中文字幕免费在线视频6| 成年人午夜在线观看视频 | 亚洲国产精品专区欧美| 少妇被粗大猛烈的视频| 久久久久国产网址| 丝袜喷水一区| 午夜激情福利司机影院| 水蜜桃什么品种好| www.色视频.com| 国产女主播在线喷水免费视频网站 | 久久6这里有精品| 亚洲精品国产av成人精品| 99久国产av精品国产电影| 搡老乐熟女国产| 成人午夜高清在线视频| 亚洲国产欧美人成| 国国产精品蜜臀av免费| 精品久久久久久久久av| 精品久久久久久久久av| 成人漫画全彩无遮挡| 国产 亚洲一区二区三区 | 在线观看av片永久免费下载| 少妇高潮的动态图| 伦精品一区二区三区| 午夜视频国产福利| 亚洲av成人精品一区久久| 亚洲久久久久久中文字幕| 成年免费大片在线观看| 在线免费十八禁| 午夜老司机福利剧场| 亚洲精品久久午夜乱码| 我要看日韩黄色一级片| 亚洲18禁久久av| 久久精品夜夜夜夜夜久久蜜豆| 只有这里有精品99| av网站免费在线观看视频 | 国产一区二区三区av在线| 亚洲欧美一区二区三区黑人 | 哪个播放器可以免费观看大片| 全区人妻精品视频| 欧美97在线视频| 久久草成人影院| 在现免费观看毛片| 视频中文字幕在线观看| av又黄又爽大尺度在线免费看| 久久99蜜桃精品久久| 日本-黄色视频高清免费观看| 亚洲无线观看免费| 十八禁国产超污无遮挡网站| 亚洲精品第二区| 国产精品美女特级片免费视频播放器| 久久精品久久精品一区二区三区| 亚洲av福利一区| 少妇被粗大猛烈的视频| 永久免费av网站大全| 白带黄色成豆腐渣| 国产色婷婷99| 亚洲久久久久久中文字幕| 久久人人爽人人片av| 禁无遮挡网站| 欧美性感艳星| 婷婷色麻豆天堂久久| 亚洲精品成人av观看孕妇| 99热这里只有是精品在线观看| 精品亚洲乱码少妇综合久久| a级一级毛片免费在线观看| 亚洲在久久综合| 夫妻性生交免费视频一级片| 自拍偷自拍亚洲精品老妇| 日韩三级伦理在线观看| 日日干狠狠操夜夜爽| 51国产日韩欧美| 亚洲美女搞黄在线观看| 少妇的逼水好多| 亚洲电影在线观看av| 欧美日韩精品成人综合77777| 国产精品国产三级国产av玫瑰| 舔av片在线| 水蜜桃什么品种好| 极品少妇高潮喷水抽搐| 日韩国内少妇激情av| 中文字幕av成人在线电影| 日韩欧美精品v在线| 亚洲国产av新网站| 亚洲最大成人av| 亚洲va在线va天堂va国产| 成年免费大片在线观看| 精品亚洲乱码少妇综合久久| 国产一区二区三区综合在线观看 | 3wmmmm亚洲av在线观看| 亚洲国产精品专区欧美| 一级毛片电影观看| 一个人观看的视频www高清免费观看| 最近手机中文字幕大全| 人妻系列 视频| av在线老鸭窝| 十八禁网站网址无遮挡 | 国产精品久久久久久精品电影小说 | 最新中文字幕久久久久| 久久热精品热| 在线a可以看的网站| 麻豆成人av视频| 尾随美女入室| 亚洲国产日韩欧美精品在线观看| 人体艺术视频欧美日本| 精品国产三级普通话版| 色播亚洲综合网| 国产精品一区www在线观看| 国产精品久久久久久久久免| 免费人成在线观看视频色| 岛国毛片在线播放| 亚洲自拍偷在线| 黑人高潮一二区| 青青草视频在线视频观看| 精品久久久精品久久久| 亚洲人成网站在线播| 国产伦精品一区二区三区四那| 国产精品一区二区三区四区免费观看| 22中文网久久字幕| 一级毛片 在线播放| av一本久久久久| 免费看日本二区| 亚洲成色77777| 五月玫瑰六月丁香| 免费看日本二区| 人人妻人人澡人人爽人人夜夜 | 熟女人妻精品中文字幕| 欧美97在线视频| 午夜免费男女啪啪视频观看| 大香蕉久久网| 久久久午夜欧美精品| 国产精品久久久久久精品电影| 视频中文字幕在线观看| 麻豆乱淫一区二区| 亚洲国产精品国产精品| 国产精品人妻久久久久久| 三级男女做爰猛烈吃奶摸视频| 日本色播在线视频| 欧美另类一区| 精品欧美国产一区二区三| 在线观看人妻少妇| 波野结衣二区三区在线| 日产精品乱码卡一卡2卡三| 国产欧美另类精品又又久久亚洲欧美| 校园人妻丝袜中文字幕| 五月天丁香电影| 久久精品国产鲁丝片午夜精品| 午夜免费观看性视频| 人人妻人人看人人澡| 麻豆久久精品国产亚洲av| 婷婷六月久久综合丁香| 亚洲国产欧美人成| 综合色丁香网| 成年人午夜在线观看视频 | 亚洲电影在线观看av| av一本久久久久| 蜜桃久久精品国产亚洲av| 身体一侧抽搐| 少妇猛男粗大的猛烈进出视频 | 亚洲欧美一区二区三区黑人 | 国产伦理片在线播放av一区| 精品一区二区免费观看| 成人鲁丝片一二三区免费| 老司机影院毛片| 97在线视频观看| 熟妇人妻不卡中文字幕| 日韩精品青青久久久久久| 国产精品国产三级专区第一集| 亚洲精品影视一区二区三区av| 可以在线观看毛片的网站| 婷婷色综合大香蕉| 国产成人aa在线观看| 国产精品一区二区三区四区免费观看| 少妇的逼好多水| 国产精品蜜桃在线观看| 国产精品综合久久久久久久免费| 国产精品久久久久久av不卡| 欧美成人午夜免费资源| 国产黄片美女视频| 久久99精品国语久久久| 高清av免费在线| 嫩草影院新地址| 亚洲四区av| 乱码一卡2卡4卡精品| 国产又色又爽无遮挡免| 精品人妻偷拍中文字幕| 精品久久久久久久久亚洲| 夫妻午夜视频| 国产片特级美女逼逼视频| 在线观看人妻少妇| av.在线天堂| 美女黄网站色视频| 一二三四中文在线观看免费高清| 丰满少妇做爰视频| 插阴视频在线观看视频| 一夜夜www| 久久97久久精品| 久久韩国三级中文字幕| 搡老乐熟女国产| 综合色av麻豆| av免费在线看不卡| 国产 亚洲一区二区三区 | av国产免费在线观看| 搡女人真爽免费视频火全软件| 欧美bdsm另类| 黄片wwwwww| 美女主播在线视频| 日韩不卡一区二区三区视频在线| 久久99热这里只有精品18| 亚洲国产精品专区欧美| 青青草视频在线视频观看| 免费看日本二区| 在线播放无遮挡| 成人毛片a级毛片在线播放| 久久精品夜夜夜夜夜久久蜜豆| 日日撸夜夜添| 中国国产av一级| 一区二区三区免费毛片| 免费在线观看成人毛片| 中文在线观看免费www的网站| 精品久久久久久久人妻蜜臀av| 99视频精品全部免费 在线| 亚洲真实伦在线观看| 久久久成人免费电影| or卡值多少钱| 国内精品宾馆在线| 欧美成人精品欧美一级黄| 青春草视频在线免费观看| 亚洲成色77777| 亚洲国产精品sss在线观看| 亚洲内射少妇av| 97热精品久久久久久| 女人被狂操c到高潮| 丝袜喷水一区| 久久精品熟女亚洲av麻豆精品 | 久久久久久九九精品二区国产| 黄片wwwwww| 成人特级av手机在线观看| 美女内射精品一级片tv| 国产亚洲一区二区精品| 天堂影院成人在线观看| 亚洲性久久影院| av在线蜜桃| 亚洲国产精品专区欧美| 久久6这里有精品| 麻豆精品久久久久久蜜桃| 精品一区二区三卡| 久久久久久久久久久免费av| 久久久久久九九精品二区国产| 欧美日韩精品成人综合77777| 一级a做视频免费观看| 国精品久久久久久国模美| 三级国产精品片| 国产精品麻豆人妻色哟哟久久 | 色哟哟·www| 18禁裸乳无遮挡免费网站照片| 嘟嘟电影网在线观看| 国产激情偷乱视频一区二区| 夫妻性生交免费视频一级片| 婷婷色麻豆天堂久久| 国产一区亚洲一区在线观看| 欧美成人一区二区免费高清观看| 精品人妻一区二区三区麻豆| 成人高潮视频无遮挡免费网站| 热99在线观看视频| 欧美日韩视频高清一区二区三区二| 亚洲精品国产av成人精品| 免费看日本二区| 国产在线男女| 身体一侧抽搐| 国产伦精品一区二区三区视频9| 亚洲自偷自拍三级| 嫩草影院精品99| 国产淫片久久久久久久久| 亚洲av在线观看美女高潮| 国产伦在线观看视频一区| 天堂中文最新版在线下载 | 波多野结衣巨乳人妻| 夜夜看夜夜爽夜夜摸| 亚洲美女视频黄频| 69人妻影院| 干丝袜人妻中文字幕| 久久久久免费精品人妻一区二区| 蜜桃亚洲精品一区二区三区| 丝袜喷水一区| av天堂中文字幕网| 亚洲av免费在线观看| 亚洲国产精品成人久久小说| a级一级毛片免费在线观看| 男女啪啪激烈高潮av片| 狂野欧美激情性xxxx在线观看| 亚洲人与动物交配视频| 亚洲在久久综合| 亚洲av.av天堂| 亚洲欧美一区二区三区国产| 熟妇人妻久久中文字幕3abv| 在线观看av片永久免费下载| 一个人免费在线观看电影| 成年av动漫网址| 夜夜看夜夜爽夜夜摸| 亚洲18禁久久av| av卡一久久| 成人二区视频| 联通29元200g的流量卡| 全区人妻精品视频| 亚洲乱码一区二区免费版| 日本免费a在线| 美女高潮的动态| 赤兔流量卡办理| 亚洲精品乱码久久久久久按摩| 国产亚洲最大av| 99久国产av精品| 久久久久久久久久人人人人人人| 国产欧美另类精品又又久久亚洲欧美| 亚洲国产色片| 中文资源天堂在线| 欧美日韩一区二区视频在线观看视频在线 | 在线免费十八禁| 国产伦精品一区二区三区四那| 午夜福利高清视频| 精品午夜福利在线看| 高清欧美精品videossex| 亚洲在线观看片| 久久久久久九九精品二区国产| 搡老妇女老女人老熟妇| 国产综合懂色| 男人舔女人下体高潮全视频| 91精品伊人久久大香线蕉| 国产v大片淫在线免费观看| 国产毛片a区久久久久| 九九久久精品国产亚洲av麻豆| 性色avwww在线观看| 久久久欧美国产精品| 成人国产麻豆网| 国产精品久久久久久av不卡| 亚洲美女搞黄在线观看| 夫妻性生交免费视频一级片| 久久精品夜夜夜夜夜久久蜜豆| 视频中文字幕在线观看| 又爽又黄无遮挡网站| 欧美人与善性xxx| 久久国产乱子免费精品| 一夜夜www| 成人亚洲精品av一区二区| 亚洲精华国产精华液的使用体验| 成人国产麻豆网| 亚洲精品影视一区二区三区av| 日本三级黄在线观看| 国产男女超爽视频在线观看| 亚洲国产精品专区欧美| 六月丁香七月| 国产高清三级在线| 三级国产精品欧美在线观看| 午夜激情久久久久久久| 简卡轻食公司| 久久久欧美国产精品| 日本与韩国留学比较| 国产综合精华液| 人妻少妇偷人精品九色| 午夜免费男女啪啪视频观看| 国产亚洲5aaaaa淫片| 少妇裸体淫交视频免费看高清| 亚洲成人一二三区av| 亚洲无线观看免费| 日本午夜av视频| 91久久精品国产一区二区成人| 丝瓜视频免费看黄片| 全区人妻精品视频| 日韩三级伦理在线观看| 简卡轻食公司| 国产亚洲精品av在线| 美女大奶头视频| 欧美成人a在线观看| 中文字幕免费在线视频6| 日产精品乱码卡一卡2卡三| 简卡轻食公司| 国产男女超爽视频在线观看| 少妇裸体淫交视频免费看高清| 免费人成在线观看视频色| 国产伦精品一区二区三区视频9| 韩国av在线不卡| 99视频精品全部免费 在线| 国国产精品蜜臀av免费| 免费看日本二区| 亚洲第一区二区三区不卡| 啦啦啦中文免费视频观看日本| 欧美高清成人免费视频www| 日韩不卡一区二区三区视频在线| 成年免费大片在线观看| 三级国产精品欧美在线观看| 久久韩国三级中文字幕| 免费少妇av软件| 色综合亚洲欧美另类图片| 插阴视频在线观看视频| 亚洲无线观看免费| 中文精品一卡2卡3卡4更新| 亚洲美女搞黄在线观看| 国产黄频视频在线观看| 欧美成人a在线观看| 久久亚洲国产成人精品v| 国产 亚洲一区二区三区 | 好男人在线观看高清免费视频| 国产视频首页在线观看| 久久久色成人| 国产精品1区2区在线观看.| 成人特级av手机在线观看| 亚洲久久久久久中文字幕| 街头女战士在线观看网站| 国产91av在线免费观看| 日本免费在线观看一区| 2018国产大陆天天弄谢| a级毛色黄片| 大香蕉久久网| 亚洲精品色激情综合| 久久精品夜色国产| 伊人久久精品亚洲午夜| 亚洲自偷自拍三级| 国产一级毛片在线| 欧美区成人在线视频| 亚洲欧洲日产国产| 亚洲精品国产av蜜桃| 亚洲精品乱码久久久久久按摩| 一个人观看的视频www高清免费观看| 日韩一区二区视频免费看| eeuss影院久久| 亚洲国产精品成人久久小说| 国产探花极品一区二区| 亚洲国产av新网站| av女优亚洲男人天堂| 欧美人与善性xxx| 又粗又硬又长又爽又黄的视频| 婷婷色av中文字幕| 九九在线视频观看精品| av一本久久久久| 99热这里只有精品一区| 日韩欧美 国产精品| 91久久精品国产一区二区成人| 日本一本二区三区精品| av网站免费在线观看视频 | 国产亚洲av嫩草精品影院| 18+在线观看网站| 久久精品国产自在天天线| 国产淫片久久久久久久久| 免费无遮挡裸体视频| 色综合站精品国产| 18禁动态无遮挡网站| 精品熟女少妇av免费看| 嫩草影院新地址| 成人午夜精彩视频在线观看| 26uuu在线亚洲综合色| 国产人妻一区二区三区在| 网址你懂的国产日韩在线| 一级毛片电影观看| av黄色大香蕉| 亚洲成人精品中文字幕电影| 国模一区二区三区四区视频| 高清在线视频一区二区三区| 麻豆久久精品国产亚洲av| 国产精品久久久久久av不卡| 18+在线观看网站| 3wmmmm亚洲av在线观看| 久久97久久精品| 精品一区二区三卡| 久久久午夜欧美精品| 亚洲av电影在线观看一区二区三区 | 色哟哟·www| 国产在视频线在精品| 哪个播放器可以免费观看大片| 久久久久精品性色| 亚洲成人av在线免费| 最近视频中文字幕2019在线8| 久久久a久久爽久久v久久| 亚洲精品日韩av片在线观看| 亚洲成人久久爱视频| 欧美日韩综合久久久久久| 日本免费a在线| 久久这里有精品视频免费| 99热网站在线观看| 又爽又黄无遮挡网站| 在线观看av片永久免费下载| 亚洲va在线va天堂va国产| 内射极品少妇av片p| 亚洲欧洲日产国产| 老师上课跳d突然被开到最大视频| 久久国产乱子免费精品| 国产美女午夜福利| 身体一侧抽搐| 好男人视频免费观看在线| 熟妇人妻久久中文字幕3abv| 亚洲欧洲日产国产| 丝袜喷水一区| 日韩不卡一区二区三区视频在线| 成年免费大片在线观看| 亚洲av中文av极速乱| 美女cb高潮喷水在线观看| 少妇熟女aⅴ在线视频| 亚洲av电影在线观看一区二区三区 | 天美传媒精品一区二区| 国产伦精品一区二区三区四那| 亚洲精品乱久久久久久| 国产在线一区二区三区精| 亚洲自拍偷在线| 51国产日韩欧美| 国产精品一区二区性色av| 久久久久九九精品影院| 白带黄色成豆腐渣| 欧美zozozo另类| 在线播放无遮挡| 国产亚洲午夜精品一区二区久久 | 又爽又黄a免费视频| 日韩中字成人| a级毛色黄片| 日韩一本色道免费dvd| 中文乱码字字幕精品一区二区三区 | 国内少妇人妻偷人精品xxx网站| 精品久久久精品久久久| 白带黄色成豆腐渣| 校园人妻丝袜中文字幕| 欧美+日韩+精品| 欧美性猛交╳xxx乱大交人| 日韩欧美一区视频在线观看 | 婷婷六月久久综合丁香| 国产v大片淫在线免费观看| 只有这里有精品99| 建设人人有责人人尽责人人享有的 | 国产精品1区2区在线观看.| 91在线精品国自产拍蜜月| 高清视频免费观看一区二区 | 免费少妇av软件| 色吧在线观看| 乱码一卡2卡4卡精品| www.色视频.com| 色尼玛亚洲综合影院| 免费播放大片免费观看视频在线观看| 嘟嘟电影网在线观看| 91aial.com中文字幕在线观看| 三级国产精品片| 亚洲精品,欧美精品| 青春草国产在线视频| 国产极品天堂在线| 久久人人爽人人片av| 男女啪啪激烈高潮av片| 国产精品美女特级片免费视频播放器| 两个人的视频大全免费| 国内精品宾馆在线| 日本黄大片高清| 国内精品宾馆在线| 精品不卡国产一区二区三区| 欧美日韩国产mv在线观看视频 | 高清日韩中文字幕在线| av线在线观看网站| 亚洲怡红院男人天堂| 日本三级黄在线观看|