• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    實時監(jiān)控計算機自適應(yīng)考題的兩種方法及其穩(wěn)健性比較

    2017-06-05 14:14:54張金明曹燦兮揭勇菁
    中國考試 2017年2期
    關(guān)鍵詞:樣本量試題概率

    張金明 曹燦兮 揭勇菁

    (美國伊利諾伊大學(xué)香檳分校,美國伊利諾伊州 61822)

    實時監(jiān)控計算機自適應(yīng)考題的兩種方法及其穩(wěn)健性比較

    張金明 曹燦兮 揭勇菁

    (美國伊利諾伊大學(xué)香檳分校,美國伊利諾伊州 61822)

    基于項目反應(yīng)理論和基于經(jīng)典測量理論的兩種序貫監(jiān)控方法,用來實時監(jiān)控計算機自適應(yīng)考試,及時偵測出已泄露試題,并替換或剔除泄露試題,以提高考試的公正性和分數(shù)的有效性。本文著重對這兩種序貫監(jiān)控方法在考生整體能力水平隨時間有季節(jié)性變化或具有連續(xù)提高趨勢的情況下進行統(tǒng)計穩(wěn)健性比較,主要考察這兩種監(jiān)控方法犯第一類統(tǒng)計錯誤的概率是否變大,是否超出預(yù)設(shè)的顯著性水平。模擬結(jié)果表明,基于項目反應(yīng)理論的序貫監(jiān)控方法在本文所考慮的情況下比基于經(jīng)典測量理論的方法具有更好的穩(wěn)健性。

    計算機自適應(yīng)考試;經(jīng)典測量理論;項目反應(yīng)理論;試題曝光率;變點問題;序貫監(jiān)控方法

    1 引言

    計算機自適應(yīng)考試(Computerized Adaptive Test,CAT)是一種現(xiàn)代考試形式,它依靠大型題庫,采用現(xiàn)代測量理論,根據(jù)每個考生不同的能力水平,用計算機自動選擇難度恰當(dāng)且統(tǒng)計性能優(yōu)良的題目,生成為其量身定做的試題組合,從而實現(xiàn)對考生的高效測量[1]。依靠現(xiàn)代測量理論,計算機自適應(yīng)考試與傳統(tǒng)紙筆測驗相比,可使用更少的試題并得到更精確的考生能力估計值。

    由于在一次考試中,計算機組卷所使用的試題均來自同一題庫,在該題庫被使用一段時間后,其中的一部分題目就有可能被泄露,所以一直以來,計算機自適應(yīng)考試都面臨著試題安全問題,先行參加考試的考生可能會泄露試題信息,使得后續(xù)考生成為“受益者”[2-9]。一旦試題被泄露,相應(yīng)試題的統(tǒng)計特性將被改變,對于后續(xù)的“受益”考生,這些試題難度變低,故“受益”考生的能力值會被高估,這將威脅考試的公正性和分數(shù)的有效性。Zhang等在一個模擬研究中指出,當(dāng)一個720道題的題庫中有150道試題被泄露時,考生能力估計值的偏差和誤差均方根分別高達1.010和1.226[9]。

    試題曝光率是衡量考試安全性的一個重要指標。通常,一道試題被使用得越頻繁(即其曝光率越高),被泄露的可能性就越大。因此,在計算機組卷選題過程中,研究人員就會運用一些試題曝光控制的方法,平衡試題曝光率以加強考試安全性[4,7,10-15]。基于對考試安全性的考慮,題庫中一些曝光率較高的試題會被暫時或永久剔除[16]。但是,高曝光率的試題不一定就是被泄露的試題,同時低曝光率的試題也有被泄露的可能。例如,雖然一道試題被很多個考生使用,即曝光率較高,但如果這些考生都沒有在考后分享試題,那么這道試題并沒有被泄露;反之,另一道試題雖然沒有被經(jīng)常使用,曝光率較低,但恰被用在一個習(xí)慣于在考后分享試題的考生的考試中,那么這道題就很可能被泄露。因此曝光率的高低并不能準確判斷一道試題是否被泄露。

    另一個考試安全性的指標是測驗重疊率,常被用以偵測大規(guī)模試題泄露問題[2-3,7,17]。盡管有這兩種指標已初步保障考試安全性,但在計算機自適應(yīng)考試進行過程中,仍需要統(tǒng)計技術(shù)對試題統(tǒng)計特性進行實時連續(xù)監(jiān)控,并在試題泄露發(fā)生時及時偵測到這些已泄露試題。

    為加強計算機自適應(yīng)考試的安全性及分數(shù)的有效性,并在計算機自適應(yīng)考試過程中實現(xiàn)對試題的實時連續(xù)監(jiān)控,以盡早偵測出已泄露試題,Zhang[18]和Zhang&Li[19]開發(fā)出兩種實時連續(xù)監(jiān)控試題的統(tǒng)計序貫監(jiān)控方法,一種是基于經(jīng)典測量理論(Classical Testing Theory,CTT),另一種是基于項目反應(yīng)理論(Item Response Theory,IRT)。兩種方法都是在考試過程中通過一系列統(tǒng)計假設(shè)檢驗來判斷試題的統(tǒng)計特性是否發(fā)生顯著變化。本文將從理論框架、模擬研究及研究結(jié)果對這兩種方法進行詳細介紹,并在考生整體能力水平隨時間有季節(jié)性變化或連續(xù)提高趨勢的情況下,對這兩種方法進行統(tǒng)計穩(wěn)健性的比較。

    2 序貫監(jiān)控方法

    通常一個題庫會使用較長一段時間,考試管理者需要監(jiān)測每一道被使用多次的試題。假定{U1,U2,…,Un…}是某一被監(jiān)控試題的得分序列。這里及本文后面的n是指作答某試題的第n個考生,而不是指參加考試的第n個考生。若第n個考生答對該題,則Un=1;反之,則Un=0。注意,n是與試題相關(guān)的,對于不同試題,相同的n并不一定是同一個考生。為方便起見,本文對所有與試題相關(guān)的變量和函數(shù)都沒有用試題下標。因為監(jiān)控程序是對每一道被使用多次的試題分別監(jiān)測的,所以不用試題下標不會產(chǎn)生歧義。

    2.1 變點問題

    如果一個隨機變量在某一時間點之前服從一個分布,而在這一時間點之后服從另一個分布,這在統(tǒng)計序列分析中稱作變點問題[20-26]。變點問題出現(xiàn)在眾多領(lǐng)域,尤其是在工業(yè)產(chǎn)品質(zhì)量監(jiān)控中。在連續(xù)的生產(chǎn)過程中,機器在任一時間點都可能發(fā)生故障,從而導(dǎo)致產(chǎn)品質(zhì)量下降(產(chǎn)品特征變量在該時間點發(fā)生變化),因此需要一個監(jiān)控方法來甄別產(chǎn)品質(zhì)量。理想的監(jiān)控方法是在產(chǎn)品質(zhì)量發(fā)生變化時,及時發(fā)出信號,同時把犯第Ⅰ類偵測錯誤率控制在一定水平之下。這里,第Ⅰ類偵測錯誤是指在產(chǎn)品質(zhì)量未發(fā)生改變時,該監(jiān)控方法錯誤地判斷產(chǎn)品質(zhì)量已發(fā)生變化。

    若該試題的信息在第nc個考生后被泄露,即部分將要參加考試的考生得到了該試題的信息,那么該試題對于這些考生來說將會變得簡單。對于這些考生,新的正確作答該題的概率為而更極端的情況是這些考生將會一直答對這道題,即而那些沒有得到該題信息的考生仍將以的概率正確作答該題。當(dāng)該試題被選中給一個考生,依賴于該考生是否在考試前已獲得該試題的信息,這個考生正確作答該題的概率可能是,也可能是假定這個考生恰好得到了該題信息的可能性概率是r,那么根據(jù)全概率公式,任何一個考生在試題泄露之后答對該題的概率為

    顯然,r與得到該題信息的考生在所有將要參加考試的考生中的比例密切相關(guān)。因此,r可以看作該題泄露影響廣度的指標,而更確切地說可以看作該題泄露影響深度的指標。當(dāng)然r是未知的,但在本文所介紹的方法中我們并不需要估計它的數(shù)值。如果r=0,即該題的泄露影響可忽略,不造成任何損失,或者說該題并沒有被泄露,所以考試管理者并不需要考慮該題的泄露問題。因此,本文只考慮r>0的情況,這樣

    即在統(tǒng)計上看該試題在泄露之后對所有的考生來說都顯得簡單了??傊?,在試題泄露之前,該試題服從一個項目反應(yīng)函數(shù)而在試題泄露之后,它服從另一個較大的項目反應(yīng)函數(shù)因此,試題泄露問題是一個變點問題。

    一道試題是否被泄露是未知的。如果泄露,其變點nc的位置更是難以確定。而且,不同的試題,它們的被泄露變點位置不一定是一樣的。因此,需要統(tǒng)計方法對每一道試題進行實時連續(xù)監(jiān)控,一旦發(fā)生試題泄露,盡早地甄別出已泄露試題,以保障計算機自適應(yīng)考試的安全性和有效性。

    假設(shè)某被監(jiān)控試題的變點是nc,而監(jiān)控結(jié)果表明該試題在被n個考生使用過后被泄露(如圖1所示)。若nnc,監(jiān)控程序在考生n作答后發(fā)現(xiàn)了試題泄露,即給出了正確甄別;此時雖然監(jiān)控程序找到了該泄露試題,但是該試題仍被使用在nc與n之間的考生的考試中,從nc到n之間的考生數(shù)量為試題泄露之后到被監(jiān)控程序正確甄別之間的延遲間隔(如圖1(b)所示)。這個延遲間隔是從變點到該泄露試題被正確甄別之間使用該題考生的數(shù)量。如果監(jiān)控程序未正確甄別已泄露試題,這就犯了第Ⅱ類統(tǒng)計錯誤。在第Ⅰ類統(tǒng)計錯誤概率得到控制的前提下,越小的延遲間隔與越低的第Ⅱ類統(tǒng)計錯誤犯錯概率,表明這個監(jiān)控程序越理想??傊硐氲谋O(jiān)控程序需要精準且高效地甄別已泄露試題。

    圖1 錯誤與正確的變點甄別

    2.2 基于經(jīng)典測量理論的序貫監(jiān)控方法

    在計算機自適應(yīng)考試中,每道試題都有潛在的目標考生子群體,這個子群體與總考生群體是不一樣的。例如,在計算機自適應(yīng)考試中,較難的題目是被設(shè)計用以考查較高能力考生時使用的。因此,總體上來說,一道難題的目標考生子群體比一道較容易題目的目標考生子群體的能力高。在計算機自適應(yīng)考試系統(tǒng)中,考生群體、試題的難度參數(shù)和選題策略及算法共同決定了這個目標子群體。定義p是來自目標子群體中的某一考生在某一被監(jiān)控試題上的得分期望值:

    Zhang[18]認為試題信息泄露作為變點問題可通過p值反映出來,并據(jù)此針對計算機自適應(yīng)考試系統(tǒng)開發(fā)了基于經(jīng)典測量理論的實時連續(xù)監(jiān)控試題統(tǒng)計特性的序貫監(jiān)控方法。在施測過程中,被監(jiān)控中的每一道試題,若其信息沒有被泄露,那么相應(yīng)的考生作答U1,U2,…,Un…,均具有相同的p值。若某題在第nc個考生后被立即泄露,那么前nc個考生的得分的期望值為p,其后考生得分的期望值為p*,這里

    假設(shè)當(dāng)前考生是作答該被監(jiān)控試題的第n名考生。針對該題的監(jiān)控過程由一系列統(tǒng)計假設(shè)檢驗構(gòu)成:至n的原假設(shè)為在第n個考生使用該試題時,該試題還未被泄露;相應(yīng)的備擇假設(shè)為該試題在第n個考生或其之前就已經(jīng)被泄露。至n的假設(shè)檢驗將到當(dāng)前為止的n個考生對該試題的作答分為兩個部分:前個考生作答{U1,U2,…,Un-m}被稱為至n的參考移動樣本,而從考生n-m+1到考生n的m個作答{Un-m+1,Un-m+2,…,Un}被稱為至n的目標移動樣本。這里“移動”是指在實時連續(xù)監(jiān)控試題的過程中,n是不斷向前移動的,而m(m

    若該試題在第n個考生作答時還沒有被泄露,那么和均為p的無偏估計。因此的數(shù)值應(yīng)較小。然而,若該試題在第n個考生作答前就已經(jīng)被泄露,尤其當(dāng)nc=n-m時是在該試題被泄露后對正確作答概率的估計,而仍是在該試題被泄露前對正確作答概率()p的估計。由于試題泄露會導(dǎo)致該題變得簡單,即p*>p,所以的值也會相應(yīng)地增大。因此,可以用來構(gòu)造假設(shè)檢驗的統(tǒng)計量,其被標準化后被記為

    至n的假設(shè)檢驗為:如果大于預(yù)設(shè)的臨界值cα,就拒絕至n的原假設(shè),即認為至n時該試題已被泄露。

    基于經(jīng)典測量理論的監(jiān)控方法的操作過程為:對于題庫中的每一道試題,在施測過程中一旦使用該試題的人數(shù)達到一定數(shù)量(例如,n0=150)時,就開始依據(jù)公式(4)計算的數(shù)值。如果就可認為該試題已泄露,這里n=n0,n0+1,n0+2,...。即該監(jiān)控程序由一系列統(tǒng)計假設(shè)檢驗構(gòu)成,在考試過程中,每當(dāng)一道受監(jiān)控試題被選用于當(dāng)前考生,就重新計算該題的并與預(yù)先設(shè)定的臨界值cα進行比較,做顯著性檢驗。

    2.3 基于項目反應(yīng)理論的序貫監(jiān)控方法

    由于計算機自適應(yīng)考試一般均建立在項目反應(yīng)理論的基礎(chǔ)之上,然而前述所介紹的基于經(jīng)典測量理論的序貫監(jiān)控方法并沒有直接運用項目反應(yīng)理論中的任何主要成分,例如能力估計和項目反應(yīng)函數(shù)。如果項目反應(yīng)理論中的主要成分和統(tǒng)計量能被加以利用,就有可能開發(fā)出更為理想的監(jiān)控程序。在這一點的啟發(fā)下,Zhang&Li[19]開發(fā)了基于項目反應(yīng)理論的實時連續(xù)監(jiān)控方法。

    若該試題在n-m處或之前已被泄露,則Xnm是試題泄露后的正確作答觀測值,其期望值為

    基于項目反應(yīng)理論的序貫監(jiān)控方法的操作過程為:對于題庫中的每一道試題,在施測過程中一旦使用該試題的人數(shù)達到一定數(shù)量(例如,n0=150)時,就開始依據(jù)公式(5)計算的數(shù)值。如果就可認為該試題已泄露,這里n=n0,n0+1,n0+2,...。即該監(jiān)控程序由一系列統(tǒng)計假設(shè)檢驗構(gòu)成,在考試過程中,每當(dāng)一道受監(jiān)控試題被選用于當(dāng)前考生,就重新計算該題的并與預(yù)先設(shè)定的臨界值cα比較,做顯著性檢驗。

    基于經(jīng)典測量理論的序貫監(jiān)控方法是通過比較基于目標移動樣本與參照移動樣本p值的估計來實現(xiàn)對試題統(tǒng)計特性的實時連續(xù)監(jiān)控,而基于項目反應(yīng)理論的監(jiān)控方法則只需要使用目標移動樣本。上述兩種序貫監(jiān)控方法都含有參數(shù)cα和m,其均需要在相應(yīng)的序貫監(jiān)控方法被應(yīng)用于具體的計算機自適應(yīng)考試系統(tǒng)之前被確定下來。這兩個參數(shù),特別是臨界值cα,在上述兩種序貫監(jiān)控程序中往往是不一樣的。通常我們希望將犯第Ⅰ類統(tǒng)計錯誤的概率控制在一定的顯著性水平之下。顯著性水平α通常被選定為0.01或0.05。當(dāng)給定顯著性水平α后,對各個監(jiān)控程序,臨界值cα就可以通過模擬研究被確定下來。在下文中我們將示范如何用模擬實驗來確定臨界值cα。在選取目標移動樣本大小m時,應(yīng)注意平衡相應(yīng)序貫監(jiān)控方法犯第Ⅱ類統(tǒng)計錯誤的概率與相應(yīng)偵測被泄露試題監(jiān)控過程中的延遲間隔[18]。在其他參數(shù)不變的情況下,越大的目標移動樣本,即m值越大,相應(yīng)的序貫監(jiān)控程序犯第Ⅱ類統(tǒng)計錯誤的概率越小,但延遲間隔也可能會越大。因此,為獲得較小的延遲間隔,不可選取過大的m值。在為序貫監(jiān)控方法選取最優(yōu)參數(shù)時,應(yīng)該綜合考量眾多因素以平衡犯第Ⅰ類錯誤、第Ⅱ類統(tǒng)計錯誤的概率以及延遲間隔。那些應(yīng)該考量的因素包括(但不限于):犯第Ⅰ類統(tǒng)計錯誤所可能耗費的成本,以及使用已被泄露試題可能會對本次計算機自適應(yīng)考試評估所產(chǎn)生的破壞。整個過程要依據(jù)考試的具體情況來確定。

    3 模擬研究

    本研究用模擬計算機自適應(yīng)考試數(shù)據(jù)對上述這兩種序貫監(jiān)控方法進行統(tǒng)計穩(wěn)健性比較。具體地說,首先在考生整體水平隨時間沒有任何變化的情況下,用模擬實驗來確定顯著性水平α為0.01和0.05的臨界值cα。然后再模擬考生整體水平有季節(jié)性變化或連續(xù)提高趨勢的情況下,檢查這兩種監(jiān)控方法犯第Ⅰ類統(tǒng)計錯誤的概率是否變大,是否超出預(yù)設(shè)的顯著性水平。本研究既要比較這兩種方法在不同情形下的表現(xiàn),也要比較各個方法從考生整體水平隨時間沒有任何變化到有變化時的表現(xiàn)。除了犯第Ⅰ類統(tǒng)計錯誤的概率,即某一題沒有被泄露,卻被誤判為已被泄露的概率,這一概率越小越好外,另一個比較的標準是第Ⅰ類統(tǒng)計錯誤的發(fā)生位置,用犯第Ⅰ類統(tǒng)計錯誤前的考生數(shù)量這一指標來衡量,即犯第Ⅰ類統(tǒng)計錯誤發(fā)生得越晚,在該錯誤發(fā)生前,使用該題的考生數(shù)量將會越大,試題越不會被浪費,故而這一指標越大越好。對于這兩個標準,一般先考察犯第Ⅰ類統(tǒng)計錯誤的概率是否超出預(yù)設(shè)的顯著性水平,這是本研究評估穩(wěn)健性的主要標準;在犯第Ⅰ類統(tǒng)計錯誤概率得到控制的前題下,再來比較第Ⅰ類統(tǒng)計錯誤發(fā)生的位置,這將作為比較的輔助標準。

    3.1 CAT模擬實驗設(shè)計

    此次模擬研究的題庫選自一次真實大規(guī)模測評的400道試題,這些題目被標定使用三參數(shù)Logistic模型:

    其中θ表示相應(yīng)被試者的能力值表示當(dāng)能力值為θ時正確作答某題目的概率,a表示題目的區(qū)分度參數(shù),b表示題目的難度參數(shù),c表示題目的猜測參數(shù)[28]。

    表1 全題庫及各內(nèi)容板塊試題三參數(shù)的描述性統(tǒng)計量

    測試包含三個內(nèi)容板塊,每個板塊分別占總試題的40%、30%、30%,即每個板塊分別包含試題160道、120道、120道。表1羅列了全卷及各內(nèi)容板塊相應(yīng)試題三參數(shù)的描述性統(tǒng)計量。

    此次模擬研究中,計算機自適應(yīng)考試試題長度固定為40題,同時對整個選題過程實現(xiàn)內(nèi)容控制,這樣三個內(nèi)容板塊分別包含的題量為16道、12道、12道。對于每個考生或每次考試,每個內(nèi)容板塊試題的出現(xiàn)順序是通過隨機的方式預(yù)先設(shè)定的:分別使用數(shù)字1、2、3來代表三個內(nèi)容板塊,在實驗中使用16個1、12個2、12個3,分別通過隨機重新排列這些數(shù)字以獲得考試中試題內(nèi)容板塊的出現(xiàn)順序,例如,第k個數(shù)字是1,那么被選取的第k題則來自第一個內(nèi)容板塊。

    給定一個考生真實能力值和一道試題,通過標準IRT方法,使用其相應(yīng)的真實能力值以及試題參數(shù)來產(chǎn)生模擬分數(shù)(1或0):從(0,1)均勻分布中產(chǎn)生的一個隨機數(shù),如果該數(shù)小于基于三參數(shù)Logistic模型計算所得的正確作答的概率,那么相應(yīng)模擬分數(shù)被賦值為1,否則為0。

    模擬考生的人數(shù)為10 000人。對于每一個考生,前三道試題從預(yù)先設(shè)定的內(nèi)容板塊中曝光率較低的試題中選出,曝光率越低越會被選中。此后的選題方法是結(jié)合了內(nèi)容控制和曝光控制的最大信息量選題法[27]。在此次模擬研究中,試題曝光率會受到嚴格控制,當(dāng)前考生的考題只會在那些曝光率低于最大曝光率并滿足限制條件的試題中挑選信息量最大的。試題最大曝光率被限定為0.20。注意當(dāng)所有試題被等概率使用時,平均試題曝光率為0.10(即40/400)。

    在選題過程中,此次模擬研究使用后驗期望(EAP)方法[29]來估計考生當(dāng)前的能力水平,該方法使用標準正態(tài)分布作為能力值的先驗分布。而考生的最終能力估計是用最大似然估計法(MLE)來得到的。

    在此次模擬計算機自適應(yīng)考試的過程中,一旦一道試題的曝光次數(shù)達到150次(即 n0=150)就啟動序貫監(jiān)控程序來監(jiān)測這一試題。這樣,實際被監(jiān)測的試題數(shù)量即為題庫中曝光次數(shù)大于或等于150次的試題數(shù)量。此次模擬研究考慮4個不同的移動樣本量,m=25,50,75,100。

    在每種模擬條件下,模擬實驗將重復(fù)1 000次。對于每一次重復(fù)模擬,首先將記錄下列結(jié)果:被監(jiān)測試題數(shù)量,被錯誤標識為泄露的試題數(shù)量(即犯第Ⅰ類統(tǒng)計錯誤),以及發(fā)生錯誤標識前該題被使用的次數(shù)(即犯第Ⅰ類統(tǒng)計錯誤前的考生數(shù)量)。然后計算觀測到的犯第Ⅰ類統(tǒng)計錯誤的概率(即被錯誤標識試題數(shù)量與被監(jiān)測試題數(shù)量的比率)和其相對應(yīng)的第Ⅰ類統(tǒng)計錯誤發(fā)生前的考生數(shù)量均值。犯第Ⅰ類統(tǒng)計錯誤的概率當(dāng)然是越小越好,不過人們通常選擇合適的臨界點來控制犯第Ⅰ類統(tǒng)計錯誤的概率,而犯第Ⅰ類統(tǒng)計錯誤前的考生數(shù)量當(dāng)然是越大越好。一道試題被用了200次就被錯誤標識為泄露與一道試題被用了800次才被錯誤標識為泄露相比,前者的錯誤更為嚴重。

    3.2 臨界點確定

    對于給定的顯著性水平α(0.01或0.05),需要在所有原假設(shè)都成立(即沒有試題泄露)的條件下,通過模擬實驗來確定本研究介紹的這兩種序貫監(jiān)控程序相應(yīng)的臨界值cα。這一模擬實驗通常在一個標準狀況下完成。這里所謂的“標準狀況”,具體地說,是在模擬實驗中考生真實能力值是從均值為0、標準差為1的標準正態(tài)分布中相互獨立產(chǎn)生,θn~N(0,1),n=1,2,...,N。這里N是模擬考生的人數(shù),在本研究中N=10 000。在這種標準狀況下,考生整體水平?jīng)]有隨時間有任何變化。

    具體的做法是:首先在標準狀況下,用重復(fù)模擬實驗來確定本文介紹的這兩種序貫監(jiān)控程序在可能的臨界值下犯第Ⅰ類統(tǒng)計錯誤的概率,從而建立臨界值與犯第Ⅰ類統(tǒng)計錯誤概率對應(yīng)的表格,最后監(jiān)控程序使用者根據(jù)選定的顯著性水平α(例如0.01或0.05)來查取相應(yīng)的臨界值。

    基于1 000次的重復(fù)模擬,平均被監(jiān)測試題數(shù)量為272道題。像前面指出的那樣,這個平均被監(jiān)測的試題數(shù)量即為在這1 000次的重復(fù)模擬中,題庫里曝光次數(shù)大于或等于150次的試題的平均數(shù)。

    模擬結(jié)果表明21個可能的臨界數(shù)值,3.00, 3.05,…,4.00,相對應(yīng)的犯第Ⅰ類統(tǒng)計錯誤的概率的范圍已涵蓋了通常選用的顯著性水平的取值,即0.01和0.05。因此,表2至表5只給出了從3.00到4.00(步長為0.05)的21個可能的臨界數(shù)值所對應(yīng)的犯第Ⅰ類統(tǒng)計錯誤的概率。表2至表5是對應(yīng)于4個不同移動樣本量的模擬實驗結(jié)果,即在這21個可能的臨界點下,這兩種序貫監(jiān)控程序在這1 000次的重復(fù)模擬中犯第Ⅰ類統(tǒng)計錯誤的平均比率和犯第Ⅰ類統(tǒng)計錯誤前的平均考生數(shù)量。從這些表中可以看出,隨著臨界點取值的升高,犯第Ⅰ類統(tǒng)計錯誤的概率會持續(xù)降低。

    下面來說明如何使用表2至表5來選取合適的臨界值。假如預(yù)設(shè)的顯著性水平為α=0.01,移動樣本量預(yù)設(shè)為m=25時,據(jù)表2查得,當(dāng)臨界點為3.85時,基于CTT方法犯第Ⅰ類錯誤的概率是0.0101,而當(dāng)臨界點為3.90時,基于CTT方法犯第Ⅰ類錯誤的概率是0.0081。為了把犯第Ⅰ類錯誤的概率控制在α=0.01以下,當(dāng)移動樣本量預(yù)設(shè)為m=25時,為CTT方法選取的臨界值應(yīng)為c0.01(CTT)=3.90。當(dāng)然,為了得到更精確的臨界值,可以建立更為精細的表

    格以供查用。監(jiān)控程序使用者也可以使用插值的方法來選取臨界值為c0.01(CTT)=3.86。本文為方便起見只用表中數(shù)值。同樣,當(dāng)移動樣本量預(yù)設(shè)為m=25時,選取基于IRT方法的臨界值為c0.01(CTT)= 3.85。

    表2 在理想狀況下,不同臨界點相應(yīng)的犯第Ⅰ類錯誤的概率均值與犯第Ⅰ類統(tǒng)計錯誤前的考生數(shù)量均值(移動樣本量為25)

    表3 在理想狀況下,不同臨界點相應(yīng)的犯第Ⅰ類錯誤的概率均值與犯第Ⅰ類統(tǒng)計錯誤前的考生數(shù)量均值(移動樣本量為50)

    表4 在理想狀況下,不同臨界點相應(yīng)的犯第Ⅰ類錯誤的概率均值與犯第Ⅰ類統(tǒng)計錯誤前的考生數(shù)量均值(移動樣本量為75)

    表5 在理想狀況下,不同臨界點相應(yīng)的犯第Ⅰ類錯誤的概率均值與犯第Ⅰ類統(tǒng)計錯誤前的考生數(shù)量均值(移動樣本量為100)

    表6羅列了在不同移動樣本量下,當(dāng)顯著性水平預(yù)設(shè)為α=0.01或0.05時,從表2至表5查找出來的臨界值cα以及第Ⅰ類錯誤發(fā)生前使用該題的考生數(shù)量均值。換句話說,表6綜合了表2至表5中的相關(guān)信息,概括了在4個不同移動樣本量下,對應(yīng)于常用的顯著性水平的臨界點和相應(yīng)犯第Ⅰ類統(tǒng)計錯誤前的平均考生數(shù)量。

    本研究只報告了犯第Ⅰ類統(tǒng)計錯誤的概率,如希望進一步了解有關(guān)犯第Ⅱ類統(tǒng)計錯誤概率的信息,可以參閱Zhang[18]及Zhang&Li[19]發(fā)表的文章。在實際應(yīng)用中,監(jiān)控程序使用者需要為不同的監(jiān)控程序選取最佳的移動樣本量。如果僅考慮犯第Ⅰ類統(tǒng)計錯誤前的考生數(shù)量的大小,從表6可以看出,CTT序貫監(jiān)控方法的最佳移動樣本量為m(CTT)= 50,而IRT序貫監(jiān)控方法的最佳移動樣本量為m(IRT)=25。當(dāng)然,監(jiān)控程序使用者在選取最佳的移動樣本量時還需考慮犯第Ⅱ類統(tǒng)計錯誤概率,使之最小化。從表6也可以看出,IRT序貫監(jiān)控方法犯第Ⅰ類統(tǒng)計錯誤前的考生數(shù)量普遍比相應(yīng)CTT序貫監(jiān)控方法的大,而這個指標是越大越好。

    3.3 兩種序貫監(jiān)控程序的穩(wěn)健性比較

    計算機自適應(yīng)考試的題庫通常會使用較長一段時間,幾個月甚至幾年。考生的整體水平有可能隨時間而變化。例如,3月份考生的整體水平比1月份的高。本研究考慮以下兩種考生整體水平隨時間而變化的情況。

    (1)模擬考生整體水平隨時間有季節(jié)(周期)性變化:考生真實能力值n=1,2,...,10 000。即考生真實能力均值隨n有季節(jié)(周期)性變化。例如θ1~N(0.0003,1),θ2500~N(0.5,1),θ5000~N(0,1),θ7500~N(-0.5,1),θ10000~N(0,1)。

    (2)模擬考生整體水平隨時間有持續(xù)提高趨勢:考生真實能力值θn~N(0.5n/10000,1),n=1,2,..., 10 000。即考生真實能力均值隨n有持續(xù)提高的趨勢。例如θ1~N(0.0,1),θ2000~N(0.1,1),θ4000~N(0.2,1),θ10000~N(0.5,1)。

    給定顯著性水平0.01或0.05,序貫監(jiān)控方法中的臨界點是在標準狀態(tài)(考生整體水平隨時間沒有變化)下得到的?,F(xiàn)在考生整體水平隨時間有變化,就需要考察這兩種序貫監(jiān)控方法犯第Ⅰ類統(tǒng)計錯誤的概率是否變大,是否超出預(yù)設(shè)的顯著性水平。在犯第Ⅰ類統(tǒng)計錯誤概率得到控制的前提下,再來考察第Ⅰ類統(tǒng)計錯誤發(fā)生的位置是否有變化。換句話說,這一節(jié)中的模擬試驗是用來研究這兩種序貫監(jiān)控方法的穩(wěn)健性。

    表6 在不同顯著性水平下,臨界點與相應(yīng)犯第Ⅰ類統(tǒng)計錯誤前的考生數(shù)量均值(標準差)

    表7概括了在考生整體水平有季節(jié)性變化的情況下,這兩種序貫監(jiān)控方法使用在標準條件下得到的臨界點(參見表6)及在不同移動樣本量下,犯第Ⅰ類統(tǒng)計錯誤的概率均值和犯第Ⅰ類統(tǒng)計錯誤前的考生數(shù)量均值。

    在考生整體水平有本研究所模擬的季節(jié)性變化時,這兩種序貫監(jiān)控方法犯第Ⅰ類統(tǒng)計錯誤的概率與相應(yīng)的預(yù)設(shè)顯著性水平(0.01或0.05)可以通過t-檢驗進行比較。本研究中t-檢驗的顯著性水平均設(shè)為0.05。結(jié)果表明,在本研究所考慮的4個不同移動樣本量的情況中,這兩種序貫監(jiān)控方法犯第Ⅰ類統(tǒng)計錯誤的概率都沒有顯著超出相應(yīng)的預(yù)設(shè)顯著性水平。但是,通過t-檢驗比較,在所有考慮的情況中,IRT方法犯第Ⅰ類統(tǒng)計錯誤前的考生平均數(shù)都比CTT方法相應(yīng)的平均數(shù)大。這些結(jié)果表明在考生整體水平有季節(jié)性變化時,這兩種序貫監(jiān)控方法都能很好地控制犯第Ⅰ類統(tǒng)計錯誤的概率,而在犯第Ⅰ類統(tǒng)計錯誤前的考生平均數(shù)方面,IRT方法略好于CTT方法。

    我們還可以通過t-檢驗比較各個方法犯第Ⅰ類統(tǒng)計錯誤前的考生數(shù)由考生整體水平?jīng)]有變化到有季節(jié)性變化的前后變化(參見表6和表7)。結(jié)果表明CTT方法的該指標數(shù),在所考慮的4個不同移動樣本量中,全面顯著變差(變?。?;然而IRT方法的該指標數(shù)只有在移動樣本量為75或100時顯著性變差,而在移動樣本量為25時變好。

    表8概括出在考生整體水平有連續(xù)提高趨勢的情況下,這兩種序貫監(jiān)控方法使用在標準條件下得到的臨界點及在不同移動樣本量下,犯第Ⅰ類統(tǒng)計錯誤的概率均值和犯第Ⅰ類統(tǒng)計錯誤前的考生平均數(shù)。通過t-檢驗進行比較,發(fā)現(xiàn)在本研究所考慮的4個不同移動樣本量的情況中,IRT方法犯第Ⅰ類統(tǒng)計錯誤的概率都沒有顯著超出相應(yīng)的預(yù)設(shè)顯著性水平。但是,除了當(dāng)移動樣本量為25時,CTT方法犯第Ⅰ類統(tǒng)計錯誤的概率都顯著超出相應(yīng)的預(yù)設(shè)顯著性水平。這些結(jié)果表明IRT序貫監(jiān)控方法能很好地控制犯第Ⅰ類統(tǒng)計錯誤的概率,而CTT方法卻不能在所有4個不同移動樣本量的情形中控制好犯第Ⅰ類統(tǒng)計錯誤的概率。另外,通過t-檢驗表明,在所有4個不同移動樣本量的情形中,IRT方法犯第Ⅰ類統(tǒng)計錯誤前的考生平均數(shù)都比CTT方法相應(yīng)的平均數(shù)大。

    我們也可以通過t-檢驗比較各個方法犯第Ⅰ類統(tǒng)計錯誤前的考生數(shù)由考生整體水平?jīng)]有變化到有連續(xù)提高趨勢的前后變化(參見表6和表8)。結(jié)果表明CTT方法的該指標數(shù),在所考慮的4個不同移動樣本量中,全面顯著變好(變大);然而IRT方法的該指標數(shù)值有增有減,例如,當(dāng)移動樣本量為25時,該指標數(shù)值顯著變差(變?。?dāng)移動樣本量為100時顯著變大。

    表7 在有季節(jié)性變化情況下,不同顯著性水平相應(yīng)的犯第Ⅰ類統(tǒng)計錯誤的概率的均值,犯第Ⅰ類統(tǒng)計錯誤前的考生數(shù)量均值及其標準差

    4 討論

    本研究對基于CTT和IRT的兩種實時序貫監(jiān)控方法在考生水平變化的情況下進行了統(tǒng)計穩(wěn)健性的比較。首先,在標準狀況下,根據(jù)預(yù)設(shè)的顯著性水平,確定這兩種監(jiān)控方法各自統(tǒng)計檢驗的臨界點;然后再模擬考生整體水平有季節(jié)性變化或連續(xù)提高趨勢的情況下,檢查這兩種監(jiān)控方法犯第Ⅰ類統(tǒng)計錯誤的概率是否變大,是否超出預(yù)設(shè)的顯著性水平。

    在模擬考生整體水平有季節(jié)性變化的情況下,基于經(jīng)典測量理論的序貫監(jiān)控方法犯第Ⅰ類統(tǒng)計錯誤的概率能夠被有效地控制在預(yù)設(shè)的顯著性水平之下,然而,犯第Ⅰ類統(tǒng)計錯誤發(fā)生前使用該題的考生數(shù)量,較考生整體水平?jīng)]有任何變化的情況而言,顯著下降。因此,在這種情況下,該方法的穩(wěn)健性表現(xiàn)不夠理想。在模擬考生整體水平隨時間有持續(xù)提高趨勢的情況下,該方法犯第Ⅰ類統(tǒng)計錯誤的概率有所上升,特別當(dāng)移動樣本量大于25時,該方法犯第Ⅰ類統(tǒng)計錯誤的概率顯著地超出了預(yù)設(shè)的顯著性水平。然而,結(jié)果也顯示,第Ⅰ類統(tǒng)計錯誤發(fā)生前使用該題的考生數(shù)量,較考生整體水平?jīng)]有任何變化的情況而言,有顯著上升。

    基于項目反應(yīng)理論的序貫監(jiān)控方法,在模擬考生整體水平隨時間有季節(jié)性變化和有持續(xù)提高趨勢這兩種情況下,都表現(xiàn)出了較好的穩(wěn)健性,即犯第Ⅰ類統(tǒng)計錯誤的概率被很好地控制在預(yù)設(shè)的顯著性水平之下。評價一個統(tǒng)計檢驗方法穩(wěn)健性的最重要的指標是在狀況或條件發(fā)生變化時,該方法犯第Ⅰ類統(tǒng)計錯誤的概率能否被很好地控制在預(yù)設(shè)的顯著性水平之下。在這一標準下,基于項目反應(yīng)理論的序貫監(jiān)控方法比基于經(jīng)典測量理論的方法表現(xiàn)得更為穩(wěn)健。

    至于另一個指標,第Ⅰ類統(tǒng)計錯誤發(fā)生前使用該題的考生數(shù)量,在模擬考生整體水平有季節(jié)性變化的情況下,基于經(jīng)典測量理論的序貫監(jiān)控方法顯著低于基于項目反應(yīng)理論的方法;而在模擬考生整體水平隨時間有持續(xù)提高趨勢的情況下,基于經(jīng)典測量理論的方法顯著高于基于項目反應(yīng)理論的方法。

    總之,基于項目反應(yīng)理論的序貫監(jiān)控方法對本研究所模擬的非標準狀況均表現(xiàn)出了較強的適應(yīng)性及優(yōu)良的穩(wěn)健性,而基于經(jīng)典測量理論的序貫監(jiān)控方法會在不同程度上受到影響,監(jiān)測效果相較于考生整體水平?jīng)]有任何變化的情況而言,有所下降。因此,在本研究所模擬的非標準狀況下,基于項目反應(yīng)理論的序貫監(jiān)控方法的穩(wěn)健性表現(xiàn)優(yōu)于基于經(jīng)典測量理論的序貫監(jiān)控方法。

    表8 在考生整體水平有連續(xù)提高趨勢的情況下,不同顯著性水平相應(yīng)的犯第Ⅰ類統(tǒng)計錯誤的概率的均值,犯第Ⅰ類統(tǒng)計錯誤前的考生數(shù)量均值及其標準差

    項目參數(shù)標定的準確性是確保計算機自適應(yīng)考試系統(tǒng)成功的必要條件。在本項研究中,假定這一條件已滿足,但在實際的自適應(yīng)考試過程中,項目參數(shù)可能會出現(xiàn)漂移,這時基于項目反應(yīng)理論的序貫監(jiān)控方法就需要作出相應(yīng)的調(diào)整。

    [1]漆書青,戴海崎,丁樹良.現(xiàn)代教育與心理測量學(xué)原理[M].北京:高等教育出版社,2002.

    [2]CHANG H,ZHANG J.Hypergeometric family and test overlap rates in computerized adaptive testing[J].Psychometrika,2002(67):387-398.

    [3]CHANG H,ZHANG J.Assessing CAT security breaches by the item pooling index[C]//Paper presented at the Annual Meeting of Nation?al Council on Measurement in Education.Chicago,IL,2003.

    [4]DAVEY T,NERING N.Controlling item exposure and maintaining item security[M]//MILLS C N,POTENZA M T,FREMER J J, WARD W C.Computer-based testing:Building the foundation for future assessments.Mahwah,NJ:Lawrence Erlbaum,2002:165-191.

    [5]GUO J,TAY L,DRASGOW F.Conspiracies and test compromise: An evaluation of the resistance of test systems to small-scale cheat?ing[J].International Journal of Testing,2009(9):283-309.

    [6]MCLEOD L,LEWIS C,THISSEN D.A Bayesian method for the de?tection of item preknowledge in computerized adaptive testing[J]. Applied Psychological Measurement,2003(27):121-137.

    [7]WAY W D.Protecting the integrity of computerized testing item pools[J].Educational Measurement:Issues and Practice,1998(Win?ter):17-27.

    [8]YI Q,ZHANG J,CHANG H.Severity of organized item theft in com?puterized adaptive testing:A simulation study[J].Applied Psycholog?ical Measurement,2008(32):543-558.

    [9]ZHANG J,CHANG H,YI Q.Comparing single-pool and multiplepool designs regarding test security in computerized testing[J].Be?havior Research Methods,2012(44):742-752.

    [10]HETTER R,SYMPSON B.Item exposure control in CAT-ASVAB [M]//SANDS W,WATERS B,McBRIDE J.Computerized adaptive testing:From inquiry to operation.Washington,DC:American Psy?chological Association,1997:141-144.

    [11]MILLS C N,STEFFEN M.The GRE computer adaptive test:Opera?tional issues[M]//VAN DER LINDEN W J,GLAS C A W.Compu?erized Adaptive Testing:Theory and Practice.The Netherlands: Kluwer Academic Publishers,2000:75-99.

    [12]STOCKING M L.Three practical issues for modern adaptive testing item pools(ETS RR-94-5)[R].Princeton,NJ:ETS,1994.

    [13]STOCKING M L,LEWIS C.A new method of controlling item expo?sure in computerized adaptive testing(ETS RR-95-25)[R].Prince?ton,NJ:ETS,1995.

    [14]STOCKING M L,LEWIS C.Controlling item exposure conditional on ability in computerized adaptive testing[J].Journal of Education?al and Behavioral Statistics,1998(23):57-75.

    [15]SYMPSON J B,HETTER R D.Controlling item-exposure rates in computerized adaptive testing[C]//Proceedings of the 27th annual meeting of the Military Testing Association.San Diego,CA:Navy Personnel Research and Development Center,1985:973-977.

    [16]MILLS C N,STOCKING M L.Practical issues in large-scale com?puterized adaptive testing[J].Applied Measurement in Education, 1996(9):287-304.

    [17]CHEN S,ANKENMANN R D,SPRAY J A.The relationship be?tween item exposure and test overlap in computerized adaptive test?ing[J].Journal of Educational Measurement,2003(40):129-145.

    [18]ZHANG J.A sequential procedure for detecting compromised items in the item pool of a CAT system[J].Applied Psychological Mea?surement,2014(38):87-104.DOI:10.1177/0146621613510062.

    [19]ZHANG J,LI J.Monitoring Items in Real Time to Enhance CAT Se?curity[J].Journal of Educational Measurement,2016,53(2):131-151.DOI:10.1111/jedm.12104.

    [20]ANSCOMBE F J,GODWIN H J,PLACKETT R L.Methods of de?ferred sentencing in testing the fraction defective of a continuous output[J].Supplement to the Journal of the Royal Statistical Soci?ety,1947(9):198-217.

    [21]CARLSTEIN E.Nonparametric change-point estimation[J].Annals of Statistics,1988,16(1):188-197.

    [22]LORDEN G.Procedures for reacting to a change in distribution[J]. Annals of Mathematical Statistics,1971,42(6):1897-1908.

    [23]PAGE E S.Continuous inspection schemes[J].Biometrika,1954(41):100-115.

    [24]POLLAK M.Optimal detection of a change in distribution[J].An?nals of Statistics,1985(13):206-227.

    [25]SIEGMUND D.Sequential Analysis[M].New York,NY:Springer, 1985.

    [26]SIEGMUND D.Boundary crossing probabilities and statistical ap?plications[J].Annals of Statistics,1985,14(2):361-404.

    [27]LORD F M.Applications of item response theory to practical test?ing problems[M].Hillsdale,NJ:Lawrence Erlbaum Associates, 1980.

    [28]羅照盛.項目反應(yīng)理論基礎(chǔ)[M].北京:北京師范大學(xué)出版社, 2012.

    [29]BOCK R D,MISLEVY R J.Adaptive EAP estimation of ability in a microcomputer environment[J].Applied Psychological Measure?ment,1982(6):431-444.

    Robustness of CTT-and IRT-based Sequential Procedures for Detecting Compromised Items in CAT

    ZHANG Jinming,CAO Canxi,JIE Yongjing
    (University of Illinois at Urbana-Champaign,Illinois 61822,US)

    CTT-and IRT-based sequential procedures are introduced for monitoring items in a CAT item pool in order to identify compromised items in real time,remove or replace them with appropriate new items,and ultimately enhance test security and validity.This article focuses on the robustness of these two procedures when the overall ability of test takers increases with time or changes seasonally.Specifically,it investigates whether the rates of type I errors of the two procedures become larger than the corresponding significance level in these two scenarios.Results from simulation studies demonstrate that the IRT-based sequential procedure is more robust than the CTT-based one in the settings specified in the article.

    Computerized Adaptive Testing;Item Response Theory;Classical Testing Theory;Item Exposure; Change-point Problem;Sequential Method

    G405

    A

    1005-8427(2017)02-0020-14

    10.19360/j.cnki.11-3303/g4.2017.02.004

    (責(zé)任編輯:陳睿)

    本研究得到中國國家漢語國際推廣領(lǐng)導(dǎo)小組辦公室提供的部分資助。

    張金明(1962—),男,博士,美國伊利諾伊大學(xué)香檳分校,副教授;曹燦兮(1990—),女,美國伊利諾伊大學(xué)香檳分校,在讀研究生;揭勇菁(1991—),男,美國伊利諾伊大學(xué)香檳分校,在讀研究生。

    猜你喜歡
    樣本量試題概率
    第6講 “統(tǒng)計與概率”復(fù)習(xí)精講
    醫(yī)學(xué)研究中樣本量的選擇
    2021年高考數(shù)學(xué)模擬試題(四)
    第6講 “統(tǒng)計與概率”復(fù)習(xí)精講
    概率與統(tǒng)計(一)
    概率與統(tǒng)計(二)
    2019年高考數(shù)學(xué)模擬試題(五)
    《陳涉世家》初三復(fù)習(xí)試題
    2019屆高考數(shù)學(xué)模擬試題(二)
    航空裝備測試性試驗樣本量確定方法
    天堂影院成人在线观看| 欧美性感艳星| 亚洲精品成人久久久久久| 日韩,欧美,国产一区二区三区 | 一本久久中文字幕| 亚洲熟妇熟女久久| 18禁黄网站禁片免费观看直播| 亚洲经典国产精华液单| 大又大粗又爽又黄少妇毛片口| 欧美色欧美亚洲另类二区| 亚洲av第一区精品v没综合| 色吧在线观看| 自拍偷自拍亚洲精品老妇| 国产乱人伦免费视频| 国产欧美日韩精品一区二区| 蜜桃亚洲精品一区二区三区| 男人的好看免费观看在线视频| 国产一区二区三区在线臀色熟女| 国内揄拍国产精品人妻在线| 波野结衣二区三区在线| 看片在线看免费视频| 国产精品电影一区二区三区| 国产久久久一区二区三区| 禁无遮挡网站| 亚洲欧美日韩卡通动漫| 国内揄拍国产精品人妻在线| 日本-黄色视频高清免费观看| 色尼玛亚洲综合影院| 亚洲欧美日韩高清专用| 国产一区二区三区在线臀色熟女| 久久精品夜夜夜夜夜久久蜜豆| 在线观看免费视频日本深夜| 99热精品在线国产| 欧美3d第一页| 一个人观看的视频www高清免费观看| 精品午夜福利在线看| 亚洲精品一区av在线观看| 亚洲国产精品合色在线| 国产久久久一区二区三区| 国产真实乱freesex| 99九九线精品视频在线观看视频| 国产精品久久久久久精品电影| 中文字幕av成人在线电影| 天天一区二区日本电影三级| 一本精品99久久精品77| 午夜爱爱视频在线播放| 精品免费久久久久久久清纯| 免费电影在线观看免费观看| 婷婷精品国产亚洲av在线| av福利片在线观看| 国产免费一级a男人的天堂| 久久久久久九九精品二区国产| 国产高清视频在线播放一区| 午夜福利高清视频| 3wmmmm亚洲av在线观看| 国产精品野战在线观看| 久久久久精品国产欧美久久久| 18+在线观看网站| 国产精品乱码一区二三区的特点| 中文亚洲av片在线观看爽| 大型黄色视频在线免费观看| 日韩精品有码人妻一区| 十八禁网站免费在线| 两个人视频免费观看高清| 久久久国产成人免费| 色视频www国产| 亚洲在线自拍视频| 桃色一区二区三区在线观看| 成年免费大片在线观看| 精品99又大又爽又粗少妇毛片 | 久久久国产成人免费| 亚洲av成人av| 国产精品精品国产色婷婷| 美女黄网站色视频| 色在线成人网| 男人狂女人下面高潮的视频| 久久久久久久久久久丰满 | 国产伦在线观看视频一区| 日本黄色视频三级网站网址| 97碰自拍视频| 国产av不卡久久| 日韩高清综合在线| 午夜激情欧美在线| 久久国产精品人妻蜜桃| 天天一区二区日本电影三级| 欧美日本亚洲视频在线播放| 美女高潮喷水抽搐中文字幕| 久久久久国内视频| 99久国产av精品| 亚洲午夜理论影院| 此物有八面人人有两片| 亚洲熟妇中文字幕五十中出| а√天堂www在线а√下载| 麻豆成人午夜福利视频| 女人被狂操c到高潮| 啦啦啦韩国在线观看视频| 亚洲经典国产精华液单| 2021天堂中文幕一二区在线观| 久久久精品欧美日韩精品| bbb黄色大片| 免费人成在线观看视频色| 悠悠久久av| 色哟哟·www| bbb黄色大片| 日韩一区二区视频免费看| 成人av一区二区三区在线看| 欧美黑人欧美精品刺激| 美女cb高潮喷水在线观看| 真实男女啪啪啪动态图| 国产老妇女一区| 国产精品久久久久久精品电影| 啪啪无遮挡十八禁网站| 亚洲av电影不卡..在线观看| 欧美激情久久久久久爽电影| 久久国产乱子免费精品| 久久久久久国产a免费观看| 色播亚洲综合网| 日本黄色片子视频| 看片在线看免费视频| 日韩中文字幕欧美一区二区| 3wmmmm亚洲av在线观看| 听说在线观看完整版免费高清| 在线免费十八禁| 国产 一区 欧美 日韩| 看十八女毛片水多多多| 久久人人精品亚洲av| 国产男人的电影天堂91| 国产精品久久久久久av不卡| xxxwww97欧美| 成人一区二区视频在线观看| 亚洲人成网站在线播放欧美日韩| 日韩中字成人| 国产精品自产拍在线观看55亚洲| 亚洲四区av| 午夜久久久久精精品| 老司机深夜福利视频在线观看| 欧美又色又爽又黄视频| 亚洲成人精品中文字幕电影| 国产主播在线观看一区二区| 哪里可以看免费的av片| 日韩高清综合在线| 校园春色视频在线观看| 国产亚洲精品综合一区在线观看| 国产极品精品免费视频能看的| 久久精品久久久久久噜噜老黄 | 国产淫片久久久久久久久| 亚洲av电影不卡..在线观看| 国产成人a区在线观看| av专区在线播放| 欧美人与善性xxx| 亚洲专区国产一区二区| 久久精品人妻少妇| 精品久久久久久久久亚洲 | 亚洲在线观看片| 高清在线国产一区| 欧美国产日韩亚洲一区| 欧美高清性xxxxhd video| 婷婷丁香在线五月| 精品久久久久久成人av| 精品99又大又爽又粗少妇毛片 | 国产av在哪里看| 婷婷精品国产亚洲av在线| 日本五十路高清| 国产三级在线视频| 此物有八面人人有两片| av在线观看视频网站免费| 国产精品无大码| 精品久久久久久久久亚洲 | 亚洲人成伊人成综合网2020| 国产视频内射| 久久精品国产99精品国产亚洲性色| 成年免费大片在线观看| 极品教师在线视频| 蜜桃亚洲精品一区二区三区| 亚洲avbb在线观看| 观看免费一级毛片| 极品教师在线视频| 99久久成人亚洲精品观看| 亚洲成av人片在线播放无| 亚洲av二区三区四区| 亚洲乱码一区二区免费版| 亚洲自偷自拍三级| 91久久精品国产一区二区成人| 狂野欧美白嫩少妇大欣赏| 尤物成人国产欧美一区二区三区| 欧美日韩国产亚洲二区| 全区人妻精品视频| 国产精品久久久久久亚洲av鲁大| 久久亚洲精品不卡| 国产精品三级大全| 成人午夜高清在线视频| 久久久色成人| 啦啦啦啦在线视频资源| 在线播放国产精品三级| 少妇的逼水好多| 亚洲av五月六月丁香网| 色哟哟哟哟哟哟| 亚洲自拍偷在线| 国产精品一区二区三区四区久久| 精品久久久久久久末码| 亚洲国产色片| 亚洲在线自拍视频| 看片在线看免费视频| 熟妇人妻久久中文字幕3abv| 久久久久国产精品人妻aⅴ院| 国产白丝娇喘喷水9色精品| 国产老妇女一区| 一区二区三区高清视频在线| 嫩草影视91久久| 欧美日韩精品成人综合77777| 国产蜜桃级精品一区二区三区| 日韩欧美三级三区| 免费不卡的大黄色大毛片视频在线观看 | 亚洲中文字幕一区二区三区有码在线看| 永久网站在线| 一区二区三区激情视频| 日韩人妻高清精品专区| 久久久午夜欧美精品| 村上凉子中文字幕在线| 黄色女人牲交| 哪里可以看免费的av片| 国产伦人伦偷精品视频| 亚洲精品影视一区二区三区av| 国产亚洲av嫩草精品影院| 午夜激情欧美在线| 成人亚洲精品av一区二区| 国产aⅴ精品一区二区三区波| 窝窝影院91人妻| 国产午夜精品论理片| h日本视频在线播放| 亚洲国产高清在线一区二区三| 嫩草影视91久久| 男女下面进入的视频免费午夜| 男女之事视频高清在线观看| 国产麻豆成人av免费视频| 十八禁国产超污无遮挡网站| 日韩欧美 国产精品| 欧美日韩中文字幕国产精品一区二区三区| 亚洲黑人精品在线| 免费大片18禁| 99久国产av精品| 波野结衣二区三区在线| 国产精品免费一区二区三区在线| 麻豆成人午夜福利视频| 人人妻人人看人人澡| 国产精品福利在线免费观看| 欧美日韩乱码在线| 色av中文字幕| 欧美日韩综合久久久久久 | 两个人视频免费观看高清| 欧美日韩亚洲国产一区二区在线观看| av天堂中文字幕网| 99热只有精品国产| 麻豆成人午夜福利视频| 免费av观看视频| 美女大奶头视频| 免费搜索国产男女视频| 真实男女啪啪啪动态图| 国产乱人视频| 一夜夜www| 蜜桃久久精品国产亚洲av| 国产白丝娇喘喷水9色精品| 国内揄拍国产精品人妻在线| 中亚洲国语对白在线视频| 国内久久婷婷六月综合欲色啪| 天天一区二区日本电影三级| 久久久成人免费电影| 国产高清有码在线观看视频| 久久精品国产亚洲av天美| 亚洲av二区三区四区| 国产精品一及| 亚洲人与动物交配视频| 少妇熟女aⅴ在线视频| 深夜精品福利| 一级黄片播放器| 国产乱人伦免费视频| 免费电影在线观看免费观看| 久久久色成人| 免费一级毛片在线播放高清视频| 此物有八面人人有两片| 男女之事视频高清在线观看| 色视频www国产| 国产精品99久久久久久久久| 国产蜜桃级精品一区二区三区| 嫁个100分男人电影在线观看| 乱码一卡2卡4卡精品| 麻豆久久精品国产亚洲av| 麻豆国产97在线/欧美| 精品日产1卡2卡| 人人妻,人人澡人人爽秒播| 国内精品宾馆在线| 99视频精品全部免费 在线| 男人舔奶头视频| 男人的好看免费观看在线视频| 老熟妇乱子伦视频在线观看| 一夜夜www| 久久久久久久久中文| 欧美精品国产亚洲| 黄色欧美视频在线观看| 国产精品人妻久久久影院| 国产久久久一区二区三区| 国产真实伦视频高清在线观看 | 国产三级中文精品| 久久久国产成人免费| 中文亚洲av片在线观看爽| 丝袜美腿在线中文| 韩国av一区二区三区四区| 免费高清视频大片| 午夜精品一区二区三区免费看| 久久婷婷人人爽人人干人人爱| 91麻豆av在线| 精品久久久久久,| 国产麻豆成人av免费视频| 精品一区二区三区人妻视频| 毛片女人毛片| 永久网站在线| 一本一本综合久久| av在线蜜桃| 午夜免费激情av| 日本熟妇午夜| 精品免费久久久久久久清纯| 伊人久久精品亚洲午夜| 最近中文字幕高清免费大全6 | 国产国拍精品亚洲av在线观看| 乱码一卡2卡4卡精品| 久久亚洲精品不卡| 色尼玛亚洲综合影院| 日韩中字成人| 久久精品国产99精品国产亚洲性色| 日日啪夜夜撸| 在线看三级毛片| 91久久精品电影网| 国产精品美女特级片免费视频播放器| 午夜福利高清视频| 美女 人体艺术 gogo| 日本免费一区二区三区高清不卡| 一进一出抽搐动态| 欧美+亚洲+日韩+国产| 欧美色视频一区免费| 网址你懂的国产日韩在线| 91在线精品国自产拍蜜月| 国产精品99久久久久久久久| 日本a在线网址| 欧美+日韩+精品| 听说在线观看完整版免费高清| 小蜜桃在线观看免费完整版高清| 噜噜噜噜噜久久久久久91| 成人精品一区二区免费| 综合色av麻豆| 91在线观看av| 一级毛片久久久久久久久女| 成人永久免费在线观看视频| 69人妻影院| 伦精品一区二区三区| 俄罗斯特黄特色一大片| 国产伦一二天堂av在线观看| 欧美日韩乱码在线| 黄色配什么色好看| 午夜亚洲福利在线播放| 日韩精品中文字幕看吧| 啪啪无遮挡十八禁网站| 小说图片视频综合网站| 亚洲最大成人手机在线| 91久久精品电影网| 国产中年淑女户外野战色| 嫩草影视91久久| 国产成人av教育| 日韩一本色道免费dvd| 久9热在线精品视频| 成人av一区二区三区在线看| 99精品久久久久人妻精品| 成人毛片a级毛片在线播放| 在现免费观看毛片| 日韩人妻高清精品专区| 在线看三级毛片| av中文乱码字幕在线| 国产视频内射| 亚洲精品成人久久久久久| 亚洲av不卡在线观看| 国产一区二区在线观看日韩| 中文字幕免费在线视频6| 亚洲成人中文字幕在线播放| 亚洲美女搞黄在线观看 | 欧美xxxx黑人xx丫x性爽| 婷婷精品国产亚洲av| 性插视频无遮挡在线免费观看| 黄色一级大片看看| 欧美成人一区二区免费高清观看| 国产精品久久久久久久电影| 亚洲国产色片| 婷婷精品国产亚洲av在线| 久久久久性生活片| 亚洲成人中文字幕在线播放| 日本在线视频免费播放| 国产精品,欧美在线| 观看免费一级毛片| 亚洲精品粉嫩美女一区| 中文字幕高清在线视频| 听说在线观看完整版免费高清| 91狼人影院| 超碰av人人做人人爽久久| 国产伦一二天堂av在线观看| 日韩av在线大香蕉| 一级黄色大片毛片| 久久久色成人| 久久欧美精品欧美久久欧美| 美女高潮的动态| 亚洲成人中文字幕在线播放| 欧美国产日韩亚洲一区| 亚洲自偷自拍三级| 少妇的逼水好多| 欧美性猛交╳xxx乱大交人| 搞女人的毛片| 色播亚洲综合网| 女同久久另类99精品国产91| 国产欧美日韩一区二区精品| 日日啪夜夜撸| 亚洲欧美精品综合久久99| 成人国产麻豆网| 日韩欧美国产在线观看| 国产男人的电影天堂91| 国产亚洲精品综合一区在线观看| 亚洲七黄色美女视频| 99久久九九国产精品国产免费| 国产精品久久视频播放| av在线蜜桃| 美女 人体艺术 gogo| 久久人人精品亚洲av| 一级av片app| 精品国产三级普通话版| 国产精品一区二区免费欧美| 国产一区二区在线av高清观看| 人人妻人人看人人澡| 观看美女的网站| 国产白丝娇喘喷水9色精品| 18禁裸乳无遮挡免费网站照片| 亚洲第一区二区三区不卡| 可以在线观看的亚洲视频| 99国产极品粉嫩在线观看| 亚洲精品456在线播放app | 免费观看精品视频网站| 国产高清激情床上av| 久久精品国产鲁丝片午夜精品 | 中文资源天堂在线| 狠狠狠狠99中文字幕| 国语自产精品视频在线第100页| 久久久久国内视频| 日韩人妻高清精品专区| 蜜桃亚洲精品一区二区三区| 九九久久精品国产亚洲av麻豆| 久久久久久久亚洲中文字幕| 露出奶头的视频| 亚洲,欧美,日韩| 欧美成人a在线观看| 中文亚洲av片在线观看爽| 国产人妻一区二区三区在| 亚洲av中文av极速乱 | 久久精品国产清高在天天线| 99久久精品一区二区三区| 中文字幕熟女人妻在线| 欧美不卡视频在线免费观看| 毛片女人毛片| av在线观看视频网站免费| 一卡2卡三卡四卡精品乱码亚洲| 国产私拍福利视频在线观看| 成人精品一区二区免费| 69av精品久久久久久| 日韩中文字幕欧美一区二区| 精品无人区乱码1区二区| 美女免费视频网站| 老师上课跳d突然被开到最大视频| 国产精品一区二区三区四区久久| 国产精品人妻久久久久久| 午夜久久久久精精品| 国产不卡一卡二| 中出人妻视频一区二区| 91麻豆精品激情在线观看国产| 成人欧美大片| 国产高清有码在线观看视频| 成年女人看的毛片在线观看| 很黄的视频免费| 日韩中字成人| 亚洲欧美日韩高清在线视频| 俄罗斯特黄特色一大片| 小说图片视频综合网站| 无人区码免费观看不卡| 午夜a级毛片| 久久久精品大字幕| 噜噜噜噜噜久久久久久91| 国产精品乱码一区二三区的特点| 国产精华一区二区三区| 久久欧美精品欧美久久欧美| 亚洲不卡免费看| 波多野结衣高清作品| 欧美日韩国产亚洲二区| 国产成人影院久久av| 亚洲精品亚洲一区二区| 国产精品久久久久久久久免| 国产精品一及| 欧美日本视频| 中国美女看黄片| 日韩一本色道免费dvd| 成熟少妇高潮喷水视频| 亚洲国产欧洲综合997久久,| 欧美激情国产日韩精品一区| 女人十人毛片免费观看3o分钟| 在线观看免费视频日本深夜| 欧美色视频一区免费| 日日啪夜夜撸| 国产av一区在线观看免费| 精品久久久久久久久av| 国产精品不卡视频一区二区| 精品久久久久久久末码| 国产三级中文精品| 国产精品久久电影中文字幕| 国产一区二区在线av高清观看| 一个人看视频在线观看www免费| 日本 欧美在线| 国产爱豆传媒在线观看| 老司机福利观看| 国产欧美日韩精品亚洲av| 久久精品国产亚洲av涩爱 | 嫩草影院新地址| 国产亚洲精品久久久久久毛片| 狂野欧美白嫩少妇大欣赏| 国内揄拍国产精品人妻在线| 99久久精品一区二区三区| 亚洲aⅴ乱码一区二区在线播放| 我的老师免费观看完整版| 91精品国产九色| 国产高清视频在线观看网站| 日本熟妇午夜| 国产欧美日韩一区二区精品| 国产真实伦视频高清在线观看 | 亚洲最大成人av| 又黄又爽又免费观看的视频| 精品一区二区三区视频在线| 久久国产乱子免费精品| 啦啦啦观看免费观看视频高清| 69人妻影院| 两个人的视频大全免费| 欧美另类亚洲清纯唯美| 久久久久久伊人网av| 日韩一区二区视频免费看| 色播亚洲综合网| 日韩一本色道免费dvd| 亚洲图色成人| 久久久久久久午夜电影| 白带黄色成豆腐渣| 午夜激情欧美在线| 香蕉av资源在线| 国产精品不卡视频一区二区| 男人的好看免费观看在线视频| 色在线成人网| 国产色婷婷99| 两个人视频免费观看高清| 一进一出抽搐gif免费好疼| 精品久久久久久成人av| 91久久精品国产一区二区三区| 亚洲专区国产一区二区| 夜夜夜夜夜久久久久| 五月玫瑰六月丁香| 久久久久国产精品人妻aⅴ院| 成人av在线播放网站| 亚洲美女视频黄频| 国产在线男女| 午夜福利在线观看吧| 免费看a级黄色片| 精品久久久久久久久久免费视频| 最近中文字幕高清免费大全6 | 久久久久九九精品影院| 午夜福利18| 日韩大尺度精品在线看网址| 一个人观看的视频www高清免费观看| 在线观看av片永久免费下载| 精品久久久久久久久久久久久| 欧美性感艳星| 欧美日韩黄片免| 特大巨黑吊av在线直播| 久久久久久久午夜电影| 熟女电影av网| 中出人妻视频一区二区| 女生性感内裤真人,穿戴方法视频| 欧美最新免费一区二区三区| 最新在线观看一区二区三区| 亚洲av成人av| 亚洲精品一卡2卡三卡4卡5卡| 桃色一区二区三区在线观看| 色吧在线观看| 赤兔流量卡办理| 国产伦人伦偷精品视频| 永久网站在线| 欧美高清性xxxxhd video| 国产一区二区激情短视频| 成人永久免费在线观看视频| 午夜福利在线观看吧| 神马国产精品三级电影在线观看| 中文字幕人妻熟人妻熟丝袜美| 国产伦人伦偷精品视频| 亚洲专区中文字幕在线| 国产大屁股一区二区在线视频| 一夜夜www| 91午夜精品亚洲一区二区三区 | 嫩草影院精品99| 夜夜看夜夜爽夜夜摸| 女的被弄到高潮叫床怎么办 | 一个人看的www免费观看视频| 久久久久性生活片| 免费高清视频大片| 在线观看66精品国产| 一级av片app| 丰满乱子伦码专区| 全区人妻精品视频| 校园春色视频在线观看| 乱人视频在线观看|