• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      變長CD-CAT中的曝光控制與終止規(guī)則*

      2015-01-24 09:11:55鄭蟬金邊玉芳
      心理學(xué)報(bào) 2015年1期
      關(guān)鍵詞:后驗(yàn)題庫測(cè)驗(yàn)

      郭 磊 鄭蟬金 邊玉芳

      1 引言

      近些年來, 國內(nèi)外對(duì)認(rèn)知診斷計(jì)算機(jī)化自適應(yīng)測(cè)驗(yàn)(Cognitive Diagnostic Computerized Adaptive Testing, CD-CAT)的研究越來越多。CD-CAT結(jié)合了認(rèn)知診斷理論和 CAT的雙重優(yōu)勢(shì), 比起傳統(tǒng)的測(cè)驗(yàn)形式, 它可以更精確、更迅速、更靈活地測(cè)量出被試的潛在知識(shí)結(jié)構(gòu), 也稱為知識(shí)狀態(tài)(Knowledge State, KS), 從而獲得被試在知識(shí)點(diǎn)上的掌握情況,為教育教學(xué)工作提供有針對(duì)性的指導(dǎo), 促進(jìn)學(xué)生的個(gè)性化發(fā)展。

      CD-CAT和傳統(tǒng)CAT的組成部分是相似的, 主要包括五部分:(1)參數(shù)已知的題庫; (2)初始項(xiàng)目選擇方法; (3)知識(shí)狀態(tài)或能力值的估計(jì); (4)選題策略;(5)終止規(guī)則(陳平, 2011)。由于CD-CAT發(fā)展較晚,截止目前, CD-CAT的研究主要集中在選題策略(Cheng, 2009, 2010; Wang, 2013; Wang, Chang, &Douglas, 2012; Xu, Chang, & Douglas, 2003; 毛秀珍, 辛濤, 2011)、項(xiàng)目曝光控制(Wang, Chang, &Huebner, 2011; 陳平, 2011; 毛秀珍, 辛濤, 2013)和屬性在線標(biāo)定(Chen, Xin, Wang, & Chang, 2012; 陳平, 辛濤, 2011; 汪文義, 丁樹良, 游曉鋒, 2011)方面, 對(duì)終止規(guī)則的研究相對(duì)較少。在查閱國內(nèi)外關(guān)于CD-CAT終止規(guī)則的文獻(xiàn)后發(fā)現(xiàn), 僅有Hsu, Wang和Chen (2013)專門對(duì)變長CD-CAT的終止規(guī)則進(jìn)行過模擬研究, 而大部分的研究還是圍繞選題策略、曝光控制和屬性在線標(biāo)定這三方面展開的。但關(guān)于這三方面的研究均是以定長(fixed-length) CAT的形式作為終止規(guī)則, 即固定每次測(cè)驗(yàn)的長度, 當(dāng)被試完成測(cè)驗(yàn)后, 根據(jù)被試的作答反應(yīng)估計(jì)知識(shí)狀態(tài)。定長CAT由于固定了測(cè)驗(yàn)長度, 施測(cè)較為方便,但對(duì)不同的被試會(huì)有不同的測(cè)量精度。一個(gè)更加合理的做法是, 應(yīng)該使得 CAT形式的測(cè)驗(yàn)對(duì)每個(gè)被試的測(cè)量精度相同, 這也正是自適應(yīng)測(cè)驗(yàn)的優(yōu)勢(shì)所在(Weiss & Kingsbury, 1984)。與定長CAT相對(duì)應(yīng)的終止規(guī)則為變長(variable-length)CAT, 變長 CAT能夠達(dá)到每個(gè)被試具有相同測(cè)量精度的目標(biāo), 具有更高的估計(jì)精度(Babcock & Weiss, 2009)。Kingsbury和 Houser (1993)的研究表明, 不管是在多級(jí)評(píng)分CAT還是0-1評(píng)分CAT中, 變長CAT在測(cè)驗(yàn)效率、能力估計(jì)的收斂和能力估計(jì)精度等方面均優(yōu)于定長 CAT。相對(duì)于定長 CAT, 變長 CAT更能體現(xiàn)出自適應(yīng)的特點(diǎn)和優(yōu)勢(shì), 因此, 開展這方面的研究非常有意義。在傳統(tǒng)CAT中, 一些學(xué)者對(duì)變長CAT的終止規(guī)則進(jìn)行了相應(yīng)的研究(Choi, Grady, & Dodd,2010; Dodd, 1990; Dodd, Koch, & De Ayala, 1993;Dodd, De Ayala, & Koch, 1995), 總體來講, 可以歸納成兩類:(1)不斷施測(cè)項(xiàng)目直到測(cè)量標(biāo)準(zhǔn)誤落在可接受范圍內(nèi), 或測(cè)驗(yàn)信息量達(dá)到某個(gè)預(yù)先設(shè)定的指標(biāo); (2)最小信息量終止規(guī)則, 即剩余題庫中所有項(xiàng)目的項(xiàng)目信息量都低于某個(gè)預(yù)設(shè)水平(陳平, 2011)。在CD-CAT中, Hsu等(2013)在Tatsuoka (2002)提出的基于后驗(yàn)概率序列方法的基礎(chǔ)上稍做改進(jìn), 提出了變長CD-CAT的終止規(guī)則(本文將其稱為HSU法,詳見第2部分)。其研究結(jié)果表明, 當(dāng)固定知識(shí)狀態(tài)后驗(yàn)分布的最大后驗(yàn)概率預(yù)設(shè)水平時(shí), 被試的模式判準(zhǔn)率會(huì)隨著第二大后驗(yàn)概率預(yù)設(shè)水平的降低而增大; 當(dāng)固定知識(shí)狀態(tài)后驗(yàn)分布的第二大后驗(yàn)概率預(yù)設(shè)水平時(shí), 被試的模式判準(zhǔn)率會(huì)隨著最大后驗(yàn)概率預(yù)設(shè)水平的升高而增大。這是對(duì)變長CD-CAT研究的一大推動(dòng)。

      與傳統(tǒng)CAT一樣, 在CD-CAT的實(shí)際應(yīng)用中,不容忽視的一個(gè)重要問題是項(xiàng)目曝光問題。Wang等(2011)在研究中指出, 當(dāng)前 CD-CAT著重于測(cè)量精度的實(shí)現(xiàn), 未考慮到項(xiàng)目曝光問題, 導(dǎo)致題庫使用極其不均勻, 優(yōu)質(zhì)題目曝光十分嚴(yán)重。盡管CD-CAT不是高風(fēng)險(xiǎn)測(cè)驗(yàn), 但當(dāng)認(rèn)知診斷結(jié)果與某些教學(xué)評(píng)價(jià)指標(biāo)掛鉤時(shí), CD-CAT就會(huì)變得具有高風(fēng)險(xiǎn), 測(cè)驗(yàn)安全將變得十分重要(毛秀珍, 辛濤,2013; 唐小娟, 丁樹良, 俞宗火, 2012)。而且CD-CAT的題庫建設(shè)比傳統(tǒng) CAT建設(shè)更加復(fù)雜耗時(shí), 除了像傳統(tǒng) CAT要考慮題目質(zhì)量等因素之外, 還要對(duì)每道題目測(cè)查的屬性(即Q矩陣)進(jìn)行詳細(xì)準(zhǔn)確的界定, 如果優(yōu)質(zhì)題目過度曝光, 將會(huì)導(dǎo)致資金和時(shí)間的嚴(yán)重浪費(fèi)。因此, 在CD-CAT中對(duì)項(xiàng)目曝光率進(jìn)行控制具有重要意義。

      正如前文所述, 僅有 Hsu等(2013)對(duì)變長 CDCAT的終止規(guī)則進(jìn)行過模擬研究, 更多的文獻(xiàn)僅在討論部分提出了研究變長 CD-CAT的重要性和必要性, 缺乏對(duì)具體方法的研究, 更缺乏在變長 CD-CAT下控制項(xiàng)目過度曝光的研究。例如, Cheng (2008)提出可以求取鄰近兩次后驗(yàn)分布的KL距離, 當(dāng)該距離小于預(yù)設(shè)水平時(shí)即可終止測(cè)驗(yàn)的方法。本文首先借鑒前文總結(jié)的傳統(tǒng)變長 CAT的終止規(guī)則, 提出了兩種變長CD-CAT的終止規(guī)則, 分別稱作屬性標(biāo)準(zhǔn)誤法(standard error of attribute, SEA)和二等分法(halving algorithm, HA)。然后從估計(jì)的相對(duì)穩(wěn)定性角度提出了鄰近后驗(yàn)概率之差法(difference of the adjacent posterior probability method, DAPP)。最后, 將相對(duì)穩(wěn)定性的思想與Tatsuoka (2002)提出的經(jīng)驗(yàn)性準(zhǔn)則相結(jié)合, 提出了混合法(hybrid method,HM) (參見本文第 2部分)。接下來以 DINA模型(Junker & Sijtsma, 2001)為例, 在未控制曝光和采用不同的曝光控制條件(參見本文第 3部分)下, 將四種新方法與HSU法以及Cheng提出的KL法進(jìn)行比較, 意在全面考察不同的變長CD-CAT終止規(guī)則在不同實(shí)驗(yàn)情景下的實(shí)際表現(xiàn)。

      2 變長CD-CAT終止規(guī)則

      本文所涉及的6種變長終止規(guī)則可以歸納為三大類:第一類是基于絕對(duì)標(biāo)準(zhǔn)的終止規(guī)則, 包括HSU法, SEA法和HA法; 第二類是基于相對(duì)標(biāo)準(zhǔn)的終止規(guī)則, 包括DAPP法和KL法; 第三類是結(jié)合兩種標(biāo)準(zhǔn)的終止規(guī)則, 即混合法。其中, HA法屬于項(xiàng)目水平(item-level)的終止規(guī)則, 即終止規(guī)則是從題目角度出發(fā)判斷的; 其余5種方法屬于被試水平(examinee-level)的終止規(guī)則, 即終止規(guī)則是從被試自身的角度判斷的。下面分別對(duì)本文涉及的6種方法進(jìn)行介紹。

      2.1 HSU法

      Tatsuoka (2002)給出了變長CD-CAT的經(jīng)驗(yàn)性準(zhǔn)則, 即被試屬于某種知識(shí)狀態(tài)的最大后驗(yàn)概率超過 0.8時(shí), 測(cè)驗(yàn)終止。Hsu等(2013)基于 Tatsuoka的思想, 進(jìn)一步提出了雙重標(biāo)準(zhǔn)的變長CD-CAT終止規(guī)則, 即當(dāng)被試屬于某個(gè)知識(shí)狀態(tài)的最大后驗(yàn)概率 P不低于某個(gè)預(yù)設(shè)水平(例如, 0.7), 并且第二大后驗(yàn)概率P不高于某個(gè)預(yù)設(shè)水平(例如, 0.1)時(shí),測(cè)驗(yàn)終止。

      2.2 屬性標(biāo)準(zhǔn)誤法(standard error of attribute method, SEA)

      其中, S E(a) 為屬性k的標(biāo)準(zhǔn)誤, k = 1 ,2,K ,K。P為掌握屬性k的邊際后驗(yàn)概率。SEA法的測(cè)驗(yàn)終止規(guī)則為:被試每做完一道題目, 便計(jì)算每個(gè)屬性的標(biāo)準(zhǔn)誤, 直到所有屬性的標(biāo)準(zhǔn)誤均小于預(yù)設(shè)水平時(shí)(例如, 0.2), 測(cè)驗(yàn)終止。

      2.3 二等分法(halving algorithm, HA)

      2.4 鄰近后驗(yàn)概率之差法(difference of the adjacent posterior probability method, DAPP)

      2.5 KL距離法

      2.6 混合法(hybrid method, HM)

      3 選用的認(rèn)知診斷模型、選題策略及曝光控制方法

      3.1 認(rèn)知診斷模型—DINA模型

      DINA模型屬于非補(bǔ)償模型, 每道題目只有兩個(gè)參數(shù):s參數(shù)和g參數(shù)。記二分變量 X為被試i對(duì)項(xiàng)目 j的作答反應(yīng)( X= 1 表示答對(duì), X=0表示答錯(cuò)), 知識(shí)狀態(tài)為a的被試在第j題上正確作答的概率可以表示為:

      3.2 選題策略

      根據(jù)已有研究結(jié)果表明, 后驗(yàn)加權(quán)的 KL信息量法(PWKL), 綜合后驗(yàn)加權(quán)和距離加權(quán)的混合KL信息量法(HKL)以及香農(nóng)熵法(SHE)均具有較高的屬性判準(zhǔn)率和模式判準(zhǔn)率(Cheng, 2009; 陳平,2011)。本文按照Hsu等(2013)的做法, 選取PWKL作為變長CD-CAT的選題策略。PWKL指標(biāo)的計(jì)算公式如下:

      it l知識(shí)狀態(tài)a的后驗(yàn)概率。運(yùn)用PWKL時(shí), 從剩余題庫中選擇具有最大 PWKL信息量的題目作為下一題施測(cè)。

      3.3 曝光控制方法

      Wang等(2011)將應(yīng)用于傳統(tǒng)CAT中的曝光控制方法進(jìn)行了修正, 并加入了重要參數(shù)(importance parameter), 提出了兩種適用于定長 CD-CAT的曝光控制方法:限制進(jìn)度法(Restrictive Progressive method, RP)和限制閾值法(Restrictive Threshold method, RT)。RP法(或RT法)通過運(yùn)用“進(jìn)度因子”1/xL- (x為已施測(cè)的題目數(shù)量, L為測(cè)驗(yàn)長度)來分配隨機(jī)成分(或閾值大小)和信息量在選題指標(biāo)中的權(quán)重, 從而達(dá)到控制項(xiàng)目過度曝光的目的。進(jìn)度因子1/xL-的含義為:在測(cè)驗(yàn)初始階段, 進(jìn)度因子接近于 1, 選題指標(biāo)的大小基本上由隨機(jī)成分的大小決定, 信息量的作用很小; 隨著測(cè)驗(yàn)的進(jìn)行, 進(jìn)度因子逐漸減小, 選題指標(biāo)主要由信息量的大小決定, 隨機(jī)成分的作用變得很小。顯然, 進(jìn)度因子的計(jì)算依賴于測(cè)驗(yàn)的固定長度 L, 因此, 這兩種方法只適用于定長CD-CAT情景。本文將 RP法和 RT法進(jìn)行修正(詳見 3.3.2和 3.3.3部分), 分別稱作修正的限制進(jìn)度法(Modified Restrictive Progressive,MRP)和修正的限制閾值法(Modified Restrictive Threshold, MRT), 使之適用于變長CD-CAT情景。同時(shí)考慮第三種項(xiàng)目曝光控制方法:簡(jiǎn)單控制法(simple), 并采用以上三種方法分別對(duì) CD-CAT測(cè)驗(yàn)進(jìn)行曝光控制。接下來, 分別對(duì)這三種項(xiàng)目曝光控制方法進(jìn)行介紹。

      3.3.1 simple法

      simple法是在 PWKL選題策略指標(biāo)前乘以一個(gè)曝光控制因子f (陳平, 2011), 計(jì)算公式如下:

      其中,r 為允許的最大項(xiàng)目曝光率,n為第h個(gè)項(xiàng)目當(dāng)前的被調(diào)用次數(shù), N為參加測(cè)驗(yàn)的總?cè)藬?shù)。

      3.3.2 MRP法

      在定長CD-CAT中, RP法中的進(jìn)度因子由已施測(cè)的題目數(shù)量和測(cè)驗(yàn)長度之間的關(guān)系描述。類似地,MRP法利用當(dāng)前最大后驗(yàn)概率和預(yù)設(shè)最大后驗(yàn)概率之間的關(guān)系來重新定義“進(jìn)度因子”。同時(shí), 根據(jù)Wang等(2011)的預(yù)實(shí)驗(yàn)結(jié)果, 只在RP方法中加入隨機(jī)成分并不足以保證能夠有效地控制所有過度曝光的項(xiàng)目。因此, 需要引入曝光控制因子f來將所有項(xiàng)目的曝光率控制在預(yù)設(shè)水平以下。MRP法對(duì)進(jìn)度因子進(jìn)行了重新刻畫, 同樣需要引入f對(duì)過度曝光項(xiàng)目進(jìn)行控制。于是, MRP法將在剩余題庫中選擇具有最大 M RP_ P WKL值的項(xiàng)目進(jìn)行施測(cè):

      其中, P為最大后驗(yàn)概率的預(yù)設(shè)水平, P為當(dāng)前屬于某個(gè)知識(shí)狀態(tài)的最大后驗(yàn)概率。S為剩余題庫, exp為項(xiàng)目 h當(dāng)前的曝光率。記 H為S中項(xiàng)目信息量最大值, 則隨機(jī)成分 R~ U ( 0,H)。b為平衡測(cè)量精度和項(xiàng)目曝光率的指標(biāo)。

      3.3.3 MRT法

      該方法根據(jù)選題策略(本文使用的是PWKL選題策略)從剩余題庫中選出符合要求的項(xiàng)目構(gòu)成候選項(xiàng)目集, 然后再根據(jù)一定原則從候選項(xiàng)目集中選出下一題(本文采用的是隨機(jī)方法)。符合要求的候選項(xiàng)目落在區(qū)間[max(P WKL ) - d,max(P WKL)]內(nèi)。其中, 區(qū) 間 長 度 d = [ max(P WKL ) - m in(P WKL)]×(1-P/ P)。值得注意的是, 當(dāng)使用 MRT法時(shí),作者發(fā)現(xiàn)有些曝光率大于 r的項(xiàng)目仍會(huì)被選中,這是因?yàn)?P的增長并非線性增長, 存在“折回”現(xiàn)象, 即下一階段的 P會(huì)小于上一階段的P。因此, 在使用MRT法時(shí), 需要將越界的項(xiàng)目從題庫中剔除, 保證參加測(cè)驗(yàn)的被試在今后測(cè)驗(yàn)中不再使用該題。

      4 方法

      本文采用Matlab (R2011b)自編所有程序, 進(jìn)行模擬實(shí)驗(yàn)。

      4.1 題庫及被試生成

      本研究題庫及被試的知識(shí)狀態(tài)采用陳平等(2011)的方法生成。陳平等(2011)在假設(shè)屬性之間相互獨(dú)立前提下, 給出了三種類型的基本Q矩陣, 分別稱作Q、Q和Q矩陣。然后對(duì)它們進(jìn)行簡(jiǎn)單操作后, 生成考察6個(gè)屬性, 共360道題目的題庫。題庫中的猜測(cè)參數(shù) g和失誤參數(shù) s從均勻分布U(0.05,0.25)中抽取。生成2000名被試并且假設(shè)每個(gè)被試掌握每個(gè)屬性的概率是0.5。

      4.2 模擬作答及KS估計(jì)方法

      運(yùn)用DINA模型計(jì)算被試i在題目j上的正確作答概率P, 然后從 (0,1)U 分布中產(chǎn)生一個(gè)隨機(jī)數(shù)m。如果P大于等于m, 則被試i在題目j上的作答反應(yīng)記為 1, 否則為 0。在被試進(jìn)入 CD-CAT時(shí), 首先隨機(jī)生成被試的知識(shí)狀態(tài), 在被試每作答完一道題目后, 運(yùn)用貝葉斯最大后驗(yàn)概率方法(Maximum A Posterior, MAP)估計(jì)被試的知識(shí)狀態(tài)。

      4.3 終止標(biāo)準(zhǔn)設(shè)置

      (1)P包含兩個(gè)水平:0.8和0.9; P包含兩個(gè)水平:0.002和0.003;

      (2)由于尚無e在不同終止規(guī)則下的研究, 因此,本文首先對(duì)e在不同終止規(guī)則下得到的測(cè)驗(yàn)使用情況和模式判準(zhǔn)率進(jìn)行了預(yù)研究(由于篇幅所限,未將預(yù)研究結(jié)果列出, 并不妨礙對(duì)本文的理解),以此確定出了不同終止規(guī)則下e合理的取值條件,具體為:在使用HM法、DAPP法和KL法時(shí), e包含 4個(gè)水平:0.05、0.01、0.005和 0.001; 在使用SEA 法時(shí), e包含 5個(gè)水平:0.3、0.25、0.2、0.1和0.05; 在使用HA法時(shí), e包含5個(gè)水平:0.1、0.05、0.01、0.005和0.001;

      (3)當(dāng)加入項(xiàng)目曝光控制因子時(shí), 固定r值為行業(yè)標(biāo)準(zhǔn)0.2, 2b=。同時(shí), 為了不讓變長CD-CAT的題目數(shù)量過長, 與實(shí)際情況更加貼近, 本文設(shè)置測(cè)驗(yàn)長度的上限為30題。

      綜上所述, 本研究共涉及 4種曝光控制條件(無控制、simple法、MRP法和MRT法)和6種終止規(guī)則。并且, 根據(jù)預(yù)研究確定出了每種終止規(guī)則下的終止標(biāo)準(zhǔn), 分別為:HSU法4個(gè)水平、SEA法5個(gè)水平、HA法5個(gè)水平、DAPP法4個(gè)水平、KL法4個(gè)水平和HM法4個(gè)水平。為了減小隨機(jī)誤差, 每種實(shí)驗(yàn)條件均實(shí)驗(yàn) 30次。最終共需進(jìn)行4′ ( 4 + 5 + 5 + 4 + 4 + 4 )′ 3 0 = 3 120次實(shí)驗(yàn)。

      4.4 評(píng)價(jià)指標(biāo)

      被試知識(shí)狀態(tài)估計(jì)精確性的指標(biāo)為模式判準(zhǔn)率(Pattern Correct Classification Rate, PCCR), 計(jì)算公式如下:

      PCCR考察被試屬性掌握模式(a =(a,a,K ,a))的返真性。假設(shè)測(cè)驗(yàn)共考察了K個(gè)屬性, 有N個(gè)被試參加了測(cè)驗(yàn), 發(fā)生失誤前(即理想狀態(tài)下)被試 i的屬性掌握向量記為 X, 但把該被試歸類為Z, 如果有 X=Z, 記 t= 1 ; 否則記 t= 0 。

      同時(shí), 還記錄了測(cè)驗(yàn)長度(平均數(shù), 標(biāo)準(zhǔn)差, 測(cè)驗(yàn)最長值和測(cè)驗(yàn)最短值)、未使用的題目數(shù)量等指標(biāo)來衡量不同終止規(guī)則表現(xiàn)的差異。

      5 結(jié)果與討論

      5.1 未加入曝光控制的實(shí)驗(yàn)結(jié)果與討論

      表1是在未加入曝光控制方法下, 6種終止規(guī)則的CD-CAT測(cè)驗(yàn)使用情況和模式判準(zhǔn)率結(jié)果。從表1可以看出, 6種變長終止規(guī)則均有很好的表現(xiàn),彼此差異不明顯??傮w來看, 隨著P的增大和e的減小, 測(cè)驗(yàn)平均用題量逐漸上升, 題庫中未使用的題目數(shù)量逐漸減小, PCCR值逐漸上升。這是因?yàn)榻K止規(guī)則越嚴(yán)格, 被試需要作答更多的題目才能達(dá)到終止標(biāo)準(zhǔn)。作答的題目數(shù)量越多, 被試能夠提供的信息量也就越多, 于是被試屬于某一知識(shí)狀態(tài)的可能性就越大。

      具體來看, 在HSU法中, 只控制P時(shí)的PCCR值要小于同時(shí)控制P和P的 PCCR值(0.8394<0.9968, 0.9219<0.9980), 未使用題目數(shù)量為前者多于后者, 但在平均用題量上, 前者要少于后者, 這跟 Hsu等(2013)的研究結(jié)果一致。在 HM 法中,e=0.001時(shí)的結(jié)果與 HSU法中同時(shí)控制條件下的實(shí)驗(yàn)結(jié)果(即表1中第8行與第2行, 第12行與第4行)相似; 當(dāng)e=0.05時(shí), 平均用題量分別增加了2.8 題(12.0–9.2)和 1.5題(12.9–11.4), 而 PCCR 值分別提升了 9.63% (0.9357–0.8394)和 3.67% (0.9586–0.9219)。在SEA法中, 當(dāng)e=0.3時(shí), PCCR值只有0.7963, 平均用題量為8.6題; 當(dāng)e=0.25時(shí), PCCR接近但仍然低于0.9, 但當(dāng)e=0.2時(shí), PCCR值上升至0.9672, 與HSU法的第三行結(jié)果相比, 平均用題量只多了1.3題(12.7–11.4), 而PCCR值上升了4.53%;當(dāng)e=0.05時(shí), PCCR高達(dá)0.9927, 與HSU法的第四行結(jié)果相似。在DAPP法中, 當(dāng)e=0.05時(shí), PCCR值非常低, 只有 0.3387, 平均用題量只作答了 5.6題; 但當(dāng)e=0.01時(shí), PCCR值立刻增長到 0.9885,平均用題量也上升到 15.9題, 當(dāng)e繼續(xù)下降至0.001時(shí), PCCR值高達(dá)0.9989, 并且題庫中未使用的題庫數(shù)量也由240題下降至102題。KL法以及HA法和DAPP (SEA)法結(jié)果類似, 故不再贅述。

      表 1 未加入曝光控制時(shí) 6種終止規(guī)則的判準(zhǔn)率和測(cè)驗(yàn)使用情況(30次平均結(jié)果)

      綜上, 本文提出的 4種新的終止規(guī)則以及 KL法在測(cè)驗(yàn)使用情況和被試模式判準(zhǔn)率上的表現(xiàn)均和HSU法相差無幾, 表明不論是基于項(xiàng)目水平(HA法)的終止規(guī)則, 還是基于被試水平(HSU, DAPP,HM, SEA和KL法)的終止規(guī)則, 均能有效地作為變長CD-CAT的終止規(guī)則加以使用。

      5.2 加入不同曝光控制方法的實(shí)驗(yàn)結(jié)果與討論

      表2至表4分別為加入simple、MRT和MRP曝光控制方法時(shí), 6種終止規(guī)則的模式判準(zhǔn)率和測(cè)驗(yàn)使用情況??傮w來看, 不論采用何種曝光控制方法, 均能很好地控制最大項(xiàng)目曝光率。在絕大部分的實(shí)驗(yàn)條件下, 按照精度終止的 PCCR (p)值要高于按照最大測(cè)驗(yàn)長度終止的 PCCR (max)值, 這與Hsu等(2013)的研究結(jié)果一致。隨著P的增大和e的減小, 平均測(cè)驗(yàn)長度逐漸增加, 題庫中未使用的題目數(shù)量逐漸減小(特別地, MRT和MRP法中的未使用題目數(shù)量均為0), PCCR (p)值逐漸增加, 按照最大測(cè)驗(yàn)長度終止的被試百分比(記作%max)也逐漸增加。在相同實(shí)驗(yàn)條件下, 采用不同的曝光控制方法, %max在各個(gè)終止規(guī)則下是不同的, 甚至在有些終止規(guī)則下判準(zhǔn)率也有所差異。例如, SEA法在simple條件下的%max最高為14.9 (當(dāng)e=0.05時(shí)),而在MRT和MRP條件下的%max最高分別為65.85和 45.60, 但三者的 PCCR (p)值相差無幾, 分別為0.9951, 0.9971和0.9975。HA法在simple條件下的%max最低, 其次是MRP條件下, 最高是MRT條件下, 但三者的PCCR (p)最大值均接近1。而另外一種情況是, KL法在MRP條件下的%max最低, 其次是simple條件下, 最高的%max出現(xiàn)在 MRT條件下, PCCR (p)最大值在simple和MRT條件下均高于 0.98, 但在 MRP條件下 PCCR (p)最大值只有0.7802。這些結(jié)果均表明不同的曝光控制方法會(huì)以不同的方式和程度影響各個(gè)終止規(guī)則的表現(xiàn)。

      具體來看, 在simple曝光控制下(見表2), 除了DAPP法中e=0.05時(shí), PCCR (p)只有0.3361, 6種終止規(guī)則的表現(xiàn)相差無幾。在MRT曝光控制下(見表3),DAPP法的表現(xiàn)變得很差, 當(dāng)e= 0.005時(shí), PCCR (p)值只有0.6438, 而當(dāng)e=0.001時(shí), PCCR (p)立刻上升至 0.9823, 但%max也已高達(dá) 47%左右, 表明DAPP法容易受到MRT方法的影響。在KL法中,有一個(gè)特例, 即當(dāng)e=0.05時(shí), PCCR (p)只有0.3658,但隨著e由0.01減小至0.001, PCCR (p)值由0.8395上升至0.9873。在SEA、HA和KL法中, 隨著e的減小, PCCR (p)值會(huì)逐漸升高, 但%max也逐漸上升, 作者分析其原因可能有兩點(diǎn):第一, e較小對(duì)應(yīng)著比較苛刻的終止條件, 即需要被試作答更多的題目才能滿足測(cè)驗(yàn)終止的要求; 第二, MRT法在項(xiàng)目曝光率的控制上存在過度控制(overcontrol)現(xiàn)象,即Max (r)值遠(yuǎn)遠(yuǎn)小于r= 0.2, 使得質(zhì)量較好的題目未能提供給被試作答, 從而增加了測(cè)驗(yàn)長度。在MRP曝光控制下(見表4), DAPP法的表現(xiàn)依然最差, 即使當(dāng)e=0.001時(shí), PCCR (p)只有0.6724。在該曝光控制條件下, KL法同樣變差, PCCR (p)最大值也只有0.7802。同樣地, MRP法在項(xiàng)目曝光率的控制上也存在過度控制現(xiàn)象, 但在相同的實(shí)驗(yàn)條件下,%max的比例要比MRT中的小, 而PCCR (p)要稍差于MRT法, 這與Wang等(2011)在定長CD-CAT下的研究結(jié)果一致。

      表2 simple曝光控制下6種終止規(guī)則的判準(zhǔn)率和測(cè)驗(yàn)使用情況(30次平均結(jié)果)

      特別地, 在部分實(shí)驗(yàn)條件下, 如表2至表4中粗體部分結(jié)果所示, PCCR (max)值要高于PCCR (p)值, 這與大部分實(shí)驗(yàn)結(jié)果存在矛盾, 這些矛盾的結(jié)果主要集中在屬于相對(duì)標(biāo)準(zhǔn)終止規(guī)則的DAPP法和KL法上, 其余從屬于絕對(duì)標(biāo)準(zhǔn)的終止方法并未出現(xiàn)。這是因?yàn)? 相較絕對(duì)標(biāo)準(zhǔn)終止規(guī)則, 相對(duì)標(biāo)準(zhǔn)終止規(guī)則并沒有設(shè)置一個(gè)低限臨界值(例如, 最大后驗(yàn)概率P至少要高于0.8), 會(huì)出現(xiàn)在P未達(dá)到0.8之前就符合前后之差低于預(yù)設(shè)標(biāo)準(zhǔn)(例如,e=0.01), 甚至可能在 P絕對(duì)水平很低時(shí)就已經(jīng)符合相對(duì)標(biāo)準(zhǔn)而終止測(cè)驗(yàn)的情況。例如, 圖1和圖2分別表示在 DAPP方法(e=0.05)下, 按照精度停止時(shí), 判別正確和判別錯(cuò)誤的兩個(gè)被試的 KS后驗(yàn)概率隨測(cè)驗(yàn)長度變化的趨勢(shì)圖。每個(gè)圖中共有2條折線, 分別表示2種知識(shí)狀態(tài)的后驗(yàn)概率。根據(jù)DAPP法的思想, 被試 A在作答完 18題后終止測(cè)驗(yàn)。其中, 盡管P在測(cè)驗(yàn)前期的上升有些波折, 但最終還是上升至0.95附近, 并和其他KS的后驗(yàn)概率拉開了差距。因此, 被試A的KS得到了正確的判別。而被試B在作答完4題后便終止了測(cè)驗(yàn), 表明此時(shí)鄰近的從屬于同一種知識(shí)狀態(tài)的P之差的絕對(duì)值小于了預(yù)設(shè)水平, 但 P的絕對(duì)水平仍然很低(只有0.07左右), 并且未能和其他KS的后驗(yàn)概率拉開差距, 因此, 被試B的KS未能得到正確的判別。

      表3 MRT曝光控制下6種終止規(guī)則的判準(zhǔn)率和測(cè)驗(yàn)使用情況(30次平均結(jié)果)

      圖3和圖4分別表示在DAPP方法(e=0.05)下,按照測(cè)驗(yàn)最大長度停止時(shí), 判別正確和判別錯(cuò)誤的兩個(gè)被試的 KS后驗(yàn)概率隨測(cè)驗(yàn)長度變化的趨勢(shì)圖。被試C在作答前24題時(shí), 有好幾條后驗(yàn)概率折線相互糾纏, 導(dǎo)致 KS仍未能分辨清楚。但在作答 25題之后, 其中一條折線迅速上升。當(dāng)作答至30題時(shí), 該后驗(yàn)概率已超過0.9, 并和其他KS拉開了差距, 因此, 被試C的 KS得到了正確的判別。而被試D在作答完30題后, P的絕對(duì)水平只有0.5左右, 沒有和其他KS拉開差距, 導(dǎo)致其KS未能得到正確的判別。

      表4 MRP曝光控制下6種終止規(guī)則的判準(zhǔn)率和測(cè)驗(yàn)使用情況(30次平均結(jié)果)

      圖1 被試A的后驗(yàn)概率變化圖

      圖2 被試B的后驗(yàn)概率變化圖

      圖3 被試C的后驗(yàn)概率變化圖

      圖4 被試D的后驗(yàn)概率變化圖

      上述結(jié)果和分析表明, 曝光控制方法會(huì)對(duì)相對(duì)標(biāo)準(zhǔn)終止規(guī)則的表現(xiàn)產(chǎn)生較大影響。

      6 結(jié)論與展望

      CD-CAT結(jié)合了認(rèn)知診斷理論和 CAT的雙重優(yōu)勢(shì), 比起傳統(tǒng)的測(cè)驗(yàn)形式, 它可以更精確、更迅速、更靈活地測(cè)量出被試的潛在知識(shí)結(jié)構(gòu), 從而獲得被試在知識(shí)點(diǎn)上的掌握情況, 為教育教學(xué)工作提供有針對(duì)性的指導(dǎo), 促進(jìn)學(xué)生的個(gè)性化發(fā)展。然而,當(dāng)前大部分的研究均是以定長 CD-CAT的形式進(jìn)行研究, 這是由于定長 CD-CAT固定了測(cè)驗(yàn)長度,施測(cè)較為方便, 但對(duì)不同的被試會(huì)有不同的測(cè)量精度。而自適應(yīng)測(cè)驗(yàn)的精髓應(yīng)該是使得CD-CAT測(cè)驗(yàn)對(duì)每個(gè)被試的知識(shí)狀態(tài)估計(jì)擁有相同的估計(jì)精度。與定長 CAT相對(duì)應(yīng)的終止規(guī)則為變長(variablelength) CAT, 變長 CAT能夠?qū)崿F(xiàn)每個(gè)被試具有相同測(cè)量精度的目標(biāo), 具有更高的估計(jì)精度(Babcock& Weiss, 2009)。

      本文提出了 4種新的變長 CD-CAT的終止規(guī)則:SEA法、HA法、DAPP法和HM法, 并在未采用曝光控制與采用不同的曝光控制條件下和HSU法以及KL法進(jìn)行了比較。研究結(jié)果表明本文提出的4種新方法能夠有效地作為變長CD-CAT的終止規(guī)則加以使用。通過模擬研究, 得出的主要結(jié)論有:(1)6種變長終止規(guī)則均有較好表現(xiàn), 并且相差無幾。終止條件越嚴(yán)格, 平均測(cè)驗(yàn)長度越長, 按最大測(cè)驗(yàn)長度終止的測(cè)驗(yàn)百分比越大, 模式判準(zhǔn)率越高。(2)當(dāng)未加入曝光控制時(shí), 4種新的終止規(guī)則均有較好表現(xiàn), 與HSU法十分接近, 并且隨著最大后驗(yàn)概率的增加或e的減小, 模式判準(zhǔn)率呈上升趨勢(shì), 平均測(cè)驗(yàn)長度逐漸增加, 題庫中未使用的題目數(shù)量逐漸減小, 但在題庫使用率方面均較差。(3)當(dāng)加入項(xiàng)目曝光控制時(shí), 6種變長終止規(guī)則下的題庫使用率有了極大的提升, 尤其是在MRT和MRP條件下, 題庫中未使用的題目數(shù)量為 0, 并且仍能保持較高的模式判準(zhǔn)率, 但會(huì)出現(xiàn)對(duì)項(xiàng)目曝光率過度控制的現(xiàn)象。不同的曝光控制方法對(duì)各個(gè)終止規(guī)則的影響是不同的, 其中, 相對(duì)標(biāo)準(zhǔn)終止規(guī)則極易受到曝光控制方法的影響。(4)結(jié)合加入曝光控制后的實(shí)驗(yàn)結(jié)果來看, SEA、HM以及HA法在各項(xiàng)指標(biāo)的表現(xiàn)與HSU法基本一致, 其次為KL法和DAPP法。

      本研究仍存在一些不足之處, 需要得到進(jìn)一步地改進(jìn)和完善。首先, SEA法未能直接對(duì)被試知識(shí)狀態(tài)的后驗(yàn)概率進(jìn)行操作, 而是通過控制每一個(gè)屬性的邊際概率來間接地實(shí)現(xiàn)對(duì)知識(shí)狀態(tài)后驗(yàn)概率的控制。根據(jù)目前的認(rèn)知診斷理論, 無法求取 KS的標(biāo)準(zhǔn)誤, 但屬性的邊際概率和 KS的后驗(yàn)概率之間存在著一定的數(shù)量關(guān)系, 屬性的邊際概率能夠確定KS后驗(yàn)概率的一個(gè)區(qū)間。未來的研究需要進(jìn)一步提出全新的認(rèn)知診斷理論, 推導(dǎo)出知識(shí)狀態(tài)的方差, 提出更加直接的CD-CAT變長終止規(guī)則。

      第二, 題庫中的猜測(cè)參數(shù)g和失誤參數(shù)s從均勻分布 U (0.05,0.25)中隨機(jī)抽取。實(shí)際上, 根據(jù)已有實(shí)證研究表明, 參數(shù) g和 s會(huì)有較大值出現(xiàn)(de la Torre, 2009; 張啟睿, 2012)。在參數(shù)波動(dòng)范圍增大的情況下, 6種變長終止規(guī)則的表現(xiàn)如何值得研究。

      第三, 本研究假設(shè)屬性之間是獨(dú)立結(jié)構(gòu)關(guān)系,并且固定屬性數(shù)量為6個(gè)。根據(jù)已有研究表明, 屬性層級(jí)還可以包括線型、收斂型、發(fā)散型及它們組合起來的更為復(fù)雜的結(jié)構(gòu)(Leighton, Gierl, & Hunka,2004), 而且, 實(shí)際中的屬性層級(jí)結(jié)構(gòu)確實(shí)是錯(cuò)綜復(fù)雜的, 并且考察的屬性數(shù)量通常會(huì)多于6個(gè)。當(dāng)屬性之間存在層級(jí)關(guān)系時(shí), 屬性之間是否可以通過互借信息的方式來提高判準(zhǔn)率, 值得研究。后續(xù)研究還需考察在不同的屬性層級(jí)結(jié)構(gòu)及不同的屬性數(shù)量下, 6種變長終止規(guī)則的表現(xiàn)。

      第四, 不同認(rèn)知診斷模型的假設(shè)是不同的, 大體可以分為補(bǔ)償模型和非補(bǔ)償模型。在不同類型的診斷模型下, 變長終止規(guī)則會(huì)有何表現(xiàn); 不同的題目上限設(shè)置(本文為 30題)是否會(huì)影響變長終止規(guī)則在判準(zhǔn)率和測(cè)驗(yàn)使用情況上的表現(xiàn), 是未來的一個(gè)研究方向。

      第五, 如何將一些非統(tǒng)計(jì)約束(Mao & Xin, 2013)納入到變長CD-CAT的考慮中也值得進(jìn)一步研究。

      Babcock, B., & Weiss, D. J. (2009). Termination criteria in computerized adaptive tests: Variable-length cats are not biased. In D. J. Weiss (Ed.). Paper presented at the Proceedings of the 2009 GMAC Conference on Computerized Adaptive Testing.

      Chen, P. (2011). Item replenishing in cognitive diagnostic computerized adaptive testing——based on DINA model (Unpublished doctoral dissertation). Beijing Normal University.

      [陳平. (2011). 認(rèn)知診斷計(jì)算機(jī)化自適應(yīng)測(cè)驗(yàn)的項(xiàng)目增補(bǔ)——以DINA模型為例 (博士學(xué)位論文). 北京師范大學(xué).]

      Chen, P., & Xin, T. (2011). Developing on-line calibration methods for cognitive diagnostic computerized adaptive testing. Acta Psychologica Sinica, 43(6), 710–724.

      [陳平, 辛濤. (2011). 認(rèn)知診斷計(jì)算機(jī)化自適應(yīng)測(cè)驗(yàn)中在線標(biāo)定方法的開發(fā). 心理學(xué)報(bào), 43(6), 710–724. ]

      Chen, P., Xin, T., Wang, C., & Chang, H. H. (2012). Online calibration methods for the DINA model with independent attributes in CD-CAT. Psychometrika, 77(2), 201–222.

      Cheng, Y. (2008). Computerized adaptive testing—new developments and applications (Unpublished doctoral dissertation).University of Illinois at Urbana-Champaign.

      Cheng, Y. (2009). When cognitive diagnosis meets computerized adaptive testing: CD-CAT. Psychometrika, 74(4), 619–632.

      Cheng, Y. (2010). Improving cognitive diagnostic computerized adaptive testing by balancing attribute coverage: The modified maximum global discrimination index method.Educational and Psychological Measurement, 70(6), 902–913

      Choi, S. W., Grady, M. W., & Dodd, B. G. (2010). A new stopping rule for computerized adaptive testing. Educational and Psychological Measurement, 70(6), 1–17.

      de la Torre, J. (2009). DINA model and parameter estimation:A didactic. Journal of Educational and Behavioral Statistics,34(1), 115–130.

      Dodd, B. G. (1990). The effect of item selection procedure and stepsize on computerized adaptive attitude measurement using the rating scale model. Applied Psychological Measurement, 14(4), 355–366.

      Dodd, B. G., Koch, W. R., & De Ayala, R. J. (1993).Computerized adaptive testing using the partial credit model: Effects of item pool characteristics and different stopping rules. Educational and Psychological Measurement,53(1), 61–77.

      Dodd, B. G., De Ayala, R. J., & Koch, W. R. (1995).Computerized adaptive testing with polytomous items.Applied Psychological Measurement, 19(1), 5–22.

      Hsu, C. L., Wang, W. C., & Chen, S. Y. (2013). Variablelength computerized adaptive testing based on cognitive diagnosis models. Applied Psychological Measurement,37(7), 563–582.

      Junker, B. W., & Sijtsma, K. (2001). Cognitive assessment models with few assumptions, and connections with nonparametric item response theory. Applied Psychological Measurement, 25(3), 258–272.

      Kingsbury, G. G., & Houser, R. L. (1993). Assessing the utility of item response models: Computerized adaptive testing.Educational Measurement: Issues and Practice, 12(1),21–27.

      Leighton, J. P., Gierl, M. J., & Hunka, S. M. (2004). The attribute hierarchy method for cognitive assessment: A variation on Tatsuoka's rule–space approach. Journal of Educational Measurement, 41(3), 205–237.

      Mao, X. Z., & Xin, T. (2011). Improvement of item selection method in cognitive diagnostic computerized adaptive testing. Journal of Beijing Normal University (Natural Science), 47(3), 326–330.

      [毛秀珍, 辛濤. (2011). 認(rèn)知診斷 CAT中選題策略的改進(jìn).北京師范大學(xué)學(xué)報(bào) (自然科學(xué)版), 47(3), 326–330. ]

      Mao, X. Z., & Xin, T. (2013). A comparison of item selection methods for controlling exposure rate in cognitive diagnostic computerized adaptive testing. Acta Psychologica Sinica,45(6), 694–703.

      [毛秀珍, 辛濤. (2013). 認(rèn)知診斷CAT中項(xiàng)目曝光控制方法的比較. 心理學(xué)報(bào), 45(6), 694–703. ]

      Mao, X. Z., & Xin, T. (2013). The application of the monte carlo approach to cognitive diagnostic computerized adaptive testing with content constraints. Applied Psychological Measurement, 37(6), 482–496.

      Rupp, A. A., Templin, J. L., & Henson, R. A. (2010).Diagnostic measurement: Theory, methods, and applications.Guilford Press.

      Tatsuoka, C. (2002). Data analytic methods for latent partially ordered classification models. Journal of the Royal Statistical Society: Series C (Applied Statistics), 51(3), 337–350.

      Tatsuoka, C., & Ferguson, T. (2003). Sequential classification on partially ordered sets. Journal of the Royal Statistical Society: Series B (Statistical Methodology), 65(1), 143–157.

      Tang, X. J., Ding, S. L., & Yu, Z. H. (2012). Application of computerized adaptive testing in cognitive diagnosis.Advances in Psychological Science, 20(4), 616–626.

      [唐小娟, 丁樹良, 俞宗火. (2012). 計(jì)算機(jī)化自適應(yīng)測(cè)驗(yàn)在認(rèn)知診斷中的應(yīng)用. 心理科學(xué)進(jìn)展, 20(4), 616–626. ]

      Templin, J. L., & Henson, R. A. (2006). Measurement of psychological disorders using cognitive diagnosis models.Psychological Methods, 11(3), 287–305.

      Wang, C. (2013). Mutual information item selection method in cognitive diagnostic computerized adaptive testing with short test length. Educational and Psychological Measurement,73(6), 1017–1035.

      Wang, C., Chang, H. H., & Douglas, J. (2012). Combining CAT with cognitive diagnosis: A weighted item selection approach. Behavior Research Methods, 44(1), 95–109.

      Wang, C., Chang, H. H., & Huebner, A. (2011). Restrictive stochastic item selection methods in cognitive diagnostic computerized adaptive testing. Journal of Educational Measurement, 48(3), 255–273.

      Wang, W. Y., Ding, S. L., & You, X. F. (2011). On-line item attribute identification in cognitive diagnostic computerized adaptive testing. Acta Psychologica Sinica, 43(8), 964–976.

      [汪文義, 丁樹良, 游曉鋒. (2011). 計(jì)算機(jī)化自適應(yīng)診斷測(cè)驗(yàn)中原始題的屬性標(biāo)定. 心理學(xué)報(bào), 43(8), 964–976. ]

      Weiss, D. J., & Kingsbury, G. (1984). Application of computerized adaptive testing to educational problems.Journal of Educational Measurement, 21(4), 361–375.

      Xu, X. L., Chang, H. H., & Douglas, J. (2003). A simulation study to compare CAT strategies for cognitive diagnosis.Paper presented at the annual meeting of the American Educational Research Association, Chicago.

      Zhang, Q. R. (2012). Cognitive diagnostic assessment preparation and diagnostic studies on primary school students’ chinese characters learning (Unpublished doctoral thesis). Beijing Normal University.

      [張啟睿. (2012). 小學(xué)低年級(jí)學(xué)生漢字學(xué)習(xí)的認(rèn)知診斷測(cè)驗(yàn)編制與診斷研究 (博士學(xué)位論文). 北京師范大學(xué).]

      Zhang, Q., & Ip, E. H. (2012). Generalized linear model for partially ordered data. Statistics in Medicine, 31, 56–68.

      猜你喜歡
      后驗(yàn)題庫測(cè)驗(yàn)
      “勾股定理”優(yōu)題庫
      “軸對(duì)稱”優(yōu)題庫
      基于對(duì)偶理論的橢圓變分不等式的后驗(yàn)誤差分析(英)
      “軸對(duì)稱”優(yōu)題庫
      “整式的乘法與因式分解”優(yōu)題庫
      貝葉斯統(tǒng)計(jì)中單參數(shù)后驗(yàn)分布的精確計(jì)算方法
      《新年大測(cè)驗(yàn)》大揭榜
      趣味(語文)(2018年7期)2018-06-26 08:13:48
      一種基于最大后驗(yàn)框架的聚類分析多基線干涉SAR高度重建算法
      兩個(gè)處理t測(cè)驗(yàn)與F測(cè)驗(yàn)的數(shù)學(xué)關(guān)系
      考試周刊(2016年88期)2016-11-24 13:30:50
      你知道嗎?
      老河口市| 郸城县| 宁蒗| 宝应县| 淮阳县| 通化市| 专栏| 滕州市| 枞阳县| 江阴市| 阜平县| 星子县| 宁乡县| 阿尔山市| 南溪县| 鄂伦春自治旗| 南通市| 江源县| 洛阳市| 汉沽区| 凌源市| 富裕县| 罗源县| 曲沃县| 洛南县| 南澳县| 绵竹市| 长垣县| 城固县| 屏边| 昌邑市| 玉屏| 郓城县| 长子县| 建昌县| 济阳县| 许昌市| 天等县| 毕节市| 简阳市| 当涂县|