• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      大樣本條件下概率閾限的改變對(duì)參數(shù)估計(jì)的影響

      2021-01-13 07:28:26王風(fēng)
      考試研究 2021年1期
      關(guān)鍵詞:閾限樣本量參數(shù)估計(jì)

      王風(fēng)

      Rasch 模型是丹麥數(shù)學(xué)家George Rasch 在1960年提出的單參數(shù)IRT 模型。 根據(jù)Rasch 模型原理,特定個(gè)體對(duì)特定題目作出特定反應(yīng)的概率可以用個(gè)體能力與題目難度的簡(jiǎn)單函數(shù)來(lái)表示, 即考生能否答對(duì)某題取決于題目難度及考生能力[1]:

      其中,βn表示考生n 的能力參數(shù),δi表示題目i的難度參數(shù)。

      當(dāng)題目難度比考生能力高時(shí), 考生傾向于采取猜答策略,尤其是水平較低的考生遇到較難題目時(shí),往往會(huì)猜答[2]??忌芰εc題目難度的差異大于2 logits時(shí),考生會(huì)采取猜答策略,此時(shí)正確回答的概率僅為12%[3-4]。 考生猜測(cè)作答不是題目參數(shù)而是有必要消除的干擾, 作答反應(yīng)中存在猜測(cè)作答會(huì)影響參數(shù)估計(jì)的準(zhǔn)確性[5]。 因此,消除Rasch 模型中因考生猜測(cè)作答導(dǎo)致的統(tǒng)計(jì)偏差,能夠提高參數(shù)估計(jì)的準(zhǔn)確性,從而對(duì)考生能力做出更有效的推斷。

      一、ARRG 法理論闡述

      根據(jù)Rasch 模型,在0-1 計(jì)分的題目中,若考生能力和題目難度相等,考生答對(duì)題目的概率等于0.5[6]。在4 選1 的題目中,若考生答對(duì)某題的概率小于隨機(jī)猜測(cè)率(0.25),則有理由懷疑考生采取了猜答策略。

      為降低Rasch 模型在估計(jì)題目難度時(shí)受考生猜測(cè)作答影響而產(chǎn)生的誤差,Waller 提出了ARRG 法(Estimates of Ability Removing Random Guessing),經(jīng)過(guò)Andrich 等人不斷深入的研究,形成了相對(duì)完善的研究步驟[7-11]。

      首先,ARRG 法采用Rasch 模型根據(jù)收集到的所有作答進(jìn)行參數(shù)估計(jì),稱(chēng)為原始分析(Original Analysis)。 其次,基于考生答對(duì)題目的概率與設(shè)定的概率閾限間的比較,當(dāng)答對(duì)概率低于設(shè)定的概率閾限時(shí),無(wú)論考生是否答對(duì)該題,均將此作答標(biāo)記為缺失值,重新進(jìn)行參數(shù)估計(jì), 此過(guò)程稱(chēng)為裁剪分析(Tailored Analysis)。 為了使兩次分析的題目難度分布有相同的原點(diǎn), 要設(shè)置參數(shù)估計(jì)的約束條件, 即錨分析(Anchored Analysis)。

      考生猜測(cè)作答影響題目難度和考生能力估計(jì)的準(zhǔn)確性。題目難度估計(jì)方面,大多數(shù)題目的參數(shù)估計(jì)均受考生猜測(cè)作答的影響,尤其是較難的題目。因?yàn)轭}目的平均難度為0, 較難題目的難度被低估使簡(jiǎn)單題目的難度被高估[12,13]。 考生能力估計(jì)方面,較難題目的難度被低估使水平較高的考生能力被低估。Andrich 等人研究發(fā)現(xiàn),考生猜測(cè)作答的存在低估了學(xué)生在學(xué)校教育中的進(jìn)步, 用ARRG 法消除考生猜測(cè)作答的影響后,各個(gè)年級(jí)的成長(zhǎng)率都有所增加,這具有重要的教育意義[14]。

      Glenn 模擬了考生猜測(cè)作答在不同概率閾限(0、0.15、0.20、0.25、0.30、0.35)、 不同樣本量(250、500、1000、2000)、不同猜測(cè)度(0、0.1、0.2、0.3)和不同難度條件下對(duì)難度估計(jì)的影響。 結(jié)果發(fā)現(xiàn):(1)樣本量比其他因素更能解釋參數(shù)估計(jì)標(biāo)準(zhǔn)誤的變化,當(dāng)樣本量較大時(shí),所有條件下的標(biāo)準(zhǔn)誤都要小得多;(2)較大的概率閾值通常與偏差減少和標(biāo)準(zhǔn)誤增加有關(guān)[15]。Glenn 研究的樣本量最大為2000, 隨著概率閾限的增大,被標(biāo)記為缺失值的作答也增加,用來(lái)估計(jì)參數(shù)的作答減少。 因此,假設(shè)當(dāng)樣本量較大時(shí),標(biāo)準(zhǔn)誤較??;當(dāng)樣本量較小時(shí),標(biāo)準(zhǔn)誤會(huì)變大。在這種思路下,嘗試更大的樣本量在不同概率閾限下對(duì)參數(shù)變化的影響是有意義的。

      本文在Glenn 研究的基礎(chǔ)上進(jìn)一步拓寬思路,研究大樣本情況下概率閾限的改變對(duì)參數(shù)估計(jì)的影響。 研究目的是通過(guò)觀(guān)察不同條件下題目難度估計(jì)的變化及其標(biāo)準(zhǔn)誤(SE)和數(shù)據(jù)-模型的擬合優(yōu)度,探索不同樣本量在不同概率閾限條件下對(duì)難度估計(jì)的影響。

      ARRG 法是Rasch 模型框架下提高參數(shù)估計(jì)準(zhǔn)確性的有效手段, 對(duì)其結(jié)果的解釋又是其中重要的一環(huán)。 在小樣本(250、500、1000、2000)情況下,樣本量比其他因素更能解釋參數(shù)估計(jì)標(biāo)準(zhǔn)誤的變化,即參數(shù)估計(jì)標(biāo)準(zhǔn)誤的變化可能是由樣本量引起的。 若換做大樣本, 參數(shù)估計(jì)標(biāo)準(zhǔn)誤的變化程度如何? 同樣,在大樣本情況下,較大的概率閾限是否也伴隨著參數(shù)變化程度的減小和標(biāo)準(zhǔn)誤的增加? 本文試圖回答以上問(wèn)題, 以便為使用ARRG 法時(shí)根據(jù)樣本量合理解釋參數(shù)變化的意義提供參考。

      二、研究方法

      數(shù)據(jù)來(lái)源為某考試的作答數(shù)據(jù), 共120 道選擇題,每題4 個(gè)選項(xiàng),僅有1 個(gè)正確答案,均為0-1 計(jì)分題目。 選擇Winsteps 軟件作為分析工具。

      從總體中有放回地抽取6 個(gè)樣本, 樣本量分別為2000、5000、7000、10000、20000、30000。 表1 給出了6 個(gè)樣本的均值、標(biāo)準(zhǔn)差、偏度和峰度,每個(gè)樣本與總體的四項(xiàng)指標(biāo)非常接近, 說(shuō)明樣本對(duì)總體具有一定的代表性。

      表1 總體和樣本的統(tǒng)計(jì)指標(biāo)

      設(shè)置5 個(gè)概率閾限,分別為:0.10、0.15、0.20、0.25、0.30, 答對(duì)概率低于概率閾限的作答會(huì)被標(biāo)記為缺失值。 裁剪分析中使用的答對(duì)概率來(lái)源于原始分析。 原始分析中,原始作答包含考生猜測(cè)作答,答對(duì)概率的估計(jì)受考生猜測(cè)作答的影響,使答對(duì)概率偏高。 因此,裁剪分析中,設(shè)置概率閾限高于隨機(jī)猜測(cè)率(0.25),可以更好地消除因考生猜測(cè)作答對(duì)參數(shù)估計(jì)的影響。

      為使原始分析和裁剪分析的題目難度分布具有相同的原點(diǎn), 將錨分析中參數(shù)估計(jì)的約束條件設(shè)置為難度接近0 的5 道題目的難度為0。

      結(jié)果的檢驗(yàn)標(biāo)準(zhǔn)有兩個(gè)。 一是數(shù)據(jù)-模型的擬合:根據(jù)Rasch 模型原理,考生答對(duì)題目的概率僅由題目難度和考生能力決定。 原始作答因包含考生猜測(cè)作答導(dǎo)致數(shù)據(jù)-模型擬合性差。 因此假設(shè),消除考生猜測(cè)作答對(duì)參數(shù)估計(jì)的影響后,數(shù)據(jù)-模型的擬合優(yōu)度將提高。 從三個(gè)方面檢驗(yàn)數(shù)據(jù)-模型擬合優(yōu)度:個(gè)人擬合、題目擬合和χ2統(tǒng)計(jì)量。 二是題目難度估計(jì)的變化及其標(biāo)準(zhǔn)誤(SE)。

      三、結(jié)果

      (一)數(shù)據(jù)-模型擬合優(yōu)度

      從三個(gè)方面檢驗(yàn)數(shù)據(jù)-模型擬合優(yōu)度:個(gè)人擬合、題目擬合和χ2統(tǒng)計(jì)量。個(gè)人擬合是指考生作答與模型預(yù)期的擬合程度;題目擬合是指題目與模型預(yù)期的擬合程度;χ2統(tǒng)計(jì)量則是檢驗(yàn)Rasch 模型擬合優(yōu)度的傳統(tǒng)方法。 通過(guò)分析結(jié)果發(fā)現(xiàn),在樣本量相同的條件下,隨著概率閾限的增大,個(gè)人擬合的程度增加,不擬合(Misfit)的考生數(shù)目下降,同時(shí)各個(gè)樣本均在概率閾限為0.25 時(shí), 不擬合的考生數(shù)目最小。 不同條件下,Winsteps 結(jié)果中均未發(fā)現(xiàn)不擬合的題目。 同時(shí),題目的未加權(quán)均方擬合統(tǒng)計(jì)量(Outfit MNSQ)和加權(quán)均方擬合統(tǒng)計(jì)量(Infit MNSQ)值均在0.87~1.11 范圍內(nèi),擬合程度比較好。 當(dāng)樣本量增加時(shí), 標(biāo)準(zhǔn)化殘差均方(Standardized as a Z-Score,ZSTD) 值隨之變大,但ZSTD 統(tǒng)計(jì)量受樣本容量影響較大,故不作為參考。

      χ2和自由度有關(guān),因此隨著樣本量的增加,χ2增大。但在樣本量相同的條件下,χ2隨著概率閾限的增大而減小。不同條件下χ2對(duì)應(yīng)的P 值均為0.0000。χ2統(tǒng)計(jì)量的變化和個(gè)人擬合指標(biāo)證明, 經(jīng)過(guò)ARRG 法處理的考生作答確實(shí)提高了數(shù)據(jù)-模型擬合優(yōu)度,消除了考生猜測(cè)作答對(duì)題目參數(shù)估計(jì)的影響。

      圖1 不同條件下χ2 的變化

      (二)難度變化

      比較不同樣本量、 不同概率閾限對(duì)難度估計(jì)的影響可以發(fā)現(xiàn), 難度的變化主要受概率閾限的影響,受樣本量的影響較小,下面以?xún)蓚€(gè)樣本為例說(shuō)明。 圖2、圖3 分別是樣本1、6 的題目難度估計(jì)偏差。 觀(guān)察圖2、圖3 可以看到,難度較低的題目經(jīng)過(guò)調(diào)整后難度更低,但變化程度較小,概率閾限較小條件下幾乎不發(fā)生變化;隨著難度的增加,較難題目調(diào)整后難度更大,且變化程度較大,概率閾限越大,變化越劇烈。

      圖2 樣本1 的題目難度估計(jì)偏差

      圖3 樣本6 的題目難度估計(jì)偏差

      (三)標(biāo)準(zhǔn)誤

      標(biāo)準(zhǔn)誤代表了參數(shù)估計(jì)的精度如何, 以下分別計(jì)算了不同條件下難度估計(jì)的標(biāo)準(zhǔn)誤的均值及難度不同題目在不同條件下標(biāo)準(zhǔn)誤的變化。

      觀(guān)察圖4 可知,無(wú)論概率閾限如何變化,隨著樣本量的增大,難度估計(jì)的標(biāo)準(zhǔn)誤逐漸減小,且標(biāo)準(zhǔn)誤變化的全距逐漸縮小。 當(dāng)樣本量為30000(S6)時(shí),標(biāo)準(zhǔn)誤變化的全距僅為0.009。 在不同的樣本中,隨著概率閾限的增加,標(biāo)準(zhǔn)誤的變化趨勢(shì)有相似之處。概率閾限為0 時(shí)的標(biāo)準(zhǔn)誤最小,概率閾限越大,標(biāo)準(zhǔn)誤越大,概率閾限為0.3 時(shí),標(biāo)準(zhǔn)誤最大。 值得注意的是,樣本量為2000(S1)時(shí)的標(biāo)準(zhǔn)誤整體比較大,在概率閾限為0.3 時(shí),參數(shù)估計(jì)的標(biāo)準(zhǔn)誤最大,而當(dāng)樣本量增加到5000(S2)時(shí),標(biāo)準(zhǔn)誤整體下降比較明顯。因此, 使用ARRG 法時(shí), 若對(duì)參數(shù)估計(jì)的精度有要求,需要盡量提供較大的樣本量。

      均值代表了標(biāo)準(zhǔn)誤變化的整體趨勢(shì)。 難度不同的題目受考生猜測(cè)作答的影響不同, 經(jīng)過(guò)ARRG 法處理的結(jié)果也有所不同。 為了觀(guān)察不同難度題目標(biāo)準(zhǔn)誤的變化,以下抽取3 道題目分別說(shuō)明。

      圖5 為3 道難度不同題目的標(biāo)準(zhǔn)誤變化, 代表了難度變化的2 種類(lèi)型。 32、39、110 題的難度依次增大, 分別是-2.36、0.09 和1.94。 觀(guān)察圖5 可以看到,32 題和39 題的標(biāo)準(zhǔn)誤變化全距不大;110 題的標(biāo)準(zhǔn)誤隨著樣本量的增大而減小, 隨著概率閾限的增加而增加,與標(biāo)準(zhǔn)誤的均值變化趨勢(shì)相似,變化比較劇烈。在32 題和39 題標(biāo)準(zhǔn)誤的變化中,概率閾限為0.3 時(shí),標(biāo)準(zhǔn)誤的變化出現(xiàn)了小的波動(dòng),說(shuō)明概率閾限較大時(shí)被標(biāo)記為缺失值的作答增加, 用于估計(jì)參數(shù)的信息減少。因此,對(duì)高風(fēng)險(xiǎn)測(cè)驗(yàn)進(jìn)行處理時(shí)要盡量采用大樣本及合適的概率閾限, 以獲得較高的參數(shù)估計(jì)精度。 難度較小的題目受考試猜測(cè)作答的影響較小,被標(biāo)記為缺失值的作答較少,因此標(biāo)準(zhǔn)誤的變化不明顯;同時(shí)隨著樣本量的增加,標(biāo)準(zhǔn)誤也隨之降低。難度較大的題目更容易引入猜測(cè)作答,概率閾限設(shè)置的越高,被標(biāo)記為缺失值的作答越多,標(biāo)準(zhǔn)誤越大,小樣本的變化尤為明顯。

      圖4 不同樣本量及概率閾限條件下難度估計(jì)標(biāo)準(zhǔn)誤均值的變化

      圖5 不同難度題目標(biāo)準(zhǔn)誤的變化

      四、結(jié)論

      考生猜測(cè)作答是一種偏離測(cè)驗(yàn)構(gòu)念的行為,可以通過(guò)Rasch 模型參數(shù)變化來(lái)檢驗(yàn),并將與其相關(guān)的問(wèn)題最小化。ARRG 法是Rasch 模型框架下消除考生猜測(cè)作答對(duì)參數(shù)估計(jì)的影響、提高參數(shù)估計(jì)準(zhǔn)確性的有效手段。本文的研究目的是觀(guān)察大樣本情況下概率閾限的改變對(duì)參數(shù)估計(jì)的影響。 從兩個(gè)角度驗(yàn)證ARRG 法的有效性:不同樣本量、不同概率閾限下數(shù)據(jù)-模型的擬合優(yōu)度、難度估計(jì)的變化及其標(biāo)準(zhǔn)誤。

      個(gè)人擬合優(yōu)度主要受樣本量的影響, 樣本量的增加伴隨著異常作答的增多, 不擬合的考生數(shù)目增加; 但在樣本量相同的條件下, 隨著概率閾限的增大,個(gè)人擬合優(yōu)度增加,不擬合的考生數(shù)目下降,在概率閾限為0.25 時(shí)降到最小值。 χ2和個(gè)人擬合的變化趨勢(shì)相似,隨概率閾限的增加而降低。個(gè)人擬合優(yōu)度的提高和χ2的降低說(shuō)明消除考生猜測(cè)作答能明顯提高數(shù)據(jù)-模型的擬合優(yōu)度。

      難度估計(jì)的變化主要受題目自身難度的影響,根據(jù)題目難度的不同, 難度估計(jì)的變化趨勢(shì)分為兩類(lèi):簡(jiǎn)單題目的難度變小,但整體變化不大;較難題目的難度變大,且隨著概率閾限的增加,難度變化程度增加。 難度估計(jì)的變化受樣本量的影響較小,不同樣本量的題目難度變化趨勢(shì)相似。 標(biāo)準(zhǔn)誤的變化主要受樣本量的影響,樣本量較小時(shí)(2000),標(biāo)準(zhǔn)誤隨概率閾限的變化有較大波動(dòng);樣本量逐漸增加時(shí),即使設(shè)置較大的概率閾限(0.3),標(biāo)準(zhǔn)誤的變化也很小。

      大樣本條件下, 概率閾限的改變主要引起題目難度估計(jì)的變化。概率閾限越大,題目難度估計(jì)的變化程度越大,但不會(huì)引起標(biāo)準(zhǔn)誤的劇烈波動(dòng),相反,標(biāo)準(zhǔn)誤處于比較平穩(wěn)的水平。因此,在高風(fēng)險(xiǎn)測(cè)試中,若要消除考生猜測(cè)作答對(duì)參數(shù)估計(jì)的影響,應(yīng)該盡量使用大樣本,以保證調(diào)整過(guò)程中參數(shù)估計(jì)的精度。同時(shí),在使用ARRG 法時(shí),概率閾限的設(shè)置不是越大越好,個(gè)人擬合指標(biāo)顯示,不擬合的考生數(shù)目在概率閾限為0.25 時(shí)最低,但χ2統(tǒng)計(jì)量保持下降趨勢(shì),這就需要根據(jù)實(shí)際情況選擇合適的概率閾限。通常會(huì)選擇略高于0-1 計(jì)分題目隨機(jī)猜測(cè)率的值作為概率閾限。

      猜你喜歡
      閾限樣本量參數(shù)估計(jì)
      基于新型DFrFT的LFM信號(hào)參數(shù)估計(jì)算法
      醫(yī)學(xué)研究中樣本量的選擇
      航空裝備測(cè)試性試驗(yàn)樣本量確定方法
      Sample Size Calculations for Comparing Groups with Binary Outcomes
      Logistic回歸模型的幾乎無(wú)偏兩參數(shù)估計(jì)
      過(guò)渡禮儀視闊下的少先隊(duì)入隊(duì)儀式分析
      基于向前方程的平穩(wěn)分布參數(shù)估計(jì)
      儀式過(guò)程理論“閾限”范疇中的身體展演研究
      基于競(jìng)爭(zhēng)失效數(shù)據(jù)的Lindley分布參數(shù)估計(jì)
      象牙塔與生活世界的閾限呈現(xiàn)
      高教探索(2016年3期)2016-03-30 13:13:14
      方城县| 海晏县| 盐亭县| 红河县| 绩溪县| 贵溪市| 四会市| 白河县| 万全县| 荆门市| 县级市| 湛江市| 阳朔县| 嘉善县| 娱乐| 刚察县| 福鼎市| 随州市| 唐海县| 镶黄旗| 加查县| 琼结县| 黄陵县| 灌云县| 防城港市| 泰宁县| 集贤县| 曲阳县| 广饶县| 蒲城县| 海林市| 吉水县| 海兴县| 永仁县| 福清市| 金秀| 武功县| 隆昌县| 金湖县| 曲靖市| 蒲江县|