• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      全國英語等級考試錨測驗非等組設(shè)計中樣本量對等值結(jié)果的影響

      2017-09-12 03:36:17景春麗馬潔章建石
      中國考試 2017年6期
      關(guān)鍵詞:教育部考試中心等值樣本量

      景春麗 馬潔 章建石

      (教育部考試中心,北京 100084)

      全國英語等級考試錨測驗非等組設(shè)計中樣本量對等值結(jié)果的影響

      景春麗 馬潔 章建石

      (教育部考試中心,北京 100084)

      本研究采用錨測驗非等組設(shè)計,探究了錨測驗樣本量的變化對等值結(jié)果的影響。數(shù)據(jù)來自全國英語等級考試(PETS),使用以Bigsteps為核心的自主改進(jìn)軟件,基于Rasch模型估計題目參數(shù)。為了探究等值結(jié)果對合格分?jǐn)?shù)線的影響,本研究對比了不同樣本量錨測驗參數(shù)估計值與錨題參數(shù)給定值的差異,并對不同樣本量錨測驗得出的實考試卷等值結(jié)果與最大樣本量錨測驗得出的實考試卷等值結(jié)果進(jìn)行了差異分析。結(jié)果表明,當(dāng)錨測驗樣本量達(dá)到150時,等值結(jié)果比較穩(wěn)定。這一結(jié)果表明,PETS設(shè)定的300人左右的錨測驗樣本量是合理的。

      錨測驗非等組設(shè)計;項目反應(yīng)理論;單參數(shù)模型;等值

      1 問題提出

      全國英語等級考試(Public English Test System,簡稱PETS)是教育部考試中心設(shè)計并負(fù)責(zé)的全國性英語水平考試體系。除PETS-4外,其他級別的考試每半年舉行一次,從這個角度來看,PETS為當(dāng)前新高考英語科一年兩考的改革在考試技術(shù)層面進(jìn)行了多年的探索。在一年兩考中,等值技術(shù)至關(guān)重要。PETS所采用的等值技術(shù)是錨測驗非等組設(shè)計,設(shè)定進(jìn)行錨測驗等值的樣本量為300人左右。在實際操作過程中,很多情況下由于抽樣的限制,樣本量往往達(dá)不到300人。那么在這種情況下,等值結(jié)果是否精確?基于以上實際情況,本研究探究了錨測驗樣本量對PETS等值結(jié)果及其穩(wěn)定性的影響。

      測驗等值是將不同量尺的測驗分?jǐn)?shù)轉(zhuǎn)換到同一量尺的測量技術(shù)。具體地說,測驗等值是將測量同一心理特質(zhì)的多種測驗形式的測驗分?jǐn)?shù)轉(zhuǎn)換成相同標(biāo)尺上的分?jǐn)?shù),進(jìn)而使得這些不同測驗形式的分?jǐn)?shù)之間具有可比性的過程[1]。在主要以標(biāo)準(zhǔn)參照方式進(jìn)行分?jǐn)?shù)解釋的能力水平認(rèn)證考試和職業(yè)資格考試中,分?jǐn)?shù)的可比性是考試質(zhì)量的重要保證[2]。測驗等值中的一項重要任務(wù)就是控制等值誤差,使得誤差的大小不會影響對等值結(jié)果的應(yīng)用,以及在等值基礎(chǔ)上開展的后續(xù)工作。控制測驗等值誤差的研究包括分析等值誤差性質(zhì),探清等值誤差各種可能的來源,設(shè)計各種控制等值誤差的技術(shù)與方法等[3]。基于IRT的分?jǐn)?shù)等值是在估計出參數(shù)的基礎(chǔ)上進(jìn)行轉(zhuǎn)換,等值結(jié)果的穩(wěn)定性與考生樣本量密不可分。在假定考生群體沒有變化的情況下,增大樣本量可以保證參數(shù)估計的穩(wěn)定性和準(zhǔn)確性,從而可以有效地降低隨機誤差,因此樣本量是影響隨機誤差最直接的指標(biāo)之一。國內(nèi)外研究證明,增加樣本量可以增大等值的精確度,降低隨機誤差。Kolen和Brennan認(rèn)為,在傳統(tǒng)等值和線性等值中,每個測驗通常需要400個樣本,等百分位等值需要略多于1 500的樣本量[4]。馬洪超的研究表明,考生樣本量為2 000左右時,各種方案的等值結(jié)果均比較穩(wěn)定,考生樣本量進(jìn)一步增大時,等值誤差不降反增[5]。Victor K.Heh研究了小樣本在隨機等組設(shè)計中對等值結(jié)果精確性的影響[6]。Fitzpatrick和Yen討論了不同樣本量對等值結(jié)果可信度的影響,分析了樣本量為200、500、1 000的結(jié)果,發(fā)現(xiàn)樣本量為200時,不能夠估計出比較精確的題目參數(shù)[7]。Motika詳細(xì)討論了樣本量為25、50、100、200時對線性等值結(jié)果精確性的影響[8]。Eid研究了樣本量對等值結(jié)果的影響,表明共同題設(shè)計在不同的樣本量下和兩個測試難度下均具有精確性和有效性,還發(fā)現(xiàn)等組設(shè)計在樣本量為200、400、800的情況下均不精確[9]。不同形式的測驗等值對樣本量的要求也不一樣,等值實踐中需針對具體的測驗形式選取適宜的樣本量,而不是機械地采用某一研究結(jié)論[5]。

      2 數(shù)據(jù)收集

      在全國英語等級考試中,為保證不同考次對考生筆試能力的考查要求一致,需要將具有不同難度、不同分?jǐn)?shù)分布的試卷的分?jǐn)?shù)轉(zhuǎn)換到一個統(tǒng)一的量尺上。數(shù)據(jù)收集設(shè)計是錨測驗非等組設(shè)計,錨題外置[4]。每次正式考試前一周左右隨機抽取300名左右參加本次考試的考生參加錨測試。本研究采用某次全國英語等級考試第五級(PETS-5)的錨測驗數(shù)據(jù)和實測數(shù)據(jù)。錨卷在一定時間內(nèi)盡可能保持穩(wěn)定,通過每次考前的錨測驗題目參數(shù)和給定錨題參數(shù)的關(guān)系,將本次正式考試的題目參數(shù)轉(zhuǎn)換到錨卷的量表上。

      在實際情況下,由于很多原因,不能保證每次參加錨測試的樣本量都能達(dá)到300人左右。因此,本研究從參加錨測驗的考生樣本中隨機抽取30人、60人、90人、120人、150人、180人、210人、240人、300人作為樣本,再從正式考試中抽取10 000人(包括隨機抽取參加錨測驗的樣本),通過考號將錨測驗和正式考試的成績鏈接起來。參數(shù)估計基于Rasch模型來計算[10],采用以Bigsteps為核心的自主改進(jìn)軟件進(jìn)行參數(shù)估計和參數(shù)轉(zhuǎn)換。

      3 結(jié)果分析

      3.1 依據(jù)經(jīng)典測量理論分析抽樣的合理性

      研究的樣本是從參加錨卷測試的660名考生中隨機抽取的,用Excel中的隨機抽樣函數(shù)進(jìn)行隨機抽樣。為了驗證抽樣是否合理,表1、表2、表3對不同樣本量錨測驗的觀察分?jǐn)?shù)進(jìn)行了分析。由表1、表2可知,不同樣本量錨測驗觀察分?jǐn)?shù)的均值不存在顯著差異。表3表明,不同樣本量的抽樣與實際考生樣本之間錨測驗的觀察分?jǐn)?shù)也均不存在顯著差異。綜合表1、表2、表3結(jié)果可知,研究的隨機抽樣合理。

      表1 不同樣本量錨測驗觀察分?jǐn)?shù)的統(tǒng)計描述

      表2 不同樣本量錨測驗觀察分?jǐn)?shù)的方差分析

      3.2 參數(shù)估計

      在錨測驗非等組設(shè)計中,不同版本測驗中項目參數(shù)和能力參數(shù)的轉(zhuǎn)換均是通過錨題參數(shù)的平均值和標(biāo)準(zhǔn)差實現(xiàn)的,而Rasch模型在錨題參數(shù)轉(zhuǎn)換過程中只用到了錨題參數(shù)均值。不同樣本量錨題難度參數(shù)均值及與給定錨題難度的相關(guān)系數(shù)見表4。從表4可知,不同樣本量錨題難度參數(shù)均值為-0.09~-0.04,隨著樣本量的變大,難度均值變化越小,在樣本量達(dá)到150之后,參數(shù)均值趨于穩(wěn)定;從不同樣本量錨題難度與給定錨題難度之間的相關(guān)系數(shù)也可以看出,隨著樣本量的變大,相關(guān)系數(shù)趨于穩(wěn)定,在樣本量達(dá)到150以后,相關(guān)系數(shù)穩(wěn)定在0.7~0.72。

      表3 不同樣本量錨測驗觀察分?jǐn)?shù)之間的比較

      表4 不同樣本量估計錨題難度參數(shù)均值及與給定錨題難度的相關(guān)系數(shù)

      3.3 估計差異分析

      本研究從兩個方面考慮參數(shù)及等值差異:一是考慮樣本量不同時錨測驗所估計出的錨題難度值與給定錨題難度值之間的差異;二是考慮不同樣本量錨測驗對應(yīng)的試卷等值結(jié)果的差異。同時,以樣本量為660的錨測驗等值結(jié)果為標(biāo)準(zhǔn),比較不同樣本量的錨測驗的等值結(jié)果與樣本量為660的錨測驗的等值結(jié)果。計算差異的指標(biāo)為均方根離差(Root Mean Squared Deviation,RMSD)。

      從表5可知,不同樣本量估計出的錨題難度值與給定錨題難度值的差異較小,但是當(dāng)樣本量介于30到120之間時,RMSD值并不穩(wěn)定,當(dāng)樣本量達(dá)到150之后,RMSD值趨于穩(wěn)定。由表6可知,不同樣本量錨測驗對應(yīng)的試卷等值結(jié)果與設(shè)置的標(biāo)準(zhǔn)之間的均方根離差較小,但是當(dāng)樣本量介于30到120之間時,RMSD值并不穩(wěn)定,當(dāng)樣本量達(dá)到150之后,RMSD值趨于穩(wěn)定。

      3.4 等值結(jié)果對實際考試結(jié)果的影響

      垂直量表是將測量領(lǐng)域相似但考查的內(nèi)容水平不同的數(shù)個測試構(gòu)建到一個共同量表上的過程,即在測試內(nèi)容相同但水平不同的測試之間,通過共同量表,使得試題的難度或考生的水平能夠在數(shù)值上相互比較。莫春暉詳細(xì)介紹了將PETS-1至PETS-5統(tǒng)一到一個量表上的過程,并且定位了每個級別的合格能力值,PETS-5級的合格能力值為75[11]。

      本研究用不同樣本量錨測驗將實際考試題目參數(shù)轉(zhuǎn)換到給定錨題的量表上,通過自主研制的計算能力值軟件(abli)計算合格能力值對應(yīng)的客觀題實際分?jǐn)?shù)線。由表7可知,用不同樣本量錨測驗得出的實際分?jǐn)?shù)線是47或者48,但是當(dāng)樣本量達(dá)到150以上,實際分?jǐn)?shù)線就穩(wěn)定在47。

      4 結(jié)論

      本研究比較了錨測驗的樣本量不同時等值結(jié)果的差異,分別從經(jīng)典測量理論、IRT中的參數(shù)估計均值及與給定錨題的相關(guān)系數(shù)、估計差異、等值結(jié)果對實際考試結(jié)果的影響幾個方面進(jìn)行了分析。結(jié)果表明,在保證抽樣隨機并且具有代表性的前提下,樣本量在150~660時(PETS設(shè)置的樣本量在300左右,本研究的最大樣本量是660),基于Rasch模型的等值方法的等值結(jié)果比較穩(wěn)定。也就是說,對于目前的PETS-5,考前進(jìn)行的錨測驗樣本量確定在150以上就可以得到比較穩(wěn)定的結(jié)果。但需要注意的是,試題參數(shù)估計與等值試卷的長度、題型及試題的性質(zhì)有關(guān)。當(dāng)這些因素變化時,對錨測驗樣本量的要求也可能會發(fā)生變化。因此,一個考試要采用多大的錨測驗樣本量,要具體分析,不能一概而論。

      表5 不同樣本量錨題估計難度值與給定錨題難度值之間的誤差

      表6 不同樣本量對應(yīng)的試卷等值結(jié)果與樣本量為660的等值誤差

      表7 不同樣本量錨測驗等值結(jié)果對實際考試結(jié)果的影響

      [1]顧海根.心理與教育測量[M].北京:北京大學(xué)出版社,2008.

      [2]謝小慶.考試分?jǐn)?shù)等值的新框架[J].考試研究,2008(2):4-16.

      [3]戴海崎.等值誤差理論與我國高考等值的誤差控制[J].江西師范大學(xué)學(xué)報(哲學(xué)社會科學(xué)版),1999(1):29-35.

      [4]KOLEN M J,BRENNAN R L.Test Equating,Scaling,and Linking methods and Practices(3nd edition)[M].New York:Springer,2014.

      [5]馬洪超.考生樣本量對項目反應(yīng)理論(IRT)等值穩(wěn)定性的影響[J].考試研究,2011(2):62-66.

      [6]HEH V K.Equating accuracy using small samples in the random groups design[EB/OL].(2007-07-01)[2017-03-22].https://etd.ohiolink.edu/rws_etd/document/get/ohiou1178299995/inline.

      [7]FITZPATRICK A R,YEN W M.The Effects of Test Length and Sample Size on the Reliability and Equating of Tests Composed of Constructed-Response Items[J].Applied Measurement in Education,2001 14(1):31-57.

      [8]MOTIKA R.Effects of anchor item content representation on the accuracy and precision of small sample linear test equating[D].Iowa:University of Iowa,2003:84-154.

      [9]EID G K.The Effects of Sample Size on the Equating of Test Items[J].Education,2005(1):165

      [10]余民寧.試題反應(yīng)理論(IRT)及其應(yīng)用[M].臺北:心理出版社,2009.

      [11]莫春暉.PETS垂直量表的建立[J].中國考試,2014(10):40-46.

      The Effects of the Sample Size on the Result of Test Equating on the Common-Item Nonequivalent Group Design for PETS

      JING Chunli,MA Jie,ZHANG Jianshi
      (National Education Examinations Authority,Beijing 100084,China)

      This study explores the effects of the sample size on the result of test equating on the common-item nonequivalent group design,using data from the Public English Test System(PETS).This study uses a selfimproved Rasch-based software tool called Bigsteps to estimate the item parameter.To explore the effects of test equating on the passing score,the researchers compare the parameter estimate based on the different-sample-size anchor test and the given value of the parameter,and analyze the difference between the equating results on the live test based on the different-sample-size anchor test and the largest-sample-size anchor test.It turns out that the equating result becomes stable when the increasing sample size reaches 150.Therefore,the sample size of 300,which PETS uses,is reasonable.

      Common-Item Nonequivalent Group Design;Item Response Theory;Rasch Model;Equating

      G405

      A

      1005-8427(2017)06-0060-5

      10.19360/j.cnki.11-3303/g4.2017.06.010

      (責(zé)任編輯:陳寧)

      景春麗(1982—),女,教育部考試中心;

      章建石(1979—),男,教育部考試中心,助理研究員;

      馬 潔(1993—),女,教育部考試中心。

      猜你喜歡
      教育部考試中心等值樣本量
      醫(yī)學(xué)研究中樣本量的選擇
      異步電動機等值負(fù)載研究
      防爆電機(2020年5期)2020-12-14 07:03:50
      情報站
      雅思考試費2020年調(diào)整為2170元考試日期已發(fā)布
      留學(xué)(2019年21期)2019-11-23 05:57:06
      航空裝備測試性試驗樣本量確定方法
      教育部考試中心網(wǎng)上測試卡
      Sample Size Calculations for Comparing Groups with Binary Outcomes
      賞高考真題,品命題思路
      電網(wǎng)單點等值下等效諧波參數(shù)計算
      基于戴維南等值模型的靜穩(wěn)極限在線監(jiān)視
      镇安县| 刚察县| 南投县| 惠来县| 临漳县| 深泽县| 乌兰察布市| 彰武县| 建湖县| 读书| 调兵山市| 孝义市| 崇仁县| 汝城县| 天柱县| 三台县| 威信县| 兴城市| 松滋市| 焉耆| 来安县| 玉树县| 绵竹市| 油尖旺区| 英德市| 正阳县| 舒城县| 新营市| 郴州市| 邹城市| 吉安市| 苍溪县| 镇雄县| 杭州市| 孝义市| 平度市| 通江县| 五河县| 民县| 壶关县| 葫芦岛市|