付志慧, 王琳琳
(沈陽師范大學 數(shù)學與系統(tǒng)科學學院, 沈陽 110034)
統(tǒng)計學
四參數(shù)Logistic題組反應模型的貝葉斯估計
付志慧, 王琳琳
(沈陽師范大學 數(shù)學與系統(tǒng)科學學院, 沈陽 110034)
項目反應理論中4PL項目反應模型是在3PL項目反應模型基礎上發(fā)展起來的,它進一步對模型進行優(yōu)化,加入失誤參數(shù),即引進一條上漸近線,使得估計結果更加準確。傳統(tǒng)的項目反應模型往往忽略題目之間的相依性,所以為了使估計更加符合實際,將4PL項目反應模型與題組反應模型結合起來,提出了4PL題組反應模型。將這個模型運算出的結果與4PL項目反應模型的結果相比較,對比結果表明:題組效應不可忽略,2組參數(shù)估計結果差異顯著。其中,針對4PL項目反應模型和4PL題組反應模型的參數(shù)數(shù)據(jù),采用WinBUGS軟件進行處理。
項目反應理論; 4PL項目反應模型; 題組反應模型; WinBUGS軟件
項目反應理論(Item response theory,簡稱為IRT)是分析教育和心理測試結果的一種重要方法,它將被試的潛在心理特質與項目的特性參數(shù)化,并且直接用概率函數(shù)的形式來表示被試是否對項目做出正確的反應[1-2]。在多維項目反應理論領域中,以往人們研究的重點基本是單參,二參或者是三參數(shù)Logistic項目反應模型(3PL),考慮到被試在能力不足時靠猜測和運氣答對較難題目的情況,3PL項目反應模型中引入了猜測參數(shù)。但是隨著對3PL項目反應模型的深入研究,研究者們發(fā)現(xiàn)當3PL項目反應模型的上漸近線為1時,有高能力的被試答對簡單題的概率為1,忽略了被試有可能馬虎或者其他原因失誤而答錯題目的現(xiàn)象[3]。對于這種被試有高能力卻因失誤而答錯,使被試的能力得不到準確估計的情況,Barton和Lord(1981)最早的提出了4PL項目反應模型,引入了第4個參數(shù)—失誤參數(shù), 即添加了一條小于1的上漸近線[3-4]。這彌補了3PL項目反應模型存在的問題,使有高能力的被試就算失誤答錯簡單題目也能得到相應的合理評估,能更準確的估計被試的能力水平。隨著時代發(fā)展,人們逐漸發(fā)現(xiàn)了4PL項目反應模型的潛在研究價值,對這個模型重視起來。比如在精神病理學領域,Reise和Waller(2003)因多向性格測量表的模型反應要考慮上漸近線,采用了4PL項目反應模型;遺傳學領域中對于生物基因研究也運用到了4PL項目反應模型等[5-6]。
隨著我國教育和心理測量體系的發(fā)展和完善,越來越多的研究者關注起了考試制度[7-9]。傳統(tǒng)的項目反應理論建立在項目間局部獨立理想化的情況下,而現(xiàn)實中考試要求被試在規(guī)定時間內(nèi)發(fā)揮出最好水平,為了讓被試得到多方面的測試,一些題目使用相同的材料或刺激(如文章,圖片,影像等)的現(xiàn)象,比如英語,語文考試中的閱讀題,他們稱這些題目的集合為題組(Testlet)[7-9]。所以題組反應理論(Testlet Response Theory,簡稱為TRT)是項目反應理論的進一步推廣和發(fā)展。當條件獨立的假設被局部依賴性取代,這種帶有題組的模型已經(jīng)不能使用項目反應模型了,于是1999年Wang Xiaohui等改進了項目反應模型,引進了一個新參數(shù)—隨機效應參數(shù)[8-13]。
其中:yij表示第j個被試回答第i題的得分,yij=0時,回答錯誤,yij=1時,回答正確,i=1,2,…,I,j=1,2,…,J;ai表示第i題的區(qū)分度參數(shù),i=1,2,…,I;bi表示第i題的難度參數(shù),i=1,2,…,I;ci是第i題的猜測概率參數(shù),控制模型下漸近線,表示就算被試能力低第i題不會也有可能猜對,i=1,2,…,I;di是第i題的失誤參數(shù),控制模型上漸近線,表示被試擁有高能力但是由于失誤(緊張、注意力不集中、生病等)第i題答錯了,i=1,2,…,I;θj表示第j個被試的能力水平參數(shù),j=1,2…,J;γjk(i)是題組隨機效應參數(shù);K表示題組數(shù);k(i)表示第i題所在的題組,通過方差來判別項目之間的依賴性,方差越大項目局部依賴性越強;γjk(i)=0則說明項目之間是相互獨立的,i=1,2,…,I,j=1,2,…,J。
貝葉斯方法需要知道參數(shù)的先驗分布,令項目的參數(shù)表示為ζi=(ai,bi,ci,di),則先驗假設就可以寫為
其中:能力水平的先驗θj~N(0,1);題組隨機效應參數(shù)的先驗;項目的難度參數(shù)bi服從正態(tài)分布;項目的區(qū)分度參數(shù)ai服從截尾正態(tài)分布,例如N(1,0.6)I(ai>0)。對于猜測參數(shù)ci可以選擇ci~Beta(5,17)。為了模型考慮,假設上漸近線函數(shù)接近下漸線,令di~Beta(17,5)。則后驗π(γjk(i),θj,ζi|y)如下:
D表示比例常數(shù)。
假定有學校三年級全體328人參加共12題的語文閱讀測試,12道題分為3道大題,每題有4個小題。那么對于同一個短文下幾道題的反應存在相依性的可能很大。用0,1來表示被試的反應,1表示回答正確,0表示回答錯誤,對反應數(shù)據(jù)進行2種方法建模,第1種是假設局部獨立性依然存在,用4PL項目反應模型:
第2種是假設數(shù)據(jù)具有局部依賴性,用4PL題組反應模型:
利用WinBugs軟件分別對這2種模型的參數(shù)進行分析。項目數(shù)I=12, 題組數(shù)目K=3,總人數(shù)J=328;假定人的能力參數(shù)θj已知,θj~N(0,1);模型參數(shù)的先驗假設為:ai~N(1,1)I(0,),bi~N(-1,1),ci~Beta(5,17),di~Beta(17,5),γjk(i)~N(0,1)。
模型的貝葉斯估計結果如表1,列出了2種模型12個項目中4個參數(shù)的均值、蒙特卡洛誤差、中值和顯著性水平為0.025的置信區(qū)間??梢钥闯隹紤]了題組效應問題的4PL題組反應模型所得到的參數(shù)估計值和上、下漸近線要優(yōu)于4PL項目反應模型。
表1 2種模型的參數(shù)對比
表2 兩種模型的參數(shù)變化情況
結合表1,表2用4PL題組模型12個項目4個參數(shù)均值,蒙特卡洛誤差1中值的均值減去4PL項目反應模型的參數(shù)均值,發(fā)現(xiàn)了顯著的變化,說明加入題組隨機效應參數(shù)對結果產(chǎn)生了影響。 就該組數(shù)據(jù)而言,可以推斷出第1種假設是不成立的,采用這種獨立模型估計參數(shù)值是不準確的。
經(jīng)過以上研究,可以看出傳統(tǒng)的項目反應模型的不足,使用承認題目依賴性的題組反應模型估計參數(shù)更加準確。將4PL項目反應模型與題組模型結合起來,就模型來說,是先進的,從估計參數(shù)準確性的角度來看,得出的結果是比較令人滿意的。今后對4PL題組反應模型的研究還將繼續(xù)擴展,它的價值還將繼續(xù)等待人們發(fā)現(xiàn)。
[ 1 ]漆書青,戴海琦,丁書良. 現(xiàn)代教育與心理測量學原理[M]. 南昌:江西教育出版社, 2002.
[ 2 ]付志慧,李斌. 多維二參數(shù)Logistic項目反應模型的Gibbs抽樣法[J]. 沈陽師范大學學報(自然科學版), 2014,32(3):380-383.
[ 3 ]孟祥斌,陶劍,陳莎莉. 四參數(shù)Logistic模型潛在特質參數(shù)的Warm加權極大似然估計[J]. 心理學報, 2016,(8):1047-1056.
[ 4 ]BARTON M A,LORD F M. An upper asymptote for the three-parameter Logistic item response model[J]. Ets Research Report, 1981,1:1-8.
[ 5 ]BAKER F B,KIM S H. Item response theory: Parameter estimation techniques[M]. 2nd ed. New York: Marcel Dekker, 2004.
[ 6 ]ERIC L,KELLY L R. Estimation of a four parameter item response theory model[J]. British Journal of Mathematical and Statistical Psychology, 2010,63(3):509-525.
[ 7 ]孟慶香. 關于題組隨機效應模型的模型選擇[D]. 長春:東北師范大學, 2008.
[ 8 ]徐寶. 基于題組判別參數(shù)的題組反應模型的參數(shù)估計及其應用[D]. 長春: 吉林大學, 2012.
[ 9 ]涂冬波,蔡艷,漆書青,等. 項目反應理論新進展-題組模型及其參數(shù)估計的實現(xiàn)[J]. 心理科學, 2009,32(6):1433-1435.
[10]付志慧. 多維項目反應模型的參數(shù)估計[D]. 長春: 吉林大學, 2010.
[11]LI Y,BOLT D M,FU J. A comparison of alternative models for testlets[J]. Applied Psychological Measurement, 2006,30(1):3-21.
[12]WANG X,WAINER H,BRADLOW E T. A general Bayesian model for testlets: Theory and application[J]. Applied Psychological Measurement, 2002,1:1-37.
[13]WANG W,WILSON M. The Rasch testlet model[J]. Applied Psychological Measurement, 2005,29(2):126-149.
Bayesian estimation of four-parameter logistic testlet response model
FUZhihui,WANGLinlin
(School of Mathematics and System Science, Shenyang Normal University, Shenyang 110034 China)
The four parameters Logistic (4PL) item response model in Item Response Theory is on the basis of 3PL item response model to further optimize the model, joining an error parameter. Its meaning is to join an upper asymptote, and it makes the estimated results more accurately. The traditional item response models ignore the dependence between the items. In order to make the estimated results practical, we combine 4PL item response model with testlet response model. The 4PL testlet response model is proposed in this case. Then we can compare the 4PL testlet response model with 4PL item response model. The results show that we can not ignore testlet random effect and the parameter estimation of the two models are very different. It is a good idea to process data by WinBUGS software.
item response theory; 4PL item response theory model; testlet response theory model; WinBUGS software
2017-05-04。
國家自然科學基金資助項目(11201313); 國家統(tǒng)計局全國統(tǒng)計科學研究項目(2014LY017)。
付志慧(1979-),女,遼寧沈陽人,沈陽師范大學副教授,博士。
1673-5862(2017)03-0315-04
O212.8
A
10.3969/ j.issn.1673-5862.2017.03.011