李美娟,劉紅云
(1.北京教育科學(xué)研究院,北京 100191;2.北京師范大學(xué)心理學(xué)院,北京 100875)
從20世紀60年代起,美國教育界就開始關(guān)注性別與種族在測驗結(jié)果上的差異,即測驗公平的問題.測驗的公平性是測驗研發(fā)者、使用者,乃至整個社會所普遍關(guān)注的一個非常重要而又異常復(fù)雜的問題.對于中國這個考試大國來講,為了提高試題質(zhì)量,對于一些高考、公務(wù)員等考試進行題目的公平性檢驗是十分必要的.美國的教育研究學(xué)會(AERA)、心理學(xué)學(xué)會(APA)、教育測量年會(NCME)認為測驗的公平必須滿足4個條件:(i)項目沒有偏差;(ii)所有的考生都有平等的機會證實自己對于測驗內(nèi)容掌握的熟練性程度;(iii)所有的考生都有平等的機會學(xué)習(xí)測驗內(nèi)容(除了就業(yè)、認證或者入學(xué)考試);(iv)不同類別考生的分數(shù)分布是相同的[1].中國教育學(xué)會教育測量與統(tǒng)計分會認為測驗公平性是指如果一個測驗對來自不同團體而具有相同能力或熟練程度的個體所測得的特性相同,則說明該測驗具有公平性,如果測得的特性不同,則說明該測驗不公平而具有偏差[2].即公平性檢查的目的是找出是否存在測驗范圍之外引起組間差異的因素.
項目偏差這個概念是美國在20世紀60年代提出的,主要用于對跨文化團體、性別、種族差異的研究.一直以來,對于項目偏差的研究,項目功能差異(DIF,differential item functioning)一直發(fā)揮著非常重要的作用,DIF是項目偏差的充分而非必要條件.相對于項目偏差,DIF是一個有關(guān)統(tǒng)計分析的術(shù)語,表示不同團體相同能力水平的被試對于相同測驗題目的通過率卻不同,引起DIF的原因是2組被試在與測驗所測的能力無關(guān)的知識或經(jīng)驗上存在差異[3-5].目前大多數(shù)檢測DIF的方法都集中在2級計分題目上,其中包括(i)非參數(shù)方法:MH,SIBTEST,LRDIF,STND等;(ii)參數(shù)方法:基于IRT的Lord卡方檢驗法,Raju面積測量法和似然比率法(IRT和LRDIF);而對于多級計分題目DIF的檢測方法多來源于2級計分題目檢測方法的拓展,目前也有許多關(guān)于多級計分題目DIF檢測的方法,其中包括標準化均值差異法、Mantel的卡方檢驗、廣義 Mantel-Haenszel法、多級SIBTEST法、邏輯斯蒂克判別函數(shù)分析法、累積發(fā)生比方法等.但是,這些傳統(tǒng)的多級計分題目檢測DIF的方法只能提供項目水平上的DIF指標,不能測量題目在哪個分數(shù)水平上存在DIF,進而也不能進一步解釋DIF的產(chǎn)生原因.
縱觀國外對于DIF的研究,大多數(shù)研究者集中在其方法的探討上,有少數(shù)研究涉及到DIF檢測的影響因素,如樣本量、維度,以及模型的參數(shù)等方面.而國內(nèi)對DIF的研究也比較早,主要是對DIF相關(guān)概念以及檢測方法的研究.之后也有不少研究者使用實際數(shù)據(jù)對DIF檢測方法進行應(yīng)用,并對幾種方法進行比較,還有一些研究者將DIF的檢測直接應(yīng)用到心理測驗中,對心理測驗的公平性進行初步探討.但是很少有研究對DIF的解釋進行深入分析,或者對產(chǎn)生DIF的原因進行挖掘,從而使測量在心理學(xué)的實際應(yīng)用中變得更有意義.近年來,對多級計分項目的DIF的研究有進一步細化和深入的趨勢,本研究的目的在于回顧DIF研究方法這一領(lǐng)域的新進展及應(yīng)用,介紹一種新的檢測DIF的方法——分步功能差異(DSF)檢驗法,同時結(jié)合一個實際測驗,簡要介紹這一方法的具體應(yīng)用.本研究的目的在于為研究者進一步探討產(chǎn)生DIF的原因提供更充分的依據(jù)和途徑.
分步功能差異(DSF)可以檢測多級計分題目的不同分數(shù)水平上是否存在DIF,即通過分步函數(shù)的特征(基本參數(shù))得到特定能力的被試在各個分數(shù)水平上正確做答的概率[6].其分步函數(shù)根據(jù)IRT模型的不同具有不同的形式.基于不同形式的分步功能特征的含義是不同的,最常用的是等級反應(yīng)模型(GRM)下的累積形式和分部計分模型(PCM)下的連接形式的分步功能差異.
分步函數(shù)主要是在多級計分題目上,個體從低分數(shù)水平跨越到高分數(shù)水平的概率,對于一個有r個分數(shù)水平的多級計分題目,則有J=r-1個分步水平.例如,一個4級計分題目,分數(shù)水平定為0,1,2,3,r=4,分步水平 J=3,結(jié)果用符號 Y 表示.其累積形式的分步函數(shù)是:(i)被試從分數(shù)水平0到分數(shù)水平1或者高于1的概率,即Y≥1概率;(ii)被試從分數(shù)水平1到分數(shù)水平2或者高于2的概率,即Y≥2概率;(iii)被試從分數(shù)水平2到分數(shù)水平為3的概率,即Y=3概率.而其連接形式的分步函數(shù)是:(i)被試從分數(shù)水平0到分數(shù)水平1的概率,即Y=1概率.(ii)被試從分數(shù)水平1到分數(shù)水平2的概率,即Y=2概率.(iii)被試從分數(shù)水平2到分數(shù)水平3的概率,即Y=3概率.
每個分步水平均使用2參數(shù)Logistic回歸模型進行參數(shù)估計[7]:
其中bj為j分步水平的難度系數(shù),且每個分步水平的難度系數(shù)是不同的;a為分步水平的區(qū)分度系數(shù),且每個分步水平的區(qū)分度系數(shù)是相同的;θ為被試的能力水平;D為1.7.G=0為目標組,G=1為參照組.a描述了每個分步水平能夠區(qū)分高低能力被試的程度,bj描述了通過該分步水平的概率為0.5的特定被試的能力水平.在GRM模型中,假設(shè)bj隨著分步水平的提高而增加,而在PCM模型中,則沒有這樣的假設(shè).ωj=0表示不存在DSF,ωj>0表示參照組占優(yōu)勢,ωj<0表示目標組占優(yōu)勢.
在DSF的分析中,一致性DSF和非一致性DSF是基于j個分步水平的DSF分析.一致性DSF指j個分步水平的DSF均相同,而非一致性DSF是指j個分步水平的DSF不完全相同[8].由此可見,雖然DSF和2級計分題目DIF的研究較相似,但是對于非一致性DIF和DSF,組間a參數(shù)差異的不同是區(qū)分兩者最重要的因素.在2級計分題目中,a參數(shù)的不同表示非一致性DIF的存在,而非一致性DSF表示在不同的分步水平上2組DIF方向不一致或DIF大小程度不一致,如DSF分析結(jié)果在第1個分步水平上有利于男生組,在第2個分步水平上有利于女生組,以上屬于非一致性DSF的一種情況.
非一致性DSF的檢測方法與2級計分的非一致性DIF檢驗方法是相同的,但是相關(guān)研究文獻中還沒有真正應(yīng)用過,所以應(yīng)用的價值還有待進一步證實.
已有研究關(guān)于DSF的估計方法主要有參數(shù)和非參數(shù)2類方法,其中參數(shù)法主要有IRT方法,而非參數(shù)法主要有odds比率法和Logistic回歸法.這些方法曾是檢測2級計分DIF的方法,所以在應(yīng)用時要注意:(i)必須將所研究題目的等級水平轉(zhuǎn)化為j個分步水平,(ii)必須對每個分步水平獨立分析.
雖然從理論上講構(gòu)建分步水平的方法有多種,但主要的是以廣義分部計分模型[9](GPCM)為基礎(chǔ)的連接方法(AC-LOR)和以等級計分模型[10](GRM)為基礎(chǔ)的累積方法(CU-LOR),這2種方法對DSF的定義如前所述,但是2種概念下DSF的結(jié)果和解釋是否相同也是DIF研究者們需要深入考察的一個內(nèi)容.對以這2種模型為基礎(chǔ)的DSF發(fā)生比方法進行了統(tǒng)計特征的模擬研究比較,結(jié)果發(fā)現(xiàn)累積方法下的DSF結(jié)果更穩(wěn)定[7],精確性更高.另外,將2種方法應(yīng)用于實際數(shù)據(jù)時[11],當(dāng)不存在DSF或者DSF很小時,兩者結(jié)果一致.但是第1種方法缺乏獨立性,一個水平存在較大的DSF,將伴隨著高水平反方向的較大DSF.當(dāng)存在較大的DSF時,使用第2種方法更容易獲得顯著的結(jié)果,而且這種方法標準誤更小,穩(wěn)定性和檢驗力更強.研究還發(fā)現(xiàn),當(dāng)僅有一個分數(shù)水平上存在DSF時,第1種方法的精確性更強,解釋更加合理.
IRT檢測DSF的基礎(chǔ)是比較參照組和目標組在多級計分題目的每個分步水平上的差異[8],表示為Δ(bj)=bjF-bjR.如果 Δ(bj)=0,則不存在 DSF.若Δ(bj)>0,則表示參照組占優(yōu)勢.反之,目標組占優(yōu)勢.Δ(bj)為j分步水平上參照組和目標組的有符號面積測度[12],這與 Raju對2級計分題目DIF的面積測量法是相同的.因此,DSF的效應(yīng)大小的衡量標準與Raju的面積測量法的衡量標準是相同的.
常用的檢驗標準是:若︱Δ(bj)︱<0.25,則表示較小的DSF值.︱Δ(bj)︱<0.50,則表示中等的DSF值.如果︱Δ(bj)︱>0.50,則表示較大的DSF值.檢驗IRT模型下不存在DSF的虛無假設(shè)的方法有2種,其中一種是將Δ(bj)除以標準誤,并且假設(shè)其是標準正態(tài)分布的.另外一種方法是似然比檢驗法,即將緊縮模型(2組項目參數(shù)固定)和擴展模型(自由估計2組分步函數(shù)參數(shù))的似然值進行比較.
與檢驗DSF的參數(shù)方法比較,在實際應(yīng)用中非參數(shù)方法更受歡迎,因為其不受樣本量、數(shù)據(jù)與模型擬合程度的影響,而且易操作.
2.3.1 發(fā)生比方法(odds ratio) 發(fā)生比方法(odds ratio)主要是比較參照組和目標組成功通過j分步水平的發(fā)生比,該發(fā)生比的自然對數(shù)就是λ值,即不同能力水平被試的λ值[13].λ的算法為
其中Ajk為k能力水平的參照組成功通過j分步水平的人數(shù);Bjk為k能力水平的參照組未成功通過j分步水平的人數(shù);Cjk為k能力水平的目標組成功通過j分步水平的人數(shù);Djk為k能力水平的參照組未成功通過j分步水平的人數(shù);若λj=0,則表示在j分步水平上不存在DSF;若λj>0,則表示在j分步水平上,題目得分會有利于參照組;若λj<0,則表示j分步水平上,題目得分會有利于目標組.
發(fā)生比(odds ratio)方法可以檢驗DSF的顯著性,檢驗方法為
其中 SE(λ^j)的算法如下:
另外,上述方程所檢驗的統(tǒng)計量服從標準正態(tài)分布的[14].
ETS常用的判斷標準為:當(dāng)︱λj︱ <0.43時,則表示存在較小的DSF值;當(dāng)0.43≤︱λj︱≤0.63時,則表示存在中等的DSF值;當(dāng)︱λj︱ >0.63時,則表示較大的DSF值.
2.3.2 Logistic回歸 估計DSF的另一種非參數(shù)方法是Logistic回歸[8],模型表述為
其中Y為被試在某個項目上第j步的得分,X為測驗總分.G為一個關(guān)于組別變量的虛無變量,并且是G=0代表目標組,G=1代表參照組.βj2為j分步水平的DSF效應(yīng).其中βj2=0為j分步水平不存在DSF,βj2>0則表示j分步水平上存在DSF,題目得分有利于參照組,βj2<0則表示j分步水平上存在DSF,題目得分有利于目標組.這個方法也可以通過在模型中加入測驗分數(shù)X和分組變量G的交互作用來考察是否存在非一致性DSF.
顯著性檢驗方法:似然比方法,即將緊縮模型(無βj2G項)和擴展模型(有βj2G項)的似然值進行比較.統(tǒng)計軟件提供β的估計值,顯著性水平以及模型的(-2×似然值),以便進行適當(dāng)?shù)乃迫槐葯z驗.該方法劃定DSF范圍的標準是ΔR2,若ΔR2<0.10,則表示較小的DSF值,若0.10≤ΔR2≤0.20,則表示中等的DSF值.若ΔR2>0.20,則表示較大的DSF 值[15].
IRT參數(shù)估計要求樣本量大,數(shù)據(jù)需與相關(guān)分步函數(shù)擬合,并且該方法比較耗時,建議使用BILOGMG3、IRTLRDIF[16]和 MULTILOG7.DIFAS程序,均可計算 λj和 z(λj)[17].如果在觀測分數(shù)與IRT模型擬合的情況下,并且將測驗總分認為是能力水平的近似估計時,3種估計方法的結(jié)果具有一定的關(guān)系,即 Logistic回歸(迭代法)和 odds ratio(非迭代法)方法估計的β值和λj是等值的[18],另外,這2個數(shù)值與2組難度系數(shù)的差異是成比例的,其中比例系數(shù)就是區(qū)分度值[16].
R.D.Penfield等[19]根據(jù) DSF產(chǎn)生的軌跡將DSF分為普遍性DSF和非普遍性DSF,普遍性DSF是指所有的分步水平都有DSF效應(yīng),說明導(dǎo)致DIF的因素在題目水平上造成影響.而非普遍性DSF是指一些分步水平上存在DSF,說明導(dǎo)致DIF的因素僅僅在一個或者少數(shù)幾個分步水平上造成影響.根據(jù)DSF產(chǎn)生的一致性將分為一致性DSF、會聚性DSF、發(fā)散性DSF 3種.一致性DSF是指分步水平DSF值的大小和符號都相同,會聚性DSF是指分步水平的DSF值符號相同,大小卻不同,發(fā)散性DSF是指分步水平的DSF值符號不同,詳見表1.
表1 DSF效應(yīng)模式
一致普遍性DSF對DIF的產(chǎn)生源于題目水平的特征提供了充足的證據(jù),而一致非普遍性DSF說明DIF的產(chǎn)生不一定源于題目水平的特征,而是源于存在DSF效應(yīng)的分步水平的特征.會聚性DSF說明DIF可能源于題目水平的特征,也可能源于不同分數(shù)水平的不同特征.會聚性DSF的解釋很有挑戰(zhàn)性,尤其在分步水平較多的情況下.發(fā)散性DSF給DIF源于不同分步水平的特征提供了充足的證據(jù),而且不同的分步特征使得有利的組別不同.所以DIF研究者的任務(wù)就是檢測定義分步水平的分數(shù)等級的特征,從而識別是一個特征對不同分步水平有影響還是多個特征分別對不同分步水平有影響.
每個分步水平不存在DSF是題目不存在DIF的充分必要條件.這種方法也就是R.D.Penfield提出的DIF同時性分步水平檢測方法(SSL),其源于發(fā)生比的DSF估計法[6].SSL基于分步水平,并且在DSF的符號和大小隨著分步水平的變化而變化時,具有比其它DIF方法更強的檢驗力.
上述方法也就是DIF的global檢驗方法的一種,DIF的global檢驗則關(guān)注無符號DSF,因此它對發(fā)散性DSF是敏感的.當(dāng)分步水平的DSF符號不同、大小不同時,global檢驗法對DIF的檢測是比較敏感的,其中現(xiàn)有的global檢驗法包括,IRT的似然比方法,多級邏輯斯蒂克回歸方法,廣義的MH卡方檢驗法,還有SSL法[7],但是在分步水平的 DSF一致時,net檢驗法的敏感性更強.DIF的net檢驗基于所有分步水平有符號DSF的集合,它對發(fā)散性DSF是不敏感的.其中DIF的net檢驗包括Mantel的卡方檢驗法、多級計分SIBTEST檢測法、標準均值差異和其相關(guān)方法,以及 Liu-Aresti的累積 common odds ratio估計法.因此,DIF的 net檢驗對發(fā)散性DSF是不敏感的,而 DIF的 global檢驗對發(fā)散性DSF 是敏感的[21].
對于如何使DIF和DSF的檢測最有效地發(fā)揮作用,最重要的是弄清楚兩者在多級計分模型中評價測量不變性的優(yōu)缺點.在關(guān)注造成DIF的分數(shù)水平時,DIF的檢測并沒有提供任何的信息.相反,DSF的檢測卻能提供給項目水平的DIF提供分數(shù)水平上的信息.雖然DIF存在這樣的缺點,但是有時DIF的檢驗力可能更強.因為其分析綜合了j個分步水平的結(jié)果.總之,DIF在非等同測量中可能更敏感,而DSF可以給非等同測量的形式提供更多的信息.
基于DIF和DSF檢測的優(yōu)缺點,建議在虛無假設(shè)為不存在DIF的多級計分題目中,測量等同的開始階段則同時使用DIF的net檢驗和global檢驗.前有研究發(fā)現(xiàn):(i)當(dāng)DSF效應(yīng)不一致時(除了普遍性DSF),global檢驗法的檢驗力更強.(ii)當(dāng)DSF效應(yīng)一致時(普遍一致性DSF),net檢驗法的檢驗力更強.如果結(jié)果接受虛無假設(shè),則說明測量的等同性存在,如果拒絕虛無假設(shè),則說明需要進一步的DSF分析[20].
因此,DSF和DIF檢驗的聯(lián)合可以提高敏感性,并且可以給題目提供更多的信息.DSF的檢測可以對DIF產(chǎn)生原因和軌跡提供更多的信息.在實際應(yīng)用中,建議同時進行DIF的net檢驗和global檢驗,如果兩者中的一種檢驗結(jié)果顯著,那么需要繼續(xù)進行DSF的檢測[19],所以建議同時使用3種方法對DIF進行檢驗,檢驗力會更強.
以下是一個對DSF使用以及解釋的實證研究.本研究的研究材料是Ralf Schwarzer等編制的一般自我效能感量表[21],其中有10個題目,均為4點計分.被試為美國人和香港人,其中美國被試1 167人,約占48%,香港被試1 152人,約占52%.另外,在此研究中,美國為參照組,香港為目標組.
分別使用發(fā)生比方法,Logistic回歸法,IRT方法對自我效能感量表的10個題目DSF分析.結(jié)果如表2所示.
表2 發(fā)生比的DSF數(shù)據(jù)分析
在表2中,使用DIFAS程序[17]計算各分步水平上的 common log-ratio(λj),λj值的標準誤.為了驗證如何將DSF的分析與DIF結(jié)合在一起,每個題目也均進行了global和net檢驗,其中DIF的global檢驗對每個分步水平的DSF進行顯著性水平為Bonfereoni-adjusted Typed Ierror rate(0.05/J)的顯著性檢驗,而DIF的net檢驗使用Liu-Agresti累積 common Log-odds ration(LA),LA值服從正態(tài)分布,可通過Z值對其進行顯著性檢驗[22].
在表2中第1列為題目,第2列為分步水平,第3列為λi,第4列為λi的標準誤,第5列為顯著性水平為Bonfereoni-adjusted typed I error rate(0.05/J)的顯著性檢驗,即DSF的global檢驗,第6列是根據(jù)判斷標準判別的DSF效應(yīng)大小,第7列為DSF模式,第8列為DSF的net檢驗.
表3中,使用Logistic回歸法(SPSS)和IRT方法(Multilog軟件)對上述10個題目進行DSF分析,結(jié)果發(fā)現(xiàn),Logistic回歸法和IRT方法計算的結(jié)果與發(fā)生比方法的計算結(jié)果基本相似,符合上文中的理論假設(shè),另外,也說明該數(shù)據(jù)和IRT的分步函數(shù)是擬合的.
綜上所述,本研究將使用發(fā)生比方法對研究結(jié)果進行解釋,在本結(jié)果中,8個題目的global檢驗結(jié)果顯著,net檢驗結(jié)果也顯著.DSF模式完全決定于DSF的大小,而不是DSF效應(yīng)的顯著性水平.研究結(jié)果發(fā)現(xiàn),2,7,10題的net DIF檢驗顯著,且DSF屬于普遍一致型,由此可以說明造成DIF的原因在于題目本身;2題和7題的λ值為正,表明對于第2和7題講,相同自我效能感的香港人和美國人,美國人在此題目上會得分更高,而10題相反,香港人得分會更高.9題屬于普遍會聚型DSF,說明造成DIF的原因在于不僅在于題目本身,而且在于題目選項的設(shè)置,λj值越大,說明選項j的設(shè)置出現(xiàn)問題的程度越大,并且λ值為正,則說明在每個選項的設(shè)置上美國人得分都比較高,只是差異程度不同.3,4,5,8題的DSF屬于非普遍會聚型,與前面一致的是,λj值越大,說明選項j的設(shè)置出現(xiàn)問題的程度越大,并且具有中等或者較大程度λ值的選項j的設(shè)置標準比較容易出現(xiàn)問題.總之,使用該問卷對美國人和香港人的自我效能感進行測量和比較是很不公平的.
表3 Logistic方法和IRT方法的DSF分析
分步功能差異(DSF)檢驗法的優(yōu)點是:(i)測量不變性水平高于DIF的整體測量方法.(ii)DSF方法可以分數(shù)水平上(分步水平)分析產(chǎn)生DIF的原因.即如果一個多級計分題目標記有DIF,那么DSF可以分離題目的成分來確定導(dǎo)致DIF的原因給題目內(nèi)容的審核以及修訂提供依據(jù).造成DIF的影響因素是修訂或者刪除題目的關(guān)鍵[18].(iii)越來越多的研究者對題目認知策略感興趣[23],這就強調(diào)了研究者應(yīng)在有關(guān)認知策略的測量特征上理解組別差異,而DSF可以對多級計分題目檢測其認知策略的組別差異.但是,面對一個顯著的分步水平DSF值,研究者的任務(wù)就是將分步水平的DSF轉(zhuǎn)為特定分數(shù)水平的DSF.2種概念下DSF的解釋是不同的,由于累積方法的DSF穩(wěn)定性強,所以其是研究者們常用的一種方法.例如,4級計分題目的第2個分步水平上存在DSF表示2個最低分數(shù)水平到2個最高分數(shù)水平的過渡對于其中一個組來說要更難.但是,僅DSF是不足以說明哪個高分數(shù)水平造成DSF,有可能是第3個分數(shù)水平,也有可能是第4個分數(shù)水平,也有可能兩者都有.
一些研究者提出的策略是,如果一個分步水平上存在DSF(如,第j分步水平)表示在第j個分數(shù)水平上存在著組間差異,說明DIF的產(chǎn)生是由于第j個分數(shù)水平的特征因素造成的;如果第j和j+1個分步水平均存在著組間差異,說明DIF的產(chǎn)生是由于第j和j+1個分數(shù)水平的特征因素造成的.但是通過這種方法計算的結(jié)果是有偏的,所以寄予在未來研究中能夠發(fā)現(xiàn)一種能夠?qū)Ψ植剿降椒謹?shù)水平進行準確轉(zhuǎn)化的方法,也希望未來的研究能夠更深刻得理解非一致性DSF,并且進一步對檢測非一致性DSF的方法進行研究和實踐應(yīng)用.另外,DSF是DIF研究領(lǐng)域的一種新方法,其可以在分數(shù)水平上檢測DSF,從而對DIF產(chǎn)生的原因深入探討,但是無論從方法上來講,還是從實踐上來講,這種方法還不是很成熟,所以期望未來大量的將其應(yīng)用于心理測驗的實證研究,進而為測驗公平性提供充足的證據(jù).
[1] American Educational Research Association,American Psychological Association,National Council on Measurement in Education.Standards for educational and psychological testing[M].Washington D C:American Psychological Association,1999.
[2]中國教育學(xué)會教育測量與統(tǒng)計分會.測量術(shù)語測驗公平性[J].中國考試,2003,12(上半月刊):19.
[3]Holland PW,Thayer D T.Differential item performance and the Mantel-Haenszel procedure[C].NJ:Erlbaum,1998:129-145.
[4]Penfield R D,Camilli G.Differential item functioning and item bias[C].New York:Elsevier,2007:125-167.
[5]Zumbo B D.Three generations of DIF analyses:considering where it has been,where it is now,and where it is going [J].Language Assessment Quarterly,2007,4(2):223-233.
[6] Penfield R D.Assessing differential step functioning in polytomous items using a common odds ratio estimator[J].Journal of Educational Measurement,2007,44(3):187-210.
[7]Penfield R D.Three classes of nonparametric differential step functioning effectestimators[J].Applied Psychological Measurement,2008,32(6):480-501.
[8]Penfield R D,Gattamorta K,Childs R A.An NCME instructionalmodule on using differential step functioning to refine the analysis of DIF in polytomous items[J].Educational Measurement:Issues and Practice,2009,28(1):38-49.
[9]Muraki E.A generalized partial credit model:application of an EM algorithm[J].Applied Psychological Measurement,1992,16(2):159-176.
[10]Wim Jvan der Linden,Ronald K Hambleton.Handbook of modern item response theory[M].New York:Springer-Verlag New York Inc,1997:85-100.
[11]Gattamorta K A.A comparison of adjacent categories and cumulative DSF effect estimators[D].Miami:University of Miami,2009.
[12]Cohen A S,Kim SH,Baker F B.Detection of differential item functioning in the graded response model[J].Applied Psychological Measurement,1993,17(4):335-350.
[13]Penfield R D.A nonparametricmethod for assessing differential step functioning in polytomous items[C].San Francisco:CA,2006.
[14] Hauck W W.The large sample variance of the Mantel-Haenszel estimator of a common odds ratio[J].Biometrics,1979,35(4):817-819.
[15]Jodoin M G,Gierl M J.Evaluating type I error and power rates using an effect sizemeasure with the logistic regression procedure for DIF detection [J].Applied Measurement in Education,2001,14(4):329-349.
[16]Thissen D.IRTLRDIF v.2.0 b:software for the computation of the statistics involved in item response theory likelihood-ratio tests for differential item functioning.2001,Unpublished ms.
[17]Penfield R D.Computer program exchange DIFAS:differential item functioning analysis system [J].Applied Psychological Measurement,2005,29(2):150-151.
[18]Alvarez K,Penfield R D.Using differential step functioning(DSF)to refine the analysis of DIF in polytomous items:an illustration[C].Washington D C,2007.
[19]Penfield R D,Alvarez K,Lee O.Using a taxonomy of differential step functioning to improve the interpretation of DIF in polytomous items:an illustration [J].Applied Measurement in Education,2009,22(1):61-78.
[20]Penfield R D.Distinguishing between net and global DIF in polytomous items[J].Journal of Educational Measurement,2010,47(2):129-149.
[21]Schwarzer R,Jerusalem M.Generalized self-efficacy scale[EB/OL].[2014-05-16].www.thefindingsgroup.com.
[22]Penfield R D,Algina J.Applying the Liu-Agrestiestimator of the cumulative common odds ratio to DIF detection in polytomous items[J].Journal of Educational Measurement,2003,40(4):353-370.
[23] Leighton JP,GierlM J.Defining and evaluatingmodels of cognition used in educational measurement to make inferences aboutexaminees’thinking processes[J].Educational Measurement:Issues and Practice,2007,26(2):3-16.