陳 婧 康春花 鐘曉玲
20世紀60年代,測驗理論經(jīng)歷了從經(jīng)典測驗理論(Classical Test Theory,CTT)到項目反應理論(Item Response Theory,IRT)的巨大變革,IRT克服了CTT的種種局限,實現(xiàn)了對被試能力與其在特定項目上正確反應概率之間關系的模型化,這使得20世紀60~70年代以來,IRT成為心理計量學研究的核心內(nèi)容。然而,IRT的應用與許多心理或教育測驗的實際并不相符的,并在實際應用中給研究人員造成了困難。首先,IRT的基本假設難以滿足。IRT理論基于能力的單維性、局部獨立性和單調(diào)性這三條強假設。當所選擇的參數(shù)模型支持這些假設時,所擬合的模型能夠提供大量關于項目和被試的信息。而在實際應用中,所收集的數(shù)據(jù)往往難以滿足IRT的基本假設。其次,IRT要求在大樣本的基礎上才會有較好的精確性。但是,在實踐中,收集的數(shù)據(jù)往往達不到IRT對大樣本的要求,則IRT參數(shù)估計的精確性必然受到影響。正因為如此,IRT的理論研究一般以模擬研究居多,而應用研究則在大尺度測評中才顯現(xiàn)優(yōu)勢,在日常教學及學?;蛘n堂的小樣本測試中則無用武之地。因此,當實際測評中的數(shù)據(jù)并不能完全吻合IRT的強假設以及樣本容量較小時,非參數(shù)項目理論反應理論(Non-parametric Item Response Theory,NIRT)為突破此困境提供了原理和方法。這是因為相比IRT,NIRT除了提供了與實際日常情景更適應更有彈性的理論框架,還發(fā)展出適宜小樣本數(shù)據(jù)的更簡便易行的分析方法(Junker&Sijtsma,2001)。因此,在項目反應理論蓬勃發(fā)展的同時,更適于日常教學及其測評情境的非參數(shù)項目反應理論應該得到更多的關注及實踐應用。
非參數(shù)項目理論的提出更加完善了參數(shù)項目反應理論。在實際的測量中并不是所有的題目都能夠擬合項目項目反應理論中的各個參數(shù),但是這些題目卻在測量中同樣起十分重要的作用,非參數(shù)項目反應理論就很好地解決了這一問題(Sijtsma,1998)。非參數(shù)項目反應理論假設被試的能力水平與答對題目的概率相關,能力水平越高的被試其答對的概率就越高,這點與參數(shù)項目反應理論的假設是相同的。與參數(shù)項目反應理論不同的是被試不以特質(zhì)值θ和題目的參數(shù)a、b描述被試的特質(zhì)水平,而是直接從被試在測試中所得的分數(shù)進行排序得出被試特質(zhì)水平的高低(雷新勇,2006)。根據(jù)理論假設的不同,可以將非參數(shù)項目反應理論分為單調(diào)均質(zhì)模型(Monotone Homogeneity Model,MHM)和雙單調(diào)模型(Double Monotonicity Model,DMM)。
Mokken在1971年提出單調(diào)均質(zhì)模型(MHM),以單維性、局部獨立和項目反應函數(shù)單調(diào)性假設為基礎(Sijtsma,1998)。單維性假設所有題目測量的是相同的潛在特質(zhì)。局部獨立性是假設被試本身應答的獨立性和被試之間應答的局部獨立性,所有的變化都是由被試的潛在特質(zhì)引起的,題目與被試之間也是獨立的。項目反應理論的單調(diào)性假設說明被試答對的概率是與其能力有關的,被試能力高答對的概率就高,根據(jù)被試在試題的得分對被試的潛在特質(zhì)進行排序。
設θ是一個固定的X+值,s和t是兩個不同的X+值,令0<s<t<k,則有
說明被試的測試得分與其能力值成正相關,測試總分為s的被試其能力值低于測試總分為t的被試。
雙單調(diào)模型也是Mokken在1971年在單調(diào)均質(zhì)模型的理論假設上提出的。DMM比MHM具有更嚴格的理論假設,它在MHM的基礎上再加上項目反應函數(shù)非相交性為基礎的非參數(shù)項目反應理論模型,即對潛在特質(zhì)為θ的所有取值,k道項目反應函數(shù)不相交,也可以說單調(diào)均質(zhì)模型是雙單調(diào)模型的一個特例。對于所有的試題,其期望的條件試題得分等于項目反應函數(shù)值:
對于所有的θ取值有:
在θ的所有取值范圍內(nèi),按照試題的平均分進行排序,排序結(jié)果不變。通過P值對題目排序,則可以得到題目順序為:P1≤P2≤…≤Pk。
3.1.1 非參數(shù)與參數(shù)估計方法的比較
對非參數(shù)項目反應理論的理論研究主要集中在對非參數(shù)估計方法和參數(shù)估計方法的比較研究上,大部分對非參數(shù)估計方法的研究都是基于核平滑(kernel smoothing)方法而展開。如Ferrando(2004)在未限制曲線單調(diào)性的前提下,采用RISE作為擬合優(yōu)度指標,比較了kernel方法與線性的連續(xù)反應模型對于連續(xù)的人格量表項目的特征曲線的估計。研究發(fā)現(xiàn)kernel方法能夠提供與參數(shù)模型相當?shù)臄M合精度。同時,Lei,Dunbar和Kolen(2004)在釋放曲線單調(diào)性假設的前提下,基于WtRMS、Wt-MABS指標,比較了kernel方法與參數(shù)方法對于多項選擇題的項目特征曲線估計的差異。該研究還探討了非參數(shù)方法中小樣本對于參數(shù)方法與非參數(shù)方法的影響。研究發(fā)現(xiàn),非參數(shù)方法在小樣本的條件下仍顯示出較好的擬合優(yōu)度,kernel方法對于干擾選項的特征曲線的估計能夠提供項目編制質(zhì)量的有效信息。
3.1.2 非參數(shù)估計方法之間的比較
近幾年來,國內(nèi)外對非參數(shù)項目理論的研究,除了對非參數(shù)估計方法與參數(shù)估計方法的比較研究之外,也有研究者在考察非參數(shù)估計方法和參數(shù)估計方法之間的差異的同時,還考察了不同的非參數(shù)估計方法之間的差異。如Lee(2007)使用RMSD作為擬合優(yōu)度指標,比較了保序回歸、平滑的保序回歸和kernel方法與參數(shù)方法對于二分項目的項目特征曲線的估計。該研究在限制曲線單調(diào)性的前提下進行,并探討了違背單調(diào)性的題目數(shù)量這一因素對曲線擬合度的影響。研究發(fā)現(xiàn),平滑保序回歸在使用相應的內(nèi)核函數(shù)時能夠提供更準確的估計并滿足嚴格的單調(diào)性條件。而當項目數(shù)量以及樣本大小增加時,在各種條件下的平滑保序回歸和kernel方法對項目特征曲線(Item Characteristic Curve,ICC)的估計會產(chǎn)生相似的結(jié)果。而當違背單調(diào)性的題目數(shù)目增加時,參數(shù)方法估計的擬合優(yōu)度會受到較為嚴重的影響。
此外,也有研究者使用不同非參數(shù)估計的方法評估了參數(shù)項目反應理論擬合優(yōu)度的差異。如Manuel J.Sueiro&Francisco J.Abad(2011)認為,非參數(shù)項目特征曲線和參數(shù)項目特征曲線之間的距離可以以根的綜合誤差指數(shù)為指標,并能夠?qū)⒅鳛轫椖糠磻碚摂M合優(yōu)度的一種索引。所以他們將潛在特質(zhì)的后驗分布作為非參數(shù)模型,與另一個基于核平滑(kernel-smoothing,KS)方法的模型之間進行了性能的比較。對錯誤率和效率的評估使用了 2PLM(two-parameter logistic model)和三種類型的實際不擬合項目。研究發(fā)現(xiàn),對于擬合的項目,參數(shù)和非參數(shù)項目特征曲線之間的距離在兩種方法上都會隨著樣本的增大而下降。KS的綜合誤差平方根會隨著測驗長度的增加而下降。而在效率方面,后驗分布的方法在小樣本方面更有優(yōu)勢,而短測驗也同樣在此方面表現(xiàn)出了優(yōu)勢。另外,Alexandra A.H.等(2004)對不同的非參數(shù)維度評估程序進行了比較研究。研究者使用2×2×6×4×3×4的研究設計模擬數(shù)據(jù)以比較MSP、DETECT、HCA/CCPROX以及DIMTEST這四個軟件在默認設置下對維度評估的異同點。結(jié)果發(fā)現(xiàn),使用潛在特質(zhì)的協(xié)方差矩陣數(shù)據(jù)位基礎的分析軟件(DETECT&HCA/CCPROX)在擬合模型方面優(yōu)于使用標準無條件方差矩陣數(shù)據(jù)的軟件(MSP)。同時,研究者還對DETECT和DIMTEST進行了接受或拒絕能力的單維性假設的正確性研究。研究發(fā)現(xiàn),這兩個軟件并不能一直正確反映題庫的真實維度。
3.1.3 非參數(shù)模型與數(shù)據(jù)的擬合驗證
除了參數(shù)估計方法上的比較研究,還有一些學者對非參數(shù)項目反應理論其他方面進行了一些研究。如 George Karabatsos&Ching-Fan Sheu(2004)研究了NIRT的單調(diào)均質(zhì)模型和雙單調(diào)模型在順序限制的貝葉斯推理體系中(order-constrained Bayes inference framework)分析二級反應向量的實用性。研究使用NAEP測試的實踐數(shù)據(jù)分析了用以估計順序限制參數(shù)的Gibbs抽樣的實施,并用后驗分布來對NIRT的項目單調(diào)性、項目排序的不變性以及局部獨立性假設進行了驗證。結(jié)果表明,無論是NIRT的單調(diào)均質(zhì)模型還是雙單調(diào)模型都能夠?qū)崿F(xiàn)和NAEP測試的實踐數(shù)據(jù)較好的擬合。Wilco H.M.Emons(2008)對多級計分的項目反應得分進行了非參數(shù)個人擬合分析的研究。研究者認為,個人擬合方法通常被用來揭露非典型性的測驗表現(xiàn),以此來反應一個測驗中個別項目的分數(shù)的樣本。而和參數(shù)個人擬合統(tǒng)計不同,非參數(shù)個人擬合統(tǒng)計并不需要一個參數(shù)模型。研究者在研究中調(diào)查了非參數(shù)個人擬合統(tǒng)計對多級計分項目數(shù)據(jù)概括的有效性,并使用了模擬研究研究了不同的測試和項目參數(shù),研究發(fā)現(xiàn)在檢測嚴重的不擬合時,對古德曼錯誤(Guttman errors)的計數(shù)是有效的。這個模擬研究更進一步發(fā)現(xiàn),在大多數(shù)情況下,非參數(shù)個人擬合統(tǒng)計在檢測異常的項目分數(shù)向量時和常用的參數(shù)個人擬合統(tǒng)計是同樣有效的。
3.2.1 量表制定
目前對NIRT的應用研究相對理論研究而言比較少,大部分的研究主要集中在對量表的制定上。如Klaas Sijtsma等(2008)使用非參數(shù)估計方法分析了生活質(zhì)量量表并將之在在世界衛(wèi)生組織的研究中進行了應用。研究者調(diào)查了非參數(shù)同質(zhì)單調(diào)模型衡量和構建生活質(zhì)量量表的有效性,此生活質(zhì)量量表是由多岐項目組成,并將非參數(shù)同質(zhì)單調(diào)模型和常用的參數(shù)等級反應模型進行了比較。結(jié)果發(fā)現(xiàn),非參數(shù)單調(diào)同質(zhì)模型高度適合對與健康相關的生活質(zhì)量情況的數(shù)據(jù)分析,而參數(shù)等級反應模型也為模型擬合添加了有趣的特性。研究者同時使用了單調(diào)同質(zhì)化模型和等級反應模型對世界衛(wèi)生組織生命質(zhì)量量表數(shù)據(jù)進行了分析,并以單調(diào)同質(zhì)模型為基準分析取得了每個內(nèi)容域的一維尺度。可擴展性系數(shù)進一步表明,一些項目在其他同等尺度的其他項目上具有有限的可擴展性。而參數(shù)估計方法可能會導致一些項目被否決。
國內(nèi)也有研究者展開了對非參數(shù)項目反應理論在制定量表方面的應用研究,如王鵬(2005)研究了NIRT在公共管理中的應用,將其與經(jīng)典測驗理論(Classical Test Theory,CTT)和IRT在公共管理量表制定的實例中進行了比較研究,該研究發(fā)現(xiàn),CTT對樣本的依賴性很高;IRT幾乎不受被試變化的影響,但是會受到樣本數(shù)量的影響;而NIRT在小樣本中保持了較高的測驗精度,且測驗結(jié)果也比較穩(wěn)定。張軍(2010)使用了非參數(shù)項目反應理論的Mokken量表及其構建程序MSP,探索性地分析HSK[初中等]聽力、語法結(jié)構和閱讀三個部分中40個題的潛在維度,并籍此評價此方法的優(yōu)劣。研究表明:題組是多維的,閱讀題的區(qū)分能力和一致性最強,能有效地聚合成一類;聽力題次之,語法結(jié)構題最差;同時,他還發(fā)現(xiàn),使用NIRT進行維度分析存在很多不足,尤其是題目區(qū)分能力對分類的干擾與界定分類階段的標準存在較大的問題。
3.2.2 個性數(shù)據(jù)及項目功能差異分析
除了在量表制定方面的研究,也有研究者應用非參數(shù)項目反應理論展開了其他方面的研究。如Rob R.Meijer&Joost J.Baneke(2004)對NIRT在個性和精神病理學尺度的建立和心理測量分析的適用性方面進行了研究,并和三個參數(shù)IRT模型進行了比較研究。他們以MMPI中的抑郁量表為研究對象,發(fā)現(xiàn)在分析個性數(shù)據(jù)時,非參數(shù)IRT模型要優(yōu)于參數(shù)IRT模型,并且非參數(shù)IRT模型更便于應用,同時可以避免參數(shù)IRT模型在分析數(shù)據(jù)時的失誤。
雷新勇(2006)研究了NIRT在教育考試中的應用,用單調(diào)均質(zhì)模型從16道聽力試題中選出11道題組成了單維量表,再利用雙單調(diào)模型對單維量表進行功能偏差研究發(fā)現(xiàn),有5道試題在女生子群體中的排序與在男生子群體以及整個群體排序不同,顯示女生子群體作出正確應答的概率明顯高于男生子群體作出正確應答的概率。這種差異至少部分是由兩個子群體聽力能力上的差異引起的。
在近二三十年來發(fā)展的新一代測量理論中,把個體任務完成所需要的知識、認知加工技能等稱為認知屬性(Cognitive Attribute),把對個體任務完成中認知過程、加工技能或知識結(jié)構中優(yōu)勢與不足的診斷稱為認知診斷評估(Cognitive Diagnosis Assessment,CDA),其中用于對學生知識結(jié)構進行診斷評估的心理測量模型稱為認知診斷模型(Cognitive Diagnosis Model,CDM)。Fu和Li總結(jié)出60多種常見的診斷模型,其中,應用較為廣泛的核心模型有邏輯斯蒂潛在特質(zhì)模型(LLTM,(Fischer,1973))、規(guī)則空間模型(RSM,(Tatsuoka,1983))、屬性層級模型(AHM,(Leighton,Gierl,&Hunka,2004))、DINA模型((Junker&Sijtsma,2001))、融合模型(FM,(Hartz,2002))、DINO 模型((Templin&Henson,2006))等(Fu&Li,2007)。
以上認知診斷模型都屬于參數(shù)模型,目前對這些參數(shù)認知診斷模型的參數(shù)估計主要包括邊際最大似然估計以及貝葉斯估計,而這種以參數(shù)項目反應理論為基礎發(fā)展起來參數(shù)估計方法在進行認知診斷模型的參數(shù)估計時,尚且存在較多的不足。首先,當所測的認知屬性較多,樣本量較大的時候,參數(shù)估計的時間很長,給研究者帶來很多不便(已有研究表明,當屬性個數(shù)在8個時,EM算法和MCMC估計都需要耗費很長的時間);其次,當進行短測驗或小樣本施測時,樣本容量達不到進行參數(shù)數(shù)據(jù)分析的要求,又會造成較大的估計誤差,致使所估計的參數(shù)精確性很低。而在實際教學和測評中,所涉及的認知屬性往往是較多且關系復雜,而參加測評的對象也不是成千上萬的(比如某校學科組或任課老師想要了解四年級學生在數(shù)學應用題或圖形與幾何問題解決中的情況),此時,相對于參數(shù)認知診斷模型,非參數(shù)認知診斷模型可能更加適宜。在此背景下,非參數(shù)認知診斷模型應運而生。
Henson、Templin&Douglas在2007年提出,在DINA模型數(shù)據(jù)下,對于一個給定的Q矩陣,其觀察總分為他們認為,在聯(lián)合模型下,Wik能夠提供被試的能力信息。
Chiu在2008年的研究發(fā)現(xiàn),可以使用K-MEANS算法以及等級聚類法對總分進行聚類。
Chiu的這個研究被認為是關于非參數(shù)認知診斷的第一個原理性的成果,他表示,在恰當?shù)募夹g條件下,只要每一個屬性都存在非零比例的單一項目,那么當項目j增加時,可以涵蓋所有的掌握模式。
Ayers、Nugent&Dean(2008)使用正態(tài)分布的數(shù)據(jù)進行了研究,
從經(jīng)驗上來講,相對于對總分向量的聚類分析法,使用能力向量的聚類分析法所估計的能力參數(shù)更接近擬合的DINA模型,尤其在數(shù)據(jù)缺失的情況下。
Brian在2011年展開了對非參數(shù)項目反應理論的認知診斷研究。他認為之所以要展開非參數(shù)認知診斷的研究,一方面是因為非參數(shù)項目反應理論在心理學研究中是可以應用的,并且還在被不斷地研究。通過非參數(shù)項目反應理論,研究者可以考慮以最低限度的假設來了解項目反應理論模型的基本結(jié)構以及一般的能力變量的測量模型。另一方面,在研究認知診斷模型時,就像參數(shù)項目反應理論一樣,研究者都會需要通過估計項目參數(shù)來評估項目的質(zhì)量以及通過能力值來估計被試掌握或者未掌握某種認知屬性。
Brain(2011)在文章中介紹了兩種非參數(shù)的方法來處理認知診斷模型的數(shù)據(jù)。一種方法是提供聯(lián)合結(jié)構的假設以及正確的Q矩陣,用聚類分析將有相同模式的認知屬性或技能的被試分成不同的組別來處理作答數(shù)據(jù)(Ayers et al.,2008;Chiu,2008;Nugent et al.,2009)。另一種方法是將被觀測到的項目之間的聯(lián)合結(jié)構作為發(fā)現(xiàn)推測的第一步或者將項目之間的關系作為等價的前提條件,然后將之作為構成Q矩陣結(jié)構的可能成分來分析(Desmarais&Pu,2005;Tucker,2009)。這兩種方法都還處于其研究的初期階段,但是它們都指向了非參數(shù)方法可能存在的重要優(yōu)勢。當面臨龐大的數(shù)據(jù)庫時,它們開發(fā)了簡單而便于應用的數(shù)據(jù)處理算法,而且它們還開始促成一些具有操作性特征的認知診斷模型的產(chǎn)生。
綜上所述,我們可以看到,雖然對非參數(shù)認知診斷研究已經(jīng)展開,一些特殊的非參數(shù)方法也開始初具規(guī)模,但總體而言,研究還是相對較少,目前為止,還沒有開展關于非參數(shù)認知診斷的應用研究。這些都有待于后續(xù)的研究者進一步研究。
非參數(shù)項目反應理論作為一種在參數(shù)項目反應理論的基礎上發(fā)展起來的測量理論,它為參數(shù)項目反應模型適應的局限性提出了更適應更有彈性的框架,因非參數(shù)項目反應模型對數(shù)據(jù)的要求更寬松而比參數(shù)項目反應模型應用的范圍更廣。同時,非參數(shù)項目反應理論不像參數(shù)項目反應理論那樣通過對項目參數(shù)的估計,以期獲得更為精確的測量結(jié)果,而是通過對樣本數(shù)據(jù)的估計來獲得一個從高到低或從低到高的排序,不僅簡化了復雜而繁瑣的參數(shù)估計的運算過程,而且也為廣大的測量人員提供了方便,比較簡便容易操作,實用性更強。而在以非參數(shù)項目反應理論基礎上發(fā)展起來的非參數(shù)認知診斷,成為對參數(shù)認知診斷的重大補充。因為它更為寬松的適用環(huán)境,使其在實際應用中,更吻合實際,應用性更高,從而能更好地吻合新課程背景下老師想要了解學生問題解決過程的需要。
回顧幾十年來研究者對非參數(shù)項目反應理論的研究,我們可以發(fā)現(xiàn),雖然非參數(shù)項目反應理論自產(chǎn)生以來,一直有研究者對其進行研究。但總體而言,目前的非參數(shù)項目反應理論的研究研究隊伍依然小而分散,后備力量相對不足。NIRT研究自興起至今,研究人員隊伍一直處于一種相對分散的狀態(tài),研究力量也不是很集中,因此研究很難系統(tǒng)深入,對其理論的研究還不像參數(shù)項目反應理論那樣涉及測驗等值、題庫建設、多級評分模型、計算機自適應考試、DIF等各個方面。
同時,我們還發(fā)現(xiàn),盡管對NIRT的研究已經(jīng)取得了一些成果,但是其理論研究領域偏窄,研究主要集中在對非參數(shù)項目反應理論尤其是對非參數(shù)估計方法與參數(shù)估計方法的比較研究上,且這些研究大多數(shù)都是模擬研究,對其應用研究展開的極少。從總體趨勢上來看,對NIRT的理論研究仍處于初級階段,相對于參數(shù)項目反應理論的蓬勃發(fā)展,非參數(shù)項目反應理論還有待于今后展開更多的研究。
此外,就目前的文獻來看,盡管有一些研究者如Klaas Sijtsma、雷新勇等對非參數(shù)項目反應理論在應用方面展開了研究,但我們可以明顯看到,NIRT應用研究簡直是鳳毛麟角,且更多的集中于認知、情感測驗開發(fā),比較少涉足技能領域,而在認知領域中也偏重于教育領域,較少心理認知加工模式上的應用,這使得NIRT的應用范圍相當狹窄,許多NIRT的優(yōu)良功能尚未充分開發(fā)。
綜上所述,我們可以看到,非參數(shù)項目反應理論無論是在理論研究還是在應用研究方面都有比較好的發(fā)展前景,未來還需要更多的研究人員投入到對其的研究中,以期獲得更大的發(fā)展。
[1] 雷新勇.非參數(shù)項目反應理論模型及其在教育考試中的應用[J].考試研究,2006(2):53-71.
[2] 王鵬.NIRT在公共管理中的應用及與CTT和IRT在實例中的比較[D].東北大學碩士學位論文,2005.
[3] 張軍.非參數(shù)項目反應理論在維度分析中的運用及評價[J].心理學探新,2010(30):80-83.
[4] Ayers,E.,Nugent,R.,&Dean,N.Skill set pro fi le clustering based on student capability vectors computed from online tutoring data.In R.S.J.d.Baker,T.Barnes,&J.E.Beck(Eds.),Educational data mining 2008:1st International Conference on Educational Data Mining,Proceedings,2008:210-217.
[5] Brian,W.Junker.The Role of Nonparametric Analysis in Assessment Modeling:Then and Now,2011:67-82.
[6] Chiu,C.Cluster analysis for cognitive diagnosis:Theory and applications.Unpublished doctoral dissertation,Department of Educational Psychology,University of Illinois at Urbana Champaign,2008.
[7] De Jong.A.&Molenaar,I.W.An application of Mokken’S model for stochastic Cumulative scaling in psychiatric research.Journal of Psychiatric Research,1987,21.
[8] Edward E.Roskam,Arnold L.van den Wollenberg and Paul G.W.Jansen.The Mokken Scale:A Critical Discussion Applied Psychological Measurement,1986,10:265.
[9] Fischer,Gerhard H..The linear logistic test model as an instrument in educational research.Acta psychologica,1973,37(6):359-374.
[10] Fu,J.,&Li,Y.Cognitively diagnostic psychometric models:An integrative review.Paper presented at the The annual meeting of the National Council on.Measurement in Education,Chicago,IL,2007.
[11]George Karabatsos&Ching-Fan Sheu.Order-constrained Bayes inference for dichotomous models of unidimensional nonparametric IRT,2004.
[12] Hartz,S.M.A Bayesian framework for the unified model for assessing cognitive abilities:Blending theory with practicality.Unpublished doctoral dissertation,University of Illinois at Urbana-Champaign,Urbana-Champaign,IL,2002.
[13] John Sachs.Yin kum Law.Carol K K Chan.A nonpararnetric item analysis of a selected item subset of the Learning Process Questionnaire,2003,73.
[14] Junker.B.W.&Sijtsma.K.Nonparametric Item Response Theory in Action:An Overview of the Special Issue.Applied Psychological Measurement,2003,25(3):211-220.
[15] Junker,B.W.,&Sijtsma,K.Cognitive assessment models with few assumptions,and connections with nonparametric item response theory.Applied Psychological Measurement,2001,25(3):258-272.
[16] Kristin A Duncan&Steven N MacEachern.Nonparametric Bayesian modelling for item response,2008.
[17] Klass Sijtsma.Ivo W Molenaar Introduction to Nonparametric Item Response TheoryM.London:International Educational and Professional Publisher,2003,60.
[18] Klaas Sijtsma,Wilco H.M.Emons,Samantha Bouwmeester,Ivan Nyklí?ek,and Leo D.Roorda.Nonparametric IRT analysis of Quality-of-Life Scales and its application to the World Health Organization Quality-of-Life Scale(WHOQOL-Bref),2008.
[19] Klaas Sijtsma.Methodology Review:Nonparametric IRT Approaches to the Analysis of Dichotomous Item Scores Applied Psychological Measurement,1998,22(3).
[20] Leighton,J.P.,Gierl,M.J.,&Hunka,S.M..The Attribute Hierarchy Method for Cognitive Assessment:A Variation on Tatsuoka's Rule-Space Approach.Journal of Educational Measurement,2004,41(3):205-237.
[21] Manuel J.Sueiro,Francisco J.Assessing Goodness of Fit in Item Response Theory With Nonparametric Models:A Comparison of Posterior Probabilities and Kernel-Smoothing Approaches,2001.
[22] Molenaar,I.W.&Sijtsm,K.Users manual MSP5 for Windows[M].Crroningen:lee-ProGA~IMA,2000,23.
[23] Nichols,P.D.,Chipman,S.F.&Brennan,R.L.Cognitively diagnostic assessment.Hilldale,NJ:Lawrence Erlbaum,1995.
[24] Pui-Walei,Stephen B.Dunbar and Michael.J.Kolen A Comparison of Parametric and Nonparametric Approaches to Item Analysis for Multiple-Choice Tests,2004.
[25] Ramsay.J.Kernel Smoothing approaches to nonparametric item characteristic Curve estimation,1997.
[26] Rob R.Meijer,Joost J.Baneke.Analyzing psychopathology items a case for nonparametric item response theory modeling,2004.
[27] Tatsuoka,K.K.Rule space:An approach for dealing with misconceptions based on item response theory.Journal of Educational Measurement,1983,20(4):345-354.
[28] Templin,J.L.,&Henson,R.A.Measurement of psychological disorders using cognitive diagnosis models.Psychological Methods,2006,11(3):287.
[29] Young-Sun Lee.A Comparison of Methods for Nonparametric Estimation of Item Characteristic Curves for Binary Items,2007.