黃小平 胡中鋒
教育與心理測(cè)量是按照一定的規(guī)則給研究對(duì)象在一定性質(zhì)的量度系統(tǒng)(scaling)上賦值的過(guò)程,其目的在于通過(guò)對(duì)可觀察到的行為對(duì)預(yù)測(cè)量對(duì)象的屬性進(jìn)行客觀描述進(jìn)而達(dá)到對(duì)預(yù)測(cè)量對(duì)象的正確認(rèn)識(shí)[1]。從1911年比納和西蒙建立了第一個(gè)心理測(cè)驗(yàn)以來(lái),測(cè)驗(yàn)理論和測(cè)量的技術(shù)有了很大的發(fā)展。發(fā)展至今,已經(jīng)形成三大主流理論體系,分別是:經(jīng)典測(cè)驗(yàn)理論(Classical Test Theory,CTT)、概化理論(Genalizability Theory,GT)和項(xiàng)目反應(yīng)理論(Item Response Theory,IRT),測(cè)驗(yàn)理論得到了不斷的完善。
第一大理論體系是經(jīng)典測(cè)驗(yàn)理論(CTT),其核心概念是真分?jǐn)?shù)理論,即一個(gè)可觀察分?jǐn)?shù)(X)等于真分?jǐn)?shù)(T)與誤差分?jǐn)?shù)(E)之和,認(rèn)為真分?jǐn)?shù)就是用相同的兩份平行測(cè)驗(yàn)向同一批被試施測(cè)無(wú)數(shù)次后所得到的觀察分?jǐn)?shù)分布的期望,即平均分,并假設(shè)真分?jǐn)?shù)與誤差、誤差與誤差之間無(wú)相關(guān)。在真分?jǐn)?shù)的基礎(chǔ)上,CTT提出了信度的概念,它認(rèn)為一份測(cè)驗(yàn)所測(cè)值可不可靠,可以通過(guò)信度來(lái)進(jìn)行評(píng)價(jià),信度實(shí)質(zhì)上是對(duì)多次反復(fù)測(cè)量隨機(jī)誤差大小的反映。隨機(jī)誤差小,所測(cè)值就越可靠;反之,測(cè)值就越不可靠。在CTT中,信度是評(píng)價(jià)一份測(cè)驗(yàn)質(zhì)量好壞的重要指標(biāo)。
CTT使用的難度概念與比納利用實(shí)測(cè)資料進(jìn)行試題難度分析的思想可以說(shuō)是同出一轍,即都可視為所抽取具有代表性的行為樣本正確回答某個(gè)項(xiàng)目的人數(shù)占所有被試總?cè)藬?shù)的比率,或者稱之為得分率、答對(duì)率,用P表示。很顯然,CTT理論中的難度概念建立的基礎(chǔ)應(yīng)當(dāng)歸屬于隨機(jī)抽樣理論范疇,因?yàn)镻值會(huì)受到所抽取的不同能力大小樣本的影響。這樣,對(duì)考生能力和試題這兩個(gè)本不是同一維度的評(píng)價(jià)也就自然而然的被放在了同一尺度或者量綱上來(lái)進(jìn)行考量。因此,經(jīng)典測(cè)驗(yàn)理論的很大缺陷就是試題難度依賴于所測(cè)對(duì)象樣本的能力。類似地,對(duì)考生的能力評(píng)價(jià)也依賴于所測(cè)試的試題樣本的難易程度。
第二大理論體系是概化理論(GT),是在對(duì)真分?jǐn)?shù)測(cè)驗(yàn)理論的信度研究的基礎(chǔ)上發(fā)展起來(lái)的,是對(duì)經(jīng)典真分?jǐn)?shù)理論特別是信度理論的進(jìn)一步拓展,提出了測(cè)驗(yàn)情境關(guān)系(the context of measurement of situation)概念,改變了真分?jǐn)?shù)固定不變,測(cè)量誤差只是個(gè)含混不清的隨機(jī)誤差,求測(cè)驗(yàn)信度就是計(jì)算相關(guān)系數(shù)的傳統(tǒng)做法,應(yīng)用方差分析的方法對(duì)測(cè)量資料的變異性即測(cè)量誤差來(lái)源做出具體分解,找出全面考量各種類型的測(cè)量情境關(guān)系和考察不同情境關(guān)系下各種測(cè)量條件的影響,從而能有針對(duì)性地控制和提高測(cè)量的精度,但其在進(jìn)行方差的劃分與計(jì)算類信度系數(shù)時(shí),仍然遵循的是抽樣的思想,這與CTT有其相當(dāng)?shù)囊恢滦浴?/p>
第三大理論體系是項(xiàng)目反應(yīng)理論(IRT),亦稱作為潛在特質(zhì)理論(Latent Trait Theory),從20世紀(jì)60年代提出以來(lái)得到了很大的發(fā)展(Birnbaum,1968;Rasch,1960),隨著計(jì)算機(jī)技術(shù)的發(fā)展為IRT中復(fù)雜的參數(shù)估計(jì)方法的實(shí)現(xiàn)提供了可能,這種理論認(rèn)為:被試在某個(gè)項(xiàng)目上能否正確作答某個(gè)試題的概率是由其能力和試題的性質(zhì)共同決定的,通過(guò)建立數(shù)學(xué)模型來(lái)刻畫被試能力與試題屬性之間的關(guān)系,被試能力與試題難度的差值越大,被試在該題上作答的概率越大;反之,能力與試題難度的差值越小,被試在該題目上作答的概率就小,其常用到的三參數(shù)Logistic模型表達(dá)式如下:
上式中x是被試在該題上的得分,θ是被試能力,a,b,c是試題的參數(shù),分別代表了試題的難度、區(qū)分度和猜測(cè)度參數(shù)。
項(xiàng)目反應(yīng)理論主要有以下幾個(gè)優(yōu)點(diǎn):(1)考生能力和試題的難度被定義在同一個(gè)量度系統(tǒng)上,克服了CTT中試題難度與考生能力不可比較的缺陷;(2)提出了試題信息量與測(cè)驗(yàn)信息函數(shù)的概念,可以對(duì)測(cè)驗(yàn)的測(cè)量精度即誤差進(jìn)行事先控制,對(duì)于測(cè)驗(yàn)組卷有指導(dǎo)作用。進(jìn)入到20世紀(jì)90年代以來(lái),IRT模型得到了很大發(fā)展,由簡(jiǎn)單的二級(jí)記分(0,1)模型發(fā)展到多級(jí)記分模型,由單維模型發(fā)展到了多維模型(Van der Linden,1997)。IRT本身亦在不斷完善當(dāng)中,但是IRT也有其本身的一個(gè)局限,即現(xiàn)代的測(cè)量理論仍然采用的是行為主義的S-R模式,通過(guò)被試對(duì)刺激所作的反應(yīng)模式來(lái)推斷被試的內(nèi)部心理過(guò)程,但是,這種通過(guò)θ值來(lái)推斷被試的內(nèi)部心理過(guò)程其實(shí)并未被真正揭示出來(lái),被試的內(nèi)部心理過(guò)程仍然是一個(gè)黑箱,并因此被指責(zé)為是將“20世紀(jì)的統(tǒng)計(jì)學(xué)應(yīng)用于19世紀(jì)的心理學(xué)”(Mislevy,1993)。這種僅把所測(cè)的內(nèi)部心理屬性看成是純統(tǒng)計(jì)結(jié)構(gòu),忽視了對(duì)被試作答過(guò)程的考察分析,計(jì)量時(shí)只注重作答反應(yīng)結(jié)果,只注重計(jì)量而忽視心理品質(zhì)或結(jié)構(gòu)的實(shí)質(zhì)內(nèi)容顯然已經(jīng)不能滿足當(dāng)前社會(huì)發(fā)展的需要,特別是近年來(lái)認(rèn)知心理學(xué)的發(fā)展為各種數(shù)學(xué)模型的開發(fā)提出了更為廣闊的應(yīng)用前景,將認(rèn)知心理學(xué)的理論與教育與心理測(cè)量模型結(jié)合,真正使得教育與心理測(cè)量為具體的認(rèn)知學(xué)科服務(wù),對(duì)教育測(cè)量和評(píng)價(jià)理論產(chǎn)生了極其重要而廣泛的影響。
自從1989年《教育測(cè)量》第三版發(fā)表Richard Snow和David Lohman《認(rèn)知心理學(xué)在教育測(cè)量中的應(yīng)用》一文以來(lái),認(rèn)知心理學(xué)開始滲透到心理計(jì)量學(xué)領(lǐng)域,Snow和Lohman(1989)認(rèn)為建立在認(rèn)知心理學(xué)基礎(chǔ)的認(rèn)知評(píng)價(jià)分析至少可以在以下四個(gè)方面對(duì)教育與心理測(cè)量學(xué)做出貢獻(xiàn):
第一,認(rèn)知心理學(xué)的理論和發(fā)展提供了教育測(cè)驗(yàn)分?jǐn)?shù)理解的新方法。正如Snow和Lohman(1989)所提出的,在教育與心理測(cè)量模型(EPM)中提到的θ,并沒(méi)有考慮到知識(shí)技能的如何獲得,教育與心理測(cè)量的分?jǐn)?shù)不僅反映了不同操作技能、所用策略和知識(shí)元素,還包括了程序性知識(shí)和陳述性知識(shí)以及可控制的和自動(dòng)化的各種能力要素的不同組合,這些能力要素有些是變量,有些是恒定不變的,且在不同人群和不同的任務(wù)實(shí)踐中起不同的作用,而認(rèn)知心理學(xué)的重要貢獻(xiàn)之一就是對(duì)這些復(fù)雜的操作過(guò)程進(jìn)行分析。
第二,教育測(cè)驗(yàn)的認(rèn)知分析有助于我們理解測(cè)驗(yàn)所表征的結(jié)構(gòu),并能為測(cè)驗(yàn)的結(jié)構(gòu)效度提供新的證據(jù)。測(cè)驗(yàn)結(jié)構(gòu)效度一直是測(cè)量學(xué)家所關(guān)注的問(wèn)題,通過(guò)對(duì)所測(cè)測(cè)驗(yàn)的認(rèn)知分析可以了解整個(gè)測(cè)驗(yàn)的問(wèn)題表征、知識(shí)內(nèi)容,知識(shí)起始狀態(tài)及考生作答所選用的策略(Van Lehn,1989),因此,認(rèn)知分析研究可以為教育測(cè)驗(yàn)的結(jié)構(gòu)效度提供新的證據(jù)。
第三,教育測(cè)驗(yàn)在不同內(nèi)容領(lǐng)域內(nèi)的結(jié)構(gòu)分析可以開發(fā)出不同認(rèn)知內(nèi)容下所需要的測(cè)量方法及改善現(xiàn)有測(cè)量方法。當(dāng)前心理和教育測(cè)量領(lǐng)域發(fā)展的一個(gè)重要方向就是認(rèn)知診斷評(píng)價(jià)(Cognitive Diagnosis Assessment,CDA),即要根據(jù)對(duì)被試在測(cè)驗(yàn)上的作答反應(yīng)給出能描述出考生詳細(xì)認(rèn)知過(guò)程及其詳細(xì)的知識(shí)結(jié)構(gòu)。
第四,對(duì)考生的內(nèi)部心理過(guò)程的認(rèn)知分析可以對(duì)諸如學(xué)科能力傾向、學(xué)習(xí)理論、指導(dǎo)和教育成就的理論提出的原有假設(shè)進(jìn)行有效評(píng)價(jià)并對(duì)其進(jìn)行延伸和擴(kuò)展。
總之,認(rèn)知心理學(xué)有助于促進(jìn)教育與心理測(cè)量理論的發(fā)展,認(rèn)知分析使得研究者可以對(duì)測(cè)驗(yàn)內(nèi)部結(jié)構(gòu)的特征進(jìn)行試驗(yàn),評(píng)價(jià)已有教育與心理測(cè)量學(xué)模型的假設(shè),創(chuàng)造出新的測(cè)量學(xué)模型并對(duì)測(cè)驗(yàn)結(jié)構(gòu)進(jìn)行構(gòu)建,對(duì)被試得分及其測(cè)驗(yàn)結(jié)果進(jìn)行解釋。
因此,在我國(guó)當(dāng)前關(guān)于基礎(chǔ)教育質(zhì)量監(jiān)測(cè)與評(píng)估的測(cè)評(píng)方法上,將認(rèn)知心理學(xué)的研究發(fā)展成果有效地和現(xiàn)代教育與心理測(cè)量理論的相結(jié)合并對(duì)考生的能力結(jié)構(gòu)進(jìn)行全方位的測(cè)量和評(píng)價(jià),是教育與心理測(cè)量和評(píng)價(jià)的重要發(fā)展趨勢(shì)之一,這對(duì)于真正提升教育考試的質(zhì)量是有實(shí)際意義的。
認(rèn)知心理學(xué)應(yīng)用于教育與心理測(cè)驗(yàn),為教育與心理測(cè)量學(xué)理論的發(fā)展注入了新鮮的血液,也為建構(gòu)不同領(lǐng)域內(nèi)的心理計(jì)量學(xué)模型提供了嶄新的視角。為了從被試的作答反應(yīng)中獲得關(guān)于考生更為深層次的信息,許多研究者都做了一些嘗試,他們認(rèn)為其中的一條出路就是“將認(rèn)知與測(cè)量相結(jié)合”,這個(gè)新的領(lǐng)域被稱為是“新一代的測(cè)量理論”(Embreton,1985;Fishcher,1973;Mislevy,1995;Tatsuoka,1984,1990等)。
劉聲濤、戴海崎等在《認(rèn)知診斷兩大基礎(chǔ)研究及其發(fā)展述評(píng)》中就曾指出了認(rèn)知診斷的兩大基礎(chǔ)研究:一大基礎(chǔ)是依賴于心理學(xué)的基礎(chǔ)研究;另一大基礎(chǔ)是測(cè)量學(xué)基礎(chǔ)。他們認(rèn)為認(rèn)知診斷涉及的領(lǐng)域研究包括知識(shí)領(lǐng)域和實(shí)踐知識(shí)領(lǐng)域、能力及智力領(lǐng)域。他們指出:“認(rèn)知診斷現(xiàn)在主要應(yīng)用于兩個(gè)領(lǐng)域中,一是知識(shí)領(lǐng)域;另一種是一般能力及智力領(lǐng)域。前者的主要目的是為教育與決策提供豐富的信息,后者主要目的是心理學(xué)理論的建構(gòu)與實(shí)踐。”在知識(shí)領(lǐng)域中,其研究主要涉及程序語(yǔ)言學(xué)習(xí)、數(shù)學(xué)、物理、詞匯、閱讀、寫作等領(lǐng)域;在實(shí)踐領(lǐng)域中,主要的研究涉及有機(jī)械維修、電路設(shè)計(jì)、醫(yī)療、銷售、軍隊(duì)領(lǐng)導(dǎo)等領(lǐng)域;在能力及智力的研究中,其關(guān)注的視角主要是在言語(yǔ)能力、空間能力、推理能力等領(lǐng)域,認(rèn)知分析涉及認(rèn)知過(guò)程、認(rèn)知結(jié)構(gòu)模式和圖式、認(rèn)知策略的選用與轉(zhuǎn)移等。在這些研究中,有些研究結(jié)果已經(jīng)將認(rèn)知分析的結(jié)果與具體的心理測(cè)量學(xué)模型相結(jié)合,用于認(rèn)知診斷。如在言語(yǔ)能力方面,Sternberg R.J.等[2]分析了實(shí)時(shí)言語(yǔ)理解的信息表征和加工過(guò)程,將結(jié)果用于測(cè)驗(yàn)設(shè)計(jì)和分析;在空間能力方面,James W.Pellegrino等[3]對(duì)空間能力和專門技能做了任務(wù)分析,并把分析結(jié)果用于工程設(shè)計(jì)與制圖的測(cè)量中;在推理能力方面,Earl C.Butterfield等[4]對(duì)生成字母系列的歸納推理項(xiàng)目做了認(rèn)知分析,并設(shè)計(jì)了自動(dòng)生成字母系列的計(jì)算機(jī)系統(tǒng)。
認(rèn)知診斷的另一大研究基礎(chǔ)是測(cè)量學(xué)基礎(chǔ),一份測(cè)驗(yàn)要實(shí)際應(yīng)用于考試評(píng)價(jià),真正體現(xiàn)考試的比較、鑒別、選拔功能,應(yīng)當(dāng)強(qiáng)調(diào)測(cè)驗(yàn)設(shè)計(jì)。測(cè)驗(yàn)設(shè)計(jì)強(qiáng)調(diào)以心理活動(dòng)的內(nèi)在加工機(jī)制為基礎(chǔ),使內(nèi)在的認(rèn)知特征外化[5]。然后,心理計(jì)量學(xué)家致力于建構(gòu)能融合不同的認(rèn)知變量的模型,并且運(yùn)用各種現(xiàn)代統(tǒng)計(jì)方法估計(jì)模型中的參數(shù),實(shí)現(xiàn)對(duì)各認(rèn)知變量進(jìn)行量的分析和刻畫的仼務(wù)。
測(cè)驗(yàn)設(shè)計(jì)需要學(xué)科專家與測(cè)量學(xué)專家共同來(lái)編制。作為學(xué)科專家而言,需要界定學(xué)科內(nèi)容和教育所要測(cè)量的目標(biāo),制定本學(xué)科域內(nèi)的“雙項(xiàng)細(xì)目表”,運(yùn)用布盧姆的認(rèn)知層次目標(biāo)理論對(duì)所測(cè)題目的知識(shí)屬性、內(nèi)容結(jié)構(gòu)及知識(shí)屬性之間的相互聯(lián)系要有一個(gè)明確而詳細(xì)定義。同時(shí),測(cè)量學(xué)家應(yīng)當(dāng)根據(jù)學(xué)科專家認(rèn)知分析結(jié)果建立起恰當(dāng)?shù)恼J(rèn)知診斷模型,這些模型應(yīng)當(dāng)具備以下功能:第一,模型要與考試實(shí)測(cè)資料結(jié)果相擬合,這是模型得以正確應(yīng)用的基礎(chǔ);第二,模型在建立之前應(yīng)建立相應(yīng)的評(píng)分規(guī)則;第三,對(duì)認(rèn)知分析得到的結(jié)果給予合理解釋,建立相應(yīng)的評(píng)分模型。
另一方面,教育與心理測(cè)量的一個(gè)目的已經(jīng)不僅僅是從測(cè)驗(yàn)的內(nèi)部特性來(lái)反映個(gè)體間差異以及關(guān)注于測(cè)量的精度問(wèn)題并回答“測(cè)什么”、“如何測(cè)”、“在什么性質(zhì)量尺上如何指定值”、“所得測(cè)值可靠”及“測(cè)驗(yàn)測(cè)到的是否真的是本來(lái)打算要測(cè)的東西”,而更多的在于測(cè)量之后能夠提供給考生、教育評(píng)價(jià)者更多、更為直觀且更易量化的評(píng)價(jià)信息,這些評(píng)價(jià)信息的重要作用和意義在于:
(1)考生不僅僅知道自身的學(xué)習(xí)掌握情況,并有針對(duì)性地對(duì)自身的掌握內(nèi)容采取彌補(bǔ)性的措施進(jìn)行“糾錯(cuò)”,提高自我評(píng)價(jià)的能力。
(2)對(duì)于某個(gè)任教學(xué)科的教師而言,可以為其教學(xué)提供關(guān)于考生更多的測(cè)驗(yàn)內(nèi)部信息,真正做到“教學(xué)相長(zhǎng)”,形成對(duì)學(xué)生的發(fā)展性評(píng)價(jià)。
(3)可以為教育決策部門尤其是教育監(jiān)測(cè)與評(píng)價(jià)部門提供更為真實(shí)的評(píng)價(jià)信息,做到評(píng)價(jià)的真實(shí)性,從而為提高教育評(píng)價(jià)的效度提供幫助。
(4)從科學(xué)性評(píng)價(jià)學(xué)生的角度而言,反映的是對(duì)學(xué)生能力的過(guò)程性評(píng)價(jià)和非終結(jié)性評(píng)價(jià)。
目前,關(guān)于認(rèn)知診斷評(píng)價(jià)模型國(guó)內(nèi)應(yīng)用較多的是Tatsuoka20世紀(jì)80年代提出的規(guī)則空間模型(Rule-Space Model,RSM),也是眾多認(rèn)知診斷模型中應(yīng)用較為廣泛的認(rèn)知診斷模型之一。
在這些研究中,余嘉元、戴海琦、呂英、張青華等人早有著文將認(rèn)知診斷模型用于實(shí)際的測(cè)驗(yàn)當(dāng)中,并實(shí)現(xiàn)了對(duì)考生內(nèi)部心理結(jié)構(gòu)的認(rèn)知分析和診斷,如余嘉元[6](1995)曾利用規(guī)則空間模型,結(jié)合認(rèn)知心理學(xué)和IRT理論、數(shù)據(jù)庫(kù)代數(shù)理論知識(shí)對(duì)南京市和無(wú)錫市三所中學(xué)的644名初中二年級(jí)學(xué)生利用30個(gè)不等式題目,18個(gè)認(rèn)知屬性上進(jìn)行診斷,來(lái)識(shí)別考生的認(rèn)知錯(cuò)誤。
戴海崎、張青華[7](2004)在《規(guī)則空間模型在描述統(tǒng)計(jì)學(xué)習(xí)模式識(shí)別中的應(yīng)用研究》中,應(yīng)用規(guī)則空間模型判別學(xué)生的屬性掌握模式(即知識(shí)結(jié)構(gòu)),根據(jù)299名被試在測(cè)驗(yàn)項(xiàng)目上的作答反應(yīng)將他們劃歸為30種不同的屬性掌握模式。
最近這幾年,尤其是2007年以來(lái),認(rèn)知診斷模型已經(jīng)充分應(yīng)用在我國(guó)的大規(guī)??荚嚨膶?shí)測(cè)數(shù)據(jù)中,同時(shí)也應(yīng)用于基礎(chǔ)教育的學(xué)科,如數(shù)學(xué)、物理、化學(xué)、英語(yǔ)等的認(rèn)知診斷,這類代表性的研究主要有:(1)黃小平、戴海琦[8](2007)等人利用RSM,對(duì)2006年國(guó)家執(zhí)業(yè)醫(yī)師考試的454名考生診斷,最后得到八種典型反應(yīng)模式,并將454名考生的實(shí)際作答模式判歸為這8種典型反應(yīng)模式,從而實(shí)現(xiàn)對(duì)考生口腔內(nèi)科學(xué)知識(shí)屬性掌握的識(shí)別及其分類,并針對(duì)我國(guó)執(zhí)業(yè)醫(yī)師考試分?jǐn)?shù)報(bào)告的形式和內(nèi)容提出了改進(jìn)建議;(2)黎嬌[9](2008)利用RSM,研究了九年級(jí)學(xué)生在學(xué)習(xí)歐姆定律過(guò)程中所需掌握的7種認(rèn)知屬性和屬性間的層級(jí)關(guān)系,然后編制測(cè)驗(yàn),再根據(jù)233名被試在測(cè)驗(yàn)上的作答反應(yīng),應(yīng)用RSM將他們分別判歸為13種不同的屬性掌握模式,根據(jù)學(xué)生所具有的屬性和作答中出現(xiàn)的錯(cuò)誤提出相應(yīng)的補(bǔ)救路徑和教學(xué)建議;(3)劉啟亮[10](2009)等對(duì)初中化學(xué)教學(xué)中生化學(xué)化合物的有關(guān)知識(shí)進(jìn)行了診斷,將91.46%被試的實(shí)際作答模式判歸為21種理想屬性反應(yīng)模式,從而實(shí)現(xiàn)了對(duì)被試屬性掌握情況的診斷。
目前,對(duì)于RSM的應(yīng)用研究關(guān)注的視角轉(zhuǎn)向討論模型本身及其診斷方法的比較,從模型本身探討模型診斷率的改善和適切性等問(wèn)題:如祝玉芳、丁樹良[11](2008)討論了規(guī)則空間模型理論基礎(chǔ)的改進(jìn),提出Tatsuoka在求取理想項(xiàng)目反應(yīng)模式全集的錯(cuò)誤性,并提出了幾種確定理想項(xiàng)目反應(yīng)模式全集的方法和幾種新的分類方法,并用蒙特卡洛模擬比較這些分類方法與規(guī)則空間方法的優(yōu)劣;曾玲艷[12](2010)對(duì)認(rèn)知診斷模型分類準(zhǔn)確率進(jìn)行了研究,從診斷技術(shù)和方法上提出了將可達(dá)陣與認(rèn)知診斷信息量指標(biāo)相結(jié)合的選題策略,利用Monte Carlo模擬實(shí)驗(yàn)結(jié)果,提高了模式判準(zhǔn)率與平均邊際判準(zhǔn)率。孫佳楠[13]、張淑梅、辛濤(2011)等提出了一種基于Q矩陣與廣義距離的認(rèn)知診斷方法,他們?cè)趯傩詫蛹?jí)方法和丁樹良等人(2009,2010)改進(jìn)的Q矩陣?yán)碚摰幕A(chǔ)上,通過(guò)定義觀察反應(yīng)模式與理想反應(yīng)模式之間的廣義距離,給出了一種識(shí)別被試知識(shí)狀態(tài)的認(rèn)知診斷方法,即廣義距離判別法,通過(guò)DINA模型生成被試的作答反應(yīng)矩陣進(jìn)行模擬研究,以模式判準(zhǔn)率和屬性判準(zhǔn)率作為衡量被試知識(shí)狀態(tài)分類準(zhǔn)確率指標(biāo),將廣義距離判別法、RSM和AHM的分類A方法分別與DINA模型進(jìn)行比較,并提出了廣義距離判別法具有更好的分類效果。
在開發(fā)認(rèn)知診斷測(cè)驗(yàn)或者計(jì)算機(jī)化自適應(yīng)化測(cè)驗(yàn)方面,最具代表性的是文劍冰(2006)在其博士論文《應(yīng)用規(guī)則空間模型(RSM)討論了在診斷性計(jì)算機(jī)化自適應(yīng)測(cè)驗(yàn)(CAT)中的應(yīng)用》,該文通過(guò)實(shí)驗(yàn)研究方法分別考察了測(cè)驗(yàn)長(zhǎng)度、測(cè)驗(yàn)屬性的多少和它們之間的關(guān)聯(lián),測(cè)驗(yàn)使用試題的復(fù)雜程度、試題的隨機(jī)參數(shù)大小,以及項(xiàng)目反應(yīng)理論模型等因素對(duì)于模型估計(jì)準(zhǔn)確性的影響,同時(shí),還考察了各因素之間的交互影響作用。國(guó)內(nèi)還有其他方面關(guān)于認(rèn)知診斷測(cè)驗(yàn)的編制研究。這些測(cè)驗(yàn)都是在小范圍內(nèi)或者通過(guò)模擬數(shù)據(jù)方法進(jìn)行,真正用于我國(guó)大規(guī)??荚嚨膶?shí)際數(shù)據(jù)的應(yīng)用還未出現(xiàn)。
在國(guó)外的研究中,有許多學(xué)者將不同的認(rèn)知診斷模型應(yīng)用于考試實(shí)踐,如K.K Tatsuoka、Samejima、Dibello&Stout、Fumiko、G.Edward Miller、Hua H.Chang等人將不同的認(rèn)知診斷模型(CDM)應(yīng)用于不同類型的教育測(cè)驗(yàn)當(dāng)中,這其中包括了小范圍內(nèi)教師用于診斷小學(xué)四年級(jí)的四則運(yùn)算測(cè)驗(yàn),如Tatsuoka 及其同伴(1990,1995,1997)[14]運(yùn)用該模型對(duì)具有9個(gè)認(rèn)知屬性的“分?jǐn)?shù)加法”的掌握模型進(jìn)行診斷,將593名學(xué)生中的90%歸為33種掌握模式,并在此基礎(chǔ)上建立了具有認(rèn)知診斷功能的計(jì)算化的自適應(yīng)測(cè)驗(yàn),并同時(shí)對(duì)于未掌握的屬性加以補(bǔ)救。G.Edward Miller,Hua H.Chang《在大規(guī)??荚囋u(píng)價(jià)中的補(bǔ)充性診斷測(cè)驗(yàn)》中就指出,運(yùn)用Fusion模型對(duì)美國(guó)有影響的PSAT考試及高中畢業(yè)考試進(jìn)行認(rèn)知診斷,同時(shí),運(yùn)用模擬研究方法從題目特性和測(cè)量維度上估計(jì)了屬性掌握分類的精確性。
綜觀國(guó)內(nèi)外各種認(rèn)知與測(cè)量模型相結(jié)合的研究,研究的視角主要在于:一是對(duì)測(cè)量模型的基礎(chǔ)理論研究,主要研究模型使用的條件、各種模型之間的參數(shù)估計(jì)精度的比較,并側(cè)重于方法本身診斷率的改善。二是側(cè)重于具體學(xué)科的應(yīng)用,應(yīng)用較多的領(lǐng)域是數(shù)學(xué)(尤其是小學(xué)數(shù)學(xué))、語(yǔ)言、建筑及其在計(jì)算機(jī)適應(yīng)性測(cè)驗(yàn)當(dāng)中。三是開發(fā)具有認(rèn)知診斷功能的教育測(cè)驗(yàn),并運(yùn)用于考試實(shí)踐中。四是認(rèn)知診斷模型呈現(xiàn)多種類型、在吸取各自優(yōu)點(diǎn)的基礎(chǔ)上揚(yáng)棄并互為補(bǔ)充,同時(shí)研究者根據(jù)某個(gè)具體的模型進(jìn)行模擬研究的認(rèn)知診斷。
到目前為止,各種用于測(cè)驗(yàn)的診斷模型有很多種,國(guó)外有研究者統(tǒng)計(jì),研究者至少已開發(fā)出60種認(rèn)知診斷的模型[15]并被應(yīng)用于認(rèn)知診斷,就已開發(fā)應(yīng)用的這些模型看,可以對(duì)認(rèn)知診斷模型作一個(gè)簡(jiǎn)單的歸類。認(rèn)知診斷的測(cè)量學(xué)模型有兩個(gè)基礎(chǔ)性的模型,一種是Fisher[16]提出的線性邏輯斯諦克特質(zhì)模型(linear logistic trait model);另一種是Tatsuoka等人提出的規(guī)則空間模型(rule space methodology)。前一個(gè)模型是潛在特質(zhì)模型的擴(kuò)展,目的是剖析觀察分?jǐn)?shù)下被試的潛在特質(zhì)。后一個(gè)模型是潛在分類模型的擴(kuò)展,目的是按被試在潛在特質(zhì)上質(zhì)的差異將被試進(jìn)行分類。以線性邏輯斯諦克特質(zhì)模型為基礎(chǔ)發(fā)展出的模型有多成分潛在特質(zhì)模型(multicomponent trait model)[17]、線性指數(shù)模型(linear exponential model)[18]等十余種。聯(lián)合線性邏輯斯諦克特質(zhì)模型和規(guī)則空間模型發(fā)展出的模型有聯(lián)合(統(tǒng)一)模型(unified model)[19]、融合模型(fusionmodel)[20]、DINA 模(deterministic input,noisy and gate model)[21]NIDA 模 型(noisy inputs,deterministic,and gatemodel)[22]等。
通觀各種有關(guān)認(rèn)知診斷應(yīng)用于各種類型考試的研究,不同的研究者提出了很多的認(rèn)知診斷測(cè)量模型,每個(gè)模型都有它的優(yōu)缺點(diǎn),如張華華(2007)在《在大規(guī)模考試評(píng)價(jià)中的補(bǔ)充性診斷測(cè)驗(yàn)》中認(rèn)為一個(gè)成功模型的應(yīng)當(dāng)具備以下幾個(gè)特征:(1)被試屬性的估計(jì);(2)與題目屬性相關(guān)的能力估計(jì);(3)模型參數(shù)的識(shí)別。限于篇幅,本文對(duì)這些認(rèn)知診斷模型不作一一介紹。
認(rèn)知診斷評(píng)價(jià)理論是認(rèn)知心理學(xué)和心理測(cè)量理論發(fā)展相結(jié)合的產(chǎn)物,盡管評(píng)價(jià)模型本身還有諸多不完善之處,但在實(shí)踐應(yīng)用中,仍然體現(xiàn)了它的優(yōu)越性,已為眾多發(fā)達(dá)國(guó)家所使應(yīng)用,應(yīng)用各類模型可以對(duì)學(xué)生的內(nèi)在知識(shí)結(jié)構(gòu)進(jìn)行量化分析,主要意義在于:
(1)超越了過(guò)去以一個(gè)簡(jiǎn)單的學(xué)業(yè)成績(jī)總分來(lái)評(píng)判學(xué)生能力的評(píng)價(jià)模式;
(2)它能夠挖掘出學(xué)生更深層次認(rèn)知結(jié)構(gòu)上的信息,這些信息將為過(guò)程性評(píng)價(jià)、形成性評(píng)價(jià)、發(fā)展性評(píng)價(jià)提供重要的證據(jù)和信息;
(3)對(duì)學(xué)生的測(cè)驗(yàn)結(jié)果即分?jǐn)?shù)報(bào)告系統(tǒng)將更為細(xì)致,解釋起來(lái)具有操作性和針對(duì)性;
(4)有利于教師開展“因材施教”,并為教育監(jiān)測(cè)和評(píng)估等教育決策部門提供有利的參考。
因此,認(rèn)知診斷模型用于現(xiàn)階段考試評(píng)價(jià)——基礎(chǔ)教育監(jiān)測(cè)與評(píng)價(jià)提供了有力的診斷工具,具有極大的應(yīng)用價(jià)值和廣闊的應(yīng)用前景,筆者認(rèn)為,認(rèn)知診斷評(píng)價(jià)模型應(yīng)用在基礎(chǔ)教育監(jiān)測(cè)和評(píng)估上作以下幾點(diǎn)展望:
第一,編制具有實(shí)質(zhì)性意義上的認(rèn)知診斷測(cè)驗(yàn),使認(rèn)知結(jié)構(gòu)與測(cè)量相結(jié)合;
第二,改革現(xiàn)有考試分?jǐn)?shù)報(bào)告形式,給出具有診斷功能的評(píng)價(jià)分?jǐn)?shù)報(bào)告;
第三,評(píng)價(jià)方式走向多元,真正實(shí)現(xiàn)對(duì)考生的發(fā)展性評(píng)價(jià)等多元評(píng)價(jià),為提高我國(guó)基礎(chǔ)教育質(zhì)量提供依據(jù);
第四,更有利于我國(guó)同國(guó)際學(xué)生評(píng)估項(xiàng)目的接軌,使我國(guó)評(píng)價(jià)方法和手段進(jìn)一步科學(xué)化。
[1]漆書青,戴海崎,丁樹良.現(xiàn)代教育與心理測(cè)量學(xué)原理[M].北京:高等教育出版社.2002.
[2]Robert J.sternberg,Timothy P.Mcnamara.The representation and processing of information in real-time verbal comprehension.In Susan E.Embretson9(Eds.).Test design:developments in psychology and psychometrics.Harcout Brace Jovanovich,Publishers.1985:21-44.
[3]Robert J.sternberg,Timothy P.Mcnamara.The representation and processing of information in real-time verbal comprehension.In Susan E.Embretson9(Eds.).Test design:developments in psychology and psychometrics.Harcout Brace Jovanovich,Publishers.1985:21-44.
[4]EarlC.Butterfield,DonnNielsen,KennethL.Tangen,MichaelB.Richardson.Theoretically based psychometric measures of inductive reasoning.In Susan E.Embretson9(Eds.).Test design:developments in psychology and psychometrics.Harcout Brace Jovanovich,Publishers.1985:77-147.
[5]劉聲濤,戴海崎,等.新一代測(cè)驗(yàn)理論——認(rèn)知診斷理論的源起與特征 [J].心理學(xué)探新,2006(4):73-77.
[6]余嘉元.運(yùn)用規(guī)則空間模型識(shí)別解題中的認(rèn)知錯(cuò)誤[J].心理學(xué)報(bào),1995(5),vol.27(2):196-203.
[7]戴海崎,張青華.規(guī)則空間模型在描述統(tǒng)計(jì)學(xué)習(xí)模式識(shí)別中的應(yīng)用研究 [J].心理科學(xué),2004(4):959-951.
[8]黃小平,戴海崎.規(guī)則空間模型在口腔內(nèi)科分?jǐn)?shù)報(bào)告中的應(yīng)用的研究[J].中國(guó)考試,2008(8):3-8.
[9]黎嬌.規(guī)則空間模型在中學(xué)物理教育評(píng)價(jià)中的實(shí)證研究——以歐姆定律學(xué)習(xí)為例[D].2008年碩士學(xué)位論文.
[10]劉啟亮,陳正順,羅志華.規(guī)則空間模型在初中化學(xué)教學(xué)中的應(yīng)用研究[J].網(wǎng)絡(luò)財(cái)富,2009(5):132-133.
[11]祝玉芳,丁樹良.規(guī)則空間模型理論基礎(chǔ)的改進(jìn)[J].江西師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2008(2):69-72.
[12]曾玲艷.認(rèn)知診斷中分類準(zhǔn)確率的研究[D].2010年碩士學(xué)位論文.
[13]孫佳楠,張淑梅,辛濤,包鈺.基于Q矩陣和廣義距離的認(rèn)知診斷方法[J].心理學(xué)報(bào),2011,43(9):1005-1102.
[14]Tatsuoka,K.K&Tatsuoka,M.M.Computerized cognitive diagnostic adaptivetesting:effect on remedial instruction asempirical validation.1997.
[15]Hartz,S.M.A Bayesian Framework for the Unified Model for Assessing Cognitive Abilities:Blending Theory with Practicality.Unpublished doctoral dissertation,University of Illinois at Urbana-Champaign.2002.
[16]Hartz,S.,Roussos,L.&Stout,W.Skill Diagnosis:Theory and Practice.User Manual for Arpeggio software.Princeton,NJ:Educational Testing Service.2002.
[17]Susan E.Embretson.Multicomponent Latent Trait Models for Test Design.In Susan E.Embretson(Eds.).Test design:developments in psychology and psychometrics.Harcout Brace Jovanovich,Publishers.1985:195-218.
[18]Hartman Scheiblechner.Psychometric Models for Speed-Test Construction:The Linear Exponential Model.In Susan E.Embretson(Eds.).Test design:developments in psychology and psychometrics.Harcout Brace Jovanovich,Publishers.1985:219-244.
[19]Dibello L.V.,Stout W.F.,Roussos L.A.,Unifies Cognitive/Psychometric Diagnostic Assessment Likelihood-Based Classification Techniques.In Paul D.Nichols,Susan F.Chipman,Robert L.Brennan(Eds.)Cognitively diagnostic assessment ,Lawrence Erlbaum Associates,Inc.1995:361-390.
[20]Hartz,S.,Roussos,L.&Stout,W.Skill Diagnosis:Theory and Practice.User Manual for Arpeggio software.Princeton,NJ:Educational Testing Service.2002.
[21]Robert Henson,Jeff Douglas.Test Construction for Cognitive Diagnosis.Applied Psychology Measurement,Vol.29 No.4,July 2005:262-277.
[22]Fischer,G..H.Thelinear logistic test model asan instrument in educational research.Acta Psychological,1973(37):359-374.
[23]Carpenter,P.A.,Just,M.A.,&Shell,P.What one intelligencetest measures:A theoretical account of processing in the Raven’s Progressive Matrices Test.Psychological Review,1990(97).
[24]Piswanger,K.Cross-cultural comparisonsby means of the matrices these of Formann.In German.Unpublished doctoral dissertation,University of Vienna,Vienna.1975.
[25]Fischer,G.h and Forman,A.K.Some applications of logistic latent trait modelswith linear constraintson theparameters.Applied Psychological Measurement 1982(4):397-416.
[26]康春花,戴海崎.采用LLTM作測(cè)量與認(rèn)知結(jié)合研究的初步探討[J].心理科學(xué),2001(5):569-572.
[27]Tatsuoka,K.K.Rule Space:An approach for dealing with misconceptions based on item response theory.Journal of Educational Measurement,1983,20(4):345-354.
[28]Tatsuoka,K.K.Toward integration of item response theory and cognitive error diagnoses.In N.Frederiksen,R.L.Glasser,A.M.Lesgold,and M.G.Shafto(Eds.),Diagnostic monitoring of skills and knowledge acquisition,1990,453:486.Hillsdale,NJ:Lawrence Erlbaum Associates.
[29]Tatsuoka,K.K.Architecture of knowledge structure and cognitive diagnosis:A statistical pattern recognition and classification approach.In P.D.Nichols,S.F.Chipman,and R.L.Brennan(Eds.),Cognitively Diagnostic Assessment.327:361.Hillsdale,NJ:Lawrence Erlbaum Associates.Journal of Educational Measurement,1995,34(1):3-20.
[30]DiBello,L.,Stout,W.,and Roussos,L.Unified cognitive/psychometric diagnostic assessment likelihood-based classification tech-techniques.In P.D.Nichols,S.F.Chipman,and R.L.Brennan(Eds.),Cognitively Diagnostic Assessment(p.361-389).Hillsdale,NJ:Lawrence Erlbaum Associates.1995.
[31]DiBello,L.,Stout,W.,and Hartz,S.On identifiability of parameters in the unified model for cognitive diagnosis.Paper presented at the Annual Metting of Psychometric Society,Vancouver,Canada.2000.
[32]Hartz,S.,Roussos,L.,and Stout,W.A bayesian framework for the unified model for assessing cognitive abilities:Blending theory with practicality.Unpublished doctoral dissertation,University of Illinoisat Urbana-Champaign.2002.
[33]Hartz,S.,Roussos,L.,and Stout,W.Skills Diagnosis:Theory and Practice.User Manual for Arpeggiosoftware.ETS.2002.