王喜軍
摘要: 考試研究方法對高效、科學的考試研究具有重要的方法學意義,更新考試理念,創(chuàng)新考試研究方法是我國考試研究的發(fā)展方向之一。本文從理論基礎、數(shù)據(jù)處理、變量關系、結果解釋四個方面探討我國考試研究方法發(fā)展的新方向,并從這四個方面分別介紹了新進考試研究的轉向??荚囇芯糠椒ǖ目茖W發(fā)展有利于完善我國的考試研究。
關鍵詞: 考試研究方法轉向
我國隋朝產(chǎn)生的科舉考試制度是后期西方現(xiàn)代文官考試的源頭,因此可以說現(xiàn)代化的考試最早起源于我國。考試是一種考查學生學習水平,從而合理分配教育資源的活動。作為世界人口第一大國,從規(guī)模、覆蓋范圍、人員參與度等多種因素來講,我國的考試規(guī)模空前龐大、絕無僅有。然而,我國的考試研究卻有些落后。科學、公正的考試制度是高效人才培養(yǎng)的保障,如果考試本身沒有什么問題,那么現(xiàn)今對于考試的批評又如何解釋呢?瑞典著名教育社會學家胡森提出教育公平理論:教育公平依次表現(xiàn)在效率優(yōu)先的起點均等論、公平優(yōu)先的過程均等論和突出個性發(fā)展的結果均等論。在考試中也表現(xiàn)為考試前(試卷編制),考試中(考試過程控制),考試后(考試數(shù)據(jù)分析及考試后效)。
對于考試研究要從動態(tài)的過程中合理把握,考試研究方法是研究考試過程的基本工具。自從科學化測量理論建立以來,考試研究方法不斷發(fā)展,本文主要從以下四個方面闡述。
一、基本理論——從經(jīng)典測量理論到現(xiàn)代測量理論
考試研究的理論基礎是基于測量理論,真正意義上的標準化的考試產(chǎn)生于西方,其標志是1905年比納與西蒙編制的應用于智力測量的比納—西蒙量表。傳統(tǒng)的經(jīng)典測量理論(CTT)在五六十年代走向成熟,標志是1950年Gulliksen Theory of Mental Test一書的出版,理論上總結經(jīng)典測量理論發(fā)展脈絡,以及主要成果。CTT有其自身的不足:首先,對誤差的估計粗糙;其次,考試結果的推論范圍不恰當;再次,考生的能力參數(shù)嚴重依賴試題樣本;最后,題目難度參數(shù)與考生的能力參數(shù)定義在不同量表上。
正是CTT的不足,催生了概化理論(GT)與項目反應理論(IRT)。概化理論將實驗設計的思想引入對測驗的分析,突出的特點是:對一次測量,可以根據(jù)研究目的不同提供多個測量信度。目前,概化理論應用于高考研究、表現(xiàn)性評價與結構化面試等領域。項目反應理論將項目特質與考生的能力參數(shù)定義在相同量表上,這就意味著不同測量量表的分數(shù)可以統(tǒng)一。項目反應理論通過項目特征曲線對各種項目分析的資料進行綜合研究,可以直觀地看出項目難度、鑒別度等項目分析的特征,從而起到指導項目篩選和編制測驗比較分數(shù)等作用,其在計算機自適測驗、測驗等值問題研究、題庫建設方面有廣闊的前景。
二十世紀九十年代,一種理論對以上三種提出了挑戰(zhàn)——認知診斷理論。綜合運用認知心理學的理論與測量理論,對于測驗的編制到結果解釋的全過程提出了不同于以往理論的新的關注點。認知診斷理論,注重對學生學習的認知過程、認知方法的解釋,不瞞于經(jīng)典理論的線性的解釋,在評價分數(shù)的背后應該闡明學生在認知方面的優(yōu)勢與缺陷。目前這一理論的應用范圍不廣泛,只在美國的PSAT中應用,但是越來越多的人承認,這是今后測量理論發(fā)展的新方向,某種程度上具有革命意義。
二、數(shù)據(jù)處理——定性方法與定量方法的轉變
數(shù)據(jù)處理問題上傳統(tǒng)的數(shù)據(jù)分析要求所研究的數(shù)據(jù)是連續(xù)變量并且正態(tài)分布,這一要求在物理、化學等領域中是比較容易獲得的,但是在教育之中有許多特質是不能用嚴格的比率量表測量的,滿足不了對于數(shù)據(jù)處理的要求。這是對于數(shù)據(jù)的橫向比較。對于每一個個體的縱向比較而言,依據(jù)總分對個體評價也是不合適的,相同總分的個體不代表他們的能力特質與結構相同,雖然總分相同,但是題目的作答組合有很多,所體現(xiàn)的能力也很可能有質的差異。潛在類別模型(LCM)是探討潛在變量的模型化分析技術,潛在類別分析處理的是類別變量。類別變量雖然沒有連續(xù)變量的技術特征,所得結論與統(tǒng)計方式都相對單一,但是在實際應用中類別變量在教育中有廣泛的適用性,尤其在考試研究中許多變量類型屬于潛在變量。潛在類別分析的優(yōu)勢在于把類別數(shù)據(jù)與潛在變量的觀念加以結合,提高了類別變量的分析價值。潛在類別分析方法能體現(xiàn)考生具體的能力傾向,尤其是在多維的試題中或者是需要綜合各科成績進行分析時,能更客觀地刻畫考生在各種能力維度上的表現(xiàn)。
三、變量關系——線性與非線性的轉變
考試研究中變量關系的分析,往往關注變量之間的直線關系,運用一元或是多元線性回歸,探討變量之間的數(shù)量關系。回歸分析通過建立變量間的數(shù)學模型對變量進行預測和控制。有時研究者會關心兩個學科之間是否存在相關關系,是否可以用一科成績預測另外一科成績,這時候就要運用一元回歸分析。如果自變量的控制不是一個,那么預測源的分析就要用多元回歸。但是這種回歸分析只能在兩變量或多變量是線性關系時才適用。在考試研究中許多特質之間存在非線性相關,例如,考試焦慮與學習成績之間的關系,可以用耶克斯—多德森定律來解釋呈倒U型關系。這就是一種非線性相關,可以運用曲線回歸來解釋變量之間的關系,可是現(xiàn)在沒有一種軟件用來進行多元曲線回歸。而且,回歸分析并不能說明變量之間的因果關系。
為了克服變量之間關系探討的多形態(tài)、多維度,以及因果關系的分析,考試研究中引入結構方程模型(SEM),展開探索性與驗證性分析。探索性因素分析是在研究的初始階段用來簡化數(shù)據(jù)與初步探索潛在維度,以統(tǒng)計為導向的;驗證性因素分析與探索性因素分析的不同在于,驗證性因素分析是以理論為導向,先是進行理論建構,之后再對其檢驗。20世紀80年代以來結構方程在社會科學中的應用被譽為是應用統(tǒng)計的第三次革命,尤其是驗證性因素分析,通過建立測量方程與結構方程,探尋全變量之間的關系。對考試試卷的潛在維度分析、題目與所測特質一致性關系分析,以及題目本身性質,均可以運用結構方程。
四、結果解釋——單維與多維的轉變
考試結果的解釋是考試研究中重要的一環(huán),可以說對結果解釋正確與否決定了考試分析過程的意義。傳統(tǒng)上的考試結果解釋,運用信度、效度、難度與區(qū)分度四大指標。以難度為例,難度通常用通過率來表示,通過率越高說明題目越簡單,實際上用通過率表示是值得商榷的。難度是一個相對指標,與被試群體特質相關,被試群體能力越強,同一題目的難度就越小,難度的解釋是相對的。如此來說,運用某一指標來解釋考試分析結果受外在因素影響,應該從多維度角度來闡釋考試結果。在大規(guī)??荚囍校裰锌?、高考這樣的考試往往人員涉及多,社會影響大。同時考試的群體來自差異較大的不同省、市、自治區(qū),不同類型的學校。通常會以地區(qū)平均值等指標來評定考試狀況,實際上不同水平被試由于其自然與社會條件所限,某些群體之間的比較會掩蓋一些更小群體的特性。將所處不同地位的群體分開來研究的思想正是基于此。多層線性模型運用不同層面嵌套的方法處理不同分層的群體。例如上面提到的學生嵌套于學校,學校嵌套于地區(qū)。多層線性模型考慮了變量之間的不同水平,符合考試的實際情況。
整體看來,在我國現(xiàn)代考試研究中還沒有一種思想與方法是可以解決所有的考試中的問題,不同的研究者依據(jù)自己的研究目的,立足不同視角。最終的目標就是在傳統(tǒng)考試的基礎上構建一個科學的教育與考試評價體系,實現(xiàn)從考試到評價的躍升,這既是對現(xiàn)有考試制度進行改革的核心問題,又是教育改革的關鍵所在。
參考文獻:
[1]邱皓政.潛在類別模型的原理與技術[M].北京:教育科學出版社,2008.
[2]張厚粲,徐建平.現(xiàn)代心理與教育統(tǒng)計學[M].北京:北京師范大學出版社,2007.
[3]戴家干.從考試到評價——論我國考試與評價制度的改革[J].中國考試,2010,(2).