摘要:語言測試是我國現(xiàn)行考試體系中比重最大、普及范圍最廣、影響范圍最廣的考試。語言測試在教育、人事選拔等領域都發(fā)揮著無可替代的作用。社會對考試結果的認可越高,對考試的專業(yè)性要求也就越高。語言考試實際上已經(jīng)成為了一項高風險考試。本文對考試分數(shù)的合成方法做了總結,以其為相關研究提供參考。
關鍵詞:語言測試;合成;方法
一、引言
中國是最早使用考試的國家,從古代的科舉發(fā)展到現(xiàn)代的考試,考試在教育、人事選拔、職業(yè)能力鑒定等領域都發(fā)揮著無可替代的作用。受國外托福、雅思等語言測試的影響,國內(nèi)于70年代末開始引進或開發(fā)第二語言測試。第二語言測試是針對第二語言習得提出的,如大學英語考試(CET)、英語水平考試(EPT)、公共英語水平考試(PETS)等。
語言測試的目的是評價學習者的學業(yè)成就或語言水平,評估教學效果。除此之外,CET、托福、雅思、PETS等語言測試的結果已經(jīng)成為人才選拔時的重要依據(jù);英語作為國內(nèi)學校教授的最主要的第二語言,在高考選拔中的重要性越來越高。社會對考試結果的認可越高,對考試的專業(yè)性要求也就越高。語言考試實際上已經(jīng)成為了一項高風險考試。
語言測試專業(yè)性不僅表現(xiàn)在題目的命制、考試組織與管理、考試結論的應用等方面,更體現(xiàn)在開始分數(shù)的導出、報告與解釋上。但目前國內(nèi)自主組織的語言測試依然采取基于經(jīng)典測量理論的分數(shù)合成方法,使得考試之間的可比性、分數(shù)解釋的科學性、結果應用的外部效度都受到了極大的影響。
本文擬從經(jīng)典測量理論和現(xiàn)代測量理論的角度,對國內(nèi)幾種常見分數(shù)合成方式的原理與特點做比較分析,并提出語言測試分數(shù)合成及報告的解決方案。
二、分數(shù)合成方法的分類
語言測試屬于典型的能力水平測試,是教育與心理測量學領域的重要研究主題。對能力測試數(shù)據(jù)的分析經(jīng)過了兩個重要的發(fā)展階段。以1968年Lord發(fā)表《心理測驗分數(shù)的統(tǒng)計理論》為界,教育與心理測量學經(jīng)歷了經(jīng)典測量理論和現(xiàn)代測量理論兩個發(fā)展階段。19世紀末真分數(shù)理論提出到20世紀60年代末的70年間是經(jīng)典測量理論占主導的發(fā)展階段。經(jīng)典測量理論為教育與心理測評的發(fā)展做出了卓越的貢獻,但也存在很多理論本身無法避免的缺陷。最典型的缺陷是:“統(tǒng)計指標與實際意義相悖”,以難度的計算為例,客觀題難度即正確率。例如選擇題正答率為0.8則難度為0.8,代表題目非常簡單;若正答率為0.1則難度為0.1,代表題目非常難。難度的理論區(qū)間為[0,1],數(shù)值越大難度越小、數(shù)值越小反而難度越大。經(jīng)典測量理論的缺陷還包括:題目屬性的分析依賴于被試樣本、分數(shù)不等距、基于加權累積方式合成分數(shù)等。為解決這一問題,以項目反應理論、概化理論為代表的現(xiàn)代測量理論逐漸發(fā)展起來。項目反應理論是現(xiàn)代測量理論的核心理論。與經(jīng)典測量理論相比,項目反應理論深入測驗的微觀領域,通過將學生與項目(題目)關聯(lián)起來并進行參數(shù)化、模型化,解決了經(jīng)典測量理論的諸多缺陷。
因此,語言測試的分數(shù)合成與解釋也分為經(jīng)典測量理論和項目反應理論兩種類型?;诮?jīng)典測量理論的分數(shù)合成方法包括直接相加法、加權累積法、多重分段法;基于項目反應理論的分數(shù)合成方法主要包括只考慮難度、區(qū)分度等題目特征的項目反應模型合成法;綜合考慮題目特征、評卷教師特征、考生特征的多面Rasch模型分析法。
三、基于經(jīng)典測量理論的分數(shù)合成
(一)直接相加法
直接相加法就是將測驗中的各個維度直接累加得到一個分數(shù)。一個完整的語言測試,一般會同時設計語言學習的多個方面,如英語考試一般會包括聽力、口語、閱讀、寫作四個維度。以直接相加法計算的英語考試成績就是四個維度得分的簡單加總。
各維度之間的得分直接相加的前提是各種分數(shù)之間是同質(zhì)的,且各維度或分測驗的得分在總分中所占的權重相同。在滿足上述前提的情況下,直接相加法具有操作簡便、容易理解、處理快速等優(yōu)點。
英語的聽力測試、口語測試、閱讀測試、寫作測試分別對應聽、說、讀、寫四種能力。學術界對二語能力的結構尚未形成統(tǒng)一的認識,主要的爭議在于:聽、說、讀、寫是四種獨立的語言能力,還是統(tǒng)一在語言能力下的四個方面。只有后一種理論才滿足四個測驗是同質(zhì)的,才允許將四個得分直接相加。另外,語言測試中,針對不同的能力設計了不同的題型,如聽力、閱讀等能力的測試以客觀題為主,寫作能力的測試以主觀題為主。兩類題目從考察的認知能力、題目難度、考察方式上都有明顯區(qū)別,不考慮這些差別的情況下直接將得分相加顯然不太合理。
(二)加權累積法
為解決直接相加法不考慮題目難度、認知要求、考察方式等差異的缺陷,加權累積法根據(jù)題目屬性之間的差異,給予不同的權重,然后進行加權求和計算總分。合成分數(shù)過程中的權重是命題者根據(jù)題目的不同屬性賦予的。如高考英語中,考察閱讀能力的客觀題每答對一題計4分,考察聽力能力的客觀題每答對一題計1.5分,考察語言知識運用的客觀題每答對一題計0.5分。加權累積法雖然增加了權重,但除了權重的設計需要一定的理論支持,分數(shù)的合成過程仍簡單快捷,因此在教育考試中應用最為廣泛。
加權的方式一定程度上解決了不同題目測量屬性有別的問題。但權重的確定沒有統(tǒng)一標準,均由命題者主觀確定。這就有可能導致不同作答模式被試因加權方法不同,得到的分數(shù)不同。假設兩名學生參加通一次英語考試,考試中聽、說、讀、寫各一個題目。甲學生做對了聽、說、讀三個題目,乙學生做對了說、讀、寫三個題目。若四個題目的權重為1:1:1:2,則甲學生得3分、乙學生得4分;若四個題目的權重為1:1:1:1,則兩名學生得分相同,均為3分。這表明,完全主觀的權重設計有可能影響評價結果的效度。
(三)多重分段法
為解決加權累積法在權重設置上的缺陷,當認為語言測試中的各項分測驗不具有互償性時,就采取為每個測驗指定一個計分標準?;斝允侵窤測驗上的高分不能彌補B測驗上的低分。例如在語言測試中,一名學生聽力能力上的高低不能影響其在寫作測驗上的表現(xiàn)。
語言測試中的多重分段法是指語言能力的評價和預測可以有多個預測源,且這些預測源的預測方法、計分方式各不相同。如口語能力和閱讀能力都是語言能力的一部分,但聽力能力以一對一的口語交流形式來評價,閱讀能力以紙筆測驗的形式來評價。兩種能力有本質(zhì)的不同,兩個測試得分不能相加。所以需要在每個分測驗內(nèi)獨立評價。在使用這些得分評價及篩選學生時,應分別劃線。如托福、雅思考試,在報告考生分數(shù)時將不同能力模塊分開報告。
多重分段法解決了不同能力得分不能相加的問題,但也違背了分數(shù)合成的經(jīng)濟性原則。更豐富的分數(shù)報告雖然保證了科學性,但不報告總分的形式也給選拔工作增加了困難。
四、基于項目反應理論的分數(shù)合成
在經(jīng)典測量理論框架下的分數(shù)合成方法,雖然考慮到了題型、考察內(nèi)容、難度等題目屬性,但在分數(shù)合成過程中主觀因素對總分的影響很大。如何真正實現(xiàn)基于題目屬性的客觀測量是語言測試所面臨的最大挑戰(zhàn)。
項目反應理論的提出,解決了這一難題。以最簡單的Rasch模型為例,認為被試正確作答題目的概率可以用個體能力θ與該題目難度δ的一個簡單函數(shù)來表示:
f(Pni1)=θn-δi
其中,Pni1表示考生n回答第i個題目得1分的概率。在0-1計分題目中,得1分表示考生答對該題目。函數(shù)表示被試答對該題的概率Pni1取決于考生能力θn及題目難度δi。Rasch利用自然常數(shù)進行轉換,使用最大似然估計法經(jīng)過多次迭代估計出考生能力。整個計算過程中未對任何題目進行加權,僅考慮考生作答情況。因此,分數(shù)合成過程更加客觀、科學。
基于項目反應理論的分數(shù)合成結果還有以下幾個優(yōu)點:
1.針對不同被試精確估計測量誤差。經(jīng)典測量理論的分數(shù)合成過程對誤差的控制很弱。項目反應理論將考生參數(shù)估計和題目參數(shù)估計統(tǒng)一在同一個框架下,對誤差的控制可以精確到每一名考生和每一個題目。
2.分數(shù)合成僅依賴題目與考生特征。經(jīng)典測量理論的任何題目參數(shù)的計算都受考生能力分布的影響。例如難度的計算,難度以正答率為指標。如果答題的學生能力普遍偏高,則計算出的題目難度就低,反之如果答題的學生能力普遍偏低,則計算出的題目難度就高。題目不變,但計算出的題目參數(shù)差異巨大,這顯然是確定題目參數(shù)的算法不合理?;陧椖糠从忱碚摰暮铣煞椒▋H考慮難度與能力兩個因素,且通過算法保證了在考生能力分布不同狀況下題目難度穩(wěn)定。
3.能力與難度具有統(tǒng)一量尺
基于經(jīng)典測量理論的分數(shù)合成方法得到的總分與題目難度之間沒有可比性。例如,經(jīng)典測量理論無法估預測一名總分為80分的學生在一個難度為0.8的題目上的正答率。項目反應理論解決了這一問題,將學生能力與題目難度統(tǒng)一在同一個量尺下,單位統(tǒng)一為Logit。
但基于項目反應理論的分數(shù)合成在數(shù)據(jù)的收集、參數(shù)估計等方面要求都比較高,這從一定程度上限制了這一方法的推廣。但隨著計算機技術、測量學技術的普及,更加科學、合理的分數(shù)合成方法一定會快速普及起來。
五、總結
總體來說,采取哪種分數(shù)合成方法應當是在綜合考慮人力、財力、測試目的等多個因素后決定的。在考慮上述因素的情況下,綜合運用多種合成方法,從多個角度評價考生才能夠保證分數(shù)報告的科學性、合理性。
【參考文獻】
[1]袁方,朱軍梅.多面Rasch模型:結構化面試分數(shù)合成的新方法[J]. 中國人力資源開發(fā),2009(08):53-55.
[2]陽輝,車宏生,卞冉.分數(shù)合成:測評中不可忽視的重要環(huán)節(jié)[J]. 中國人才,2008 (15):49-51.
[3]王克盈.關于測驗分數(shù)合成方法的探討[J].陜西教育學院學報, 2000(01):73-76.
[4]郭述平,金松堯.兩種分數(shù)合成方法的比較[J].遼寧高等教育研究,1990(02):133-135.
作者簡介:袁淑敏( 1980—),女,貴州貴陽人,貴陽學院,講師,碩士,研究方向:應用語言學。