余錦璇
(北京理工大學(xué)珠海學(xué)院 519000)
基于計(jì)算機(jī)的語言測(cè)試及其效度驗(yàn)證
余錦璇
(北京理工大學(xué)珠海學(xué)院 519000)
近幾年,由于計(jì)算機(jī)技術(shù)不斷發(fā)展,使其與認(rèn)知科學(xué)、語言學(xué)以及測(cè)量學(xué)等方面結(jié)合在一起,對(duì)成績(jī)報(bào)道與分析、試題設(shè)計(jì)編寫、評(píng)分、任務(wù)呈現(xiàn)、評(píng)估與語言測(cè)試管理等產(chǎn)生了異常重要的影響。具備高真實(shí)性的測(cè)試題型以及計(jì)算機(jī)自動(dòng)評(píng)分系統(tǒng)和測(cè)試技術(shù)的應(yīng)用,使測(cè)試結(jié)果的可靠性和測(cè)試概念的代表性得到了提升。所以,管理者和語言測(cè)試開發(fā)人員也越來越青睞建立在計(jì)算機(jī)基礎(chǔ)之上的語言。本文就基于計(jì)算機(jī)的語言測(cè)試進(jìn)行了大致闡述,并對(duì)其效度進(jìn)行了驗(yàn)證,希望能為我國(guó)語言測(cè)試的進(jìn)步提供參考。
計(jì)算機(jī);語言測(cè)試;效度驗(yàn)證
隨著語言學(xué)、認(rèn)知科學(xué)和測(cè)量學(xué)等相關(guān)學(xué)科的不斷發(fā)展,計(jì)算機(jī)技術(shù)讀語言測(cè)試與評(píng)估也產(chǎn)生了巨大影響?,F(xiàn)代語言測(cè)試的語言學(xué)基礎(chǔ)經(jīng)歷了數(shù)次改革,測(cè)量學(xué)理論由經(jīng)典測(cè)試?yán)碚摪l(fā)展到概化理論和項(xiàng)目反映理論,計(jì)算機(jī)技術(shù)的發(fā)展促使語言測(cè)試的介質(zhì)發(fā)生變化,傳統(tǒng)基于紙筆的語言測(cè)試正向基于計(jì)算機(jī)的語言測(cè)試邁進(jìn),由機(jī)助語言測(cè)試發(fā)展到計(jì)算機(jī)適應(yīng)性語言測(cè)試,并且向基于網(wǎng)絡(luò)的個(gè)性化適應(yīng)性語言測(cè)試。
計(jì)算機(jī)技術(shù)在語言評(píng)估和測(cè)試方面所引起的轉(zhuǎn)變主要體現(xiàn)在如下兩點(diǎn):測(cè)量準(zhǔn)確度和管理實(shí)施效率。建立在計(jì)算機(jī)基礎(chǔ)之上的語言測(cè)試的發(fā)展?fàn)顩r大致可以歸為如下幾點(diǎn):
(1)計(jì)算機(jī)化的語言測(cè)試的初期階段。在計(jì)算機(jī)技術(shù)限制作用下,語言測(cè)試初期主要是將傳統(tǒng)筆試試題搬至計(jì)算機(jī)上。它的特點(diǎn)只是轉(zhuǎn)變了測(cè)試方式,而在測(cè)試概念和任務(wù)方面與筆試并無實(shí)質(zhì)性的差別。
(2)計(jì)算機(jī)語言測(cè)試的適應(yīng)性階段。測(cè)量學(xué)以及計(jì)算機(jī)技術(shù)的進(jìn)步使得新一代的語言測(cè)試技術(shù)開始出現(xiàn)。它能起到反饋的作用,在測(cè)試中加強(qiáng)了人性化和個(gè)性化,同時(shí)也提升了安全性。測(cè)試圍之可以使測(cè)試者提升興趣,使他們發(fā)揮最佳水平發(fā)揮,從而使受試者語言能力的測(cè)量更加準(zhǔn)確。
(3)自動(dòng)評(píng)分系統(tǒng)階段。自動(dòng)評(píng)分系統(tǒng)所應(yīng)用的范圍主要是寫作部分,這樣的評(píng)分系統(tǒng)受到學(xué)者和專家的質(zhì)疑,但是在學(xué)生自我評(píng)估以及高風(fēng)險(xiǎn)考試中卻得到了廣泛的應(yīng)用。由于自動(dòng)評(píng)分系統(tǒng)可以節(jié)省時(shí)間、人力和物力等相關(guān)資源,并且相較于人工評(píng)分其客觀性和準(zhǔn)確性還要更高一些。
2.1 語言測(cè)試效度在理論方面的發(fā)展?fàn)顩r
效度驗(yàn)證是語言評(píng)估與測(cè)試的主要研究的對(duì)象,效度理論演變過程大致可以分為如下幾個(gè)階段:
(1)單一效度觀時(shí)期(20世紀(jì)50年代以前)。20世紀(jì)初,人們只是在收集效標(biāo)關(guān)聯(lián)的效度證據(jù),因?yàn)楫?dāng)時(shí)還沒有明確的效度概念。30年代出現(xiàn)了明確的效度概念,一項(xiàng)測(cè)試是否真正測(cè)量了它所要測(cè)量的東西。隨后進(jìn)一步明確了效度操作化定義:一項(xiàng)測(cè)試分?jǐn)?shù)在多大程度上估計(jì)了測(cè)試分?jǐn)?shù)。效度僅僅被看作一種相關(guān)系數(shù),因而可稱之為“單一效度觀”。
(2)分類效度觀時(shí)期(20世紀(jì)50年代~80年代中期)。隨著對(duì)效度認(rèn)識(shí)的深入,人們意識(shí)到效度遠(yuǎn)非一個(gè)相關(guān)系數(shù)那么簡(jiǎn)單。對(duì)效度的多角度研究產(chǎn)生了各種效度。這些效度概念一方面說明效度的復(fù)雜性,另一方面也說明人們對(duì)效度的認(rèn)識(shí)雖有深化但并未達(dá)成共識(shí)。
(3)效度整體觀時(shí)期(80年代中期至今)。一些學(xué)者認(rèn)識(shí)到,人們?cè)谶x擇效度證據(jù)時(shí)存在嚴(yán)重的隨意性。效度三分法是零散、不全面的,因?yàn)闆]有考慮分?jǐn)?shù)意義的價(jià)值含義的證據(jù),也沒有考慮分?jǐn)?shù)使用的社會(huì)后果的證據(jù)。
2.2 建立在計(jì)算機(jī)基礎(chǔ)之上的語言測(cè)試效度驗(yàn)證
CBLT與別的語言測(cè)試相同,它也必須通過效度驗(yàn)證,在充足的試驗(yàn)和理論證據(jù)的支撐下才能證明其具備準(zhǔn)確性和有效性。
(1)CBLT能使效度得到提升。①新題型可以使后果效度和測(cè)試準(zhǔn)確性得到提升;②計(jì)算機(jī)適應(yīng)性的測(cè)試技術(shù)能對(duì)被試者進(jìn)行恰當(dāng)測(cè)量,從而使測(cè)量準(zhǔn)確性得到提升;③建立在認(rèn)知理論基礎(chǔ)之上的CBLT設(shè)計(jì)能使效度得到提升;④自動(dòng)評(píng)分系統(tǒng)相較于人工評(píng)分系統(tǒng)顯得更加的客觀和準(zhǔn)確。
(2)CBLT也可能是效度降低。①測(cè)試概念的代表性降低。在對(duì)適應(yīng)性題目進(jìn)行選擇之時(shí),需確保計(jì)算機(jī)程序在測(cè)量準(zhǔn)確度、題目呈現(xiàn)形式、內(nèi)容覆蓋面等方面保持平衡;②引入無關(guān)概念的因素,進(jìn)而對(duì)測(cè)量準(zhǔn)確性產(chǎn)生影響。受試者計(jì)算機(jī)技能差異以及計(jì)算機(jī)配置差異等無關(guān)概念的因素都會(huì)對(duì)受試者的測(cè)試結(jié)果產(chǎn)生影響;③產(chǎn)生一些不好的后果。使被試者的測(cè)試費(fèi)用增高,使測(cè)試任務(wù)數(shù)得到極大程度的縮減;④自動(dòng)評(píng)分系統(tǒng)還有待完善。雖然作文評(píng)分系統(tǒng)會(huì)按照人工評(píng)分方式來對(duì)評(píng)分程序加以設(shè)計(jì),進(jìn)而使評(píng)分客觀性和效率得到提升,但由于人們?cè)谡Z言工作機(jī)制認(rèn)識(shí)的不足,再加上計(jì)算機(jī)自身技術(shù)的局限性,使得某些評(píng)分人員可以掌握的語言能力計(jì)算機(jī)還不能達(dá)到。
(3)建立在計(jì)算機(jī)基礎(chǔ)之上的語言測(cè)試效度驗(yàn)證的策略。語言測(cè)試的效度理論認(rèn)為,整個(gè)測(cè)試的開發(fā)以及實(shí)施與使用中都會(huì)貫穿有效度驗(yàn)證。所以,在實(shí)施測(cè)試以前,需有制備一項(xiàng)完善的效驗(yàn)計(jì)劃,并在計(jì)劃中表明每個(gè)階段所需提供的實(shí)驗(yàn)和理論證據(jù)。
綜上所述,盡管CBLT取得了一定的成就,但其所面對(duì)的挑戰(zhàn)仍舊是巨大的。除開實(shí)施技術(shù)水平和測(cè)試開發(fā)方面需要提升,最為迫切的任務(wù)便是效度驗(yàn)證。最近幾年,國(guó)內(nèi)外很多學(xué)者都開始關(guān)注計(jì)算機(jī)式的語言測(cè)試。同時(shí),語言測(cè)試在計(jì)算機(jī)的適應(yīng)性方賣弄也取得了一定的成就。
[1]石進(jìn)芳.網(wǎng)絡(luò)化語言測(cè)試對(duì)成人語言學(xué)習(xí)反撥效應(yīng)辨析[J].成人教育,2011(10).
[2]洪云.從紙筆測(cè)試到基于計(jì)算機(jī)的語言測(cè)試——評(píng)述大學(xué)英語四六級(jí)考試改革[J].貴州大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2010(05).
[3]洪 云.計(jì)算機(jī)化語言測(cè)試的發(fā)展及其面臨的問題[J].中國(guó)成人教育,2010(15).
[4]車麗娟,王建偉.紙筆語言測(cè)試與計(jì)算機(jī)化語言測(cè)試的等效研究[J].東北財(cái)經(jīng)大學(xué)學(xué)報(bào),2010(03).
H319
A
1004-7344(2016)09-0282-01
2016-3-10