周 梅
安徽警官職業(yè)學(xué)院基礎(chǔ)部,合肥,230031
?
關(guān)于普通話水平測(cè)試現(xiàn)代化的思考
周 梅
安徽警官職業(yè)學(xué)院基礎(chǔ)部,合肥,230031
基于計(jì)算機(jī)的語(yǔ)言測(cè)試的發(fā)展?fàn)顩r,著重分析了普通話水平測(cè)試手段現(xiàn)代化的特征。通過(guò)對(duì)比分析發(fā)現(xiàn),計(jì)算機(jī)輔助普通話水平測(cè)試還處于基于計(jì)算機(jī)的語(yǔ)言測(cè)試發(fā)展的初期階段,計(jì)算機(jī)技術(shù)對(duì)普通話水平測(cè)試的影響主要體現(xiàn)在兩個(gè)方面:一是呈現(xiàn)測(cè)試任務(wù)的介質(zhì)由紙張轉(zhuǎn)變?yōu)橛?jì)算機(jī)顯示屏,二是推進(jìn)了普通話水平測(cè)試評(píng)分的客觀性。同時(shí)指出技術(shù)的應(yīng)用對(duì)測(cè)試?yán)碚撨M(jìn)一步發(fā)展提出了新的要求,信息技術(shù)對(duì)未來(lái)的普通話水平測(cè)試將會(huì)產(chǎn)生更為深刻的影響,應(yīng)用創(chuàng)新性題型、提供診斷服務(wù)以及遠(yuǎn)程培訓(xùn)、測(cè)試一體化將是普通話水平測(cè)試未來(lái)發(fā)展的方向。
普通話水平測(cè)試;語(yǔ)言測(cè)試;計(jì)算機(jī)輔助普通話水平測(cè)試;測(cè)試?yán)碚撆c技術(shù)
2007年,經(jīng)教育部語(yǔ)言文字應(yīng)用管理司批準(zhǔn),計(jì)算機(jī)輔助普通話水平測(cè)試(“機(jī)輔測(cè)試”)在安徽和上海開(kāi)始試點(diǎn),標(biāo)志著普通話水平測(cè)試手段進(jìn)入現(xiàn)代化發(fā)展階段。歷經(jīng)十年推廣應(yīng)用,目前,“機(jī)輔測(cè)試”已在全國(guó)各省市自治區(qū)得到普遍采用,據(jù)統(tǒng)計(jì),2015年全國(guó)“機(jī)輔測(cè)試”量為480萬(wàn)人次,人工測(cè)試36萬(wàn)人次,“機(jī)輔測(cè)試”人次在全年測(cè)試工作量中比例已達(dá)93%,以計(jì)算機(jī)為主要技術(shù)手段的評(píng)測(cè)方式已經(jīng)基本取代早期面對(duì)面評(píng)測(cè)方式。同時(shí),新的測(cè)試方式對(duì)普通話水平測(cè)試的影響也受到了研究人員的關(guān)注,丁覲靚等討論了測(cè)試員對(duì)應(yīng)試人的影響,分析了兩種模式下的環(huán)境和應(yīng)試狀態(tài)[1]??拼笥嶏w公司的測(cè)試報(bào)告,安徽省的試點(diǎn)報(bào)告以及韓玉華對(duì)計(jì)算機(jī)輔助普通話水平測(cè)試試點(diǎn)地區(qū)的調(diào)研[2]等文獻(xiàn),反映了計(jì)算機(jī)評(píng)測(cè)技術(shù)總體上的穩(wěn)定可靠,肯定了計(jì)算機(jī)評(píng)分的信度。但是,雷峻、姜嵐通過(guò)實(shí)證提出,計(jì)算機(jī)對(duì)普通話水平較低的人的評(píng)測(cè)誤差較大[3-4]。也有研究證明一級(jí)甲等是計(jì)算機(jī)評(píng)測(cè)的盲區(qū)。這些研究指出了計(jì)算機(jī)輔助普通話水平測(cè)試的問(wèn)題所在,但是由于研究的問(wèn)題比較零散,且缺乏后續(xù)性,對(duì)計(jì)算機(jī)輔助普通話水平測(cè)試的認(rèn)識(shí)難免只見(jiàn)樹(shù)木不見(jiàn)森林。在新的環(huán)境背景下,普通話水平測(cè)試(PSC)所呈現(xiàn)的技術(shù)特征和未來(lái)發(fā)展方向,需要進(jìn)一步系統(tǒng)總結(jié)、分析與認(rèn)識(shí)。
可以說(shuō),信息技術(shù)的介入使語(yǔ)言測(cè)試出現(xiàn)了傳統(tǒng)與現(xiàn)代之分。傳統(tǒng)的語(yǔ)言測(cè)試是基于紙筆的考試(Paper-and-Pencil Based Language Testing),以經(jīng)典測(cè)試?yán)碚摓槔碚摶A(chǔ),采用紙筆作答。經(jīng)典測(cè)試?yán)碚摻⒂谳^簡(jiǎn)單的數(shù)學(xué)模型之上,適用范圍較廣,但也存在缺陷:對(duì)測(cè)試得分的解釋不夠合理,無(wú)法實(shí)現(xiàn)即時(shí)評(píng)分和反饋,而且因?yàn)榘怂须y度的試題,測(cè)試長(zhǎng)度不能因人而異等[5]。
計(jì)算機(jī)對(duì)語(yǔ)言測(cè)試的最早介入是用于測(cè)試分?jǐn)?shù)的計(jì)算。據(jù)有關(guān)文獻(xiàn)記載,1935年引進(jìn)的IBM805模型測(cè)試評(píng)分機(jī),已經(jīng)可以以10倍于人類的速度為客觀的測(cè)試進(jìn)行更為精確的評(píng)分。大型計(jì)算機(jī)開(kāi)始應(yīng)用于語(yǔ)言測(cè)試、測(cè)試數(shù)據(jù)的分析、數(shù)據(jù)庫(kù)的資料儲(chǔ)存、為測(cè)試使用者提供測(cè)試結(jié)果分析報(bào)告等,始于20世紀(jì)60年代。而八、九十年代微型計(jì)算機(jī)廣泛應(yīng)用,使信息技術(shù)對(duì)語(yǔ)言測(cè)試的影響越來(lái)越深廣,從試題設(shè)計(jì)、任務(wù)呈現(xiàn)、自動(dòng)評(píng)分,到測(cè)試結(jié)果分析和測(cè)試管理等,越來(lái)越多的語(yǔ)言測(cè)試開(kāi)發(fā)者和管理者開(kāi)始通過(guò)計(jì)算機(jī)來(lái)實(shí)現(xiàn)這些工作目標(biāo)[6]。
在語(yǔ)言測(cè)試的研究領(lǐng)域,計(jì)算機(jī)技術(shù)介入之后的語(yǔ)言測(cè)試被稱為基于計(jì)算機(jī)的語(yǔ)言測(cè)試(Computer-Based Language Testing),也稱為計(jì)算機(jī)化語(yǔ)言測(cè)試,泛指在測(cè)試過(guò)程中使用計(jì)算機(jī)的任何語(yǔ)言測(cè)試。根據(jù)計(jì)算機(jī)技術(shù)介入測(cè)試的不同層面,大致可以分為計(jì)算機(jī)輔助語(yǔ)言測(cè)試(Computer Assisted Language Testing)和計(jì)算機(jī)自適應(yīng)性語(yǔ)言測(cè)試(Computerized Adaptive Language Testing)兩類[7]。隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,基于計(jì)算機(jī)的語(yǔ)言測(cè)試還出現(xiàn)了新的分支——基于網(wǎng)絡(luò)的語(yǔ)言測(cè)試(Internet-Based Language Testing)。
計(jì)算機(jī)輔助語(yǔ)言測(cè)試是指在測(cè)試中利用計(jì)算機(jī)對(duì)測(cè)試進(jìn)行管理,或者將試題通過(guò)計(jì)算機(jī)呈現(xiàn),以機(jī)上作答來(lái)取代紙筆測(cè)試。雖然計(jì)算機(jī)輔助語(yǔ)言測(cè)試使測(cè)試介質(zhì)發(fā)生了變化,并且利用計(jì)算機(jī)對(duì)測(cè)試進(jìn)行管理或評(píng)分,但是和傳統(tǒng)的紙筆測(cè)試一樣,所依據(jù)的理論仍然是經(jīng)典測(cè)試?yán)碚摚瑢?shí)施方法同樣是線性的,即對(duì)所有的被試展示相同數(shù)目、相同順序的試題,對(duì)被試個(gè)體的能力差異不作關(guān)注,在測(cè)試結(jié)果方面并沒(méi)有優(yōu)于傳統(tǒng)的人工測(cè)試。目前的計(jì)算機(jī)輔助普通話水平測(cè)試就屬于此類。
計(jì)算機(jī)自適應(yīng)性語(yǔ)言測(cè)試的理論基礎(chǔ)是教育測(cè)量學(xué)項(xiàng)目反應(yīng)理論。與計(jì)算機(jī)輔助語(yǔ)言測(cè)試不同,模仿人類智能評(píng)估行為是計(jì)算機(jī)自適應(yīng)性語(yǔ)言測(cè)試的基本思想。具體而言,計(jì)算機(jī)首先將中等難度的試題分配給考生,如果考生回答正確,下一題的難度將有所提高,反之,則降低。計(jì)算機(jī)通過(guò)統(tǒng)計(jì)考生在不同難度試題上的反應(yīng),來(lái)估算考生的能力水平,因此,自適應(yīng)性測(cè)試也被稱為“量體裁衣”式的測(cè)試,其優(yōu)點(diǎn)是更為靈活,非線性的試題編排避免了測(cè)試長(zhǎng)度的固定化問(wèn)題,和傳統(tǒng)測(cè)試相比,“測(cè)試長(zhǎng)度可減少高達(dá)50%以上”[8]。此外,良好的反饋?zhàn)饔?,測(cè)試的個(gè)性化、人性化加強(qiáng),安全性提高等優(yōu)勢(shì)也是傳統(tǒng)測(cè)試所不具備的[9]。其缺點(diǎn)是:(1)理論基礎(chǔ)復(fù)雜,開(kāi)發(fā)難度大;(2)需要大量的、經(jīng)過(guò)試用和校準(zhǔn)的題項(xiàng),題庫(kù)的建立成本高,代價(jià)大,周期長(zhǎng);(3)多局限于評(píng)估考生的知識(shí)與技能,不適宜評(píng)估語(yǔ)言應(yīng)用能力[10]。
基于網(wǎng)絡(luò)的語(yǔ)言測(cè)試是相對(duì)于單機(jī)軟件測(cè)試而言的一種測(cè)試形式,其主要特征是以網(wǎng)絡(luò)作為平臺(tái),以計(jì)算機(jī)作為網(wǎng)絡(luò)終端,通過(guò)網(wǎng)絡(luò)傳送相關(guān)測(cè)試數(shù)據(jù),從而實(shí)現(xiàn)測(cè)試。網(wǎng)絡(luò)在線測(cè)試既可以是線性的計(jì)算機(jī)輔助測(cè)試,也可以是非線性的計(jì)算機(jī)自適應(yīng)性測(cè)試。網(wǎng)絡(luò)在線考試需建立特定網(wǎng)絡(luò),硬件設(shè)備要求高,主要適用于大規(guī)??荚?,如美國(guó)的新托??荚嚲褪腔诰W(wǎng)絡(luò)的語(yǔ)言測(cè)試。計(jì)算機(jī)輔助普通話水平測(cè)試目前已經(jīng)實(shí)現(xiàn)了網(wǎng)絡(luò)傳送。表1揭示了使用不同測(cè)試手段的語(yǔ)言測(cè)試的基本特征。
表1 不同形式的語(yǔ)言測(cè)試比較
總之,科學(xué)技術(shù)的進(jìn)步為語(yǔ)言測(cè)試的飛躍發(fā)展提供了物質(zhì)基礎(chǔ),不論是試卷傳送途徑、呈現(xiàn)介質(zhì)、評(píng)分和測(cè)試管理,還是試題的組織編排,計(jì)算機(jī)等現(xiàn)代信息技術(shù)所發(fā)揮的作用都是無(wú)與倫比的?;谟?jì)算機(jī)的語(yǔ)言測(cè)試已經(jīng)成為“專業(yè)學(xué)科內(nèi)容和科學(xué)技術(shù)手段有機(jī)結(jié)合的產(chǎn)品”[11]。有了科學(xué)技術(shù)這一物質(zhì)基礎(chǔ),語(yǔ)言測(cè)試迅速走向現(xiàn)代化、信息化,自20世紀(jì)90年代以來(lái),基于計(jì)算機(jī)的語(yǔ)言測(cè)試越來(lái)越廣泛運(yùn)用于考試實(shí)踐。20多年來(lái),一些大型語(yǔ)言測(cè)試已經(jīng)從傳統(tǒng)的紙筆測(cè)試轉(zhuǎn)換為基于計(jì)算機(jī)的語(yǔ)言測(cè)試,詳見(jiàn)表2。
表2 基于計(jì)算機(jī)的語(yǔ)言測(cè)試實(shí)踐發(fā)展概覽
不同的測(cè)試目的和不同的區(qū)域條件,決定了語(yǔ)言測(cè)試手段的多樣性,基于紙筆的傳統(tǒng)語(yǔ)言測(cè)試、計(jì)算機(jī)輔助語(yǔ)言測(cè)試、計(jì)算機(jī)自適應(yīng)性語(yǔ)言測(cè)試以及網(wǎng)絡(luò)在線語(yǔ)言測(cè)試將會(huì)長(zhǎng)期共存。但是,日新月異的計(jì)算機(jī)技術(shù)在未來(lái)將促使更多的語(yǔ)言測(cè)試實(shí)現(xiàn)手段現(xiàn)代化,測(cè)試形式的變化與測(cè)試內(nèi)容的變革會(huì)彼此促進(jìn)、相輔相成,共同推動(dòng)語(yǔ)言測(cè)試的發(fā)展。
從題庫(kù)建設(shè),到試題傳送、測(cè)試實(shí)施以及測(cè)試管理等環(huán)節(jié),計(jì)算機(jī)技術(shù)貫穿了PSC測(cè)試活動(dòng)的始終。就施測(cè)環(huán)節(jié)而言,目前普通話水平測(cè)試手段現(xiàn)代化特征主要表現(xiàn)為呈現(xiàn)測(cè)試任務(wù)的介質(zhì)的變化和測(cè)試評(píng)分的客觀性。
2.1 呈現(xiàn)測(cè)試任務(wù)的介質(zhì)不同
PSC是口語(yǔ)測(cè)試,口語(yǔ)測(cè)試任務(wù)規(guī)定了考生語(yǔ)言產(chǎn)出的內(nèi)容。和人工測(cè)試相比,“機(jī)輔測(cè)試”對(duì)測(cè)試任務(wù)的改變主要體現(xiàn)在試題呈現(xiàn)方式由紙張轉(zhuǎn)為計(jì)算機(jī)顯示屏,答題方式除了“口說(shuō)”之外,還得輔之以鼠標(biāo)、鍵盤(pán)的操作。也就是說(shuō),信息技術(shù)對(duì)普通話水平測(cè)試任務(wù)的影響主要在于任務(wù)傳送和呈現(xiàn)的介質(zhì)發(fā)生的變化,傳統(tǒng)的紙筆測(cè)試試題“搬到”或者說(shuō)“復(fù)制”到了計(jì)算機(jī)上,計(jì)算機(jī)逐項(xiàng)分屏呈現(xiàn)試題,應(yīng)試人在計(jì)算機(jī)指令提示下通過(guò)相關(guān)按鈕的操作完整呈現(xiàn)試卷。
“機(jī)輔測(cè)試”與人工測(cè)試并無(wú)測(cè)試原理上的區(qū)分?!皺C(jī)輔測(cè)試”研發(fā)以《普通話水平測(cè)試大綱》為理論框架和依據(jù),沿用原來(lái)的試卷、題型、測(cè)試內(nèi)容,盡量保留和遵從原評(píng)分標(biāo)準(zhǔn)的評(píng)測(cè)原則,是在原測(cè)試設(shè)計(jì)的基礎(chǔ)上對(duì)普通話水平測(cè)試實(shí)施技術(shù)的進(jìn)一步開(kāi)發(fā)。圖1所示的現(xiàn)代口語(yǔ)測(cè)試任務(wù)呈現(xiàn)的特征在計(jì)算機(jī)輔助普通話水平測(cè)試中得到的反映相當(dāng)有限,主要體現(xiàn)在記錄方式的變化,語(yǔ)言輸入、語(yǔ)言輸出、參與者、完成方式和完成條件與人工測(cè)試方式?jīng)]有區(qū)別。
圖1 口語(yǔ)考試的發(fā)展趨勢(shì)
2.2 評(píng)分過(guò)程的客觀性增強(qiáng)
作為主觀性測(cè)試,PSC評(píng)分活動(dòng)是一個(gè)復(fù)雜的主觀認(rèn)知活動(dòng)過(guò)程。如圖2所示,這個(gè)過(guò)程由三個(gè)方面構(gòu)成:一是測(cè)試員對(duì)評(píng)分標(biāo)準(zhǔn)的理解過(guò)程,二是測(cè)試員對(duì)考生作答的接受過(guò)程,三是測(cè)試員根據(jù)評(píng)分標(biāo)準(zhǔn)和考生作答之間的吻合程度的評(píng)分決定過(guò)程??梢?jiàn),與客觀性測(cè)試不同,主觀性測(cè)試對(duì)評(píng)分標(biāo)準(zhǔn)的解釋不是唯一的、確定的,對(duì)考生作答表現(xiàn)的理解也會(huì)因人而異,因此,在人工測(cè)試方式中,測(cè)試員評(píng)分活動(dòng)的個(gè)性差異成為測(cè)試評(píng)分誤差的一個(gè)重要來(lái)源,測(cè)試員和評(píng)分方法對(duì)測(cè)試的信度具有舉足輕重的影響。
PSC評(píng)分的理想目標(biāo)是:分?jǐn)?shù)可以無(wú)偏差地區(qū)分考生的普通話水平。但是,測(cè)試員的個(gè)性差異是一種客觀存在,測(cè)試員對(duì)評(píng)分標(biāo)準(zhǔn)和應(yīng)試人表現(xiàn)的認(rèn)知處理不可能完全相同,測(cè)試員自身注意力集中程度也存在變化,因此,測(cè)試員之間以及測(cè)試員自身的評(píng)分誤差是一種必然的客觀存在。PSC的評(píng)分誤差控制主要通過(guò)控制個(gè)性差異,在最大程度上使主觀的評(píng)分過(guò)程保持客觀,從而保證測(cè)試的信度。為了控制評(píng)分因素對(duì)測(cè)試信度的影響,PSC一直堅(jiān)持兩個(gè)原則:一是測(cè)試員評(píng)分一致性原則,二是測(cè)試員評(píng)分處理過(guò)程的獨(dú)立性原則。評(píng)分一致性原則首先要求測(cè)試員通過(guò)培訓(xùn)學(xué)習(xí)正確理解評(píng)分標(biāo)準(zhǔn),通過(guò)測(cè)試練習(xí)保證測(cè)試員之間對(duì)評(píng)分標(biāo)準(zhǔn)理解的一致、對(duì)考生作答表現(xiàn)的特征認(rèn)知的一致。評(píng)分獨(dú)立性原則要求測(cè)試員之間評(píng)分不受影響,測(cè)試員每次評(píng)分不受之前的評(píng)分影響。幫助測(cè)試員達(dá)到評(píng)分質(zhì)量評(píng)價(jià)的標(biāo)準(zhǔn),嚴(yán)明工作紀(jì)律,樹(shù)立職業(yè)操守等成為測(cè)試評(píng)分信度的多重保障。
圖2 普通話水平測(cè)試評(píng)分的認(rèn)知處理過(guò)程
人工測(cè)試方式下,評(píng)分信度的追求主要是通過(guò)對(duì)測(cè)試員的控制來(lái)實(shí)現(xiàn)的;計(jì)算機(jī)輔助普通話水平測(cè)試方式下,技術(shù)的介入在很大程度上促進(jìn)了評(píng)分的客觀性,降低了評(píng)分誤差,提升了測(cè)試評(píng)分信度。技術(shù)對(duì)評(píng)測(cè)的促進(jìn)作用具體表現(xiàn)為三個(gè)方面:前三項(xiàng)評(píng)分自動(dòng)化、評(píng)測(cè)分離和強(qiáng)化復(fù)審環(huán)節(jié)。
2.2.1 自動(dòng)評(píng)分增強(qiáng)了評(píng)分的客觀性
“機(jī)輔測(cè)試”已經(jīng)實(shí)現(xiàn)了前三項(xiàng)評(píng)分的自動(dòng)化,這是信息技術(shù)用于PSC的創(chuàng)新之處,也是普通話水平測(cè)試發(fā)展中的重大變化之處。計(jì)算機(jī)自動(dòng)評(píng)分通過(guò)采用信號(hào)處理的原理來(lái)進(jìn)行語(yǔ)音識(shí)別,使前三項(xiàng)評(píng)分與測(cè)試員評(píng)測(cè)結(jié)果實(shí)現(xiàn)基本一致。雖然計(jì)算機(jī)輔助評(píng)測(cè)原理和人類的聽(tīng)力理解以及大腦運(yùn)算完全不同,對(duì)第三項(xiàng)的評(píng)分也并非按照大綱要求的維度進(jìn)行針對(duì)性的識(shí)別,因而具有一定的局限性,但是客觀的計(jì)算標(biāo)準(zhǔn)克服了評(píng)測(cè)活動(dòng)中測(cè)試員之間個(gè)體差異性的弱點(diǎn),使前三項(xiàng)評(píng)分最大限度實(shí)現(xiàn)了評(píng)分的一致性和客觀性,總體評(píng)測(cè)結(jié)果比人工測(cè)試更加穩(wěn)定、可靠。
2.2.2 測(cè)評(píng)分離保障了第四項(xiàng)評(píng)分的獨(dú)立性
目前,普通話水平測(cè)試評(píng)分自動(dòng)化對(duì)第四項(xiàng)命題說(shuō)話這樣的自主表達(dá)的評(píng)測(cè)尚未完全實(shí)現(xiàn)技術(shù)上的突破。但是,評(píng)測(cè)分離不僅使測(cè)試活動(dòng)在時(shí)間上克服了實(shí)時(shí)實(shí)施的局限,而且任務(wù)的數(shù)字化傳送使得測(cè)試員在各自空間評(píng)分成為可能。測(cè)試員搭配、評(píng)測(cè)任務(wù)分發(fā)等信息由測(cè)試中心管理人員單方統(tǒng)一掌握,測(cè)試員的評(píng)測(cè)活動(dòng)失去了相互商量、彼此影響的條件,在網(wǎng)絡(luò)終端背靠背的評(píng)測(cè)在客觀上保障了測(cè)試員評(píng)分的完全獨(dú)立。這樣,第四項(xiàng)打分更加客觀,測(cè)試信度得以有效提升。
2.2.3 完善的復(fù)審制度提高了評(píng)分的一致性
復(fù)審是語(yǔ)言測(cè)試保證評(píng)分信度的重要手段。合作判分對(duì)于有歧義的作答可以通過(guò)協(xié)商統(tǒng)一對(duì)評(píng)分標(biāo)準(zhǔn)、考生作答情況的認(rèn)識(shí),分?jǐn)?shù)的決定過(guò)程可以吸收彼此的意見(jiàn),從而降低測(cè)試員之間的評(píng)分差異性。機(jī)測(cè)方式下第四項(xiàng)評(píng)分誤差控制是將人工評(píng)分與統(tǒng)計(jì)、現(xiàn)代技術(shù)相結(jié)合,對(duì)差異性較大、超出合理閾值(目前安徽省的規(guī)定是最大偏差≤3分)的作答,進(jìn)行多次評(píng)分。這種偏差復(fù)審的方式通過(guò)程序設(shè)置彌補(bǔ)了測(cè)試的主觀性缺陷,測(cè)試結(jié)果的公正性也得到有效保障。
普通話水平測(cè)試規(guī)模大,測(cè)試量高,而大多數(shù)地區(qū)測(cè)試主管部門(mén)人力與經(jīng)費(fèi)十分有限,因此復(fù)審制度的落實(shí)存在一定的困難。在工作實(shí)踐中,除一級(jí)復(fù)審因?yàn)閿?shù)量少、等級(jí)高、社會(huì)權(quán)重大,執(zhí)行較為嚴(yán)格外,像抽查復(fù)審、偏差復(fù)審則因地而異。計(jì)算機(jī)輔助測(cè)試則通過(guò)系統(tǒng)功能的開(kāi)發(fā)設(shè)計(jì)健全了復(fù)審制度。以安徽為例,安徽省普通話培訓(xùn)測(cè)試中心在開(kāi)始進(jìn)行計(jì)算機(jī)測(cè)試的同時(shí),即建立起了較為完善的復(fù)審制度。第四項(xiàng)所有差異復(fù)審全面覆蓋,一級(jí)復(fù)審按要求正常進(jìn)行,三級(jí)甲等高分段、三級(jí)乙等低分段和不入級(jí)數(shù)據(jù)均為100%復(fù)審,二級(jí)數(shù)據(jù)為抽查復(fù)審,抽查復(fù)審率高達(dá)20%。
通過(guò)上述分析可知,計(jì)算機(jī)對(duì)PSC影響直接而顯著。就測(cè)評(píng)環(huán)節(jié)而言,信息技術(shù)的介入,通過(guò)管理手段、技術(shù)手段和統(tǒng)計(jì)手段加強(qiáng)了對(duì)普通話水平測(cè)試的評(píng)分誤差控制,保障了口語(yǔ)測(cè)試評(píng)分一致性原則和獨(dú)立性原則的貫徹,強(qiáng)化了評(píng)分的客觀性,提升了普通話水平測(cè)試的信度,評(píng)分更加客觀,測(cè)試結(jié)果更加公正。就測(cè)試任務(wù)而言,“機(jī)輔測(cè)試”還停留于對(duì)傳統(tǒng)測(cè)試任務(wù)的“復(fù)制”層面,數(shù)字化展示測(cè)試的方式并未觸及測(cè)試的深層理論,計(jì)算機(jī)技術(shù)尚未深入測(cè)試任務(wù)的設(shè)計(jì)與測(cè)試構(gòu)念的改進(jìn),因此在測(cè)量目標(biāo)方面并不優(yōu)于傳統(tǒng)的紙筆測(cè)試。
信息社會(huì)以智能代替體能,大量人員所從事的大規(guī)模生產(chǎn)方式不再是主流。計(jì)算機(jī)化是語(yǔ)言測(cè)試的發(fā)展趨勢(shì),計(jì)算機(jī)測(cè)試代表著大規(guī)模語(yǔ)言測(cè)試的發(fā)展方向?,F(xiàn)階段計(jì)算機(jī)輔助普通話水平測(cè)試還處于語(yǔ)言測(cè)試計(jì)算機(jī)化的早期階段,模擬人類智能評(píng)估行為的自適應(yīng)性測(cè)試不僅開(kāi)發(fā)難度大,題庫(kù)建立代價(jià)大,且是否適用于普通話水平測(cè)試的目標(biāo)尚需商榷,因此,計(jì)算機(jī)自適應(yīng)性普通話水平測(cè)試目前還言之過(guò)早。展望未來(lái)普通話水平測(cè)試,可望亦可即的前景應(yīng)該是改進(jìn)題型,提供診斷服務(wù),教學(xué)、測(cè)試相結(jié)合,進(jìn)一步發(fā)揮計(jì)算機(jī)的優(yōu)勢(shì)與潛能,使技術(shù)和普通話水平測(cè)試本體理論相符相契、相互為用,共同促進(jìn)普通話水平測(cè)試的發(fā)展與完善。
3.1 應(yīng)用創(chuàng)新性題型
普通話水平測(cè)試的題型設(shè)計(jì)過(guò)程幾經(jīng)發(fā)展變化,最終從測(cè)試性質(zhì)與目的出發(fā),確立為讀單音節(jié)字詞、讀多音節(jié)詞語(yǔ)、選擇判斷、朗讀短文和命題說(shuō)話五種題型。效度是語(yǔ)言測(cè)試的永恒追求,有關(guān)如何進(jìn)一步完善題型設(shè)計(jì)、更加有效實(shí)現(xiàn)測(cè)試目的的討論也一直沒(méi)有停止過(guò)。作為半直接式口語(yǔ)測(cè)試,普通話水平測(cè)試的缺陷在于缺乏互動(dòng)和交際情境,計(jì)算機(jī)輔助普通話水平測(cè)試提升了評(píng)分信度,但是在某種程度上又強(qiáng)化了測(cè)試的單向性,“命題說(shuō)話”項(xiàng)測(cè)試實(shí)踐中大面積的“雷同”正是這一弱點(diǎn)的凸顯。雖然為了適應(yīng)測(cè)試手段的變革,及時(shí)調(diào)整測(cè)試依據(jù),制訂并頒布了《計(jì)算機(jī)輔助普通話水平評(píng)分試行辦法》,但是“雷同”問(wèn)題并沒(méi)有得到有效控制,測(cè)試樣本與所測(cè)量目標(biāo)不匹配,勢(shì)必對(duì)內(nèi)容效度有所影響;同時(shí),測(cè)試員對(duì)評(píng)分辦法的執(zhí)行有時(shí)會(huì)處于操作上的兩難境地:一是舉證增加了測(cè)試員的負(fù)擔(dān),二是對(duì)于有稿應(yīng)試,測(cè)試員未必能找到內(nèi)容證據(jù),對(duì)語(yǔ)音形式的明確感知與判定又不能作為判別雷同的另外一重有效證據(jù)。因此,說(shuō)話項(xiàng)評(píng)分信度也受到了一定的影響。此外,對(duì)應(yīng)試人的應(yīng)試策略也難以有正面反撥之效。
未來(lái)任務(wù)型話題題型是發(fā)展的一個(gè)趨勢(shì)[12]157。王暉的論斷是基于實(shí)踐基礎(chǔ)之上的對(duì)普通話水平測(cè)試發(fā)展的科學(xué)前瞻。技術(shù)的介入需要發(fā)展普通話水平測(cè)試的理論,探索出適合新的測(cè)試手段的測(cè)試項(xiàng)目,從而打破技術(shù)對(duì)測(cè)試本體的制約。同時(shí),也應(yīng)該看到,現(xiàn)代技術(shù)還具有強(qiáng)大的潛能可以為測(cè)試設(shè)計(jì)提供手段與幫助,技術(shù)為普通話水平測(cè)試效度的保障也提供了新的空間。
例如,2005年實(shí)施的新托福(NEW TOEFL)考試是一個(gè)成功轉(zhuǎn)型的語(yǔ)言測(cè)試的范例。美國(guó)的托福(TOEFL)考試始于20世紀(jì)60年代,到90年代后期,固有的結(jié)構(gòu)主義題型的效度受到了新的交際測(cè)試?yán)碚摰奶魬?zhàn),實(shí)際測(cè)試中高分低能的測(cè)量結(jié)果使之越來(lái)越受到測(cè)試界的批評(píng)。新托??荚囀腔诰W(wǎng)絡(luò)的英語(yǔ)全面能力測(cè)試,整個(gè)考試過(guò)程都在計(jì)算機(jī)上完成。新托福的最大變化體現(xiàn)在題型設(shè)計(jì)上的重大突破,借助媒體引入,考試內(nèi)容基于真實(shí)的語(yǔ)言環(huán)境,進(jìn)行了多項(xiàng)考試題型創(chuàng)新,聽(tīng)、說(shuō)、讀、寫(xiě)四部分緊密結(jié)合,大大增強(qiáng)了考試的真實(shí)性和科學(xué)性。開(kāi)發(fā)創(chuàng)新試題是計(jì)算機(jī)技術(shù)介入測(cè)試之后的一種優(yōu)勢(shì),多媒體的使用是這種題型的重要特征,圖形顯示、聲音播放、動(dòng)畫(huà)和視頻等,測(cè)試中通過(guò)引入這些非文本媒體配合傳統(tǒng)的考試題型,增加了情景的真實(shí)性和測(cè)試的效度,同時(shí)測(cè)試的內(nèi)容也得到了擴(kuò)展。
技術(shù)的介入要求重新評(píng)估測(cè)試的每一個(gè)環(huán)節(jié)。發(fā)揮信息技術(shù)的潛能,順勢(shì)而為,開(kāi)發(fā)創(chuàng)新題型,是普通話水平測(cè)試的現(xiàn)實(shí)需要,也是現(xiàn)代語(yǔ)言測(cè)試?yán)碚摪l(fā)展的要求。
3.2 提供診斷服務(wù)
提供診斷服務(wù)體現(xiàn)了測(cè)試個(gè)性化的發(fā)展趨勢(shì)。診斷評(píng)估和學(xué)習(xí)指導(dǎo)是語(yǔ)言教學(xué)的兩個(gè)重要方面,在語(yǔ)言學(xué)習(xí)過(guò)程中,計(jì)算機(jī)可以通過(guò)測(cè)定學(xué)習(xí)者的語(yǔ)言能力分布情況,分析其學(xué)習(xí)過(guò)程中的強(qiáng)項(xiàng)與弱項(xiàng),并為之提供診斷報(bào)告,幫助學(xué)習(xí)者了解語(yǔ)言學(xué)習(xí)中的具體困難,找到克服困難、解決問(wèn)題的方法,明確學(xué)習(xí)方向。這種個(gè)性化的服務(wù)在最大程度上滿足了語(yǔ)言學(xué)習(xí)者的個(gè)人需求,充分發(fā)揮了計(jì)算機(jī)的獨(dú)特優(yōu)勢(shì)。
例如,現(xiàn)代語(yǔ)言測(cè)試系統(tǒng)DIALANG就是以歐洲語(yǔ)言共同框架(the Common European Framework of Reference, CEFR)為基礎(chǔ)開(kāi)發(fā)的、由計(jì)算機(jī)傳輸?shù)拇笠?guī)模診斷性測(cè)試系統(tǒng)。DIALANG評(píng)估系統(tǒng)包括自我評(píng)估、語(yǔ)言測(cè)試和信息反饋三大板塊,涵蓋14種歐洲語(yǔ)言,通過(guò)對(duì)語(yǔ)言學(xué)習(xí)者的語(yǔ)言水平進(jìn)行“診斷性”評(píng)價(jià),旨在免費(fèi)幫助他們了解自己的語(yǔ)言水平。該系統(tǒng)還能分析自我評(píng)估與測(cè)驗(yàn)結(jié)果之間存在差異的可能原因,就如何改進(jìn)語(yǔ)言能力向?qū)W習(xí)者提供建議,并努力增強(qiáng)他們對(duì)語(yǔ)言學(xué)習(xí)與能力提高的意識(shí)[13]。
一般而言,理想的診斷報(bào)告在對(duì)被試的應(yīng)試行為判別的基礎(chǔ)上具有一定的預(yù)測(cè)性。通過(guò)判定被試的語(yǔ)言水平、學(xué)習(xí)心理和認(rèn)知策略等,為語(yǔ)言教學(xué)或?qū)W習(xí)提供指導(dǎo)。一般的成績(jī)報(bào)告重在對(duì)過(guò)去學(xué)習(xí)的總結(jié),報(bào)告內(nèi)容多為最后的成績(jī);而診斷報(bào)告的目的側(cè)重于未來(lái)學(xué)習(xí)的方向,報(bào)告內(nèi)容還包含成績(jī)分布、過(guò)程參數(shù)和認(rèn)知策略等。此外,診斷報(bào)告的個(gè)性化還體現(xiàn)為側(cè)重于學(xué)習(xí)者自身能力的對(duì)比分析,將測(cè)試與學(xué)習(xí)融為一體,通過(guò)為每個(gè)受試者建立評(píng)估檔案,詳細(xì)記錄每個(gè)受試者的每一次的評(píng)估結(jié)果,讓學(xué)習(xí)者了解自己的學(xué)習(xí)進(jìn)步過(guò)程,使測(cè)試能更好地為學(xué)習(xí)服務(wù)。
3.3 培訓(xùn)、測(cè)試一體化
教育因?yàn)榛ヂ?lián)網(wǎng)的日益滲透,形式開(kāi)始逐步拓展,互聯(lián)網(wǎng)上的遠(yuǎn)程學(xué)習(xí)因其快速、省時(shí)、投入少等諸多優(yōu)點(diǎn)而日漸受到人們的青睞。遠(yuǎn)程學(xué)習(xí)中,必將出現(xiàn)基于計(jì)算機(jī)的遠(yuǎn)程考試,在這種模式下,基于標(biāo)準(zhǔn)的“機(jī)輔測(cè)試”將可以嵌入遠(yuǎn)程普通話學(xué)習(xí)的課程中使用。
語(yǔ)言測(cè)試與語(yǔ)言教學(xué)密不可分,普通話水平測(cè)試的最終目的是促進(jìn)普通話的學(xué)習(xí)和普通話水平的提高,開(kāi)展普通話水平測(cè)試的根本目的就是通過(guò)“以測(cè)促訓(xùn)”為推廣和普及普通話服務(wù)。未來(lái)可以充分利用網(wǎng)絡(luò)語(yǔ)音軟件或者手機(jī)等移動(dòng)智能終端進(jìn)行普通話水平測(cè)試,利用計(jì)算機(jī)、網(wǎng)絡(luò)等現(xiàn)代技術(shù)為遠(yuǎn)程學(xué)習(xí)者提供學(xué)習(xí)和培訓(xùn)服務(wù),以更有效地將測(cè)試與培訓(xùn)結(jié)合起來(lái),并結(jié)合診斷服務(wù),對(duì)學(xué)習(xí)者學(xué)習(xí)過(guò)程實(shí)行跟蹤服務(wù),建立診斷檔案,真正實(shí)現(xiàn)普通話學(xué)習(xí)的個(gè)性化。
計(jì)算機(jī)輔助普通話水平測(cè)試還處于基于計(jì)算機(jī)的語(yǔ)言測(cè)試發(fā)展的初期階段?,F(xiàn)代化成果主要體現(xiàn)為兩個(gè)方面:一是呈現(xiàn)測(cè)試任務(wù)的介質(zhì)由紙張轉(zhuǎn)變?yōu)橛?jì)算機(jī)顯示屏,二是推進(jìn)了普通話水平測(cè)試評(píng)分的客觀性。雖然技術(shù)的介入使普通話水平測(cè)試發(fā)生了重大變化,但是現(xiàn)代信息技術(shù)還停留于測(cè)試形式與方法上的影響。計(jì)算機(jī)輔助普通話水平測(cè)試在應(yīng)用創(chuàng)新性題型,提供診斷服務(wù),培訓(xùn)、測(cè)試一體化等方面還應(yīng)該有所作為。未來(lái),計(jì)算機(jī)輔助普通話水平測(cè)試的發(fā)展取決于兩個(gè)重要的因素:計(jì)算機(jī)技術(shù)和測(cè)試?yán)碚摰陌l(fā)展。科學(xué)技術(shù)的進(jìn)步可以更好地為普通話水平測(cè)試服務(wù),但是,“被技術(shù)所驅(qū)動(dòng)的語(yǔ)言測(cè)試,而不是為語(yǔ)言測(cè)試服務(wù)的技術(shù),很可能會(huì)領(lǐng)我們踏上一條并不美好的旅途”[14],這句話恰當(dāng)?shù)乇磉_(dá)了現(xiàn)代技術(shù)與語(yǔ)言測(cè)試之間的關(guān)系?!跋鄬?duì)于測(cè)試本體需求而言,技術(shù)永遠(yuǎn)是第二位的?!盵12]157如果普通話水平測(cè)試削足適履,為了迎合測(cè)試技術(shù)的發(fā)展來(lái)確定測(cè)試任務(wù),或者新瓶裝舊酒,毫不關(guān)心新技術(shù)對(duì)測(cè)試本體的影響,在“語(yǔ)言測(cè)試測(cè)什么”這一問(wèn)題的探索上裹足不前,現(xiàn)代化的測(cè)試手段反而會(huì)成為測(cè)試發(fā)展的桎梏。
[1]丁瑾靚.從心理學(xué)觀點(diǎn)分析普通話水平智能測(cè)試[J].四川教育學(xué)院學(xué)報(bào),2010(1):57-58
[2]韓玉華.計(jì)算機(jī)輔助普通話水平測(cè)試試點(diǎn)地區(qū)的調(diào)查研究[J].首都師范大學(xué)學(xué)報(bào):社會(huì)科學(xué)版,2009(S1):29-33
[3]雷峻.計(jì)算機(jī)輔助普通話測(cè)試的問(wèn)題思考及技術(shù)對(duì)策[J].武漢理工大學(xué)學(xué)報(bào),2010(13):160-163
[4]姜嵐,張傳東,劉洪超,等.PSC計(jì)算機(jī)評(píng)測(cè)與人工評(píng)測(cè)對(duì)比實(shí)驗(yàn)研究[C]//國(guó)家語(yǔ)言文字工作委員會(huì)普通話培訓(xùn)測(cè)試中心.第四屆全國(guó)普通話培訓(xùn)測(cè)試學(xué)術(shù)研討會(huì)論文集.北京:語(yǔ)文出版社,2012:214-218
[5]吳靜.CTT、IRT和GT三種測(cè)驗(yàn)理論之比較[J].黑龍江教育學(xué)院學(xué)報(bào),2008(12):77-78
[6]AldersonJ C,Banerjee J.Language testing and assessment:Part Two[J].Language Teaching,2002,35:56-57
[7]張寶鈞.簡(jiǎn)論計(jì)算機(jī)自適應(yīng)語(yǔ)言測(cè)試的工作機(jī)制[J].語(yǔ)言教學(xué)與研究,2003(3):18-24
[8]路鵬.計(jì)算機(jī)自適應(yīng)若干關(guān)鍵技術(shù)研究[D].長(zhǎng)春:東北師范大學(xué)理想信息技術(shù)研究院,2012:38-40
[9]李清華,孔文.基于計(jì)算機(jī)的語(yǔ)言測(cè)試及其效度驗(yàn)證[J].外語(yǔ)界,2009(3):68-74
[10]曾用強(qiáng).計(jì)算機(jī)化考試的設(shè)計(jì)模型[J].外語(yǔ)電化教學(xué),2012(1):26-31
[11]曾用強(qiáng).計(jì)算機(jī)輔助英語(yǔ)口語(yǔ)考試研究[M].北京:科學(xué)出版社,2011:12
[12]王暉.普通話水平測(cè)試闡要[M].北京:商務(wù)印書(shū)館,2013
[13]歐洲理事會(huì)文化合作教育委員會(huì).歐洲語(yǔ)言共同參考框架:學(xué)習(xí)、教學(xué)、評(píng)估[M].劉駿,傅榮,李婷妲,等譯.北京:外語(yǔ)教學(xué)與研究出版社,2008:215-229
[14]Douglas D.Assessing Language for Specific Purposes[M].New York:Cambridge University Press,2000:124-129
(責(zé)任編輯:胡永近)
10.3969/j.issn.1673-2006.2017.04.012
2017-01-26
安徽高校人文社會(huì)科學(xué)研究重點(diǎn)項(xiàng)目“普通話水平測(cè)試手段研究”(SK2017A0703)。
周梅(1968-),女,安徽蚌埠人,博士,副教授,研究方向:普通話培訓(xùn)與測(cè)試、媒體語(yǔ)言學(xué)。
H102
A
1673-2006(2017)04-0040-06