宮 力 梁維謙 丁玉國(guó)
摘要:本文介紹了自主研發(fā)的英語(yǔ)口語(yǔ)跟讀題型機(jī)器閱卷系統(tǒng),該系統(tǒng)采用以非特定人標(biāo)準(zhǔn)英語(yǔ)發(fā)音音素模型為基礎(chǔ)設(shè)計(jì)的口語(yǔ)發(fā)音評(píng)測(cè)技術(shù)。文章分析了在大規(guī)模英語(yǔ)口語(yǔ)考試跟讀題型中,機(jī)器閱卷取代人工閱卷的可行性和必要性。文中針對(duì)大學(xué)英語(yǔ)四、六級(jí)計(jì)算機(jī)網(wǎng)絡(luò)考試試點(diǎn)測(cè)試的4010句考生錄音數(shù)據(jù),進(jìn)行人工閱卷和機(jī)器閱卷實(shí)驗(yàn)對(duì)比分析,實(shí)驗(yàn)數(shù)據(jù)表明,兩者的相關(guān)度為82.7%。本文還針對(duì)如何進(jìn)一步提高機(jī)器閱卷的性能提出建議。
關(guān)鍵詞:英語(yǔ)口語(yǔ)考試;跟讀題型;機(jī)器閱卷;人工閱卷
中圖分類號(hào):H319.3文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):10013795(2009)02-0010-0006
2002年開(kāi)始的新一輪大學(xué)英語(yǔ)教學(xué)改革,是指大學(xué)英語(yǔ)教學(xué)需以提高大學(xué)生的英語(yǔ)聽(tīng)力能力為主,以帶動(dòng)英語(yǔ)綜合能力的提高為目標(biāo)。作為檢驗(yàn)教學(xué)效果的大學(xué)英語(yǔ)四、六級(jí)考試,在考試內(nèi)容和考試方式上都將進(jìn)行相應(yīng)的改革:考試內(nèi)容方面的改革,試題設(shè)計(jì)需要能夠考查學(xué)生是否掌握了自主學(xué)習(xí)和不斷提高英語(yǔ)實(shí)用水平的可持續(xù)發(fā)展能力;考試方法改革的思路則是采用信息技術(shù),推進(jìn)計(jì)算機(jī)考試。
隨著社會(huì)對(duì)英語(yǔ)的需求越來(lái)越大,報(bào)名參加大學(xué)英語(yǔ)四、六級(jí)考試人數(shù)的不斷增多,四、六級(jí)考試已成為世界單科考試參加人數(shù)最多的考試之一,每年達(dá)到1000多萬(wàn)人次。作為新增加的一項(xiàng)考核內(nèi)容,英語(yǔ)口語(yǔ)考試將采用跟讀題型。在這么大規(guī)模的考試中,如果采用人工方式閱卷,需要完成繁重的工作量,同時(shí)難以保證整體閱卷的公正性和一致性。
2008年10月,全國(guó)大學(xué)英語(yǔ)四、六級(jí)考試委員會(huì)分別在北京、南京、西安和哈爾濱進(jìn)行了大學(xué)英語(yǔ)四、六級(jí)計(jì)算機(jī)網(wǎng)絡(luò)考試的試點(diǎn)。本文引用的實(shí)驗(yàn)數(shù)據(jù)來(lái)源于對(duì)本次試點(diǎn)測(cè)試的考生口語(yǔ)數(shù)據(jù)、考試委員會(huì)組織的人工閱卷以及清華大學(xué)和北京凌聲芯公司提供的機(jī)器閱卷評(píng)分結(jié)果。本文將依據(jù)此次試點(diǎn)考試的實(shí)踐,論證在口語(yǔ)考試跟讀題型評(píng)分中機(jī)器閱卷的可行性,并詳細(xì)分析機(jī)器閱卷較人工閱卷之優(yōu)點(diǎn),以及在大規(guī)模英語(yǔ)口語(yǔ)跟讀題型考試中,為更好地發(fā)揮機(jī)器閱卷的優(yōu)勢(shì)所提出的一些建議。
1口語(yǔ)考試采用跟讀題型研究及閱卷分析
1.1口語(yǔ)考試中的跟讀題型
英語(yǔ)口語(yǔ)考試大致可分為直接口試(OPI,Oral Proficiency Interview)和半直接口試(SOPI,Simulated Oral proficiency Interview)。直接口試由受過(guò)培訓(xùn)的考官主持并當(dāng)場(chǎng)評(píng)分,內(nèi)容包括對(duì)話、討論和角色表演等,UCLES考試體系的口試常采用直接口試形式。半直接口試?yán)媒y(tǒng)一的錄音材料和書(shū)面材料獲取考生的口語(yǔ)話語(yǔ)樣本,并進(jìn)行即時(shí)錄音,然后,考官聽(tīng)取錄音帶進(jìn)行評(píng)分,TOEFL考試的口試部分采用半直接口試。
在口試實(shí)踐中,到底采用直接口試還是半直接口試,應(yīng)根據(jù)具體情況下測(cè)試的類型和測(cè)試的目的進(jìn)行選擇。Stansfield認(rèn)為OPI更適用于分級(jí)考試和課程評(píng)估測(cè)試;而SOPI更適用于信度要求較高的大規(guī)??荚?。許多研究者還對(duì)兩種口試形式的共時(shí)效度進(jìn)行了分析。Stansfield利用Pearson相關(guān)系數(shù)對(duì)兩種口試形式的評(píng)分結(jié)果進(jìn)行分析,發(fā)現(xiàn)兩者相關(guān)度在0.89至0.95之間。1992年,Stansfield和Kenyon利用概化研究G2study對(duì)評(píng)分誤差進(jìn)行了分析,結(jié)果表明考生在語(yǔ)言能力上的差異是導(dǎo)致評(píng)分結(jié)果差異的主要因素,口試形式對(duì)評(píng)分結(jié)果并不造成顯著差異。較近的研究有Kenyon和Rschirner 2000對(duì)ACTEL德語(yǔ)測(cè)試的研究,研究結(jié)果與前人研究基本吻合。從這些對(duì)評(píng)分結(jié)果的定量分析結(jié)果來(lái)看,直接口試和半直接口試評(píng)分結(jié)果高度相關(guān),兩者具有可替代性。
在英語(yǔ)口語(yǔ)考試中,常用的直接口試的題型包括:模仿(由考官朗讀或播放錄音,學(xué)生跟讀)、朗讀(考生準(zhǔn)備數(shù)分鐘,看著文字朗讀)、對(duì)話(考生回答考官或錄音中就短文提出的問(wèn)題,要求學(xué)生就考官或錄音所說(shuō)出的日常交際用語(yǔ)作出相應(yīng)的回答或反應(yīng),考生也可以就語(yǔ)言材料對(duì)考官提問(wèn)或分角色對(duì)話等)、獨(dú)白(考生看圖說(shuō)話,按中英文提示描述或敘述事件、人物和物件等)、討論或爭(zhēng)論(考生之間根據(jù)試題的提示,進(jìn)行討論或辯論)、面試(interview)(考官通過(guò)多種提問(wèn)技巧,多層次多角度地觀察學(xué)生的口語(yǔ)能力,也允許學(xué)生向考官提問(wèn))等多種方式。
跟讀題型遵循模仿的原則來(lái)復(fù)述所聽(tīng)到的標(biāo)準(zhǔn)發(fā)音,可以綜合考察學(xué)生的英語(yǔ)聽(tīng)力水平、語(yǔ)句理解、記憶、復(fù)述以及語(yǔ)音精準(zhǔn)程度等能力,考試效度比較高。
跟讀題型的設(shè)計(jì),完全符合當(dāng)前我國(guó)實(shí)施大學(xué)英語(yǔ)教學(xué)改革“以聽(tīng)力為綱”、解決學(xué)生的自主學(xué)習(xí)和可持續(xù)發(fā)展能力問(wèn)題、全面提高英語(yǔ)綜合能力的基本思路。
目前,大學(xué)英語(yǔ)四、六級(jí)網(wǎng)絡(luò)考試采取的跟讀題型為10個(gè)單句,機(jī)器每播放一條單句,要求考生發(fā)音跟讀,考生的發(fā)音被錄制存儲(chǔ)下來(lái),以待評(píng)閱打分。打分采用3檔評(píng)閱,如果考生語(yǔ)音語(yǔ)調(diào)(包括單詞重音和句重音)基本正確,語(yǔ)速及流利度正常、句子正確,可以評(píng)為1分;如果出現(xiàn)語(yǔ)音語(yǔ)調(diào)錯(cuò)誤,句子支離破碎,語(yǔ)義或句法錯(cuò)誤等情況,評(píng)為0分;對(duì)于介于其間的情況,酌情評(píng)為0.5分。
1.2人工閱卷標(biāo)準(zhǔn)及存在的問(wèn)題
根據(jù)目前的統(tǒng)計(jì),每年參加大學(xué)四、六級(jí)英語(yǔ)考試的考生人數(shù)超過(guò)1000萬(wàn)人。如果在這么大規(guī)模的英語(yǔ)考試中,對(duì)考生的口語(yǔ)試卷跟讀題型采用人工閱卷,會(huì)存在諸多問(wèn)題:
1.2.1人工閱卷工作量巨大
人工閱卷一般采取一道題目多個(gè)老師共同評(píng)分的方式。對(duì)于1000多萬(wàn)考生的試卷,需要大量的閱卷老師耗費(fèi)大量的時(shí)間來(lái)完成。以每道題需要2位老師打分,每道題聽(tīng)完打分需要20秒計(jì)算,1000萬(wàn)考生的語(yǔ)音試卷需要2萬(wàn)名教師一起花費(fèi)10個(gè)工作日才能完成評(píng)閱工作。
1.2.2人工閱卷存在主觀性
采用人工閱卷的方式,不同的老師可能會(huì)按照各自理解的不同標(biāo)準(zhǔn),或者閱卷老師以各自在聽(tīng)覺(jué)上存在的靈敏度以及精準(zhǔn)度的個(gè)體差異進(jìn)行評(píng)閱,這就帶來(lái)很多的主觀差異,評(píng)分標(biāo)準(zhǔn)較難統(tǒng)一,考試的信度會(huì)受到一定的影響。
另外,考生口語(yǔ)發(fā)音產(chǎn)生的錯(cuò)誤差異性非常大,主要表現(xiàn)在發(fā)音的音準(zhǔn)、插入、刪除、替代錯(cuò)誤、重音、語(yǔ)調(diào)、流利度等各個(gè)方面。如果我們要求閱卷老師在聽(tīng)一兩遍錄音后,立即做出各種判斷并給出統(tǒng)一標(biāo)準(zhǔn)的打分,這對(duì)閱卷老師來(lái)說(shuō)有相當(dāng)大的難度。如果閱卷老師對(duì)學(xué)生口語(yǔ)發(fā)音采用百分制或十分制進(jìn)行打分(雖然比較細(xì)致,可以在細(xì)微之處進(jìn)行把握,但實(shí)際上可操作性不強(qiáng)),不同閱卷老師之間的相關(guān)度可能會(huì)比較好;但如果是采用三個(gè)檔次評(píng)分,因?yàn)閰^(qū)分度范圍小,如果閱卷老師的瞬間評(píng)判有誤,造成學(xué)生得分不精準(zhǔn)、不公平的可能性就會(huì)更大。從表1中我們可以看到,在這次考試試點(diǎn)中,人工閱卷得1分的平均比例為7.7%。而機(jī)器閱卷的平均比例為13%,相差近1倍。
如果大面積采用人工判分,對(duì)本可以得高分的考生來(lái)說(shuō),可能就會(huì)出現(xiàn)人工判分區(qū)分度低、高分比例比實(shí)際應(yīng)得比例小而造成的不合理現(xiàn)象,影響考試的效度。
1.2.3科學(xué)的人工閱卷方式難以操作
本次試點(diǎn)測(cè)試僅僅是4個(gè)學(xué)校,如果固定的幾位老師同時(shí)審閱批改4個(gè)學(xué)校考生的每一道題目,對(duì)所有題目給出統(tǒng)一標(biāo)準(zhǔn)的判分,最后再進(jìn)行評(píng)分的匯總(比如去掉一個(gè)最高分,去掉一個(gè)最低分,然后進(jìn)行平均給分),在做法上應(yīng)該是比較科學(xué)的,在操作層面上也是可以做到的;但如果對(duì)于全國(guó)所有省份的1000多萬(wàn)考生,也采取同樣的模式判分,這在操作層面上則是不現(xiàn)實(shí)、很難做到的。
1.2.4人工閱卷的耐疲勞問(wèn)題人工閱卷是大工作量、重復(fù)性工作,難以保證評(píng)卷老師在長(zhǎng)時(shí)間內(nèi)保持較高的評(píng)卷質(zhì)量。長(zhǎng)時(shí)間進(jìn)行人工閱卷,特別是長(zhǎng)時(shí)間用人的耳朵去判別打分,因?yàn)槭芷诔潭鹊挠绊?,先后評(píng)分結(jié)果的一致性可能會(huì)出現(xiàn)差異。
1.2.5不同學(xué)校不同區(qū)域的判分差異
在人工閱卷當(dāng)中,同一批次的閱卷老師不可能參與到全國(guó)所有考生的閱卷,這可能造成不同學(xué)校不同區(qū)域的判分結(jié)果產(chǎn)生差異。
1.2.6人工閱卷的“中庸化”趨勢(shì)
人工閱卷時(shí),按照主觀的理解給考生發(fā)音分成1、0.5、0分三個(gè)檔次。對(duì)于考生錯(cuò)綜復(fù)雜的口語(yǔ)表現(xiàn),閱卷老師要想快速給出一個(gè)比較恰當(dāng)、精準(zhǔn)的評(píng)判本身就存在很大的難度,加上經(jīng)過(guò)較長(zhǎng)時(shí)間的工作,會(huì)因?yàn)槠诘纫蛩氐挠绊?,閱卷老師為了保證閱卷速度、少出極端的評(píng)判失誤,往往會(huì)少給最高分和最低分,更愿意采取“中庸之道”,給一個(gè)0.5分。從前面表1中的實(shí)驗(yàn)數(shù)據(jù)來(lái)看,人工閱卷的最高平均分和最低平均分都低于機(jī)器閱卷的相應(yīng)分值。這也反映和證實(shí)了人工閱卷會(huì)存在“中庸之道”這種“人之常情”的傾向。
1.3機(jī)器閱卷軟件系統(tǒng)概述
事實(shí)上,目前國(guó)內(nèi)外已經(jīng)有很多產(chǎn)品在英語(yǔ)口語(yǔ)教學(xué)、訓(xùn)練和考試當(dāng)中運(yùn)用了機(jī)器發(fā)音自動(dòng)評(píng)測(cè)技術(shù)來(lái)取代主觀人工評(píng)測(cè),如清華大學(xué)出版社于2003年出版的《新時(shí)代交互英語(yǔ)》(New Era Interactive English)教學(xué)系統(tǒng)中的《視聽(tīng)說(shuō)》教學(xué)軟件、美國(guó)Ordinate公司的PhonePass SET系統(tǒng)、SRI International的WebGrader和EduSpeak系統(tǒng)等。其中,《新時(shí)代交互英語(yǔ)》是一套基于網(wǎng)絡(luò)的、交互式大學(xué)英語(yǔ)教學(xué)系統(tǒng),因其先進(jìn)的教學(xué)理念和編寫(xiě)理念、精湛的教學(xué)內(nèi)容,語(yǔ)音識(shí)別等先進(jìn)技術(shù)的應(yīng)用、良好的人性化設(shè)計(jì)、獨(dú)創(chuàng)的教學(xué)模式和明現(xiàn)的教學(xué)效果,得到了國(guó)內(nèi)外專家、學(xué)者和廣大教師的一致認(rèn)可和好評(píng)。
清華大學(xué)和北京凌聲芯公司共同承擔(dān)了北京市科委科技攻關(guān)關(guān)鍵技術(shù)“嵌入式智能英語(yǔ)、漢語(yǔ)教學(xué)機(jī)及課件制作系統(tǒng)的研發(fā)(Y01050080401t1)”,在基于音素的口語(yǔ)發(fā)音評(píng)測(cè)技術(shù)方面取得了突破性的進(jìn)展。該技術(shù)可以應(yīng)用到英語(yǔ)口語(yǔ)教學(xué)、口語(yǔ)訓(xùn)練及口語(yǔ)考試閱卷系統(tǒng)?;谝羲氐目谡Z(yǔ)發(fā)音評(píng)測(cè)技術(shù)應(yīng)用于大規(guī)模英語(yǔ)口語(yǔ)考試系統(tǒng),在非特定人(speaker Independ—ent,sI)英語(yǔ)語(yǔ)音識(shí)別的基礎(chǔ)上,采用基于后驗(yàn)概率的置信度(Confidence Measure,CM)計(jì)算方法,從音素發(fā)音音準(zhǔn)、語(yǔ)速語(yǔ)調(diào)、句重音等多個(gè)角度評(píng)價(jià)考生的發(fā)音水平。采用機(jī)器閱卷前,先根據(jù)老師抽樣打分的少量數(shù)據(jù),經(jīng)過(guò)機(jī)器學(xué)習(xí)階段,充分學(xué)習(xí)老師閱卷的評(píng)分原則,最終實(shí)現(xiàn)大規(guī)模閱卷任務(wù)。跟讀題型的機(jī)器閱卷系統(tǒng)如圖1所示:
機(jī)器閱卷系統(tǒng)通過(guò)以下功能模塊實(shí)現(xiàn)其功能:
(1)機(jī)器閱卷系統(tǒng)的準(zhǔn)確性很大程度上取決于標(biāo)準(zhǔn)發(fā)音模型參數(shù)是否能夠精確描述正確的英語(yǔ)發(fā)音。通過(guò)開(kāi)發(fā)海量的英語(yǔ)語(yǔ)音數(shù)據(jù)庫(kù),可以做到對(duì)美式英語(yǔ)和英式英語(yǔ)發(fā)音進(jìn)行精確建模。
(2)聲學(xué)特征提取模塊:提取考生語(yǔ)音的MFCC(Mel—Frequency Cepstrum Coefficients,Mel頻標(biāo)倒譜系數(shù))特征,考慮到錄音設(shè)備的不同導(dǎo)致的語(yǔ)音信道、頻響特性、噪聲特性等差異性,采用了倒譜均值減(Ceps trum Mean Subtraction,CMS)和能量歸一化(EnergyNormalization,EN)算法排除噪聲環(huán)境、信道的差異性對(duì)考生語(yǔ)音聲學(xué)特征的干擾。
(3)標(biāo)準(zhǔn)發(fā)音的文本分析及判分規(guī)則建模:對(duì)標(biāo)準(zhǔn)發(fā)音進(jìn)行文本分析的目的是將閱卷的判分規(guī)則進(jìn)行建模,機(jī)器閱卷需要將判分規(guī)則中理出的各種發(fā)音的判分情況翻譯成機(jī)器語(yǔ)言。
(4)多特征網(wǎng)絡(luò)建模:對(duì)標(biāo)準(zhǔn)發(fā)音對(duì)應(yīng)的文本進(jìn)行多特征HMM(Hidden Markov Model,隱含馬爾科夫模型)建模,描述合理發(fā)音的特征序列,多特征的信息包括發(fā)音音素的短時(shí)頻譜分布、序列關(guān)系、每個(gè)音素的段長(zhǎng)信息等。
(5)發(fā)音音準(zhǔn)評(píng)分:考察考生發(fā)音的各個(gè)音素發(fā)音是否正確,根據(jù)海量的標(biāo)準(zhǔn)英語(yǔ)語(yǔ)音數(shù)據(jù)庫(kù)進(jìn)行建模,得到標(biāo)準(zhǔn)的非特定人發(fā)音音素模型,采取基于后驗(yàn)概率的置信度評(píng)分準(zhǔn)則進(jìn)行音準(zhǔn)評(píng)分。
(6)語(yǔ)速語(yǔ)調(diào)、句重音等多維特征提取及評(píng)分:根據(jù)Viterbi搜索算法將考生的發(fā)音和標(biāo)準(zhǔn)音素序列進(jìn)行強(qiáng)制對(duì)準(zhǔn),分析考生發(fā)音的語(yǔ)速特征評(píng)分;根據(jù)考生發(fā)音的重讀元音段的基音范圍,考察考生發(fā)音的句重音及語(yǔ)調(diào)得分。
(7)多維評(píng)分信息映射規(guī)則:機(jī)器進(jìn)行大規(guī)模閱卷之前,先由老師進(jìn)行少量考生的抽樣評(píng)分,采取最小分類錯(cuò)誤準(zhǔn)則計(jì)算機(jī)器閱卷的多維評(píng)分信息映射規(guī)則。計(jì)算機(jī)器閱卷的多維評(píng)分信息映射規(guī)則的過(guò)程,相當(dāng)于一個(gè)機(jī)器學(xué)習(xí)的過(guò)程。
在大規(guī)模英語(yǔ)口語(yǔ)考試中,采用機(jī)器閱卷可以有效地避免人工閱卷遇到的問(wèn)題,保證快捷、有效地完成海量錄音數(shù)據(jù)的評(píng)分工作。根據(jù)出題老師的考察意圖,給機(jī)器閱卷設(shè)定好判分準(zhǔn)則后,再經(jīng)過(guò)完整的機(jī)器學(xué)習(xí)過(guò)程,機(jī)器閱卷就可以按照一套標(biāo)準(zhǔn)的程序完成判分工作,而且閱卷的時(shí)候采用統(tǒng)一的標(biāo)準(zhǔn),保證閱卷結(jié)果的一致性和公正性。在口語(yǔ)考試中,采用機(jī)器閱卷代替專家閱卷存在以下的優(yōu)勢(shì):
1.3.1機(jī)器閱卷的高效性
人工閱卷需要完成巨大的工作量,而機(jī)器閱卷系統(tǒng)可以采用軟件形式集成在機(jī)考系統(tǒng)中,在各個(gè)考點(diǎn)的服務(wù)器終端上完成,這樣考生完成口語(yǔ)考試的試題后,閱卷工作已經(jīng)可以開(kāi)始,當(dāng)考試全部完成后,各個(gè)考點(diǎn)口語(yǔ)考試部分的閱卷工作已經(jīng)完成,只需要將每個(gè)考生的得分上傳到中心服務(wù)器即可。采用機(jī)器閱卷非常高效,還減少了數(shù)據(jù)存儲(chǔ)、管理等中間環(huán)節(jié),從源頭上切斷了數(shù)據(jù)泄密等可能性。
1.3.2機(jī)器閱卷具有較高的一致性
機(jī)器閱卷本質(zhì)上是針對(duì)每一句語(yǔ)音,對(duì)單詞音素發(fā)音音準(zhǔn)、單詞重音、句子語(yǔ)調(diào)、整句的流利度等多個(gè)細(xì)節(jié)進(jìn)行綜合評(píng)分。機(jī)器閱卷可以分辨插入錯(cuò)誤(插入不存在的單詞發(fā)音)、刪除錯(cuò)誤(遺漏單詞的發(fā)音)、替代錯(cuò)誤(單詞被錯(cuò)誤發(fā)音)等錯(cuò)誤類型。機(jī)器閱卷將提示音作為標(biāo)準(zhǔn),嚴(yán)格按照統(tǒng)一的判分準(zhǔn)則對(duì)所有試卷進(jìn)行評(píng)分,避免一個(gè)專家只能對(duì)應(yīng)某一部分試卷
而造成的非一致性差異,更好地滿足公平、公正、整體一致的閱卷原則。
1.3.3機(jī)器閱卷可以提供更多的統(tǒng)計(jì)數(shù)據(jù)
人工閱卷評(píng)分劃分檔次到3—5檔就已經(jīng)難再提高,機(jī)器閱卷可以從多個(gè)角度按照百分制的連續(xù)數(shù)值評(píng)分,這樣可以提供更高的評(píng)閱區(qū)分度。機(jī)器閱卷完成后,還可以提供大量的后臺(tái)統(tǒng)計(jì)數(shù)據(jù),分析考生的口語(yǔ)水平細(xì)節(jié)、試題的難度、區(qū)分度、一致性、信度等。
2實(shí)驗(yàn)數(shù)據(jù)分析
2008年10月,參加由全國(guó)大學(xué)英語(yǔ)四、六級(jí)考試委員會(huì)組織的大學(xué)英語(yǔ)四、六級(jí)計(jì)算機(jī)網(wǎng)絡(luò)考試的試點(diǎn)測(cè)試的考試人數(shù)共401人,每位考生的口語(yǔ)錄音數(shù)據(jù)都有效??荚囄瘑T會(huì)組織專家老師和機(jī)器閱卷系統(tǒng)分別對(duì)這401名考生的口語(yǔ)錄音進(jìn)行了評(píng)分。
2.1人工閱卷結(jié)果
考試委員會(huì)組織老師對(duì)4010句錄音進(jìn)行了評(píng)分,表2是人工閱卷的結(jié)果。
(1)按照人工閱卷的結(jié)果,0、0.5、1分分別為1390、2312、308句,分別占有效語(yǔ)音的34.7%、57.6%、7.7%。
(2)人工閱卷的結(jié)果客觀地顯示出各個(gè)學(xué)??忌⒄Z(yǔ)口語(yǔ)水平的差異,而這些差異的形成也不排除由于人工閱卷判個(gè)體或區(qū)域差異所帶來(lái)的影響。
(3)在10道題中的前兩道題當(dāng)中,考生得分普遍較低,這與考生熟悉這種考試形式以及考題的難度有關(guān)。一方面,在考前兩道題的時(shí)候,考生可能還不太適應(yīng)新的跟讀題型,影響了發(fā)揮;另一方面,前兩道題的句子長(zhǎng)度都較長(zhǎng),由11個(gè)單詞組成,客觀難度要高于后面的考題。這些問(wèn)題的出現(xiàn)也為今后做好同類型考試的考前準(zhǔn)備工作和采取更好的出題策略提供了可參考的意見(jiàn)。
2.2機(jī)器閱卷結(jié)果
表3是采用機(jī)器閱卷的結(jié)果。
(1)按照機(jī)器閱卷的結(jié)果,0、0.5、1分分別為1476、2011、523句,分別占有效語(yǔ)音的36.8%、50.2%、13%。從表中看出,按照各個(gè)學(xué)校得分統(tǒng)計(jì),其分布和人工閱卷基本相同。
(2)針對(duì)每句錄音分析,不存在機(jī)器評(píng)分和人工評(píng)分相差1分的情況,說(shuō)明兩種評(píng)分方式下,差異存在于0分和0.5分或者0.5分和1分之間的分界處。
(3)從人工閱卷成績(jī)分布和機(jī)器閱卷成績(jī)分布當(dāng)中的最好成績(jī)(1分)對(duì)比(表4)中,我們可以看到:除了學(xué)校B(錄音數(shù)據(jù)質(zhì)量存在一些問(wèn)題)的人工閱卷平均得1分的比例比機(jī)器閱卷平均得1分的比例要低以外,機(jī)器閱卷得1分的其他所有數(shù)值都比人工閱卷得1分的比例要高,而且?guī)缀醺叱?倍,這個(gè)現(xiàn)象說(shuō)明專家老師閱卷在給出高分方面比較保守,更情愿給中間分值。
2.3不同閱卷方式的結(jié)果分析
跟讀題型總得分,我們將考生得分的分布采用直方圖的形式表示出來(lái),如圖2所示,考生的得分分布在機(jī)器閱卷和人工閱卷的方式下,其分布非常相近。
從圖2中能夠看出:采用機(jī)器閱卷的形式,考生的得分分布更分散,區(qū)分性更接近統(tǒng)計(jì)分析的特點(diǎn)。而人工閱卷的結(jié)果比較集中,這也佐證了上述提到的,人工閱卷的老師“更愿意”給考生0.5分,結(jié)果造成區(qū)分性不足,影響了考試的效度。
根據(jù)考生得分累計(jì)百分比例曲線來(lái)分析人工閱卷和機(jī)器閱卷的結(jié)果,如圖3所示,橫軸表示考生的得分P,縱軸表示考生累計(jì)得分的百分比f(wàn)(P),即人工閱卷時(shí)f(5)表示考生得分超過(guò)5分的累計(jì)比例:f(5)=14%。
從圖3中我們也可以看出,機(jī)器閱卷的結(jié)果很好地?cái)M合了人工閱卷的結(jié)果,兩者的相關(guān)性很高。按照下面的公式計(jì)算機(jī)器閱卷和人工閱卷的相關(guān)度:
其中,n表示考生人數(shù),x和y分別表示機(jī)器閱卷和人工閱卷情況下,考生的總得分序列。根據(jù)計(jì)算,機(jī)器閱卷和人工閱卷的相關(guān)系數(shù)為82.7%,這一數(shù)值和采用人工閱卷時(shí)不同專家之間評(píng)分的相關(guān)度接近。
3提高機(jī)器閱卷性能的建議
以上的實(shí)驗(yàn)數(shù)據(jù)說(shuō)明,在大規(guī)模英語(yǔ)口語(yǔ)跟讀題型考試中,我們的機(jī)器閱卷系統(tǒng)可以代替專家進(jìn)行閱卷,它不僅可以大大減少人工閱卷的工作量,而且機(jī)器閱卷的客觀性、一致性等優(yōu)點(diǎn)也充分地表現(xiàn)了出來(lái)。為了進(jìn)一步發(fā)揮機(jī)器打分的優(yōu)勢(shì),還需要解決以下幾個(gè)方面的問(wèn)題:
3.1解決好錄音設(shè)備的測(cè)試和調(diào)整,提高錄音質(zhì)量和可靠性
實(shí)驗(yàn)數(shù)據(jù)中,學(xué)校B的錄音數(shù)據(jù)質(zhì)量存在一些問(wèn)題,包括聲卡不能輸入語(yǔ)音、語(yǔ)音信噪比較低、底噪太大、零點(diǎn)漂移嚴(yán)重等現(xiàn)象。
計(jì)算機(jī)考試系統(tǒng)對(duì)Pc機(jī)聲卡的要求如表5所示,用于英語(yǔ)口語(yǔ)計(jì)算機(jī)網(wǎng)絡(luò)考試的Pc機(jī)聲卡要求低于普通Pc機(jī)聲卡的標(biāo)稱值。
在考試之前,需要對(duì)考場(chǎng)設(shè)備的聲卡進(jìn)行簡(jiǎn)單的性能測(cè)試,對(duì)于不能滿足要求的聲卡進(jìn)行維修或更換,以保證錄音設(shè)備的可靠性和穩(wěn)定性。
3.2大規(guī)??荚嚽?,需對(duì)學(xué)生進(jìn)行充分的培訓(xùn)
實(shí)驗(yàn)中存在考生搶先發(fā)音、多次重復(fù)發(fā)音或錄音滯后無(wú)效等現(xiàn)象。這些錄音數(shù)據(jù)的評(píng)分較低,會(huì)影響考生的成績(jī)。學(xué)校A的考生多次出現(xiàn)重復(fù)句子的某一部分內(nèi)容或全部?jī)?nèi)容,這樣的錄音有100多例。如果能在考前對(duì)考生進(jìn)行培訓(xùn),說(shuō)明注意事項(xiàng)和錄音要求,出現(xiàn)這樣答題的情況可能會(huì)大大減少。也可以采用另外一種做法,在進(jìn)入有效考試之前,先進(jìn)行幾次練習(xí),讓考生適應(yīng)跟讀的方式。
3.3出題策略
(1)考題的出現(xiàn)次序應(yīng)當(dāng)先易后難,先短后長(zhǎng),使考生容易適應(yīng);
(2)充分考慮機(jī)器評(píng)閱打分和跟讀題型內(nèi)容的特殊屬性,盡可能避免一些考生基本聽(tīng)力理解正確,但由于記憶或跟讀內(nèi)容與原句內(nèi)容不完全一致而造成的不能得分的現(xiàn)象。比如原句中說(shuō)的是United States,結(jié)果考生跟讀時(shí)說(shuō)的卻是USA或America,如果是人工判分,也許能夠得分,但在機(jī)器判分當(dāng)中,由于跟讀內(nèi)容不完全匹配,不能得分。所以在考試當(dāng)中,如果要求考生跟讀句子的考點(diǎn)不在國(guó)名、人名、地名等要素上,建議在出題的時(shí)候盡可能考慮到考點(diǎn)內(nèi)容的數(shù)量和考試內(nèi)容的實(shí)質(zhì)與核心,盡量減少干擾因素,讓考生把注意力放在語(yǔ)言基本理解和運(yùn)用上,考出真正水平。
3.4判分準(zhǔn)則的制定
任何成熟的考試,在出考題的同時(shí)都制定有詳細(xì)的判分原則和標(biāo)準(zhǔn)。在采取計(jì)算機(jī)網(wǎng)絡(luò)考試的時(shí)候,除了需要老師在出題的時(shí)候,將每一句的考核重點(diǎn)以及判分要求預(yù)先告知軟件測(cè)評(píng)人員,以便讓評(píng)測(cè)軟件根據(jù)這些規(guī)則生成機(jī)器判分的標(biāo)準(zhǔn)以外,還要求出題的老師充分了解機(jī)器閱卷的機(jī)理,在出題的同時(shí)考慮到機(jī)器閱卷的可操作性等。另外也需要將測(cè)試錄音的人工閱卷抽樣結(jié)果提供給機(jī)器閱卷人員,使得機(jī)器閱卷系統(tǒng)學(xué)習(xí)人工閱卷的判分細(xì)則,以更好地?cái)M合人工閱卷的判分結(jié)果。
4結(jié)束語(yǔ)
本文介紹了機(jī)器閱卷系統(tǒng)在大規(guī)模英語(yǔ)口語(yǔ)考試跟讀題型中取代人工閱卷的必要性和可行性,介紹了機(jī)器閱卷系統(tǒng)的基本技術(shù)原理和閱卷流程。
本文重點(diǎn)針對(duì)本次401人測(cè)試數(shù)據(jù)進(jìn)行實(shí)驗(yàn)結(jié)果分析,結(jié)果表明在這次實(shí)驗(yàn)中,機(jī)器閱卷和人工閱卷結(jié)果具有良好的一致性,考生得分累計(jì)百分比曲線擬合度很高,兩者的相關(guān)度達(dá)到了82.7%。本文最后分析這次測(cè)試中存在的問(wèn)題和現(xiàn)象,就如何發(fā)揮機(jī)器閱卷在大規(guī)模英語(yǔ)口語(yǔ)考試中的優(yōu)勢(shì)提出建議。
這次實(shí)驗(yàn)是采取大規(guī)??谡Z(yǔ)考試之前一次有效的嘗試,驗(yàn)證了機(jī)器閱卷系統(tǒng)的合理性和可行性,為大學(xué)英語(yǔ)四、六級(jí)考試采用網(wǎng)絡(luò)考試系統(tǒng)提供了充分的技術(shù)保障,對(duì)英語(yǔ)教學(xué)改革、提高學(xué)生英語(yǔ)口語(yǔ)水平也將產(chǎn)生積極的影響。