陳玉蓮
(廣東外語外貿(mào)大學(xué)南國商學(xué)院 英語語言文化系, 廣東 廣州 510545)
英語專業(yè)綜合英語期末考試的效度研究
陳玉蓮
(廣東外語外貿(mào)大學(xué)南國商學(xué)院 英語語言文化系, 廣東 廣州 510545)
文章在回顧了語言測試效度理論和研究的基礎(chǔ)上,運(yùn)用定性和定量分析的方法檢驗(yàn)了某校英語專業(yè)綜合英語期末考試的效度。研究結(jié)果表明,該綜合英語期末考試的試卷有較好的表面效度,但是內(nèi)容效度不夠,考試的分?jǐn)?shù)也存在構(gòu)念表現(xiàn)不足的現(xiàn)象。文章認(rèn)為,要提高綜合英語期末考試的效度,施教者和試卷設(shè)計(jì)者應(yīng)該熟悉英語專業(yè)綜合英語教學(xué)大綱和測試大綱,了解測試?yán)碚摚瑪[脫專業(yè)四級(jí)水平測試的束縛,結(jié)合教學(xué)實(shí)際不斷創(chuàng)新。
綜合英語期末考試;表面效度;內(nèi)容效度;構(gòu)念效度
語言測試經(jīng)歷了一個(gè)漫長的發(fā)展過程。從不同的角度來看,語言測試可以被分為不同類型。從測試的目的出發(fā),一般把語言測試分為四類:水平測試、成績測試、診斷測試及潛能測試[1]。筆者在對(duì)2003年至2012年間發(fā)表在國內(nèi)一些著名核心期刊上有關(guān)英語測試研究的論文進(jìn)行統(tǒng)計(jì)分析時(shí)發(fā)現(xiàn),英語測試研究的對(duì)象開始出現(xiàn)了多樣化。研究者不再只是關(guān)注類似于CET4、CET6、TEM4、TEM8這樣的全國統(tǒng)一的水平測試,而開始關(guān)注考生們?cè)谌粘W(xué)習(xí)過程中頻繁接觸的階段性測試和期末測試。水平測試與成績測試的區(qū)別在于:水平測試考查考生對(duì)語言的掌握,而成績測試往往是為了檢測考生在一門特定的課程或大綱指導(dǎo)下的學(xué)習(xí)結(jié)果[2]。這一類的成績測試針對(duì)性強(qiáng),個(gè)別性突出,是學(xué)生完成四年本科教育的一個(gè)非常重要的教學(xué)環(huán)節(jié),對(duì)教學(xué)起著不可低估的反撥作用[3]。因此,有必要加強(qiáng)對(duì)教學(xué)過程中各課程測試的研究。
新的《高等學(xué)校英語專業(yè)教學(xué)大綱》把英語專業(yè)課程分為了英語專業(yè)技能、英語專業(yè)知識(shí)和相關(guān)專業(yè)知識(shí)三大類型[4]。綜合英語則是一門專業(yè)技能課,是英語專業(yè)本科一、二年級(jí)初級(jí)階段的專業(yè)必修課,是培養(yǎng)和提高英語基本技能的重要課程。該課程的目的是傳授系統(tǒng)的語音、語法、詞匯、篇章結(jié)構(gòu)、閱讀技巧等基礎(chǔ)語言知識(shí),訓(xùn)練聽、說、讀、寫、譯等基本的語言技能,培養(yǎng)學(xué)生初步運(yùn)用英語進(jìn)行交際的能力,同時(shí)指導(dǎo)學(xué)習(xí)方法,培養(yǎng)邏輯思維的能力,為進(jìn)入高年級(jí)的學(xué)習(xí)打下堅(jiān)實(shí)的基礎(chǔ)。由此可見,綜合英語課程承擔(dān)著培養(yǎng)和提高學(xué)生綜合運(yùn)用英語能力的重任,對(duì)知識(shí)儲(chǔ)備的全面性、教授方式的多樣性,以及內(nèi)容銜接的靈活性都有很高的要求。如何針對(duì)新大綱的要求,進(jìn)行英語教學(xué),并如何有效地對(duì)學(xué)生的學(xué)習(xí)效果進(jìn)行檢驗(yàn),是一個(gè)值得探討的問題,這也正是本文的研究目的所在。
效度是評(píng)價(jià)一項(xiàng)測試質(zhì)量的重要標(biāo)準(zhǔn)。沒有效度的測試不能稱其為測試,效度的重要性可見一斑[5]。針對(duì)效度的定義和分類,不同時(shí)期不同學(xué)者提出了不同的看法。美國心理學(xué)會(huì)認(rèn)為效度是據(jù)考試成績所做出的推論的恰當(dāng)性、意義性和有用性,并提出了效度的四種類型:預(yù)測效度、共時(shí)效度、內(nèi)容效度和構(gòu)念效度。Lado認(rèn)為效度本質(zhì)上是一種關(guān)聯(lián),表明測試與測試目標(biāo)的關(guān)聯(lián)程度[6]。Heaton指出,測試效度可分為表面效度、內(nèi)容效度、構(gòu)念效度和實(shí)證效度[7]。Messick則提出了整體效度概念,且認(rèn)為構(gòu)念效度是整體效度概念的核心,其他效度都是用來支持其作為整體效度的證據(jù)[8]。之后,為了解決效度驗(yàn)證的具體實(shí)施問題,Bachman & Palmer提出了語言測試有用性框架,即測試的有用性=信度+構(gòu)念效度+真實(shí)性+交互性+影響力+可行性[9]。該框架使語言測試界充分意識(shí)到了構(gòu)念、構(gòu)念效度及測試后果的重要性[5]。
鑒于成績測試的性質(zhì),成績測試的表面效度、內(nèi)容效度和構(gòu)念效度顯得至關(guān)重要。表面效度指試卷到了使用者手上,其表面和內(nèi)容,是否使受試者覺得它是一次有效的考試,一次的確是考它應(yīng)考的能力的考試。Heaton認(rèn)為,如果測試對(duì)其他老師、測試的被試以及成績核對(duì)人而言,看起來是適合的,那么它就至少具有了表面效度[7]。表面效度可以迅速提供學(xué)生和老師對(duì)考試的意見和看法。缺乏表面效度的測試,是不被接受的,甚至?xí)鹗茉嚨姆锤校辉跍y試中表現(xiàn)出自己真實(shí)的水平。但是僅僅依靠表面效度是不能解釋測試的效度的。內(nèi)容效度能幫助評(píng)判測試是否充分有效得測試了應(yīng)該檢測的技能和行為[10]。換言之,內(nèi)容效度是指測試是否考了考試大綱規(guī)定要考的。另外,構(gòu)念效度則能反映出考試分?jǐn)?shù)在多大程度上能代表我們想要測量的能力或構(gòu)念。
綜上所述,鑒于綜合英語課程在英語專業(yè)課程中的重要性,有必要對(duì)該課程期末考試試卷進(jìn)行效度分析,以期能給予任課教師和試卷設(shè)計(jì)者正面的反撥作用,發(fā)現(xiàn)存在的問題,進(jìn)行更正,并努力設(shè)計(jì)出有高效度的試題。
(一)試題選擇和數(shù)據(jù)收集
綜合英語課程一共持續(xù)四個(gè)學(xué)期,每個(gè)學(xué)期期末都會(huì)有一次測試來檢驗(yàn)考生是否掌握了他們?cè)谡n堂上的所學(xué),并測試考生在該課程學(xué)習(xí)過程中發(fā)展起來的語言知識(shí)和語言技能。本研究選擇了2013至2014學(xué)年上學(xué)期的綜合英語三期末試卷作為分析的對(duì)象。試卷一共有六項(xiàng)內(nèi)容:語法詞匯、完形填空、閱讀理解、翻譯、句子釋義和作文??荚嚂r(shí)間為120分鐘。相關(guān)授課教師認(rèn)為測試沒有涉及聽力與口語部分,主要是因?yàn)樵搶W(xué)期學(xué)生有專門的聽力課與口語課,以及測試時(shí)間的關(guān)系。英語專業(yè)翻譯與傳媒方向192名學(xué)生參加了此次測試。作者用Excel表格登記了他們的名字、班級(jí)、學(xué)號(hào)、授課教師姓名以及每個(gè)考生在試題每一部分的得分作為原始數(shù)據(jù)便于全面分析。同時(shí),研究分析過程中主要使用了Excel 和SPSS 17.0統(tǒng)計(jì)軟件。
(二)綜合英語期末考試的表面效度
綜合英語期末考試旨在測試考生對(duì)語法、詞匯、篇章結(jié)構(gòu)、閱讀技巧等基礎(chǔ)語言知識(shí)的掌握,以及在課程學(xué)習(xí)過程中獲得的聽、說、讀、寫、譯等基本的語言技能。在試卷的六類題型中,翻譯、句子釋義以及語法詞匯題三部分基本上是直接測試課堂上講授過的內(nèi)容,其他部分則是測試在該課程學(xué)習(xí)過程中發(fā)展起來的語言技能??梢?,該測試具有較高的表面效度,正如Hughes所言“一項(xiàng)測試如果看上去測試了它想測試的內(nèi)容,那么就具有表面效度”[11]。
(三)綜合英語期末考試的內(nèi)容效度
劉潤清認(rèn)為,一般可從三個(gè)方面來檢驗(yàn)?zāi)炒螠y試的內(nèi)容效度:1)測試內(nèi)容是否和測試目標(biāo)相關(guān); 2)測試內(nèi)容及試題是否具有代表性; 3)測試內(nèi)容是否符合代表對(duì)象[1]。
對(duì)綜合英語期末考試而言,其內(nèi)容相關(guān)性是不難界定的。綜合英語課程的開發(fā)依據(jù)是教學(xué)大綱原則或標(biāo)準(zhǔn),考試也是從課程本身選擇測試內(nèi)容或界定測試標(biāo)準(zhǔn)。所選取的試卷中客觀選擇題和主觀產(chǎn)出題的分?jǐn)?shù)比例為60%和40%(見表1)。在這六道題目中,翻譯、句子釋義以及語法詞匯題是直接從學(xué)過的課本單元中提取出來的。試卷中測試內(nèi)容和課堂所教內(nèi)容直接關(guān)聯(lián)與非直接關(guān)聯(lián)的比例為49%和51%(見表2)。因此,測試內(nèi)容與測試目標(biāo)是足夠相關(guān)的。
表1 試卷主客觀題的分?jǐn)?shù)比例
表2 測試內(nèi)容與教學(xué)內(nèi)容的關(guān)聯(lián)比例
然而一項(xiàng)測試如果其內(nèi)容覆蓋面不充分、不典型的話,有再高的內(nèi)容相關(guān)性也無多大意義。測試內(nèi)容的代表性如何直接影響測試效度的高低。評(píng)估考試題目取樣的代表性,要看試題的樣本是否充分全面體現(xiàn)了要考查的全部內(nèi)容。從形式上看,此次綜合英語期末考試的試題涵蓋了讀、寫、譯,試題的類型包括客觀選擇和主觀產(chǎn)出題。試卷的題型設(shè)置和英語專業(yè)四級(jí)考試的題型設(shè)置相差不大,同樣包括了30道語法詞匯題、一篇20道選題的完形填空,四篇共含20道選擇題的閱讀理解文章和一給定話題的議論文寫作。從內(nèi)容上看,這些題目中,只有語法詞匯題包含了一部分與已經(jīng)教過的單元內(nèi)容完全相關(guān)的基本的語法詞匯知識(shí),其他三大道題目與教學(xué)內(nèi)容和要求沒有任何的相關(guān)性。完形填空的文章在題材上,絲毫沒有涉及教材內(nèi)的教學(xué)內(nèi)容;閱讀理解的四篇文章在體裁和題材上也比較隨機(jī)。作文題目的話題雖然和校園生活相關(guān),但是也不是依據(jù)該學(xué)期的教學(xué)要求或相關(guān)的內(nèi)容題材和文章體裁。另外兩大題翻譯和句子釋義的考查內(nèi)容雖然直接源于課堂教學(xué),但是也導(dǎo)致了學(xué)生在考試前去進(jìn)行死記硬背,甚至在很多老師眼里,這兩類題型是典型的送分題。換言之,研究涉及的綜合英語期末測試只是把語法、詞匯、閱讀、寫作等各種題型集中了起來,并沒有真正檢測到學(xué)生的語言運(yùn)用綜合能力,不能對(duì)學(xué)生的語言運(yùn)用水平做出客觀的評(píng)價(jià)。因此,從試題的代表性以及內(nèi)容與測試對(duì)象是否相符合兩方面來講,其內(nèi)容效度是不夠的。
(四)綜合英語期末考試的構(gòu)念效度
構(gòu)念效度能反映出考試分?jǐn)?shù)在多大程度上能代表我們想要測量的能力或構(gòu)念。Messick曾指出分?jǐn)?shù)的解釋和相應(yīng)的構(gòu)念效度有兩種情況:1)構(gòu)念表現(xiàn)不足,即構(gòu)念中的某些重要特征被遺漏,測試分?jǐn)?shù)不能通過該構(gòu)念得到充分恰當(dāng)?shù)亟忉專?)構(gòu)念不相關(guān),測試分?jǐn)?shù)可能因?yàn)檫@些與測試目的不相關(guān)的構(gòu)念而被曲解,從而影響效度[12]。那么究竟綜合英語期末考試的構(gòu)念效度如何呢?考試的各題目之間是否相關(guān)?考試的構(gòu)念中包含了幾個(gè)因素?下文將針對(duì)這些問題進(jìn)行統(tǒng)計(jì)分析。
1.總分正態(tài)分布檢驗(yàn)
為了有效地對(duì)期末考試問卷進(jìn)行統(tǒng)計(jì)分析,筆者首先對(duì)192名考生的成績分?jǐn)?shù)進(jìn)行了正態(tài)分布檢驗(yàn)。圖1 為考生在綜合英語期末考試中的總分的正態(tài)分布檢驗(yàn)直方圖。表3 為總分的單個(gè)樣本K-S檢驗(yàn)結(jié)果。從圖1中可以看出根據(jù)直方圖繪出的曲線很像正態(tài)分布曲線。表3的K-S檢驗(yàn)中,Z值為0.493,P值 (sig 2-tailed)=0.964>0.05。因此數(shù)據(jù)呈近似正態(tài)分布。
均值=71.20標(biāo)準(zhǔn)偏差=7.863N=192圖1 綜合英語期末考試的總分成績分布直方圖
表3 綜合英語測試總分的單樣本K-S檢驗(yàn)
2.各題目之間及與總分之間的相關(guān)性分析
題目之間的相關(guān)性分析對(duì)檢測試題的效度非常重要。運(yùn)用SPSS17.0對(duì)綜合英語期末考試各題目之間以及各題目與總分之間進(jìn)行相關(guān)性分析,其結(jié)果如表4所示。
表4 各題目之間及與總分之間的相關(guān)性分析
注:**在0.01水平上顯著相關(guān),*在0.05水平上顯著相關(guān)。
從表4可以看出,試題的各題目之間體現(xiàn)了一定的相關(guān)性。其中第二大題完形填空與其他各大題之間呈顯著相關(guān),與第一大題詞匯語法的相關(guān)系數(shù)最高,達(dá)到了0.359。第四大題翻譯與其他各題目之間也呈顯著相關(guān),與第五大題句子釋義的相關(guān)系數(shù)最高,達(dá)到了0.380。第一大題語法詞匯、第三大題閱讀理解、第五大題句子釋義分別和第六大題寫作的相關(guān)性相對(duì)較弱,尤其是句子釋義與作文之間的相關(guān)系數(shù)僅為0.044。這表明作文考查的語言能力與語法詞匯、閱讀理解和句子釋義考查的語言能力是大不相同的。所有大題與總分之間均呈現(xiàn)出了非常明顯的相關(guān),其中詞匯語法與總分的相關(guān)系數(shù)最大,相關(guān)性最為明顯,達(dá)到了0.800。Alderson 等曾表示因?yàn)榭偡质菍?duì)語言能力的綜合測量,根據(jù)經(jīng)典測量理論,子項(xiàng)目和總分的相關(guān)值可被預(yù)期達(dá)到0.7或者更高[13]。這表明在這六大道題目中,語法詞匯對(duì)總分的解釋能力是最強(qiáng)的,而其他題目與總分間的相關(guān)系數(shù)均未達(dá)到0.7,解釋能力最弱的則是作文部分,其與總分的相關(guān)系數(shù)為0.305。這樣的結(jié)果可能是因?yàn)檎Z法詞匯部分在試卷中所占的比例最大(30%),而且大部分的詞匯語法題都是源自課本和練習(xí)冊(cè),考生在這類題型上表現(xiàn)的能力就較強(qiáng)些。作文所占的比例雖然不是最小,但是由于作文考查到了語言知識(shí)的詞、句、段落、篇章各個(gè)層面的知識(shí),而且話題源自課外,所以考生在這部分上的表現(xiàn)也相對(duì)差些。
綜上,從題目之間的相關(guān)性和題目與總分的相關(guān)性來看,綜合英語期末考試試卷的內(nèi)部結(jié)構(gòu)一致性較理想,但仍然有待提高。
3.綜合英語期末考試的因子分析
從統(tǒng)計(jì)學(xué)的角度看因子分析的目的是尋求變量基本結(jié)構(gòu)、對(duì)變量進(jìn)行分類、簡化觀測數(shù)據(jù)、用少數(shù)的變量解釋研究復(fù)雜的問題。因子分析的基本原理是用少數(shù)幾個(gè)抽象的因子,去描述多個(gè)指標(biāo)或者因素(原變量)之間的聯(lián)系,將相互之間關(guān)系比較密切的變量歸為同一個(gè)類別之中,每一類變量就變成了一個(gè)因子。進(jìn)行因子分析的前提是原變量內(nèi)部一致性高、原有變量存在較強(qiáng)的相關(guān)關(guān)系。在對(duì)綜合英語期末考試進(jìn)行了相關(guān)性分析后,已經(jīng)發(fā)現(xiàn)了各大題間存在較強(qiáng)的相關(guān)關(guān)系,再對(duì)其進(jìn)行因子分析,能幫助進(jìn)一步弄清楚各題之間的聯(lián)系,了解試題究竟檢測了考生哪些方面的語言技能。
從表5能看出,KMO檢驗(yàn)的系數(shù)為0.719>0.6,Bartlett球形檢驗(yàn)的卡方值為133.444,P=0.000<0.001,滿足因子分析的前提條件。
表5 KMO和Bartlett球形檢驗(yàn)
從表6可以看出,所有6個(gè)原始變量中,作文的共同度最高,為0.881,提取的因子解釋了原有變量方差的大部分,超過80%,信息缺失少。其它5個(gè)原有變量中,語法詞匯和翻譯的共同度超過了0.5,提取的因子解釋了原有變量方差的一半,信息缺失較多。完形填空、閱讀理解和句子釋義的共同度則低于0.5,提取的因子解釋了原有變量方差的小部分,低于50%,信息缺失量很大。
表6 公因子方差
表7顯示,6個(gè)因子中特征值大于1的因子有兩個(gè),特征值為2.193和1.029。這兩個(gè)因子能解釋的方差百分比是36.557%和17.142%,一共能解釋6個(gè)變量中53.699%的方差。
表7 解釋的總方差
從表8可以看出,主成分分析法提取了兩個(gè)主要因子,其中因子1在語法詞匯、完形填空、翻譯和句子釋義四個(gè)部分的負(fù)荷都高于0.6,可以把它看作是語法詞匯知識(shí)以及其在句子和語篇中的運(yùn)用能力。因子2在作文部分的負(fù)荷較大,為0.888,因此可以把因子2確定為寫作能力。這表明目前的綜合英語期末考試的構(gòu)念主要包括兩個(gè)因子:語法詞匯知識(shí)以及其在句子與語篇中的運(yùn)用能力和寫作能力。這與英語專業(yè)教學(xué)大綱以及英語專業(yè)四級(jí)考試大綱中的要求一致。但是大綱中要求的閱讀能力并沒有得到充分體現(xiàn),且總分中有約46%的方差沒有被提取的公因子所解釋,考試的分?jǐn)?shù)中存在構(gòu)念表現(xiàn)不足的現(xiàn)象。
表8 被提取的因子成分矩陣
綜合英語期末測試是英語專業(yè)學(xué)生學(xué)習(xí)過程中必不可少的一部分。從上述分析來看,綜合英語期末考試的表面效度較高,內(nèi)容效度和構(gòu)念效度則都呈現(xiàn)出不足,有待改善。在與筆者訪談的過程中,任課教師和被試對(duì)綜合英語期末考試提出了自己的看法。譬如,一些被試的學(xué)生認(rèn)為,翻譯與句子釋義題沒有什么技術(shù)含量;考查語法詞匯基礎(chǔ)知識(shí)的方式很單調(diào)等等。那么如何才能提高綜合英語成績測試的效度呢?筆者以為以下幾點(diǎn)尤其重要。第一,試題設(shè)計(jì)者應(yīng)該非常熟悉英語專業(yè)綜合英語教學(xué)大綱和測試大綱,切實(shí)弄清楚測試的目標(biāo)究竟是測試分割開的獨(dú)立的語言技能還是在培養(yǎng)學(xué)生的綜合能力;第二,施教者和設(shè)計(jì)者對(duì)測試的理論要非常了解,能夠選擇正確的測試方式和題型去實(shí)現(xiàn)對(duì)目標(biāo)的測試;第三,英語專業(yè)基礎(chǔ)階段的學(xué)習(xí)要擺脫專業(yè)四級(jí)水平測試的束縛,要培養(yǎng)學(xué)生外語技能也要鼓勵(lì)學(xué)生學(xué)習(xí)多領(lǐng)域內(nèi)的專業(yè)知識(shí);第四,綜合英語期末考試的內(nèi)容和形式上不能老是遵循過去的老模式,或者直接從已有的題庫中抽取現(xiàn)題,一定要結(jié)合教學(xué)實(shí)際不斷創(chuàng)新。
[1] 劉潤清,韓寶成.外語測試和它的方法[M].北京:外語教學(xué)與研究出版社,2000.
[2] Henning G.A Guide to Language Testing Development Evaluation and Research[M].Beijing:Foreign Language Teaching and Research Press,2001.
[3] 錢冬梅.淺談綜合英語成績測試中的效度及存在問題[J].國外外語教學(xué),2004,(3):8-12.
[4] 高等學(xué)校外語專業(yè)教學(xué)指導(dǎo)委員會(huì)英語組.高等學(xué)校英語專業(yè)英語教學(xué)大綱[M].北京:外語教學(xué)與研究出版社,2000;上海:上海外語教育出版社,2000.
[5] 韓寶成,羅凱洲.語言測試效度及其驗(yàn)證模式的嬗變[J].外語教學(xué)與研究(外國語文雙月刊),2013,(5):411-425.
[6] Lado,R.Language Testing[M].London:Longman,1961.
[7] Heaton,J.Writing English Language Test [M].London:Longman,1975.
[8] Messick,S.The Once and future issue of validity:Assessing the meaning and consequence of measurement [C]//In H.Wainer & H.Braun (eds.).Test Validity .Hillsdale,N.J.:Lawrence Erlbaum,1988:33-45.
[9] Bachman,L.& S.Palmer.Language Testing in Practice[M].Oxford:Oxford University Press,1996.
[10] Richards.Longman Dictionary of Language Teaching and Applied Linguistics[M].Beijing:Foreign Language Teaching and Research Press,2002.
[11] Hughes,A.Testing for Language Teachers[M].Cambridge:Cambridge University Press,1989.
[12] Messick,S.Validity[C]//In R.Linn(ed.).Educational Measurement(3rd edition).Washington,D.C.:American Council on Education,1989:13-103.
[13] Alderson,J.C.Language Test Construction and Evaluation[M].Cambridge:Cambridge University Press,1995.
[責(zé)任編輯:寸曉非]
2014-04-11
廣東外語外貿(mào)大學(xué)南國商學(xué)院教改項(xiàng)目:對(duì)南國商學(xué)院英語專業(yè)綜合英語期末考試效度的調(diào)查與反思
陳玉蓮 (1982-),女,重慶人,廣東外語外貿(mào)大學(xué)南國商學(xué)院英語語言文化系講師,碩士。
G642.474
A
1008-4657(2014)03-0083-05