王占禮
(青島遠(yuǎn)洋船員職業(yè)學(xué)院 中遠(yuǎn)英語考試中心,山東 青島 266071)
?
船員英語水平測(cè)試(SEPT)因子結(jié)構(gòu)分析
王占禮
(青島遠(yuǎn)洋船員職業(yè)學(xué)院 中遠(yuǎn)英語考試中心,山東 青島266071)
通過驗(yàn)證性因子分析和模型擬合揭示了船員英語水平測(cè)試(SEPT,Seafarers English Proficiency Test)考試的因子結(jié)構(gòu)為一高階因子模型:兩個(gè)一階因子(一個(gè)為口語因子,另外一個(gè)為聽力、閱讀、翻譯混合因子)和一個(gè)綜合專業(yè)英語能力高階因子。據(jù)此,對(duì)改進(jìn)試卷構(gòu)念效度提出了建議。從海事英語角度,為外語能力結(jié)構(gòu)多成分觀提供了實(shí)證,并指出盡管職業(yè)外語能力結(jié)構(gòu)與一般目的外語能力結(jié)構(gòu)都具有多成分性,但是各自的構(gòu)成因職業(yè)特點(diǎn)和教學(xué)實(shí)踐差異有可能不同。
船員英語水平測(cè)試;因子結(jié)構(gòu);構(gòu)念效度;多成分性;海事英語
應(yīng)用語言學(xué)界經(jīng)過多年的紛爭(zhēng)摒棄了Oller語言能力單一特征(unitary trait hypothesis)的觀點(diǎn),認(rèn)為語言能力是多成分的(multi-componential)[1-2]?,F(xiàn)在語言測(cè)試界的共識(shí)是第二語言能力結(jié)構(gòu)為多成分構(gòu)成,包括一個(gè)高階總括因子和一些低階群組因子。這一共識(shí)奠定了各語言測(cè)試機(jī)構(gòu)進(jìn)行試卷結(jié)構(gòu)設(shè)計(jì)的理論基礎(chǔ)。換言之,這一理論決定了語言考試考什么和如何考。事實(shí)上,基于這種語言能力模型的各種測(cè)試也為該理論提供了佐證。劍橋ESOL考試認(rèn)為語言能力為語言使用者綜合交際能力,這種能力可以再分為多種技能和微技能,既然每種技能發(fā)展程度或速度不同,那么這些技能可以獨(dú)立識(shí)別或測(cè)量。因此,其測(cè)試一般采用四種單獨(dú)的試卷,測(cè)試四種主要技能:聽力、閱讀、口語和寫作。Geranpayeh[3]使用結(jié)構(gòu)方程模型對(duì)劍橋ESOL考試構(gòu)念效度進(jìn)行了實(shí)證研究,為ESOL考試試卷結(jié)構(gòu)設(shè)計(jì)提供了效度依據(jù)。Sawakiet al[4]和Stricker&Rock[5]采用驗(yàn)證性因子分析為美國教育考試中心(ETS)托福網(wǎng)上考試構(gòu)念模型的構(gòu)念效度提供了佐證。他們的研究表明:托福網(wǎng)上考試的最佳模型為一個(gè)高階因子模型——由總括因子(EFL能力因子)和四個(gè)一階因子組成,它們分別是閱讀、聽力、口語和寫作。換言之,對(duì)于四種語言微技能而言,有些語言能力方面是共有的,有些確實(shí)為獨(dú)有的。這個(gè)結(jié)果為該考試分?jǐn)?shù)報(bào)告與使用提供了效度依據(jù)。
SEPT[6]即是基于語言能力為多成分結(jié)構(gòu)的理論并結(jié)合船員使用英語情景設(shè)立了聽力、口語和筆試三種試卷測(cè)量船員綜合專業(yè)英語能力。因此,SEPT考試預(yù)期構(gòu)念應(yīng)為聽力、口語、筆試三個(gè)一階因子和一個(gè)綜合專業(yè)英語能力高階因子。但是,SEPT考試是否對(duì)這種預(yù)期構(gòu)念進(jìn)行了測(cè)量,還未曾有研究。本研究即是為此目的對(duì)SEPT考試的構(gòu)念效度進(jìn)行的實(shí)證分析,以期對(duì)現(xiàn)行SEPT考試改革提供理論依據(jù)和建議,并為外語能力多成分理論從職業(yè)英語角度提供佐證。
1.數(shù)據(jù)收集與檢驗(yàn)
研究數(shù)據(jù)來自SEPT輪機(jī)英語4級(jí)卷2013和2014年兩次考試。共收集1103個(gè)被試有效數(shù)據(jù)。其中2013年度498個(gè)被試成績用作探索性因子分析,2014年605個(gè)被試成績用作驗(yàn)證性因子分析和模型擬合。SEPT考試筆試、聽力、口語卷各有三部分組成,每部分由不同數(shù)量的題目組成。在分析中將三種試卷的各部分視為一個(gè)觀測(cè)變量,各部分題目得分總計(jì)作為相應(yīng)的變量值。如表1所示共計(jì)9個(gè)變量。
表1 試卷構(gòu)成與變量
使用LISREL8.7對(duì)9個(gè)變量進(jìn)行數(shù)據(jù)檢查(data screening)未發(fā)現(xiàn)特異值(outlier),單元正態(tài)檢驗(yàn)(Univariate Normality Test) 符合正態(tài)分布,但多元正態(tài)檢驗(yàn)(Multivariate Normality Test)偏離正態(tài)分布??紤]到樣本數(shù)不足數(shù)千,在模型擬合等分析中均采用最大擬然法(maximum likelihood)對(duì)參數(shù)進(jìn)行估計(jì)[7]。
2.研究步驟
數(shù)據(jù)收集、檢驗(yàn)后,首先使用SPSS 15.0對(duì)數(shù)據(jù)進(jìn)行探索性因子分析,考慮到SEPT考試各因子之間相關(guān),在進(jìn)行探索性因子分析時(shí)采用了主成分分析法。提取因子的標(biāo)準(zhǔn)為特征值(Eigenvalue)不小于1。然后使用LISREL8.70對(duì)參加2014年考試的605個(gè)被試成績用于驗(yàn)證性因子分析,并通過對(duì)SEPT考試構(gòu)念幾種可能的模型進(jìn)行擬合篩選,確定SEPT考試的因子結(jié)構(gòu)。根據(jù)SEPT考試的因子結(jié)構(gòu)對(duì)該考試的構(gòu)念效度進(jìn)行分析,提出改善構(gòu)念效度的途徑。
1.探索性因子分析
在進(jìn)行探索性因子分析前使用SPSS 15.0對(duì)數(shù)據(jù)進(jìn)行KMO和Bartlett球形檢驗(yàn),P值為0.000,KMO值為0.81,表明樣本滿足進(jìn)行因子分析的要求。從因子結(jié)構(gòu)矩陣(見表2)可以看出,探索性因子分析共抽取兩個(gè)因子。根據(jù)各變量在兩個(gè)因子上的因子載荷可以將9個(gè)觀測(cè)變量歸并成兩個(gè)因子,即筆試(筆試1、筆試2、筆試3)、聽力(聽力1、聽力2、聽力3)和口語3混合因子和口語因子(口語1、口語3)。考慮到“口語3”為聽力和口語混合模式,其聽力模式也許決定了它的因子歸屬。換言之,聽力因子是引起被試“口語3”成績變異的主要來源。進(jìn)而可以推斷“口語3”并未按預(yù)期測(cè)量了其目標(biāo)測(cè)量模式——口語,而是主要測(cè)量了聽力。將“口語3”歸并為“聽力”,以上兩因子簡化為:筆試、聽力混合因子和口語因子。但是,從認(rèn)知學(xué)的角度,很難認(rèn)可語言能力中包含了一個(gè)“筆試”因子,畢竟“筆試”只是一種考試形式?!伴喿x1”——“單選題”部分均以不完整句子的形式出現(xiàn),要求被試在完全理解句子意義的前提下完成句子,從符號(hào)學(xué)角度看,這一部分與“筆試2”——“(段落)閱讀理解”都屬于視覺符號(hào)類,因此,把“筆試1”和“筆試2”合并為“閱讀”,這樣上述兩因子可以表述為:閱讀、翻譯、聽力混合因子和口語因子。因此,我們從探索性因子分析結(jié)果推斷,SEPT考試因子結(jié)構(gòu)為兩因子結(jié)構(gòu),即閱讀、翻譯、聽力混合因子和口語因子。驗(yàn)證性因子分析為此進(jìn)一步提供了佐證。
表2 因子結(jié)構(gòu)矩陣(Structure Matrix)
2.模型擬合和評(píng)價(jià)
盡管語言測(cè)試界普遍認(rèn)同外語(第二語言)能力結(jié)構(gòu)為多成分(componentiality)的觀點(diǎn),但是學(xué)者對(duì)各種考試的研究所提出的因子結(jié)構(gòu)卻不盡相同。如Bachman & Palmer[8]和Kunnan[9]的研究發(fā)現(xiàn)了一組相關(guān)一階因子,而其他一些學(xué)者的研究還同時(shí)發(fā)現(xiàn)了高階總括因子,如Bachman & Palmer[10],Carroll[11]等。筆者根據(jù)探索性因子分析的結(jié)果,結(jié)合上述學(xué)者所揭示的因子結(jié)構(gòu),提出SEPT考試7種最有可能的因子結(jié)構(gòu)模型(見表3)。
表3 SEPT模型
口語第三部分問答題為聽、說混合模式(multi-modal),模型6a將該部分歸于聽力(探索性因子分析結(jié)果),模型6b將該部分歸于口語(預(yù)期構(gòu)念)。
筆者使用LISREL8.7對(duì)參加2014年考試的605個(gè)被試成績用于上述假設(shè)模型的擬合分析,同時(shí)對(duì)探索性因子分析中抽取的因子結(jié)構(gòu)(模型6a)進(jìn)行驗(yàn)證性因子分析,結(jié)果如表4。
表4 各假設(shè)模型擬合優(yōu)度檢驗(yàn)
注:df——自由度(Degrees of Freedom);χ2——卡方(Minimum Fit Function Chi-Square);RMSEA——近似誤差平方根(Root Mean Square Error of Approximation);NNFI——非正態(tài)擬合優(yōu)度指數(shù)(Non-Normed Fit Index);CFI——比較優(yōu)度指數(shù)(Comparative Fit Index);GFI——擬合優(yōu)度指數(shù)(Goodness of Fit Index)
根據(jù)Loehlin[12]對(duì)各種擬合指數(shù)的概述,結(jié)構(gòu)方程模型的擬合指數(shù)采用了如下標(biāo)準(zhǔn):α水平0.05;GFI、NNFI和CFI大于等于0.9;RMSEA小于等于0.08;卡方/自由度大于2小于5。如果多個(gè)模型符合上述標(biāo)準(zhǔn),則比較其χ2/df值, χ2/df值最小者為最簡約模型。顯然根據(jù)這個(gè)標(biāo)準(zhǔn),模型6a為最佳模型(見圖1)。按照我們的考試構(gòu)念設(shè)計(jì),模型2應(yīng)該是我們最希望的因子模型。如果僅從擬合優(yōu)度指數(shù)判斷,模型2勉強(qiáng)可以接受。但是聽力和閱讀/翻譯兩因子之間的相關(guān)度太高(0.91),說明這兩個(gè)因子完全可以合并,因此,該模型不可取。事實(shí)上,模型6b擬合優(yōu)度僅次于模型6a。模型6a和模型6b的區(qū)別在于將口語部分中的問答題歸于聽力和口語兩個(gè)不同的測(cè)量目標(biāo)模塊。根據(jù)SEPT考試大綱要求,盡管該部分要求被試在回答問題前需聽懂問題,但其目的是測(cè)量被試的口語能力。換言之,被試具備聽懂問題的聽力水平是正確回答問題的前提,但不是測(cè)量的目標(biāo),因此模型6b與SEPT考試口語測(cè)量目標(biāo)一致。但是,根據(jù)實(shí)測(cè)數(shù)據(jù)進(jìn)行模型擬合(見表4),將問答題部分歸于聽力更符合考試實(shí)際情況(見圖1模型6a)。顯然這與預(yù)想考試構(gòu)念不符。換言之,SEPT考試未能較好地測(cè)量預(yù)期構(gòu)念。
圖1 兩因子模型(6a)路徑圖
從圖1可以看出,兩因子之間存在較強(qiáng)相關(guān),應(yīng)該共有一個(gè)高階因子,即綜合專業(yè)英語能力因子。因此,SEPT考試因子結(jié)構(gòu)應(yīng)為:兩個(gè)一階因子,即閱讀、翻譯、聽力混合因子和口語因子;一個(gè)高階因子,即綜合專業(yè)英語能力因子。這為SEPT考試不同卷別單獨(dú)計(jì)分和綜合計(jì)分報(bào)告成績提供了效度依據(jù)。輪機(jī)專業(yè)英語是不同母語的輪機(jī)員在船、岸和船員之間進(jìn)行業(yè)務(wù)交流的工作語言,是一種典型的職業(yè)外語。由上可見,有證據(jù)顯示職業(yè)外語能力結(jié)構(gòu)也由多成分構(gòu)成,這也進(jìn)一步從職業(yè)外語角度為外語能力多成分觀提供了實(shí)證。
3.問題與建議
(1)聽力、閱讀和翻譯未能如期成為相互獨(dú)立的因子
被試聽力、閱讀和翻譯未能顯示出相互獨(dú)立性,說明他們受到同一潛變量或潛因子的影響。這個(gè)潛因子可能是被試在進(jìn)行語音、視覺符號(hào)解碼、雙語互動(dòng)等語言活動(dòng)時(shí)所調(diào)用的特定的語言認(rèn)知能力——學(xué)者對(duì)這種能力的定義和種類劃分還未達(dá)成共識(shí)[13]。這個(gè)潛因子也許與被試的專業(yè)知識(shí)有關(guān)。Alderson &Urguhart[14]以及王占禮、吳萬千[15]研究表明被試專業(yè)背景知識(shí)對(duì)其專業(yè)英語成績有影響。建議對(duì)聽力選項(xiàng)長度、詞匯、句式難度降低以減少被試閱讀能力不同對(duì)聽力成績的影響,以改善聽力因子與閱讀能力因子的區(qū)分效度。
(2)混合模式考題問題
口語試卷第三部分為聽力和口語混合模式,建議降低該部分聽力難度,最大限度地減少被試聽力水平對(duì)口語成績的影響,以真正對(duì)目標(biāo)模式(口語)進(jìn)行測(cè)量。可以通過文字、圖、表、動(dòng)畫等輔助手段提供問題背景,使問題更具體、真實(shí),更切合工作實(shí)際,讓被試更容易理解問題內(nèi)容。對(duì)英語水平差異大的船員開展自適應(yīng)考試是SEPT考試改革的一個(gè)方向。
(3)朗讀與敘述題目的取舍
兩部分考試相關(guān)性太強(qiáng)(從圖1路徑圖上可以得出兩部分的相關(guān)系數(shù)為0.85×0.91=0.77),是否去除朗讀值得研究。這兩部分區(qū)分效度太低,是否與評(píng)分員評(píng)分時(shí)過度注意語言因素(語音、語調(diào)、連貫等)而忽略了對(duì)專業(yè)內(nèi)容的考查有關(guān),值得進(jìn)一步探討。
(4)口語能力獨(dú)立于其他英語微技能
口語與其他英語微技能相對(duì)獨(dú)立。這可能與輪機(jī)英語教學(xué)對(duì)口語重視程度不夠或效果不好有關(guān),也可能與被試特定職業(yè)的工作、生活環(huán)境有關(guān)。王占禮和張紅梅[16]認(rèn)為船員封閉的工作、生活環(huán)境引起的心理異化可能會(huì)影響到他們英語各技能的不平衡發(fā)展,從而產(chǎn)生更大的個(gè)體差異。特別是輪機(jī)員,長年在機(jī)器轟鳴的機(jī)艙工作,普遍訥于言語,這可能導(dǎo)致其口語與其他語言微技能相關(guān)度較低,具有較強(qiáng)的獨(dú)立性。因此可以推論盡管職業(yè)外語能力結(jié)構(gòu)與一般目的外語能力結(jié)構(gòu)都具有多成分性,但是各自結(jié)構(gòu)的構(gòu)成,如構(gòu)成成分(微技能等)及各成分之間的相關(guān)性,因職業(yè)特點(diǎn)和教學(xué)實(shí)踐差異有可能不同。換言之,職業(yè)特點(diǎn)和教學(xué)實(shí)踐是影響職業(yè)外語能力結(jié)構(gòu)的重要因素。
從上可見,SPET考試的因子結(jié)構(gòu)為一高階因子模型,由兩個(gè)一階因子,即口語因子和閱讀、翻譯、聽力混合因子和一個(gè)綜合專業(yè)英語高階因子組成。這也為外語能力多成分觀進(jìn)一步提供了證據(jù)。SEPT現(xiàn)行各卷單獨(dú)計(jì)分報(bào)告成績可行,但應(yīng)改善聽力與閱讀的區(qū)分效度,建議同時(shí)將三門考試成績累計(jì)總分報(bào)告綜合成績。職業(yè)外語能力結(jié)構(gòu)與一般目的外語能力結(jié)構(gòu)同樣具有多成分性,在總括能力下可以再分為相互關(guān)聯(lián)的“微技能”,但是各自結(jié)構(gòu)的構(gòu)成因職業(yè)特點(diǎn)和教學(xué)實(shí)踐差異有可能不同。換言之,職業(yè)特點(diǎn)和教學(xué)實(shí)踐是影響職業(yè)外語能力結(jié)構(gòu)的重要因素。因此,職業(yè)外語考試應(yīng)根據(jù)職業(yè)特點(diǎn)設(shè)計(jì)試題結(jié)構(gòu)、形式,并對(duì)教學(xué)實(shí)踐提供反饋和引導(dǎo)以改善職業(yè)外語使用者的外語能力結(jié)構(gòu)。
[1] BACHMAN, L F,DAVIDSON, F,RYAN, K.,CHOI, I. C. An Investigation into the Comparability of Two Tests of English as a Foreign Language: The Cambridge -TOEFL Comparability Study [M]. Cambridge: UCLES & CUP, 1995.
[2] CARROLL, J. B. Human Cognitive Abilities: A Survey of Factor—analytic Studies [M]. Cambridge: CUP, 1993.
[3] GERANPAYEH, A. Using structural equation modeling
to facilitate the revision of high stakes testing: the case of CAE [J].Cambridge ESOL Research Notes,2007 (30):8-12.
[4] SAWAKI, Y, STRICKER, L,ORANJE, A. Factor structure of the TOEFL Internet-based test (iBT): Exploration in a field trial sample. (TOEFL iBT Research Report No. TOEFLiBT-04) [EB/OL].[2014-12-11] http://www.ets.org/Media/Research/pdf/RR-08-09.pdf
[5] STRICKER, L J ,ROCK, D. A. Factor structure of the GRE general test for older examinees: implications for construct validity (GREB No. 83-10R) [EB/OL].[2014-12-11]http://www.ets.org/research/policy_research_reports/publications/report/1985/hwjc.
[6] 王占禮,張紅梅.SPET口試方案設(shè)計(jì)[J].外語電化教學(xué), 2005(2): 72-76.
[7] HU L, BENTLERP. M., KANO Y. Can test statistics in covariance structure analysis be trusted? [J]. Psychological bulletin, 1992, (112):351-362.
[8] BACHMAN, L F, PALMER, A. The construct validation of the FSI oral interview [J]. Language Learning, 1981, (31): 67-86.
[9] KUNNAN, A. J. Test Taker Characteristics and Test Performance: A Structural Modeling Approach [M]. Cambridge: CUP, 1995.
[10] BACHMAN, L F, PALMER, A. The construct validation of some components of communicative proficiency [J]. TESOL Quarterly, 1982 (16):449-465.
[11] CARROLL, J. B. Psychometric theory and language testing [A]. In J. W. Oller, Jr. (ed.), Issues in Language Testing Research[C]. Rowley, MA: Newbury House, 1983. 80-107.
[12] LOHELIN. J. C. Latent Variable Models: An Introduction to Factor, Path, and Structural Equation Analysis (4th ed) [M]. London: Lawrence Erlbaum Associates, 2004.
[13] ALDERSON, J. C. & LUKMANI,Y. Cognition and reading: Cognitive levels as embodied in test questions [J]. Reading in a Foreign Lan guage, 1989 (5):253-270.
[14] ALDERSON, J. C, URQUHART, A. H. The effect of students’ academic discipline on their performance on ESP reading tests [J]. Language Testing, 1985 (2):192-204.
[15] 王占禮,吳萬千.全國海船船員輪級(jí)英語成績成因分析[J].青島遠(yuǎn)洋船員學(xué)院學(xué)報(bào), 2004b,(3):30-36.
[16] 王占禮,張紅梅.航海英語聽力、口語、閱讀相關(guān)分析[J].青島遠(yuǎn)洋船員學(xué)院學(xué)報(bào), 2004a,(2):58-61.
2016-03-09
王占禮(1965-),男,副教授,主要從事船員英語測(cè)試與評(píng)估研究。
U676.2
A
1006-8724(2016)03-0013-04