張春青
摘 要:近十年來,構念效度驗證理論和實踐在我國有較大發(fā)展,如量化構念效化驗證和質性構念效化驗證研究等。就語言測試領域最新發(fā)展情況看,國內研究在構念效度驗證方面還存在很多不足,有待測試研究人員進一步論證和發(fā)展。
關鍵詞:構念效度驗證;因子分析;口陳報告
一、構念效度驗證理論
在語言測試中,專業(yè)化和效度研究是現(xiàn)在和未來研究的兩個重點領域(Bachman, 2000)。構念效度研究又處于效度研究的核心地位。構念是測驗所要測量的概念或特性。構念效度是測驗代表語言學習基本理論程度的指標。構念效度驗證研究測試所測量的能力,為測試提供理論基礎。構念效度證據(jù)的來源包括考試內容、反應過程、內部結構、與其他變量之間關系和測驗影響,這反映了從多種渠道積累效度證據(jù)的重要性。效度證據(jù)的不斷積累有益于使用和解釋分數(shù)、完善測驗構念和測驗本身、提出新的研究問題。精心編制的測驗、命題的理論框架、測驗的實施和計分過程、分數(shù)等值、及時糾正測驗過程中的不公平因素等是構念效度得以實現(xiàn)的根本保證。
但是,作為構念效度驗證基礎的構念難以確定(Chapelle et al., 2010),收集的各種證據(jù)也沒有連續(xù)性,基于論證的效度驗證模式(Bachman, 2010)應運而生。在該模式中,測試的發(fā)展形成了一個推論鏈,每一個論證會形成下一個論證的出發(fā)點,第二個論點會成為第三個論點的出發(fā)點,每個論點都要有條件支撐,最后效度驗證研究人員得出效度驗證的結論。在這個連續(xù)統(tǒng)一體中,每一部分都需要收集多種證據(jù),而每一種證據(jù),都會對構念效度產(chǎn)生影響,各種證據(jù)成為了一個整體中的部分。
二、國內的構念效度驗證實踐
1.量化的構念效度驗證研究
量化的構念效度研究主要運用結構方程模型、因子分析、多質多法分析、問卷等工具進行。其中因子分析包括探索性因子分析和驗證性因子分析。
結構方程模型能夠幫助測量構念的解釋力。例如,為計算機自動評分的前期人工評分提供較為精確的“作文內容”分項指標及其評定標準,文秋芳(2007)運用結構方程模型檢驗了限時英語議論文“內容”的構念效度。她發(fā)現(xiàn),代表“內容”構念的四個觀測變量:文章切題性、觀點明確性、說理透徹性與篇章連貫性能夠解釋作文質量56%的差異。運用同樣的過程,高霄(2009)發(fā)現(xiàn),由同樣四項指標反映的“寫作內容”能夠直接解釋“寫作質量”成績變異的46.2%;由流利性、準確性與復雜性反映的“寫作形式”能夠直接解釋“寫作質量”成績變異的39.7%,總和為85.9%,說明“寫作內容”與“寫作形式”能夠有效預測“寫作質量”,這證實了該研究所提出的“寫作質量”構念效度比較好。研究結果對二語寫作評估標準的改進具有一定的啟發(fā)意義。
驗證性因子分析是在已知測試的理論假設的因子構成的情況下,來分析數(shù)據(jù)是否與理論假設的因子結構擬合。例如,鄒申等研究者(2009)發(fā)現(xiàn),英語專業(yè)八級試題中二階單因子模型的擬合數(shù)據(jù)可以用于解釋人文知識項目的構念以及內部各因子間關系:社會文化知識、文學知識和語言學知識反映了人文知識構念;同時,三個因子之間的關聯(lián)也較緊密。因子負荷值也說明這些題目對其相應的因子都有顯著貢獻。也就是說,題目成功測試了考試規(guī)定的知識結構。
多質多法分析旨在確定在多大程度上測試結果是考生的能力所致還是測試方法所致。陳慧麟(2009)通過英語國家概況測試的案例研究,使用多質多法驗證了基于紙筆的測試和基于計算機的測試所考查的構念的對等性。結果表明,純文字的紙筆測試和相應的純文字的基于計算機的測試具有幾乎相同的能力結構。
探索性因子分析一般在未知所測構念因子結構的情況下探索實際數(shù)據(jù)的因子結構。劉國忠和秦曉晴(2010)隨機抽取的英語專業(yè)四個年級320名學生的240篇限時作文,按15個指標評分后,將15個判斷寫作準確性的指標通過探索性因子分析縮減為12個,然后提取了三個主因子,這三個主因子初始特征值都超過了1.0的可接受值,累計方差解釋率達到了71.36%。因此,這12個變量有較好的結構效度。他們得出結論:二語寫作的準確性是可測的。賀莉(2012)結合語言測試的構念效度對測試結果所體現(xiàn)出的性別差異現(xiàn)象進行研究,作者運用了探索性因子分析發(fā)現(xiàn),該測試對于男生概念效度較好,而對女生來說構念效度較差,作者從“構念體現(xiàn)不足”和“構念無關因素”兩個方面對原因進行了解釋。
采用多種問卷調查的方式可以調查在何種程度上考試考查了欲測的構念?;跇嬆钫w觀和建構主義對讀寫構念的描述,張新玲和曾用強(2009)從構念效度入手對讀寫結合寫作任務在廣東省高考英語考試中所得分數(shù)進行效度驗證,運用專家預測、教師備考過程調查和考生應考過程調查,分析考生對考試過程應答數(shù)據(jù)。發(fā)現(xiàn)所取樣本考生的讀寫結合寫作測試應答數(shù)據(jù)和構念理論擬合,相關證據(jù)能夠較充分、適當?shù)刂С只谠摽荚嚪謹?shù)的大學錄取決策。
2.質性構念效度驗證研究
針對構念效度研究的質性研究方法主要集中在專家判斷、口陳報告和語料庫研究。
鄒申等研究者(2009)在研究大學英語專業(yè)八級考試人文知識測試的構念效度時,首先參照《高校英語專業(yè)八級考試大綱》分析了2005年考試中的人文知識題部分的關聯(lián)性和代表性。分析結果表明,該題涉及了社會文化、文學和語言學三個方面??疾閮热菖c大綱有較強的關聯(lián)性。張新玲和曾用強(2009)請25位寫作教育專家做了讀寫任務質量判斷,結果顯示,絕大多數(shù)專家都認為該試題能夠考查學生完成任務所需的元認知和認知能力。
口陳報告是當前構念效度驗證中使用的最廣泛的質性研究方法。高懷勇等研究者(2011)使用口陳法檢驗了PETS的口語評分,研究者讓評分員聽口試現(xiàn)場錄音,聽完錄音后盡可能地說出評分時的真實想法和心理活動,回憶當前考生在內容、語法與詞匯上的表現(xiàn),加以口頭評論。研究者對口頭報告進行錄音,之后進行文字整理和定性分析,看給考生口語的評分是基于構念有關因素還是基于構念無關因素。李紹山和陳曉扣(2006)從考生答題過程的角度對TEM—4完型填空測試進行結構效度研究。學生每做完一題后,立即口頭陳述選擇某一選項的理由。然后研究者分析考生是否通過正確理解短文和四個選項正確地回答了題目,而不是靠猜測正確地回答了題目,從而判斷試題是否考查了打算考查的能力。
潘鳴威和徐欣幸(2010)運用語料庫的分析手段,借助語言測試構念效度的驗證模式,從考生所反映出的問題中研究了上海高考英語測試漢英單句翻譯的構念效度。翻譯測試的構念應包含對語言本身的掌握以及對于源語和目標語之間存在不對應處的切換意識。對于第一點,研究者觀察語言錯誤類型;第二點觀察漢英切換中的漢語冗余信息和漢英不對等性的處理。然后研究者列出了符合高考實際情況的各項驗證指標。據(jù)此研究者提出了三個問題,漢英單句測試考察了什么內容?這些內容與構念的擬合度如何?漢英單句測試的總體構念如何?研究者為此建立了漢英句子翻譯語料庫,通過分析發(fā)現(xiàn),考生在每句話中的出錯點都可以分門別類地劃歸到漢英單句翻譯測試構念的操作定義中去。換言之,高考中漢英單句翻譯測試能較好地擬合衡量翻譯任務所應具備的語言能力和翻譯能力,因此具有較好的構念效度。但是,研究者只注意了一個方面,這類主觀試題最致命的地方在于評分員,如果評分員信度低,那么其效度無論如何也不會高。
三、 結束語
本文僅綜述了國內外語核心期刊上發(fā)表的關于構念效度驗證的文章,沒有涉及已出版的博士論文,所以還很不全面。但是,從現(xiàn)有的文獻來看,我國語言測試學者還和國際語言測試領域構念效度驗證的理論和實踐有一定差距,例如,未見到利用語篇分析來進行構念效度驗證的文章;現(xiàn)有的積累起來的針對某一測試構念效度的證據(jù)太單?。晃匆姷较到y(tǒng)運用“以論證為基礎的效度驗證”理論的文章。在這些方面,國內的測試研究者可以做出自己的貢獻。
參考文獻:
[1] Bachman (2000). Modern language testing at the turn of the century: assuring that what we count counts. Language Testing 17.1: 1- 42.
[2] Bachman (2010). Language Assessment in Practice. Oxford: Oxford University Press.
[3]Chapelle, Enright, Jamieson (2010) Does an Argument-Based Approach to Validity Make a Difference? Educational Measurement: Issues and Practice Spring, 29. 1: 3–13
[4]陳慧麟. 基于紙筆的語言測試和基于計算機的語言測試之間效度對等性驗證模式初探[J].外語界,2009(3).
[5]陳曉扣,李紹山. TEM-4完型填空測試結構效度研究—答題過程分析法[J].現(xiàn)代外語,2006 (1).
[6]高懷勇, 戢煥奇, 劉鋒, 汪定明.基于試題內部結構和評分過程的口試構念效度研究——以PETS四級為例[J]. 山東外語教學, 2011(4).
[7]高霄. 二語寫作質量構念效度的結構方程模型分析[J] . 山東外語教學, 2009(6).
[8]賀莉. 語言測試構念效度的性別差異研究[J] .解放軍外國語學院學報,2012(9).
[9]劉國忠, 秦曉晴. 二語寫作準確性結構效度研究[J] . 外語與外語教學, 2010(2).
[10]潘鳴威, 徐欣幸. 基于語料庫漢英單句翻譯測試的構念效度探究——以全國高考(上海卷)翻譯題為例 [J] . 中小學英語教學與研究, 2010(4).
[11]文秋芳.“作文內容”的構念效度研究——運用結構方程模型軟件AMOS 5的嘗試[J] .外語研究,2007(3).
[12]張新玲, 曾用強. 讀寫結合寫作測試任務在大型考試中的構念效度驗證[J].解放軍外國語學院學報,2009(1).
[13]鄒申, 彭康洲, 孔文. 應用EQS和BILOG分析TEM8人文知識項目的構念效度[J].中國外語, 2009(1).